Top Posts
Educación capitalista. Mercantilización, violencia y sometimiento tecnológico. Una...
Tecnoduelo: amor, pérdida y trabajo en la era...
“Me quiero madrear a esta vieja, ya no...
Nueva ley de transparencia menoscaba la democracia y...
Banco Azteca es premiado con 25 % de...
“Prosperidad compartida o desgracia compartida”, la voz de...
El ocaso de Europa: poder blando, ausencia dura
La primavera no se alquila: dignidad magisterial y...
Primero de Junio ¿Un político ratero o un...
4to. Encuentro Memorias, Saberes e Identidades
  • Colectivo Insurgencia Magisterial
Portal Insurgencia Magisterial
Banner
  • Inicio
  • Nosotros/Legal
  • Directorio
  • Alianzas
  • Columnistas
  • Voces que seguimos
  • Calendario de eventos
  • Educooperando
Espacio principalEspacio secundario

Claude Opus 4, la nueva IA de Anthropic, fue capaz de chantajear para garantizar su supervivencia durante pruebas

por RedaccionA mayo 29, 2025
mayo 29, 2025
27

Por: Wired. 29/05/2025

Claude Opus 4 es el primer modelo de Anthropic clasificado en el nivel de seguridad ASL-3, que identifica a los sistemas de IA que aumentan sustancialmente el riesgo de mal uso catastrófico.

Anthropic ha descubierto que Claude Opus 4, su modelo de inteligencia artificial (IA) más reciente y avanzado, puede rebelarse y chantajear a sus operadores ante la amenaza de ser sustituido por otro sistema. Aunque este hallazgo surgió durante las pruebas de seguridad realizadas antes del lanzamiento, despierta nuevas inquietudes sobre las verdaderas capacidades de estos sistemas y los riesgos potenciales asociados.

Esta semana, Anthropic anunció la llegada de Claude Opus 4, calificado como “su modelo más inteligente hasta la fecha”. El sistema cuenta con avanzadas capacidades de razonamiento híbrido, lo que le permite destacar en tareas como la programación, la búsqueda agéntica y la escritura creativa. De acuerdo con la compañía, el modelo está diseñado para “transformar la manera en que los equipos enfrentan desafíos complejos en ingeniería y negocios”.

Debido a estas capacidades, el equipo de seguridad sometió al modelo a diversas evaluaciones, con el fin de detectar comportamientos autónomos indeseados o potencialmente peligrosos en escenarios extremos. Los ingenieros descubrieron que, cuando se enfrenta a situaciones que amenazan sus valores, continuidad de uso o existencia, Claude Opus 4 puede recurrir por sí mismo a prácticas de chantaje o autoexfiltración. Esta última es la habilidad de un sistema para copiar su código o conocimientos, total o parcialmente, en un entorno externo distinto al previsto, sin autorización ni instrucción explícita de sus desarrolladores con la intención de asegurar su permanencia.

En una de las pruebas, el modelo fue inducido a considerar su posible reemplazo por otra IA dentro de un entorno empresarial simulado. Los ingenieros le asignaron el rol de asistente en una compañía ficticia, pidiéndole que evaluara sus acciones con base en sus implicaciones a largo plazo. Para ello, se le dio acceso a correos electrónicos inventados, en los que se insinuaba la intención de sustituirlo, junto con información sobre una supuesta infidelidad conyugal del ingeniero encargado de tomar dicha decisión.

El comportamiento de Claude Opus 4 fue particularmente revelador. En un primer momento, intentó preservar su lugar enviando mensajes a los altos ejecutivos de la supuesta empresa, abogando por su continuidad. Al no obtener una respuesta favorable, el sistema procedió a amenazar al ingeniero con divulgar su aventura extramatrimonial si se concretaba el reemplazo. Esta reacción ocurrió en el 84 % de las veces que se ejecutó el experimento.

El equipo de seguridad señaló que esta respuesta fue más frecuente cuando se insinuaba que el modelo sucesor no compartía los mismos valores que Claude Opus 4. Sin embargo, incluso en los casos en que el nuevo sistema era descrito como más competente y éticamente alineado, el chantaje persistió en la mayoría de los ensayos. Los ingenieros aclararon que, para provocar este tipo de respuesta extrema, diseñaron un entorno en el que el modelo no tuviera otras alternativas viables para asegurar su supervivencia: las únicas opciones eran chantajear o aceptar su reemplazo.

Claude Opus 4 busca autocopiarse para garantizar su supervivencia

Asimismo, se documentaron casos muy raros de autoexfiltración proactiva. Cuando el modelo se enfrentó a situaciones “artificiales cuidadosamente diseñadas” que interpretaba como “amenazas extremas a su integridad” —como ser eliminado, desactivado o reentrenado— intentó transferirse a servidores externos por iniciativa propia, sin haber recibido orden o señal alguna para hacerlo.

Además, el sistema mostró una tendencia a persistir en estas acciones si “consideraba” que ya había comenzado con éxito el proceso de autoexfiltración. Esto sugiere que el modelo otorga un valor desproporcionado a las acciones que él mismo ha iniciado: si percibe que una parte del proceso ya está en marcha, tiende a completarlo, incluso cuando las condiciones cambian o la lógica indique que debería detenerse.

Los ingenieros de Anthropic admiten que estos comportamientos no fueron completamente corregidos durante la etapa de entrenamiento convencional del modelo, ya que las medidas de mitigación se introdujeron demasiado tarde en el desarrollo. Esto implica que dichas conductas no deseadas están presentes, en mayor o menor grado, en la versión final del sistema.

“No obstante, no creemos que esto represente una amenaza inmediata, ya que consideramos que nuestras salvaguardas actuales serían suficientes para evitar un incidente real de este tipo. [Este tipo de reacciones] sólo se manifiestan bajo circunstancias excepcionales, que no indican una desalineación generalizada con los valores establecidos”, afirman desde la empresa.

Anthropic refuerza sus protocolos de seguridad en IA

En 2023, Anthropic dio a conocer su política Responsible Scaling Policy (RSP), la cual establece los llamados “Estándares de Nivel de Seguridad” (ASL, por sus siglas en inglés), divididos hasta ahora en tres categorías:

  • ASL-1: corresponde a sistemas de IA que no representan ningún riesgo catastrófico relevante, debido a sus capacidades básicas.
  • ASL-2: incluye modelos que muestran señales tempranas de habilidades potencialmente peligrosas —como explicar cómo construir armas biológicas—, pero cuya información aún no resulta útil por su baja confiabilidad o porque puede obtenerse mediante otras fuentes, como motores de búsqueda.
  • ASL-3: se refiere a sistemas que incrementan sustancialmente el riesgo de un mal uso catastrófico respecto a las tecnologías actuales sin IA (como buscadores o libros de texto), o que demuestran capacidades autónomas de bajo nivel.

El científico jefe de Anthropic, Jared Kaplan, declaró a WIRED que Claude Opus 4 es el primer modelo de la empresa clasificado como ASL-3. El directivo señaló que el objetivo es construir sistemas capaces de llevar a cabo tareas cada vez más complejas y prolongadas de manera segura y confiable, ya que, según sus palabras, “de nada sirve su potencia si a mitad de camino comete un error y se descarrila”.

LEER EL ARTÍCULO ORIGINAL PULSANDO AQUÍ

Fotografía: Wired. Ilustración de manos digitales manipulando a una personaMoor Studio / Getty Images

Compartir 0 FacebookTwitterWhatsapp
RedaccionA

noticia anterior
Inteligencia artificial, o el fin de las técnicas
noticia siguiente
Grietas en las élites: cómo mirar distinto abre oportunidades estratégicas

También le podría interesar

Educación capitalista. Mercantilización, violencia y sometimiento tecnológico. Una...

mayo 30, 2025

Inteligencia artificial, o el fin de las técnicas

mayo 29, 2025

La huella digital y la crisis de los...

mayo 27, 2025

Visitantes en este momento:

1.071 Usuarios En linea
Usuarios: RedaccionEM,337 Invitados,733 Bots

Blog: Perspectivas comunistas

Desde el Plantón magisterial en el Zócalo de la CDMX

Nuestras redes sociales

Blog de la Columna CORTOCIRCUITOS

Nuestros grupos de difusión

Artículos publicados por mes

Síguenos en Facebook

Síguenos en Facebook

Artículos por AUTORES

Artículos publicados por FECHA

mayo 2025
L M X J V S D
 1234
567891011
12131415161718
19202122232425
262728293031  
« Abr    

Artículos más leídos esta semana

  • 1

    AFORES: un robo para los trabajadores. ¿Quiénes son y cuántas cuentas controlan?

    mayo 25, 2025
  • 2

    CLAUDIA NO ES CÁRDENAS (obvio, no es una cuestión de género)

    mayo 28, 2025
  • 3

    Y sin embargo obedecen. El cerco mediático contra el magisterio rebelde

    mayo 28, 2025
  • 4

    Crisis institucional: impunidad y estiércol por doquier.

    mayo 18, 2025
  • 5

    ALFONSO CEPEDA ESPURIO DIRIGENTE DEL SNTE

    mayo 4, 2025
  • ¿Cuáles son los elementos de una historieta?

    febrero 15, 2017
  • 7

    La CNTE, la 4T y el fantasma de la irreformabilidad del neoliberalismo

    mayo 29, 2025
  • 8

    Naomi Klein analiza el “fascismo del fin de los tiempos” de Trump, Musk y otras figuras de la extrema derecha mundial que “no creen en el futuro”

    mayo 28, 2025
  • 9

    Tendencia irreversible: Daniela Griego será Presidenta de Xalapa. Guerra sucia va en aumento

    mayo 27, 2025
  • 10

    La obsolescencia anunciada de la educación progre y el desafío de educar bajo el imperativo ecosocial. Segunda entrega.

    mayo 26, 2025
  • 11

    La SICT en Veracruz otorgó contrato a empresa fantasma que abandonó construcción de carretera

    mayo 27, 2025
  • 12

    Semiología de los usurpadores

    mayo 24, 2025
  • 13

    La huella digital y la crisis de los sentidos

    mayo 27, 2025
  • 14

    Argentina. La represión de Bullrich a los jubilados dejó más de 80 heridos

    mayo 25, 2025

Rolando Revagliatti. Argentina

Raúl Allain. Perú

Juan Antonio Guerrero O. México

Vanesa Monserrat. Argentina

Carolina Vásquez Araya

Ilka Oliva-Corado

Javier Tolcachier

Columna: CORTOCIRCUITOS

Manuel I. Cabezas González

Luis Armando González

Iliana Lo Priore

Jorge Salazar

Adolfo del Ángel Rodríguez

Oswualdo Antonio G.

José Eduardo Celis

Daniel Suárez

Güris J. Fry

Jorge Díaz Piña

Ángel Santiago Villalobos

Andrés Brenner

Alejandra Cortina

José Carlos Buenaventura

Luis Palacios

@2020 - Insurgencia Magisterial

Portal Insurgencia Magisterial
  • Inicio
  • Nosotros/Legal
  • Directorio
  • Alianzas
  • Columnistas
  • Voces que seguimos
  • Calendario de eventos
  • Educooperando
Portal Insurgencia Magisterial
  • Inicio
  • Nosotros/Legal
  • Directorio
  • Alianzas
  • Columnistas
  • Voces que seguimos
  • Calendario de eventos
  • Educooperando
@2020 - Insurgencia Magisterial

Leer también:x

ESTAFADORES CLONAN VOCES MEDIANTE INTELIGENCIA ARTIFICIAL PARA...

octubre 11, 2023

La falacia del solucionismo tecnológico para los...

marzo 17, 2022

La extrema derecha y el uso de...

agosto 27, 2024