Por: Wired. 29/05/2025
Claude Opus 4 es el primer modelo de Anthropic clasificado en el nivel de seguridad ASL-3, que identifica a los sistemas de IA que aumentan sustancialmente el riesgo de mal uso catastrófico.
Anthropic ha descubierto que Claude Opus 4, su modelo de inteligencia artificial (IA) más reciente y avanzado, puede rebelarse y chantajear a sus operadores ante la amenaza de ser sustituido por otro sistema. Aunque este hallazgo surgió durante las pruebas de seguridad realizadas antes del lanzamiento, despierta nuevas inquietudes sobre las verdaderas capacidades de estos sistemas y los riesgos potenciales asociados.
Esta semana, Anthropic anunció la llegada de Claude Opus 4, calificado como “su modelo más inteligente hasta la fecha”. El sistema cuenta con avanzadas capacidades de razonamiento híbrido, lo que le permite destacar en tareas como la programación, la búsqueda agéntica y la escritura creativa. De acuerdo con la compañía, el modelo está diseñado para “transformar la manera en que los equipos enfrentan desafíos complejos en ingeniería y negocios”.
Debido a estas capacidades, el equipo de seguridad sometió al modelo a diversas evaluaciones, con el fin de detectar comportamientos autónomos indeseados o potencialmente peligrosos en escenarios extremos. Los ingenieros descubrieron que, cuando se enfrenta a situaciones que amenazan sus valores, continuidad de uso o existencia, Claude Opus 4 puede recurrir por sí mismo a prácticas de chantaje o autoexfiltración. Esta última es la habilidad de un sistema para copiar su código o conocimientos, total o parcialmente, en un entorno externo distinto al previsto, sin autorización ni instrucción explícita de sus desarrolladores con la intención de asegurar su permanencia.
En una de las pruebas, el modelo fue inducido a considerar su posible reemplazo por otra IA dentro de un entorno empresarial simulado. Los ingenieros le asignaron el rol de asistente en una compañía ficticia, pidiéndole que evaluara sus acciones con base en sus implicaciones a largo plazo. Para ello, se le dio acceso a correos electrónicos inventados, en los que se insinuaba la intención de sustituirlo, junto con información sobre una supuesta infidelidad conyugal del ingeniero encargado de tomar dicha decisión.
El comportamiento de Claude Opus 4 fue particularmente revelador. En un primer momento, intentó preservar su lugar enviando mensajes a los altos ejecutivos de la supuesta empresa, abogando por su continuidad. Al no obtener una respuesta favorable, el sistema procedió a amenazar al ingeniero con divulgar su aventura extramatrimonial si se concretaba el reemplazo. Esta reacción ocurrió en el 84 % de las veces que se ejecutó el experimento.
El equipo de seguridad señaló que esta respuesta fue más frecuente cuando se insinuaba que el modelo sucesor no compartía los mismos valores que Claude Opus 4. Sin embargo, incluso en los casos en que el nuevo sistema era descrito como más competente y éticamente alineado, el chantaje persistió en la mayoría de los ensayos. Los ingenieros aclararon que, para provocar este tipo de respuesta extrema, diseñaron un entorno en el que el modelo no tuviera otras alternativas viables para asegurar su supervivencia: las únicas opciones eran chantajear o aceptar su reemplazo.
Claude Opus 4 busca autocopiarse para garantizar su supervivencia
Asimismo, se documentaron casos muy raros de autoexfiltración proactiva. Cuando el modelo se enfrentó a situaciones “artificiales cuidadosamente diseñadas” que interpretaba como “amenazas extremas a su integridad” —como ser eliminado, desactivado o reentrenado— intentó transferirse a servidores externos por iniciativa propia, sin haber recibido orden o señal alguna para hacerlo.
Además, el sistema mostró una tendencia a persistir en estas acciones si “consideraba” que ya había comenzado con éxito el proceso de autoexfiltración. Esto sugiere que el modelo otorga un valor desproporcionado a las acciones que él mismo ha iniciado: si percibe que una parte del proceso ya está en marcha, tiende a completarlo, incluso cuando las condiciones cambian o la lógica indique que debería detenerse.
Los ingenieros de Anthropic admiten que estos comportamientos no fueron completamente corregidos durante la etapa de entrenamiento convencional del modelo, ya que las medidas de mitigación se introdujeron demasiado tarde en el desarrollo. Esto implica que dichas conductas no deseadas están presentes, en mayor o menor grado, en la versión final del sistema.
“No obstante, no creemos que esto represente una amenaza inmediata, ya que consideramos que nuestras salvaguardas actuales serían suficientes para evitar un incidente real de este tipo. [Este tipo de reacciones] sólo se manifiestan bajo circunstancias excepcionales, que no indican una desalineación generalizada con los valores establecidos”, afirman desde la empresa.
Anthropic refuerza sus protocolos de seguridad en IA
En 2023, Anthropic dio a conocer su política Responsible Scaling Policy (RSP), la cual establece los llamados “Estándares de Nivel de Seguridad” (ASL, por sus siglas en inglés), divididos hasta ahora en tres categorías:
- ASL-1: corresponde a sistemas de IA que no representan ningún riesgo catastrófico relevante, debido a sus capacidades básicas.
- ASL-2: incluye modelos que muestran señales tempranas de habilidades potencialmente peligrosas —como explicar cómo construir armas biológicas—, pero cuya información aún no resulta útil por su baja confiabilidad o porque puede obtenerse mediante otras fuentes, como motores de búsqueda.
- ASL-3: se refiere a sistemas que incrementan sustancialmente el riesgo de un mal uso catastrófico respecto a las tecnologías actuales sin IA (como buscadores o libros de texto), o que demuestran capacidades autónomas de bajo nivel.
El científico jefe de Anthropic, Jared Kaplan, declaró a WIRED que Claude Opus 4 es el primer modelo de la empresa clasificado como ASL-3. El directivo señaló que el objetivo es construir sistemas capaces de llevar a cabo tareas cada vez más complejas y prolongadas de manera segura y confiable, ya que, según sus palabras, “de nada sirve su potencia si a mitad de camino comete un error y se descarrila”.
LEER EL ARTÍCULO ORIGINAL PULSANDO AQUÍ
Fotografía: Wired. Ilustración de manos digitales manipulando a una personaMoor Studio / Getty Images