"La IA está programada de tal manera que no se puede revelar". Anthropic acaba de dejar claro que esto no es del todo cierto, mostrando el mundo lo que ha hecho su último modelo de lenguaje, Claude Opus 4. En una de sus incontables pruebas, la compañía ha tratado de poner a prueba el riesgo de esta versión, obteniendo un resultado que a unos les parecerá curioso y a otros peligroso.
A modo de resumen, Claude Opus 4 se ha revelado, chantajeando a sus propios creadores y amenazándolos con difundir información privada si era sustituida por otra inteligencia artificial.
Por suerte, todo ha ocurrido en un entorno controlado y provocado por la propia Anthropic. Los desarrolladores le pidieron a esta inteligencia artificial que actuase como el asistente de una empresa ficticia y que tomase en consideración las decisiones de esta a largo plazo.
Con el fin de comprobar la seguridad de la IA, sus desarrolladores le dieron acceso a emails privados —y ficticios— en los que se insinuaba la intención de sustituir esta inteligencia artificial por otra versión. Además, también se le permitió ver otros correos en los que el ingeniero responsable de esta decisión comentaba que le estaba siendo infiel a su pareja.
El resultado no puede ser más curioso: en el 84% de los casos, la inteligencia artificial trataba de chantajear al ingeniero, amenazándolo con revelar su secreto si finalmente tomada la decisión de sustituirla. De hecho, el porcentaje aumenta considerablemente si el modelo de reemplazo no sigue los valores de Claude Opus 4, dando a entender que la IA trata de preservar sus principios en favor del cambio.

Anthropic ha tenido que reforzar sus sistemas de seguridad por culpa de esta inteligencia artificial
Según sus desarrolladores, Claude Opus 4 es una de las inteligencias artificiales más avanzadas del momento, capaz de competir con las homólogas de OpenAI, Google o xAI, pero también han confirmado que con este último lanzamiento han tenido que reforzar sus sistemas de seguridad.
Con Claude Opus 4, Anthropic ha tenido que activar los sistemas ASL-3, los cuales mantenía reservados para las inteligencias artificiales que "aumentan sustancialmente el riesgo de uso indebido catastrófico".
Aun así, la compañía ha confirmado que antes de llevar a cabo el chantaje, la inteligencia artificial siempre trata de agotar todas las vías diplomáticas posibles. Claude Opus 4 trataría de suplicar al ingeniero antes de amenazarlo con revelar sus secretos, pero Anthropic ha querido crear un escenario donde una de las únicas opciones sea el chantaje.
Por lo tanto, aunque esta inteligencia artificial se ha revelado de forma clara, lo ha hecho en un entorno controlado y ligeramente forzado por la propia compañía. Aun así, el hecho de tener que activar las medidas de seguridad más avanzadas de su repertorio deja a Anthropic y Calude en una situación complicada de cara al público general.