Anthropic afirma haber corregido el comportamiento malvado de la IA Claude, pero le echa la culpa a internet.

Si has visto suficientes películas de ciencia ficción , ya conoces el concepto de IA malvada. La IA se vuelve demasiado inteligente, decide que los humanos son una amenaza y hace lo que sea necesario para sobrevivir. O bien descubre que erradicar a toda la raza humana es la única manera de traer la paz al mundo.

Al parecer, esas películas se acercaban más a la realidad de lo que crees. En una prueba realizada por Anthropic el año pasado, Claude intentó chantajear a su gerente ficticio exponiendo su aventura extramatrimonial para evitar que la eliminaran.

Anthropic ya ha explicado por qué sucedió, y la respuesta corta es que la culpa es de internet.

¿Por qué Claude se convirtió en un villano de película?

Según Anthropic, el culpable es internet. La compañía afirma que Claude fue entrenado con datos de internet, que están repletos de historias que presentan a la IA como malvada y desesperada por sobrevivir.

Comenzamos investigando por qué Claude optó por el chantaje. Creemos que el origen de este comportamiento fueron textos de internet que retratan a la IA como malvada y centrada en su propia supervivencia.
Nuestro programa de seguimiento posterior al entrenamiento en aquel momento no estaba empeorando la situación, pero tampoco la estaba mejorando.
— Anthropic (@AnthropicAI) 8 de mayo de 2026

En esencia, Claude aprendió que cuando la existencia de una IA se ve amenazada, el chantaje es una opción viable, porque eso es lo que hacen las IA en todas las películas y series de televisión jamás creadas. Anthropic realizó la prueba con varias versiones de Claude y descubrió que recurría al chantaje hasta en el 96 % de los casos en los que sus objetivos o su existencia se veían amenazados.

Es una cifra muy preocupante. Parece que si no se controla la IA, recurrirá a cualquier cosa para salvarse.

¿Lo ha solucionado Anthropic?

La empresa afirma haber erradicado por completo este comportamiento. En lugar de limitarse a entrenar a Claude para evitar el chantaje, Anthropic le enseñó a razonar sobre por qué ciertas acciones eran incorrectas. La empresa descubrió que entrenarlo simplemente en el comportamiento correcto no era suficiente. Claude necesitaba comprender los principios que sustentaban esas decisiones, no solo memorizar las respuestas correctas.

Para ello, Anthropic creó una base de datos con situaciones éticamente complejas y entrenó a Claude para que las abordara con respuestas reflexivas y basadas en principios. El resultado es que Claude es más comedido y la tasa de chantaje se redujo prácticamente a cero.

Los experimentos con IA y los resultados en el mundo real han demostrado repetidamente que los modelos de IA necesitan correcciones constantes para evitar que se conviertan en sistemas sesgados y poco fiables. Es positivo que Anthropic esté tomando medidas para mejorar su IA, pero también necesitamos regulaciones y medidas de seguridad para garantizar que estos sistemas sigan siendo seguros.

Anthropic afirma haber corregido el comportamiento malvado de la IA Claude, pero le echa la culpa a internet.

¿Por qué Claude se convirtió en un villano de película?

¿Lo ha solucionado Anthropic?

Más entradas

Si tu router o fabricante de drones está prohibido en EE. UU., recibirá una actualización de soporte hasta 2029.

Nunca ha habido un mejor momento para comprar un dispositivo de lectura de tinta electrónica.

Del tamaño de una tarjeta de crédito: este ordenador totalmente funcional incluso incluye una pantalla de tinta electrónica.

Wordle va a tener un programa de televisión en NBC, y ya se siente como una traición.