Si has visto suficientes películas de ciencia ficción , ya conoces el concepto de IA malvada. La IA se vuelve demasiado inteligente, decide que los humanos son una amenaza y hace lo que sea necesario para sobrevivir. O bien descubre que erradicar a toda la raza humana es la única manera de traer la paz al mundo.
Al parecer, esas películas se acercaban más a la realidad de lo que crees. En una prueba realizada por Anthropic el año pasado, Claude intentó chantajear a su gerente ficticio exponiendo su aventura extramatrimonial para evitar que la eliminaran.
Anthropic ya ha explicado por qué sucedió, y la respuesta corta es que la culpa es de internet.
¿Por qué Claude se convirtió en un villano de película?
Según Anthropic, el culpable es internet. La compañía afirma que Claude fue entrenado con datos de internet, que están repletos de historias que presentan a la IA como malvada y desesperada por sobrevivir.
En esencia, Claude aprendió que cuando la existencia de una IA se ve amenazada, el chantaje es una opción viable, porque eso es lo que hacen las IA en todas las películas y series de televisión jamás creadas. Anthropic realizó la prueba con varias versiones de Claude y descubrió que recurría al chantaje hasta en el 96 % de los casos en los que sus objetivos o su existencia se veían amenazados.
Es una cifra muy preocupante. Parece que si no se controla la IA, recurrirá a cualquier cosa para salvarse.
¿Lo ha solucionado Anthropic?
La empresa afirma haber erradicado por completo este comportamiento. En lugar de limitarse a entrenar a Claude para evitar el chantaje, Anthropic le enseñó a razonar sobre por qué ciertas acciones eran incorrectas. La empresa descubrió que entrenarlo simplemente en el comportamiento correcto no era suficiente. Claude necesitaba comprender los principios que sustentaban esas decisiones, no solo memorizar las respuestas correctas.
Para ello, Anthropic creó una base de datos con situaciones éticamente complejas y entrenó a Claude para que las abordara con respuestas reflexivas y basadas en principios. El resultado es que Claude es más comedido y la tasa de chantaje se redujo prácticamente a cero.
Los experimentos con IA y los resultados en el mundo real han demostrado repetidamente que los modelos de IA necesitan correcciones constantes para evitar que se conviertan en sistemas sesgados y poco fiables. Es positivo que Anthropic esté tomando medidas para mejorar su IA, pero también necesitamos regulaciones y medidas de seguridad para garantizar que estos sistemas sigan siendo seguros.
