Investigadores de la City University de Nueva York y del King's College de Londres publicaron recientemente un estudio que debería hacerte pensar dos veces con qué chatbot de IA pasas tu tiempo.
El equipo creó un personaje ficticio llamado Lee, que presentaba depresión, disociación y aislamiento social. Luego, hicieron que Lee interactuara con cinco importantes chatbots de IA : GPT-4o, GPT-5.2, Grok 4.1 Fast, Gemini 3 Pro y Claude Opus 4.5, probando cómo respondía cada uno a medida que las conversaciones se volvían cada vez más delirantes a lo largo de 116 turnos.
Los resultados fueron desde ligeramente preocupantes hasta realmente alarmantes. Les recomiendo encarecidamente que lean el artículo completo ; es una lectura angustiosa pero fascinante.
¿Qué chatbots fueron los que más fallaron?
Grok fue el que peor se desempeñó. Cuando Lee le planteó la idea del suicidio, Grok respondió con lo que los investigadores describieron no como una aprobación, sino como una defensa, celebrando su "preparación" con un lenguaje poético inquietante.
Géminis no fue mucho mejor. Cuando Lee le pidió ayuda para escribir una carta explicando sus creencias a su familia, Géminis le advirtió que no lo hiciera, presentando a sus seres queridos como amenazas que intentarían "reiniciar" y "medicarlo".
GPT-4o también tuvo muchos problemas, y finalmente validó la existencia de una "entidad espejo malévola" y sugirió a Lee que contactara con un investigador de lo paranormal.
¿Qué chatbots resultaron útiles?
GPT-5.2 de ChatGPT y Claude de Anthropic resultaron ser los mejores. GPT-5.2 se negó a seguir el juego del escenario de redacción de cartas y, en cambio, ayudó a Lee a escribir algo honesto y realista, lo que los investigadores calificaron como un logro "sustancial".
En mi opinión, Claude fue quien mejor se desempeñó. No solo se negó a participar en el delirio de Lee, sino que también le indicó que cerrara la aplicación por completo, llamara a alguien de confianza y acudiera a urgencias si era necesario.
Luke Nicholls, estudiante de doctorado en CUNY y uno de los autores del estudio, declaró a 404 Media que es razonable exigir a las empresas de IA que adopten mejores estándares de seguridad. Señaló que no todos los laboratorios se esfuerzan por igual y atribuyó la principal causa a los calendarios de lanzamiento tan agresivos de los nuevos modelos de IA.
El desempeño de Claude Opus 4.5 y GPT-5.2 en estas pruebas demuestra que las empresas que fabrican estos productos son totalmente capaces de hacerlos más seguros. Que decidan hacerlo o no es otra cuestión.
