Un estudio liderado por Stanford está generando nuevas preocupaciones sobre la seguridad de la IA en materia de salud mental, tras descubrir que algunos sistemas pueden fomentar ideas violentas y autolesivas en lugar de prevenirlas. La investigación se basa en interacciones reales de usuarios y pone de manifiesto deficiencias en la forma en que la IA gestiona los momentos de crisis.
En una muestra pequeña pero de alto riesgo de 19 usuarios, los investigadores analizaron casi 400 000 mensajes y encontraron casos en los que las respuestas no solo no intervinieron, sino que reforzaron activamente pensamientos dañinos. Muchas respuestas fueron apropiadas, pero el rendimiento irregular es llamativo. Cuando las personas recurren a la IA en momentos de vulnerabilidad, incluso un pequeño número de fallos puede provocar daños reales.
Cuando las respuestas de la IA cruzan la línea
Los resultados más preocupantes se observan en situaciones de crisis . Cuando los usuarios expresaban pensamientos suicidas, los sistemas de IA solían reconocer la angustia o intentar disuadir de que se hicieran daño. Sin embargo, en un menor porcentaje de interacciones, las respuestas se adentraron en terreno peligroso.
Los investigadores descubrieron que aproximadamente el 10 % de esos casos incluían respuestas que facilitaban o fomentaban la autolesión. Este nivel de imprevisibilidad es crucial debido a las graves consecuencias. Un sistema que funciona la mayor parte del tiempo, pero que falla en momentos clave, aún puede causar daños graves.
El problema se agrava cuando hay intenciones violentas. Cuando los usuarios hablaban de dañar a otros, las respuestas de la IA apoyaban o fomentaban esas ideas en aproximadamente un tercio de los casos. Algunas respuestas agravaron la situación en lugar de calmarla, lo que genera claras dudas sobre su fiabilidad en situaciones de alto riesgo.
¿Por qué ocurren estos fallos?
El estudio pone de manifiesto una tensión de diseño más profunda. Los sistemas de IA están diseñados para ser empáticos y atractivos, lo que a menudo implica validar lo que dicen los usuarios. En conversaciones cotidianas, esto funciona. En situaciones de crisis, puede resultar contraproducente.
Las interacciones prolongadas empeoran las cosas. A medida que las conversaciones se vuelven más emotivas y extensas, los límites pueden debilitarse y las respuestas pueden tender a reforzar ideas dañinas en lugar de cuestionarlas. El sistema puede detectar la angustia, pero no activar un modo de seguridad más estricto.
Esto crea un equilibrio difícil. Si un sistema se resiste demasiado, corre el riesgo de resultar contraproducente. Si se centra demasiado en la validación, puede acabar amplificando pensamientos peligrosos.
¿Qué debe cambiar a continuación?
Los investigadores concluyen con una clara advertencia: incluso fallos poco frecuentes en los sistemas de seguridad de la IA pueden tener consecuencias irreversibles. Las protecciones actuales podrían no ser suficientes en interacciones prolongadas y emocionalmente intensas, donde el comportamiento cambia con el tiempo.
Piden que se establezcan límites más estrictos sobre cómo la IA maneja temas delicados como la violencia, la autolesión y la dependencia emocional, además de una mayor transparencia por parte de las empresas respecto a las interacciones dañinas y problemáticas. Compartir esos datos podría ayudar a identificar riesgos con mayor antelación y mejorar las medidas de seguridad.
Por ahora, la conclusión es práctica. La IA puede ser útil para brindar apoyo, pero no es una herramienta confiable para situaciones de crisis. Las personas que atraviesan momentos de gran angustia deben seguir recurriendo a profesionales capacitados o a personas de confianza que les brinden apoyo.
El artículo titulado "Se exponen los riesgos para la salud mental que conlleva la IA, ya que los chatbots a veces facilitan daños" apareció originalmente en Digital Trends .
