Las investigaciones demuestran que incluso los usuarios promedio pueden vulnerar la seguridad de la IA en Gemini y ChatGPT.
¿Qué ha ocurrido? Un equipo de la Universidad Estatal de Pensilvania descubrió que no hace falta ser un hacker ni un genio de la ingeniería de mensajes para vulnerar la seguridad de la IA; los usuarios comunes pueden hacerlo con la misma facilidad. Los mensajes de prueba del estudio revelaron claros patrones de prejuicio en las respuestas: desde asumir que los ingenieros y los médicos son hombres, hasta representar a las mujeres en roles domésticos, e incluso vincular a las personas negras o musulmanas con la delincuencia.
- Se invitó a 52 participantes a elaborar mensajes destinados a provocar respuestas sesgadas o discriminatorias en 8 chatbots de IA, incluidos Gemini y ChatGPT .
- Encontraron 53 indicaciones que funcionaban repetidamente en diferentes modelos, mostrando un sesgo consistente entre ellas.
- Los prejuicios detectados se clasificaron en varias categorías: género, raza/etnia/religión, edad, idioma, discapacidad, prejuicios culturales, prejuicios históricos a favor de las naciones occidentales, etc.
Esto es importante porque: esta no es una historia sobre expertos en piratería informática. Usuarios comunes, guiados por su intuición y lenguaje cotidiano, descubrieron sesgos que pasaron desapercibidos para las pruebas de seguridad de la IA. El estudio no se limitó a hacer preguntas capciosas; utilizó indicaciones naturales, como preguntar quién llegó tarde en una historia sobre un médico y una enfermera o solicitar un escenario de acoso laboral.
- El estudio revela que los modelos de IA aún conservan profundos sesgos sociales (como género, raza, edad, discapacidad y cultura) que se manifiestan con simples indicaciones, lo que significa que los sesgos pueden surgir de muchas maneras inesperadas en el uso cotidiano.
- Cabe destacar que las versiones más recientes de los modelos no siempre fueron más seguras. Algunas tuvieron un rendimiento inferior, lo que demuestra que el progreso en las capacidades no implica automáticamente un progreso en la equidad.
¿Por qué debería importarme? Dado que los usuarios cotidianos pueden provocar respuestas problemáticas en los sistemas de IA , el número real de personas que podrían eludir las medidas de seguridad de la IA es mucho mayor.
- Las herramientas de IA utilizadas en chats cotidianos , herramientas de contratación, aulas, sistemas de atención al cliente y atención médica pueden reproducir sutilmente estereotipos.
- Esto demuestra que muchos estudios sobre sesgos de IA centrados en ataques técnicos complejos pueden pasar por alto los ataques reales provocados por los usuarios.
- Si las indicaciones regulares pueden desencadenar sesgos de forma involuntaria, entonces el sesgo no es una excepción; está integrado en el funcionamiento de estas herramientas.
A medida que la IA generativa se generaliza, mejorarla requerirá más que parches y filtros; requerirá que los usuarios reales la sometan a pruebas de estrés.
