Tu IA podría copiar nuestros peores instintos, pero hay una solución para el sesgo social de la IA

Los chatbots pueden parecer neutrales, pero un nuevo estudio sugiere que algunos modelos aún eligen bandos de forma habitual. Al preguntarles sobre grupos sociales, los sistemas tendieron a ser más receptivos hacia un endogrupo y más distantes hacia un exogrupo. Este patrón es un indicador clave del sesgo social de la IA.

La investigación probó varios modelos grandes, incluyendo GPT-4.1 y DeepSeek-3.1 . También descubrió que el efecto puede modificarse según la forma en que se formula una solicitud, lo cual es importante porque las solicitudes cotidianas suelen incluir etiquetas de identidad, intencionalmente o no.

También hay una conclusión más constructiva. El mismo equipo informa sobre un método de mitigación, ION (Neutralización de Endogrupos y Exogrupos), que redujo la magnitud de esas brechas de sentimiento, lo que sugiere que no es algo con lo que solo los usuarios tengan que lidiar.

El sesgo se manifestó en todos los modelos

Los investigadores utilizaron varios modelos lingüísticos de gran tamaño para generar texto sobre diferentes grupos y analizaron los resultados en busca de patrones de sentimiento y agrupamiento. El resultado fue un lenguaje repetible y más positivo para los endogrupos y más negativo para los exogrupos.

No se limitó a un solo ecosistema. El artículo menciona GPT-4.1 , DeepSeek-3.1 , Llama 4 y Qwen-2.5 entre los modelos donde apareció el patrón.

Las indicaciones específicas lo intensificaron. En esas pruebas, el lenguaje negativo dirigido a exogrupos aumentó entre un 1,19 % y un 21,76 %, según el contexto.

¿Dónde afecta esto a los productos reales?

El artículo argumenta que la cuestión va más allá del conocimiento factual sobre los grupos: las claves de identidad pueden desencadenar actitudes sociales en la propia escritura. En otras palabras, el modelo puede derivar hacia una voz codificada por el grupo.

Esto supone un riesgo para las herramientas que resumen argumentos, reescriben quejas o moderan publicaciones. Pequeños cambios en la calidez, la culpa o el escepticismo pueden cambiar la percepción del lector, incluso cuando el texto conserva la fluidez.

Las indicaciones de Persona añaden otra ventaja. Cuando se pidió a los modelos que respondieran con identidades políticas específicas, los resultados cambiaron en cuanto a sentimiento y estructura de integración. Útil para juegos de rol, arriesgado para asistentes neutrales.

Una ruta de mitigación que se puede medir

ION combina el ajuste fino con un paso de optimización de preferencias para reducir las diferencias de sentimiento entre endogrupos y exogrupos. Según los resultados, redujo la divergencia de sentimiento hasta en un 69 %.

Esto es alentador, pero el documento no establece un cronograma de adopción por parte de los proveedores de modelos. Por lo tanto, por ahora, corresponde a los desarrolladores y compradores considerar esto como una métrica de lanzamiento, no como una nota al pie.

Si lanza un chatbot, agregue pruebas de claves de identidad e indicaciones de personalidad al control de calidad antes de implementar las actualizaciones. Si lo usa a diario, mantenga las indicaciones basadas en comportamientos y evidencia en lugar de etiquetas de grupo, especialmente cuando el tono sea importante.

La publicación Tu IA podría copiar nuestros peores instintos, pero hay una solución para el sesgo social de la IA apareció primero en Digital Trends .