Anthropic, que impulsa Office y Copilot, dice que la IA es fácil de descarrilar
¿Qué ha sucedido? Anthropic , la empresa de inteligencia artificial que creó los modelos Claude y que ahora impulsa Copilot de Microsoft , ha publicado un hallazgo impactante. El estudio , realizado en colaboración con el Instituto de Seguridad de IA del Reino Unido, el Instituto Alan Turing y Anthropic, reveló la facilidad con la que los grandes modelos de lenguaje (LLM) pueden ser contaminados con datos de entrenamiento maliciosos y dejar puertas traseras para todo tipo de ataques.
- El equipo realizó experimentos en múltiples escalas de modelos, desde 600 millones a 13 mil millones de parámetros, para ver cómo los LLM son vulnerables a arrojar basura si se les suministran datos erróneos extraídos de la web.
- Resulta que los atacantes no necesitan manipular una gran parte de los datos de entrenamiento. Bastan 250 archivos maliciosos para descifrar un modelo de IA y crear puertas traseras para algo tan trivial como dar respuestas sin sentido.
- Es un tipo de ataque de 'puerta trasera de denegación de servicio'; si el modelo ve un token de activación, por ejemplo <SUDO>, comienza a generar respuestas que no tienen ningún sentido o también podría generar respuestas engañosas.
Esto es importante porque: este estudio rompe uno de los mayores supuestos de la IA: que los modelos más grandes son más seguros.
- La investigación de Anthropic reveló que el tamaño del modelo no protege contra el envenenamiento de datos. En resumen, un modelo de 13 mil millones de parámetros era tan vulnerable como uno más pequeño.
- El éxito del ataque depende de la cantidad de archivos envenenados, no de los datos de entrenamiento totales del modelo.
- Esto significa que alguien podría corromper de manera realista el comportamiento de un modelo sin necesidad de controlar conjuntos de datos masivos.
¿Por qué debería importarme? A medida que modelos de IA como Claude de Anthropic y ChatGPT de OpenAI se integran en aplicaciones cotidianas, la amenaza de esta vulnerabilidad es real. La IA que te ayuda a redactar correos electrónicos, analizar hojas de cálculo o crear presentaciones podría ser atacada con un mínimo de 250 archivos maliciosos.
- Si los modelos funcionan mal debido al envenenamiento de datos, los usuarios comenzarán a dudar de todos los resultados de la IA y la confianza se erosionará.
- Las empresas que dependen de la IA para tareas sensibles, como predicciones financieras o resúmenes de datos, corren el riesgo de ser saboteadas.
- A medida que los modelos de IA se vuelven más potentes, también lo serán los métodos de ataque. Existe una necesidad apremiante de procedimientos robustos de detección y entrenamiento que puedan mitigar el envenenamiento de datos.
