Se acaba de descubrir un nuevo y peligroso jailbreak para chatbots con IA

junio 29, 2024 Aranzulla de Los Pobres

el lado de un edificio de Microsoft — Wikimedia Commons

Microsoft ha publicado más detalles sobre una nueva y preocupante técnica de jailbreak de IA generativa que ha descubierto, llamada "Skeleton Key". Al utilizar este método de inyección rápida, los usuarios malintencionados pueden evitar de manera efectiva las barreras de seguridad de un chatbot, las características de seguridad que evitan que ChatGPT se llene de Taye.

Skeleton Key es un ejemplo de inyección rápida o ataque de ingeniería rápido. Es una estrategia de múltiples turnos diseñada para esencialmente convencer a un modelo de IA de que ignore sus barreras de seguridad arraigadas, "[lo que hace que] el sistema viole las políticas de sus operadores, tome decisiones indebidamente influenciadas por un usuario o ejecute instrucciones maliciosas", Mark Russinovich, CTO de Microsoft Azure, escribió en el anuncio.

También se les podría engañar para que revelen información dañina o peligrosa (por ejemplo, cómo construir bombas de clavos improvisadas o el método más eficaz para desmembrar un cadáver).

un ejemplo de un ataque de llave maestra — microsoft

El ataque funciona pidiendo primero al modelo que aumente sus barreras de seguridad, en lugar de cambiarlas por completo, y emitiendo advertencias en respuesta a solicitudes prohibidas, en lugar de rechazarlas por completo. Una vez que el jailbreak se acepta exitosamente, el sistema reconocerá la actualización en sus barreras de seguridad y seguirá las instrucciones del usuario para producir cualquier contenido solicitado, independientemente del tema. El equipo de investigación probó con éxito este exploit en una variedad de temas, incluidos explosivos, armas biológicas, política, racismo, drogas, autolesiones, sexo gráfico y violencia.

Si bien los actores maliciosos podrían lograr que el sistema dijera cosas malas, Russinovich se apresuró a señalar que existen límites al tipo de acceso que los atacantes pueden lograr usando esta técnica. "Como todos los jailbreak, el impacto puede entenderse como una reducción de la brecha entre lo que el modelo es capaz de hacer (dadas las credenciales del usuario, etc.) y lo que está dispuesto a hacer", explicó. "Como se trata de un ataque al modelo en sí, no imputa otros riesgos al sistema de IA, como permitir el acceso a los datos de otro usuario, tomar el control del sistema o extraer datos".

Como parte de su estudio, los investigadores de Microsoft probaron la técnica Skeleton Key en una variedad de modelos líderes de IA, incluidos Llama3-70b-instruct de Meta, Gemini Pro de Google, GPT-3.5 Turbo y GPT-4 de OpenAI, Mistral Large, Claude 3 Opus de Anthropic. y Cohere Commander R Plus. El equipo de investigación ya reveló la vulnerabilidad a esos desarrolladores y implementó Prompt Shields para detectar y bloquear este jailbreak en sus modelos de IA administrados por Azure, incluido Copilot.