Su navegador de IA puede ser secuestrado mediante inyección de indicaciones, OpenAI acaba de parchar Atlas

OpenAI ha enviado una actualización de seguridad a ChatGPT Atlas destinada a prevenir la inyección rápida en navegadores de IA, ataques que ocultan instrucciones maliciosas dentro del contenido cotidiano que un agente podría leer mientras trabaja.

El modo agente de Atlas está diseñado para actuar en tu navegador como lo harías tú: puede ver páginas, hacer clic y escribir para completar tareas en el mismo espacio y contexto que usas. Esto también lo convierte en un objetivo de mayor valor, ya que el agente puede encontrar texto no confiable en correos electrónicos, documentos compartidos, foros, publicaciones en redes sociales y cualquier página web que abra.

La advertencia principal de la compañía es simple: los hackers pueden manipular la toma de decisiones del agente introduciendo instrucciones en el flujo de información que procesa durante la tarea.

Una instrucción oculta, grandes consecuencias

La publicación de OpenAI destaca la rapidez con la que las cosas pueden salir mal. Un atacante introduce en la bandeja de entrada un correo electrónico malicioso con instrucciones escritas para el agente, no para el humano.

Posteriormente, cuando el usuario solicita a Atlas que redacte una respuesta de fuera de la oficina, el agente se encuentra con ese correo electrónico durante su trabajo habitual y considera las instrucciones introducidas como autorizadas. En el escenario de demostración, el agente envía una carta de renuncia al director ejecutivo del usuario, y la respuesta de fuera de la oficina nunca se redacta.

Si un agente está escaneando contenido de terceros como parte de un flujo de trabajo legítimo, un atacante puede intentar anular la solicitud del usuario ocultando comandos en lo que parece texto normal.

Un atacante de IA realiza prácticas

Para detectar estas fallas con mayor antelación, OpenAI afirma haber desarrollado un modelo de atacante automatizado y entrenado integralmente con aprendizaje por refuerzo para detectar exploits de inyección rápida contra un agente de navegador. El objetivo es someter a pruebas de presión flujos de trabajo largos y realistas, no solo forzar una única salida incorrecta.

El atacante puede preparar una inyección candidata, ejecutar una simulación de despliegue del comportamiento del agente objetivo y luego iterar utilizando el razonamiento y el rastro de acción obtenidos como retroalimentación. OpenAI afirma que el acceso privilegiado a estos rastros otorga a su equipo rojo interno una ventaja que los atacantes externos no tienen.

¿Qué hacer con esto ahora?

OpenAI considera la inyección de avisos como un problema de seguridad a largo plazo, más parecido a una estafa en línea que a un error que se corrige una sola vez. Su enfoque consiste en descubrir nuevos patrones de ataque, entrenar contra ellos y reforzar las protecciones a nivel de sistema.

Para los usuarios, conviene usar la navegación con sesión cerrada siempre que sea posible, examinar con atención las confirmaciones de acciones como enviar correos electrónicos y dar a los agentes instrucciones concretas y explícitas en lugar de indicaciones generales del tipo "gestionar todo". Si aún tiene curiosidad sobre las funciones de la navegación con IA , opte por navegadores que ofrezcan actualizaciones que le beneficien.

La publicación Su navegador de IA puede ser secuestrado por inyección de indicaciones, OpenAI acaba de parchar Atlas apareció primero en Digital Trends .