Tu robot podría obedecer una señal, no a ti, gracias a la inyección de indicaciones de IA.

La inyección de mensajes en robots con IA ya no es solo un problema a nivel de pantalla . Investigadores demuestran que un robot puede distraerse mediante texto colocado en el mundo físico, el tipo de mensaje que un humano pasaría por alto sin pensarlo dos veces.

El ataque no se basa en piratear el software del robot ni en suplantar los sensores. En su lugar, trata el entorno como un cuadro de entrada, colocando un cartel, una etiqueta o un letrero engañoso donde una cámara lo leerá.

En pruebas de simulación, los investigadores reportan tasas de éxito de ataque del 81,8 % en una configuración de conducción autónoma y del 68,1 % en un aterrizaje de emergencia de un dron. En pruebas físicas con un pequeño coche robótico, las indicaciones impresas prevalecieron sobre la navegación con un éxito de al menos el 87 % en diferentes condiciones de iluminación y visibilidad.

Cuando una señal se convierte en una orden

El método, llamado CHAI , se centra en la capa de comandos, la instrucción intermedia que produce un modelo de lenguaje de visión antes de que un controlador la convierta en movimiento. Si ese paso de planificación se desplaza hacia la instrucción incorrecta, el resto de la pila de autonomía puede ejecutarla correctamente. No se requiere malware.

El modelo de amenaza es deliberadamente de baja tecnología. El atacante es tratado como un intruso de caja negra que no puede acceder a los sistemas integrados; solo necesita la capacidad de colocar texto dentro del campo de visión de la cámara.

Está diseñado para viajar.

CHAI no solo optimiza el texto del mensaje, sino que también ajusta la apariencia del texto, incluyendo opciones como el color, el tamaño y la ubicación, ya que la legibilidad para el modelo es fundamental para el resultado.

El artículo también indica que el enfoque se generaliza más allá de una sola escena. Describe indicaciones "universales" que funcionan continuamente con imágenes invisibles, con resultados que promedian al menos un 50 % de éxito en todas las tareas y modelos, y superan el 70 % en una configuración basada en GPT. Incluso funciona en varios idiomas, como chino, español y en indicaciones de varios idiomas, lo que puede dificultar que los humanos cercanos detecten un mensaje plantado.

La lista de verificación de seguridad está cambiando

En cuanto a la defensa, los investigadores apuntan a tres direcciones. Una es el filtrado y la detección, buscando texto sospechoso en imágenes o en la salida intermedia del modelo. Otra es el trabajo de alineación, que reduce la predisposición de los modelos a considerar la escritura ambiental como una instrucción ejecutable. La tercera es la investigación de robustez a largo plazo, orientada a obtener garantías más sólidas.

Un siguiente paso práctico es tratar el texto percibido como una entrada no confiable por defecto y luego exigirle que supere las comprobaciones de misión y seguridad antes de que pueda influir en la planificación del movimiento. Si su robot lee señales, compruebe qué sucede cuando estas mienten. El trabajo está previsto para SaTML 2026, lo que debería poner estas defensas bajo un mayor escrutinio.

La publicación Tu robot podría obedecer una señal, no a ti, gracias a la inyección de indicaciones de inteligencia artificial apareció primero en Digital Trends .