Investigadores de la Universidad de Washington han desarrollado un nuevo prototipo que podría cambiar la forma en que las personas interactúan con la inteligencia artificial en su vida diaria. El sistema, llamado VueBuds, integra pequeñas cámaras en auriculares inalámbricos estándar, lo que permite a los usuarios hacer preguntas a un modelo de IA sobre el mundo que les rodea prácticamente en tiempo real.
El concepto es sencillo pero potente. El usuario puede mirar un objeto, como un envase de comida en un idioma extranjero, y pedirle a la IA que lo traduzca. En aproximadamente un segundo, el sistema responde a través de los auriculares, creando una interacción fluida y manos libres.
Un enfoque diferente para los dispositivos portátiles con IA
A diferencia de las gafas inteligentes , cuya adopción ha sido difícil debido a preocupaciones sobre la privacidad y limitaciones de diseño, VueBuds adopta un enfoque más sutil. El sistema utiliza cámaras monocromáticas de baja resolución integradas en los auriculares para capturar imágenes fijas en lugar de vídeo continuo.
Estas imágenes se transmiten vía Bluetooth a un dispositivo conectado, donde un pequeño modelo de IA las procesa localmente. Este procesamiento en el dispositivo garantiza que no sea necesario enviar los datos a la nube, lo que resuelve una de las mayores preocupaciones en torno a las cámaras portátiles.
Para mejorar aún más la privacidad, los auriculares incluyen una luz indicadora visible durante la grabación y permiten a los usuarios borrar las imágenes capturadas al instante.
Ingeniería en torno a los límites de potencia y rendimiento
Uno de los mayores desafíos a los que se enfrentó el equipo de investigación fue el consumo de energía. Las cámaras requieren mucha más energía que los micrófonos, lo que hace poco práctico utilizar sensores de alta resolución como los que se encuentran en las gafas inteligentes.
Para solucionar esto, el equipo utilizó una cámara del tamaño aproximado de un grano de arroz, que capturaba imágenes en escala de grises de baja resolución. Este método reduce el consumo de batería y permite una transmisión Bluetooth eficiente sin comprometer la capacidad de respuesta.
La ubicación fue otro factor clave. Al inclinar ligeramente las cámaras hacia afuera, el sistema logra un campo de visión de entre 98 y 108 grados. Si bien existe un pequeño punto ciego para objetos extremadamente cercanos, los investigadores descubrieron que esto no afecta el uso habitual.
El sistema también combina las imágenes de ambos auriculares en un solo fotograma, lo que mejora la velocidad de procesamiento. Esto permite que VueBuds responda en aproximadamente un segundo, en comparación con los dos segundos que tardaba al procesar las imágenes por separado.
Rendimiento en comparación con las gafas inteligentes
En las pruebas, 74 participantes compararon los VueBuds con gafas inteligentes como los modelos Ray-Ban de Meta . A pesar de utilizar imágenes de menor resolución y procesamiento local, los VueBuds tuvieron un rendimiento general similar.
El informe reveló que los participantes prefirieron los VueBuds para las tareas de traducción, mientras que las gafas inteligentes obtuvieron mejores resultados al contar objetos. En ensayos independientes, los VueBuds alcanzaron índices de precisión de entre el 83 % y el 84 % para la traducción y la identificación de objetos, y hasta un 93 % para la identificación de títulos y autores de libros.
Por qué esto importa y qué viene después
La investigación pone de relieve un posible cambio en el diseño de los dispositivos portátiles con inteligencia artificial. Al integrar la inteligencia visual en un dispositivo que la gente ya usa, el sistema evita muchas de las barreras a las que se enfrentan las gafas inteligentes.
Sin embargo, aún existen limitaciones. El sistema actual no puede interpretar el color y sus capacidades todavía están en fase inicial. El equipo planea explorar la posibilidad de añadir sensores de color y desarrollar modelos de IA especializados para tareas como la traducción y la accesibilidad.
Los investigadores presentarán sus hallazgos en la Conferencia sobre Factores Humanos en Sistemas Informáticos de la Asociación para la Maquinaria de Computación (ACM) en Barcelona, ofreciendo un vistazo a un futuro en el que los dispositivos cotidianos se conviertan discretamente en asistentes inteligentes.
