Los auriculares AI impulsados ​​por Apple M2 pueden traducir varios altavoces a la vez

Los auriculares inalámbricos Pixel Buds de Google ofrecen desde hace algún tiempo una fantástica función de traducción en tiempo real . En los últimos años, marcas como Timkettle han ofrecido auriculares similares para clientes empresariales. Sin embargo, todas estas soluciones sólo pueden manejar una secuencia de audio a la vez para traducir.

La gente de la Universidad de Washington (UW) ha desarrollado algo realmente extraordinario en forma de auriculares impulsados ​​por IA que pueden traducir la voz de varios hablantes a la vez. Piense en ello como un políglota en un bar lleno de gente, capaz de entender el habla de las personas que lo rodean, hablando en diferentes idiomas, todos a la vez.

El equipo se refiere a su innovación como traducción espacial del habla, y cobra vida gracias a los auriculares binaurales. Para los que no lo saben, el audio binaural intenta simular efectos de sonido tal como los perciben naturalmente los oídos humanos. Para grabarlos, se colocan micrófonos en una cabeza simulada, separados a la misma distancia que los oídos humanos a cada lado.

El enfoque es crucial porque nuestros oídos no sólo escuchan el sonido, sino que también nos ayudan a medir la dirección de su origen. El objetivo general es producir un escenario sonoro natural con un efecto estéreo que pueda proporcionar una sensación similar a la de un concierto en vivo. O, en el contexto moderno, escucha espacial .

El trabajo es cortesía de un equipo dirigido por el profesor Shyam Gollakota, cuyo prolífico repertorio incluye aplicaciones que pueden colocar GPS submarinos en relojes inteligentes , convertir escarabajos en fotógrafos , implantes cerebrales que pueden interactuar con dispositivos electrónicos , una aplicación móvil que puede escuchar infecciones y más.

¿Cómo funciona la traducción multiparlante?

"Por primera vez, hemos preservado el sonido de la voz de cada persona y la dirección de donde proviene", explica Gollakota, actualmente profesor de la Escuela de Ingeniería y Ciencias de la Computación Paul G. Allen del instituto.

El equipo compara su pila con un radar, ya que entra en acción identificando la cantidad de parlantes en los alrededores y actualizando ese número en tiempo real a medida que las personas entran y salen del rango de escucha. Todo el enfoque funciona en el dispositivo y no implica enviar transmisiones de voz del usuario a un servidor en la nube para su traducción. ¡Sí, privacidad!

Además de la traducción de voz, el kit también "mantiene las cualidades expresivas y el volumen de la voz de cada hablante". Además, los ajustes direccionales y de intensidad del audio se realizan a medida que el altavoz se mueve por la habitación. Curiosamente, también se dice que Apple está desarrollando un sistema que permite a los AirPods traducir audio en tiempo real.

¿Cómo todo cobra vida?

El equipo de la Universidad de Washington probó las capacidades de traducción de los auriculares AI en casi una docena de entornos interiores y exteriores. En lo que respecta al rendimiento, el sistema puede tomar, procesar y producir audio traducido en 2 a 4 segundos. Los participantes de la prueba parecieron preferir un retraso de 3 a 4 segundos, pero el equipo está trabajando para acelerar el proceso de traducción.

Hasta ahora, el equipo solo ha probado traducciones al español, alemán y francés, pero tienen la esperanza de agregar más al grupo. Técnicamente, condensaron la separación ciega de fuentes, la localización, la traducción expresiva en tiempo real y la representación binaural en un solo flujo, lo cual es una hazaña bastante impresionante.

En lo que respecta al sistema, el equipo desarrolló un modelo de traducción de voz capaz de ejecutarse en tiempo real en un silicio Apple M2, logrando inferencia en tiempo real. Las tareas de audio estuvieron a cargo de un par de auriculares WH-1000XM4 con cancelación de ruido de Sony y un micrófono USB binaural Sonic Presence SP15C.

Y aquí está la mejor parte. "El código para el dispositivo de prueba de concepto está disponible para que otros puedan desarrollarlo", dice el comunicado de prensa de la institución. Eso significa que la comunidad científica y de código abierto puede aprender y basar proyectos más avanzados en las bases establecidas por el equipo de la Universidad de Washington.