¿Es suficiente mirar la barbilla? Aquí viene el collar que reconoce lenguajes silenciosos
Imagínese si estuviera sentado en una sala de conferencias o en una biblioteca donde pudiera escuchar agujas y soltar "Siri, mira el clima mañana", lo cual podría no ser apropiado.
¿Qué hacer cuando una persona no puede hablar o tiene que estar callada pero necesita dar instrucciones a un dispositivo inteligente?
Con este fin, Cheng Zhang, profesor asistente de ciencias de la información en la Universidad de Cornell, y Ruidong Zhang, estudiante de doctorado, diseñaron un collar llamado "Speechin" .
▲ Imagen de: Universidad de Cornell
Basándose en los movimientos de la mandíbula, captura "imágenes de deformación de la piel del cuello y la cara" para reconocer el lenguaje silencioso y actualmente reconoce frases simples en inglés y chino.
▲ Animado de: YouTube@Cornell University
La cámara infrarroja de SpeeChin está montada en una "caja de collar" impresa en 3D, que cuelga de una cadena de plata, con la cámara apuntando a la barbilla del usuario. Para mejorar la estabilidad, los desarrolladores diseñaron "alas" a los lados y colocaron una moneda en la parte inferior.
Además de estos, SpeeChin también está equipado con un microprocesador, batería y un módulo Bluetooth.
▲ Imagen de: Universidad de Cornell
Usando algoritmos basados en el aprendizaje automático, el dispositivo puede determinar qué comandos está pronunciando el usuario en silencio, en función de los movimientos de la mandíbula del usuario, y transmitir esos comandos a un teléfono inteligente emparejado, como Siri en otra forma de comunicación.
Para evitar problemas de privacidad, SpeeChin solo se agachará debajo de la barbilla y no apuntará directamente a la cara del usuario.
En una prueba inicial de 20 participantes (10 que hablaban inglés, 10 mandarín), los investigadores midieron la posición inicial de sus mandíbulas y luego usaron imágenes diferenciales para entrenar a SpeeChin para reconocer comandos simples.
10 participantes de habla inglesa dijeron en silencio 54 comandos, incluidos números, comandos interactivos, comandos de asistente de voz, comandos de puntuación y comandos de navegación, al igual que 44 comandos de los otros 10 participantes de habla mandarín.
▲ Animado por: YouTube@Cornell University
Resulta que SpeeChin reconoce los comandos en inglés y mandarín con una precisión promedio de 90,5 % y 91,6 %, respectivamente. Los investigadores dicen que el dispositivo tiene el potencial de aprender los patrones de habla silenciosa de una persona.
Los investigadores también pidieron a seis participantes que dijeran en silencio 10 frases en mandarín y 10 en inglés mientras caminaban. El estudio tuvo una baja tasa de éxito, principalmente porque las cabezas de los participantes se movían de manera impredecible.
¿Por qué el reconocimiento de voz silencioso en forma de collares? Un investigador declaró el propósito de su estudio:
Pensamos en los collares como una forma a la que la gente está acostumbrada, en lugar de los dispositivos para colocar sobre las orejas, que pueden ser incómodos; en cuanto a la voz silenciosa, la gente podría pensar "Ya tengo un dispositivo de reconocimiento de voz en mi teléfono". Pero debe hablar en nombre de algunas personas y situaciones en las que no puede hacerlo.
Cabe mencionar que SpeeChin es similar en apariencia a NeckFace . NeckFace, un dispositivo presentado el año pasado por Cheng Zhang y su equipo de SciFi Lab, rastrea continuamente las expresiones faciales mediante el uso de una cámara infrarroja para capturar imágenes de la mandíbula y la cara debajo del cuello y generar reconstrucciones en 3D de la expresión completa.
▲ Animado de: YouTube@CornellScifiLab
NeckFace podría ser particularmente útil en el espacio de la salud mental, ya que rastrea el estado de ánimo de las personas a lo largo del día. Si bien las personas no siempre muestran emociones en sus rostros, la cantidad de cambios en las expresiones faciales a lo largo del tiempo puede indicar cambios de humor.
NeckFace también se puede usar en otros escenarios, como reuniones virtuales cuando las opciones de cámara frontal no son una opción, detección de expresiones faciales en escenarios de realidad virtual y más.
Si SpeeChin se desarrolla aún más, sus casos de uso también aumentarán, incluidos entornos que deben ser silenciosos, entornos ruidosos irreconocibles y personas que carecen de habilidades lingüísticas.
#Bienvenido a prestar atención a la cuenta oficial de WeChat de Aifaner: Aifaner (WeChat: ifanr), se le brindará más contenido emocionante lo antes posible.