Investigadores de Columbia Engineering han entrenado a un robot con apariencia humana llamado Emo para sincronizar los labios al hablar y cantar canciones estudiando vídeos online, mostrando así cómo las máquinas pueden ahora aprender un comportamiento humano complejo simplemente observándolo.
Emo no es un cuerpo humanoide completo, sino un rostro robótico de gran realismo, diseñado para explorar la comunicación humana. El rostro está recubierto de piel de silicona y controlado por 26 motores faciales independientes que mueven los labios, la mandíbula y las mejillas.
Estos motores permiten a Emo crear formas bucales detalladas que abarcan 24 consonantes y 16 vocales, lo cual es crucial para el habla y el canto naturales. El objetivo era reducir el efecto del valle inquietante, donde los robots parecen casi humanos, pero aun así resultan inquietantes porque sus movimientos faciales no se corresponden con su voz.
Cómo los emo aprendieron a hacer playback como un humano
El proceso de aprendizaje se desarrolló por etapas. Primero, Emo exploró su propio rostro moviendo sus motores mientras se observaba en un espejo. Esto ayudó al sistema a comprender cómo las órdenes motoras cambian las formas faciales.
Los investigadores introdujeron entonces un proceso de aprendizaje que conecta el sonido con el movimiento. Emo vio horas de vídeos de YouTube de personas hablando y cantando, mientras un modelo de IA analizaba la relación entre el audio y el movimiento visible de los labios.
En lugar de centrarse en el lenguaje o el significado, el sistema estudió los sonidos puros del habla. Un transformador de acción facial convirtió esos patrones aprendidos en comandos motores en tiempo real.
Este enfoque le permitió a Emo sincronizar los labios no solo en inglés, sino también en idiomas en los que nunca había sido entrenado, como el francés, el árabe y el chino. El mismo método funcionó para cantar, lo cual es más difícil debido a las vocales alargadas y los cambios de ritmo.
Los investigadores afirman que esto es importante porque los robots del futuro necesitarán comunicarse de forma natural si van a trabajar con personas. Este avance se produce en un momento en que el interés por los robots para hogares y lugares de trabajo está en rápido crecimiento.
En el CES 2026 , ese impulso quedó en plena exhibición, con demostraciones que abarcaban desde el humanoide Atlas de Boston Dynamics, que está listo para ingresar al lugar de trabajo, hasta el robot enfocado en el hogar de SwitchBot, que puede cocinar comidas y lavar la ropa, y el próximo robot asistente doméstico de LG, diseñado para hacer la vida cotidiana más fácil.
Si sumamos avances como la piel artificial, que otorga a los robots una sensibilidad similar a la humana , y además una sincronización labial realista, es fácil ver cómo los robots empiezan a sentirse menos como máquinas y más como compañeros sociales. El emo sigue siendo un proyecto de investigación, pero muestra cómo los robots podrían algún día aprender habilidades humanas de la misma manera que nosotros, observando y escuchando.
La publicación Este robot aprendió a hacer playback como los humanos viendo YouTube apareció primero en Digital Trends .
