Exclusivo: YouTube revela cómo puede hacerte hablar idiomas que no conoces

Sería un eufemismo decir que la industria del contenido de video se encuentra actualmente en un punto de inflexión. Por un lado, la IA está potenciando el potencial creativo de los creadores de contenido, pero por otro lado, persiste el problema de la desinformación y la falta de precisión en la IA. Sin embargo, el enorme potencial de la IA no puede ignorarse.

El equipo de YouTube le está dando un buen uso, priorizando la accesibilidad y el realismo. ¿Qué sigue? Hacer que los labios se muevan naturalmente al ritmo de cualquier idioma, incluso si el hablante del video no lo habla. Basándose en la función de doblaje automático lanzada el año pasado, el equipo ahora ha desarrollado la nueva función de sincronización labial con IA.

El audio traducido automáticamente ha mejorado drásticamente en los últimos trimestres y ahora suena casi natural. Las descripciones generales de audio en NotebookLM de Google son un excelente ejemplo. Sin embargo, en el caso de los vídeos, su rendimiento es deficiente porque el movimiento de los labios simplemente no coincide con lo que dice el orador en una versión traducida del guion.

Es bastante discordante y desagradable. La función de sincronización labial con IA busca superar esa disonancia audiovisual. Y, por las muestras que he visto hasta ahora, se sienten increíblemente naturales. Me reuní con Buddhika Kottahachchi, jefa de producto de YouTube en Autodubbing, para comprender cómo se desarrolló la sincronización labial, su impacto y el futuro.

Profundizando en el aspecto técnico

En menos de un año desde su lanzamiento, la función de doblaje automático de YouTube se ha utilizado para doblar más de 60 millones de vídeos en 20 idiomas. Pero preservar un tono natural con todos los matices de una conversación y luego combinarlo con movimientos labiales realistas es un reto completamente nuevo.

A simple vista, Kottahachchi me cuenta que el sistema de sincronización labial "modifica los píxeles de la pantalla para que coincidan con el habla traducida". Es una tecnología personalizada, me explica el ejecutivo de Google, y añade que necesitaban desarrollar una comprensión tridimensional del mundo, la forma de los labios, los dientes, la postura y el rostro.

Por ahora, la tecnología es compatible con Full HD (1080p), pero no con vídeos 4K. "En general, debería funcionar con las resoluciones de vídeo que subas", señala. En cuanto a la compatibilidad de idiomas, la función de sincronización labial de YouTube, impulsada por IA, es compatible con inglés, español, alemán, portugués y francés.

Es un grupo bastante limitado, pero Kottahachchi me cuenta que el equipo está ampliando su alcance y que la sincronización labial eventualmente admitirá el mismo conjunto de idiomas que la función de doblaje automático (que actualmente supera los 20). A modo de comparación, la función de sincronización labial con IA de Meta para Facebook e Instagram solo admite inglés, español, hindi y portugués.

Ahora bien, la sincronización labial con IA no es un concepto del todo desconocido. Adobe ya ofrece una función de sincronización labial automática. También existen opciones de terceros como HeyGen, que afirman ofrecerla gratuita. Pero en el caso de YouTube, hablamos de un sistema integrado a gran escala en una plataforma donde se suben 20 millones de vídeos a diario.

El pez de Babel de IA para tu cara

Entonces, ¿qué sigue en términos de disponibilidad? "No estamos listos para hacer declaraciones generales sobre la amplitud de nuestra disponibilidad, pero sí queremos que esté disponible para más creadores y comprender las limitaciones de computación y la calidad", me dice Kottahachchi. Y esto nos lleva a la cuestión crucial del costo.

Cuando pregunté al respecto, el ejecutivo de YouTube me dijo que no pueden predecir la tarifa, si es que pueden hacerlo. Esto también explica por qué la función aún forma parte de un proyecto piloto entre un pequeño grupo de evaluadores de confianza para comprender el mercado y calcular los costos. Cabe recordar que se trata de una compleja implementación de IA basada en la visión.

Así que, al igual que con los vídeos generados por IA, donde se pueden crear algunos clips gratis, pero hay que pagar para obtener una mayor resolución o más intentos, YouTube tendrá que tener en cuenta los costes de procesamiento y decidir sobre el lanzamiento. Pero desde la perspectiva de un creador, si busco un mayor alcance, probablemente pagaría la suscripción.

El dilema de la IA

Desde que las imágenes de IA inundaron internet, el debate sobre la autenticidad y la divulgación justa se ha intensificado. "¿Qué es realmente real?", pregunta que los usuarios de redes sociales se han estado planteando con mayor fervor tras la aparición de los vídeos increíblemente realistas generados por la aplicación Sora de OpenAI .

Estos videos tienen una marca de agua visible, pero ya existen herramientas gratuitas y de pago que eliminan la etiqueta Sora de los clips generados por IA. O de cualquier otro generador de contenido con IA, de hecho. Google, uno de los mayores desarrolladores y usuarios de IA, lo sabe perfectamente.

La empresa fue uno de los primeros líderes en la carrera de toma de huellas dactilares de IA con su sistema SynthID , y también lanzó una herramienta SynthID Detector a principios de este año para ayudar a los usuarios a verificar los orígenes del contenido multimedia .

Los videos de YouTube que utilizan la función de sincronización labial con IA de Google adoptarán un enfoque aún más cauteloso. "Tendremos una declaración oficial que indique que tanto el audio como el video de este video han sido creados o alterados sintéticamente", me dice Kottahachchi. "El contenido del video también se registra".

Las descripciones de texto aparecerán en la descripción debajo del título de los videos de YouTube, igual que en los videos que usan el sistema de doblaje automático. Pero ¿cómo tratarán otras plataformas los videos de YouTube doblados por IA y con sincronización de labios si un creador los publica en Instagram o TikTok?

¿Se calentarán los algoritmos?

TikTok anunció recientemente que etiquetaría los videos "creados o editados" con herramientas de IA y que también los identificaría para que los usuarios puedan verificar su origen con la herramienta Verify de C2PA. Meta cuenta con un sistema similar. Entonces, ¿cuál será el destino de los videos editados con IA que se publican en otras plataformas de video?

¿Se les bajará la clasificación algorítmicamente o se les impedirá aparecer en ciertos feeds? La situación es un poco complicada e impredecible. "Es algo que estamos monitoreando de cerca, pero es un poco pronto porque las plataformas han hecho declaraciones, pero aún no hemos visto cómo se implementan efectivamente", me dice. "Generalmente, estamos traduciendo traducciones, pero no contenido nuevo".

También mencioné el problema de los actores maliciosos que usan videos de creadores sin su consentimiento, traducen el audio y los publican desde otro canal o plataforma. El doblaje automático y la sincronización labial con IA facilitan técnicamente esta acción inescrupulosa, pero es probable que no se convierta en un caos total.

"Si tu imagen se usa en otra parte de la plataforma, puedes informarnos y pedirnos que la eliminemos", me dijo Kottahachchi. Sería interesante ver cómo el doblaje automático, el audio expresivo y los videos con sincronización labial harán que la experiencia de YouTube sea más diversa. A primera vista, parece un triunfo.

No puedo esperar a verme hablar en español, aunque abandoné mi tendencia en Duolingo hace años.