Esta IA clonó mi voz usando solo tres minutos de audio
Hay una escena en Misión Imposible 3 que tal vez recuerdes. En ella, nuestro héroe. Ethan Hunt (Tom Cruise). aborda al villano de la película, lo sujeta a punta de pistola y lo obliga a leer en voz alta una extraña serie de oraciones.
“ El placer de la compañía de Busby es lo que más disfruto” , lee de mala gana . “Puso una tachuela en la silla de la señorita Yancy, y ella lo llamó un niño horrible. Al final del mes, estaba lanzando dos gatitos a lo ancho de la habitación… ”.
A pesar de que suena aleatorio y sin importancia, rápidamente queda claro que las palabras que está leyendo no son aleatorias en absoluto: están diseñadas deliberadamente para ayudar a un programa de software a clonar su voz. Una vez que termina el pasaje, el software analiza el audio e instantáneamente le da a Hunt la capacidad de hablar y sonar exactamente como el malo: la pieza final de su disfraz casi perfecto.
Ahora, si toma esa escena y resta todo el espionaje, las armas y la tensión dramática, se queda con un ejemplo bastante sólido de lo que experimenté hoy en el CES durante una demostración de My Own Voice , un "banco de voz" impulsado por IA. servicio de una startup francesa llamada Acapela Group.
La razón de ser de la empresa es ayudar a las personas que eventualmente perderán la capacidad de hablar. Esto suele ser algo que sucede como resultado de una lesión, enfermedad o enfermedades como la ELA, la enfermedad de Huntington y el cáncer de laringe. Cualquiera que sea la causa, la plataforma My Own Voice de la empresa permite que una persona clone sintéticamente su voz y conserve el tono, el timbre y la personalidad únicos que la hacen suya, algo que generalmente se pierde con la mayoría del software de texto a voz (piense en Stephen Hawking).
Ahora, para ser justos, la tecnología de clonación de voz no es necesariamente nueva o tecnológicamente innovadora en este momento. Dichos servicios han existido durante años, y gracias en parte a la llegada de los deepfakes , actualmente hay docenas de otras empresas que pueden hacer lo mismo que hace Acapela Group. Pero hay dos grandes cosas que distinguen a My Own Voice del resto del paquete: velocidad y propósito.
My Own Voice es impresionantemente rápido. A diferencia de otros servicios, que a menudo requieren horas de audio de referencia para crear un clon que suene realista, la IA de My Own Voice puede generar un sonido sintético asombrosamente bueno después de escuchar solo 50 oraciones cortas, o aproximadamente 3 minutos de audio grabado. Es básicamente como esa escena de Misión Imposible; han desarrollado un conjunto simplificado de oraciones de referencia que facilitan que su IA aprenda cómo suena, por lo que en lugar de grabar manualmente cada palabra concebible, todo lo que tiene que hacer es pronunciar un puñado de frases sencillas.
Sin embargo, podría decirse que más importante que la velocidad del software es su propósito. Nuevamente, esta tecnología no es particularmente nueva o novedosa. Ha habido un puñado de nuevas empresas notables que han desarrollado una tecnología similar de clonación de voz, como la empresa canadiense Lyrebird o la empresa con sede en Londres Sonantic, por ejemplo. Pero ambas empresas nuevas se adquirieron rápidamente, y su tecnología de clonación de voz terminó siendo utilizada para la sobregrabación de IA en películas y software de edición de video .
Eso no quiere decir que esos no sean buenos usos de la tecnología de clonación de voz. Absolutamente lo son, y probablemente sean bastante rentables, pero eso es precisamente lo que hace que My Own Voice sea tan genial. No es frecuente que te encuentres con una tecnología tan poderosa que, en lugar de crearse para el entretenimiento o la productividad, se desarrolló específicamente para ayudar a las personas desfavorecidas y, literalmente, darles una voz.