Esta IA puede suplantar tu voz después de solo tres segundos

La inteligencia artificial (IA) está teniendo un momento en este momento , y el viento sigue soplando a favor con la noticia de que Microsoft está trabajando en una IA que puede imitar la voz de cualquier persona después de recibir una breve muestra de tres segundos.

La nueva herramienta, denominada VALL-E, ha sido entrenada en aproximadamente 60.000 horas de datos de voz en inglés, que según Microsoft es "cientos de veces más grande que los sistemas existentes". Usando ese conocimiento, sus creadores afirman que solo necesita una pequeña cantidad de información vocal para comprender cómo replicar la voz de un usuario.

hombre hablando por telefono

Más impresionante, VALL-E puede reproducir las emociones, los tonos vocales y el entorno acústico que se encuentran en cada muestra, algo con lo que otros programas de IA de voz han tenido problemas. Eso le da un aura más realista y acerca sus resultados a algo que podría pasar como un habla humana genuina.

Cuando se compara con otros competidores de texto a voz (TTS), Microsoft dice que VALL-E "supera significativamente al sistema TTS de disparo cero de última generación en términos de naturalidad del habla y similitud del hablante". En otras palabras, VALL-E suena mucho más como humanos reales que las IA rivales que encuentran entradas de audio en las que no han sido entrenados.

En GitHub, Microsoft ha creado una pequeña biblioteca de muestras creadas con VALL-E. Los resultados son en su mayoría muy impresionantes, con muchas muestras que reproducen la cadencia y el acento de las voces de los oradores. Algunos de los ejemplos son menos convincentes, lo que indica que VALL-E probablemente no sea un producto terminado, pero en general el resultado es convincente.

Enorme potencial y riesgos

Una persona que realiza una videollamada en un dispositivo Microsoft Surface con Windows 11.

En un documento que presenta VALL-E , Microsoft explica que VALL-E “puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico”. Una herramienta tan capaz para generar un discurso que suene realista plantea el espectro de falsificaciones profundas cada vez más convincentes , que podrían usarse para imitar cualquier cosa, desde una ex pareja romántica hasta una personalidad internacional destacada.

Para mitigar esa amenaza, Microsoft dice que "es posible construir un modelo de detección para discriminar si un clip de audio fue sintetizado por VALL-E". La compañía dice que también utilizará sus propios principios de IA al desarrollar su trabajo. Esos principios cubren áreas como la equidad, la seguridad, la privacidad y la responsabilidad.

VALL-E es solo el último ejemplo de la experimentación de Microsoft con la IA. Recientemente, la compañía ha estado trabajando en la integración de ChatGPT en Bing , utilizando IA para recapitular las reuniones de Teams e injertando herramientas avanzadas en aplicaciones como Outlook, Word y PowerPoint . Y según Semafor, Microsoft está buscando invertir $ 10 mil millones en OpenAI, el fabricante de ChatGPT , una compañía en la que ya ha invertido importantes fondos.

A pesar de los aparentes riesgos, herramientas como VALL-E podrían ser especialmente útiles en medicina, por ejemplo, para ayudar a las personas a recuperar la voz después de un accidente. Ser capaz de replicar el habla con un conjunto de entrada tan pequeño podría ser inmensamente prometedor en estas situaciones, siempre que se haga correctamente. Pero con todo el dinero que se gasta en IA, tanto por parte de Microsoft como de otros, está claro que no desaparecerá pronto.