Google hace público su códec de voz Lyra Low Bitrate

abril 9, 2021 Aranzulla de Los Pobres

Google ha lanzado su código fuente beta del códec de audio Lyra en GitHub, haciendo que el procesamiento de audio de baja velocidad de bits de increíble calidad esté disponible para todos los desarrolladores. El códec es más útil en situaciones integradas y con ancho de banda restringido en las que es necesario guardar la mayor cantidad de datos posible.

Lyra: Casi nada nunca sonó tan bien

El códec de audio funciona según el principio de proporcionar el habla con el sonido más natural con la velocidad de datos más baja posible. Logra crear niveles casi espeluznantes de reproducción de audio con tasas de bits tan bajas como 3 kbps. Google ya usa la compresión Lyra en tiempo real en su aplicación Duo , aunque no se le culpará por no darse cuenta de la diferencia con el audio de ancho de banda normal.

Para demostrar cuánto mejor es Lyra que otros códecs, Google proporciona ejemplos a través de una publicación de blog que comparan el códec de compresión impulsado por Machine Learning con otras alternativas de 3 y 6 kbps.

Es una diferencia de noche a día, y brindarles a los desarrolladores de todo el mundo estas herramientas será un factor importante para mejorar la calidad de la comunicación donde el ancho de banda es escaso. También es un excelente motivador para los desarrolladores que buscan crear nuevas aplicaciones en mercados emergentes, algo que Google seguramente cubrirá en la conferencia virtual gratuita de Google I / O de este año.

El código fuente beta está diseñado actualmente teniendo en cuenta los dispositivos Arm de 64 bits, aunque los ejemplos también se ejecutarán en sistemas Linux x86 de 64 bits. El código fuente se proporciona completamente documentado, aunque está en versión beta, y la página de GitHub proporciona instrucciones de instalación y cómo compilar Lyra en Linux para objetivos de Arm de 64 bits.

Para obtener el código fuente de Lyra beta, diríjase a la página de Lyra GitHub .

¿Cómo actúa Lyra?

Si bien el proceso real que usa Lyra es una combinación increíblemente compleja de modelos de aprendizaje automático entrenados en miles de horas de datos de voz y optimizaciones de la tecnología de códec de audio existente, la teoría es bastante simple.

Cada 40 ms, las funciones se toman del habla y se comprimen a 3 kbps. Estas características representan puntos de energía del habla en el espectro de frecuencias más cercano a la respuesta auditiva del habla humana, las cosas que necesitamos reconocer y comprender cuando alguien habla.

La parte clave de lo que hace especial a Lyra es cómo utiliza esta información:

Sin embargo, los códecs paramétricos tradicionales, que simplemente extraen parámetros críticos del habla que luego pueden usarse para recrear la señal en el extremo receptor, logran tasas de bits bajas, pero a menudo suenan robóticas y poco naturales. Estas deficiencias han llevado al desarrollo de una nueva generación de modelos generativos de audio de alta calidad que han revolucionado el campo al poder no solo diferenciar entre señales, sino también generar otras completamente nuevas.

Después de la transmisión, Lyra reconstruye la forma de onda completando lo que falta mediante este proceso, sin que por alguna razón sea demasiado complejo computacionalmente.

Por un lado, es una maravilla tecnológica que se ejecutará en casi cualquier lugar. Por otro lado, todavía no estoy 100% convencido de que no sea brujería.