LALAL.AI tiene un nuevo algoritmo de casiopea que te dejará boquiabierto

abril 1, 2021 Aranzulla de Los Pobres

Separar diferentes partes de una canción sin tener la raíz real es difícil, pero hay una herramienta llamada LALAL.AI que es bastante capaz de manejar el proceso. Divide canciones entre voces e instrumentales con un esfuerzo mínimo y sin necesidad de conocimientos de ingeniería de audio.

Y aunque LALAL.AI ya era bastante sólido, recientemente dio un gran paso adelante gracias a la introducción de su nueva arquitectura de red neuronal llamada Cassiopeia. Toma Rocknet, la red neuronal de la generación anterior del servicio, y la mejora en casi todos los sentidos.

¿Qué aporta Cassiopeia de LALAL.AI a la mesa?

En pocas palabras: Cassiopeia proporciona mejores resultados de división con significativamente menos artefactos de audio. El propósito de LALAL.AI es extraer y separar voces e instrumentos de una pista, por lo que tener una característica que pueda mejorar la capacidad es increíble.

Con la nueva red neuronal, LALAL.AI tardará un poco más en generar las pistas divididas, pero esa es una pequeña compensación por la gran mejora en la calidad.

Entonces, ¿qué es diferente? Básicamente, Rocknet, que todavía se puede utilizar en LALAL.AI, solo considera el componente de amplitud e ignora el componente de fase. La red neuronal Cassiopeia más nueva considera el componente de fase de la señal de entrada y genera la fase para la señal de salida. Mediante este proceso, las pistas divididas contendrán menos artefactos de audio.

Para poner todo eso en términos simples, el nuevo algoritmo profundiza en el análisis de la canción para crear una mejor división.

Para demostrar que su servicio funciona de manera más eficaz, LALAL.AI lo probó con Spleeter, OpenUnmix y Extended Unmix. También comparó los resultados con su propia red neuronal Rocknet. Puede ver los resultados completos de la prueba en el blog de LALAL.AI , pero básicamente, Cassiopeia superó a todas las demás en la mayoría de las categorías en varios géneros seleccionados al azar como jazz, soft rock, pop, etc.

Curiosamente, Rocknet todavía se desempeña mejor en el canal vocal. Cassiopeia tiene un poco más de infiltración de los instrumentales a las voces. Sin embargo, LALAL.AI señaló que los números no siempre cuentan toda la historia y, a veces, la calidad del sonido puede ser diferente de lo que muestran las pruebas.

Esto es lo que dijo la compañía al respecto:

Aunque Cassiopeia está por detrás de Rocknet en términos de métricas formales para las voces, tanto la parte instrumental como especialmente la parte vocal separada por Cassiopeia suenan mucho más naturales y suaves que Rocknet, sin los artefactos de sonido metálico que son tan característicos de las otras soluciones.

Probé los resultados por mí mismo y descubrí que la red neuronal Cassiopeia daba como resultado divisiones de audio más limpias. La pista vocal casi no tenía infiltración perceptible de los instrumentales, que es exactamente lo que quieres de una herramienta como LALAL.AI

Dicho esto, los resultados de Rocknet seguían siendo bastante buenos, y eran absolutamente utilizables para aislar la pista vocal de los instrumentales.

¿Cómo se prueba la nueva función Cassiopeia de LALAL.AI?

Si desea darle una oportunidad a la nueva red neuronal, puede ir a LALAL.AI y asegurarse de que la casilla Usar el nuevo algoritmo esté marcada cerca de la parte inferior de la pantalla cuando cargue una canción.

También puede elegir el nivel de agresión utilizado por el algoritmo para dividir las pistas. Normal es bueno para la mayoría de las pistas, pero puedes experimentar con Mild y Aggressive para ver qué crea una mejor pista para ti.