¿Por qué Spotify funciona en un sistema de reconocimiento de voz?

abril 13, 2021 Aranzulla de Los Pobres

Spotify, el servicio de transmisión de música más grande del mundo, recibió una patente para la tecnología de reconocimiento de voz para analizar la voz de un usuario para inferir el género, la edad y el entorno. Cuando se toma en cuenta los otros desarrollos de la compañía, está claro que Spotify, habiendo ganado nuestros oídos, ahora también está detrás de nuestras voces.

Pero, ¿por qué podría querer Spotify desarrollar este tipo de reconocimiento de voz y para qué se utilizaría? Profundicemos en la patente y sus implicaciones.

Patente de reconocimiento de voz de Spotify

En 2018, Spotify presentó una solicitud de patente titulada " Identificación de los atributos del gusto a partir de una señal de audio ". Después de una espera de casi tres años, la patente fue otorgada en enero de 2021. Como sugiere el nombre, el archivo detalla, en principio, un sistema que puede tomar audio grabado de su entorno, con o sin voz, ejecutarlo a través de un conjunto de algoritmos y utilice el análisis resultante para reproducir su música adecuada para su entorno demográfico y actual.

La patente enumera algunos ejemplos de cómo el algoritmo podría categorizar los datos, incluido el género, la edad, el acento, el estado emocional, el entorno físico y la cantidad de personas. Sin embargo, la presentación continúa señalando que esta no es una lista exhaustiva, solo algunos ejemplos de cómo la compañía podría etiquetar el audio grabado. Además de estos metadatos, la patente sugiere que Spotify también puede analizar su discurso.

¿Para qué podría utilizar Spotify el reconocimiento de voz?

Actualmente, no hay indicios de que Spotify haya desarrollado el sistema propuesto que se describe en la patente. Sin embargo, se alinea con algunos otros proyectos en los que el servicio de transmisión de música ha estado trabajando. Poco después de que se concediera la patente a principios de 2021, Spotify lanzó una función de control de voz . Con la palabra de activación "Hey, Spotify", puedes controlar la reproducción de música dentro de la aplicación solo con comandos de voz.

Como Spotify es una aplicación móvil en lugar de un asistente de voz a nivel de sistema como Siri o Google Assistant, existen algunas limitaciones. Por ejemplo, la aplicación debe estar abierta, Spotify debe tener acceso a su micrófono y la pantalla de su teléfono inteligente debe estar desbloqueada y encendida. Si el servicio de transmisión espera construir un sistema más completo, necesitaría acceso a nivel de sistema o su propio hardware.

En 2019, Spotify probó un dispositivo de hardware basado en vehículos conocido como Car Thing. En una publicación de Spotify Newsroom en ese momento, la compañía dijo que el dispositivo permitiría a algunos usuarios de Spotify Premium en los EE. UU. Escuchar música y podcasts en su automóvil usando Car Thing controlado por voz. También señaló que estaban buscando realizar pruebas similares conocidas como Voice Thing y Home Thing.

Sin embargo, no se sabía mucho sobre las pruebas o si Spotify tenía planes de implementarlas más ampliamente. En enero de 2021, dos días después de la concesión de la patente, Spotify presentó nuevos listados a la FCC para un Car Thing rediseñado con funcionalidad Bluetooth. Aunque no hay una confirmación oficial de una fecha de lanzamiento, parece que la compañía estaba esperando la patente de análisis de audio antes de seguir adelante con sus planes de hardware.

El problema del aprendizaje automático

Aunque cada vez son más comunes, los sistemas de inteligencia artificial no son tan inteligentes como parecen inicialmente. La mayoría utiliza el aprendizaje automático, donde el sistema recibe un conjunto de datos de entrenamiento para aprender. En este caso, pueden haber sido algunas grabaciones de audio, categorizadas por género y ubicación. La IA comienza a comprender cómo detectar las diferencias que ve en los datos de entrenamiento y las clasifica en consecuencia.

Sin embargo, aquí es donde a veces surgen problemas. Todo el mundo tiene una voz, un acento y un tono diferentes. En la mayoría de los casos, podemos levantar el teléfono y determinar si conocemos a la persona del otro lado y, de ser así, quién es. Esto tampoco tiene ninguna indicación visual, lo que demuestra lo única que es cada voz. Un conjunto de datos de entrenamiento nunca podrá capturar ese nivel de detalle y matices.

En consecuencia, habrá ocasiones en que la IA hará suposiciones para que pueda generar un resultado. Si la voz de entrada es un poco más baja, podría etiquetarla como una voz de hombre. Del mismo modo, lo contrario podría ser cierto, donde los tonos más agudos se marcan como mujeres, por ejemplo.

Desafortunadamente, esto no es solo un riesgo teórico, ya que ha habido muchos casos de alto perfil en los que los algoritmos de aprendizaje automático han fallado .

Las implicaciones del sistema de Spotify

Cuando se les presiona, a la mayoría de las personas les cuesta identificar con precisión un acento desconocido, y eso es con toda una vida de experiencias y recuerdos de los que extraer. El sistema de aprendizaje automático solo sabrá qué había en los datos de entrenamiento, dejando que haga aún más suposiciones. Es fácil ver cómo esto podría conducir a resultados potencialmente problemáticos o incluso racistas.

Esto tampoco carece de precedencia. En 2015, Jacky Alciné, un ingeniero de software, notó que Google Photos identificaba a sus amigos negros como gorilas. Después de una reacción violenta en línea, Google afirmó haberse ocupado de este tema delicado. Sin embargo, WIRED informó en 2018 que Google no había solucionado el problema de categorización de imágenes subyacente. En cambio, la compañía solo había bloqueado términos relacionados con ciertos primates como gorila, mono y chimpancé de su sistema de clasificación.

El sistema propuesto por Spotify también tiene posibles problemas de privacidad. Para funcionar de la manera que espera la empresa, la función de reconocimiento de voz debería monitorear continuamente lo que está diciendo y el entorno en el que se encuentra. La capacidad siempre activa es un problema de privacidad personal, pero también podría conducir a una aplicación de la ley invasiva o vigilancia gubernamental.

Algunos también desconfían de la función de detección de emociones. Como se describe, el algoritmo de Spotify identificaría su estado emocional y reproduciría música apropiada para su estado de ánimo una vez que se haya analizado su audio. Sin embargo, esto se sustenta en la suposición de que si estás en un espacio mental particular, deseas permanecer allí a través de la música. También está abierto al abuso por parte de las empresas de tecnología.

Por ejemplo, en 2012, Facebook realizó un experimento secreto mostrando contenido positivo o negativo en más de medio millón de feeds de usuarios para ver cómo afectaba su estado emocional. Por estos motivos, Access Now , una organización de derechos humanos, envió una carta abierta a Spotify pidiendo a la empresa que abandonara el sistema.

¿El futuro de la música personalizada?

Spotify fue una de las primeras empresas en crear un atractivo servicio de transmisión de música. La interfaz y el amplio catálogo lo convierten en uno de los favoritos en todo el mundo. El servicio también se integra muy bien con la mayoría de los asistentes digitales y equipos domésticos inteligentes. A lo largo de los años, la compañía le ha facilitado descubrir música nueva o disfrutar de sus favoritos con listas de reproducción generadas algorítmicamente.

En teoría, el reconocimiento de voz siempre activo debería llevar esta personalización un paso más allá, por lo que el servicio de transmisión puede asimilar pasivamente su estado de ánimo y su entorno para reproducir la mejor música en el momento adecuado. Sin embargo, la naturaleza siempre atenta de la tecnología tiene implicaciones de privacidad de gran alcance que pueden superar cualquier conveniencia ofrecida por la plataforma.