¿Cómo funciona el reconocimiento de voz?
A veces, nos encontramos hablando con nuestros dispositivos digitales más que con otras personas. Los asistentes digitales de nuestros dispositivos utilizan el reconocimiento de voz para comprender lo que estamos diciendo. Debido a esto, podemos manejar muchos aspectos de nuestras vidas con solo tener una conversación con nuestro teléfono o altavoz inteligente.
Aunque el reconocimiento de voz es una parte tan importante de nuestras vidas, no solemos pensar en qué lo hace funcionar. Suceden muchas cosas detrás de escena con el reconocimiento de voz, así que aquí hay una inmersión en lo que hace que funcione.
¿Qué es el reconocimiento de voz?
Los dispositivos modernos generalmente vienen cargados con un asistente digital, un programa que utiliza el reconocimiento de voz para realizar ciertas tareas en su dispositivo. El reconocimiento de voz es un conjunto de algoritmos que utilizan los asistentes para convertir su voz en una señal digital y determinar lo que está diciendo. Los programas como Microsoft Word utilizan el reconocimiento de voz para ayudar a escribir palabras.
El primer sistema de reconocimiento de voz
El primer sistema de reconocimiento de voz se llamó sistema Audrey. El nombre era una contracción de "Reconocimiento automático de dígitos". Inventado en 1952 por Bell Laboratories, Audrey pudo reconocer dígitos numéricos. El hablante decía un número y Audrey encendía una de las 10 bombillas correspondientes.
A pesar de lo innovador que fue este invento, no fue bien recibido. El sistema informático en sí medía unos dos metros de alto y ocupaba una enorme cantidad de espacio. Independientemente de su tamaño, solo pudo descifrar los números del 0 al 9. Además, solo una persona con un tipo específico de voz podía usar Audrey, por lo que estaba dirigido principalmente por una persona.
Si bien tuvo sus fallas, Audrey fue el primer paso en un largo viaje para hacer del reconocimiento de voz lo que es hoy. No pasó mucho tiempo antes de que surgiera el próximo sistema de reconocimiento de voz, que podía comprender secuencias de palabras.
El reconocimiento de voz comienza con la conversión del audio en una señal digital
Los sistemas de reconocimiento de voz deben seguir ciertos pasos para comprender lo que estamos diciendo. Cuando el micrófono de su dispositivo capta su audio, se convierte en una corriente eléctrica que viaja hacia el convertidor analógico a digital (ADC). Como sugiere el nombre, el ADC convierte la corriente eléctrica (AKA, la señal analógica) en una señal binaria digital.
A medida que la corriente fluye hacia el ADC, toma muestras de la corriente y descifra su voltaje en ciertos momentos. El voltaje en un momento dado se llama muestra. Cada muestra tiene una duración de solo varias milésimas de segundo. Según el voltaje de la muestra, el ADC asignará una serie de ocho dígitos binarios (un byte de datos).
El audio se procesa para mayor claridad
Para que el dispositivo comprenda mejor al hablante, es necesario procesar el audio para mejorar la claridad. En ocasiones, el dispositivo tiene la tarea de descifrar el habla en un entorno ruidoso; por lo tanto, se colocan ciertos filtros en el audio para ayudar a eliminar el ruido de fondo. Para algunos sistemas de reconocimiento de voz, se filtran las frecuencias que son más altas o más bajas que el rango de audición del ser humano.
El sistema no solo elimina las frecuencias no deseadas; También se enfatizan ciertas frecuencias en el audio para que la computadora pueda reconocer mejor la voz y separarla del ruido de fondo. Algunos sistemas de reconocimiento de voz en realidad dividen el audio en varias frecuencias discretas.
Otros aspectos, como la velocidad y el volumen del audio, se ajustan para que coincidan mejor con las muestras de audio de referencia que utiliza el sistema de reconocimiento de voz para comparar. Estos procesos de filtración y eliminación de ruido realmente ayudan a mejorar la precisión general.
Luego, el sistema de reconocimiento de voz comienza a formar palabras
Hay dos formas populares en que los sistemas de reconocimiento de voz analizan el habla. Uno se llama modelo de Markov oculto y el otro método es a través de redes neuronales.
El método del modelo de Markov oculto
El modelo de Markov oculto es el método empleado en la mayoría de los sistemas de reconocimiento de voz. Una parte importante de este proceso es descomponer las palabras habladas en sus fonemas (el elemento más pequeño de un idioma). Hay un número finito de fonemas en cada idioma, por lo que el método del modelo de Markov oculto funciona tan bien.
Hay alrededor de 40 fonemas en el idioma inglés. Cuando el sistema de reconocimiento de voz identifica uno, determina la probabilidad de cuál será el próximo.
Por ejemplo, si el hablante pronuncia el sonido "ta", existe una cierta probabilidad de que el siguiente fonema sea "p" para formar la palabra "tap". También existe la probabilidad de que el próximo fonema sea "s", pero eso es mucho menos probable. Si el siguiente fonema se parece a "p", entonces el sistema puede asumir con alta certeza que la palabra es "tap".
El método de la red neuronal
Una red neuronal es como un cerebro digital que aprende de la misma manera que lo hace un cerebro humano. Las redes neuronales son fundamentales en el progreso de la inteligencia artificial y el aprendizaje profundo.
El tipo de red neuronal que utiliza el reconocimiento de voz se denomina Red neuronal recurrente (RNN). Según GeeksforGeeks , RNN es uno en el que "la salida de [el] paso [s] anterior se alimenta como entrada al paso actual". Esto significa que cuando un RNN procesa un poco de datos, usa esos datos para influir en lo que hace con el siguiente bit de datos; básicamente, aprende de la experiencia.
Cuanto más expuesto un RNN a un determinado idioma, más preciso será el reconocimiento de voz. Si el sistema identifica el sonido "ta" 100 veces, y es seguido por el sonido "p" 90 de esas veces, entonces la red básicamente puede aprender que "p" generalmente viene después de "ta".
Debido a esto, cuando el sistema de reconocimiento de voz identifica un fonema, utiliza los datos acumulados para predecir cuál será el siguiente. Debido a que los RNN aprenden continuamente, cuanto más se use, más preciso será el reconocimiento de voz.
Una vez que el sistema de reconocimiento de voz identifica las palabras (ya sea con el modelo Marvok oculto o con un RNN), esa información se envía al procesador. A continuación, el sistema lleva a cabo la tarea que debe realizar.
El reconocimiento de voz se ha convertido en un elemento básico en la tecnología moderna
El reconocimiento de voz se ha convertido en una gran parte de nuestro panorama tecnológico moderno. Se ha implementado en varias industrias y servicios en todo el mundo; de hecho, muchas personas controlan toda su vida con asistentes activados por voz. Puede encontrar asistentes como Siri cargados en sus relojes Apple. Lo que era solo un sueño en 1952 se ha convertido en realidad y no parece detenerse pronto.