El reconocimiento de voz es asombroso, pero ¿cómo se volvió tan bueno?

La tecnología de reconocimiento de voz tiene una rica historia de desarrollo que la ha llevado a lo que es hoy. Está en el centro de la vida moderna y nos brinda la capacidad de realizar tareas con solo hablar con un dispositivo. Entonces, ¿cómo ha evolucionado esta asombrosa tecnología a lo largo de los años? Vamos a ver.

1952: El sistema Audrey

El primer paso en el reconocimiento de voz se produjo a principios de la década de 1950. Bell Laboratories desarrolló la primera máquina que podía entender la voz humana en 1952, y se llamó Audrey System. El nombre Audrey era una especie de contracción de la frase Reconocimiento automático de dígitos. Si bien esta fue una innovación importante, tuvo algunas limitaciones importantes.

Lo más destacado es que Audrey solo podía reconocer los dígitos numéricos del 0 al 9, sin palabras. Audrey daría retroalimentación cuando el orador dijera un número encendiendo 1 de 10 bombillas, cada una correspondiente a un dígito.

Si bien podía entender los números con un 90% de precisión, Audrey se limitó a un tipo de voz específico. Es por eso que la única persona que realmente lo usaría fue HK Davis, uno de los desarrolladores. Cuando se dice un número, el hablante debe esperar al menos 300 milisegundos antes de decir el siguiente.

No solo tenía una funcionalidad limitada, sino que también tenía una utilidad limitada. No era de mucha utilidad una máquina que solo podía entender números. Un uso posible era marcar números de teléfono, pero era mucho más rápido y fácil marcar los números a mano. Aunque Audrey no tuvo una existencia elegante, sigue siendo un gran hito en los logros humanos.

Relacionado Cómo usar la escritura por voz en Microsoft Word

1962: Caja de zapatos de IBM

Una década después de Audrey, IBM intentó desarrollar un sistema de reconocimiento de voz. En la Feria Mundial de 1962, IBM mostró un sistema de reconocimiento de voz llamado Showbox. Al igual que Audrey, su trabajo principal era comprender los dígitos del 0 al 9, pero también podía comprender seis palabras: más, menos, falso, total, subtotal y apagado.

Shoebox era una máquina matemática que podía resolver problemas aritméticos simples. En cuanto a los comentarios, en lugar de luces, Shoebox pudo imprimir los resultados en papel. Esto lo hizo útil como calculadora, aunque el hablante aún necesitaría hacer una pausa entre cada número / palabra.

1971: Identificación automática de llamadas de IBM

Después de Audrey y Shoebox, otros laboratorios de todo el mundo desarrollaron tecnología de reconocimiento de voz. Sin embargo, no despegó hasta la década de 1970, cuando en 1971 IBM lanzó al mercado el primer invento de su tipo. Se le llamó el sistema de Identificación Automática de Llamadas. Fue el primer sistema de reconocimiento de voz que se utilizó a través del sistema telefónico.

Los ingenieros llamarían y se conectarían a una computadora en Raleigh, Carolina del Norte. La persona que llama entonces pronunciaría una de las 5.000 palabras de su vocabulario y obtendría una respuesta "hablada" como respuesta.

Relacionado: Cómo usar el dictado de voz en Mac

1976: Arpía

A principios de la década de 1970, el Departamento de Defensa de EE. UU. Se interesó por el reconocimiento de voz. DARPA (Agencia de Proyectos de Investigación Avanzada de Defensa) desarrolló el programa Speech Understanding Research (SUR) en 1971. Este programa proporcionó fondos a varias empresas y universidades para ayudar en la investigación y el desarrollo del reconocimiento de voz.

En 1976, gracias a SUR, la Universidad Carnegie Mellon desarrolló el Sistema Arpía. Este fue un gran salto en la tecnología de reconocimiento de voz. Los sistemas hasta ese momento eran capaces de entender palabras y números, pero Harpy era único en el sentido de que podía entender oraciones completas.

Tenía un vocabulario de aproximadamente 1.011 palabras, que, según una publicación deB. Lowerre y R. Reddy , equivalía a más de un billón de oraciones posibles diferentes. Luego, la publicación afirma que Harpy podía entender palabras con un 93,77% de precisión.

La década de 1980: el método oculto de Markov

La década de 1980 fue un momento crucial para la tecnología de reconocimiento de voz, ya que esta es la década en la que la tecnología de reconocimiento de voz, ya que fue la década en la que nos presentaron el Método Hidden Markov (HMM). La principal fuerza impulsora detrás de HMM es la probabilidad .

Siempre que un sistema registra un fonema (el elemento más pequeño del habla), existe una cierta probabilidad de cuál será el próximo. HMM usa estas probabilidades para determinar qué fonema probablemente vendrá después y formará las palabras más probables. La mayoría de los sistemas de reconocimiento de voz todavía utilizan HMM para comprender el habla.

Década de 1990: el reconocimiento de voz llega al mercado de consumo

Desde la concepción de la tecnología de reconocimiento de voz, ha estado en un viaje para encontrar un espacio en el mercado de consumo. En la década de 1980, IBM presentó un prototipo de computadora que podía realizar dictados de voz a texto. Sin embargo, no fue hasta principios de la década de 1990 que las personas comenzaron a ver aplicaciones como esta en sus hogares.

En 1990, Dragon Systems presentó el primer software de dictado de voz a texto. Se llamaba Dragon Dictate y se lanzó originalmente para Windows. Este programa de $ 9,000 fue revolucionario para llevar la tecnología de reconocimiento de voz a las masas, pero hubo una falla. El software usaba dictado discreto , lo que significa que el usuario debe hacer una pausa entre cada palabra para que el programa las capte.

En 1996, IBM contribuyó nuevamente a la industria con Medspeak. Este también era un programa de dictado de voz a texto, pero no sufría de dicación discreta como lo hizo Dragon Dictate. En cambio, este programa podría dictar un discurso continuo, lo que lo convirtió en un producto más atractivo.

Relacionado: Cómo usar el Asistente de Google con auriculares

2010: una niña llamada Siri

A lo largo de la década de 2000, la tecnología de reconocimiento de voz explotó en popularidad. Se implementó en más software y hardware que nunca, y un paso crucial en la evolución del reconocimiento de voz fue Siri, el asistente digital. En 2010, una empresa con el nombre de Siri presentó el asistente virtual como una aplicación de iOS.

En ese momento, Siri era un software impresionante que podía dictar lo que decía el hablante y dar una respuesta educada e ingeniosa. Este programa fue tan impresionante que Apple adquirió la compañía ese mismo año y le dio a Siri una pequeña revisión, empujándolo hacia el asistente digital que conocemos hoy.

Fue a través de Apple que Siri obtuvo su icónica voz (voz de Susan Benett) y una serie de nuevas funciones. Utiliza el procesamiento del lenguaje natural para controlar la mayoría de las funciones del sistema.

La década de 2010: los 4 grandes asistentes digitales

Tal como está, cuatro grandes asistentes digitales dominan el reconocimiento de voz y el software adicional.

  • Siri está presente en casi todos los productos de Apple: iPhones, iPods, iPads y la familia de computadoras Mac.
  • El Asistente de Google está presente en la mayoría de los más de 3000 millones de dispositivos Android en el mercado. Además, los usuarios pueden usar comandos en muchos servicios de Google , como Google Home.
  • Amazon Alexa no tiene mucha plataforma dedicada donde vive, pero sigue siendo un asistente destacado. Está disponible para descargarse y usarse en dispositivos Android, dispositivos Apple. e incluso algunas laptops Lenovo
  • Bixby es la entrada más reciente a la lista de asistentes digitales. Es el asistente digital de cosecha propia de Samsung y está presente entre los teléfonos y tabletas de la compañía.

Una historia hablada

El reconocimiento de voz ha recorrido un largo camino desde los días de Audrey. Ha logrado grandes avances en múltiples campos; por ejemplo, según Clear Bridge Mobile , el campo médico se benefició de los chatbots operados por voz durante la pandemia en 2020. Desde solo poder comprender números hasta comprender diferentes variaciones de oraciones completas, el reconocimiento de voz está demostrando ser uno de los más útiles tecnologías de nuestra era moderna.