Esta nueva actualización de voz de OpenAI hace que Siri y Alexa parezcan necesitar volver a la escuela.

OpenAI ha lanzado tres nuevos modelos de audio en su API Realtime, lo que supone un gran avance para quienes desarrollan aplicaciones de voz. Los tres modelos son GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper.

En conjunto, llevan la IA de voz más allá de las simples respuestas de ida y vuelta, hacia algo que puede entenderte, tomar medidas y mantener una conversación real.

Si nos guiamos por su demostración, acabamos de presenciar la siguiente evolución en el funcionamiento de los modelos de IA de voz.

¿Qué pueden hacer realmente estos modelos?

GPT-Realtime-2 es la novedad estrella. Aplica el razonamiento de la clase GPT-5 a las interacciones de voz en directo, lo que significa que puede gestionar solicitudes más complejas sin interrumpir el hilo de la conversación.

Puede llamar a varias herramientas simultáneamente e incluso narrar lo que está haciendo con frases como «revisando tu calendario» o «déjame investigar eso». También cuenta con una ventana de contexto más amplia de 128 000 tokens, lo que se traduce en sesiones más largas y coherentes. Los desarrolladores pueden incluso ajustar el esfuerzo de razonamiento en función de la complejidad de la solicitud.

GPT-Realtime-Translate es probablemente mi favorito. Es lo más parecido que hemos tenido al traductor universal de Star Trek en la vida real. Admite traducción de voz en tiempo real en más de 70 idiomas de entrada y 13 idiomas de salida.

Lo mejor de la demostración fue que, incluso cuando se unió una persona nueva que hablaba un idioma diferente, GPT-Realtime-Translate no tuvo ningún problema para traducir a ambos interlocutores al inglés en tiempo real.

Por último, tenemos GPT-Realtime-Whisper. La mayoría de los modelos de conversión de voz a texto esperan a que el orador termine de hablar antes de proporcionar la traducción completa. Este es un modelo de transcripción en tiempo real que convierte la voz a texto mientras el orador habla. Es útil para subtítulos en directo, notas de reuniones y cualquier flujo de trabajo basado en voz donde esperar a que se complete la transcripción no sea una opción.

¿Cualquiera puede usar estos nuevos modelos de IA de voz?

Actualmente, OpenAI ha puesto estos modelos a disposición de los desarrolladores. Sin embargo, las aplicaciones que creen tendrán repercusiones en todos. Por ejemplo, un desarrollador puede crear una aplicación de traducción en tiempo real que permita a los usuarios conversar con personas en diferentes idiomas.

Muchas empresas ya están probando estos nuevos modelos. Zillow está desarrollando un asistente de voz que permite buscar casas y programar visitas con solo una orden verbal. Priceline permite consultar vuelos y hoteles, cancelarlos y reservar otros nuevos. Vimeo lo utiliza para transcripciones en tiempo real, y así sucesivamente.

Los precios parten de 0,017 dólares por minuto para Whisper, 0,034 dólares por minuto para Translate y 32 dólares por cada millón de tokens de entrada de audio para GPT-Realtime-2.