Las conversaciones de voz con IA todavía resultan incómodas porque los asistentes no saben cuándo hablar.

Thinking Machines Lab afirma estar desarrollando una IA dúplex completa , lo que significa que un sistema de IA puede comprender lo que dice una persona mientras genera una respuesta. En otras palabras, se parece más a una llamada telefónica que a un walkie-talkie.

La startup, fundada el año pasado por la ex CTO de OpenAI, Mira Murati, anunció modelos de interacción, comenzando con TML-Interaction-Small. Afirma que el sistema puede responder en 0,40 segundos, un ritmo que lo sitúa cerca de la conversación humana fluida.

Hay un inconveniente para quienes deseen probarlo hoy. Se trata de una versión preliminar para investigación, con acceso limitado previsto para los próximos meses y un lanzamiento más amplio a finales de este año.

Un tipo de intercambio de IA más rápido

La idea principal es fácil de entender y el cambio es significativo. En lugar de esperar a que alguien termine de hablar antes de elaborar una respuesta, el modelo procesa el habla entrante mientras prepara su propia respuesta.

Esa demora es importante porque las pausas hacen que los asistentes de IA suenen artificiales. Thinking Machines Lab describe el tiempo de respuesta de 0,40 segundos de TML-Interaction-Small como cercano a la velocidad de una conversación natural, lo que supondría un cambio notable para las herramientas de voz.

También afirma que su ritmo es más rápido que el de modelos similares de OpenAI y Google . La prueba de rendimiento respalda el anuncio, pero los usuarios externos aún deben comprobar si la experiencia funciona con la fluidez que indica la cifra.

Cuando la velocidad se convierte en comportamiento

Un asistente que responde mientras aún está recibiendo información cambia las expectativas de los usuarios respecto a un chat de voz. La conversación puede ser más rápida, pero el sistema también debe gestionar la sincronización con mucha más precisión.

Esa compensación es importante cuando alguien busca una aclaración rápida en lugar de una respuesta generada automáticamente. Las respuestas más rápidas no servirán de mucho si el asistente interviene demasiado pronto, malinterpreta al interlocutor o interrumpe el flujo que se supone que debe mejorar.

Por ahora, la arquitectura es la noticia. La verdadera prueba de producto consiste en comprobar si el modelo de interacción logra que la sincronización se sienta automática.

Qué ver antes del lanzamiento

El calendario de lanzamiento es el detalle clave ahora. Thinking Machines Lab afirma que en los próximos meses se publicará una vista previa limitada de la investigación, seguida de un acceso más amplio a finales de este año.

Aún no están claros la disponibilidad, el precio, las plataformas compatibles ni el rendimiento fuera de las pruebas controladas. Estas incógnitas son importantes, ya que un modelo más rápido solo será útil si los usuarios pueden utilizarlo en sus herramientas de voz cotidianas.

Para quienes utilizan asistentes de voz con IA, lo más recomendable es seguir de cerca la vista previa. La IA bidireccional es prometedora, pero las pruebas prácticas deberían demostrar si las respuestas más rápidas realmente facilitan las conversaciones cotidianas con la IA.

Las conversaciones de voz con IA todavía resultan incómodas porque los asistentes no saben cuándo hablar.

Un tipo de intercambio de IA más rápido

Cuando la velocidad se convierte en comportamiento

Qué ver antes del lanzamiento

Más entradas

Seguro que has oído hablar de los teléfonos plegables, pero Logitech podría estar fabricando un ratón plegable.

Android 17 facilitará impedir que las aplicaciones rastreen tu ubicación en segundo plano sin que te des cuenta.

La próxima actualización de Chrome de Google es muy importante para los usuarios de Android.

Google acaba de mejorar mucho Gemini for Home para gestionar tu hogar inteligente.