ChatGPT ya escucha y habla. Pronto podrá ver también
El modo de voz avanzado de ChatGPT, que permite a los usuarios conversar con el chatbot en tiempo real, pronto podría obtener el don de la vista, según el código descubierto en la última versión beta de la plataforma. Si bien OpenAI aún no ha confirmado el lanzamiento específico de la nueva función, el código en la versión beta de ChatGPT v1.2024.317 detectado por Android Authority sugiere que la llamada "cámara en vivo" podría estar disponible de manera inminente.
OpenAI mostró por primera vez las capacidades de visión del modo de voz avanzado para ChatGPT en mayo, cuando la función se lanzó por primera vez en versión alfa. Durante una demostración publicada en ese momento, el sistema pudo identificar que estaba mirando a un perro a través de la cámara del teléfono, identificar al perro basándose en interacciones pasadas, reconocer la pelota del perro y asociar la relación del perro con la pelota (es decir, jugar a buscar).
La función también fue un éxito inmediato entre los evaluadores alfa. El usuario de X, Manuel Sainsily, lo empleó con gran efecto al responder preguntas verbales sobre su nuevo gatito basándose en el video de la cámara.
Probando el nuevo modo de voz avanzado de #ChatGPT que acaba de lanzarse en Alpha. Se siente como estar cara a cara con un amigo muy informado, lo que en este caso fue de gran ayuda: tranquilizarnos con nuestro nuevo gatito. ¡Puede responder preguntas en tiempo real y usar la cámara como entrada también! pic.twitter.com/Xx0HCAc4To
– Manuel Sainsily (@ManuVision) 30 de julio de 2024
Posteriormente, Advanced Voice Mode se lanzó en versión beta para los suscriptores Plus y Enterprise en septiembre , aunque sin sus capacidades visuales adicionales. Por supuesto, eso no impidió que los usuarios se volvieran locos al probar los límites vocales de la función. Advanced Voice "ofrece conversaciones más naturales en tiempo real, te permite interrumpir en cualquier momento y detecta y responde a tus emociones", según la empresa .
La adición de ojos digitales ciertamente diferenciaría al Modo de Voz Avanzado de los principales competidores de OpenAI, Google y Meta, quienes en los últimos meses han introducido sus propias funciones de conversación.
Es posible que Gemini Livepueda hablar más de 40 idiomas , pero no puede ver el mundo que lo rodea (al menos hasta que el Proyecto Astra despegue ), ni las Interacciones de Voz Natural de Meta, que debutaron en el evento Connect 2024 en septiembre, pueden usar entradas de cámara.
OpenAI también anunció hoy que el modo de voz avanzado ahora también está disponible para cuentas pagas de ChatGPT Plus en computadoras de escritorio. Estuvo disponible exclusivamente en dispositivos móviles por un tiempo, pero ahora también se puede acceder a él directamente desde su computadora portátil o PC.