Meta lanza su propia versión del modo de voz avanzado en Connect 2024

septiembre 26, 2024 Aranzulla de Los Pobres

Zuckerberg estrena interacciones de voz naturales — Meta

El miércoles en Meta Connect 2024, el director ejecutivo Mark Zuckerberg subió al escenario para discutir los últimos avances de su empresa en inteligencia artificial. En lo que describe como “probablemente la mayor noticia sobre IA que tenemos”, Zuckerberg presentó Natural Voice Interactions, un competidor directo deGemini Live de Google y Advanced Voice Mode de OpenAI.

"Creo que la voz será una forma mucho más natural de interactuar con la IA que el texto", comentó Zuckerberg. "Creo que tiene el potencial de ser una de las formas, si no la más frecuente, en que todos interactuamos con la IA". Zuckerberg también anunció que la nueva función comenzará a implementarse para los usuarios hoy en todas las principales aplicaciones de Meta, incluidas Instagram, WhatsApp, Messenger y Facebook.

capturas de pantalla de funciones de interacciones de voz naturales — Meta

"Meta AI se diferencia en esta categoría no solo por ofrecer modelos de IA de última generación, sino también acceso ilimitado a esos modelos para una fácil integración gratuita en nuestros diferentes productos y aplicaciones", dijo Zuckerberg. “Meta AI está en camino de convertirse en el asistente de IA más utilizado en el mundo. Estamos casi en 500 millones de activos mensuales y ni siquiera hemos lanzado aún en algunos de los países más grandes”.

Al igual que con Gemini Live y el modo de voz avanzado , las interacciones de voz natural permiten a los usuarios renunciar a las indicaciones de texto y hablar directamente con el chatbot. Los usuarios pueden tartamudear, corregirse, interrumpir la IA y, en general, hablar como lo harían con otro humano y aún así hacer que el chatbot siga la conversación. La nueva función también permitirá a los usuarios elegir la voz de la IA y elegir entre una variedad de celebridades, incluidas John Cena, Dame Judy Dench, Kristen Bell, Keegan Michael Key y Awkwafina. Quizás recuerdes esa alineación de la incursión anterior de Meta en el chat en lenguaje natural, que se cerró en agosto porque los usuarios encontraron que las interacciones eran "espeluznantes" y "surrealistas".

Zuckerberg proporcionó una demostración en vivo de la función en el escenario y le hizo al chatbot una serie de preguntas suaves que la IA respondió satisfactoriamente. Su cadencia de habla parecía un poco forzada y menos conversacional que lo que hemos visto en el Modo de voz avanzado, pero aún así era mucho mejor que las entonaciones monótonas que obtendrías de una respuesta de Siri. Sin embargo, no fue hasta que Zuckerberg se refirió a la IA como Awkwafina que este reportero se dio cuenta de que esa era la voz que se suponía que era.

Natural Voice Interactions fue “probablemente la noticia más importante sobre IA anunciada el miércoles, pero estuvo lejos de ser el único anuncio. Zuckerberg también reveló que el modelo Llama de Meta alcanzó la versión 3.2 dado que el sistema se volvió multimodal. Llama 3.2 11B y 90B (refiriéndose a la cantidad de parámetros en los que cada uno fue entrenado) ahora pueden interpretar tablas y gráficos, identificar activos dentro de las imágenes y generar títulos de imágenes.

Lamentablemente, estos nuevos modelos no estarán disponibles en Europa. Esto se debe a lo que Meta categoriza como el entorno regulatorio "impredecible" de la UE, que impide a la empresa utilizar los datos de los europeos para entrenar sus modelos de IA. La compañía está lanzando un par de modelos extremadamente livianos en Europa, denominados Llama 3.2 1B y 3B, ninguno de los cuales ha sido entrenado con datos europeos. Esos modelos están diseñados para teléfonos inteligentes y otros dispositivos periféricos.

Y por razones aparentemente insondables, Meta también anunció que está probando una nueva función que inyectará imágenes generadas por IA (algunas de las cuales pueden incluir su imagen) directamente en sus feeds de Facebook e Instagram. Estas imágenes "Imaginadas para usted" solicitarán a los usuarios que compartan la imagen tal como está o la repitan en la aplicación y en tiempo real.

"Creo que ha habido esta tendencia a lo largo del tiempo en la que los feeds comenzaron como contenido principal y exclusivo para las personas que seguías, tus amigos", dijo Zuckerberg a The Verge en una entrevista reciente . “Y a eso simplemente le agregas una capa de, 'Está bien, y también te mostraremos contenido generado por un sistema de inteligencia artificial que podría ser algo que te interese'… lo grande que se vuelve es amable. de depender de la ejecución y de lo buena que sea”.