Probé el avatar de Gemini Live que comprende el mundo. fue impactante

Es algo desconcertante escuchar a una IA hablar en un tono inquietantemente amigable y decirme que limpie el desorden en mi estación de trabajo. Estoy algo orgulloso de ello, pero supongo que es hora de apilar los aparatos esparcidos al azar y ordenar el desorden de cables.

Mi hermana también estaría de acuerdo. Pero entrar en acción después de que una IA “ve” mi mesa, reconoce el desorden y da consejos de ama de casa es el panorama más amplio. El chatbot Gemini AI de Google ahora puede hacer eso. Y mucho más.

El ingrediente secreto aquí es una actualización reciente de funciones llamada Proyecto Astra . Ha estado en desarrollo durante años y finalmente comenzó a implementarse a principios de este mes . La idea general es ofrecer una IA que todo lo vea, todo lo escuche y abiertamente inteligente en su teléfono.

Google promociona estos superpoderes bajo un nombre bastante aburrido: Gemini Live con cámara y pantalla compartida. Desarrollado en la unidad DeepMind de la empresa, la empresa comenzó su desarrollo como un "asistente universal de IA". Es una pena que el nombre final no sea tan ambicioso.

Empecemos por la situación del acceso. La capacidad ahora está disponible para usuarios de Pixel 9 y Galaxy S25 . Pero si tienes un teléfono Android con una suscripción Gemini Advanced, puedes acceder al nuevo kit de herramientas.

Por cierto, eso sería $20 por mes. Lo probé en los dos teléfonos mencionados anteriormente y ahora también lo tengo listo para funcionar en mi OnePlus 13 . ¿La parte más bonita? No es necesario pasar por ningún obstáculo técnico para acceder a él.

Todo lo que necesitas es una combinación de botones de encendido/volumen o deslizar el dedo por la esquina de la pantalla para invocar a Gemini. No importa qué aplicación esté ejecutando, puede acceder a la nueva cámara y a las opciones para compartir pantalla como una superposición en cada rincón del sistema operativo.

Darle sentido al mundo que te rodea

Empecé apuntando la cámara a un cuadro y pregunté sobre él. Gemini Live pudo detectarlo con precisión como una pintura de estilo Madhubani, decodificando el uso audaz de colores y la representación de animales.

Luego procedió a darme una breve lección de historia y las variaciones que se han desarrollado a lo largo de los años. La información era precisa, hasta el nivel más granular. Afortunadamente, también puedes optar por tener un intercambio de mensajes de texto con Gemini, si estás en un lugar donde las conversaciones de voz pueden ser incómodas.

Lo que más me gusta de la nueva cámara y avatar para compartir pantalla de Gemini Live es que no es excesivamente hablador. Puedes interrumpirla en cualquier momento, lo que sólo aumenta el atractivo "natural" de las conversaciones.

Probé Géminis en una variedad de escenarios. No estaba preparado para ello.

Las respuestas que proporciona suelen ser concisas, como si quisiera darle la oportunidad (o incluso un empujón) de hacer una pregunta de seguimiento en lugar de dar una respuesta abrumadoramente larga. Sobresale en una amplia gama de temas y escenarios visuales, pero existen algunos inconvenientes.

Todavía no puede usar Google Lens, lo que significa que Gemini no puede comparar las imágenes que ve en la pantalla de su teléfono con resultados coincidentes en la web. Además, no puede acceder a información en tiempo real si le pides a Gemini que busque los últimos avances sobre un tema o personalidad.

Le pregunté sobre especies de plantas, listados de restaurantes, cómo recoger datos de los tablones de anuncios y cómo entender mi receta médica para un reciente ataque de gripe. A Gemini le fue bastante bien, más de lo que jamás haya experimentado el desempeño del chatbot de IA hasta ahora.

Desbloquear un banco de conocimientos

A continuación, presioné a Géminis para que le diera sentido a material académico complejo. Puse un libro sobre aprendizaje automático en el marco de la cámara. Gemini Live no sólo lo reconoció, sino que también procedió a brindarme una descripción general del contenido del libro y sus temas principales.

Curiosamente, comencé a hojear las páginas y llegué a la lista de capítulos. La IA reconoció el progreso, dejó de hablar y me preguntó si estaba interesado en algún capítulo en particular ahora que estaba revisando la lista de temas.

Me sorprendió en este momento.

Le pedí que analizara algunos temas complejos y la IA hizo un trabajo respetable, yendo incluso más allá del alcance del material en la página y extrayendo información de su amplio banco de conocimientos.

Por ejemplo, cuando le pregunté sobre el contenido de la página introductoria de la novela fundamental de Bhisham Sahni, Tamas, la IA captó correctamente la mención del Premio Sahitya Akademi. Luego continuó mencionando detalles que ni siquiera figuraban en la página, como el año en que ganó el prestigioso honor literario y de qué trata el libro.

Por otro lado, la lectura en hindi de Gemini Live fue horrible. No era sólo el pobre acento, sino el hecho de que Géminis estaba diciendo puras tonterías y sin palabras repetidamente. Al intentar leer urdu, persa y árabe, hizo un trabajo considerablemente mejor, pero a menudo confundía palabras de líneas aleatorias.

En mi primer intento con la poesía urdu, no solo reconoció el texto urdu, sino que también proporcionó un resumen preciso del poema. El mayor desafío, una vez más, fue la narración. Escuchar una versión inglesa del urdu realmente me dolió los oídos.

Destaca en lugares sorprendentes

La IA es una herramienta fantástica para la resolución de problemas y existen numerosos puntos de referencia que lo demuestran. Lo probé con problemas de física relacionados con termodinámica, ecuaciones electroquímicas y problemas estadísticos que aparecen en un cuaderno escrito a mano. Gemini Live hizo un trabajo fantástico en estas tareas.

Incluso se destacó en las tareas creativas. Mi hermana, que es diseñadora de moda, presentó uno de sus bocetos frente a la cámara y pidió comentarios y mejoras. Gemini Live comenzó elogiando el diseño, trazó paralelismos con la ideología de diseño de algunas marcas de moda e hizo algunas recomendaciones.

Cuando se le insistió más, la IA también aconsejó a mi hermana sobre las mejores herramientas para convertir bocetos dibujados a mano en conceptos digitales. Siguió esas palabras de orientación al proporcionar información útil sobre la pila de software y dónde se puede encontrar material de aprendizaje.

Cuando puse un par de baterías Duracell en la vista de la cámara, no solo las reconoció con precisión, sino que también me indicó las plataformas de comercio electrónico hiperlocales que pueden entregármelas en cuestión de minutos.

Los servicios, llamados Blinkit y Swiggy Instamart, sólo están disponibles en la India y en su mayoría están reservados para zonas urbanas. Incluso en una habitación con poca luz, pudo identificar un par de auriculares con cable en el primer intento.

La conciencia de la situación es su fuerte.

En comparación con el chat habitual de Gemini o lo que encuentra en la sección de descripciones generales de IA de la Búsqueda de Google, las conversaciones de Gemini Live adoptan un enfoque más cauteloso a la hora de distribuir conocimientos, especialmente si son de naturaleza sensible. Me di cuenta de que temas como las recomendaciones alimentarias y el tratamiento médico se tratan con un enfoque cada vez más cauteloso, y a menudo se insta a los usuarios a encontrar el recurso experto adecuado.

Algunos errores familiares

Mi conclusión abrumadora es que el cambio de imagen del “Proyecto Astra” de Gemini es muy impresionante. Es un vistazo al futuro de lo que pueden lograr los teléfonos inteligentes. Con algunas mejoras, integraciones y flujos de trabajo entre aplicaciones, puede hacer que la Búsqueda de Google parezca una reliquia obsoleta. Pero por ahora, hay algunos defectos evidentes.

En algunas ocasiones, noté que el sistema de memoria se vuelve loco. Cuando se le pidió a la IA que identificara una pulsera de actividad física en la vista de la cámara, la reconoció correctamente como el Samsung Galaxy Fit 3 . Pero cuando hice una pregunta de seguimiento, percibió erróneamente el dispositivo como una pulsera de fitness de Huawei.

También puede mentir descaradamente. Y con bastante confianza, podría decir. Por ejemplo, cuando le dije que resumiera mi revisión del dispositivo portátil, la IA respondió que Digital Trends aún no lo había revisado. En realidad, el artículo fue publicado hace una semana.

A continuación, le pedí que revisara algunos artículos en mi página de autor después de habilitar el uso compartido de pantalla. Géminis hizo un trabajo decente al explicar las historias, pero ocasionalmente tropezó con la comprensión contextual. Por ejemplo, mencionó incorrectamente que solo Intel y AMD pueden fabricar NPU que califiquen para la insignia Copilot+ .

El artículo, por otro lado, menciona claramente que Qualcomm fue el primero en cumplir ese criterio, por delante de la competencia. Y que no fue hasta finales del año pasado que AMD e Intel finalmente pudieron subir de nivel y alcanzar esa línea base de chips de IA con una nueva cartera de procesadores.

A mitad de la conversación sobre un artículo, nuevamente nos topamos con un problema de memoria. En lugar de resumir la historia que se estaba discutiendo, volvió a hablar sobre el primer artículo que vio a través de la pantalla compartida. Cuando lo interrumpí a mitad de la narración, Géminis arregló su error.

Otro problema que noté con la narración en idiomas distintos del inglés es que Gemini Live cambió aleatoriamente la voz y el ritmo a mitad de la narración. Era bastante discordante y la pronunciación era absolutamente mecánica, muy diferente de sus habilidades de conversación humanas en inglés.

Las luchas de la visión artificial también son evidentes contra las fuentes estilísticas. En algunas ocasiones, escupió con confianza información incorrecta y, cuando se le pidió que se corrigiera, la IA expresó su incapacidad para encontrar la información más reciente sobre ese tema. Esos escenarios son raros, pero los errores de Géminis llegaron para quedarse.

Para resumir, creo que Gemini Live con cámara y pantalla compartida es uno de los mayores avances que ha dado la IA hasta ahora. Es una de las implementaciones de IA generativa más gratificantes en la práctica hasta el momento. Todo lo que necesita es una pizca de diversidad y una solución a su síndrome del “mentiroso confiado”.

Las cosas definitivamente van por el camino correcto ahora, y de manera abrumadora, pero aún faltan algunos hitos cruciales para convertirse en el compañero perfecto de IA de los sueños tecnofuturistas.