Google descubre que los chatbots de IA tienen una precisión de solo el 69%… en el mejor de los casos

Google ha publicado una evaluación contundente sobre la fiabilidad de los chatbots de IA actuales, y las cifras no son alentadoras. Utilizando su recién presentada suite de referencia FACTS , la compañía descubrió que incluso los mejores modelos de IA tienen dificultades para superar el 70 % de precisión factual. El modelo con mejor rendimiento, Gemini 3 Pro , alcanzó un 69 % de precisión general, mientras que otros sistemas líderes de OpenAI , Anthropic y xAI obtuvieron puntuaciones aún más bajas. La conclusión es simple e incómoda: estos chatbots siguen acertando aproximadamente una de cada tres respuestas, incluso cuando parecen seguros al hacerlo .

El punto de referencia es importante porque la mayoría de las pruebas de IA existentes se centran en si un modelo puede completar una tarea, no en si la información que produce es realmente veraz . Para sectores como el financiero, el sanitario y el jurídico, esa brecha puede ser costosa. Una respuesta fluida que suene segura, pero que contenga errores, puede ser muy perjudicial, especialmente cuando los usuarios asumen que el chatbot sabe de qué habla.

Lo que revela la prueba de precisión de Google

El conjunto de pruebas FACTS Benchmark fue desarrollado por el equipo FACTS de Google con Kaggle para evaluar directamente la precisión fáctica en cuatro situaciones reales. Una prueba mide el conocimiento paramétrico, que verifica si un modelo puede responder preguntas basadas en hechos utilizando únicamente lo aprendido durante el entrenamiento. Otra evalúa el rendimiento de la búsqueda, comprobando la eficacia de los modelos para utilizar herramientas web para recuperar información precisa. Una tercera se centra en la fundamentación, es decir, si el modelo se atiene a un documento proporcionado sin añadir detalles falsos. La cuarta examina la comprensión multimodal, como la lectura correcta de gráficos, diagramas e imágenes.

Los resultados muestran marcadas diferencias entre los modelos. Gemini 3 Pro lideró la clasificación con una puntuación FACTS del 69%, seguido de Gemini 2.5 Pro y ChatGPT-5 de OpenAI con casi el 62%. Claude 4.5 Opus alcanzó un ~51%, mientras que Grok 4 obtuvo una puntuación de ~54%. Las tareas multimodales fueron el punto más débil en general, con una precisión a menudo inferior al 50%. Esto es importante porque estas tareas implican la lectura de gráficos, diagramas o imágenes, donde un chatbot podría malinterpretar con seguridad un gráfico de ventas o extraer una cifra errónea de un documento, lo que provoca errores fáciles de pasar por alto, pero difíciles de corregir.

La conclusión no es que los chatbots sean inútiles, sino que la confianza ciega es arriesgada. Los propios datos de Google sugieren que la IA está mejorando, pero aún necesita verificación, medidas de seguridad y supervisión humana antes de que pueda considerarse una fuente fiable de información.

La publicación Google descubre que los chatbots de IA tienen una precisión de solo el 69 %… en el mejor de los casos apareció primero en Digital Trends .