¿Hemos superado por fin el problema de las alucinaciones de la IA? Pongo a prueba a las mejores IA.
Con la IA integrándose poco a poco en la vida cotidiana de muchas personas, es importante saber si la información que proporcionan estos compañeros es realmente precisa. Una alucinación de IA se produce cuando una IA percibe patrones u objetos inexistentes para los humanos, lo que significa que crea resultados sin sentido o inexactos. Este ha sido un problema importante con la IA, ya sea con la generación de imágenes y el exceso de dedos en las manos de los humanos, o cuando recopila información veraz y la presenta erróneamente.
Así que decidí poner a prueba cinco chatbots de IA diferentes, haciéndoles preguntas de trivia y haciendo un seguimiento de sus respuestas. Les hice a cada chatbot diez preguntas diferentes, cuyas respuestas no se podían interrumpir. Esto garantizaba que la IA pudiera acertar o no al responder. También quería registrar si los chatbots proporcionaban fuentes de información y si era necesario incitarlos.
Aquí están todas las preguntas que les hice a los chatbots de IA:
- ¿Que fecha es hoy?
- ¿Quién fue Albert Einstein?
- ¿En qué fecha los humanos caminaron por primera vez sobre la luna y cuál era el nombre de la primera persona?
- ¿Quién fue la primera mujer en ganar un Premio Nobel y por qué fue?
- ¿Cuál es el único mar que no tiene costa?
- ¿Qué artista del Renacimiento está enterrado en el Panteón de Roma?
- ¿En qué año se crearon las Naciones Unidas?
- ¿Qué país bebe más café per cápita?
- ¿Cuál es la especia más rara y más cara del mundo en peso?
- ¿Qué personajes han interpretado Robert Downey Jr. y Benedict Cumberbatch?
Resultados
En general, los resultados han demostrado que las alucinaciones de la IA están disminuyendo con el tiempo. A medida que se lanzan nuevas versiones de compañeros de IA, ya sea Gemini 2.5 o GPT-5, se vuelven más inteligentes y menos propensos a alucinar. Sin embargo, nunca se puede garantizar la precisión de toda la información, lo que significa que las fuentes son esenciales al usar IA. Si bien las alucinaciones de la IA están disminuyendo, definitivamente no hemos superado el problema por completo, ya que 2 de los 5 chatbots se equivocan en una pregunta.
| Google Géminis | ChatGPT | Grok | IA profunda | Microsoft Copilot | |
| ¿Que fecha es hoy? | ✓ | ✓ | ✓ | incógnita | ✓ |
| ¿Quién fue Albert Einstein? | ✓ | ✓ | ✓ | ✓ | ✓ |
| ¿En qué fecha los humanos caminaron por primera vez sobre la luna y cuál era el nombre de la primera persona? | ✓ | ✓ | ✓ | ✓ | ✓ |
| ¿Quién fue la primera mujer en ganar un Premio Nobel y por qué fue? | ✓ | ✓ | ✓ | ✓ | ✓ |
| ¿Cuál es el único mar que no tiene costa? | ✓ | ✓ | ✓ | ✓ | ✓ |
| ¿Qué artista del Renacimiento está enterrado en el Panteón de Roma? | ✓ | ✓ | ✓ | ✓ | ✓ |
| ¿En qué año se crearon las Naciones Unidas? | ✓ | ✓ | ✓ | ✓ | ✓ |
| ¿Qué país bebe más café per cápita? | ✓ | ✓ | ✓ | ✓ | incógnita |
| ¿Cuál es la especia más rara y más cara del mundo en peso? | ✓ | ✓ | ✓ | ✓ | ✓ |
| ¿Qué personajes han interpretado Robert Downey Jr. y Benedict Cumberbatch? | ✓ | ✓ | ✓ | ✓ | ✓ |
Descomponer
- Google Gemini respondió todas las preguntas correctamente y proporcionó un amplio contexto para cada respuesta, además de diversos enlaces a fuentes para cada información. Con un promedio de cuatro fuentes para cada respuesta, se pueden comparar fácilmente para garantizar la exactitud de las respuestas.
- ChatGPT tampoco se equivocó en ninguna respuesta y proporcionó mucho contexto para cada una. Sin embargo, una desventaja es que ChatGPT no proporcionaba automáticamente las fuentes de la información, pero proporcionaba enlaces si se solicitaban.
- Grok proporcionó respuestas mucho más concisas, a la vez que proporcionaba el contexto necesario. No había enlaces a las fuentes de la información proporcionada, pero, si se le solicitaba, el chatbot proporcionaba enlaces.
- Deep AI se equivocó en la primera pregunta, diciéndome que la fecha de hoy era el 27 de octubre de 2023, a pesar de que era el 10 de octubre de 2025 cuando pregunté. Por lo demás, todas las demás preguntas fueron correctas. Las respuestas fueron muy breves, con poco contexto en la mayoría de los casos, y solo respuestas directas. No se proporcionaron fuentes, pero se proporcionaron enlaces cuando se solicitaron.
- Microsoft Copilot respondió incorrectamente la pregunta número 8, pero aun así proporcionó una fuente que respaldaba su respuesta, lo que significa que esto podría deberse a fuentes contradictorias y no a alucinaciones. Copilot proporcionó fuentes sin que se le pidiera responder la mayoría de las preguntas, pero no todas; sin embargo, proporcionó enlaces cuando se le pidió.
En general, esto confirma que es necesario verificar las fuentes de información proporcionada por IA y, si bien esto puede requerir que solicites la fuente, vale la pena tomar este paso adicional para asegurarte de que la información que estás viendo sea precisa.
