Un nuevo estudio muestra que la IA no está lista para el trabajo de oficina

Han pasado casi dos años desde que Satya Nadella, CEO de Microsoft, predijo que la IA generativa se haría cargo del trabajo del conocimiento, pero si observamos el entorno de un bufete de abogados o un banco de inversión típico hoy en día, la fuerza laboral humana sigue teniendo el control. A pesar de todo el revuelo en torno al "razonamiento" y la "planificación", un nuevo estudio de la empresa de datos de entrenamiento Mercor explica exactamente por qué la revolución robótica está estancada: la IA simplemente no puede gestionar el desorden del trabajo real.

Una verificación de la realidad para la teoría del “reemplazo”

Mercor lanzó un nuevo benchmark llamado APEX-Agents, y es brutal. A diferencia de las pruebas habituales que piden a la IA que escriba un poema o resuelva un problema matemático, este utiliza consultas reales de abogados, consultores y banqueros. Pide a los modelos que realicen tareas completas de varios pasos que requieren cambiar entre diferentes tipos de información.

¿Los resultados? Ni siquiera los mejores modelos del mercado —hablamos de Gemini 3 Flash y GPT-5.2— lograron una precisión del 25 %. Gemini lideró el grupo con un 24 %, seguido de cerca por GPT-5.2 con un 23 %. La mayoría de los demás se quedaron estancados en el 10 %.

Por qué la IA no pasa la prueba de oficina

Brendan Foody, director ejecutivo de Mercor, señala que el problema no es la inteligencia en bruto, sino el contexto. En el mundo real, las respuestas no se sirven en bandeja de plata. Un abogado tiene que consultar un hilo de Slack, leer una política en PDF, revisar una hoja de cálculo y luego sintetizar todo para responder a una pregunta sobre el cumplimiento del RGPD.

Los humanos cambian de contexto de forma natural. Resulta que la IA es pésima en ello. Al obligar a estos modelos a buscar información en fuentes dispersas, se confunden, dan una respuesta incorrecta o simplemente se dan por vencidos.

El “pasante poco confiable”

Para quienes se preocupan por su seguridad laboral, esto es un alivio. El estudio sugiere que, actualmente, la IA funciona menos como un profesional experimentado y más como un becario poco fiable que acierta aproximadamente una cuarta parte del tiempo.

Dicho esto, el progreso es aterradoramente rápido. Foody señaló que hace tan solo un año, estos modelos obtenían entre un 5% y un 10%. Ahora alcanzan el 24%. Así que, aunque aún no están listos para tomar el volante, están aprendiendo a conducir mucho más rápido de lo que esperábamos. Por ahora, sin embargo, la revolución del "trabajo del conocimiento" está en suspenso hasta que los bots aprendan a realizar múltiples tareas.

Un nuevo estudio muestra que la IA no está lista para el trabajo de oficina apareció primero en Digital Trends .