Las investigaciones demuestran que las instituciones educativas no deben depositar demasiada confianza en los detectores de texto basados ​​en IA.

He aquí una reflexión incómoda para todas las instituciones académicas que actualmente utilizan detectores de IA para controlar las entregas de estudiantes e investigadores: estas herramientas no funcionan con la fiabilidad que las instituciones suponen.

Un artículo presentado esta semana en el Simposio IEEE 2026 sobre Seguridad y Privacidad por investigadores de la Universidad de Florida concluye que los detectores de texto generados por IA disponibles comercialmente "no son adecuados para su implementación en contextos académicos o de alto riesgo".

Esa es una forma educada de decir que las universidades están tomando decisiones que pueden cambiar la trayectoria profesional de los estudiantes basándose en resultados de herramientas que, en esencia, no son fiables.

¿Qué reveló realmente la investigación?

Patrick Traynor, doctor, profesor y director interino del Departamento de Ciencias de la Computación e Ingeniería de la Información de la Universidad de Florida, dirigió un equipo que probó los cinco detectores de texto con inteligencia artificial más populares disponibles comercialmente.

Utilizando aproximadamente 6.000 artículos de investigación presentados en conferencias de seguridad de primer nivel incluso antes de la llegada de ChatGPT , hicieron que expertos en derecho crearan clones de esos mismos artículos y luego pasaron ambos conjuntos por los detectores de IA.

Los resultados mostraron tasas de falsos positivos que oscilaron entre el 0,05 % y el 68,6 %, y, aún más sorprendente, tasas de falsos negativos entre el 0,3 % y el 99,6 %. Esta última cifra se acerca al 100 %, lo que significa que el detector con peor rendimiento no detectó prácticamente ningún texto generado por IA.

Si bien dos de los cinco detectores funcionaron bien inicialmente, se volvieron prácticamente inútiles después de que los investigadores le pidieran al LLM que reescribiera sus resultados utilizando un vocabulario más complejo (el artículo denomina a esto un ataque de complejidad léxica).

¿Por qué esto importa más allá de la integridad académica?

Traynor lo expresó claramente: «Realmente no podemos utilizarlas para dirimir estas decisiones. Hay carreras profesionales en juego». Una acusación de que un texto fue generado por IA puede dañar permanentemente la reputación de un investigador, pero no podemos confiar ciegamente en las herramientas que formulan esas acusaciones.

El argumento es que la evidencia sobre el uso generalizado de la IA en la escritura académica es, en sí misma, poco fiable. «A pesar de la gran cantidad de estudios que afirman que un cierto porcentaje del trabajo académico es generado por IA, en realidad no contamos con herramientas para medirlo», añadió Traynor.

Su investigación no se limita a criticar las herramientas; expone un fallo sistémico de diligencia debida por parte de todas las instituciones que adoptaron estas herramientas sin exigir pruebas de su exactitud.