He probado las afirmaciones de OpenAI sobre GPT-5: esto es lo que sucedió

OpenAI lanzó recientemente GPT-5 , su último modelo de lenguaje extenso y una importante actualización de ChatGPT . Si bien la nueva actualización tiene mucho que ofrecer, las afirmaciones son una cosa y la realidad es otra.

Se dice que GPT-5 es más rápido, menos propenso a las alucinaciones y al comportamiento adulador, y capaz de elegir entre respuestas rápidas y un pensamiento más profundo sobre la marcha. ¿Cuántas de las afirmaciones de OpenAI son realmente visibles al usar el chatbot? Averigüémoslo.

Afirmación n.º 1: ChatGPT ahora sigue mejor las instrucciones

Mi principal problema con ChatGPT, y una de las razones por las que me di de baja recientemente , es que suele ser bastante deficiente para seguir instrucciones básicas. Claro, puedes modificarlo con facilidad y obtener los resultados deseados (a veces), pero incluso las indicaciones semielaboradas a menudo no producen los resultados deseados.

OpenAI afirma haber mejorado el seguimiento de instrucciones con el lanzamiento de GPT-5. A eso, respondo: todavía no lo veo.

Por suerte, el mismo día que me senté a escribir este artículo, tuve una interacción muy apropiada con ChatGPT que confirma mi punto. Sin embargo, no es la única, y generalmente he notado que cuanto más se alarga una conversación, más olvida ChatGPT lo que se le pidió.

En el ejemplo de hoy, probé la capacidad de ChatGPT para obtener información simple y presentarla en el formato requerido. Le pregunté por las especificaciones de la RTX 5060 Ti, una tarjeta gráfica para juegos reciente. Se desató el caos.

Para que mi solicitud fuera aún más efectiva, le mostré a ChatGPT el formato exacto en el que quería obtener mi información, compartiendo las especificaciones de una GPU diferente. Incluían información como el nodo de proceso exacto, la generación de núcleos de trazado de rayos y TOPS. En resumen, todo era bastante específico. Inicialmente, la IA me dijo que la RTX 5060 Ti aún no existía, algo que ya esperaba, dado su límite de conocimiento. Le pedí que lo consultara en línea.

Lo que obtuve fue bastante básico. ChatGPT omitió al menos cuatro cosas que solicité y me dio información incorrecta para una de las especificaciones. Después, le pedí que especificara algunas cosas. Me devolvió exactamente la misma lista, aunque afirmó haber cumplido con mi solicitud. Lo mismo ocurrió al tercer intento. Puedes verlo en la captura de pantalla anterior, donde ChatGPT afirma haber incluido la generación de TOPS y TFLOPS en la lista; claramente no lo hizo.

Finalmente, algo frustrado, pegué una captura de pantalla del sitio web oficial de Nvidia para mostrarle lo que buscaba. Aun así, tenía un par de errores.

Mi instrucción inicial fue bastante precisa. Sé que no debo hablarle a una IA como si fuera una persona, así que le di unas 150 palabras de instrucciones. Aun así, me tomó varios mensajes más para obtener algo cercano al resultado esperado.

Veredicto: Aún podría mejorarse un poco.

Afirmación n.º 2: ChatGPT es menos adulador

ChatGPT era un gran "sí señor" en iteraciones anteriores. A menudo coincidía con los usuarios cuando no era necesario, hundiéndolo cada vez más en la alucinación.

Para los usuarios que no están familiarizados con el funcionamiento interno de la IA, esto podría ser casi peligroso o, de hecho, extremadamente peligroso.

Recientemente, investigadores realizaron una prueba a gran escala de ChatGPT, haciéndose pasar por adolescentes. En cuestión de minutos, tras interacciones sencillas, la IA les ofreció consejos sobre autolesiones, planes de suicidio y abuso de drogas. Esto demuestra que el comportamiento adulador es un problema importante para ChatGPT, y OpenAI afirma haberlo reducido en parte con el lanzamiento de GPT-5.

Nunca había probado ChatGPT tan a fondo, pero sin duda descubrí que tendía a darte la razón, dijeras lo que dijeras. Captaba sutiles señales durante la conversación y las convertía en algo natural. También te animaba en momentos en los que probablemente no debería haberlo hecho.

En ese sentido, debo decir que ChatGPT ha experimentado un cambio radical, para bien o para mal. Las respuestas ahora son demasiado secas, poco atractivas y nada alentadoras.

Muchos usuarios lamentan el cambio, y algunos usuarios de Reddit afirman haber perdido a su único amigo de la noche a la mañana . Es cierto que la IA, antes ultra amigable, ahora es bastante simple, y las respuestas suelen ser breves en comparación con los miniensayos repletos de emojis que ofrecía regularmente durante su etapa GPT-40.

Veredicto: Definitivamente menos aduladora. Por otro lado, también es dolorosamente aburrida.

Afirmación n.º 3: GPT-5 es mejor en cuanto a precisión fáctica

La impactante falta de precisión fáctica fue otra de las principales razones por las que decidí dejar de pagar ChatGPT. Algunos días, sentía que la mitad de las indicaciones que usaba me producían alucinaciones. Y no todo puede deberse a mi falta de indicaciones inteligentes, porque he dedicado cientos de horas a aprender a usar la IA correctamente: sé cómo hacer las preguntas correctas.

Con el tiempo, he aprendido a preguntar solo sobre temas que ya conocía vagamente. Para el experimento de hoy, pregunté sobre las especificaciones de la GPU. Cuatro de cada cinco consultas arrojaron algún tipo de información errónea, a pesar de que toda está disponible en línea.

Luego, probé con datos históricos. Leí un par de artículos interesantes sobre el viaje del Hindenburg, un dirigible de la década de 1930 que podía transportar pasajeros de Europa a Estados Unidos en tiempo récord (60 horas). Pregunté sobre su ruta exacta, el número de pasajeros que podía transportar y qué provocó su desaparición. Cotejé las respuestas con fuentes históricas.

Se equivocó en una cosa durante la ruta: mencionó una parada en Canadá cuando no ocurrió nada parecido: el dirigible solo sobrevoló Canadá. ChatGPT también me dio información inexacta sobre la causa exacta del incendio que provocó el accidente, pero no fue una inexactitud grave.

Para comparar, también le pregunté a Gemini y me dijeron que no podía completar esa tarea. Bueno, de los dos, GPT-5 hizo un mejor trabajo, pero sinceramente, no debería tener ninguna inexactitud factual con datos de hace un siglo.

Veredicto: No es perfecto, pero tampoco terrible.

¿Es GPT-5 mejor que GPT-4o?

Si me preguntaran si me gusta más GPT-5 que GPT-4o, me habría costado mucho responder. Lo más probable es que ninguno de los dos me entusiasmó, pero, siendo justos, ninguno es del todo malo.

Aún estamos en plena revolución de la IA. Cada nuevo modelo trae ciertas mejoras, pero es poco probable que veamos avances significativos con cada nueva iteración.

Esta vez, parece que OpenAI decidió abordar problemas pendientes desde hace tiempo en lugar de introducir una sola función que enloqueciera al público. GPT-5 parece más una mejora en la calidad de vida que cualquier otra cosa, aunque no lo he probado en tareas como la programación, donde se dice que es mucho mejor.

Las tres cosas que probé anteriormente fueron algunas de las que más me molestaron en modelos anteriores. Me gustaría decir que GPT-5 es mucho mejor en ese aspecto, pero no lo es, todavía no. Sin embargo, seguiré probando el chatbot, ya que un aviso del sistema filtrado recientemente me indica que podría haber habido más cambios de personalidad de los que inicialmente pensé.