He aquí por qué la gente dice que GPT-4 se está volviendo “vago”

OpenAI y sus tecnologías han estado en medio de un escándalo durante la mayor parte de noviembre. Entre el rápido despido y la recontratación del CEO Sam Altman y el curioso caso de las suscripciones pagasde ChatGPT Plus detenidas , OpenAI ha mantenido a la industria de la inteligencia artificial en las noticias durante semanas.

Ahora, los entusiastas de la IA han vuelto a plantear un problema que hace que muchos se pregunten si GPT-4 se está volviendo “más vago” a medida que se sigue entrenando el modelo de lenguaje. Muchos de los que lo utilizan para acelerar tareas más intensivas han recurrido a X (anteriormente Twitter) para expresar sus quejas sobre los cambios percibidos.

OpenAI ha protegido GPT-4 lo suficiente como para volverse perezoso e incompetente.

¿Convertir este archivo? Demasiado largo. ¿Escribir una tabla? Aquí están las tres primeras líneas. ¿Leer este enlace? Lo siento, no puedo. ¿Leer este archivo py? Ups, no permitido.

Muy frustrante.

– rohit (@krishnanrohit) 28 de noviembre de 2023

Rohit Krishnan en X detalló varios de los contratiempos que experimentó al usar GPT-4, que es el modelo de lenguaje detrás de ChatGPT Plus, la versión paga de ChatGPT. Explicó que el chatbot rechazó varias de sus consultas o le dio versiones truncadas de sus solicitudes cuando pudo obtener respuestas detalladas anteriormente. También señaló que el modelo de lenguaje utilizará herramientas distintas a las que se le indicó que use, como Dall-E cuando un mensaje solicita un intérprete de código. Krishnan también agregó sarcásticamente que "análisis de errores" es la forma en que el modelo de lenguaje dice "AFK [lejos del teclado], vuelvo en un par de horas".

Matt Wensing en Xdetalló su experimento , donde le pidió a ChatGPT Plus que hiciera una lista de fechas desde ahora hasta el 5 de mayo de 2024, y el chatbot requirió información adicional, como la cantidad de semanas entre esas fechas, antes de poder completarse. la tarea inicial.

El profesor de Wharton, Ethan Mollick, también compartió sus observaciones sobre GPT-4 después de comparar secuencias con el intérprete de códigos que ejecutó en julio con consultas más recientes del martes. Concluyó que GPT-4 todavía tiene conocimientos, pero señaló que le explica cómo arreglar su código en lugar de arreglarlo realmente. En esencia, tendría que hacer el trabajo que le pedía a GPT-4. Aunque Mollick no tiene la intención de criticar el lenguaje, sus observaciones están en sintonía con lo que otros han descrito como "conversaciones" de GPT-4.

Se sabe que ChatGPT alucina respuestas a información que no conoce, pero estos errores parecen ir mucho más allá de los errores comunes del chatbot de IA. GPT-4 se introdujo en marzo, pero ya en julio comenzaron a surgir informes de que el modelo de lenguaje se estaba volviendo "más tonto". Un estudio realizado en colaboración con la Universidad de Stanford y la Universidad de California en Berkeley observó que la precisión de GPT-4 cayó del 97,6% al 2,4% sólo entre marzo y junio. Detalló que la versión paga de ChatGPT no pudo proporcionar la respuesta correcta a una ecuación matemática con una explicación detallada, mientras que la versión no paga que todavía ejecuta un modelo GPT 3.5 anterior dio la respuesta correcta y una explicación detallada del proceso matemático.

Durante ese tiempo, Peter Welinder, vicepresidente de productos OpenAI, sugirió que los usuarios habituales podrían experimentar un fenómeno psicológico en el que la calidad de las respuestas podría parecer degradarse con el tiempo cuando el modelo de lenguaje en realidad se vuelve más eficiente.

Se ha debatido si GPT-4 se ha vuelto "vago" recientemente. Mis pruebas anecdóticas sugieren que puede ser cierto.

Repetí una secuencia de análisis antiguos que hice con Code Interpreter. GPT-4 todavía sabe qué hacer, pero sigue diciéndome que haga el trabajo. Un paso ahora son muchos & algunos son extraños. pic.twitter.com/OhGAMtd3Zq

– Ethan Mollick (@emollick) 28 de noviembre de 2023

Según Mollick, los problemas actuales también podrían ser temporales y deberse a una sobrecarga del sistema o a un cambio en el estilo del mensaje que no se ha hecho evidente para los usuarios. En particular, OpenAI citó una sobrecarga del sistema como una razón para cerrar el registro de ChatGPT Plus luego del aumento en el interés en el servicio después de que su conferencia inaugural de desarrolladores DevDay introdujera una serie de nuevas funciones para la versión paga del chatbot de IA. Todavía hay una lista de espera para ChatGPT Plus. El profesor también añadió que ChatGPT en dispositivos móviles utiliza un estilo de mensaje diferente, lo que da como resultado "respuestas más breves y directas".

Yacine en X detalló que la falta de confiabilidad del último modelo GPT-4 debido a la caída en el cumplimiento de las instrucciones les ha hecho volver a la codificación tradicional, y agregó que planean crear un LLM de código local para recuperar el control de los parámetros del modelo. Otros usuarios han mencionado haber optado por opciones de código abierto en medio del declive del modelo de lenguaje.

De manera similar, el usuario de Reddit Mindless-Ad8595 explicó que las actualizaciones más recientes de GPT-4 lo han vuelto demasiado inteligente para su propio bien. "No viene con una 'ruta' predefinida que guíe su comportamiento, lo que lo hace increíblemente versátil, pero también algo sin dirección por defecto", afirmó.

El programador recomienda a los usuarios crear GPT personalizados especializados por tarea o aplicación para aumentar la eficiencia de la salida del modelo. No proporciona ninguna solución práctica para los usuarios que permanecen dentro del ecosistema de OpenAI.

El desarrollador de aplicaciones Nick Dobos compartió su experiencia con los contratiempos de GPT-4 y señaló que cuando le pidió a ChatGPT que escribiera pong en SwiftUI , descubrió varios marcadores de posición y tareas pendientes dentro del código. Añadió que el chatbot ignoraría los comandos y continuaría insertando estos marcadores de posición y tareas pendientes en el código incluso cuando se le indicara que hiciera lo contrario. Varios usuarios de X confirmaron experiencias similares de este tipo con sus propios ejemplos de código con marcadores de posición y tareas pendientes. La publicación de Dobos llamó la atención de un empleado de OpenAI, quien dijo que enviarían ejemplos al equipo de desarrollo de la compañía para una solución, con la promesa de compartir cualquier actualización mientras tanto.

En general, no existe una explicación clara de por qué GPT-4 está experimentando complicaciones actualmente. Los usuarios que comentan sus experiencias en línea han sugerido muchas ideas. Estos van desde la fusión de modelos OpenAI hasta una sobrecarga continua del servidor, desde la ejecución de GPT-4 y GPT-4 Turbo hasta el intento de la empresa de ahorrar dinero limitando los resultados, entre otros.

Es bien sabido que OpenAI realiza una operación extremadamente costosa. En abril de 2023, los investigadores indicaron que se necesitaban 700.000 dólares por día , o 36 centavos por consulta, para mantener ChatGPT en funcionamiento. Los analistas de la industria detallaron en ese momento que OpenAI tendría que ampliar su flota de GPU en 30.000 unidades para mantener su rendimiento comercial en lo que resta del año. Esto implicaría soporte para los procesos ChatGPT, además de la informática para todos sus socios.

Mientras esperaban que se estabilizara el rendimiento de GPT-4, los usuarios intercambiaron varias bromas, aclarando la situación en X.

“Lo siguiente que sabes es que llamas para decir que estás enfermo”, dijo Southrye .

“Tantas respuestas con “y tú haces el resto”. No, TÚ haces el resto”, dijo Garnett .

Definitivamente es difícil ignorar la cantidad de respuestas y publicaciones sobre el problema. Tendremos que esperar y ver si OpenAI puede abordar el problema de frente en una actualización futura.