El último modelo de ChatGPT puede ser una regresión en el rendimiento

noviembre 22, 2024 Aranzulla de Los Pobres

Según un nuevo informe de Artificial Analysis , el modelo de lenguaje grande insignia de OpenAI para ChatGPT , GPT-4o, ha retrocedido significativamente en las últimas semanas, poniendo el rendimiento del modelo de última generación a la par del mucho más pequeño y notablemente menos capaz. , Modelo GPT-4o-mini .

Este análisis llega menos de 24 horas después de que la compañía anunciara una actualización para el modelo GPT-4o . "La capacidad de escritura creativa del modelo ha subido de nivel: una escritura más natural, atractiva y personalizada para mejorar la relevancia y la legibilidad", escribió OpenAI en X. "También es mejor para trabajar con archivos cargados, proporcionando información más profunda y respuestas más completas". Ahora está en duda si esas afirmaciones continúan manteniéndose.

"Ayer completamos la ejecución de nuestras evaluaciones independientes en el lanzamiento de GPT-4o de OpenAI y estamos midiendo constantemente puntajes de evaluación materialmente más bajos que el lanzamiento de GPT-4o en agosto", anunció el Análisis Artificial a través de una publicación X el jueves, señalando que el Análisis Artificial del modelo El índice de calidad disminuyó de 77 a 71 (y ahora es igual al de GPT-4o mini).

Es más, el rendimiento de GPT-4o en el punto de referencia GPQA Diamond disminuyó del 51% al 39%, mientras que sus puntos de referencia MATH disminuyeron del 78% al 69%.

Al mismo tiempo, los investigadores descubrieron más del doble en el aumento de la velocidad de las respuestas del modelo, acelerando de alrededor de 80 tokens de salida por segundo a aproximadamente 180 tokens/s. "En general, hemos observado velocidades significativamente más rápidas el día del lanzamiento para los modelos OpenAI (probablemente debido a la capacidad de aprovisionamiento de OpenAI antes de la adopción), pero anteriormente no habíamos visto una diferencia de velocidad del doble", escribieron los investigadores.

Espera, ¿es el nuevo GPT-4o un modelo más pequeño y menos inteligente?
Ayer completamos la ejecución de nuestras evaluaciones independientes en la versión GPT-4o de OpenAI y estamos midiendo constantemente puntuaciones de evaluación materialmente más bajas que la versión de agosto de GPT-4o.
GPT-4o (noviembre) frente a GPT-4o (agosto):
➤… pic.twitter.com/gjY2pBFuUv
– Análisis artificial (@ArtificialAnlys) 21 de noviembre de 2024

"Con base en estos datos, llegamos a la conclusión de que es probable que el modelo GPT-4o de OpenAI del 20 de noviembre sea un modelo más pequeño que el lanzamiento de agosto", continuaron. "Dado que OpenAI no ha reducido los precios para la versión del 20 de noviembre, recomendamos que los desarrolladores no desplacen las cargas de trabajo de la versión de agosto sin realizar pruebas cuidadosas".

GPT-4o se lanzó por primera vez en mayo de 2024 para superar a los modelos GPT-3.5 y GPT-4 existentes. GPT-4o ofrece resultados comparativos de última generación en tareas de voz, multilingües y visuales, según OpenAI, lo que lo hace ideal para aplicaciones avanzadas como traducción en tiempo real e IA conversacional.