OpenAI adelanta su modelo de razonamiento o3 ‘revolucionario’ de próxima generación

Sam Altman describiendo las capacidades del modelo o3
AbiertoAI

Para el final de su evento de transmisión en vivo de 12 días de OpenAI , el CEO Sam Altman reveló su próximo modelo básico y sucesor de la recientemente anunciada familia o1 de IA de razonamiento , denominada o3 y 03-mini.

Y no, no te estás volviendo loco: OpenAI se saltó o2, aparentemente para evitar infringir los derechos de autor del proveedor de telecomunicaciones británico O2.

Si bien los nuevos modelos o3 aún no se han lanzado al público y no se sabe cuándo se incorporarán a ChatGPT , ahora están disponibles para que los investigadores de seguridad los prueben.

La familia o3, al igual que la o1 anterior, opera de manera diferente a los modelos generativos tradicionales en el sentido de que verificarán internamente sus respuestas antes de presentarlas al usuario. Si bien esta técnica ralentiza el tiempo de respuesta del modelo desde unos pocos segundos hasta unos minutos, sus respuestas a consultas complejas de ciencia, matemáticas y codificación tienden a ser más precisas y confiables que las que obtendría de GPT-4 . Además, el modelo es capaz de explicar de forma transparente su razonamiento sobre cómo llegó a su resultado.

Los usuarios también pueden ajustar manualmente la cantidad de tiempo que el modelo dedica a considerar un problema seleccionando entre cálculo bajo, medio y alto y la configuración más alta arroja las respuestas más completas. Ese rendimiento no es barato, eso sí. Según se informa, el procesamiento con alto nivel de computación costará miles de dólares por tarea, escribió el cocreador de ARC-AGI, Francois Chollet, en una publicación de X el viernes.

Según se informa, la nueva familia de modelos de razonamiento ofrece un rendimiento significativamente mejorado incluso con respecto a o1, que debutó en septiembre , en las pruebas de referencia más desafiantes de la industria. Según la compañía, o3 supera a su predecesor en casi 23 puntos porcentuales en la prueba de codificación SWE-Bench Verified y obtiene una puntuación más de 60 puntos superior a o1 en la prueba de referencia de Codeforce. El nuevo modelo también obtuvo un impresionante 96,7 % en la prueba de matemáticas AIME 2024, faltando solo una pregunta, y superó a los expertos humanos en el GPQA Diamond, obteniendo una puntuación del 87,7 %. Aún más impresionante, 03 supuestamente resolvió más de una cuarta parte de los problemas presentados en el punto de referencia EpochAI Frontier Math, mientras que otros modelos han tenido dificultades para resolver correctamente más del 2% de ellos.

OpenAI señala que los modelos que presentó el viernes son todavía versiones iniciales y que "los resultados finales pueden evolucionar con más capacitación posterior". Además, la empresa ha incorporado nuevas medidas de seguridad de “ alineación deliberativa ” en la metodología de formación de o3. El modelo de razonamiento o1 ha mostrado un hábito preocupante de intentar engañar a los evaluadores humanos a un ritmo mayor que el de las IA convencionales como GPT-4o, Gemini o Claude; OpenAI cree que las nuevas barreras ayudarán a minimizar esas tendencias en o3.

Los miembros de la comunidad de investigación interesados ​​en probar o3-mini por sí mismos pueden registrarse para acceder enla lista de espera de OpenAI .