La IA ahora está siendo entrenada por IA para convertirse en una mejor IA

OpenAI ha desarrollado un asistente de IA , denominado CriticGPT , para ayudar a sus entrenadores colaborativos a perfeccionar aún más el modelo GPT-4 . Detecta errores de codificación sutiles que, de otro modo, los humanos podrían pasar por alto.
Después de que se entrena inicialmente un modelo de lenguaje grande como GPT-4, posteriormente se somete a un proceso continuo de refinamiento, conocido como aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Los entrenadores humanos interactúan con el sistema y anotan las respuestas a varias preguntas, además de calificar varias respuestas entre sí, de modo que el sistema aprenda a devolver la respuesta preferida y aumente la precisión de la respuesta del modelo.
El problema es que a medida que mejora el rendimiento del sistema, puede superar el nivel de experiencia de su formador y el proceso de identificación de errores se vuelve cada vez más difícil.
Eso sí, estos formadores de IA no siempre son expertos en la materia. El año pasado, OpenAI se vio sorprendida ofreciendo esfuerzos a los trabajadores kenianos (y pagándoles menos de 2 dólares la hora ) para mejorar el rendimiento de sus modelos.

Este problema es especialmente difícil cuando se refinan las capacidades de generación de código del sistema, que es donde entra en juego CriticGPT.
"Hemos entrenado un modelo, basado en GPT-4, llamado CriticGPT, para detectar errores en la salida del código de ChatGPT", explicó la compañía en una publicación de blog el jueves . "Descubrimos que cuando las personas reciben ayuda de CriticGPT para revisar el código de ChatGPT, superan a quienes no reciben ayuda el 60 por ciento de las veces".
Es más, la compañía publicó un documento técnico sobre el tema, titulado " Los críticos de LLM ayudan a detectar errores de LLM", que encontró que "los LLM detectan sustancialmente más errores insertados que los humanos calificados a los que se les paga por la revisión del código y, además, se prefieren las críticas de modelos a las críticas humanas". más del 80 por ciento de las veces”.
Curiosamente, el estudio también encontró que cuando los humanos colaboraban con CriticGPT, la tasa de respuestas alucinantes de la IA era menor que cuando CriticGPT hacía el trabajo solo, pero esa tasa de alucinaciones era aún mayor que si un humano simplemente hiciera el trabajo por sí solo.