DeepSeek prepara la próxima disrupción de la IA con modelos de mejora automática

abril 7, 2025 Aranzulla de Los Pobres

Hace apenas unos meses, la gran apuesta de Wall Street por la IA generativa tuvo un momento decisivo cuando DeepSeek entró en escena. A pesar de su naturaleza fuertemente censurada , DeepSeek de código abierto demostró que un modelo de inteligencia artificial de razonamiento de frontera no requiere necesariamente miles de millones de dólares y puede lograrse con recursos modestos.

Rápidamente encontró adopción comercial por parte de gigantes como Huawei, Oppo y Vivo, mientras que empresas como Microsoft, Alibaba y Tencent rápidamente le dieron un lugar en sus plataformas. Ahora, el próximo objetivo de la animada compañía china son los modelos de IA automejorables que utilizan un enfoque de recompensa de juez en bucle para mejorarse a sí mismos.

En un artículo preimpreso (a través de Bloomberg ), investigadores de DeepSeek y la Universidad Tsinghua de China describen un nuevo enfoque que podría hacer que los modelos de IA sean más inteligentes y eficientes de manera automejorable. La tecnología subyacente se llama ajuste de crítica con principios propios (SPCT), y el enfoque se conoce técnicamente como modelado de recompensa generativo (GRM).

En los términos más simples, es algo así como crear un circuito de retroalimentación en tiempo real. Un modelo de IA se mejora fundamentalmente al aumentar el tamaño del modelo durante el entrenamiento. Eso requiere mucho trabajo humano y recursos informáticos. DeepSeek propone un sistema en el que el "juez" subyacente presenta su propio conjunto de críticas y principios para un modelo de IA mientras prepara una respuesta a las consultas de los usuarios.

Luego, este conjunto de críticas y principios se compara con las reglas estáticas establecidas en el corazón de un modelo de IA y el resultado deseado. Si hay un alto grado de coincidencia, se genera una señal de recompensa, que guía efectivamente a la IA para que se desempeñe aún mejor en el siguiente ciclo.

Los expertos detrás del artículo se refieren a la próxima generación de modelos de IA con mejora automática como DeepSeek-GRM. Los puntos de referencia enumerados en el documento sugieren que estos modelos funcionan mejor que los modelos Gemini de Google, Llama de Meta y GPT-4o de OpenAI. DeepSeek dice que estos modelos de IA de próxima generación se lanzarán a través del canal de código abierto.

¿IA que se mejora a sí misma?

El tema de la IA que puede mejorarse a sí misma ha suscitado algunos comentarios ambiciosos y controvertidos. El ex director ejecutivo de Google, Eric Schmidt, argumentó que podríamos necesitar un interruptor de apagado para tales sistemas. "Cuando el sistema pueda mejorar por sí solo, tendremos que pensar seriamente en desconectarlo", dijo Schmidt según Fortune .

El concepto de una IA que se mejora a sí misma recursivamente no es exactamente un concepto novedoso. La idea de una máquina ultrainteligente, que posteriormente sea capaz de fabricar máquinas aún mejores, en realidad se remonta al matemático IJ Good en 1965. En 2007, el experto en inteligencia artificial Eliezer Yudkowsky planteó la hipótesis sobre Seed AI , una IA "diseñada para la autocomprensión, la automodificación y la superación personal recursiva".

En 2024, Sakana AI de Japón detalló el concepto de “científico de IA” sobre un sistema capaz de pasar todo el proceso de un trabajo de investigación de principio a fin. En un artículo de investigación publicado en marzo de este año, los expertos de Meta revelaron modelos de lenguaje autogratificante en los que la propia IA actúa como juez para proporcionar recompensas durante el entrenamiento.

El director ejecutivo de Microsoft, Satya Nadella, dice que el modelo o1 de OpenAI está optimizando el desarrollo de la IA y ha entrado en una fase recursiva: "estamos utilizando la IA para crear herramientas de IA para construir una mejor IA" pic.twitter.com/IHuFIpQl2C
– Tsarathustra (@tsarnick) 21 de octubre de 2024

Las pruebas internas de Meta en su modelo Llama 2 AI utilizando la novedosa técnica de autorrecompensa lo vieron superar a rivales como los modelos Claude 2 de Anthropic, Gemini Pro de Google y GPT-4 de OpenAI. Anthropic, respaldado por Amazon, detalló lo que llamaron manipulación de recompensas, un proceso inesperado "en el que un modelo modifica directamente su propio mecanismo de recompensa".

Google no se queda atrás en la idea. En un estudio publicado en la revista Nature a principios de este mes, expertos de Google DeepMind mostraron un algoritmo de inteligencia artificial llamado Dreamer que puede mejorarse a sí mismo, utilizando el juego Minecraft como ejemplo de ejercicio.

Los expertos de IBM están trabajando en su propio enfoque llamado entrenamiento de cierre deductivo, donde un modelo de IA utiliza sus propias respuestas y las evalúa con respecto a los datos del entrenamiento para mejorar. Sin embargo, toda la premisa no es todo sol y arcoíris.

Las investigaciones sugieren que cuando los modelos de IA intentan entrenarse a sí mismos con datos sintéticos autogenerados, se producen defectos conocidos coloquialmente como "colapso del modelo". Sería interesante ver cómo DeepSeek ejecuta la idea y si puede hacerlo de una manera más frugal que sus rivales occidentales.