La empresa china DeepSeek tiene la costumbre de presentarse sin invitación en el panorama de la IA de Silicon Valley, y esta vez lo ha hecho con la tan esperada versión preliminar de la V4. La compañía, con sede en Hangzhou, ha lanzado su último modelo de IA, que supera a los modelos estadounidenses más populares en ciertas áreas.
DeepSeek ha lanzado dos nuevos modelos: V4-Pro (modo experto) y V4-Flash (modo instantáneo). El primero es un modelo masivo con 1,6 billones de parámetros, mientras que el segundo tiene unos parámetros más manejables de 284 mil millones. Sin embargo, ambos cuentan con una ventana de contexto de un millón de tokens.
¿Qué fue exactamente lo que publicó DeepSeek?
Lo más importante es que ambos modelos son de código abierto, lo que significa que se pueden descargar desde Hugging Face y ejecutar localmente en tu hardware. Sin embargo, debido a la magnitud de V4-Pro, necesitarás una cantidad considerable de VRAM para ejecutarlo localmente.
Una de las partes más interesantes del anuncio es la comparación con modelos de IA populares como Gemini , ChatGPT y Claude . Por ejemplo, V4-Pro destaca en programación, obteniendo una puntuación de 3206 en las clasificaciones de Codeforces, superando los 3168 de GPT-5.4 y los 3052 de Gemini 3.1. Esto lo convierte en el modelo abierto más potente para tareas de programación competitiva.
En LiveCodeBench, V4-Pro obtiene 93,5 puntos, superando los 88,8 de Claude Opus 4.6 y los 91,7 de Gemini. Asimismo, en tareas con agentes, alcanza los 51,8 puntos en Toolathlon, superando tanto a Claude (47,2) como a Gemini (48,8). Por su parte, V4-Flash, más rápido y eficiente, iguala a V4-Pro en tareas sencillas con agentes, con un coste computacional mucho menor.
¿En qué aspectos V4-Pro supera a la competencia?
| Punto de referencia | DeepSeek V4-Pro | Claude Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
| Codeforces (Calificación) | 3.206 | — | 3.168 | 3.052 |
| LiveCodeBench (Pass@1) | 93.5 | 88.8 | — | 91.7 |
| Lista de finalistas de Apex (Aprobado a la primera) | 90.2 | 85.9 | 78.1 | 89.1 |
| SWE verificado (resuelto) | 80.6 | 80.8 | — | 80.6 |
| Toolathlon (Pase a 1 persona) | 51.8 | 47.2 | 54.6 | 48.8 |
| Banco terminal 2.0 (Acc) | 67.9 | 65.4 | 75.1 | 68,5 |
| Contexto largo MRCR 1M | 83.5 | 92.9 | — | 76.3 |
| Matemáticas HMMT 2026 | 95.2 | 96.2 | 97.7 | 94.7 |
| Banco de Respuestas de la OMI | 89.8 | 75.3 | 91.4 | 81.0 |
Sin embargo, existen varias áreas en las que el nuevo modelo de DeekSeek se queda atrás de la competencia. Por ejemplo, Claude's Opus 4.6 lidera en la recuperación de contexto extenso. Obtiene una puntuación de 92.9 en MRCR 1M frente a los 83.5 de V4-Pro. GPT-5.4 sigue liderando Terminal Bench 2.0 con 75.1 frente a los 67.9 de V4-Pro.
Donde DeepSeek realmente marca la diferencia es en el precio. El V4-Pro cuesta 3,48 dólares por millón de tokens de salida, lo que, comparado con los 30 dólares de OpenAI y los 25 dólares de Anthropic para cargas de trabajo equivalentes, puede resultar mucho más atractivo para los clientes potenciales. Esta diferencia es enorme para los desarrolladores que crean aplicaciones con IA.