GPT-4o y Gemini 1.5 Pro acaban de ser derrotados en la carrera de IA

una captura de pantalla del soneto de Claude 3.5, con un cangrejo de 8 bits
antrópico

Hay un nuevo líder, técnicamente, en la carrera por el dominio de los asistentes de IA, y es el nuevo Claude 3.5 Sonnet de Anthropic. El modelo recién lanzado supera tanto a Gemini 1.5 Pro como a ChatGPT-4o en un espectro de pruebas comparativas, anunció la compañía el jueves .

Esta nueva versión de Sonnet es la primera de la próxima línea de modelos 3.5 de Anthropic y supera significativamente al modelo Opus 3.0, más expansivo, y lo hace a una fracción del costo de energía del modelo más grande. La eficiencia informática se está convirtiendo en un aspecto cada vez más importante del diseño de sistemas de IA , especialmente a medida que el costo de alimentar y enfriar los centros de datos de IA se dispara mientras la infraestructura alcanza el rango de los gigavatios .

Claude 3.5 Soneto para la visión

"Claude 3.5 Sonnet funciona al doble de velocidad que Claude 3 Opus", escribió el equipo de Anthropic en una publicación de blog. "Este aumento de rendimiento, combinado con un precio rentable, hace que Claude 3.5 Sonnet sea ideal para tareas complejas como soporte al cliente sensible al contexto y orquestación de flujos de trabajo de varios pasos".

Según se informa, el nuevo modelo ha establecido resultados de referencia en tres pruebas estandarizadas: razonamiento a nivel de posgrado con GPQA , conocimiento a nivel universitario con MMLU y competencia en codificación con HumanEval . Superó al Gemini 1.5 Pro de Google, al Llama-400b de Meta y al ChatGPT-4o de OpenAI, aunque no por un gran margen y, por lo general, solo por un par de puntos porcentuales.

Una tabla que muestra el rendimiento de Claude 3.5 Sonnet en comparación con otros sistemas de inteligencia artificial líderes.
antrópico

Sonnet 3.5 se anuncia como el “modelo de visión más potente de Anthropic hasta el momento. “Es capaz de realizar una serie de tareas basadas en la visión, como interpretar cuadros y gráficos o transcribir texto de fuentes de imágenes imperfectas como capturas de pantalla o recibos escaneados, con mayor precisión que Opus 3.0. De hecho, Sonnet 3.5 superó a Opus 3.0 entre 6 y 17 puntos en los puntos de referencia de visión estándar de la industria. Según se informa, el nuevo modelo también es mucho más competente en el manejo del humor y puede conversar de una manera mucho más realista.

Sonnet también será la primera IA antrópica en ofrecer la función Artefactos a los usuarios. En lugar de generar imágenes o fragmentos de código directamente en el flujo de la conversación, Artifacts creará ese contenido en un espacio dedicado al costado del chat. Esto permite a los usuarios crear "un espacio de trabajo dinámico donde pueden ver, editar y desarrollar las creaciones de Claude en tiempo real, integrando perfectamente contenido generado por IA en sus proyectos y flujos de trabajo", afirma el equipo de Anthropic. También anunció que Claude pronto apoyará la colaboración en equipo en la que una empresa puede almacenar sus datos, documentos y proyectos en un único silo central, con Claude actuando como asistente bajo demanda.

Puede probar Claude 3.5 Sonnet hoy de forma gratuita en el sitio web Claude.ai y en la aplicación Claude iOS (una suscripción a Claude Pro o Team le brindará límites de tarifas significativamente más altos). La integración de terceros también está disponible a través de Anthropic API, Amazon Bedrock y Vertex AI de Google Cloud. El lanzamiento de Claude Haiku 3.5 y Opus 3.5 está previsto para finales de año.