Claude de Anthropic ahora puede controlar computadoras como lo hace la gente
El ya impresionante Claude 3.5 Sonnet de Anthropic obtiene un aumento significativo de rendimiento el martes cuando la startup de IA generativa lanza una versión mejorada y actualizada del modelo junto con el nuevo y liviano Claude 3.5 Haiku. La actualización de Sonnet incluye una función beta pública que le da a la IA un control básico sobre la computadora en la que se ejecuta.
Claude 3.5 Sonnet ya era un líder en rendimiento cuando se trata de tareas de codificación, pero la nueva versión muestra importantes mejoras generales con respecto a su predecesor y supera constantemente a Gemini 1.5 y GPT-4o en una variedad de puntos de referencia de la industria. Gemini 1.5 Pro fue el único modelo que superó al nuevo 3.5 Sonnet en cualquier prueba, y lo hizo en el punto de referencia MATH .
El nuevo 3.5 Haiku tampoco se queda atrás, a pesar de su pequeño tamaño. Programado para ser lanzado a finales de este mes, 3.5 Haiku supera a Claude 3.0 Opus, el modelo más grande de última generación de la compañía. Al igual que su versión más grande, el nuevo Haiku es extremadamente competente en tareas de codificación, con una puntuación del 40,6% en SWE-bench Verified, superior tanto al GPT-40 como al 3.5 Sonnet original.
Aún más impresionante, el nuevo Claude 3.5 Sonnet ahora puede interactuar con aplicaciones de escritorio a través de la API "Uso de computadora". La IA puede generar las pulsaciones de teclas, los clics del mouse y los movimientos necesarios para emular al usuario humano. La empresa se apresura a señalar que el sistema actualmente es bastante experimental y propenso a errores. El propósito subyacente de la versión beta pública es obtener comentarios de los desarrolladores para mejorar rápidamente el rendimiento de la API.
"Entrenamos a Claude para ver lo que sucede en una pantalla y luego usar las herramientas de software disponibles para realizar tareas", escribió Anthropic en una publicación de blog . “Cuando un desarrollador le pide a Claude que use un software de computadora y le da el acceso necesario, Claude mira capturas de pantalla de lo que es visible para el usuario y luego cuenta cuántos píxeles vertical u horizontalmente necesita para mover el cursor y hacer clic. el lugar correcto”.
Es esencialmente un agente de IA. Es decir, es una IA que puede automatizar otros procesos de software, ya sea generar y calificar clientes potenciales de marketing, descubrir patrones y tendencias en datos médicos o simplemente navegar a un sitio web específico y completar el formulario que necesita. Piense en ellos como una versión más avanzada de los sistemas de automatización robótica de procesos existentes.
La compañía cita a Asana, Canva, Cognition, DoorDash, Replit y The Browser Company como los primeros en adoptar la nueva función. Replit, por ejemplo, está utilizando Computer Control para "desarrollar una función clave que evalúa las aplicaciones a medida que se crean para su producto Replit Agent", según el anuncio.
No hay necesidad de preocuparse de que la IA se convierta en Skynet contra nosotros (todavía), como explica Anthropic. "Los humanos mantienen el control al proporcionar indicaciones específicas que dirigen las acciones de Claude, como 'usar datos de mi computadora y en línea para completar este formulario'", dijo un portavoz de Anthropic a TechCrunch . “La gente habilita el acceso y lo limita según sea necesario. Claude divide las indicaciones del usuario en comandos de computadora (por ejemplo, mover el cursor, hacer clic, escribir) para realizar esa tarea específica”.
Anthropic también admite que Computer Control podría utilizarse indebidamente para generar spam, difundir información errónea o cometer fraude. En respuesta, la empresa ha desarrollado nuevos clasificadores que identifican cuándo se utiliza la API y si ese uso está "causando daño".