Todo lo que necesita saber sobre el agente basado en navegador de OpenAI, Operador

febrero 6, 2025 Aranzulla de Los Pobres

OpenAI finalmente entró en la carrera de la IA agente con el lanzamiento de su Operador AI en enero. El sistema agente está diseñado para funcionar de forma autónoma en nombre de su usuario y está preparado para competir contra rivales de la industria ya establecidos como Computer Use API de Claude y los agentes Copilot de Microsoft , al menos una vez que se deshaga de su estado de "vista previa de investigación". Aquí encontrará todo lo que necesita saber sobre el nuevo agente de OpenAI y cuándo podrá probarlo usted mismo.

¿Qué es el operador?

El Operador de OpenAI es un agente de IA , lo que significa que está diseñado para realizar acciones autónomas en función de la información disponible. Pero a diferencia de los programas convencionales, los agentes de IA pueden revisar las condiciones cambiantes en tiempo real y reaccionar en consecuencia, en lugar de simplemente ejecutar comandos predeterminados. Como tal, los agentes de IA pueden realizar una variedad de tareas complejas de varios pasos que van desde transcribir, resumir y generar elementos de acción de una reunión de negocios hasta reservar el vuelo, el alojamiento en un hotel y el alquiler de un automóvil para unas próximas vacaciones según los diversos horarios de su familia, hasta investigar temas de forma autónoma y reunir estudios de varias páginas sobre esos temas.

El operador funciona de manera ligeramente diferente a otros agentes disponibles actualmente. Si bien Claude's Computer Use es una API y los agentes de inteligencia artificial de Microsoft funcionan dentro de la propia interfaz de usuario del chat de Copilot, Operador está diseñado para funcionar dentro de una ventana de navegador web dedicada que se ejecuta en los servidores de OpenAI y ejecuta sus tareas de forma remota. Su navegador web local no tiene nada que ver con el proceso y puede usarse normalmente incluso cuando se está ejecutando el Operador.

La aplicación Operador funciona con un nuevo modelo de " agente que utiliza computadora " (CUA) que, a su vez, está construido sobre GPT-4o, que proporciona las capacidades multimodales de la aplicación. OpenAI dice que CUA fue entrenado de manera similar a sus modelos de razonamiento o1 y o3. Como tal, el modelo CUA dividirá las tareas complejas en los problemas que los componen antes de intentar resolverlas secuencialmente, retrocediendo si se topa con algún obstáculo lógico.

¿Cuándo se estrenó Operador?

OpenAI lanzó Operador el 23 de enero de 2025. Actualmente solo está disponible para usuarios Pro de $200 al mes en los EE. UU. a través del sitio web operator.chatgpt.com . "Nuestro plan es expandirnos a usuarios Plus, Team y Enterprise e integrar estas capacidades en ChatGPT en el futuro", escribió la compañía en su publicación de anuncio .

¿Cómo funciona Operador?

Los usuarios pueden activar el agente desde la pantalla de inicio de ChatGPT, que muestra una página de navegador web dedicada en una ventana lateral para que el Operador realice sus tareas. La IA proporciona una narrativa continua de lo que está haciendo actualmente y el usuario puede hacerse cargo del proceso en cualquier momento. El operador solicitará la ayuda del usuario en determinadas tareas, como iniciar sesión en sitios web seguros específicos, y también obtendrá la confirmación del usuario antes de ejecutar tareas importantes. Puede interactuar con sitios web tanto visualmente (es decir, a través de capturas de pantalla) como tácticamente, cuando imita los toques del teclado y los clics del mouse del usuario.

¿Qué puede hacer el Operador y qué tan bien puede hacerlo?

Dado que está limitado al navegador, el Operador actualmente solo puede realizar tareas simples basadas en Internet, como reservar entradas para conciertos, realizar pedidos de DoorDash o completar pedidos de Instacart. La compañía también afirma que el agente podrá automatizar tareas como reservar hoteles y aerolíneas, reservar mesas en restaurantes e incluso realizar compras en línea.

OpenAI ha enfrentado a Operador con Computer Use de Anthropic, así como con el agente Mariner de Google DeepMind, en una serie de puntos de referencia de la industria y afirma que Operador los ha superado en todos los ámbitos. En el punto de referencia OSWorld , que mide qué tan bien un agente puede completar tareas como fusionar archivos PDF, CUA superó el uso de computadoras entre un 38,1% y un 22,0%; como referencia, los humanos promedian alrededor del 72% de éxito en esas tareas. En el punto de referencia WebVoyager, CUA superó a Mariner entre un 87% y un 83,5%. El uso de la computadora obtuvo un mísero 56%.

Sin embargo, las reacciones iniciales de los usuarios ante el agente de IA han sido mixtas. Por ejemplo, el columnista del New York Times Kevin Roost escribió: “En general, descubrí que usar Operador generalmente generaba más problemas de los que valía la pena. La mayor parte de lo que hizo por mí lo podría haber hecho más rápido y con menos dolores de cabeza”.

"Incluso cuando funcionó", continuó, "requirió tantas confirmaciones y garantías antes de actuar que me sentí menos como si tuviera un asistente virtual y más como si estuviera supervisando al pasante más inseguro del mundo".

¿Cómo puedo probar Operador por mí mismo?

Para obtener acceso al agente operador de OpenAI, deberá registrarse en la suscripción de nivel Pro de OpenAI y luego acceder a ella a través del sitio web operator.chatgpt.com .