Los navegadores web están entrando en una nueva era en la que las habilidades de IA reemplazan a las extensiones.

El navegador es más grande que el chat. Es un producto más atractivo y es la única forma de crear agentes. Es la única forma de crear flujos de trabajo integrales. Estas fueron las declaraciones del CEO de Perplexity, Aravind Srinivas, en una entrevista reciente. El cofundador de Perplexity habló sobre el futuro de los navegadores web, los agentes de IA y las automatizaciones en navegadores web.

Srinivas se mostró optimista sobre las perspectivas, en parte porque su empresa ya está probando un nuevo y prometedor navegador llamado Comet. Actualmente en fase beta, solo por invitación, el navegador incluye un agente que puede gestionar tareas complejas y que requieren mucho tiempo.

Piénsalo como una herramienta de IA como ChatGPT o Gemini, pero que reside exclusivamente en tu navegador. El enfoque de agente en el navegador, como argumenta Srinivas, es más familiar y flexible. No tienes que lidiar con las típicas restricciones de permisos locales ni de flujo de trabajo entre aplicaciones. Además, los navegadores funcionarán como estamos acostumbrados, con productos como Chrome o Safari.

Pero las tendencias subyacentes son radicalmente diferentes, y el mayor cambio podría ser el abandono de las extensiones de navegador en favor de las habilidades de IA y los agentes generados por el usuario. Curiosamente, las herramientas fundamentales se establecieron hace más de un año, pero solo oímos hablar de ellas con la llegada de navegadores centrados en la IA, como Dia y Comet.

Las habilidades de IA son los nuevos campeones del trabajo

Todo lo que se habla de agentes y habilidades de IA suena a jerga técnica, así que permítanme explicárselo. En el navegador Dia , recientemente creé una habilidad llamada "expandir". ¿Cómo la hice, aunque no escribí ni una sola línea de código? La describí simplemente con estas palabras:

Cuando uso esta habilidad y pego un fragmento, hago una búsqueda profunda en la web y obtengo el historial completo en forma de artículo en orden. Extraigo información solo de medios de comunicación confiables.

Me dedico a la lectura y escritura de artículos, y a menudo me encuentro con fragmentos y eventos en artículos que no conozco. En estos casos, solo tengo que seleccionar el texto relevante (o copiarlo y pegarlo en la barra lateral del chat) y usar el comando "/" para activar la habilidad "expandir".

Como se describió anteriormente, el agente de IA del navegador Dia buscará las menciones de mi objetivo en los principales medios de comunicación y creará un breve informe cronológico. Esto me ahorra mucho tiempo valioso que, de otro modo, perdería en búsquedas indiscriminadas en Google.

Pero lo más importante es que ni siquiera tengo que abrir otra pestaña y puedo hacer preguntas de seguimiento en el mismo chat dentro de la pestaña de lectura activa. Es rápido y práctico. No conozco ninguna extensión que pueda hacer exactamente lo que esta habilidad de "expandir" hace por mí.

Tampoco es posible. Lo creé con un propósito y una intención específicos. Y puedo crear tantos como quiera o ajustarlo para que se adapte a mi flujo de trabajo. He creado otro llamado "investigación" que hace referencia a una obra (o frase) y realiza investigación web consultando exclusivamente artículos científicos revisados por pares.

La comunidad de usuarios de Dia incluso está ahorrando dinero al crear funciones que buscan códigos de descuento disponibles en los productos justo antes de pagar. Para mis compras en Amazon, he creado una que combina las reseñas, las valoraciones y las características de los productos en diferentes pestañas de Amazon, crea una tabla comparativa y me ayuda a elegir la mejor opción. ¡Todo esto con solo escribir una palabra!

Otro revisa rápidamente mis correos electrónicos para detectar errores gramaticales y aclarar la guía de estilo. Hay otro que crea material de lectura con cuestionarios para niños a los que doy clases en una institución sin fines de lucro cercana, basándose en el material de aprendizaje que he preparado.

A los estudiantes les encanta el tono divertido y lúdico de sus preguntas de opción múltiple, que ponen a prueba sus conocimientos de actualidad. Incluso hay una galería oficial de Dia donde puedes encontrar habilidades creadas por sus usuarios, y un panel web colaborativo donde puedes encontrar aún más.

Pero esta es la razón principal por la que creo que las habilidades de navegación son más importantes que las extensiones. Cualquiera puede crearlas simplemente describiendo lo que quiere. Con las extensiones, se necesitan conocimientos de programación y habilidades básicas sobre el funcionamiento de la web y su arquitectura de navegación.

La seguridad es otra razón por la que confiaría más en las capacidades de los navegadores que en las extensiones. Existe un largo historial de extensiones de navegador utilizadas como arma por actores maliciosos para propagar malware. Un usuario promedio no puede ver ni comprender el funcionamiento interno de una extensión, y solo se da cuenta de la insensatez cuando el daño ya está hecho.

La situación con las habilidades de IA en los navegadores es de lo más transparente posible. El funcionamiento exacto de cada habilidad se describe con detalle, en lenguaje natural y sin salvedades. Solo hay que leerla detenidamente o copiarla y pegarla y crear la propia con modificaciones adicionales. Este enfoque es flexible, mucho más seguro y pone todo el control en manos de los usuarios.

Los agentes del navegador llegaron para quedarse

A continuación, tenemos agentes de navegador. El navegador Opera ya ha implementado uno y ofrece una versión más avanzada llamada Operator . También puedes usar herramientas como ChatGPT Agent y el navegador Comet de Perplexity . Es como Siri, pero para navegar por la web.

Los agentes son más adecuados para tareas complejas y que requieren mucho tiempo. Y funcionan mejor cuando tienen acceso a los servicios que visitas a diario, como tu correo electrónico y tu calendario. Por ejemplo, esto es lo que hice anoche en el navegador Comet de Perplexity:

Revisa mi bandeja de entrada y mantenme al tanto de todas las solicitudes de entrevistas con científicos o ejecutivos de empresas que tenía pensado llevar a cabo. Céntrate en las conversaciones en las que mencioné la posibilidad de entrevistas virtuales, en lugar de una reunión presencial.

Sin abrir otra pestaña, el Asistente integrado revisó mi bandeja de entrada de Gmail, buscó los correos relevantes y me proporcionó una lista de dichas interacciones con un formato claro. Para mayor comodidad, incluso incluyó enlaces de Gmail con un solo clic para que pudiera abrir directamente esa cadena de correos sin tener que buscarlos manualmente.

Es genial para muchas otras cosas. Por ejemplo, durante una sesión de preguntas y respuestas en Twitter, simplemente le pedí que seleccionara las respuestas del orador y las enumerara en viñetas. Eso me ahorró mucho tiempo de ida y vuelta abriendo y cerrando X cadenas de conversación.

Para planificar viajes, comprar o incluso ver vídeos, el asistente del navegador Comet funciona correctamente. El único inconveniente es que, si lo necesitas para tareas más personales, tendrás que habilitar el acceso a los conectores. Por ejemplo, para gestionar Gmail, Calendario y Drive, tendrás que habilitar el acceso.

También lo hice con mi cuenta de WhatsApp y funcionó de maravilla en el navegador Comet. No a todos les resultará fácil hacerlo, y es totalmente necesario tener precaución. Para estos casos, Google y OpenAI ofrecen funciones de agente similares para Gemini y ChatGPT, respectivamente.

No hay vuelta atrás

Al igual que creas habilidades en Dia simplemente escribiendo o narrando tus requisitos, Gemini y ChatGPT también te permiten crear agentes personalizados para tareas específicas. Google los llama Gems, mientras que OpenAI los llama GPT. Y sí, puedes compartirlos como habilidades. Usarlos es gratis, pero para crearlos, necesitarás una suscripción de $20 al mes.

He creado numerosas gemas y GPT personalizadas para agilizar mis tareas cotidianas. Para publicar en redes sociales, he creado una gema que divide los artículos que he escrito en fragmentos más pequeños, que luego se publican como una cadena en X. Asimismo, he creado agentes personalizados para gestionar mis correos electrónicos.

Una de las Gems simplemente necesita que escriba "sí" o "no", y escribirá una respuesta cortés, recopilando todo el contexto del correo electrónico. Con los conectores, puedes vincularlos a todos los servicios que quieras.

Lo mejor de estas joyas es que puedes usarlas fácilmente tanto en un navegador de escritorio como en apps móviles. Las extensiones requieren que uses solo un navegador de escritorio. Algunos navegadores móviles las admiten, pero son poco comunes.

Además, no ofrecen la misma flexibilidad y tranquilidad que las habilidades de navegador personalizadas o los agentes creados por los usuarios. ChatGPT Agent y Project Mariner de Google son una nueva generación de asistentes de IA diseñados a medida para tareas web, al igual que el asistente integrado en el navegador Comet de Perplexity.

A diferencia de una extensión, pueden gestionar flujos de trabajo de varios pasos, y puedes tomar el control en cualquier etapa. Además, puedes modificar el funcionamiento interno de la automatización de la navegación web y adaptar las habilidades de IA a tus especificaciones exactas, algo que no es posible con las extensiones.

"Por supuesto, no son perfectos. Al mismo tiempo, puedes tomar el control y completar las tareas cuando no son capaces de hacerlo, porque ningún agente de IA es infalible, especialmente en un momento en que los modelos de razonamiento aún distan mucho de la perfección", admite el director ejecutivo de Perplexity.

Pero el cambio es claramente evidente. Las extensiones de navegador no desaparecerán de la noche a la mañana, pero los agentes de navegación y las habilidades de IA creadas por los usuarios tomarán el relevo. ¡Es solo cuestión de tiempo antes de que las barreras (léase: las cuotas de suscripción) desaparezcan!