¿Puede la IA realmente reemplazar el teclado y el mouse?

“Hola ChatGPT, haz clic izquierdo en el campo para ingresar contraseña en la ventana emergente que aparece en el cuadrante inferior izquierdo de la pantalla y completa XUS&(#($J, y presiona Enter”.

¿Divertido, eh? No, gracias. Simplemente moveré mi ratón barato y escribiré los 12 caracteres en mi teclado, que hace clic innecesariamente, en lugar de decir la contraseña en voz alta en mi espacio de coworking.

Es genial ver que ChatGPT entiende tu comando de voz, reserva una entrada barata para ocho personas para ver un partido del Liverpool en Anfield y te lleva a la pantalla de pago. Pero bueno, ¿le confiarás la contraseña? ¿O simplemente la escribirás con un teclado físico?

Imagina apostar todo por la IA, solo para darte cuenta de que el último paso, donde REALMENTE necesitas un teclado o un ratón, no es posible, y que estás estancado. Pero esa es precisamente la pregunta que muchos se han hecho tras ver agentes de IA y vídeos de automatización de empresas como Google, OpenAI y Anthropic.

Es una pregunta legitima

La IA fue el tema principal del evento I/O de Google a principios de este año. Al final de la conferencia, estaba convencido de que los smartphones Android no volverían a ser los mismos. Y, por extensión, cualquier plataforma donde Gemini se instale, desde aplicaciones de Workspace como Gmail hasta la navegación en Google Maps desde el coche.

La demostración más impresionante fue la del Proyecto Mariner y el siguiente prototipo de investigación, el Proyecto Astra . Imagínatelo como un asistente conversacional de última generación que te permitirá hablar y realizar tareas reales sin necesidad de tocar la pantalla ni usar el teclado. Puedes trasladar tus consultas de un manual de usuario alojado en el sitio web de una marca a videos instructivos de YouTube, sin tener que repetir el contexto.

Es casi como si el verdadero concepto de memoria hubiera llegado a la IA . En un navegador web, te reservará entradas, te llevará a la página final, donde simplemente tendrás que confirmar si todos los datos son los solicitados y procederás al pago. Esto nos lleva a preguntarnos si el teclado y el ratón son conceptos obsoletos para las entradas digitales, a medida que las interacciones de voz cobran protagonismo en la IA.

La carga del error

Aunque suene raro, tu ordenador ya incluye control por voz para navegar por el sistema operativo. En PC con Windows y macOS, las herramientas de acceso por voz forman parte del paquete de accesibilidad. Hay varios atajos disponibles para agilizar el proceso, y también puedes crear los tuyos propios.

Con la llegada de los modelos de IA de última generación, estamos hablando de abandonar el teclado y el mouse para todos, y no solo de promocionarlos como una tecnología de asistencia.

Imagina una combinación de Claude Computer Use y la información de seguimiento ocular del visor Vision Pro de Apple . Por si no lo sabes, Computer Use de Anthropic es, en realidad, un agente de uso de computadoras. Anthropic afirma que permite a la IA «usar las computadoras como lo hacen las personas: mirando una pantalla, moviendo el cursor, haciendo clic en botones y escribiendo».

Ahora, imagina un escenario donde tu intención se transmite en forma de voz a Claude, es captada por los micrófonos integrados y la tarea se ejecuta. Para el último paso que se te pida, los gestos completan el proceso. Vision Pro ha demostrado que los controles con seguimiento ocular son posibles y funcionan con gran precisión.

Sin auriculares, la IA controlada por voz puede funcionar en una computadora promedio. Hume AI, en colaboración con Anthropic, está desarrollando un sistema llamado Interfaz de Voz Empática 2 (EVI 2) que convierte los comandos de voz en información de computadora. Es casi como hablar con Alexa, pero en lugar de pedir brócoli, el asistente de IA entiende lo que decimos y lo convierte en información de teclado o ratón.

Todo eso suena genial, pero pensemos en algunos escenarios realistas. Necesitarás un teclado para editar contenido multimedia con precisión. Hacer pequeños cambios en un lienzo de código. Rellenar celdas en una hoja de cálculo. Imagina decir: "Oye, Géminis, escribe cuatro mil ochocientos noventa y cinco dólares en la celda D5 y etiquétalo como gasto de viaje aéreo". Sí, lo sé. Yo también lo escribiría.

La última milla, no el final

Si revisas las demostraciones del Modo IA en la Búsqueda, el agente del Proyecto Mariner y Gemini Live, tendrás una idea de la computación por voz. Todos estos avances en IA parecen increíblemente prácticos, hasta que dejan de serlo. Por ejemplo, ¿cuándo resulta demasiado irritante decir cosas como "Vaya al cuadro de diálogo de la esquina superior izquierda y haga clic izquierdo en el botón azul que dice Confirmar "?

Es demasiado engorroso, incluso si todos los pasos anteriores los realizara de forma autónoma una IA.

Y no olvidemos el elefante en la habitación. La IA tiene la costumbre de descontrolarse . «En esta etapa, todavía es experimental, a veces engorrosa y propensa a errores», advierte Anthropic sobre Claude Computer Use. La situación no es muy distinta a la del Operator Agent de OpenAI , o una herramienta similar del mismo nombre que actualmente se está desarrollando en Opera, los creadores de un navegador web genial .

Quitar el teclado y el ratón de una computadora con IA es como conducir un Tesla con conducción autónoma completa (FSD) activada , pero ya no tienes la dirección y los controles disponibles son los pedales de freno y acelerador. El coche te llevará a algún sitio, pero debes tomar el control si ocurre algún imprevisto.

En el contexto informático, piense en el solucionador de problemas, donde DEBE tener el control total. Pero supongamos que un modelo de IA, controlado principalmente por voz (y captado por el micrófono de su equipo informático preferido), lo lleva al paso final donde necesita cerrar el flujo de trabajo, como realizar un pago.

Incluso con claves de acceso, ¿necesitarás al menos confirmar tu identidad ingresando la contraseña, abriendo una aplicación de autenticación o tocando un sensor de huellas dactilares? Ningún fabricante de sistemas operativos ni desarrollador de aplicaciones (especialmente si se dedica a la verificación de identidad) permitiría que un modelo de IA tuviera control total sobre esta tarea crucial.

Es demasiado arriesgado automatizar con un agente de IA, incluso con la incorporación de ventajas como las claves de acceso. Google suele afirmar que Gemini aprenderá de la memoria y de tus propias interacciones. Pero todo empieza por permitirle supervisar el uso de tu ordenador, que depende fundamentalmente de la entrada del teclado y el ratón. Así que, sí, volvemos al punto de partida.

¿Virtualizar? Es una larga espera.

Cuando hablamos de reemplazar el ratón y el teclado de la computadora con IA (o cualquier otro avance), simplemente nos referimos a sustituirlos por un sustituto. Y luego a un sustituto familiar. Existe abundante material de investigación sobre ratones y teclados virtuales, que data de al menos una década atrás, mucho antes de que se publicara el influyente artículo sobre los "transformers", que impulsó la industria de la IA a un nuevo nivel.

En 2013, DexType lanzó una aplicación que aprovechaba el diminuto hardware de Leap Motion para permitir una experiencia de escritura virtual en el aire. No se necesitaba una pantalla táctil ni un proyector láser sofisticado como el Humane AI Pin . Leap Motion desapareció en 2019, pero la idea no. Meta es posiblemente la única empresa que cuenta con un conjunto realista de software y hardware listo para una forma alternativa de entrada-salida en informática, lo que denomina interacción humano-computadora (HCI).

La compañía ha estado trabajando en wearables de muñeca que permiten una forma completamente nueva de control gestual. En lugar de rastrear el movimiento espacial de dedos y extremidades, Meta utiliza una técnica llamada electromiografía (EMG). Esta convierte las señales nerviosas motoras eléctricas generadas en la muñeca en señales digitales para controlar dispositivos. Y sí, la entrada del cursor y del teclado es fundamental.

Al mismo tiempo, Meta también afirma que estos gestos serán más rápidos que pulsar una tecla, ya que se trata de señales eléctricas que viajan directamente de la mano al ordenador, en lugar del movimiento de los dedos. «Es una forma mucho más rápida de seguir las instrucciones que ya envías a tu dispositivo al tocar para seleccionar una canción en tu teléfono, hacer clic con el ratón o escribir en el teclado», afirma Meta.

Menos reemplazos, más reempaquetados

Hay dos problemas con el enfoque de Meta, con o sin la IA. El concepto de cursor sigue muy presente, al igual que el del teclado, aunque en formato digital. Simplemente estamos pasando de lo físico a lo virtual. El reemplazo que Meta está impulsando suena muy futurista, especialmente con la incorporación de los modelos multimodales de IA de Llama.

Luego está el dilema existencial. Estos wearables aún se encuentran en el ámbito de los laboratorios de investigación. Y cuando salgan al mercado, no serán baratos, al menos durante los primeros años. Incluso las aplicaciones básicas de terceros como WowMouse están sujetas a suscripciones y limitadas por el sistema operativo.

No me imagino cambiando mi teclado barato de $100 por un dispositivo experimental para entrada de voz o gestos, ni imagino que reemplace el teclado y el ratón en mi flujo de trabajo diario. Y lo más importante, pasará un tiempo antes de que los desarrolladores adopten entradas basadas en lenguaje natural en sus aplicaciones. Será un proceso largo y tedioso.

¿Y qué hay de las alternativas? Bueno, ya existen aplicaciones como WowMouse , que convierte tu smartwatch en un centro de reconocimiento de gestos para los movimientos de dedos y palmas. Sin embargo, solo sirve como sustituto de los gestos del cursor y el toque, y no ofrece una experiencia de teclado completa. Pero, de nuevo, permitir que las aplicaciones accedan a tu teclado es un riesgo que los dueños de los sistemas operativos protestarán. ¿Recuerdas los keyloggers?

En definitiva, nos encontramos en un punto en el que las capacidades conversacionales de los modelos de IA y su capacidad de agencia están dando un gran salto. Sin embargo, aún requerirían que se cruzara la meta con un clic del ratón o pulsando unas cuantas teclas, en lugar de reemplazarlos por completo. Además, resultan demasiado engorrosos cuando se puede usar un atajo de teclado o el ratón en lugar de narrar una larga cadena de comandos de voz.

En resumen, la IA reducirá nuestra dependencia de la información física, pero no la reemplazará. Al menos, no para las masas.