La aplicación HuggingSnap es la mejor herramienta de inteligencia artificial de Apple, con un toque conveniente

La plataforma de aprendizaje automático, Hugging Face, ha lanzado una aplicación para iOS que dará sentido al mundo que te rodea tal como lo ve la cámara de tu iPhone. Simplemente apúntelo a una escena o haga clic en una imagen y desplegará una IA para describirla, identificar objetos, realizar traducciones o extraer detalles basados ​​en texto.

Llamada HuggingSnap, la aplicación adopta un enfoque multimodelo para comprender la escena que te rodea como entrada y ahora está disponible de forma gratuita en la App Store. Está impulsado por SmolVLM2, un modelo de IA abierto que puede manejar texto, imágenes y videos como formatos de entrada.

El objetivo general de la aplicación es permitir que las personas aprendan sobre los objetos y el paisaje que los rodea, incluido el reconocimiento de plantas y animales. La idea no es muy diferente de Visual Intelligence en iPhones , pero HuggingSnap tiene una ventaja crucial sobre su rival Apple.

No requiere internet para funcionar

SmolVLM2 ejecutándose en un iPhone

Todo lo que necesita es un iPhone con iOS 18 y listo. La interfaz de usuario de HuggingSnap no es muy diferente de la que se obtiene con Visual Intelligence. Pero aquí hay una diferencia fundamental.

Apple confía en ChatGPT para que funcione Visual Intelligence . Esto se debe a que Siri actualmente no es capaz de actuar como una herramienta de inteligencia artificial generativa, como ChatGPT o Gemini de Google, los cuales tienen su propio banco de conocimientos. En cambio, descarga todas las solicitudes y consultas de los usuarios a ChatGPT.

Eso requiere una conexión a Internet ya que ChatGPT no puede funcionar en modo fuera de línea. HuggingSnap, por otro lado, funciona bien. Además, un enfoque fuera de línea significa que ningún dato del usuario sale de su teléfono, lo que siempre es un cambio bienvenido desde una perspectiva de privacidad.

¿Qué puedes hacer con HuggingSnap?

Frasco de perfume identificativo HuggingSnap.
Nadeem Sarwar / Tendencias digitales

HuggingSnap funciona con el modelo SmolVLM2 desarrollado por Hugging Face. Entonces, ¿qué puede lograr este modelo que ejecuta el programa detrás de esta aplicación? Bueno, mucho. Además de responder preguntas basadas en lo que ve a través de la cámara de un iPhone, también puede procesar imágenes seleccionadas de la galería de su teléfono.

Por ejemplo, muéstrale una fotografía de cualquier monumento histórico y pídele que te dé sugerencias de viaje. Puede comprender lo que aparece en un gráfico o dar sentido a la imagen de una factura de electricidad y responder consultas basándose en los detalles que ha recogido del documento.

Tiene una arquitectura liviana y es particularmente adecuado para aplicaciones de IA en dispositivos. En los puntos de referencia, funciona mejor que el modelo abierto PaliGemma (3B) de Google y se codea con el modelo Qwen AI rival de Alibaba con capacidades de visión.

Ejecutando la aplicación HuggingSnap en iPhone.
Nadeem Sarwar / Tendencias digitales

La mayor ventaja es que requiere menos recursos del sistema para su funcionamiento, lo cual es particularmente importante en el contexto de los teléfonos inteligentes. Curiosamente, el popular reproductor multimedia VLC también utiliza el mismo modelo SmolVLM2 para proporcionar descripciones de vídeo, lo que permite a los usuarios buscar en un vídeo utilizando indicaciones en lenguaje natural.

También puede extraer de forma inteligente los momentos destacados más importantes de un vídeo. "Diseñado para ser eficiente, SmolVLM puede responder preguntas sobre imágenes, describir contenido visual, crear historias basadas en múltiples imágenes o funcionar como un modelo de lenguaje puro sin entradas visuales", dice el repositorio GitHub de la aplicación.