ChatGPT ahora interpreta fotografías mejor que un crítico de arte y un investigador juntos
Las recientes capacidades de generación de imágenes de ChatGPT han desafiado nuestra comprensión anterior de los medios generados por IA. El modelo GPT-4o recientemente anunciado demuestra notables capacidades para interpretar imágenes con gran precisión y recrearlas con efectos virales, como el inspirado en Studio Ghibli . Incluso domina el texto en imágenes generadas por IA , lo que antes era difícil para la IA. Y ahora está lanzando dos nuevos modelos capaces de diseccionar imágenes en busca de pistas para recopilar mucha más información que incluso podría pasar desapercibida para la mirada humana.
OpenAI anunció dos nuevos modelos a principios de esta semana que llevan las capacidades de pensamiento de ChatGPT a un nivel superior. Su nuevo modelo o3, que OpenAI llama su "modelo de razonamiento más poderoso", mejora las capacidades de interpretación y percepción existentes, mejorando en "codificación, matemáticas, ciencia, percepción visual y más", afirma la organización. Mientras tanto, el o4-mini es un modelo más pequeño y más rápido para un “razonamiento rentable” en los mismos sentidos. La noticia sigue al reciente lanzamiento por parte de OpenAI de la clase de modelos GPT-4.1, que brinda un procesamiento más rápido y un contexto más profundo.
ChatGPT ahora está "pensando con imágenes"
Con mejoras en sus capacidades de razonamiento, ambos modelos ahora pueden incorporar imágenes en su proceso de razonamiento, lo que los hace capaces de "pensar con imágenes", proclama OpenAI . Con este cambio, ambos modelos pueden integrar imágenes en su cadena de pensamiento. Yendo más allá del análisis básico de imágenes, los modelos o3 y o4-mini pueden investigar las imágenes más de cerca e incluso manipularlas mediante acciones como recortar, hacer zoom, voltear o enriquecer detalles para obtener cualquier señal visual de las imágenes que potencialmente podría mejorar la capacidad de ChatGPT para proporcionar soluciones.
Con el anuncio, se dice que los modelos combinan razonamiento visual y textual, que se puede integrar con otras funciones de ChatGPT como búsqueda web, análisis de datos y generación de código, y se espera que se convierta en la base para agentes de IA más avanzados con análisis multimodal.
Entre otras aplicaciones prácticas, puede esperar incluir imágenes de una multitud de elementos, como diagramas de flujo o garabatos desde notas escritas a mano hasta imágenes de objetos del mundo real, y esperar que ChatGPT tenga una comprensión más profunda para obtener un mejor resultado, incluso sin un mensaje de texto descriptivo. Con esto, OpenAI se acerca cada vez más al Gemini de Google, que ofrece la impresionante capacidad de interpretar el mundo real a través de vídeo en directo .
A pesar de las audaces afirmaciones, OpenAI está limitando el acceso sólo a miembros pagos, presumiblemente para evitar que sus GPU se "fundan" nuevamente, mientras lucha por mantener la demanda informática de nuevas funciones de razonamiento. A partir de ahora, los modelos o3, o4-mini y o4-mini-high estarán disponibles exclusivamente para los miembros de ChatGPT Plus, Pro y Team, mientras que los usuarios de los niveles Enterprise y Education los obtendrán dentro de una semana. Mientras tanto, los usuarios gratuitos podrán tener acceso limitado a o4-mini cuando seleccionen el botón "Pensar" en la barra de mensajes.