El último modelo de OpenAI crea imágenes realistas y texto legible, pruébelo gratis

OpenAI ha introducido su versión 4o en ChatGPT para permitir la generación de imágenes nativas en el entorno del chatbot. Esta actualización hace que no tenga que usar el modelo de generación de imágenes Dall-E de OpenAI como una entidad separada, aunque Dall-E sigue estando disponible para ellos como preferencia. La marca AI también ha habilitado su generador de video Sora AI dentro de ChatGPT.

Las nuevas funciones están actualmente disponibles para los usuarios gratuitos de ChatGPT, así como para los usuarios de ChatGPT Plus , Team y Pro. La disponibilidad llegará a los usuarios empresariales y educativos la próxima semana.

Imagen generada por OpenAI: una foto sincera al estilo paparazzi de Karl Marx caminando apresuradamente por el estacionamiento del Mall of America. Imagen generada por OpenAI: fotografía realista de un caballo galopando de derecha a izquierda a través de una vasta y tranquila superficie del océano. Imagen generada por OpenAI: imagen fotorrealista del mercado de agricultores en Toronto un sábado del verano de 2006.

Anteriormente, Dall-E 3 era el complemento de generación de imágenes para suscriptores pagos de ChatGPT. Mientras tanto, quienes quisieran probar el generador de forma gratuita podrían hacerlo a través del nivel básico de Microsoft Copilot .

El modelo ha sido elogiado como uno de los mejores generadores de imágenes disponibles, particularmente en su versión paga. A pesar del beneficio de que todos los usuarios de ChatGPT puedan usar la generación de imágenes de forma nativa con el modelo 4o, aquellos que usan el nivel gratuito de ChatGPT deben estar preparados para encontrarse con algunas limitaciones, como máximos para carga de archivos y análisis de datos, señaló CNET .

Aun así, ChatGPT se beneficiará de tener imágenes más realistas con texto más legible después de que OpenAI pasó un año haciendo que GPT-4o pasara por un esfuerzo de capacitación posterior al lanzamiento llamado "aprendizaje por refuerzo a partir de retroalimentación humana" (RLHF), según el Wall Street Journal .

Después de anunciar GPT-4o en mayo de 2024, OpenAI tenía un equipo de más de 100 "entrenadores humanos" revisando el modelo en busca de errores tipográficos, así como errores comunes en manos y rostros, dijo a la publicación el investigador principal del proyecto, Gabriel Goh.

El modelo GPT-4o también brindará a ChatGPT la capacidad de crear fondos transparentes. Esto debería ser un beneficio importante para los usuarios comerciales y creativos, ya que les permitirá crear logotipos u otra iconografía, también señaló al WSJ la líder de productos multimodal ChatGPT, Jackie Shannon.

A pesar de las mejoras realizadas por OpenAI , el modelo GPT-4o actualizado en su conjunto todavía tiene sus deficiencias. Todavía tiene propensión a las alucinaciones, que es una característica común de la IA que aún no se ha resuelto. Mantener la coherencia en la edición sigue siendo un desafío dentro de la atmósfera de ChatGPT; sin embargo, OpenAI ha prometido actualizaciones rápidas, a partir de la próxima semana.

Otro tema pendiente para OpenAI es la cuestión de la ética y la legalidad. La marca insiste en que su modelo fue entrenado en “datos disponibles públicamente” y a través de datos patentados que posee a través de asociaciones con marcas como Shutterstock, señaló el WSJ.

Las imágenes generadas a través de ChatGPT basadas en el modelo 4o no tendrán marcas de agua de IA. Sin embargo, la marca ha indicado que las imágenes incluirán metadatos C2PA⁠ que las indicarán como generadas por IA. Este sigue siendo el estándar de la industria.