El nuevo modelo de IA de Meta puede convertir texto en imágenes 3D en menos de un minuto
La última incursión de Meta en la generación de imágenes con IA es rápida. La compañía presentó el martes su nuevo modelo “3D Gen” , un “canal rápido y de última generación” para transformar texto de entrada en imágenes 3D de alta fidelidad que pueden generarse en menos de un minuto.
Es más, se informa que el sistema puede aplicar nuevas texturas y máscaras a imágenes generadas y producidas por artistas mediante mensajes de texto.
Según un estudio reciente del equipo de investigación de Meta Gen AI, 3D Gen no solo ofrecerá texturas y mapas de materiales de alta resolución, sino que también admitirá renderizado basado físicamente (PBR) y capacidades de retexturizado generativo.
Nueva investigación de GenAI en Meta, que presenta Meta 3D Gen: un nuevo sistema para la generación de un extremo a otro de activos 3D a partir de texto en <1min.
Meta 3D Gen es un nuevo sistema de IA combinado que puede generar activos 3D de alta calidad, con texturas de alta resolución y mapas de materiales de un extremo a otro,… pic.twitter.com/rDD5GzNinY
– IA en Meta (@AIatMeta) 2 de julio de 2024
El equipo estima un tiempo de inferencia promedio de solo 30 segundos para crear el modelo 3D inicial utilizando el modelo 3D AssetGen de Meta. Luego, los usuarios pueden regresar y refinar la textura del modelo existente o reemplazarla con algo nuevo, ambos mediante mensajes de texto, usando Meta 3D TextureGen, un proceso que la compañía calcula que no debería tomar más de 20 segundos adicionales de tiempo de inferencia.
"Al combinar sus puntos fuertes", escribió el equipo en el resumen de su estudio, "3DGen representa objetos 3D simultáneamente de tres maneras: en el espacio de visualización, en el espacio volumétrico y en el espacio UV (o textura)". El equipo de Meta comparó su modelo 3D Gen con una serie de líneas de base de la industria y lo comparó según una variedad de factores que incluyen fidelidad de mensajes de texto, calidad visual, detalles de textura y artefactos. Al combinar las funciones de ambos modelos, los anotadores seleccionaron las imágenes generadas por el proceso integrado de dos etapas en comparación con sus contrapartes de una sola etapa el 68% de las veces.
Por supuesto, el sistema analizado en este documento aún está en desarrollo y aún no está listo para uso público, pero los avances técnicos que ilustra este estudio podrían resultar transformadores en una serie de disciplinas creativas, desde efectos de juegos y películas hasta aplicaciones de realidad virtual.
Dar a los usuarios la capacidad no sólo de crear sino también de editar contenido generado en 3D, de forma rápida e intuitiva, podría reducir drásticamente la barrera de entrada para este tipo de actividades. No es difícil imaginar el efecto que esto podría tener en el desarrollo de juegos, por ejemplo.