MIT y la nueva A.I. de IBM. La herramienta de edición de imágenes te permite pintar con neuronas.
No importa si se trata de etiquetar automáticamente objetos en imágenes o la capacidad de ajustar la iluminación y separar los sujetos de su fondo con el "modo de retrato" del iPhone , no hay duda de que la inteligencia artificial es una fuerza poderosa en las herramientas modernas de edición de fotos.
Pero, ¿qué pasaría si fuera posible ir un paso más allá y utilizar las últimas tecnologías de vanguardia para desarrollar lo que podría ser el programa de pintura más ambicioso (y, a su manera, imaginativo), uno que va mucho más allá del simple toque? ¿Estás analizando fríamente tus imágenes existentes?
Con un programa de este tipo, todo lo que una persona tendría que hacer para eliminar una línea de coches antiestética que afectaría a una foto de su hogar familiar sería pasarla por encima con un cepillo. Como por arte de magia, los vehículos serían reemplazados por un banco de hierba fotorrealista. ¿Quieres eliminar ese fotobombador de una de tus instantáneas de vacaciones? No hay problema: simplemente haga clic para seleccionarlos y desaparecerán en lugar de un poste de servicio que parece que siempre ha estado allí. ¿Qué tal agregar una puerta auténticamente antigua en una foto de una iglesia antigua? Haga clic y ya está. Tienes la idea
Esto es lo que los investigadores del Instituto de Tecnología de Massachusetts e IBM están trabajando para lograr con una nueva demostración de tecnología que llaman "GAN Paint Studio". Descrito por sus creadores como la capacidad de "pintar con neuronas", refiriéndose a las neuronas artificiales de Una red neuronal de aprendizaje automático: es una de las herramientas de edición de fotos más potencialmente transformadoras que se haya creado.
Permite a los usuarios cargar una imagen de su elección y luego modificar cualquier aspecto de la misma, ya sea cambiando el tamaño de los objetos o agregando elementos y objetos completamente nuevos. Piense en ello como Photoshop para la generación "profunda" , aunque en la actualidad es más una prueba de concepto que un producto terminado.
El futuro de las herramientas creativas.
"Lo que creamos con este trabajo es un punto de partida para mostrar cómo podrían funcionar las herramientas creativas en el futuro", dijo a Digital Trends Hendrik Strobelt , científico investigador del MIT-IBM Watson AI Lab. “Comenzamos desde una red neuronal [llamada GAN] que puede producir sus propias imágenes de una determinada categoría, por ejemplo, imágenes de cocina, y analizamos qué partes internas de la red son responsables de producir qué característica. Esto nos permitió modificar las imágenes que la red produjo. "Dibujamos" en ellos. "La novedad que agregamos es que puedes subir tu propia imagen de esta categoría y modificarla con pinceles que no solo dibujan trazos, sino que en realidad dibujan unidades semánticamente significativas, como árboles, textura de ladrillo o cúpulas".
Una GAN, o Red de Publicidad Generativa, es una de las herramientas más poderosas utilizadas en la inteligencia artificial generativa. Un GAN enfrenta dos redes neuronales artificiales entre sí. Una red genera nuevas imágenes, mientras que la otra intenta averiguar qué imágenes son generadas por computadora y cuáles no. Con el tiempo, este proceso adverso generativo hace que la red del "generador" se convierta en lo suficientemente buena para crear imágenes que pueda engañar con éxito al "discriminador" en todo momento. Un GAN fue la tecnología detrás de la obra de arte de AI que se vendió por mucho dinero en una subasta de Christie's en 2018.
El sistema desarrollado por el MIT e investigadores de IBM muestra algunas habilidades impecables. Un poco como Deep Dream , la herramienta de generación de imágenes trippy desarrollada por investigadores de Google hace varios años, muestra una comprensión impresionante de qué imágenes encajan entre sí. Como resultado de haber sido entrenado en un vasto archivo de imágenes, aprende a comprender las reglas básicas que rigen las relaciones entre los objetos. Por ejemplo, pídale que agregue un objeto en el cielo y no dibujará una ventana, ya que sabe que las ventanas generalmente no se encuentran allí (o nunca).
Como señala Strobelt, GAN Paint Studio aún no está listo para el horario estelar. Aunque los miembros del público pueden intentar usarlo , todavía hay mucho trabajo por hacer. Cabe destacar que la versión de demostración es actualmente de baja resolución. Sin embargo, sí muestra la inmensa promesa de la tecnología.
Imaginación desafiante
"Las partes más divertidas [de la tecnología] son en realidad cuando su imaginación es desafiada", dijo Strobelt. “Intenta agregar una puerta a la imagen del Palazzo Vecchio; Es un poco alucinante si conoces el lugar. El sistema está lejos de ser perfecto, y no todas las imágenes se pueden modificar igual de bien. Todavía se necesita investigación sobre cómo optimizar todas las partes. Por ejemplo, cuando el modelo GAN intenta representar el modelo de entrada, es muy posible que use las unidades semánticas incorrectas para reproducir las características, [puede] simplemente generar una puerta fuera de las unidades de árbol. Descubrir cuándo y cómo lo hace bien o mal es realmente un trabajo futuro muy interesante ".
Al igual que las GAN mejoran con el tiempo, Strobelt piensa que las aplicaciones para GAN Paint Studio se abrirán. "La primera idea obvia sería un editor de fotos con estos pinceles y borradores semánticos", dijo. “Esto podría ayudarte a editar fotos de vacaciones, por ejemplo. También podría permitir a los arquitectos crear rápidamente variaciones en la incrustación de sus representaciones de edificios. Los diseñadores de juegos podrían [también usarlo para] modificar los mapas de nivel más rápido ".
Si dicha tecnología pudiera agregarse a los efectos de video, también resultaría inmensamente poderosa. Esto permitiría colocar objetos en tomas con solo presionar un botón. Si un director se da cuenta de q
ue
ha olvidado incluir un elemento de fondo que es crucial para la trama en una escena completa, podría agregarse rápidamente, sin la necesidad de los costosos y actuales procesos de efectos visuales que consumen mucho tiempo.
Strobelt es decisivo al decir que no cree que GAN Pain Studio sea verdaderamente creativo y autónomo . "No", dijo, con decisión. "Veo esto como una herramienta avanzada para ayudar a los humanos que piensan que no son creativos para desafiar este pensamiento".
Entonces, de nuevo, ¿qué es la creatividad? Al igual que con muchos otros aspectos de nuestras vidas, como los trabajos que creemos que solo los humanos pueden hacer , parece que la IA está lista para hacer las grandes preguntas.