Después de usar el artefacto TikTok, desinstalé inmediatamente PS

Las imágenes se convierten en texto, lo que hoy ya no es un problema. Varias funciones de OCR facilitan la extracción de texto de las imágenes, y no es un gran problema para la IA interpretar una imagen.

Pero dibujar una imagen sigue siendo difícil para la IA de hoy. Reconocer imágenes y extraer información es procesar información para la IA. Pero hay una capa adicional en el dibujo, no solo para procesar la información, sino también para completar la creación. La primera es una pregunta de opción múltiple, mientras que la segunda es una composición proposicional.

Justo después de responder bien las preguntas de opción múltiple, el siguiente paso es responder las preguntas subjetivas del juego libre. Pero nadie pensó que el primero en responder esta pregunta en su propia aplicación fue TikTok.

Usa TikTok para generar Facebook, Jack Ma

En comparación con gigantes como Google y OpenAI, que han invertido mucho en la industria de la IA y han estado inmersos en la industria de la IA durante mucho tiempo, TikTok puede ser solo un "estudiante de transferencia". Pero, ¿por qué no es sorprendente que el estudiante transferido pase por alto al gigante y haga el problema primero? Aunque los estudiantes transferidos también hicieron algo de ingenio, al menos siguen siendo muy impresionantes.

La función de texto a imagen creada por TikTok se llama "AI Greenscreen", que reemplaza el monótono fondo blanco original, y la IA genera el fondo del video por ti. Es posible que los fondos de estos videos no satisfagan las necesidades de los creadores, pero después de todo, este es un fondo de pantalla verde único personalizado para usted. Si tiene suerte, puede ser más adecuado para el tema del contenido del video.

▲ Haga clic en el efecto especial para experimentar esta función al enviar un video. La imagen proviene de Silicon Stars

Hicimos algunas pruebas con esta nueva función para ver cómo se ve la imagen dibujada por TikTok. Entre las palabras en la prueba aleatoria, algunas pinturas fueron desconcertantes, mientras que otras fueron calificadas como "muy buenas para representar rarezas".

La mejor recibida es la pintura presentada al ingresar a "Facebook". Puede reconocer vagamente el ícono azul de Facebook. El ojo único y una oreja en la imagen crean una sensación única de horror. Combinado con las noticias recientes de Facebook, debo decir que esta pintura captura muy bien el sentimiento de la palabra Facebook.

También hay palabras como manzana y China que se representan con precisión en la imagen. El primero puede ver fácilmente que es una manzana, y el segundo también puede ver edificios de estilo chino y, al mismo tiempo, también evita la bandera nacional y otros patrones sensibles en el campo del emprendimiento. Es solo que es difícil presentar una imagen de Apple, incluso las palabras clave de Apple + Apple CEO Cook presentan patrones relacionados con manzanas y platos.

Sin embargo, también hay muchos no relacionados, por ejemplo, probamos con Alibaba, Tencent y ByteDance, y no se puede decir que los generados no tengan nada que ver con estas marcas. Pero en cualquier caso, es difícil de reconocer a simple vista, algo abstracto.

También hay muchas imágenes interesantes dibujadas ingresando los nombres de los personajes. El nombre del famoso blogger extranjero hecho a mano Li Ziqi es una pintura de paisaje agradable; la pintura del famoso ex entrenador de la Premier League Arsene Wenger también es reconocible de un vistazo, que pertenece al estilo de reconstrucción de fotos clásicas; el estilo de Jack Ma también es un poco raro, y los ojos que son consistentes con Facebook tienen una sensación de mirar furtivamente.

En cuanto a Musk, generamos cuatro imágenes con TikTok y ninguna de ellas era reconocible.

Por supuesto, además del éxito de las palabras de los personajes y las imágenes abstractas, también hay Switch y Guangzhou que se considera que se expresan correctamente y pueden recordar.

Una pintura al estilo de Zelda con personajes que hacen que los fanáticos reconozcan "este podría ser Mario". Del mismo modo, los edificios icónicos y los colores brillantes de Guangzhou se pueden identificar fácilmente.

El tiempo para generar cada imagen de fondo es de menos de 5 segundos.Si el tema es similar, entonces estas imágenes son muy adecuadas para la imagen de fondo del video. El tiempo de generación es corto y todos pueden usarlo. Esta es la ventaja de TikTok, por lo que la aparición de un producto de texto a imagen de este tipo en una aplicación con cientos de millones de actividades diarias puede considerarse un evento histórico.

Es solo que TikTok todavía toma atajos.

En la actualidad, casi la totalidad de los cuadros producidos pertenecen al estilo de la pintura, e incluso muchos pertenecen al abstraccionismo e impresionismo.En comparación con la generación de imágenes realistas, esta dificultad es mucho menor. Después de todo, incluso si no te pareces a ti, puedes confiar en tu cerebro para compensarlo. La IA que entiende las palabras que ingresas es el mismo problema que enfrentas cuando vas a un museo de arte para ver una exposición de arte: si la similitud no es suficiente, entonces comprenda y compense.

Este también es un método de ahorro de costos. La dificultad es menor, la potencia de cómputo requerida también es menor y el costo es menor.

▲ Incluso las imágenes con un poco de texto sangriento no darán demasiado miedo

Texto a imagen, incluso Google no tiene un producto generado en tiempo real

Desde la perspectiva del efecto, el efecto de renderizado de pantalla verde AI de TikTok no puede tener una puntuación muy alta. Pero como una tecnología con un umbral alto, se puede considerar una mejora si puede ser utilizada por usuarios sin ningún umbral en unos pocos segundos.

Aunque está limitado por el hecho de que las imágenes generadas no son lo suficientemente "cotidianas" ni lo suficientemente realistas como para generar preocupaciones sobre el abuso de la tecnología y el fraude de imágenes, en realidad se pueden hacer imágenes realistas, pero aún no están disponibles para todos como las pantallas verdes de IA. Eso es todo.

Google también ha lanzado una herramienta Imagen AI que puede convertir una oración simple en una imagen real, tan real como una sesión de fotos. Pero desafortunadamente, incluso Google, que ha invertido mucho en IA, no ha podido fabricar productos que se generen sobre la marcha. En otras palabras, la opción de pedirle a una IA que te haga un dibujo aún no está disponible en Imagen AI.

▲ Imagen AI puede hacer clic en diferentes opciones para hacer diferentes imágenes

Actualmente, solo hay algunas opciones preestablecidas en el sitio web oficial. Incluso si hace clic en cada una, solo hay docenas de combinaciones, pero hay estilos realistas y estilos de pintura al óleo para elegir. Los lectores interesados ​​aún pueden ir y jugar un poco solos.

Google es del tipo que es famoso y llama la atención por cada movimiento. Y el laboratorio de investigación de inteligencia artificial OpenAI se basa en las obras, y han lanzado el generador de texto a imagen de inteligencia artificial más original y popular, Dall-E.

▲ Dall-E

Dall-E puede volver a editar imágenes existentes a partir de contenido textual de manera realista, puede agregar y eliminar elementos por usted, teniendo en cuenta la representación de sombras, reflejos y texturas: la tecnología PS puede matarlo. Es muy sencillo analizar e imitar las pinturas existentes y reponerlas, el estilo de inspiración viene de la obra original, es decir, se cambia el protagonista.

Como proyecto de investigación, Dall-E todavía está en versión beta cerrada, y un "número limitado de usuarios de confianza" en la lista ha estado publicando foto tras foto en las redes sociales. Cada usuario que participa en la prueba puede obtener 50 puntos gratis inicialmente, y luego 15 puntos por mes después de eso, 1 punto puede generar 4 imágenes con un contenido de texto y también puede elegir tres estilos de pintura.

En la actualidad, Dall-E todavía tiene muy pocos métodos de monetización para usuarios beta internos: si desea experimentar el servicio después de que se agoten los 15 puntos por mes, puede comprar 115 puntos por $ 15. La buena noticia es que las imágenes resultantes también se pueden comercializar y, una vez que las haya creado a través de Dall-E, puede usarlas para todo, desde ilustraciones, portadas, diseños de camisetas y más.

▲ El usuario puede agregar elementos en la posición establecida, y los elementos agregados a la foto también se complementarán automáticamente en términos de sombras, etc.

La directora de video Karen X. Cheng le dijo a Bloomberg:

He estado experimentando con la generación de imágenes durante horas y me he perdido… se siente más como si estuvieras trabajando con una persona viva que con una herramienta como Photoshop.

Por supuesto, Dall-E no es perfecto en la actualidad. Todavía es un poco difícil crear un rostro humano completamente realista. Se requieren conocimientos médicos profesionales para poder presentar huesos humanos con precisión. No es muy bueno. El investigador Aditya Ramesh dijo que DALL-E solo sabe cómo leer texto y luego generar imágenes, por lo que en realidad está tratando de crear contenido visualmente similar.

▲Imágenes fantásticas generadas por Dall-E

Por supuesto, esta tecnología es muy prometedora. Puedes imaginar que reduce el umbral para que los creadores de contenido encuentren imágenes, y puedes imaginar que los retratistas pueden mejorar la eficiencia con su ayuda. Pero así como se puede abusar de la aparición de todas las tecnologías, la tecnología de IA para ayudar a generar imágenes de texto también tiene un riesgo: los escenarios de aplicaciones negativas que han aparecido en Deepfake se repetirán uno por uno.

Afortunadamente, esta vez, el proveedor de tecnología ya se había preparado con anticipación y quería poner a la IA en una jaula.

Las imágenes abstractas de TikTok son en sí mismas una capa de protección porque no son realistas. Además, incluso si ingresa algún contenido sugerente (violencia, desnudez) en TikTok, las pinturas presentadas aún no son las esperadas, y el estilo abstracto no es claro y evita el enorme costo de la revisión.

▲ Restricciones en la web oficial de Dall-E

Dall-E también limita la generación de AI de contenido violento, adulto y odioso, minimizando la exposición de Dall-E a tales conceptos en el algoritmo. Al mismo tiempo, la plataforma también cuenta con tecnología avanzada para evitar el uso de rostros humanos reales para generar imágenes (las celebridades se sienten aliviadas), y los sistemas de monitoreo automatizado y humano también evitan el abuso de Dall-E.

Es solo que la aparición de todas las nuevas tecnologías no puede simplemente mirar el lado malo, y vale la pena esperar las perspectivas de alta eficiencia que trae. Al menos, Ai Faner espera con ansias el final del artículo que se publicará algún día: "Dall-E genera el mapa del título del artículo".

Ni demasiado interesante, ni demasiado optimista.

#Bienvenido a prestar atención a la cuenta oficial de WeChat de Aifaner: Aifaner (WeChat: ifanr), se le brindará más contenido emocionante lo antes posible.

Love Faner | Enlace original · Ver comentarios · Sina Weibo