Apple fue sorprendida entrenando IA en videos de YouTube sin consentimiento
Apple es el último de una larga lista de desarrolladores de IA generativa (una lista que es casi tan antigua como la industria) que ha sido sorprendido extrayendo contenido protegido por derechos de autor de las redes sociales para entrenar sus sistemas de inteligencia artificial .
Según un nuevo informe de Proof News, Apple ha estado utilizando un conjunto de datos que contiene subtítulos de 173.536 vídeos de YouTube para entrenar su IA. Sin embargo, Apple no está sola en esa infracción, a pesar de las reglas específicas de YouTube contra la explotación de dichos datos sin permiso. Otros pesos pesados de la IA también han sido descubiertos usándolo, incluidos Anthropic , Nvidia y Salesforce .
El conjunto de datos, conocido como subtítulos de YouTube, contiene transcripciones de vídeo de más de 48.000 canales de YouTube, desde Khan Academy, MIT y Harvard hasta The Wall Street Journal, NPR y la BBC. Incluso las transcripciones de programas de variedades nocturnos como “The Late Show With Stephen Colbert”, “Last Week Tonight with John Oliver” y “Jimmy Kimmel Live” forman parte de la base de datos de subtítulos de YouTube. También se eliminaron sin permiso vídeos de personas influyentes de YouTube como Marques Brownlee y MrBeast, así como de varios teóricos de la conspiración.
El conjunto de datos en sí, que fue compilado por la startup EleutherAI, no contiene ningún archivo de vídeo, aunque sí incluye una serie de traducciones a otros idiomas, incluidos japonés, alemán y árabe. Según se informa, EleutherAI obtuvo sus datos de un conjunto de datos más grande, denominado Pile, que a su vez fue creado por una organización sin fines de lucro que extrajo sus datos no solo de YouTube sino también de registros del Parlamento Europeo y Wikipedia.
Bloomberg , Anthropic y Databricks también entrenaron modelos en Pile, indican las publicaciones relativas de las empresas. "The Pile incluye un subconjunto muy pequeño de subtítulos de YouTube", dijo Jennifer Martinez, portavoz de Anthropic, en un comunicado a Proof News. “Los términos de YouTube cubren el uso directo de su plataforma, que es distinto del uso del conjunto de datos de The Pile. En cuanto a las posibles violaciones de los términos de servicio de YouTube, tendríamos que remitirlo a los autores de The Pile”.
Dejando a un lado los tecnicismos, las nuevas empresas de IA que se ayudan a sí mismas con los contenidos de la Internet abierta han sido un problema desde que ChatGPT hizo su debut. Stability AI y Midjourney se enfrentan actualmente a una demanda por parte de creadores de contenido por acusaciones de que eliminaron sus obras protegidas por derechos de autor sin permiso. El propio Google, que opera YouTube, fue objeto de una demanda colectiva en julio pasado y luego de otra en septiembre , que, según la compañía, "daría un mazo no sólo a los servicios de Google sino a la idea misma de la IA generativa".
Yo: ¿Qué datos se utilizaron para entrenar a Sora? ¿Videos de Youtube?
CTO de OpenAI: En realidad, no estoy seguro de eso…(Realmente te animo a que veas la entrevista completa de @WSJ donde Murati respondió muchas de las preguntas más importantes sobre Sora. Entrevista completa, irónicamente, en YouTube:… pic.twitter.com/51O8Wyt53c
– Joanna Stern (@JoannaStern) 14 de marzo de 2024
Y en julio pasado, el director ejecutivo de inteligencia artificial de Microsoft, Mustafa Suleyman, argumentó que un “contrato social” etéreo significa que cualquier cosa que se encuentre en la web es un juego limpio.
"Creo que con respecto al contenido que ya está en la web abierta, el contrato social de ese contenido desde los años 90 ha sido que es de uso legítimo", dijo Suleyman a CNBC . “Cualquiera puede copiarlo, recrearlo, reproducirlo. Eso ha sido software gratuito, por así decirlo, ese ha sido el entendimiento”.