Según se informa, Nvidia fue sorprendida extrayendo datos de inteligencia artificial de Netflix y YouTube (nuevamente)

agosto 6, 2024 Aranzulla de Los Pobres

Jensen, director ejecutivo de Nvidia, frente a un fondo. — NVIDIA

Según un informe condenatorio de 404 Media , respaldado con chats internos de Slack, correos electrónicos y documentos obtenidos por el medio, Nvidia se ayudó a sí misma a "una experiencia visual de toda la vida humana equivalente a datos de entrenamiento por día", dijo Ming-Yu Liu, vicepresidente de Investigación en Nvidia y líder del proyecto Cosmos, admitió en un correo electrónico de mayo.

Ex empleados anónimos de Nvidia dijeron a 404 que se les había pedido que extraeran contenido de video de Netflix, YouTube y otras fuentes en línea para obtener datos de capacitación para usar con los diversos productos de inteligencia artificial de la compañía. Entre ellos se incluyen el generador de mundos 3D Omniverse de Nvidia, los sistemas de vehículos autónomos y el "humano digital".

Cuando esos empleados preguntaron sobre la legalidad del proyecto, denominado internamente Cosmos, la dirección les aseguró que los niveles más altos de la empresa les habían dado autorización para utilizar ese contenido.

El proyecto buscaba construir un modelo básico, similar a Gemini 1.5 , GPT-4 o Llama 3.1 , "que encapsule la simulación del transporte ligero, la física y la inteligencia en un solo lugar para desbloquear varias aplicaciones posteriores críticas para Nvidia".

Para hacer esto, el proyecto Cosmos supuestamente usó un descargador de videos de código abierto y empleó aprendizaje automático para saltar IP, evitando así los intentos de YouTube de bloquearlo. Según los correos electrónicos vistos por 404, los gerentes de proyecto discutieron el uso de hasta 30 máquinas virtuales que se ejecutan en Amazon Web Services para descargar 80 años de videos completos y cortos todos los días.

Por su parte, Nvidia no afirma haber cometido ningún delito. "Respetamos los derechos de todos los creadores de contenido y confiamos en que nuestros modelos y nuestros esfuerzos de investigación cumplen plenamente con la letra y el espíritu de la ley de derechos de autor", dijo un portavoz de Nvidia a 404 Media por correo electrónico. “La ley de derechos de autor protege expresiones particulares pero no hechos, ideas, datos o información. Cualquiera es libre de aprender hechos, ideas, datos o información de otra fuente y utilizarlos para realizar sus propias expresiones. El uso legítimo también protege la capacidad de utilizar una obra con un propósito transformador, como la formación de modelos”.

Esta está lejos de ser la primera vez que Nvidia (sin mencionar la gran mayoría del resto del campo de la IA) ha adoptado un enfoque de “raspar primero y tal vez pedir perdón después” en sus esfuerzos de entrenamiento de IA. En julio, Nvidia fue mencionada en otro informe sobre extracción ilegal de videos con derechos de autor junto con Anthropic y Salesforce.

En CES 2024, la compañía desató una tormenta en Internet con sus respuestas ambiguas sobre cómo se entrenó su nueva IA generativa para el motor de juegos . En respuesta, Nvidia reiteró que sus herramientas eran " comercialmente seguras ".