Todo Internet ahora pertenece a la IA de Google

julio 6, 2023 Aranzulla de Los Pobres

Google Bard se muestra en Google I/O 2023.

La última actualización de Google a su política de privacidad hará que la empresa tenga libertad para raspar la web en busca de cualquier contenido que pueda beneficiar la construcción y mejora de sus herramientas de IA.

“Google utiliza la información para mejorar nuestros servicios y desarrollar nuevos productos, funciones y tecnologías que beneficien a nuestros usuarios y al público”, dice la nueva política de Google. "Por ejemplo, usamos información disponible públicamente para ayudar a entrenar los modelos de IA de Google y crear productos y funciones como Google Translate, Bard y capacidades de IA en la nube".

Gizmodo señala que la política se actualizó para decir "modelos de IA" cuando anteriormente decía "para modelos de lenguaje". Además, la política agregó Bard y Cloud AI, cuando anteriormente solo mencionaba Google Translate, para el cual recopilaba datos.

La política de privacidad, que se actualizó durante el fin de semana, parece especialmente siniestra porque indica que cualquier información que produzca en línea está disponible para que Google la use para entrenar sus modelos de IA.

La redacción antes mencionada parece describir no solo a los que están en el ecosistema de Google de una forma u otra, sino que se detalla de tal manera que la marca podría tener acceso a la información desde cualquier parte de la web.

Los principales problemas que rodean el desarrollo masivo de la inteligencia artificial son cuestiones sobre la privacidad, el plagio y si la IA puede disipar la información correcta. Las primeras versiones de chatbots como ChatGPT se basan en modelos de lenguaje extenso (LLM) que usaban fuentes ya públicas, como el archivo web de rastreo común, WebText2, Books1, Books2 y Wikipedia como datos de capacitación.

Los primeros ChatGPT tenían mala fama por quedarse atascados en información más allá de 2021 y, posteriormente, completar las respuestas con datos falsos. Esta podría ser una de las razones por las que Google querría tener acceso sin restricciones a los datos web para beneficiar a herramientas como Bard, para tener entrenamiento en el mundo real y potencialmente en tiempo real para sus modelos de IA.

Gizmodo también señaló que Google podría usar esta nueva política para recopilar contenido antiguo, pero aún generado por humanos, como reseñas o publicaciones de blog olvidadas hace mucho tiempo, para tener una idea de cómo se desarrolla y distribuye el texto y el habla humanos. Aún así, queda por ver exactamente cómo Google utilizará los datos que recopila.

Varias plataformas de redes sociales, incluidas Twitter y Reddit, que son fuentes importantes de información actualizada , ya han limitado su acceso público a raíz de la popularidad de los chatbots de IA , para disgusto de todas sus comunidades.

Ambas plataformas han cerrado el acceso gratuito a sus API, lo que impide que los usuarios descarguen cantidades masivas de publicaciones para compartirlas en otros lugares, con el pretexto de proteger su propiedad intelectual. En cambio, esto rompió muchas de las herramientas de terceros que hacen que tanto Twitter como Reddit funcionen sin problemas.

Tanto Twitter como Reddit han tenido que lidiar con otros contratiempos y controversias a medida que aumentan las preocupaciones de sus propietarios sobre la toma de control por parte de la IA.