¿Es ilegal el web scraping?

El web scraping implica la recopilación de información en forma de datos de sitios web o páginas. Aunque el suyo puede no ser un acto consciente, también ha raspado la red de una forma u otra mientras recopilaba información. Pero eso suele ser sutil.

El web scraping o screen scraping es generalmente un acto intencionado, y los profesionales automatizan el diseño para obtener datos enormes. Ya sea copiando textos en un sitio web de forma manual, utilizando herramientas dedicadas o escribiendo scripts de raspado web, los raspadores web a veces golpean con fuerza un sitio web al realizar varias solicitudes a la vez.

Pero si bien muchas empresas ahora aprovechan el web scraping para impulsar una ventaja competitiva, ¿es realmente legal?

¿Qué sitios web debería y no debería raspar?

Internet es un conjunto de información que brinda a las personas acceso a datos antiguos y en tiempo real. El web scraping o screen scraping existe desde hace un tiempo. Pero, ¿cuánto debería usarlo y qué sitios web puede raspar?

Algunos sitios web son estrictos con los rastreadores web o los raspadores de pantalla y los bloquean por completo. Por lo tanto, es muy obvio que no debería eliminar esos sitios web. Pero la gente todavía lo hace.

Desafortunadamente, casi no hay nada más que estos sitios puedan hacer para detenerlo además de reparar sus lagunas.

Antes de raspar un sitio web, lo ideal sería comprobar si permite el rastreo o no. Por lo general, puede averiguarlo consultando el archivo robots.txt del sitio. Puede hacerlo escribiendo "[URL del sitio web] /robots.txt".

Un archivo robots.txt generalmente establece reglas para varios rastreadores o agentes de usuario. Sin embargo, estas reglas varían, dependiendo del sitio web involucrado. Si bien algunos sitios permiten el rastreo en todas las páginas, algunos especifican las páginas que un bot puede rastrear y algunos bloquean los rastreadores por completo.

Un sitio web que bloquea a todos los agentes de usuario para que no rastreen todas las páginas generalmente establece las siguientes reglas:

 user-agent: *
Disallow: /

Un archivo robots.txt que bloquea a todos los bots para que no rastreen ciertos directorios o páginas normalmente se ve así:

 user-agent: *
Disallow: /URL to page 1
Disallow : /URL to page 2

Si robots.txt no rechaza la página que desea rastrear, probablemente pueda eliminarla. De lo contrario, debe retroceder o buscar el consentimiento del administrador. Es posible que le otorguen acceso.

Además, algunos sitios web declaran explícitamente si permiten el rastreo o no en sus términos de uso. Algunos incluso afirman esto en la parte superior de su archivo robots.txt. Siempre verifique eso también para asegurarse de que está haciendo lo correcto.

Cómo se está abusando del web scraping

Entonces, si ha recibido correos electrónicos no deseados o SMS de sitios web o personas a las que nunca proporcionó su información personal, es probable que lo hayan raspado en algún lugar, de alguna manera. Y sobre todo, es a través de uno de sus identificadores de redes sociales.

Dicho esto, el web scraping a veces es más que simplemente recopilar datos que se procesan en la interfaz. Si se usa de manera maliciosa, puede resultar en la filtración de información personal y clasificada.

Si bien la mayoría de las plataformas de redes sociales fruncen el ceño, los robots rastreadores aún acceden a los perfiles de las personas y su información de contacto se filtra y se raspa.

Se ha informado que Facebook, por ejemplo, tiene vulnerabilidades que filtraron la información de contacto de los usuarios en el pasado, a pesar de que los usuarios los mantienen privados.

Del mismo modo, LinkedIn sufrió recientemente una violación de seguridad que resultó en la filtración de datos personales pertenecientes a más de 500 millones de cuentas . En consecuencia, esa vulnerabilidad resultó en el intercambio de muchas direcciones de correo electrónico y números de teléfono sin el consentimiento de los propietarios del perfil.

¿Es ilegal raspar un sitio web?

Nunca se ha llegado a una conclusión sobre la legalidad del web scraping. En cambio, la atención se centra en cómo funciona un rastreador caso por caso y para qué utilizan los datos recopilados.

Entonces, en lugar de concluir sobre su legalidad, raspar, cuando se hace maliciosamente, es ilegal. Pero si se hace con prudencia, no es ilegal.

Pero, como se esperaba, parece haber una política más estricta sobre el raspado y el uso de datos de redes sociales, ya que la privacidad de los usuarios es muy importante. Sin embargo, todo se reduce a cómo la gente extrae los datos.

El Blog de Derecho de Internet y Redes Sociales analizó el caso de hiQ Labs, una empresa de recopilación de datos que ganó una demanda contra LinkedIn en 2019 después de que intentó impedir que hiQ Labs raspara los datos de usuarios de LinkedIn disponibles públicamente.

Con hiQ Labs afirmando que la Ley de Abuso y Fraude Informático (CFAA) solo prohíbe el acceso no autorizado, la sentencia afirmó que los datos de LinkedIn estaban disponibles públicamente, por lo que cualquiera que los raspó lo hizo porque son accesibles.

Además, hiQ Labs solo utilizó los datos extraídos para proporcionar soluciones analíticas a las empresas, para que puedan tomar mejores decisiones de contratación.

Por el contrario, Facebook demandó recientemente a los desarrolladores de extensiones de Chrome que rasparon los perfiles de los usuarios de Facebook sin su consentimiento.

De manera similar, Facebook demandó a un sitio imitador por raspar la información de perfil de varios usuarios de Instagram y luego usarlos para crear clones. Según ese informe, Facebook luego fue más allá para obtener una orden judicial permanente contra el delincuente.

Estos son algunos casos en los que las personas podrían haber utilizado el web scraping ilegalmente. Dichas empresas recopilaron los datos de los usuarios de Facebook de forma engañosa, sin el consentimiento de sus usuarios. Entonces violó las políticas de privacidad.

Por lo tanto, si bien el web scraping puede frustrar el sitio del que obtiene los datos, actualmente ninguna regla general impide que las personas obtengan lo que quieren, siempre y cuando no infrinjan las leyes de Internet por completo.

¿Es Web Scraping sinónimo de piratería?

Hay algunos mitos en torno al web scraping. Uno de ellos es la creencia de que raspar un sitio web significa que lo ha pirateado. Aunque la piratería puede eventualmente conducir a la extracción de datos, la afirmación de que el término en sí significa piratear un sitio web no es cierta.

El raspado web puede implicar el uso de herramientas de rastreo o raspado dedicadas , interfaces de programación de aplicaciones (API) o scripts de raspado web para obtener datos renderizados de un sitio web. A diferencia de la piratería, no compromete el sitio web que raspa ni interrumpe la experiencia de sus usuarios.

Relacionado: ¿Qué es el web scraping? Cómo recopilar datos de sitios web

Entonces, mientras que la piratería implica un acceso no autorizado, generalmente a la base de datos de un sitio web, el raspado web solo tiene como objetivo los datos que ya están visibles en la interfaz. Aunque las personas pueden usar el web scraping de forma maliciosa, todavía no es sinónimo de piratería.

Además de eso, a diferencia del web scraping, la piratería deliberada y poco ética es ilegal.

¿Cuáles son los aspectos positivos del web scraping?

El web scraping tiene muchos aspectos positivos, e incluso algunas empresas de tecnología ahora ofrecen sus datos de forma gratuita a través de API. Esa información generalmente no es suficiente para evaluar las tendencias comerciales y tomar decisiones.

Entonces, las empresas ahora obtienen más datos raspando la web para mejorar las prácticas e impulsar las ventas. Además, los científicos de datos alimentan los algoritmos de aprendizaje automático con datos recopilados a través del raspado de pantalla.

Dichos datos pueden ser imágenes utilizadas en el reconocimiento de imágenes, textos sin formato para el análisis de sentimientos o datos directos de productos para la inteligencia de mercado y el análisis del comportamiento del consumidor.

Relacionado: Formas únicas de obtener conjuntos de datos para su proyecto de aprendizaje automático

Por lo tanto, el web scraping es aún más útil porque si tiene acceso a información que su competidor no tiene, puede vencerlos.

Si bien algunos sitios desaprueban los raspadores web, a algunos, incluso a los servicios de comercio electrónico, no les importa si recopila sus datos o no. Gigantes de la web como eBay y Salesforce lanzaron su API en 2000, ofreciendo a los programadores acceso a datos públicos por primera vez.

¿Debería realmente raspar la web?

Hemos establecido que el web scraping no es ilegal cuando se realiza de la manera correcta. Pero lo que hace con los datos que extrae también es motivo de preocupación. Entonces, en lugar de abusar de esto, utilícelo para obtener más información que lo ayude a usted y a otros a tomar decisiones informadas.

Sin embargo, el web scraping como habilidad le brinda acceso a grandes cantidades de datos de Internet, lo que puede ayudarlo a usted oa su empresa a mantenerse por encima del nicho comercial. Como científico de datos, incluso amplía su alcance y mejora sus habilidades técnicas y de codificación.

Por ejemplo, Python es uno de los lenguajes de programación que te ayuda a raspar fácilmente un sitio web con su biblioteca Beautiful Soup o marco Scrapy.