Legalidad del Web Scraping y otras formas de recabar datos de Internet bajo el RGPD

scraping_

Es bien sabido que Internet es la fuente de información por excelencia, donde se puede encontrar grandes cantidades de información sobre muchos temas diferentes. Esto es especialmente relevante en el ámbito de la inteligencia artificial (IA) generativa, tan en auge en los últimos tiempos, ya que esta requiere grandes conjuntos de datos para las fases de entrenamiento y su mejora continua. En este contexto, el web scraping o data scraping, así como otras técnicas similares, se han convertido en herramientas esenciales para conseguir la recopilación de información de Internet de forma más eficaz, rápida y sin que suponga demasiados recursos personales o económicos.

¿Qué es el web scraping o data scraping?

El web scraping, o data scraping es la técnica mediante la cual se realiza la extracción, de forma automatizada, de información, contenidos (incluyendo, imágenes o vídeos) y datos de sitios web u otros espacios en línea. Generalmente, esta extracción o recopilación se obtiene mediante el uso de softwares llamados “scrapers” o “bots”. El contenido extraído a partir de esta técnica, entonces, puede almacenarse, analizarse y utilizarse para diversos fines, como el entrenamiento de algoritmos.

¿Qué relación tiene con la protección de datos personales?

Es importante tener en cuenta que el web scraping implica un tratamiento de datos personales cuando los sitios web o espacios online sobre los que se aplica la técnica contienen información personal. Incluso, aunque la herramienta esté preparada para recoger la información y convertirla en anónima, el proceso de anonimización es, en sí mismo, un tratamiento de datos personales sujeto al cumplimiento de la normativa de protección de datos.

Por ello, el web scraping plantea importantes interrogantes en cuanto a su compatibilidad con la normativa de protección de datos. En este artículo, analizaremos la legalidad de esta técnica en relación con la normativa vigente en materia de protección de datos, esto es, el Reglamento General de Protección de Datos (RGPD) y los pronunciamientos de la Agencia Española de Protección de Datos (AEPD).

¿Es legal captar la información de Internet, como una fuente accesible al público?

En primer lugar, debemos valorar si Internet es una fuente pública que nos permite recabar y utilizar la información disponible en los sitios web, redes sociales, etc., y usarla para nuestros fines sin limitación.

En este sentido, en el marco legislativo anterior en España, regulado por la Ley Orgánica 15/1999, derogada por el RGPD, establecía la excepción al consentimiento en el tratamiento de datos personales cuando los datos provinieran de “fuentes de acceso público”, las cuales se componían por una lista cerrada formada por el censo promocional, repertorios telefónicos, listas de personas pertenecientes a grupos de profesionales, diarios y boletines oficiales y los medios de comunicación.

En la normativa actual, aunque el RGPD hace referencia a las fuentes públicas en alguna disposición, no proporciona una definición específica, ni tampoco una lista de fuentes que puedan considerarse públicas. Si atendemos a la disponibilidad de la fuente, Internet podría ser una fuente pública, pero, la AEPD se ha pronunciado (por ejemplo, en el informe 0089/2020, sobre el Código de Conducta de ASEDIE) en el sentido de que, aunque la información publicada en una página web (aplicable también a redes sociales, blogs, foros u otros espacios online) esté disponible para su consulta por parte de cualquier usuario, los datos personales contenidos en estos no constituyen datos de libre uso.

¿Qué debemos tener en cuenta, entonces, si queremos recopilar información de Internet mediante web scraping u otras técnicas?

Para poder usar estas técnicas y recoger información de Internet para, por ejemplo, entrenar nuestros algoritmos, es necesario garantizar que la recogida de información y contenido: (a) no infringe ninguna ley o derecho, incluyendo, el derecho de propiedad intelectual o el derecho contractual; y (b) tenga una base legal válida según el RGPD.

Cuando la fuente es oficial de la administración pública y la publicación de los datos personales obedece al cumplimiento de obligaciones legales, la publicación de los datos tiene un propósito específico establecido por ley (transparencia, protección de derechos, etc.). Por ello, la recopilación y uso posterior de los datos personales por un tercero utilizando web scraping ya no estaría cubierto por la base legal de la obligación legal. En este sentido, hay un régimen establecido para la reutilización de los datos provenientes de las administraciones públicas, o “datos abiertos”, el cual permite esta reutilización bajo licencias de uso y redistribución, siempre y cuando se respeten ciertas condiciones.

En consecuencia, deberemos comprobar estas licencias y analizar si nos permiten el uso de la información para cumplir con las finalidades perseguidas. En el caso de fuentes privadas, es decir, sitios web, redes sociales u otros espacios online titularidad de empresas privadas, será necesario tener en cuenta las limitaciones impuestas por leyes aplicables, según el tipo de información que queramos recopilar y utilizar, así como los términos y condiciones establecidos por estas entidades en relación con la recopilación, el procesamiento y la divulgación de los contenidos publicados en sus espacios.

En cuanto a la base de legitimación, la AEPD entiende que la captación y uso de la información con fines que no estén relacionados con el propósito original debe ser consentido por el interesado, ser compatible con la finalidad original o quedar amparado por interés legítimo. No obstante, según la cantidad de información “escrapeada” y necesaria para los fines del tratamiento, sobre todo en el caso de entrenamiento de modelos de IA generativa, será inviable solicitar el consentimiento a todas las personas cuyos datos se pretenden recopilar y tratar. Por ello, potencialmente sólo podría aplicarse el interés legítimo.

En este sentido, el hecho de que los datos consten en registros o boletines públicos puede ser considerado como un factor relevante en la ponderación del interés legítimo en el tratamiento de datos personales. Sin embargo, no constituye un factor determinante por sí solo. Es necesario, en consecuencia, realizar una ponderación exhaustiva caso por caso de los intereses de la empresa, y asegurar que el uso que se quiere hacer supera los tests de necesidad y proporcionalidad.

Si, además, la información recopilada entra dentro de las categorías especiales de datos del art. 9.1. del RGPD, será necesario, no solo garantizar la base legal del tratamiento, sino también analizar si se puede levantar la prohibición de tratamiento de estos datos, lo cual requiere, posiblemente, la obtención del consentimiento explícito del titular de los datos o la aplicación de otra excepción prevista en el artículo.

¿Qué otras obligaciones debemos cumplir?

El proceso de web scraping, cuando afecta a datos personales, deberá cumplir, además, con el resto de las obligaciones del RGPD. Por ejemplo, valorar la necesidad de someter la actividad a una evaluación de impacto, cumplir con el principio de minimización, garantizar la exactitud de los datos, implementar medidas de seguridad adecuadas para proteger la información, proporcionar la información necesaria a los usuarios sobre la recopilación y tratamiento de sus datos, y respetar los derechos de los interesados, incluyendo prever los mecanismos suficientes para que los usuarios puedan ejercer sus derechos de acceso, rectificación, supresión, etc.

Cuando la herramienta anonimice la información extraída, deberemos asegurarnos, igualmente, de que el proceso de anonimización es seguro e irreversible, evaluando periódicamente la efectividad de la técnica utilizada.

Por último, es importante tener en cuenta que todas las observaciones incluidas en este artículo son aplicables, tanto si es la propia empresa la que realiza la recopilación de la información mediante estas técnicas, como si adquiere datos escrapeados por terceros, o si realiza ambas acciones simultáneamente. En cualquier caso, la responsabilidad de garantizar el cumplimiento de la normativa protección de datos recae en el responsable del tratamiento de los datos, el cual será el que utilice la información para cumplir con sus fines.

 

Artículo escrito por:

Elena SánchezElena Sánchez

Abogada especialista en privacidad, propiedad intelectual y contratación tecnológica

elena.sanchez@metricson.com

 

 

 

Sobre Metricson

Con oficinas en Barcelona, Madrid, Valencia y Sevilla y una importante presencia internacional, Metricson es una firma pionera en servicios legales para empresas innovadoras y tecnológicas y especialista en propiedad intelectual. Desde su nacimiento en 2009, ha asesorado a más de 1.400 clientes de 15 países distintos, incluyendo startups, inversores, grandes corporaciones, universidades, instituciones y gobiernos.

Si quieres contactar con nosotros, no dudes en escribirnos a contacto@metricson.com. ¡Estamos deseando hablar contigo!

Habla con nosotros

958 558 442

Oficinas

Tuset, 19 - 2º, 3ª
08006 Barcelona
931 594 620

Javier Ferrero 10,
28002 Madrid
918 228 031

Paseo de Ruzafa 11, 6º, 12ª
46002 Valencia
960 500 761

Av. de la República Argentina, 25
41011 Sevilla