El web scraping o raspado web es la utilización de técnicas de extracción de datos de alta tecnología que permiten a las agencias recopilar datos de fuentes web de terceros de manera eficiente. Estos datos suelen usarse para diversos fines, como la segmentación de anuncios, la inteligencia empresarial, la gestión de los productos o la inteligencia artificial. Sin embargo, dada su ubicuidad y su enfoque multiplataforma, la industria del web scraping todavía no está regulada.
El proveedor de proxy residencial IPRoyal ha reparado sobre este asunto en un comunicado en el que comienza indicando cuál fue el punto de inflexión en la regulación de este sector: la controvertida intervención de la consultora Cambridge Analytica en las elecciones presidenciales de los Estados Unidos de 2016. Según señala, la empresa fue acusada de recopilar datos sin procesar de más de 87 millones de usuarios de Facebook y supuestamente los utilizó para brindar asistencia analítica a la campaña presidencial de Donald Trump. Aunque no se dictaron condenas penales, provocó una oleada de mayor escrutinio sobre la industria del web scraping y despertó el interés público en cuestiones relacionadas con la privacidad.
Es esencial en la estructura de internet, pero preocupa que no esté regulado
"Si bien existe un consenso generalizado de que la recopilación de datos no regulada podría ser perjudicial para los usuarios de Internet, no se pueden pasar por alto muchos de los beneficios de la práctica ética del raspado de datos. Se ha convertido en uno de los pilares de Internet tal y como lo conocemos hoy", afirma IPRoyal. En este sentido, recuerda que las compañías digitales, como las empresas de comercio electrónico, utilizan el web scraping para controlar los hábitos de los usuarios y crear una experiencia personalizada, o que a los motores de búsqueda le sirve para ofrecer resultados de búsqueda de forma más eficiente y adecuada. Además, las herramientas de extracción de datos han dado lugar a grandes avances en las áreas de aprendizaje automático e inteligencia artificial.
Sin embargo, destaca que la falta de leyes internacionales uniformes o regulaciones activas en el campo del web-scraping preocupa a los críticos y provoca que las empresas no estén haciendo lo suficiente para proteger los datos de los usuarios de actividades maliciosos.
El experto en la industria Karolis Toleikis, director ejecutivo de IPRoyal, ha compartido su visión sobre la controversia regulatoria en el sector. En su opinión, sería más eficiente tener un regulador independiente de la industria, pero describió las diversas medidas de autorregulación que ha tomado su empresa para garantizar que el web scraping se realice de forma ética y que los datos no se utilicen para actos maliciosos.
"Supervisamos de cerca las solicitudes de todos los clientes para detectar patrones inusuales. Si notamos más solicitudes de lo habitual, suspendemos la cuenta de inmediato y le pedimos al cliente que brinde más detalles sobre ese caso en particular", ha explicado Toleikis agregando que su práctica ha demostrado ser 100% efectiva hasta ahora.
Advertencia a los usuarios y comentario sobre LinkedIn
En ausencia de un marco constitucional general que gobierne la práctica, Toleikis considera que los usuarios de Internet deben estar mejor informados sobre las implicaciones legales de las actividades que realizan en la red, así como de la información que comparten. Como proveedor de aplicaciones IPRoyal Pawns de ingresos pasivos que ayuda a los usuarios a compartir su ancho de banda no utilizado, ha indicado: "Siempre les pedimos a las personas que quieran compartir su conexión a Internet con nosotros que revisen cuidadosamente las leyes de su país y se aseguren de que no están haciendo nada ilegal".
Además de Facebook, LinkedIn es otra plataforma que se ha relacionado con un escándalo de raspado de datos de alto perfil. En septiembre de 2019, la empresa hiQ Labs, con sede en San Francisco, ganó una orden judicial que confirmó su derecho a recopilar datos disponibles públicamente de los perfiles de usuario en LinkedIn a pesar de que violó los términos y condiciones de LinkedIn.
El director ejecutivo de IPRoyal ha resaltado que su empresa es capaz de evitar de forma eficaz esos escándalos, ya que han bloqueado el raspado de LinkedIn de forma predeterminada con proxies residenciales integrados. "Para que la función esté habilitada, un cliente tiene que proporcionar expresamente los datos de su empresa para su identificación y explicar cómo pretende utilizar los datos. Esto nos ayudará a dirigir a los usuarios al canal adecuado en caso de que tengan alguna queja".
El papel de los usuarios y de las redes sociales en sanear el web scraping
Por otra parte, Toleikis ha afirmado que las plataformas de redes sociales y sus usuarios también tienen un papel que desempeñar en el saneamiento de la práctica del web scraping y en la protección de información crucial para que no llegue a manos de ciberdelincuentes. "Todo el que publica información en Internet y la hace pública, debe comprender que cualquiera puede utilizarla", advierte.
Como conclusión final, IPRoyal subraya que son muchos los casos de uso positivos del web scraping y que no se puede criminalizar, pero que la regulación se antoja necesaria y sería beneficiosa.
"A medida que los críticos continúan pidiendo leyes y regulaciones estrictas de protección de datos, la amplia integración del raspado de datos está en pleno apogeo en casi todas las áreas de Internet. Sin embargo, las regulaciones parecen inevitables. Permitiría que todas las empresas de extracción de datos operen bajo un conjunto uniforme de leyes y proporcionaría un marco para que los usuarios busquen reparación siempre que haya una violación de sus derechos de privacidad".