Amazon Web Services (AWS) ha anunciado que ha comenzado una investigación sobre el funcionamiento de Perplexity -que emplea sus servidores- para conocer si esta empresa ejecuta la técnica de web scraping para entrenar sus modelos de Inteligencia Artificial (IA).
El también conocido como raspado de datos es un proceso mediante el cual se recopilan contenidos de páginas web mediante un software que extrae el código HTML de estos sitios para filtrar la información y almacenarla, lo que se compara con el proceso automático de copiado y pegado.
El desarrollador Robb Knight y Wired habrían descubierto recientemente que la startup de búsquedas con IA Perplexity habría violado el conocido como Protocolo de Exclusión de Robots de ciertas páginas web y ejecutado esta técnica para entrenar sus modelos de IA.
Este Protocolo responde a una norma web que consiste en colocar un archivo de texto sin formato (robots.txt) en un dominio para señalar a qué páginas no deben acceder los robots y rastreadores automatizados, tal y como explica dicho medio.
En base a estas acusaciones, Amazon Web Services ha dado comienzo a una investigación para determinar si Perplexity, que emplea AWS para entrenar su IA, está infringiendo las normas y ejecutando web scraping en sitios web que intentaban impedírselo.
Así lo ha confirmado a Wired un portavoz de AWS, que ha recordado que en sus términos prohíbe a sus clientes usar sus servicios para cualquier actividad ilegal y que estos son responsables de cumplir con sus condiciones "y todas las leyes aplicables".
Desde la startup han indicado que Perplexity "respeta robots.txt" y que los servicios que controla "no realizan un rastreo de ninguna forma que infrinja las condiciones de servicio de AWS", en palabras de la portavoz Sara Platnick.
Esta, no obstante, ha explicado que su bot ignorará el archivo robots.txt cuando un usuario introduzca una url en su consulta, un caso de uso "no frecuente". "Cuando un usuario indica una url específica no desencadena un comportamiento de rastreo" sino que "el agente actúa en nombre del usuario para recuperar la url. Funciona igual que si este fuera a una página, copiara el texto del artículo y después lo pegara en el sistema", ha dicho.
En este sentido, Wired ha subrayado que, según la descripción de la portavoz, se confirman que las investigaciones que ha llevado a cabo son veraces y que su chatbot ignora robots.txt en ciertos casos para recopilar información de forma no autorizada.