El ancho de banda vinculado a las descargas de contenido de Wikimedia ha crecido un 50% en el último año, un tráfico que la fundación identifica en programas automatizados para su uso en el entrenamiento de modelos de inteligencia artificial (IA).
Wikimedia Commons acoge un catálogo de 144 millones de imágenes, vídeos y otros archivos de dominio público que cualquiera puede usar de manera gratuita, incluso modificar, siempre que se cite al autor.
La demanda de estos contenidos ha crecido desde enero de 2024. El ancho de banda que se utiliza para descargarlos ha aumentado un 50% en este tiempo, con picos en momentos puntuales como las elecciones presidenciales de Estados Unidos y la muerte del expresidente estadounidense Jimmy Carter.
Aunque la infraestructura de Wikimedia Commons puede soportar picos puntuales de demanda, no lleva tan bien el incremento de las descargas de contenido, que ya ha generado ralentización en el servicio en algunas ocasiones.
Sin embargo, como ha denunciado Fundación Wikimedia, detrás de este incremento se encuentran los bots que recogen contenidos de internet con el fin de alimentar los modelos de IA, según explica en su blog oficial.
Estos bots, además, muestran un comportamiento particular, ya que, si bien los usuarios humanos tienden a buscar contenidos sobre temas específicos, "los robots rastreadores suelen leer un mayor número de páginas y visitar también las menos populares", que consume más recursos, al requerir que las peticiones lleguen al centro de datos principal y no solo al centro de datos más cercano.
De hecho, y según la fundación, "al menos el 65% de este tráfico proviene de bots, una cantidad desproporcionada considerando que las visitas totales a la página causadas por bots representan aproximadamente el 35% del total".
Esta situación se traduce en más tiempo y recursos dedicados a responder al tráfico no humano y, en consecuencia, en un mayor coste de uso y mantenimiento de las infraestructuras.
Por ello, Fundación Wikimedia ha llamado la atención sobre el hecho de que su contenido es gratuito, pero su infraestructura no, y ha informado de que están trabajando para abordar los interrogantes que plantea la situación.