Tag-arkiv: Crawler

Kulturarvens grønthøster

Det Kongelige Bibliotek og Statsbiblioteket indsamler den danske del af internettet og går radikalt til værks. Mit websted blev høstet i går.

Den danske del af internettet er en del af kulturarven og indsamles i henhold til pligtafleveringsloven. Det kan man læse om på netarkivet.dk.

Og Netarkivets crawler holder sig ikke tilbage, når den høster din side. Faktisk er den mere uopdragen end ubehøvlede web-støvsugere som fx russiske Yandexbot eller ukrainske Arefsbot.

Jeg havde besøg af grønthøsteren i går, og det blev til 26.369 forespørgsler på 7 timer 47 minutter og 38 sekunder. Det lever lige akkurat op til den uskrevne regel om max 1 forespørgsel i sekundet, men ikke til at robotten skal give serveren pusterum.

I alt blev det til lige knap 478 megabytes.

Læs resten