Det Kongelige Bibliotek og Statsbiblioteket indsamler den danske del af internettet og går radikalt til værks. Mit websted blev høstet i går.
Den danske del af internettet er en del af kulturarven og indsamles i henhold til pligtafleveringsloven. Det kan man læse om på netarkivet.dk.
Og Netarkivets crawler holder sig ikke tilbage, når den høster din side. Faktisk er den mere uopdragen end ubehøvlede web-støvsugere som fx russiske Yandexbot eller ukrainske Arefsbot.
Jeg havde besøg af grønthøsteren i går, og det blev til 26.369 forespørgsler på 7 timer 47 minutter og 38 sekunder. Det lever lige akkurat op til den uskrevne regel om max 1 forespørgsel i sekundet, men ikke til at robotten skal give serveren pusterum.
I alt blev det til lige knap 478 megabytes.
De store søgemaskiners robotter tager gerne for sig af retterne, men har dog så meget pli, at de normalt begrænser sig til (max) nogle få tusinde forespørgsler for ikke at belaste serveren unødigt.
“Our goal is to crawl as many pages from your site as we can on each visit without overwhelming your server’s bandwidth.”
siger Google. Jeg holder øje med mine logfiler, og det er mit indtryk, at det passer.
Netarkivet tværsnitshøster alle danske domæner 4 gange årligt. “Tværsnitshøstning” er Netarkivets betegnelse, ikke min. Bevares, hvem kan være imod bevarelse af den danske kulturarv, men Netarkivets fremgangsmåde er ikke ok.
Jeg har blokeret andre web-støvsugere for mindre forseelser mod netiketten, men hvis jeg blokerede kulturarvens grønthøster, ville jeg bryde loven, og det ville jo være uopdragent.
Opdatering den 8. april 2013:
Dagen efter jeg bragte dette indlæg, fik jeg en venlig mail fra Netarkivet. Fremover vil de høste mit domæne langsommere. Det er fint nok, men burde være fremgangsmåden for alle.
Det er jo de færreste, der som jeg studerer logfiler og opdager, hvad der ramte dem. Netarkivet tilsidesætter groft de uskrevne regler for robotters netikette. Tænk, hvilket ramaskrig der ville lyde, hvis fx Google opførte sig på den måde.
Jeg håber da ikke, at du har ret i grønthøster-sammenligningen … sådan en fætter smadrer jo græsset til – måske ikke atomer, men næsten, og dine ord er jo kun dine ord og dermed unikke i form af den sammenhæng, du selv sætter dem i 😉
Bortset fra det, virker det lidt … lidt … som en meget dansk måde at gøre tingene på.
Ja, måske er det en meget dansk måde at gøre tingene på. Netarkivets fremgangsmåde lever præcis op til definitionen af det, man kalder en “website ripper,” en rigtig “bad bot”. Andre af den slags kommer på sorte lister, så man kan tage sine forholdsregler.
Det er pinligt for en offentlig institution, at den agerer som nogen af nettets mest hensynsløse pirater.
Det smager lidt af den sædvanlige, danske indstilling: Vi kender ikke rigtig reglerne, så derfor gør vi, som vi selv synes. Jeg synes bare, du skal være uopdragen. På .htaccess med grønthøsterens nummerplader!
Hvad er det også for noget hø at ville gemme internettet? Alle og enhver kan jo læse det, der er, til enhver tid. Hvis domænets ejer vælger at tage noget ned, er det ikke meningen, at det skal kunne læses længere, og derfor bør det heller ikke være tilgængeligt på noget bibliotek. Just my 2 cents worth.
Uha, den danske kulturarv er kun tilgængelig, hvis du søger og skal bruge den til videnskabelige formål.
Nu har bibliotekerne jo ikke skrevet loven, men det er mærkværdigt, at man 4 gange årligt indsamler alt og først bagefter frasorterer det, som ikke har ændret sig. Kan de ikke læse datoen for, hvornår filen sidst er blevet ændret, før de henter den?
Jeg læste i Computerworld, at det løber op i 24 terabytes båndbredde, men at de “kun” lagrer 10-12. Det er da at svine med båndbredden.
Det er lidt tidligt grønthøsteren er ude, her på øen er der kun lige blevet sået.. 🙂
I cyberspace kan der høstes året rundt. 🙁