Det offentlige Netarkiv sviner med din båndbredde

På Folketingets bud ”høstes” den danske kulturarv på internettet, men det sker med arrogant og hæmningsløst overforbrug af båndbredde.

Jeg har før skrevet om, hvordan Netarkivet (Det Kongelige Bibliotek og Statsbibliotekets webcrawlere) opfører sig aldeles hensynsløst, når de ”høster” den danske del af internettet.

Forleden var min server ualmindelig sløv i betrækket, fordi CPU-belastningen lå på 100 % det meste af tiden. Det viste sig, at Netarkivet var på spil igen; mit websted blev ”høstet” af deres crawlere.

Ganske vist skete det som lovet mere skånsomt end sidst, idet der nu var 5 sekunder mellem hver forespørgsel i stedet for 1, men til gengæld varede det længere og i ”den bedste sendetid”. De brugte også to crawlere på én gang, så de 5 sekunder kan divideres med 2.

Mit website fylder godt 472 megabytes på disken, og med overhead bliver det samlede forbrug af båndbredde endnu større, når det hele skal hentes ned, og det tager mange timer. Det værste er dog, at der høstes helt unødvendigt.

Dobbelt op

For det første blev (i hvert fald dele af) sitet downloadet 2 gange. Fx blev billedet, https://sitestory.dk/rejser/kos-telendos-2012/fotos/telendos-by-night.jpg, på 32 kb hentet to gange med godt 6 timers mellemrum. Og hvorfor?

Jo, fordi billedet findes på følgende to sider:

  • https://sitestory.dk/rejser/kos-telendos-2012/fotodoc/33.htm
  • http://www.sitestory.dk/rejser/kos-telendos-2012/fotodoc/33.htm

Kan du se forskellen? Forskellen er det lille ”www”. Det er præcis samme side, men de downloadede (i hvert fald dele af) websitet to gange, både www.sitestory.dk og sitestory.dk – med og uden www foran. Man er vel grundig …

Det samme hentes igen og igen

For det andet må det vel være muligt at se, at mange af filerne ikke er ændret siden sidste besøg. Ovennævnte foto (og mange andre) er ikke ændret, siden Netarkivet sidst lagde siden ned den 6. april 2013.

Det fremgår fx af billedets http response header, som fortæller, at billedet sidst blev ændret den 6. oktober 2012. Se nederste linje i dette beskårede skærmdump fra http://web-sniffer.net:

HTTP header

Man kan ikke bebrejde bibliotekerne, at de høster den danske del af internettet. Det har politikerne bestemt ved lov, men det står ikke i loven, at det skal ske med helt unødig frås af den båndbredde, vi betaler for.

/Eric

8 thoughts on “Det offentlige Netarkiv sviner med din båndbredde

  1. Jørgen

    Måske er det godt man ikke er opmærksom på en masse herhenhørende, som jeg alligevel ikke rigtig forstår, mwn Stegemüllers bemærkning om FlieZilla skal jeg nu alligevel huske.

    Svar
    1. Eric

      Hvad man ikke ved, har man ikke ondt af, men det har de gæster måske, som oplever en side i laveste gear, og regningen for båndbredden kan kun gå ét sted hen.

      Svar
  2. Donald

    Lige nu har jeg ikke hjemmeserveren oppe. Men når jeg har, lukker jeg ned for den hver gang jeg arbejder på serveren. Jeg har også overvejet at blokere for visse crawlere, men jeg kom aldrig længere end til at blokere for Microsofts søgemaskiner.
    Grunden til, at jeg ikke har en server oppe nu, er, at den ene maskine fejlede efter rengøring, og jeg har ikke fået købt en anden endnu. (Nyt motherboard, RAM og CPU kan ellers fås for ca. 1kkr. hos BJ-Trading.dk).
    Jeg har iøvrigt hørt at buffer-bloat kan være medvirkende til sløvhed, idet stort upload bevirker at download-hastigheden nedsættes (det er en uhensigtsmæssighed i netfilter delen af Linux, måske det skyldes noget andet på Microsoft-kerner.)

    Svar
    1. Eric

      Det pikante er, at man ikke må blokere Netarkivets crawlere, men man kunne jo fristes til civil ulydighed. Der er desværre for lidt opmærksomhed på, hvad der foregår, og hvad det koster, for de færreste ved, hvad der rammer dem.

      Jeg har såmænd sympati med tanken bag loven, men måden, den praktiseres på, er som at plukke bær med en bulldozer.

      Svar
  3. Stegemüller

    Det kan undre meget, at de sådan sviner med folks båndbredde. Det må være tilstrækkeligt at hente indholdet. Som Henny er inde på, kan selv de mest simple FTP-programmer klare opgaven med at finde ud af, om der er nye filer. Jeg bruger FileZilla som er gratis og som let løfter opgaven.

    Svar
    1. Eric

      Det bunder måske i noget så simpelt, som at man har købt et dårligt produkt, da man fik opgaven. Jeg kan levende forestille mig programmøren eller virksomheden, som tænker:
      “Her kan vi virkelig springe over, hvor gærdet er lavest og holde prisen på et minimum. Vi downloader hele møget hver gang uden besværlige dikkedarer. Hvis fjolserne bliver mopsede og blokerer IP-adresserne, som ethvert fornuftigt menneske ville gøre over for alle andre, kan Netarkivet slæbe dem i retten og spanke dem med Karnovs lovsamling. Hvad rager det os, at det koster zillionbytes i spildt båndbredde?”

      Svar
  4. Henny Stewart

    Ja, det er virkelig mærkeligt, at de downloader samme fil flere gange, og også at de henter noget, som de allerede har. Selv det mest primitive ftp-program kan sættes op til kun at hente det, som er nyere end det, som man allerede har. Men det kan disse “crawlere” åbenbart ikke finde ud af.

    Svar
    1. Eric

      Nej, det virker forbløffende uprofessionelt, men på den anden side har der været mange IT-skandaler inden for det offentlige. Det seneste skrottede system er vist det, politiet slap for.

      Svar

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *