Kategoriarkiv: IT & internet

Det offentlige Netarkiv sviner med din båndbredde

På Folketingets bud ”høstes” den danske kulturarv på internettet, men det sker med arrogant og hæmningsløst overforbrug af båndbredde.

Jeg har før skrevet om, hvordan Netarkivet (Det Kongelige Bibliotek og Statsbibliotekets webcrawlere) opfører sig aldeles hensynsløst, når de ”høster” den danske del af internettet.

Forleden var min server ualmindelig sløv i betrækket, fordi CPU-belastningen lå på 100 % det meste af tiden. Det viste sig, at Netarkivet var på spil igen; mit websted blev ”høstet” af deres crawlere.

Ganske vist skete det som lovet mere skånsomt end sidst, idet der nu var 5 sekunder mellem hver forespørgsel i stedet for 1, men til gengæld varede det længere og i ”den bedste sendetid”. De brugte også to crawlere på én gang, så de 5 sekunder kan divideres med 2.

Mit website fylder godt 472 megabytes på disken, og med overhead bliver det samlede forbrug af båndbredde endnu større, når det hele skal hentes ned, og det tager mange timer. Det værste er dog, at der høstes helt unødvendigt.

Dobbelt op

Læs resten

WordPress og CPU-forbrug

En WordPress-blog er åbenbart forslugen, når det gælder serverens CPU-ressourcer, og det var ved at være et problem for hastigheden.

Hvis du som læser af denne blog oplever mærkværdigheder, à la sider der ikke vises eller ser mærkelige ud, hører jeg gerne fra dig. Så kan det nemlig skyldes, at jeg i dag installerede W3 Total Cache.

WordPress belaster åbenbart serverens CPU en del, for det skete ret ofte, at serveren ”straffede” bloggen og gjorde den langsom, fordi sitet brugte sin CPU-andel 100 %.

CPU-forbrug

Jeg søgte på wordpress cpu usage og opdagede, at det er et meget almindeligt problem, som mest skyldes afvikling af bloggens PHP-kode inkl. opslag i databasen.

De få plugins, jeg bruger, kan jeg ikke undvære, så der var ikke noget at hente. Jeg havde allerede erstattet en del opslag i databasen med statisk tekst eller URL’er i PHP-koden, og databasen ”luges” en gang om ugen, så den er i form.

Tilbage var kun at vise færre indlæg per side samt installere en cache. En cache gemmer kopier af siderne som almindelige html-filer, så sider kun genereres dynamisk med PHP, hvis de er ændret, siden der sidst blev gemt en html-kopi.

Det skulle alt i alt give hurtigere svartider for 99 % af læserne og belaste serveren mindre. Nu må vi se. Jeg nærer en vis mistro til den slags, men håber da at det kan køre uden bivirkninger, og over tid vil jeg kunne se, om det har den påståede effekt.

Men som sagt, hvis du oplever mærkværdigheder udover mine indlæg, hører jeg gerne fra dig. Det cache-halløj kan nemlig sættes op på et utal af måder, og hvem ved, hvad det kan afstedkomme.

Det er meget godt med alt det der IT og internet, men det kan dæleme også være irriterende og volde hovedbrud.

/Eric

Kulturarvens grønthøster

Det Kongelige Bibliotek og Statsbiblioteket indsamler den danske del af internettet og går radikalt til værks. Mit websted blev høstet i går.

Den danske del af internettet er en del af kulturarven og indsamles i henhold til pligtafleveringsloven. Det kan man læse om på netarkivet.dk.

Og Netarkivets crawler holder sig ikke tilbage, når den høster din side. Faktisk er den mere uopdragen end ubehøvlede web-støvsugere som fx russiske Yandexbot eller ukrainske Arefsbot.

Jeg havde besøg af grønthøsteren i går, og det blev til 26.369 forespørgsler på 7 timer 47 minutter og 38 sekunder. Det lever lige akkurat op til den uskrevne regel om max 1 forespørgsel i sekundet, men ikke til at robotten skal give serveren pusterum.

I alt blev det til lige knap 478 megabytes.

Læs resten