{"id":11257,"date":"2013-06-29T12:09:15","date_gmt":"2013-06-29T10:09:15","guid":{"rendered":"http:\/\/\/\/sitestory.dk\/wordpress\/?p=11257"},"modified":"2015-11-30T16:38:11","modified_gmt":"2015-11-30T15:38:11","slug":"det-offentlige-netarkiv-sviner-med-din-bandbredde","status":"publish","type":"post","link":"https:\/\/sitestory.dk\/wordpress\/2013\/06\/29\/det-offentlige-netarkiv-sviner-med-din-bandbredde\/","title":{"rendered":"Det offentlige Netarkiv sviner med din b\u00e5ndbredde"},"content":{"rendered":"<p><strong>P\u00e5 Folketingets bud \u201dh\u00f8stes\u201d den danske kulturarv p\u00e5 internettet, men det sker med arrogant og h\u00e6mningsl\u00f8st overforbrug af b\u00e5ndbredde.<\/strong><\/p>\n<p>Jeg har f\u00f8r skrevet om, hvordan <a title=\"Netarkivet\" href=\"http:\/\/netarkivet.dk\/\" target=\"_blank\" rel=\"nofollow\">Netarkivet<\/a> (Det Kongelige Bibliotek og Statsbibliotekets webcrawlere) <a title=\"Kulturarvens gr\u00f8nth\u00f8ster\" href=\"http:\/\/\/\/sitestory.dk\/wordpress\/2013\/04\/07\/kulturarvens-gronthoster\/\">opf\u00f8rer sig aldeles hensynsl\u00f8st<\/a>, n\u00e5r de \u201dh\u00f8ster\u201d den danske del af internettet.<\/p>\n<p>Forleden var min server ualmindelig sl\u00f8v i betr\u00e6kket, fordi CPU-belastningen l\u00e5 p\u00e5 100 % det meste af tiden. Det viste sig, at Netarkivet var p\u00e5 spil igen; mit websted blev \u201dh\u00f8stet\u201d af deres crawlere.<\/p>\n<p>Ganske vist skete det som lovet mere sk\u00e5nsomt end sidst, idet der nu var 5 sekunder mellem hver foresp\u00f8rgsel i stedet for 1, men til geng\u00e6ld varede det l\u00e6ngere og i \u201dden bedste sendetid\u201d. De brugte ogs\u00e5\u00a0to crawlere p\u00e5 \u00e9n gang, s\u00e5 de 5 sekunder kan divideres med 2.<\/p>\n<p>Mit website fylder godt 472 megabytes p\u00e5 disken, og med overhead bliver det samlede forbrug af b\u00e5ndbredde endnu st\u00f8rre, n\u00e5r det hele skal hentes ned, og det tager mange timer. Det v\u00e6rste er dog, at der h\u00f8stes helt un\u00f8dvendigt.<\/p>\n<h2>Dobbelt op<\/h2>\n<p><!--more-->For det f\u00f8rste blev (i hvert fald dele af) sitet downloadet 2 gange. Fx blev billedet, https:\/\/sitestory.dk\/rejser\/kos-telendos-2012\/fotos\/telendos-by-night.jpg, p\u00e5 32 kb hentet to gange med godt 6 timers mellemrum. Og hvorfor?<\/p>\n<p>Jo, fordi billedet findes p\u00e5 f\u00f8lgende to sider:<\/p>\n<ul>\n<li>https:\/\/sitestory.dk\/rejser\/kos-telendos-2012\/fotodoc\/33.htm<\/li>\n<li>http:\/\/www.sitestory.dk\/rejser\/kos-telendos-2012\/fotodoc\/33.htm<\/li>\n<\/ul>\n<p>Kan du se forskellen? Forskellen er det lille \u201dwww\u201d. Det er pr\u00e6cis samme side, men de downloadede (i hvert fald dele af) websitet to gange, b\u00e5de www.sitestory.dk og sitestory.dk \u2013 med og uden www foran. Man er vel grundig \u2026<\/p>\n<h2>Det samme hentes igen og igen<\/h2>\n<p>For det andet m\u00e5 det vel v\u00e6re muligt at se, at mange af filerne ikke er \u00e6ndret siden sidste bes\u00f8g. Ovenn\u00e6vnte foto (og mange andre) er ikke \u00e6ndret, siden Netarkivet sidst lagde siden ned den 6. april 2013.<\/p>\n<p>Det fremg\u00e5r fx af billedets http response header, som fort\u00e6ller, at billedet sidst blev \u00e6ndret den 6. oktober 2012. Se nederste linje i dette besk\u00e5rede sk\u00e6rmdump fra http:\/\/web-sniffer.net:<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-11258\" src=\"http:\/\/\/\/sitestory.dk\/wordpress\/wp-content\/uploads\/2013\/06\/http-header.jpg\" alt=\"HTTP header\" width=\"562\" height=\"359\" srcset=\"https:\/\/sitestory.dk\/wordpress\/wp-content\/uploads\/2013\/06\/http-header.jpg 562w, https:\/\/sitestory.dk\/wordpress\/wp-content\/uploads\/2013\/06\/http-header-300x191.jpg 300w\" sizes=\"auto, (max-width: 562px) 100vw, 562px\" \/><\/p>\n<p>Man kan ikke bebrejde bibliotekerne, at de h\u00f8ster den danske del af internettet. Det har politikerne bestemt ved lov, men det st\u00e5r ikke i loven, at det skal ske med helt un\u00f8dig fr\u00e5s af den b\u00e5ndbredde, vi betaler for.<\/p>\n<p>\/Eric<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Man kan ikke bebrejde bibliotekerne, at de h\u00f8ster den danske del af internettet. Det har politikerne bestemt ved lov, men det st\u00e5r ikke i loven, at det skal ske med helt un\u00f8dig fr\u00e5s af den b\u00e5ndbredde, vi betaler for. (&#8230;)<\/p>\n","protected":false},"author":10,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[12],"tags":[2354,2553,2500,2552],"class_list":["post-11257","post","type-post","status-publish","format-standard","hentry","category-it-internet","tag-bandbredde","tag-fras","tag-netarkivet","tag-overforbrug"],"_links":{"self":[{"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/posts\/11257","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/users\/10"}],"replies":[{"embeddable":true,"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/comments?post=11257"}],"version-history":[{"count":1,"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/posts\/11257\/revisions"}],"predecessor-version":[{"id":14340,"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/posts\/11257\/revisions\/14340"}],"wp:attachment":[{"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/media?parent=11257"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/categories?post=11257"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/tags?post=11257"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}