{"id":10933,"date":"2013-04-07T11:54:28","date_gmt":"2013-04-07T10:54:28","guid":{"rendered":"http:\/\/\/\/sitestory.dk\/wordpress\/?p=10933"},"modified":"2015-01-01T16:12:29","modified_gmt":"2015-01-01T15:12:29","slug":"kulturarvens-gronthoster","status":"publish","type":"post","link":"https:\/\/sitestory.dk\/wordpress\/2013\/04\/07\/kulturarvens-gronthoster\/","title":{"rendered":"Kulturarvens gr\u00f8nth\u00f8ster"},"content":{"rendered":"<p><strong>Det Kongelige Bibliotek og Statsbiblioteket indsamler den danske del af internettet og g\u00e5r radikalt til v\u00e6rks. Mit websted blev h\u00f8stet i g\u00e5r.<\/strong><\/p>\n<p>Den danske del af internettet er en del af kulturarven og indsamles i henhold til pligtafleveringsloven. Det kan man l\u00e6se om p\u00e5 <a title=\"Netarkivet\" href=\"http:\/\/netarkivet.dk\/\" target=\"_blank\" rel=\"nofollow\">netarkivet.dk<\/a>.<\/p>\n<p>Og Netarkivets crawler holder sig ikke tilbage, n\u00e5r den h\u00f8ster din side. Faktisk er den mere uopdragen end ubeh\u00f8vlede web-st\u00f8vsugere som fx russiske Yandexbot eller ukrainske Arefsbot.<\/p>\n<p>Jeg havde bes\u00f8g af gr\u00f8nth\u00f8steren i g\u00e5r, og det blev til <strong>26.369<\/strong> foresp\u00f8rgsler p\u00e5 7 timer 47 minutter og 38 sekunder. Det lever lige akkurat op til den uskrevne regel om max 1 foresp\u00f8rgsel i sekundet, men ikke til at robotten skal give serveren pusterum.<\/p>\n<p>I alt blev det til lige knap 478 megabytes.<\/p>\n<p><!--more-->De store s\u00f8gemaskiners robotter tager gerne for sig af retterne, men har dog s\u00e5 meget pli, at de normalt begr\u00e6nser sig til (max) nogle f\u00e5 tusinde foresp\u00f8rgsler for ikke at belaste serveren un\u00f8digt.<\/p>\n<p style=\"padding-left: 30px;\"><em>\u201cOur goal is to crawl as many pages from your site as we can on each visit without overwhelming your server&#8217;s bandwidth.\u201d<\/em><\/p>\n<p><a title=\"Gogle support\" href=\"http:\/\/support.google.com\/webmasters\/bin\/answer.py?hl=en&amp;answer=182072\" target=\"_blank\">siger Google<\/a>. Jeg holder \u00f8je med mine logfiler, og det er mit indtryk, at det passer.<\/p>\n<p>Netarkivet tv\u00e6rsnitsh\u00f8ster alle danske dom\u00e6ner 4 gange \u00e5rligt. &#8220;Tv\u00e6rsnitsh\u00f8stning&#8221; er Netarkivets betegnelse, ikke min.\u00a0Bevares, hvem kan v\u00e6re imod bevarelse af den danske kulturarv, men Netarkivets fremgangsm\u00e5de er ikke ok.<\/p>\n<p>Jeg har blokeret andre web-st\u00f8vsugere for mindre forseelser mod netiketten, men hvis jeg blokerede kulturarvens gr\u00f8nth\u00f8ster, ville jeg bryde loven, og det ville jo v\u00e6re uopdragent.<\/p>\n<p><strong>Opdatering den 8. april 2013:<\/strong><\/p>\n<p>Dagen efter jeg bragte dette indl\u00e6g, fik jeg en venlig mail fra Netarkivet. Fremover vil de h\u00f8ste mit dom\u00e6ne langsommere. Det er fint nok, men burde v\u00e6re fremgangsm\u00e5den for alle.<\/p>\n<p>Det er jo de f\u00e6rreste, der som jeg studerer logfiler og opdager, hvad der ramte dem. Netarkivet tilsides\u00e6tter groft de uskrevne regler for robotters netikette. T\u00e6nk, hvilket ramaskrig der ville lyde, hvis fx Google opf\u00f8rte sig p\u00e5 den m\u00e5de.<\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Det Kongelige Bibliotek og Statsbiblioteket indsamler den danske del af internettet og g\u00e5r radikalt til v\u00e6rks. Mit websted blev h\u00f8stet i g\u00e5r. Den danske del af internettet er en del af kulturarven og indsamles i henhold til pligtafleveringsloven. Det kan man l\u00e6se om p\u00e5 netarkivet.dk. Og Netarkivets crawler holder sig ikke tilbage, n\u00e5r den h\u00f8ster din side. Faktisk er den mere uopdragen end ubeh\u00f8vlede web-st\u00f8vsugere som fx russiske Yandexbot eller ukrainske Arefsbot. Jeg havde bes\u00f8g af gr\u00f8nth\u00f8steren i g\u00e5r, og det blev til 26.369 foresp\u00f8rgsler p\u00e5 7 timer 47 minutter og 38 sekunder. (&#8230;)<\/p>\n","protected":false},"author":10,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[12],"tags":[2502,910,2503,2500,2501],"class_list":["post-10933","post","type-post","status-publish","format-standard","hentry","category-it-internet","tag-crawler","tag-internet","tag-kulturarv","tag-netarkivet","tag-robot"],"_links":{"self":[{"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/posts\/10933","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/users\/10"}],"replies":[{"embeddable":true,"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/comments?post=10933"}],"version-history":[{"count":0,"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/posts\/10933\/revisions"}],"wp:attachment":[{"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/media?parent=10933"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/categories?post=10933"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/tags?post=10933"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}