Tag-arkiv: Båndbredde

Det offentlige Netarkiv sviner med din båndbredde

På Folketingets bud ”høstes” den danske kulturarv på internettet, men det sker med arrogant og hæmningsløst overforbrug af båndbredde.

Jeg har før skrevet om, hvordan Netarkivet (Det Kongelige Bibliotek og Statsbibliotekets webcrawlere) opfører sig aldeles hensynsløst, når de ”høster” den danske del af internettet.

Forleden var min server ualmindelig sløv i betrækket, fordi CPU-belastningen lå på 100 % det meste af tiden. Det viste sig, at Netarkivet var på spil igen; mit websted blev ”høstet” af deres crawlere.

Ganske vist skete det som lovet mere skånsomt end sidst, idet der nu var 5 sekunder mellem hver forespørgsel i stedet for 1, men til gengæld varede det længere og i ”den bedste sendetid”. De brugte også to crawlere på én gang, så de 5 sekunder kan divideres med 2.

Mit website fylder godt 472 megabytes på disken, og med overhead bliver det samlede forbrug af båndbredde endnu større, når det hele skal hentes ned, og det tager mange timer. Det værste er dog, at der høstes helt unødvendigt.

Dobbelt op

Læs resten

Bredbånd og andre bånd. Dansk er en svær en #37

Stofa ændrer uopfordret mit bredbånd fra 20/2 Mbit til 30/2 Mbit. Det klager jeg bestemt ikke over, men alt det med bånd er lidt forvirrende.

Selvom et transportbånd har en båndbredde på fx 180 cm, er det ikke et bredbånd, for bredbånds båndbredde måles i hertz, og bredbånd med stor båndbredde er normalt meget smalle.

Men det er ikke det eneste forvirrende.

Transportbånd kan ligesom snørebånd køre på kryds og tværs, men det gør ikke nogen af dem til korsbånd. Admiralen i visen har kors og bånd og stjerner på, men det er heller ikke korsbånd.

Nogle bånd er ikke så forvirrende, blot er betydningen ikke krystalklar.

Læs resten

Uopdragne søgerobotter, spambots og hackere

Om at finde og blokere uopdragne internet-robotter, der sluger din båndbredde, og som hverken vil dig eller de små børn i Afrika noget godt.

Dette indlæg er langt og nok mest interessant for webmastere, men det skal ikke altid handle om mad, katte, rejser eller besøg i byggemarkedet. 😉

Da jeg havde ryddet op efter hackernes indbrud, begyndte jeg (lidt sent!) at interessere mig for serverens access-logfiler: Hvem får egentlig adgang til mine sider, og hvad er de ude på?

Det gik op for mig, at selv en uskyldig hjemmeside som min tæppebombes med forespørgsler fra bl.a. robotter: Programmer, der gennemtrawler nettet i legitimt, ligegyldigt eller skummelt ærinde. Det ser man bare ikke i de normale besøgsstatistikker.

Det er ikke kun søgemaskiner, der bruger robotter. Spammere, hackere og andet afskum bruger dem også. Robotterne kaldes også for crawlere, spidere og bots.

Nogle er velopdragne og velkomne som fx Googlebot og Bingbot, da de bidrager til, at vi alle kan søge og finde. Okay, Googlebot bruger en del båndbredde, men Google er jo Google.

Andre er ret ligegyldige. Det er fx robotter, der søger egnede sider til reklamer eller kigger efter, hvem der reklamerer hvor, så de kan sælge deres services, hvad de så end går ud på.

Og så er der banditterne. Nogen præsenterer sig end ikke ved navn eller bruger sågar falsk identitet og kalder sig fx Googlebot. De sniger sig ind og grønthøster din side til skumle formål, som med garanti ikke er i din interesse.

Nogen leder fx efter sårbare WordPress plugins, de kan bruge til at hacke siden, andre høster e-mailadresser til spam, og så er der robotter, som poster spam-kommentarer på blogs og i gæstebøger.

I august brugte Googlebot 237 mb båndbredde på mit domæne, sitestory.dk, og Google er flittig, men de uopdragne robotter brugte i samme måned mere end 600 mb, og det var inden jeg begyndte at formene dem adgang!

Og det var endda kun de robotter, der præsenterede sig som robotter – alle de skumle, som optræder anonymt eller under falsk identitet, er ikke talt med.

Læs resten