Uopdragne søgerobotter, spambots og hackere

Om at finde og blokere uopdragne internet-robotter, der sluger din båndbredde, og som hverken vil dig eller de små børn i Afrika noget godt.

Dette indlæg er langt og nok mest interessant for webmastere, men det skal ikke altid handle om mad, katte, rejser eller besøg i byggemarkedet. 😉

Da jeg havde ryddet op efter hackernes indbrud, begyndte jeg (lidt sent!) at interessere mig for serverens access-logfiler: Hvem får egentlig adgang til mine sider, og hvad er de ude på?

Det gik op for mig, at selv en uskyldig hjemmeside som min tæppebombes med forespørgsler fra bl.a. robotter: Programmer, der gennemtrawler nettet i legitimt, ligegyldigt eller skummelt ærinde. Det ser man bare ikke i de normale besøgsstatistikker.

Det er ikke kun søgemaskiner, der bruger robotter. Spammere, hackere og andet afskum bruger dem også. Robotterne kaldes også for crawlere, spidere og bots.

Nogle er velopdragne og velkomne som fx Googlebot og Bingbot, da de bidrager til, at vi alle kan søge og finde. Okay, Googlebot bruger en del båndbredde, men Google er jo Google.

Andre er ret ligegyldige. Det er fx robotter, der søger egnede sider til reklamer eller kigger efter, hvem der reklamerer hvor, så de kan sælge deres services, hvad de så end går ud på.

Og så er der banditterne. Nogen præsenterer sig end ikke ved navn eller bruger sågar falsk identitet og kalder sig fx Googlebot. De sniger sig ind og grønthøster din side til skumle formål, som med garanti ikke er i din interesse.

Nogen leder fx efter sårbare WordPress plugins, de kan bruge til at hacke siden, andre høster e-mailadresser til spam, og så er der robotter, som poster spam-kommentarer på blogs og i gæstebøger.

I august brugte Googlebot 237 mb båndbredde på mit domæne, sitestory.dk, og Google er flittig, men de uopdragne robotter brugte i samme måned mere end 600 mb, og det var inden jeg begyndte at formene dem adgang!

Og det var endda kun de robotter, der præsenterede sig som robotter – alle de skumle, som optræder anonymt eller under falsk identitet, er ikke talt med.

Om at få overblikket

I brugerinterfacet (cPanel og Awstats) på min server har jeg mulighed for at se en del om de besøgende, men der er mange ting, jeg ikke kan se, og det er ikke alle robotter, der identificeres med navn. Man skal ned i de originale adgangs-logfiler for at komme i dybden.

Logfiler kan imidlertid være uoverskuelige med mange tusinde poster, så jeg har skrevet et program til Excel, hvor jeg hurtigt kan se, hvilke robotter der har været på besøg, hvem der hotlinker til mine billeder, hvem der prøver at lægge spam-kommentarer på min blog, hvem der sender ”hacker-følere” ud m.m.

Hvordan styrer man robotterne?

Der er to muligheder: Der er den høflige henstilling i robots.txt (se nedenfor), og hvis den ikke respekteres, kan man skrue bissen på og blokere dem i en .htaccess-fil, der fungerer som ”portner” ved indgangen til dine websider.

Robots.txt er en simpel tekstfil, som udstikker retningslinjer for, hvad robotterne må og ikke må, og hvem der fx bare skal skrubbe af. Problemet er bare, at de uopdragne robotter er rystende ligeglade.

Tag nu den russiske søgemaskine Yandex; dens robotter spiser båndbredde som slik uden at tage ret meget hensyn til, at serveren også har andre kunder.

Går man ind på deres hjemmeside, foregiver de at være velopdragne og skriver, at de læser og retter sig efter, hvad der står i robots.txt.

Det er bare løgn. Yandexbot respekterede i hvert fald ikke mit nej tak til besøg, så nu får den et los i sin russiske r… Når den banker på, mødes den med: ”403 – Forbidden”. Yt med Yandex!

Det samme gælder for nogle af den kinesiske Baiduspiders spejdere. Baiduspider har støvsuget min side og er (med nogle få forvirrende undtagelser) bedøvende ligeglad med robots.txt. Bye-bye Baidu!

Jeg har ikke mange russiske og kinesiske læsere, der vil mig det godt, tvært imod kommer de fleste ”hacker-følere” fra Kina, Ukraine og Rusland, så jeg har det helt fint med, at Baidu, Yandex og Arefs (ukrainsk robot) ikke længere indekserer mine sider.

Der er mange flere navngivne robotter, man kan søge oplysninger om, når man finder dem i sine logfiler. Nogle er ganske uskyldige, mens andre bestemt ikke er sendt ud i cyberspace for at hjælpe de små børn i Afrika.

De robotter, jeg ikke vil have ind, får først en chance for at bevise, at de læser robots.txt og er velopdragne. Hvis jeg så ser, at de fortsætter deres raid, får de sparket.

Hackere og spammere, som ikke præsenterer sig, når de banker på og prøver noget beskidt, efterlader også deres digitale fodaftryk – ofte ved en 404-fejl (fil ikke fundet). De får så sparket, hvis de vender tilbage med samme IP-adresse på skosålen.

Man kan nemlig give dem sparket, hvis man ”bor” på en Apache-server og har mulighed for at lave .htaccess-filer. Om jeg så i samme håndevending forhindrer nogle millioner kinesere i at besøge mine sider, tager jeg helt roligt.

I de næste to indlæg om dette emne skriver jeg om, hvordan jeg identificerer robotterne, spammerne og hackerne med mit Excel-program, og hvordan jeg formener de uønskede gæster adgang til min webside.

Andre indlæg om dette emne:

9 thoughts on “Uopdragne søgerobotter, spambots og hackere

  1. Stegemüller

    Jeg er fuldstændig enig med Ellen – jeg kan dog ikke tilbyde et ophold på en svensk ødegård… 🙂

    Jeg er imponeret over så meget du sætter dig ind i tingene og at du så sætter dig til at beskrive dine erfaringer er jo guld for alle os, der bare går rundt og håber på at det går godt. Jeg har godt lagt mærke til alle de bots, der er, men jeg har bare tænkt, at det var søgerobotter og jeg har også tænkt, at de respekterede en robots.txt – eller rettere jeg har ikke været klar over, at det var noget jeg skulle agere på.

    Jeg glæder mig meget til den fortsatte føljeton – tusind tak fordi du gider dele dine erfaringer og din viden med os!

    Svar
    1. Eric

      Sålænge robotterne ikke udgør en reel sikkerhedsrisiko, gør de ikke andet end at æde båndbredde, men de er mig alligevel en torn i øjet. Og hvorfor skal fx russiske og kinesiske søgemaskiner indeksere mine sider på dansk? De forstår jo ikke et klap alligevel.

      Svar
  2. Ellen

    Du er altså bare supergod, Eric.
    Hvad ville du (og Helle, selvfølgelig) sige til et gratis weekendophold på en svensk ødegård, inklusiv alle måltider og drikkevarer ad libitum? Det eneste, det skal koste dig, er de nødvendige timers ophold ved Ellens pc for at få alt det der til at fungere, så jeg også kunne blive fri for uønskede russiske og kinesiske besøg …
    Det er skam seriøst ment 🙂

    Svar
    1. Eric

      Det var da et fristende tilbud, omend det meste af weekenden ville gå med at rejse!

      Der to ting i det her: Den ene er sikkerhed, og den anden er båndbredde og gemen irritation. Af disse er sikkerhed langt det vigtigste.

      Som WordPress-bruger er det vigtigste at holde sine plugins opdaterede og så have styr på, hvilke der hen ad vejen afdækkes som sårbare.

      På min blog har jeg installeret et plugin som hedder “BulletProof Security,” som jeg er ret imponeret af. Det skriver nogle skrappe .htaccess-filer, der fungerer som døre af panserstål.

      Nu ved jeg ikke, om man hos wordpress.com har mulighed for at redigere WordPress’ standard-.htaccess, men hvis ja er det ingen sag at blokere det halve af Kina. Det kommer jeg til. 🙂

      Svar
  3. Inge

    Imponerende.. jeg må sige du sætter dig ind i tingene, og gør noget aktivt for at styre adgangen til dit site.. Respekt. 🙂

    Svar
    1. Eric

      Jeg blev faktisk noget chokeret over den voldsomme og mere eller mindre lyssky trafik, og når man så har muligheden for at genere de slyngler, som tramper rundt i blomsterbedet, syntes jeg ikke, jeg ville lade stå til.

      Men det er nok straks sværere, hvis man fx hostes af Blogspot – der har man næppe så mange muligheder for at se logfiler og udspænde snubletråde.

      Svar
    1. Eric

      Næste afsnit i føljetonen vil handle om, hvordan man skal læse logfilerne, og hvordan man kan se, at det er en robot, en spambot eller en “hacker-føler”.

      Jeg vil også lægge mit program ud til download – det skal bare lige pudses lidt mere af. For fotografen Per vil det sikkert være spændende at følge med i, hvem der “hotlinker” til hans billeder og snylter på hans båndbredde – dvs. bruger billederne på deres egne sider, men linker til billederne på deres oprindelige placering.

      Svar

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *