Tag-arkiv: Robotter

Hvordan man blokerer robotter og afskum med htaccess

En lille tekstfil kan fungere som portner til din hjemmeside. Den kan afvise uartige søgerobotter, forhindre hotlinks til billeder o.m.a.

Dette er det sidste (i hvert fald foreløbig!) nørdede indlæg om uønskede gæster på hjemmesiden. I de første skrev jeg om, hvordan man kan kortlægge den uønskede trafik, og dette handler om, hvordan man kan blokere for den.

Som jeg før har skrevet (links nederst i dette indlæg), er der masser af søgerobotter, der gennemtrawler dit websted. Nogle er artige og nyttige, mens andre i bedste fald kun bruger masser af båndbredde.

Uartige robotter blæser på, hvad du skriver i robots.txt, og kan kun holdes ude ved at formene dem adgang. Det kan man normalt gøre med en lille tekstfil, hvis man bor på en Apache-server.

Tekstfilen hedder ”.htaccess” og har intet ”fornavn”. Den indeholder ordrer til serveren og fungerer som portner, når nogen banker på døren til dit websted. Man kan styre utrolig meget, men her koncentrerer jeg mig om adgang generelt samt sikkerhed i WordPress.

Blokering af IP-adresser

Kommandoerne i .htaccess er ofte kompliceret ”kinesisk,” men at formene IP-adresser adgang er uhyre enkelt. Man skriver simpelthen linjer med: ”deny from” og så en IP-adresse. Fx:

deny from 95.108.151.244
deny from 178.154.243.100

hvor 95.108.151.244 og 178.154.243.100 er to af de IP-adresser, som bruges af den russiske søgemaskine Yandex. Yandex er ikke lyssky, men den er uopdragen, bruger en hulens masse båndbredde og bringer ikke trafik af den type, jeg ønsker.

Hvis jeg i stedet for 178.154.243.100 skrev 178.154.243., ville jeg blokere alle adresser mellem 178.154.243.0 og 178.154.243.250. Den teknik har jeg fx brugt mod en vifte af kinesiske og ukrainske IP-adresser, som er forslugne og/eller ondsindede.

Mange hacker- eller spamrobotter, som besøger min side, kommer fra netop Kina og Ukraine, og de uopdragne søgemaskiner, BaiduSpider (Kina) og Arefsbot (Ukraine), er heller ikke velkomne. Jeg ser ingen fordele ved deres indeksering.

Blokering af IP-adresser er simpelt, men stormasket og primitivt sammenlignet med mere raffinerede metoder. Men de raffinerede metoder virker måske ikke på din server, og risikoen for fejl er større.

De relevante IP-adresser finder man ved at granske sine logfiler og evt. slå adresserne op på sider som WhatIsMyIPAddress eller hcidata.info.

Jeg nyder at se i mine logfiler, at blokeringerne virker, og at forslugne robotter ikke længere æder omkring en halv gigabyte båndbredde om måneden til ingen verdens nytte for mig.

Blokering af hotlinks

Læs resten

Logfilen afslører hjemmesidens uønskede gæster

I serverens adgangs-logfil for hjemmesiden eller bloggen kan man identificere de robotter, spammere og hackere, man helst er fri for.

De fleste med en hjemmeside eller blog følger med i, hvilke sider der får besøg, hvilke søgninger der bringer folk til siderne osv. Ofte har udbyderen et statistikprogram, eller man kan fx bruge Google Analytics.

Disse programmer fortæller dog sjældent om de mange robotter, som også kommer på besøg og grovæder af din båndbredde, eller om suspekte spam-robotter og ”hacker-følere”.

De fortæller heller ikke altid, hvem der hotlinker til dine billeder, altså smækker et af dine billeder på deres egen side med et direkte link til billedets originale adresse, så du får lov at lægge båndbredde til.

Serverens logfil – Access log

For at identificere disse størrelser og evt. formene dem adgang skal man selv granske logfilen over besøg, hvis man da har adgang til den. Der kan være forskel på, hvordan forskellige servere strukturerer logfilen, men her er et eksempel på en enkelt logning i min logfil:

2.105.72.250 – – [07/Sep/2012:15:56:43 +0200] “GET /wordpress/2010/12/20/til-tenerife-og-sydens-sol/ HTTP/1.1” 200 9734 “http://www.at-rejse-er-at-leve.dk/spanien.htm” “Opera/9.80 (Windows NT 6.1; Win64; x64; U; da) Presto/2.10.289 Version/12.02”

Læs resten

Uopdragne søgerobotter, spambots og hackere

Om at finde og blokere uopdragne internet-robotter, der sluger din båndbredde, og som hverken vil dig eller de små børn i Afrika noget godt.

Dette indlæg er langt og nok mest interessant for webmastere, men det skal ikke altid handle om mad, katte, rejser eller besøg i byggemarkedet. 😉

Da jeg havde ryddet op efter hackernes indbrud, begyndte jeg (lidt sent!) at interessere mig for serverens access-logfiler: Hvem får egentlig adgang til mine sider, og hvad er de ude på?

Det gik op for mig, at selv en uskyldig hjemmeside som min tæppebombes med forespørgsler fra bl.a. robotter: Programmer, der gennemtrawler nettet i legitimt, ligegyldigt eller skummelt ærinde. Det ser man bare ikke i de normale besøgsstatistikker.

Det er ikke kun søgemaskiner, der bruger robotter. Spammere, hackere og andet afskum bruger dem også. Robotterne kaldes også for crawlere, spidere og bots.

Nogle er velopdragne og velkomne som fx Googlebot og Bingbot, da de bidrager til, at vi alle kan søge og finde. Okay, Googlebot bruger en del båndbredde, men Google er jo Google.

Andre er ret ligegyldige. Det er fx robotter, der søger egnede sider til reklamer eller kigger efter, hvem der reklamerer hvor, så de kan sælge deres services, hvad de så end går ud på.

Og så er der banditterne. Nogen præsenterer sig end ikke ved navn eller bruger sågar falsk identitet og kalder sig fx Googlebot. De sniger sig ind og grønthøster din side til skumle formål, som med garanti ikke er i din interesse.

Nogen leder fx efter sårbare WordPress plugins, de kan bruge til at hacke siden, andre høster e-mailadresser til spam, og så er der robotter, som poster spam-kommentarer på blogs og i gæstebøger.

I august brugte Googlebot 237 mb båndbredde på mit domæne, sitestory.dk, og Google er flittig, men de uopdragne robotter brugte i samme måned mere end 600 mb, og det var inden jeg begyndte at formene dem adgang!

Og det var endda kun de robotter, der præsenterede sig som robotter – alle de skumle, som optræder anonymt eller under falsk identitet, er ikke talt med.

Læs resten