Logfilen afslører hjemmesidens uønskede gæster

I serverens adgangs-logfil for hjemmesiden eller bloggen kan man identificere de robotter, spammere og hackere, man helst er fri for.

De fleste med en hjemmeside eller blog følger med i, hvilke sider der får besøg, hvilke søgninger der bringer folk til siderne osv. Ofte har udbyderen et statistikprogram, eller man kan fx bruge Google Analytics.

Disse programmer fortæller dog sjældent om de mange robotter, som også kommer på besøg og grovæder af din båndbredde, eller om suspekte spam-robotter og ”hacker-følere”.

De fortæller heller ikke altid, hvem der hotlinker til dine billeder, altså smækker et af dine billeder på deres egen side med et direkte link til billedets originale adresse, så du får lov at lægge båndbredde til.

Serverens logfil – Access log

For at identificere disse størrelser og evt. formene dem adgang skal man selv granske logfilen over besøg, hvis man da har adgang til den. Der kan være forskel på, hvordan forskellige servere strukturerer logfilen, men her er et eksempel på en enkelt logning i min logfil:

2.105.72.250 – – [07/Sep/2012:15:56:43 +0200] “GET /wordpress/2010/12/20/til-tenerife-og-sydens-sol/ HTTP/1.1” 200 9734 “http://www.at-rejse-er-at-leve.dk/spanien.htm” “Opera/9.80 (Windows NT 6.1; Win64; x64; U; da) Presto/2.10.289 Version/12.02”

Det ser lidt kryptisk ud, men er egentlig ganske enkelt. Først den besøgendes IP-adresse. Den kan også stå sammen med navnet på udbyderen – det er lidt forskelligt.

Dernæst dato og klokkeslæt, som er +0200 timer foran UTC.

Den næste streng (afgrænset af anførselstegn) oplyser forespørgslens type (request method), i dette tilfælde ”GET” som er den mest normale. Efter ”GET” står stien til den ønskede fil efterfulgt af HTTP/1.1.

Tallet herefter (200) er den HTTP-kode, serveren returnerer som svar på forespørgslen. De interessante koder i denne forbindelse er 404 (file not found), 403 (forbidden = afvist) og 500 (server error).

Det næste tal (9734) fortæller, hvor mange bytes der er overført.

Imellem de to næste anførselstegn finder man henvisningen (referrer), i dette tilfælde hjemmesiden at-rejse-er-at-leve. Det kan også være en af dine egne sider, hvis den besøgende følger et internt link. Feltet kan også stå tomt (med en bindestreg), og så er den besøgende typisk en robot.

Det sidste felt er den besøgendes User Agent, som fortæller noget om den besøgendes software, men det vil typisk også være her, at robotter præsenterer sig selv ved navn – medmindre det er lyssky robotter!

Robotter og hackere

Mange robotter præsenterer sig ved navn i det sidste felt, User Agent, og du vil blive overrasket over, hvor mange der kommer på besøg, og hvor meget båndbredde de sluger.

Men der er også robotter, som ikke præsenterer sig, og dem kan man identificere, ved at der ikke er nogen henvisning. Nogen har heller ingen User Agent, og det er suspekt.

Spam-robotter vil typisk skrive en af dine egne sider som henvisning og benytte forespørgslen ”POST” i stedet for ”GET”. Sådan ser det også ud, hvis en helt legitim kommentar lægges på din blog, men hvis der ikke er nogen henvisningsside, eller det ikke er muligt at kommentere fra den angivne side, er det med sikkerhed en spam-robot.

Man kan også slå IP-adressen op (fx hos WhatIsMyIPAddress), og hvis den fx peger på Kina, er der ikke megen tvivl.

Der er også robotter, der forklæder sig som fx Googlebot, men som i virkeligheden er spam-robotter. Googlebot vil imidlertid ikke bruge ”POST,” og IP-adressen afslører dem også.

Hacker-følere kan man typisk identificere, ved at serveren returnerer 404 – file not found. Mange hackere søger vidt og bredt efter fx sårbare WordPress plugins, og hvis serveren ikke returnerer 404, ved de, at der er bid.

Så hvis du bruger et af de plugins, de søger efter, kan din side være sårbar over for hackerangreb.

Hvis der i feltet, hvor der normalt bedes om en fil, står en hel masse krimskrams og noget, der ligner kommandoer, er der grund til at være på vagt, for så kan det fx være forsøg på SQL injection, hvor hackere lægger fjendtlig kode ind i din database.

Jamen er det til at overskue?

En logfil kan indeholde mange tusinde poster, og så mister man nemt overblikket. Jeg har derfor skrevet et program i Excel, som kan importere logfilen (som er en tekstfil) til et Excel regneark.

Når man har importeret logfilen, gennemløber programmet alle posterne og sorterer dem efter forskellige kriterier. Man kan se mulige hotlinks, navngivne robotter, mulige spamrobotter, 404 fejl, afviste besøgende (403) samt besøgende der kan være suspekte.

Det kan være en hjælp til at vurdere, om der er nogen, man vil formene adgang ved at redigere sin .htaccess-fil (hvis man har mulighed herfor), og man kan holde øje med, om nogen (fx en robot), man har blokeret, kommer ind på anden måde (fx med en anden IP).

I det næste indlæg skriver jeg mere om regnearket, som du vil kunne downloade.

Andre indlæg om dette emne:

4 tanker om "Logfilen afslører hjemmesidens uønskede gæster"

  1. Ellen

    Jeg har bare lige konstateret, at jeg vist er bedst til at krydse fingre og håbe på, at det er nok til at forhindre uønskede gæster …

    Svar
  2. Per

    Har lidt svært ved at finde log-filen. Hvad hedder den typisk og bliver lagret hvor?
    Min host (Servage.net) har en funktion til at forhindre hotlinking, så den fik jeg da lige aktiveret 😉
    I øvrigt god ferie – den er jo “faretruende” nær. Vi forsøger i øjeblikket at finde billig afbudsrejse til varmen (uge 38), men der er ikke så mange gode tilbud som tidligere år, så måske ender det med en dansk sommerhusferie!

    Svar
    1. Eric

      Hvor logfilerne ligger er nok forskelligt fra udbyder til udbyder. Hvis du har FTP-adgang, vil du nok finde dem i et katalog, som hedder “logs” eller “access-logs”. Men det kan også være, at du skal downloade fra dit serverinterface (fx cPanel).

      Min daglige logfil hedder bare “sitestory.dk,” mens månedsfilen hedder noget med sitestory-“måned”.gz. Det er garanteret forskelligt. Mine logfiler ligger i niveauet over roden, men igen … Måske skal du spørge.

      Hvis du forhindrer hotlinking via udbyderens services, skal du være opmærksom på, at du med meget stor sandsynlighed også forhindrer billedlinks fra Google og andre søgemaskiner, og det er du næppe interesseret i! Det KAN fikses, hvis du kan lave/redigere .htaccess-filer, men det er for viderekomne (det kommer vi til senere ;-)).

      Hvis det ender med dansk sommerhusferie, håber jeg sandelig, at I har tøj nok. 😉

      Svar

Skriv et svar til Per Annuller svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *