Tag-arkiv: Uønskede gæster

Program til analyse af websidens access log

Download Excel regneark med makroer til analyse af hjemmesidens adgangs-logfil. Finder hotlinks, robotter, spambots og mulige slyngler.

Da jeg havde fået fjernet alle spor efter hackerne, som brød ind på min side, begyndte jeg at interessere mig for serverens logfiler, hvor alle besøg og anmodninger bliver logget.

Som jeg skrev i Uopdragne søgerobotter, spambots og hackere, gik det op for mig, at der er en trafik af den anden verden, og at der var en del, jeg ønskede at blokere for – især uopdragne robotter, som grovæder af båndbredden.

Logfiler kan imidlertid have mange tusinde poster, og så er det ret uoverskueligt at søge på må og få. Jeg skrev derfor et program (makroer/VBA) i Excel, som kan importere logfilen og udtrække de poster, jeg interesserer mig for, nemlig hotlinks til mine billeder, robotbesøg, ”hacker-følere”, mulige spambots samt lidt mere.

Altså ikke normal besøgsstatistik, men et overblik over gæster jeg måske helst slet ikke vil have ind, og som jeg kan afvise i min .htaccess-fil (mere om .htaccess i næste indlæg om dette emne).

Fx havde jeg besøg af følgende (navngivne) robotter fra ved middagstid den 7. september til næste dags morgen kl. 8:

  • Googlebot
  • Googlebot-Image/1.0
  • bingbot
  • http://www.web.nl/webmasters/spider.html
  • Corporate Spider
  • Googlebot-Mobile/2.1
  • Moreoverbot
  • http://boardreader.com/info/robots.htm)-CommentCrawler
  • R6_CommentReader(www.radian6.com/crawler)
  • http://www.proximic.com/info/spider.php
  • MJ12bot
  • AcoonBot
  • BlogSearch
  • Exabot
  • Googlebot-Mobile/2.1
  • msnbot-media/1.1
  • news bot
  • ezooms.bot
  • R6_FeedFetcher(www.radian6.com/crawler)
  • Sosospider
  • magpie-crawler/1.1
  • VoilaBot
  • Googlebot-Mobile/2.1
  • 5.1; Search

Hertil kommer nogle stykker, som jeg formener adgang, bl.a. Yandex og Baiduspider. Nogle på listen ovenover respekterer et pænt ”nej tak” og skrider, når de har læst robots.txt (fx ezooms, sosospider og magpie-crawler). Googlebot-Mobile står der tre gange, fordi den har brugt forskellige IP-adresser.

”Corporate Spider” er ny hos mig. Jeg kan se, at det er en spambot, og at min blokering af spambots virker, for den fik et ”403 Forbidden,” da den prøvede at poste en kommentar.

Regnearket til logfil-analyse

Læs resten