{"id":9280,"date":"2012-09-09T08:22:17","date_gmt":"2012-09-09T06:22:17","guid":{"rendered":"http:\/\/\/\/sitestory.dk\/wordpress\/?p=9280"},"modified":"2015-01-01T11:51:53","modified_gmt":"2015-01-01T10:51:53","slug":"program-til-analyse-af-websidens-access-log","status":"publish","type":"post","link":"https:\/\/sitestory.dk\/wordpress\/2012\/09\/09\/program-til-analyse-af-websidens-access-log\/","title":{"rendered":"Program til analyse af websidens access log"},"content":{"rendered":"<p><strong>Download Excel regneark med makroer til analyse af hjemmesidens adgangs-logfil. Finder hotlinks, robotter, spambots og mulige slyngler.<\/strong><\/p>\n<p>Da jeg havde f\u00e5et fjernet alle spor efter hackerne, som br\u00f8d ind p\u00e5 min side, begyndte jeg at interessere mig for serverens logfiler, hvor alle bes\u00f8g og anmodninger bliver logget.<\/p>\n<p>Som jeg skrev i <a title=\"Uopdragne s\u00f8gerobotter, spambots og hackere\" href=\"http:\/\/\/\/sitestory.dk\/wordpress\/2012\/09\/02\/uopdragne-soegerobotter-spambots-og-hackere\/\">Uopdragne s\u00f8gerobotter, spambots og hackere<\/a>, gik det op for mig, at der er en trafik af den anden verden, og at der var en del, jeg \u00f8nskede at blokere for \u2013 is\u00e6r uopdragne robotter, som grov\u00e6der af b\u00e5ndbredden.<\/p>\n<p>Logfiler kan imidlertid have mange tusinde poster, og s\u00e5 er det ret uoverskueligt at s\u00f8ge p\u00e5 m\u00e5 og f\u00e5. Jeg skrev derfor et program (makroer\/VBA) i Excel, som kan importere logfilen og udtr\u00e6kke de poster, jeg interesserer mig for, nemlig hotlinks til mine billeder, robotbes\u00f8g, \u201dhacker-f\u00f8lere\u201d, mulige spambots samt lidt mere.<\/p>\n<p>Alts\u00e5 <strong>ikke<\/strong> normal bes\u00f8gsstatistik, men et overblik over g\u00e6ster jeg m\u00e5ske helst slet ikke vil have ind, og som jeg kan afvise i min .htaccess-fil (mere om .htaccess i n\u00e6ste indl\u00e6g om dette emne).<\/p>\n<p>Fx havde jeg bes\u00f8g af f\u00f8lgende (navngivne) robotter fra ved middagstid den 7. september til n\u00e6ste dags morgen kl. 8:<\/p>\n<ul>\n<li>Googlebot<\/li>\n<li>Googlebot-Image\/1.0<\/li>\n<li>bingbot<\/li>\n<li>http:\/\/www.web.nl\/webmasters\/spider.html<\/li>\n<li>Corporate Spider<\/li>\n<li>Googlebot-Mobile\/2.1<\/li>\n<li>Moreoverbot<\/li>\n<li>http:\/\/boardreader.com\/info\/robots.htm)-CommentCrawler<\/li>\n<li>R6_CommentReader(www.radian6.com\/crawler)<\/li>\n<li>http:\/\/www.proximic.com\/info\/spider.php<\/li>\n<li>MJ12bot<\/li>\n<li>AcoonBot<\/li>\n<li>BlogSearch<\/li>\n<li>Exabot<\/li>\n<li>Googlebot-Mobile\/2.1<\/li>\n<li>msnbot-media\/1.1<\/li>\n<li>news bot<\/li>\n<li>ezooms.bot<\/li>\n<li>R6_FeedFetcher(www.radian6.com\/crawler)<\/li>\n<li>Sosospider<\/li>\n<li>magpie-crawler\/1.1<\/li>\n<li>VoilaBot<\/li>\n<li>Googlebot-Mobile\/2.1<\/li>\n<li>5.1; Search<\/li>\n<\/ul>\n<p>Hertil kommer nogle stykker, som jeg formener adgang, bl.a. Yandex og Baiduspider. Nogle p\u00e5 listen ovenover respekterer et p\u00e6nt \u201dnej tak\u201d og skrider, n\u00e5r de har l\u00e6st robots.txt (fx ezooms, sosospider og magpie-crawler). Googlebot-Mobile st\u00e5r der tre gange, fordi den har brugt forskellige IP-adresser.<\/p>\n<p>\u201dCorporate Spider\u201d er ny hos mig. Jeg kan se, at det er en spambot, og at min blokering af spambots virker, for den fik et \u201d403 Forbidden,\u201d da den pr\u00f8vede at poste en kommentar.<\/p>\n<h3>Regnearket til logfil-analyse<\/h3>\n<p><!--more-->Du kan downloade regnearket her <a title=\"Regneark til analyse af logfiler\" href=\"http:\/\/www.sitestory.dk\/excel_vba\/sheets\/logfil-analyse.zip\">http:\/\/www.sitestory.dk\/excel_vba\/sheets\/logfil-analyse.zip<\/a>. Det er zip-komprimeret og skal derfor \u201dpakkes ud\u201d. N\u00e5r du har downloadet, h\u00f8jreklikker du p\u00e5 filen og lader Windows ordne den sag.<\/p>\n<p>Du skal tillade eksekvering af makroer i Excel, ellers virker det ikke, og da jeg ikke har et digitalt certifikat, skal du v\u00e6lge laveste sikkerhedsniveau.<\/p>\n<p>Regnearket er lavet i Excel 2000, som kun har plads til 65.536 r\u00e6kker, s\u00e5 hvis logfilen er st\u00f8rre, f\u00e5r du ikke det hele med (s\u00e5 skal du sk\u00e6re den i \u201dbidder\u201d i et andet program). Store logfiler fylder ogs\u00e5 en gruelig bunke, s\u00e5 det er bedst med kun en dag eller to, afh\u00e6ngigt af hvor meget trafik der er p\u00e5 din side.<\/p>\n<p>Har du en nyere version af Excel (fx 2007 eller 2010), er der plads til flere r\u00e6kker, men du skal m\u00e5ske gemme regnearket i det nyere format, f\u00f8r du starter. Programmet vil importere op til antal mulige r\u00e6kker minus 1, men hvis der er mere end en million r\u00e6kker, bliver det nok tungt at danse med. \ud83d\ude09<\/p>\n<p>Hvis logfilen fra serveren er komprimeret (fx *.gz), skal den f\u00f8rst pakkes ud. Det m\u00e5 du selv klare. Hvis Windows ikke kan pakke den ud, findes der gratis programmer p\u00e5 nettet.<\/p>\n<h3>Import og dataudtr\u00e6k<\/h3>\n<p>P\u00e5 fanebladet \u201dUdtr\u00e6k\u201d klikker du p\u00e5 knappen \u201dImporter logfil,\u201d finder den downloadede logfil og v\u00e6lger den. Excel vil nu importere logfilen som en tekstfil og popper op med en dialogboks. Her skal du v\u00e6lge \u201dAfgr\u00e6nset\u201d (for at f\u00e5 de forskellige felter i kolonner for sig), og som afgr\u00e6nser skal du v\u00e6lge \u201dMellemrum\u201d.<\/p>\n<p>Jeg kan ikke garantere, at det virker for din servers logfiler. Hvis den fx bruger andre afgr\u00e6nsere end mellemrum, m\u00e5 du pr\u00f8ve noget andet. Mellemrum skulle fungere for filer fra Apache-servere, men man ved aldrig.<\/p>\n<p>P\u00e5 fanebladet \u201dLog\u201d skulle du nu kunne se hele logfilen med de forskellige felter (IP-adresser, dato osv.) i kolonner for sig. Strukturen i overskriften (r\u00e6kke 1) svarer til strukturen af mine logfiler, s\u00e5 tjek lige, om den ogs\u00e5 passer p\u00e5 din. Hvis ikke, skal du angive de rigtige kolonner p\u00e5 fanebladet \u201dSetup\u201d.<\/p>\n<p>Her kan du ogs\u00e5 skrive navnet p\u00e5 din egen hjemmeside, fx \u201dminside.dk\u201d. Ellers kommer den med i oversigten over hotlinks. Hvis du ogs\u00e5 angiver din IP-adresse, sorteres den fra i dataudtr\u00e6kket.<\/p>\n<p>Der er mange sider p\u00e5 nettet, der kan fort\u00e6lle dig din IP-adresse, men hvis den ikke er fast, risikerer din egen aktivitet alligevel at komme med i dataudtr\u00e6kket.<\/p>\n<p>N\u00e5r det er p\u00e5 plads, klikker du p\u00e5 knappen \u201dUdtr\u00e6k data\u201d p\u00e5 fanebladet \u201dUdtr\u00e6k,\u201d og selvom der er tusindvis af poster i loggen, g\u00e5r der ikke mange sekunder, f\u00f8r du kan se resultatet.<\/p>\n<p>N\u00e6ste gang du vil importere\/udtr\u00e6kke data, slettes den gamle log og det gamle udtr\u00e6k automatisk.<\/p>\n<p>Lad mig afslutningsvis sige, at det er et program, jeg har lavet til eget brug, s\u00e5 jeg har ikke h\u00f8jglanspoleret interfacet, og jeg garanterer ikke, at det virker for dig. Tag det som det er, og vil du lave om p\u00e5 makroerne, g\u00f8r du bare det (l\u00e6s dog lige om \u201dOphavsret\u201d p\u00e5 fanebladet \u201dHj\u00e6lp\u201d f\u00f8r du evt. videredistribuerer).<\/p>\n<p>Jeg garanterer heller ikke, at programmet finder fx alle robotter, som har bes\u00f8gt dit websted, eller at de mulige spam-robotter vitterlig er spambots; men det kan v\u00e6re en hj\u00e6lp til at indkredse de g\u00e6ster, du helst er fri for eller vil holde \u00f8je med.<\/p>\n<p>Hvis du bruger en nyere version af Excel, og du f\u00e5r en fejlmeddelelse, er det sandsynligvis fordi, Excel ikke er 100 % kompatibel bagud. Det vil jeg ikke klandres for, men jeg tror ikke, der er problemer.<\/p>\n<p>Jeg overvejer at beregne, hvor meget b\u00e5ndbredde hver robot sluger i kb, men p\u00e5 den anden side g\u00e5r enhver tilf\u00f8jelse ud over hastigheden, s\u00e5 jeg ved ikke rigtig.<\/p>\n<p>Skulle der v\u00e6re sp\u00f8rgsm\u00e5l, forslag eller uventede fejl, skal jeg nok svare, men det kan godt v\u00e6re, at der g\u00e5r et par uger &#8211; bloggen nedprioriteres for en tid pga. andre g\u00f8rem\u00e5l.<\/p>\n<p><strong>Andre indl\u00e6g om dette emne:<\/strong><\/p>\n<ul>\n<li><a title=\"Uopdragne s\u00f8gerobotter, spambots og hackere\" href=\"http:\/\/\/\/sitestory.dk\/wordpress\/2012\/09\/02\/uopdragne-soegerobotter-spambots-og-hackere\/\">Uopdragne s\u00f8gerobotter, spambots og hackere<\/a><\/li>\n<li><a title=\"Logfilen afsl\u00f8rer hjemmesidens u\u00f8nskede g\u00e6ster\" href=\"http:\/\/\/\/sitestory.dk\/wordpress\/2012\/09\/08\/logfilen-afsloerer-hjemmesidens-uoenskede-gaester\/\">Logfilen afsl\u00f8rer hjemmesidens u\u00f8nskede g\u00e6ster<\/a><\/li>\n<li><a title=\"Hvordan man blokerer robotter og afskum med htaccess\" href=\"http:\/\/\/\/sitestory.dk\/wordpress\/2012\/10\/09\/hvordan-man-blokerer-robotter-og-afskum-med-htaccess\/\">Hvordan man blokerer robotter og afskum med htaccess<\/a><\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Download Excel regneark med makroer til analyse af hjemmesidens adgangs-logfil. Finder hotlinks, robotter, spambots og mulige slyngler. (&#8230;) Logfiler kan imidlertid have mange tusinde poster, og s\u00e5 er det ret uoverskueligt at s\u00f8ge p\u00e5 m\u00e5 og f\u00e5. Jeg skrev derfor et program (makroer\/VBA) i Excel, som kan importere logfilen og udtr\u00e6kke de poster, jeg interesserer mig for, nemlig hotlinks til mine billeder, robotbes\u00f8g, \u201dhacker-f\u00f8lere\u201d, mulige spambots samt lidt mere. Alts\u00e5 ikke normal bes\u00f8gsstatistik, men et overblik over g\u00e6ster jeg m\u00e5ske helst slet ikke vil have ind, og som jeg kan afvise i min .htaccess-dil (&#8230;)<\/p>\n","protected":false},"author":10,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[12],"tags":[484,2362,2361,2363],"class_list":["post-9280","post","type-post","status-publish","format-standard","hentry","category-it-internet","tag-excel","tag-logfil","tag-program","tag-uonskede-gaester"],"_links":{"self":[{"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/posts\/9280","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/users\/10"}],"replies":[{"embeddable":true,"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/comments?post=9280"}],"version-history":[{"count":0,"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/posts\/9280\/revisions"}],"wp:attachment":[{"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/media?parent=9280"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/categories?post=9280"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/sitestory.dk\/wordpress\/wp-json\/wp\/v2\/tags?post=9280"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}