530 likes | 660 Views
Logfileanalyse. Prof. Dr. Eduard Heindl. Elemente einer Logfilezeile. IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü gbar) Identit ä t des Benutzers (nur bei Authentifikation verf ü gbar) Sekundengenauer Zeitpunkt des Abrufs (Serverzeit)
E N D
Logfileanalyse Prof. Dr. Eduard Heindl
Elemente einer Logfilezeile • IP-Adresse des Clients • Identität des Clientrechners (normalerweise nicht verfügbar) • Identität des Benutzers (nur bei Authentifikation verfügbar) • Sekundengenauer Zeitpunkt des Abrufs (Serverzeit) • Erste Zeile der http Clientanfrage • Status der Serverantwort • Dateigröße in Bytes
Combined Log Format • Referer, letztes Dokument im Browser des Besucher • Domain von der die Seite abgerufen wurde • Browser des Besuchers • Betriebssystem des Besuchers 217.81.42.213 - - [01/Apr/2002:15:04:16 +0200] GET / HTTP/1.1 200 25432 www.heindl.de http://www.google.de/search?q=heindl+Internet+AG&hl=de&btnG=Google-Suche&meta=lr%3Dlang_de Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
Warum Kennziffern • Websites müssen sich lohnen • Nur gute Websites lohnen sich • Kundengerechte Websites sind gute Websites • Controlling der Kundenzufriedenheit durch Kennziffern
Anforderung an Kennziffern • Aussagekräftig • Unabhängig von Zusatzbefragung • Einfach zu ermitteln • Keine aufwendige Technik • Überschaubare Fehlerquellen • Statistisch signifikant • Auch auf Einzeldokumente anwendbar
Pageimpression • AdImpression"AdImpressions sind der messbare Werbemittelkontakt. Sie bezeichnen die Anzahl der von den Clients der Nutzer abgerufenen (requested) Werbemittel vom Server eines Werbeträgers oder anderen AdServers." (dmmv) • Pageimpression PIEine Internetseite im Browser ~ AdImpression • Pageview PV Abruf einer HTML Seite vom Server (nicht Aussagekräftig)
Frame • Frameseiten haben weniger PI als PV
Usersession • Usersession = Visit • VisitZusammenhängender Nutzungsvorgang, Besuch auf der Internetsite • View TimeNutzungsdauer, keine exakte Definition verfügbar (dmmv)
Erkenntnisse aus Abweichungen • Flut der Anfragen
Marketingerfolg • Beispiel einer Marketingkampagne mit 60.000 Werbebriefen
Seitentypen • Entry-, Brücken- und Exitpage
Exit-Page • Normale Ursachen • Letzte Seite in einem Bestellprozess • Linkliste, Angebot eines wichtigen externen Links • Struktureller Abschluss etwa Z im Lexikon • Newsseite • Seite zum Ausdrucken • Glossar • Kanalwechsel, z.B. Ansprechpersonen, Kontaktformular
Exit-Page • Problematische Ursachen • Keine internen Links vorhanden • Frameunterseiten, die isoliert gesehen werden (Externer Einstieg) • Lange Ladezeit • Seite hat unerwarteten Inhalt • Layout problematisch z.B. zu kleine Schrift • Unübliches Datenformat, z.B. Postscript
Neue Kennziffer: Fav/PV Annahmen: • Gute Seiten werden von Besuchern in die Favoriten aufgenommen (unter Netscape: Bookmark) • Je häufiger von verschiedenen Besuchern ein Favorit gesetzt wird, um so besser das Dokument
Favicon im Browser Favicon von Google Standardicon
Das Favicon • Das File „favicon.ico“ wird immer vom Webbrowser (IE5 und höher) vom Webserver angefordert, wenn der Besucher ein Lesezeichen setzt. • Favicon/Seitenabruf: Kennziffer, die ermittelt, ob ein Besucher Interesse an der Webseite (Website) hat.
Messverfahren • Im Logfile werden alle Serveranfragen protokolliert, auch der Faviconabruf • Logfileauswertung mit Statistikprogramm (z.B. websuxess) • Bestimmung der Abrufe des Files „favicon.ico“ • Zeitabhängig • Seitenbezogen
Technische Probleme • Netscape und Gecko Browser rufen das File favicon.ico bei jedem Seitenabruf auf -> Filtern auf IE-Browser • Favicon wird immer aus dem lokalen Verzeichnis geholt -> File in allen Verzeichnissen abspeichern • Bezugsseite kann nur durch Pfadanalyse ermittelt werden (rechenaufwendig)
Bestimmung des Faviconabrufs, relativ zu den Seitenaufrufen Je später der Abend, um so wahr-scheinlicher wird ein Lesezeichen gesetzt Tageszeitabhängigkeit
Analyse Relaunch www.tuebingen.com Favicon/Besucher Vorher ~1% Fav/PV Nachher ~2% Fav/PV Relaunch war erfolgreich Websitequalität
Auswertung Website Solarserver.de Zeitraum: 1. Quartal 2003 Datenbasis:Ca. 1.000.000 Seitenaufrufe Lehre:Branchenverzeichnis ist beliebt Webseitenqualität Die Top Seiten
Suchmaschinen • Relevante Suchmaschinen • Relevante Suchworte
Quelle der Besucherströme • Suchmaschinen • Externe Links • Favoriten • E-Mails • Manuelle Eingabe
Favoriten • Lesezeichen = Bookmark = Favorit • Bei Explorer: Abruf des Files favicon.ico • Achtung: Netscape 7 ruft das File immer ab
Pfadverfolgung • Wenig gleiche Pfade • Lange Pfade von Interesse • Analyse nach Zielelementen • Einzelauswertung mühsam
Pfadlänge • Längere Besuche sind wünschenswert • Grund der längeren Pfade verstehen • Pogosticking vermeiden
Zieldokumente • Jede Website hat Targetdokumente • Bestellabschluss • Newsletterabo
Robotsfile • Immer wenn eine Suchmaschine kommt wird das File robots.txt abgerufen
Ladezeit • Zuerst wird das HTML-File geladen • Bilder werden in der Reihenfolge im HTML Text nachgeladen • Anzahl der abgerufenen Bilder gibt Einblick über Besucherverhalten
Fehleranalyse • Datenquelle • Statistik • Signifikanz • Grosse Ereigniszahl • Längere Zeiträume • Einfache Betrachtung • Abhängigkeiten erkennen
Schiefe Statistik - Ursachen • Suchrobots nicht herausgefiltert • Sonderfunktion im Browser nötig • Viele Nutzer außerhalb der Zielgruppe (z.B. Mitarbeiter, Sprachraum) • Sitzungslänge falsch eingeschätzt • Serverfehler falsch einbezogen (404-Fehlerseiten) • Proxyserver • Bildschirmauflösung • Automatische Verknüpfung von Seiten (Frames) • Änderung von Dokumentadressen (Seitenumzug) • Inhalt – URL Relation falsch interpretiert
Proxyserver • Normalerweise mit Meldung 304 zu erkennen • Abhängig von HTTP Version • Abhängig von Proxyeinstellung • Lokaler Cache wird nicht erkannt
Pseudobesucher • Interne Besucher (Startseite) • Robots • Downloads • Linkchecker • Störer (DDOS) • Hacker • Frameeinblendungen
Dynamische Seiten • Erzeugung durch Content Management System • Erzeugung durch Shopsoftware • Besucherindividuell • Profilabhängig
Besuchszeiten • Tagesverlauf • Wochenverlauf • Jahresverlauf • Monat? • Sehr viele Sondereffekte!
Statuscode • Status aus dem HTTP Header • 200 – alles ok • 300 – kleine Umleitung • 400 – „dumme Frage“ • 500 – Server kaputt
IVW • Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V. • Registrierte Websites werden analysiert • Jeder kann die Resultate abrufen • Relativ teuer • Nützlich für alle Banner-Werbetreibenden
www.Alexa.com • Service aus den USA • Arbeitet mit Browserplugin • Analyse fremder Websites möglich • Teilweise schiefe Statistik • Nur ähnliche Websites vergleichbar
Alexa - IVW • Problematik der Alexaabfrage
Seitenzähler • ASP- Webstatistik • Beispiel Hitbox