Logfile-Analyse mit dem Web Utilization Miner WUM

Logfile-Analyse mit dem Web Utilization Miner WUM Wissensextraktion aus „large databases“ an Hand des Logfiles eines themenbezogenen Webportals: community-of-knowledge

c-o-k: Ziele und Aufbau • unabhängige Internet-Plattform zur „Bündelung und Präsentation von praxisorientiertem und qualifiziertem Wissen zum Thema Knowledge Management in Unternehmen.“ • Webbasierte Knowledge Base zur Thematik `Einsatz und Leistungsfähigkeit aktueller Methoden, Techniken und Tools im Bereich Knowledge Management´.

C-o-k Aufbau

Mein Hauptinteresse: Content-Abruf  Concept Hierarchy für `Artikel´ Index.htm Kontexte Organisations-entwickler Qualitäts-manager Werkzeuge Fallstudien Methoden Rollen Personalent-wickler /artikel_id=137 (meiner über KDD/Data Mining) IT-Leiter WM-Koordinator

Content Pool • Jedem Artikel werden bei der Eingabe ein Kontext und max. 4 Rollen zugeordnet • Kontexte und Rollen enthalten oft die gleichen Artikel • Welche Rollen würdet ihr einem Artikel über KDD zuordnen?

Content-Suche über Navigationshilfen • Die einzige weitere Möglichkeit des Content-Abrufs geht über die Navigationshilfen: Keywords (s_index), interne Suchmaschine (s_suche), Autoren (s_autoren) und Sitemap, die zwar nur auf die anderen Möglichkeiten verweist, deren häufiger Abruf aber einen näheren Blick nahelegt.

Content-Abruf über Navigation (an Hand von Analog-Reports April 01-Mai 02)

Content-Abruf über Kontext/Rollen/Keywords

Fragen: • Ergeben sich signifikante Unterschiede im Navigationsverhalten bei der Suche über Kontexte bzw. Rollen? • Ergeben sich signifikante Unterschiede im Content-Abruf über Navigationshilfen gegenüber Kontext/Rollen? • Lesen HR-Leute andere Artikel als IT-Leiter? • Oder führt die fast identische Content-Präsentation für die 4 Rollen zu ebenso identischen Artikel-Abrufen?

Knowledge Discovery Queries mit Mint • Der Umgang mit WUM erfordert Expertenwissen -> kein Expertensystem • Man muss Vorannahmen treffen, die man mit Hilfe von Mint veri-/falsifizieren kann • Definition Spiliopoulou: „a belief is a rule of the form A  B, which is expected to be true“

Preprocessing via „find“ • Gefiltert wurde aus Performancegründen manuell: gif/jpg, alle parametrisierten Scriptaufrufe (außer cgi [?]), Kontakt, Messen, die meisten Serviceseiten, bekannte Robots • Logfile 03.06.02-17.06.02 von 15MB auf 2,4 MB • Das in WUM implementierte Weka (Assoziationsregeln) verkraftet keine %, bzw. &-Zeichen. Man ersetze sie via  • sed –f sedscr filename >xyz • Download UnixUtils für Win32  http://unxutils.sourceforge.net/ Sicherheitswarnung: Fremder Leute batch-files vor dem Ausführen in einem Texteditor anschauen‼! filter1.bat filter17.bat sedscr

Website Pages, Association Rules, Mint Queries • Association Rules und Mint Queries an unterschiedlichen Mining Bases! (Log Entry mit exakt 2 Abrufen von Suchwörtern in s_index pro Minute legt robot1 nahe. Später gab es nach dem gleichen Schema Abrufe von s_index und cp_artikel: einem typisch menschlichen Navigationsverhalten also. Abgesehen vom time stamp hat man hier keine Möglichkeit, auf Robot zu schließen  ein Musterbeispiel für einen „unethical robot1 1 cf. Tan, Kumar, WebRobots AssociationRules Website

Robot Detection mit WUMprep • WUMprep ist eine Sammlung von Perl-Scripts zum Logfile-Preprocessing. • Scripts detectRobots.pl & removeRobots.pl mit den Heuristiken `Namen´ (ethische Robots) und `maxViewTime´ (nicht ethische) • Output `nobots´ und `robot_hosts´ mit Angabe des Hosts und der Heuristik, die zur Identifizierung führte. • 195.71.139.174 wurde nicht identifiziert. awk-script zum Anhängen von Visitor- & SessionID (Extended Cookie Format von detectRobots.pl benötigt) robot_hosts.txt

Association Rules • Mit Robot Entry. Interessant sind Rule 2 und 4 (leider offensichtlich von Robot generiert. Ein Blick in das Logfile bestätigt die Regeln: • 195.71.139.174 (der Robot)- - [03/Jun/2002:16:18:18 -0600] "GET /s_index.htm?ansicht=1_wort_id=205_wort=Workflowmanagement_update=2 • "GET /cp_artikel.htm?artikel_id=82 • Nach Rauswurf von 195.71.139.174 (kein result eines dns lookup bei Hunter.com) gab es mit den Schwellwerten Support=0.05; Confidence =30% keine Regeln mehr

Mint Queries • Erste Abfrage nach /cp_.htm?fall=1 (Werkzeuge) und artikel_id=122 (Open EIS). Verm.: Er kam nicht an das pdf

2. Abfrage • START select t • from node as a b c, template a * c as t • where a.url = "/cp_.htm?fall=1" • and b.url != "/cp_.htm?fall=3" • and c.url contains "artikel_id=“ • Die Ergebnisse bringen Aufrufe nach „Werkzeuge“; „Fallstudien“ und „Methoden“ durcheinander --> Besucher suchen nicht nach bestimmten Inhalten. • Auffällig viele Abrufe gibt es für id=122, Open EIS, einem typischen Artikel der Kategorie „Werkzeuge“ • –> Einige suchen gezielt.

3. Abfrage • select t • from node as a b, template a [1;3] b as t • where a.url = "/cp_.htm?fall=1" • and b.url contains "artikel_id=“ • ID1-4 zeigen alle zielgerichteten Contentabruf: die erste wird man über “Rollen” wiederfinden, die zweite interessiert sich nicht für Werkzeuge und geht sofort auf Methoden, 3 und 4 sind bei Werkzeuge richtig und rufen nach Durchsicht der Vorschläge (=sortieren) 2 Folgen der Serie “SW-Unterstützung im WM” ab

4. Abfrage: Rolle WM-Koordinator • select t • from node as a b, template a [1;3] b as t • where a.url = "/cp_.htm?fall=8" • and b.url contains "artikel_id=“ • Pattern ID=2 stützt meine These, dass User Product Placements von Inxight/Hummingbird zusammen mit Tool-relevantem Content abrufen. ID=6 klickt sich durch alle Kontexte->Blick ins Logfile; DNS-Lookup (von Fall=1 kommt man nicht auf id=84)

5. Abfrage: Alle Folgeaufrufe von `Werkzeuge´ (fall=1) • Von „Werkzeuge“ über Hummingbird/Inxight-Produktpräsentationen geht es über „Werkzeug“-Wdh. zu „Lebendiges WM“, i.e. Einsatz von Portalen im WM. Der zweite Pfad geht über „Methoden“ zu „KM-Bewertungsstrategien“, anschließend von „Werkzeuge“ gleichfalls zu Portalen im WM • Die Kategorien (Werkzeuge / Methoden) korrelieren in beiden Fällen mit den Folgeaufrufen

6. Abfrage: Alle Folgeaufrufe von `Hummingbird´ (id=125) • select t • from node as a b, template a * b as t • where a.url contains "artikel_id=125" • and b.support >= 2 • Von 6 Abrufen id=125 schaut a) die Stichworte des Artikels unter s_index nach und ruft 1. den ersten und 2. den dritten Treffer des jew. Suchworts ab - eine geradezu idealtypische Form der Suche mit Ausgangspunkt „Kontexte“.

Zwischenbetrachtung • Die Suche über Kontexte läßt in obigen Abfragen mit hinreichender Anzahl auf zielgerichteten Content-Abruf schließen. Eine Erklärung für „Start bei Werkzeuge“ – „Ziel bei Artikeln anderer Kategorien“ ist die stets vorzufindende Suche nach weiterem Content über die Keywords eines Ausgangsartikels. • Die These, dass Produktpräsentationen weniger als Werbung denn als Information wahrgenommen wird, muss weiter verfolgt werden (unter Einbeziehung der Tool-Seiten)  Erweiterung der Konzept-Hierarchie. • Abfragen, in denen die statistische Relevanz über Support-/Konfidenz-Regeln erhöht werden sollte, brachte keine Ergebnisse  2 Wochen Logfile-Ausschnitt sind zu kurz. Allerdings liegt der Mittelwert von Content-Abruf der Kategorie Werkzeuge auch nur bei 3,3/d

To be continued • Danke für´s Zuhören

Logfile-Analyse mit dem Web Utilization Miner WUM

Logfile-Analyse mit dem Web Utilization Miner WUM

Presentation Transcript

Messwerterfassung mit dem PC

Messdatenerfassung mit dem Computer

Präpositionen mit dem Genitiv

Forschertage mit dem Kindergarten

Medienkooperation mit dem Stern

Web-Gestaltung im JKU-Design mit dem ZMS

Runter mit dem Dauerstress

Arbeiten mit dem BSCW

Anwendungen mit dem PC

Ressourcenverwaltung mit dem Bildungsserver

Erfahrungen mit dem Lerntagebuch

Unterrichtsplanung mit dem Internet

Routing mit dem Distanzvektoralgorithmus

mit dem

Löschen mit dem Strahlrohr

Analyse der Zufriedenheit der „Persönlichen Mitglieder (pm)“ mit dem „pm-Forum“

Mit dem Fahrrad auf dem Jakobsweg

Kurvendiskussion mit dem GTR

Mit dem Zug fahren

Löschen mit dem Strahlrohr

Lernen mit dem Computer

Web-Anwendungen mit dem Jakarta Struts Framework