220 likes | 337 Views
Logfile-Analyse mit dem Web Utilization Miner WUM. Wissensextraktion aus „large databases“ an Hand des Logfiles eines themenbezogenen Webportals: community-of-knowledge. c-o-k: Ziele und Aufbau.
E N D
Logfile-Analyse mit dem Web Utilization Miner WUM Wissensextraktion aus „large databases“ an Hand des Logfiles eines themenbezogenen Webportals: community-of-knowledge
c-o-k: Ziele und Aufbau • unabhängige Internet-Plattform zur „Bündelung und Präsentation von praxisorientiertem und qualifiziertem Wissen zum Thema Knowledge Management in Unternehmen.“ • Webbasierte Knowledge Base zur Thematik `Einsatz und Leistungsfähigkeit aktueller Methoden, Techniken und Tools im Bereich Knowledge Management´.
Mein Hauptinteresse: Content-Abruf Concept Hierarchy für `Artikel´ Index.htm Kontexte Organisations-entwickler Qualitäts-manager Werkzeuge Fallstudien Methoden Rollen Personalent-wickler /artikel_id=137 (meiner über KDD/Data Mining) IT-Leiter WM-Koordinator
Content Pool • Jedem Artikel werden bei der Eingabe ein Kontext und max. 4 Rollen zugeordnet • Kontexte und Rollen enthalten oft die gleichen Artikel • Welche Rollen würdet ihr einem Artikel über KDD zuordnen?
Content-Suche über Navigationshilfen • Die einzige weitere Möglichkeit des Content-Abrufs geht über die Navigationshilfen: Keywords (s_index), interne Suchmaschine (s_suche), Autoren (s_autoren) und Sitemap, die zwar nur auf die anderen Möglichkeiten verweist, deren häufiger Abruf aber einen näheren Blick nahelegt.
Content-Abruf über Navigation (an Hand von Analog-Reports April 01-Mai 02)
Fragen: • Ergeben sich signifikante Unterschiede im Navigationsverhalten bei der Suche über Kontexte bzw. Rollen? • Ergeben sich signifikante Unterschiede im Content-Abruf über Navigationshilfen gegenüber Kontext/Rollen? • Lesen HR-Leute andere Artikel als IT-Leiter? • Oder führt die fast identische Content-Präsentation für die 4 Rollen zu ebenso identischen Artikel-Abrufen?
Knowledge Discovery Queries mit Mint • Der Umgang mit WUM erfordert Expertenwissen -> kein Expertensystem • Man muss Vorannahmen treffen, die man mit Hilfe von Mint veri-/falsifizieren kann • Definition Spiliopoulou: „a belief is a rule of the form A B, which is expected to be true“
Preprocessing via „find“ • Gefiltert wurde aus Performancegründen manuell: gif/jpg, alle parametrisierten Scriptaufrufe (außer cgi [?]), Kontakt, Messen, die meisten Serviceseiten, bekannte Robots • Logfile 03.06.02-17.06.02 von 15MB auf 2,4 MB • Das in WUM implementierte Weka (Assoziationsregeln) verkraftet keine %, bzw. &-Zeichen. Man ersetze sie via • sed –f sedscr filename >xyz • Download UnixUtils für Win32 http://unxutils.sourceforge.net/ Sicherheitswarnung: Fremder Leute batch-files vor dem Ausführen in einem Texteditor anschauen‼! filter1.bat filter17.bat sedscr
Website Pages, Association Rules, Mint Queries • Association Rules und Mint Queries an unterschiedlichen Mining Bases! (Log Entry mit exakt 2 Abrufen von Suchwörtern in s_index pro Minute legt robot1 nahe. Später gab es nach dem gleichen Schema Abrufe von s_index und cp_artikel: einem typisch menschlichen Navigationsverhalten also. Abgesehen vom time stamp hat man hier keine Möglichkeit, auf Robot zu schließen ein Musterbeispiel für einen „unethical robot1 1 cf. Tan, Kumar, WebRobots AssociationRules Website
Robot Detection mit WUMprep • WUMprep ist eine Sammlung von Perl-Scripts zum Logfile-Preprocessing. • Scripts detectRobots.pl & removeRobots.pl mit den Heuristiken `Namen´ (ethische Robots) und `maxViewTime´ (nicht ethische) • Output `nobots´ und `robot_hosts´ mit Angabe des Hosts und der Heuristik, die zur Identifizierung führte. • 195.71.139.174 wurde nicht identifiziert. awk-script zum Anhängen von Visitor- & SessionID (Extended Cookie Format von detectRobots.pl benötigt) robot_hosts.txt
Association Rules • Mit Robot Entry. Interessant sind Rule 2 und 4 (leider offensichtlich von Robot generiert. Ein Blick in das Logfile bestätigt die Regeln: • 195.71.139.174 (der Robot)- - [03/Jun/2002:16:18:18 -0600] "GET /s_index.htm?ansicht=1_wort_id=205_wort=Workflowmanagement_update=2 • "GET /cp_artikel.htm?artikel_id=82 • Nach Rauswurf von 195.71.139.174 (kein result eines dns lookup bei Hunter.com) gab es mit den Schwellwerten Support=0.05; Confidence =30% keine Regeln mehr
Mint Queries • Erste Abfrage nach /cp_.htm?fall=1 (Werkzeuge) und artikel_id=122 (Open EIS). Verm.: Er kam nicht an das pdf
2. Abfrage • START select t • from node as a b c, template a * c as t • where a.url = "/cp_.htm?fall=1" • and b.url != "/cp_.htm?fall=3" • and c.url contains "artikel_id=“ • Die Ergebnisse bringen Aufrufe nach „Werkzeuge“; „Fallstudien“ und „Methoden“ durcheinander --> Besucher suchen nicht nach bestimmten Inhalten. • Auffällig viele Abrufe gibt es für id=122, Open EIS, einem typischen Artikel der Kategorie „Werkzeuge“ • –> Einige suchen gezielt.
3. Abfrage • select t • from node as a b, template a [1;3] b as t • where a.url = "/cp_.htm?fall=1" • and b.url contains "artikel_id=“ • ID1-4 zeigen alle zielgerichteten Contentabruf: die erste wird man über “Rollen” wiederfinden, die zweite interessiert sich nicht für Werkzeuge und geht sofort auf Methoden, 3 und 4 sind bei Werkzeuge richtig und rufen nach Durchsicht der Vorschläge (=sortieren) 2 Folgen der Serie “SW-Unterstützung im WM” ab
4. Abfrage: Rolle WM-Koordinator • select t • from node as a b, template a [1;3] b as t • where a.url = "/cp_.htm?fall=8" • and b.url contains "artikel_id=“ • Pattern ID=2 stützt meine These, dass User Product Placements von Inxight/Hummingbird zusammen mit Tool-relevantem Content abrufen. ID=6 klickt sich durch alle Kontexte->Blick ins Logfile; DNS-Lookup (von Fall=1 kommt man nicht auf id=84)
5. Abfrage: Alle Folgeaufrufe von `Werkzeuge´ (fall=1) • Von „Werkzeuge“ über Hummingbird/Inxight-Produktpräsentationen geht es über „Werkzeug“-Wdh. zu „Lebendiges WM“, i.e. Einsatz von Portalen im WM. Der zweite Pfad geht über „Methoden“ zu „KM-Bewertungsstrategien“, anschließend von „Werkzeuge“ gleichfalls zu Portalen im WM • Die Kategorien (Werkzeuge / Methoden) korrelieren in beiden Fällen mit den Folgeaufrufen
6. Abfrage: Alle Folgeaufrufe von `Hummingbird´ (id=125) • select t • from node as a b, template a * b as t • where a.url contains "artikel_id=125" • and b.support >= 2 • Von 6 Abrufen id=125 schaut a) die Stichworte des Artikels unter s_index nach und ruft 1. den ersten und 2. den dritten Treffer des jew. Suchworts ab - eine geradezu idealtypische Form der Suche mit Ausgangspunkt „Kontexte“.
Zwischenbetrachtung • Die Suche über Kontexte läßt in obigen Abfragen mit hinreichender Anzahl auf zielgerichteten Content-Abruf schließen. Eine Erklärung für „Start bei Werkzeuge“ – „Ziel bei Artikeln anderer Kategorien“ ist die stets vorzufindende Suche nach weiterem Content über die Keywords eines Ausgangsartikels. • Die These, dass Produktpräsentationen weniger als Werbung denn als Information wahrgenommen wird, muss weiter verfolgt werden (unter Einbeziehung der Tool-Seiten) Erweiterung der Konzept-Hierarchie. • Abfragen, in denen die statistische Relevanz über Support-/Konfidenz-Regeln erhöht werden sollte, brachte keine Ergebnisse 2 Wochen Logfile-Ausschnitt sind zu kurz. Allerdings liegt der Mittelwert von Content-Abruf der Kategorie Werkzeuge auch nur bei 3,3/d
To be continued • Danke für´s Zuhören