1 / 43

Data Mining in Weblog Files

Data Mining in Weblog Files. Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890} Email: schommer@de.ibm.com Internet: http://www.ibm.com/de/entwicklung/biwizards/. Agenda. Positionierungen Begriffsklärungen

yagil
Download Presentation

Data Mining in Weblog Files

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890} Email: schommer@de.ibm.com Internet: http://www.ibm.com/de/entwicklung/biwizards/

  2. Agenda • Positionierungen • Begriffsklärungen • Am Anfang sind Daten (Beispiel) • Evaluierungen (Beispiele) • Plädoyer für Mining

  3. 1. Positionierung – Domäne Chat Login als Premium User Werden Sie Premium User! Kaufen Sie ein!

  4. 1. Positionierung – Domäne Premium User OnLine Shopping

  5. 1. Positionierung – Interessen • User: Suche nach gewünschten Artikeln wird zunehmend einfacher • User: bessere Vergleichsmöglichkeiten • User: bequemeres Bestellen, schnelleres Liefern • User: Datenschutz muss vorhanden sein • User: sicherer Datentransfer muss vorhanden sein • Anbieter: Angebot an Produkten, Services, etc. • Anbieter: Verbesserung der Servicequalität • Anbieter: Reduktion von Kosten für bekannte User durch OnLine Shop z.B. durch Marketing Kampagnen

  6. Agenda • Positionierungen • Begriffsklärungen • Am Anfang sind Daten (Beispiel) • Evaluierungen (Beispiele) • Plädoyer für Mining

  7. 2. Begriffsklärungen – Data Mining Definition: Data Mining ist die effiziente Suche nach verborgenen, aber nützlichen Informationen in grossenDatenbanken, deren Visualisierung und Interpretation

  8. 2. Begriffsklärungen – Data Mining Bekannte + unbekannte Informationen Bekannte Informationen + Verification- Driven SQL, OnLine Analytical Processing (OLAP) data-driven Data Mining

  9. 2. Begriffsklärungen – Data Mining Sport … und viele mehr Börse Medizin Banken Internet Versand Handel Biologie Call Center Kreditkarten Versicherungen Manufacturing Chemie Lotterie

  10. Selektieren Trans- formieren Schürfen Visualisieren Interpretieren 2. Begriffsklärungen – Data Mining Workflow:

  11. 2. Begriffsklärungen – Data Mining • Link Structure Design • Cross Selling Activities • Click Stream Analysis

  12. 2. Begriffsklärungen – Aufgaben • Customer Profiling • Scoring Modeling

  13. Data Warehouse 2. Begriffsklärungen – Data Mining • Data Collecting • Aufbau von Data Marts • Data Cleaning • Missing values Behandlung • Data Coding • ... Selektieren Transformieren

  14. 2. Begriffsklärungen – Data Mining Descriptive Verfahren, z.B.: Clustering Assoziationsanalyse Sequentielle Mustersuche Zeitreihenanalyse Prädiktive Verfahren, z.B.: Schürfen Classification Tree Radial Basis Functions

  15. 2. Begriffsklärungen – Data Mining numerisch Visualisieren Interpretieren kategorisch

  16. 2. Begriffsklärungen – Internet TCP = Transmission Control Protocol: erlaubt den Austausch von Daten über Netzwerke hinweg IP = Internet Protocol, z.B. 9.164.181.132 141.2.1.1 = hera 9.164.181.132 = goldmine Router

  17. # Netscape HTTP Cookie File .excite.com TRUE / FALSE 946641600 U_ID_1 867CE396354734CB.preferences.com TRUE / FALSE 1182140421 ... 2. Begriffsklärungen - Internet Cookie: serverseitiger Dienst, der beim WWW-Client Informationen hinterlegt. Cookie wurde durch einen HTTP-header oder JavaScript gesetzt Domäne des Cookie Cookie ist verschlüsselt/nicht verschlüsselt Verfallszeitpunkt - Zeitraum in Sekunden seit dem 1. Jan 1970 GMT Name des Cookie Jede Seite in excite.com kann diesen cookie zugreifen/nutzen

  18. client IP 9.164.181.132 delimiter - var.auth-user - SYSDATE [15/Sep/1998:13:59:06 +0200] Req->reqb.clf-request "Get /cgi-bin/areas/area.cgi? aid=2348347295&siid=142&filialid=0 HTTP/1.0" srvhdrs.clf-status 200 srvhdrs.content-length 7114 Req->headers.referrer "http://www.--.--/cgi-bin/bereiche/area.cgi?siid=142" headers.user-agent "Mozilla/4.0[de]C-DT (Win95;I)" headers.cookie visitor=guest980915235405061176; 2. Begriffsklärungen - Internet IP-Adresse des Users Log File: Zugriffsdatum und –zeit HTTP Request Weblog Mining: + Marketing Daten + Web Meta Daten 200 = Success 300 = Redirect 400 = Failure 500 = Server Errors Übertragene Bytes

  19. Weblog Mining Transaktionsbasierte Analyse Kundenspezifierte Analyse 2. Begriffsklärung – Weblog Mining

  20. Agenda • Positionierungen • Begriffsklärungen • Am Anfang sind Daten (Beispiel) • Evaluierungen (Beispiele) • Plädoyer für Mining

  21. 3. Am Anfang sind Daten music.html ?siid=150 &aid=122 living.html ?siid=100 &aid=97 music.html ?siid=150 &aid=111 living.html ?siid=112 &aid=97 Problem: u.U. viele WWW-Seiten

  22. 3. Am Anfang sind Daten music.html living.html Taxonomie I ... ... music.html ?siid=150 &aid=111 ... ... living.html ?siid=112 &aid=97 living.html ?siid=100 &aid=97 music.html ?siid=150 &aid=122 Lösung: Reduktion durch Generalisierung (1)

  23. 3. Am Anfang sind Daten email.html Eine Email senden chat.html mit anderen Premium User chatten competition.html Am PREMIUM USER GAME teilnehmen postcards.html Virtuelle Postkarten versenden info.html Infos über das Sortiment anfordern womens-fashion.html Kleider für Frauen/Mädchen living.html Sortiment: Bad travel.html Reiseseite für Premium User travel2.html Reiseseite für „Normale User“ ...

  24. COMMUNICATION email.html chat.html 3. Am Anfang sind Daten COMMUNICATION email.html, chat.html. FUN competition.html, postcards.html, INFO info.html, help.html. SHOPPING womens-fashion.html, living-html, ... ... Taxonomie II Lösung: Reduktion durch Generalisierung (2)

  25. client IP 9.164.181.132 delimiter - var.auth-user - SYSDATE [15/Sep/1998:13:59:06 +0200] Req->reqb.clf-request "Get /cgi-bin/areas/area.cgi? aid=2348347295&siid=142&filialid=0 HTTP/1.0" srvhdrs.clf-status 200 srvhdrs.content-length 7114 Req->headers.referrer "http://www.--.--/cgi-bin/bereiche/area.cgi?siid=142" headers.user-agent "Mozilla/4.0[de]C-DT (Win95;I)" headers.cookie visitor=guest980915235405061176; 3. Am Anfang sind Daten Transactional Data Mart Jeder Record = Aktion des Users

  26. client IP 9.164.181.132 delimiter - var.auth-user - SYSDATE [15/Sep/1998:13:59:06 +0200] Req->reqb.clf-request "Get /cgi-bin/areas/area.cgi? aid=2348347295&siid=142&filialid=0 HTTP/1.0" srvhdrs.clf-status 200 srvhdrs.content-length 7114 Req->headers.referrer "http://www.--.--/cgi-bin/bereiche/area.cgi?siid=142" headers.user-agent "Mozilla/4.0[de]C-DT (Win95;I)" headers.cookie visitor=guest980915235405061176; 3. Am Anfang sind Daten Customer Data Mart (Premium User) Jeder Record = Auf User aggregiert

  27. Agenda • Positionierungen • Begriffsklärungen • Am Anfang sind Daten (Beispiel) • Evaluierungen (Beispiele) • Plädoyer für Mining

  28. 4. Evaluierungsbeispiele Konfirmatives Beispiel (1)

  29. 4. Evaluierungsbeispiele Konfirmatives Beispiel (2)

  30. 4. Evaluierungsbeispiele Exploratives Beispiel (1) Relative Häufigkeit (Quantität) Relative Abweichung Bedingte Wsk (Qualität)

  31. 4. Evaluierungsbeispiele Exploratives (Konfirmativ) Beispiel (2)

  32. 4. Evaluierungsbeispiele • 37.931% aller User besuchen zuerst [FUN], dann [COMMUNICATION], dann [SHOPPING], dann [COMMUNICATION] Exploratives Beispiel (3)

  33. Shopping Ist hoch  Cluster Shopping Ist gering Anzahl in % der Kunden Im Cluster Exploratives Beispiel (4)

  34. Hoher Umsatz Viel Shopping Eher männlich Wenig Kommunikation Wenig Fun Eher älter Von Region 4 oder 6 Umsatzcluster

  35. Eher weiblich Viel Kommunikation Wenig Shopping Unterhaltungs- cluster Geringer Umsatz Von Region 5 oder 8 Eher jünger Viel Fun

  36. = hat nicht gekauft = hat gekauft Exploratives Beispiel (5)

  37. Agenda • Positionierungen • Begriffsklärungen • Das Problem mit den Daten (Beispiel) • Evaluierungen (Beispiele) • Plädoyer für Mining

  38. 5. Plädoyer Werden Sie jetzt (noch) in OnLine Shops einkaufen?

  39. 5. Plädoyer Für das Unternehmen • Erhöhung des Umsatzes • ... Für den Kunden • Gezielte Beratung • ...

  40. 5. Plädoyer Für das Unternehmen • Schaffung zusätzlicher Kapazitäten am WE • Erhöhung des Angebots während der Woche • ... Für den Kunden • Schnellere Verfügbarkeit • ...

  41. 5. Plädoyer Für das Unternehmen • Reduktion der Werbekosten durch spezielleres Marketing • Stärkere Personalisierung von Web-seiten • ... Unterhaltungs- cluster Für den Kunden • Stärkere Berücksichtigung eigener Interessen • ... Umsatzcluster

  42. 5. Plädoyer Für das Unternehmen • Schnellere Reaktionszeit, falls Kunde wechselt • ...

  43. Vielen Dank für Ihre Aufmersamkeit!

More Related