430 likes | 511 Views
Data Mining in Weblog Files. Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890} Email: schommer@de.ibm.com Internet: http://www.ibm.com/de/entwicklung/biwizards/. Agenda. Positionierungen Begriffsklärungen
E N D
Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890} Email: schommer@de.ibm.com Internet: http://www.ibm.com/de/entwicklung/biwizards/
Agenda • Positionierungen • Begriffsklärungen • Am Anfang sind Daten (Beispiel) • Evaluierungen (Beispiele) • Plädoyer für Mining
1. Positionierung – Domäne Chat Login als Premium User Werden Sie Premium User! Kaufen Sie ein!
1. Positionierung – Domäne Premium User OnLine Shopping
1. Positionierung – Interessen • User: Suche nach gewünschten Artikeln wird zunehmend einfacher • User: bessere Vergleichsmöglichkeiten • User: bequemeres Bestellen, schnelleres Liefern • User: Datenschutz muss vorhanden sein • User: sicherer Datentransfer muss vorhanden sein • Anbieter: Angebot an Produkten, Services, etc. • Anbieter: Verbesserung der Servicequalität • Anbieter: Reduktion von Kosten für bekannte User durch OnLine Shop z.B. durch Marketing Kampagnen
Agenda • Positionierungen • Begriffsklärungen • Am Anfang sind Daten (Beispiel) • Evaluierungen (Beispiele) • Plädoyer für Mining
2. Begriffsklärungen – Data Mining Definition: Data Mining ist die effiziente Suche nach verborgenen, aber nützlichen Informationen in grossenDatenbanken, deren Visualisierung und Interpretation
2. Begriffsklärungen – Data Mining Bekannte + unbekannte Informationen Bekannte Informationen + Verification- Driven SQL, OnLine Analytical Processing (OLAP) data-driven Data Mining
2. Begriffsklärungen – Data Mining Sport … und viele mehr Börse Medizin Banken Internet Versand Handel Biologie Call Center Kreditkarten Versicherungen Manufacturing Chemie Lotterie
Selektieren Trans- formieren Schürfen Visualisieren Interpretieren 2. Begriffsklärungen – Data Mining Workflow:
2. Begriffsklärungen – Data Mining • Link Structure Design • Cross Selling Activities • Click Stream Analysis
2. Begriffsklärungen – Aufgaben • Customer Profiling • Scoring Modeling
Data Warehouse 2. Begriffsklärungen – Data Mining • Data Collecting • Aufbau von Data Marts • Data Cleaning • Missing values Behandlung • Data Coding • ... Selektieren Transformieren
2. Begriffsklärungen – Data Mining Descriptive Verfahren, z.B.: Clustering Assoziationsanalyse Sequentielle Mustersuche Zeitreihenanalyse Prädiktive Verfahren, z.B.: Schürfen Classification Tree Radial Basis Functions
2. Begriffsklärungen – Data Mining numerisch Visualisieren Interpretieren kategorisch
2. Begriffsklärungen – Internet TCP = Transmission Control Protocol: erlaubt den Austausch von Daten über Netzwerke hinweg IP = Internet Protocol, z.B. 9.164.181.132 141.2.1.1 = hera 9.164.181.132 = goldmine Router
# Netscape HTTP Cookie File .excite.com TRUE / FALSE 946641600 U_ID_1 867CE396354734CB.preferences.com TRUE / FALSE 1182140421 ... 2. Begriffsklärungen - Internet Cookie: serverseitiger Dienst, der beim WWW-Client Informationen hinterlegt. Cookie wurde durch einen HTTP-header oder JavaScript gesetzt Domäne des Cookie Cookie ist verschlüsselt/nicht verschlüsselt Verfallszeitpunkt - Zeitraum in Sekunden seit dem 1. Jan 1970 GMT Name des Cookie Jede Seite in excite.com kann diesen cookie zugreifen/nutzen
client IP 9.164.181.132 delimiter - var.auth-user - SYSDATE [15/Sep/1998:13:59:06 +0200] Req->reqb.clf-request "Get /cgi-bin/areas/area.cgi? aid=2348347295&siid=142&filialid=0 HTTP/1.0" srvhdrs.clf-status 200 srvhdrs.content-length 7114 Req->headers.referrer "http://www.--.--/cgi-bin/bereiche/area.cgi?siid=142" headers.user-agent "Mozilla/4.0[de]C-DT (Win95;I)" headers.cookie visitor=guest980915235405061176; 2. Begriffsklärungen - Internet IP-Adresse des Users Log File: Zugriffsdatum und –zeit HTTP Request Weblog Mining: + Marketing Daten + Web Meta Daten 200 = Success 300 = Redirect 400 = Failure 500 = Server Errors Übertragene Bytes
Weblog Mining Transaktionsbasierte Analyse Kundenspezifierte Analyse 2. Begriffsklärung – Weblog Mining
Agenda • Positionierungen • Begriffsklärungen • Am Anfang sind Daten (Beispiel) • Evaluierungen (Beispiele) • Plädoyer für Mining
3. Am Anfang sind Daten music.html ?siid=150 &aid=122 living.html ?siid=100 &aid=97 music.html ?siid=150 &aid=111 living.html ?siid=112 &aid=97 Problem: u.U. viele WWW-Seiten
3. Am Anfang sind Daten music.html living.html Taxonomie I ... ... music.html ?siid=150 &aid=111 ... ... living.html ?siid=112 &aid=97 living.html ?siid=100 &aid=97 music.html ?siid=150 &aid=122 Lösung: Reduktion durch Generalisierung (1)
3. Am Anfang sind Daten email.html Eine Email senden chat.html mit anderen Premium User chatten competition.html Am PREMIUM USER GAME teilnehmen postcards.html Virtuelle Postkarten versenden info.html Infos über das Sortiment anfordern womens-fashion.html Kleider für Frauen/Mädchen living.html Sortiment: Bad travel.html Reiseseite für Premium User travel2.html Reiseseite für „Normale User“ ...
COMMUNICATION email.html chat.html 3. Am Anfang sind Daten COMMUNICATION email.html, chat.html. FUN competition.html, postcards.html, INFO info.html, help.html. SHOPPING womens-fashion.html, living-html, ... ... Taxonomie II Lösung: Reduktion durch Generalisierung (2)
client IP 9.164.181.132 delimiter - var.auth-user - SYSDATE [15/Sep/1998:13:59:06 +0200] Req->reqb.clf-request "Get /cgi-bin/areas/area.cgi? aid=2348347295&siid=142&filialid=0 HTTP/1.0" srvhdrs.clf-status 200 srvhdrs.content-length 7114 Req->headers.referrer "http://www.--.--/cgi-bin/bereiche/area.cgi?siid=142" headers.user-agent "Mozilla/4.0[de]C-DT (Win95;I)" headers.cookie visitor=guest980915235405061176; 3. Am Anfang sind Daten Transactional Data Mart Jeder Record = Aktion des Users
client IP 9.164.181.132 delimiter - var.auth-user - SYSDATE [15/Sep/1998:13:59:06 +0200] Req->reqb.clf-request "Get /cgi-bin/areas/area.cgi? aid=2348347295&siid=142&filialid=0 HTTP/1.0" srvhdrs.clf-status 200 srvhdrs.content-length 7114 Req->headers.referrer "http://www.--.--/cgi-bin/bereiche/area.cgi?siid=142" headers.user-agent "Mozilla/4.0[de]C-DT (Win95;I)" headers.cookie visitor=guest980915235405061176; 3. Am Anfang sind Daten Customer Data Mart (Premium User) Jeder Record = Auf User aggregiert
Agenda • Positionierungen • Begriffsklärungen • Am Anfang sind Daten (Beispiel) • Evaluierungen (Beispiele) • Plädoyer für Mining
4. Evaluierungsbeispiele Konfirmatives Beispiel (1)
4. Evaluierungsbeispiele Konfirmatives Beispiel (2)
4. Evaluierungsbeispiele Exploratives Beispiel (1) Relative Häufigkeit (Quantität) Relative Abweichung Bedingte Wsk (Qualität)
4. Evaluierungsbeispiele Exploratives (Konfirmativ) Beispiel (2)
4. Evaluierungsbeispiele • 37.931% aller User besuchen zuerst [FUN], dann [COMMUNICATION], dann [SHOPPING], dann [COMMUNICATION] Exploratives Beispiel (3)
Shopping Ist hoch Cluster Shopping Ist gering Anzahl in % der Kunden Im Cluster Exploratives Beispiel (4)
Hoher Umsatz Viel Shopping Eher männlich Wenig Kommunikation Wenig Fun Eher älter Von Region 4 oder 6 Umsatzcluster
Eher weiblich Viel Kommunikation Wenig Shopping Unterhaltungs- cluster Geringer Umsatz Von Region 5 oder 8 Eher jünger Viel Fun
= hat nicht gekauft = hat gekauft Exploratives Beispiel (5)
Agenda • Positionierungen • Begriffsklärungen • Das Problem mit den Daten (Beispiel) • Evaluierungen (Beispiele) • Plädoyer für Mining
5. Plädoyer Werden Sie jetzt (noch) in OnLine Shops einkaufen?
5. Plädoyer Für das Unternehmen • Erhöhung des Umsatzes • ... Für den Kunden • Gezielte Beratung • ...
5. Plädoyer Für das Unternehmen • Schaffung zusätzlicher Kapazitäten am WE • Erhöhung des Angebots während der Woche • ... Für den Kunden • Schnellere Verfügbarkeit • ...
5. Plädoyer Für das Unternehmen • Reduktion der Werbekosten durch spezielleres Marketing • Stärkere Personalisierung von Web-seiten • ... Unterhaltungs- cluster Für den Kunden • Stärkere Berücksichtigung eigener Interessen • ... Umsatzcluster
5. Plädoyer Für das Unternehmen • Schnellere Reaktionszeit, falls Kunde wechselt • ...
Vielen Dank für Ihre Aufmersamkeit!