1.18k likes | 1.45k Views
Web Mining. Inhaltsverzeichnis. Was ist Web Mining – Theoretische Einführung Tools Anwendungsbeispiele. Was ist Web Mining – Theoretische Einführung. Einleitung Web Mining Strategien Informationsbedarf im E-Business Informationsgewinnung durch Web Mining Richtungen des Web Mining
E N D
Inhaltsverzeichnis • Was ist Web Mining – Theoretische Einführung • Tools • Anwendungsbeispiele
Was ist Web Mining – Theoretische Einführung • Einleitung • Web Mining Strategien • Informationsbedarf im E-Business • Informationsgewinnung durch Web Mining • Richtungen des Web Mining • Web Mining Methoden • Web Mining-Prozess
Einleitung Web = Datenbank Structure Content Logs Leider versteht das Internet kein SQL
Einleitung (1) • Web Mining ist Anwendung von Data Mining Methoden auf Datenstrukturen des Internet • Analyse von Online-Kundeninformationen hat wichtige Bedeutung • Wissen über Kunden und deren Bedürfnisse • Erkenntnisse über Gestaltung von Internetauftritten • Personalisierung von Seiteninhalten • Kaufwahrscheinlichkeiten • Identifizierung von Bewegungspfaden und Kaufmuster
Web Mining Strategien • Verstehen, was die Besucher wollen • Vorhersagen, wie sie sich verhalten sollen • In Echtzeit anwenden, was man über die Kunden weiss
Informationsbedarf im E-Business (1) • Trotz riesigen Investitionen wurden Erwartungen nicht erfüllt • Viele gescheiterte Online Projekte • Zahl der Internetteilnehmer steigt noch immer an, aber nur der Traffic bedeutet kein Erfolg massgebend ist eher die Intensität der Kundenbeziehung • Nur Bruchteil der Kunden sind Wiederholungskäufer • Grosse Kosten für Neugewinnung von Kunden (150 – 300$)
Informationsbedarf im E-Business (2) • Unternehmen versuchen Kundenbeziehungen im Internet zu intensivieren CRM (Customer Relationship Management) • Grundlage für erfolgreiches Management der Kundenbeziehung ist das Wissen über die Kunden und ihre Bedürfnisse • Grundsätzlich haben Betreiber von Internetangeboten nur wenige Informationen über Online Besucher und die Wirkung ihres Internetauftrittes • Es stellen sich aus diesen Gründen interessante Fragen:
Informationsbedarf im E-Business (3)Fragen über Fragen • Zusammensetzung der Besucher • Wie viele Besucher erhält meine Seite? Woher kommen sie? Wie lange bleiben sie? • Wie sehen die typischen Bewegungspfade aus? Wie lassen sich diese Verbessern? • An welcher Stelle verlassen die Besucher meine Seite und warum? Welche Profile haben meine wichtigsten Kundensegmente • Wirkung von Online Werbung • Welche Werbebanner erwecken das meiste Interesse bzw. führen zu Käufen? • An welche Stelle sollen die Banner platziert werden? Welche Partner generieren die meisten Besucher? • Wie lange bleiben die Besucher und wie viele kaufen etwas?
Informationsbedarf im E-Business (4) Fragen über Fragen • Bewertung der Seiteninhalte • Für welche Inhalte interessieren sich die einzelne Kundensegmente? • Welche Inhalte werden weniger beachtet und warum? • Wie lässt sich eine Personalisierung der Inhalte erreichen/verbessern? • Online-Kaufverhalten der Besucher • Wie unterscheiden sich Besucher von Käufern? • Was machen die Besucher bevor sie etwas einkaufen? • Welches Verhalten auf der Site lässt auf Wiederholungskäufe schliessen?
Informationsgewinnung durch Web Mining (1) Es gibt verschiedene Möglichkeiten Wissen über die Nutzung und die Nutzer der Webseiten zu generieren • In erster Linie werden deskriptive Statistiken (Logfile-Analyse) erstellt. • Diese liefern erste wichtige Anhaltspunkte zur Nutzung der Site – liefern aber keine Informationen zur individuellen Verhaltensweise und Interessen der Online-Nutzer. • Insbesondere sind diese nicht in der Lage Muster in den Nutzungsdaten aufzufinden • Aber gerade die Muster sind von hoher Bedeutung für die Informationsgewinnung!
Informationsgewinnung durch Web Mining (2) • Es müssen automatische Mustererkennungsverfahren (Data Mining) angewendet werden um aus den Daten Informationen über die Besucher einer Web Site zu gewinnen • Zur Unterstützung derartiger Analysen gibt es verschiedenartige Softwarelösungen. Anfänglich waren diese nur für die deskriptive Analyse von Logdateien geeignet • Heute existieren Datamining Toos die spezielle Funktionalitäten für Web-Mining besitzten.
Richtungen des Web Mining (1) • Web Mining bezeichnet die allgemeine Anwendung von Verfahren des Data Mining auf Datenstrukturen des Internet
Richtungen des Web Mining (2) Web Content Mining • Befasst sich mit der Analyse des Inhaltes von Webseiten und kann diese klassifizieren • Seiten können damit für die weitere Analyse zu Gruppen zusammengefasst werden • Zielsetzung: • Erleichterung der Suche nach Informationen im Netz • Aufgabe: • Klassifizierung und Gruppierung von Online-Dokumenten • Auffindung von Dokumenten nach bestimmten Suchbegriffe • Kommen insbesondere Verfahren des Text Mining zum Einsatz
Richtungen des Web Mining (3) Web Structure Mining • Untersucht die Anordnung einzelner Elemente innerhalb einer Webseite • Untersucht die Anordnung verschiedener Seiten zueinander • Interessant sind Verweise von einer Webseite auf andere, häufig inhaltlich verwandte Webseiten, mit Hilfe von Hyperlinks • Hilft Überblick über Sitestruktur und die Anordnung der einzelnen Seiten zueinander zu gewinnen, um auf dieser Basis das Bewegungsverhalten der Nutzer im Netz nachvollziehen zu können
Richtungen des Web Mining (4) Web Usage Mining • Beschäftigt sich mit dem Verhalten von Internet-Nutzern • Es werden Data Mining Methoden auf die Logfiles des Webservers angewendet. • Ergibt Aufschlüsse über Verhaltensmuster und Interessen von Online Kunden • Web Log Mining Analyse beschränkt sich auf Analyse des Logfiles • Integrated Web Usage Mining es werden noch weitere Daten wie Registrierungsdaten, Kaufhistorie etc. verwendet
Richtungen des Web Mining (5) Probleme mit Web Server Logs / Ereignisse • Aktionen des Servers und nicht des Besuchers • IP Adressen sind (noch) nicht einzigartig • Seite besteht oft aus mehreren Objekten mehrere Zugriffe Logs müssen bearbeitet werden Wichtige Ereignisse die für Web Mining wichtig sind: • Erstbesuch • Anschauen von Produktinformationen • Registrierungen müssen clever gemacht sein • Downloads • Suchabfragen • Sachen in Einkaufswagen legen • Seite verlassen
Webminig Techniken (1) • Clustern / Segmentierung • Unterschiedliche Gruppe von Kunden und Besuchern • Warenkorbanalyse • Assoziationen zwischen Produkten und Dienstleistungen • Sequenzanalysen • Pfade, Muster über Zeit, Bestellung • Klassifikation und Vorhersage • Spezielle Verhaltensmuster, Profile
Webminig Techniken (2)Clustern / Segmentierung Identifikation grundlegender Kundenbedürfnisse • Clusteranalyse, Neuronale Netze • Identifikaton von Kunden mit ähnlichem Verhalten • Modellierung der besten Kunden nach Lifetime, Value, Profitabilität und Kaufverhalten • Wer kündigt bzw. kauft nicht mehr und warum • Entwicklung von Key-Content • Effektivere Positionierung des Contents
Webminig Techniken (3)Warenkorbanalyse Effektiveres Cross-Selling • Analyse spezieller Zusammenhänge zwischen Produkten und Dienstleistungen (zB. Notebook und Garantieverlängerung) • Aufdecken von Trends und Beziehungen zwischen Webseiten und Produkten • Empfehlung der Produkte, die am wahrscheinlichsten gekauft werden (zB. Bei Amazon)
Webminig Techniken (4)Sequenzanalysen Den richtigen Content zur richtigen Zeit anbieten • Eine der häufigsten Frage im Web Mining: Welche Seiten werden in welcher Reihenfolge besucht? • Modellieren, in welche Produkte und Dienstleistungen in einer Sequenz erworben werden. • Welche Sequenzen führen zum Kaufabbruch? • Welche Sequenzen sind typisch für Hacker oder für betrügerisches Verhalten (Schwachstellen erkennen)
Webminig Techniken (5)Klassifikation und Vorhersage Profitabilität durch Personalisierung • Entscheidungsbaum, künstliche Neuronale Netze • Erforschen komplexes Kaufverhalten • Wie wahrscheinlich ist es, dass eine Person: • Antwortet • Kauft • Mehr ausgibt • Nicht mehr kauft • Voraussagen von Verhalten proaktives Handeln!
Web Mining-Prozess (1) Aufgaben- definition Daten- Auswahl Daten- Aufbereitung Daten- Integration Muster- Suche Interpretation und Umsetzung
Web Mining-Prozess (2) • Aufgabendefinition • Wichtig ist, dass zuerst genau spezifiziert wird • Datenauswahl • Erhebung der Internetnutzungsdaten • Ev. weitere Kundendaten • zB. Logfiles, Cookies, Server-, Networkmonitor/Sniffer • Datenschutz • Datenaufbereitung • Preprocessing • Identifikation von Seitenaufrufen (Frames) • Identifikation von Besuchern • Identifikation von Sessions
Web Mining-Prozess (3) • Datenintegration • Einbeziehen von Zusatzinformationen zB. Benutzerdaten, Kundenstammdaten, Transaktionsdaten etc. • Datenschutz! • Mustersuche • Anwendung der Data Mining Methoden • Interpretation und Umsetzung • Webcontrolling Verschiedene Kennzahlen • Website Optimierung • Personalisierung von Webseiten
Web Mining Software und Dienstleistungen im Vergleich • Typische Fragestellungen der Betreiber • Produktekategorien • Analog • SAS • WebHound • Enterprise Miner • Data Warehousing • SPSS • Clementine • Tools im Einsatz • Bewertung
Arten des Web Mining Dieser Vergleich behandelt das Web Usage Mining. Also das Auswerten von Web Server Log Files, um Bewegungen der Benutzer, auf einer Web Site, zu analysieren. Web Mining Web Content Mining Web Structure Mining Web Usage Mining Web Log Mining Integrated Web Usage Mining
Typische Fragestellungen der Web-Site Betreiber • Log File Statistik • Erweiterung um einfache Analyse • Genaue Analyse der Benutzer
Log File Statistik · Welche Seiten sind besonders beliebt/attraktiv? · Woher kommen die User (Länder/Regionen)? · Wann kommen die User? · Welcher Browser, welches Betriebssystem wird verwendet? · Von welcher Web-Site kommen die User auf die Site (Suchmaschine, Werbung, Konkurrenz)? · Wie gut ist die Performance meines Web-Servers? · Welche Suchwörter führen, über welche Suchmaschinen, auf meine Seite?
Erweiterung um einfache Analyse · Welche Seiten haben welche Verweildauer (stickiness)? · Welche Seiten führen zum Verlassen der Site (Exit-Pages)? · Welche Seiten sind beliebt, welche sollten entfernt werden? · Wer kommt auf meine Seite? · Wie ist die Wirtschaftlichkeit der Seite? · Welche meiner Banner sind die profitabelsten? · Wie wirken meine Kampagnen? (Z.B. Banner-Werbung bei einem Web-Portal) · Wie wirken sich Veränderungen der Web-Site aus?
Genaue Analyse der Benutzer · Was für ein Profil haben User die bei mir einkaufen? · Welchen Pfad durch die Seiten nehmen Besucher, die zum Kauf kommen? · Haben die Kunden Probleme beim Abschluss des Kaufs?
Produktkategorien Unter dem Begriff Web Mining Software werden eine Reihe verschiedenartiger Produkte angeboten. Grob lassen sie sich wie folgt unterteilen: · Web-Traffic Analyse-Programme · Programme mit zusätzlicher Data Mining Funktionalität
Analog • Analog gehört zu den ältesten Log File Analysern. • Das Programm erzeugt keine Besucher und Session Statistiken. • Bedienung und Installation lassen sich mit guten IT Kenntnissen problemlos meistern. • Analog ist frei erhältlich.
SAS • Besteht aus mehreren Komponenten: • WebHound • Enterprise Miner • Data Warehousing
SAS WebHound • Der SAS WebHound ist der neueste Bestandteil von SAS eIntelligence. • WebHound ist für das Einlesen von Web Log Files ins Data Warehouse verantwortlich. • Er stellt außerdem eine umfangreiche Reporting-Funktion zur Verfügung. • Für das eigentliche Data Mining wird der SAS Enterprise Miner benötigt. • Der WebHound ist auch als stand alone Produkt erhältlich (mit SAS Base und anderen nötigen Paketen). • Angesichts des Preises, ist er allerdings wohl nur in einer SAS Umgebung sinnvoll.
SAS WebHound • Einlese Prozess der Log Dateien kann parallelisiert werden. • Explizit für grosse Datenmengen ausgelegt. • Auf Wunsch können nur relevante Daten aus den Log Dateien extrahiert werden.
SAS Enterprise Miner • Enterprise Miner ist das eigentliche Data Mining Tool der SAS • Beinhaltet: • SEMMA, eigenes verfahren für die Data Mining Anwendung • Nahtlose Integration von Data Warehousing und Reporting Funktionalitäten • Daten Visualisierung, Untersuchung und Bearbeitung.
SAS Data Warehousing • Data Warehousing bietet: • Daten Gewinnung • Transparenter Zugriff mittels ERP Systemen, hierarchischen oder relationalen Datenbanken. • Daten Zugriff • Zugriff auf alle Funktionen per Programmiersprache möglich (Java/C++) • Daten Aufbewahrung • SAS Tabellen • Scalable Performance Data Server (SPDS) • hierarchische oder relationale Datenbanken.
Clementine von SPSS • Clementine stammt ursprünglich von der Firma ISL. Diese wurde 1998 von SPSS aufgekauft. • Clementine ist neben SAS sicherlich eines der großen Standard Tools für Data Mining. • Beide wurden um Web Mining Funktionen erweitert. • Die Web Mining Funktionen werden durch das „Application Template Web Mining“ (WebCAT) zur Verfügung gestellt.
Clementine von SPSS • Die Version 6 bedient sich immer noch der bewährten X-Window Umgebung unter Exceed kein Windows Client • Bedienung geht nach einem Workflow Prinzip, ähnlich wie bei SAS
Web Mining mit WUM • Was ist WUM? • Einsatz von WUM • Demo
Web Utilization Mining - WUM • Analyse der Web-Nutzung: • Aufbereitung des Web-Server-Logs • Einsetzen der Data-Mining-Software • Eine Methodik der Analyse • Erfolgskontrolle für kommerzielle Web-Sites die mit WUM angewendet wird, um den Erfolg einer Web-Site zu messen und zu erhöhen
Web Utilization Mining • Die Muster des Nutzerverhaltens werden anhand einer informationsreichen Graphstruktur dargestellt, die konventionelle Sequenzen generalisiert, aber nicht durch Sequenz-Mining zu ermitteln ist. • Eine ausdrucksstarke Mining-Anfragesprache unterstützt die Spezifizierung von statistischen und strukturellen Einschränkungen, um den Prozess der Musterentdeckung zu steuern.