570 likes | 1.33k Views
{ Data Mining leicht gemacht - der innovative Ansatz für Data Mining von Microsoft im Überblick }. Martin Vach Technologieberater Business Intelligence Microsoft Deutschland GmbH. Agenda. Einleitung - Data Mining und prediktive Analyse Umfassendes und vollständiges Angebot
E N D
{ Data Mining leicht gemacht- der innovative Ansatz für Data Mining von Microsoft im Überblick} Martin Vach Technologieberater Business Intelligence Microsoft Deutschland GmbH
Agenda • Einleitung - Data Mining und prediktive Analyse • Umfassendes und vollständiges Angebot • SQL Server Data Mining-Plattform • Data Mining-Add-Ins für Office 2007 • Integriertes Data Mining • Einbindung und Erweiterbarkeit der Data Mining-Plattform • SQL Server 2008 Neuigkeiten im Bereich Data Mining • Zusammenfassung
Agenda • Data Mining und prediktive Analyse
Was ist Data Mining? • “Data Mining ist die halbautomatische Extraktion von Mustern, Änderungen, Assoziationen, Anomalien und anderen statistisch signifikanten Strukturen ausgroßen Datenmengen.” Robert Grossman • Basis sind Methoden und Verfahren aus der Statistik und der künstlichen Intelligenz (KI) • Data Mining wird oft als ein Teilgebiet von Business Intelligence betrachtet
Zusammenhänge erkennen (Explorativ) Vorhersagen machen(Prediktiv) Muster finden Data - Mining Teilgebiete und Beispiele“Automatisierte Datenanalyse“ • Analytische CRM: • Kundenabwanderungs-Analysen (Churn-Analysis) • Kunden-Scoring, Potentialanalysen, Erkennung hochwertiger Kunden • Zielgruppen-Marketing: Kampagnen-Optimierung • Cross-Selling: • Web-Shop Personalisierung, Warenkorbanalyse • Aufdeckung von Anomalien und Abweichungen (Schwachstellenanalyse): • Entdeckung von Betrugsversuchen (FraudDetection) • Abweichung vom geplanten Verhalten: Prozess- und Produktionsfehler • Vorhersage von Risiken („Frühwarnsysteme“): • Versicherungs-, Kredit- oder Gesundheitsrisiken
Beispiel: Clustering (Segmentierung)Kundensegmentierung, z.B. für Zielgruppen-Marketing Einteilung der Daten in homogene Gruppen, wobei die Gruppen sich möglichst stark von einander unterscheiden Alter Weiblich Männlich Sohn Tochter Eltern
Beispiel: EntscheidungsbaumKaufverhalten vorhersagen Bestimmung der relevanten Einflussgrößen für eine vorherzusagende Größe (Bike Buyer Y/N)
Data Mining und prediktive Analyse Eigenständigkeit der Software Prediktive Analyse Data Mining Pro-Aktiv Interaktiv OLAP Ad-Hoc Reporting Standard-Reporting Passiv Nutzen und Einsicht Präsentation Exploration Erkenntnisse
{ Von OLAP zu Data Mining } Demo Kundenverhalten analysieren und vorhersagen A) OLAP-Analyse B) Aufbau eines einfachen Vorhersage-Modells
Agenda • Umfassendes und vollständiges Angebot • SQL Server Data Mining-Plattform
Vollständige Data Mining-PlattformErfüllung aller relevanten Anforderungen Analysis Services
Komfortable EntwicklungsumgebungBI Development Studio • Intuitiver Data Mining Wizard • Grafischer Data Mining Designer • visuelle & statistische Validierung • Klassifikations-Matrizen • Lift-Charts • Profit-Charts • Kreuz-Validierung • Effizienter Zugriff auf die Quelldaten • Caching • Filter • Aliasing
{Vorhersagemodell Kaufverhalten, Teil 2} Demo - Modell-Validierung - Vorhersage-Query
Umfangreiches Angebot an Algorithmen • Algorithmen zur Lösung typischer Geschäftsprobleme • Daten - Exploration • Warenkorbanalyse • Abwanderungsanalyse • Kundensegment Analysen • Zeitreihenanlayse (Forecast) • Unsupervised Learning • Webseiten-Analyse • Kampagnen-Analyse • Daten-Qualitäts-Fragen • Text-Analyse/Text Mining
Vollständiger Satz von Algorithmen Time Series Clustering Decision Trees Naive Bayes Association Sequence Clustering Neural Net Linear Regression Logistic Regression
Agenda • Umfassendes und vollständiges Angebot • Data Mining-Addins für Office 2007
Data Mining-Addins für Office 2007 • Kostenlose Add-Ins (Download) für Office Excel 2007, Office Visio 2007 • Voraussetzung: Server mit SQL 2005 SP2 / SQL 2008 • Neue Version für SQL Server 2008 verfügbar mit SQL 2008 RTM
Verstehen der fachlichen Fragestellung Aufbereitung der Daten Modellierung Validierung Bereitstellung und Nutzung Verstehen der Datenbasis Der Data Mining Prozess und ExcelVorgehensmodell "CRISP-DM" Data www.crisp-dm.org
Data Mining mit Office 2007 • Tabellenanalyse-Tool (Table Analysis) für Excel 2007 – Leicht verwendbare Assistenten für einfache Data Mining-Aufgaben • Data Mining Client für Excel 2007 – Vollständiger Entwicklungszyklus für alle Data Mining Schritte: • Daten-Aufbereitung • Modelle erstellen, auch mit Excel-Daten • Testen und Validieren der Modelle • Modelle untersuchen • Modelle verwalten • Vorhersagen machen, auch mit Excel-Daten • Data Mining Vorlagen für Visio – Darstellung von Data Mining Modellen als Visio-Objekte
{Data Mining mit Excel 2007 } Demo Table Analysis Add-In - Key Influencer Data Mining Add-In - Vorhersagemodell
Office-SQL Server Data Mining Architektur SQL ServerDatenbank(oderandere DBs) Excel 2007 SQL ServerAnalysis Services Add-ins Mining Models Modeling QueryExcel Data Data Data Source Server (optional) Client Server
Agenda • Integriertes Data Mining
Data Mining und Reporting Services • Erstellung von Berichten mit Vorhersagen mittels Data Mining-Abfragen als Datenquelle • Query-Builder für DMX-Abfragen im Report Designer verfügbar • Entwurf von Parameter-getriebenen Berichten auf Basis von Vorhersage-Wahrscheinlichkeiten • Z.B. Anzeige von Risiko-Kunden mit Abwanderungs-Wahrscheinlichkeit > 65%
Nutzung von Data Mining im ETL-ProzessErweiterung der Möglichkeiten von SSIS • Lösung von ETL-Aufgaben • Markierung anormaler Daten • Klassifizierung von Kunden oder Geschäftsobjekten • Erkennung fehlender Werte • Aufbereitung von unstrukturierten Daten mittels Text Mining • ETL-Erweiterungen • Scoring (z.B. von Kunden) mittels der DM-Query-Task • Trainieren von DM-Modellen mittels der DM-Training-Destination
Data Mining und OLAP-Cubes • Nutzung von OLAP-Cubes als Quelle für Data Mining • Einbinden von DM-Ergebnissen als OLAP-Dimension, z.B. Kundencluster • Nutzung von Vorhersage-Funktionen in MDX-Berechnungen und für KPI’s
Data Mining und Performance ManagementIntegration mit PerformancePoint Server • Nutzung der Zeitreihen-Analyse als “Analytical View” in Dashboards • Kombination von prediktiven und historischen KPI’s für aussagekräftigere Dashboards • Vorhersage der zukünftigen Ergebnisse im Vergleich zu den Zielen zur Erkennung möglicher Herausforderungen • Analyse und Monitoring von Trends bei den Haupteinflussgrößen
Agenda • Einbindung und Erweiterbarkeit der Data Mining-Plattform
Erweiterbarkeit – Data Mining API’s Erweiterungen Einbindung
Nutzung von Data Mining in Anwendungen„Predictive Programing“ • Einbindung von Data Mining in Business-Anwendungen mittels komfortabler API’s ?
Vorhersagen mit DM-Modellen • DMX Data Mining Extensions • SQL ähnliche Sprache für Erstellung Abfrage von DM Modellen • DM-Funktionen Predict(), PredictProbability, CaseLikelihood, etc • User-definedfunctions, Parametrisierte Abfragen • DMX PredictionJoins für Vorhersagen SELECT t.ID, CPModel.Plan FROM CPModel PREDICTION JOIN OPENQUERY(…,‘SELECT * FROM NewStudents’) AS t ON CPModel.Gender = t.Gender AND CPModel.IQ = t.IQ NewStudents DM-CPModell
Agenda • SQL Server 2008Neuigkeiten im Bereich Data Mining
SQL Server 2008 Data MiningNeuigkeiten im Überblick • Verbesserung der Engine und der Algorithmen • Anforderungen vieler professioneller DM-Kunden • Verbesserung im Bereich Mining-Strukturen • BI Development Studio, Handhabung, Aufwand • Data Mining AddIns für Office 2007 • Durchgängige und komfortable Benutzerführung • Warenkorbanalyse • PredictionCalculator
SQL Server 2008 - NeuigkeitenVerbesserung im Bereich Zeitreihen SQL Server 2005 Basis ist der ARTXP Zeitreihen-Vorhersage-Algorithmus Entwickelt von MS Research Adressiert ein Kern-Problem: suche die bestmögliche Vorhersage für den nächsten Schritt in der Serie Weniger geeignet für Langzeit-Vorhersagen SQL Server 2008 ARTXP nach wie vor verfügbar Optimal für kurzfristige Vrohersagen Zusätzlich verfügbar: ARIMA Der bekannteste und verbreiteste Zeitreihen-Algorithmus Gute Kenntnisse bei praktisch allen Data Mining-Experten Aktzeptable Vorhersagen bei Projektion auf mehr als 10 Schritte
SQL Server 2008 - NeuigkeitenVerbesserungen im Bereich Mining Strukturen Aufteilung in Trainings- und Test-Partitionen Automatisch, manuell oder programmatisch Abfragen gegen Struktur-Cases und Struktur-Spalten Ermöglicht Drillthrough aus einem Cluster-Modell um zusätzliche Daten anzuzeigen, die nicht im Modell benutzt werden (z.B. eine Mail-Adresse) Filterung von Daten beim Aufbau von Modellen Beispiel: Erstelle getrennte Modelle für männliche und weibliche Kunden Erstellung nicht-kompatibler Modelle in derselben Struktur Modelle, die die kontinuierliche und die diskretisierte Version derselben Spalte nutzen, können dieselben Struktur nutzen Kreuz-Validierung (Cross-validation) Erleichtert Verstehen der Modell-Genauigkeit bzw. Modell-Güte Automatischer Test des Modell gegen mehrere Subsets von Trainingsdaten und Vergleich der Ergebnisse
{Weitere Data Mining Beispiele (if we have time…)} Demo Table Analysis - Prediction Calculator Kreuz-Validierung
Agenda • Zusammenfassung
ZusammenfassungData Mining mit Microsoft • Einfacher Zugang – Erhöhung der Reichweite • Data Mining für jeden „Knowledge Worker“ • Jede Anwendung kann Data Mining nutzen durch ADOMD.NET - ohne komplexe API‘s • Anwender und Entwickler nutzen gewohnte Umgebung • Kosten und Nutzen • Attraktives Lizenzmodell - kein Lizenzkosten-KO mehr • Geringe Einstiegskosten - Schnelle Ergebnisse • Kein Data Mining mehr im „Elfenbeinturm“ • Vollständig – Integriert - Erweiterbar
AsktheExperts Wir freuen uns auf Ihre Fragen: Technische Experten stehen Ihnen während der gesamten Veranstaltung in der Haupthalle zur Verfügung. Martin.Vach@microsoft.com
Weitere Informationen • http://www.microsoft.com/sql/2008 • ACHTUNG: Februar CTP6 Version ist seit heute verfügbar • http://www.sqlserverdatamining.com • http://www.microsoft.com/webcasts
© 2007 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries. The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.
Anhang 1 How to Build a Successful Predictive Analysis Project?
What’s Your Problem? • Success needs… • Right problem • Right criteria • Right data • Right results • Right delivery
Driven by data, or by business rules? Driven by what you know, or what you don’t know? Right Problem Is Yours a Data Mining Problem?
Cross-sell and up-sell Campaign management Customer acquisition Budget and forecasting Customer retention Right Problem The Top 5 Business Scenarios
Right Problem Scenarios, Tasks and Techniques • Define scenarios by Data Mining tasks to be performed • Classification • Estimation • Prediction • Association • Clustering • Define tasks by techniques to be used • The algorithms used to build models
Right Problem From Scenarios to Tasks
Right Problem From Tasks to Techniques