1 / 57

{ Data Mining leicht gemacht - der innovative Ansatz für Data Mining von Microsoft im Überblick }

{ Data Mining leicht gemacht - der innovative Ansatz für Data Mining von Microsoft im Überblick }. Martin Vach Technologieberater Business Intelligence Microsoft Deutschland GmbH. Agenda. Einleitung - Data Mining und prediktive Analyse Umfassendes und vollständiges Angebot

garland
Download Presentation

{ Data Mining leicht gemacht - der innovative Ansatz für Data Mining von Microsoft im Überblick }

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. { Data Mining leicht gemacht- der innovative Ansatz für Data Mining von Microsoft im Überblick} Martin Vach Technologieberater Business Intelligence Microsoft Deutschland GmbH

  2. Agenda • Einleitung - Data Mining und prediktive Analyse • Umfassendes und vollständiges Angebot • SQL Server Data Mining-Plattform • Data Mining-Add-Ins für Office 2007 • Integriertes Data Mining • Einbindung und Erweiterbarkeit der Data Mining-Plattform • SQL Server 2008 Neuigkeiten im Bereich Data Mining • Zusammenfassung

  3. Agenda • Data Mining und prediktive Analyse

  4. Was ist Data Mining? • “Data Mining ist die halbautomatische Extraktion von Mustern, Änderungen, Assoziationen, Anomalien und anderen statistisch signifikanten Strukturen ausgroßen Datenmengen.” Robert Grossman • Basis sind Methoden und Verfahren aus der Statistik und der künstlichen Intelligenz (KI) • Data Mining wird oft als ein Teilgebiet von Business Intelligence betrachtet

  5. Zusammenhänge erkennen (Explorativ) Vorhersagen machen(Prediktiv) Muster finden Data - Mining Teilgebiete und Beispiele“Automatisierte Datenanalyse“ • Analytische CRM: • Kundenabwanderungs-Analysen (Churn-Analysis) • Kunden-Scoring, Potentialanalysen, Erkennung hochwertiger Kunden • Zielgruppen-Marketing: Kampagnen-Optimierung • Cross-Selling: • Web-Shop Personalisierung, Warenkorbanalyse • Aufdeckung von Anomalien und Abweichungen (Schwachstellenanalyse): • Entdeckung von Betrugsversuchen (FraudDetection) • Abweichung vom geplanten Verhalten: Prozess- und Produktionsfehler • Vorhersage von Risiken („Frühwarnsysteme“): • Versicherungs-, Kredit- oder Gesundheitsrisiken

  6. Beispiel: Clustering (Segmentierung)Kundensegmentierung, z.B. für Zielgruppen-Marketing Einteilung der Daten in homogene Gruppen, wobei die Gruppen sich möglichst stark von einander unterscheiden Alter Weiblich Männlich Sohn Tochter Eltern

  7. Beispiel: EntscheidungsbaumKaufverhalten vorhersagen Bestimmung der relevanten Einflussgrößen für eine vorherzusagende Größe (Bike Buyer Y/N)

  8. Data Mining und prediktive Analyse Eigenständigkeit der Software Prediktive Analyse Data Mining Pro-Aktiv Interaktiv OLAP Ad-Hoc Reporting Standard-Reporting Passiv Nutzen und Einsicht Präsentation Exploration Erkenntnisse

  9. { Von OLAP zu Data Mining } Demo Kundenverhalten analysieren und vorhersagen A) OLAP-Analyse B) Aufbau eines einfachen Vorhersage-Modells

  10. Agenda • Umfassendes und vollständiges Angebot • SQL Server Data Mining-Plattform

  11. Vollständige Data Mining-PlattformErfüllung aller relevanten Anforderungen Analysis Services

  12. Komfortable EntwicklungsumgebungBI Development Studio • Intuitiver Data Mining Wizard • Grafischer Data Mining Designer • visuelle & statistische Validierung • Klassifikations-Matrizen • Lift-Charts • Profit-Charts • Kreuz-Validierung • Effizienter Zugriff auf die Quelldaten • Caching • Filter • Aliasing

  13. {Vorhersagemodell Kaufverhalten, Teil 2} Demo - Modell-Validierung - Vorhersage-Query

  14. Umfangreiches Angebot an Algorithmen • Algorithmen zur Lösung typischer Geschäftsprobleme • Daten - Exploration • Warenkorbanalyse • Abwanderungsanalyse • Kundensegment Analysen • Zeitreihenanlayse (Forecast) • Unsupervised Learning • Webseiten-Analyse • Kampagnen-Analyse • Daten-Qualitäts-Fragen • Text-Analyse/Text Mining

  15. Vollständiger Satz von Algorithmen Time Series Clustering Decision Trees Naive Bayes Association Sequence Clustering Neural Net Linear Regression Logistic Regression

  16. Data Mining - Aufgaben und Algorithmen

  17. Agenda • Umfassendes und vollständiges Angebot • Data Mining-Addins für Office 2007

  18. Data Mining-Addins für Office 2007 • Kostenlose Add-Ins (Download) für Office Excel 2007, Office Visio 2007 • Voraussetzung: Server mit SQL 2005 SP2 / SQL 2008 • Neue Version für SQL Server 2008 verfügbar mit SQL 2008 RTM

  19. Verstehen der fachlichen Fragestellung Aufbereitung der Daten Modellierung Validierung Bereitstellung und Nutzung Verstehen der Datenbasis Der Data Mining Prozess und ExcelVorgehensmodell "CRISP-DM" Data www.crisp-dm.org

  20. Data Mining mit Office 2007 • Tabellenanalyse-Tool (Table Analysis) für Excel 2007 – Leicht verwendbare Assistenten für einfache Data Mining-Aufgaben • Data Mining Client für Excel 2007 – Vollständiger Entwicklungszyklus für alle Data Mining Schritte: • Daten-Aufbereitung • Modelle erstellen, auch mit Excel-Daten • Testen und Validieren der Modelle • Modelle untersuchen • Modelle verwalten • Vorhersagen machen, auch mit Excel-Daten • Data Mining Vorlagen für Visio – Darstellung von Data Mining Modellen als Visio-Objekte

  21. {Data Mining mit Excel 2007 } Demo Table Analysis Add-In - Key Influencer Data Mining Add-In - Vorhersagemodell

  22. Office-SQL Server Data Mining Architektur SQL ServerDatenbank(oderandere DBs) Excel 2007 SQL ServerAnalysis Services Add-ins Mining Models Modeling QueryExcel Data Data Data Source Server (optional) Client Server

  23. Agenda • Integriertes Data Mining

  24. Data Mining und Reporting Services • Erstellung von Berichten mit Vorhersagen mittels Data Mining-Abfragen als Datenquelle • Query-Builder für DMX-Abfragen im Report Designer verfügbar • Entwurf von Parameter-getriebenen Berichten auf Basis von Vorhersage-Wahrscheinlichkeiten • Z.B. Anzeige von Risiko-Kunden mit Abwanderungs-Wahrscheinlichkeit > 65%

  25. Nutzung von Data Mining im ETL-ProzessErweiterung der Möglichkeiten von SSIS • Lösung von ETL-Aufgaben • Markierung anormaler Daten • Klassifizierung von Kunden oder Geschäftsobjekten • Erkennung fehlender Werte • Aufbereitung von unstrukturierten Daten mittels Text Mining • ETL-Erweiterungen • Scoring (z.B. von Kunden) mittels der DM-Query-Task • Trainieren von DM-Modellen mittels der DM-Training-Destination

  26. Data Mining und OLAP-Cubes • Nutzung von OLAP-Cubes als Quelle für Data Mining • Einbinden von DM-Ergebnissen als OLAP-Dimension, z.B. Kundencluster • Nutzung von Vorhersage-Funktionen in MDX-Berechnungen und für KPI’s

  27. Data Mining und Performance ManagementIntegration mit PerformancePoint Server • Nutzung der Zeitreihen-Analyse als “Analytical View” in Dashboards • Kombination von prediktiven und historischen KPI’s für aussagekräftigere Dashboards • Vorhersage der zukünftigen Ergebnisse im Vergleich zu den Zielen zur Erkennung möglicher Herausforderungen • Analyse und Monitoring von Trends bei den Haupteinflussgrößen

  28. Agenda • Einbindung und Erweiterbarkeit der Data Mining-Plattform

  29. Erweiterbarkeit – Data Mining API’s Erweiterungen Einbindung

  30. Nutzung von Data Mining in Anwendungen„Predictive Programing“ • Einbindung von Data Mining in Business-Anwendungen mittels komfortabler API’s ?

  31. Vorhersagen mit DM-Modellen • DMX Data Mining Extensions • SQL ähnliche Sprache für Erstellung Abfrage von DM Modellen • DM-Funktionen Predict(), PredictProbability, CaseLikelihood, etc • User-definedfunctions, Parametrisierte Abfragen • DMX PredictionJoins für Vorhersagen SELECT t.ID, CPModel.Plan FROM CPModel PREDICTION JOIN OPENQUERY(…,‘SELECT * FROM NewStudents’) AS t ON CPModel.Gender = t.Gender AND CPModel.IQ = t.IQ NewStudents DM-CPModell

  32. Agenda • SQL Server 2008Neuigkeiten im Bereich Data Mining

  33. SQL Server 2008 Data MiningNeuigkeiten im Überblick • Verbesserung der Engine und der Algorithmen • Anforderungen vieler professioneller DM-Kunden • Verbesserung im Bereich Mining-Strukturen • BI Development Studio, Handhabung, Aufwand • Data Mining AddIns für Office 2007 • Durchgängige und komfortable Benutzerführung • Warenkorbanalyse • PredictionCalculator

  34. SQL Server 2008 - NeuigkeitenVerbesserung im Bereich Zeitreihen SQL Server 2005 Basis ist der ARTXP Zeitreihen-Vorhersage-Algorithmus Entwickelt von MS Research Adressiert ein Kern-Problem: suche die bestmögliche Vorhersage für den nächsten Schritt in der Serie Weniger geeignet für Langzeit-Vorhersagen SQL Server 2008 ARTXP nach wie vor verfügbar Optimal für kurzfristige Vrohersagen Zusätzlich verfügbar: ARIMA Der bekannteste und verbreiteste Zeitreihen-Algorithmus Gute Kenntnisse bei praktisch allen Data Mining-Experten Aktzeptable Vorhersagen bei Projektion auf mehr als 10 Schritte

  35. SQL Server 2008 - NeuigkeitenVerbesserungen im Bereich Mining Strukturen Aufteilung in Trainings- und Test-Partitionen Automatisch, manuell oder programmatisch Abfragen gegen Struktur-Cases und Struktur-Spalten Ermöglicht Drillthrough aus einem Cluster-Modell um zusätzliche Daten anzuzeigen, die nicht im Modell benutzt werden (z.B. eine Mail-Adresse) Filterung von Daten beim Aufbau von Modellen Beispiel: Erstelle getrennte Modelle für männliche und weibliche Kunden Erstellung nicht-kompatibler Modelle in derselben Struktur Modelle, die die kontinuierliche und die diskretisierte Version derselben Spalte nutzen, können dieselben Struktur nutzen Kreuz-Validierung (Cross-validation) Erleichtert Verstehen der Modell-Genauigkeit bzw. Modell-Güte Automatischer Test des Modell gegen mehrere Subsets von Trainingsdaten und Vergleich der Ergebnisse

  36. {Weitere Data Mining Beispiele (if we have time…)} Demo Table Analysis - Prediction Calculator Kreuz-Validierung

  37. Agenda • Zusammenfassung

  38. Data Mining Kundenbeispiele

  39. ZusammenfassungData Mining mit Microsoft • Einfacher Zugang – Erhöhung der Reichweite • Data Mining für jeden „Knowledge Worker“ • Jede Anwendung kann Data Mining nutzen durch ADOMD.NET - ohne komplexe API‘s • Anwender und Entwickler nutzen gewohnte Umgebung • Kosten und Nutzen • Attraktives Lizenzmodell - kein Lizenzkosten-KO mehr • Geringe Einstiegskosten - Schnelle Ergebnisse • Kein Data Mining mehr im „Elfenbeinturm“ • Vollständig – Integriert - Erweiterbar

  40. AsktheExperts Wir freuen uns auf Ihre Fragen: Technische Experten stehen Ihnen während der gesamten Veranstaltung in der Haupthalle zur Verfügung. Martin.Vach@microsoft.com

  41. Weitere Informationen • http://www.microsoft.com/sql/2008 • ACHTUNG: Februar CTP6 Version ist seit heute verfügbar • http://www.sqlserverdatamining.com • http://www.microsoft.com/webcasts

  42. Danke für Ihre Aufmerksamkeit !

  43. © 2007 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries. The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.

  44. Anhang 1 How to Build a Successful Predictive Analysis Project?

  45. What’s Your Problem? • Success needs… • Right problem • Right criteria • Right data • Right results • Right delivery

  46. Driven by data, or by business rules? Driven by what you know, or what you don’t know? Right Problem Is Yours a Data Mining Problem?

  47. Cross-sell and up-sell Campaign management Customer acquisition Budget and forecasting Customer retention Right Problem The Top 5 Business Scenarios

  48. Right Problem Scenarios, Tasks and Techniques • Define scenarios by Data Mining tasks to be performed • Classification • Estimation • Prediction • Association • Clustering • Define tasks by techniques to be used • The algorithms used to build models

  49. Right Problem From Scenarios to Tasks

  50. Right Problem From Tasks to Techniques

More Related