Problemstellungen

Techniken des Maschinellen Lernens für “Data Mining”Ian Witten, Eibe Frank(übersetzt von Norbert Fuhr)

1 Problemstellungen • Data vs. Information • Data Mining und Maschinelles Lernen • Strukturelle Beschreibungen • Regeln: Klassifikation und Assoziation • Entscheidungsbäume • Datensätze • Wetter, Kontaktlinsen, CPU-Performance, Tarifverhandlungen, Klassifikation von Sojabohnen • Feldstudien • Kreditanträge, Bildanalyse, Lastvorhersage, Diagnose von Maschinenfehlern, Warenkorbanalyse • Generalisierung als Suche • Data Mining und Ethik

1 Daten vs. Information • Unsere Gesellschaft produziert riesige Datenmengen • Quellen: Naturwissenschaften, Medizin, Wirtschaft, Geografie, Umwelt, Sport, … • Potenziell wertvolle Ressourcen • Rohdaten sind nutzlos: Techniken zur automatischen Extraktion von Information benötigt: • Daten: aufgezeichnete Fakten • Information: den Daten zugrundeliegende Muster

Information ist entscheidend • Beispiel 1: künstliche Befruchtung • Gegeben: Embryonen, beschrieben durch 60 Merkmale • Problem: Auswahl der Embryonen, die überleben werden • Daten: gesammelte Fakten über bisherig Embryonen und deren Schicksal • Beispiel 2: Haltung von Milchkühen • Gegeben: Kühe, beschrieben durch 700 Merkmale • Probleme: Auswahl der Kühe, die geschlachtet werden sollten • Daten: Aufzeichnungen über Kühe in den zurückliegenden Jahren und die Entscheidungen der Bauern

Data Mining • Extraktion von • impliziter, • bislang unbekannter, • potenziell nützlicher Information aus Daten • Gesucht: Programme, die Muster und Regularitäten in den Daten entdecken • Ausgeprägte Muster können für Vorhersagen genutzt werden: • Problem 1: Die meisten Muster sind uninteressant • Problem 2: Muster können unscharf sein (oder extrem fragwürdig), falls die Daten unvollständig oder fehlerhaft sind

Techniken des Maschinellen Lernens • Technische Basis für Data Mining: Algorithmen zum Lernen von strukturellen Beschreibungen aus Beispielen • Strukturelle Beschreibungen repräsentieren implizit Muster: • Nutzung zur Vorhersage in neuen Situationen • Nutzung, um die Vorhersage zu verstehen und zur Erklärung des Zustandekommens der Vorhersage (evtl. sogar wichtiger) • Methoden stammen aus der künstlichen Intelligenz, Statistik und der Datenbank-forschung

Strukturelle Beschreibungen • Beispiel: Wenn-Dann-Regeln

Schwierig zu messen Trivial für Computer • Operationale Definition: Wesen lernen, wenn sie ihr Verhalten in einer Weise so ändern, dass sie in Zukunft erfolgreicher agieren Lernt ein Schuh? • Muss Lernen bewusst erfolgen? Können Maschinen lernen? • Lexikon-Definition von “Lernen”: Wissen sammeln durch Studium, Erfahrung, oder durch einen Lehrer Bewusst werden durch Informieren oder durch Beobachtung Im Gedächtnis abspeichern Informiert werden, sich vergewissern, Anleitung erhalten

Das Wetterproblem • Bedingungen, um ein unspezifiziertes Spiel zu spielen:

Ross Quinlan • Machine learning researcher from 1970’s • University of Sydney, Australia 1986 “Induction of decision trees” ML Journal 1993 C4.5: Programs for machine learning. Morgan Kaufmann 199? Started

Klassifikations- vs. Assoziationsregeln • Klassifikationsregeln:Vorhersage des Wertes einer spezifischen Attributs (die Klassifikation des Beispiels) • Assoziationsregeln:Vorhersage des Wertes eines beliebigen Attributs, oder einer Attributkombination

Wetterdaten mit gemischten Attributen • Zwei Attribute mit numerischen Werten

Die Kontaktlinsen-Daten

Eine vollständige und korrekte Regelmenge

Ein Entscheidungsbaum für dasselbe Problem

Klassifikation von Irisblumen

Vorhersage der CPU-Performanz • Beispiele: 209 verschiedene Computer-Konfigurationen • Lineare Regressionsfunktion

Daten aus Tarifverhandlungen

Entscheidungs-bäume für die Tarifdaten

Klassifikation von Sojabohnen

Die Rolle von Domänenwissen Aber (bei dieser Anwendung): “leaf condition is normal” impliziert “leaf malformation is absent”!

Feld-Anwendungen • Das Lernergebnis oder die Lernmethode selbst wird in praktischen Anwendungen eingesetzt • Reduzierung der Verzögerungen beim Rotationsdruck • Formgebung von Flugzeugteilen • Automatische Klassifikation von Flugobjekten • Automatische Vervollständigung von sich wiederholenden Formularen • Text-Retrieval • …

Entscheidung von Kreditanträgen • Gegeben: Fragebogen mit Angaben zur Person und deren finanzielle Situation • Problem: soll der Kredit gewährt werden? • Einfache statistische Methode deckt 90% aller Fälle ab • Aber: 50% aller Grenzfälle führen zu Kreditausfällen • Lösung(?): alle Grenzfälle zurückweisen • Nein! Grenzfälle gehören zu den umsatzstärksten Kunden

Anwendung von maschinellem Lernen • 1000 Trainingsbeispiele für Grenzfälle • 20 Attribute: • Alter, • Beschäftigungsdauer beim aktuellen Arbeitgeber, • Wohndauer an der gegenwärtigen Adresse, • Dauer der Kundenbeziehung zur Bank, • andere gewährte Kredite, … • Gelernte Regelmenge sagt 2/3 der Grenzfälle korrekt voraus! • Außerdem: Firma mag die Regeln, da sie benutzt werden können, um den Kunden gegenüber die Kreditentscheidung zu erläutern

Analyse von Luftbildern • Gegeben: Satellitenbilder von Küstengewässern • Problem: Auffinden von Ölflecken in diesen Bildern • Ölflecken erscheinen als dunkle Regionen unterschiedlicher Größe und Gestalt • Schwierigkeit: ähnliche dunkle Flecken können durch bestimmte Wetterbedingungen verursacht werden (z.B. starke Winde) • Aufwändige Analyse, erfordert lange geschultes Personal

Anwendung von maschinellem Lernen • Dunkle Regionen werden aus normalisierten Bildern extrahiert • Attribute: • Größe der Region, Gestalt, Fläche, Intensität, • Schärfe und Zackung der Grenzen, • Nähe zu anderen Regionen, • Informationen über den Hintergrund • Randbedingungen: • Wenige Trainingsbeispiele (Ölflecken treten selten auf) • Unbalancierte Daten: die meisten dunklen Regionen sind keine Ölflecken • Regionen aus einem Bild werden gemeinsam prozessiert • Anforderung: einstellbare Quote für Fehlalarme

Last-Vorhersage • Elektrizitätswerke benötigen Vorhersagen über den zukünftigen Energiebedarf zu bestimmten Zeitpunkten • Präzise Vorhersagen über die minimale und die maximale Last innerhalb jeder Stunde führen zu beachtlichen Einsparungen • Gegeben: manuell konstruiertes statisches Modell, das “normale” Wetterbedingungen voraussetzt • Problem: Anpassung an konkrete Wetterbedingungen • Parameter des statischen Modells: • Grundlast im laufenden Jahr, • Jahreszeitliche Lastschwankungen, • Einfluss von Feiertagen

Anwendung von maschinellem Lernen • verbesserte Vorhersage durch Suche nach den “ähnlichsten Tagen” • Attribute: • Temperatur, • Luftfeuchtigkeit, • Windgeschwindigkeit, • Bewölkungsgrad, • zusätzlich Differenz zwischen tatsächlicher und vorhergesagter Last • Zum statischen Modell wird mittlere Differenz der drei ähnlichsten Tage addiert • Koeffizienten der linearen Regressions-funktion stellen Attributgewichtungen in der Ähnlichkeitsfunktion dar

Diagnose von Maschinenausfällen • Diagnose: klassisches Anwendungsgebiet der Expertensysteme • Gegeben: Fourier-Analyse von Vibrationen an verschiedenen Stellen des Gehäuses • Problem: Welcher Fehler liegt vor? • Vorbeugende Wartung der elektromechanischen Motoren und Generatoren • Daten sind stark verrauscht • Bisher: Diagnose durch Experten/manuell erstellte Regeln

Anwendung von maschinellem Lernen • Ausgangsdaten: 600 Fehler mit Expertendiagnosen • ~300 ungeeignet, restliche Fälle als Trainingsmenge genutzt • Attribute angereichert um höhere Konzepte, die kausales Domänenwissen repräsentieren • Experte unzufrieden mit den initialen Regeln, da sie sich nicht auf sein Anwendungswissen bezogen • Weiteres Hintergrundwissen führte zu komplexeren Regeln, die zufriedenstellend waren • Gelernte Regeln besser als die manuell erstellten

Marketing und Verkauf I • Firmen sammeln große Mengen an Verkaufs- und Marketingdaten • Mögliche Anwendungen: • Kundentreue: Identifikation von Kunden, die potenziell bald “abspringen”, durch Erkennen von Änderungen in deren Verhalten (z.B. Banken, Telefongesellschaften) • Spezielle Angebote: Identifikation von profitablen Kunden (z.B. zuverlässige Kunden von Kreditkartenunternehmen, die ein höheres Limit in der Urlaubszeit benötigen)

Marketing und Verkauf II • Warenkorb-Analyse • Assoziationstechniken, um Gruppen von Waren zu finden, die häufig zusammen gekauft werden • Analyse von Einkaufsmustern in der Vergangenheit • Identifikation von guten Kunden • Fokussierung von Werbesendungen (gezielte Kampagnen sind billiger als Massen-Werbesendungen)

Maschinelles Lernen und Statistik • Historische Unterschiede (vereinfacht): • Statistik: Hypothesen-Tests • Maschinelles Lernen: Suche nach den richtigen Hypothesen • Aber: große Überlappungen • Entscheidungsbäume (C4.5 und CART) • Nächster-Nachbar-Methoden • Heute: ähnliche Ziele • Die meisten ML-Algorithmen benutzen statistische Techniken

Statisticians • Sir Ronald Aylmer Fisher • Born: 17 Feb 1890 London, EnglandDied: 29 July 1962 Adelaide, Australia • Numerous distinguished contributions to developing the theory and application of statistics for making quantitative a vast field of biology • Leo Breiman • Developed decision trees • 1984 Classification and Regression Trees. Wadsworth.

Generalisierung als Suche • Induktives Lernen: Suche nach einer Konzeptbeschreibung, die zu den Daten passt • Beispiel: Regelmenge als Beschreibungssprache • Riesiger, aber endlicher Suchraum • Einfache Lösung: • Aufzählen der Elemente des Konzeptraums • Eliminieren aller Beschreibungen, die nicht zu den Beispielen passen • Verbleibende Beschreibung stellt das gesuchte Konzept dar

Aufzählen der Elemente des Konzeptraums • Suchraum für das Wetterproblem: • 4 x 4 x 3 x 3 x 2 = 288 mögliche Regeln • Beschränkung auf maximal 14 Regeln in der Beschreibung  2.7x1034 mögliche Regelmengen • Möglicher Ausweg: Algorithmus zur Eliminierung von Kandidaten • Weitere praktische Probleme: • Mehr als eine Beschreibung kann übrig bleiben • Keine Beschreibung bleibt übrig • Beschreibungssprache ist ungeeignet, um das Zielkonzept zu beschreiben • Daten können verrauscht sein

Der Versionsraum • Raum von konsistenten Konzeptbeschreibungen • Komplett bestimmt durch 2 Mengen: • L: spezifischste Beschreibungen, die alle positiven und keine negativen Beispiele abdecken • G: generellste Beschreibungen, die keine negativen und alle positiven Beispiele abdecken • Nur L und G müssen verwaltet und aktualisiert werden • Aber: immer noch hoher Berechnungsaufwand • Und: löst die anderen praktischen Problem nicht

Versionsraum: Beispiel • Gegeben: Rote oder grüne Kühe oder Hühner

Algorithmus zur Kandidaten-Eliminierung

Bias (systematische Fehler) • Die wichtigsten Entscheidungen in Lernsystemen: • Konzept-Beschreibungssprache • Reihenfolge, in der der Raum durchsucht wird • Vermeidung der Überadaption an die Trainingsdaten • Diese Eigenschaften bestimmen den “Bias” der Suche • Beschreibungssprachen-Bias • Such-Bias • Überadaptions-Vermeidungs-Bias

Beschreibungssprachen-Bias • Wichtigste Frage: • Ist die Sprache universell oder beschränkt sie das zu Lernende? • Universelle Sprache kann beliebige Teilmengen der Beispiele beschreiben • Wenn die Sprache die Oder-Verknüpfung von Aussagen zulässt, ist sie universell • Domänenwissen kann benutzt werden, um einige Konzeptbeschreibungen von vornherein von der Suche auszuschließen

Such-Bias • Such-Heuristik • “Greedy”-Suche: wähle jeweils den besten Einzelschritt aus • “Beam”-Suche: Behalte mehrere Alternativen im Auge • … • Richtung der Suche • Vom Allgemeinen zum Speziellen • Z.B. Spezialisieren einer Regel durch Hinzufügen von Bedingungen • Vom Speziellen zum Allgemeinen • Z.B. Generalisierung einer einzelnen Instanz zu einer Regel

Überadaptions-Vermeidungs-Bias • Kann als Teil des Such-Bias gesehen werden • Modifiziertes Bewertungskriterium • Z.B. Balance zwischen Einfachheit und Fehleranzahl • Modifizierte Suchstrategie • Z.B. Pruning (Vereinfachen einer Beschreibung) • Pre-Pruning: Stoppt bei einer einfachen Beschreibung, bevor übermäßig komplexe Beschreibungen generiert werden • Post-Pruning: Generiert zunächst eine komplexe Beschreibung, die anschließend vereinfacht wird

Data Mining und Ethik I • Viele ethische Fragen werden bei praktischen Anwendungen aufgeworfen • Data Mining wird oft zur Diskriminierung benutzt • Z.B. Kreditanträge: Berücksichtigung bestimmter Attribute (z.B. Geschlecht, Rasse, Religion) ist unethisch • Die Frage der Ethik ist anwendungsabhängig • z.B. ist die Verwendung obiger Attribute in medizinischen Anwendungen ok • Attribute können problematische Informationen beinhalten • Z.B. kann die Postleitzahl mit der Rasse korrelieren

Data Mining und Ethik II • Wichtige Fragen in praktischen Anwendungen: • Wer hat Zugriff auf die Daten? • Für welchen Zweck wurden die Daten gesammelt • Welche Schlüsse können legitimerweise daraus gezogen werden? • Ergebnisse müssen unter Vorbehalt betrachtet werden • Rein statistische Argumente sind nie ausreichend! • Werden Ressourcen sinnvoll verwendet?

Problemstellungen

Problemstellungen

Presentation Transcript

Geschäftsprozessmanagement in KMU Problemstellungen und Lösungsansätze

Armut und Pflege Zusammenhänge, Problemstellungen, Best Practice Beispiele

Einführung in die spezifischen Zielgruppen, Problemstellungen und Handlungsfelder der HP