450 likes | 597 Views
Techniken des Maschinellen Lernens für “Data Mining” Ian Witten, Eibe Frank (übersetzt von Norbert Fuhr). 1. Problemstellungen. Data vs. Information Data Mining und Maschinelles Lernen Strukturelle Beschreibungen Regeln: Klassifikation und Assoziation Entscheidungsbäume Datensätze
E N D
Techniken des Maschinellen Lernens für “Data Mining”Ian Witten, Eibe Frank(übersetzt von Norbert Fuhr)
1 Problemstellungen • Data vs. Information • Data Mining und Maschinelles Lernen • Strukturelle Beschreibungen • Regeln: Klassifikation und Assoziation • Entscheidungsbäume • Datensätze • Wetter, Kontaktlinsen, CPU-Performance, Tarifverhandlungen, Klassifikation von Sojabohnen • Feldstudien • Kreditanträge, Bildanalyse, Lastvorhersage, Diagnose von Maschinenfehlern, Warenkorbanalyse • Generalisierung als Suche • Data Mining und Ethik
1 Daten vs. Information • Unsere Gesellschaft produziert riesige Datenmengen • Quellen: Naturwissenschaften, Medizin, Wirtschaft, Geografie, Umwelt, Sport, … • Potenziell wertvolle Ressourcen • Rohdaten sind nutzlos: Techniken zur automatischen Extraktion von Information benötigt: • Daten: aufgezeichnete Fakten • Information: den Daten zugrundeliegende Muster
Information ist entscheidend • Beispiel 1: künstliche Befruchtung • Gegeben: Embryonen, beschrieben durch 60 Merkmale • Problem: Auswahl der Embryonen, die überleben werden • Daten: gesammelte Fakten über bisherig Embryonen und deren Schicksal • Beispiel 2: Haltung von Milchkühen • Gegeben: Kühe, beschrieben durch 700 Merkmale • Probleme: Auswahl der Kühe, die geschlachtet werden sollten • Daten: Aufzeichnungen über Kühe in den zurückliegenden Jahren und die Entscheidungen der Bauern
Data Mining • Extraktion von • impliziter, • bislang unbekannter, • potenziell nützlicher Information aus Daten • Gesucht: Programme, die Muster und Regularitäten in den Daten entdecken • Ausgeprägte Muster können für Vorhersagen genutzt werden: • Problem 1: Die meisten Muster sind uninteressant • Problem 2: Muster können unscharf sein (oder extrem fragwürdig), falls die Daten unvollständig oder fehlerhaft sind
Techniken des Maschinellen Lernens • Technische Basis für Data Mining: Algorithmen zum Lernen von strukturellen Beschreibungen aus Beispielen • Strukturelle Beschreibungen repräsentieren implizit Muster: • Nutzung zur Vorhersage in neuen Situationen • Nutzung, um die Vorhersage zu verstehen und zur Erklärung des Zustandekommens der Vorhersage (evtl. sogar wichtiger) • Methoden stammen aus der künstlichen Intelligenz, Statistik und der Datenbank-forschung
Strukturelle Beschreibungen • Beispiel: Wenn-Dann-Regeln
Schwierig zu messen Trivial für Computer • Operationale Definition: Wesen lernen, wenn sie ihr Verhalten in einer Weise so ändern, dass sie in Zukunft erfolgreicher agieren Lernt ein Schuh? • Muss Lernen bewusst erfolgen? Können Maschinen lernen? • Lexikon-Definition von “Lernen”: Wissen sammeln durch Studium, Erfahrung, oder durch einen Lehrer Bewusst werden durch Informieren oder durch Beobachtung Im Gedächtnis abspeichern Informiert werden, sich vergewissern, Anleitung erhalten
Das Wetterproblem • Bedingungen, um ein unspezifiziertes Spiel zu spielen:
Ross Quinlan • Machine learning researcher from 1970’s • University of Sydney, Australia 1986 “Induction of decision trees” ML Journal 1993 C4.5: Programs for machine learning. Morgan Kaufmann 199? Started
Klassifikations- vs. Assoziationsregeln • Klassifikationsregeln:Vorhersage des Wertes einer spezifischen Attributs (die Klassifikation des Beispiels) • Assoziationsregeln:Vorhersage des Wertes eines beliebigen Attributs, oder einer Attributkombination
Wetterdaten mit gemischten Attributen • Zwei Attribute mit numerischen Werten
Vorhersage der CPU-Performanz • Beispiele: 209 verschiedene Computer-Konfigurationen • Lineare Regressionsfunktion
Die Rolle von Domänenwissen Aber (bei dieser Anwendung): “leaf condition is normal” impliziert “leaf malformation is absent”!
Feld-Anwendungen • Das Lernergebnis oder die Lernmethode selbst wird in praktischen Anwendungen eingesetzt • Reduzierung der Verzögerungen beim Rotationsdruck • Formgebung von Flugzeugteilen • Automatische Klassifikation von Flugobjekten • Automatische Vervollständigung von sich wiederholenden Formularen • Text-Retrieval • …
Entscheidung von Kreditanträgen • Gegeben: Fragebogen mit Angaben zur Person und deren finanzielle Situation • Problem: soll der Kredit gewährt werden? • Einfache statistische Methode deckt 90% aller Fälle ab • Aber: 50% aller Grenzfälle führen zu Kreditausfällen • Lösung(?): alle Grenzfälle zurückweisen • Nein! Grenzfälle gehören zu den umsatzstärksten Kunden
Anwendung von maschinellem Lernen • 1000 Trainingsbeispiele für Grenzfälle • 20 Attribute: • Alter, • Beschäftigungsdauer beim aktuellen Arbeitgeber, • Wohndauer an der gegenwärtigen Adresse, • Dauer der Kundenbeziehung zur Bank, • andere gewährte Kredite, … • Gelernte Regelmenge sagt 2/3 der Grenzfälle korrekt voraus! • Außerdem: Firma mag die Regeln, da sie benutzt werden können, um den Kunden gegenüber die Kreditentscheidung zu erläutern
Analyse von Luftbildern • Gegeben: Satellitenbilder von Küstengewässern • Problem: Auffinden von Ölflecken in diesen Bildern • Ölflecken erscheinen als dunkle Regionen unterschiedlicher Größe und Gestalt • Schwierigkeit: ähnliche dunkle Flecken können durch bestimmte Wetterbedingungen verursacht werden (z.B. starke Winde) • Aufwändige Analyse, erfordert lange geschultes Personal
Anwendung von maschinellem Lernen • Dunkle Regionen werden aus normalisierten Bildern extrahiert • Attribute: • Größe der Region, Gestalt, Fläche, Intensität, • Schärfe und Zackung der Grenzen, • Nähe zu anderen Regionen, • Informationen über den Hintergrund • Randbedingungen: • Wenige Trainingsbeispiele (Ölflecken treten selten auf) • Unbalancierte Daten: die meisten dunklen Regionen sind keine Ölflecken • Regionen aus einem Bild werden gemeinsam prozessiert • Anforderung: einstellbare Quote für Fehlalarme
Last-Vorhersage • Elektrizitätswerke benötigen Vorhersagen über den zukünftigen Energiebedarf zu bestimmten Zeitpunkten • Präzise Vorhersagen über die minimale und die maximale Last innerhalb jeder Stunde führen zu beachtlichen Einsparungen • Gegeben: manuell konstruiertes statisches Modell, das “normale” Wetterbedingungen voraussetzt • Problem: Anpassung an konkrete Wetterbedingungen • Parameter des statischen Modells: • Grundlast im laufenden Jahr, • Jahreszeitliche Lastschwankungen, • Einfluss von Feiertagen
Anwendung von maschinellem Lernen • verbesserte Vorhersage durch Suche nach den “ähnlichsten Tagen” • Attribute: • Temperatur, • Luftfeuchtigkeit, • Windgeschwindigkeit, • Bewölkungsgrad, • zusätzlich Differenz zwischen tatsächlicher und vorhergesagter Last • Zum statischen Modell wird mittlere Differenz der drei ähnlichsten Tage addiert • Koeffizienten der linearen Regressions-funktion stellen Attributgewichtungen in der Ähnlichkeitsfunktion dar
Diagnose von Maschinenausfällen • Diagnose: klassisches Anwendungsgebiet der Expertensysteme • Gegeben: Fourier-Analyse von Vibrationen an verschiedenen Stellen des Gehäuses • Problem: Welcher Fehler liegt vor? • Vorbeugende Wartung der elektromechanischen Motoren und Generatoren • Daten sind stark verrauscht • Bisher: Diagnose durch Experten/manuell erstellte Regeln
Anwendung von maschinellem Lernen • Ausgangsdaten: 600 Fehler mit Expertendiagnosen • ~300 ungeeignet, restliche Fälle als Trainingsmenge genutzt • Attribute angereichert um höhere Konzepte, die kausales Domänenwissen repräsentieren • Experte unzufrieden mit den initialen Regeln, da sie sich nicht auf sein Anwendungswissen bezogen • Weiteres Hintergrundwissen führte zu komplexeren Regeln, die zufriedenstellend waren • Gelernte Regeln besser als die manuell erstellten
Marketing und Verkauf I • Firmen sammeln große Mengen an Verkaufs- und Marketingdaten • Mögliche Anwendungen: • Kundentreue: Identifikation von Kunden, die potenziell bald “abspringen”, durch Erkennen von Änderungen in deren Verhalten (z.B. Banken, Telefongesellschaften) • Spezielle Angebote: Identifikation von profitablen Kunden (z.B. zuverlässige Kunden von Kreditkartenunternehmen, die ein höheres Limit in der Urlaubszeit benötigen)
Marketing und Verkauf II • Warenkorb-Analyse • Assoziationstechniken, um Gruppen von Waren zu finden, die häufig zusammen gekauft werden • Analyse von Einkaufsmustern in der Vergangenheit • Identifikation von guten Kunden • Fokussierung von Werbesendungen (gezielte Kampagnen sind billiger als Massen-Werbesendungen)
Maschinelles Lernen und Statistik • Historische Unterschiede (vereinfacht): • Statistik: Hypothesen-Tests • Maschinelles Lernen: Suche nach den richtigen Hypothesen • Aber: große Überlappungen • Entscheidungsbäume (C4.5 und CART) • Nächster-Nachbar-Methoden • Heute: ähnliche Ziele • Die meisten ML-Algorithmen benutzen statistische Techniken
Statisticians • Sir Ronald Aylmer Fisher • Born: 17 Feb 1890 London, EnglandDied: 29 July 1962 Adelaide, Australia • Numerous distinguished contributions to developing the theory and application of statistics for making quantitative a vast field of biology • Leo Breiman • Developed decision trees • 1984 Classification and Regression Trees. Wadsworth.
Generalisierung als Suche • Induktives Lernen: Suche nach einer Konzeptbeschreibung, die zu den Daten passt • Beispiel: Regelmenge als Beschreibungssprache • Riesiger, aber endlicher Suchraum • Einfache Lösung: • Aufzählen der Elemente des Konzeptraums • Eliminieren aller Beschreibungen, die nicht zu den Beispielen passen • Verbleibende Beschreibung stellt das gesuchte Konzept dar
Aufzählen der Elemente des Konzeptraums • Suchraum für das Wetterproblem: • 4 x 4 x 3 x 3 x 2 = 288 mögliche Regeln • Beschränkung auf maximal 14 Regeln in der Beschreibung 2.7x1034 mögliche Regelmengen • Möglicher Ausweg: Algorithmus zur Eliminierung von Kandidaten • Weitere praktische Probleme: • Mehr als eine Beschreibung kann übrig bleiben • Keine Beschreibung bleibt übrig • Beschreibungssprache ist ungeeignet, um das Zielkonzept zu beschreiben • Daten können verrauscht sein
Der Versionsraum • Raum von konsistenten Konzeptbeschreibungen • Komplett bestimmt durch 2 Mengen: • L: spezifischste Beschreibungen, die alle positiven und keine negativen Beispiele abdecken • G: generellste Beschreibungen, die keine negativen und alle positiven Beispiele abdecken • Nur L und G müssen verwaltet und aktualisiert werden • Aber: immer noch hoher Berechnungsaufwand • Und: löst die anderen praktischen Problem nicht
Versionsraum: Beispiel • Gegeben: Rote oder grüne Kühe oder Hühner
Bias (systematische Fehler) • Die wichtigsten Entscheidungen in Lernsystemen: • Konzept-Beschreibungssprache • Reihenfolge, in der der Raum durchsucht wird • Vermeidung der Überadaption an die Trainingsdaten • Diese Eigenschaften bestimmen den “Bias” der Suche • Beschreibungssprachen-Bias • Such-Bias • Überadaptions-Vermeidungs-Bias
Beschreibungssprachen-Bias • Wichtigste Frage: • Ist die Sprache universell oder beschränkt sie das zu Lernende? • Universelle Sprache kann beliebige Teilmengen der Beispiele beschreiben • Wenn die Sprache die Oder-Verknüpfung von Aussagen zulässt, ist sie universell • Domänenwissen kann benutzt werden, um einige Konzeptbeschreibungen von vornherein von der Suche auszuschließen
Such-Bias • Such-Heuristik • “Greedy”-Suche: wähle jeweils den besten Einzelschritt aus • “Beam”-Suche: Behalte mehrere Alternativen im Auge • … • Richtung der Suche • Vom Allgemeinen zum Speziellen • Z.B. Spezialisieren einer Regel durch Hinzufügen von Bedingungen • Vom Speziellen zum Allgemeinen • Z.B. Generalisierung einer einzelnen Instanz zu einer Regel
Überadaptions-Vermeidungs-Bias • Kann als Teil des Such-Bias gesehen werden • Modifiziertes Bewertungskriterium • Z.B. Balance zwischen Einfachheit und Fehleranzahl • Modifizierte Suchstrategie • Z.B. Pruning (Vereinfachen einer Beschreibung) • Pre-Pruning: Stoppt bei einer einfachen Beschreibung, bevor übermäßig komplexe Beschreibungen generiert werden • Post-Pruning: Generiert zunächst eine komplexe Beschreibung, die anschließend vereinfacht wird
Data Mining und Ethik I • Viele ethische Fragen werden bei praktischen Anwendungen aufgeworfen • Data Mining wird oft zur Diskriminierung benutzt • Z.B. Kreditanträge: Berücksichtigung bestimmter Attribute (z.B. Geschlecht, Rasse, Religion) ist unethisch • Die Frage der Ethik ist anwendungsabhängig • z.B. ist die Verwendung obiger Attribute in medizinischen Anwendungen ok • Attribute können problematische Informationen beinhalten • Z.B. kann die Postleitzahl mit der Rasse korrelieren
Data Mining und Ethik II • Wichtige Fragen in praktischen Anwendungen: • Wer hat Zugriff auf die Daten? • Für welchen Zweck wurden die Daten gesammelt • Welche Schlüsse können legitimerweise daraus gezogen werden? • Ergebnisse müssen unter Vorbehalt betrachtet werden • Rein statistische Argumente sind nie ausreichend! • Werden Ressourcen sinnvoll verwendet?