1.41k likes | 1.66k Views
0. Intelligente Systeme – Beispiele und Fähigkeiten. Benötigte Technologien Analysator Erkennung Kategorisierung, Klassifikation, Kategorienbildung: Abbildung von Daten auf semantische Strukturen Zusammenhangsfindung zwischen Daten Prognose
E N D
0. Intelligente Systeme – Beispiele und Fähigkeiten • Benötigte Technologien • Analysator • Erkennung • Kategorisierung, Klassifikation, Kategorienbildung:Abbildung von Daten auf semantische Strukturen • Zusammenhangsfindung zwischen Daten • Prognose • Zusammenhangsfindung zwischen jüngeren und älteren Daten aus aufgezeichneten Daten • Zusammenhang auf aktuelle und zukünftige Daten anwenden • Lernfähigkeit • Anpassung an Änderungen Mustererkennung Data Mining Regression MaschinellesLernen Vorlesung "Intelligente Systeme"
0. Intelligente Systeme – Beispiele und Fähigkeiten • Werkzeuge • Mustererkennung • Klassifikatoren • Lineare Klassifikatoren • Künstliche Neuronale Netze • Support-Vektor-Maschinen • Hidden-Markov-Modelle • … • Clustering-Verfahren • K-Means • Self-Organizing Maps • … Vorlesung "Intelligente Systeme"
0. Intelligente Systeme – Beispiele und Fähigkeiten • Werkzeuge • Merkmale • Verdichtung • Hauptkomponenten-Transformation • Fourier-Transformation • … • Auswahl • Receiver Operation Characteristics Curve • Kullback-Leiber • … • Regression • Lineare Regression • Neuronale Netze • Kernel (Support Vektor) Regression • Genetische Programmierung Vorlesung "Intelligente Systeme"
1. Leistung von Erkennungssystemen • Intelligenz Intelligenz (lat.: intelligentia = "Einsicht, Erkenntnisvermögen", intellegere = "verstehen") bezeichnet im weitesten Sinne die Fähigkeit zum Erkennen von Zusammenhängen und zum Finden von optimalen Problemlösungen. Künstliche Intelligenz (KI) Nachbildung menschlicher Intelligenzleistungen in Software. Technischer Einsatz in intelligenten Systemen. Anwendungsbereiche: • Optimierungsprobleme (Routenplanung, Netzwerke), • Umgang mit natürlicher Sprache (Spracherkennung, automatisches Übersetzen, Internet-Suchmaschinen), • Datenanalyse (Data Mining, Business Intelligence) • Umgang mit natürlichen Signalen (Bildverstehen und Mustererkennung). Vorlesung "Intelligente Systeme"
1. Leistung von Erkennungssystemen • Komponentenfähigkeiten • Analysator • Erkennung • Prognose • Lernfähigkeit • Regelungs/Handlungssystem • Optimierung • Handlung/Aktion ableiten • Regelung • Adaptivität • Sensoren • Kommunikation Ziel-system1 Regelungs/ Handlungssystem 2 Zielsetzung Abweichung - Aktionen Welt Situations-information Signale Analy-sator 4 Sensoren 3 Daten Vorlesung "Intelligente Systeme"
1. Leistung von Erkennungssystemen • Gesichtsdetektion Vorlesung "Intelligente Systeme"
1. Leistung von Erkennungssystemen • Intelligente Systeme und deren Aufgabe Erste Aufgabe eines intelligenten Systems: Informationsgewinnung Gj+nj M+nM p3 m1 Klasse wj Gk+nk p1 Klasse wk m2 p2 Gl+nl Klasse wl p4 m3 Abbildung 2 Abbildung 1 Beschreibungs- (Zustands-)raum C Zugänglicher Musterraum P Beobachtungs- oder Meßraum F Informationsgewinnung Vorlesung "Intelligente Systeme"
1. Leistung von Erkennungssystemen Zustand Z3 Zustand Z2 Zustand Z1 do/ emit x:s3 do/ emit x:s1 do/ emit x:s2 p(x|s) s1 s2 x • Intelligente Systeme und deren Aufgabe Erste Aufgabe eines intelligenten Systems: Informationsgewinnung Stochstischer Prozess Erkenner x Zustand 9 15 10 14 11 „Glücksräder“ 13 12 9 15 14 10 13 11 12 Vorlesung "Intelligente Systeme"
2. Ein Beispiel für Erkennungssysteme Histogramm von x 15 10 x x x x x x x x x x x x x x x x 20 70 Vorkommensanazahl (frequency) k 5 0 x 20 30 40 50 60 70 Stichprobe mit 50 Versuchen • Nebenbemerkung Histogramm und Wahrscheinlichkeitsdichte Wahrscheinlichkeitsdichte: relative Häufigkeit pro Intervall Stichprobe: Führe N Versuche aus, miss jedes mal die Größe x. Histogramm: Teile die Größe x in Intervalle mit Breite Dx. Zähle Anzahl in jedem Intervall. Trage die Anzahl gegen das Intervall auf. x x x x x x x x x x x x x x x x 20 70 Vorlesung "Intelligente Systeme"
2. Ein Beispiel für Erkennungssysteme • Nebenbemerkung Histogramm und Wahrscheinlichkeitsdichte Wahrscheinlichkeitsdichte r: relative Häufigkeit pro Intervall = (Vorkommensanzahl/Stichprobenumfang)/Intervallbreite = (k/N)/Dx = relative Häufigkeit / Intervallbreite = h/ Dx Histogram von x Histogramm von x 0.06 15 0.04 10 Wahrscheinlichkeitsdichte Vorkommensanazahl (frequency) k 0.02 5 0.00 0 x x 20 30 40 50 60 70 20 30 40 50 60 70 W-Dichte = (7/50) / 5 = 0.028 Vorlesung "Intelligente Systeme"
2. Ein Beispiel für Erkennungssysteme Histogramm von x 0.04 Density 0.02 0.00 20 30 40 50 60 70 80 • Nebenbemerkung Histogramm und Wahrscheinlichkeitsdichte Mit zunehmender Stichprobengröße Balkenbreite immer kleiner, so dass im unendlichen Fall die Balkenbreite unendlich klein ist. Histogramm von x 0.06 0.04 Wahrscheinlichkeitsdichte r 0.02 0.00 x 20 30 40 50 60 70 SWahrscheinlichkeitsdichten x Balkenbreiten = 1 Vorlesung "Intelligente Systeme"
2. Ein Beispiel für Erkennungssysteme • Nebenbemerkung • Wahrscheinlichkeitsdichte p(x) 0,10 0,05 0,00 Ist gleichbedeutend mit x 0 0,5 1,0 1,5 2,0 Vorlesung "Intelligente Systeme"
2. Ein Beispiel für Erkennungssysteme • Nebenbemerkung Wahrscheinlichkeitsdichte ergibt ergibt Vorlesung "Intelligente Systeme"
2. Ein Beispiel für Erkennungssysteme • Nebenbemerkung Körpergröße nach Einkommen (D, über 18a) Vorlesung "Intelligente Systeme"
2. Ein Beispiel für Erkennungssysteme • Nebenbemerkung Körpergröße nach Geschlecht (D, über 18a) Vorlesung "Intelligente Systeme"
2. Ein Beispiel für Erkennungssysteme • Nebenbemerkung Körpergröße nach Bundesland (D, über 18a) Vorlesung "Intelligente Systeme"
3. Statistische Fundamente • Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ? • A-priori-Wahrscheinlichkeiten Ein betrachtetes System befindet sich in einem “wahren Zustand” c, z.B. c=c1 (normal) oder c=c2 (Zündaussetzer). Diese können sich zufällig abwechseln und treten mit den Wahrscheinlichkeiten P(c1) und P(c2) auf: A-priori-Wahrscheinlichkeiten. P(c1) + P(c2) =1, wenn keine weiteren Zustände. Fall 1: Keine weitere Information als P(c1) und P(c2) -> Entscheidungsregel über nächsten Zustand: c1, wenn P(c1) > P(c2) , sonst c2. Vorlesung "Intelligente Systeme"
3. Statistische Fundamente • Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ? • Verbund-Wahrscheinlichkeiten und bedingte Wahrscheinlichkeiten Zusatzinformation: B ist aufgetreten. Wahrscheinlichkeit von A, wenn B aufgetreten ist: bedingt Beispiel: P(1,70m< h < 1,80m | Frau) = 0,2, P(Frau) = P(Mann) = 0,5 P(1,70m< h < 1,80m , Frau) = 0,2 * 0,5 = 0,1 Verbund-Wahrscheinlichkeit P(A,B) von A und B ist Wahrscheinlichkeit, dass A und B gleichzeitig auftreten. Bedingte Wahrscheinlichkeit P(A|B) ist Wahrscheinlichkeit, dass A auftritt unter der Bedingung, dass B aufgetreten ist. Gilt auch für Wahrscheinlichkeitsdichten B ist fest! B ist fest! A ist fest! Vorlesung "Intelligente Systeme"
3. Statistische Fundamente • Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ? • Verbund-Wahrscheinlichkeiten und bedingte Wahrscheinlichkeiten Verbund-Wahrscheinlichkeit P(A,B) von A und B ist Wahrscheinlichkeit, dass A und B gleichzeitig auftreten. Größe, bezüglich derer Dichte berechnet wird, muss variabel sein. Daher lautet Verbundwahrscheinlichkeitsdichte B ist fest! A ist fest! ist fest! ist fest! Vorlesung "Intelligente Systeme"
3. Statistische Fundamente • Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ? • Wahrscheinlichkeitsdichte p(x) x variabel 0,10 0,05 0,00 x 0 0,5 1,0 1,5 2,0 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente p(x|c) c1 c2 x • Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ? • Klassenbedingte Wahrscheinlichkeitsdichtefunktion p(x|c)Information x über das System (z.B. das Drehmoment M4) mit verschiedenen Ausprägungen in verschiedenen Zuständen (Klassen) c.Klassenbedingte Wahrscheinlichkeitsdichtefunktion p(x|c). Fall 2: Wir verfügen über weitere Information x. Wahrscheinlichkeitsdichte für das Vorliegen eines Wertes des Merkmals x, wenn das System in Zustand c ist. Die Fläche unter der Kurve ist jeweils 1. Vorlesung "Intelligente Systeme" Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, ÓWiley-Interscience
3. Statistische Fundamente • Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ? Fall 2: Wir verfügen über weitere Information x, also die Wahrscheinlichkeitsdichtefunktionen p(x|ci) für die verschiedenen Klassen und den aktuellen Wert von Merkmal x unseres Systems sowiedie A-priori-Wahrscheinlichkeiten der Klassen P(ci). Dann ist die verknüpfte Wahrscheinlichkeitsdichte, dass das System in Zustand ci ist und dabei den Merkmalswert x hat: p(ci,x) = P(ci|x)p(x) = p(x|ci)P(ci). Von Interesse P(ci|x). Mittels Bayes´scher Formel Wahrscheinlichkeit für Klasse ci Wahrscheinlichkeit für Klasse ciunter der Bedingung, dass ein Wert x vorliegt Wahrscheinlichkeitsdichte von Merkmal x, unter der Bed., dass Klasse ci vorliegt Wahrscheinlichkeitsdichte von Merkmal x Vorlesung "Intelligente Systeme"
3. Statistische Fundamente • Bayes´sche Entscheidungstheorie A posteriori Wahrscheinlichkeit, dass Klasse ci vorliegt, wenn das Merkmal die Ausprägung x hat: Likelihood Prior Evidence Posterior P(c|x) p(x|c) c1 c2 c2 P(c1) = 1/3 P(c2) = 2/3 c1 x x Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, ÓWiley-Interscience Vorlesung "Intelligente Systeme"
3. Statistische Fundamente • Bayes´sche Entscheidungstheorie Wie treffe ich die optimale Entscheidung bei unvollständiger Information ? Fall 2: Entscheide c1 wenn P(c1|x) > P(c2|x), sonst c2. P(c|x) P(c2|x=14)=0.92 c2 c1 P(c1|x=14)=0.08 x c1 c2 c1 c2 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente Zustand Z3 Zustand Z2 Zustand Z1 do/ emit x:s3 do/ emit x:s1 do/ emit x:s2 p(x|s) s1 s2 x • Erkennungssysteme und deren Aufgabe Informationsgewinnung Stochstischer Prozess Erkenner x Zustand 9 15 10 14 11 „Glücksräder“ 13 12 9 15 14 10 13 11 12 Vorlesung "Intelligente Systeme"
3. Statistische Fundamente x x x x x x x x x x x x x x x x 20 70 • Mehr als ein Merkmal: Grundlagen Numerische Merkmale und Merkmalsvektor Ein Merkmal x Zwei Merkmale x1 und x2 Merkmal x2 Merkmal x x x x x x Ein-dimensionaler Merkmalsraum x x x x x x x x x x x x x x x x x x x x Merkmal x1 x x x x x x x Stichprobe: Menge der Merkmals-ausprägungen x x x x x x x x x Skalare Zwei-dimensionaler Merkmalsraum Vektoren Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente + + + + + + + • Mehr als ein Merkmal: Grundlagen Bild von Objekten unterschiedlicher Größe und Form Meßraum: Grauwerte der Pixel eines Kamerasensors Merkmalsauswahl: Merkmalsvariable Formfaktor (f) und maximale Abmessung (l) Jeder Merkmalsvektor xi= [fi, li]T repräsentiert ein Muster. Wegen der statistischen Prozesse bei der Musterentstehung und beim Meßprozess werden Merkmale als “random variables” und Merkmalsvektoren als “random vectors” betrachtet. Formfaktor f x x x x x fi x x Merkmalsraum xi * Maximale Abmessung l li Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente Wahrsch. Merkmal x2 Merkmal x1 • Mehr als ein Merkmal: Dichte und Dichtefunktion Wahrscheinlichkeitsdichtefunktion Stichprobe Merkmal x2 x x x x x x x x x x x x x x x x x x x x x x x x x Merkmal x1 x x x x x x x x x x x x x x x x Dichte: relative Häufigkeit imKästchen, geteilt durchKästchenfläche Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente • Mehr als ein Merkmal: Korrelation und Kovarianz Wahrscheinlichkeitsdichtefunktion • Zwei unterschiedliche stochastische Größen (z.B. Merkmale) • Maßzahl für montonen Zusammenhang zwischen wenn gleichsinniger Zusammenhang zw. wenn gegensinniger Zusammenhang zw. wenn kein Zusammenhang zw. Die Größe von K hängt von den Maßeinheiten von ab. Daher Invarianz durch Normierung mit Standardabweichung: Korrelation C Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente • Mehr als ein Merkmal, mehrere Klassen Merkmal x2 Merkmal x1 Vorlesung "Intelligente Systeme" Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, ÓWiley-Interscience
Merkmalsraum 3. Statistische Fundamente Merkmal x2 Merkmal x1 xT • Mehr als ein Merkmal, mehrere Klassen Endliche Menge von Klassen{c1,c2,…,cC} mit zugehörigen Wahrscheinlichkeitsdichten Bayes Formel für a posterioriWahrscheinlichkeit Entscheidungsregel: x2T x1T Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente Merkmal x2 Merkmal x1 xT • Entscheidungsflächen und -funktionen Entscheidungsregel: Teilt Merkmalsraum in Regionen R3 x2T R4 Entscheidungsflächen sindGrenzflächen zwischen den Regionen R2 R1 x1T Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente • Entscheidungsflächen und -funktionen Entscheidungsregel: Entscheidungsregel gilt auch für monotone Funktionen g (Entscheidungs-funktionen) von P: (konst. Nenner weglassen) (logarithmieren) Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente • Entscheidungsflächen und -funktionen Bei zwei Kategorien (Klassen) Entscheidungsregel Kann vereinfacht werden zu einer einzigen Entscheidungsfunktion deren Vorzeichen über die Klassenzugehörigkeit entscheidet: Bequeme Wahl von g: Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente Wahrsch. Merkmal x2 Merkmal x1 • Entscheidungsflächen und -funktionen Modellfunktion für klassenbedingte Wahrscheinlichkeitsdichte: Normalverteilung Bisher ein-dimensional: Jetzt mehr-dimensional: Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente Wahrsch. Merkmal x2 Merkmal x1 • Entscheidungsflächen und -funktionen Normalverteilung Jetzt mehr-dimensional: Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente • Entscheidungsflächen und -funktionen Beispiel: Annahme einer mehr-dimensionalen Normalverteilung Berechnung Schwerpunkt und Kovarianzmatrix aus Stichprobe SchwerpunktderVerteilung Empirischer Schwerpunkt der Stichprobe Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente • Entscheidungsflächen und -funktionen Beispiel: Annahme einer mehr-dimensionalen Normalverteilung Berechnung empirischer Schwerpunkt und empirische Kovarianzmatrix aus Stichprobe Im Fall drei-dimensionaler Vektoren: Geschätzte Normalverteilung: Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente • Entscheidungsflächen und -funktionen Geschätzte Normalverteilung: Benötigt wird die Inverse der Kovarianzmatrix Analytische Matrix-Inversion z.B. mittels adjungierter Matrix Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente • Entscheidungsflächen und -funktionen Geschätzte Normalverteilung: Rekursive, numerische Schätzung des empirischen Schwerpunkts und der Inversen der Kovarianzmatrix aus Stichprobe durch Rekursion Aus: H.Burkhardt, Inst. F. Informatik, Uni Freiburg: Mustererkennung Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente • Schätzung Varianz (unabh. tats. Verteilung) Quelle: Wikipedia Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente • Entscheidungsflächen und -funktionen Bei Normalverteilung wegen e-Funktion Wahl von ln-Entscheidungsfunktion: Entscheidungsfläche beim Zweiklassenproblem: ist quadratische Form. Für zwei-dimensionale Merkmalsvektoren Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente • Entscheidungsflächen und -funktionen • EntscheidungsflächebeimZweiklassenproblem: • ZweiklassenproblembeiNormalverteilungeneinfachster Fall: • Merkmaleunkorreliert -> Kovarianzen (Nichtdiagonalelemente der Kovarianzmatrix) sind Null • Merkmalsvarianzen (Diagonalelemente der Kovarianzmatrix) fürbeideKlassengleich • A-priori-WahrscheinlichkeitenfürbeideKlassengleich Mittelsenkrechte zwischen den Schwerpunkten Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente • Entscheidungsflächen und -funktionen Normalverteilung, 2 Kategorien Entscheidungsfunktionen: Lineare Entscheidungsfunktion: Entscheidungsfläche Hyperebene ein-dim. Merkm.-Raum zwei-dim. Merkm.-Raum drei-dim. Merkm.-Raum Vorlesung "Intelligente Systeme" Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, ÓWiley-Interscience
Merkmalsraum 3. Statistische Fundamente • Entscheidungsflächen und -funktionen Normalverteilung, 2 Kategorien Entscheidungsfunktionen: Entscheidungsfunktion Entscheidungsflächen: Hyperquadriken Vorlesung "Intelligente Systeme" Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, ÓWiley-Interscience
Merkmalsraum 3. Statistische Fundamente • Entscheidungsflächen und -funktionen Normalverteilung, 2 Kategorien Entscheidungsflächen: Hyperquadriken Ebenen Vorlesung "Intelligente Systeme" Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, ÓWiley-Interscience
Merkmalsraum 3. Statistische Fundamente • Entscheidungsflächen und -funktionen Normalverteilung, 2 Kategorien Entscheidungsflächen: Hyperquadriken Paraboloide Ellipsoide Vorlesung "Intelligente Systeme" Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, ÓWiley-Interscience
Merkmalsraum 3. Statistische Fundamente • Entscheidungsflächen und -funktionen Normalverteilung, 2 Kategorien Entscheidungsflächen: Hyperquadriken Hyperboloide Kugeln Vorlesung "Intelligente Systeme" Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, ÓWiley-Interscience
Merkmalsraum 3. Statistische Fundamente • Wie weiter? • Voraussetzung bisher: • A priori Wahrscheinlichkeiten und klassen-bedingte Wahrscheinlichkeitsdichten bekannt. • Realität: • Nur Stichproben gegeben. • Ansätze: • Parametrische Techniken: Annahme bestimmter parametrisierter Wahrscheinlichkeitsdichtefunktionenund Schätzung der Parameterwerte anhand Stichprobe, Einsetzen in Bayes Framework.A) Maximum-Likelihood SchätzungB) Bayes Learning • Nicht-parametrische Techniken • Direkte Bestimmung der Parameter der Entscheidungsflächen anhand Stichprobe. Vorlesung "Intelligente Systeme"
Merkmalsraum 3. Statistische Fundamente • Wie weiter? Möglichkeit 1 bei gegebener Stichprobe: Schätzung der pdf und a-priori-Wahrsch. Aus Stichprobe: Bildung Histogramm, relative Häufigkeiten h(ci) Modellbildung: Annahme einer Modellfunktionenklasse für klassenbedingte Wahrscheinlichkeitsdichte, z.B. Gaussfunktion Schätzung der Parameter der Funktion -> Instanz der Funktionenklasse, die das Histogramm am besten approximiert (Schätzfunktion der klassenbedingten Wahrscheinlichkeitsdichte): Anwendung Bayes: Benutze als Näherung für und relative Häufigk. H(ci) für P(ci) und wende Bayes´sche Entscheidungsregel an: Vorlesung "Intelligente Systeme"