1 / 23

Kapitel 8: Kernel-Methoden

Kapitel 8: Kernel-Methoden. Target:. Nach dem Lernschritt:. Ausgangsbasis: Perceptron Learning Rule. Rosenblatt (1962) Input wird dazugezählt (abgezogen), wenn Output falsch („mismatch-based“) Verwendung: Klassifikation. Mathematische Formulierung. Perceptron (1 Output): y i = +1/-1:

Download Presentation

Kapitel 8: Kernel-Methoden

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kapitel 8: Kernel-Methoden Maschinelles Lernen und Neural Computation

  2. Target: Nach dem Lernschritt: Ausgangsbasis: Perceptron Learning Rule • Rosenblatt (1962) • Input wird dazugezählt (abgezogen), wenn Output falsch(„mismatch-based“) • Verwendung: Klassifikation Maschinelles Lernen und Neural Computation

  3. Mathematische Formulierung • Perceptron (1 Output): • yi = +1/-1: • Daten kommen als inneres Produkt vor („duale Darstellung“) Inneres Produkt(dot product) Maschinelles Lernen und Neural Computation

  4. Vor- und Nachteile des Perceptrons • Vorteile: • Globale Lösung garantiert (keine lokalen Minima) • Leicht lösbar bzw. otpimierbar • Nachteil: • Auf lineare Separierbarkeit beschränkt • Idee: • Transformation der Daten auf einen Raum, in dem das Problem linear trennbar ist Maschinelles Lernen und Neural Computation

  5. Vergleiche Diskriminanzanalyse • Allgemein linear:beliebige Vorverarbeitungsfunktionen, lineare Verknüpfung • Neuronales Netz:NN implementiert adaptive Vorverarbeitungnichtlinear in Parametern (w)durch Approximationstheorem: beliebig nichtlineare Diskriminanzfunktion MLP RBFN Maschinelles Lernen und Neural Computation

  6. Kernels • Ziel ist eine fix bestimmte Transformation xi→Φ(xi), sodass das Problem linear trennbar ist (ev. hochdimensional) • Kernel: Funktion, die als inneres Produkt von Φs darstellbar ist: • Φmuss nicht einmal bekannt sein Maschinelles Lernen und Neural Computation

  7. Beispiel: Polynomischer Kernel • 2 Dimensionen: • Kernel entspricht tatsächlich einem inneren Produkt aus Vektoren mit „Vorverarbeitung“ Maschinelles Lernen und Neural Computation

  8. Beispiel • Durch Transformation wird Problem linear trennbar Ф x22 x2 x1 x12 Ф-1 Maschinelles Lernen und Neural Computation

  9. Die Wirkung des Kernel-Tricks • Einsatz des Kernels, z.B: • 16x16-dimensionale Vektoren (z.B. Pixel-Bilder), Polynom 5. Grades: Dimension = 1010 • Inneres Produkt zweier 10000000000-dim. Vektoren • Berechnung erfolgt im niedrigdimensionalen Raum: • Inneres Produkt zweier 256-dim. Vektoren • 5-te Potenz Maschinelles Lernen und Neural Computation

  10. Gauss‘scher Kernel • Ф nicht darstellbar, hat aber unendliche Dimension!(wenn Trainingsset unbegrenzt groß sein kann) • Folgt aus Mercer‘s Theorem: • Betrachte die Kernel-Matrixüber alle Trainingsbeispiele • Berechne Eigenwerte und -funktionen, dann gilt: • Für Gauss‘schen Kernel gilt: Kernel-Matrix hat vollen Rang!Dimension so groß wie das Trainingsset Maschinelles Lernen und Neural Computation

  11. Large Margin Classifier • Hochdimensionaler Raum: Overfitting leicht möglich • Lösung: Suche Entscheidungslinie (Hyperebene) mit größtem Abstand von den Punkten • Optimierung:Minimiere(Maximiere )Randbedingung: Abstand maximal w Maschinelles Lernen und Neural Computation

  12. Optimierung 1 • Quadratisches Optimierungsproblem • Lösungsansatz: Lagrange-Multiplikanten • Randbedingung: • 1. Ableitung nach w und b muss 0 sein. Das ergibt: Maschinelles Lernen und Neural Computation

  13. Optimierung 2 • Einsetzen der zuletzt ergebenen Terme: • „Duale“ Formulierung • Wichtig: Daten stehen wieder als inneres Produkt (dot product) im Term! • Kernel-Trick kann wieder angewandt werden Maschinelles Lernen und Neural Computation

  14. Optimierung 3 • Minimierung ist quadratisches Programmierungsproblem • Globales Minimum garantiert • Methoden • Chunking nutzt die Tatsache dass viele αi=0 • Decomposition Methods • Sequential Minimal Optimization (SMO)löst eine Sequenz von Problemen der Größe 2(Paare von Variablen) Maschinelles Lernen und Neural Computation

  15. Support Vectors • Support-Vectors: Punkte am Rand des Margins • Bestimmen alleine die Lösung,für alle anderen Punkte gilt:αi=0, können weggelassen werden Kernelfunktion Rückprojektion Support Vectors Maschinelles Lernen und Neural Computation

  16. w Daten mit Rauschen • Bisherige Annahme: Problem ist exakt trennbar • Bei Rauschen: Einführung von „Slack variables“:weicht den strengen Margin etwas auf Lernparameter • Duales Problem (Lagrange) bleibtgleich (bis auf Randbedingung) Maschinelles Lernen und Neural Computation

  17. Beispiel Schätzung nur mit Support-Vectors ergibt die selbe Lösung: Kernel: Polynom 3. Ordnung Maschinelles Lernen und Neural Computation

  18. Bedingungen für Kernels • Jede Funktion K(x,z), für die gilt • bzw. ist eine Kernelfunktion („positive definite“ Kernels) • Ist K1 und K2 ein Kernel, so sind auchaK1 (für a>0)K1+K2K1*K2Kernel • Wahl des richtigen Kernels (Vorverarbeitung) ist entscheidend! Modellselektion notwendig für beliebige Trainingspunkte xi Maschinelles Lernen und Neural Computation

  19. SVM-Theorie: VC-Dimension • „Shatter“: Wenn unter n Punkten alle 2n Klassifikationen möglich sind • VC-Dimension h … kleinstes m von Punkten, für die der Lerner weniger als 2m Klassifikationen schafft • Z.B.: VC-Dim(Perceptron)=k+1 (k … Inputdimension) • Für komplexe Lerner kann oft nur Schranke angegeben werden Maschinelles Lernen und Neural Computation

  20. SVM-Theorie: Structural risk minimization • Schranke für das „Risiko“ (Fehler) • Maximieren des Margins beschränkt VC-Dimension • ||w|| kann als Regularisierungsterm betrachtet werden • Gauss-Kernel: VC-Dim h=∞ Mit Wahrscheinlichkeit 1-δ Anzahl Trainingspunkte Empirischer FehleramTrainingsset Minimal möglicher Fehler Maschinelles Lernen und Neural Computation

  21. SVM und Neuronale Netze • Gauss-Kernel: RBF • Sigmoid-Kernel: MLP • So viele „Hidden Units“ wie Trainingsmuster • Allerdings andere Berechnung • Raum ist ∞-dimensional • SVM und Boosting: formaler Zusammenhangvgl. Boosting: Punkte an der Entscheidungsgrenze bekommen größte Bedeutung (wie SV) Maschinelles Lernen und Neural Computation

  22. Andere Kernelverfahren • Kernel-Trick funktioniert bei allen Methoden, in denen Daten als inneres Produkt vorkommen • Kernel-PCA • Kernel-Fisher Diksriminante • Kernel Regression • Gauss‘sche Prozesse Maschinelles Lernen und Neural Computation

  23. Zusammenfassung • SVMs sind interessante Alternative zu klassischen neuronalen Netzen • Kernel-Trick: Inneres Produkt von hochdimensionalen „Features“ (Vorverabeitung) kann niedrigdimensional berechnet werden • Beschränken der VC-Dim. (Vermeidung von Overfitting): Large Margin Classifier • Lineares Modell, Quadratische Programmierung, Minimum garantiert • Support Vectors: Punkte am Margin, sind alleine für Lösung verantwortlich • Aber: Overfitting dennoch möglich • Modellselektion notwendig • Wahl des geeigneten Kernels ist sehr wichtig! Maschinelles Lernen und Neural Computation

More Related