400 likes | 649 Views
Neuronale Netze für nicht-standard Daten. Barbara Hammer, AG LNM, Universität Osnabrück. Autsch!!!. 0. 1. Krümmung. 1 0. Festigkeit. möglichst niedrig dimensionaler Vektor einer endlichen und festen Dimension, der die Gesetzmäßigkeit gut beschreibt. Apfel? Birne?. Baumstrukturen.
E N D
Neuronale Netze für nicht-standard Daten Barbara Hammer, AG LNM, Universität Osnabrück Dortmund
Autsch!!! Dortmund
0 1 Krümmung 1 0 Festigkeit möglichst niedrig dimensionaler Vektor einer endlichen und festen Dimension, der die Gesetzmäßigkeit gut beschreibt Apfel? Birne? Dortmund
Baumstrukturen Paragraphen des BGB = Textsequenzen zermatschter Apfel = hochdimensionaler und heterogener Vektor Haar = DNA-Sequenzen Fußabdruck = Graphenstruktur Dortmund
Neuronale Netzefür nicht-standard Daten • Eine praktische Lösung: Relevanzlernen • ... der Basisalgorithmus - LVQ • ... die Hauptidee - RLVQ • ... für Fortgeschrittene - GRLVQ • Anwendungen • Theorie • Eine alternative Lösung: rekursive Netze • ... überwacht • ... unüberwacht Dortmund
Eine praktische Lösung: Relevanzlernen .. für hochdimensionale oder heterogene Vektoren einer endlichen und festen Dimension Dortmund
… der Basisalgorithmus Dortmund
.. der Basisalgorithmus - LVQ Lernende Vektorquantisierung(LVQ) [Kohonen]: überwachtesselbstorganisierendes Klassifikationsverfahren Netz gegeben durch Prototypen (wi,c(wi)) ∈ ℝn x {1,…,m} Klassifikationℝn∋x c(wj)∈{1..m} mit |x-wj| minimal Hebbsches Lernen anhand von Beispieldaten (xi,c(xi)) i.e.ziehe xi und adaptiere den Gewinner wj: wj := wj ±η·(xi-wj) Dortmund
x2 x1 .. der Basisalgorithmus - LVQ Beispiel: unterscheide Äpfel von Birnen Repräsentation als Vektor ( Krümmung , Härte ) in ℝ2 Dortmund
.. der Basisalgorithmus - LVQ Problem: LVQ basiert auf der Euklidischen Metrik und ist daher ungeeignet für hochdimensionale oder heterogene Daten Dortmund
.. die Hauptidee Dortmund
Relevanzlernen: ersetze die Euklidische Metrik durch eine Metrik mit adaptiven Relevanzfaktoren adaptiere die Relevanzfaktoren durch Hebbsches Lernen: .. die Hauptidee - RLVQ Relevanz LVQ (RLVQ) Dortmund
.. für Fortgeschrittene - GRLVQ Dortmund
Kostenfunktion von LVQ: quadratischer Abstand zum nächsten korrekten/ inkorrekten Prototypen wobei .. für Fortgeschrittene - GRLVQ RLVQ verwendet lediglich eine Diagonalmetrik. Dortmund
Alternative Kostenfunktion: Generalisiertes LVQ ... für Fortgesschrittene - GRLVQ mit [Sato/Yamada] GRLVQ verwendet hier eine Diagonalmetrik Dortmund
.. für Fortgeschrittene - GRLVQ GRLVQ: Dortmund
.. für Fortgeschrittene - GRLVQ Rauschen: 1+N(0.05), 1+N(0.1),1+N(0.2),1+N(0.5),U(0.5),U(0.2),N(0.5),N(0.2) Dortmund
.. für Fortgeschrittene - GRLVQ Verallgemeinerungen von GRLVQ: Die Kostenfunktion .. erlaubt allgemeine differenzierbare Ähnlichkeitsmaße .. erlaubt bessere Optimierungsstrategien Dortmund
Anwendungen … Dortmund
Anwendungen Online-Fehlererkennung bei Kolbenmaschinen thanks: PROGNOST Dortmund
Anwendungen Fehlerdetektion aufgrund hochdimensionaler Signale zeitabhängige Signale: Druck, Schwingungen Prozeß-Characteristiken Merkmale des pV Diagramms … Sensoren Dortmund
Anwendungen Daten: • ca. 30 Zeitreihen mit je 36 Einträgen • ca. 20 Auswertungen pro Zeitintervall • ca. 40 globale Merkmale ca. 15 Klassen, wenige (~100) Trainingsmuster Dortmund
Anwendungen Erkennen kanonischer Splice-sites: DNA (Kopie) branch site A64G73G100T100G62A68G84T63 C65A100G100 reading frames 18-40 bp pyrimidines, i.e. T,C donor acceptor Klassifikationsaufgabe: • ATCGATCGATCGATCGATCGATCGATCGAGTCAATGACC no yes Dortmund
Anwendungen • IPSplice (UCI): 3 Klassen, ca.3200 Daten, Fenstergröße 60, alt • C.elegans (Sonneburg et al.): 2 Klassen (acceptor/decoys), 1000/10000 Trainingsbeispiele, 10000 Testbeispiele, Fenstergröße 50, decoys/acceptors liegen nahe zusammen • GRLVQ mit wenigen (8/5 pro Klasse) Prototypen • Ähnlichkeitsmaß LIK: Dortmund
Anwendungen IPsplice: Dortmund
Anwendungen C.elegans: GRLVQ ist nicht viel schlechter, aber viel schlanker Dortmund
Theorie … Dortmund
Lernalgo. Theorie F := durch GRLVQ mit p Prototypen berechnete binäre Klassifikationen (xi,yi)i=1..m Trainingsdaten, i.i.d. gemäß Pm f in F Ziel: EP(f) := P(y≠f(x)) soll klein sein Dortmund
Theorie Ziel: EP(f) := P(y≠f(x)) soll klein sein Lerntheorie:EP(f) ≤ |{ i | yi≠f(xi)}| + strukturelles Risiko Für GRLVQ gilt: EP(f) ≤ |{ i | yi ≠ f(xi)}| + Ʃ0<Mf(xi)<ρ(1-Mf(xi)/ρ) + O(p2(B3+(ln 1/δ)1/2)/(ρm1/2)) wobei Mf(xi) := - dλ+(xi)+ dλ-(xi) der margin ist (= Sicherheit) • dimensionsunabhängige large-margin Schranke! GRLVQ optimiert den margin: empirischer Fehler wird im Training optimiert wie sicher legen m Trainingsdaten die Funktion fest Trainingsfehler Punkte mit zu kleinem margin Schranke in Abhängigkeit von m = Anzahl Daten p = Anzahl Prototypen, B = Träger, δ = Konfidenz ρ = margin Dortmund
Eine alternative Lösung: Rekursive Netze .. für Baumstrukturen oder azyklische Graphen mit Knotenelementen in einem festen reellen Vektorraum Dortmund
… überwacht Dortmund
?? f Rekurrenz! .. überwachte rekursive Netze Rekurrenz! Ein feedforward Netz f:ℝn+2m ℝm induziert ein rekursives Netz für binäre Bäume: frec:(ℝn)2*ℝm frec(ø) = 0 frec(a(l,r)) = f(a,frec(l),frec(r)) Dortmund
.. überwachte rekursive Netze Training: Backpropagation through structure [Goller/Küchler] Anwendungen: automatisches Beweisen, Bilderkennung, chemische Daten (QSAR), Dokumentenklassifikation, ... Sprachverarbeitung, Strukturprognose von Proteinen, Termklassifikation, ... [Baldi, Bianchini, Bianucci, Costa, Diligenti, Frasconi, Goller, Gori, Hagenbuchner, Küchler, Pollastri, Schmitt, Soda, Sperduti, Starita, Tsoi, Vullo, …] Theorie: Approximationseigenschaften Lernbarkeit, induktiver Bias Dortmund
… unüberwacht Dortmund
.. unüberwachte rekursive Netze Die klassische SOM: Repräsentation: (Krümmung,Farbe,Härte,Kerne,Gewicht,…) in ℝn Dortmund
|x-w| Rekurrenz! .. unüberwachte rekursive Netze ?? ? Was ist die Ausgabe der SOM? ? Mit was soll dieses wie verglichen werden? Dortmund
.. unüberwachte rekursive Netze Ansätze: Temporal Kohonen map [Chappell/Taylor] Recursive SOM [Voegtlin] SOMSD [Hagenbuchner/Sperduti/Tsoi] ... Aktuell: generelle Dynamik, verallgemeinert überwachte rekursive Netze weitere Modelle: MNG, HSOMS induzierte Metriken, Kodierung, Lernen, Topologieerhaltung, ... erste benchmarks Dortmund
os Berlin Rheine Birmingham Hyderabad Biele Padua Pisa Leipzig Illinois Houston Gatersleben Thorsten Bojer Prognost Peter Tino Brijnesh Jain Jochen Steil Helge Ritter Marc Strickert Kai Gersmann OR-Gruppe Theo.Inf. Thomas Villmann Erzsebeth Merenyi Udo Seiffert Bhaskar DasGupta Matukumalli Vidyasagar Alessandro Sperduti Alessio Micheli Thanks!!! Dortmund
End of slide show, click to exit.. Dortmund