1 / 42

Strukturverarbeitende Neuronale Netze

Strukturverarbeitende Neuronale Netze. Barbara Hammer, AG LNM, Universität Osnabrück. Überblick. Einige Probleme aus der Bioinformatik Lösungsansätze mithilfe neuronaler Netze Mathematische Fragen beim Training Lernbarkeit rekursiver Netzarchitekturen Generell ….

domani
Download Presentation

Strukturverarbeitende Neuronale Netze

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Strukturverarbeitende Neuronale Netze Barbara Hammer, AG LNM, Universität Osnabrück FB Mathematik, Universität Bielefeld

  2. Überblick • Einige Probleme aus der Bioinformatik • Lösungsansätze mithilfe neuronaler Netze • Mathematische Fragen beim Training • Lernbarkeit rekursiver Netzarchitekturen • Generell … FB Mathematik, Universität Bielefeld

  3. Einige Probleme aus der Bioinformatik … FB Mathematik, Universität Bielefeld

  4. Backhefe Mehl ? Zucker Wasser FB Mathematik, Universität Bielefeld

  5. DNA Transkription: die DNA wird komplementär kopiert, … … bindet an Promoter. …TCGACTCCGTATTCGAC… CUAGUCUU ACGCCUAGU… …Introns werden abgespalten… RNA-Polymerase …und die mRNA verläßt den Zellkern. FB Mathematik, Universität Bielefeld

  6. Ser Gln Arg Gly Phe Pro His Arg Gly Cys ...das Protein faltet sich zu einer 3D Struktur… …UCACAGAGAGGUUUCCCUCACAGAGGGUUU… .. und steuert komplexe Prozesse. Translation: Ribosomen bilden Codons auf Aminosäuren ab, ... FB Mathematik, Universität Bielefeld

  7. Einige Probleme … S.Cerevisiae ist seit 4/96 sequenziert (http://genome-www.stanford.edu/Saccharomyces) • Welche Abschnitte der DNA kodieren? • Promoter, Exon/Intron • Wie falten sich die Aminosäuren? • Sekundärstruktur, 3D-Struktur der Proteine FB Mathematik, Universität Bielefeld

  8. Lösungsansätze mithilfe neuronaler Netze … FB Mathematik, Universität Bielefeld

  9. x1 x2 xn Ein Neuron w1 w2 θ σ(wtx - θ) … σ(t) = H(t) mit H(t) = 0 für t≤0 H(t) = 1 für t>0 wn σ(t) = sgd(t) = (1+e-t)-1 FB Mathematik, Universität Bielefeld

  10. Vorwärtsgerichtete neuronale Netze (FNN)… y x fw :ℝn  ℝo FB Mathematik, Universität Bielefeld

  11. … und deren Training … • Ziel: unbekanntes f:ℝn  ℝo ist zu lernen • Beispiele f(x1),…,f(xm) sind verfügbar • Training: • Auswahl einer Netzarchitektur { fw | wℝW } • Optimieren der Gewichte w durch Minimieren des Fehlers ∑ (f(xi) - fw(xi)) 2 auf den Trainingsdaten • Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge  fw ≈ f FB Mathematik, Universität Bielefeld

  12. … Exon … G U … Intron … A G … Exon (0,0,0,1 ;0,0,1,0 ;0,1,0,0 ;0,0,0,1) 0 0 0 1 1 0 … zum Erkennen von Spleißstellen  (1,0) d.h. f: ℝ4k  ℝ2 ist zu lernen Beispielergebnisse (missed Pos/false Pos in %): NetGene2: 6.4/4.6, 6.0/2.5 [Brunak et al.] aus [Pertea,Lin,Salzberg,Nucleid Acid Research 29(5):1185-1190, 2001] FB Mathematik, Universität Bielefeld

  13. f:ℝn+cℝc Eingabe g:ℝcℝo Ausgabe Kontext Partiell rekurrente Netze (RNN)… Sequenzen über ℝn g◦frec:(ℝn)*ℝo mit frec:(ℝn)*ℝc als frec([ ])=0 frec([x|a])=f(x,frec(a)) FB Mathematik, Universität Bielefeld

  14. … und deren Training … • Ziel: unbekanntes f:(ℝn)*ℝo ist zu lernen • Beispiele f(x1),…,f(xm) sind verfügbar • Training: • Auswahl einer Netzarchitektur • Optimieren der Gewichte durch Minimieren des Fehlers auf den Trainingsdaten • Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge FB Mathematik, Universität Bielefeld

  15. α-helix 00000010.. 01000000.. 00010000.. … … zur Prognose der Sekundärstruktur von Proteinen γ-coil …SerGlnArgGlyPheProHisArgGlyCys… β-sheet …ααβββββββγ… d.h. f: Aminosäuren*  {α,β,γ} ist zu lernen 010 FB Mathematik, Universität Bielefeld

  16. … zur Prognose der Sekundärstruktur von Proteinen …SerGlnArgGlyPheProHisArgGlyCys… x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 PDB EVA(3/3/2001)-Daten:77.67%[Pollastri,Przybylski,Rost,Baldi,PROTEINS 47:228-235,2002] vgl.: PROF1 76.8%, PHDpsi 74.7% FB Mathematik, Universität Bielefeld

  17. f:ℝn+2cℝc g:ℝcℝo Rekursive Netze (RekNN)… Ein. gerichtete azyklische Graphen über ℝn mit einem Startknoten und fan-out ≤ 2 Ausgabe Kont. g◦frec:(ℝn)2*ℝo Kont. mit frec:(ℝn)2*ℝc als frec(ξ) = 0 frec(a(l,r)) = f(a,frec(l),frec(r)) FB Mathematik, Universität Bielefeld

  18. … und deren Training … • Ziel: unbekanntes f:(ℝn)2*ℝo ist zu lernen • Beispiele f(x1),…,f(xm) sind verfügbar • Training: • Auswahl einer Netzarchitektur • Optimieren der Gewichte durch Minimieren des Fehlers auf den Trainingsdaten • Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge • ... nebenbei: rekursive Netze unterscheiden nicht zwischen Bäumen und Graphen FB Mathematik, Universität Bielefeld

  19. (x1,x1) (x2,x1) (x1,x3) (x1,x2) (x2,x2) … zur Prognose von Kontakten 1 0 0 0 0 0 0 0 0 0 … 0 1 0 0 0 0 0 0 1 1 … 0 0 1 0 0 0 0 0 1 0 … 0 0 0 1 0 0 0 0 0 0 … 0 0 0 0 1 1 0 0 0 0 … 0 0 0 0 1 1 1 0 0 0 … 0 0 0 0 0 1 1 1 0 0 … 0 0 0 0 0 0 1 1 1 0 … 0 1 1 0 0 0 0 1 1 1 … 0 1 0 0 0 0 0 0 1 1 … x1x2x3x4x5x6x7x8x9x10… x1x2x3x4x5x6x7x8x9x10… (x2,x3) x1x2x3x4x5x6x7x8x9x10… x1x2x3x4x5x6x7x8x9x10… d.h. f: (Aminosäuren2)2*  {0,1} ist zu lernen 0 FB Mathematik, Universität Bielefeld

  20. X1X2X3… X1X2X3… SSPro … zur Prognose von Kontakten x1x2x3x4x5x6x7x8x9x10… PDB PDBselect:(Ct,nCt,dist.truePos) 6Ǻ: 0.71,0.998,0.59 12Ǻ: 0.43,0.987,0.55 [Pollastri,Baldi,Vullo,Frasconi, NIPS2002] … FB Mathematik, Universität Bielefeld

  21. Mathematische Fragen beim Training … FB Mathematik, Universität Bielefeld

  22. Training - Architekturauswahl f: Xℝo ist zu lernen, gegeben f(x1),…,f(xm) • Architekturauswahl f ≫ε z.z. Approximationsvollständigkeit: Für jede (sinnvolle) Funktion f und jedes ε>0 gibt es ein Netz, daß f bis auf ε (in geeigneter Norm) approximiert FB Mathematik, Universität Bielefeld

  23. Approximationsergebnisse FNNs/RNNs[Hornik,Stinchcombe,White; Funahashi,Nakamura]:  … können jede stetige Funktion beliebig gut auf Kompakta und endlichem Zeithorizont bzgl. L1 approximieren (σ:squashing) RekNNs für Baumstrukturen [Hammer]:  … können jede stetige Funktion beliebig gut auf Kompakta und begrenzter Höhe bzgl. L1 approximieren (σ:squashing)  … können jede endliche Menge {f(x1),…,f(xm)} mit O(m2) Neuronen exakt interpolieren (σ:squashing, C2 in Umgebung von x mit σ‘‘(x)≠0) ... können nicht jede Funktion f:{1}2*{0,1} approximieren (bei realistischer Aktivierungsfunktion) FB Mathematik, Universität Bielefeld

  24. Training - Fehlerminimierung f:Xℝo ist zu lernen, gegeben f(x1),…,f(xm) • Architekturauswahl • Fehlerminimierung w E(w) Komplexität des Trainings: gegeben eine Architektur {fw|w} und eine Trainingsmenge, finde Parameter w so daß fw(xi) möglichst gut mit f(xi) übereinstimmt FB Mathematik, Universität Bielefeld

  25. Komplexitätsergebnisse Für feste Architektur mit Aktivierungsfunktion H:  … Training ist polynomiell Für variable FNN-Architekturen mit Aktivierungsfunktion H:  … optimale Parameter zu finden ist NP-hart[Judd]  … sogar für Architekturen {(n,2,1)|nℕ}[Blum,Rivest]  … sogar für Architekturen {(n,n1>1,n2,…,1)|nℕ}[Hammer] … sogar für logistische Aktivierungsfunktion statt H[Jones;Vu;Hammer] … sogar, wenn man nur approximative Lösungen sucht[Bartlett,Ben-David;DasGupta,Hammer] FB Mathematik, Universität Bielefeld

  26. Training - Validierung f:Xℝo ist zu lernen, gegeben f(x1),…,f(xm) • Architekturauswahl • Fehlerminimierung • Validierung TATATATATATATATA T A TATATATATATATA ? Trainingsfehler = Validierungsfehler << TATATATATATATATA T T CTACCACAGATATA SCCHRIII 12335ff FB Mathematik, Universität Bielefeld

  27. Lernbarkeit rekursiver Netzarchitekturen … FB Mathematik, Universität Bielefeld

  28. Lernszenario Funktionenklasse ℱ = { g:(ℝn)2* {0,1} | g } sei fest gewählt unbekannte Funktion f  ℱ sei zu lernen (alles sei meßbar) P℘unbekannte Verteilung auf (ℝn)2* für die Daten Lernalgorithmus: (x,f) = ((x1,f(x1)),…,(xm,f(xm))) mit x1,…,xm i.i.d. gemäß P h: Um((ℝn)2*x {0,1})m  ℱ, (x,f)  hm(x,f) hm(x,f) ≈ f für genügend große m FB Mathematik, Universität Bielefeld

  29. dP(f,g) =  |f(x)-g(x)| dP(x) dm(f,g,x) = i |f(xi)-g(xi)| / m Lernszenario • h ist PAC (probably approximately correct):⇔ ∀ℇ>0 supfℱ Pm(x | dP(f,hm(x,f)) > ℇ)  0 (m∞) „h generalisiert mit von der zu lernenden Funktion unabhängigen Schranken“ • ℱ ist PAC lernbar :⇔ ∃h: h PAC „es gibt einen guten Algorithmus“ • ℱ ist UCED (uniform convergence of empirical distances):⇔ ∀ℇ>0 Pm(x | ∃f,gℱ |dP(f,g)-dm(f,g,x)| > ℇ)  0 (m∞) „genau die Algorithmen mit kleinem Trainingsfehler sind gut“ FB Mathematik, Universität Bielefeld

  30. Lernszenario • h ist verteilungsunabhängigPAC :⇔ ∀ℇ>0 supp℘supfℱPm(x|dP(f,hm(x,f))>ℇ)  0 (m∞) • ℱ ist verteilungsunabhängigPAC lernbar :⇔ ∃h: h verteilungsunabhängig PAC • ℱ ist verteilungsunabhängigUCED:⇔ ∀ℇ>0 supp℘Pm(x|∃f,gℱ |dP(f,g)-dm(f,g,x)|>ℇ)  0 (m∞) FB Mathematik, Universität Bielefeld

  31. ℱ PAC ℱ UCED ℱ vert.unabh. PAC ℱ vert.unabh. UCED ~VC(ℱ) Beispiele VC(ℱ) < ∞ VC(ℱ) := max mℕ{∞}∃x1,…,xm ∀d:{x1,…,xm}  {0,1} ∃ fℱ: f|{x1,…,xm} = d „maximale Anzahl von Punkten, auf denen jede mögliche Abbildung durch ℱ realisiert werden kann“ FB Mathematik, Universität Bielefeld

  32. VC Dimension rekursiver Architekturen ℱ rekursive Netzarchitektur mit W Gewichten, N Neuronen Xt ⊂ (ℝn)2* Bäume der Maximalhöhe t VC(ℱ|Xt) = O(W·N+W·ln W+W·t) σ=H O(W2N222t) σ=sgd Ω(W·ln W+W·t) σ=H Ω(W·t2+W·ln W) σ=sgd FB Mathematik, Universität Bielefeld

  33. ℱ PAC ℱ UCED ℱ vert.unabh. PAC ℱ vert.unabh. UCED ÜberdeckungszahlN(ℇ,X,d):= minimale Anzahl Punkte, um X bis auf ℇ bzgl. d zu überdecken Fehlerwahrsch.UCED≤ Ex(N(ℇ/16,ℱ|x,d2m)2) exp(-mℇ2/32) limm∞Ex(log N(ℇ,ℱ|x,dm))/m0 „für allgemeine rekursive Netzarchitekturen kann es keine von der Verteilung unabhängigen a priori Schranken für den Generalisierungsfehler geben“ FB Mathematik, Universität Bielefeld

  34. UCED für rekursive Architekturen Sei pt:=P(Xt). Seien ℇ,δ>0. Gelte pT≥1-ℇ/8. Dann ist Pm(x |∃f,gℱ |dP(f,g)-dm(f,g,x)| > ℇ) ≤ δ für m = O(ℇ-2δ-1 + VC(ℱ|XT)·ℇ-2ln(ℇ-1ln ℇ-1)) FB Mathematik, Universität Bielefeld

  35. ℱ PAC ℱ UCED ℱ vert.unabh. PAC ℱ vert.unabh. UCED „jeder Algorithmus mit kleinem Fehler generalisiert, die Schranken hängen von der Verteilung ab“ ~VC(ℱ|XT) für pT≥1-ℇ/8 Aber: es gibtBeispiele, wo jeder Algorithmus für gute Generalisierung exponentiell viele Trainingsmuster benötigt. polynomiell, falls für ein β>0, c>0 gilt 1-pt<c·t-β, σ=H bzw.1-pt<c·2-2βt, σ=sgd FB Mathematik, Universität Bielefeld

  36. Lernbarkeit rekursiver Architekturen  … die VC Dimension hängt von den Eingaben ab, der Validierungsfehler kann nicht a priori unabhängig von der Verteilung abgeschätzt werden.  … jeder Algorithmus mit kleinem Trainingsfehler generalisiert, die Schranken hängen von der Verteilung ab.  ... a posteriori Schranken für beliebigen Lernalgorithmus h: inff Pm(x| |dm(f,hm(x,f),x)-dP(f,hm(x,f))| < ℇ(x)) >1-δ für ℇ2(x) = O(m-1log δ-1log m + d·m-1log(m·log m)), d=VC(ℱ|XT), T max.Höhe in x  … bzw. ℇ(x) = O(β + (β·log β-1+ log m(m-1log δ-1)0.5 + d·m-1log(m/β·log m/β))0.5), d=VC(ℱ|XT), T max.Höhe von Anteil (1-β) vonx  … analoge Ergebnisse gelten für Funktionenklassen und allgemeinere (z.B. Lipschitz-stetige) Fehlerfunktionen  … verteilungsunabhängig UCED kann in speziellen Situationen gelten, z.B. für rekurrente Netze mit Kontraktion … man kann nach dem Training den Fehler abschätzen, wenn man die Maximalhöhe in der Trainingsmenge kennt … sogar mit Schranken, die wirklich gegen Null gehen  … auch für die wirklich relevanten Szenarien geht‘s … [Hammer] bzw. [Hammer,Tino] FB Mathematik, Universität Bielefeld

  37. Generell … FB Mathematik, Universität Bielefeld

  38. Backpropagation-Netze für Strukturdaten  Selbst-organisierende Verfahren Anwendungen – z.B.Bioinformatik, Simulation biologischer Prozesse GRLVQfür technische Sys-teme, Bildverarbeitung, … SOMs mit Rekurrenz SVM, Reinforcementlearning, Lernen von Heuristiken z.B. für OR Kooperationen: USA, Leipzig,Prognost,Italien Kooperationen: Leipzig, Italien Kooperationen: USA, Indien, England Theorie – uniforme Formulierung, Kostenfunktion, induzierte Metrik, Topologieerhaltung Theorie – z.B.Lernbarkeit, Komplexität, Approximation Kooperationen: England, Bielefeld TODO: Theoretische Unter- suchung und Qualitäts-kriterien, Verbesserung und Anwendungen TODO: Verbesserte Trainingsalgorithmen mit Gütegarantien FB Mathematik, Universität Bielefeld

  39. ENDE! FB Mathematik, Universität Bielefeld

  40. FB Mathematik, Universität Bielefeld

  41. si+(2,4,6,…,2t) VC Dimension rekursiver Architekturen VC(ℱ|Xt) = Ω(W·ln W+W·t) für σ=H Bew: 00001111 00110011 01010101 w frek mit f(x,c1,c2)= (c1∨c2∨ x[0.5+2j,1.5+2j]) t-1 … fw(m,x,c1,c2)= (f(x,c1,c2)∧(m=w)) ∨ FNN für W·ln W FB Mathematik, Universität Bielefeld

  42. ℇ/4 ℇ/2 UCED für rekursive Architekturen Sei pt:=P(Xt). Seien ℇ,δ>0. Gelte pT≥1-ℇ/8. Dann ist Pm(x |∃f,gℱ |dP(f,g)-dm(f,g,x)| > ℇ) ≤ δ für m = O(ℇ-2δ-1 + VC(ℱ|XT)·ℇ-2ln(ℇ-1ln ℇ-1)) Bew: Pm(x |∃f,gℱ |dP(f,g)-dm(f,g,x)| > ℇ) ≤ Pm(x | <m‘ Punkte aus x in XT)) m‘:=m(1-ℇ/4) P‘:=P|XT + P‘m‘(x‘ |∃f,gℱ|XT |dP‘(f,g)-dm‘(f,g,x‘)| > ℇ/4)) ≤ pt(1-pt)/(m‘ℇ2) + 2Ex‘(2N(ℇ/64,ℱ|x‘,d2m‘)2)exp(-m‘ℇ2/512) ≤ pt(1-pt)/(m‘ℇ2) + 4(256 e/ℇ·ln(256 e/ℇ))dexp(-m‘ℇ2/512) d=VC(ℱ|XT) FB Mathematik, Universität Bielefeld

More Related