420 likes | 578 Views
Strukturverarbeitende Neuronale Netze. Barbara Hammer, AG LNM, Universität Osnabrück. Überblick. Einige Probleme aus der Bioinformatik Lösungsansätze mithilfe neuronaler Netze Mathematische Fragen beim Training Lernbarkeit rekursiver Netzarchitekturen Generell ….
E N D
Strukturverarbeitende Neuronale Netze Barbara Hammer, AG LNM, Universität Osnabrück FB Mathematik, Universität Bielefeld
Überblick • Einige Probleme aus der Bioinformatik • Lösungsansätze mithilfe neuronaler Netze • Mathematische Fragen beim Training • Lernbarkeit rekursiver Netzarchitekturen • Generell … FB Mathematik, Universität Bielefeld
Einige Probleme aus der Bioinformatik … FB Mathematik, Universität Bielefeld
Backhefe Mehl ? Zucker Wasser FB Mathematik, Universität Bielefeld
DNA Transkription: die DNA wird komplementär kopiert, … … bindet an Promoter. …TCGACTCCGTATTCGAC… CUAGUCUU ACGCCUAGU… …Introns werden abgespalten… RNA-Polymerase …und die mRNA verläßt den Zellkern. FB Mathematik, Universität Bielefeld
Ser Gln Arg Gly Phe Pro His Arg Gly Cys ...das Protein faltet sich zu einer 3D Struktur… …UCACAGAGAGGUUUCCCUCACAGAGGGUUU… .. und steuert komplexe Prozesse. Translation: Ribosomen bilden Codons auf Aminosäuren ab, ... FB Mathematik, Universität Bielefeld
Einige Probleme … S.Cerevisiae ist seit 4/96 sequenziert (http://genome-www.stanford.edu/Saccharomyces) • Welche Abschnitte der DNA kodieren? • Promoter, Exon/Intron • Wie falten sich die Aminosäuren? • Sekundärstruktur, 3D-Struktur der Proteine FB Mathematik, Universität Bielefeld
Lösungsansätze mithilfe neuronaler Netze … FB Mathematik, Universität Bielefeld
x1 x2 xn Ein Neuron w1 w2 θ σ(wtx - θ) … σ(t) = H(t) mit H(t) = 0 für t≤0 H(t) = 1 für t>0 wn σ(t) = sgd(t) = (1+e-t)-1 FB Mathematik, Universität Bielefeld
Vorwärtsgerichtete neuronale Netze (FNN)… y x fw :ℝn ℝo FB Mathematik, Universität Bielefeld
… und deren Training … • Ziel: unbekanntes f:ℝn ℝo ist zu lernen • Beispiele f(x1),…,f(xm) sind verfügbar • Training: • Auswahl einer Netzarchitektur { fw | wℝW } • Optimieren der Gewichte w durch Minimieren des Fehlers ∑ (f(xi) - fw(xi)) 2 auf den Trainingsdaten • Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge fw ≈ f FB Mathematik, Universität Bielefeld
… … Exon … G U … Intron … A G … Exon (0,0,0,1 ;0,0,1,0 ;0,1,0,0 ;0,0,0,1) 0 0 0 1 1 0 … zum Erkennen von Spleißstellen (1,0) d.h. f: ℝ4k ℝ2 ist zu lernen Beispielergebnisse (missed Pos/false Pos in %): NetGene2: 6.4/4.6, 6.0/2.5 [Brunak et al.] aus [Pertea,Lin,Salzberg,Nucleid Acid Research 29(5):1185-1190, 2001] FB Mathematik, Universität Bielefeld
f:ℝn+cℝc Eingabe g:ℝcℝo Ausgabe Kontext Partiell rekurrente Netze (RNN)… Sequenzen über ℝn g◦frec:(ℝn)*ℝo mit frec:(ℝn)*ℝc als frec([ ])=0 frec([x|a])=f(x,frec(a)) FB Mathematik, Universität Bielefeld
… und deren Training … • Ziel: unbekanntes f:(ℝn)*ℝo ist zu lernen • Beispiele f(x1),…,f(xm) sind verfügbar • Training: • Auswahl einer Netzarchitektur • Optimieren der Gewichte durch Minimieren des Fehlers auf den Trainingsdaten • Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge FB Mathematik, Universität Bielefeld
α-helix 00000010.. 01000000.. 00010000.. … … zur Prognose der Sekundärstruktur von Proteinen γ-coil …SerGlnArgGlyPheProHisArgGlyCys… β-sheet …ααβββββββγ… d.h. f: Aminosäuren* {α,β,γ} ist zu lernen 010 FB Mathematik, Universität Bielefeld
… zur Prognose der Sekundärstruktur von Proteinen …SerGlnArgGlyPheProHisArgGlyCys… x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 PDB EVA(3/3/2001)-Daten:77.67%[Pollastri,Przybylski,Rost,Baldi,PROTEINS 47:228-235,2002] vgl.: PROF1 76.8%, PHDpsi 74.7% FB Mathematik, Universität Bielefeld
f:ℝn+2cℝc g:ℝcℝo Rekursive Netze (RekNN)… Ein. gerichtete azyklische Graphen über ℝn mit einem Startknoten und fan-out ≤ 2 Ausgabe Kont. g◦frec:(ℝn)2*ℝo Kont. mit frec:(ℝn)2*ℝc als frec(ξ) = 0 frec(a(l,r)) = f(a,frec(l),frec(r)) FB Mathematik, Universität Bielefeld
… und deren Training … • Ziel: unbekanntes f:(ℝn)2*ℝo ist zu lernen • Beispiele f(x1),…,f(xm) sind verfügbar • Training: • Auswahl einer Netzarchitektur • Optimieren der Gewichte durch Minimieren des Fehlers auf den Trainingsdaten • Bewerten des Ergebnis durch den Fehler auf einer nicht zum Training benutzten Validierungsmenge • ... nebenbei: rekursive Netze unterscheiden nicht zwischen Bäumen und Graphen FB Mathematik, Universität Bielefeld
(x1,x1) (x2,x1) (x1,x3) (x1,x2) (x2,x2) … zur Prognose von Kontakten 1 0 0 0 0 0 0 0 0 0 … 0 1 0 0 0 0 0 0 1 1 … 0 0 1 0 0 0 0 0 1 0 … 0 0 0 1 0 0 0 0 0 0 … 0 0 0 0 1 1 0 0 0 0 … 0 0 0 0 1 1 1 0 0 0 … 0 0 0 0 0 1 1 1 0 0 … 0 0 0 0 0 0 1 1 1 0 … 0 1 1 0 0 0 0 1 1 1 … 0 1 0 0 0 0 0 0 1 1 … x1x2x3x4x5x6x7x8x9x10… x1x2x3x4x5x6x7x8x9x10… (x2,x3) x1x2x3x4x5x6x7x8x9x10… x1x2x3x4x5x6x7x8x9x10… d.h. f: (Aminosäuren2)2* {0,1} ist zu lernen 0 FB Mathematik, Universität Bielefeld
X1X2X3… X1X2X3… SSPro … zur Prognose von Kontakten x1x2x3x4x5x6x7x8x9x10… PDB PDBselect:(Ct,nCt,dist.truePos) 6Ǻ: 0.71,0.998,0.59 12Ǻ: 0.43,0.987,0.55 [Pollastri,Baldi,Vullo,Frasconi, NIPS2002] … FB Mathematik, Universität Bielefeld
Mathematische Fragen beim Training … FB Mathematik, Universität Bielefeld
Training - Architekturauswahl f: Xℝo ist zu lernen, gegeben f(x1),…,f(xm) • Architekturauswahl f ≫ε z.z. Approximationsvollständigkeit: Für jede (sinnvolle) Funktion f und jedes ε>0 gibt es ein Netz, daß f bis auf ε (in geeigneter Norm) approximiert FB Mathematik, Universität Bielefeld
Approximationsergebnisse FNNs/RNNs[Hornik,Stinchcombe,White; Funahashi,Nakamura]: … können jede stetige Funktion beliebig gut auf Kompakta und endlichem Zeithorizont bzgl. L1 approximieren (σ:squashing) RekNNs für Baumstrukturen [Hammer]: … können jede stetige Funktion beliebig gut auf Kompakta und begrenzter Höhe bzgl. L1 approximieren (σ:squashing) … können jede endliche Menge {f(x1),…,f(xm)} mit O(m2) Neuronen exakt interpolieren (σ:squashing, C2 in Umgebung von x mit σ‘‘(x)≠0) ... können nicht jede Funktion f:{1}2*{0,1} approximieren (bei realistischer Aktivierungsfunktion) FB Mathematik, Universität Bielefeld
Training - Fehlerminimierung f:Xℝo ist zu lernen, gegeben f(x1),…,f(xm) • Architekturauswahl • Fehlerminimierung w E(w) Komplexität des Trainings: gegeben eine Architektur {fw|w} und eine Trainingsmenge, finde Parameter w so daß fw(xi) möglichst gut mit f(xi) übereinstimmt FB Mathematik, Universität Bielefeld
Komplexitätsergebnisse Für feste Architektur mit Aktivierungsfunktion H: … Training ist polynomiell Für variable FNN-Architekturen mit Aktivierungsfunktion H: … optimale Parameter zu finden ist NP-hart[Judd] … sogar für Architekturen {(n,2,1)|nℕ}[Blum,Rivest] … sogar für Architekturen {(n,n1>1,n2,…,1)|nℕ}[Hammer] … sogar für logistische Aktivierungsfunktion statt H[Jones;Vu;Hammer] … sogar, wenn man nur approximative Lösungen sucht[Bartlett,Ben-David;DasGupta,Hammer] FB Mathematik, Universität Bielefeld
Training - Validierung f:Xℝo ist zu lernen, gegeben f(x1),…,f(xm) • Architekturauswahl • Fehlerminimierung • Validierung TATATATATATATATA T A TATATATATATATA ? Trainingsfehler = Validierungsfehler << TATATATATATATATA T T CTACCACAGATATA SCCHRIII 12335ff FB Mathematik, Universität Bielefeld
Lernbarkeit rekursiver Netzarchitekturen … FB Mathematik, Universität Bielefeld
Lernszenario Funktionenklasse ℱ = { g:(ℝn)2* {0,1} | g } sei fest gewählt unbekannte Funktion f ℱ sei zu lernen (alles sei meßbar) P℘unbekannte Verteilung auf (ℝn)2* für die Daten Lernalgorithmus: (x,f) = ((x1,f(x1)),…,(xm,f(xm))) mit x1,…,xm i.i.d. gemäß P h: Um((ℝn)2*x {0,1})m ℱ, (x,f) hm(x,f) hm(x,f) ≈ f für genügend große m FB Mathematik, Universität Bielefeld
dP(f,g) = |f(x)-g(x)| dP(x) dm(f,g,x) = i |f(xi)-g(xi)| / m Lernszenario • h ist PAC (probably approximately correct):⇔ ∀ℇ>0 supfℱ Pm(x | dP(f,hm(x,f)) > ℇ) 0 (m∞) „h generalisiert mit von der zu lernenden Funktion unabhängigen Schranken“ • ℱ ist PAC lernbar :⇔ ∃h: h PAC „es gibt einen guten Algorithmus“ • ℱ ist UCED (uniform convergence of empirical distances):⇔ ∀ℇ>0 Pm(x | ∃f,gℱ |dP(f,g)-dm(f,g,x)| > ℇ) 0 (m∞) „genau die Algorithmen mit kleinem Trainingsfehler sind gut“ FB Mathematik, Universität Bielefeld
Lernszenario • h ist verteilungsunabhängigPAC :⇔ ∀ℇ>0 supp℘supfℱPm(x|dP(f,hm(x,f))>ℇ) 0 (m∞) • ℱ ist verteilungsunabhängigPAC lernbar :⇔ ∃h: h verteilungsunabhängig PAC • ℱ ist verteilungsunabhängigUCED:⇔ ∀ℇ>0 supp℘Pm(x|∃f,gℱ |dP(f,g)-dm(f,g,x)|>ℇ) 0 (m∞) FB Mathematik, Universität Bielefeld
ℱ PAC ℱ UCED ℱ vert.unabh. PAC ℱ vert.unabh. UCED ~VC(ℱ) Beispiele VC(ℱ) < ∞ VC(ℱ) := max mℕ{∞}∃x1,…,xm ∀d:{x1,…,xm} {0,1} ∃ fℱ: f|{x1,…,xm} = d „maximale Anzahl von Punkten, auf denen jede mögliche Abbildung durch ℱ realisiert werden kann“ FB Mathematik, Universität Bielefeld
VC Dimension rekursiver Architekturen ℱ rekursive Netzarchitektur mit W Gewichten, N Neuronen Xt ⊂ (ℝn)2* Bäume der Maximalhöhe t VC(ℱ|Xt) = O(W·N+W·ln W+W·t) σ=H O(W2N222t) σ=sgd Ω(W·ln W+W·t) σ=H Ω(W·t2+W·ln W) σ=sgd FB Mathematik, Universität Bielefeld
ℱ PAC ℱ UCED ℱ vert.unabh. PAC ℱ vert.unabh. UCED ÜberdeckungszahlN(ℇ,X,d):= minimale Anzahl Punkte, um X bis auf ℇ bzgl. d zu überdecken Fehlerwahrsch.UCED≤ Ex(N(ℇ/16,ℱ|x,d2m)2) exp(-mℇ2/32) limm∞Ex(log N(ℇ,ℱ|x,dm))/m0 „für allgemeine rekursive Netzarchitekturen kann es keine von der Verteilung unabhängigen a priori Schranken für den Generalisierungsfehler geben“ FB Mathematik, Universität Bielefeld
UCED für rekursive Architekturen Sei pt:=P(Xt). Seien ℇ,δ>0. Gelte pT≥1-ℇ/8. Dann ist Pm(x |∃f,gℱ |dP(f,g)-dm(f,g,x)| > ℇ) ≤ δ für m = O(ℇ-2δ-1 + VC(ℱ|XT)·ℇ-2ln(ℇ-1ln ℇ-1)) FB Mathematik, Universität Bielefeld
ℱ PAC ℱ UCED ℱ vert.unabh. PAC ℱ vert.unabh. UCED „jeder Algorithmus mit kleinem Fehler generalisiert, die Schranken hängen von der Verteilung ab“ ~VC(ℱ|XT) für pT≥1-ℇ/8 Aber: es gibtBeispiele, wo jeder Algorithmus für gute Generalisierung exponentiell viele Trainingsmuster benötigt. polynomiell, falls für ein β>0, c>0 gilt 1-pt<c·t-β, σ=H bzw.1-pt<c·2-2βt, σ=sgd FB Mathematik, Universität Bielefeld
Lernbarkeit rekursiver Architekturen … die VC Dimension hängt von den Eingaben ab, der Validierungsfehler kann nicht a priori unabhängig von der Verteilung abgeschätzt werden. … jeder Algorithmus mit kleinem Trainingsfehler generalisiert, die Schranken hängen von der Verteilung ab. ... a posteriori Schranken für beliebigen Lernalgorithmus h: inff Pm(x| |dm(f,hm(x,f),x)-dP(f,hm(x,f))| < ℇ(x)) >1-δ für ℇ2(x) = O(m-1log δ-1log m + d·m-1log(m·log m)), d=VC(ℱ|XT), T max.Höhe in x … bzw. ℇ(x) = O(β + (β·log β-1+ log m(m-1log δ-1)0.5 + d·m-1log(m/β·log m/β))0.5), d=VC(ℱ|XT), T max.Höhe von Anteil (1-β) vonx … analoge Ergebnisse gelten für Funktionenklassen und allgemeinere (z.B. Lipschitz-stetige) Fehlerfunktionen … verteilungsunabhängig UCED kann in speziellen Situationen gelten, z.B. für rekurrente Netze mit Kontraktion … man kann nach dem Training den Fehler abschätzen, wenn man die Maximalhöhe in der Trainingsmenge kennt … sogar mit Schranken, die wirklich gegen Null gehen … auch für die wirklich relevanten Szenarien geht‘s … [Hammer] bzw. [Hammer,Tino] FB Mathematik, Universität Bielefeld
Generell … FB Mathematik, Universität Bielefeld
Backpropagation-Netze für Strukturdaten Selbst-organisierende Verfahren Anwendungen – z.B.Bioinformatik, Simulation biologischer Prozesse GRLVQfür technische Sys-teme, Bildverarbeitung, … SOMs mit Rekurrenz SVM, Reinforcementlearning, Lernen von Heuristiken z.B. für OR Kooperationen: USA, Leipzig,Prognost,Italien Kooperationen: Leipzig, Italien Kooperationen: USA, Indien, England Theorie – uniforme Formulierung, Kostenfunktion, induzierte Metrik, Topologieerhaltung Theorie – z.B.Lernbarkeit, Komplexität, Approximation Kooperationen: England, Bielefeld TODO: Theoretische Unter- suchung und Qualitäts-kriterien, Verbesserung und Anwendungen TODO: Verbesserte Trainingsalgorithmen mit Gütegarantien FB Mathematik, Universität Bielefeld
ENDE! FB Mathematik, Universität Bielefeld
si+(2,4,6,…,2t) VC Dimension rekursiver Architekturen VC(ℱ|Xt) = Ω(W·ln W+W·t) für σ=H Bew: 00001111 00110011 01010101 w frek mit f(x,c1,c2)= (c1∨c2∨ x[0.5+2j,1.5+2j]) t-1 … fw(m,x,c1,c2)= (f(x,c1,c2)∧(m=w)) ∨ FNN für W·ln W FB Mathematik, Universität Bielefeld
ℇ/4 ℇ/2 UCED für rekursive Architekturen Sei pt:=P(Xt). Seien ℇ,δ>0. Gelte pT≥1-ℇ/8. Dann ist Pm(x |∃f,gℱ |dP(f,g)-dm(f,g,x)| > ℇ) ≤ δ für m = O(ℇ-2δ-1 + VC(ℱ|XT)·ℇ-2ln(ℇ-1ln ℇ-1)) Bew: Pm(x |∃f,gℱ |dP(f,g)-dm(f,g,x)| > ℇ) ≤ Pm(x | <m‘ Punkte aus x in XT)) m‘:=m(1-ℇ/4) P‘:=P|XT + P‘m‘(x‘ |∃f,gℱ|XT |dP‘(f,g)-dm‘(f,g,x‘)| > ℇ/4)) ≤ pt(1-pt)/(m‘ℇ2) + 2Ex‘(2N(ℇ/64,ℱ|x‘,d2m‘)2)exp(-m‘ℇ2/512) ≤ pt(1-pt)/(m‘ℇ2) + 4(256 e/ℇ·ln(256 e/ℇ))dexp(-m‘ℇ2/512) d=VC(ℱ|XT) FB Mathematik, Universität Bielefeld