190 likes | 323 Views
Lecture 8: Maschinelles Lernen mit multiplen Kernen. Marius Kloft HU Berlin. TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: A A. Maschinelles Lernen. Beispiel Erkennung von Objekten in Bildern. Zielstellung
E N D
Lecture 8:Maschinelles Lernen mit multiplen Kernen Marius Kloft HU Berlin TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA
Maschinelles Lernen • Beispiel • Erkennung von Objekten in Bildern • Zielstellung • Erlernen des Zusammen-hangeszweierZufallsgrößenund • auf Grundlage von Beobach-tungen • KernbasiertesLernen: Weitere Beispiele
Kernbasiertes Lernen • Kernbasiertes Lernen • Daten • Klassenzugehörigkeiten • Kern ist eine Funktion • so dass eine Abbildung existiert mit • Kernbasiertes Lernen: • Erlernen linearer Trennung im Merkmalsraum • Nicht-lineare Trennung im Ursprungsraum • Mathematisches Programm
Multiple Sichtweisen / Kerne • (Lanckriet et al., JMLR 2004) Weitere Bsp.: • Verschiedene genomische Signale • Multimodale Robotikdaten • Messdaten Verschiedener Fernerkundungssensoren Raum Form Sichtweisen wie kombinieren? Gewichtungen Farbe
Bestimmung der Gewichte? • Bisher • „Spärliche“ Gewichtungen • Kerne / Sichtweisen werden komplett ausgeschaltet • Kann nachteilhaft sein JOKE hier wär nicht schlecht
Von der Vision zur Wirklichkeit? • Bisher: Spärliches Verfahren • Wiederholt von ungewichtetem Verfahren übertroffen • Nun: Neue Methodologie • Effiziente nicht-spärliche Informationsfusion • (Gehler et al., Noble et al., Shawe-Taylor et al., NIPS 2008, Cortes et al., ICML 2009) • (K., 2011,2012,2013; K. et al., 2009a/b,2010, 2011, 2012, 2013) • Biologie & Maschi-nelles Sehen • Effiziente Algorithmen • Schärfere Lern-schranken: O(M/n)
Vorstellung der Methodologie Nicht-spärlichesLernenmitmehrerenKernen
NeueMethodologie • Kloft et al.,ECML 2010, JMLR 2011 Raum Form • Generelle Formulierung • Erstmalig beliebiger Verlust • Erstmalig beliebige Normen • z. B. lp-Normen: • Lernen mit mehreren Kernen • GegebenKerne • Betrachte gewichtete Summe ~ gewichtete Merkmalsräume • Gewichte bestimmen? • Mathematisches Programm Farbe OptimierungüberGewichte
Optimierung • (Kloft et al.,JMLR 2011) • Algorithmen • Newton-Methode • Sequentielle, quadratisch-bedingte Programmierung • Blockkoordinaten-Algorithmus • Alterniere • Optimiere bezüglich w • Optimiere bezüglich %: Bis Konvergenz (bewiesen) • Implementierung • In C++ (“SHOGUN Toolbox”) • Matlab/Octave/Python/R support • Laufzeit: ~ 1-2 Größenordnungen effizienter • (Skizze) • (Kloft, Mohri, Cortes, NIPS 2013 submitted)
Theoretische Fundamente • Kloft & Blanchard, NIPS 2011 & JMLR 2012 • Theorem (Kloft & Blanchard) • Konvergenz mit Rate • bisher beste Rate: • Üblicherweise • Zwei Größenordnungen besser für • Beweis der Optimalität der Rate • Theoretische Klärung • Aktives Thema • Präliminarien • Sei die Ausgabe der Multi-Kern-Lernmaschine (vorige Folie) • Konvergenz gegen Ausgabe der theoretisch-optimalen Maschine? • Kloft, Bach, et al., NIPS Workshop on New Directions in Multiple Kernel Learning, 2010 • (Cortes et al., ICML 2010)
Theoretische Fundamente • Konvergenzrate durch Eigenwerte bestimmt • Sei j-ter Eigenwert des m-ten Kerns • Bisher beste Konvergenzrate: • Neue Rate: für beliebige gilt • Wähle . Konvergenzrate • Cortes et al., ICML 2010 • Kloft & Blan- • chard, JMLR 2012 • Für z.B. Gausskerne • j-ter Ei- • genwert • (sortiert) • Index j
Anwendungsgebiet: Maschinelles Sehen • Binder, Kloft, et al., PLoS One, 2012 • Visuelle Objekterkennung • Zielstellung: Annotation visueller Medien (z.B. Bilder): • Motivation: • inhaltsbasierter Bildzugriff • Flugzeug Fahrrad Vogel
Anwendungsgebiet: Maschinelles Sehen • Binder, Kloft, et al., PLoS One, 2012 • Visuelle Objekterkennung • Zielstellung: Annotation visueller Medien (z.B. Bilder): • Motivation: • inhaltsbasierter Bildzugriff • Multiple Kerne • basierend auf • Pixelfarben • Formen (Gradienten) • lokale Merkmale (SIFT-Wörter) • räumliche Merkmale • Empirische Analyse • Datensatz: PASCAL VOC’08 • Genauigkeitsgewinn gegenüber uniformer Kerngewichtung: Gewinner: ImageCLEF 2011 Photo Annotation challenge!
Weitere Anwendungsgebiete • Methodik ist generell • Weitere Anwendungsbereiche? • Text und Speech Mining • Bag of Words, n-Grams, Grammatik, Semantik, ... • Neurowissenschaften & Robotik • Multiple Modalitäten • Biologie / Genetik • Zielstellung: • Prädiktion von Phenotyp • Multiple, heterogene Daten • Genomische Signale (DNA) • SNPs, CNVs, Sequenzmotive • RNA und Protein Expression • Klinische Patientendaten • Messungen, Diagnosen, demographische Daten, ...
Anwendungsgebiet: Bioinformatik • K. et al., NIPS 2009, JMLR 2011 • Generkennung – Detektion von • Transkriptionsstartpunkten: • mittels Kernen basierend auf: • Sequenzalignment • Nukleotidverteilung • downstream, upstream • Faltungseigenschaften • Bindungsenergien, Winkel • Empirische Analyse • Detektionsgenauigkeit (AUC): • ARTS Gewinner eines Vergleichs von 19 Modellen • Höhere Genauigkeiten durch nicht-spärliches Verfahren • Abb. aus Alberts et al. (2002) • (Sonnenburg et al., 2006) • (Abeel et al., 2009)
Anwendungsgebiet: Bioinformatik • K., 2011 • Vorhersage von Proteinfaltungs-klassen • Faltungsklasse eines Proteins beeinflusst dessen Funktion • Von Bedeutung bei der Entwicklung von Arzneimitteln • Datensatz: Ying et al., 2009 • 27 Klassen • 12 Kerne • Primärstruktur (Strings), Hydrophobizität, Polarität, … • Vorhersagegenauigkeit • 6% höhere Genauigkeit durch vorgeschlagenes, nicht-spärliches Verfahren • Primär-struktur
Zusammenfassung Visuelle Objekterkennung Gewinner des Image-CLEF Wettbewerbs Bioinformatik Genauerer TSS-Er-kenner als Gewinner internat. Vergleichs Appli- kationen Algorithmen Lernschranken
Ausgewählte relevante Arbeiten • Kloft, Brefeld, Sonnenburg, Zien (2011). Lp-Norm Multiple Kernel Learning. Journal of Machine Learning Research (JMLR), 12(Mar):953-997. • Kloft , Blanchard (2012). On the Convergence Rate of Lp-norm Multiple Kernel Learning. Journal of Machine Learning Research (JMLR), 13(Aug):2465-2502. • Kloft, Laskov (2012). Security Analysis of Centroid-based Online Anomaly Detection. Journal of Machine Learning Research (JMLR), 13(Dec):3647-3690. • Kloft, Brefeld, Sonnenburg, Laskov, Müller, Zien (2009).Efficient and Accurate Lp-norm Multiple Kernel Learning. Advances in Neural Information Processing Systems 22 (NIPS 2009):997-1005. • Kloft and Blanchard (2011).The Local Rademacher Complexity of Lp-Norm Multiple Kernel Learning. Advances in Neural Information Processing Systems 24 (NIPS 2011), pages 2438-2446. • Kloft, Mohri, Cortes (2013). Learning Kernels Using Local Rademacher Complexity. Advances in Neural Information Processing Systems 26 (NIPS 2013), submitted. • Kloft, Rückert, Bartlett (2010). A Unifying View of Multiple Kernel Learning. Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases, ECML 2010: 66-81. • Kloft (2011). Lp-norm Multiple Kernel Learning. Dissertation, Technische Universität Berlin, Oct 2011. • Kloft (2012). Maschinelles Lernen mit Multiplen Kernen. Hölldobler et al.: Ausgezeichnete Informatikdissertationen (LNI D-12), 111-120. • Kloft (2013). Kernel-based Machine Learning with Multiple Sources of Information. Information Technology, 55(2):76-80. • Kloft, Brefeld, Laskov, Sonnenburg (2008).Non-sparse Multiple Kernel Learning. Proceedings of the NIPS 2008 Workshop on Kernel Learning: Automatic Selection of Kernels. • Binder, Nakajima, Kloft, Müller, Samek, Brefeld, Müller, Kawanabe (2012). Insights from Classifying Visual Concepts with Multiple Kernel Learning. PLoS ONE 7(8):e38897. • Jessen, Kloft, Zien, Sonnenburg, Müller (2012). A Scatter-Based Prototype Framework and Multi-Class Extension of Support Vector Machines. PLoS ONE 7(10):e42947. • Widmer, Kloft, Rätsch. Multi-task Multiple Kernel Learning. Journal of Machine Learning Research, forthcoming. • Widmer, Kloft, Görnitz, Rätsch (2012). Efficient Training of Graph-Regularized Multitask SVMs.Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases, ECML 2012: 633-647.
Externe Referenzen • Abeel, Van de Peer, and Saeys(2009).Toward a gold standard for promoter prediction evaluation. Bioinformatics, pages i313-i320. • Bach, Lanckriet, and Jordan (2004).Multiple kernel learning, conic duality, and the SMO. Proceedings of the 21th International Conference on Machine Learning (ICML 2004). • Lanckriet, Cristianini, Bartlett, El Ghaoui, and Jordan (2004). Learning the Kernel Matrix with Semidefinite Programming. Journal of Machine Learning Research (JMLR). • Yang, Huang, and Campbell (2009). Enhanced protein fold recognition through a novel data integration approach. BMC Bioinformatics, 10:267.