1 / 19

Lecture 8: Maschinelles Lernen mit multiplen Kernen

Lecture 8: Maschinelles Lernen mit multiplen Kernen. Marius Kloft HU Berlin. TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: A A. Maschinelles Lernen. Beispiel Erkennung von Objekten in Bildern. Zielstellung

viveka
Download Presentation

Lecture 8: Maschinelles Lernen mit multiplen Kernen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Lecture 8:Maschinelles Lernen mit multiplen Kernen Marius Kloft HU Berlin TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA

  2. Maschinelles Lernen • Beispiel • Erkennung von Objekten in Bildern • Zielstellung • Erlernen des Zusammen-hangeszweierZufallsgrößenund • auf Grundlage von Beobach-tungen • KernbasiertesLernen: Weitere Beispiele

  3. Kernbasiertes Lernen • Kernbasiertes Lernen • Daten • Klassenzugehörigkeiten • Kern ist eine Funktion • so dass eine Abbildung existiert mit • Kernbasiertes Lernen: • Erlernen linearer Trennung im Merkmalsraum • Nicht-lineare Trennung im Ursprungsraum • Mathematisches Programm

  4. Multiple Sichtweisen / Kerne • (Lanckriet et al., JMLR 2004) Weitere Bsp.: • Verschiedene genomische Signale • Multimodale Robotikdaten • Messdaten Verschiedener Fernerkundungssensoren  Raum Form Sichtweisen wie kombinieren? Gewichtungen Farbe

  5. Bestimmung der Gewichte? • Bisher • „Spärliche“ Gewichtungen • Kerne / Sichtweisen werden komplett ausgeschaltet • Kann nachteilhaft sein JOKE hier wär nicht schlecht

  6. Von der Vision zur Wirklichkeit? • Bisher: Spärliches Verfahren • Wiederholt von ungewichtetem Verfahren übertroffen • Nun: Neue Methodologie • Effiziente nicht-spärliche Informationsfusion • (Gehler et al., Noble et al., Shawe-Taylor et al., NIPS 2008, Cortes et al., ICML 2009) • (K., 2011,2012,2013; K. et al., 2009a/b,2010, 2011, 2012, 2013) • Biologie & Maschi-nelles Sehen • Effiziente Algorithmen • Schärfere Lern-schranken: O(M/n)

  7. Vorstellung der Methodologie Nicht-spärlichesLernenmitmehrerenKernen

  8. NeueMethodologie • Kloft et al.,ECML 2010, JMLR 2011 Raum Form • Generelle Formulierung • Erstmalig beliebiger Verlust • Erstmalig beliebige Normen • z. B. lp-Normen: • Lernen mit mehreren Kernen • GegebenKerne • Betrachte gewichtete Summe ~ gewichtete Merkmalsräume • Gewichte bestimmen? • Mathematisches Programm Farbe OptimierungüberGewichte

  9. Optimierung • (Kloft et al.,JMLR 2011) • Algorithmen • Newton-Methode • Sequentielle, quadratisch-bedingte Programmierung • Blockkoordinaten-Algorithmus • Alterniere • Optimiere bezüglich w • Optimiere bezüglich %: Bis Konvergenz (bewiesen) • Implementierung • In C++ (“SHOGUN Toolbox”) • Matlab/Octave/Python/R support • Laufzeit: ~ 1-2 Größenordnungen effizienter • (Skizze) • (Kloft, Mohri, Cortes, NIPS 2013 submitted)

  10. Theoretische Fundamente • Kloft & Blanchard, NIPS 2011 & JMLR 2012 • Theorem (Kloft & Blanchard) • Konvergenz mit Rate • bisher beste Rate: • Üblicherweise • Zwei Größenordnungen besser für • Beweis der Optimalität der Rate • Theoretische Klärung • Aktives Thema • Präliminarien • Sei die Ausgabe der Multi-Kern-Lernmaschine (vorige Folie) • Konvergenz gegen Ausgabe der theoretisch-optimalen Maschine? • Kloft, Bach, et al., NIPS Workshop on New Directions in Multiple Kernel Learning, 2010 • (Cortes et al., ICML 2010)

  11. Theoretische Fundamente • Konvergenzrate durch Eigenwerte bestimmt • Sei j-ter Eigenwert des m-ten Kerns • Bisher beste Konvergenzrate: • Neue Rate: für beliebige gilt • Wähle . Konvergenzrate • Cortes et al., ICML 2010 • Kloft & Blan- • chard, JMLR 2012 • Für z.B. Gausskerne • j-ter Ei- • genwert • (sortiert) • Index j

  12. Anwendungsgebiet: Maschinelles Sehen • Binder, Kloft, et al., PLoS One, 2012 • Visuelle Objekterkennung • Zielstellung: Annotation visueller Medien (z.B. Bilder): • Motivation: •  inhaltsbasierter Bildzugriff • Flugzeug Fahrrad Vogel

  13. Anwendungsgebiet: Maschinelles Sehen • Binder, Kloft, et al., PLoS One, 2012 • Visuelle Objekterkennung • Zielstellung: Annotation visueller Medien (z.B. Bilder): • Motivation: •  inhaltsbasierter Bildzugriff • Multiple Kerne • basierend auf • Pixelfarben • Formen (Gradienten) • lokale Merkmale (SIFT-Wörter) • räumliche Merkmale • Empirische Analyse • Datensatz: PASCAL VOC’08 • Genauigkeitsgewinn gegenüber uniformer Kerngewichtung: Gewinner: ImageCLEF 2011 Photo Annotation challenge!

  14. Weitere Anwendungsgebiete • Methodik ist generell • Weitere Anwendungsbereiche? • Text und Speech Mining • Bag of Words, n-Grams, Grammatik, Semantik, ... • Neurowissenschaften & Robotik • Multiple Modalitäten • Biologie / Genetik • Zielstellung: • Prädiktion von Phenotyp • Multiple, heterogene Daten • Genomische Signale (DNA) • SNPs, CNVs, Sequenzmotive • RNA und Protein Expression • Klinische Patientendaten • Messungen, Diagnosen, demographische Daten, ...

  15. Anwendungsgebiet: Bioinformatik • K. et al., NIPS 2009, JMLR 2011 • Generkennung – Detektion von • Transkriptionsstartpunkten: • mittels Kernen basierend auf: • Sequenzalignment • Nukleotidverteilung • downstream, upstream • Faltungseigenschaften • Bindungsenergien, Winkel • Empirische Analyse • Detektionsgenauigkeit (AUC): • ARTS Gewinner eines Vergleichs von 19 Modellen • Höhere Genauigkeiten durch nicht-spärliches Verfahren • Abb. aus Alberts et al. (2002) • (Sonnenburg et al., 2006) • (Abeel et al., 2009)

  16. Anwendungsgebiet: Bioinformatik • K., 2011 • Vorhersage von Proteinfaltungs-klassen • Faltungsklasse eines Proteins beeinflusst dessen Funktion • Von Bedeutung bei der Entwicklung von Arzneimitteln • Datensatz: Ying et al., 2009 • 27 Klassen • 12 Kerne • Primärstruktur (Strings), Hydrophobizität, Polarität, … • Vorhersagegenauigkeit • 6% höhere Genauigkeit durch vorgeschlagenes, nicht-spärliches Verfahren • Primär-struktur

  17. Zusammenfassung Visuelle Objekterkennung Gewinner des Image-CLEF Wettbewerbs Bioinformatik Genauerer TSS-Er-kenner als Gewinner internat. Vergleichs Appli- kationen Algorithmen Lernschranken

  18. Ausgewählte relevante Arbeiten • Kloft, Brefeld, Sonnenburg, Zien (2011). Lp-Norm Multiple Kernel Learning. Journal of Machine Learning Research (JMLR), 12(Mar):953-997. • Kloft , Blanchard (2012). On the Convergence Rate of Lp-norm Multiple Kernel Learning. Journal of Machine Learning Research (JMLR), 13(Aug):2465-2502. • Kloft, Laskov (2012). Security Analysis of Centroid-based Online Anomaly Detection. Journal of Machine Learning Research (JMLR), 13(Dec):3647-3690. • Kloft, Brefeld, Sonnenburg, Laskov, Müller, Zien (2009).Efficient and Accurate Lp-norm Multiple Kernel Learning. Advances in Neural Information Processing Systems 22 (NIPS 2009):997-1005. • Kloft and Blanchard (2011).The Local Rademacher Complexity of Lp-Norm Multiple Kernel Learning. Advances in Neural Information Processing Systems 24 (NIPS 2011), pages 2438-2446. • Kloft, Mohri, Cortes (2013). Learning Kernels Using Local Rademacher Complexity. Advances in Neural Information Processing Systems 26 (NIPS 2013), submitted. • Kloft, Rückert, Bartlett (2010). A Unifying View of Multiple Kernel Learning. Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases, ECML 2010: 66-81. • Kloft (2011). Lp-norm Multiple Kernel Learning. Dissertation, Technische Universität Berlin, Oct 2011. • Kloft (2012). Maschinelles Lernen mit Multiplen Kernen. Hölldobler et al.: Ausgezeichnete Informatikdissertationen (LNI D-12), 111-120. • Kloft (2013). Kernel-based Machine Learning with Multiple Sources of Information. Information Technology, 55(2):76-80. • Kloft, Brefeld, Laskov, Sonnenburg (2008).Non-sparse Multiple Kernel Learning. Proceedings of the NIPS 2008 Workshop on Kernel Learning: Automatic Selection of Kernels. • Binder, Nakajima, Kloft, Müller, Samek, Brefeld, Müller, Kawanabe (2012). Insights from Classifying Visual Concepts with Multiple Kernel Learning. PLoS ONE 7(8):e38897. • Jessen, Kloft, Zien, Sonnenburg, Müller (2012). A Scatter-Based Prototype Framework and Multi-Class Extension of Support Vector Machines. PLoS ONE 7(10):e42947. • Widmer, Kloft, Rätsch. Multi-task Multiple Kernel Learning. Journal of Machine Learning Research, forthcoming. • Widmer, Kloft, Görnitz, Rätsch (2012). Efficient Training of Graph-Regularized Multitask SVMs.Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases, ECML 2012: 633-647.

  19. Externe Referenzen • Abeel, Van de Peer, and Saeys(2009).Toward a gold standard for promoter prediction evaluation. Bioinformatics, pages i313-i320. • Bach, Lanckriet, and Jordan (2004).Multiple kernel learning, conic duality, and the SMO. Proceedings of the 21th International Conference on Machine Learning (ICML 2004). • Lanckriet, Cristianini, Bartlett, El Ghaoui, and Jordan (2004). Learning the Kernel Matrix with Semidefinite Programming. Journal of Machine Learning Research (JMLR). • Yang, Huang, and Campbell (2009). Enhanced protein fold recognition through a novel data integration approach. BMC Bioinformatics, 10:267.

More Related