1 / 48

Datenanalyse und Musik

Datenanalyse und Musik. Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund www-ai.cs.uni-dortmund.de morik@ls8.cs.uni-dortmund.e. Überblick. Motivation Technische Grundlagen Arbeitsfelder Merkmalsextraktion für Audiodaten Unterstützung der Vorverarbeitung – Yale

mort
Download Presentation

Datenanalyse und Musik

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Datenanalyse und Musik Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund www-ai.cs.uni-dortmund.de morik@ls8.cs.uni-dortmund.e

  2. Überblick • Motivation • Technische Grundlagen • Arbeitsfelder • Merkmalsextraktion für Audiodaten • Unterstützung der Vorverarbeitung – Yale • Lernen der geeigneten Merkmalstransformation • Lernen aus heterogenen verteilten Audiobeständen NemOz • Verteiltes kollaboratives Clustering • Zusammenfassung

  3. Motivation – technische Grundlagen • Moving Pictures Expert Group Audio Layer 3Karlheinz Brandenburg, TU Ilmenau, Fraunhofer Inst.1987 – 89 Fraunhofer Erlangen u.a.Standard für Musik und Filme, min. 1/12 komprimiert • Tauschbörsen für Musik: • Napster 80 Mio. BenutzerNachfolger: Morpheus, Gnutella, KaZaA • KaZaA 500 Mio. Musikstücke • Privatsammlungen oft mehr als 10 000 Musikstücke • Speichern, Abspielen, GUI zum Anbieten von Musik

  4. Motivation -- Arbeitsfelder • Wissenschaftliche Untersuchung von MusikComputer Music Journal • Komposition • Interpretation (Gerhard Widmer)Der "Performance Worm": Eine Bewegung des Wurms nach rechts oben beschreibt ein gleichzeitiges Beschleunigen und Lauterwerden. Der dunkelste Punkt repräsentiert den gegenwärtigen Zeitpunkt, die Vergangenheit erscheint blasser. Typische Muster für Künstler finden.

  5. Motivation -- Arbeitsfelder • Untersuchung menschlichen Hörens, Akustik • Noten erkennen (Audio  Midi) • Music Information Retrieval (MIS) • Anfragen (über ID3 tags, query by humming) • Indexierung (semantic web über Metadaten, automatisch über Audiodaten) • Navigation gemäß Ähnlichkeit • Musikempfehlungen • Organisation von Musiksammlungen • Persönliche Taxonomien • Abspiellisten (persönliche, automatic DJ)

  6. Intelligente Systeme für Musik • Automatische Annotation von Musik Lernen von Metadaten • Klassifikation von Musik nach • Genre (nur noch als benchmark) • Benutzerpräferenzen • Gelegenheiten • Automatische Organisation von Sammlungen • Empfehlungen z.B. EU-Projekt SIMAChttp://www.semanticaudio.org/

  7. Technischer Kern • Audiodaten sind Zeitreihenunivariat: Elongation • Wir müssen Ähnlichkeiten von Zeitreihen erkennen • Indexing • Clustering

  8. Clustering von Zeitreihen – Standard So passen ähnliche Musikstücke nicht!

  9. Dynamic Time Warping So auch nicht!

  10. Technischer Kern • Merkmalsextraktion ist notwendig für • Annotation • Indexierung • Clustering • Klassifikation • Je Aufgabe unterschiedliche Merkmale nötig! • Klangähnlichkeit, Liedtexte, Kulturelle Metadaten (MPEER, Stephan Baumann) • Verschiedene Benutzer verwenden andere Merkmale(Klassifikation von Benutzerpräferenzen, Ingo Mierswa)

  11. Merkmalsextraktion • Paul-Taiwo, A. Sandler, M. B. Davies, M. E. 2004. Feature extractors for Music Information Retrieval: Noise Robustness. AES Convention • Gómez, E. Herrera, P. 2004. Automatic Extraction of Tonal Metadata from Polyphonic Audio Recordings. AES Conference • Pohle,T. Pampalk, E. Widmer, G. 2005. Evaluation of Frequently Used Audio Features. Workshop Content-Based Multimedia Indexing.

  12. Low Level Descriptors • Lautstärke • Spectral Centroid (Cepstral) • Mel Frequency Cepstral Coefficient (MFCC) • Zero Crossing Rate • Peaks: Amplitude, Zweithöchster/ Höchsten, Intervall zwischen Zweithöchstem und Höchstem

  13. High-Level Descriptors • Genre • Stimmung: glücklich, traurig, neutral • Tempo: sehr langsam – sehr schnell, variierend • Komplexität: gering, mittel, hoch • Gefühl: sanft, neutral, aggressiv • Fokus: Gesang, beides, Instrument Lernaufgabe: Klassifikation nach HLD, gegeben LLD Ergebnis: klappt nicht! Pohle et al. 2005

  14. Merkmalsextraktion lernen lassen! • Zils, A. Pachet, F. 2004. Automatic Extraction of Music Descriptors from Acoustic Signals. ISMIR • Mierswa, I. Morik, K. 2005. Automatic Feature Extraction for Classifying Audio Data. Machine Learning Journal, 58, 127 - 149. • Genetische Programmierung zur Optimierung der Merkmalsextraktion für eine Lernaufgabe! • Einzelbestandteile der LLD kombinieren lassen zu einem Merkmalsbaum, der ein Merkmal extrahiert.

  15. LLD Merkmale genauer -- Zeit • Merkmale in der Zeitdimension • mittlere Lautstärke • Extrema extrahieren und andere Werte null setzen Differenz zwischen den Extrema • Tempobestimmung (Autokorrelation verschobener Reihe) • Phasenverschiebung des Musikstückes um einen Takt. • Bestimmung der Autokorrelation durch Berechnung der gemittelten Differenz zum Original. • Iteriere Berechnung für alle Geschwindigkeiten im Intervall zwischen 90 und 170 bpm. IngoMierswa

  16. LLD genauer -- Frequenz • Merkmale in der Frequenzdimension (Fast Fourier Transform.) • Peaks • Stärkste Frequenz in Zeitfenstern: • Bei einer vollständigen FT geht die Information verloren, wann genau die Frequenzen auftreten. • Verschieben eines Zeitfensters der Breite w mit Schrittweite s und Berechnung der Frequenz des stärksten Peaks nach einer FT liefert die Zeitreihe:

  17. Frequenz -- Peaks

  18. Frequenz -- Stärkste Frequenz

  19. Intervalle im Frequenzbereich IngoMierswa

  20. Neue LLD -- Phasenraum • Merkmale im Phasenraum • Winkel • Länge von Teilstücken

  21. Phasenraum Zeitreihe Phasenraum yt+1 yt Deterministischer Prozess Deter- ministicProcess yt yt+1 yt time t AR(1)-process with outlier (AO) AR(1) Prozess mit Ausreißer yt timet HRt yt+1 Herzrate Heart rate yt time t U.Gather, M. Bauer

  22. Audiodaten: Phasenraum Pop

  23. Audiodaten: Phasenraum Klassik

  24. Darstellung der geeigneten Transformationen für eine Aufgabe • Methodenbaum: • Reihe von Transformationen, durch ein Funktional abgeschlossen • Transformationen von Wertereihen in Wertereihen • Transformation in einen anderen Raum • Fensterung ist eine Transformation, die selbst wieder ein Methodenbaum ist • Aufbau eines Methodenbaums: • Dynamische Fensterung erzeugt neue Teilbäume • Anwendung eines Methodenbaums erzeugt Merkmale für eine gegebene Wertereihe IngoMierswa

  25. Methodenbaum Wertereihe Wurzel Merkmale T: EMA T: Fensterung F: Avg + Var T: Hanning T: FFT F: MaxIndex IngoMierswa

  26. Lernen eines Methodenbaums für eine Aufgabe mit genetischer Programmierung • Training der Merkmalsextraktion auf Teilmenge der Daten. • Anwendung der Merkmalsextraktion auf alle Daten für die Lösung einer Lernaufgabe. • Genetische Programmierung: • Individuen: Methodenbäume • Fitness durch Kreuzvalidierung der jeweiligen Lernaufgabe nach Vorverarbeitung durch das zu evaluierende Individuum. IngoMierswa

  27. Jede Aufgabe verlangt andere Merkmale • Pop vs. Klassik: durchschnittliche Länge nach einer Phasenraumtransformation bestes Merkmal; korrekte Klassifikation von 184 der 200 Instanzen • Pop vs. Techno: Varianz der Extremadifferenz als bestes Merkmal; korrekte Klassifikation von 132 der 160 Instanzen. • Benutzerpräferenzen: jeder Benutzer braucht andere Merkmale! 84,5 -- 95,2 accuracy85,9 – 98,3 precision83,7 – 99,0 recall

  28. Systemunterstützung durch Yale • Experimente sind (geschachtelte) Ketten von Operatoren für Vorverarbeitung, maschinelles Lernen und Evaluation. • Abspeichern der Ketten erlaubt ihre Wiederverwendung mit anderen Parametern: • Daten: • Datenformat in XML beschrieben • Datei • Lernparameter

  29. Yale Ralf Klinkenberg, Ingo Mierswa, Simon Fischer

  30. Lernergebnis einer Analyseaufgabe

  31. Experimente zum Lernen mit Merkmalstransformation • Lernen des Methodenbaums für eine Aufgabe:Ergebnis diese Lernlaufs ist ein Yale-Experiment. • Durchführung des gelernten Yale-Experiments. • Lernen der Analyseaufgabe mit den gelernten Merkmalen.

  32. Wertereihen

  33. Lernen der Merkmalsextraktion

  34. Lernverlauf

  35. Lernergebnis

  36. Methodenbäume in Yale

  37. Approximiert wird die zu Grunde liegende Funktion. Diese ist oft nichtlinear. Die Güte der Approximation wird anhand neuer, vorher nicht gesehener Daten bewertet. Allgemein: Funktionsapproximation

  38. x2 x2 (x1,x2) = (x12,x2) x1 (x1)2 Merkmalstransformation und Kernfunktionen • SVM optimiert gemäß strukturellem Risiko: • empirisches Risiko und • Komplexitätsmaß des Hypothesenraums • SVM separiert Klassen linear. • Kernfunktion transformiert Beispiele in einen anderen Raum, in dem sie linear separierbar sind.

  39. Kernfunktionen für Wertereihen? • Skalarprodukt • Abbildung  in Raum mit Skalarprodukt • definiert eine Abbildung in einen Hilbert-Raum von Sinus- und Kosinusschwingungen, die bei geeignetem Skalarprodukt folgende Kernfunktion ergibt:

  40. Nemoz NEtwork Media OrganiZer: Collaborative clustering in P2P networks Einbindung von Yale Klassifikation Clustering Kopieren Stöberngemäß eigener Präferenzen

  41. Grundlage der Prozesse • Taxonomie: hierarchisches clustering Ci.Jeder Teilbaum ist natürlich auch eine Taxonomie. • Anfrage an peers, dass Xq zu clustern ist. Bestimme einige Ci die am besten zu Xq passen. • Klassifiziere Objekte in Xq gemäß Ci, modifiziere Ci.Präsentiere alle Ci dem Benutzer, der das beste wählt. • Annahme: Benutzer-gemachte Taxonomien sind besser als ‘reines’ clustering.

  42. Kollaboratives Filtern -- Amazon • Einkäufe eines Kunden als cluster interpretiert • Ähnlichkeit: co-occurrence von Objekten • Neuer Einkauf eines (anderen) Kunden: Xq • Finden des maximal ähnlichen clusters zu Xq Also: keine (hierarchische) Struktur als Ergebnis keine Berücksichtigung der Struktur bei der Suche nach ähnlichem cluster Für die Organisation von Daten nicht geeignet.

  43. Verteiltes kollaboratives Clustering • Die n besten Taxonomien werden ausgegeben. • Nicht nur Merkmale, auch Taxonomien (der peers) werden berücksichtigt. Gegeben eine Menge von Taxonomien CM = {C0,C1,…,Ck} und eine Menge von Objekten Xq Finde Taxonomien {Cres1,Cres2,…,Cresn} so dass cluster Bedingungen für alle xi in Xq gelten und es gibt irgendein Ci in CM und Cresj wobei entweder ext(Ci )  ext(Cresj) – jetzt mehr einsortiert -- oder ext(Ci ) = ext(Cresj) und |{ci in Cresj}| > |{ci in Ci }| – jetzt feiner strukturiert Wurst, Morik 2005

  44. Ähnlichkeit von Anfrage zu Teilbaum • Repräsentation eines clusters durch ausgewählte Punkte. • Abstand zwischen den Punkten eines clusters und allen Punkten in Xq. • Bottom-up Kombination der Ähnlichkeit von Teilbäumen Ci‘ zur Ähnlichkeit des direkt übergeordneten Baums C. ... c Xq c1 c2 c3

  45. ck c4 c5 Sequenzielles Abdecken • Elemente von Xq werden in den ähnlichsten Teilbaum einsortiert, sofern sie ähnlich genug sind. • Für die restlichen wird wieder verteiltes kollaboratives clustering aufgerufen. Das Ergebnis wird als Teilbaum eingehängt. ... Xq ci ck c1 c2 c3 c4 c5

  46. Ergebnisse • 39 Taxonomien von Liedern. • Alle Objekte einer Taxonomie herausnehmen als Xq • Clustering durch • Kollaboratives clustering, • K-means clustering, • Single link clustering Tatsächlich verbessern die Taxonomien der andern das Ergebnis.

  47. Was wissen Sie jetzt? • Musiksammlungen stellen viele Aufgaben • Klassifikation • Clustering • Organisation der Sammlung in Taxonomien • Musikdaten sind der Härtetest für Merkmalsextraktion • Merkmalsextraktion • Verschiedene Merkmalsextraktion je konkreter Lernaufgabe • Komplizierte Ähnlichkeitsmaße • Lernen der Merkmalsextraktion • LLD dekomponieren zu einfachen Bausteinen • HLD als Methodenbaum

  48. Credo • Vorverarbeitung ist entscheidend für die Qualität der Wissensentdeckung. • Vorverarbeitung ist aufwändig und schwierig, daher Wiederverwendung wichtig. • Abstraktion durch Metadaten (MiningMart) bzw. Experimente (Yale)

More Related