1 / 35

Extrakce melodie z audio signálu

Extrakce melodie z audio signálu. Ladislav Vincourek 5.12.2006. Úvod. Co je to melodie , audio signál, tón. Short-Time Fourier transform Support Vector Machine Multi-track, MIDI soubor Testovací data ISMIR 2004. Extrakce melodie. Audio signál.

neylan
Download Presentation

Extrakce melodie z audio signálu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extrakce melodie z audio signálu Ladislav Vincourek 5.12.2006

  2. Úvod • Co je to melodie, audio signál, tón. • Short-Time Fourier transform • Support Vector Machine • Multi-track, MIDI soubor • Testovací data ISMIR 2004. Vyhledávání v multimediálních databázích - DBI030

  3. Extrakce melodie Vyhledávání v multimediálních databázích - DBI030

  4. Audio signál • signál(z latinského signalis - dávat znamení) Vyhledávání v multimediálních databázích - DBI030

  5. Zvukové vlnění • Jako zvuk označujeme mechanické vlnění, které vnímáme sluchem. jeho frekvence leží v intervalu přibližně 16 Hz až 16 000 Hz (16 kHz). • Mechanické vlnění s frekvencí menší než 16 Hz je infrazvuk, frekvenci vetší než 16 kHz má ultrazvuk. • Fyzikálními ději, které jsou spojeny se vznikem zvukového vlnění, jeho šířením a vnímání zvuku sluchem se zabývá akustika. Vyhledávání v multimediálních databázích - DBI030

  6. Šířka pásma pro různé zdroje zvuku Vyhledávání v multimediálních databázích - DBI030

  7. Melodie • Skladatelem rytmicky organizovanou sekvenci jednotlivých tonů, navazujících na sebe tak, aby byla vyjádřena hudební myšlenka nebo její frakce. • Tónovou strukturu s přihlédnutím k uspořádání jednotlivých tónů v určitém sledu. Vyhledávání v multimediálních databázích - DBI030

  8. Tón • je v akustice považován každý zvuk se stálou frekvencí. • v hudbě je tón základním stavebním kamenem. Vyhledávání v multimediálních databázích - DBI030

  9. Základní vlastnosti tónu • výška – ta je dána především frekvencí, • délka – jak dlouho tón zní, • síla – ta je dána amplitudou, • barva – závisí na spektrálním složení zvuku, tvaru kmitů či poměru amlitud alikvotních tónů. Závisí na hudebním nástroji, který tón vydává. Vyhledávání v multimediálních databázích - DBI030

  10. Další • Oktáva - je hudební interval mezi prvním a osmým tónem diatonické stupnice, v rovnoměrně temperovaném ladění obsahuje dvanáct půltónů. Vyhledávání v multimediálních databázích - DBI030

  11. Decibel dB síly zvuku Vyhledávání v multimediálních databázích - DBI030

  12. Využití extrakce melodie • Melodie poskytuje důležité shrnutí z polyfonní hudba. • Její aplikace je důležitá pro analýzu struktury hudby. • Pro přepis audiosignálu na jednotlivé notové zápisy a posléze její další aplikace (detekce plagiátů atd.). Vyhledávání v multimediálních databázích - DBI030

  13. Melodie x Audio signál • Melodie poskytuje konzistentní a přirozený popis hudby. • Převládající melodie je nejpohodlnější reprezentace pro popis a ukládání. • Melodie je nezávislá na okolních jevech (hlasitost, hudební nástroje atd. ). Vyhledávání v multimediálních databázích - DBI030

  14. Typy extrakce melodie • Většina převádí jen specifický audio signál • Každá část hudby je realizována harmonickou sadou základních tónů. • Např.: automatické rozpoznávání hlasů • Předchozí znalost štítků • Rozpoznávací mechanismus není schopen rozpoznat bez předchozí znalosti reprezentantů. • Přes dominantní melodii Vyhledávání v multimediálních databázích - DBI030

  15. Postup • Vstupní audio signál transformujeme na charakteristickoureprezentaci(short-time magnitude spectrum). • Support Vector Machine (SVM ) určí pro každý rám jakou má dominantní kvantovanou výšku do půltónových úrovní. Vyhledávání v multimediálních databázích - DBI030

  16. Zvukové rysy • Originální zvuk musíme převést na mono o max. rozpětí 8 kHz • Tato vlnová křivka x[n] je převedena short-time Fourier transform (STFT) Vyhledávání v multimediálních databázích - DBI030

  17. STFT • Pro STFT se používá N=1024(t.j. 128 ms), pro N-bodů Hanningova okna w[n], a 944 bodů přes překrývající přilehlé okno (mřížka po 10ms) Vyhledávání v multimediálních databázích - DBI030

  18. STFT (2) • Nejčastěji je v zásobnících pouze 2 kHz (používá se prvních 256 zásobníků). • Pro zdokonalení zobecnění rozdílného nástrojového zabarvení a normalizaci se aplikují upravené STFT. Vyhledávání v multimediálních databázích - DBI030

  19. Support Vector Machine (SVM) • Zabývá se řešením úloh vyhledávání v znalostních databázích. • Řešení problému minimalizace strukturálního risku je převeden na problém maximalizace vzdálenosti nadroviny klasifikátoru k bodům z trénovací množiny. - margin Vyhledávání v multimediálních databázích - DBI030

  20. SVM (2) • Maximalizace marginu je převedena na problém minimalizace kvadratického kritéria. • Vhodné vyjádření kritéria se trénovací množiny vyskytují pouze jako skalární součin. Vyhledávání v multimediálních databázích - DBI030

  21. Trénovací data • Je zapotřebí soubor dvojic obsahující charakteristický vektor spolu s jeho základním pravdivou vrstvou. • Obvykle, větší množství a různé druhy dat má za následek vznik přesnějšího a úspěšnějšího rozdělení. • Problém najít vhodná tréninková data. Vyhledávání v multimediálních databázích - DBI030

  22. Trénovací data (2) • Ačkoliv je počet digitálních skóre v reálném zvuku velmi skromný, existuje návod jak ulehčit zpracování. • Zdroje mohou být: • Multi-track záznamy • MIDI soubory Vyhledávání v multimediálních databázích - DBI030

  23. Multi-track záznamy • Nahrávky populární hudby jsou obvykle vytvořené navrstvením několika nezávisle- nahranými zvukovými stopami. • Základní četnost melodie je odhadována YIN fundamental frequency estimator (de Cheveigne and Kawahara, 2002). • 10 ms omezená • 100 hodnot na 1kHz Vyhledávání v multimediálních databázích - DBI030

  24. YIN • Určuje pravidelný rozsah. • PPERIODIC je celková síla harmonického kmitu objeveného pravidelně. • PTOT je celková síla v rámu. Vyhledávání v multimediálních databázích - DBI030

  25. Jistota tónu • Jen rámy s pravidelností přinejmenším 95% (odpovídají zřetelně výškou vyjádřenému tónu). • Data se musí ručně ověřit pro integritu tréninku. • Cílové vrstvy jsou přepočítány k nejbližšímu MIDI půltónovému číslu v rozdělení odpovídající STFT. Vyhledávání v multimediálních databázích - DBI030

  26. MIDI soubory • Převedený ze standardu MIDI formát do souboru s příponou audio souboru (.WAV). • Melodie byla izolována využitím MIDI konverzí pro konverzi hlavní melodie. • Obvykle v pop MIDI souboru je hlavní melodie v samostatné vrstvě. Vyhledávání v multimediálních databázích - DBI030

  27. MIDI soubory (2) • V případě mnohonásobných melodií v hlavní stopě, je předpoklad že melodie je nejvyšší tónová reprezentace. • Cílové vrstvy byli přepočítány vzorkováním MIDI přepisu odpovídajícímu STFT. Vyhledávání v multimediálních databázích - DBI030

  28. Půltónové posuny • Při omezeném tréninku. • Kvalita, kvantita a různorodost • Po zpětné vzorkování nahrávky může dojít k efektu globálního tónového posunu. • multi-track a MIDI byli převzorkovány v hodnotách odpovídajícímu souměrnému půltónovému posunu nad chromatickou stupnicí. Vyhledávání v multimediálních databázích - DBI030

  29. ISMIR 2004 Melody Contest • 10 zvukových úryvků s melodickým předpisem převládajícího hlasu pro předladění algoritmů. • 2 úryvky skládající se z MIDu syntetizovaného z polyphonického zvuku s převládajícím hlasem. • 2 úryvky vygenerované z saxofonového syntetizátoru se zvukovou kulisou. • 2 úryvky vygenerované ze zpívajícího hlasu syntetizátoru se zvukovou kulisou. • 2 úryvky z operního zpívání, jeden s mužským a další se ženským hlasem. • 2 úryvky z populární hudby se zpěvákem. Vyhledávání v multimediálních databázích - DBI030

  30. Hodnocení ISMIR 2004 • Jsou navržené tři možné metriky: • Správná výška. Okamžité srovnání mezi odhadovanou a správnou výškou(kvantovaný k půltónovému rozdělení). • Správná výšková třída. Oktávové chyby budou ignorovány a považovány za správné. • Edituje vzdálenost mezi odhadovanou a správnou melodií. • Správná melodie nebo intonace bude získána analyzováním izolovaného hlasu a ruční kontrolou. Vyhledávání v multimediálních databázích - DBI030

  31. Melodie zpěváka Vyhledávání v multimediálních databázích - DBI030

  32. Melodie opery Vyhledávání v multimediálních databázích - DBI030

  33. Úspěšnost Vyhledávání v multimediálních databázích - DBI030

  34. Zdroje 1/2 • Články • Audio Melody Extraction Based on TimbralSimilarity of Melodic Fragments (www.ieeexplore.ieee.org/ ) • A CLASSIFICATION APPROACH TO MELODY TRANSCRIPTION (www.ee.columbia.edu/~dpwe/pubs/ismir05-melody.pdf) Vyhledávání v multimediálních databázích - DBI030

  35. Zdroje 1/2 • RNDr. Tomáš Dvořák, CSc. • http://ksvi.mff.cuni.cz/~dvorak/ • Zvuk • Kvantizace • Internet • http://cs.wikipedia.org/ • http://en.wikipedia.org/ • http://www.gbl.cz/seminarky/ • http://cmp.felk.cvut.cz/ (SuVeMa Vojtěch Franc) Vyhledávání v multimediálních databázích - DBI030

More Related