350 likes | 512 Views
Extrakce melodie z audio signálu. Ladislav Vincourek 5.12.2006. Úvod. Co je to melodie , audio signál, tón. Short-Time Fourier transform Support Vector Machine Multi-track, MIDI soubor Testovací data ISMIR 2004. Extrakce melodie. Audio signál.
E N D
Extrakce melodie z audio signálu Ladislav Vincourek 5.12.2006
Úvod • Co je to melodie, audio signál, tón. • Short-Time Fourier transform • Support Vector Machine • Multi-track, MIDI soubor • Testovací data ISMIR 2004. Vyhledávání v multimediálních databázích - DBI030
Extrakce melodie Vyhledávání v multimediálních databázích - DBI030
Audio signál • signál(z latinského signalis - dávat znamení) Vyhledávání v multimediálních databázích - DBI030
Zvukové vlnění • Jako zvuk označujeme mechanické vlnění, které vnímáme sluchem. jeho frekvence leží v intervalu přibližně 16 Hz až 16 000 Hz (16 kHz). • Mechanické vlnění s frekvencí menší než 16 Hz je infrazvuk, frekvenci vetší než 16 kHz má ultrazvuk. • Fyzikálními ději, které jsou spojeny se vznikem zvukového vlnění, jeho šířením a vnímání zvuku sluchem se zabývá akustika. Vyhledávání v multimediálních databázích - DBI030
Šířka pásma pro různé zdroje zvuku Vyhledávání v multimediálních databázích - DBI030
Melodie • Skladatelem rytmicky organizovanou sekvenci jednotlivých tonů, navazujících na sebe tak, aby byla vyjádřena hudební myšlenka nebo její frakce. • Tónovou strukturu s přihlédnutím k uspořádání jednotlivých tónů v určitém sledu. Vyhledávání v multimediálních databázích - DBI030
Tón • je v akustice považován každý zvuk se stálou frekvencí. • v hudbě je tón základním stavebním kamenem. Vyhledávání v multimediálních databázích - DBI030
Základní vlastnosti tónu • výška – ta je dána především frekvencí, • délka – jak dlouho tón zní, • síla – ta je dána amplitudou, • barva – závisí na spektrálním složení zvuku, tvaru kmitů či poměru amlitud alikvotních tónů. Závisí na hudebním nástroji, který tón vydává. Vyhledávání v multimediálních databázích - DBI030
Další • Oktáva - je hudební interval mezi prvním a osmým tónem diatonické stupnice, v rovnoměrně temperovaném ladění obsahuje dvanáct půltónů. Vyhledávání v multimediálních databázích - DBI030
Decibel dB síly zvuku Vyhledávání v multimediálních databázích - DBI030
Využití extrakce melodie • Melodie poskytuje důležité shrnutí z polyfonní hudba. • Její aplikace je důležitá pro analýzu struktury hudby. • Pro přepis audiosignálu na jednotlivé notové zápisy a posléze její další aplikace (detekce plagiátů atd.). Vyhledávání v multimediálních databázích - DBI030
Melodie x Audio signál • Melodie poskytuje konzistentní a přirozený popis hudby. • Převládající melodie je nejpohodlnější reprezentace pro popis a ukládání. • Melodie je nezávislá na okolních jevech (hlasitost, hudební nástroje atd. ). Vyhledávání v multimediálních databázích - DBI030
Typy extrakce melodie • Většina převádí jen specifický audio signál • Každá část hudby je realizována harmonickou sadou základních tónů. • Např.: automatické rozpoznávání hlasů • Předchozí znalost štítků • Rozpoznávací mechanismus není schopen rozpoznat bez předchozí znalosti reprezentantů. • Přes dominantní melodii Vyhledávání v multimediálních databázích - DBI030
Postup • Vstupní audio signál transformujeme na charakteristickoureprezentaci(short-time magnitude spectrum). • Support Vector Machine (SVM ) určí pro každý rám jakou má dominantní kvantovanou výšku do půltónových úrovní. Vyhledávání v multimediálních databázích - DBI030
Zvukové rysy • Originální zvuk musíme převést na mono o max. rozpětí 8 kHz • Tato vlnová křivka x[n] je převedena short-time Fourier transform (STFT) Vyhledávání v multimediálních databázích - DBI030
STFT • Pro STFT se používá N=1024(t.j. 128 ms), pro N-bodů Hanningova okna w[n], a 944 bodů přes překrývající přilehlé okno (mřížka po 10ms) Vyhledávání v multimediálních databázích - DBI030
STFT (2) • Nejčastěji je v zásobnících pouze 2 kHz (používá se prvních 256 zásobníků). • Pro zdokonalení zobecnění rozdílného nástrojového zabarvení a normalizaci se aplikují upravené STFT. Vyhledávání v multimediálních databázích - DBI030
Support Vector Machine (SVM) • Zabývá se řešením úloh vyhledávání v znalostních databázích. • Řešení problému minimalizace strukturálního risku je převeden na problém maximalizace vzdálenosti nadroviny klasifikátoru k bodům z trénovací množiny. - margin Vyhledávání v multimediálních databázích - DBI030
SVM (2) • Maximalizace marginu je převedena na problém minimalizace kvadratického kritéria. • Vhodné vyjádření kritéria se trénovací množiny vyskytují pouze jako skalární součin. Vyhledávání v multimediálních databázích - DBI030
Trénovací data • Je zapotřebí soubor dvojic obsahující charakteristický vektor spolu s jeho základním pravdivou vrstvou. • Obvykle, větší množství a různé druhy dat má za následek vznik přesnějšího a úspěšnějšího rozdělení. • Problém najít vhodná tréninková data. Vyhledávání v multimediálních databázích - DBI030
Trénovací data (2) • Ačkoliv je počet digitálních skóre v reálném zvuku velmi skromný, existuje návod jak ulehčit zpracování. • Zdroje mohou být: • Multi-track záznamy • MIDI soubory Vyhledávání v multimediálních databázích - DBI030
Multi-track záznamy • Nahrávky populární hudby jsou obvykle vytvořené navrstvením několika nezávisle- nahranými zvukovými stopami. • Základní četnost melodie je odhadována YIN fundamental frequency estimator (de Cheveigne and Kawahara, 2002). • 10 ms omezená • 100 hodnot na 1kHz Vyhledávání v multimediálních databázích - DBI030
YIN • Určuje pravidelný rozsah. • PPERIODIC je celková síla harmonického kmitu objeveného pravidelně. • PTOT je celková síla v rámu. Vyhledávání v multimediálních databázích - DBI030
Jistota tónu • Jen rámy s pravidelností přinejmenším 95% (odpovídají zřetelně výškou vyjádřenému tónu). • Data se musí ručně ověřit pro integritu tréninku. • Cílové vrstvy jsou přepočítány k nejbližšímu MIDI půltónovému číslu v rozdělení odpovídající STFT. Vyhledávání v multimediálních databázích - DBI030
MIDI soubory • Převedený ze standardu MIDI formát do souboru s příponou audio souboru (.WAV). • Melodie byla izolována využitím MIDI konverzí pro konverzi hlavní melodie. • Obvykle v pop MIDI souboru je hlavní melodie v samostatné vrstvě. Vyhledávání v multimediálních databázích - DBI030
MIDI soubory (2) • V případě mnohonásobných melodií v hlavní stopě, je předpoklad že melodie je nejvyšší tónová reprezentace. • Cílové vrstvy byli přepočítány vzorkováním MIDI přepisu odpovídajícímu STFT. Vyhledávání v multimediálních databázích - DBI030
Půltónové posuny • Při omezeném tréninku. • Kvalita, kvantita a různorodost • Po zpětné vzorkování nahrávky může dojít k efektu globálního tónového posunu. • multi-track a MIDI byli převzorkovány v hodnotách odpovídajícímu souměrnému půltónovému posunu nad chromatickou stupnicí. Vyhledávání v multimediálních databázích - DBI030
ISMIR 2004 Melody Contest • 10 zvukových úryvků s melodickým předpisem převládajícího hlasu pro předladění algoritmů. • 2 úryvky skládající se z MIDu syntetizovaného z polyphonického zvuku s převládajícím hlasem. • 2 úryvky vygenerované z saxofonového syntetizátoru se zvukovou kulisou. • 2 úryvky vygenerované ze zpívajícího hlasu syntetizátoru se zvukovou kulisou. • 2 úryvky z operního zpívání, jeden s mužským a další se ženským hlasem. • 2 úryvky z populární hudby se zpěvákem. Vyhledávání v multimediálních databázích - DBI030
Hodnocení ISMIR 2004 • Jsou navržené tři možné metriky: • Správná výška. Okamžité srovnání mezi odhadovanou a správnou výškou(kvantovaný k půltónovému rozdělení). • Správná výšková třída. Oktávové chyby budou ignorovány a považovány za správné. • Edituje vzdálenost mezi odhadovanou a správnou melodií. • Správná melodie nebo intonace bude získána analyzováním izolovaného hlasu a ruční kontrolou. Vyhledávání v multimediálních databázích - DBI030
Melodie zpěváka Vyhledávání v multimediálních databázích - DBI030
Melodie opery Vyhledávání v multimediálních databázích - DBI030
Úspěšnost Vyhledávání v multimediálních databázích - DBI030
Zdroje 1/2 • Články • Audio Melody Extraction Based on TimbralSimilarity of Melodic Fragments (www.ieeexplore.ieee.org/ ) • A CLASSIFICATION APPROACH TO MELODY TRANSCRIPTION (www.ee.columbia.edu/~dpwe/pubs/ismir05-melody.pdf) Vyhledávání v multimediálních databázích - DBI030
Zdroje 1/2 • RNDr. Tomáš Dvořák, CSc. • http://ksvi.mff.cuni.cz/~dvorak/ • Zvuk • Kvantizace • Internet • http://cs.wikipedia.org/ • http://en.wikipedia.org/ • http://www.gbl.cz/seminarky/ • http://cmp.felk.cvut.cz/ (SuVeMa Vojtěch Franc) Vyhledávání v multimediálních databázích - DBI030