410 likes | 543 Views
Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -. Bárdi Tamás doktorandusz előadása alapján. Pázmány Péter Katolikus Egyetem, Információs Technológia Kar. Mi az alapfrekvencia ?. Alapfrekvencia: a hangszalagok pillanatnyi rezgésszáma Szokásos jelölése: F 0.
E N D
Beszéd alapfrekvencia meghatározása- Pitch detektor algoritmusok - Bárdi Tamás doktorandusz előadása alapján Pázmány Péter Katolikus Egyetem, Információs Technológia Kar
Mi az alapfrekvencia ? Alapfrekvencia: a hangszalagok pillanatnyi rezgésszámaSzokásos jelölése: F0
Gerjesztés típusok a beszédben Alapfrekvenciát csak akkor értelmezünk,ha zöngés (kváziperiodikus) gerjesztés jelen van a beszédben.
What is the definition of pitch? Pitch is…..“…..that attribute of auditory sensation in terms of which sounds may be ordered on a musical scale”(American Standards Association, 1960; cited in Moore, 1997) Vagyis: - a pitch (hangmagasság) érzeti mennyiség- az alapfrekvencia (F0)fizikai mennyiség
Azonos-e a hangmagasság? • Egyik hang • Másik hang
Egyik hang Másik hang
Tones that have the same repetition ratetend to have the same pitch: Frequency Time
Miért érdekes az alapfrekvencia? A hangmagasság változásai a beszédben nyelvi, érzelmi, hangulati, stb. jelentést hordoznak.Illusztráció: egy rövid beszédfelvétel a pitch kontúrjával.
Pitch kontúr előállítása • Fő részfeladatok: - F0 becslése, - zöngésség megállapítása • PDA – Pitch Detector Algorithm:Olyan algoritmus, amely a beszédjelből a fenti értelemben vett pitch kontúrt képes előállítani. • VDA – Voicing Detection Algorithm:A PDA-nak az a része, amely a zöngés/zöngétlen szakaszok megkülönböztetéséért felelős
Pitch detektorok alkalmazásai • Low-bitrate speech coding: pitch adaptive (pl. GSM) • Speech Synthesis: processing unit inventories • Linguistic analysis, prosody processing • Music: auto-scoring, editing, midi conversion …
Hogyan áll össze egy pitch kontúr Haladunk ablakról ablakra: - mindegyikre adunk egy alapfrekvencia becslést - tipikus hossz: 20 – 40 ms - tipikus lépésköz: 10 ms - általában átfedik egymást
Algoritmusok: ACF Auto Correlation Function (autokorreláció függvény): s(t) – a beszédjel;w – az elemzett ablak hossza
Csúcs kiválasztás ACF-en Az elemzett beszédablak: Csúcskeresés az ACF-en:
Detekciós hiba lehetőségek • Nagy hibák: oktáv vagy még nagyobb tévesztés az alapfrekvenciában.Jellemzően a gyorsan halkuló vagy hangosodó szakaszokon fordul elő, leginkább szó elején vagy végén. • Kis hibák: apróbb pontatlanságok az alapfrekvenciában.Jellemzően a vegyes gerjesztésű hangoknál fordul elő (zöngés mássalhangzók) • Zöngés-zöngétlen tévesztés: jellemzően ez is a vegyes gerjesztésű hangoknál.
Algoritmusok: ASDF Average Squared Difference Function: s(t) – a beszédjel;w – az elemzett ablak hossza
Algoritmusok: AMDF Average Magnitude Difference Function: s(t) – a beszédjel;w – az elemzett ablak hossza
Algoritmusok: Cepstrum Homomorph analysis: CEPSTRUM(x) = IFFT(LOG(|FFT(x)|))
Algoritmusok: LPC • Csúcsokat keresünk az LPC hibajelben:- ezt pitch-mark kijelölésnek is hívják
F0 contour with ACF method Applying ACF directly on speech signal: Preproc.
A beszédjel célszerű torzításával csökkenthetjük a hibák arányát My preprocessor is a combination of low-pass filtering and center clipping.
A Preprocesszor (1): Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:
A Preprocesszor (2): A szűrt jel és a középre vágási szint (center clip level)- a burkoló 40%-a:
A Preprocesszor (3): Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:
A Preprocesszor (4): Hangzó illusztráció (s, sz, c eltűnik):
F0 contour with ACF method Applying ACF after preprocessing the speech signal: Original
Egy összetett Pitch Detektor struktúrája Bemenő beszédjel Preprocesszor Meghallgatható: Ablakozás Basic Extractor- ACF számítása és elemzése - F0 becslés V/UV döntés * Pitch kontúr
A kiértékelés adatbázisa Pitch detektor algoritmusok kiértékelésére olyan beszéd adatbázisokat lehet használni, melyekben a zöngés-zöngétlen szakaszok ill. az alapfrekvencia értékek címkézve vannak. A címkézés automatikussá vagy fél-automatikussá tehető laryngográf jel felvételével. Database 1: Keele Pitch Database Georg Meyer Keele University Database 2: FDA Evaluation Database Paul Bagshow & al.Centre for Speech Technology Research,University of Edinburgh
Optimization on the database Expected decision error rate in terms of the threshold: After preprocessor Without preprocessor
Zöngés/zöngétlen megkülönböztetés: A basic extractor-ban kiválasztott csúcs nagysága és a beszédablak energiája szolgál döntési paraméterként.Mindkettőt egy-egy küszöbbel hasonlítjuk össze. A tévesztési arány keresztkiértékeléssel: 2.1%
Összehasonlítás: Bagshaw (1993):
Hangmagasság módosítása Pitch-Synchronous Overlap-Add (PSOLA) on LPC residual eredeti 80% 125% 167% 200%
SD Á hang Á hang hibajele