1 / 36

Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -

Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -. Beszédfelismerés és szintézis - előadás - 2007. március 8. Bárdi Tamás. Pázmány Péter Katolikus Egyetem, Információs Technológia Kar. Mi az alapfrekvencia ?.

annice
Download Presentation

Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Beszéd alapfrekvencia meghatározása- Pitch detektor algoritmusok - Beszédfelismerés és szintézis- előadás -2007. március 8. Bárdi Tamás Pázmány Péter Katolikus Egyetem, Információs Technológia Kar

  2. Mi az alapfrekvencia ? Alapfrekvencia: a hangszalagok pillanatnyi rezgésszámaSzokásos jelölése: F0

  3. Gerjesztés típusok a beszédben Alapfrekvenciát csak akkor értelmezünk,ha zöngés (kváziperiodikus) gerjesztés jelen van a beszédben.

  4. What is the definition of pitch? Pitch is…..“…..that attribute of auditory sensation in terms of which sounds may be ordered on a musical scale”(American Standards Association, 1960; cited in Moore, 1997) Vagyis: - a pitch (hangmagasság) érzeti mennyiség- az alapfrekvencia (F0)fizikai mennyiség

  5. Tones that have the same repetition ratetend to have the same pitch: Frequency Time

  6. Miért érdekes az alapfrekvencia? A hangmagasság változásai a beszédben nyelvi, érzelmi, hangulati, stb. jelentést hordoznak.Illusztráció: egy rövid beszédfelvétel a pitch kontúrjával.

  7. Pitch kontúr előállítása • Fő részfeladatok: - F0 becslése, - zöngésség megállapítása • PDA – Pitch Detector Algorithm:Olyan algoritmus, amely a beszédjelből a fenti értelemben vett pitch kontúrt képes előállítani. • VDA – Voicing Detection Algorithm:A PDA-nak az a része, amely a zöngés/zöngétlen szakaszok megkülönböztetéséért felelős

  8. Pitch detektorok alkalmazásai • Low-bitrate speech coding: pitch adaptive (pl. GSM) • Speech Synthesis: processing unit inventories • Linguistic analysis, prosody processing • Music: auto-scoring, editing, midi conversion …

  9. Hogyan áll össze egy pitch kontúr Haladunk ablakról ablakra: - mindegyikre adunk egy alapfrekvencia becslést - tipikus hossz: 20 – 40 ms - tipikus lépésköz: 10 ms - általában átfedik egymást

  10. Algoritmusok: ACF Auto Correlation Function (autokorreláció függvény): s(t) – a beszédjel;w – az elemzett ablak hossza

  11. Csúcs kiválasztás ACF-en Az elemzett beszédablak: Csúcskeresés az ACF-en:

  12. Detekciós hiba lehetőségek • Nagy hibák: oktáv vagy még nagyobb tévesztés az alapfrekvenciában.Jellemzően a gyorsan halkuló vagy hangosodó szakaszokon fordul elő, leginkább szó elején vagy végén. • Kis hibák: apróbb pontatlanságok az alapfrekvenciában.Jellemzően a vegyes gerjesztésű hangoknál fordul elő (zöngés mássalhangzók) • Zöngés-zöngétlen tévesztés: jellemzően ez is a vegyes gerjesztésű hangoknál.

  13. Examples for ACF

  14. Algoritmusok: ASDF Average Squared Difference Function: s(t) – a beszédjel;w – az elemzett ablak hossza

  15. Examples for ASDF

  16. Algoritmusok: AMDF Average Magnitude Difference Function: s(t) – a beszédjel;w – az elemzett ablak hossza

  17. Algoritmusok: Cepstrum Homomorph analysis: CEPSTRUM(x) = IFFT(LOG(|FFT(x)|))

  18. Algoritmusok: LPC • Csúcsokat keresünk az LPC hibajelben:- ezt pitch-mark kijelölésnek is hívják

  19. F0 contour with ACF method Applying ACF directly on speech signal: Preproc.

  20. A beszédjel célszerű torzításával csökkenthetjük a hibák arányát My preprocessor is a combination of low-pass filtering and center clipping.

  21. A Preprocesszor (1): Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:

  22. A Preprocesszor (2): A szűrt jel és a középre vágási szint (center clip level)- a burkoló 40%-a:

  23. A Preprocesszor (3): Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:

  24. A Preprocesszor (4): Hangzó illusztráció (s, sz, c eltűnik):

  25. F0 contour with ACF method Applying ACF after preprocessing the speech signal: Original

  26. Egy összetett Pitch Detektor struktúrája Bemenő beszédjel Preprocesszor Meghallgatható: Ablakozás Basic Extractor- ACF számítása és elemzése - F0 becslés V/UV döntés * Pitch kontúr

  27. A kiértékelés adatbázisa Pitch detektor algoritmusok kiértékelésére olyan beszéd adatbázisokat lehet használni, melyekben a zöngés-zöngétlen szakaszok ill. az alapfrekvencia értékek címkézve vannak. A címkézés automatikussá vagy fél-automatikussá tehető laryngográf jel felvételével. Database 1: Keele Pitch Database Georg Meyer Keele University Database 2: FDA Evaluation Database Paul Bagshow & al.Centre for Speech Technology Research,University of Edinburgh

  28. Beszédfelvétel és laryngográf jel

  29. Zöngés-zöngétlen átmenet

  30. Zöngés-zöngétlen átmenet

  31. Optimization on the database Expected decision error rate in terms of the threshold: After preprocessor Without preprocessor

  32. Zöngés/zöngétlen megkülönböztetés: A basic extractor-ban kiválasztott csúcs nagysága és a beszédablak energiája szolgál döntési paraméterként.Mindkettőt egy-egy küszöbbel hasonlítjuk össze. A tévesztési arány keresztkiértékeléssel: 2.1%

  33. Összehasonlítás: Bagshaw (1993):

  34. Rekedt beszédhang pitch kontúrja:

  35. Hangmagasság módosítása Pitch-Synchronous Overlap-Add (PSOLA) on LPC residual eredeti 80% 125% 167% 200%

  36. Köszönöm a figyelmet

More Related