1 / 81

Zpracování digitalizovaného signálu

Zpracování digitalizovaného signálu. Metody krátkodobé analýzy . - v časové oblasti - ve frekvenční oblasti Modelování funkce Cortiho ústrojí. krátkodobá analýza. zpracování signálu na časovém intervalu, o němž se předpokládá, že na něm nedochází k výraznějším dynamickým změnám.

darius
Download Presentation

Zpracování digitalizovaného signálu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Zpracování digitalizovaného signálu Metody krátkodobé analýzy. - v časové oblasti - ve frekvenční oblasti Modelování funkce Cortiho ústrojí.

  2. krátkodobá analýza • zpracování signálu na časovém intervalu, o němž se předpokládá, že na něm nedochází k výraznějším dynamickým změnám. • Tento interval se nazývá mikrosegment(někdy také stručneji segment) a jeho velikost se obvykle od 10 do 40 ms.

  3. Váhové okénko • Tím, že se rozhodneme pro určitou velikost mikrosegmentu, implicitně předpokládáme, že zvukový signál je v okolí okénka periodický s periodou okénka. Chyba, která vzniká nesouladem s tímto předpokladem, může být do jisté míry kompenzována použitím tzv. okénka. Okénko je posloupnost vah pro prvky mikrosegmentu.

  4. Hammingovo okénko • w(n) = 0.54 - 0.46cos(2n/(N-1)) • pro n = 0,...,N-1 • w(n) = 0 pro ostatní n (mimo mikrosegment)

  5. Hammingovo okénko - graf

  6. Pravoúhlé okénko • přiřadí každému prvku mikrosegmentu jednotkovou váhu, tj. je definováno vztahem • w(n) = 1 pro n = 0,...,N-1 • w(n) = 0 pro ostatní n (mimo mikrosegment)

  7. Analýza digitalizovaného signálu v časové oblasti - vychází se přímo z hodnot vzorku, nikoliv z hodnot spektra

  8. Funkce krátkodobé energie  E(n) =  (s(k)w(n-k))2 k = -

  9. Krátkodobá intenzita  I(n) =  |s(k)|w(n - k) k = -  použití - např. detekce ticha

  10. Krátkodobá funkce středního počtu průchodu nulou • se dostane jako součet všech průchodů digitalizovaného signálu nulou

  11. Počet lokálních extrémů • Je v podstatě modifikací krátkodobé funkce středního počtu průchodů nulou. • Jak funkce středního počtu průchodů nulou, tak funkce počtu lokálních extrémů mohou být při analýze řečového signálu negativně ovlivněny šumem zvukového pozadí.

  12. Diferenčí klasifikátory  D =  |s(k)-s(k-1)|w(n-k) k = -  (diference prvního řádu)

  13. Krátkodobá autokorelační funkce  R(n,m) =  (s(k)w(n-k))(s(k+m)w(n-k+m)) k = - 

  14. Krátkodobá autokorelační funkce • Této funkce se používá často při zjišťování periodicity signálu a základního tónu řeči. • Je-li vstupní signál periodický s periodou P, nabývá tato funkce maximálních hodnot pro m = 0, P, 2P, ... . • Předpokládá se, že mikrosegment je dlouhý aspoň dvě periody signálu.

  15. Zpracování signálu ve frekvenční oblasti • KrátkodobáFourierova transformace • Kepstrální analýza • Lineární predikce

  16. KrátkodobáFourierova transformace  S(, n) =  s(k)w(n-k)e-ik , k = - Fixujeme-li čas n, pak S(, n) představuje obyčejnou Fourierovu transformaci posloupnosti {s(k)w(n-k)} a |S(, n)| vyjadřuje amplitudu složky akustického spektra odpovídající frekvenci 

  17. Krátkodobá Fourierova transformace • Výpočet se provádí obvykle pomocí algoritmu rychlé Fourierivy transformace (FFT = Fast Fourier Transform) (FFT je speciálním případem diskrétní Fourierovy transformace (DFT) aplikovatelným pro případy, kdy délka mikrosegmentu je mocninou 2.)

  18. FFT - vliv okénka pravoúhlé okénko Hammingovo okénko

  19. Kepstrální analýza • Vychází z modelu činnosti hlasového ústrojí, který předpokládá vznik řečového signálu konvolucí budicí funkce rezonančních dutin hlasového ústrojí. Kepstrum je definováno jako zpětná Fourierova transformace logaritmu Fourierova obrazu vstupního signálu x(k) Kepstrum se často používá při stanovení základního hlasivkového tónu a pro klasifikaci řeči na znělé a neznělé segmenty.

  20. Lineární predikce • Lineární predikce je metoda analýzy akustického signálu, založená na předpokladu, že k-tý vzorek signálu lze popsat lineání kombinací n předchozích vzorků a buzení u(k).

  21. Lineární predikce n s(k) = -  ai s(k - i) + Gu(k) , i=1 • n je řád modelu a G koeficient zesílení. Při určování ai a G se používá metody nejmenších čtverců.

  22. Lineární predikce • Lineární predikce bývá zařazována mezi metody zpracování signálu ve frekvenční oblasti. Používá se pro určení základního hlasivkového tónu, frekvence formantů apod.. Řád modelu n se volí obvykle v rozmezí 6 - 14.

  23. Rozpoznávání izolovaných slov • povely, nebo uživatel musí po vyřčení slova udělat pausu • odpadá problém stanovení rozhraní dvou slov v souvislé promluvě • obvykle jde o systémy závislé na uživateli (nutné natrénování) s omezenou kapacitou rozpoznávaných slov

  24. Akustický vektor • Vektor příznaků, vztahující se obvykle k mikrosegmentu, který se typicky obdrží některou z metod krátkodobé analýzy,

  25. Typy klasifikátorů • Klasifikátory využívající porovnání slov metodou DTW • Klasifikátory založené na statistických metodách (modelování pomocí skrytých Markovových modelů) • Klasifikátory zpracovávající rozpoznávané slovo na dvou úrovních; v první úrovni se provede segmentace a fonetické dekódování jednotlivých segmentů, ve druhé úrovni probíhá rozpoznávání slova na základě dekódovaných segmentů.

  26. SW pro analýzu signálu • Např.: • ESPS • Entropic Cambridge Research Laboratory

  27. Metoda DTW (Dynamic Time Warping) • Metoda DTW (česky: metoda borcení časové osy) se používá pro porovnání dvou úseků promluv (v našem případě dvou slov), vyjádřených posloupností akustických vektorů, vzniklých rozdělením slov do mikrosegmentů a jejich klasifikací souborem krátkodobých charakteristik.

  28. Postup: • Pro množinu rozpoznávaných slov vytvoříme soubor referenčních posloupností akustických vektorů (obvykle pro každé slovo několik posloupností odpovídajících několika způsobům vyřčení slova). • Vytvoříme posloupnost akustických vektorů pro rozpoznávané slovo. • Metodou DTW porovnáváme postupně tuto posloupnost s referenčními, a za rozpoznané slovo vezmeme to, které odpovídá největší shodě.

  29. A-rozpoznávané, B-referenční slovo A = {a(1), a(2), ... , a(n)} B = {b(1), b(2), ... , b(m)}. a(1), a(2), ... , a(n), b(1), b(2), ... , b(m), - posloupnosti akustických vektorů pro A, B

  30. DTW-formalizace • Algoritmus DTW hledá parametrizaci f, g: i = f(k), j=g(k), k=1 ,…, K • minimalizující výraz K D(A, B) =  d(a(f(k)), b(g( k))), k=1 • kde d je vzdálenost mezi akustickými vektory (např. Eukl. metrika)

  31. DTW-omezující podmínky • Možnosti: • f(1)=1; f(K)=n;g(1)=1; g(K)=m; • K  m • K  n • K  max(m, n) • K  min(m, n)

  32. DTW-omezující podmínky • f, g - neklesající funkce • omezení na lokální souvislost: • 0  f(k) - f(k-1)  konst_1 • 0  g(k) - g(k-1)  konst_2 • Globální omezení

  33. DTW-realizace • Heuristické metody • Metody lineárního a dynamického programování • O(N3V )

  34. Vektorová kvantizace • Akustický vektor= vektor příznaků • použití kvantizace: - komprese - vokodéry - předzpracování pro HMM - urychlení DTW

  35. Kódová kniha • Podprostor X n-dimensionálního vektorového prostoru rozdělíme na L disjunktních podmnožin X(i) pokrývajících podprostor X. V každé podmnožině X(i) vybereme reprezentanta v(i). • Vektorový kvantizér přiřazuje vektoru x X(i) vektor v(i). • Množina všech vektorů v(i) tvoří kódovou knihu.

  36. Kvantizace • Kvantizační chyba • optimalita kvantizéru • centroid - minimalizuje d(x,v)dx X(i)

  37. vyhledávání v kódové knize • Dělení na shluky a subshluky • prohledávací stromy • binární, ternární • (MacQuennův algoritmus pro dělení shluku na dva subshluky)

  38. Skryté Markovovy modely • Model představy: hlasové ústrojí je během krátkého časového intervalu (např. odpovídající době trvání mikrosegmentu) v jednom z konečně mnoha stavů artikulačních konfigurací, generuje hlasový signál, a přejde do následujícího stavu hlasového ústrojí. • Tato činnost je chápána statisticky.

  39. HMM • Kvantizací akustických vektorů (vytvořením kódové knihy) lze dosáhnout konečnosti všech parametrů odpovídajícího modelu. • HMM= Hidden Markov Model • Vintsyuk, Jelinek • IBM - Tangora

  40. Markovův proces se skrytým Markovovým modelem je pětice • G = (Q, V, N, M, ) kde: • Q = {qi, ,..., qk} je množina stavù • V = {v1, ... , vm}je abeceda výst. symbolů

  41. N = {nij} je matice přechodu, jejíž prvky určují, s jakou pravděpodobností přechází systém ze stavu qi (v čase t) do stavu qj (v čase t+1),

More Related