820 likes | 978 Views
Zpracování digitalizovaného signálu. Metody krátkodobé analýzy . - v časové oblasti - ve frekvenční oblasti Modelování funkce Cortiho ústrojí. krátkodobá analýza. zpracování signálu na časovém intervalu, o němž se předpokládá, že na něm nedochází k výraznějším dynamickým změnám.
E N D
Zpracování digitalizovaného signálu Metody krátkodobé analýzy. - v časové oblasti - ve frekvenční oblasti Modelování funkce Cortiho ústrojí.
krátkodobá analýza • zpracování signálu na časovém intervalu, o němž se předpokládá, že na něm nedochází k výraznějším dynamickým změnám. • Tento interval se nazývá mikrosegment(někdy také stručneji segment) a jeho velikost se obvykle od 10 do 40 ms.
Váhové okénko • Tím, že se rozhodneme pro určitou velikost mikrosegmentu, implicitně předpokládáme, že zvukový signál je v okolí okénka periodický s periodou okénka. Chyba, která vzniká nesouladem s tímto předpokladem, může být do jisté míry kompenzována použitím tzv. okénka. Okénko je posloupnost vah pro prvky mikrosegmentu.
Hammingovo okénko • w(n) = 0.54 - 0.46cos(2n/(N-1)) • pro n = 0,...,N-1 • w(n) = 0 pro ostatní n (mimo mikrosegment)
Pravoúhlé okénko • přiřadí každému prvku mikrosegmentu jednotkovou váhu, tj. je definováno vztahem • w(n) = 1 pro n = 0,...,N-1 • w(n) = 0 pro ostatní n (mimo mikrosegment)
Analýza digitalizovaného signálu v časové oblasti - vychází se přímo z hodnot vzorku, nikoliv z hodnot spektra
Funkce krátkodobé energie E(n) = (s(k)w(n-k))2 k = -
Krátkodobá intenzita I(n) = |s(k)|w(n - k) k = - použití - např. detekce ticha
Krátkodobá funkce středního počtu průchodu nulou • se dostane jako součet všech průchodů digitalizovaného signálu nulou
Počet lokálních extrémů • Je v podstatě modifikací krátkodobé funkce středního počtu průchodů nulou. • Jak funkce středního počtu průchodů nulou, tak funkce počtu lokálních extrémů mohou být při analýze řečového signálu negativně ovlivněny šumem zvukového pozadí.
Diferenčí klasifikátory D = |s(k)-s(k-1)|w(n-k) k = - (diference prvního řádu)
Krátkodobá autokorelační funkce R(n,m) = (s(k)w(n-k))(s(k+m)w(n-k+m)) k = -
Krátkodobá autokorelační funkce • Této funkce se používá často při zjišťování periodicity signálu a základního tónu řeči. • Je-li vstupní signál periodický s periodou P, nabývá tato funkce maximálních hodnot pro m = 0, P, 2P, ... . • Předpokládá se, že mikrosegment je dlouhý aspoň dvě periody signálu.
Zpracování signálu ve frekvenční oblasti • KrátkodobáFourierova transformace • Kepstrální analýza • Lineární predikce
KrátkodobáFourierova transformace S(, n) = s(k)w(n-k)e-ik , k = - Fixujeme-li čas n, pak S(, n) představuje obyčejnou Fourierovu transformaci posloupnosti {s(k)w(n-k)} a |S(, n)| vyjadřuje amplitudu složky akustického spektra odpovídající frekvenci
Krátkodobá Fourierova transformace • Výpočet se provádí obvykle pomocí algoritmu rychlé Fourierivy transformace (FFT = Fast Fourier Transform) (FFT je speciálním případem diskrétní Fourierovy transformace (DFT) aplikovatelným pro případy, kdy délka mikrosegmentu je mocninou 2.)
FFT - vliv okénka pravoúhlé okénko Hammingovo okénko
Kepstrální analýza • Vychází z modelu činnosti hlasového ústrojí, který předpokládá vznik řečového signálu konvolucí budicí funkce rezonančních dutin hlasového ústrojí. Kepstrum je definováno jako zpětná Fourierova transformace logaritmu Fourierova obrazu vstupního signálu x(k) Kepstrum se často používá při stanovení základního hlasivkového tónu a pro klasifikaci řeči na znělé a neznělé segmenty.
Lineární predikce • Lineární predikce je metoda analýzy akustického signálu, založená na předpokladu, že k-tý vzorek signálu lze popsat lineání kombinací n předchozích vzorků a buzení u(k).
Lineární predikce n s(k) = - ai s(k - i) + Gu(k) , i=1 • n je řád modelu a G koeficient zesílení. Při určování ai a G se používá metody nejmenších čtverců.
Lineární predikce • Lineární predikce bývá zařazována mezi metody zpracování signálu ve frekvenční oblasti. Používá se pro určení základního hlasivkového tónu, frekvence formantů apod.. Řád modelu n se volí obvykle v rozmezí 6 - 14.
Rozpoznávání izolovaných slov • povely, nebo uživatel musí po vyřčení slova udělat pausu • odpadá problém stanovení rozhraní dvou slov v souvislé promluvě • obvykle jde o systémy závislé na uživateli (nutné natrénování) s omezenou kapacitou rozpoznávaných slov
Akustický vektor • Vektor příznaků, vztahující se obvykle k mikrosegmentu, který se typicky obdrží některou z metod krátkodobé analýzy,
Typy klasifikátorů • Klasifikátory využívající porovnání slov metodou DTW • Klasifikátory založené na statistických metodách (modelování pomocí skrytých Markovových modelů) • Klasifikátory zpracovávající rozpoznávané slovo na dvou úrovních; v první úrovni se provede segmentace a fonetické dekódování jednotlivých segmentů, ve druhé úrovni probíhá rozpoznávání slova na základě dekódovaných segmentů.
SW pro analýzu signálu • Např.: • ESPS • Entropic Cambridge Research Laboratory
Metoda DTW (Dynamic Time Warping) • Metoda DTW (česky: metoda borcení časové osy) se používá pro porovnání dvou úseků promluv (v našem případě dvou slov), vyjádřených posloupností akustických vektorů, vzniklých rozdělením slov do mikrosegmentů a jejich klasifikací souborem krátkodobých charakteristik.
Postup: • Pro množinu rozpoznávaných slov vytvoříme soubor referenčních posloupností akustických vektorů (obvykle pro každé slovo několik posloupností odpovídajících několika způsobům vyřčení slova). • Vytvoříme posloupnost akustických vektorů pro rozpoznávané slovo. • Metodou DTW porovnáváme postupně tuto posloupnost s referenčními, a za rozpoznané slovo vezmeme to, které odpovídá největší shodě.
A-rozpoznávané, B-referenční slovo A = {a(1), a(2), ... , a(n)} B = {b(1), b(2), ... , b(m)}. a(1), a(2), ... , a(n), b(1), b(2), ... , b(m), - posloupnosti akustických vektorů pro A, B
DTW-formalizace • Algoritmus DTW hledá parametrizaci f, g: i = f(k), j=g(k), k=1 ,…, K • minimalizující výraz K D(A, B) = d(a(f(k)), b(g( k))), k=1 • kde d je vzdálenost mezi akustickými vektory (např. Eukl. metrika)
DTW-omezující podmínky • Možnosti: • f(1)=1; f(K)=n;g(1)=1; g(K)=m; • K m • K n • K max(m, n) • K min(m, n)
DTW-omezující podmínky • f, g - neklesající funkce • omezení na lokální souvislost: • 0 f(k) - f(k-1) konst_1 • 0 g(k) - g(k-1) konst_2 • Globální omezení
DTW-realizace • Heuristické metody • Metody lineárního a dynamického programování • O(N3V )
Vektorová kvantizace • Akustický vektor= vektor příznaků • použití kvantizace: - komprese - vokodéry - předzpracování pro HMM - urychlení DTW
Kódová kniha • Podprostor X n-dimensionálního vektorového prostoru rozdělíme na L disjunktních podmnožin X(i) pokrývajících podprostor X. V každé podmnožině X(i) vybereme reprezentanta v(i). • Vektorový kvantizér přiřazuje vektoru x X(i) vektor v(i). • Množina všech vektorů v(i) tvoří kódovou knihu.
Kvantizace • Kvantizační chyba • optimalita kvantizéru • centroid - minimalizuje d(x,v)dx X(i)
vyhledávání v kódové knize • Dělení na shluky a subshluky • prohledávací stromy • binární, ternární • (MacQuennův algoritmus pro dělení shluku na dva subshluky)
Skryté Markovovy modely • Model představy: hlasové ústrojí je během krátkého časového intervalu (např. odpovídající době trvání mikrosegmentu) v jednom z konečně mnoha stavů artikulačních konfigurací, generuje hlasový signál, a přejde do následujícího stavu hlasového ústrojí. • Tato činnost je chápána statisticky.
HMM • Kvantizací akustických vektorů (vytvořením kódové knihy) lze dosáhnout konečnosti všech parametrů odpovídajícího modelu. • HMM= Hidden Markov Model • Vintsyuk, Jelinek • IBM - Tangora
Markovův proces se skrytým Markovovým modelem je pětice • G = (Q, V, N, M, ) kde: • Q = {qi, ,..., qk} je množina stavù • V = {v1, ... , vm}je abeceda výst. symbolů
N = {nij} je matice přechodu, jejíž prvky určují, s jakou pravděpodobností přechází systém ze stavu qi (v čase t) do stavu qj (v čase t+1),