390 likes | 604 Views
Kõnetuvastus. Kõnetuvastuse definitsioonid. 1. The automatic speech recognition problem consists of finding the sequence of words W associated to a given acoustic sequence X (Beccetti and Ricotti, 1999)
E N D
Kõnetuvastuse definitsioonid 1. The automatic speech recognition problem consists of finding the sequence of words W associated to a given acoustic sequence X (Beccetti and Ricotti, 1999) 2. Speech recognition can be generally defined as the process of transforming a continuous speech signal into a discrete representations which may be assigned proper meanings and which, when comprehended, may be used to affect responsive behaviour (Lea, 1980)
Kõnetuvastussüsteemide klassifikatsioon • Piiratud sõnavara: • väike sõnastik (< 1000 sõna) • suur sõnastik (< 10000 sõna) • sõnakaupa hääldus • spontaanne kõne (dialoogsüsteem) • Piiramata sõnavara (> 10000 sõna): • sõnakaupa hääldus (nimede, aadresside tuvastus) • sidus kõne (dikteerimissüsteem) • spontaanne kõne
Mustrituvastus “porgandid” Helilaine, spekter, kepster,… Foneemid, sõnad, laused,… Mustrituvastus Füüsilised objektid - signaalid Sümbolesitus
Mustrituvastus • Nähtusi ja objekte võib esitada mitmel erineval kujul – ‘signaalid’ versus ‘sümbolid’ on lihtsustus • Mustrituvastuse eesmärgiks on luua arvutuslikud meetodid, mis võimaldavad automaatselt minna üle ühelt esitusvormilt teisele
Mustrituvastus • Lihtne ülesanne inimesele • Eriliselt raske realiseerida arvutis • Põhiprobleem on variatiivsus – sama nähtuse erinevad realisatsioonid väljenduvad füüsiliselt mõõdetavates tunnustes erinevalt • Näiteks, sama sõna identseid hääldusi praktiliselt ei eksisteeri • … kui see oleks nii, siis oleks kõnetuvastus väga lihtne!
Automaatne kõnetuvastus Kõnemustrite töötlus • Kõne erinevad esitused: • kommunikatiivne eesmärk – semantika • sõnajada – leksikon, süntaks • häälikujada – fonoloogia • neuroloogiline • artikulatoorne • akustiline
Kõnetuvastus • Sama lause realiseerub erinevate akustiliste mustritena • Variatiivsus on tingitud: • vanus, sugu • kõnestiil: dikteerimine, ettekanne, vestlus võõraga, vestlus sõbraga,… • keeleline taust, emakeel/võõrkeel,… • emotsionaalne seisund, ümbruskond,… • jpm
Kõne omadused • Kõne on pidev– mitte diskreetsetest üksustest koosnev “akustiline tekst” • On loodudinimestevaheliseks kommunikatsiooniks!
Automaatne kõnetuvastus • Mitmed alternatiivsed lähenemised… • Reegli-põhisedvsandme-põhised • Statistilised meetodidvsneuronvõrgud • Viimasel 20 aastal on edu saavutatud põhiliselt statistiliste meetodite kasutamisega • Hidden Markov Models (HMMs) – Markovi varjatud mudelid
Akustiliste vektorite jada Akustiline signaal Tekst Kõnesignaali töötlus Mustri-tuvastus “must kass läks üle tee” Akustiline mudel Keele-mudel Hääldus-sõnastik Automaatne kõnetuvastus
Kõnesignaali töötlus • Eesmärgid: • Leida kõnesignaalist tuvastuseks vajalikud tunnused fikseeritud ajaintervallide järel • Tuua esile erinevused, mis on tuvastuseks olulised • Siluda ebaolulised variatsioonid • Kõige sagedamini kasutatavateks akustilisteks tunnusteks mel-sageduse kepstri kordajad - Mel Frequency Cepstral Coefficients (MFCC)
t Amplituud Sagedus (Hz) Tunnuste leidmine (1) • Hamming-aken • Diskreetne Fourier teisendus (Discrete Fourier Transform) • Logaritmiline amplituud Analüüsiaken 25ms
Amplituud Sagedus (Mel) Amplituud Sagedusskaala teisendamine võib sisaldada ka silumist Sagedus (Hz) Tunnuste leidmine (2) • Teisendada spekter tajule omasesse sagedusskaalasse (mel-skaala)
Amplituud Amplituud Sagedus (Mel) Sagedus (Mel) Tunnuste leidmine (3) • Rakenda diskreetset koosinus-teisendust Mel-kepstrum lõika maha
Tunnuste leidmine - kokkuvõte • Arvuta lühiajaline spekter • Seda teeb ka inimkõrv! • Ignoreeri faasi-informatsiooni • Esita amplituud logaritmilises skaalas • Teisenda taju-sagedusskaalasse • Tüüpiliselt mel-skaala • Võib kasutada silumist • Rakenda diskreetset koosinus-teisendust (lõika saba maha!) • Tavaliselt kasutatakse 12 esimest kepstrikordajat + energiat
Akustiliste tunnusvektorite jada Akustiline signaal Tekst Kõnesignaali töötlus Mustri-tuvastus “must kass läks üle tee” Akustiline mudel Keele-mudel Hääldus-sõnasik Automaatne kõnetuvastus
Akustiline modelleerimine (1) • Akustiliste tunnusvektorite e. vaatluste jada: X = x1x2…xn • Eesmärk: leida sõnajada W* = w1 w2…wn mis kõige tõenäosemalt vastab sisendsignaalile X P(W) P(X | W) • W* = arg max P(W | X) = arg max -------------------- ww P(X) • P(X) ei mängi rolli, saame: W* = arg max P(W) P(X | W) w
Akustiline modelleerimine (2) W* = arg max P(W) P(X | W) w • Kõige tõenäosem sõnajada W* sõltub: • P(W) – sõnajada a priori tõenäosus, leitakse keelemudelist • P(X | W) – tõenäosus kuulda sisendit X teades, et öeldi sõnajada W
u m s Akustiline modelleerimine (3) • Statistilised meetodid - HMM • Foneemi mudelid - trifoonid: <vasak kontekst>-<põhifoneem>+<parem kontekst> • Sõna ‘must’ jagatuna trifoonideks: /sil-m+u/ /m-u+s/ /u-s+t/ /s-t+sil/ siire /m/->/u/ /u/ siire /u/->/s/ statsionaarne osa
u a a u m Akustiline modelleerimine (4) • Trifoonide arv väga suur – pole otstarbekas, pole piisavalt treeningmatejali • Lahendused: • Trifoonide grupeerimine: /vokaal-s+t/ /vokaal-frikatiiv+klusiil/ /tagavokaal-s+t/ /eesvokaal-s+t/ • Sisemiste olekute sidumine:
Akustiline modelleerimine (5) • Sõnamudelid saadakse foneemimudelite liitmisel • Olekute (X) akustilised parameetrid varieeruvad: • koartikulatsioon • kõneleja individuaalne hääldus • kõnestiil • akustiline keskkond • jm • Eeldame, et muutused on juhuslikud ja käituvad mingi teadaoleva statistilise jaotuse järgi • Jaotuse parameetrid leiame treeningmaterjalist
Statistiline modelleerimine • Tavaliselt eeldatakse, et muutujad on pidevad ja normaaljaotusega • Gaussian Probability Density Function (PDF) – Gaussi jaotustihedusfunktsioon (JTF)
Standardne Gaussi JTF • 1 dimensionaalne Gaussi JTF,keskväärtus=0 ja standardhälve =1
Konstant, mis garanteerib, et joonealune pindala võrdub 1 Defineerib ‘kelluka’ kuju Gaussi JTF (2)
Reaalsed jaotused • Praktikas ei vasta tunnuste jaotus normaaljaotusele • Kõnetunnuste puhul võib esineda mitmeid maksimume, näiteks: • erinevad väärtused meeste, naiste ja laste puhul • erinevates akustilistes tingimustes teostatud salvestused • jm
Gaussi sega-JTF(Gaussian Mixture PDFs) • Mitte-Gaussi jaotuse puhul kasutatakse segamudeleid (Gaussian Mixture PDFs Gaussian Mixture Models (GMMs)) • GMM on mitmete normaaljaotuste (komponentide) kaalutud keskmine: kuip1jap2on Gaussi JTFd, siis p(y) = w1p1(y) + w2p2(y) kusw1 + w2=1, 0 w1, w2 1, defineerib 2-komponendilise segajaotuse (GMM)
Gaussi segamudel - näide • 2-komponendiline GMM • Komponent 1: =0, =0.1 • Komponent 2: =2, =1 , w1 = w2= 0.5
GMM näide 2 • 2-komponendiline segamudel • Komponent 1: =0, =0.1 • Komponent 2: =2, =1, w1 = 0.2w2=0.8
GMM näide3 • 5-komponendiline segamudel
Segamudelid • Enamik jaotustihedusfunktsioone on aproksimeeritavad sobiva Gaussi segamudeliga • Gaussi JTF ja segamudelid võivad olla mitme-dimensionaalsed • Kõnetuvastuses kasutatakse tüüpiliselt kuni 40-mõõtmelisi tunnusvektoreid – seega on ka Gaussi jaotuste dimensioon 40!
Gaussi segamudel • M-komponendiline Gaussi sega-JTF on defineeritud kui: kus igapmon Gaussi JTF ja
O2 O1 O3 HMM • Foneemi mudeliks on HMM: • <vasak kontekst>-<põhifoneem>+<parem kontekst> • HMM on Gausi segamudelite jada, mille puhul on määratud ühest olekust teise ülemineku tõenäosused Olekus 2 püsimise tõenäosus a22 a33 a11 a23 a12 Oleku 2 puudumise tõenäosus a13
HMM • Treenimine – Baum-Welch’ algoritm HMM parameetrite leidmiseks kõneandmetest • Dekodeerimine – Viterbi algoritm akustiliste vektorite jada tuvastamiseks • Treenimiseks vajalik suur hulk andmeid – mitmed tunnid kõnematerjali! • Treening võib kesta mitu päeva!!