200 likes | 466 Views
Raspoznavanje govornika u zvučnom zapisu. Matija Hajduk Vedran Jerbić Stjepan Stjepčević Mara Živčić. Zagreb, Lipanj 2006. Uvod. Cilj projekta: Identifikacija govornika na temelju usporedbe sa postojećom bazom podataka. Zagreb, Lipanj 2006. Opis problema.
E N D
Raspoznavanje govornika u zvučnom zapisu Matija Hajduk Vedran Jerbić Stjepan Stjepčević Mara Živčić Zagreb, Lipanj 2006.
Uvod • Cilj projekta: • Identifikacija govornika na temelju usporedbe sa postojećom bazom podataka Zagreb, Lipanj 2006
Opis problema • Projektirati sustav koji će na temelju snimljenog govora i usporedbom sa postojećom bazom podataka identificirati osobu ili utvrditi da njene govorne karakteristike nisu pohranjene u bazi podataka Zagreb, Lipanj 2006
Opis rješenja problema • Metoda rješavanja problema: • Kepstralna analiza • Vektorska kvantizacija • Izrada baze podataka • Identifikacija pomoću baze podataka Zagreb, Lipanj 2006
Kepstralna analiza Što je to KEPSTAR?!?!? Rebus od SPEKTAR Zagreb, Lipanj 2006
Kepstralna analiza • Inverzna Fourierova transformacija provede se nad logaritmom apsolutne vrijednosti Fourierove transformacije odsječka Zagreb, Lipanj 2006
Kepstralna analiza • Podijeliti signal na uzorke od 25 ms • Za svaki uzorak napraviti kepstar i kreirati vektor od prvih 12 članova • Dobije se niz kepstralnih vektora koji predstavlja govorne karakteristike osobe Zagreb, Lipanj 2006
Vektorska kvantizacija • Za niz takvih vektora treba naći N tipičnih, koji najbolje reprezentiraju cijeli skup vektora • Koristi se generalizirani Lloyd-Maxov kvantizator Zagreb, Lipanj 2006
Postupak kvantizacije • Način rada skalarnog (1-D) kvantizatora • Naći algoritam koji određuje razine kvantizacije takve da minimiziraju srednju kvadratnu pogrešku Zagreb, Lipanj 2006
Postupak kvantizacije • Odabere se proizvoljan skup N razina a1 < a2 < ... < aN • Za 1 ≤ j ≤ N odrede se bj= 0.5(aj+1 + aj) • Za 1 ≤ j ≤ N odrede se ajkao uvjetne srednje vrijednosti U, pri čemu je U (bj-1, bj] (uz b0 = -∞, a bN = ∞) • Koraci se ponavljaju dok srednja kvadratna pogreška ne postane zanemarivo malena Zagreb, Lipanj 2006
Postupak kvantizacije • Pokazalo se da se nakon određenog broja ponavljanja pogreška se gotovo više ne smanjuje Zagreb, Lipanj 2006
Postupak kvantizacije • Ovaj postupak treba generalizirati na 12 dimenzija • Kod skalarnog kvantizatora kao mjera distorzije koristi se kvadratna udaljenost • Analogno tome kod 12-dimenzionalnog kvantizatora koristimo euklidsku udaljenost Zagreb, Lipanj 2006
Izrada baze podataka • Za svaku osobu dobivenih N karakterističnih vektora pohranimo u bazu podataka • Tako dobivenu bazu koristimo u postupku identifikacije osoba Zagreb, Lipanj 2006
Postupak identifikacije • Nađemo niz kepstralnih vektora nepoznatog govornika • Taj niz vektora pokušamo kvantizirati sa svakim od projektiranih kvantizatora • Može se očekivati da onaj koji daje najmanju prosječnu kvadratnu pogrešku kvantizacije odgovara nepoznatom govorniku Zagreb, Lipanj 2006
Eksperimentalni rezultati • Kao granična srednja kvadratna pogreška uspješne identifikacije govornika ispitivanjem je dobiveno MSEgr = 0.1 Zagreb, Lipanj 2006
Zaključak • Za postizanje dovoljno malene srednje kvadratne pogreške kvantizacije bilo je dovoljno 100 reprezentativnih vektora dobivenih Lloyd-Maxovim algoritmom u 40-ak iteracija • Za bolji rad cijelog sustava potrebna je što veća duljina zvučnog zapisa kako bi dobivenih 100 tipičnih vektora što bolje predstavljalo govorne karakteristike nekog govornika Zagreb, Lipanj 2006
Literatura • Linde, J., Buzo, A., Gray, R. M.: An Algorithm for Vector Quantizer Design, IEEE Transactions on Communications, Vol. Com-28, No. 1, January 1980 • Campbell, J. P. Jr.: Speaker Recognition: A Tutorial, Proceedings of the IEEE, Vol. 85, No. 9, September 1997 • MIT, Fall 2002: Introduction to Digital Communication, Lecture 6: Quantization • Damir Seršić: Predavanje 14 SPUS: Skalarna kvantizacija signala Zagreb, Lipanj 2006
Pitanja ???? Zagreb, Lipanj 2006
Hvala na pažnji!!!! Zagreb, Lipanj 2006