1 / 19

Raspoznavanje govornika u zvučnom zapisu

Raspoznavanje govornika u zvučnom zapisu. Matija Hajduk Vedran Jerbić Stjepan Stjepčević Mara Živčić. Zagreb, Lipanj 2006. Uvod. Cilj projekta: Identifikacija govornika na temelju usporedbe sa postojećom bazom podataka. Zagreb, Lipanj 2006. Opis problema.

eydie
Download Presentation

Raspoznavanje govornika u zvučnom zapisu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Raspoznavanje govornika u zvučnom zapisu Matija Hajduk Vedran Jerbić Stjepan Stjepčević Mara Živčić Zagreb, Lipanj 2006.

  2. Uvod • Cilj projekta: • Identifikacija govornika na temelju usporedbe sa postojećom bazom podataka Zagreb, Lipanj 2006

  3. Opis problema • Projektirati sustav koji će na temelju snimljenog govora i usporedbom sa postojećom bazom podataka identificirati osobu ili utvrditi da njene govorne karakteristike nisu pohranjene u bazi podataka Zagreb, Lipanj 2006

  4. Opis rješenja problema • Metoda rješavanja problema: • Kepstralna analiza • Vektorska kvantizacija • Izrada baze podataka • Identifikacija pomoću baze podataka Zagreb, Lipanj 2006

  5. Kepstralna analiza Što je to KEPSTAR?!?!? Rebus od SPEKTAR Zagreb, Lipanj 2006

  6. Kepstralna analiza • Inverzna Fourierova transformacija provede se nad logaritmom apsolutne vrijednosti Fourierove transformacije odsječka Zagreb, Lipanj 2006

  7. Kepstralna analiza • Podijeliti signal na uzorke od 25 ms • Za svaki uzorak napraviti kepstar i kreirati vektor od prvih 12 članova • Dobije se niz kepstralnih vektora koji predstavlja govorne karakteristike osobe Zagreb, Lipanj 2006

  8. Vektorska kvantizacija • Za niz takvih vektora treba naći N tipičnih, koji najbolje reprezentiraju cijeli skup vektora • Koristi se generalizirani Lloyd-Maxov kvantizator Zagreb, Lipanj 2006

  9. Postupak kvantizacije • Način rada skalarnog (1-D) kvantizatora • Naći algoritam koji određuje razine kvantizacije takve da minimiziraju srednju kvadratnu pogrešku Zagreb, Lipanj 2006

  10. Postupak kvantizacije • Odabere se proizvoljan skup N razina a1 < a2 < ... < aN • Za 1 ≤ j ≤ N odrede se bj= 0.5(aj+1 + aj) • Za 1 ≤ j ≤ N odrede se ajkao uvjetne srednje vrijednosti U, pri čemu je U (bj-1, bj] (uz b0 = -∞, a bN = ∞) • Koraci se ponavljaju dok srednja kvadratna pogreška ne postane zanemarivo malena Zagreb, Lipanj 2006

  11. Postupak kvantizacije • Pokazalo se da se nakon određenog broja ponavljanja pogreška se gotovo više ne smanjuje Zagreb, Lipanj 2006

  12. Postupak kvantizacije • Ovaj postupak treba generalizirati na 12 dimenzija • Kod skalarnog kvantizatora kao mjera distorzije koristi se kvadratna udaljenost • Analogno tome kod 12-dimenzionalnog kvantizatora koristimo euklidsku udaljenost Zagreb, Lipanj 2006

  13. Izrada baze podataka • Za svaku osobu dobivenih N karakterističnih vektora pohranimo u bazu podataka • Tako dobivenu bazu koristimo u postupku identifikacije osoba Zagreb, Lipanj 2006

  14. Postupak identifikacije • Nađemo niz kepstralnih vektora nepoznatog govornika • Taj niz vektora pokušamo kvantizirati sa svakim od projektiranih kvantizatora • Može se očekivati da onaj koji daje najmanju prosječnu kvadratnu pogrešku kvantizacije odgovara nepoznatom govorniku Zagreb, Lipanj 2006

  15. Eksperimentalni rezultati • Kao granična srednja kvadratna pogreška uspješne identifikacije govornika ispitivanjem je dobiveno MSEgr = 0.1 Zagreb, Lipanj 2006

  16. Zaključak • Za postizanje dovoljno malene srednje kvadratne pogreške kvantizacije bilo je dovoljno 100 reprezentativnih vektora dobivenih Lloyd-Maxovim algoritmom u 40-ak iteracija • Za bolji rad cijelog sustava potrebna je što veća duljina zvučnog zapisa kako bi dobivenih 100 tipičnih vektora što bolje predstavljalo govorne karakteristike nekog govornika Zagreb, Lipanj 2006

  17. Literatura • Linde, J., Buzo, A., Gray, R. M.: An Algorithm for Vector Quantizer Design, IEEE Transactions on Communications, Vol. Com-28, No. 1, January 1980 • Campbell, J. P. Jr.: Speaker Recognition: A Tutorial, Proceedings of the IEEE, Vol. 85, No. 9, September 1997 • MIT, Fall 2002: Introduction to Digital Communication, Lecture 6: Quantization • Damir Seršić: Predavanje 14 SPUS: Skalarna kvantizacija signala Zagreb, Lipanj 2006

  18. Pitanja ???? Zagreb, Lipanj 2006

  19. Hvala na pažnji!!!! Zagreb, Lipanj 2006

More Related