1 / 29

Prepoznavanje izgovorene naredbe

Fakultet elektrotehnike i računarstva Zavod za elektroničke sustave i obradu informacija. Prepoznavanje izgovorene naredbe. Anita Ivković Ana Svirčić. Zagreb, lipanj 2007. Problem. modeliranje sustava koji prepoznaje izgovorenu naredbu iz kona č nog skupa riječi. Govor.

nolcha
Download Presentation

Prepoznavanje izgovorene naredbe

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Fakultet elektrotehnike i računarstva Zavod za elektroničke sustave i obradu informacija Prepoznavanje izgovorene naredbe Anita Ivković Ana Svirčić Zagreb, lipanj 2007.

  2. Problem • modeliranje sustava koji prepoznaje izgovorenu naredbu iz konačnog skupa riječi

  3. Govor • za sporazumijevanje • u mnogim sustavima koji nas okružuju • primjeri: • prepoznavanje govora, govornika ili jezika • detekcija riječi • … • kao glasovna naredba za upravljanje i komunikaciju

  4. Rješenje problema Korištene metode obrade govora: • kepstralna analiza • vektorska kvantizacija

  5. Kepstralna analiza • riječ kepstar dolazi od riječi spektar • kepstar – inverzna Fourierova transformacija logaritma spektra snage signala

  6. X(ω) govor G(ω) H(ω) pobudna komponenta prijenosna komponenta Kepstralna analiza • govor – pobudna i prijenosna komponenta

  7. Vektorska kvantizacija • preslikavanje beskonačnog broja vektora nekog prostora u jedan vektor iz skupa konačnog broja • primjer jednodimenzionalne kvantizacije:

  8. Vektorska kvantizacija • primjer dvodimenzionalne vektorske kvantizacije:

  9. Vektorska kvantizacija Optimizacijski kriteriji:

  10. Postupak izrade sustava • snimanje 26 govornika za bazu naredbi • naredbe: naprijed, natrag, lijevo i desno • izrezivanje odsječaka • govor – vremenski promjenjiv proces • odsječci od oko 25 ms su stacionarni • množenje svakog odsječka prozorom

  11. Postupak izrade sustava Vremenski prozor • funkcija koja ima sve vrijednosti jednake nuli izvan nekog zadanog intervala • rezanjem signala na manje segmente, dobivaju se oštri rubovi koji uzrokuju stvaranje nepoželjnih frekvencijskih komponenti u spektru

  12. Hammingov prozor

  13. Postupak izrade sustava • na odsječke pomnožene Hammingovim prozorom primijeniti sljedeći izraz: ifft(20*log(abs(fft(X)))) • dobiva se niz vektora u kepstralnoj domeni • izdvaja se 12 njihovih članova, od drugog do trinaestog - kepstralni koeficijenti • za svaku naredbu – skupljanje vektora na hrpu

  14. Postupak izrade sustava Vektorska kvantizacija • za niz kepstralnih vektora naći N centara koji najbolje reprezentiraju cijeli skup vektora • dobivanje četiri kvantizatora

  15. Konstruiranje detektora Dva detektora • prvi detektor – bolje međusobno razlikovanje riječi iz baze • drugi detektor – eliminacija riječi koje ne pripadaju bazi

  16. Prvi detektor • kvantizacija nepoznate riječi sa sva četiri dobivena kvantizatora • zamjena njezinih kepstralnih koeficijenata najbližim centrom pojedinog kvantizatora • mjerenje srednje kvadratne pogreške kvantizacije

  17. Drugi detektor • kvantizacija nepoznate riječi – dobivanje vlastitih centara oko kojih se okupljaju kepstralni koeficijenti • mjerenje odstupanja njezinih centara od centara za pojedinu naredbu – distorzija

  18. Testiranje Testiramo za: • zajedničku bazu • govornik i govornica iz baze • govornik i govornica koji nisu u bazi • bazu ženskih glasova • govornica iz baze • govornica koja nije u bazi • bazu muških glasova • govornik iz baze • govornik koji nije u bazi

  19. Rezultati • zajednička baza – nepoznati muški govornik

  20. Rezultati • baza muških glasova – nepoznati muški govornik

  21. Demonstracija

  22. Zaključak • ukupna uspješnost: 68% • uspješnost za mješovitu bazu: 68% • uspješnost za žensku bazu: 57% • uspješnost za mušku bazu: 78%

  23. Zaključak Problemi: • zamjena sličnih riječi • neovisnost o redoslijedu slova

  24. Moguće poboljšanje • za bazu uzeti riječi koje se međusobno razlikuju u više glasova • snimiti bazu naredbi posebno za svakog govornika koji bi taj sustav koristio

  25. Hvala svim kolegama, kolegicama, prijateljima, prijateljicama i članovima obitelji koji su strpljivo izgovarali i pomogli nam u snimanju i testiranju!

  26. Pitanja?

  27. Literatura • http://cnx.org/content/m12469/latest • http://dog.zesoi.fer.hr/predavanja • http://spus.zesoi.fer.hr/predavanja • http://spus.zesoi.fer.hr/vjezbe • http://www.data-compression.com • http://en.wikipedia.org • Allen Gersho, Robert M. Gray: Vector quantization and signal compression

  28. K r a j

More Related