1 / 23

Inkrementálny systém pre rozpoznávanie slovných povelov

TECHNICKÁ UNIVERZITA V KOŠICIACH - FAKULTA ELEKTROTECHNIKY A INFORMATIKY Katedra kybernetiky a umelej inteligencie. Ing. Zlatko Fedor Prof. Ing. Peter Sinčák , CSc. Inkrementálny systém pre rozpoznávanie slovných povelov. Teoretický popis použitých prostriedkov

alexa
Download Presentation

Inkrementálny systém pre rozpoznávanie slovných povelov

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TECHNICKÁ UNIVERZITA V KOŠICIACH - FAKULTA ELEKTROTECHNIKY A INFORMATIKY Katedra kybernetiky a umelej inteligencie Ing. Zlatko Fedor Prof. Ing. Peter Sinčák, CSc. Inkrementálny systém pre rozpoznávanie slovných povelov

  2. Teoretický popis použitých prostriedkov Navrhnuté modifikácie neurónovej siete Technická implementácia Experimenty Video ukážka Záver OBSAH

  3. Predspracovanie • Nahrať audio signál • Rozsekanie na menšie časové úseky(mikrosegmenty) • Prekrytie jednotlivých časových úsekov • Váhovanie pomocou hammingovho okienka • Fourierova transformácia • Použijeme iba polovicu spektra • MELovská banka filtrov • Výstup z filtra logaritmujeme • Spätná fourierova transformácia

  4. 1. Nahrať audio signál • vzorkovacia frekvencia 16kHz =>16000 vzoriek/sekunda • 8kHz je nedostatočných – experimenty • 16bitov na hodnotu

  5. 2. rozsekanie na menšie časové úseky • hlasivky zotrvačnosť 10-30ms –> 10ms • 16000 / 100 => 160 hodnôt každých 10ms

  6. 3. prekrytie jednotlivých časových úsekov • pravdepodobne sa netrafíme do zotrvačnosti hlasiviek

  7. 4. váhovanie pomocou hammingovho okienka • vynásobíme hodnoty segmentu hodnotami okienka • prerušovanosť na krajoch segmentov vedie ku skresleniu(zašumeniu spektier)

  8. 5. fourierova transformácia • prevod z časovej oblasti do frekvenčnej • iba reálna časť pretože: človek veľmi nepočuje rozdiel vo fáze • 80+160+80=320 vzoriek -> 320 koeficientov

  9. 6. použijeme iba polovicu spektra • spektrum je symetrické • získame 160 koeficientov

  10. 7. použijeme MELovskú banku filtrov • človek vníma zvuk nelineárne, odstránime jemnú štruktúru spektra nesúcu informáciu o nedôležitom základnom tóne • kompenzujú nelineárne vnímanie frekvencií bankov trojuholníkových pásmových filtrov • Zredukujeme 160 koeficientov na 20

  11. 8. výstup z filtra logaritmujeme • odráža to logaritmické vnímanie hlasitosti ľuďmi a vedie ku gaussovšiemu rozloženiu koeficientov

  12. 9. spätná fourierova transformácia • jednotlivé koeficienty sa dekorelujú • vzhľadom na to, že výkonové spektrum je reálne symetrické bude sa IDFT redukovať na diskrétnu kosínusovú transformáciu DCT

  13. 10. použijeme iba prvých 10 koeficientov • dostatočne reprezentujú ústnu dutinu

  14. 1. normalizácia • neurónová sieť potrebuje na vstupe hodnoty v intervale <0,1> • experimentálne som zistil minimálne a maximálne hodnoty pre 10koeficientov, ktoré dostávam po diskrétnej kosínusovej transformácii

  15. 2. Kompenzácia rôznej dĺžky slov • pri klasifikácii neurónovou sieťou je potrebný konštantný počet vstupných neurónov. • pre danú doménu slov postačuje 33 segmentov • ak je slovo kratšie doplníme ho posledným segmentom slova na požadovanú dĺžku

  16. 2. Kompenzácia rôznej dĺžky slov • ak je slovo potrebné skrátiť je zistený počet mikrosegmentov, ktoré je potrebné odhodiť • pretože je medzi jednotlivými mikrosegmentami prekrytie, vymazávajú sa segmenty čo najďalej od seba => tým sa „zabráni“ vynechávaniu písmen

  17. vychádza z existujúceho modelu MF Artmap • využíva všetky jeho výhody, medzi ktoré jednoznačne patrí rýchlosť učenia/klasifikácie a taktiež identifikácia neznámej triedy • zmena práce s parametrom R na porovnávacej vrstve siete • zmena aktualizácie parametra R pri zatriedení nového príkladu do už existujúceho zhluku • odstraňuje niektoré „chyby“ tejto siete Modifikovaný MF Artmap

  18. MASS

  19. experimentom bolo potrebné nájsť hodnotu parametra neurónovej siete tak, aby následné rozpoznávanie prebiehalo čo najlepšie s prihliadnutím na počet trénovacej množiny a chybného zaradenia slov počet trénovacích slov: 111 počet testovacích slov: 20 počet tried: 10 počet rečníkov: 2 (muž, žena) 1. Experiment

  20. 1. Experiment

  21. výsledná presnosť klasifikácie je 87.93% počet trénovacích slov: 165, počet testovacích slov: 58 počet tried: 10, počet rečníkov: 4 (traja muži, jedna žena) 2. Experiment na robotickom psovi AIBO

  22. Video ukážka Demonštrácia práce v systéme MASS a rozpoznávanie izolovaných slov robotickým psom AIBO

  23. Záver Ďakujem za pozornosť

More Related