140 likes | 290 Views
Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií Ing. L. Hluchý, CSc. Modelovanie a riadenie diskrétnych systémov Ing. Ivana Budinská Návrh a testovanie číslicových systémov M. Fischerová Elektrónová litografia RNDr. I. Kostič
E N D
Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií Ing. L. Hluchý, CSc. Modelovanie a riadenie diskrétnych systémov Ing. Ivana Budinská Návrh a testovanie číslicových systémov M. Fischerová Elektrónová litografia RNDr. I. Kostič Numerické metódy a algoritmy Doc. RNDr. L. Halada, CSc. Spracovanie reči Ing. M. Rusko Senzorické systémy Ing. Š. Havlík, DrSc.
Speech databasesfor basic research, for training & testing of ASR and TTS
Voice operated information systemsteleservices Speech recognition server Telephone server Speech synthesis server
Speech synthesis (TTS)Text to speech, telephone applications, tools for the blind
Syntéza reči Súčasný stav: „Unit selection“ syntetizátor s modelovaním prozódie pomocou CART stromov Ukážka: Kempelen 2.1
Model tvorby reči na princípe Zdroj - Filter
HMM syntéza - Motivácia • Jeden z hlavných problémov korpusovej syntézy reči je „data sparsity“. Syntéza je veľmi kvalitná ak syntetizované jednotky majú pokrytie v korpuse, a naopak podstatne horšia ak požadované jednotky korpus neobsahuje. Inými slovami, problémom je generalizovanie „unseen data“. • ASR založené na HMM-GMM majú práve túto vlastnosť generalizovania výborne rozpracovanú v tréningu AMs.
HMM syntéza používa natrénované AMs modely a reč generuje priamo z nich HMMs modelujú spektrum a navyše - čo nie je v ASR – aj F0.
Úplný model reči má veľkosť do 1MB, na rozdiel od korpusovej syntézy, ktorá má x100MB Kontextuálne zhlukovanie (ako v ASR) je oveľa flexibilnejšie ako výber jednotiek Výborný framework pre modifikáciu a konverziu hlasov (možno meniť kvalitu hlasu!) Dobrá plynulosť generovanej reči, ale stále nízka kvalita reči (reč zneje stále roboticky) Výhody a nevýhody HMM syntézy
Dramatic Piece Reader (DRAPER) Architecture of Draper
Automatic speech recognition (ASR)Speech to text, dictation, media monitoring
Automatický prepis diktátu pre MSSR (APD) • Objednávka MSSR na vytvorenie softvéru na automatické prepisovanie diktátu do textu (napríklad diktovanie súdnych rozhodnutí sudcami) Systém vykonáva: • On-line prepis reči (Diktačný systém) • Off-line prepis z diktafónových nahrávok reči
Ďakujeme za pozornosť Oddelenie analýzy a syntézy reči UI SAV