Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií

Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií Ing. L. Hluchý, CSc. Modelovanie a riadenie diskrétnych systémov Ing. Ivana Budinská Návrh a testovanie číslicových systémov M. Fischerová Elektrónová litografia RNDr. I. Kostič Numerické metódy a algoritmy Doc. RNDr. L. Halada, CSc. Spracovanie reči Ing. M. Rusko Senzorické systémy Ing. Š. Havlík, DrSc.

Speech databasesfor basic research, for training & testing of ASR and TTS

Voice operated information systemsteleservices Speech recognition server Telephone server Speech synthesis server

Speech synthesis (TTS)Text to speech, telephone applications, tools for the blind

Syntéza reči Súčasný stav: „Unit selection“ syntetizátor s modelovaním prozódie pomocou CART stromov Ukážka: Kempelen 2.1

Model tvorby reči na princípe Zdroj - Filter

HMM syntéza - Motivácia • Jeden z hlavných problémov korpusovej syntézy reči je „data sparsity“. Syntéza je veľmi kvalitná ak syntetizované jednotky majú pokrytie v korpuse, a naopak podstatne horšia ak požadované jednotky korpus neobsahuje. Inými slovami, problémom je generalizovanie „unseen data“. • ASR založené na HMM-GMM majú práve túto vlastnosť generalizovania výborne rozpracovanú v tréningu AMs.

HMM syntéza používa natrénované AMs modely a reč generuje priamo z nich HMMs modelujú spektrum a navyše - čo nie je v ASR – aj F0.

Úplný model reči má veľkosť do 1MB, na rozdiel od korpusovej syntézy, ktorá má x100MB Kontextuálne zhlukovanie (ako v ASR) je oveľa flexibilnejšie ako výber jednotiek Výborný framework pre modifikáciu a konverziu hlasov (možno meniť kvalitu hlasu!) Dobrá plynulosť generovanej reči, ale stále nízka kvalita reči (reč zneje stále roboticky) Výhody a nevýhody HMM syntézy

Dramatic Piece Reader (DRAPER) Architecture of Draper

Automatic speech recognition (ASR)Speech to text, dictation, media monitoring

Speech recognition schematic diagram

Automatický prepis diktátu pre MSSR (APD) • Objednávka MSSR na vytvorenie softvéru na automatické prepisovanie diktátu do textu (napríklad diktovanie súdnych rozhodnutí sudcami) Systém vykonáva: • On-line prepis reči (Diktačný systém) • Off-line prepis z diktafónových nahrávok reči

Ďakujeme za pozornosť Oddelenie analýzy a syntézy reči UI SAV

Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií