100 likes | 225 Views
Speciální struktury číslicových systémů ASN – P9. Syntéza řeči - úvod Konverze textu na řeč Syntéza řeči v časové a kmitočtové oblasti. Syntéza řeči ( speech synthesis). Proč ?. Komunikace člověk - počítač řízení výrobních procesů a výzkumných úloh
E N D
Speciální struktury číslicových systémůASN – P9 • Syntéza řeči - úvod • Konverze textu na řeč • Syntéza řeči v časové a kmitočtové oblasti Syntéza řeči (speech synthesis) Proč ? • Komunikace člověk - počítač • řízení výrobních procesů a výzkumných úloh • v nepřístupném nebo nebezpečném prostředí • pomoc handicapovaným lidem • podávání informací (doprava, kultura, sport) Nač je třeba se soustředit ? • volba fonetických a lingvistických jednotek • způsob zpracování • vlastní syntéza akustických kmitů
Speciální struktury číslicových systémůASN – P9 Postup: • Segmentace - volba akustické jednotky • (foném, difón, trifón, …) Čím menší jednotka, tím větší vliv nesprávné koartikulace mezi slovy plynulost řeči mezi slabikami srozumitelnost Čím větší jednotka, tím více variant promluv • Uložení segmentů v paměti • (vytvoření inventáře) • Spojování segmentů - řetězení (concatenation) • Modelování prozodie - základní kmitočet hlasivek • trvání řečové jednotky • intonace intenzita • tempo • hlasitost
Speciální struktury číslicových systémůASN – P9 • Zpracování v časové oblasti • digitalizace řečového signálu • uložení v paměti • řetězení editace digitálních dat (inventář kratších jednotek) řetězení Poznámka: u větších jednotek po řetězení (rekonstrukci signálu) zůstává více informací - i o prozodii, barvě hlasu … náročné na paměť; u kratších jednotek je špatná prozodie • Zpracování v kmitočtové oblasti • modelování procesu vytváření řeči • LPC analýza, kepstrální parametry, … • uchování charakteristik pro řízení modelu • (nezávislé řízení F0 , zesílení, …)
Speciální struktury číslicových systémůASN – P9 • Konverze textu na řeč - TTS • (Text - to - Speech Synthesis ) • Nejsložitější úloha syntézy !!! • Postup: • zpracování textu (fonetická transkripce) • navržení prozodických charakteristik • vyhledání odpovídajících řečových jednotek • generování syntetického akustického signálu • Jazykově závislá syntéza !!! • Výhody: • operativní • oborově nezávislá • pracuje v reálném čase • malé nároky na paměť • vysoká srozumitelnost • Nevýhoda: • problémy s prozodií • nezachovává charakteristické rysy mluvčího
Speciální struktury číslicových systémůASN – P9 TTS systém pro češtinu ÚFE spolupráce ÚRE AV ČR a fonetického ústavu FF UK (modelování prozodie pomocí gramatických pravidel) katedra teorie obvodů FEL ČVUT (modelování prozodie pomocí umělých neuronových sítí ) laboratorně Původní určení: pro nevidomé (TTS s prozodií řízenou pravidly, SPEKTRA, s.r.o) • Charakteristika: • pracuje v reálném čase • vzorkovací kmitočet 8 kHz, 16 kHz • difónové řetězení • LPC syntéza resp. kepstrální menší zkreslení, modeluje nuly i póly (formanty i antiformanty)
Speciální struktury číslicových systémůASN – P9 Princip: • segmentace - 12 ms ( překrytí 1/4 ) • výpočet LPC koeficientů ( 8 ) • do syntezátoru vstupuje 10 parametrů • 8 koef. LPC • zbytková energie • F0 ( pro určení znělá / neznělá • resp. hodnoty F0) • informace o difónu - průměrná hodnota • F0m pro celou větu (průměrná hodnota) • diference mezi F0m a F0dif • mikrointonace • modelování základního kmitočtu pravidly • pomocí NN A) Prozodie podle pravidel F0m na začátku a konci věty násobeno konstantou např. 1.2, 1.3, … snižování resp. zvyšování F0podle typu věty F0= F0m + F0dif … pouze mírné kolísání
Speciální struktury číslicových systémůASN – P9 B) Prozodie modelovaná neuronovými sítěmi F0m … neužívá se násobná konstanta … neužívá se F0= F0NN + F0dif • ze signálu • využívané informace • prozodické • číslicový filtr 8.řádu - simulace hlasového traktu • signál pro znělé • buzení • šum pro neznělé (neexistence F0) • řeč = ovlivňování sousedních znělých • a neznělých elementů => mísení signál / šum • syntéza - interpolace F0 přes difón (automaticky) • energie pro ovlivnění hlasitosti (ručně) • pitchsynchronnost - celočíselné násobky pitch periody • (ne pro konstantní 12 ms úseky) • eliminuje nespojitosti • preemfáze - odstranění ss-složky signálu před LPC • syntézou (na konci řetězce je opět přidána)
D/A filtr řeč A/D paměť Speciální struktury číslicových systémůASN – P9 Syntéza řeči v časové oblasti • převod spojitého akustického signálu na digitální kód • s možností jeho rekonstrukce • zachování charakteristik mluvčího (v mnoha případech, • není-li editován) • 1) kódování kmitů řeči, digitalizace, uložení • 2) dekódování na analogový tvar dekódování kódování 3) vytvoření inventáře kratších jednotek (slova, slabiky, fonémy) 4) řetězení
Speciální struktury číslicových systémůASN – P9 Druhy • PCM (pulsně kódová modulace) • vzorkovací rychlosti • kvalita závisí na • počtu bitů A/D a D/A • dynamika řeči: 60 dB • šířka kmit.spektra: 10 kHz kvalitní záznam Fv >= 20 kHz 12 bitové převodníky uchování 1 min. řeči 1, 8 Mbyt paměti méně kvalitní záznam Fv = 8 kHz 8 bitové převodníky uchování 1 min. řeči 0,48 Mbyt paměti Zlepšení: DPCM - diferenční PCM ADPCM - adaptivní diferenční PCM 240 kbyt paměti úspora 25% paměti
Speciální struktury číslicových systémůASN – P9 Syntéza řeči v kmitočtové oblasti • matematický model • kmitočtového spektra • analýza řečového signálu • parametry buzení • lze měnit prozodii • druhy: • 1) formantová syntéza - sériové (paralelní) • spojení rezonančních • (antirezonančních) obvodů • 2 000 bitů/sec (15 kbit/min) • dobrá kvalita, technicky • náročné • 2) konkatenační syntéza • LPC - 10-30 ms, řád filtrů 8-12 • neomezený slovník • LP-PSOLA - parametrický model LP + PSOLA • kepstrální • 3) artikulační syntéza – modelování produkce řeči