1 / 10

Speciální struktury číslicových systémů ASN – P9

Speciální struktury číslicových systémů ASN – P9. Syntéza řeči - úvod Konverze textu na řeč Syntéza řeči v časové a kmitočtové oblasti. Syntéza řeči ( speech synthesis). Proč ?. Komunikace člověk - počítač řízení výrobních procesů a výzkumných úloh

craig
Download Presentation

Speciální struktury číslicových systémů ASN – P9

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Speciální struktury číslicových systémůASN – P9 • Syntéza řeči - úvod • Konverze textu na řeč • Syntéza řeči v časové a kmitočtové oblasti Syntéza řeči (speech synthesis) Proč ? • Komunikace člověk - počítač • řízení výrobních procesů a výzkumných úloh • v nepřístupném nebo nebezpečném prostředí • pomoc handicapovaným lidem • podávání informací (doprava, kultura, sport) Nač je třeba se soustředit ? • volba fonetických a lingvistických jednotek • způsob zpracování • vlastní syntéza akustických kmitů

  2. Speciální struktury číslicových systémůASN – P9 Postup: • Segmentace - volba akustické jednotky • (foném, difón, trifón, …) Čím menší jednotka, tím větší vliv nesprávné koartikulace mezi slovy plynulost řeči mezi slabikami srozumitelnost Čím větší jednotka, tím více variant promluv • Uložení segmentů v paměti • (vytvoření inventáře) • Spojování segmentů - řetězení (concatenation) • Modelování prozodie - základní kmitočet hlasivek • trvání řečové jednotky • intonace intenzita • tempo • hlasitost

  3. Speciální struktury číslicových systémůASN – P9 • Zpracování v časové oblasti • digitalizace řečového signálu • uložení v paměti • řetězení editace digitálních dat (inventář kratších jednotek) řetězení Poznámka: u větších jednotek po řetězení (rekonstrukci signálu) zůstává více informací - i o prozodii, barvě hlasu … náročné na paměť; u kratších jednotek je špatná prozodie • Zpracování v kmitočtové oblasti • modelování procesu vytváření řeči • LPC analýza, kepstrální parametry, … • uchování charakteristik pro řízení modelu • (nezávislé řízení F0 , zesílení, …)

  4. Speciální struktury číslicových systémůASN – P9 • Konverze textu na řeč - TTS • (Text - to - Speech Synthesis ) • Nejsložitější úloha syntézy !!! • Postup: • zpracování textu (fonetická transkripce) • navržení prozodických charakteristik • vyhledání odpovídajících řečových jednotek • generování syntetického akustického signálu • Jazykově závislá syntéza !!! • Výhody: • operativní • oborově nezávislá • pracuje v reálném čase • malé nároky na paměť • vysoká srozumitelnost • Nevýhoda: • problémy s prozodií • nezachovává charakteristické rysy mluvčího

  5. Speciální struktury číslicových systémůASN – P9 TTS systém pro češtinu ÚFE spolupráce ÚRE AV ČR a fonetického ústavu FF UK (modelování prozodie pomocí gramatických pravidel) katedra teorie obvodů FEL ČVUT (modelování prozodie pomocí umělých neuronových sítí ) laboratorně Původní určení: pro nevidomé (TTS s prozodií řízenou pravidly, SPEKTRA, s.r.o) • Charakteristika: • pracuje v reálném čase • vzorkovací kmitočet 8 kHz, 16 kHz • difónové řetězení • LPC syntéza resp. kepstrální menší zkreslení, modeluje nuly i póly (formanty i antiformanty)

  6. Speciální struktury číslicových systémůASN – P9 Princip: • segmentace - 12 ms ( překrytí 1/4 ) • výpočet LPC koeficientů ( 8 ) • do syntezátoru vstupuje 10 parametrů • 8 koef. LPC • zbytková energie • F0 ( pro určení znělá / neznělá • resp. hodnoty F0) • informace o difónu - průměrná hodnota • F0m pro celou větu (průměrná hodnota) • diference mezi F0m a F0dif • mikrointonace • modelování základního kmitočtu pravidly • pomocí NN A) Prozodie podle pravidel F0m na začátku a konci věty násobeno konstantou např. 1.2, 1.3, … snižování resp. zvyšování F0podle typu věty F0= F0m + F0dif … pouze mírné kolísání

  7. Speciální struktury číslicových systémůASN – P9 B) Prozodie modelovaná neuronovými sítěmi F0m … neužívá se násobná konstanta … neužívá se F0= F0NN + F0dif • ze signálu • využívané informace • prozodické • číslicový filtr 8.řádu - simulace hlasového traktu • signál pro znělé • buzení • šum pro neznělé (neexistence F0) • řeč = ovlivňování sousedních znělých • a neznělých elementů => mísení signál / šum • syntéza - interpolace F0 přes difón (automaticky) • energie pro ovlivnění hlasitosti (ručně) • pitchsynchronnost - celočíselné násobky pitch periody • (ne pro konstantní 12 ms úseky) • eliminuje nespojitosti • preemfáze - odstranění ss-složky signálu před LPC • syntézou (na konci řetězce je opět přidána)

  8. D/A filtr řeč A/D paměť Speciální struktury číslicových systémůASN – P9 Syntéza řeči v časové oblasti • převod spojitého akustického signálu na digitální kód • s možností jeho rekonstrukce • zachování charakteristik mluvčího (v mnoha případech, • není-li editován) • 1) kódování kmitů řeči, digitalizace, uložení • 2) dekódování na analogový tvar dekódování kódování 3) vytvoření inventáře kratších jednotek (slova, slabiky, fonémy) 4) řetězení

  9. Speciální struktury číslicových systémůASN – P9 Druhy • PCM (pulsně kódová modulace) • vzorkovací rychlosti • kvalita závisí na • počtu bitů A/D a D/A • dynamika řeči: 60 dB • šířka kmit.spektra: 10 kHz kvalitní záznam Fv >= 20 kHz 12 bitové převodníky uchování 1 min. řeči 1, 8 Mbyt paměti méně kvalitní záznam Fv = 8 kHz 8 bitové převodníky uchování 1 min. řeči 0,48 Mbyt paměti Zlepšení: DPCM - diferenční PCM ADPCM - adaptivní diferenční PCM 240 kbyt paměti úspora 25% paměti

  10. Speciální struktury číslicových systémůASN – P9 Syntéza řeči v kmitočtové oblasti • matematický model • kmitočtového spektra • analýza řečového signálu • parametry buzení • lze měnit prozodii • druhy: • 1) formantová syntéza - sériové (paralelní) • spojení rezonančních • (antirezonančních) obvodů • 2 000 bitů/sec (15 kbit/min) • dobrá kvalita, technicky • náročné • 2) konkatenační syntéza • LPC - 10-30 ms, řád filtrů 8-12 • neomezený slovník • LP-PSOLA - parametrický model LP + PSOLA • kepstrální • 3) artikulační syntéza – modelování produkce řeči

More Related