210 likes | 477 Views
Syntéza reči. Syntéza reči - úvod. Rozpoznávanie – konverzia reči na text Syntéza reči – konverzia textu na reč (Text-to-Speech - TTS)
E N D
Syntéza reči - úvod • Rozpoznávanie – konverzia reči na text • Syntéza reči – konverzia textu na reč (Text-to-Speech - TTS) • Aplikácie: ak nie je iná možnosť ako oznámiť informácie: napr. v aplikáciach pre nevidiacich, telefónnych aplikáciach (call centers), experimentálnych aplikáciach, robotike • Ďalšie možné aplikácie: auto-aplikácie (navigácia), smart home aplikácie, office • TTS je menej výpočtovo náročný proces ako rozpoznávanie reči • Problematika TTS je interdisciplinárna: spracovanie signálov, teoretická informatika, natural language processing, fonetika, databazové systémy.
Syntéza reči - história • 1846 – prvý mechanický syntetizátor nazvaný rečový organ • 1922 - prvý elektrické syntetizačné zariadenie • 1939 – prvý elektrický rečový syntetizátor Voder, riadený človekom pomocou pedálov a kláves • 1961 – prvý syntetizátor s fonetickými pravidlami pre digitálny počítač • 1968 – prvý kompletný text-to-speech system • roky 80te – začiatky komerčných TTS • 1985 – PSOLA – prosodické modifikácie • roky 90te – deterministické/stochastické modely, veľké databázy
Komplexnosť úlohy syntézy reči • Vyvinúť komplexný TTS systém nie je ľahké. • TTS musí zvládnuť úlohy: modelovanie prozódie (prízvuku), analýzu lexikálnej štruktúry textu a pod. • Zlá prozódia môže meniť význam vety!
TTS – delenie podľa komplexnosti • TTS s malým slovníkom - spájané jednotky možu byť slová alebo frázy. Zvyčajne nie je potrebná nejaká prozodická modifikácia. Ide o jednoduché „zreťazenie“ jednotiek – slov, fráz. • TTS so stredne veľkým slovníkom (limitovaným) – najčastejšie technológia spájania slov a sub-slovných jednotiek (častí slov – slabík, ...). Úprava prozódie je voliteľná. Tento typ sa používa najmä v tel. aplikáciach • TTS s veľkým slovníkom – vstupom môže byť ľubovoľný text – väčšinou založený na zreťazení foném. Od týchto systémov sa očakáva kvalitná práca s prozódiou a „high quality concatenation“. Tento typ syntézy nájde uplatnenie v office aplikáciach.
TTS systémová štruktúra • Vstupom je čistý text (email, článok, príkazy...) alebo otagovaný (označený) text (VoiceXML, HTML, ...) so „značkami“ pre TTS systém • Textová analýza sa snaží porozumieť textu a vložiť doň sémantické (významové) značky. • Fonetická analýza – konvertuje text do postupnosti fonén • Prozodická analýza – pridáva informácie o prozódií do reťazca foném (melódia, akcent, pauzy, tempo) • Blok rečovej syntézy generuje rečový signál z daného reťazca foném (alebo iných jednotiek) a prozodickej informácie
Syntéza reči – textová analýza • Textová analýza je prvým blokom TTS systému • Snaží sa pochopiť vstupný text (na istej úrovni) • Do vstupného toku vkladá informáciu o význame (sémantike) • Može byť použitý v iných aplikáciach • Je jazykovo závislý. Rozdielné problémy v rozličných jazykoch • Pracuje s pravidlami, bázou znalostí a s veľkými slovníkami
Text analyses - Document Structure Detection • Je potrebná pre veľké dokumenty, pre porozumenie častí dokumentu (kapitoly, paragrafy, tabuľky) • Rozdelenie na vety. Spracovanie textu sa vykonáva po vetách. • Výstupom by mal byť text v podobe otagovaných viet. • Pracuje s pravidlami.
Text analyses – normalizácia textu • je dôležitá, každý TTS systém by ju mal mať. • jej úlohou je náhrada nerečových tokénov ich textovým prepisom • ide o čísla, dátumy, časy, skratky, symboly, a pod. • niekedy je potrebné použiť hláskovanie (spelling) • je potrebné implementovať pravidlá pre skloňovanie v slovečine • Výstupom by mal byť text bez špeciálnych symbolov • Pracuje s pravidlami (rules) • 100 km/h -> sto kilometrov za hodinu (základný tvar: kilometre za sekundu)
Text analyses – linguistická analýza • syntaktický a sémantický parsing textu • delenie viet ( na odseky, hlavná – vedľajšia veta) • určenie typu slova, vzoru, pádu, rodu • detekcia významu slova, zdôraznenia, priamej reči (povedal: „Ahoj!“) ... • Generuje informáciu pre prozodickú analýzu; zlé pochopenie textu -> nesprávna prozódia (prízvuk) -> výsledok bude znieť neprirodzene, resp. zlá prozódia, môže zmeniť význam textu. • Výstupom môže byť čistý text s označenou sémantickou informáciou • Pracuje s pravidlami (gramatiky, rozhodovacie stromy, ...)
Syntéza reči – fonetická analýza • Blok fonetickej analýzy je druhým blokom TTS systému • Pokúša sa rozdeliť text na fonémy • Definuje, čo bude syntetizátor hovoriť • Generuje postupnosť foném • Hlavnou časťou je konverzia grafém na fonémy (letter to sound) • Pracuje s pravidlami a databázou jednotiek (foném)
Syntéza reči - Odstránenie homografov • homograf – dve slová s rozdielnou výslovnosťou (fonémy, dlžka) a rovnakou textovou reprezentáciou. • príklad: ?? • Rozhodnutie o tom, ktorá výslovnosť sa má použiť vyplýva z analýzy textu • Pracuje s informáciami z bloku textovej analýzy, pravidlami a pravdepodobnosťami.
Syntéza reči – morfologická analýza • Dekompozícia slova na predponu, základ slova a príponu • Pracuje s informáciami z bloku textovej analýzy, s pravidlami a slovníkom.
Syntéza reči – konverzia písmen na zvuky • konvertujú sa písmena (grafémy) na zvuky (fonémy) – fonetická transkripcia • fonémy sú jednotky na reprezentáciu hovorenej reči • pracuje s transkripciami a slovníkmi výslovností
Syntéza reči – prozodická analýza • blok prozodickej analýzy je tretím blokom TTS systému • v jednoduchých syntetizátoroch nie je nevyhnutná • pridáva k vstupnému reťazcu foném príkazy pre rečový syntetizátor pre prozodické modifikácie • F0: melódia • Hlasitosť: dôraz • Trvanie (duration): pauzy, rýchlosť reči • môže pracovať s databázami prozodických príkladov alebo rôznych rečníckych štýlov
Proces rečovej syntézy • rečová syntéza je posledným blokom TTS systému • Tento blok generuje rečový signál z danej postupnosti foném a riadiacích príkazov (tagov) • dva zakladné procesy: • výber jednotiek (unit selection) • syntéza signálu (signal synthesis)
Proces rečovej syntézy – výber jednotiek • zabezpečuje výber najlepších jednotiek (foném, difón, jednotiek s variabilnou dlžkou ...) • snaha je o minimalizovanie počtu zreťazení ( ak je to možné volí sa výber jednotiek s variabilnou dĺžkou) • snaha vybrať čo najlepšiu jednotku vzhľadom na dané požiadavky a okolité jednotky. • pracuje s indexom rečovej databázy (rýchle hľadanie) • kvalita produkovanej reči závisí od počtu zreťazení ( v TTS systémoch založených na zreťazení). Problémy s koartikulačnými javmi medzi fonémami • Väčší slovník znamená viacej jednotiek, menšie jednotky.
Proces rečovej syntézy – výber jednotiek fonémy – kontextovo nezávislé alofóny – kontextovo závislé fonémy difóny – je jednotka, ktorá začína v strede jednej fonémy a konči v strede inej fonémy. trifóna – ako difóna, iba preskočíme cez jednu fonému slabika – je najmenšia kompaktná jednotka v reči demi-slabika – podobne ako difóna