1 / 21

Syntéza reči

Syntéza reči. Syntéza reči - úvod. Rozpoznávanie – konverzia reči na text Syntéza reči – konverzia textu na reč (Text-to-Speech - TTS)

nalani
Download Presentation

Syntéza reči

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Syntéza reči

  2. Syntéza reči - úvod • Rozpoznávanie – konverzia reči na text • Syntéza reči – konverzia textu na reč (Text-to-Speech - TTS) • Aplikácie: ak nie je iná možnosť ako oznámiť informácie: napr. v aplikáciach pre nevidiacich, telefónnych aplikáciach (call centers), experimentálnych aplikáciach, robotike • Ďalšie možné aplikácie: auto-aplikácie (navigácia), smart home aplikácie, office • TTS je menej výpočtovo náročný proces ako rozpoznávanie reči • Problematika TTS je interdisciplinárna: spracovanie signálov, teoretická informatika, natural language processing, fonetika, databazové systémy.

  3. Syntéza reči - história • 1846 – prvý mechanický syntetizátor nazvaný rečový organ • 1922 - prvý elektrické syntetizačné zariadenie • 1939 – prvý elektrický rečový syntetizátor Voder, riadený človekom pomocou pedálov a kláves • 1961 – prvý syntetizátor s fonetickými pravidlami pre digitálny počítač • 1968 – prvý kompletný text-to-speech system • roky 80te – začiatky komerčných TTS • 1985 – PSOLA – prosodické modifikácie • roky 90te – deterministické/stochastické modely, veľké databázy

  4. Syntéza reči – schéma - Voder

  5. Komplexnosť úlohy syntézy reči • Vyvinúť komplexný TTS systém nie je ľahké. • TTS musí zvládnuť úlohy: modelovanie prozódie (prízvuku), analýzu lexikálnej štruktúry textu a pod. • Zlá prozódia môže meniť význam vety!

  6. TTS – delenie podľa komplexnosti • TTS s malým slovníkom - spájané jednotky možu byť slová alebo frázy. Zvyčajne nie je potrebná nejaká prozodická modifikácia. Ide o jednoduché „zreťazenie“ jednotiek – slov, fráz. • TTS so stredne veľkým slovníkom (limitovaným) – najčastejšie technológia spájania slov a sub-slovných jednotiek (častí slov – slabík, ...). Úprava prozódie je voliteľná. Tento typ sa používa najmä v tel. aplikáciach • TTS s veľkým slovníkom – vstupom môže byť ľubovoľný text – väčšinou založený na zreťazení foném. Od týchto systémov sa očakáva kvalitná práca s prozódiou a „high quality concatenation“. Tento typ syntézy nájde uplatnenie v office aplikáciach.

  7. TTS systémová štruktúra

  8. TTS systémová štruktúra • Vstupom je čistý text (email, článok, príkazy...) alebo otagovaný (označený) text (VoiceXML, HTML, ...) so „značkami“ pre TTS systém • Textová analýza sa snaží porozumieť textu a vložiť doň sémantické (významové) značky. • Fonetická analýza – konvertuje text do postupnosti fonén • Prozodická analýza – pridáva informácie o prozódií do reťazca foném (melódia, akcent, pauzy, tempo) • Blok rečovej syntézy generuje rečový signál z daného reťazca foném (alebo iných jednotiek) a prozodickej informácie

  9. Syntéza reči – textová analýza • Textová analýza je prvým blokom TTS systému • Snaží sa pochopiť vstupný text (na istej úrovni) • Do vstupného toku vkladá informáciu o význame (sémantike) • Može byť použitý v iných aplikáciach • Je jazykovo závislý. Rozdielné problémy v rozličných jazykoch • Pracuje s pravidlami, bázou znalostí a s veľkými slovníkami

  10. Text analyses - Document Structure Detection • Je potrebná pre veľké dokumenty, pre porozumenie častí dokumentu (kapitoly, paragrafy, tabuľky) • Rozdelenie na vety. Spracovanie textu sa vykonáva po vetách. • Výstupom by mal byť text v podobe otagovaných viet. • Pracuje s pravidlami.

  11. Text analyses – normalizácia textu • je dôležitá, každý TTS systém by ju mal mať. • jej úlohou je náhrada nerečových tokénov ich textovým prepisom • ide o čísla, dátumy, časy, skratky, symboly, a pod. • niekedy je potrebné použiť hláskovanie (spelling) • je potrebné implementovať pravidlá pre skloňovanie v slovečine • Výstupom by mal byť text bez špeciálnych symbolov • Pracuje s pravidlami (rules) • 100 km/h -> sto kilometrov za hodinu (základný tvar: kilometre za sekundu)

  12. Text analyses – linguistická analýza • syntaktický a sémantický parsing textu • delenie viet ( na odseky, hlavná – vedľajšia veta) • určenie typu slova, vzoru, pádu, rodu • detekcia významu slova, zdôraznenia, priamej reči (povedal: „Ahoj!“) ... • Generuje informáciu pre prozodickú analýzu; zlé pochopenie textu -> nesprávna prozódia (prízvuk) -> výsledok bude znieť neprirodzene, resp. zlá prozódia, môže zmeniť význam textu. • Výstupom môže byť čistý text s označenou sémantickou informáciou • Pracuje s pravidlami (gramatiky, rozhodovacie stromy, ...)

  13. Syntéza reči – fonetická analýza • Blok fonetickej analýzy je druhým blokom TTS systému • Pokúša sa rozdeliť text na fonémy • Definuje, čo bude syntetizátor hovoriť • Generuje postupnosť foném • Hlavnou časťou je konverzia grafém na fonémy (letter to sound) • Pracuje s pravidlami a databázou jednotiek (foném)

  14. Syntéza reči - Odstránenie homografov • homograf – dve slová s rozdielnou výslovnosťou (fonémy, dlžka) a rovnakou textovou reprezentáciou. • príklad: ?? • Rozhodnutie o tom, ktorá výslovnosť sa má použiť vyplýva z analýzy textu • Pracuje s informáciami z bloku textovej analýzy, pravidlami a pravdepodobnosťami.

  15. Syntéza reči – morfologická analýza • Dekompozícia slova na predponu, základ slova a príponu • Pracuje s informáciami z bloku textovej analýzy, s pravidlami a slovníkom.

  16. Syntéza reči – konverzia písmen na zvuky • konvertujú sa písmena (grafémy) na zvuky (fonémy) – fonetická transkripcia • fonémy sú jednotky na reprezentáciu hovorenej reči • pracuje s transkripciami a slovníkmi výslovností

  17. Syntéza reči – prozodická analýza • blok prozodickej analýzy je tretím blokom TTS systému • v jednoduchých syntetizátoroch nie je nevyhnutná • pridáva k vstupnému reťazcu foném príkazy pre rečový syntetizátor pre prozodické modifikácie • F0: melódia • Hlasitosť: dôraz • Trvanie (duration): pauzy, rýchlosť reči • môže pracovať s databázami prozodických príkladov alebo rôznych rečníckych štýlov

  18. Proces rečovej syntézy • rečová syntéza je posledným blokom TTS systému • Tento blok generuje rečový signál z danej postupnosti foném a riadiacích príkazov (tagov) • dva zakladné procesy: • výber jednotiek (unit selection) • syntéza signálu (signal synthesis)

  19. Proces rečovej syntézy – výber jednotiek • zabezpečuje výber najlepších jednotiek (foném, difón, jednotiek s variabilnou dlžkou ...) • snaha je o minimalizovanie počtu zreťazení ( ak je to možné volí sa výber jednotiek s variabilnou dĺžkou) • snaha vybrať čo najlepšiu jednotku vzhľadom na dané požiadavky a okolité jednotky. • pracuje s indexom rečovej databázy (rýchle hľadanie) • kvalita produkovanej reči závisí od počtu zreťazení ( v TTS systémoch založených na zreťazení). Problémy s koartikulačnými javmi medzi fonémami • Väčší slovník znamená viacej jednotiek, menšie jednotky.

  20. Proces rečovej syntézy – výber jednotiek fonémy – kontextovo nezávislé alofóny – kontextovo závislé fonémy difóny – je jednotka, ktorá začína v strede jednej fonémy a konči v strede inej fonémy. trifóna – ako difóna, iba preskočíme cez jednu fonému slabika – je najmenšia kompaktná jednotka v reči demi-slabika – podobne ako difóna

More Related