340 likes | 476 Views
Beszédfelismerés és beszédszintézis Beszédszintézis alapok. Takács György 2014. 03. 27. A hagyományos beszédtechnológia az alábbi négy fő technológiai területet foglalja magában:. 1. Az automatikus beszédfelismerés határozza meg, hogy milyen szavakat mondott ki a felhasználó.
E N D
Beszédfelismerés és beszédszintézisBeszédszintézis alapok Takács György 2014. 03. 27. Beszed. 2013.03.27.
A hagyományos beszédtechnológia az alábbi négy fő technológiai területet foglalja magában: • 1. Az automatikus beszédfelismerés határozza meg, hogy milyen szavakat mondott ki a felhasználó. • 2. A szintaktikai elemzés és a szemantikai interpretáció segítségével elemezhető a felhasználó közlésének szintaktikai szerkezete, valamint leképezhető annak szemantikai interpretációja az adott endszer céljainak megfelelően. • 3. A dialógusvezérlés az input nyelvi jellemzői, az adott felhasználó és feladat egyéni beállításai alapján valósítja meg a rendszer megfelelő lépését, az adatbázis-lekérdezést. • 4. A beszédszintézis technológiáját alkalmazzák arra, hogy a gép előállítsa a megfelelő beszédkimenetet Beszed. 2013.03.27.
A beszédtechnológia szolgáltatja az alapot olyan interfészek előállításához, amelyek lehetővé teszik, hogy a felhasználók a gépekkel természetes emberi nyelven, és ne csak grafikus felület, billentyűzet vagy egér segítségével kommunikáljanak. A beszédszintézist alkalmazzák például autós navigációs rendszerekben és az okostelefonokban a grafikus felület alternatívájaként. A legszélesebb körben használt magyar beszédszintetizátor a Profivox, amely 2002 óta elérhető, és amelyet több alkalmazásba is beépítettek: SMS- és e-mailfelolvasó szoftverbe, autós és mobiltelefonos GPS rendszerbe, valamint e-book és képernyőolvasó szolgáltatásba Beszed. 2013.03.27.
Mi tehát a beszédszintézis? • A természetes beszédlánchoz képest a beszédüzenetet küldő ember helyett egy intelligens eszköz (számítógép, telefonközpont, GPS alapú navigáló rendszer, mobiltelefon) kezdeményezi az üzenetet és beszédjel formájában közli a felfogó emberrel. • Lehetőség szerint a beszédüzenet legyen természetes és érthető, mintha igazi ember mondta volna. Beszed. 2013.03.27.
A beszédszintetizátorok alapvető osztályai Beszed. 2013.03.27.
Megoldott kérdés-e a beszédszintézis, más szóval szöveg-beszéd átalakítás? Beszed. 2013.03.27.
Igen • Mert termékként állnak rendelkezésre megoldások. • Mert jobb rendszerek beépített eleme (pl. OTP számlaegyenleg felolvasó, Hangposta, Windows XP, pályaudvari bemondó) • Mert könyvek leírják, iskolában tanítják…. Beszed. 2013.03.27.
Példa az XP rendszerben! • Vezérlőpult/beszéd • …. Beszed. 2013.03.27.
Megoldott kérdés-e a beszédszintézis, más szóval szöveg-beszéd átalakítás? Beszed. 2013.03.27.
NEM! • Mert nem szeretik! • Mert nem használják! • Mert nem hozott komoly üzleti eredményt senkinek! Beszed. 2013.03.27.
Elfogadjuk az ilyen szintetikus beszédet? Ha nem, akkor miért nem? Beszed. 2013.03.27.
Az én válaszaim • Nem is lehetett mindent megérteni (pl. 4:14 „A Reuters jelentése szerint a robbanás a Bagdad Karrada kerületében található Dzsabal Lubnan (Libanoni-hegység) szállodát döntötte romba.”) • A szöveg-beszéd átalakítás nem „értette” azt amit mond. Azt sem tudta, hogy nekem mi lehet megértési probléma! • Akadtak tényleges kiejtési hibák is! • A beszéd több, mint elemek egymásutánisága! Hiányzottak a beszédfolyamat szükséges további tényezői közül a finom hangsúly, a dallam, a szünetek, a ritmus, a tempóváltások. Ezek az értelmezést is segítik, a beszédet emberivé, széppé teszik. Beszed. 2013.03.27.
Friss hírek a hangportálon (2005. 03.30.) Hosszabb híranyag csemege1 csemege2 csemege3 csemege4 csemege5 Beszed. 2013.03.27.
Érdekesebb helyek a hálón! • http://www.research.att.com/~ttsweb/tts/demo.php#top • http://sayso.elan.fr/interactive_va.asp • http://www.vakalap.hu Beszed. 2013.03.27.
A beszédszintézis alapelemei ma • Általános alapeszköz a PC - bőséges operatív memóriával, háttértárral, hangkártyával. • Természetes beszéd alapelemeit tárolják, módosítják, összefűzik (concatenation). • Mik legyenek a tárolt alapelemek? Teljes közlendő, mondatok, szavak, szótagok, hangok? • Mik legyenek az összefűzési szabályok. • Hogyan lehet olyan elemeket kialakítani, amelyek jól összefűzhetők és a prozódiai elemek is ráépíthetők? • Mi az, amit át kell „fogalmazni”, előre le kell „fordítani” írásból beszédre felolvastatás előtt. Ami jó írott hír, az lehet nem jó emberi felolvasásra sem! • Tehát hogyan lehet gépileg „érteni” a szöveget. Beszed. 2013.03.27.
Nehezen érthető beszéd Jól érthető beszéd, pedig énekelt….. Néhány beszédminta elmélkedésre Beszed. 2013.03.27.
A beszédhangok folytonos és diszkrét természete Beszed. 2013.03.27.
Összefűzéses beszédszintézis • A szintézis minősége annál jobb, minél kevesebb vágási ponttal áll össze a végső beszédrészlet. • Ehhez nagyon nagy anyagot kel felvenni és ebből nehéz összeválogatni a legalkalmasabb elemeket. • Ha kicsi az elemméret (pl. diád) nagyon sok az összefűzés. • A prozódiai jellemzőket is rá kell ültetni (intenzitás, dallam, ritmus stb.) • Nem csak a prozódiai jellemzők ráültetésének kivitelezése nehéz, hanem a tervezés a szöveg alapján. Beszed. 2013.03.27.
Prozódiai elemek ráültetése hullámformaként tárolt és összefűzött elemekre • PSOLA módszer (Pitch Synchronous Overlap Add) • Első lépésben a zöngehelyek (pitch mark) kijelölése • Második lépés a periódusok fázisviszonyainak átállítása koszinuszos összetevőkre – ez egy nem hallható manipuláció • Harmadik lépésben a periódusok összébb tolhatók vagy széthúzhatók a dallamterv szerint. • Az időtartamok periódusok ismétlésével vagy kihagyásával módosíthatók Beszed. 2013.03.27.
Technical detailsMoulines & Charpentier, 1990 original waveform windowed waveform 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 shortened waveform waveform with lower F0 1 4 7 10 13 16 19 1 3 5 7 9 11 13 15 17 19 Beszed. 2013.03.27.
Technical details 1Segmental durations • Segment alignment & PSOLA processing of durations: Alignment can be manual or automatic (with the help of speech recognition) k eI m i n native “…came in…” stretch shrink k eI m i n non-native Beszed. 2013.03.27.
Technical details 1+2Segmental durations + F0 contour • PSOLA processing of F0 on duration-treated utterance native F0 k eI m i n native k eI m i n non-native non-native F0 Beszed. 2013.03.27.
Technical details 1+3Segmental durations + intensity contour • Segment alignment & PSOLA processing of duations followed by intensity contour transfer native intensity k eI m i n native stretch shrink k eI m i n non-native non-native intensity Beszed. 2013.03.27.
Technical details 2+3 F0 contour + intensity contour • “Reverse” segment alignment & PSOLA processing of F0 followed by intensity contour transfer native F0 native intensity k eI m i n native shrink stretch k eI m i n non-native non-native F0 non-native intensity Beszed. 2013.03.27.
Technical detailsExample Praat script native utterance non-native utterance synthetic non-native(durations+F0+intensity) synthetic non-native(durations+intensity) synthetic non-native(F0+intensity) Beszed. 2013.03.27.
Technical detailsComparison before synthesis – duration, F0 & intensity (blue & yellow) native utterance non-native utterance Beszed. 2013.03.27.
Technical detailsComparison after synthesis – duration, F0 & intensity (blue & yellow) native utterance synthetic non-native Beszed. 2013.03.27.
Technical detailsComparison after synthesis – duration & intensity (blue & yellow) native utterance synthetic non-native Beszed. 2013.03.27.
PSOLA pitch-módosítás példa (időszerkezet maradt) • Ének eredeti: • Ének módosított: • Ének „kiegyenesítve”: Beszed. 2013.03.27.