1 / 34

Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszédfelismerés és beszédszintézis Beszédszintézis alapok. Takács György 2014. 03. 27. A hagyományos beszédtechnológia az alábbi négy fő technológiai területet foglalja magában:. 1. Az automatikus beszédfelismerés határozza meg, hogy milyen szavakat mondott ki a felhasználó.

Download Presentation

Beszédfelismerés és beszédszintézis Beszédszintézis alapok

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Beszédfelismerés és beszédszintézisBeszédszintézis alapok Takács György 2014. 03. 27. Beszed. 2013.03.27.

  2. A hagyományos beszédtechnológia az alábbi négy fő technológiai területet foglalja magában: • 1. Az automatikus beszédfelismerés határozza meg, hogy milyen szavakat mondott ki a felhasználó. • 2. A szintaktikai elemzés és a szemantikai interpretáció segítségével elemezhető a felhasználó közlésének szintaktikai szerkezete, valamint leképezhető annak szemantikai interpretációja az adott endszer céljainak megfelelően. • 3. A dialógusvezérlés az input nyelvi jellemzői, az adott felhasználó és feladat egyéni beállításai alapján valósítja meg a rendszer megfelelő lépését, az adatbázis-lekérdezést. • 4. A beszédszintézis technológiáját alkalmazzák arra, hogy a gép előállítsa a megfelelő beszédkimenetet Beszed. 2013.03.27.

  3. A beszédtechnológia szolgáltatja az alapot olyan interfészek előállításához, amelyek lehetővé teszik, hogy a felhasználók a gépekkel természetes emberi nyelven, és ne csak grafikus felület, billentyűzet vagy egér segítségével kommunikáljanak. A beszédszintézist alkalmazzák például autós navigációs rendszerekben és az okostelefonokban a grafikus felület alternatívájaként. A legszélesebb körben használt magyar beszédszintetizátor a Profivox, amely 2002 óta elérhető, és amelyet több alkalmazásba is beépítettek: SMS- és e-mailfelolvasó szoftverbe, autós és mobiltelefonos GPS rendszerbe, valamint e-book és képernyőolvasó szolgáltatásba Beszed. 2013.03.27.

  4. Beszed. 2013.03.27.

  5. Mi tehát a beszédszintézis? • A természetes beszédlánchoz képest a beszédüzenetet küldő ember helyett egy intelligens eszköz (számítógép, telefonközpont, GPS alapú navigáló rendszer, mobiltelefon) kezdeményezi az üzenetet és beszédjel formájában közli a felfogó emberrel. • Lehetőség szerint a beszédüzenet legyen természetes és érthető, mintha igazi ember mondta volna. Beszed. 2013.03.27.

  6. A beszédszintetizátorok alapvető osztályai Beszed. 2013.03.27.

  7. Megoldott kérdés-e a beszédszintézis, más szóval szöveg-beszéd átalakítás? Beszed. 2013.03.27.

  8. Igen • Mert termékként állnak rendelkezésre megoldások. • Mert jobb rendszerek beépített eleme (pl. OTP számlaegyenleg felolvasó, Hangposta, Windows XP, pályaudvari bemondó) • Mert könyvek leírják, iskolában tanítják…. Beszed. 2013.03.27.

  9. Példa az XP rendszerben! • Vezérlőpult/beszéd • …. Beszed. 2013.03.27.

  10. Megoldott kérdés-e a beszédszintézis, más szóval szöveg-beszéd átalakítás? Beszed. 2013.03.27.

  11. NEM! • Mert nem szeretik! • Mert nem használják! • Mert nem hozott komoly üzleti eredményt senkinek! Beszed. 2013.03.27.

  12. Beszed. 2013.03.27.

  13. Beszed. 2013.03.27.

  14. Elfogadjuk az ilyen szintetikus beszédet? Ha nem, akkor miért nem? Beszed. 2013.03.27.

  15. Az én válaszaim • Nem is lehetett mindent megérteni (pl. 4:14 „A Reuters jelentése szerint a robbanás a Bagdad Karrada kerületében található Dzsabal Lubnan (Libanoni-hegység) szállodát döntötte romba.”) • A szöveg-beszéd átalakítás nem „értette” azt amit mond. Azt sem tudta, hogy nekem mi lehet megértési probléma! • Akadtak tényleges kiejtési hibák is! • A beszéd több, mint elemek egymásutánisága! Hiányzottak a beszédfolyamat szükséges további tényezői közül a finom hangsúly, a dallam, a szünetek, a ritmus, a tempóváltások. Ezek az értelmezést is segítik, a beszédet emberivé, széppé teszik. Beszed. 2013.03.27.

  16. Friss hírek a hangportálon (2005. 03.30.) Hosszabb híranyag csemege1 csemege2 csemege3 csemege4 csemege5 Beszed. 2013.03.27.

  17. Beszed. 2013.03.27.

  18. Érdekesebb helyek a hálón! • http://www.research.att.com/~ttsweb/tts/demo.php#top • http://sayso.elan.fr/interactive_va.asp • http://www.vakalap.hu Beszed. 2013.03.27.

  19. A beszédszintézis alapelemei ma • Általános alapeszköz a PC - bőséges operatív memóriával, háttértárral, hangkártyával. • Természetes beszéd alapelemeit tárolják, módosítják, összefűzik (concatenation). • Mik legyenek a tárolt alapelemek? Teljes közlendő, mondatok, szavak, szótagok, hangok? • Mik legyenek az összefűzési szabályok. • Hogyan lehet olyan elemeket kialakítani, amelyek jól összefűzhetők és a prozódiai elemek is ráépíthetők? • Mi az, amit át kell „fogalmazni”, előre le kell „fordítani” írásból beszédre felolvastatás előtt. Ami jó írott hír, az lehet nem jó emberi felolvasásra sem! • Tehát hogyan lehet gépileg „érteni” a szöveget. Beszed. 2013.03.27.

  20. Nehezen érthető beszéd Jól érthető beszéd, pedig énekelt….. Néhány beszédminta elmélkedésre Beszed. 2013.03.27.

  21. A beszédhangok folytonos és diszkrét természete Beszed. 2013.03.27.

  22. Összefűzéses beszédszintézis • A szintézis minősége annál jobb, minél kevesebb vágási ponttal áll össze a végső beszédrészlet. • Ehhez nagyon nagy anyagot kel felvenni és ebből nehéz összeválogatni a legalkalmasabb elemeket. • Ha kicsi az elemméret (pl. diád) nagyon sok az összefűzés. • A prozódiai jellemzőket is rá kell ültetni (intenzitás, dallam, ritmus stb.) • Nem csak a prozódiai jellemzők ráültetésének kivitelezése nehéz, hanem a tervezés a szöveg alapján. Beszed. 2013.03.27.

  23. Prozódiai elemek ráültetése hullámformaként tárolt és összefűzött elemekre • PSOLA módszer (Pitch Synchronous Overlap Add) • Első lépésben a zöngehelyek (pitch mark) kijelölése • Második lépés a periódusok fázisviszonyainak átállítása koszinuszos összetevőkre – ez egy nem hallható manipuláció • Harmadik lépésben a periódusok összébb tolhatók vagy széthúzhatók a dallamterv szerint. • Az időtartamok periódusok ismétlésével vagy kihagyásával módosíthatók Beszed. 2013.03.27.

  24. Technical detailsMoulines & Charpentier, 1990 original waveform windowed waveform 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 shortened waveform waveform with lower F0 1 4 7 10 13 16 19 1 3 5 7 9 11 13 15 17 19 Beszed. 2013.03.27.

  25. Technical details 1Segmental durations • Segment alignment & PSOLA processing of durations: Alignment can be manual or automatic (with the help of speech recognition) k eI m i n native “…came in…” stretch shrink k eI m i n non-native Beszed. 2013.03.27.

  26. Technical details 1+2Segmental durations + F0 contour • PSOLA processing of F0 on duration-treated utterance native F0 k eI m i n native k eI m i n non-native non-native F0 Beszed. 2013.03.27.

  27. Technical details 1+3Segmental durations + intensity contour • Segment alignment & PSOLA processing of duations followed by intensity contour transfer native intensity k eI m i n native stretch shrink k eI m i n non-native non-native intensity Beszed. 2013.03.27.

  28. Technical details 2+3 F0 contour + intensity contour • “Reverse” segment alignment & PSOLA processing of F0 followed by intensity contour transfer native F0 native intensity k eI m i n native shrink stretch k eI m i n non-native non-native F0 non-native intensity Beszed. 2013.03.27.

  29. Technical detailsExample Praat script native utterance non-native utterance synthetic non-native(durations+F0+intensity) synthetic non-native(durations+intensity) synthetic non-native(F0+intensity) Beszed. 2013.03.27.

  30. Technical detailsComparison before synthesis – duration, F0 & intensity (blue & yellow) native utterance non-native utterance Beszed. 2013.03.27.

  31. Technical detailsComparison after synthesis – duration, F0 & intensity (blue & yellow) native utterance synthetic non-native Beszed. 2013.03.27.

  32. Technical detailsComparison after synthesis – duration & intensity (blue & yellow) native utterance synthetic non-native Beszed. 2013.03.27.

  33. PSOLA pitch-módosítás példa (időszerkezet maradt) • Ének eredeti: • Ének módosított: • Ének „kiegyenesítve”: Beszed. 2013.03.27.

  34. Beszed. 2013.03.27.

More Related