150 likes | 289 Views
Korpus z -alapú szövegfelolvasó rendszer fejlesztése. Pesti Péter Konzulensek: Dr. Németh Géza, Dr. Olaszy Gábor és Bőhm Tamás BME, Távközlési és Médiainformatikai Tanszék, Besz édkutatási Laboratórium. Bevezetés. Korpusz-alapú szövegfelolvasó hullámforma-összefűzéses
E N D
Korpusz-alapú szövegfelolvasó rendszer fejlesztése Pesti Péter Konzulensek: Dr. Németh Géza, Dr. Olaszy Gábor és Bőhm Tamás BME, Távközlési és Médiainformatikai Tanszék, Beszédkutatási Laboratórium
Bevezetés • Korpusz-alapú szövegfelolvasó • hullámforma-összefűzéses • kevés összefűzési pont • nagyobb elemméret • elemkiválasztás nagy beszédadatbázisból • Beszédkutatási Laboratórium munkatársainak közreműködésével • kiindulás: Nagy András diplomaterve
A feladat • a korpusz-alapú szintézis minőségét befolyásoló tényezők irodalmának áttekintése • a teljes felvett hangadatbázist használó, elfogadható futási idejű demonstrációs rendszer kialakítása • jó minőségű összefűzési algoritmus kialakítása • a rendszer minőségének értékelése percepciós tesztekkel
Szerver jellemző számai • nagy beszédkorpusz • 10 órányi felvétel • 5302 mondat • 3,57 Gb (hangfájlok + címkézés) • szerver indítás: 5-10 perc • szintézis sebessége • lejátszási idő 0,56-szorosa (WAP-os időjárás-jelentéseken) • szintézis reakcióideje • 1,9 sec (WAP-os időjárás-jelentéseken)
A beszédszintézis folyamata • Elemkiválasztás • több szinten: szó és fonéma • szintetizálandó elemek meghatározása • jelöltek gyűjtése a beszédkorpuszból • Viterbi-algoritmus a legjobb jelölt-sorozat megtalálásához • összefűzési költség • célegyezési költség
Összefűzési költség • két elem összefűzésének a költsége • két egymással határos elem között0 • azonos forrásból (hangfájlból) származó elemekpreferálása • alapfrekvencia-ugrás büntetése (pl. ma napos) • átmenet-vágási költségmátrix
Célegyezési költség • egy elemnek a szintetizálandó céltól való eltérése • fonéma-környezet egyezése fonéma-helyettesítési költségmátrix • prozódiai jellemzők • szónak a prozódiai egységen belüli pozíciója • prozódiai egység mondaton belüli pozíciója • külön büntetés mondatzáró szónál
Utófeldolgozás • vágás az összefűzési pontokon • mássalhangzó-hasonulásokszóhatáron (pl. „vad tornádó”) • intenzitás-módosítás • alapfrekvencia- és időtartam-módosítás • PSOLA (Pitch-Synchronous Overlap and Add) • pl. mondatzáró szónál
beírt mondat szintézise célegyezési költség összefűzési költség minden elem minden jelöltjérefonetikai,prozódiai, alapfrekvencia, stb. információ
Időjárás szövegadatbázis előállítása • alapprobléma: meteorológiai tematikájú szövegkorpusz nem elérhető • megoldás: Internetes portálok időjárás-jelentéseinek automatizált feldolgozása • származási helyenként eltérő felépítésű oldalak tartalom forrása portálonként külön kezelendő • HTML fájlokból részdokumentum kinyerése relációs adatbázisba (MySQL) • adatbázisban további tisztítási lépések
mondatok száma osztályzat Meghallgatásos tesztek • A fejlesztési irányt kijelölő 51 mondatos teszt • Egyetlen prozódiai egységből álló mondatokkal • 280 mondat • Szintézis módszerek összehasonlítása • természetes, korpuszos, triádos, formáns • 248 résztvevő • Fejlődési teszt • 25 „rossz” mondat, 87 résztvevő • preferencia: 76,20% • WAP-os időjárás-jelentésekkel • 539 mondat
Reakció a bírálatra • időjárások korlátozott témakörének ismertetése • a bevezető előtti összefoglalóban • tesztelés egyetlen prozódiai egységből álló mondatokkal • a korábbi teszt alapján „nehéz” mondatok • mondatok válogatása: a korpuszban biztosan ne szerepeljenek fél éves periódusból • szintézis módszerek összehasonlítása • 248 fő teszteredményei alapján • kiváló/jó/közepes/gyenge/rossz • sok minőségi szintű felvétel kritikusabb hallgatók
Továbblépési irányok • Más témakörök • További címkézési jellemzők • hangsúlyosság • hosszan ejtett hang • Nagyobb elemméret • szótag-szint fonémákból építkezés kiváltható