240 likes | 466 Views
Eestikeelne korpuspõhine kõnesüntees. Meelis Mihkla, Liisi Piits Tõnis Nurk, Indrek Kiissel Eesti Keele Instituut. Kõnesüntees Eestis Kõneprosoodia statistiline modelleerimine Tekstikorpuse koostamine Kõnekorpuse salvestus ja märgendus Üksuste eelvalik fonoloogilistes puudes
E N D
Eestikeelne korpuspõhine kõnesüntees Meelis Mihkla, Liisi Piits Tõnis Nurk, Indrek Kiissel Eesti Keele Instituut "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Kõnesüntees Eestis • Kõneprosoodia statistiline modelleerimine • Tekstikorpuse koostamine • Kõnekorpuse salvestus ja märgendus • Üksuste eelvalik fonoloogilistes puudes • Kõneüksuste valikumeetodid • Kokkuvõte "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Kõnesüntees Eestis • Parameetriline kõnesüntees • 1978-91 palju erinevaid kõnesüntesaatorite prototüüpe Küberneetika Instituudis • 1980-85 formantsüntesaator ExNicolais Keele ja Kirjanduse Instituudis • Tekst-kõne difoonsüntees • 1997-2002 Eesti Keele Instituudi, TTÜ Küberneetika Instituudi ja OÜ Filosoft ühisprojekt • Korpuspõhine kõneüksuste valikul põhinev sünteesiprojekt • 2006-2010 Eesti Keele Instituut "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Eestikeelse tekst-kõne sünteesi arendustööd • Rakendused pimedatele ja vaegnägijatele • Süntesaatori integreerimine uude Windows keskkonda SAPI 5 liidesega • Kõneprosoodia täiustamine – reegelpõhiste prosoodiamudelite asendamine statistiliste mudelitega "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Reegelpõhised mudelid Ekspertide koostatud reeglid põhinevad suuresti “laboratoorse kõne” mõõtmiste üldistustel Sõltumatult tuletatud reeglite samaaegne rakendamine põhjustab vigu Statistilised mudelid Põhinevad sidusa kõne korpustel ja teksti analüüsil genereeritud argumenttunnustel Statistiliste meetoditega on võimalik avastada ja uurida väikesi, varjatuid, kuid olulisi faktoreid kõneprosoodias Kõneprosoodia mudelid "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Kõne prosoodilise struktuuri modelleerimine • Kõne ajaline struktuur • Häälikute kestused • Pauside kestused ja pauside asukohad kõnevoos • Põhitooni modelleerimine • Sõnaprosoodia • Lause intonatsioon • Kõnelaine intensiivsuse modelleerimine "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Kõne kestusliku struktuuri genereerimine "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Statistiline modelleerimineSAS Enterprice Miner keskkonnas "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Regressioonipuu pauside kestustele "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Kõneüksuste valikul põhinev süntees • Kogu kõnekorpus (30-200 minutit kõnet) on sünteesi akustiliseks baasiks • Sünteesi minimaalseks ühikuks on difoon, aga korpusest otsitakse võimalikult pikki kõnelõike • Kõneüksuste valikul püütakse minimeerida sihtmärgi (lingvistilisi) ja ühilduvuse (füüsikalisi) saavutamise hinda "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Kõneüksuste valikul põhinev korpussüntees • Tekstikorpuse koostamine • Kõnekorpuse salvestamine ja märgendamine • Üksuste eelvalik fonoloogilistel struktuuridel • Lingvistilise ja füüsikalise ühilduvuse saavutamise hinna minimeerimine • Festival arenduskeskkond ja Multisyn üksuste valikumootor "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Tekstikorpuse koostamine Tekstikorpus sisaldab • kõiki eesti keeles esinevaid difoone; • suurema esinemissagedusega tüvevariante; nt haka-ta jahakka-b;meesjamehe; krooni ja kroo:ni • grammatilisi morfeeme; • tuletusliiteid; nt moodustamine, mustlanna, võistkond, rahandus, kohalikku, kiiresti • põhi- ja järgarvsõnade tüvevariante; nt kaksteist, kaheteistkümne,seitsmeteistkümnendal • asesõnu; • suurema esinemissagedusega kohanimesid. "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Sõna näiteks kollokatsioonid "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Lõpptulemusena sisaldab korpus 400 lauset, milles esineb 2811 sõna. "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Šahhi nõgine rõdu ei ole samasugune nagu šiiidi tahmjas tuba. • Tõstke nunnu põrsa söödakünasse üksteist kilo rediseid. • Teose fabuleerimisel on labane möla põlu all. • Löppis* ufo kadus vurinal öhe. • Täpne ori kõplas ihnsa aadlimehe maad. • Ema ei kõditanud titte kaua, vaid andis talle tissi ja laulis ühe jidišikeelse jeremiaadi, kuni ta jäi kussu. • Kašeloti küfoosi raviks soovitati jäledat kofeiiniga pudi. "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Kõnekorpuse salvestus ja märgendus • Professionaalsed raadiodiktorid (naishääled) • Salvestus Eesti Raadio stuudios (kvantimissagedus 44.1 KHz, 16 bitti väärtuse kohta) • Salvestus kestis ca tund aega, korpus sisaldab 51-54 minutit kõnematerjali • Märgendus käsitsi, kasutatakse sama transkriptsioonisüsteemi kui eesti keele foneetilises andmebaasis BABEL "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Fragment kõnekorpuse fonoloogilise puu struktuurist "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Kõneüksuste valiku põhimõtted • Sihtmärgi (lingvistilised) hinnad (target costs) • Sõna asend fraasis (alguses, keskel, lõpus) • Rõhk (silbi rõhulisus and lauserõhk) • Silbi asend taktis ja foneemi asend silbis • Foneemiline sobivus vasakult ja paremalt • Ühilduvus- (füüsikalised) hinnad (join costs) • F0, kestus, log energia • Multisyn kõneüksuste valiku mootor "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
"Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Multisyn süntees vs Mbrola • Multisyn • Mbrola • Multisyn (vene) "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Publikatsioonid • Piits, Liisi; Mihkla, Meelis; Nurk, Tõnis; Kiissel, Indrek (2007). Designing a speech corpus for Estonian unit selection synthesis. In: Nodalida 2007 Proceedings: The 16th Nordic Conference of Computational Linguistics. , 2007, 367 - 371. • Mihkla, Meelis (2007). Modelling speech temporal structure for Estonian text-to-speech synthesis: feature selection. Trames. Journal of the Humanities and Social Sciences, 11(3), 284 - 298. • Mihkla, Meelis (2007). Morphological and syntactic factors in predicting segmental durations for Estonian text-to-speech synthesis. In: Proceedings of the 16th International Congress of Phonetic Sciences: 16th International Congress of Phonetic Sciences, Saarbrücken, 6-10 August 2007. (Toim.) Jürgen Trouvain, William J. Barry. Saarbrücken:, 2007, 2209 - 2212. • Mihkla, Meelis; Piits, Liisi; Nurk, Tõnis; Kiissel, Indrek (2007). Development of a unit selection TTS system for Estonian. - Proceedings of the Third Baltic Conference in Human Language Technologies. Kaunas, Lithuania. October 4–5 2007 , Ilmumas. "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Kokkuvõte • On väljatöötatud metodoloogia kõneprosoodia moodulite genereerimiseks korpuspõhisele sünteesile • On salvestatud ja 80% mahus märgendatud kvaliteetne kõnekorpus, mis on akustiliseks baasiks kõnesünteesile • Korpuspõhist sünteesi arendatakse kahel suunal: • Festival arenduskeskkonnas Multisyn valikumootoriga • Süntees, mis põhineb vaid kõnekorpusel ja heal valikualgoritmil sünteesimootorit kasutamata "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents
Tänan tähelepanu eest! "Eesti keele keeletehnoloogiline tugi (2006-2010)" konverents