390 likes | 703 Views
Kõnesüntees. Kõnesünteesi ajaloost. Kempelen’i süntesaator ca. 1790. Kempelen’i süntesaator. Kempelen’i süntesaator. Kempelen’i süntesaator. Kempelen’i süntesaator. DEMO. Prosoodiareeglid. Grafeem-foneem teisendusreeglid. Prosoodia juhtimine: põhitoon, kestus, amplituud.
E N D
Prosoodiareeglid Grafeem-foneem teisendusreeglid Prosoodia juhtimine: põhitoon, kestus, amplituud Foneemid + prosoodiline info Süntesaator, kõnetrakti mudel Kõne- signaal Tekst Spektri genereerimine Sõnastikud Kõnesegmentide etalonid Tekst-kõne süntees
Kõnesünteesi meetodid • Artikulatoorne süntees - baseerub kõneproduktisooni füsioloogilisel mudelil ja kõnetraktis hääle tekkimise füüsikalisel kirjeldusel; modelleeritakse erinevate artikulatsiooniorganite kinemaatikat • Formantsüntees - baseerub kõnesignaali akustilis-foneetilisel kirjeldusel, kasutab allikas-filter mudelit • Kompilatiivne süntees - baseerub naturaalkõnest väljalõigatud signaalilõikude (difoonide, trifoonide, silpide, jm.) sobival ühendamisel
Artikulatoorne süntees • pakub teoreetilist huvi kõneproduktsiooni uurimisel • kasutab röntgenipiltidelt saadud andmeid kõnetrakti kuju muutuste ja kõneorganite liikumistrajektooride kohta • arvutuslikult väga keerukas, ei toimi reaalajas • praktilisteks rakendusteks sobimatu
Formantsüntees Küberneetika Instituudis realiseeritud kõnetrakti formantmudel (1982)
GRAFEEM FONEEM REEGLID KOARTIKULATSIOONIREEGLID PROSOODIA REEGLID REDAKTSIOONIMOODULID INTERAKTIIVNEGRAAFIKA LIIDES Ekspertsüsteem SYNTED KÕNETRAKTI MUDEL
SISENDTEKST • LINGVISTILINE TÖÖTLUS: • Tekstitöötlus • Mittesõnade interpretaator • Täht-häälik teisendus MORFOANALÜSAATOR LÜHENDITE SÕNASTIK HÄÄLDUSREEGLID • PROSOODIAGENERAATOR: • Kestuste modelleerimine • Põhitooni modelleerimine PROSOODIA ANDMEBAAS MBROLA SÜNTEESIMOOTOR: difoonide kompileerimine EESTI KEELE DIFOONIDE ANDMEBAAS SÜNTEESKÕNE Kompilatiivne süntees
MBROLA -projekt • MBROLA (multiband resynthesis overlap add) - difoonide kompileerimise meetod - välja töötatud Mon'si Ülikoolis Belgias • ühisel printsiibil koostatud difoonide andmebaasid mitmete keelte jaoks (inglise, prantsuse, saksa, hispaania, araabia, portugali, bretooni, hollandi, rumeenia, rootsi, eesti) • MBROLA algoritm + difoonide andmebaas = baassüntesaator • täieliku tekst-kõnesüntesaatori jaoks on vajalikud veel ortograafilise teksti teisendus foneetiliseks ja prosoodiageneraator • vabalt kasutatavad kõnesüntesaatorid mitteärilistel ja mittemilitaarsetel eesmärkidel • http://tcts.fpms.ac.be/synthesis/
Difoonide andmebaas (1) tekstikorpuse koostamine - leitakse kõikvõimalikud vokaalide ja konsonantide kombinatsioonid sõna alguses, keskel ja lõpus, arvestades ka välteid (2) tekstikorpuse salvestamine - sõnad esitatakse raamlauses ja loetakse linti monotoonse häälega (3) difoonide segmenteerimine: (4)difoonide normaliseerimine (MONS’i Ülikoolis) (5) difoonide andmebaasi optimeerimine- sünteesi- ja tajutestide põhjal
Lingvistiline töötlus Lingvistilise töötluse tulemusena teisendatakse ortograafiline tekst hääldustekstiks, lisaks määratakse ka liitsõnapiirid, sõnarõhud ja silbipiirid, mis on vajalikud prosoodia-generaatori tööks. Probleemid: • eesti ortograafia ei ole foneetiline: • 2. ja 3. välde ei ole kirjapildis üldjuhul eristatavad (nt. Lapsed mängivad kooli juures, Lapsed lähevad kooli) • palataliseeritud konsonandid on eristamata palataliseerimata konsonantidest(nt. Eesti keskmine palk on ligi 4500 krooni kuus; See palk on kuus meetrit pikk) • kirjas ei ilmne pika üü diftongeerumine rõhutu silbi lühikese vokaali ees (nt. müüa hääldame müija)
Prosoodia modelleerimine Prosoodiageneraatoriülesandeks on kõne prosoodilise struktuuri modelleerimine, s.o. häälikute kestuse ja lausetüübile vastava meloodiakontuuri (põhitooni kontuuri) genereerimine. Kestuse modelleerimine: • häälikute baaskestused on esitatud osalt tabelitena, osalt reeglitena sõltuvalt hääliku asukohast, rõhust, vältest jm. • vajalik arvesse võtta lause pikkust ja sõna asukohta lauses, samuti üldist kõnetempot • lauselõpu pikendus • väldete korrektseks tajumiseks on olulised silpide kestussuhted: Q1 puhul Dur1/Dur2= 0,7 Q2 puhul Dur1/Dur2= 1,5 - 2,0 Q3 puhul Dur1/Dur2= 2,0 - 2,5
Prosoodia modelleerimine Lause intonatsioonikontuuri modelleerimine:
Sünteesikvaliteedi testimine • SAM test: Multi-Lingual Speech Input/Output Assessment, Methodology and Standardisation • Non-sense word test: VCV, VC ja CV sõnad; • Test 1: 17 eesti konsonanti vokaalide a, i ja u ümbruses; • Test 2: Eestikeelsetes tekstides kõige sagedamini esinevad VCV, VC ja CV kombinatsioonid
2003.a. riigi teaduspreemia laureaat tehnikateaduste alal : Eesti keele tekst-kõne süntees Meelis Mihkla, M.A. (Eesti Keele Instituut) Arvo Eek, Dr.Fil.(TTÜ Küberneetika Instituut) Einar Meister, M.Sc. (TTÜ Küberneetika Instituut) Heiki-Jaan Kaalep, PhD (Filosoft OÜ, Tartu Ülikool)
Tuleviku infotehnoloogia võimaldab suhelda arvutiga loomulikus keeles Kas saame suhelda arvutiga ka eesti keeles?
Kõnesünteesi ülesanne Väljund: eestikeelne kõne Sisend: ortograafiline tekst Eestikeelne kõnesüntesaator Lingvistiline töötlus: morfoloogiline analüüs täht-häälik teisendus Prosoodia modelleerimine: kestused ja põhitoon Difoonide kompileerimine: MBROLA-algoritm See on lihtne: sisesta tekst ja käivita süntees.
Lingvistiline töötlus Sisendtekst: See on lihtne, sisesta tekst ja käivita süntees. Lingvistilise töötluse väljund: s2e_on lih:tne3_s1isesta tek:st_j7a k{ivita syntee:s
Prosoodia modelleerimine t 60 e 85 0 126 33 128 100 127 k: 160 s 65 t 220 # 100 j7 50 0 120 100 121 a 550 121 66 122 100 115 k 60 { 65 0 121 66 125 100 124 i 65 0 124 100 121 v 60 0 121 100 117 i 80 0 117 100 113 t 180 a 70 0 103 100 100 s2 80 e 150 0 129 66 131 100 122 # 2 o 75 0 122 66 127 100 126 n 100 0 126 100 119 l 60 0 119 100 124 i 85 0 124 33 127 100 124 h: 205 t 100 n 55 0 107 100 103 e3 70 0 103 100 100 # 300 s1 80 i 65 0 134 66 138 100 137 s 60 e 100 0 133 100 126 s 65 t 100 a 70 0 115 100 110 s 60 y 70 0 110 100 109 n 65 0 109 100 108 t 100 e 80 0 114 66 117 100 115 e: 165 0 115 100 102 s 100 Automaatselt genereeritud prosoodilised parameetrid: hääliku kestuspõhitooni kontuur
Signaali kompileerimine Difoonidele vastavad signaalilõigud s2-e e-# #-o o-n n-l s2 e # o n l i h: t n e #
Kõnesünteesi võimalikud rakendused • Eesti Mobiiltelefon kavandab teenust, milles kõnesünteesi kasutatakse elektronposti ettelugemiseks mobiiltelefoni teel • Kõnesünteesi võiks kasutada teenuste puhul, kus on otstarbekas muutuva tekstiinfo esitamine kõnena: • automaatne ilmateade • kõnelev veebiportaal • telefoni teel edastatavad tekstiteated • kõnelev sõnaraamat • keeleõppeprogrammid • jne
Kõnesünteesi kasutajad • Üle saja nägemispuuetega arvutikasutaja üle Eesti • Meelis Luks - liikumis-ja kõnepuudega noormees, kes kasutab maalimiseks ja tööks arvutiga oma varbaid. Teistele inimestele teeb ta end kuuldavaks kõnesüntesaatori abil • Üle 200 korra on sünteesitarkvara allalaetud labori serverist http://www.phon.ioc.ee/synt Meelis Luks
Kokkuvõtteks Eesti keele tekst-kõne sünteesi loomine on märkimisväärne, sest: • see on keeleteaduslike uuringute ja infotehnoloogiliste meetodite edukas sümbioos • uurimistulemused on rakendatud töötava tarkvarapaketi näol • kõnesünteesi kasutavad paljud puuetega inimesed • kõnesüntees on eesti keele arvutitoe tähtis osa • tarkvara on kättesaadav kõigile
Kas hakkas huvitama? Eesti keele tekst-kõne sünteesi tarkvara leiate Intenetist aadressil: http://www.phon.ioc.ee/synt Sünteesitarkvara on TASUTA kasutamiseks mitte-ärilistel ja mitte-sõjalistel eesmärkidel! www.eki.eewww.ioc.eewww.filosoft.ee
August Http://www.speech.kth.se/waxholm/waxholm.html Http://www.speech.kth.se/august/
Eestikeelne süntees DEMO
Kõnesünteesi aktuaalsed probleemid • Loomulikkus: • Tekstis puuduvad semantilised märgendid • Häälekvaliteeti ei saa juhtida • Concept-to-Speech • Rakendused dialoogsüsteemides • SSML – Speech Synthesis Mark-up Language
Verse 1:TENOR Synthesis by Titze & Story Text by Conrad Aiken: There once was a wonderful wizard who got a fierce pain in the gizzard, So he drank wind and snow at fifty below and blew up a forty day blizzard. Chorus: Will you come up to Limerick, Will you come up to Limerick? Tõlge eesti keelde: Jaan Ross 1. salm:TENOR Süntees: Titze & Story Tekst: Conrad Aiken Elas kord üks tore nõid, kes sai metsiku kõhuvalu. Ta sõi tuult ja lund temperatuuril miinus 50 kraadi ja tekitas 40 päeva pikkuse lumetuisu. Koor: Kas tulete, kas tulete Limerickki? Gerald Bennett: “Limerics”
Verse 6: BASS Synthesis by Berndtsson & Sundberg Text Anonymous There was a young boy in the choiyah whose voice rose highyah and highyah, till one balmy night it shot clear out of sight. They found it next day in the spiyah. Chorus: Will you come up to Limerick, Will you come up to Limerick? 6. salm: BASS Süntees: Berndtsson & Sundberg Tekst anonüümne Ühes kooris laulis poiss, kelle hääl tõusis ikka kõrgemale ja kõrgemale, kuni ühel rahulikul ööl kadus see hoopiski silmist. Ta leiti järgmisel päeval mäetipust. Koor: Kas tulete, kas tulete Limerickki? Gerald Bennett: “Limerics”