450 likes | 1.1k Views
Arvutifonoloogia. *Siin on kasutatud Einar Meistri kursuse Sissejuhatus kõnetehnoloogiasse materjale. Mõisteid. Foneetika (häälikuõpetus, hääldusõpetus) - teadus, mis uurib inimkõne üksusi ( häälikuid ) artikulatoorsest, akustilisest, tajumise aspektist.
E N D
Arvutifonoloogia *Siin on kasutatud Einar Meistri kursuse Sissejuhatus kõnetehnoloogiasse materjale
Mõisteid • Foneetika (häälikuõpetus, hääldusõpetus) - teadus, mis uurib inimkõne üksusi (häälikuid) • artikulatoorsest, • akustilisest, • tajumise aspektist. • Foneetika põhiüksus (häälik) - väikseim kuuldeliselt eristatav artikulatoorsete ja / või akustiliste omadustega määratletav kõnesegment. • Häälikute hulk on lõpmatu. • Hääliku kvaliteeti mõjutavad tema positsioon, naaberhäälikud, kõneleja kõneorganite anatoomia, kõneleja emotsionaalne seisund.
Mõisteid • Häälikuklassi abstraktsioon - foneem. • Foneem on fonoloogia põhiüksus. • Fonoloogia uurib lõplikku hulka (põhimõtteliselt hääldatavaid) invariantseid üksusi, mis on piisavad ja tarvilikud uuritavas keeles kõigi erinevaiks peetavate sõnavormide, fraaside ja lausete eristamiseks. • Iga foneem realiseerub kõnes mingi häälikuna. • Foneemivariant e. allofoon - foneemi püsivate tunnuste miinimumkomplekt + positsioonist, häälikümbrusest või kõnelejast tingitud varieeruvad tunnused.
Foneem • Foneem on abstraktsioon, reaalsuses esineb ta variantide e. allofoonidena. • Foneem on ühe häälikuperekonna oluliste ühistunnuste miinimumkomplekt, mida konkreetses häälikümbruses täiendatakse liiaste tunnustega, mis sobitavad foneemivariandi tema häälikümbrusse. • Kõneleja ja kuulaja kas ei märka foneemivariantide erinevusi üldse või siis ei omista neile erinevustele mingit tähendust.
Kõne produktsioon: kõneorganid kõva suulagi ninaõõs pehme suulagi suuõõs kõripealis keel keeleluu sõrmuskõhr kilpkõhr häälekurrud hingetoru söögitoru rinnak kopsud diafragma
3 7 8 6 5 1 16 2 10 17 9 13 14 15 12 1 18 2 11 4 Kõnetrakti piiravad ja muutvad häälduselundid 1 – huuled, 2 – hambad, 3 – ülalõualuu, 4 – alalõualuu, 5 – hambasombud, alveoolid, 6 – postalveolaarne häälduskoht, 7 – kõva suulagi, palaatum, 8 – pehme suulagi, veelum, 9 – kurgunibu, 10 – neelu tagasein, 11 – kõripealis, 12 - keel, 13 – keeletipp,14 – keelelaba, 15 – keeleselja eesosa, predorsum, 16 – keeleselja keskosa, mediodorsum, 17 – keeleselja tagaosa, postdorsum,18 – keelejuur, keelepära.
Eesti häälikusüsteem: vokaalid Vokaalid:
Eesti häälikusüsteem: konsonandid Konsonandid: (1) - helilised: l, r, m, n, h, v, j - helitud: p, t, k, h, s, š, f, h (2) moodustusviisi järgi: - sulghäälikud e. klusiilid: k, p, t - ninahäälikud e. nasaalid: m, n, h - ahtushäälikud e. spirandid: w, v, f, s, r, l, j, š, h (3)moodustuskoha järgi: - huulhäälikud: p, m, v, f, w - hammashäälikud: t, n, s, r, l - suulaehäälikud: k, h, j, š - kõrihäälik: h
Kuulmise eripärad Helinivoo: 0 dB - 130 dB Kuuldav sageduspiirkond: 20 Hz - 20 kHz
Lingvistiline tasand mõtte kujunemine mõtte keeleline väljendus Füsioloogiline tasand närviimpulsid kõneorganite tegevus Füsioloogiline tasand närviimpulsid kuulmisorganite tegevus Akustiline tasand Kõnekommunikatsiooni ahel Kõneleja mõte i -> Kõnesignaal -> Kuulaja mõte i Lingvistiline tasand mõtte kujunemine mõtte keeleline väljendus SÜNTEES ANALÜÜS
Kõnetehnoloogia loob • tehnoloogilised lahendused kõnesignaalide salvestuseks, töötluseks, analüüsiks, sünteesiks ja tuvastuseks • kõneressursid (andmebaasid) uuringuteks, süsteemide treenimiseks ja testimiseks • Praktilised rakendused: • kõnesüntees • kõnetuvastus • kõne kodeerimine ja edastamine • keeleõppeprogrammid • dialoogsüsteemid • abivahendid puuetega inimestele • jne.
Kõnetehnoloogia Eestis • Tallinnas • TTÜ küberneetika instituut (dr Einar Meister, dr Tanel Alumäe) • Eesti Keele Instituut (dr Meelis Mihkla) • Tartu Ülikooli eesti ja üldkeeleteaduse instituudis tegeldakse foneetika-alaste uurimustega (prof. Karl Pajusalu)
Järgnevas käsitleme: • Kõnesüntees • Kõnetuvastus ja kõne analüüs • Kõnelejatuvastus • Kõneandmebaasid • Rakendusi
Kõnesüntees • Tekst => tehiskõne • Vt HTM keeletalgud 2008: erinevate keelte kõnesüntesaatorid eesti keelt kõnelemas http://www.hm.ee/index.php?049818
Kõnesünteesi meetodid • Artikulatoorne süntees - põhineb kõneproduktsiooni füsioloogilisel mudelil ja kõnetraktis hääle tekkimise füüsikalisel kirjeldusel; modelleeritakse erinevate artikulatsiooniorganite kinemaatikat • Formantsüntees - põhineb kõnesignaali akustilis-foneetilisel kirjeldusel, kasutab allikas-filter mudelit • Kompilatiivne süntees - põhineb inimkõnest väljalõigatud signaalilõikude (difoonide, trifoonide, silpide jm.) sobival ühendamisel
Artikulatoorne süntees • pakub teoreetilist huvi kõneproduktsiooni uurimisel • kasutab röntgenipiltidelt saadud andmeid kõnetrakti kuju muutuste ja kõneorganite liikumistrajektooride kohta • arvutuslikult väga keerukas, ei toimi reaalajas • praktilisteks rakendusteks sobimatu
Formantsüntees TTÜ Küberneetika Instituudis realiseeritud kõnetrakti formantmudel (1982)
Kompilatiivne süntees • Kõnesignaali genereerimine inimkõne lõikudest • Põhilised etapid: • kõnekorpuse salvestamine ja kompileerimiseks sobivate kõneüksuste väljalõikamine – offline • kõnelõikude järjestikune ühendamine – online
Kompilatiivne süntees • Võimalikud kõnelõigud: • foneemid, allofoonid – 9 vokaali, 17 konsonanti • Difoonid – 1500-1700 • trifoonid – umbes 5400 (5362 trifooni eestikeelses andmebaasis SpeechDat) • silbid • morfeemid • sõnad • laused • Millised kõneüksused on sobivaimad?
Eesti keele tekst-kõne süntees Kompilatiivne süntees • 2003.a. riigi teaduspreemia laureaat tehnikateaduste alal Meelis Mihkla (Eesti Keele Instituut) Arvo Eek (TTÜ Küberneetika Instituut) Einar Meister (TTÜ Küberneetika Instituut) Heiki-Jaan Kaalep (Filosoft OÜ, Tartu Ülikool)
Eesti keele tekst-kõne süntees Kompilatiivne süntees • Eesti Keele Instituut • Eesti keele korpuspõhine kõnesüntees http://www.eki.ee/keeletehnoloogia/projektid/syntees/tks.html • TTÜ küberneetika instituut • Audiovisuaalne kõnesüntees Vastutav täitja: Einar MeisterProjekti kestus: 1.01.2011 - 31.12.2014
Audio-visuaalne kõnesüntees (näiteid) • KTH: http://www.speech.kth.se/multimodal/vocaltract.html • Baldi: http://mambo.ucsc.edu/ • Lucia: http://www2.pd.istc.cnr.it/LUCIA/ • Massy http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.1.6179
Kõnesünteesi aktuaalseid probleeme • Kõne loomulikkus: • loomulik prosoodia • häälekvaliteedi juhtimine • emotsioonide süntees • suurel korpusel põhinev süntees • VoiceXML– keel “kõnelevate” veebilehtede loomiseks • SSML –Speech Synthesis Mark-up Language
Kõnesünteesi rasked ülesanded • emotsionaalse kõne süntees http://emosamples.syntheticspeech.de • prosoodia modelleerimine • konkreetsele kasutajale häälestamine
Kõnetuvastus • Inimkõne => tekst • Eeletapp: kõne akustiline analüüs: inimkõnest • helisignaalide segmenteerimine • segmentide tunnuste leidmine (F0, intensiivsus, spektrogramm, formandid jne.)
Kõnetuvastussüsteemide klassifikatsioon • Piiratud sõnavaraga: • väike sõnastik (< 1000 sõna) • suur sõnastik (< 10000 sõna) • sõnakaupa hääldus • spontaanne kõne (dialoogsüsteemis) • Piiramata sõnavaraga (> 10000 sõna): • sõnakaupa hääldus (nimede, aadresside tuvastus) • sidus kõne (dikteerimissüsteem) • spontaanne kõne
Automaatne kõnetuvastus • Mitmed alternatiivsed lähenemised… • Reeglipõhised vs andmepõhised • Statistilised meetodid vs tehisnärvivõrgud • Viimasel 20 aastal on edu saavutatud põhiliselt statistiliste meetodite kasutamisega • Hidden Markov Models (HMM)–Markovi peitmudelid
Kõnesignaali töötlus • Kõnesignaal ise ei ole tuvastuseks sobiv • Kõnesignaalist on vaja eraldada tunnused, mis • sobivad foneetiliselt erinevate häälikute eristamiseks • on invariantsed kõnelejasisese ja kõnelejatevahelise variatiivsuse suhtes • on mürakindlad • sobivad kasutamiseks mustrituvastusalgoritmidega
Kõnesignaali töötlus • Eesmärk: leida kõnesignaalist tuvastuseks vajalikud tunnused fikseeritud ajaintervallide järel • Kõige sagedamini kasutatavateks akustilisteks tunnusteks mel-sageduse kepstri kordajad (Mel Frequency Cepstral Coefficients, MFCC)
Edu kõnetuvastuses? • 2008: Kui areng jätkub praeguses tempos, siis on automaatne kõnetuvastus võrdne inimvõimetega 2-52 aasta pärast: • etteloetud ajaleheteksti üleskirjutamine – 2010 ??? • vabas stiilis kõne üleskirjutamine - 2017 • numbrijada tuvastus - 2052 • tähestiku tuvastus - 2060
Kõnetuvastuse rasked ülesanded • Spontaanse kõne tuvastus • Ühe kõneleja jälgimine mitme kõneleja taustal • Kõnelejate vahetus • Müraprobleemid
Eestikeelse kõne tuvastus Vt. TTÜ küberneetika instituut • Kõnetuvastus Projekti eemärgiks on olemasoleva eestikeelse kõnetuvastustehnoloogia täiustamine, tehnoloogia kättesaadavakstegemine uute rakenduste loomiseks, juba olemasolevate rakenduste täiendamine ning uute rakenduste loomine. Vastutav täitja: Tanel AlumäeProjekti kestus: 1.01.2011 - 31.12.2014 http://www.phon.ioc.ee/dokuwiki/doku.php?id=projektid:tuvastus2:tuvastus2.et http://www.phon.ioc.ee/dokuwiki/doku.php?id=projektid:tuvastus2:tulemused2011.et http://www.phon.ioc.ee/dokuwiki/doku.php?id=projektid:tuvastus2:tulemused2012.et
Kõnelejatuvastus • inimkõne => kes rääkis?
Kõnelejatuvastus • Millistes akustilistes tunnustes väljendub kõneleja isikupära? • Tunnuste kõnelejasisesed ja kõnelejatevahelised piirid • Tunnuste eristusvõime • Tunnuste sõltuvus tekstist ja keelest
Rakendusnäide: kohtufoneetika • Kõnelejatuvastus: kõneleja identifitseerimine või eristamine, kõneleja isiku kirjeldamine (sugu, vanus, häälekvaliteet, keel, murdetaust, sotsiaalne päritolu, …) • Salvestuse kvaliteedi parandamine: müradest puhastamine, filtreerimine, võimendamine • Salvestuse sisu analüüs: salvestuses osalevate isikute arvu ja nende poolt kõneldu kirjalik fikseerimine • Tausthelide analüüs: sündmuse koha ja aja määramine • Salvestuse autentsuse analüüs: koopia-originaal, mehaaniline ja digitaalne töötlus, salvestuse sisu muutmine
Kõneandmebaasid • Kõnetehnoloogia arendamiseks vajalikud kõneandmete kogumid
Kõneandmebaasid • Vajalikud uurimistöös: • foneetika-fonoloogia • suuline suhtlus • tehnoloogia, signaalitöötlusmeetodid • Rakendused: • tehnoloogiliste süsteemide (eelkõige kõne- ja kõnelejatuvastus) treenimine ja testimine • suulist dialoogi võimaldavate teenuste arendamine
Eesti keele foneetilineandmebaas • Eesti keele foneetiline andmebaas on eesti keele foneetilisteks, fonoloogilisteks ja kõnetehnoloogilisteks uuringuteks loodav representatiivne ja süstematiseeritud kõnekorpus vastavas tehnoloogilises keskkonnas. • Vajadus: • senised eestikeelse kõne uuringud on tuginenud piiratud ja sageli juhuslikku laadi algmaterjalil, mistõttu erinevate uurijate poolt saadud tulemused ei ole alati omavahel kooskõlas, • ulatuslik ja süstemaatiline kõnematerjal on vajalik : • eesti keele foneetilisteks baasuuringuteks, • foneetika õppimisel-õpetamisel, • eesti keele kui võõrkeele õppimisel-õpetamisel, • kõnetehnoloogilisteks rakendusuuringuteks, • kõnetehnoloogiliste seadmete testimiseks ja võrdlemiseks.
BABEL: A Multi-LanguageDatabase • Eesmärk oli: bulgaaria, eesti, ungari, poola ja rumeenia keele foneetiliste andmebaaside loomine foneetilisteks uuringuteks ja kõnetehnoloogiliste seadmete väljatöötamiseks ning testimiseks • Osalesid: • 6 partnerit EL maadest ja 6 partnerit Kesk- ja Ida-Euroopast • 1995-1998 • Tulemus: 2-3 CD-ROMi iga keele kohta
Eesti keele kõneandmebaasid • Eesti keele spontaanse kõne foneetiline korpus – TÜ (eesti ja üldkeeleteaduse inst) • Eesti emotsionaalse kõne korpus – EKI • Kõnekeele ressursid ja kõnetehnoloogia andmebaasid – TTÜ KübI • Kõne- ja multimodaalsed korpused Vastutav täitja: Einar MeisterProjekti kestus: 1.01.2011 - 31.12.2014 – aktsendikorpus – loengukõne korpus – uudistekorpus
Rakendused • Kõnesünteesi rakendused • Kõnetuvastuse rakendused
Kõnesünteesi rakendusi • Abivahendid nägemis- ja kõnepuuetega inimestele • Keeleõppevahendid • Dialoogsüsteemid • Infosüsteemid, IVR (interactive voice response) • Mobiiltelefoni teenused: • tekstisõnumite ettelugemine • e-kirjade ettelugemine • infosüsteemide teated: – ilmateade, liiklusinfo – kasutajajuhised – visuaalse ja audioinfo kombineerimine
Kõnetuvastuse rakendusi • Teksti dikteerimine: • Dragon Naturally Speaking http://www.nuance.com/naturallyspeaking/ • Infootsing audiofailides, audiofailide transkribeerimine
Kõnedialoogsüsteemid • MASK http://www.limsi.fr/tlp/kiosk-sncf.html • SmartKom (DFKI) http://www.smartkom.org/start_en.html
Näide: SmartKom • User: I want to drive to Heidelberg. • Smartakus: Do you want to take the fastest or the shortest route? • User: The fastest. • Smartakus: Here you see a map with your route from Saarbrücken to Heidelberg.