1 / 45

Arvutifonoloogia

Arvutifonoloogia. *Siin on kasutatud Einar Meistri kursuse Sissejuhatus kõnetehnoloogiasse materjale. Mõisteid. Foneetika (häälikuõpetus, hääldusõpetus) - teadus, mis uurib inimkõne üksusi ( häälikuid ) artikulatoorsest, akustilisest, tajumise aspektist.

webb
Download Presentation

Arvutifonoloogia

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Arvutifonoloogia *Siin on kasutatud Einar Meistri kursuse Sissejuhatus kõnetehnoloogiasse materjale

  2. Mõisteid • Foneetika (häälikuõpetus, hääldusõpetus) - teadus, mis uurib inimkõne üksusi (häälikuid) • artikulatoorsest, • akustilisest, • tajumise aspektist. • Foneetika põhiüksus (häälik) - väikseim kuuldeliselt eristatav artikulatoorsete ja / või akustiliste omadustega määratletav kõnesegment. • Häälikute hulk on lõpmatu. • Hääliku kvaliteeti mõjutavad tema positsioon, naaberhäälikud, kõneleja kõneorganite anatoomia, kõneleja emotsionaalne seisund.

  3. Mõisteid • Häälikuklassi abstraktsioon - foneem. • Foneem on fonoloogia põhiüksus. • Fonoloogia uurib lõplikku hulka (põhimõtteliselt hääldatavaid) invariantseid üksusi, mis on piisavad ja tarvilikud uuritavas keeles kõigi erinevaiks peetavate sõnavormide, fraaside ja lausete eristamiseks. • Iga foneem realiseerub kõnes mingi häälikuna. • Foneemivariant e. allofoon - foneemi püsivate tunnuste miinimumkomplekt + positsioonist, häälikümbrusest või kõnelejast tingitud varieeruvad tunnused.

  4. Foneem • Foneem on abstraktsioon, reaalsuses esineb ta variantide e. allofoonidena. • Foneem on ühe häälikuperekonna oluliste ühistunnuste miinimumkomplekt, mida konkreetses häälikümbruses täiendatakse liiaste tunnustega, mis sobitavad foneemivariandi tema häälikümbrusse. • Kõneleja ja kuulaja kas ei märka foneemivariantide erinevusi üldse või siis ei omista neile erinevustele mingit tähendust.

  5. Kõne produktsioon: kõneorganid kõva suulagi ninaõõs pehme suulagi suuõõs kõripealis keel keeleluu sõrmuskõhr kilpkõhr häälekurrud hingetoru söögitoru rinnak kopsud diafragma

  6. 3 7 8 6 5 1 16 2 10 17 9 13 14 15 12 1 18 2 11 4 Kõnetrakti piiravad ja muutvad häälduselundid 1 – huuled, 2 – hambad, 3 – ülalõualuu, 4 – alalõualuu, 5 – hambasombud, alveoolid, 6 – postalveolaarne häälduskoht, 7 – kõva suulagi, palaatum, 8 – pehme suulagi, veelum, 9 – kurgunibu, 10 – neelu tagasein, 11 – kõripealis, 12 - keel, 13 – keeletipp,14 – keelelaba, 15 – keeleselja eesosa, predorsum, 16 – keeleselja keskosa, mediodorsum, 17 – keeleselja tagaosa, postdorsum,18 – keelejuur, keelepära.

  7. Eesti häälikusüsteem: vokaalid Vokaalid:

  8. Eesti häälikusüsteem: konsonandid Konsonandid: (1) - helilised: l, r, m, n, h, v, j - helitud: p, t, k, h, s, š, f, h (2) moodustusviisi järgi: - sulghäälikud e. klusiilid: k, p, t - ninahäälikud e. nasaalid: m, n, h - ahtushäälikud e. spirandid: w, v, f, s, r, l, j, š, h (3)moodustuskoha järgi: - huulhäälikud: p, m, v, f, w - hammashäälikud: t, n, s, r, l - suulaehäälikud: k, h, j, š - kõrihäälik: h

  9. Kuulmise eripärad Helinivoo: 0 dB - 130 dB Kuuldav sageduspiirkond: 20 Hz - 20 kHz

  10. Lingvistiline tasand mõtte kujunemine mõtte keeleline väljendus Füsioloogiline tasand närviimpulsid kõneorganite tegevus Füsioloogiline tasand närviimpulsid kuulmisorganite tegevus Akustiline tasand Kõnekommunikatsiooni ahel Kõneleja mõte i -> Kõnesignaal -> Kuulaja mõte i Lingvistiline tasand mõtte kujunemine mõtte keeleline väljendus SÜNTEES ANALÜÜS

  11. Kõnetehnoloogia loob • tehnoloogilised lahendused kõnesignaalide salvestuseks, töötluseks, analüüsiks, sünteesiks ja tuvastuseks • kõneressursid (andmebaasid) uuringuteks, süsteemide treenimiseks ja testimiseks • Praktilised rakendused: • kõnesüntees • kõnetuvastus • kõne kodeerimine ja edastamine • keeleõppeprogrammid • dialoogsüsteemid • abivahendid puuetega inimestele • jne.

  12. Kõnetehnoloogia Eestis • Tallinnas • TTÜ küberneetika instituut (dr Einar Meister, dr Tanel Alumäe) • Eesti Keele Instituut (dr Meelis Mihkla) • Tartu Ülikooli eesti ja üldkeeleteaduse instituudis tegeldakse foneetika-alaste uurimustega (prof. Karl Pajusalu)

  13. Järgnevas käsitleme: • Kõnesüntees • Kõnetuvastus ja kõne analüüs • Kõnelejatuvastus • Kõneandmebaasid • Rakendusi

  14. Kõnesüntees • Tekst => tehiskõne • Vt HTM keeletalgud 2008: erinevate keelte kõnesüntesaatorid eesti keelt kõnelemas http://www.hm.ee/index.php?049818

  15. Kõnesünteesi meetodid • Artikulatoorne süntees - põhineb kõneproduktsiooni füsioloogilisel mudelil ja kõnetraktis hääle tekkimise füüsikalisel kirjeldusel; modelleeritakse erinevate artikulatsiooniorganite kinemaatikat • Formantsüntees - põhineb kõnesignaali akustilis-foneetilisel kirjeldusel, kasutab allikas-filter mudelit • Kompilatiivne süntees - põhineb inimkõnest väljalõigatud signaalilõikude (difoonide, trifoonide, silpide jm.) sobival ühendamisel

  16. Artikulatoorne süntees • pakub teoreetilist huvi kõneproduktsiooni uurimisel • kasutab röntgenipiltidelt saadud andmeid kõnetrakti kuju muutuste ja kõneorganite liikumistrajektooride kohta • arvutuslikult väga keerukas, ei toimi reaalajas • praktilisteks rakendusteks sobimatu

  17. Formantsüntees TTÜ Küberneetika Instituudis realiseeritud kõnetrakti formantmudel (1982)

  18. Kompilatiivne süntees • Kõnesignaali genereerimine inimkõne lõikudest • Põhilised etapid: • kõnekorpuse salvestamine ja kompileerimiseks sobivate kõneüksuste väljalõikamine – offline • kõnelõikude järjestikune ühendamine – online

  19. Kompilatiivne süntees • Võimalikud kõnelõigud: • foneemid, allofoonid – 9 vokaali, 17 konsonanti • Difoonid – 1500-1700 • trifoonid – umbes 5400 (5362 trifooni eestikeelses andmebaasis SpeechDat) • silbid • morfeemid • sõnad • laused • Millised kõneüksused on sobivaimad?

  20. Eesti keele tekst-kõne süntees Kompilatiivne süntees • 2003.a. riigi teaduspreemia laureaat tehnikateaduste alal Meelis Mihkla (Eesti Keele Instituut) Arvo Eek (TTÜ Küberneetika Instituut) Einar Meister (TTÜ Küberneetika Instituut) Heiki-Jaan Kaalep (Filosoft OÜ, Tartu Ülikool)

  21. Eesti keele tekst-kõne süntees Kompilatiivne süntees • Eesti Keele Instituut • Eesti keele korpuspõhine kõnesüntees http://www.eki.ee/keeletehnoloogia/projektid/syntees/tks.html • TTÜ küberneetika instituut • Audiovisuaalne kõnesüntees Vastutav täitja: Einar MeisterProjekti kestus: 1.01.2011 - 31.12.2014

  22. Audio-visuaalne kõnesüntees (näiteid) • KTH: http://www.speech.kth.se/multimodal/vocaltract.html • Baldi: http://mambo.ucsc.edu/ • Lucia: http://www2.pd.istc.cnr.it/LUCIA/ • Massy http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.1.6179

  23. Kõnesünteesi aktuaalseid probleeme • Kõne loomulikkus: • loomulik prosoodia • häälekvaliteedi juhtimine • emotsioonide süntees • suurel korpusel põhinev süntees • VoiceXML– keel “kõnelevate” veebilehtede loomiseks • SSML –Speech Synthesis Mark-up Language

  24. Kõnesünteesi rasked ülesanded • emotsionaalse kõne süntees http://emosamples.syntheticspeech.de • prosoodia modelleerimine • konkreetsele kasutajale häälestamine

  25. Kõnetuvastus • Inimkõne => tekst • Eeletapp: kõne akustiline analüüs: inimkõnest • helisignaalide segmenteerimine • segmentide tunnuste leidmine (F0, intensiivsus, spektrogramm, formandid jne.)

  26. Kõnetuvastussüsteemide klassifikatsioon • Piiratud sõnavaraga: • väike sõnastik (< 1000 sõna) • suur sõnastik (< 10000 sõna) • sõnakaupa hääldus • spontaanne kõne (dialoogsüsteemis) • Piiramata sõnavaraga (> 10000 sõna): • sõnakaupa hääldus (nimede, aadresside tuvastus) • sidus kõne (dikteerimissüsteem) • spontaanne kõne

  27. Automaatne kõnetuvastus • Mitmed alternatiivsed lähenemised… • Reeglipõhised vs andmepõhised • Statistilised meetodid vs tehisnärvivõrgud • Viimasel 20 aastal on edu saavutatud põhiliselt statistiliste meetodite kasutamisega • Hidden Markov Models (HMM)–Markovi peitmudelid

  28. Kõnesignaali töötlus • Kõnesignaal ise ei ole tuvastuseks sobiv • Kõnesignaalist on vaja eraldada tunnused, mis • sobivad foneetiliselt erinevate häälikute eristamiseks • on invariantsed kõnelejasisese ja kõnelejatevahelise variatiivsuse suhtes • on mürakindlad • sobivad kasutamiseks mustrituvastusalgoritmidega

  29. Kõnesignaali töötlus • Eesmärk: leida kõnesignaalist tuvastuseks vajalikud tunnused fikseeritud ajaintervallide järel • Kõige sagedamini kasutatavateks akustilisteks tunnusteks mel-sageduse kepstri kordajad (Mel Frequency Cepstral Coefficients, MFCC)

  30. Edu kõnetuvastuses? • 2008: Kui areng jätkub praeguses tempos, siis on automaatne kõnetuvastus võrdne inimvõimetega 2-52 aasta pärast: • etteloetud ajaleheteksti üleskirjutamine – 2010 ??? • vabas stiilis kõne üleskirjutamine - 2017 • numbrijada tuvastus - 2052 • tähestiku tuvastus - 2060

  31. Kõnetuvastuse rasked ülesanded • Spontaanse kõne tuvastus • Ühe kõneleja jälgimine mitme kõneleja taustal • Kõnelejate vahetus • Müraprobleemid

  32. Eestikeelse kõne tuvastus Vt. TTÜ küberneetika instituut • Kõnetuvastus Projekti eemärgiks on olemasoleva eestikeelse kõnetuvastustehnoloogia täiustamine, tehnoloogia kättesaadavakstegemine uute rakenduste loomiseks, juba olemasolevate rakenduste täiendamine ning uute rakenduste loomine. Vastutav täitja: Tanel AlumäeProjekti kestus: 1.01.2011 - 31.12.2014 http://www.phon.ioc.ee/dokuwiki/doku.php?id=projektid:tuvastus2:tuvastus2.et http://www.phon.ioc.ee/dokuwiki/doku.php?id=projektid:tuvastus2:tulemused2011.et http://www.phon.ioc.ee/dokuwiki/doku.php?id=projektid:tuvastus2:tulemused2012.et

  33. Kõnelejatuvastus • inimkõne => kes rääkis?

  34. Kõnelejatuvastus • Millistes akustilistes tunnustes väljendub kõneleja isikupära? • Tunnuste kõnelejasisesed ja kõnelejatevahelised piirid • Tunnuste eristusvõime • Tunnuste sõltuvus tekstist ja keelest

  35. Rakendusnäide: kohtufoneetika • Kõnelejatuvastus: kõneleja identifitseerimine või eristamine, kõneleja isiku kirjeldamine (sugu, vanus, häälekvaliteet, keel, murdetaust, sotsiaalne päritolu, …) • Salvestuse kvaliteedi parandamine: müradest puhastamine, filtreerimine, võimendamine • Salvestuse sisu analüüs: salvestuses osalevate isikute arvu ja nende poolt kõneldu kirjalik fikseerimine • Tausthelide analüüs: sündmuse koha ja aja määramine • Salvestuse autentsuse analüüs: koopia-originaal, mehaaniline ja digitaalne töötlus, salvestuse sisu muutmine

  36. Kõneandmebaasid • Kõnetehnoloogia arendamiseks vajalikud kõneandmete kogumid

  37. Kõneandmebaasid • Vajalikud uurimistöös: • foneetika-fonoloogia • suuline suhtlus • tehnoloogia, signaalitöötlusmeetodid • Rakendused: • tehnoloogiliste süsteemide (eelkõige kõne- ja kõnelejatuvastus) treenimine ja testimine • suulist dialoogi võimaldavate teenuste arendamine

  38. Eesti keele foneetilineandmebaas • Eesti keele foneetiline andmebaas on eesti keele foneetilisteks, fonoloogilisteks ja kõnetehnoloogilisteks uuringuteks loodav representatiivne ja süstematiseeritud kõnekorpus vastavas tehnoloogilises keskkonnas. • Vajadus: • senised eestikeelse kõne uuringud on tuginenud piiratud ja sageli juhuslikku laadi algmaterjalil, mistõttu erinevate uurijate poolt saadud tulemused ei ole alati omavahel kooskõlas, • ulatuslik ja süstemaatiline kõnematerjal on vajalik : • eesti keele foneetilisteks baasuuringuteks, • foneetika õppimisel-õpetamisel, • eesti keele kui võõrkeele õppimisel-õpetamisel, • kõnetehnoloogilisteks rakendusuuringuteks, • kõnetehnoloogiliste seadmete testimiseks ja võrdlemiseks.

  39. BABEL: A Multi-LanguageDatabase • Eesmärk oli: bulgaaria, eesti, ungari, poola ja rumeenia keele foneetiliste andmebaaside loomine foneetilisteks uuringuteks ja kõnetehnoloogiliste seadmete väljatöötamiseks ning testimiseks • Osalesid: • 6 partnerit EL maadest ja 6 partnerit Kesk- ja Ida-Euroopast • 1995-1998 • Tulemus: 2-3 CD-ROMi iga keele kohta

  40. Eesti keele kõneandmebaasid • Eesti keele spontaanse kõne foneetiline korpus – TÜ (eesti ja üldkeeleteaduse inst) • Eesti emotsionaalse kõne korpus – EKI • Kõnekeele ressursid ja kõnetehnoloogia andmebaasid – TTÜ KübI • Kõne- ja multimodaalsed korpused Vastutav täitja: Einar MeisterProjekti kestus: 1.01.2011 - 31.12.2014 – aktsendikorpus – loengukõne korpus – uudistekorpus

  41. Rakendused • Kõnesünteesi rakendused • Kõnetuvastuse rakendused

  42. Kõnesünteesi rakendusi • Abivahendid nägemis- ja kõnepuuetega inimestele • Keeleõppevahendid • Dialoogsüsteemid • Infosüsteemid, IVR (interactive voice response) • Mobiiltelefoni teenused: • tekstisõnumite ettelugemine • e-kirjade ettelugemine • infosüsteemide teated: – ilmateade, liiklusinfo – kasutajajuhised – visuaalse ja audioinfo kombineerimine

  43. Kõnetuvastuse rakendusi • Teksti dikteerimine: • Dragon Naturally Speaking http://www.nuance.com/naturallyspeaking/ • Infootsing audiofailides, audiofailide transkribeerimine

  44. Kõnedialoogsüsteemid • MASK http://www.limsi.fr/tlp/kiosk-sncf.html • SmartKom (DFKI) http://www.smartkom.org/start_en.html

  45. Näide: SmartKom • User: I want to drive to Heidelberg. • Smartakus: Do you want to take the fastest or the shortest route? • User: The fastest. • Smartakus: Here you see a map with your route from Saarbrücken to Heidelberg.

More Related