1 / 45

Govorne tehnologije za hrvatski Speech Technologies for Croatian

Odjel za informatiku , Sveučilište u Rijeci Radmile Matejčić 2 , 51000 Rijeka, Hrvatska Tel . : + 385 51 584 700. Govorne tehnologije za hrvatski Speech Technologies for Croatian. doc. dr. sc . Sanda Martinčić-Ipšić smarti @inf.uniri.hr. Uvod.

miette
Download Presentation

Govorne tehnologije za hrvatski Speech Technologies for Croatian

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Odjel za informatiku, Sveučilište u Rijeci Radmile Matejčić 2, 51000 Rijeka, Hrvatska Tel.: + 385 51 584700 Govorne tehnologije za hrvatskiSpeech Technologies for Croatian doc. dr. sc. Sanda Martinčić-Ipšić smarti@inf.uniri.hr

  2. Uvod • govor je prirodan i najlakši način sporazumijevanja među ljudima • govorne tehnologije su sustavi koji koriste govor za komunikaciju čovjeka s računalom • sustavi za raspoznavanje govora • sustavi za sintezu govora • Zašto nema šire primjene govora za interakciju čovjeka s računalom?

  3. Uvod II • ograničena primjena proizlazi iz promjenjive naravi govora: • dijelovi riječi i rečenica su često ispušteni u spontanom govoru, • nerazumljivo izgovoreni, • različito naglašeni, • izgovoreni različitom brzinom, • glasniji ili tiši, • utjecaj dijalekata... • teško je razlučiti početak i kraj riječi koje se zajedno izgovaraju, • velike anatomske razlike među govornicima (očituju se u govoru), • govor je često popraćen pozadinskim šumom, zvukovima, glazbom, ....

  4. Govorne tehnologije • tehnologije koje čovjeku omogućavaju govornu interakciju s računalom • u obliku govornoga signala • koristeći znanje o jeziku i govoru raspoznavanje i sinteza govora

  5. Govorne tehnologije II • multidisciplinarno područje • znanja, pristupi i postupci iz različitih područja • lingvistike, fonetike, akustike, psihologije, fiziologije,... • obrade signala, statistike, raspoznavanja uzoraka, umjetne inteligencije i strojnog učenja,... • istraživačka područja • Automatsko raspoznavanje govora (ASR Automatic Speech Recognition) • Sinteza govora (TTS –Text-to-Speech) • Prepoznavanje govornika (Speaker Recognition), verifikacija govornika • Prepoznavanje jezika (Spoken Language Identification) • Prepoznavanje emocija iz govora, generiranje emotivnoga govora (Emotionrecognition, EmotionalTTS)

  6. Sadržaj • Govorne tehnologije • Raspoznavanje hrvatskoga govora • Sinteza hrvatskoga govora • Izgradnja sustava • Govorni korpusi • Rezultati • Primjena • sustav za govorni dijalog

  7. Raspoznavanje govora • ulazni govorni signal predstavljen nizom vektora značajki, na osnovu akustičnog i jezičnog znanja, zapisanog u akustičnom i jezičnom modelu, pretvara se u niz riječi

  8. 0010-11 Spontaneous speech Fluent speech Speaking style 2000 Read speech Connected speech 1980 Isolated words 1990 2 20 200 2000 20000 Unrestricted Vocabulary size (number of words) Speech recognition technology (Furui, 2005) natural conversation 2-way dialogue network agent & intelligent messaging transcription word spotting system driven dialogue digit strings name dialing office dictation form fill by voice naši rezultati directory assistance voice commands

  9. Sinteza govora • proces u kojem se iz danog teksta tvori čovjeku razumljiv govor • statističke metode u sintezi • uporaba skrivenih Markovljevih modela – SMM (Hidden Markov Models) • za odabir odgovarajućih jedinica (unitselection) - korpusna sinteza • kao generativni model govora (HMMTTS) – statistička parametarska sinteza

  10. Statistička parametarska sinteza govora • za ulazni tekst se iz kontekstno ovisnih SMM-a generira govorni signal • iz naučenog modela se generira niz značajki • iz niza značajki se rekonstruira govorni signal

  11. Izgradnja sustava akustički modeli govorni korpus rezultati

  12. Učenje akustičkog modela • 30standardnojezičnih fonema hrvatskoga jezika • kod sinteze +6 naglašenih vokala • + stanka, udah i izdah kao i svi posebni akustični događaji u govoru • monofonski akustični modeli • trifonski modeli akustički model za glas /h/

  13. Govorni korpus • zbirka govornih signala i njihovih tekstualnih prijepisa pohranjenih na digitalnom mediju i primjerenih za računalnu obradu • najvažniji dio sustava za raspoznavanje i sintezu govora • statistički pristupi učenja iz podataka • veličina, kakvoća i cjelovitost korpusa vitalni su dio sustava • utječu na razvojne mogućnosti i rezultate istraživanja • proces izgradnje korpusa dugotrajan, težak i skup • za hrvatski jezik je potrebno izgraditi govorni korpus

  14. Hrvatski govorni korpus I • nastajao u periodu 2002-2010. • Radijske vremenske prognoze • Radijske vijesti • Priče • Dijalozi vezani uz vremensku prognozu • Telefonska vremenska izvješća • Hrvatski BCN (Broadcast News) + video snimke 6 dnevnika • oko 25.5sati transkribiranoga govora • preko 280.000izgovorenih riječi • približno 20.000 različitih riječi • 280 različitih govornika

  15. Hrvatski govorni korpus II

  16. Testiranje sustava za raspoznavanje • 4 različita sustava za raspoznavanje: vremenskih prognoza, vijesti, priča i dijaloga • modeli učeni na kumulativnom govoru: • vremenske prognoze 8sati, • vijesti 13sati, • priče 15sati govora • istih 8 muških i8ženskih govornika • testiranje svih sustava: • uvijek istih 1710rečenica u vezi s vremenom od preostalih 3 muških i6ženskih govornika

  17. Rezultati raspoznavanja:prognoza, vijesti i priča prognoze 10.54% Pogreška raspoznavanja riječi vijesti 10.5% priče 8.55%

  18. Raspoznavanje dijaloga • učeno na 15.5sati govora: • cijeli korpus: vremenske prognoze, vijesti i priče • (istih 8 muških i 8 ženskih govornika) + • dijalozi novih 12 muških i 12 ženskih govornika(70% od ukupnog broja dijaloga u korpusu) • testirano: • dijalozi preostalih 5 muških i 5 ženskih govornika (30% dijaloga) • rezulati su neovisni o govorniku (speaker independent) • rezultat: oko 5% pogrešno raspoznatih riječi

  19. Izgradnja sustava za SMM sintezu • odabrani govornik sm04 • 6222 različitih riječi u 2332 izgovorenih blokova • 2.5 sata govora • vrednovanje sustava: • objektivni test: sustavom za raspoznavanje hrvatskoga govora • subjektivni test: anketa, 21 ocjenjivač • usporedni test: ocjenjivači i sustav za raspoznavanje

  20. Rezultati sinteze • tekst iz vremenske domene • muški glas • većina riječi iz rječnika za učenje modela • sintetizirana vremenska prognoza 07.05.2012. • tekst izvan vremenske domene • ženski glas • riječi izvan rječnika • sintetizirane tekuće vijesti 26.11.2012.

  21. Primjena sustav za govorni dijalog

  22. Mogućnosti primjene • za e-učenje • npr. aplikacije za pomoć pri učenju izgovora hrvatskoga jezika kao stranog jezika • moguće progovoriti strani jezik vlastitim glasom • asistivne tehnologije • aplikacije za pomoć slabovidnim osobama i osobama smanjene pokretljivosti (Servus http://www.eglas.hr/) • sustavi za diktiranje i automatsko zapisivanje • npr. diktiranje dijagnoza za rendgenske slike • sustavi za vođenje govornog dijaloga čovjeka s računalom • npr. vezanog uz trenutnu vremensku situaciju i prognozu

  23. Mogućnosti primjene II • Interakcija čovjeka s računalom (HCI) • nadzor i korištenje različitih inteligentnih naprava • dlanovnici, tableti i pametni telefoni • upotreba u situacijama gdje se ruke i oči zauzete • kompaktni i tematski određeni sustavi za raspoznavanje i sintezu govora • govorno sučelje WEB aplikacija • Biometrija • prepoznavanje i identifikacija govornika – sigurnost • Zabava • interaktivne igre, avatari, računalni likovi

  24. Sustav za govorni dijalog • ograničenja • veličina vokabulara • uska domena primjene • jednostavne rečenice • govorni dijalog za vremenske informacije • pridobivanje informacija o vremenskoj situaciji i vremenskoj prognozi • za različite dijelove Hrvatske • semantička analiza domene (ekstrakcija informacija)

  25. Sustav za govorni dijalog II

  26. Zaključak • Govorne tehnologije za hrvatski • raspoznavanje velikog vokabulara hrvatskog jezika (10000+ različitih riječi), telefonskog govora • parametarska sinteza – generiranje hrvatskoga govora dobre razumljivosti • primjena u sustavu za vođenje govornoga dijaloga za vremenske prognoze • otvoreno: proširenje korpusa, poboljšanje rezultata, sustav za govorni dijalog, nove domene...

  27. Istraživački tim Miran Pobar mpobar@inf.uniri.hr LuciaNačinović lnacinovic@inf.uniri.hr prof.dr.sc.Ivo Ipšić ivoi@inf.uniri.hr doc.dr.sc.Sanda Martinčić-Ipšić smarti@inf.uniri.hr doc.dr.sc.Ana Meštrović amestrovic@inf.uniri.hr

  28. Odjel za informatiku, Sveučilište u Rijeci Radmile Matejčić 2, 51000 Rijeka, Hrvatska Tel.: + 385 51 584700 Govorne tehnologije za hrvatskiSpeech Technologies for Croatian doc. dr. sc. Sanda Martinčić-Ipšić, smarti@inf.uniri.hr

  29. Objavljeni radovi • Pobar, Miran; Martinčić-Ipšić, Sanda; Ipšić, Ivo. OptimizationofCostFunctionWeights for UnitSelectionSpeechSynthesisUsingSpeechRecognition. NeuralNetwork World. Forthcoming2012. • Martinčić-Ipšić, Sanda; Pobar, Miran; Ipšić, Ivo.CroatianLargeVocabulary Automatic SpeechRecognition. // Automatika. 52 (2011) , 2; 147-157 • Meštrović, Ana; Bernić, Luka; Pobar, Miran; Martinčić-Ipšić, Sanda; Ipšić, Ivo.Overviewof a CroatianWeatherDomainSpokenDialogueSystemPrototype // Proceedingsofthe ITI 2010pp.103-108. • Martinčić-Ipšić, Sanda; Ribarić, Slobodan; Ipšić, Ivo.AcousticModelling for CroatianSpeechRecognitionandSynthesis. // Informatica. 19 (2008) , 2; 227-254 • Sanda, Martinčić - Ipšić; Ivo, Ipšić.CroatianHMM-basedSpeechSynthesis. // JournalofComputingandInformationTechnology, CIT. 14 (2006) , 4; pp.307-313. • Meštrović, Ana; Martiničić-Ipšić, Sanda; Ipšić, Ivo.SemanticAnalysisin F-logic // SemanticRepresentationofSpokenLanguage2007 / Plá, Manuel A ; Declerck, Thierry (ur.).Salamanca : DFKI, 2007.pp.59-66. • Martinčić-Ipšić, Sanda; Ipšić, Ivo.Recognition of Croatian Broadcast SpeechMIPRO 2004. 111-114. • Martinčić-Ipšić, Sanda; Ipšić, Ivo.CroatianTelephoneSpeechRecognitionIPRO2006,. 182-186

  30. SMM (HMM) sinteza • učenje akustičkog modela izvodi se jednako kao pri sustavu za raspoznavanje • kontekstno neovisni (monofonski) i • kontekstno ovisni (trifonski) akustički SMM-i • uče se na govoru predstavljenom vektorima značajki akustički model za glas /h/

  31. Raspoznavanje govora • statistički pristup raspoznavanju govora: formalizam skrivenih Markovljevih modela (SMM-a) • X=(X1,X2,..,Xn) niz akustičnih opažanja ili niz vektora značajki govornoga signala, W=(W1,W2,..,Wm) niz raspoznatih riječi, • P(X|W) vjerojatnost akustičnog događaja pri raspoznatom nizu riječi W, • P(X) vjerojatnost akustičnog opažanja i • P(W) vjerojatnost izlaznog niza raspoznatih riječi • raspoznavanje govora pomoću SMM-a: maksimum produkta vjerojatnosti akustičnog modela P(X|W) i vjerojatnosti jezičnoga modela P(W)

  32. Izgradnja sustava raspoznavanje hrvatskoga govorasinteza hrvatskoga govora

  33. Izgradnja sustava za raspoznavanje • određivanje značajki govornoga signala • izgradnja akustičkog modela • učenje kontekstno neovisnih modela • učenje kontekstno ovisnih modela • izgradnja jezičnog modela • bigrami

  34. Izgradnja sustava za SMM sintezu • određivanje značajki govornoga signala • učenje akustičnoga modela • kontekstno neovisnog • kontekstno ovisnog • generiranje govornoga signala

  35. Učenje akustičnog modela • 30standardnojezičnih fonema hrvatskoga jezika • kod sinteze +6 naglašenih vokala • + stanka, udah i izdah kao i svi posebni akustični događaji u govoru • monofonski akustični modeli • linearni SMM-i s Gaussovim kontinuiranim funkcijama gustoća vjerojatnosti, 5/3 stanja • automatska segmentacija • trifonski modeli • inicijalne vrijednosti svih parametara jednake vrijednostima monofonskih modela • problem oskudnosti govornoga materijala za učenje • postupak vezivanja stanja - 83 hrvatskih fonetskih pravila

  36. Postupak parametrizacije govornoga signala u sustavima za raspoznavanje i sintezu govora • na govornom signalu izvodi se brza Fourierova transformacija (FFT) čime se dobiva spektar govornoga signala. • Trokutastim mel-frekvencijskim filtrom se iz spektra određuju mel-kepstralni koeficijenti. • logaritmiranjem i diskretnom kosinusnom transformacijom dobivamo vektor MFCC značajki s 39 vrijednosti: • prvih 13 MFCC koeficijenata, • 13 dinamičnih značajki prvog () reda i • 13 dinamičnih značajki drugog (2) reda.

  37. Jezično modeliranje hrvatskoga govora • statistički n-gramski modeli • vjerojatnost nastupa pojedine riječi wn ako joj prethodi niz riječi Wn-1 • n-gramska vjerojatnost nastupa niza riječi W=w1,w2,..,wn • BIGRAM: vjerojatnost nastupa riječi wi, ako joj je prethodila riječ wi-1 • N(wi-1,wi) frekvencija nastupa para riječi • N(wi-1) frekvencija nastupa riječi wi-1 glađenje bigramske vjerojatnosti unigramskom

  38. Učenje kontekstno ovisnih modela • svaki trifon modeliran • jednim linearnim SMM-om 5/3 stanja • Gaussovim kontinuiranim funkcijama gustoća vjerojatnosti • inicijalne vrijednosti svih parametara jednake vrijednostima monofonskih modela • 1 iteracijom Baum-Welcheva učenja • postupak vezivanja stanja • 83 hrvatska fonetskih pravila • procjena parametara vezanih stanja modela • iteracije Baum-Welcheva učenja • povećava broj Gaussovih mješavina • iteracije učenja

  39. Postupak raspoznavanja • iz trifonskih SMM-a se gradi modele za sve riječi w1,w2,..,wM iz fonetskog rječnika • trifonski SMM-i riječi povezuju se u mrežu • zajedničko početno sp i završno stanje sk • P(X|wi) akustična vjerojatnost pojedine riječi • P(wi) vjerojatnost jezičnoga modela • raspoznavanje:

  40. Evaluacija sustava za raspoznavanje • Točnost raspoznatih riječi (Correctness) • Preciznost raspoznatih riječi (Accuracy) • N ukupan broj riječi u izvornom nizu riječi, • D broj pogrešaka nastalih izostavljanjem riječi u raspoznatom nizu riječi, • S broj pogrešaka nastalih zamjenama pravilne riječi iz izvornog niza nepravilnom riječi u raspoznatome nizu riječi te • I broj pogrešaka nastalih ubacivanjem nepravilnih riječi u raspoznatome nizu na mjesta gdje u izvornome nizu nema riječi • Mjera pogrešno raspoznatih riječi = 1-preciznost (Word Error Rate – WER)

  41. Rezultati ASR dijalozi WER trifonskih modela Word Error Rate

  42. Najvažniji alati • sustav za raspoznavanje govora • HTK Toolkit ver. 3.4 (The Hidden Markov Model Toolkit) • sustav za sintezu govora • HTS ver. 2.2. (The HMM-Based Speech Synthesis System) • alat za analizu i obradu govornog signala • SPTK ver. 3.5. (Speech Signal Processing Toolkit)

  43. Izgradnja sustava za SMM sintezu II • vektor značajki govornoga signala 75 vrijednosti • monofonskiSMM-i • 36 fonema (naglašeni i nenaglašeni samoglasnici + samoglasničko /r/) • + 4 posebna akustična događaja • trifonskiSMM-i • 10394trifona • vezivanje stanja pomoću hrvatskih fonetskih pravila (83) • iz trajanja svakog stanja SMM-a određen model trajanja fonema • omogućeno generiranje parametara za "neviđene" trifone • generiranje govora • za vrijeme trajanja svakog stanja se generiraju izlazna opažanja • iz generiranih vektora mel-kepstralnih značajki i osnovne frekvencije upotrebom MLSA filtra se generira govorni signal (model izvor-filtar)

  44. Generiranje govornoga signala (SMM sinteza) • ulazni tekst se pretvori u odgovarajući trifonski zapis • za svaki od trifona iz ulaznoga teksta povezuju se trifonski SMM-i u modele riječi i rečenica • pomoću modela trajanja izračunava trajanje svakog stanja u povezanim SMM-ima • duljina trajanja utječe na broj izlaznih vektora koji će se generirati iz toga stanja • za vrijeme trajanja svakog stanja se generiraju izlazna opažanja • iz distribucija vjerojatnosti stanja generiraju izlazni vektori mel-kepstralnih značajki govornoga signala i logaritma osnovne frekvencije • izlazni vektori značajki po strukturi odgovaraju ulaznima • iz generiranih vektora mel-kepstralnih značajki i osnovne frekvencije upotrebom MLSA filtra se generira govorni signal (izvor-filtar model)

  45. Semantička analiza

More Related