140 likes | 298 Views
SEMINARSKI RAD Robusnost Å¡uma u prijevodu govora u govor. Karlo Kukec. Sadržaj. dva pristupa za unaprjeÄ‘enje performansi prijevoda govora u govor 1. viÅ¡estilsko uvježbavanje – rjeÅ¡avanje problema degradacije okoline na nivou akustiÄkog modela
E N D
SEMINARSKI RADRobusnost šuma u prijevodu govora u govor Karlo Kukec
Sadržaj • dva pristupa za unaprjeđenje performansi prijevoda govora u govor 1. višestilsko uvježbavanje – rješavanje problema degradacije okoline na nivou akustičkog modela 2. CDCN (Codebook Dependant Cepstral Normalization – Kepstralna normalizacija ovisna o kodnoj knjizi) – za kompenziranje akustičkog iskrivljenja na nivou signala • daljnji napredak – kombiniranje ovih dviju shema • koliko blisko je točnost prepoznavanja govora povezana sa cjelokupnim prepoznavanjem govora u govor
Uvod • zbog rapidnog porasta internet aplikacija i globalizacije ekonomskog razvoja sve je veća potreba za razvojem tehnologija za prijevod • delikatniji zadatak – kad se nesavršeni izlaz prepoznavanja govora koristi za strojni prijevod • domet uspješnosti rezultata robusnosti šuma razlikuje se u sustavima prepoznavanja govora od onih za prijevod govora u govor – zato se uvode dvije različite metrike
MASTOR • MASTOR (Multilingual Automatic Speech-to-Speech Translator) – visoko uvježbavajući sustav prijevoda govora u govor – konverzacijski jezik • prepoznavatelj govora – kontinuirani sustav prepoznavanja govora s velikim vokabularom • NLU modul – statistički gramatički analizator ekstrahira semantičku i sintaktičku informaciju i kreira stablasti semantičko/sintaktički prikaz usporediv s međujezikom • NLG modul – sastoji se od modela vjerojatnosti maksimalne entropije • za vrijeme prevođenja provodi se rekurzivna pretraga na stablu analizirane rečenice odozdo prema gore
Višestilsko uvježbavanje • jednostavan, ali efikasan način unaprjeđivanja robusnosti prepoznavanja govora • dva problema: • učinkovito je kod povećanja robusnosti šuma za ukrižene uvjetne eksperimente, ali na trošak određene degradacije performansi za prilagođene uvjete • manjak znanja o optimalnom broju okolina • akustička degradacija se karakterizira sa omjerom signal-šum (SNR) – namjerno odabrani različiti
Kepstralna normalizacija ovisna o knjizi kodova • Cepstrum • Fourierova transformacija logaritma Fourierove transformacije • signal FT raskrivanje faze FT cepstrum • inverzna Fourierova transformacija logaritma spektra (FT log IFT) • odvaja energiju dobivenu vibracijama glasnica od one iskrivljenog signala formiranog u preostalom dijelu vokalnog trakta
CDCN (Codebook Dependant Cepstral Normalization) algoritam • pokušava reverzirati efekte linearnog filtra u kepstralnom vektoru q i dodatnog šuma u kepstralnom vektoru n • ova jednadžba pokazuje procjenjene čiste podatke date sa obzervacijom šuma z, parametrom linearnog filtra q, korektivnog vektora r i mješovitih težina f[l]
Mjere performansi • WER (word error rate) – za prepoznavanje govora – intuitivno, kvaliteta prijevoda biti će određena tečnošću govora i adekvatnosti izlaza prijevoda • BLEU – objektivna mjera predložena od IBM-a – za prijevod govora u govor • P je n-gram vjerojatnost, a BP mjera jezgrovitosti • vrijednost: 1 – perfektno prevedeno • vrijednost: 0 – potpuno krivi prijevod
Eksperimenti i rezultati • višestilsko uvježbavanje • šum se digitalno dodaje podacima za uvježbavanje iz 10 različitih okolina, što simulira različite akustičke okoline • koriste se dva SNR-a: 20 dB i 10 dB • 352000 rečenica, 3200 govornika • za prepoznavanje govora: oko 20% bolji rezultati • za prijevod govora u govor: neznatno bolji rezultati
Eksperimenti i rezultati • CDCN • na svim uzorcima na kojima je provedeno višestilsko uvježbavanje primjenjuje se CDCN kao predprocesna komponenta • prepoznavanje govora • za baseline 7% povećana točnost • za MST 19% povećana točnost • prijevod govora u govor – podjednako povećanje
Zaključak • dvije tehnike (MST i CDCN) pokazale su se efikasnima u kompenziranju degradacije okoline kod sustava za prijevod govora u govor • najbolji su rezultati dobiveni kombiniranjem CDCN sa MST-20dB