120 likes | 227 Views
LSP/LSF. Matemaattinen kikka. Puhesignaali. Levinson-Durbin algoritmi. Kepstri-analyysi. Rekursiivinen laskenta. LPCC. LPC. LP-analyysi. Fourieranalyysi. Kuulonmukainen spektrin muokkaus 1. Käänteinen Fourier-muunnos. PLP. S pektrin muokkaus 2. MFCC. Δ. CC. ΔΔ.
E N D
LSP/LSF Matemaattinen kikka Puhesignaali Levinson-Durbin algoritmi Kepstri-analyysi Rekursiivinen laskenta LPCC LPC LP-analyysi Fourieranalyysi Kuulonmukainen spektrin muokkaus 1 Käänteinen Fourier-muunnos PLP Spektrin muokkaus 2 MFCC Δ CC ΔΔ
Mel-FrequencyCepstralCoefficients UsuallyHanning Padded with zeros to nextpower of 2
MFCC:tlasketaan (yleensä) seuraavasti: • Laskeikkunoidunpuhekehyksentehospektri Fourier-muunnoksenavulla. • Lasketehospektristä Mel-asteikonmukaistenkolmiosuotimien/ikkunoiden ‘tehosummat’. • Ota kustakin ‘tehosummasta’ logaritmi – useimmiten 10-kantainen. • Laskelogaritmiselletehosummavektorillekosinimuunnos. MFCC:tovatkosinimuunnoksenpainokertoimia. • Kepstrin keskiarvon vähennys (CMS): Vähennä kustakin MFC-kertoimesta pidemmän ajan keskiarvo, jotta häiriöäänten vaikutus vähenisi.
Mel - taajuusasteikko 1 Mel yksikkö on määritelty yhdeksi tuhannesosaksi 1000 Hz:n taajuisen äänen subjektiivisesta äänenkorkeudesta. eli 1000 Hz = 1000 Mel
’Mel-tehosummat’ • Kunkin Mel-asteikon mukaisen kolmiosuotimen/ikkunan määrittämät ’tehosummat’ • lasketaan seuraavan lausekkeen mukaisesti: • jossa: • e[j][t] on tehosumma puhekehyksen t j :nnen Mel-suotimen ulostulosta. • N on tehospektrin taajuuspisteiden lukumäärä • Hj[k] on Mel-suodin/ikkuna • St[k] on puhekehyksen DFT. • P on Mel-suodinten lukumäärä
Kosini-muunnos kosinimuunnoksen kantavektorit • Logaritmiset tehosummat esitetään kosinimuunnoksen kantavektoreiden painotettuna summana. • Summa on äärellinen 0…P-1, koska tehospektri on diskreetti, eli vain äärellinen määrä ’taajuus-tehoja’ on määritelty.
Kepstrin keskiarvon vähennys MFCC-vektorin kustakin elementistä vähennetään kyseisen elementin keskiarvo, joka on laskettu joko opetusdatan perusteella tai se lasketaan dynaamisesti taustamelun muuttuessa.
LSP / LSF • LP-kertoimet ovat hyvin herkkiä kvantisoinnille: kerrointen kvantisoinnista johtuen suotimesta tulee hyvin helposti epästabiili. • LP-kertoimet sopivat myös hyvin huonosti interpoloitaviksi puhekehysten keskikohtien välillä, koska ne eivät edusta mitään fyysistä asiaa. • LP-kertoimet muutetaan usein puheenkoodauksessa ja puhesynteesissä ns. Line SpectralPairs (LSP) / Line SpectralFrequencies (LSF) muotoon. • Näitä ei pidä sekoittaa parametrisen spektrianalyysin LSF-taajuuksiin! • LSP/LSF:lle pieni kvantisointi ei tee suurta muutosta. • LSP/LSF:ä voidaan interpoloida puhesynteesissä siten, että saadaan jatkuva LSP/LSPF-käyrä.
LSP/LSF:n laskenta LSP/LSF:t lasketaan LP-kertoimista matemaattisen kikan avulla. Ne sisältävät täsmälleen saman informaation kuin LP-kertoimetkin. Kun LP-polynomi on muotoa: Muodostetaan sen avulla polynomit: Näiden polynomien nollakohdat ovat kompleksitason yksikköympyrällä. Etsitään nollakohdat ja muutetaan niiden kulmat taajuuksiksi: