1 / 12

Puhesignaali

LSP/LSF. Matemaattinen kikka. Puhesignaali. Levinson-Durbin algoritmi. Kepstri-analyysi. Rekursiivinen laskenta. LPCC. LPC. LP-analyysi. Fourieranalyysi. Kuulonmukainen spektrin muokkaus 1. Käänteinen Fourier-muunnos. PLP. S pektrin muokkaus 2. MFCC. Δ. CC. ΔΔ.

terena
Download Presentation

Puhesignaali

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. LSP/LSF Matemaattinen kikka Puhesignaali Levinson-Durbin algoritmi Kepstri-analyysi Rekursiivinen laskenta LPCC LPC LP-analyysi Fourieranalyysi Kuulonmukainen spektrin muokkaus 1 Käänteinen Fourier-muunnos PLP Spektrin muokkaus 2 MFCC Δ CC ΔΔ

  2. Mel-FrequencyCepstralCoefficients UsuallyHanning Padded with zeros to nextpower of 2

  3. MFCC:tlasketaan (yleensä) seuraavasti: • Laskeikkunoidunpuhekehyksentehospektri Fourier-muunnoksenavulla. • Lasketehospektristä Mel-asteikonmukaistenkolmiosuotimien/ikkunoiden ‘tehosummat’. • Ota kustakin ‘tehosummasta’ logaritmi – useimmiten 10-kantainen. • Laskelogaritmiselletehosummavektorillekosinimuunnos. MFCC:tovatkosinimuunnoksenpainokertoimia. • Kepstrin keskiarvon vähennys (CMS): Vähennä kustakin MFC-kertoimesta pidemmän ajan keskiarvo, jotta häiriöäänten vaikutus vähenisi.

  4. Mel - taajuusasteikko 1 Mel yksikkö on määritelty yhdeksi tuhannesosaksi 1000 Hz:n taajuisen äänen subjektiivisesta äänenkorkeudesta. eli 1000 Hz = 1000 Mel

  5. ’Mel-tehosummat’ • Kunkin Mel-asteikon mukaisen kolmiosuotimen/ikkunan määrittämät ’tehosummat’ • lasketaan seuraavan lausekkeen mukaisesti: • jossa: • e[j][t] on tehosumma puhekehyksen t j :nnen Mel-suotimen ulostulosta. • N on tehospektrin taajuuspisteiden lukumäärä • Hj[k] on Mel-suodin/ikkuna • St[k] on puhekehyksen DFT. • P on Mel-suodinten lukumäärä

  6. Kosini-muunnos kosinimuunnoksen kantavektorit • Logaritmiset tehosummat esitetään kosinimuunnoksen kantavektoreiden painotettuna summana. • Summa on äärellinen 0…P-1, koska tehospektri on diskreetti, eli vain äärellinen määrä ’taajuus-tehoja’ on määritelty.

  7. Kepstrin keskiarvon vähennys MFCC-vektorin kustakin elementistä vähennetään kyseisen elementin keskiarvo, joka on laskettu joko opetusdatan perusteella tai se lasketaan dynaamisesti taustamelun muuttuessa.

  8. LSP / LSF • LP-kertoimet ovat hyvin herkkiä kvantisoinnille: kerrointen kvantisoinnista johtuen suotimesta tulee hyvin helposti epästabiili. • LP-kertoimet sopivat myös hyvin huonosti interpoloitaviksi puhekehysten keskikohtien välillä, koska ne eivät edusta mitään fyysistä asiaa. • LP-kertoimet muutetaan usein puheenkoodauksessa ja puhesynteesissä ns. Line SpectralPairs (LSP) / Line SpectralFrequencies (LSF) muotoon. • Näitä ei pidä sekoittaa parametrisen spektrianalyysin LSF-taajuuksiin! • LSP/LSF:lle pieni kvantisointi ei tee suurta muutosta. • LSP/LSF:ä voidaan interpoloida puhesynteesissä siten, että saadaan jatkuva LSP/LSPF-käyrä.

  9. LSP/LSF:n laskenta LSP/LSF:t lasketaan LP-kertoimista matemaattisen kikan avulla. Ne sisältävät täsmälleen saman informaation kuin LP-kertoimetkin. Kun LP-polynomi on muotoa: Muodostetaan sen avulla polynomit: Näiden polynomien nollakohdat ovat kompleksitason yksikköympyrällä. Etsitään nollakohdat ja muutetaan niiden kulmat taajuuksiksi:

More Related