1 / 29

Kertausta: lähde-suodin –malli

Kertausta: lähde-suodin –malli. Puhesignaalia voidaan mallintaa lähde-suodin –systeemin avulla Järjestelmän syötteenä x ( n ) on kurkunpää-ääni ja ulostulona y ( n ) mitattu puhesignaali. X(z). H(z). Y(z). Kertausta: lineaarinen ennustus.

sonel
Download Presentation

Kertausta: lähde-suodin –malli

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kertausta: lähde-suodin –malli • Puhesignaalia voidaan mallintaalähde-suodin –systeemin avulla • Järjestelmän syötteenä x(n) on kurkunpää-ääni ja ulostulona y(n) mitattu puhesignaali X(z) H(z) Y(z)

  2. Kertausta: lineaarinen ennustus • Lineaarinen ennustus on yksi tärkeimmistä puheenkäsittelyn työkaluista • Lyhenne LP (linear prediction) tai LPC (linear predictive coding) • Puheenkäsittelyn kannalta LP:n tärkein ominaisuus on sen kyky mallintaa ääntöväylää • Ideana ennustaapuhesignaalin seuraavaa näytettä edellisten näytteiden ja lineaarisensuotimen avulla (edellisten näytteiden lineaarikombinaationa) • Aiemmin käsitelty ristikkorakenteinen malli ääntöväylälle on all-pole –suodin • > Lineaarinen ennustus on hyvä menetelmä suotimen parametrien estimointiin

  3. Kertausta: lineaarinen ennustus Ääntöväyläsuotimelle voidaan käyttää mallia (all-pole –suodin) All-pole–järjestelmän ulostulo voidaan ennustaa täydellisesti mikäli sisäänmeno ja ulostulon aiemmat arvot tunnetaan. Etsitään aproksimaatio määrittelemällä sisäänmeno nollaksi ja tehdään ennustus pelkän ulostulon perusteella siten, että neliövirhe E minimoituu:

  4. Kertausta: lineaarinen ennustus Optimaalisetsuotimen parametrit a(1),a(2),...,a(p) löytyvät, kun asetetaan E:n derivaatta jokaisen parametrin a(n) suhteen on nollaksi. Autokorrelaatiofunktion r(n)avulla ilmaistuna, derivaattojen nollakohdat saadaan ilmaistua matriisimuodossa Yule-Walker –yhtälönä:

  5. Kertausta: Levinson-Durbin –rekursio • Levinson-Durbin –rekursio: tehokas algoritmi Yule-Walker –yhtälöiden, ja siten ennustuskertoimien a(1),a(2),...,a(p) ratkaisemiseen • Ideana on ratkaista symmetrinen Toeplitz-matriisiyhtälö lohkoittain kasvattamalla vektorin x pituutta ja laskemalla uusi ratkaisu edellisten avulla

  6. Kertausta: Levinson-Durbin –rekursio • Yhtälöryhmän ratkaisu: vektori, joka on summa alempiasteisesta ratkaisusta ja sen vakiolla painotetusta käännöksestä • Esim. kun aste on 3: ratkaistaan , , ja lopuksi uudet parametrit (1),.

  7. Kertausta: Formanttien estimointi • Formantti on spektrissä havaittava vahvistunut osavärähtelyalue tai taustalla oleva siirtofunktio-ominaisuus (napa)

  8. Kertausta: Formanttien estimointi: tekijöihin jako • Suoraviivainen tapa estimoida formantteja on jakaa LP-polynomi tekijöihin missä ovat LP-polynomin nollakohdat

  9. Kertausta: Napaparin amplitudivaste: formantin taajuus • Napapari taajuudella 1600 Hz (Fs = 16000 Hz), eli kulmataajuudella

  10. Kertausta: LP-mallin käyttö perustaajuuden estimoinnissa: SIFT • Formantit voidaan poistaa (ratkaista glottisheräte) suodattamalla puhekehys LP-parametreista saadulla käänteissuotimella A(z) • Autokorrelaatio voidaan nyt laskea glottisherätteestäX(z) puhekehyksen Y(z) sijaan • Formanttien vaikutus pienenee • Autokorrelaatiosekvenssistä etsitään maksimikohta todennäköistä perustaajuutta vastaavalta alueelta. • Menetelmästä käytetään nimitystä SIFT(simpleinversefiltertracking) Y(z) A(z)

  11. Kertausta: LP-mallin käyttö perustaajuuden estimoinnissa • SIFT-esisuodatettu autokorrelaatio:

  12. PLP,PerceptualLinearPrediction eli ihmisen kuuloon perustuva lineaariprediktioanalyysi

  13. Miksi mikä PLP ? • PLP (PerceptualLinearPrediction) – parametrejä/featureitakäytetään ainakin puheentunnistuksessa ja puhujantunnistuksessa. Niiden on havaittu olevan luotettavampia kuin puhtaat LP-parametrit. • PLP –menetelmässä signaalin spektriä muokataan ensin siten, että ihmiskuulon ominaisuudet tulevat huomioon otetuiksi. Sitten muokatulle signaalille tahdään tavallinen lineaariprediktioanalyysi.

  14. Ihmiskuulon ominaisuuksia -epälineaarinen äänenkorkeusaistimus • Ihminen mieltää (suurinpiirtein) saman suuruisiksi taajuuden muutokset: f0 2*f0 4*f0 • eli kuulon taajuusaistimus toimii jokseenkin logaritmisesti: log(f0) + log(f0) = log(2*f0) log(2*f0) + log(2*f0) = log(4*f0)

  15. Spektrogrammipianon äänistä C1 – c5 f0 f0 f0 Huomaa miten aina matalin taajuus eli perustaajuus kaksinkertaistuu, ja sen harmoniset äänekset siirtyvät vastaavasti kaksi kertaa korkeammille taajuuksille.

  16. Ihmiskuulon ominaisuuksia - kriittinen kaista • Ihmiskorva yhdistää aistimukset lähellä toisiaan olevista taajuuksista. Voimakkaampi ääni peittää toisen äänen kuulumattomiin, jos taajuudet ovat lähellä toisiaan. Samalla äänten teho yhdistyy yhdeksi havainnoksi.

  17. Äänenkorkeusaistimuksen mallinnus • Puheenkäsittelyssä käytetään yleisesti kahta ihmiskuuloa mukailevaa taajuusmuunnosta: • Mel-taajuusasteikko, joka on muodostettu puhtaiden siniäänten äänenkorkeusaistimuskokeiden perusteella mallintamaan korvan simpukan epälineaarista taajuuden havainnointia. • Bark-taajuusasteikko, joka on määritelty lähellä toisiaan olevien taajuuskomponenttien peitto-ominaisuuden mukaan mallintamaan korvan taajuusintegrointiominaisuutta. Bark asteikko on muodostettu täyttämällä kuuloalue vierekkäisillä kriittisillä kaistoilla, ja numeroimalla ne 1:stä 26:een.

  18. Mel - taajuusasteikko 1 Mel yksikkö on määritelty yhdeksi tuhannesosaksi 1000 Hz:n taajuisen äänen subjektiivisesta äänenkorkeudesta. eli 1000 Hz = 1000 Mel

  19. Bark-taajuusasteikko Bark-skaalan kriittiset kaistat on määritelty viereisen kuvan mukaisesti, vaikka todellisuudessa korvan taajuusintegrointi toimii millä tahansa keskitaajuudella.

  20. Pianon äänistä C1 – c5 Mel-taajuuksinenspektrogrammi Ja Bark-taajuuksinen spektrogrammi

  21. Bark –asteikon käyttö • Yhden kriittisen kaistan ’äänimäärä’ saadaan: , k=1…26 jossa on signaalin spektri, : on kaistanpäästösuodin, joka mallintaa kriittistä kaistaa k, on kaistanpäästö- suotimen alarajataajuus ja on kaistan- päästösuotimen ylärajataajuus. • Spektrin pehmennys voidaan ajatella konvoluutiona spektrin ja kriittinen-kaista-suotimen välillä. Silloin kuitenkin vain osa konvoluutiofunktion arvoista valitaan Bark(k) –arvoiksi.

  22. Äänenkorkeusaistimuksen mallinnus PLP:ssä • PerceptualLinearPrediction –analyysissä ihmisen epälineaarinen taajuusaistimus ja kriittisen kaistan integrointi mallinnetaan Bark –skaalan mukaisella suodinrivistöllä.

  23. Bark –skaalan mukainen suodinrivistö PLP:ssä Bark –skaalan mukainen suodinrivistö saadaan aikaan, kun kriittistä kaistaa mallintava suodin ja Bark-asteikon keskitaajuudet konvoloidaan keskenään: ja lopuksi siirretään suodinrivistö lineaariselle taajuusasteikolle

  24. Ihmiskuulon ominaisuuksia- äänekkyys eri äänenkorkeuksilla • Ihmisen kuulo on herkimmillään taajuuksilla 500 – 6000Hz. Äänipainetaso ei kerro täsmällisesti sitä, miltä ääni ihmisen korvaan kuulostaa.

  25. Kuulon herkkyyden mallinnus eri taajuuksilla • Kuulon herkkyysvaihtelua eri taajuuksilla voidaan mallintaa suotimella, joka laskee matalien taajuuksien energian ihmisen kuulon mukaiselle tasolle. • Esimerkiksi äänitasomittauksissa käytetään useimmiten A-suodinta ennen energian laskemista äänisignaalista.

  26. Kuulon herkkyyden mallinnus PLP:ssä Suodinrivistön päästökaistojen vaimennukset skaalataan yllä olevan yhtälön määrittelemän suotimen mukaisiksi:

  27. Ihmiskuulon ominaisuuksia – äänenvoimakkuuden muutoksen havaitseminen • Weberin sääntö sanoo, että fysikaalisen suureen muutos havaitaan sen suuruisena kuin se muuttuu suhteellisesti: • Tämän perusteella on päädytty ilmaisemaan ääneen liittyviä suureita desiBeleinä: . • Myöhemmin kuitenkin herrat Fletcher ja Munson huomasivat, että keskitaajuuksilla (300 – 4000Hz) missä puhe pääosin sijaitsee, äänenvoimakkudenhavainnnointi noudattaakin pikemminkin kuutiojuuri-funktiota:

  28. Äänenvoimakkuuden ilmaisu PLP:ssä • PLP:ssä käytetään kuutiojuuri-muunnosta mallintamaan kuulon äänenvoimakkuusaistimusta:

  29. Spektrin kuulonmukainen käsittely PLP:ssä

More Related