290 likes | 525 Views
Kertausta: lähde-suodin –malli. Puhesignaalia voidaan mallintaa lähde-suodin –systeemin avulla Järjestelmän syötteenä x ( n ) on kurkunpää-ääni ja ulostulona y ( n ) mitattu puhesignaali. X(z). H(z). Y(z). Kertausta: lineaarinen ennustus.
E N D
Kertausta: lähde-suodin –malli • Puhesignaalia voidaan mallintaalähde-suodin –systeemin avulla • Järjestelmän syötteenä x(n) on kurkunpää-ääni ja ulostulona y(n) mitattu puhesignaali X(z) H(z) Y(z)
Kertausta: lineaarinen ennustus • Lineaarinen ennustus on yksi tärkeimmistä puheenkäsittelyn työkaluista • Lyhenne LP (linear prediction) tai LPC (linear predictive coding) • Puheenkäsittelyn kannalta LP:n tärkein ominaisuus on sen kyky mallintaa ääntöväylää • Ideana ennustaapuhesignaalin seuraavaa näytettä edellisten näytteiden ja lineaarisensuotimen avulla (edellisten näytteiden lineaarikombinaationa) • Aiemmin käsitelty ristikkorakenteinen malli ääntöväylälle on all-pole –suodin • > Lineaarinen ennustus on hyvä menetelmä suotimen parametrien estimointiin
Kertausta: lineaarinen ennustus Ääntöväyläsuotimelle voidaan käyttää mallia (all-pole –suodin) All-pole–järjestelmän ulostulo voidaan ennustaa täydellisesti mikäli sisäänmeno ja ulostulon aiemmat arvot tunnetaan. Etsitään aproksimaatio määrittelemällä sisäänmeno nollaksi ja tehdään ennustus pelkän ulostulon perusteella siten, että neliövirhe E minimoituu:
Kertausta: lineaarinen ennustus Optimaalisetsuotimen parametrit a(1),a(2),...,a(p) löytyvät, kun asetetaan E:n derivaatta jokaisen parametrin a(n) suhteen on nollaksi. Autokorrelaatiofunktion r(n)avulla ilmaistuna, derivaattojen nollakohdat saadaan ilmaistua matriisimuodossa Yule-Walker –yhtälönä:
Kertausta: Levinson-Durbin –rekursio • Levinson-Durbin –rekursio: tehokas algoritmi Yule-Walker –yhtälöiden, ja siten ennustuskertoimien a(1),a(2),...,a(p) ratkaisemiseen • Ideana on ratkaista symmetrinen Toeplitz-matriisiyhtälö lohkoittain kasvattamalla vektorin x pituutta ja laskemalla uusi ratkaisu edellisten avulla
Kertausta: Levinson-Durbin –rekursio • Yhtälöryhmän ratkaisu: vektori, joka on summa alempiasteisesta ratkaisusta ja sen vakiolla painotetusta käännöksestä • Esim. kun aste on 3: ratkaistaan , , ja lopuksi uudet parametrit (1),.
Kertausta: Formanttien estimointi • Formantti on spektrissä havaittava vahvistunut osavärähtelyalue tai taustalla oleva siirtofunktio-ominaisuus (napa)
Kertausta: Formanttien estimointi: tekijöihin jako • Suoraviivainen tapa estimoida formantteja on jakaa LP-polynomi tekijöihin missä ovat LP-polynomin nollakohdat
Kertausta: Napaparin amplitudivaste: formantin taajuus • Napapari taajuudella 1600 Hz (Fs = 16000 Hz), eli kulmataajuudella
Kertausta: LP-mallin käyttö perustaajuuden estimoinnissa: SIFT • Formantit voidaan poistaa (ratkaista glottisheräte) suodattamalla puhekehys LP-parametreista saadulla käänteissuotimella A(z) • Autokorrelaatio voidaan nyt laskea glottisherätteestäX(z) puhekehyksen Y(z) sijaan • Formanttien vaikutus pienenee • Autokorrelaatiosekvenssistä etsitään maksimikohta todennäköistä perustaajuutta vastaavalta alueelta. • Menetelmästä käytetään nimitystä SIFT(simpleinversefiltertracking) Y(z) A(z)
Kertausta: LP-mallin käyttö perustaajuuden estimoinnissa • SIFT-esisuodatettu autokorrelaatio:
PLP,PerceptualLinearPrediction eli ihmisen kuuloon perustuva lineaariprediktioanalyysi
Miksi mikä PLP ? • PLP (PerceptualLinearPrediction) – parametrejä/featureitakäytetään ainakin puheentunnistuksessa ja puhujantunnistuksessa. Niiden on havaittu olevan luotettavampia kuin puhtaat LP-parametrit. • PLP –menetelmässä signaalin spektriä muokataan ensin siten, että ihmiskuulon ominaisuudet tulevat huomioon otetuiksi. Sitten muokatulle signaalille tahdään tavallinen lineaariprediktioanalyysi.
Ihmiskuulon ominaisuuksia -epälineaarinen äänenkorkeusaistimus • Ihminen mieltää (suurinpiirtein) saman suuruisiksi taajuuden muutokset: f0 2*f0 4*f0 • eli kuulon taajuusaistimus toimii jokseenkin logaritmisesti: log(f0) + log(f0) = log(2*f0) log(2*f0) + log(2*f0) = log(4*f0)
Spektrogrammipianon äänistä C1 – c5 f0 f0 f0 Huomaa miten aina matalin taajuus eli perustaajuus kaksinkertaistuu, ja sen harmoniset äänekset siirtyvät vastaavasti kaksi kertaa korkeammille taajuuksille.
Ihmiskuulon ominaisuuksia - kriittinen kaista • Ihmiskorva yhdistää aistimukset lähellä toisiaan olevista taajuuksista. Voimakkaampi ääni peittää toisen äänen kuulumattomiin, jos taajuudet ovat lähellä toisiaan. Samalla äänten teho yhdistyy yhdeksi havainnoksi.
Äänenkorkeusaistimuksen mallinnus • Puheenkäsittelyssä käytetään yleisesti kahta ihmiskuuloa mukailevaa taajuusmuunnosta: • Mel-taajuusasteikko, joka on muodostettu puhtaiden siniäänten äänenkorkeusaistimuskokeiden perusteella mallintamaan korvan simpukan epälineaarista taajuuden havainnointia. • Bark-taajuusasteikko, joka on määritelty lähellä toisiaan olevien taajuuskomponenttien peitto-ominaisuuden mukaan mallintamaan korvan taajuusintegrointiominaisuutta. Bark asteikko on muodostettu täyttämällä kuuloalue vierekkäisillä kriittisillä kaistoilla, ja numeroimalla ne 1:stä 26:een.
Mel - taajuusasteikko 1 Mel yksikkö on määritelty yhdeksi tuhannesosaksi 1000 Hz:n taajuisen äänen subjektiivisesta äänenkorkeudesta. eli 1000 Hz = 1000 Mel
Bark-taajuusasteikko Bark-skaalan kriittiset kaistat on määritelty viereisen kuvan mukaisesti, vaikka todellisuudessa korvan taajuusintegrointi toimii millä tahansa keskitaajuudella.
Pianon äänistä C1 – c5 Mel-taajuuksinenspektrogrammi Ja Bark-taajuuksinen spektrogrammi
Bark –asteikon käyttö • Yhden kriittisen kaistan ’äänimäärä’ saadaan: , k=1…26 jossa on signaalin spektri, : on kaistanpäästösuodin, joka mallintaa kriittistä kaistaa k, on kaistanpäästö- suotimen alarajataajuus ja on kaistan- päästösuotimen ylärajataajuus. • Spektrin pehmennys voidaan ajatella konvoluutiona spektrin ja kriittinen-kaista-suotimen välillä. Silloin kuitenkin vain osa konvoluutiofunktion arvoista valitaan Bark(k) –arvoiksi.
Äänenkorkeusaistimuksen mallinnus PLP:ssä • PerceptualLinearPrediction –analyysissä ihmisen epälineaarinen taajuusaistimus ja kriittisen kaistan integrointi mallinnetaan Bark –skaalan mukaisella suodinrivistöllä.
Bark –skaalan mukainen suodinrivistö PLP:ssä Bark –skaalan mukainen suodinrivistö saadaan aikaan, kun kriittistä kaistaa mallintava suodin ja Bark-asteikon keskitaajuudet konvoloidaan keskenään: ja lopuksi siirretään suodinrivistö lineaariselle taajuusasteikolle
Ihmiskuulon ominaisuuksia- äänekkyys eri äänenkorkeuksilla • Ihmisen kuulo on herkimmillään taajuuksilla 500 – 6000Hz. Äänipainetaso ei kerro täsmällisesti sitä, miltä ääni ihmisen korvaan kuulostaa.
Kuulon herkkyyden mallinnus eri taajuuksilla • Kuulon herkkyysvaihtelua eri taajuuksilla voidaan mallintaa suotimella, joka laskee matalien taajuuksien energian ihmisen kuulon mukaiselle tasolle. • Esimerkiksi äänitasomittauksissa käytetään useimmiten A-suodinta ennen energian laskemista äänisignaalista.
Kuulon herkkyyden mallinnus PLP:ssä Suodinrivistön päästökaistojen vaimennukset skaalataan yllä olevan yhtälön määrittelemän suotimen mukaisiksi:
Ihmiskuulon ominaisuuksia – äänenvoimakkuuden muutoksen havaitseminen • Weberin sääntö sanoo, että fysikaalisen suureen muutos havaitaan sen suuruisena kuin se muuttuu suhteellisesti: • Tämän perusteella on päädytty ilmaisemaan ääneen liittyviä suureita desiBeleinä: . • Myöhemmin kuitenkin herrat Fletcher ja Munson huomasivat, että keskitaajuuksilla (300 – 4000Hz) missä puhe pääosin sijaitsee, äänenvoimakkudenhavainnnointi noudattaakin pikemminkin kuutiojuuri-funktiota:
Äänenvoimakkuuden ilmaisu PLP:ssä • PLP:ssä käytetään kuutiojuuri-muunnosta mallintamaan kuulon äänenvoimakkuusaistimusta: