1 / 7

OTKRIVANJE KONCEPATA I PRETRAŽIVANJE U AUDIO BAZI PODATAKA

OTKRIVANJE KONCEPATA I PRETRAŽIVANJE U AUDIO BAZI PODATAKA. Mentor: Student: Prof. Dr Milorad K. Banjanin Mirko Stojčić 36/08. prilično su drugačiji od podataka u drugim vrstama medija kao što su tekst, slike, i video u smislu da su suštinski jednodimenzionalni podaci.

mikkel
Download Presentation

OTKRIVANJE KONCEPATA I PRETRAŽIVANJE U AUDIO BAZI PODATAKA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. OTKRIVANJE KONCEPATA I PRETRAŽIVANJE U AUDIO BAZI PODATAKA Mentor: Student: Prof. Dr Milorad K. Banjanin Mirko Stojčić 36/08

  2. prilično su drugačiji od podataka u drugim vrstama medija kao što su tekst, slike, i video u smislu da su suštinski jednodimenzionalni podaci. predstavljaju zvučne informacije mogu se grafički prikazati kao jednodimenzionalan talas u zavisnosti od različitih izvora zvuka, mogu izgledati drugačije Audio podaci Važno je da izaberemo i koristimo različita audio svojstva za različite probleme pretraživanja. Primer LCTC Metod Klasifikacija i kategorizacija audio podataka: moramo obezbediti da izabrana svojstva budu dovoljno diskriminantna za različite vrste audio podataka Prepoznavanje i pronalaženje govora:moramo obezbediti da izabrana svojstva odgovaraju samo podacima govora Problem Rešenje

  3. Ekstrakcija svojstava Pre ekstrakcije svojstava, originalni audio signal se mora obraditi da se pouzdano identifikuju svi čujni frejmovi Originalni audio signal se bira na 8.000 Hz sa 16-bitnom rezolucijom Dužina frejma se postavlja na 256 uzoraka koji odgovaraju 32 ms sa preklapanjem od 192 uzorka (tj, 75%) između susednih frejmova Svaki tok podataka audio klipa se deli na frejmove Nakon ove obrade, frejm se označava kao čujni frejm ako frejm zadovoljava sledeće: gde je 400 prag iskustva Tehnika pojačanja energije se koristi na visoko frekventnom kraju u spektru. Filtrirani audio signal se dalje Hamming-weighted shn = s'nhn,n = 0,...,255 Ovo se postiže korištenjem filtera pojačanja koji se definiše na sledeći način: s'n = sn 0,96sn-1, n = 1,...,255 s'0 = s0 gde su sn i s'nn ti audio uzorak u frejmu pre i nakon, respektivno, aplikacije filtera Nakon postizanja svih čujnih frejmova originalnog audio signala nakon obrade, spremni smo da definišemo i ekstrakujemo sva svojstva dizajnirana za ovaj specifični problem klasifikacije i kategorizacije.

  4. Ekstrakcija svojstava Perceptualna svojstva Postižu se primenjivanjem i Fourier transforma i transforma talasa. Transformaciona svojstva Postižu se koristeći koeficijente cepstrala frekvencije (frequency cepstral coefficients-FCC). Svojstva koja koristi LCTC metod

  5. Snaga podopsega Pj Tri sekcije snage podopsega se obračunavaju u domenu talasa. Neka je pola frekvencije uzorkovanja. Onda su intervali podopsega [0,ω/8 ], [ω/8,ω/4 ], i [ω/4,ω/2], što odgovara aproksimaciji i detaljnim koeficijentima transformacije talasa, respektivno. Snaga podopsega se tako obračunava kao gde je zj(k) odgovarajuća aproksimacija ili detaljni koeficijenti podopsega j. Metod detekcije visine zasnovan na talasu jasnog šuma od Chena i Wang se koristi za ekstrakciju frekvencije visine. Prva faza ovog metoda je primeniti transformaciju talasa sa kompenzacijom izobličenja da se dekomponuje ulazni signal na tri podopsega; ovome sledi primena modifikovana funkcija prostorne korelacije obračunata od aproksimativnog signala dobijenog u prethodnoj fazi za ekstrakciju frekvencije visine. Jasnoća se definiše kao centroid frekvencije Fourier transformacije i obračunava se kao Opseg se definiše kao kvadrat power-weighted proseka kvadratne razlike između spekralnih komponenti i centroida frekvencije: FCC se definiše kao koeficijenti L-reda obračunati kao Koeficijent cepstral frekvencije (FCC) cn Frekvencija visine fp SVOJSTVA Jasnoća Opseg B

  6. Lista ekstrakovanih svojstava 1. 2. Da bi se dobila dalja klasifikacija, svi uzorci dobijeni kao 14+2L-dimenzionalni vektori treba da se normalizuju. Normalizacija se obavlja u dva koraka Pored toga, racio visine, koji se definiše kao racio broja visinskih frejmova i ukupnog broja frejmova u signalu, i racio tišine, koji se definiše kao racio broja nečujnih frejmova i ukupnog broja frejmova u signalu, se obračunavaju kao dva dalja svojstva. Samim tim, dobija se 14+2L-dimenzionalni vektor svojstva. Prvi korak normalizacije je da se pomeri vektor u 14+2L-dimenzionalnom prostoru u odnosu na distribucioni centar, tj: gde je gde je N ukupan broj uzoraka u setu (npr, set obuke) Za svako od 6+L svojstava, obračunavaju se statistička sredina i standardna devijacija, što rezultuje totalom od 12+2L svojstava. Postoji ukupno 6+L svojstava. Drugi korak je da se dalje normalizuju vrednosti 2L komponenti u svakom od vektora uzoraka povezanih sa FCC, tj, gde je mjmaksimum apsolutne vrednosti za sve komponente uzorka 3. 2. 1.

  7. Metode klasifikacije Poređenja stopa grešaka (broj grešaka) među LCTC, GL, i L metodama LCTC metod bira upotrebu SVM za klasifikaciju (Suport Vector Machine – SVM) Metod LCTC GL L Set svojstava NPC-L PercCepsL PercCepsL Klasifikator i kernel SVM RBF C = 30 σ2= 60 SVM Gaussian C = 100 σ2 = 5 SVM RBF C = 200 σ2 = 6 NFL NN 5-NN NC FCC nivo L varira od 1 do 99 RBF i Gaussian kernel funkcije se koriste da bi se uradila poređenja. One se porede u rangu predizabranih vrednosti za gornju granicu C i varijaciju σ2 L = 5 11,6% (23) 12,6% (25) 12,6% (25) 12,1% (24) 17,7% (35) 21,2% (42) 43,4% (86) L = 8 9,5% (19) 10,6% (21) 8,1% (16) 9,6% (19) 13,1% (26) 22,2% (44) 38,9% (77) Nearest feature line-NFL L = 60 3,5% (6) 9,5% (19) 10,1% (20) 12,1% (24) 15,7% (31) 20,7% (41) 32,8% (65) Nearest neighbor-NN Iz tabele je jasno da LCTC metod ima bolje performanse i od GL i od L metoda, a GL metod ima bolje performanse od L metoda. Top 5 nearest neighbors-5-NN Nearest center-NC

More Related