250 likes | 694 Views
VILNIAUS GEDIMINO TECHNIKOS UNIVERSITETAS MATEMATIKOS IR INFORMATIKOS INSTITUTAS. Daugiamačio pasiskirstymo tankio neparametrinis įvertinimas naudojant stebėjimų klasterizavimą. Tomas Ruzgas. Daktaro disertacija Fiziniai mokslai, matematika (01P). Vilnius, 200 7. Tiriamoji problema.
E N D
VILNIAUS GEDIMINO TECHNIKOS UNIVERSITETAS MATEMATIKOS IR INFORMATIKOS INSTITUTAS Daugiamačio pasiskirstymo tankio neparametrinis įvertinimas naudojant stebėjimų klasterizavimą Tomas Ruzgas Daktaro disertacija Fiziniai mokslai, matematika (01P) Vilnius, 2007
Tiriamoji problema Tegul X(1),…,X(n) yra stebimi nepriklausomi d-mačiai atsitiktiniai vektoriai su nežinomu pasiskirstymo tankiu f(x). Jei funkcija f(x) nėra parametrizuota, jai įvertinti taikomi neparametriniai metodai. Disertaciniame darbe pagrindinis dėmesys skiriamas neparametriniam tankio vertinimui tuo atveju, kai f(x) yra daugiamodalinis.
Darbo aktualumas Šiuolaikinėje duomenų analizėje žinoma daug pasiskirstymo tankio neparametrinių vertinimo metodų. Ypač plačiai paplitę branduoliniai įverčiai (M. C. Jones (1989), J. Amer. Stat. Assoc.; D. W. Scott (1992), John Wiley). Vis tik praktikoje nėra lengva parinkti efektyvią vertinimo procedūrą jei duomenys daugiamačiai, jų pasiskirstymo tankis daugiamodalinis, o imties tūris nėra didelis.
Optimalaus glodinimo parametro h(t) parinkimas priklauso nuo nežinomo pasiskirstymo tankio f(x) glodumo taško X(t) aplinkoje, ką nustatyti beveik neįmanoma jei imtis nėra didelė, o tankis yra daugiamatis. Jei h(t)h, tada kenčia vertinimo tikslumas, ypač daugiamodaliniu atveju. • Situacija supaprastėja, jei duomenys vienamačiai, o tankis vienamodalinis. Todėl svarstytinos tokios idėjos: • vertinant tankį, taikyti duomenų projektavimą(tuo paremta ir geromis savybėmis pasižymi J.H.Friedman pasiūlyta procedūra); • pirmiausia imtį klasterizuoti, t.y. ją suskaidyti į kelias tam tikra prasme homogenines dalis, suvedant daugiamodalinio tankio vertinimą į kelių vienamodalinių tankių nagrinėjimą.
Tikslas ir uždaviniai Darbo tikslas – sukurti ir ištirti daugiamačio pasiskirstymo tankio neparametrinio vertinimo algoritmus, kurie būtų efektyvūs daugiamodališkumo atveju. Pagrindiniai darbo uždaviniai: • atlikti populiarių neparametrinių tankių statistinių įverčių tikslumo lyginamąją analizę daugiamodaliniu atveju; • ištirti pirminio duomenų klasterizavimo poveikį daugiamodalinio tankio statistinio vertinimo tikslumui; • palyginti įvairių klasterizavimo procedūrų taikymo efektyvumą pasiskirstymo tankių vertinime.
Naujumas • Atlikta skirtingų tipų statistikų, skirtų daugiamačių tankių vertinimui, lyginamoji analizė daugiamodaliniu atveju. • Ištirtas neparametrinės daugiamodalinio tankio aproksimacijos Gauso mišinių modeliais tikslingumas, esant nuosaikiam imties dydžiui. • Pasiūlyta originali daugiamodalinio tankio statistinės analizės metodika, paremta tiriamo tankio traktavimu kaip vienamodalinių tankių mišinio ir duomenų projektavimu. Ištirtas pirminio imties klasterizavimo efektyvumas tankio vertinime. • Monte Karlo metodu palygintos įvairios pirminio imties klasterizavimo procedūros ir parodytas tikimybinių metodų pranašumas prieš paplitusius geometrinius, vertinant neparametrinį daugiamodalinį tankį.
Ginamieji teiginiai • Atliekant populiarių neparametrinių tankio įverčių tikslumo lyginamąją analizę daugiamodališkumo atveju, parodyta, kad įvertinimo rezultatai ženkliai pagerėja, jei stebiniai pirmiausiai klasterizuojami. • Parodyta, kad imties skaidymas į klasterius, taikant Gauso skirstinių mišinio modelį, yra akivaizdžiai pranašesnis už populiarius geometrinius klasterizavimo metodus, o negriežtas klasterizavimas naudingesnis nei griežtas. • Pasiūlyta klasterių skaičiaus nustatymo taisyklė ir ištirtas jos efektyvumas. • Parodyta, kad daugiamodalinio neparametrinio tankio įvertinimo algoritmas, gautas apjungiant pirminę imties klasterizaciją su J. H. Friedman procedūra, naudojančia duomenų projektavimą, yra efektyvesnis nei tirti kiti populiarūs vertinimo būdai.
MonteKarlo būdu buvo nagrinėti šie pasiskirstymo tankių statistinio vertinimo metodai: • Silverman adaptuotas branduolinis tankio įvertinys, skirtingiems stebiniams naudojantis skirtingo pločio branduolį; • Hoti ir Holmström išnagrinėtas pusiau parametrinis branduolinis pasiskirstymo tankio įvertinys, kuris tiriamą atsitiktinį vektorių suskaido į du subvektorius ir vieno iš jų pasiskirstymo tankį įvertina branduoliniu metodu, o kito sąlyginį tankį aproksimuoja normaliniu pasiskirstymo tankiu; • Kooperberg ir Stone pasiūlytas logsplaininis pasiskirstymo tankio įvertinys, tiriamo tankio logaritmą aproksimuojantis kubinių B-splainų suma; • tiksliniu projektavimu ir projekcijų nuosekliu gausianizavimu grindžiamas tankio įvertinys, pasiūlytas Friedman. • Apvertimo formulės taikymu paremtas pasiskirstymo tankio įvertinys, kurį pasiūlė Rudzkis. Siekiant išvengti subjektyvumo, tankių vertinimo metodų lyginamoji analizė atlikta naudojant panašias duomenų sekas, kurias savo darbe jau buvo naudoję J. N. Hwang, S. R. Lay ir A. Lippman (1994 , Trans. on Signal Proc.).
Adaptuotas branduolinis metodas Sakykime, turimai d-mačių stebėtų duomenų imčiai X=(X(1),…,X(n)) apibrėžiami standartizuoti duomenys Z=(Z(1),…,Z(n)). Tuomet tankio įvertinys apibrėžiamas – branduolinis įvertis gautas ht pakeitus į h – geometrinis vidurkis v – parametras parenkamas iš {0,2; 0,4; 0,6; 0,8} reikšmių minimizuojant vidutinę kvadratinę paklaidą (J.N. Hwang, S.R. Lay, A. Lippman (1994), Trans. on Signal Proc.).
Tikslinio projektavimo tankio įvertinys(H.J.Friedman rekurentinėprocedūra) Metodo idėja paremta vienamačių projekcijų, kurių skirstiniai labiausiai skiriasi nuo Gauso, nuoseklia paieška ir jų transformavimu į Gauso dydžius. Tegul Z yra standartizuotas atsitiktinis vektorius su pasiskirstymo tankiu f(z). Po kiekvieno žingsnio Z reikšmė transformuojama, Z(k)=Qk(Z). Transformacija apibrėžiama lygybe Z(k) = Φ -1(Gk(τZ(k-1)))τ + Z(k-1) – (τZ(k-1))τ. Čia τ = τ(k) yra pasirinkta projektavimo kryptis, gk žymi projekcijos τZ(k-1) pasiskirstymo tankį, φ – standartinis vienamatis normalinis pasiskirstymo tankis N(0, 1), Gk ir Φ – atitinkamos pasiskirstymo funkcijos. Taigi, k-tojo žingsnio metu transformuojama Z(k-1) projekcija į kryptį τ, padarant jos pasiskirstymą Gauso, o projekcija į τ ortogonalų papildinį aibėje Rd paliekama nepakeista.
Po M ciklų tankis f(z) aproksimuojamas funkcija (1) čia z(k)=Qk(z). J.H. Friedman parodė, kad fM(z) → f(z), kai M → Friedman tankio įvertinimo procedūra remiasi formule (1) keičiant nežinomus vienamačių projekcijų tankius gk jų projekciniais įverčiais Ležandro polinomų bazėje: čia u = u(y) = 2 Φ(y) – 1, ut = u(yt),yt = τ(k)Z(k-1) j - Ležandro polinomai Projektavimo kryptys τ(k) parenkamos taip, kad tankis gk labiau skirtųsi nuo normalinio tankio φ.
Taikytos imties pirminio klasterizavimo procedūros Vienas iš būdų mėginti padidinti neparametrinių įverčių tikslumą yra daugiamodalinio tankio analizės suvedimas į vienamodalinių tankių vertinimą. Tarkime, X priklauso nuo nestebimo atsitiktinio dydžio v, priimančio reikšmes 1,…,q, kurios interpretuojamos kaip klasės, kuriai gali priklausyti stebimas objektas, numeris. Tegul fi žymi atsitiktinio vektoriaus X sąlyginį pasiskirstymo tankį prie sąlygos v=i, pi=P{v=i}. Tada (1) Klasterizavus imtį, atskirai nagrinėjami komponentai fi, o pasiskirstymo tankio f(x) vertinimui naudojama (1) lygybė.
Praktikoje taikomos įvairios klasterizavimo procedūros, pavyzdžiui: 1. hierarchinis jungimo (SAS/STAT 9.1 User's Guide) 2. k vidurkių (SAS/STAT 9.1 User's Guide) 3. k artimiausių kaimynų (SAS/STAT 9.1 User's Guide) 4. taikant Gauso skirstinių mišinio modelį ir EM algoritmą (R.A. Render, H.F. Walker (1984), SIAM; R. Rudzkis, R. Radavicius (1995), Acta App. Math.)
Imties klasterizavimas EM algoritmo pagalba Tegul stebinys X priklauso vienai iš q skirtingų klasių, v žymi tos klasės numerį, fi(x) yra sąlyginis pasiskirstymo tankis kai v=i. Klasterizuojant imtį, daroma prielaida, kad f1,…, fq yra normaliniai pasiskirstymo tankiaisu vidurkiais M(i) ir kovariacinėmis matricomis R(i). Tada čia yravisų mišinio parametrų vektorius. Klasterizavimas remiasi aposteorinių tikimybių vertinimu
EM algoritmas yra rekurentinė procedūra, skirta θ maksimalaus tikėtinumo įverčioir jį atitinkančiųi įverčių apskaičiavimui
Taigi, pasiskirstymo tankio f(x) statistinį vertinimą siūloma atlikti dviem etapais: • imtis X={X(1),…,X(n)} yra klasterizuojama į q klasterių. • Griežto klasterizavimo atveju X=K1…Kq, kur kiekvienas stebinys X(t) priklauso vienam ir tik vienam iš klasterių Ki, i=1,…,q. • Negriežto klsterizavimo atveju klasteriai Ki suprantami kaip aibės {(X(1),i(1)),…,(X(n),i(n))}, kur i(t) rodo su kokiu svoriu (tikimybe) stebinys X(t) priskiriamas klasei Ki. • mišinio komponentai fi(x) vertinami pagal klasterio Ki elementus, taikant vieną iš žinomų neparametrinio vertinimo metodų. Atlikti tyrimai parodė, kad geriausi rezultatai gaunami, kai imtis klasterizuojama negriežtai, klasterių skaičius parenkamas parametriniu bootstrap metodu (taikant Gauso skirstinių mišinio modelį), o komponentai fi(x) neparametriškai įvertinami J. H. Friedman procedūros pagalba.
Metodų tyrimas Siūlomos procedūros ir iš jų sudaryti sudėtiniai metodai buvo tiriami MonteKarlo būdu. Tyrimui naudoti (d=25) Koši bei Gauso skirstinių su nepriklausomomis komponentėmis mišiniai.Duomenų skirstinių tankių mišiniai aprašomi taip: Norint įvairiapusiškai ištirti siūlomus metodus, buvo varijuojamas mišinių komponentų skaičius, jų svoriai, atstumai tarp komponentų centrų. Skaičiavimai atlikti su imties dydžiais n = 50, 100, 200, 400, 800, 1600, 3200.
Tankių vertinimo tikslumui išreikšti skaičiuotos paklaidos ir paklaida, kuria buvo siekiama palyginamumo su straipsniu (J.N. Hwang, S. R. Lay and A. Lippman, 1994 , Trans. on Signal Proc.): čia nusako f(X(1)),…, f(X(n)) aritmetinį vidurkį.
Pavyzdys Vieno iš nagrinėtų mišinių parametrai: dimensija d = 5, mišinio komponentų skaičius q = 2, p1 = 0,65, p2 = 0,35, m1 = (0; 0; 0; 0; 0)′, m2 = (2,0; 2,0; 2,0; 2,0; 2,0)′, u1 = 12 = (0,84; 1,02; 0,70; 1,20; 0,96)′, u2 = 22 =(0,66; 0,92; 1,06; 0,86; 0,90)′.
Rezultatai(Koši skirstinių mišiniai) A – adaptuotas branduolinis įvertinys, P – tikslinio projektavimo įvertinys (J. H. Friedman procedūra), punktyrine linija žymimos pasiskirstymo tankio įverčių paklaidos neatlikus pirminio duomenų klasterizavimo, o ištisine – atlikus pirminį duomenų klasterizavimą
Rezultatai(Gauso skirstinių mišiniai) A – adaptuotas branduolinis įvertinys, P – tikslinio projektavimo įvertinys (J. H. Friedman procedūra), punktyrine linija žymimos pasiskirstymo tankio įverčių paklaidos neatlikus pirminio duomenų klasterizavimo, o ištisine – atlikus pirminį duomenų klasterizavimą
Išvados Daugiamodalinių pasiskirstymo tankių vertinimo rezultatai labai pagerėja, jei stebiniai pirmiausia klasterizuojami (traktuojant jų daugiamodalinį tankį kaip vienamodalinių tankių mišinį), o tankių vertinimo metodai yra taikomi kiekvienam klasteriui atskirai. Daugeliu atvejų didžiausias vertinimo efektyvumas buvo pasiekiamas, kai po pirminio imties suskaidymo kiekvieną klasterį atitinkantys tankio komponentai buvo įvertinti J. H. Friedman pasiūlyta rekurentine procedūra. Parodyta, kad negriežtas imties klasterizavimas, kuris remiasi nagrinėjamo tankio aproksimacija Gauso pasiskirstymo tankių mišiniu ir EM algoritmu, yra pranašesnis nei griežtas ar kitos populiarios geometrinio klasterizavimo procedūros, kai klasterizavimo rezultatai taikomi daugiamodaliniams tankiams statistiškai vertinti. Bootstrap metodu nustatomas klasterių skaičius yra artimas optimaliam.
Rezultatų aprobavimas Disertacinio darbo tematika yra išspausdintas 1straipsnis leidinyje, įtrauktame į Mokslinės informacijos instituto duomenų bazę, 2straipsniai – Lietuvos mokslo tarybos patvirtinto sąrašo tarptautinėse duomenų bazėse referuojamuose leidiniuose, 3straipsniai – kituose recenzuojamuose mokslo leidiniuose. Disertacinio darbo tematikai yra skirta 10 pranešimų Lietuvos ir tarptautinėse mokslinėse konferencijose.Taip pat skaityti pranešimai Matematikos ir informatikos instituto bei Vilniaus Gedimino technikos universiteto Matematinės statistikos katedros seminaruose.