150 likes | 372 Views
Paskaitos turinys. GLM ( angl . generalised linear modeling ): logistinė regresija Netiesin ės regresijos GAM ( angl . generalised additive modeling ): glodinimas ( smoothing ). GLM: logistinė regresija.
E N D
Paskaitosturinys GLM (angl. generalisedlinearmodeling): logistinė regresijaNetiesinės regresijosGAM (angl. generalisedadditivemodeling): glodinimas (smoothing)
GLM: logistinė regresija GLM dažniausiai naudojama Poisson (ordinaliniams priklausomo kintamojo duomenims) ir binominė (0-1 priklausomo kintamojo duomenims) regresijos. Logistinės regresijosmodelis: ; kur +…+ Vieno prediktoriaus (x) atveju, bendra logistinės regresijosmodelio forma tokia: Tutorials (byWilliam B. King, CoastalCarolinaUniversity) http://ww2.coastal.edu/kingw/statistics/R-tutorials/logistic.html
Logistinės regresijoskreivės skirtingoms β0ir β1reikšmėms
Duomenys: Kuršių marių kiautvėžių (Ostracoda) aptikimo priklausomybė nuo aplinkos faktorių
Koeficientas 1,9669 rodo, jog padidėjus druskingumuivienapromilešansai aptikti kiautvėžįdidėja exp(1.9669)=7.1 karto. p-reikšmė rodo, jog šis koeficientas reikšmingai skiriasi nuo 0, t.y. prediktorius yra reikšmingas šiam priklausomam kintamajam Nulinisnuokrypis(Nulldeviance) rodokaipgeraipriklausomaskintamasisyraaprašomasmodelio, kuriame nėra prediktorių, o tik konstanta (intercept) Pilno modelio nuokrypis(residualdeviance) rodokaipgeraipriklausomaskintamasisyraaprašomasmodelio su visais prediktoriais.
Pridėjus 4 prediktorius (sumažėjus trims laisvės laipsniams) nuokrypis sumažėjo 8,168. Chi-kvadratotesto p=0.043rodo, kadnuokrypis sumažėjo statistiškaireikšmingai (t.y. pradinio modelio reikšmės skiriasinuo antrojo)
plot(Dataset$Salinity,Dataset$Ostr_pr_abs) • GLM.1=glm(Ostr_pr_abs ~ Salinity,family=binomial(logit),data=Dataset) curve(predict(GLM.1, data.frame(Salinity=x),type="resp"),add=TRUE, col="red") points(Dataset$Salinity,fitted(GLM.1),pch=20)
Netiesinės regresijosGAM (angl. generalisedadditivemodeling): glodinimas (smoothing)
Glodinimo principai: • Kiekvienas stebėjimas yra pakeičiamas jo kaiminystėje esančių stebėjimų vidurkiu arba mediana, arba šių stebėjimų regresijos prognozuojama reikšme • Kaiminystėje esantys stebėjimai yra apibrėžtame X intervale (angl. band, window, neighbourhood), kurio vidurys yra vadinamas centru (angl. target). Intervalo plotis (t.y. jam priklausančių reikšmių skaičius) yra apibrėžiamas glodinimo parametru daugeliui glodinimo funkcijų. • Viename intervale esantis vidurkis ar mediana nėra įtakojami kitame intervale esančiais stebėjimais, todėl nejautrūs ekstremalioms vertėms.
Slenkančio vidurkio (movingaverage, runningmean) glodinimas yra pagrįstas nustatyto pločio intervalo vidurkiais. Kiekvienas intervalas yra apibrėžiamas pagal centrinę X vertę, likusios vertės gali būti nustatomospvz.įtraukiant vienodą reikšmių skaičių į abi puses nuo intervalo centro; • Šis glodinimas sėkmingai taikytas paprastoms laiko eilutėms. • LO(W)ESS (local (weighted) regressionscatterplot) glodinimas yra slenkančio vidurkio modifikacija, pagal kurią intervalo viduje nustatyta regresija yra panaudojama pakeisti intervalo centrą apskaičiuota yi verte. • Splainų (splines) glodinimas yra pagrįstas intervalo viduje nustatoma polinomine, dažniausiai kubine, funkcija. Intervalai yra atskiriami vartotojo ties taip vadinamais mazgais. • Branduolių (kernels) glodinimas yra pagrįstas tuo, kad intervalo viduje reikšmėms suteikiami skirtingi svoriai remiantis žinoma funkcija (pvz. normaliniu skirstiniu), kuri vadinama branduoliu. Pagal šią funkciją svoris mažėja tolstant nuo intervalo centro. Branduolių glodinimas nėra dažnai naudojamas ryšiams tarp x ir y aprašyti.
Glodinimo principas pagal Zuur et al. (2007). a) duomenų pavyzdys; b) glodinimo intervalas (plotis 20, nuo 30 iki 50) ir glodinimo centras 40; c) regresijos tiesė glodinimo intervale; d) LOESS glodinimas taikant svertinę regresiją ir slenkant glodinimo intervalą x-ašimi (intervalo plotis 0.5).
Glodinimo funkcijos rūšių skaičiaus – ploto duomenims pagal Peak & Quinn (1993). Slenkančios medianos glodinimas su a) 0.25 ir b) 0.75 glodinimo parametrais, LOESS glodinimas su c) 0.25 ir d) 0.75 glodinimo parametrais,
Glodinimo rezultatas priklauso nuo glodinimo parametro, t.y. kiek stebėjimų įtraukti į glodinimo intervalą. • Didinant stebėjimų skaičių glodinimo intervale (esant didesniam glodinimo parametrui) suglodinimas yra didesnis, mažinantis kintamumą, tačiau tokiu būdu mažiau atspindintis detalų ryšį tarp x ir y. • Mažinant stebėjimų skaičių glodinimo intervale (esant mažesniam glodinimo parametrui), atvirkščiai, suglodinimas yra mažesnis, suglodintos kreivės kintamumas didesnis, ir atspindintis daugiau ryšio tarp x ir y detalių.
Glodinimas naudojamas: • grafiniu būdu parodyti ryšį tarp x ir y, kai modelis nėra aiškus; • tiesinio ryšio diagnostikai; • modeliavimui ir prognozei (GAM)