490 likes | 1.05k Views
REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA. Tiesinė regresija. Pavyzdžiai Oro temperatūros ir parduodamų ledų kiekis Sistolinio kraujo spaudimo ir KMI priklausomybė I šlaidų ir pajamų priklausomyb ė G imstamumo ir šeimos pajamų priklausomyb ė. Tiesinė regresija ir koreliacija.
E N D
REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA
Tiesinė regresija Pavyzdžiai • Oro temperatūros ir parduodamų ledų kiekis • SistoliniokraujospaudimoirKMIpriklausomybė • Išlaidų ir pajamų priklausomybė • Gimstamumoiršeimospajamųpriklausomybė
Tiesinė regresija ir koreliacija • Tas pats koreliacijos koeficientas gali nusakyti skirtingą priklausomybę • Regresinė analizė leidžia prognozuoti vieną kintamąjį kito atžvilgiu • Koreliacija simetriška, regresiniai modeliai kintamųjų atžvilgiu asimetriški.
Kintamieji • Kintamasis,kurioreikšmesnorimaprognozuoti, vadinamaspriklausomukintamuoju. • Kintamasis,pagalkurioreikšmesnorimaprognozuoti priklausomo kintamojo reikšmes,vadinamas nepriklausomukintamuoju.
Tiesinės regresijos modelis y=a+bx+e y ir x kintamieji a ir b konstantos e atsitiktinė paklaida Tiesinės regresijos prielaidos: 1. e normaliai pasiskirstę atsitiktiniaidydžiai; 2. visų e vidurkiai lygūs nuliui; 3. visų e dispersijos lygios; 4. visi e nepriklausomi.
Tiesinė regresija Prieš pradedant nustatoma KORELIACIJA
Pavyzdys SPSS(Vaikų skaitymo kokybės priklausomybė nuo amžiaus)
Pavyzdys SPSS(Vaikų skaitymo kokybės priklausomybė nuo amžiaus)
Pavyzdys SPSS(Vaikų skaitymo kokybės priklausomybė nuo amžiaus)
Pavyzdys SPSS(Vaikų skaitymo kokybės priklausomybė nuo amžiaus)
Pavyzdys SPSS(Vaikų skaitymo kokybės priklausomybė nuo amžiaus) Determinacijos koeficientas (variacijos dalis, kurią paaiškina modelis) • Didesnis determinacijos koeficientas reiškia, kad stebėjimai yra labiau koncentruoti apie mažiausiųjų kvadratų metodu gautą tiesę. • Remiantis vien tik determinacijos koeficientu, dar negalima pasakyti, ar tiesinės regresijos modelis turimiems duomenims tinka. • Dažniausiai reikalaujama, kad r2≥0,25. • Jeigu r2<0,25, labai abejotina, ar tiesinės regresijos modelis tinka.
Pavyzdys SPSS(Vaikų skaitymo kokybės priklausomybė nuo amžiaus) Tikrinama H0: b=0 HA: b≠0 y=a+bx
Pavyzdys SPSS y(x)=3,032+0,542*amžius Jei nepriklausomas kintamasis padidėja vienu vienetu, priklausomas kintamasis padidės dydžiu, lygiu b įverčiui. Vaikų skaitymo kokybės balais priklausomybė nuo amžiaus.
Tiesinė daugialypė regresija y=a+b1x1+b2x2+b3x3+ …+ bjxj+e Tikrinama H0: b=0 HA: bent vienasb≠0
Tiesinė daugialypė regresija Prieš pradedant įvertinama: • Koreliacija • Multikolinearumas (priklausomų kintamųjų priklausomybė vienas nuo kito) • Ryšys paprastai žinomas iš praktikos • Ryšio stiprumui nustatyti skaičiuojame koreliacijos koeficientą • SPSS skaičiuojame VIFir tolerance. Kintamasis“perdaug multikolinearus”: • Jeigu VIF>4 • Jei tolerance artėja prie nulio
Tiesinė daugialypė regresija y(x)=1,897+0,339*amžius+0,521*trumpalaikė atmintis Vaikų skaitymo kokybės balais priklausomybė nuo amžiaus ir trumpalaikės atminties
Logistinė regresija(pagal V.Čekanavičių ir G.Murauskąhttp://stat.vadoveliai.lt/files/LogRegSPSS.pdf) Dvireikšmė (binary) logistinė regresija– toks modelis, kai vienam (priklausomam) dvireikšmiui kintamąjam daro įtaką vienas ar keletas (nepriklausomų, aiškinamųjų) kintamųjų.
Pavyzdžiai Pagal paciento svorį ir kraujo tyrimus reikia nustatyti tikimybę susirgti diabetu.Pagal testų rezultatus siekiama nustatyti, ar reiks kompiuteriui garantinio remonto.Aiškinamasi, ar žinant rinkėjo pajamas ir amžių galima numatyti, balsuos jis už kandidatą ar nebalsuos.
Kintamieji Priklausomas kintamasis Y– dvireikšmis (0 arba 1). Aiškinamieji kintamieji (X) – intervaliniai arba pseudokintamieji. Vienetai (nuliai) sudaro ne daugiau kaip 80 % Y stebėjimų.
Modelis P(Y =1) = čia z(x) =a + b1x1 + ... + bk xk
Kitas modelio užrašymas ln = z(x) čia z(x) = a + b1x1 + ... + bkxk
Tikslai • Rasti parametrų (a, b , ..., bk) įverčius • Išsiaiškinti kaip gerai modelis tinka duomenims • Mokėti pritaikyti prognozėms
Logistinės regresijos pavyzdys Norėdamas sužinoti, ar inkubacinės aplinkos temperatūra turi įtakos vėžliukų lyčiai, Ajovos universiteto profesoriusK. Koehler tyrė, kiek kokios lyties vėžliukų išsirito iš skirtingose temperatūrose laikytų vėžlio kiaušinių.
SPSS “output” Kintamojo kodai sutapo su modelio kodais. Taip bus ne visada. Modelio vienetu tampa didesnioji Y reikšmė. Geras klasifikavimas būtina, bet nepakankama sąlyga, kad tiktų modelis.
Statistinės išvados atsižvelgiant įp reikšmę(Omnibus ir Wald)
Modelio tinkamumo pagrindimas Omnibus test Gerai, jei p<0,05 Determinacijos koeficientai Goodness of fit test Gerai, jei p>0,05
Rezultatai Daugiklis Exp(2,211) = 9,125 rodo, kaip keičiasi galimybių santykis, temperatūrai pakilus vienu laipsniu. Galimybių santykį Exp(2,211) =9,125 interpretuojame taip: temperatūrai padidėjus vienu laipsniu, galimybė išsiristi vėžliukui padidėja 9,125 karto.
Prognozavimo pavyzdys z(x) =a + b1x1 + ... + bk xk Kai temperatūra yra 27,50C, tai z(x) = -61,318 + 2,211*27,5 = -0,545 P(Y =1) = = =0,367Žinome, kad Y=1 atitinka teiginį išsiris vėžliukas. Todėl gautąjį rezultatą interpretuojame taip:esant 27,5 C0 temperatūrai, tikimybės išsiristi vėžliukui įvertis yra 0,367.Tikimybė išsiristi vėžliukei lygi 1- 0,367 = 0,633. Pastaba. Galimybių santykis buvo 9,125.Galimybė – nėra tikimybė, vienetą viršyti gali.
Rodikliai • Išrikiuokime modelio tinkamumą atspindinčius rodiklius pagal svarbą: • Klasifikavimo lentelė. • χ2 kriterijus ir Hosmerio - Lemešou kriterijus. • Voldo kriterijus „įtartiniems“ aiškinamiesiems kintamiesiems rasti. • Determinacijos koeficientai.