1 / 39

REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA. Tiesinė regresija. Pavyzdžiai Oro temperatūros ir parduodamų ledų kiekis Sistolinio kraujo spaudimo ir KMI priklausomybė I šlaidų ir pajamų priklausomyb ė G imstamumo ir šeimos pajamų priklausomyb ė. Tiesinė regresija ir koreliacija.

Download Presentation

REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. REGRESIJA TIESINĖ REGRESIJA LOGISTINĖ REGRESIJA

  2. Tiesinė regresija Pavyzdžiai • Oro temperatūros ir parduodamų ledų kiekis • SistoliniokraujospaudimoirKMIpriklausomybė • Išlaidų ir pajamų priklausomybė • Gimstamumoiršeimospajamųpriklausomybė

  3. Tiesinė regresija ir koreliacija • Tas pats koreliacijos koeficientas gali nusakyti skirtingą priklausomybę • Regresinė analizė leidžia prognozuoti vieną kintamąjį kito atžvilgiu • Koreliacija simetriška, regresiniai modeliai kintamųjų atžvilgiu asimetriški.

  4. Kintamieji • Kintamasis,kurioreikšmesnorimaprognozuoti, vadinamaspriklausomukintamuoju. • Kintamasis,pagalkurioreikšmesnorimaprognozuoti priklausomo kintamojo reikšmes,vadinamas nepriklausomukintamuoju.

  5. Tiesinės regresijos modelis y=a+bx+e y ir x kintamieji a ir b konstantos e atsitiktinė paklaida Tiesinės regresijos prielaidos: 1. e normaliai pasiskirstę atsitiktiniaidydžiai; 2. visų e vidurkiai lygūs nuliui; 3. visų e dispersijos lygios; 4. visi e nepriklausomi.

  6. Tiesinė regresija Prieš pradedant nustatoma KORELIACIJA

  7. Pavyzdys SPSS(Vaikų skaitymo kokybės priklausomybė nuo amžiaus)

  8. Pavyzdys SPSS(Vaikų skaitymo kokybės priklausomybė nuo amžiaus)

  9. Pavyzdys SPSS(Vaikų skaitymo kokybės priklausomybė nuo amžiaus)

  10. Pavyzdys SPSS(Vaikų skaitymo kokybės priklausomybė nuo amžiaus)

  11. Pavyzdys SPSS(Vaikų skaitymo kokybės priklausomybė nuo amžiaus) Determinacijos koeficientas (variacijos dalis, kurią paaiškina modelis) • Didesnis determinacijos koeficientas reiškia, kad stebėjimai yra labiau koncentruoti apie mažiausiųjų kvadratų metodu gautą tiesę. • Remiantis vien tik determinacijos koeficientu, dar negalima pasakyti, ar tiesinės regresijos modelis turimiems duomenims tinka. • Dažniausiai reikalaujama, kad r2≥0,25. • Jeigu r2<0,25, labai abejotina, ar tiesinės regresijos modelis tinka.

  12. Pavyzdys SPSS(Vaikų skaitymo kokybės priklausomybė nuo amžiaus) Tikrinama H0: b=0 HA: b≠0 y=a+bx

  13. Pavyzdys SPSS y(x)=3,032+0,542*amžius Jei nepriklausomas kintamasis padidėja vienu vienetu, priklausomas kintamasis padidės dydžiu, lygiu b įverčiui. Vaikų skaitymo kokybės balais priklausomybė nuo amžiaus.

  14. Tiesinė daugialypė regresija y=a+b1x1+b2x2+b3x3+ …+ bjxj+e Tikrinama H0: b=0 HA: bent vienasb≠0

  15. Tiesinė daugialypė regresija Prieš pradedant įvertinama: • Koreliacija • Multikolinearumas (priklausomų kintamųjų priklausomybė vienas nuo kito) • Ryšys paprastai žinomas iš praktikos • Ryšio stiprumui nustatyti skaičiuojame koreliacijos koeficientą • SPSS skaičiuojame VIFir tolerance. Kintamasis“perdaug multikolinearus”: • Jeigu VIF>4 • Jei tolerance artėja prie nulio

  16. Tiesinė daugialypė regresija

  17. Tiesinė daugialypė regresija

  18. Tiesinė daugialypė regresija

  19. Tiesinė daugialypė regresija

  20. Tiesinė daugialypė regresija y(x)=1,897+0,339*amžius+0,521*trumpalaikė atmintis Vaikų skaitymo kokybės balais priklausomybė nuo amžiaus ir trumpalaikės atminties

  21. Logistinė regresija(pagal V.Čekanavičių ir G.Murauskąhttp://stat.vadoveliai.lt/files/LogRegSPSS.pdf) Dvireikšmė (binary) logistinė regresija– toks modelis, kai vienam (priklausomam) dvireikšmiui kintamąjam daro įtaką vienas ar keletas (nepriklausomų, aiškinamųjų) kintamųjų.

  22. Pavyzdžiai Pagal paciento svorį ir kraujo tyrimus reikia nustatyti tikimybę susirgti diabetu.Pagal testų rezultatus siekiama nustatyti, ar reiks kompiuteriui garantinio remonto.Aiškinamasi, ar žinant rinkėjo pajamas ir amžių galima numatyti, balsuos jis už kandidatą ar nebalsuos.

  23. Kintamieji Priklausomas kintamasis Y– dvireikšmis (0 arba 1). Aiškinamieji kintamieji (X) – intervaliniai arba pseudokintamieji. Vienetai (nuliai) sudaro ne daugiau kaip 80 % Y stebėjimų.

  24. Modelis P(Y =1) = čia z(x) =a + b1x1 + ... + bk xk

  25. Kitas modelio užrašymas ln = z(x) čia z(x) = a + b1x1 + ... + bkxk

  26. Tikslai • Rasti parametrų (a, b , ..., bk) įverčius • Išsiaiškinti kaip gerai modelis tinka duomenims • Mokėti pritaikyti prognozėms

  27. Logistinės regresijos pavyzdys Norėdamas sužinoti, ar inkubacinės aplinkos temperatūra turi įtakos vėžliukų lyčiai, Ajovos universiteto profesoriusK. Koehler tyrė, kiek kokios lyties vėžliukų išsirito iš skirtingose temperatūrose laikytų vėžlio kiaušinių.

  28. Pavyzdys

  29. SPSS Logistinė regresija

  30. SPSS Logistinė regresija

  31. SPSS Logistinė regresija

  32. SPSS Logistinė regresija

  33. SPSS “output” Kintamojo kodai sutapo su modelio kodais. Taip bus ne visada. Modelio vienetu tampa didesnioji Y reikšmė. Geras klasifikavimas būtina, bet nepakankama sąlyga, kad tiktų modelis.

  34. Statistinės išvados atsižvelgiant įp reikšmę(Omnibus ir Wald)

  35. Modelio tinkamumo pagrindimas Omnibus test Gerai, jei p<0,05 Determinacijos koeficientai Goodness of fit test Gerai, jei p>0,05

  36. Pastaba

  37. Rezultatai Daugiklis Exp(2,211) = 9,125 rodo, kaip keičiasi galimybių santykis, temperatūrai pakilus vienu laipsniu. Galimybių santykį Exp(2,211) =9,125 interpretuojame taip: temperatūrai padidėjus vienu laipsniu, galimybė išsiristi vėžliukui padidėja 9,125 karto.

  38. Prognozavimo pavyzdys z(x) =a + b1x1 + ... + bk xk Kai temperatūra yra 27,50C, tai z(x) = -61,318 + 2,211*27,5 = -0,545 P(Y =1) = = =0,367Žinome, kad Y=1 atitinka teiginį išsiris vėžliukas. Todėl gautąjį rezultatą interpretuojame taip:esant 27,5 C0 temperatūrai, tikimybės išsiristi vėžliukui įvertis yra 0,367.Tikimybė išsiristi vėžliukei lygi 1- 0,367 = 0,633. Pastaba. Galimybių santykis buvo 9,125.Galimybė – nėra tikimybė, vienetą viršyti gali.

  39. Rodikliai • Išrikiuokime modelio tinkamumą atspindinčius rodiklius pagal svarbą: • Klasifikavimo lentelė. • χ2 kriterijus ir Hosmerio - Lemešou kriterijus. • Voldo kriterijus „įtartiniems“ aiškinamiesiems kintamiesiems rasti. • Determinacijos koeficientai.

More Related