270 likes | 663 Views
LOGISTINĖ REGRESIJA. Logistinė regresija (pagal V.Čekanavičių ir G.Murauską http://stat.vadoveliai.lt/files/LogRegSPSS.pdf).
E N D
Logistinė regresija(pagal V.Čekanavičių ir G.Murauskąhttp://stat.vadoveliai.lt/files/LogRegSPSS.pdf) • Dvireikšmė (binary) logistinė regresija– toks modelis, kai vienam (priklausomam) dvireikšmiui kintamajam daro įtaką vienas ar keletas (nepriklausomų, aiškinamųjų) kintamųjų.
Pavyzdžiai Pagal paciento svorį ir kraujo tyrimus reikia nustatyti tikimybę susirgti diabetu.Pagal testų rezultatus siekiama nustatyti, ar reiks kompiuteriui garantinio remonto.Aiškinamasi, ar žinant rinkėjo pajamas ir amžių galima numatyti, balsuos jis už kandidatą ar nebalsuos.
Kintamieji Priklausomas kintamasis Y – dvinaris / dvireikšmis (0 arba 1). Aiškinamieji kintamieji (X) – intervaliniai arba pseudokintamieji. Vienetai (nuliai) sudaro ne daugiau kaip 80 % Y stebėjimų.
Modelis P(Y =1) = čia z(x) = a + b1x1 + ... + bk xk
Kitas modelio užrašymas ln = z(x) čia z(x) = a + b1x1 + ... + bkxk
Tikslai • Rasti parametrų (a, b , ..., bk) įverčius • Išsiaiškinti kaip gerai modelis tinka duomenims • Mokėti pritaikyti prognozėms
Pastaba: Prieš pradedant logistinę regresiją, verta atlikti atskirų kintamųjų paprastų dažnių skaičiavimus (kxn lentelės), ar matyti skirtumai tarp grupių/kategorijų.
Logistinės regresijos pavyzdys Turime 24 studentų įskaitos rezultatų duomenis. • Ar jie priklausė nuo to, ar studentas ko nors klausė dėstytojo ar ne? • Ar jie priklausė nuo laiko (val.), kiek studentas dirbo praktiškai?
R Logistinė regresija • Per “Reorder levels” (Meniu “Manage variables in active data set”) patikrinkite, kuri kategorija eina pirma, kuri antra (labai svarbu priklausomam kintamajam). Rezultatai bus duodami paskesnei kategorijai (jei koduota 0 ir 1, tai atsakymai 1). Todėl jei reikia, pakeiskite lygius. • Paskaičiuokite paprastus dažnius.
R Logistinė regresija Modeliui suteikiame pavadinimą Įkeliame priklausomą kintamąjį Įkeliame nepriklausomus kintamuosius
R Logistinė regresija Įvertinamas koeficientų statistinis reikšmingumas Modelis gerai tinka duomenims, jei nuokrypio ir lls santykis <1; neblogai, jei nedaug viršija 1 (pvz. 1,2). Jei >1, modelis nelabai tinka duomenims. Čia 0,885.
R Logistinė regresija Modelio tinkamumą atspindintys rodikliai: • χ2 kriterijus (H0: b=0; HA: bent vienas b≠0) • didžiausio tikėtinumo funkcija (Likelihood ratio: (H0: b=0; HA: b≠0)). • Voldo kriterijus (Stjudento kriterijaus tiesinėje regresijoje analogas (H0: b=0; HA: b≠0)).
R Logistinė regresija Suteiktas modelio pavadinimas (13 skaidr.) χ2skaičiavimo komanda χ2srezultatas (p reikšmė)
R Logistinė regresija Didžiausio tikėtinumo funkcija Voldo kriterijus
R Logistinė regresija Galimybės ir jų PI
R Logistinė regresija • Padarome kitą modelį, pašalinę kintamajį “ar studentas ko nors klausė dėstytojo”
R Logistinė regresija Palyginame abu modelius – ar be vieno kintamojo geresnis?
R Logistinė regresija Antrojo modelio skirtumas nuo pirmojo
R Logistinė regresija • Palyginame abu modelius – ar be vieno kintamojo geresnis?
Kiti statistiniai paketai • Klasifikavimo lentelė. • χ2 kriterijus ir Hosmerio - Lemešou kriterijus. • Voldo kriterijus „įtartiniems“ aiškinamiesiems kintamiesiems rasti. • Determinacijos koeficientai.
Pagrindiniai regresinės analizės etapai “Laiptinė” regresija (“forward”): • Visų galimų nepriklausomų kintamųjų sąrašas. • Nominaliems ir ordinaliems sudaromos dažnių lentelės, apskaičiuojant p reikšmę iš χ2. • Skaitmeniniams atliekamas t testas arba paprasta logistinė regresija, įvertinant p reikšmę. • Išrenkami visi kintamieji, kurių p reikšmė neviršijo 0,25. Iš jų išrenkamas kurio p mažiausia, tai būtų pirmas modelio nepriklausomas kintamasis. • Po to paeiliui pridedami kiti, vis įvertinant regresijos rezultatus, atmetant tuos , kurie nėra statistiškai reikšmingi. “Laiptinė” regresija (“backward”): • Galimas ir atgalinis būdas – sudedami visi kintamieji, ir nuosekliai atmetinėjami.