190 likes | 451 Views
DUOMENŲ GAVYBOS TECHN O LOGIJOS. Paskaita 8. Logistin ė r egresija duomenų gavyboje. Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>. Regresijos uždaviniai. Tiriant duomenis dažnai reikia rasti atsak ymą į klausimus:
E N D
DUOMENŲ GAVYBOS TECHNOLOGIJOS Paskaita 8.Logistinė regresijaduomenų gavyboje Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>
Regresijos uždaviniai Tiriant duomenis dažnai reikia rasti atsakymą į klausimus: • ar tam tikri kintamieji įtakoja svarbius įmonei rodiklius ? • kaip įvertinti šią įtaką ? • kaip prognozuoti rodiklių pokyčius pakitus kintamųjų reikšmėms ?
Regresijos kintamieji Šie prognozuojami rodikliai vadinami priklausomais kintamaisiais, arba kintamaisiais-taikiniais (dependent, target variable), kuriuos įtakoja kiti kintamieji, vadinami nepriklausomais. Kuris kintamasis yra taikinys, o kurie kintamieji yra nepriklausomi, turi būti susitarta iš anksto.
Logistinės regresijos uždaviniai Logistinė regresija yra taikoma tuomet, kai priklausomas kintamasis (kintamasis-taikinys) įgyja tik dvi reikšmes, t.y., yra binarinis. Toliau laikysime, kad šis kintamasis įgyja tik dvi reikšmes: 0 arba 1, nes bet kurį dvireikšmį kintamąjį galima taip perkoduoti.
Logistinė regresija Tegul Y – priklausomas kintamasis, įgyjantis reikšmę 1 arba 0, x=(x1, x2, …, xn) – nepriklausomų kintamųjų vektorius. Logistinėje regresijoje nagrinėjama tikimybė, kad Y=1, jei nepriklausomų kintamųjų vektorius yra x, žymima:
Logistinės regresijos modelis Logistinės regresijos modelyje laikoma, kad: čia a0, a1, a2, , ..., an – regresijos lygties koeficientai.
Logistinės regresijos modelio prielaidos Galima išvesti: Santykis vadinamas galimybių santykiu. Šis santykis populiarus lažybose.
Regresijos modelio prielaidos Logistinė regresija tinka prie gana bendrų prielaidų: - nepriklausomi kintamieji nebūtinai turi būti normalieji, - nereikalaujama, kad regresijos paklaidos būtų normaliosios, - nenagrinėjamas priklausomo kintamojo homoskedastiškumas. Tačiau logistinės regresijos modelis gali netikti, jei kintamieji susiję tiesiškai.
Regresijos modelio parinkimas Tegul duotos priklausomų ir nepriklausomų kintamųjų stebėjimo matricos, i=1,...,N, j=1,...,n: Kiekvienam stebėjimų vektoriui galima apskaičiuoti tikimybės reikšmę:
Regresijos modelio parinkimas Logistinės lygties parametrai parenkami didžiausiojo tikėtinumo metodu maksimizuojant tikėtinumo funkciją pagal nežinomų lygties parametrų vektorių a=(a0, a1, a2, , ..., an):
Regresijos modelio parinkimas Statistinėse programinėse sistemose hipotezė apie logistinės regresijos koeficiento lygybę nuliui patikrinama pasinaudojus Voldo kriterijumi. Hipotezę apie logistinės regresijos tinkamumą (t.y., ar nors vienas lygties koeficientas reikšmingai skiriasi nuo nulio) patikrinama pasinaudojus kriterijumi. Taip pat galima ieškoti geriausio logistinio modelio.
Logistinės regresijos taikymas Gauti logistinės lygties koeficientai a gali būti pritaikyti tikimybei, kad Y=1, įvertinti: kainepriklausomų kintamųjų vektorius įgyja reikšmes:
Logistinės regresijostaikymas Kartais palyginami galimybių santykiai, apskaičiuoti prie įvairių nepriklausomų kintamųjų reikšmių
Regresijos lygties interpretavimas Iš galimybių santykio apibrėžimo galima išvesti, kad dydis parodo kiek kartų pasikeičia galimybių santykis, jei i-tasis intervalinis kintamasis pasikeičia vienetu . Jei i-tasis kintamasis binarinis, tai šis dydis parodo, kaip pasikeičia galimybių santykis, jei šis kintamasis vietoje 0 įgyja reikšmę 1.
Regresijos lygties interpretavimas Logistinė regresija gali būti taikoma klasifikavimui (prognozavimui). Jeigu kuriam nors x: tai galima daryti išvadą, Y=1, o jei z(x)<0, galima daryti išvadą, kad Y=0. Iš tikrųjų, nesunku patikrinti, kad pirmuoju atveju: , antruoju : .
Logistinės regresijos tinkamumas Logistinėje regresijoje prognozuojamos tikimybės ir pagal jas sprendžiama: Y=1 ar Y=0. Logistinėje regresijoje tiriama teisingų prognozių dalis stebėjimuose. Logistinės regresijos tinkamumas duomenims yra patikrinamas palyginant prognozes su realiais duomenimis, pateikiant klasifikacinę lentelę.
Klasifikacinė lentelė Klasifikacinėje lentelėje nurodomi teisingų ir neteisingų prognozių skaičiai
Logistinės regresijos tinkamumas Paprastai reikalaujama, kad kiekvienoje klasėje teisingų prognozių skaičius būtų ne mažiau 50%:
Logistinės regresijos tinkamumas Sudarant logistinę lygtį paprastai reikalaujama, kad atvejų Y=0 būtų ne mažiau 20% ir ne daugiau 80%. Tokiu atveju teisingų prognozių dalis: irgi parodo lygtis tinkamumą.