380 likes | 834 Views
TIESINĖ REGRESIJA. Pavyzdžiai. Koks parduodamų ledų kiekis priklausomai nuo oro temperatūros? Kaip sistolinis kraujo spaudimas priklauso nuo KMI? Kaip išlaidos priklauso nuo pajamų? Ar gimstamumas priklauso nuo šeimos pajamų?
E N D
Pavyzdžiai • Koks parduodamų ledų kiekis priklausomai nuo oro temperatūros? • Kaip sistolinis kraujo spaudimas priklauso nuo KMI? • Kaip išlaidos priklauso nuo pajamų? • Ar gimstamumas priklauso nuo šeimos pajamų? • Išmatavome IQ pirmame kurse. Ar galima prognozuoti koks bus studento diplomo pažymių vidurkis? • Kokį vidutinį VS studento baigiamojo darbo balą galima prognozuoti, jei visas studijų balų vidurkis 8,7?
Tiesinė regresija ir koreliacija • Tas pats koreliacijos koeficientas gali nusakyti skirtingą priklausomybę (stipri, silpna, teigiama, neigiama) • Regresinė analizė leidžia prognozuoti vieną kintamąjį kito atžvilgiu • Koreliacija simetriška, regresiniai modeliai kintamųjų atžvilgiu asimetriški.
Skirtingos koreliacijos pavyzdys • Koreliacija tarp išlaidų reklamai ir pajamų yra 0,99 – stiprus teigiamas ryšys. • Ar naudinga firmai padidinti išlaidas reklamai? • Atrodytu, kad taip! • Tačiau tokį rezultatą gali duoti tiek įdėtas 1 Lt ir gautas kelių Lt pelnas, tiek kelių cnt. pelnas.
Kintamieji • Kintamasis, kurio reikšmes norima prognozuoti, vadinamas priklausomu kintamuoju (dependent variable). • Kintamasis, pagal kurio reikšmes norima prognozuoti priklausomo kintamojo reikšmes, vadinamas nepriklausomu kintamuoju (independent variable).
Paprastos tiesinės regresijos modelis y=a+bx+e y ir x kintamieji a ir b konstantos (a- laisvasis narys (angl. intercept), b-tiesės krypties koeficientas (angl. slope)) e atsitiktinė paklaida
Tiesinės regresijos žingsniai • Priklausomo ir nepriklausomo kintamojo nustatymas. • Jų ryšys (tiesinis – koreliacija). Daugialypėje regresijoje multikolinearumo įvertinimas tarp nepriklausomų kintamųjų. • Regresijos modelio vertinimas: • Determinacijos koeficientas. • ANOVA • Regresijos koeficientai, jų stat. reikšmingumas. • Paklaidų (residuals) analizė (išskirtys, paklaidų grafikai). • Galutinės lygties užrašymas, jos interpretacija.
Pavyzdys excel –Automobilio taisymo kainos priklausomybė nuo ridos Priklausomas kintamasis – remonto kaina Nepriklausomas kintamasis – rida Duomenys:
Lygtis ir hipotezė y=a+bx Tikrinama H0: b=0 HA: b≠0
Grafiškai pagal duomenis(Automobilio taisymo kainos priklausomybė nuo ridos)
Paklaidų analizė • Išskirtys (iš grafiko arba standartizuotų paklaidų) • Vidurkiai lygūs nuliui • Paklaidų skirstiniai normalūs • Dispersija tolygi (homoskedatiška) • Paklaidos atsitiktinės (aiškinimas youtube: http://www.youtube.com/watch?v=vM13uarpcuQ)
Galutinės lygties užrašymas(Automobilio taisymo kainos priklausomybė nuo ridos) Remonto kaina=-197,3+0,01*rida(km) Jei nepriklausomas kintamasis (rida) padidėja vienu vienetu (1 km), priklausomas kintamasis (remonto kaina) padidės dydžiu, lygiu b įverčiui (0,01 USD).
Grafiškai(Automobilio taisymo kainos priklausomybė nuo ridos)
Pavyzdžiai • Ar poegzamininis dirglumas priklauso nuo gauto pažymio, nuo egzamino trukmės ir nuo ko labiau? • Kaip antikvarinės keramikos kaina priklauso nuo jos senumo ir aukciono dalyvių skaičiaus? • Ar diplomo pažymių vidurkis ir komunikabilumas gali padėti prognozuoti būsimą atlyginimą?
Tiesinė daugialypė regresija y=a+b1x1+b2x2+b3x3+ …+ bjxj+e Tikrinama H0: b=0 HA: bent vienas b≠0
Tiesinė daugialypė regresija Prieš pradedant įvertinama: • Koreliacija • Multikolinearumas (nepriklausomų kintamųjų priklausomybė vienas nuo kito) • Ryšys paprastai žinomas iš praktikos • Ryšio stiprumui nustatyti skaičiuojame koreliacijos koeficientą • Stat. paketuose skaičiuojame VIF ir tolerance. Kintamasis “perdaug multikolinearus”: • Jeigu VIF>4 • Jei tolerance artėja prie nulio
Tiesinė daugialypė regresija kaina=85,71+0,01*rida(km)-92,74*išsilavinimas
Tiesinės regresijos (paprastos ir daugialypės) atlikimo reziumė • Priklausomo ir nepriklausomo kintamojo nustatymas. • Jų ryšys (tiesinis – koreliacija). Daugialypėje regresijoje multikolinearumo įvertinimas tarp nepriklausomų kintamųjų. • Regresijos modelio vertinimas: • Determinacijos koeficientas. • ANOVA • Regresijos koeficientai, jų stat. reikšmingumas. • Paklaidų (residuals) analizė (išskirtys, paklaidų grafikai). • Galutinės lygties užrašymas, jos interpretacija.
Tiesinės regresijos prielaidos • Stebėjimai: • Tiesinis ryšys • Normalūs skirstiniai (bet nebūtinai) • Dipersijos panašios • Paklaidos • e normaliai pasiskirstę atsitiktiniai dydžiai; • visų e vidurkiai lygūs nuliui; • visų e dispersijos tolygios (homoskedatiškos); • visi e nepriklausomi.
Pagrindinės priežastys, dėl kurių tiesinė regresija gali netikti • Kintamųjų priklausomybė nėra tiesinė • Stebėjimai heteroskedatiški • Paklaidų skirstiniai nėra normalieji • Paklaidos nėra atsitiktinės • Duomenyse yra išskirčių