1 / 18

Paskaita 7. Tiesin ė r egresija duomenų gavyboje

DUOMENŲ GAVYBOS TECHN O LOGIJOS. Paskaita 7. Tiesin ė r egresija duomenų gavyboje. Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>. Regresijos uždaviniai. Tiriant duomenis dažnai reikia rasti atsak ymą į klausimus:

iman
Download Presentation

Paskaita 7. Tiesin ė r egresija duomenų gavyboje

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DUOMENŲ GAVYBOS TECHNOLOGIJOS Paskaita 7.Tiesinė regresijaduomenų gavyboje Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>

  2. Regresijos uždaviniai Tiriant duomenis dažnai reikia rasti atsakymą į klausimus: • ar tam tikri kintamieji įtakoja svarbius įmonei rodiklius; • kaip įvertinti šią įtaką; • kaip prognozuoti rodiklių pokyčius pakitus kintamųjų reikšmėms ?

  3. Regresijos kintamieji Šie prognozuojami rodikliai vadinami priklausomais kintamaisiais, arba kintamaisiais-taikiniais (dependent, target variable), kuriuos įtakoja nepriklausomi kintamieji. Kuris kintamasis yra taikinys, o kurie kintamieji yra nepriklausomi, turi būti susitarta iš anksto.

  4. Tiesinė daugialypė regresija Nagrinėsime tiesinę daugialypę regresiją, t.y. matematinę priklausomybę, kai kintamasis-taikinys priklauso tiesiškai nuo kelių (nepriklausomų) kintamųjų. Daugialypė regresija taikoma kelių kintamųjų įtakai tirti, kai priklausomi ir nepriklausomi kintamieji kinta intervalų skalėje.

  5. Tiesinės regresijos modelis čia y – priklausomas kintamasis, x=(x1, x2, …., xn) – nepriklausomų kintamųjų vektorius, a0, a1, a2, , ..., an – regresijos lygties koeficientai; e - modelio paklaidą, laikoma atsitiktine.

  6. Regresijos modelio prielaidos • skirtingų stebėjimų paklaidos yra nepriklausomos; • modelio paklaidos e yra normaliai pasiskirstę atsitiktiniai dydžiai, N(0, σ2); • jokio nepriklausomo kintamojo negalima išreikšti tiesiškai per likusius (priešingu atveju kintamieji nebūtų nepriklausomi !).

  7. Regresijos modelio parinkimas Pasirinkus regresijos modelį, reikia: • įvertinti nežinomus modelio parametrus; • patikrinti, ar pasirinktasis modelis suderinamas su duomenimis; • panaudoti regresijos modelį prognozėms.

  8. Regresijos duomenys Tarkime, duota daugiamatė nepriklausomų kintamųjų stebėjimų matrica ir priklausomo kintamojo stebėjimų vektorius: čia n – nepriklausomų kintamųjų skaičius, N – stebėjimų skaičius.

  9. Tiesinės regresijos modelis Jei tiesinės regresijos koeficientai žinomi, galima apskaičiuoti stebėjimų paklaidas Regresijos koeficientai dažniausiai parenkami , siekiant, kad kvadratinė stebėjimų paklaida būtų mažiausia:

  10. Regresijoskoeficientų radimas Tai galima daryti tokiu būdu. Pirmiausia sucentruojami stebėjimų matrica ir vektorius: toliau apskaičiuojama kovariacijų matrica ir kovariacijų vektorius, iš kurių randami centruotų duomenų regresijos koeficientai A: , A=(a1, a2, ..., an)

  11. Regresijos lygties interpretavimas Jei koeficientas prie kurio-nors kintamojo lygus nuliui, tai galima tvirtinti, kad šis kintamasis neįtakoja kintamojo taikinio ir jį galima iš lygties pašalinti. Hipotezė apie lygties koeficientų lygybę nuliui yra tikrinama remiantis Stjudento-kriterijumi. Statistinėse programinėse sistemose paprastai nurodoma, kurie lygties koeficientai gali būti laikomi lygiais nuliui.

  12. Regresijos lygties interpretavimas Jei koeficientas pasirodo esąs reikšmingas, ir teigiamo ženklo, tai jis veikia priklausomą kintamąjį didinančiai, o jei jis neigiamas – tai jo didinimas priklausomą kintamąjį mažina. Be to, lygties koeficientas parodo, keliais vienetais pasikeičia prognozuojama priklausomo reikšmė, jei atitinkamo nepriklausomo kintamojo reikšmė padidėja vienetu.

  13. Prognozavimas ir regresija Galima taip pat tikrinti hipotezę apie visos lygties tinkamumą, t.y., ar nors vienas koeficientas reikšmingai skiriasi nuo nulio, apskaičiuojant determinacijos koeficientą ir tikrinant statistinę hipotezę apie jo lygybę nuliui pagal Fišerio kiriterijų Statistinėse programinėse sistemose paprastai pateikiama informacija apie šią hipotezę.

  14. Prognozavimas ir regresija Daugialypės tiesinės regresijos lygtį galima taikyti prognozavimui. Tam pakanka į lygtį įstatyti nepriklausomų kintamųjų reikšmes ir apslaičiuoti priklausomo kintamojo prognozę. Tokiu būdu gauta prognozė pasižymi dispersiją, kuri sparčiai didėja, jei nepriklausomujų kintamųjų reikšmės pradeda skirtis nuo jų stebėjimų intervalo.

  15. Geriausios regresijos lygties nustatymas Su tiesinės regresijos modeliu glaudžiai susijusi “geriausio tiesinio modelio“ parinkimo problema. Ši problema sprendžiama pažingsninės regresijos būdu (step-wise regression). Gali būti tiesioginė (forward) ir atbulinė (backward) pažingsninės regresijos.

  16. Geriausios regresijos lygties nustatymas Pažingsninėje regresijoje yra parenkama mažiausia nepriklausomų kintamųjų aibė, kurią atitinkanti regresijos lygtis statistiškai mažai skiriasi nuo tiesinės regresijos visų nepriklausomų kintamųjų atžvilgiu. Paprastai kintamieji įtraukiami (forward) arba pašalinami iš lygties po vieną (backward).

  17. Regresijos lygties parinkimas Patartina palyginti tiesioginės ir atbulinės pažingsninės regresijos lygtis. Jei jos stipriai skiriasi, gali būti, kad tiesinė regresija netinka pasirinktiems duomenims tirti. Kartais regresijos lygtis geriau tinka duomenims, kai padaromos kokios-nors netiesinės kintamųjų transformacijos (logaritmavimas, kėlimas laipsniu ir pan.).

  18. Regresijos lygties parinkimas Galima sudaryti kvadratinės (ar dar aukštesnės eilės) regresijos lygtį. Tam pakanka nepriklausomų kintamųjų sąrašą papildyti atitinkamais nepriklausomų kintamųjų laipsniais ir sandaugomis.

More Related