250 likes | 770 Views
REGRESNÁ A KORELAČNÁ ANALÝZA. 3. časť. PREDNÁŠKA. korelačná analýza viacnásobná regresná a korelačná analýza multikolinearita. Korelačná analýza. overenie vypovedacej schopnosti kvantifikovaných regresných modelov ako celku, aj jeho častí.
E N D
REGRESNÁ A KORELAČNÁ ANALÝZA 3. časť
PREDNÁŠKA • korelačná analýza • viacnásobná regresná a korelačná analýza • multikolinearita
Korelačná analýza • overenie vypovedacej schopnosti kvantifikovaných regresných modelov ako celku, aj jeho častí. • výpočet číselných charakteristík, ktoré v koncentrovanej forme popisujú kvalitu vypočítaných modelov. • požadujeme od nich, aby sa pohybovali v pevne ohraničenom intervale, • v rámci intervalu rástli s vyššou silou závislosti
y y x x Korelačná analýza • porovnanie dvoch prípadov závislosti • Ktorá závislosť bude tesnejšia?
Korelačné štatistiky zisťujú či medzi premennými existuje korelácia aká je sila korelácie. Koreláciou nazývame vzájomný lineárny vzťah – závislosť dvoch premenných. Tento vzťah môže byť: priamy – s rastúcimi hodnotami jednej premennej rastú aj hodnoty druhej premennej nepriamy – s rastúcimi hodnotami jednej premennej klesajú hodnoty druhej premennej Ak medzi hodnotami dvoch premenných neexistuje ani priama ani nepriama lineárna závislosť, hovoríme, že sú nekorelované.
Korelačná analýza • miery tesnosti štatistickej závislosti: • kovariancia – cov yx • len pre lineárnu závislosť • koeficient korelácie ryx • len pre lineárnu závislosť • koeficient determinácie ryx2 • len pre lineárnu závislosť • index korelácie iyx • index determinácie iyx2
Kovariancia Miera, ktorá sa používa, aby sme potvrdili alebo vyvrátili existenciu lineárnej závislosti (korelácie). Kovariancia sa vypočíta ako: • cov xy = 0, medzi premennými nie je lineárny vzťah • cov xy > 0, medzi premennými je priamy lineárny vzťah • cov xy < 0, medzi premennými je nepriamy lineárny vzťah
Korelačná analýza • koeficient korelácie - ryx • hodnoty sa pohybujú v intervale: –1, 1 • ryx=-1 – silná negatívna závislosť • ryx=0 – bez závislosti • ryx=1 – silná pozitívna závislosť • koeficient determinácie ryx2 • hodnoty sa pohybujú v intervale: 0,1 • udáva % vysvetlenej variability závisle premennej
Index korelácie a index determinácie • V ZS Iyx odhadom z výberových údajov je iyx est Iyx = iyx. • princíp spočíva v rozklade variability závisle premennej Y Celková variabilita závisle premennej Variabilita nevysvetlená regresnou funkciou – reziduálna variabilita Variabilita závisle premennej vysvetlená regresnou funkciou
Index korelácie a index determinácie • index korelácie iyx • index determinácia iyx2
Index korelácie a index determinácie • index korelácie • hodnoty sa pohybujú v intervale od (0,1) • čím sa hodnota indexu blíži k 1, tým je tesnosť závislosti vyššia a opačne • index determinácie • nadobúda hodnoty z intervalu 0 až 1 • čím viac sa hodnota indexu blíži k 1, tým väčšia časť celkovej variability je modelom vysvetlená a naopak • ak sa index determinácie blíži k 0, tým menšia časť celkovej variability je vysvetlená modelom
Index determinácie • kritérium pri rozhodovaní o voľbe konkrétneho tvaru regresnej funkcie • volíme ten model,ktorý má vyšší koeficient determinácie (vyššie % vysvetlenej variability) • ak však majú regresné funkcie rôzny počet parametrov, je potrebné upraviť index determinácie do korigovanej podoby v tvare: • výrazný rozdiel medzi i2 a i2adj. indikuje, že do modelu bolo zahrnutých príliš veľa premenných
Viacnásobná lineárna regresia • Model s dvoma nezávislými premennými • rozšírime najskôr model jednoduchej regresie o ďalšiu vysvetľujúcu premennú • model lineárnej regresie s dvoma vysvetľujúcimi premennými Y = 0 + 1X1 + 2X2 + e kde Y je závislá premenná X1 a X2 sú nezávislé, vysvetľujúce premenné e je náhodná zložka 0, 1, a 2 sú neznáme parametre modelu
Viacnásobná lineárna regresia • Všeobecný model viacnásobnej regresie • modeluje závislosť vysvetľovanej premennej ako výsledok jej lineárnej závislosti od k nezávislých premenných • Y = 0 + 1X1 + … + kXk + e • model vyjadruje vzťah medzi k premennými • na jeho grafickú prezentáciu by sme potrebovali k-rozmerný priestor • model má p=k+1 parametrov • k - regresných koeficientov • lokujúcu konštantu 0
Viacnásobná lineárna regresia Predpokladajme, že medzi závisle premennou Y a vysvetľujúcimi (nezávisle) premennými Xi ,i = 1, 2, ..., k je lineárna závislosť popísaná rovnicou: ktorú odhadneme rovnicou
Koeficienty b0, b1, ..., bk, ktoré sú odhadmi parametrov b0, b1, ..., bk musia spĺňať požiadavku metódy najmenších štvorcov keďže predpokladáme konkrétny tvar regresnej funkcie môžeme ho dosadiť do predchádzajúceho vzťahu a hľadať minimum tejto funkcie tj.: minimum funkcie určíme podobne ako pre prípad jednoduchej regresnej závislosti pomocou parciálnych derivácií funkcie.
Riešením tejto sústavy rovníc vypočítame hľadané koeficientylineárnej regresnej rovnice. Odhad parametrov je možné vypočítať aj z maticovej rovnice Kvalitu regresného modelu hodnotíme podobne ako pre jednoduchú lineárnu závislosť, ktorú sme popísali v predchádzajúcej časti
Multikolinearita • jav, keď medzi vysvetľujúcimi premennými existuje významná silná korelácia - závislosť, čo predstavuje prebytočnú informáciu v modeloch • príklad • v grafe X1 a X2 vždy sledujú takmer priamku • X1 = X2, čiže jedna premenná poskytuje toľko informácií ako druhá • jedna premenná je zbytočná • prejav multikolinearity • ani jedna premenná nebude významná, ak budú do modelu zaradené obidve, ale obidve budú významné, ak budú do modelu zaradené separátne • ak X1 = X2, potom Y = X1 + X2 ale platí aj Y = 2 X1 alebo Y = -X1 + 3 X2 • aký je skutočný vzťah medzi premennými?
Multikolinearita • dôsledky multikolinearity • strata - prekrývanie významných vysvetľujúcich premenných • nestabilita modelu • nestabilné odhady parametrov • vysoká variabilita parametrov • vysoká variabilita odhadu hodnôt premennej Y • nízka presnosť modelu • nástroje diagnostiky • korelačná matica nezávislých premenných • obsahuje koeficienty korelácie všetkých dvojíc premenných • špeciálne miery kolinearity
Multikolinearita • Korelačná matica • je matica koeficientov korelácie pre všetky dvojice nezávislých premenných • je symetrická, pretože koeficient korelácie je symetrický • na diagonále má jednotky • indikuje významnú multikolinearitu, ak pre niektorý koeficient platí: • |R| > 0,8 • p - hodnota <