460 likes | 810 Views
REGRESNÁ A KORELAČNÁ ANALÝZA. PREDNÁŠKA 8. analýza závislostí medzi kvantitatívnymi znakmi regresná analýza jednoduchá lineárna závislosť regresný model MNŠ jednoduchá nelineárna závislosť viacnásobná lineárna závislosť korelačná analýza miery tesnosti závislosti. Závislá premenná.
E N D
PREDNÁŠKA 8 • analýza závislostí medzi kvantitatívnymi znakmi • regresná analýza • jednoduchá lineárna závislosť • regresný model • MNŠ • jednoduchá nelineárna závislosť • viacnásobná lineárna závislosť • korelačná analýza • miery tesnosti závislosti
Závislápremenná kvantitatívna RaKA Nezávislápremenná kvantitatívna kvantitatívna kvantitatívna Úvod
cm kg Úvod • Štatistická analýza závislostí • skúmanie vzájomných vzťahov a závislostí medzi jednotlivými hromadnými javmi • hromadné javy neexistujú oddelene • každý jav je výsledkom spolupôsobenia iných javov • charakter a významnosť pôsobenia môžu byť rôzne • predmetom skúmania sú príčinné (kauzálne) závislosti • jeden jav alebo skupina javov (príčina) vyvoláva iný jav alebo skupinu javov (účinok)
Úvod • Typy závislostí • príčinné • ak jeden jav alebo skupina javov (príčina) vyvoláva iný jav alebo skupinu javov (účinok) • jednostranné - účinok nepôsobí spätne na príčinu • obojstranné- účinok a príčina na seba trvalé vzájomne pôsobia • združené • nie sú to príčinné závislosti • určitej hodnote, obmene jedného javu spravidla zodpovedá určitá hodnota, obmena iného javu • dĺžka ramien – výška jednotlivca • zdanlivé • vzťah medzi určitými javmi nie je dôsledkom ich vzájomnej príčinnej súvislosti • je výsledkom pôsobenia ďalšieho javu alebo javov • napr. výdavky na ovocie a výdavky na obuv
Opakom štatistickej závislosti je funkčná závislosť Y = f(X1 X2…...Xk ,Bo , B1 ,…., Bp) kedy je závisle premenná veličina jednoznačne určená funkčným vzťahom, príklady z fyziky, chémie - takýto druh vzťahov nie je predmetom štatistického skúmania
1 2 vzťah možno popísať polynómom vzťah možno popísať priamkou 4 3 medzi premennýmineexistuje jasný vzťah vzťah možno popísať krivkou Nástroje analýzy závislostí • Grafické - Bodový graf (XY graf) • Úvodné preskúmanie vzťahov medzi premennými pomocou bodového grafu Presnú odpoveď poskytne výpočet štatistík RaKA
Bodový graf Bodový graf slúži na: • úvodné preskúmanie vzťahov medzi dvomi premennými • určenie extrémnych alebo typických hodnôt • určenie možného tvaru závislosti • porovnanie a prezentáciu výsledkov analýzy Bodové grafy nám vždy slúžia na získanie základnej predstavy. Každý analytik však v grafe môže vidieť niečo iné. Presné potvrdenie našich domnienok nám poskytnú až exaktné štatistické nástroje.
A B Nástroje analýzy závislostí • Štatistické – regresná a korelačná analýza • sa zaoberá kvantifikáciou závislostí medzi kvantitatívnymi znakmi • rieši dve úlohy • regresnú úlohu • popísanie priebehu tejto závislosti • odhad funkčného vzťahu - matematickej funkcie podľa, ktorej sa mení závisle premenná pri zmenách nezávisle premennej/premenných, t.j. výber funkcie a odhad jej parametrov • korelačnú úlohu • popísanie tesnosti závislostí • výpočet charakteristík určujúcich do akej miery uvažované nezávislé premenné vysvetľujú variabilitu závisle premennej
Regresná analýza • umožňuje popísať vzťah medzi dvoma alebo viacerými premennými • cieľ regresnej analýzy • odhadnúť funkčný vzťah medzi premennými • odhadnúť parametre regresnej funkcie • typy premenných v regresnej analýze • závislé premenné • označenie:Y • sú v centre pozornosti, pretože ich variabilitu sa snažíme vysvetliť • tzv. vysvetľované premenné • nezávislé premenné • označenie:X • sú premenné, ktoré používame na vysvetlenie zmien v hodnotách závislej premennej • predpokladáme, že ich hodnoty sa nemenia • tzv. vysvetľujúce premenné
Regresná analýza • typy regresnej analýzy podľa počtu premenných • jednoduchá regresia • ak popisujeme závislosť jednej kvantitatívnej závislej premennej od jednej kvantitatívnej nezávisle premennej • viacnásobná regresia • ak popisujeme závislosť jednej kvantitatívnej závislej premennej od viacerých kvantitatívnych nezávislých premenných • typy regresnej analýzy podľa typu závislosti • lineárna regresia • ak popisujeme závislosť premenných pomocou priamky • nelineárna regresia • ak popisujeme závislosť premenných pomocou inej krivky ako priamka
0 + 1X Závisle premenná 1 jednotiek 1 jednotka 0 Nezávisle premenná Model jednoduchej lineárnej regresie • Popis závislosti v ZS • rovnica modelu Y = 0 + 1X + e • kde Y je závisle premenná X je nezávisle premenná 0 je parameter modelu tzv. lokujúca konštanta, ktorá vyjadruje akú hodnotu nadobudne premenná Y, ak premenná X bude mať hodnotu 0 1 je parameter modelu tzv. regresný koeficient, ktorý vyjadruje sklon regresnej priamky.Udáva o koľko jednotiek sa v priemere zmení Y, ak sa X zmení o 1 jednotku, 1> pozitívna závislosť, 1< negatívna závislosť
Výberový súbor Základný súbor závisle premenná závislá premenná Y´ = b0 + b1X nezávisle premenná nezávislá premenná Y = 0 + 1X + Y = est (Y)b0 = est (0) b1 = est (1) Y = 0 + 1X Model jednoduchej lineárnej regresie • Odhad modelu
2 Závisle premenná Y – Y´ ( Y – Y´ ) = min Y´ = b0 + b1X Nezávisle premenná Model jednoduchej lineárnej regresie • Metóda najmenších štvorcov (MNŠ) • metóda odhadu parametrov regresnej modelu • odhad MNŠ minimalizuje sumu štvorcov reziduálnych odchýlok = rozdielov medzi skutočnou hodnotou a odhadnutou priamkou • priamka odhadnutá MNŠ je ku všetkým skutočným hodnotám tak blízko ako sa len dá
Metóda najmenších štvorcov • Predpoklady MNŠ • priemery Y pre jednotlivé hodnoty X možno spojiť priamkou • rozptyl premennej Y je konštantný - s2 pre všetky hodnoty X • premenná Y má normálne rozdelenie pre všetky hodnoty X • pozorovania Y sú navzájom nezávislé • pozorovania X sú nenáhodné, navzájom nezávislé a bez chýb v meraní
Metóda najmenších štvorcov • Možno dokázať, že koeficienty bo , b1 , …, bpurčené MNŠ sú “najlepšie odhady” parametrov b0 , b1 , …, bp ak súčasne o náhodných chybách platí: E (ej ) = 0, D (ej ) = E (ej2 ) = 2 , E(ej1 , ej2 ) = 0 , pre každéj1 j2 • slovne: • od náhodných chýb požadujeme nulovú strednú hodnotu, konštantný rozptyl a vzájomnú nezávislosť náhodných chýb
Vlastnosti MNŠ • súčet štvorcov reziduálnych odchýlok je minimálny • súčet reziduálnych odchýlok je nulový • regresná funkcia prechádza bodom o súradniciach x a y
Použitie MNŠ • MNŠ je možné použiť k odhadu parametrov regresnej funkcie, ak: • je regresná funkcia lineárna • resp. lineárna v parametroch • je možné regresnú funkciu pretransformovať na lineárnu v parametroch
Nelineárna regresná a korelačná analýza • v praxi nielen lineárne funkcie, ale veľmi často má priebeh nelineárny priebeh • nelineárne funkcie je možné použiť s dvoma alebo viacerými parametrami • niektoré nelineárne regresné funkcie je možné vhodnou transformáciou upraviť na lineárne v parametroch • k odhadu ich parametrov je potom možné použiť metódou najmenších štvorcov.
Nelineárna regresná a korelačná analýza • niektoré typy nelineárnych funkcií hyperbola logaritmická funkcia parabola exponenciálna funkcia mocninová funkcia
Funkcia HYPERBOLY substitúcia
LOGARITMICKÁ funkcia substitúcia
EXPONENCIÁLNA funkcia logaritmická transformácia • VÝSTUP: • ln b0 b0=EXP(lnb0) • ln b1 b0=EXP(lnb0) • VSTUP: • ln y • x
MOCNINOVÁ funkcia logaritmická transformácia • VÝSTUP: • ln b0 b0=EXP(lnb0) • b1 • VSTUP: • ln y • ln x
Korelačná analýza • overenie vypovedacej schopnosti kvantifikovaných regresných modelov ako celku, aj jeho častí. • výpočet číselných charakteristík, ktoré v koncentrovanej forme popisujú kvalitu vypočítaných modelov. • požadujeme od nich, aby sa pohybovali v pevne ohraničenom intervale, • v rámci intervalu rástli s vyššou silou závislosti
y y x x Korelačná analýza • porovnanie dvoch prípadov závislosti • Ktorá závislosť bude tesnejšia?
Korelačná analýza • miery tesnosti štatistickej závislosti: • koeficient korelácie ryx • len pre lineárnu závislosť • koeficient determinácie ryx2 • len pre lineárnu závislosť • index korelácie iyx • index determinácie iyx2
Korelačná analýza • Index korelácie a index determinácie • princíp spočíva v rozklade variability závisle premennej Y Celková variabilita závisle premennej Variabilita nevysvetlená regresnou funkciou – reziduálna variabilita Variabilita závisle premennej vysvetlená regresnou funkciou
Korelačná analýza • index korelácie iyx • index determinácia iyx2
Korelačná analýza • index korelácie • hodnoty sa pohybujú v intervale od (0,1) • čím sa hodnota indexu blíži k 1, tým je tesnosť závislosti vyššia a opačne • index determinácie • nadobúda hodnoty z intervalu 0 až 1 • čím viac sa hodnota indexu blíži k 1, tým väčšia časť celkovej variability je modelom vysvetlená a naopak • ak sa index determinácie blíži k 0, tým menšia časť celkovej variability je vysvetlená modelom
Korelačná analýza • index determinácie • kritérium pri rozhodovaní o voľbe konkrétneho tvaru regresnej funkcie • volíme ten model,ktorý má vyšší koeficient determinácie (vyššie % vysvetlenej variability) • ak však majú regresné funkcie rôzny počet parametrov, je potrebné upraviť index determinácie do korigovanej podoby v tvare: • výrazný rozdiel medzi i2 a i2adj. indikuje, že do modelu bolo zahrnutých príliš veľa premenných
Korelačná analýza • koeficient korelácie - ryx • hodnoty sa pohybujú v intervale: –1, 1 • ryx=-1 – silná negatívna závislosť • ryx=0 – bez závislosti • ryx=1 – silná pozitívna závislosť • koeficient determinácie ryx2 • hodnoty sa pohybujú v intervale: 0,1 • udáva % vysvetlenej variability závisle premennej
Overenie kvality modelu • Testovanie významnosti modelu ako celku • na základe rozkladu variability • celková variabilita • na koľko sa odchyľujú konkrétne hodnoty premennej Y od celkového priemeru • vysvetlená variabilita • na koľko sa odchyľujú hodnoty na regresnej priamky od celkového priemeru • nevysvetlená variabilita • na koľko sa odchyľujú skutočné hodnoty premennej Y od hodnôt odhadnutých regresnou priamkou • čím väčšia je vysvetlená variabilita v porovnaní s nevysvetlenou variabilitou, tým lepšie odhadnutápriamka modeluje závislosť premenných
priemerná suma štvorcov modelu priemerná reziduálna sumaštvorcov = F Overenie kvality modelu • Testovanie významnosti modelu ako celku • Hypotézy: H0: model ako celok nie je významný H1: model ako celok je významný • Testovacia charakteristika • porovnáva variabilitu vysvetlenú modelom a variabilitu nevysvetlenú modelom • čím väčšia je variabilita vysvetlená modelom, tým lepšie model vystihuje závislosť medzi závislou a nezávislou premennou vysvetlenávariabilita suma štvorcovmodelu reziduálna suma štvorcov nevysvetlenávariabilita celková suma štvorcov celková variabilita
Nevysvetlenávariabilita Závisle premenná Vysvetlenávariabilita Celkovávariabilita _ Y Y´ = b0 + b1X Nezávisle premenná Overenie kvality modelu • Testovanie významnosti modelu ako celku • pomocou rozkladu variability modelu
Overenie kvality modelu • ANOVA – analýza rozptylu, ktorá sa využíva na verifikáciu vypovedacej schopnosti modelu
Overenie kvality modelu • testovacie kritérium v tabuľke je možné využiť k súčasnému testovaniu významnosti celého regresného modelu, indexu determinácie aj indexu korelácie • vypočítanú hodnotu F testu porovnávame s tabuľkovou F hodnotou (Fischerove rozdelenie) pri (p-1) a (n – p) stupňov voľnosti • ak F < Ftab považujeme regresný model za nevýznamný, podobne aj index determinácie a index korelácie • ak F > Ftab považujeme regresný model za štatisticky významný, podobne aj index determinácie a index korelácie
Test významnosti parametrov RF • Testovanie významnosti parametrov modelu H0: parametre regresnej funkcie sú štatisticky nevýznamné b0 = 0b1 = 0 H1: parametre regresnej funkcie sú štatisticky významné b0 0b1 0 Záver: p hodnota > platí H0parametre nie sú štatisticky významnép hodnota < platí H!parametre sú štatisticky významné Testovacia charakteristika: t = b0/s(b0) t = b1/s(b1)
Intervaly spoľahlivosti pre parametre RF Intervalový odhad ľubovoľného parametra pre regresnú priamku vychádza z toho, že za predpokladov formulovaných klasickým lineárnym modelom má veličina trozdelenie s n – p stupňami voľnosti. Pri zvolenej spoľahlivosti 1 – a je obojstranný interval spoľahlivosti pre parameterb0 daný vzťahom
Intervaly spoľahlivosti pre parametre RF a pre parameterb1
Viacnásobná lineárna regresia • Model s dvoma nezávislými premennými • rozšírime najskôr model jednoduchej regresie o ďalšiu vysvetľujúcu premennú • model lineárnej regresie s dvoma vysvetľujúcimi premennými Y = 0 + 1X1 + 2X2 + e kde Y je závislá premenná X1 a X2 sú nezávislé, vysvetľujúce premenné e je náhodná zložka 0, 1, a 2 sú neznáme parametre modelu
Viacnásobná lineárna regresia • Všeobecný model viacnásobnej regresie • modeluje závislosť vysvetľovanej premennej ako výsledok jej lineárnej závislosti od k nezávislých premenných • Y = 0 + 1X1 + … + kXk + e • model vyjadruje vzťah medzi k premennými • na jeho grafickú prezentáciu by sme potrebovali k-rozmerný priestor • model má p=k+1 parametrov • k - regresných koeficientov • lokujúcu konštantu 0