1 / 45

REGRESNÁ A KORELAČNÁ ANALÝZA

REGRESNÁ A KORELAČNÁ ANALÝZA. PREDNÁŠKA 8. analýza závislostí medzi kvantitatívnymi znakmi regresná analýza jednoduchá lineárna závislosť regresný model MNŠ jednoduchá nelineárna závislosť viacnásobná lineárna závislosť korelačná analýza miery tesnosti závislosti. Závislá premenná.

Download Presentation

REGRESNÁ A KORELAČNÁ ANALÝZA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. REGRESNÁ A KORELAČNÁ ANALÝZA

  2. PREDNÁŠKA 8 • analýza závislostí medzi kvantitatívnymi znakmi • regresná analýza • jednoduchá lineárna závislosť • regresný model • MNŠ • jednoduchá nelineárna závislosť • viacnásobná lineárna závislosť • korelačná analýza • miery tesnosti závislosti

  3. Závislápremenná kvantitatívna RaKA Nezávislápremenná kvantitatívna kvantitatívna kvantitatívna Úvod

  4. cm kg Úvod • Štatistická analýza závislostí • skúmanie vzájomných vzťahov a závislostí medzi jednotlivými hromadnými javmi • hromadné javy neexistujú oddelene • každý jav je výsledkom spolupôsobenia iných javov • charakter a významnosť pôsobenia môžu byť rôzne • predmetom skúmania sú príčinné (kauzálne) závislosti • jeden jav alebo skupina javov (príčina) vyvoláva iný jav alebo skupinu javov (účinok)

  5. Úvod • Typy závislostí • príčinné • ak jeden jav alebo skupina javov (príčina) vyvoláva iný jav alebo skupinu javov (účinok) • jednostranné - účinok nepôsobí spätne na príčinu • obojstranné- účinok a príčina na seba trvalé vzájomne pôsobia • združené • nie sú to príčinné závislosti • určitej hodnote, obmene jedného javu spravidla zodpovedá určitá hodnota, obmena iného javu • dĺžka ramien – výška jednotlivca • zdanlivé • vzťah medzi určitými javmi nie je dôsledkom ich vzájomnej príčinnej súvislosti • je výsledkom pôsobenia ďalšieho javu alebo javov • napr. výdavky na ovocie a výdavky na obuv

  6. Opakom štatistickej závislosti je funkčná závislosť Y = f(X1 X2…...Xk ,Bo , B1 ,…., Bp) kedy je závisle premenná veličina jednoznačne určená funkčným vzťahom, príklady z fyziky, chémie - takýto druh vzťahov nie je predmetom štatistického skúmania

  7. 1 2 vzťah možno popísať polynómom vzťah možno popísať priamkou 4 3 medzi premennýmineexistuje jasný vzťah vzťah možno popísať krivkou Nástroje analýzy závislostí • Grafické - Bodový graf (XY graf) • Úvodné preskúmanie vzťahov medzi premennými pomocou bodového grafu Presnú odpoveď poskytne výpočet štatistík RaKA

  8. Bodový graf Bodový graf slúži na: • úvodné preskúmanie vzťahov medzi dvomi premennými • určenie extrémnych alebo typických hodnôt • určenie možného tvaru závislosti • porovnanie a prezentáciu výsledkov analýzy Bodové grafy nám vždy slúžia na získanie základnej predstavy. Každý analytik však v grafe môže vidieť niečo iné. Presné potvrdenie našich domnienok nám poskytnú až exaktné štatistické nástroje.

  9. A B Nástroje analýzy závislostí • Štatistické – regresná a korelačná analýza • sa zaoberá kvantifikáciou závislostí medzi kvantitatívnymi znakmi • rieši dve úlohy • regresnú úlohu • popísanie priebehu tejto závislosti • odhad funkčného vzťahu - matematickej funkcie podľa, ktorej sa mení závisle premenná pri zmenách nezávisle premennej/premenných, t.j. výber funkcie a odhad jej parametrov • korelačnú úlohu • popísanie tesnosti závislostí • výpočet charakteristík určujúcich do akej miery uvažované nezávislé premenné vysvetľujú variabilitu závisle premennej

  10. Regresná analýza • umožňuje popísať vzťah medzi dvoma alebo viacerými premennými • cieľ regresnej analýzy • odhadnúť funkčný vzťah medzi premennými • odhadnúť parametre regresnej funkcie • typy premenných v regresnej analýze • závislé premenné • označenie:Y • sú v centre pozornosti, pretože ich variabilitu sa snažíme vysvetliť • tzv. vysvetľované premenné • nezávislé premenné • označenie:X • sú premenné, ktoré používame na vysvetlenie zmien v hodnotách závislej premennej • predpokladáme, že ich hodnoty sa nemenia • tzv. vysvetľujúce premenné

  11. Regresná analýza • typy regresnej analýzy podľa počtu premenných • jednoduchá regresia • ak popisujeme závislosť jednej kvantitatívnej závislej premennej od jednej kvantitatívnej nezávisle premennej • viacnásobná regresia • ak popisujeme závislosť jednej kvantitatívnej závislej premennej od viacerých kvantitatívnych nezávislých premenných • typy regresnej analýzy podľa typu závislosti • lineárna regresia • ak popisujeme závislosť premenných pomocou priamky • nelineárna regresia • ak popisujeme závislosť premenných pomocou inej krivky ako priamka

  12. 0 + 1X Závisle premenná 1 jednotiek 1 jednotka 0 Nezávisle premenná Model jednoduchej lineárnej regresie • Popis závislosti v ZS • rovnica modelu Y = 0 + 1X + e • kde Y je závisle premenná X je nezávisle premenná 0 je parameter modelu tzv. lokujúca konštanta, ktorá vyjadruje akú hodnotu nadobudne premenná Y, ak premenná X bude mať hodnotu 0 1 je parameter modelu tzv. regresný koeficient, ktorý vyjadruje sklon regresnej priamky.Udáva o koľko jednotiek sa v priemere zmení Y, ak sa X zmení o 1 jednotku, 1> pozitívna závislosť, 1< negatívna závislosť

  13. Výberový súbor Základný súbor závisle premenná závislá premenná Y´ = b0 + b1X nezávisle premenná nezávislá premenná Y = 0 + 1X +  Y = est (Y)b0 = est (0) b1 = est (1) Y = 0 + 1X Model jednoduchej lineárnej regresie • Odhad modelu

  14. 2 Závisle premenná Y – Y´  ( Y – Y´ ) = min Y´ = b0 + b1X Nezávisle premenná Model jednoduchej lineárnej regresie • Metóda najmenších štvorcov (MNŠ) • metóda odhadu parametrov regresnej modelu • odhad MNŠ minimalizuje sumu štvorcov reziduálnych odchýlok = rozdielov medzi skutočnou hodnotou a odhadnutou priamkou • priamka odhadnutá MNŠ je ku všetkým skutočným hodnotám tak blízko ako sa len dá

  15. Metóda najmenších štvorcov • Predpoklady MNŠ • priemery Y pre jednotlivé hodnoty X možno spojiť priamkou • rozptyl premennej Y je konštantný - s2 pre všetky hodnoty X • premenná Y má normálne rozdelenie pre všetky hodnoty X • pozorovania Y sú navzájom nezávislé • pozorovania X sú nenáhodné, navzájom nezávislé a bez chýb v meraní

  16. Metóda najmenších štvorcov • Možno dokázať, že koeficienty bo , b1 , …, bpurčené MNŠ sú “najlepšie odhady” parametrov b0 , b1 , …, bp ak súčasne o náhodných chybách platí: E (ej ) = 0, D (ej ) = E (ej2 ) = 2 , E(ej1 , ej2 ) = 0 , pre každéj1  j2 • slovne: • od náhodných chýb požadujeme nulovú strednú hodnotu, konštantný rozptyl a vzájomnú nezávislosť náhodných chýb

  17. Vlastnosti MNŠ • súčet štvorcov reziduálnych odchýlok je minimálny • súčet reziduálnych odchýlok je nulový • regresná funkcia prechádza bodom o súradniciach x a y

  18. Použitie MNŠ • MNŠ je možné použiť k odhadu parametrov regresnej funkcie, ak: • je regresná funkcia lineárna • resp. lineárna v parametroch • je možné regresnú funkciu pretransformovať na lineárnu v parametroch

  19. Nelineárna regresná a korelačná analýza • v praxi nielen lineárne funkcie, ale veľmi často má priebeh nelineárny priebeh • nelineárne funkcie je možné použiť s dvoma alebo viacerými parametrami • niektoré nelineárne regresné funkcie je možné vhodnou transformáciou upraviť na lineárne v parametroch • k odhadu ich parametrov je potom možné použiť metódou najmenších štvorcov.

  20. Nelineárna regresná a korelačná analýza • niektoré typy nelineárnych funkcií hyperbola logaritmická funkcia parabola exponenciálna funkcia mocninová funkcia

  21. Funkcia HYPERBOLY substitúcia

  22. LOGARITMICKÁ funkcia substitúcia

  23. EXPONENCIÁLNA funkcia logaritmická transformácia • VÝSTUP: • ln b0 b0=EXP(lnb0) • ln b1 b0=EXP(lnb0) • VSTUP: • ln y • x

  24. MOCNINOVÁ funkcia logaritmická transformácia • VÝSTUP: • ln b0 b0=EXP(lnb0) • b1 • VSTUP: • ln y • ln x

  25. Korelačná analýza • overenie vypovedacej schopnosti kvantifikovaných regresných modelov ako celku, aj jeho častí. • výpočet číselných charakteristík, ktoré v koncentrovanej forme popisujú kvalitu vypočítaných modelov. • požadujeme od nich, aby sa pohybovali v pevne ohraničenom intervale, • v rámci intervalu rástli s vyššou silou závislosti

  26. y y x x Korelačná analýza • porovnanie dvoch prípadov závislosti • Ktorá závislosť bude tesnejšia?

  27. Korelačná analýza • miery tesnosti štatistickej závislosti: • koeficient korelácie ryx • len pre lineárnu závislosť • koeficient determinácie ryx2 • len pre lineárnu závislosť • index korelácie iyx • index determinácie iyx2

  28. Korelačná analýza • Index korelácie a index determinácie • princíp spočíva v rozklade variability závisle premennej Y Celková variabilita závisle premennej Variabilita nevysvetlená regresnou funkciou – reziduálna variabilita Variabilita závisle premennej vysvetlená regresnou funkciou

  29. Korelačná analýza • index korelácie iyx • index determinácia iyx2

  30. Korelačná analýza • index korelácie • hodnoty sa pohybujú v intervale od (0,1) • čím sa hodnota indexu blíži k 1, tým je tesnosť závislosti vyššia a opačne • index determinácie • nadobúda hodnoty z intervalu 0 až 1 • čím viac sa hodnota indexu blíži k 1, tým väčšia časť celkovej variability je modelom vysvetlená a naopak • ak sa index determinácie blíži k 0, tým menšia časť celkovej variability je vysvetlená modelom

  31. Korelačná analýza • index determinácie • kritérium pri rozhodovaní o voľbe konkrétneho tvaru regresnej funkcie • volíme ten model,ktorý má vyšší koeficient determinácie (vyššie % vysvetlenej variability) • ak však majú regresné funkcie rôzny počet parametrov, je potrebné upraviť index determinácie do korigovanej podoby v tvare: • výrazný rozdiel medzi i2 a i2adj. indikuje, že do modelu bolo zahrnutých príliš veľa premenných

  32. Korelačná analýza • koeficient korelácie - ryx • hodnoty sa pohybujú v intervale: –1, 1 • ryx=-1 – silná negatívna závislosť • ryx=0 – bez závislosti • ryx=1 – silná pozitívna závislosť • koeficient determinácie ryx2 • hodnoty sa pohybujú v intervale: 0,1 • udáva % vysvetlenej variability závisle premennej

  33. Overenie kvality modelu • Testovanie významnosti modelu ako celku • na základe rozkladu variability • celková variabilita • na koľko sa odchyľujú konkrétne hodnoty premennej Y od celkového priemeru • vysvetlená variabilita • na koľko sa odchyľujú hodnoty na regresnej priamky od celkového priemeru • nevysvetlená variabilita • na koľko sa odchyľujú skutočné hodnoty premennej Y od hodnôt odhadnutých regresnou priamkou • čím väčšia je vysvetlená variabilita v porovnaní s nevysvetlenou variabilitou, tým lepšie odhadnutápriamka modeluje závislosť premenných

  34. priemerná suma štvorcov modelu priemerná reziduálna sumaštvorcov = F Overenie kvality modelu • Testovanie významnosti modelu ako celku • Hypotézy: H0: model ako celok nie je významný H1: model ako celok je významný • Testovacia charakteristika • porovnáva variabilitu vysvetlenú modelom a variabilitu nevysvetlenú modelom • čím väčšia je variabilita vysvetlená modelom, tým lepšie model vystihuje závislosť medzi závislou a nezávislou premennou vysvetlenávariabilita suma štvorcovmodelu reziduálna suma štvorcov nevysvetlenávariabilita celková suma štvorcov celková variabilita

  35. Nevysvetlenávariabilita Závisle premenná Vysvetlenávariabilita Celkovávariabilita _ Y Y´ = b0 + b1X Nezávisle premenná Overenie kvality modelu • Testovanie významnosti modelu ako celku • pomocou rozkladu variability modelu

  36. Overenie kvality modelu • ANOVA – analýza rozptylu, ktorá sa využíva na verifikáciu vypovedacej schopnosti modelu

  37. Overenie kvality modelu • testovacie kritérium v tabuľke je možné využiť k súčasnému testovaniu významnosti celého regresného modelu, indexu determinácie aj indexu korelácie • vypočítanú hodnotu F testu porovnávame s tabuľkovou F hodnotou (Fischerove rozdelenie) pri (p-1) a (n – p) stupňov voľnosti • ak F < Ftab považujeme regresný model za nevýznamný, podobne aj index determinácie a index korelácie • ak F > Ftab považujeme regresný model za štatisticky významný, podobne aj index determinácie a index korelácie

  38. Test významnosti parametrov RF • Testovanie významnosti parametrov modelu H0: parametre regresnej funkcie sú štatisticky nevýznamné b0 = 0b1 = 0 H1: parametre regresnej funkcie sú štatisticky významné b0 0b1 0 Záver: p hodnota >  platí H0parametre nie sú štatisticky významnép hodnota <  platí H!parametre sú štatisticky významné Testovacia charakteristika: t = b0/s(b0) t = b1/s(b1)

  39. Intervaly spoľahlivosti pre parametre RF Intervalový odhad ľubovoľného parametra pre regresnú priamku vychádza z toho, že za predpokladov formulovaných klasickým lineárnym modelom má veličina trozdelenie s n – p stupňami voľnosti. Pri zvolenej spoľahlivosti 1 – a je obojstranný interval spoľahlivosti pre parameterb0 daný vzťahom

  40. Intervaly spoľahlivosti pre parametre RF a pre parameterb1

  41. Viacnásobná lineárna regresia • Model s dvoma nezávislými premennými • rozšírime najskôr model jednoduchej regresie o ďalšiu vysvetľujúcu premennú • model lineárnej regresie s dvoma vysvetľujúcimi premennými Y = 0 + 1X1 + 2X2 + e kde Y je závislá premenná X1 a X2 sú nezávislé, vysvetľujúce premenné e je náhodná zložka 0, 1, a 2 sú neznáme parametre modelu

  42. Viacnásobná lineárna regresia • Všeobecný model viacnásobnej regresie • modeluje závislosť vysvetľovanej premennej ako výsledok jej lineárnej závislosti od k nezávislých premenných • Y = 0 + 1X1 + … + kXk + e • model vyjadruje vzťah medzi k premennými • na jeho grafickú prezentáciu by sme potrebovali k-rozmerný priestor • model má p=k+1 parametrov • k - regresných koeficientov • lokujúcu konštantu 0

  43. Regresný výstup v EXCELI

  44. Regresný výstup v EXCELI

  45. ĎAKUJEM ZA POZORNOSŤ

More Related