REGRESNÁ A KORELAČNÁ ANALÝZA

REGRESNÁ A KORELAČNÁ ANALÝZA 1. časť

PREDNÁŠKA • analýza závislostí medzi kvantitatívnymi znakmi • regresná analýza • jednoduchá lineárna závislosť • regresný model • MNŠ

Závislápremenná kvantitatívna RaKA Nezávislápremenná kvantitatívna kvantitatívna kvantitatívna Úvod

cm kg Úvod • Štatistická analýza závislostí • skúmanie vzájomných vzťahov a závislostí medzi jednotlivými hromadnými javmi • hromadné javy neexistujú oddelene • každý jav je výsledkom spolupôsobenia iných javov • charakter a významnosť pôsobenia môžu byť rôzne • predmetom skúmania sú príčinné (kauzálne) závislosti • jeden jav alebo skupina javov (príčina) vyvoláva iný jav alebo skupinu javov (účinok)

Úvod • Typy závislostí • príčinné • ak jeden jav alebo skupina javov (príčina) vyvoláva iný jav alebo skupinu javov (účinok) • jednostranné - účinok nepôsobí spätne na príčinu • obojstranné- účinok a príčina na seba trvalé vzájomne pôsobia • združené • nie sú to príčinné závislosti • určitej hodnote, obmene jedného javu spravidla zodpovedá určitá hodnota, obmena iného javu • dĺžka ramien – výška jednotlivca • zdanlivé • vzťah medzi určitými javmi nie je dôsledkom ich vzájomnej príčinnej súvislosti • je výsledkom pôsobenia ďalšieho javu alebo javov • napr. vzťah medzi počtom užívateľov internetu a počtom vlastníkov mobilných telefónov v jednotlivých krajinách sveta – pôsobenie tretieho faktora – hospodárskeho rozvoja danej krajiny.

Príklad zdanlivej korelácie Jedna z preslávených zdanlivých korelácií : ak sa dĺžka sukní skracuje kurzy akcií stúpajú . Odhliadnuc od toho, že to nie vždy platí, išlo by skutočne o zdanlivú, alebo nezmyselnú koreláciu

Opakom štatistickej závislosti je funkčná (deterministická) závislosť Y = f(X1 X2…...Xk ,Bo , B1 ,…., Bp) kedy je závisle premenná veličina jednoznačne určená funkčným vzťahom, príklady z fyziky, chémie, matematiky. Napr. cena telefonického hovoru v závislosti od počtu impulzov. Takýto druh vzťahov nie je predmetom štatistického skúmania

Príklady štatistickej - voľnej -závislosti • Skúmanie závislosti spotreby bravčového mäsa od príjmu. • Skúmanie pridanej hodnoty resp. HNP od vstupov: práce a kapitálu…. • Skúmanie závislosti výživy obyvateľstva od stupňa ekonomického rozvoja krajiny….

1 2 vzťah možno popísať polynómom vzťah možno popísať priamkou 4 3 medzi premennýmineexistuje jasný vzťah vzťah možno popísať krivkou Nástroje analýzy závislostí • Grafické - Bodový graf (XY graf) • Úvodné preskúmanie vzťahov medzi premennými pomocou bodového grafu Presnú odpoveď poskytne výpočet štatistík RaKA

Bodový graf Bodový graf slúži na: • úvodné preskúmanie vzťahov medzi dvomi premennými • určenie extrémnych alebo typických hodnôt • určenie možného tvaru závislosti • porovnanie a prezentáciu výsledkov analýzy Bodové grafy nám vždy slúžia na získanie základnej predstavy. Každý analytik však v grafe môže vidieť niečo iné. Presné potvrdenie našich domnienok nám poskytnú až exaktné štatistické nástroje.

A B Nástroje analýzy závislostí • Štatistické – regresná a korelačná analýza • sa zaoberá kvantifikáciou závislostí medzi kvantitatívnymi znakmi • rieši dve úlohy • regresnú úlohu • popísanie priebehu tejto závislosti • odhad funkčného vzťahu - matematickej funkcie podľa, ktorej sa mení závisle premenná pri zmenách nezávisle premennej/premenných, t.j. výber funkcie a odhad jej parametrov • korelačnú úlohu • popísanie tesnosti závislostí • výpočet charakteristík určujúcich do akej miery uvažované nezávislé premenné vysvetľujú variabilitu závisle premennej

Regresná analýza • umožňuje popísať vzťah medzi dvoma alebo viacerými premennými • cieľ regresnej analýzy • odhadnúť funkčný vzťah medzi premennými • odhadnúť parametre regresnej funkcie • typy premenných v regresnej analýze • závislé premenné • označenie:Y • sú v centre pozornosti, pretože ich variabilitu sa snažíme vysvetliť • tzv. vysvetľované premenné • nezávislé premenné • označenie:X • sú premenné, ktoré používame na vysvetlenie zmien v hodnotách závislej premennej • predpokladáme, že ich hodnoty sa nemenia • tzv. vysvetľujúce premenné

Regresná analýza • typy regresnej analýzy podľa počtu premenných • jednoduchá regresia • ak popisujeme závislosť jednej kvantitatívnej závislej premennej od jednej kvantitatívnej nezávisle premennej • viacnásobná regresia • ak popisujeme závislosť jednej kvantitatívnej závislej premennej od viacerých kvantitatívnych nezávislých premenných • typy regresnej analýzy podľa typu závislosti • lineárna regresia • ak popisujeme závislosť premenných pomocou priamky • nelineárna regresia • ak popisujeme závislosť premenných pomocou inej krivky ako priamka

0 + 1X Závisle premenná 1 jednotiek 1 jednotka 0 Nezávisle premenná Model jednoduchej lineárnej regresie • Popis závislosti v ZS • rovnica modelu Y = 0 + 1X + e • kde Y je závisle premenná X je nezávisle premenná 0 je parameter modelu tzv. lokujúca konštanta, ktorá vyjadruje akú hodnotu nadobudne premenná Y, ak premenná X bude mať hodnotu 0 1 je parameter modelu tzv. regresný koeficient, ktorý vyjadruje sklon regresnej priamky.Udáva o koľko jednotiek sa v priemere zmení Y, ak sa X zmení o 1 jednotku, 1> pozitívna závislosť, 1< negatívna závislosť

Výberový súbor Základný súbor závisle premenná závislá premenná Y´ = b0 + b1X nezávisle premenná nezávislá premenná Y = 0 + 1X +  Y = est (Y)b0 = est (0) b1 = est (1) Y = 0 + 1X Model jednoduchej lineárnej regresie • Odhad modelu

2 Závisle premenná Y – Y´  ( Y – Y´ ) = min Y´ = b0 + b1X Nezávisle premenná Model jednoduchej lineárnej regresie • Metóda najmenších štvorcov (MNŠ) • metóda odhadu parametrov regresnej modelu • odhad MNŠ minimalizuje sumu štvorcov reziduálnych odchýlok = rozdielov medzi skutočnou hodnotou a odhadnutou priamkou, (reziduálne odchýlky predstavujú bodové odhady náhodných chýb regresného modelu ZS). • priamka odhadnutá MNŠ je ku všetkým skutočným hodnotám tak blízko ako sa len dá

Koeficienty jednoduchej regresnej funkcie odvodíme:

Úpravou získame nasledovné dve normálové rovnice s dvomi neznámymi parametrami: Sústavu rovníc môžme riešiť eliminačnou metódou , alebo pomocou determinantov. Získame tak koeficienty b oa b 1

Odhadnuté koeficienty

Postup pri výpočte koeficientovLRF xiyixiyixi2 x1 y1 x1y1 x12 x2 y2 xn yn

Metóda najmenších štvorcov • MNŠ poskytuje najlepšie neskreslené odhady LRM, ak sú splnené nasledujúce predpoklady o náhodnej zložke modelu: • Predpoklad 1:Stredná hodnota náhodných chýb sa rovná nule. E(ei)=0 • Stredné hodnoty odchýlok pozorovaných hodnôt od vyrovnávajúcej priamky na určitej úrovni nezávislej premennej boli nulové. • Predpoklad 2:Rozptýlenosť hodnôt závislej premennej Y vo všetkých pozorovaniach xi nezávislej premennej X je rovnaká, t.j. rozptyl náhodnej zložky je konštantný. (podmienky homoskedasticity). D(ei)=s2rez • Predpoklad 3:Rozdelenie pravdepodobnosti náhodných chýb je normálne so strednou hodnotu 0 a rozptylom s2rez. t.j. ei má N(0, s2re). • Rozptýlenosť hodnôt závislej premennej Y vo všetkých pozorovaniach xi nezávislej premennej X je rovnaká, t.j. rozptyl náhodnej zložky je konštantný. (podmienky homoskedasticity). D(ei)=s2rez • Predpoklad 4: Náhodné chyby sú navzájom nezávislé. Lineárna nezávislosť náhodných chýb je splnená, ak ich kovariancia je nulová, t.j. cov(ei, ej)=0 (predpoklad o nekorelovanosti náhodných chýb, porušenie = autokorelácia).

Metóda najmenších štvorcov • Možno dokázať, že koeficienty bo , b1 , …, bpurčené MNŠ sú “najlepšie odhady” parametrov b0 , b1 , …, bp ak súčasne o náhodných chybách platí: E (ej ) = 0, D (ej ) = E (ej2 ) = 2 , E(ej1 , ej2 ) = 0 , pre každéj1  j2 • slovne: • od náhodných chýb požadujeme nulovú strednú hodnotu, konštantný rozptyl a vzájomnú nezávislosť náhodných chýb

Vlastnosti MNŠ • súčet štvorcov reziduálnych odchýlok je minimálny • súčet reziduálnych odchýlok je nulový • regresná funkcia prechádza bodom o súradniciach x a y

Použitie MNŠ • MNŠ je možné použiť k odhadu parametrov regresnej funkcie, ak: • je regresná funkcia lineárna • resp. lineárna v parametroch • je možné regresnú funkciu pretransformovať na lineárnu v parametroch

ĎAKUJEM ZA POZORNOSŤ

REGRESNÁ A KORELAČNÁ ANALÝZA