1 / 24

Korelace a regrese

Korelace a regrese. síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti náhodné veličiny na jiné veličině: regrese možnost předpovědi příklad: výška otce, výška jeho syna (v dospělosti)

Download Presentation

Korelace a regrese

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Korelace a regrese • síla (těsnost) závislosti dvou náhodných veličin: korelace • symetrický vztah obou veličin • neslouží k předpovědi • způsob (tvar) závislosti náhodné veličiny na jiné veličině: regrese • možnost předpovědi • příklad: výška otce, výška jeho syna (v dospělosti) • korelace: jak těsně spolu souvisejí ? populace - všechny dvojice (otec, syn) • regrese: lze z výšky otce odhadnout výšku syna ? řada populací - synové otců vysokých 170 cm, 171 cm ...

  2. Pearsonův korelační koeficient • měří sílu lineární závislosti spojitých veličin • vždy platí: -1 X,Y1 • v případě normálního rozdělení platí: nezávislost X, Y X,Y = 0 • odhad pomocí • nezávislost zamítáme, pokud | t | t1-/2(n-2), kde

  3. Příklady

  4. Spearmanův korelační koeficient • místo naměřených hodnot (xi, yi) jejich pořadí (Ri, Qi), což vede k • hypotéza nezávislosti spojitých veličin X, Y se zamítá, je-li • | rS | r(n) (tabelováno pro n do 30) • není třeba znát naměřené hodnoty, stačí jejich pořadí • při pochybnosti o normalitě

  5. Princip regresní závislosti • zabýváme se dvojicí veličin: • Y (vysvětlovaná, závisle proměnná) • X (vysvětlující, nezávisle proměnná, regresor) • hledáme vysvětlení chování Y při dané hodnotě X=x • podmíněné rozdělení Y při daném X=x (změní se, když změníme x?) • lineární regrese (předpoklady): • populační průměr Y při dané hodnotě X=x je lineární funkcí x • variabilita (rozptyl) podmíněného rozdělení Ynezávisí na X=x

  6. Porodní hmotnost podle porodní délky

  7. Porodní hmotnost a délka

  8. Matematický popis regresní závislosti i=1,2,...,n •  - neznámé parametry • i - náhodná chyba N02) (normální rozdělení) • 2 - neznámý parametr (rozptyl) • x1, ..., xn - dané hodnoty proměnné X • y1, ..., yn - naměřené (náhodné) hodnoty proměnné Y • - průměrná změna Y při jednotkové změně X • - průměrná hodnota Y při X=0

  9. Odhad parametrů • metoda nejmenších čtverců: zvolit odhady b0, b1 tak, byl minimální součet čtverců odchylek: • toto minimum se nazývá reziduální součet čtverců (Se) • odhad rozptylu :

  10. Modelová představa

  11. Příklad (úmrtnost na melanom) • pozorování: jednotlivé státy USA • MORT: úmrtnost na 10 000 000 obyvatel na maligní melanom kůže v letech 1950-1959 • LAT: zeměpisná šířka státu • LONG: zeměpisná délka státu • POP: počet obyvatel (v milionech) • OCEAN: zda na břehu oceánu • lze nestejnou úmrtnost vysvětlit polohou jednotlivých států ?

  12. Příklad (těsná závislost)

  13. Příklad (slabá závislost)

  14. Statistické vlastnosti odhadů • H0 (Y nezávisí na x):  (tj. yi=+ei) • zamítáme, když odhad b1 se dostatečně liší od 0 • použijeme • H0zamítneme ve prospěch oboustranné alternativy H1, bude-li | T |  t1-/2(n - 2) • ekvivalentní testu H0: x,y= 0 , tj. nezávislosti náhodných veličin X,Y

  15. Příklad (závislost na zeměpisné délce) Se=52 439,0 s2 = 1 115,7 R2=0,022 přímka: odhad MORT = 183,5 + 0,3363 • LONG závislost není průkazná na hladině =0,05 změna o 10 stupňů na východ (zem. délka vzroste) (mortalitav průměru o 3 osoby na 10 000 000 větší)

  16. Příklad (závislost na zeměpisné šířce) Se=17 173,01 s2 = 365,38 R2=0,680 • přímka: odhad MORT = 389,2 - 5,978 • LAT • závislost je průkazná na hladině =0,05 (i na menších) • změna o 10 stupňů na sever (zeměpisná šířka vzroste) mortalitav průměru o 60 osob na 10 000 000 menší

  17. Příklad (tabulka analýzy rozptylu, závislost úmrtnosti na zeměpisné šířce) • celková variabilita = vysvětlená regresí + reziduální • koeficient determinace:

  18. Mnohonásobná lineární regrese • lineární závislost na několika regresorech: yi =  xi1+ xi2 + ... + k xik + ei • j - průměrná změna Y při jednotkové změně Xj a nezměněných hodnotách ostatních regresorů • H0:j=0 znamená, že můžeme j-tý regresor ze závislosti vyloučit (nevypovídá o chování Y více, než co vypovídají ostatní regresory v modelu – test přidané informace) • H0:1 = 2 = ... = k= 0 znamená, že chování Y nezávisí na žádném z regresorů, testuje se pomocí tabulky analýzy rozptylu • pro k=1 jsou obě hypotézy ekvivalentní

  19. Příklad (závislost na délce i šířce) • neprokázali jsme, že by znalost LONG vylepšila předpověď založenou na LAT (p=41,8 %) • závislost na LAT byla: Se=16 927,7 s2 = 367,99 R2=0,684 Se=17 173,01 s2 = 365,38 R2=0,680

  20. Příklad (opravdu na délce nezáleží?) Se=14 139,5 s2 = 314,21 R2=0,736 bez kvadratického členu bylo: Se=16 927,7 s2 = 367,99 R2=0,684

  21. Příklad (pobřežní státy jsou jiné ?) Se=12 357,0 s2 = 268,63 R2=0,770 v kvadratickém modelu bylo: Se=14 139,5 s2 = 314,21 R2=0,736

  22. Příklad ( analýza kovariance)

  23. Umělé proměnné v regresi • umělá proměnná: nabývá hodnot 0 - 1 • jediný regresor - umělá proměnná dvouvýběrový t test • několik umělých proměnných k vyjádření několika úrovní nominální veličiny analýza rozptylu jednoduchého třídění • spojitý regresor, vůči kterému adjustujeme chování Y, ostatní regresory umělé proměnné analýza kovariance • regresní diagnostika: metody (zejm. grafické) k ověření předpokladů regrese (tvar závislosti, stálý rozptyl, nezávislost pozorování, normální rozdělení)

  24. Statistické modely závislosti

More Related