Korelace a regrese

Korelace a regrese • síla (těsnost) závislosti dvou náhodných veličin: korelace • symetrický vztah obou veličin • neslouží k předpovědi • způsob (tvar) závislosti náhodné veličiny na jiné veličině: regrese • možnost předpovědi • příklad: výška otce, výška jeho syna (v dospělosti) • korelace: jak těsně spolu souvisejí ? populace - všechny dvojice (otec, syn) • regrese: lze z výšky otce odhadnout výšku syna ? řada populací - synové otců vysokých 170 cm, 171 cm ...

Pearsonův korelační koeficient • měří sílu lineární závislosti spojitých veličin • vždy platí: -1 X,Y1 • v případě normálního rozdělení platí: nezávislost X, Y X,Y = 0 • odhad pomocí • nezávislost zamítáme, pokud | t | t1-/2(n-2), kde

Příklady

Spearmanův korelační koeficient • místo naměřených hodnot (xi, yi) jejich pořadí (Ri, Qi), což vede k • hypotéza nezávislosti spojitých veličin X, Y se zamítá, je-li • | rS | r(n) (tabelováno pro n do 30) • není třeba znát naměřené hodnoty, stačí jejich pořadí • při pochybnosti o normalitě

Princip regresní závislosti • zabýváme se dvojicí veličin: • Y (vysvětlovaná, závisle proměnná) • X (vysvětlující, nezávisle proměnná, regresor) • hledáme vysvětlení chování Y při dané hodnotě X=x • podmíněné rozdělení Y při daném X=x (změní se, když změníme x?) • lineární regrese (předpoklady): • populační průměr Y při dané hodnotě X=x je lineární funkcí x • variabilita (rozptyl) podmíněného rozdělení Ynezávisí na X=x

Porodní hmotnost podle porodní délky

Porodní hmotnost a délka

Matematický popis regresní závislosti i=1,2,...,n •  - neznámé parametry • i - náhodná chyba N02) (normální rozdělení) • 2 - neznámý parametr (rozptyl) • x1, ..., xn - dané hodnoty proměnné X • y1, ..., yn - naměřené (náhodné) hodnoty proměnné Y • - průměrná změna Y při jednotkové změně X • - průměrná hodnota Y při X=0

Odhad parametrů • metoda nejmenších čtverců: zvolit odhady b0, b1 tak, byl minimální součet čtverců odchylek: • toto minimum se nazývá reziduální součet čtverců (Se) • odhad rozptylu :

Modelová představa

Příklad (úmrtnost na melanom) • pozorování: jednotlivé státy USA • MORT: úmrtnost na 10 000 000 obyvatel na maligní melanom kůže v letech 1950-1959 • LAT: zeměpisná šířka státu • LONG: zeměpisná délka státu • POP: počet obyvatel (v milionech) • OCEAN: zda na břehu oceánu • lze nestejnou úmrtnost vysvětlit polohou jednotlivých států ?

Příklad (těsná závislost)

Příklad (slabá závislost)

Statistické vlastnosti odhadů • H0 (Y nezávisí na x):  (tj. yi=+ei) • zamítáme, když odhad b1 se dostatečně liší od 0 • použijeme • H0zamítneme ve prospěch oboustranné alternativy H1, bude-li | T |  t1-/2(n - 2) • ekvivalentní testu H0: x,y= 0 , tj. nezávislosti náhodných veličin X,Y

Příklad (závislost na zeměpisné délce) Se=52 439,0 s2 = 1 115,7 R2=0,022 přímka: odhad MORT = 183,5 + 0,3363 • LONG závislost není průkazná na hladině =0,05 změna o 10 stupňů na východ (zem. délka vzroste) (mortalitav průměru o 3 osoby na 10 000 000 větší)

Příklad (závislost na zeměpisné šířce) Se=17 173,01 s2 = 365,38 R2=0,680 • přímka: odhad MORT = 389,2 - 5,978 • LAT • závislost je průkazná na hladině =0,05 (i na menších) • změna o 10 stupňů na sever (zeměpisná šířka vzroste) mortalitav průměru o 60 osob na 10 000 000 menší

Příklad (tabulka analýzy rozptylu, závislost úmrtnosti na zeměpisné šířce) • celková variabilita = vysvětlená regresí + reziduální • koeficient determinace:

Mnohonásobná lineární regrese • lineární závislost na několika regresorech: yi =  xi1+ xi2 + ... + k xik + ei • j - průměrná změna Y při jednotkové změně Xj a nezměněných hodnotách ostatních regresorů • H0:j=0 znamená, že můžeme j-tý regresor ze závislosti vyloučit (nevypovídá o chování Y více, než co vypovídají ostatní regresory v modelu – test přidané informace) • H0:1 = 2 = ... = k= 0 znamená, že chování Y nezávisí na žádném z regresorů, testuje se pomocí tabulky analýzy rozptylu • pro k=1 jsou obě hypotézy ekvivalentní

Příklad (závislost na délce i šířce) • neprokázali jsme, že by znalost LONG vylepšila předpověď založenou na LAT (p=41,8 %) • závislost na LAT byla: Se=16 927,7 s2 = 367,99 R2=0,684 Se=17 173,01 s2 = 365,38 R2=0,680

Příklad (opravdu na délce nezáleží?) Se=14 139,5 s2 = 314,21 R2=0,736 bez kvadratického členu bylo: Se=16 927,7 s2 = 367,99 R2=0,684

Příklad (pobřežní státy jsou jiné ?) Se=12 357,0 s2 = 268,63 R2=0,770 v kvadratickém modelu bylo: Se=14 139,5 s2 = 314,21 R2=0,736

Příklad ( analýza kovariance)

Umělé proměnné v regresi • umělá proměnná: nabývá hodnot 0 - 1 • jediný regresor - umělá proměnná dvouvýběrový t test • několik umělých proměnných k vyjádření několika úrovní nominální veličiny analýza rozptylu jednoduchého třídění • spojitý regresor, vůči kterému adjustujeme chování Y, ostatní regresory umělé proměnné analýza kovariance • regresní diagnostika: metody (zejm. grafické) k ověření předpokladů regrese (tvar závislosti, stálý rozptyl, nezávislost pozorování, normální rozdělení)

Statistické modely závislosti

Korelace a regrese

Korelace a regrese

Presentation Transcript

A A A A A A A

A a pple a

Ants on the apple a a a a a a

A a Alligator , Alligator a-a-a

a a a Abby is sad. a a a is A A

A A A A A

A A A A A A

A a a

Radiologicko-anatomické korelace Plíce

A a A a

A. Bondar a , A. Buzulutskov a , A. Grebenuk a , A. Sokolov a , Y. Tikhonov a ,

A A A A A A A A A

A! A! A! A!A

Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

Čeština doby střední v období barokní regrese 20. léta 17. stol. - 80. léta 18. stol.

LINEÁRNÍ REGRESE

Mnohonásobná regrese a mnohorozměrná analýza dat

Korelace a elaborace aneb úvod do vztahů proměnných

A a a

LOGISTICKÁ REGRESE

VÍCENÁSOBNÁ REGRESE

Vícenásobná regrese Různé Tomáš Cahlík 5. týden