1 / 39

VÍCENÁSOBNÁ REGRESE

VÍCENÁSOBNÁ REGRESE. Vícenásobná regrese Datov á matice X. X1 X2 X3 X4 ATD. ANO 204 M 1,2 NE 180 F 4,3 NE 178 F 2,3 NE 187 M 3,8 ANO 192 M 2,6 . . ATD. Vícenásobná regrese Vektor y. Y 135 112 135 187 189 ATD. Vícenásobná regrese Vektor β. β 0 β 1

valora
Download Presentation

VÍCENÁSOBNÁ REGRESE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. VÍCENÁSOBNÁ REGRESE

  2. Vícenásobná regreseDatová matice X X1 X2 X3 X4 ATD. ANO 204 M 1,2 NE 180 F 4,3 NE 178 F 2,3 NE 187 M 3,8 ANO 192 M 2,6 . . ATD.

  3. Vícenásobná regreseVektor y Y 135 112 135 187 189 ATD.

  4. Vícenásobná regreseVektor β β0 β1 β2 β3 ATD.

  5. Model vícenásobné lineární regrese • Model vícenásobné lineární regrese y = 0 + 1x1 + 2x2 + . . . + pxp+  • Regresní rovnice E(y) = 0 + 1x1 + 2x2 + . . . + pxp • Odhad regresní rovnice y = b0 + b1x1 + b2x2 + . . . + bpxp

  6. Model vícenásobné lineární regrese • Maticově vyjádřeno: y = βX + ε

  7. Vícenásobná lineární regrese-MNČ Co je za tímto vzorcem? Trošku vektorové algebry nikomu neuškodí Nebo ano

  8. Vícenásobná regrese v SPSS • výsledkem procedury v SPSS je regresní rovnice roviny či nadroviny, otestování významnosti regresního modelu a jednotlivých parametrů včetně signalizace jednotlivých problémů • zadání pomocí nabídky-jednotlivé důležité volby

  9. Regrese v SPSS-syntax zadání pomocí příkazu (pro stupňovitou regresi a vybrané výstupy) REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Y /METHOD= STEPWISE X1 X2 X3.

  10. Regrese v SPSS-výstupy • ukázky použití regresní analýzy v SPSS • komentář k výstupům z procedury regresní analýzy ANOVA,T-testy -vztah mezi nimi a co to značí, R, R2, R2Adj. • interpretace regresních koeficientů a konstanty ve vícenásobné regresi aneb ceteris paribus ve statistice (tedy proměnnou o jejíž vliv chci očistit musím mít v modelu) • beta koeficienty aneb posouzení individuálního vlivu proměnných (vlastně regresní koeficienty pokud bychom původní data standardizovali-co je to standardizace? A jaké jsou možnosti standardizace?)

  11. Regrese v SPSS-výstupy • typy metod výběru proměnných - forward, backward, stepwise (základní principy) • zejm. stepwise poměrně vhodná k nalezení "nejlepšího" modelu-vysvětlení podstaty sekvenčních F-testů a vazba k parciálním korelačním koeficientům • predikce z regresního modelu • rezidua a jejich ukládání

  12. EXKURZ: REGRESE A EXCEL

  13. MS EXCEL a statistika • Co umíme v MS Excel ze statistiky? • Co umí v MS Excel ze statistiky? • Jak na regresi v MS Excel (aneb co dělat, když vyprší licence SPSS)

  14. MS EXCEL a regrese • Základní funkce pro výpočet regrese • Grafické možnosti regrese v Excelu • Analytický modul aneb regrese jak z SPSS • Více viz text Statistika v Excelu.doc

  15. UMĚLÉ PROMĚNNÉ

  16. Regrese-umělé proměnné • jako vysvětlující proměnné lze použít i nominální či ordinální proměnné převedením na umělé (dummy) proměnné - umělých proměnných je poté o jednu méně než kategorií původní proměnné Proč? • "vynechaná proměnná" odpovídá kategorii vůči níž se budou ostatní kategorie porovnávat-ukázka na proměnné vzdělání v SPSS (vytvořte 3umělé proměnné-SŠ bez vzdelSSB, SŠ s mat. vzdelSS a VŠ vzdelVS z proměnné s02) • Ukažme si smysl kódování na proměnné vzdel, vyuc, SS a VS • Upozornění: Při metodě Stepwise může být zahrnuta jen některá(é) z umělých proměnných, co to znamená z hlediska interpretace? (př. Jen VŠ při závislé proměnné příjem v rovnici) Jak lze toto řešit?

  17. Regrese-umělé proměnné a skupiny • Dichotomie může dělit soubor na dvě skupiny (př.muži/ženy), které by mělo smysl analyzovat samostatně, ale my je analyzujeme dohromady-Co se v takovém případě může stát? (grafické zobrazení 4 možných situací) • Jak tuto situaci řešit? • Analýzy provést zvlášť (TEMP nebo SPLIT FILE) a teprve poté dohromady, je-li pro toto důvod (test o shodě hodnot regresních koeficientů- v SPSS není obsažen) • Lze užít i víceúrovňové/hierarchické modely • Obecně je problém často složitější a skupin může být více a i zde platí: Nejdříve zkoumejme, jak vypadá vztah v jednotlivých skupinách a je-li podobný, lze analyzovat dohromady (Nikdy ale neanalyzujme prvotně dohromady ČR+Chile+Austrálie, to je naprosto neodůvodnitelné!!!!)

  18. Umělé proměnné - závěr • Princip umělých proměnných je obecně použitelný v analýzách, kde se vyžadují jen dichotomie nebo kardinální proměnné (např. logistická regrese v pátek) • Princip vynechávání poslední (první) kategorie se zpravidla užívá v analýze kategoriálních dat (loglineární modely, logitové modely apod.) • Některé procedury SPSS utvoří umělé proměnné za nás (např. procedury logistické regrese)

  19. INTERAKCE

  20. Regrese-Interakce • Kombinace hodnot vysvětlujících proměnných • Nutno si vytvořit v datech • K čemu je to dobré? • Řeší tyto situace: A) spolupůsobení proměnných (synergické efekty) B) Řeší problém skupin, resp. odlišností směrnic ve skupinách • Ukázka – interakce dvou proměnných, jedna dichotomie

  21. REGRESNÍ DIAGNOSTIKA

  22. Regrese a její problémy Regresní problémy • Vlivná (influentials-pozor tato nejsou od P.F.L.) a odlehlá pozorování (outliers-viz explorační analýza) • heteroskedasticita - rozptyl náhodné složky není konstantní, způsobuje problémy při testování významnosti jednotlivých proměnných • autokorelace -závislost mezi náhodnými složkami, obvyklé v časových řadách, působí obdobné problémy jako heteroskedasticita

  23. Regrese a její problémy • multikolinearita - závislost mezi vysvětlujícími proměnnými, je téměř vždy přítomná, problémem je škodlivá multikolinearita zejm. perfektní multikolinearita - pak není možno odhadovat regresní parametry metodou nejmenších čtverců, • (Důvod: matice X’X je singulární a nelze k ní najít inverzní-toto vyjádření je pro nestatistiky lehce perverzní)

  24. REZIDUA A JEJICH VÝZNAM

  25. Rezidua - přehled • Klasická rezidua H = projekční matice • Predikovaná rezidua

  26. Rezidua - přehled • Normovaná rezidua • Jackknife rezidua

  27. Vlivná pozorování • Důležité jsou diagonální prvky projekční matice hii - měří vzdálenost i-tého bodu od centra ostatních bodů. • Pozorování s velkou hodnotou h prvku může nebo nemusí mít velký vliv na regresní odhady. • Vlivné body jsou takové, kdy jejich vynecháním dochází k velké změně regresních parametrů (často neobvyklá kombinace hodnot vysvětlujících proměnných). Nutno diagnostikovat a případně vyřadit.

  28. Vlivná pozorování -diagnostika • DFBETA(-i)=b-b(-i) Rule of thumb: Indikace problému NDFBETA>2/√n Poznámka. Obdobný indikátor DFFIT a NDFFIT (Hebák, 2. díl, str. 101) , indikace problému NDFFIT>2/√(n/p)

  29. Heteroskedasticita • Předpokladem obyčejné regrese je konstantní rozptyl chybové složky pro všechny hodnoty nezávisle proměnných. • Vizuálně lze prověřit: Graf reziduí oproti hodnotám nezávisle proměnných • Testy - Glejser, Goldfeld-Quandt • Řešení: vážená MNČ, měření dáme váhu, která je nepřímo úměrná odhadnutému rozptylu chyb

  30. Glejserůvtest • Modeluje závislost velikosti reziduí na nezávislé(-ých) proměnné (-ých) :

  31. Multikolinearita • Odhad: • Existují silné závislosti mezi nezávislými proměnnými : X´X je singulární matice nebo téměř singulární Důsledky: standardní chyby odhadů beta jsou veliké, nevíme, tedy jak prediktory vlastně působí, na regresi mají pak také větší vliv vychýlené hodnoty, nahodnocen součet čtverců beta, nestabilita odhadů

  32. Multikolinearita Odhalení: Korelace Xj na ostatních Xs, tedy průzkum korelační matice (měření škodlivé multikolinearity - orientační kritérium alespoň jeden párový korelační koeficient mezi vysvětlujícími proměnnými ve výši 0,8) Další možnosti: a) Tolerance (1-R2j) b) VIF = 1/(1-R2j)VIF jsou diagonální prvky R-1 c) poměr: max lambda/min lambda (v SPSS tzv. Condition index) ROT*= nad 30 → problém *ROT=Rules of thumb

  33. Multikolinearita Řešení • Ignorovat • Vypustit proměnnou • Získat další data • Použít FA (s rotací) a regrese s faktory • Ridge regreseRidge regrese má zkreslené odhady ale menší standardní chyby (změníme trochu diagonálu)

  34. Poučky k regresi • AIC, BIC atd. jsou dostupné jen přes syntax, v nabídce je nenajdeme, lze zapsat za slovo STATISTICS slovo SELECTION (výstup viz Model Summary) • Regrese na rozdíl od korelace umí modelovat i nelineární vztah (tzv. nelineární regrese, viz později). Vychází-li korelace nízká, může tedy být možné budovat regresní model nelineární. Tvar modelu nám může poradit grafické zobrazení dat (to platí vždy aneb grafická analýza by měla být první) • Poznámka: Nevíme-li o vztazích jakého jsou druhu (lineární, kvadratické, logaritmické atd.) je rozumné volit lineární vztahy jsou přípustným zjednodušením a zároveň se nejlépe interpretují

  35. Poučky k regresi • Linearitu je také možno dosáhnout vhodnou transformací dat, nesmíme pak ale zapomenout „odtransformovat“ výsledky (viz dále) • Nízký koeficient determinace neznamená nutně, že proměnné v modelu nevysvětlují změny závislé proměnné, ale důvodem může být chybná volba modelu (lineárního místo kvadratického apod.) • Pro „slušný“ výpočet regresní analýzy se vyžaduje mít na každou proměnnou zařazenou v modelu cca 100 pozorování (rozhodně nikdy méně než 10 pozorování na 1 proměnnou!!!). Pamatujme na to jak rychle narůstá počet umělých proměnných u nominálních/ordinálních proměnných

  36. Exkurz: Transformace dat • Jaké známe transformace dat • Centrování • Standardizace • Co dalšího? • Linearizující transformace (viz např. příjem – původně logaritmicko normální rozdělění) • Základní transformace – logaritmická, odmocninná, mocninná, exponenciální

  37. Transformace dat a regrese • Jak postupovat? • Nejdříve transformujeme příslušnou proměnnou • Vypočítáme lineární regresi • vypočtené koeficienty musíme odtransformovat • Upozornění: Při použití tohoto postupu nejsou již nalezené odhady nezkreslené (ztrácíme tedy jednu z výhod MNČ)

  38. Nelineární regrese v SPSS • Grafické řešení • Výpočetní řešení • Statistické složitosti

  39. Nelineární regrese v Excelu • Grafické řešení • Výpočetní řešení v analytickém modulu

More Related