440 likes | 778 Views
Statistika. Ing. Jan Popelka, Ph.D . odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka @ ujep.cz WWW: http://most. ujep.cz / ~ popelka. Analýza reziduí a Předpovědi v Regresní analýze.
E N D
Statistika Ing. Jan Popelka, Ph.D.odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka@ujep.cz WWW:http://most.ujep.cz/~popelka
Analýza reziduí v Regresní analýze • Rezidua • Podmínka náhodnosti • Podmínka nezávislosti • Podmínka normality rozdělení • Podmínka homoskedasticity • Bodová předpověď v regresním modelu • Intervalová předpověď
Analýza reziduí Regresní model Zjednodušené zobrazení reality. y = η+ ε Např. pomocí přímky: y = β0 + β1x + ε(lineární závislost) Deterministická složka Náhodná složka(popisuje vliv vysvětlující(všechny ostatní, proměnné)nepopsané vlivy)
Analýza reziduí Klasická reziduaei jsou odchylky skutečných hodnot yiod modelem odhadnutých hodnot ŷi, tedy ei = yi - ŷi V grafu jde o odchylky bodů o křivky regresního modelu. e2 e5 e1 e3 e4 e6 e7 e8 e9
Analýza reziduí Normovaná reziduaeNijsou rezidua modelu mající normální rozdělení se střední hodnotou 0 a rozptylem 1. Normalizace reziduí se provádí vydělením hodnoty rezidua směrodatnou odchylkou reziduí eNi= ei/sei. Hodnoty větší než trojnásobek směrodatné odchylky jsou brány jako odlehlé.
Analýza reziduí ! Příklad: Český hydrometeorologický ústav v Praze měřil …Rezidua regresního modelu přímky.
Analýza reziduí MS Excel: Data – Analýza – Analýza Dat – Regrese Program vykreslí graf reziduí pro jejich grafickou analýzu. Program vypíše tabulku reziduí modelu. Program dopočítá normovaná rezidua.
Analýza reziduí Aby bylo možné model použít (např. pro předpověď), měla by rezidua splňovat následující podmínky: • Rezidua jsou náhodná a nezávislá. • Rezidua mají normální rozděleníN(0;σ2). • Rozptyl reziduí σ2 je konstantní. Pokud model nesplňuje některou z výše uvedených podmínek, nelze jej pro daná data použít, i kdyby byl lepší než alternativní modely (např. podle upraveného determinačního indexu I2upr.)!
Analýza reziduíNáhodnost a nezávislost Náhodnost reziduí lze dobře posoudit pomocí bodového grafu (graf reziduí), ve kterém jsou na ose y rezidua a na ose x je vysvětlující (nezávislá proměnná). Počet kladných a záporných reziduí by měl být přibližně stejný, rezidua by měla být rozložena náhodně. Posuzování grafu je subjektivní! Zejména při malém počtu reziduí.
Analýza reziduíNáhodnost a nezávislost Příklad: V tomtopřípadě nejsou rezidua náhodná(je patrný systematickýprůběh- parabola), zvolenýmodel je absolutně nevhodný! Pozn.: jedná se o rezidua regresního modelu přímky aplikovaného na data, která ve skutečnosti vykazují parabolickou závislost. !
Analýza reziduíNáhodnost a nezávislost Příklad: V tomto případě jsou rezidua náhodná,zvolený model je vhodný. Pozn.: jedná se o rezidua modelu paraboly aplikovaného na data, která mají ve skutečnosti parabolickou závislost. !
Analýza reziduíNáhodnost a nezávislost ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Hodnocení náhodnosti reziduí z grafů reziduí pro regresní přímku a regresní hyperbolu. Z grafů se zdá, že rezidua regresní přímky i regresní hyperboly jsou náhodná. Pozor však na malý počet reziduí v grafu.
Analýza reziduíNáhodnost a nezávislost Vedle grafické analýzy lze použít i testy náhodnostireziduí např.: • znaménkový test, • test založený na bodech zvratu a testy nezávislostireziduí např.: • Durbin-Watsonův test.
Analýza reziduíNáhodnost a nezávislost Znaménkový test náhodnosti (neparametrický test) H0: rezidua jsou náhodná HA: rezidua nejsou náhodná Testové kritérium Test předpokládá, že před aplikací MNČ byly hodnoty seřazeny dle vysvětlující proměnné. Nejdříve se vypočtou rozdíly dvou po sobě jdoucích reziduí ei- ei-1a určí se počet kladných S+ a záporných rozdílů S-, jejichž součet je k. Hodnota S je větší z čísel S+ a S-. Nulové rozdíly se vypustí (pak se sníží i k). Kritický obor:W = {U; |U| > u1-α/2}, v praxi postačuje srovnání s hodnotou u0,975 = 1,96.
Analýza reziduíNáhodnost a nezávislost ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Znaménkový test (přímka): H0: rezidua jsou náhodná HA: rezidua nejsou náhodná Počet kladných rozdílů S+je vyšší a je 5, tedy S=5. Kritický obor: |U| > u1-α/2 = u0,975= 1,96. Hodnota testového kritéria U není větší než kvantil normovaného normálního rozdělení, takže nezamítáme nulovou hypotézu. Rezidua přímky jsou dle testu náhodná!
Analýza reziduíNáhodnost a nezávislost ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Znaménkový test (hyperbola): H0: rezidua jsou náhodná HA: rezidua nejsou náhodná Počet kladných rozdílů S+je vyšší a je 5, tedy S=5. Kritický obor: |U| > u1-α/2 = u0,975 = 1,96 Hodnota testového kritéria U není větší než kvantil normovaného normálního rozdělení, takže nezamítáme nulovou hypotézu. Rezidua hyperboly jsou dle testu také náhodná!
Analýza reziduíNáhodnost a nezávislost Durbin-Watsonův test nezávislosti H0: rezidua jsou nezávislá HA: rezidua jsou závislá Testové kritérium Test předpokládá, že před aplikací MNČ byly hodnoty seřazeny dle vysvětlující proměnné. Kritický obor : nemá žádné ze standardních rozdělení, nutno použít tabulky (http://most.ujep.cz/~popelka/tabulky.xls), které obsahují kritické hodnoty d a h pro počet parametrů modelu p a počet hodnot n. H0 zamítáme, pokud platí DW < d, nebo DW > 4 - d.H0 nezamítáme, pokud platí h < DW < 2, nebo 2 < DW < 4 - h.V ostatních případech test mlčí!
Analýza reziduíNáhodnost a nezávislost Durbin-Watsonův testnezávislosti - Kritický obor
Analýza reziduíNáhodnost a nezávislost ! Příklad: Český hydrometeorologický ústav v Praze měřil ... D-W test pro přímku H0: rezidua jsou nezávislá HA: rezidua jsou závislá Kritické hodnoty testu pro p=2 a n=9 nejsou v tabulce, proto použijeme nejbližší pro n=15, d= 1,077 a h = 1,361. Protože platí h < DW < 2, nezamítáme H0. Rezidua přímky jsou dle testu nezávislá!
Analýza reziduíNáhodnost a nezávislost ! Příklad: Český hydrometeorologický ústav v Praze měřil ... D-W test pro hyperbolu H0: rezidua jsou nezávislá HA: rezidua jsou závislá Kritické hodnoty testu pro p=2 a n=9 nejsou v tabulce, proto použijeme nejbližší pro n=15, d= 1,077 a h = 1,361. Protože platí 2 < DW < 4 - h, tedy 2 < DW < 2,64, nezamítáme H0. Rezidua hyperboly jsou dle testu nezávislá!
Analýza reziduíNormalita rozdělení • Rezidua mají normální rozdělení N(0;σ2) Lze zjistit několika způsoby: • Grafické metody – histogram, kvantilový graf • Popisné charakteristiky – šikmost a špičatost jsou obě blízké nule • Testy statistických hypotéz – Kolmogorov-Smirnovův test, Chí-kvadrát test dobré shody Všechny postupy jsou detailně popsány v přednášce číslo 7.
Analýza reziduíNormalita rozdělení Kolmogorov-Smirnovův test Test lze aplikovat na klasická rezidua ei, pro která platí hypotézy: H0: rezidua mají normální rozdělení N(0;σ2) HA: rezidua nemají normální rozdělení N(0;σ2) V testu lze využít normalizovaná rezidua eNi, pro která jsou hypotézy: H0: normovaná rezidua mají normální rozdělení N(0;1) HA: normovaná rezidua nemají normální rozdělení N(0;1)
Analýza reziduíNormalita rozdělení Kolmogorov-Smirnovův test Rezidua modelu se seřadí podle velikosti od nejmenší po nejvyšší. Pro každou hodnotu se vypočte hodnota distribuční funkce F(e(Ni)) hypotetického rozdělení (= NORMDIST) Testové kritérium: je maximum z hodnot T1 a T2 vypočtených pro všechna seřazená rezidua e(Ni).
Analýza reziduíNormalita rozdělení Kolmogorov-Smirnovův test Kritický obor: W={D; D ≥ d(n;α)} D statistika nemá standardní rozdělení, proto je nutno hledat v tabulce http://most.ujep.cz/~popelka/tabulky.xlsnebo např. skriptech (str. 102). Pro n > 50 pak d(n; 0,05) ≈ 1,36/n1/2
Analýza reziduíNormalita rozdělení ! Příklad: Český hydrometeorologický ústav v Praze měřil ... K-S test pro přímku Hodnoty distribuční funkce F(e(Ni)) vypočteme pomocí funkce NORMDIST s argumenty= NORMDIST (e(i);0;1;1). Proe(N1) konkrétně =NORMDIST (-1,20153;0;1;1) = 0,11477. Jde o pravděpodobnost, že hodnota normovaného rezidua bude menší nebo rovna číslu -1,20153.
Analýza reziduíNormalita rozdělení ! Příklad: Český hydrometeorologický ústav v Praze měřil ... K-S test pro přímku
Analýza reziduíNormalita rozdělení ! Příklad: Český hydrometeorologický ústav v Praze měřil ... K-S test pro přímku H0: normovaná rezidua mají normální rozdělení N(0;1) HA: normovaná rezidua nemají normální rozdělení N(0;1) Testovací statistika D = 0,2085. Kritický obor: pro 9 hodnot je D> 0,43 (podmínka zamítnutí H0). Nezamítáme H0, rezidua přímky mají normální rozdělení.
Analýza reziduíNormalita rozdělení ! Příklad: Český hydrometeorologický ústav v Praze měřil ... K-S test pro hyperbolu H0: normovaná rezidua mají normální rozdělení N(0;1) HA: normovaná rezidua nemají normální rozdělení N(0;1) Test bude proveden stejným způsobem, ale bude založen na normovaných reziduích regresního modelu hyperboly. Testovací statistika D = 0,189 Kritický obor: pro 9 hodnot je D > 0,43 (podmínka zamítnutí H0). Nezamítáme H0, rezidua hyperboly mají normální rozdělení.
Analýza reziduíHomoskedasticita • Rozptyl reziduí σ2 je konstantní – homoskedasticita. Vlastnosti rozptylu reziduí lze také posoudit pomocí grafu reziduí. Vzdálenost bodů od osy X by měla být stejná, neměla by tedy se změnou proměnné x ani růst ani klesat. Je-li rozptyl konstantní jde o tzv. homoskedasticitu. Není-li rozptyl konstantní jde o tzv. heteroskedasticitu.
Analýza reziduíHomoskedasticita Není-li rozptyl konstantní jde o tzv. heteroskedasticitu. S rostoucí hodnotou proměnné x se rezidua vzdalují od hodnoty 0. Tento model je nevhodný!
Analýza reziduíHomoskedasticita Je-li rozptyl konstantní jde o tzv. homoskedasticitu. S rostoucí hodnotou proměnné xzůstávají rezidua na stejné vzdálenosti od hodnoty 0. Tento model je vhodný!
Analýza reziduíHomoskedasticita ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Porovnání grafů reziduí pro regresní přímku a regresní hyperbolu. Z obou grafů se zdá, že u přímky ani u hyperboly se heteroskedasticitanevyskytuje. Z tohoto pohledu splňují oba modely podmínku konstantního rozptylu.
Analýza reziduíHomoskedasticita Podmínku lze testovat tak, že rezidua rozdělíme na dvě poloviny a provedeme dvouvýběrový test na srovnání rozptylů (viz přednáška číslo 5 – testování hypotéz) s hypotézami: H0: rozptyly v obou polovinách jsou stejné resp. D1(ei) = D2(ei) HA: rozptyly v obou polovinách nejsou stejné resp. D1(ei) ≠ D2(ei) Test předpokládá, že před aplikací MNČ byly hodnoty seřazeny dle vysvětlující proměnné. MS EXCEL = FTEST (první oblast; druhá oblast) neboNástroje – Analýza Dat – Dvouvýběrový F-test pro rozptyl
Analýza reziduíHomoskedasticita ! Příklad: Český hydrometeorologický ústav v Praze měřil ... MS EXCEL = FTEST (první oblast; druhá oblast) H0: rozptyly v obou polovinách jsou stejné resp. D1(ei) = D2(ei) HA: rozptyly v obou polovinách nejsou stejné resp. D1(ei) ≠ D2(ei) p-hodnota testu pro rezidua přímky = 0,9. Rezidua mají stejný rozptyl, jsou homoskedastická! p-hodnota testu pro rezidua hyperboly = 0,67. Rezidua mají stejný rozptyl, jsou homoskedastická! Oba testy dokázaly, že ani v jednom případě se heteroskedasticitanevyskytuje.
Analýza reziduí Závěr analýzy Rezidua jsou náhodná - prokázáno znaménkovým testem Rezidua jsou nezávislá- prokázáno D-W testem Rezidua obou modelů mají normální rozdělení N(0;σ2) – prokázáno K-S testem Rozptyl reziduí obou modelů je konstantní - prokázáno F-testem Modely přímky i paraboly splňují podmínky kladené na rezidua. Modely lze využít pro předpověď.
Předpovědi Vedle pochopení principu závislosti proměnných lze model použít i pro předpovědi neznámých hodnot vysvětlované proměnné. Předpovědi mohou být: • bodové – neznámé hodnoty vysvětlované proměnné y jsou odhadnuty jedním číslem. • intervalové– neznámé hodnoty vysvětlované proměnné y jsou odhadnuty oboustranným intervalem spolehlivosti.
Předpovědi Bodové předpovědi – do odhadnuté regresní rovnice dosadím požadovanou hodnotu vysvětlující proměnné (x) a vypočteme odpovídající hodnotu ŷi. Intervalovépředpovědi – oboustranný interval spolehlivosti pro podmíněnou střední hodnotu (pro průměr) má tvar: ŷi- t1-α/2(n-p) ·s(ŷi) <ηi<ŷi+t1-α/2(n-p) ·s(ŷi) , ŷi … je bodová předpověď vysvětlované proměnné a s(ŷi) … je směrodatná chyba odhadu:
Předpovědi ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Pomocí metody nejmenších čtverců byla odhadnuta regresní přímka ve tvaru ŷ= 10,795 – 0,00541 ·x. Jaká bude průměrná teplota půdy ve 100 metrů n.m. a jaká v 1000 metrů n.m.? Pro x = 100 metrů n.m. ŷ= 10,795 – 0,00541·100 = 10,25 Pro x = 1000 metrů n.m. ŷ = 10,795 – 0,00541·1000 = 5,39 V nadmořské výšce 100 metrů bude podle modelu průměrná teplota půdy 10,25 0C. V nadmořské výšce 1000 metrů bude podle modelu průměrná teplota půdy 5,39 0C.
Předpovědi ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Jaká bude 95% intervalová předpověď průměrné teploty ve 100 m n.m.? Hodnoty a charakteristiky potřebné po výpočet: • xi = 100 (hodnota proměnné x pro kterou se počítá předpověď) • ŷi= 10,25 (bodový odhad); p = 2 (počet parametrů modelu) • n = 9 (počet hodnot); α = 0,05 (pro 95% interval spolehlivosti) • x = 302,89 (průměr z hodnot x) • sx = 147,85 (směrodatná odchylka z hodnot x) • se = 0,56 (reziduální směrodatná odchylka) Pozn.: součást výstupunástroje Regrese v MS Excel
Předpovědi ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Výpočet směrodatná chyby odhadu s(ŷi). Výpočet mezí předpovědního intervalu: ŷi- t1-α/2(n-p) ·syi < ηi<ŷi+t1-α/2(n-p) ·syi, 10,25 – t0,975(9-2) · 0,65 < ηi<10,25 + t0,975(9-2) ·0,65 , 10,25 – 2,36 · 0,65 < ηi<10,25 + 2,36·0,65 , 8,716 < ηi< 11,784. S pravděpodobností 95% bude průměrná teplota půdy ve 100 m n.m. v rozmezí od 8,71 °C do 11,784 °C.
Předpovědi ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Předpovědní interval je vždy nejužší kolem střední hodnoty proměnné x (zde 302,89 m n.m.) na obě strany se pak rozšiřuje. Čím dále je předpověď od střední hodnoty proměnné x, tím nižší je její přesnost!
Analýza reziduí a Předpovědi v Regresní analýzeDůležité pojmy – 9. přednáška • Náhodná složka modelu • Rezidua modelu • Podmínky regresního modelu • Znaménkový test náhodnosti • Durbin-Watsonův test nezávislosti • Kolmogorov-Smirnovův test normality • F-test homoskedasticity • Bodová předpověď • Intervalová předpověď