160 likes | 295 Views
Nelineární závislosti. Co dělat, když závislost přímkou neproložím. Jaké mám možnosti. Transformace - pomůže prakticky jen u monotónních závislostí - je třeba si dát pozor - transformace prediktoru mění jen tvar, transformace odpovědi i pravděpodobnostní charakteristiky. Jaké mám možnosti.
E N D
Nelineární závislosti Co dělat, když závislost přímkou neproložím
Jaké mám možnosti • Transformace - pomůže prakticky jen u monotónních závislostí - je třeba si dát pozor - transformace prediktoru mění jen tvar, transformace odpovědi i pravděpodobnostní charakteristiky
Jaké mám možnosti • Polynomiální regrese - libovolnou funkci lze nahradit (v omezeném rozsahu hodnot prediktoru) polynomem • Užiju, když věřím, že reziduály budou náhodně a rovnoměrně rozloženy kolem polynomu • Tradiční názvy kvadratická regrese, kubická regrese
Polynomiální regrese Y=α + β1X + β2X2 + β3X3 +…+ βmXm+ε Je to vlastně aplikace mnohonásobné lineární regrese, kde prediktory jsou X, X2, X3 atd. Počítá se stejně (tj. opět kriterium nejmenšího součtu residuálních čtverců, které má opět (normálně) jedno minimum). Obdobný význam má i R2, obdobně se počítají testy významnosti (tj. celková ANOVA modelu, a testy pro jednotlivé členy polynomu). Takže opět předpokládám, že ε je aditivní, nezávislé na predikované hodnotě (homogenita variance).
1 2 Se zvyšujícím se stupněm polynomu stoupá “flexibilita” 3 4 5 Pozor! Zvyšující se složitost nemusí znamenat lepší predikční schopnost
Stepwise regression - postupně zesložiťuji model -kvadratická regrese může být vysoce průkazná, i když lineární regrese průkazná není Průkaznost kvadratického členu můžeme chápat jako důkaz nelinearity vztahu
Polynomiální regresi užíváme obvykle, když • vidíme, že vztah není lineární, ale nemáme žádnou představu, jak by funkční závislost měla vypadat • Nepamatuji se, že bych viděl rozumné použití polynomu vyššího než třetího stupně
Jaké mám možnosti • Mám představu (třeba z nějaké teorie), jak má závislost vypadat, a věřím, že reziduály budou náhodně kolem predikované hodnoty, tj model je • Y=f(X) + ε [X zde značí vektor, může se tedy jednat o více vysvětlujících proměnných] • Odhadujeme opět metodou nejmenšího součtu čtverců
Na rozdíl od metod lineární regrese (včetně polynomiální) je nutné hledat minimum metodami numerické matematiky - nemusí existovat analytické řešení, ani není jistota, že nalezené minimum je minimem globálním. Numerický postup: 1. Zderivovat podle všech odhadovaných parametrů. 2. Položit všechny derivace rovny nule. 3. Vyřešit soustavu. Numerické řešení rovnice f(x)=0
Na rozdíl od metod lineární regrese (včetně polynomiální) je nutné hledat minimum metodami numerické matematiky - nemusí existovat analytické řešení, ani není jistota, že nalezené minimum je minimem globálním. Numerický postup: 1. Zderivovat podle všech odhadovaných parametrů. 2. Položit všechny derivace rovny nule. 3. Vyřešit soustavu. Numerické řešení rovnice f(x)=0 [Newtonova metoda] f(x) x1 x2 x3 x “Můj” odhad x
Nevýhody numerického řešení • Ne vždy konverguje • Někdy najde jen lokální minimum (i tam se derivace rovnají nule), a nemáme moc možností ověřit, jaké to minimum je • Potřebujeme počáteční odhady hodnot parametrů
Různé “lokální regrese” - nedostanu funkci, pro každý kousek platí trochu jiná
Vím, jaké má asi rozdělení odpověď • Zobecněné lineární modely • Jsou schopny odrážet typ rozdělení, (tedy i to, jakých hodnot může odpověď nabývat (třeba že pravděpodobnost přežití musí být mezi nulou a jedničkou)