380 likes | 977 Views
R egresj a i korelacj a. materiały dydaktyczne. Regresja liniowa. W populacji generalnej rozważamy dwie zmienne X i Y takie, że zmienna losowa Y ma rozkład normalny z parametrami μ = m(x) i σ = σ y/x zaś zmienna X jest zmienną rzeczywistą (lub losową).
E N D
Regresja i korelacja materiały dydaktyczne
Regresja liniowa W populacji generalnej rozważamy dwie zmienne X i Y takie, że zmienna losowa Y ma rozkład normalny z parametrami μ = m(x) i σ = σy/x zaś zmienna X jest zmienną rzeczywistą (lub losową). Wartość oczekiwana zmiennej losowej Y jest funkcją liniową zmiennej X postaci: m(x) = b + ax. Wariancja σ2y/x oznacza, że zmienność cechy Y jest niezależna od zmiennej X (jest stała).
Estymacja parametrów modelu Nieznane parametry modelu y = b +ax muszą być estymowane na podstawie odpowiedniej próby losowej. Zagadnienie estymacji parametrów modelu sprowadza się do takiego dobrania parametrów aby suma kwadratów odległości każdego punktu empirycznego od prostej regresji była jak najmniejsza.
Estymacja parametrów modelu gdzie (yi, xi) oznacza elementy próby losowej.
Estymacja parametrów modelu Każdą obserwację empiryczną można zapisać jako: yi = b + a·xi +ei. Problem estymacji sprowadza się do wyznaczenia minium funkcji sdanej wzorem.
Estymacja parametrów modelu Funkcja s jest funkcją dwóch niewiadomych (a i b), aby znaleźć minimum tej funkcji musimy wyznaczyć pochodne cząstkowe funkcji s względem obu niewiadomych: i przyrównać te pochodne do zera.
Estymacja parametrów modelu Otrzymujemy układ równań postaci: Rozwiązując mamy:
Istotność równania regresji Istotność wyestymowanego równania regresji badamy weryfikując hipotezę zerową H0 : a = 0 wobec H1 : a ≠ 0 Przy prawdziwości H0 statystyka: ma rozkład t Studenta z liczbą stopni swobody równej n - 2. Wyrażenie jest oszacowaniem wariancji odchyleń od regresji z próby:
Istotność współczynnika regresji Jeżeli |t|> tkryt, to H0: a = 0 odrzucamy jako statystycznie mało prawdopodobną i mówimy o istotności wyznaczonego równania regresji. Jeśli nie to wyniki próby nie przeczą hipotezie H0i funkcja regresji jest stała. Współczynnik regresji mówi nam o tym, o ile zmieni się zmienna zależna y przy wzroście zmiennej x o jednostkę.
Dopasowanie prostej regresji Odchylenie obserwowanej wartości od jej średniej można zapisać następująco: Pierwszy składnik to część całkowitego odchylenia zmiennej y, która jest wyjaśniona regresją liniową y względem x, drugi składnik to część zmienności całkowitej, która nie została wyjaśniona regresją.
Współczynnik determinacji Wyrażenie to nazywamy współczynnikiem determinacji. r2<0; 1> Informuje on o tym, jaka część zmienności całkowitej zmiennej losowej Y została wyjaśniona regresją liniową względem X.
Jeżeli między zmiennymi Y i X istnieje pełna zależność, to wszystkie punkty empiryczne leżą na prostej, reszty są zerowe, a r2 = 1. W przypadku braku zależności (a = 0) funkcja regresji jest stała i r2 = 0.
Z tablic rozkładu Studenta odczytujemy, dla wcześniej przyjętego poziomu istotności , wartość krytyczną tn-2,. Jeżeli obliczona wartość t znajduje w dwustronnym obszarze krytycznym (-, - tn-2,), (tn-2,, +), to H0 należy odrzucić na korzyść hipotezy H1
Weryfikacja hipotezy o istotności regresji Weryfikacji hipotezy o istotności regresji testem F Fishera-Snedecora. Analiza wariancji ma postać
Predykcja na podstawie regresji liniowej Model regresji można wykorzystać do przewidywania wartości które przyjmie zmienna Y przy ustalonych wartościach zmiennej niezależnej X. Jest to zagadnienie predykcji lub prognozowania. Niestety, im wartość x, dla której dokonujemy predykcji jest bardziej odległa od średniej z próby tym mniejsza dokładność prognozy.
Przedział ufności dla wartości z modelu Dla regresji liniowej statystyka: ma rozkład t Studenta z liczbą stopni swobody n - 2. Na tej podstawie możemy wyznaczyć przedział ufności dla wartości z modelu:
Współczynnik korelacji Miarą siły związku między zmiennymi losowymi jest współczynnik korelacji , Empiryczny współczynnik korelacji r ma wszystkie własności określone dla współczynnika korelacji . Współczynnik korelacji określa także kierunek zależności. r = 1 r = -1
Kwadrat współczynnika korelacji z próby nazywany jest współczynnikiem determinacji i jest on, drugim poza współczynnikiem korelacji miernikiem siły związku między zmiennymi. Interpretacja współczynnika determinacji – podaje on w jakiej części zmienność jednej cechy jest wyjaśniona przez drugą cechę.
Weryfikacja hipotezy o istotności korelacji Założymy, że rozkład zmiennych losowych Y i X w populacji generalnej jest normalny. Na podstawie n - elementowej próby chcemy zweryfikować hipotezę, że zmienne te są liniowo niezależne: wobec Jeżeli H0 jest prawdziwa, to statystyka: ma rozkład t Studenta z liczbą stopni swobody v = n – 2. Hipoteza o istotności korelacji może być także zweryfikowana poprzez porównanie wyznaczonego współczynnika z próby z wartościami krytycznymi współczynnika korelacji wielokrotnej Pearsona.
Regresja wielokrotna liniowa Dotychczas rozpatrywaliśmy tylko dwie zmienne: Y i X. Częściej mamy do czynienia z przypadkamiw których jest zmienna losową Y oraz k zmiennych X (stałych lub losowych).
Współczynniki modelu b1, ..., bk będziemy nazywać cząstkowymi współczynnikami regresji. Kryterium estymacji : należy tak dobrać parametry modelu, aby suma kwadratów odchyleń od modelu była jak najmniejsza:
Badanie istotności regresji wielokrotnej Hipotezę o nieistotności regresji wielokrotnej możemy zapisać jako: jej weryfikacja testemF Fishera-Snedecora. Tabela analizy wariancji ma postać: Zmienność d.f SS MS Femp. F Regresji k SSR MSR FR Odchyleń n-k-1 SSE MSE Całkowita n-1 SST
Sumy kwadratów odchyleń i średnie kwadraty potrzebne do zweryfikowania hipotezy o istotności regresji mogą być wyznaczone z niżej podanych wzorów.
Badanie istotności regresji wielokrotnej Hipotezę odrzucamy gdy Odrzucenie hipotezy H0 jest równoznaczne z tym, że co najmniej jeden współczynnik regresji jest różny od zera; tzn. istnieje związek funkcyjny liniowy między zmienną zależną a zmiennymi niezależnymi. Problem statystyczny które zmienne niezależne powinny pozostać w modelu regresji.
Weryfikacja hipotez o istotności cząstkowych współczynników regresji Problem sprowadza się do zweryfikowania serii k hipotez zerowych mówiących o tym, że i-ty cząstkowy współczynnik regresji jest równy zero. Hipotezy te mogą być weryfikowane testem t-Studenta
Weryfikacja hipotez Wyrażenie jest oszacowaniem średniego kwadratu odchyleń od regresji. Przy prawdziwości hipotez zerowych tak określone statystyki mają rozkład t-Studenta z liczbą stopni swobody równą n-k-1
Hipotezę będziemy odrzucać, jeżeli wartość statystyki t znajdzie się w obszarze krytycznym. Jeżeli zmienne niezależne są z sobą powiązane to oceny istotności cząstkowych współczynników regresji nie są niezależne.
Problem doboru zmiennych W przypadku istnienia silnych współzależności między zmiennymi niezależnymi analizując funkcję regresji wielokrotnej dochodzimy do wniosku, że jest ona istotna statystycznie (testem F). Weryfikując dalej hipotezy o istotności cząstkowych współczynników uzyskujemy wartości testu t Studenta, które nie przeczą hipotezom zerowym. Czyli mamy istotną funkcję regresji ale wszystkie zmienne (analizowane oddzielnie) są nieistotne, powinny więc być usunięte z modelu. Zaczynamy od pełnego zestawu potencjalnych zmiennych niezależnych, a następnie kolejno usuwamy z modelu tę zmienną niezależną, której rola w opisywaniu zależności między zmienną Y a zmiennymi niezależnymi jest najmniejsza. Podejście takie nosi nazwę regresji krokowej.
Regresja krokowa Algorytm postępowania: • Zaczynamy od pełnego (potencjalnie) zestawu zmiennych niezależnych. Estymujemy model i wyznaczamy • Wyznaczamy wektor wartości empirycznych statystyk t dla hipotez . 3. Usuwamy z modelu tę zmienną, dla której uzyskaliśmy najmniejszą wartość empiryczną statystyki t (co do wartości bezwzglednej) i ponownie estymujemy model. Postępowanie takie kontynuujemy tak długo, dopóki w modelu nie pozostaną tylko zmienne istotne.
W trakcie wykonywania regresji krokowej powinniśmy obserwować zmiany wartości współczynnika determinacji jak i średniego kwadratu błędu. Postępowanie ma doprowadzić do maksymalizacji wartości współczynnika determinacji przy jednoczesnej minimalizacji średniego kwadratu błędu.
Ocena dopasowania modelu Miarą stopnia dopasowania modelu jest korelacja wielokrotnaR lub jej kwadrat (współczynnik determinacji D). Dobierając model funkcji regresji powinniśmy dążyć do uzyskania jak największego współczynnika determinacji (korelacji), ale przy możliwie małym średnim kwadracie odchyleń od regresji:
Regresja wielomianowa (krzywoliniowa) W wielu przypadkach interesuje nas nieliniowy związek między zmienną Y a zmienną X, np.:
Linearyzacja modelu regresji wielomianowej Przykład modelu nieliniowego z dwoma zmiennymi niezależnymi:
Wnioskowanie dla regresji wielokrotnej Współczynniki regresji: • i-ty, cząstkowy współczynnik regresji opisuje o ile średnio zmieni się wartość zmiennej Y przy wzroście i-tej wartości zmiennej X o jednostkę przy ustalonych wartościach pozostałych zmiennych niezależnych. W przypadku większości modeli regresji krzywoliniowej taka interpretracja nie jest możliwa.
Funkcje wielomianowe Model regresji wielomianowej dwóch zmiennych niezależnych jest postaci: Etap pierwszy - Wyznaczanie funkcji regresji dla jednej zmiennej niezależnej tzn. zmienna Y jest funkcją tylko jednej zmiennej niezależnej, np.
Problemy z estymacją funkcji regresji Estymacja funkcji regresji jest zagadniem trudnym ponieważ: • Brakjest pewności, że zbiór analizowanych zmiennych niezależnych jest pełny. 2.Typ funkcji regresji nie jest znany dlatego pojawia się problem doboru kształtu funkcji regresji i zestawu zmiennych niezależnych. 3. W wielu sytuacjach można uzyskać porównywalną „dobroć dopasowania modelu”, współczynnik korelacji lub R2, dla różnych typów funkcji regresji i zestawów zmiennych niezależnych.