300 likes | 612 Views
Zagadnienia regresji i korelacji. Regresja i korelacja dwóch zmiennych. Regresja liniowa. Powiedzmy, że w pewnej populacji generalnej rozważamy dwie zmienne: zmienną losową oraz zmienną rzeczywistą (lub losową) X .
E N D
Zagadnienia regresji i korelacji Regresja i korelacja dwóch zmiennych
Regresja liniowa Powiedzmy, że w pewnej populacji generalnej rozważamy dwie zmienne: zmienną losową oraz zmienną rzeczywistą (lub losową) X. O wartości oczekiwanej zmiennej losowej Y zakładamy, że jest funkcją liniową zmiennej X postaci: Wariancja oznacza, że zmienność cechy (zmiennej) Y jest niezależna od zmiennej X (jest stała).
Estymacja parametrów modelu Parametry modelu nie są znane i muszą być estymowane na podstawie odpowiedniej próby losowej. Niech oznacza elementy dwucechowej próby losowej. Wyniki te można zilustrować na wykresie w układzie OXY uzyskując rozrzut empiryczny punktów. Zagadnienie estymacji parametrów modelu sprowadza się do takiego dobrania ich wartości, aby wykres prostej “jak najlepiej” pasował do punktów empirycznych. Odpowiednie kryterium można sformułować tak: chcemy tak poprowadzić prostą regresji, aby suma kwadratów odległości każdego punktu empirycznego od tej prostej była jak najmniejsza.
Estymacja parametrów modelu (c.d.) Zgodnie z modelem każdą obserwację empiryczną można zapisać jako: a kryterium estymacji odpowiednio jako: Problem estymacji sprowadza się więc do wyznaczenia minimum funkcji s.
Estymacja parametrów modelu (c.d.) Funkcja s jest funkcją dwóch niewiadomych (a i b), aby znaleźć minimum tej funkcji musimy wyznaczyć pochodne cząstkowe funkcji s względem obu niewiadomych: Przyrównując te pochodne do zera otrzymujemy tzw. układ równań normalnych (w układzie tym, w miejsce a i b wstawiamy ich oszacowania z próby, czyli i ).
Estymacja parametrów modelu,układ równań normalnych Układ równań normalnych ma postać: Rozwiązując powyższy układ otrzymujemy:
Istotność regresji Istotność wyestymowanego równania regresji zbadamy weryfikując hipotezę zerową Przy prawdziwości H0 statystyka: ma rozkład t Studenta z liczbą stopni swobody v = n - 2. Wyrażenie jest oszacowaniem wariancji odchyleń od regresji z próby:
Istotność regresji i interpretacja współczynnika regresji Jeżeli , to H0:b = 0 odrzucamy jako zbyt mało prawdopodobną i wnioskujemy o istotności wyznaczonego równania regresji postaci: W sytuacji, gdy wyniki naszej próby nie przeczą hipotezie zerowej. Tym samym funkcja regresji ma postać: Współczynnik regresji mówi nam o tym, o ile średnio zmieni się zmienna zależna y przy wzroście zmiennej x o jednostkę.
Inne hipotezy związane z regresją Korzystając z rozkładu t-Studenta możemy także weryfikować hipotezy zerowe postaci: przy alternatywie obustronnej jak i jednostronnej. Funkcja testowa ma zawsze tę samą postać: a zmieniać się będą jedynie obszary krytyczne (zależnie od H1) albo krytyczne poziomy istotności (jeżeli korzystamy z pakietów statystycznych).
Dokładność dopasowania prostej regresji Odchylenie obserwowanej wartości od jej średniej można zapisać następująco: Pierwszy składnik można traktować jako tę część całkowitego odchylenia zmiennej y, która jest wyjaśniona regresją liniową y względem x. Drugi zaś składnik jest tą częścią zmienności całkowitej, która nie została wyjaśniona regresją. Na kolejnym slajdzie zależność ta jest zilustrowana graficznie.
Dokładność dopasowania prostej regresji (c.d.) Podnosząc do kwadratu obie strony równości i sumując po i = 1, 2,..., n otrzymamy (po odpowiednich przekształceniach) analogiczną równość dla sum kwadratów odchyleń: Równość ta wyraża podział całkowitej sumy kwadratów odchyleń dla zmiennej y na dwa składniki: - sumę kwadratów odchyleń wyjaśnioną regresją, - resztową sumę kwadratów odchyleń (nie wyjaśnioną regresją).
Współczynnik determinacji Równość można wykorzystać do konstrukcji miary dopasowania prostej regresji. Wyrażenie: w którym sumę kwadratów odchyleń wyjaśnioną regresją odnosimy do całkowitej sumy kwadratów odchyleń nazywamy współczynnikiem determinacji.
Współczynnik determinacji (c.d.) Wartość współczynnika determinacji zawiera się w przedziale <0; 1> i informuje nas o tym, jaka część zmienności całkowitej zmiennej losowej Y została wyjaśniona regresją liniową względem X. Jeżeli między zmiennymi Y i X istnieje pełna zależność, to wszystkie punkty empiryczne leżą na prostej, reszty są zerowe, a r2 = 1. W przypadku braku zależności ( ) funkcja regresji jest równa i w konsekwencji r2 = 0.
Jeszcze raz o weryfikacji hipotezy o istotności regresji Równość daje także możliwość weryfikacji hipotezy o istotności regresji testem F Fishera-Snedecora. Analiza wariancji ma postać: Zmienność df S.S M.S Femp. F Regresji 1 SSR MSR FR Odchyleń n-2 SSE MSE Całkowita n-1 SST gdzie:
Predykcja na podstawie regresji liniowej Wyestymowany model regresji można wykorzystać do przewidywania, jakie wartości przyjmie zmienna Y przy ustalonych wartościach zmiennej niezależnej X. Zagadnienie to nosi nazwę predykcji lub prognozowania. Niech będzie oszacowaniem równania regresji z próby, a oszacowaniem wariancji odchyleń od regresji.
Dokładność predykcji Wariancja wartości regresyjnej określona jest wzorem: Z powyższego wzoru wynika, że wariancja wartości regre-syjnych (teoretycznych) zależy od wielkości różnicy . Im wartość x, dla której dokonujemy predykcji jest bardziej odległa od średniej , tym mniejsza dokładność prognozy.
Przedział ufności dla wartości regresyjnej Przy założeniu, że rozważany model jest klasycznym modelem normalnej regresji liniowej statystyka: ma rozkład t Studenta z liczbą stopni swobody v = n - 2. Na tej podstawie możemy wyznaczyć przedział ufności dla wartości regresyjnych:
Prognoza pojedynczej realizacji W klasycznym ujęciu problemu predykcji (prognozowania) chodzi o estymację pojedynczej realizacji zmiennej y przy ustalonej wartości zmiennej . Zgodnie z modelem liniowym wartość tę wyznaczymy jako: a jej najlepszym estymatorem nieobciążonym jest wartość regresyjna
Błąd prognozy pojedynczej realizacji Błąd prognozy pojedynczej realizacji zmiennej y (błąd predykcji) jest sumą nieskorelowanych błędów odchyleń pojedynczych realizacji i błędu wartości regresyjnej:
Przedział ufności (predykcji) Podobnie jak w przypadku wartości regresyjnej możemy zbudować przedział ufności dla prawdziwej wartości zmiennej losowej y przy ustalonej wartości zmiennej :
Współczynnik korelacji Powiedzmy, że w pewnej populacji generalnej obserwujemy dwie zmienne losowe Y i X. Miarą siły związku między zmiennymi losowymi jest współczynnik korelacji , a jego oceną w próbie wyrażenie: Współczynnik korelacji r ma wszystkie własności określone dla współczynnika korelacji w populacji: • , jeżeli cechy (zmienne) są liniowo nieskorelowane • , jeżeli między zmiennymi zachodzi zależność liniowa (wprost lub odwrotnie proporcjonalna).
Współczynnik korelacji (c.d.) Współczynnik korelacji określa, oprócz siły związku między zmiennymi, także kierunek zależności. Zależności między wartościami współczynnika korelacji r a kształtem rozrzutu danych empirycznych pokazane będą na dwóch kolejnych slajdach. Kwadrat współczynnika korelacji z próby będziemy nazywać współczynnikiem determinacji i jest on, drugim poza współczynnikiem korelacji miernikiem siły związku między zmiennymi. Interpretacja współczynnika determinacji jest nam już znana: podaje, w jakiej części zmienność jednej cechy jest wyjaśniona przez drugą cechę.
Wartości r a rozrzut empiryczny punktów r bliskie -1
Weryfikacja hipotezy o istotności korelacji Załóżymy, że rozkład zmiennych losowych Y i X w populacji generalnej jest normalny. Na podstawie n-elementowej próby chcemy zweryfikować hipotezę, że zmienne te są liniowo niezależne: wobec Jeżeli H0 jest prawdziwa, to statystyka: ma rozkład t Studenta z liczbą stopni swobody v = n - 2 Wnioskowanie co do losów H0 jest standardowe.
Istotność regresji a korelacji Hipoteza o istotności korelacji może być także zweryfikowana poprzez porównanie wyznaczonego współczynnika z próby z wartościami krytycznymi współczynnika korelacji wielokrotnej Pearsona. Jeżeli (gdzie k oznacza liczbę zmiennych niezależnych), to odrzucamy na korzyść Hipotezy o istotności regresji i korelacji są równoważne, tym samym weryfikując jedną z nich wypowiadamy się jednocześnie o losach drugiej.