270 likes | 668 Views
Korelacje, regresja prosta. Liniowe współzależności pomiędzy zmiennymi. Korelacje i regresja liniowa. Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność. Obie analizy się wzajemnie przeplatają. Analiza regresji:
E N D
Korelacje, regresja prosta Liniowe współzależności pomiędzy zmiennymi
Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem matematycznym zależności pomiędzy dwoma zmiennymi
Analiza korelacji Metoda graficzna Do wykrycia zależności (korelacji) służą wykresy rozrzutu Wyniki układają się wzdłuż linii Jest zależność! Wyniki układają się w rozmytą chmurę punktów Brak zależności!
Analiza korelacji Metoda graficzna Do wykrycia zależności (korelacji) służą wykresy rozrzutu Zależność wprosproporcjonalna Zależność odwrotnie proporcjonalna
Analiza korelacji Współczynnik korelacji liniowej Pearsona • Między zmiennymi X i Y istnieje zależność liniowa, jeżeli najlepszym przybliżeniem obserwowanego związku jest linia prosta • obliczając r Pearsona mierzymy, jak blisko linii prostej najlepiej opisującej ich związek liniowy leżą punkty
Analiza korelacji Współczynnik korelacji liniowej Pearsona • Właściwości: • r przyjmuje wartości z przedziału od -1 do +1 • Znak r wskazuje, czy zależność jest wprostproporcjonalna (dodatni r) czy odwrotnie proporcjonalna (ujemny r) • Wielkość rwskazuje, jak blisko linii prostej znajdują się punkty • X i Y można zamieniać miejscami bez wpływu na wartość r • Korelacja między X i Y niekoniecznie oznacza związek przyczynowy
Analiza korelacji Współczynnik korelacji liniowej Pearsona r = 1 Idealna zależność liniowa wprostproporcjonalna r = -1 Idealna zależność liniowa odwrotnie proporcjonalna
Analiza korelacji Współczynnik korelacji liniowej Pearsona r = -0,90 r = 0,90 Silna zależność liniowa wprostproporcjonalna Silna zależność liniowa odwrotnie proporcjonalna
Analiza korelacji Współczynnik korelacji liniowej Pearsona r = 0 r = -0,5 Brak zależności Umiarkowana zależność liniowa odwrotnie proporcjonalna
Analiza korelacji Współczynnik korelacji liniowej Pearsona • Na podstawie wartości r oceniamy siłę zależności: • |r| = 0 zmienne nieskorelowane • 0 < |r| 0,3 korelacja niska • 0,3 < |r| 0,5 korelacja przeciętna (średnia) • 0,5 < |r| 0,7 korelacja wysoka • 0,7 < |r| 0,9 korelacja bardzo wysoka • 0,9 < |r| < 1 korelacja prawie pełna
WYMOGI • Normalność rozkładów zmiennych • Liniowość zależności
KORELACJA LINIOWA PEARSONA R2 – współczynnik determinacji: • wartość r Pearsona podniesiona do kwadratu • Wyraża proporcję wspólnej zmienności dwóch zmiennych (tzn. siłę lub wielkość powiązania).
KORELACJA LINIOWA PEARSONA Aby ocenić korelację pomiędzy zmiennymi należy znać: • wartość r (siła korelacji) • znak +/- przy r (zależność wprost/odwrotnie proporcjonalna) • poziom istotności p współczynnika r (określa, czy korelacje jest/nie jest statystycznie istotna)
KORELACJA LINIOWA PEARSONA Macierze korelacji: • tabela współczynników korelacji pomiędzy wieloma zmiennymi • jedna lista zmiennych -> kwadratowa macierz korelacji (każdy z każdym) • dwie listy zmiennych -> prostokątna macierz korelacji
REGRESJA LINIOWA Regresja liniowa jest rozszerzeniem korelacji liniowej i pozwala na: • graficzną prezentację linii prostej dopasowanej do wykresu rozrzutu • określenie równania opisujące zależność dwóch zmiennych w postaci y = a * x + b zmienna zależna współczynnik kierunkowy prostej zmienna niezależna wyraz wolny
Analiza regresji liniowej Wynik testu Iloraz inteligencji
Analiza regresji liniowej y = a + b* x Wynik testu Iloraz inteligencji
REGRESJA LINIOWA W jaki sposób wyznaczana jest linia regresji liniowej? • przez minimalizację sumy kwadratów odchyleń punktów doświadczalnych od linii regresji
KORELACJA LINIOWA PEARSONA / REGRESJA LINIOWA Zagrożenia wiarygodności wniosków: • problem obserwacji odstających • inny kształt zależności
KORELACJA LINIOWA PEARSONA / REGRESJA LINIOWA Obserwacje odstające: • wartości nietypowe, występujące rzadko • punkty nie pokrywające się z rozkładem pozostałych danych • mogą odzwierciedlać rzeczywiste własności badanego zjawiska LUB być tylko anomalią, błędem pomiarowym
KORELACJA LINIOWA PEARSONA / REGRESJA LINIOWA Obserwacje odstające: • mają duży wpływ na współczynnik kierunkowy linii regresji i w konsekwencji na wartość współczynnika korelacji • Nawet jedna obserwacja odstająca może poważnie zmienić współczynnik korelacji. - sztucznie zwiększyć lub zmniejszyć jego wartość.
KORELACJA LINIOWA PEARSONA / REGRESJA LINIOWA Obserwacje odstające- jak z nimi postępować?: • wyklucza się obserwację, która wychodzi poza przedział obejmujący ±2 odchylenia standardowe (lub nawet ±1,5 odchylenia standardowego) od wartości średniej • Zdefiniowanie tego, co uznajemy za obserwację odstającą, jest sprawą subiektywną i decyzję o identyfikacji odstających obserwacji musi badacz podejmować opierając się na swoim doświadczeniu oraz powszechnie akceptowanej praktyce w danej dziedzinie badań.
KORELACJA LINIOWA PEARSONA / REGRESJA LINIOWA Obserwacje odstające- jak z nimi postępować?: • przekształcenie log(x+1) • Ogranicza ono rozrzut zmiennych, eliminuje wpływ wartości dominujących, błędów pomiarowych
KORELACJA LINIOWA PEARSONA / REGRESJA LINIOWA Kształt zależności: • Odstępstwa od liniowości spowodują wzrost sumy kwadratów odchyleń od linii regresji, nawet jeśli reprezentują one prawdziwy i ścisły związek dwóch zmiennych • Analizowanie wykresów rozrzutu jest niezbędnym elementem analizy przy obliczaniu korelacji i regresji liniowej