500 likes | 794 Views
Metodologia badań społecznych Wykłady VIII-IX. Roman Dolata Zakład Ewaluacji Instytucji Edukacyjnych Dyżury: piątki, 15.30-17.00, s. 314 rdolata@uw.edu.pl. Podstawowe pojęcia statystyczne przydatne do analizy danych ilościowych. Macierz danych.
E N D
Metodologia badań społecznychWykłady VIII-IX Roman Dolata Zakład Ewaluacji Instytucji Edukacyjnych Dyżury: piątki, 15.30-17.00, s. 314 rdolata@uw.edu.pl
Podstawowe pojęcia statystyczne przydatne do analizy danych ilościowych
Macierz danych • Wygodnym formatem zapisywania danych ilościowych jest macierz (tabela) • Wiersz macierzy to obiekt badany • Kolumna macierzy to zmienna (cecha obiektu) • Każdy obiekt ma unikalny identyfikator • Braki danych też zapisujemy w macierzy • Rodzaje braków danych: brak danych dla całego narzędzia, brak danych dla danej pozycji • Losowe i nielosowe braki danych
Rozkład liczebnościWyniki sprawdzianu 2009, rozkład dla kraju, n=400887
Rozkład procentowyWyniki sprawdzianu 2009, rozkład dla kraju, n=400887
Rozkład skumulowany, procentowyWyniki sprawdzianu 2009, rozkład dla kraju, n=400887
Podstawowe parametry rozkładu1. Miary tendencji centralnej i inne miary pozycjiWyniki sprawdzianu 2009, rozkład dla kraju, n=400887 • Średnia arytmetyczna x: 22,6 • Mediana Me: 23 • Pierwszy kwartyl (25 percentyl): 17 • Drugi kwartyl (mediana, 50 percentyl): 23 • Trzeci kwartyl (75 percentyl): 28
Jak wyznaczamy medianę i kwartyle • Porządkujemy wszystkie uzyskane wyniki od najmniejszego do największego (400887 wyników, najpierw zera, potem jedynki itd.) • Poczynając od wyników najniższych szukamy takiego wyniku, że: • a) 25% wyników jest od niego niższych, a 75% wyższych – pierwszy kwartyl • b) 50% wyników jest od niego niższych, a 50% wyższych – drugi kwartyl, mediana • c) 75% wyników jest od niego niższych, a 25% wyższych – trzeci kwartyl minimum 1. kwartyl mediana 3.kwartyl maksimum 25% wyników 25% wyników 25% wyników 25% wyników
Podstawowe parametry rozkładu2. Miary zmienności wynikówWyniki sprawdzianu 2009, rozkład dla kraju, n=400887 średnia 1. kwartyl 3. kwartyl • Wariancja: 58,2 • Odchylenie standardowe: 7,6 • Odchylenie kwartylowe (ćwiartkowe): 11
Rozkład normalny Odgrywa ważną rolę w statystycznym opisie różnych zjawisk przyrodniczych, społecznych i psychologicznych Ma interesujące właściwości matematyczne, dzięki którym oparte na nim metody statystyczne są dość proste obliczeniowo
Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15 Egzamin 1 Egzamin 2 Egzamin 3 Wyniki pierwotne
Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15 Egzamin 1 Egzamin 2 Egzamin 3 Wyniki pierwotne Wyniki znormalizowane
Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15 Egzamin 1 Egzamin 2 Egzamin 3 Wyniki pierwotne Wyniki znormalizowane Wyniki po przejściach
Standaryzacja Skala standaryzowana - skala przedstawiająca wyniki pomiarów uzyskanych z dowolnej skali w postaci jednostek odchylenia standardowego, czyli tzw. wyników standaryzowanych Zastosowanie skal standaryzowanych wynika z potrzeby porównywania wyników uzyskanych na dwóch (lub więcej) skalach pomiarowych o odmiennych właściwościach i przez to bezpośrednio nieporównywalnych Najczęściej spotykanym sposobem standaryzacji jest tzw. standaryzacja Zktórą można wyrazić poniższym wzorem gdzie: Zi- zmienna standaryzowana SD - odchylenie standardowe w grupie X - średnia w gupie Xi – wynik i-tego ucznia
Skala wyników standaryzowanych z Uzyskane w ten sposób wartości wyników standaryzowanych przyjmują wartości dodatnie lub ujemne, w zależności od tego, czy odchylają się w górę, czy w dół od wartości średniej.
Relacje pomiędzy pięcioma skalami standardowymi Autor, dr H. Szaleniec
Podstawowe modele analizy danych ilościowych Analiza rozkładu Analiza porównawcza rozkładów Analiza zależności między zmiennymi dla danych nominalnych Analiza współzmienności dla danych na skali interwałowej lub ilorazowej
Analiza rozkładu: dane o znaczeniu absolutnym Rozkład procentowy gimnazjów ze względu na odsetek dyslektyków. Dane z egzaminu gimnazjalnego 2006
Analiza rozkładu: dane o znaczeniu względnym Rozkład wyników sprawdzianu 2008 w Szkole Podstawowej X w skali staninowej
Analiza porównawcza dwóch rozkładówSprawdzian 2009, szkoły publiczne i niepubliczne
Analiza porównawcza dwóch rozkładówSprawdzian 2009, dwie szkoły
Analiza porównawcza dwóch rozkładówWykorzystanie skali staninowej Analiza porównawcza rozkładów wyników sprawdzianu w roku 2006 i 2008 w Szkole Podstawowej X z wykorzystaniem skali staninowej
Badanie zależności: dane na skali nominalnej • Tabela . Procentowe rozkłady odpowiedzi na pytanie ankiety ze względu na typ szkoły. • Zgodnie z przyjętymi rozwiązaniami maturzysta nie będzie musiał zdawać • egzaminu z matematyki. Czy jest to Pani/Pana zdaniem dobre rozwiązanie?
Badanie zależności: potrzeba kontroli innych zmiennych Tabela: Poziom religijności a głosowanie w wyborach. Rozkłady procentowe (dane wymyślone na potrzeby dydaktyczne)
Badanie zależności: potrzeba kontroli innych zmiennych, cd Tabela: Poziom religijności a głosowanie w wyborach przy kontroli wykształcenia. Rozkłady procentowe (dane wymyślone na potrzeby dydaktyczne)
Badanie zależności: dane na skali interwałowej lub ilorazowej Czy zmianom jednej zmiennej towarzyszą zmiany drugiej zmiennej? Analiza graficzna: wykresy rozrzutu Możliwe do zastosowania statystyki: - współczynnik korelacji r Pearsona
Modele wpływu zmiennych niezależnych na zmienną zależną • Model wpływu addytywnego • Model wpływu interakcyjnego
Tabele • Zawiera informację, którą trudno jest czytelnie przedstawić w tekście • Zawiera tytuł, numer, nagłówek, część główną, przypisy • Konieczny opis znaczenia liczb umieszczonych w tabeli, tak, aby można było ją zinterpretować bez odwoływania się do tekstu
Typowa tabela w artykule naukowym Tabela 1. Wyniki po terapii dla trzech podejść terapeutycznych a Średnia liczba podjętych aktywności rekreacyjnych w ciągu 1 tygodnia b Średni wynik w kwestionariuszu depresji Becka – im wyższy wynik tym większa depresja
Elementy wykresu • Wykres – graficzna ilustracja kluczowych wyników • Poziomy zmiennej niezależnej zwykle umieszcza się wzdłuż osi x, a wartości zmiennej zależnej wzdłuż osi y; każda oś powinna być opisana • Para wartości określa punkt na wykresie, który może obrazować indywidualny wynik lub średnią grupy dla konkretnej wartości zmiennej niezależnej • Rodzaje wykresów: histogramy, wykresy słupkowe, liniowe, kołowe
Wykres słupkowy Średni wynik • A. Rywalizacja indywidualna B. Rywalizacja grupowa C. Współdziałanie • Wykres 1. Średnie wyniki w teście dla 3 grup badawczych
Wykres słupkowy – dwa czynniki Średnia zmiana postawy Wykres 2. Zmiana postawy wobec brania narkotyków jako funkcja wzbudzonego lęku i bycia ochotnikiem w badaniu.
Wykres liniowy Liczba błędów Poziom hałasu Wykres 3. Średnia liczba błędów w zależności od wieku i poziomu hałasu przy wykonywaniu zadania
Wykres kołowy Wykres 4. Procentowy udział poszczególnych grup wiekowych w grupie badanych osób