840 likes | 1.03k Views
Skalowanie jedno-wymiarowe wprowadzenie. Twarze sondażu. Warsztat 2014. Henryk Banaszak Zakład Statystyki, Demografii i Socjologii Matematycznej. Program.
E N D
Skalowanie jedno-wymiarowewprowadzenie Twarze sondażu Warsztat 2014 Henryk Banaszak Zakład Statystyki, Demografii i Socjologii Matematycznej
Program • Pomiar.Klasyczna teoria pomiaru: emopiryczny system relacyjny, formalny system relacyjny, problem istnienia i jednoznaczności funkcji pomiarowej,
Zmienne obserwowalne i ukryte Poziom pomiaru – typy zmiennych Pomiar a skalowanie Skalowanie Skalowalność Wymiarowość Wskaźniki niezbędne Własności wskaźników Algorytm skalowania Wynik skalowania
Pomiar Pomiarem w sensie klasycznym jest operacją polegającą na • wykazaniu, że istnieje reguła, według której można przedmiotom przypisać liczby w taki sposób, aby na podstawie liczb przypisanych obiektom można było orzekać o zachodzeniu relacji empirycznych między nimi • (oraz) ustaleniuna ile to przyporządkowanie jest jednoznaczne, w jakim stopniu można modyfikować przypisane obiektom liczby bez utraty informacji o własnościach obiektów, którą zawierają, a więc czy istnieje wiele równoważnych sposobów tego przyporządkowania Mierzenie jest zatem operacją polegającą na dowodzeniu twierdzeń. Aby pokazać, o czym wypowiadają się twierdzenia i na czym polega ich dowodzenie, problem pomiaru trzeba sformułować formalnie
Pomiar to reprezentowanie fizycznych własności obiektów przez liczby E = , E1, E2, …, Ek = {1 , 2 , …., n } – zbiór obiektów empirycznych Empiryczny system relacyjny E1, E2, …, Ek - relacje między obiektami empirycznymi = , R1, R2, …, Rk - zbiór liczb, podzbiór zbioru liczb rzeczywistych Liczzbowy system relacyjny R1, R2, …, Rk - relacje między liczbami Fukcja pomiarowa f ustala odpowiedniośćmiędzy empirycznymi i liczbowym systemem relacyjnym f : E każdemu obiektowi empirycznemu I przyporządkowuje liczbę f(I) f() każdej empirycznej relacji E1, E2, …, Ekprzyporządkowuje relację liczbowąR1, R2, …, Rk: f(Ei) = Ri relacjom empirycznym między obiektami odpowiadająrelacje między przyporządkowanymi im liczbami iEkjf(i)Rk(j), gdzie Rk= f(Ek)
Reprezentacyjna koncepcja pomiaru (Stevens, 1946) E = , 1 = N1 , < Empiryczny system relacyjny N1 ={3, 5, 7} liczby 3 < 5 < 7 relacja mniejszości Dwa liczbowe systemy relacyjne 1 2 3 2 = N2 , < = {1, 2 , 3} obiekty empiryczne N2 ={¼, ⅓, ⅞} liczby ¼ < ⅓< ⅞ relacja mniejszości Jakie przekształcenie przeprowadza 1 w 2 ? empiryczna relacja bycia mniejszym 1 2 2 3 Relacje empiryczne trzeba ustalić praktycznie Relacje między sytemami liczbowymi mają charakter formalny
Funkcja pomiarowa. Na ile sposobów można zmierzyć własności tych samych obiektów? f1 : E1 f1(1) = 3 f1(2) = 5 f1(3) = 7 f1() = N1 ={3, 5, 7} 1 2 3 < 5 2 3 5 < 7 f2 : E2 f2(1) = ¼ f2(2) = ⅓ f2(3) = ⅞ E = , f2() = N2 ={¼, ⅓, ⅞} 1 2 ¼ < ⅓ 2 3 ⅓ < ⅞ Jeden empiryczny system relacyjny – dwie funkcje pomiarowe. Co je łączy?
Dwa problemy klasycznej teorii pomiaru Problem istnienia Jakie formalne cechy musi mieć empiryczny system relacyjny, aby istniała dla niego funkcja pomiarowa Problem jednoznaczności Jeśli dla danego empirycznego systemu relacyjnego istnieje funkcja pomiarowa, to co można zrobić z jej wartościami aby nie utracić informacji o własnościach obiektów Roziązanie obu problemów polegaja na udowodzeniu twierdzeń Twierdzenia dotyczą formalnych własności empirycznego systemu relacyjnego E = , Jeśli relacja jest asymetryczna, spójna i przechodnia w , to istnieje funkcja pomiarowa f : E, gdzie =, <, taka, że: i jf(i) <f(j), Każdą rosnąca funkcja funkcji f jest również funkcją pomiarową: f(i) < f(j) g(f(i)) <g(f(j))
Klasyfikacja poziomów pomiaru – Typologia zmiennych statystycznych
Klasyfikacja poziomów pomiaru – Typologia zmiennych statystycznych
Klasyfikacja poziomów pomiaru – Typologia zmiennych statystycznych c.d.
Funkcja pomiarowa a zmienna statystyczna X : N1 E = , = {1, 2 , 3} X(1) = 3 f1 : E1 1 = N1 , < X(2) = 5 N1 ={3, 5, 7} f1(1) = 3 X(3) = 7 f1(2) = 5 f1(3) = 7 N1 Funkcja pomiarowa Zmienna statystyczna
Klasyfikacja poziomów pomiaru – Typologia zmiennych statystycznych c.d.
Poziom pomiaru zmiennej statystycznej określa klasa dopuszczalnych przekształceń jej wartości
Rejestracja danych w badaniu sondażowym Deklaracjawartości zmiennej nominalnej Zawód, wyznanie, stan cywilny, zamiar głosowania na Pytanie rozstrzygnięcia Zdał – nie zdał Wybór k spośród n – wektor binarny Wskaż te obiekty, które są …… Porównywanieobiektów parami Preferencja A nad B: zaufanie, ocena działalności Wymuszone reakcje porządkowe Na skali od 1 do k określ jak bardzo …. Zadanie rozwiązał na k punktów z n możliwych Deklaracjawartości zmiennej interwałowej Staż pracy, ile czasu przed TV, jak często robisz … Porządkowanie zbioru obiektów Uporządkuj od najbardziej … do najmniej Graf obciązony porządkowo Jak bardzo intensywna jest relacja z każym z k obieków
Uogólniony problem pomiaru rejestracja danych Struktury typowetypowe wzory strukturalne identyfikacja struktury danych zarejestrowanych Klasyfikacja E = , Porządek E = , , Odległość E = , , , , pomiar jako wzór strukturalny w1 • problem istnienia struktury w2 w4 • problem stopnia rozmycia struktury w3 W porónywaniu parami zaresjestrowano powyższe reakcje respondenta. Jakie wartości zmiennej X można przyporządkować obiektom w1 - w4 ? • problem jednoznaczności funkcji pomiarowej dla struktur nierozmytych Do której z typowych struktur najbardziej podobna jest struktura relacji respondenta?
Problem skalowania Wskaźniki są wynikiem pomiaru znanego typu, co oznacza, że dla każdego z nich znany jest zakres dopuszczalnych analiz statystycznych, które można na nich wykonywać X1 X2 X3 Xk Zmienną ukrytą b oraz obserwowalne wskaźniki typu Xi wiąże relacja „bycia wskazywanym”: każdy ze wskaźników „wskazuje” zmienną ukrytą b b Teoria b Poziom pomiaru wskaźników ogranicza repertuar środków statystycznych, za pomocą których opisuje się związek zmiennej ukrytej ze wskaźnikami Związek wskaźników ze zmienną ukrytą jest elementem teorii zjawiska (własności) reprezentowanej przez b
Skalowanie wynika z teorii cechy ukrytej Cechy ukryte są elementem teorii zjawiska, która wiąże obserwacje (wskaźniki) z konstruktem teoretycznym (cecha ukrytą) za pomocą relacji korespondencji. Teoria zjawiska • Własności wskaźników (X1, X2, X3, ..., Xi, ..., Xk) • Własności cech ukrytych b1 , b2 , .... bm • Relacje (zależności) między cechami obserwowalnymi i ukrytymi RXb Korespondencja: Skala Skalogram Model skalowania reguły wnioskowania o cechach ukrytych na podstawie cech obserwowalnych
Skalowanie a falsyfikacja teorii Model skalowania jest elementem teorii empirycznej Teoria może być empirycznie sfalsyfikowana Czy empirycznie stwierdzone własności obiektów empirycznych dają się poprawnie reprezentować liczbowo Problem pomiaru: Czy teoria empirycznie własności obiektów empirycznych, z której wynika model skalowania jest prawdziwa Problem skalowania:
Składowe problemu skalowania Test teorii, z której wywodzi się model skalowania • Wykonalność skalowalność Czy spełnione obiekty empiryczne mają własności zakładane przez model skalowania Czy łączny rozkład wskaźników (X1, X2, X3, ..., Xi, ..., Xk) ma własności postulowane przez model skalowania Jeśli tak, to • W jaki sposób wyznaczyć wartości cechy ukrytej dla obiektu, kórego obserwowalne własności są znane • Askrypcja Algorytm skalowania • algorytm wyliczania wartości zmiennej ukrytej na podstawie wartości wskaźników
Czym jest skalowanie Ogólny problem skalowania w wersji sformalizowanej ={ω1, ω2, ..., ωn} (X1, X2, X3, ..., Xi, ..., Xk) : W zbiorowości zdefiniowano zestaw obserwowalnych zmiennych typu Xi, nazywanych wskaźnikami nieobserwowalnej zmiennej b Na podstawie łącznego rozkładu zmiennych –wskaźników wyznacz wartości zmiennej b dla każdego obiektu badanej zbiorowości
Kryteria oceny modelu skalowania • Niezmienniczość wyników skalowania przy dopuszczalnych poziomem pomiaru przekształceniach wskaźników; • Optymalność algorytmu skalowania, • Jednoznaczność i przekonywujące uzasadnienia dla decyzji, które trzeba podejmować rozwiązując problemy (1) - (8) wymienione wyżej.
NURTY TEORII SKALOWANIA Typ relacji między cechą ukrytą, wymiarem a wskaźnikami Addytywne Kumulatywne nominalne interwałowe binarne porządkowe Mieszane Poziom pomiaru wskaźników
Popularne metody analizy danych - szczególne przypadki modeli skalowania
Miejsce i rola rachunku prawdopodobieństwa i statystykiinferencyjnej w modeluskalowania
Skalowanie kumulatywne Bogardus Guttman Mokken Rasch
Nieco historii Bogardus, 1926: skala uprzedzeń (dystansów) etnicznych
Model skalowania w zapisie formalnym , , , , P • = {ω1, ω2, ω3, ..., ωv, ..., ωn} jest n-elementowym zbiorem obiektów, • jest k-elementowym zbiorem binarnych wskaźników (X1, X2, X3, ..., Xi, ..., Xk), • jest jednowymiarową zmienną ukrytą określoną w , • jest ck-elementowym wektorem parametrów wskaźników (X1, ..., Xk), gdzie c=1, 2, 3, ... oznacza liczbę parametrów pojedynczej funkcji reakcji; można też traktować jako funkcję, która wskaźnikom przyporządkowuje ich parametry, liczby rzeczywiste, • P jest funkcją reakcji wiążącą prawdopodobieństwo P(Xiv=x), x{0,1} reakcji obiektu ωv na wskaźnik Xi z poziomem cechy ukrytej obiektu (ωv) oraz poziomem trudności wskaźnika i.
Skalogram Guttmana w wersji deterministycznej i probabilistycznej • (porządek osób) Osoby różnią się pod względem poziomu „umiejętności” () i można je ze względu na tę cechę uporządkować. • (porządek wskaźników) Wskaźniki różnią się ze względu na stopień „trudności” () i można je ze względu na tę własność uporządkować. • (kumulatywność reakcji) każdy, kto zareagował pozytywnie/poprawnie na wskaźnik o pewnym stopniu trudności reaguje pozytywnie/poprawnie na wszystkiełatwiejsze wskaźniki:
Dopuszczalne i niedopuszczalne profile reakcji w skalogramie Guttmana Zielone profile: dopuszczalne Strukturalne zero
Praktyka skalowania modelem Guttmana Współczynnik skalowalności = funkcja liczby (proporcji) profili niezgodnych w próbie Decyzja o skalowalności
Czy skalogram Guttmana jest „dobrym modelem skalowania”
Założenia probabilistycznych modeli skalowania kumulatywnego a sytuacja testowania kompetencji
Lokalna niezależność reakcji • poziom cechy ukrytej osoby reagującej na wskaźniki jest taki sam bez względu na ich kolejność „podawania”, • prawdopodobieństwa „poprawnych” reakcji na kolejne wskaźniki zależą wyłącznie od odległości między poziomem cechy ukrytej odpowiadającego i poziomem „trudności” wskaźników, • prawdopodobieństwo serii reakcji na wskaźniki dla pojedynczej osoby jest równe iloczynowi prawdopodobieństw reakcji na każdy ze wskaźników z osobna.
Lokalna niezależność reakcji reakcje na poszczególne wskaźniki w grupach osób o tym samym poziomie umiejętności są od siebie stochastycznie niezależne Kumulatywnośc reakcji reakcje na wskaźniki są stochastycznie pozytywnie zależne.
Model Mokkena Krzywe reakcji na trzy wskaźniki w modelu Mokkena
Konsekwencje założeń Mokkena - zależność wskaźników Macierz częstości łącznych – zera strulturalne
Mokken scale – własności Statystyka dostateczna cechy ukrytej b - jak u Guttmana – suma punktów Stopień zgodności danych z modelem Współczynniki Loevingera