630 likes | 792 Views
Sondaż w mediach Warsztat dla dziennikarzy programów informacyjnych TVP. Henryk Banaszak Zakład Statystyki, Demografii i Socjologii Matematycznej. Po co się robi sondaże. Sondaż – badanie statystyczne. Kwestionariusz – próba – realizacja – analiza danych.
E N D
Sondaż w mediachWarsztat dla dziennikarzy programów informacyjnych TVP Henryk Banaszak Zakład Statystyki, Demografii i Socjologii Matematycznej
Po co się robi sondaże Sondaż – badanie statystyczne Kwestionariusz – próba – realizacja – analiza danych Losowy vs. nielosowy dobór respondentów Reprezentatywność prób Sondaż – NieSondaż - NibySondaż Dobry sondaż – Jakość sondażu Dokładność oszacowań Koszt jakości Trafność, wiarygodność, precyzja Pułapki interpretacji wyników sondażu Publikacja wyników sondaży
Schemat logiczny wnioskowania w sondażu Dobór próby (1) Populacja n-elementowa próba losowa z populacji Probabilistyczny schemat doboru, opisany w kategoriach rachunku prawdopodobieństwa Statystyka opisowa: wyznaczenie parametrów w próbie Parametry próby (2) Parametry populacyjne (3) Wnioskowanie statystyczne Statystyka inferencyjna – zastosowanie rachunku prawdopodobieństwa do uzasadnienia reguł wnioskowania (3) (1) & (2) wniosek Przesłanki Kwestionariusz – Próba – Realizacja – Analiza danych
Schemat wnioskowania w badaniu sondażowym • (1) Dobrano losowo 1600-osobową próbę wyborców • (2) W wylosowanej próbie 400 respondentów, to jest 25% badanych, deklarowało chęć głosowania na partię X • wobec tego • (3) W populacji wyborców odsetek deklarujących zamiar głosowania na partię X wynosi 25% +/- 2,5%, to jest między 22,5% a 27,5%. (1) & (2) (3) Kwestionariusz – Próba – Realizacja – Analiza danych
Sondaż jest badaniem statystycznym Przedmiot populacja Cel zestaw pytańna temat populacji zestaw zmiennych służących do wyznaczenia odpowiedzi na pytania Zakres Metoda badanie próbypobieranej z badanej populacjiwedług schematu opisywanego w kategoriach probabilistycznych Wynik odpowiedzi na pytaniana temat populacjina podstawie analizy łącznego rozkładu zmiennychwyznaczonych w próbiedobranej losowo wedle schematu opisywanego w kategoriach probabilistycznych; wynik to oszacowania parametrów populacji + dokładność oszacowań
Specyfika badania statystycznego • Wynik badania jest parametrem statystycznym • Wynik badania jest oszacowaniem parametru • Oszacowanie obciążone jest niepewnością • Dokładność oszacowania można*)wyliczyć znając: • Własności operatu • Schemat doboru próby • Poziom non-response • Poziom braków odpowiedzi • Jakość realizacji (false records) *) przyjmując poziom ryzyka popełnienia błędu estymacji oraz założenia na temat wariancji zmiennych w populacji
pytanie Jaka jest proporcja głosujacych (zielonych)( w populacji ) 400 k osób „zielonych” losowanie obliczenia ze zwracaniem Estymacja p odpowiedź 30% wniosek Czym jest sondaż dokładność zawsze Populacja Schemat doboru próby Metoda wnioskowania
Wynik sondażu jes zawsze niedokładny – ma postać przedziału Populacja Field-work Próba zbadana 1600 3 Non- response (400) Próba wylosowana 4 No answer (30%) 2000 5 False responses (5%) Operat 1 Dziurawa, stara 2 lista obiektów populacji Źródła dodatkowego błędu oszacowań Złożony wielstopniowy Schemat doboru próby Dlatego dokładność jest prawie zawsze gorsza niż
Sondaż dobrej jakości • Odpowiada na pytania, które zamawiający postawił: • trafnie (odpowiedzi mają związek ze stanem faktycznym) • wiarygodnie (sposób zbierania danych nie budzi wątpliwości) • wystarczająco dokładnie (dokładność odpowiedzi jest znana i warta swojej ceny)
Dobry sondaż • Dobry kwestionariusz: dobra teoria, trafne wskaźniki, dobre modele pomiarowe • Dobra próba losowa – optymalne warstwowanie, optymalna alokacja, małe wariancje estymatorów • Dobra realizacja – wysoki response rate, równomierność realizacji, niski poziom braków danych, niska stopa oszustw, brak efektu ankieterskiego • Poprawna interpretacjawyników – uwzględnia osiągniętą dokładność oszacowań, istotność różnic
Kwestionariusz – Próba – Realizacja – Analiza danych Kwestionariusz Kwestionariusz – Próba – Realizacja – Analiza danych
Inteligentne wskaźniki Szacowanie frekwencji wyborczej w wyborach parlamentarnych Jak Pan(i)sądzi, jaka będzie frekwencja w wyborachw najbliższą niedzielę? Czyzamierza Pan(i)wziąć udziałw wyborachw najbliższą niedzielę? 1. Tak2. Nie3. Nie wiem |___| % Średnia odsetków podawanych przez respondentów % odpowiedzi TAK
Kwestionariusz – Próba – Realizacja – Analiza danych Próba Kwestionariusz – Próba – Realizacja – Analiza danych
Ile razy trzeba rzucać monetą aby sprawdzić, czy jest rzetelna? n=1 P=0,5 P=0,5 n=2 P=0,25 P=0,50 P=0,25 n=3 P=0,125 P=0,375 P=0,375 P=0,125 Kwestionariusz – Próba – Realizacja – Analiza danych
Losowanie próby w badaniu sondażowym to jak rzucanie monetą lub lub lub 3 2 1 0 P=0,064 P=0,288 P=0,432 P=0,216
Probabilistyczny sposób doboru próby Próba dobrana jest w sposób losowy, gdy prawdopodobieństwo dostania się do próby jest znane (nie musi być dla wszystkich identyczne) dla każdego elementu populacji. W konsekwencji: wiadomo jak szacować parametry populacji (co jest ich estymatorem) wiadomo jaka jest dokładność tego oszacowania (szerokość przedziału) przy założonym dopuszczalnym ryzyku popełnienia błędu (poziomie ufności) daje się wyznaczyć minimalną liczebność próby niezbędnej do osiągnięcia założonej dokładności oszacowań daje się sprawdzić, które z różnic lub zależności stwierdzonych w próbie są statystycznie nieistotne
Probabilistyczny dobór próby – konsekwencja Uproszczona zależność dla najprostszego schematu losowania
Dokładność oszacowań frakcji populacyjnej a wielkość prostej próby losowanej w sposób prosty ze zwracaniem Granica dokładności wyznaczona dla poziomu ufności 0,95
Nie–Sondaże Przedsięwzięcia, w których osoby ankietowane nie są losowane, nie są sondażami: • ankieta uliczna • SMS-y wysyłane podczas trwania programu TV • sondaż internetowy bez weryfikowania tożsamości respondenta • ogólnopolski sondaż telefoniczny w Polsce*) • ankieta drukowana w czasopiśmie jako sondaż jej czytelników
Dobór nielosowy • Cechy doboru celowego: o składzie badanej próby decydują badacz (określa kryteria doboru) i ankieter - wybiera spośród obiektów spełniających kryteria, • do określenia kryteriów doboru dla każdego respondenta potrzebna jest wiedza o łącznych rozkładach cech w interesującej badacza zbiorowości - należy ją zdobyć zwykle za pomocą badań na próbach losowych . Dobór losowo-kwotowy: losowa alokacja terytorialna (miasto-wieś, regiony, województwa, gminy wiejskie, miejskie) a następnie celowy dobór respondentów Dobrze skonstruowana próba kwotowa (dobierana celowo) daje niekiedy dokładniejsze oszacowania niż mało liczna próba losowa. Pożądane własności nielosowych metod doboru: uzyskanie “dobrego przedstawicielstwa” populacji ze względu na ważne dla nas cechy, czyli reprezentatywności grupy zbadanej w przedmiotowym sensie. Przykład - arkusz Kwestionariusz – Próba – Realizacja – Analiza danych
Kiedy próba dobrze reprezentuje propulację? Gdy jest reprezentatywna! Pojedyncza, konkretna, zrealizowana próba jest reprezentatywna dla pewnej populacji Każda próba pobrana w sposób losowy - dający sie opisać w kategoriach rachunku prawdopodobieństwa Między tymi dwiema reprezentatywnościami zachodzi relacja wynikania*)
Reprezentatywność – zgodność z populacją Próba zrealizowanama strukturę zgodną ze strukturą badanej populacji Stopień reprezentatywności konkretnej próby można sprawdzić tylko ze względu na te cechy, których populacyjne rozkłady sa znane Zgodność ta jest stopniowalna Zgodność zachodzi zawsze ze względu na skończony zestaw cech. Ta sama próba może zatem być wysoce reprezentatywna ze względu na płeć i wiek badanych a jednocześnie wysoce niereprezentatywna ze względu na poziom ich wykształcenia Nie da się sprawdzić czy zrealizowana próba ma strukturę zgodną z populacyjną ze względu na te cechy jednostek, których Narodowy Spis Powszechny nie rejestruje: preferencji wyborczych, poglądów, wartości i tak dalej O ile nie jest losowana, zrealizowana w jednym badaniu próba może być dla badanej populacji wystarczająco reprezentatywna a w następnym badaniu już nie
Reprezentatywność – dobór losowy Próba jest reprezentatywna – została dobrana w sposób losowy. Prawdopodobieństwo dostania się do próby jest znane (nie musi być dla wszystkich identyczne) dla każdego elementu populacji, z której jest losowana wiadomo, w jaki sposób na podstawie próby najlepiej oszacować rozkłady cech w populacji wiadomo (daje się wyliczyć) jaka jest tych dokładność oszacowań każdawylosowana w ten sam sposób próba jest w takim samym stopniu zgodna z populacją ze względu na wszystkie określone w niej zmienne. Stopień jej reprezentatywności i dokładność oszacowań oznaczają de facto to samo
Probabilistyczny dobór próby – konsekwencja Uproszczona zależność dla najprostszego schematu losowania
Dokładność oszacowań frakcji populacyjnej a wielkość prostej próby losowanej w sposób prosty ze zwracaniem Granica dokładności wyznaczona dla poziomu ufności 0,95
Operat losowania Operat= lista wszystkich obiektów badanej populacji Kwestionariusz – Próba – Realizacja – Analiza danych
Dostępne operaty dla prób ogólnopolskich Kwestionariusz – Próba – Realizacja – Analiza danych
Kwestionariusz – Próba – Realizacja – Analiza danych Realizacja Kwestionariusz – Próba – Realizacja – Analiza danych
Response rate a dokładność oszacowań Niedostępni, n2 Populacja próba = n -elementowa próbawylosowana z populacji Zbadani, n1 Response rate =
Response rate a dokładność oszacowań: przykład n = 2000 Populacja dostępnych Populacja nie-dostępnych n1 = 1600 n2 = 400 Quasi-przedział ufności dla frakcji populacyjnej Dokładność oszacowania p po wykonaniu 1600 wywiadów d = 12%
Response rate a graniczna dokładność oszacowań populacyjnej frakcji
Kryteria oceny jakości sondażu • DoKŁADNOŚĆ oszacowań:(% non-response, równomierność realizacji, % missing-data, % “sufitów”) • Czas realizacji (od zamówienia do wyników)Koszt realizacji(koszt 1 rekordu) JAKOŚĆ KOSZTUJE Nie istnieją sondaże szybkie, tanie i dobrze zrealizowane
Budżet badania Koszt realizacji w terenie Dokładność oszacowań Koszt dojazdów Wielkość próby Koszt jakości Schemat doboru próby Jakość realizacji badania Fieldwork Koszt kontroli jakości realizacji Zewnętrzna kontrola ankieterów wykonawcy Operat Koszt operatu Response-rate Missing values False records Projekt Kwestionariusz Pominięte pytanie Odmowa odpowiedzi Raport Czas trwania - koszt 1 wywiadu Koszt projektowania
Czy można sprawdzić jakość sondażu? Nigdy nie można sprawdzić, czy wynik sondażu jest zgodny z rzeczywistością – wymagałoby to zbadania całej populacji Jeśli wykonawca nie dostarczy szczegółowych informacji o tym, jak sondaż wykonał, zazwyczaj nie można sprawdzić, jaka jest trafność, wiarygodność i precyzja oszacowań dokonywanych na podstawie jego wyników • Czasami jednak można ocenić jakość sondażu pośrednio: • Gdy decyzje biznesowe podejmowane na podstawie badań ( na przykład marketingowych) okazują się tak nietrafne, że nie da się tego wytłumaczyć naturalnym losowym składnikiem wyniku sondażowego • Gdy wynik wyborów weryfikuje trafność oszacowań wykonanych na podstawie sondażu Jedynym sposobem oceny jakości sondażu jest kontrola poprawności procedury jego przeprowadzenia, którą wykonawca powinien klientowi dostarczyć zawsze
Kiedy wynik sondażu nie zasługuje na publikację Kiedy w dokumentacji dostarczonej przez wykonawcę badania brakuje co najmniej jednego z poniższych elementów: • Definicja badanej populacji • Treść zadanego pytania • Sposób rekrutacji respondentów (próba losowa, losowo-kwotowa, dobór nielosowy) • Liczebność próby • Sposób zbierania odpowiedzi: PAPI, CAPI – CATI - CAWI • Termin badania Kto płacił za sondaż Kto wykonał sondaż
Przykłady niepełnych informacji o badaniu • Mieszkańcy: pieniądze dla samorządów, „Dziennik Gazeta Prawna“, 29.05.2013 : • Prawie trzy czwarte Polaków dostrzega rozwój swojej gminy lub miasta. Z kolei niemal 60% uważa, że więcej pieniędzy niż obecnie z płaconych przez nas podatków powinno wracać do budżetów lokalnych – wynika z badania przeprowadzonego we wszystkich województwach (po 100 ankietowanych na każde województwo) na zlecenie Związku Miast Polskich (ZMP). Jaka firma wykonała badanie?
Przykłady niepełnych informacji o badaniu Polacy zaciskają pasa, „Rzeczpospolita”, 01.02.2013: „Kolejne badania potwierdzają, że konsumenci bojąc się negatywnego wpływu spowolnienia gospodarczego na swój domowy budżet, zaczynają ograniczanie wydatków w wielu dziedzinach. Z przeprowadzonego w styczniu przez dom mediowy OMD badania wynika, że aż 62 proc. z nich w najbliższym czasie planuje mniej wydawać, a jedynie 3 proc. zapowiada wzrost wydatków”. Jaką populację badano? Kim są „konsumenci”?
Przykłady niepełnych informacji o badaniu • Brudni nie jadą, „Newsweek“, 20.05.2013: • W miastach powyżej 500 tys. mieszkańców jest za tym 77 proc. badanych. ŹRÓDŁO: GRUPA IQS DLA „NEWSWEEKA”; SONDAŻ TELEFONICZNY PRZEPROWADZONY 15 MAJA 2013 ROKU; PRÓBA REPREZENTATYWNA 500 POLAKÓW. Podstawa procentowania?
Przykłady niepełnych informacji o badaniu • Europa ciągle nieprzyjazna dla gejów i lesbijek, „Gazeta Wyborcza“, 18.05.2013: • Autorzy sondażu, w ramach którego opowiedziano te historie, przepytali w internecie 93 tys. pełnoletnich osób z krajów UE i Chorwacji: gejów, lesbijek, biseksualistów i osób transseksualnych. Jak się pyta w internecie?
Kiedy wynik sondażu zasługuje na publikację Gdy wykonawca badania podaje: • dokładność populacyjnych oszacowań i sposób jej wyliczenia *) • stopień realizacji próby (response-rate) • opis zastosowanego schemat doboru próby • opis operatu, z którego próba była losowana • sposób wyznaczania wag analitycznych • stopień zgodnościpróby zrealizowanej z danymi GUS ze względu na: • Miejsce zamieszkania (wieś, małe miasta, średnie miasta, duże miasta – co najmniej 4 kategorie) • Płeć, wiek (co najmniej 5-6 kategorii) i poziom wykształcenia (co najmniej 5 kategorii) • Źródło utrzymania (aktywność ekonomiczną: pracujący, bezrobotni, uczniowie, emeryci-renciści, niepracujący) • Dla prób losowo-kwotowych - stopień zgodności próby zrealizowanej z danymi GUS ze względu na zmienne, które nie były kryteriami rekrutacji respondentów
Pułapki interpretacji wyników • Nieporównywalna treść pytań • Nieporównywalne sposoby kontaktu z respondentem (CATI- CAPI, WAPI – CAPI) • Różnice i trendy statystycznie nieistotne • Nieporównywalne schematy doboru prób (prosty - złożony, indywidualny-zespołowy) • Operat poprawny-wadliwy • Złudne „Noty metodologiczne”
Nieporównywalna treść pytań • Gdyby wybory parlamentarne odbywały się w najbliższą niedzielę, czy wzięła(-ął) by Pan(i) udział w głosowaniu (1000): • 1. Tak (650) 2. Nie (250) • Jeśli tak, to wie Pan(i), na którą partię odda Pan(i) swój głos? • 1. Tak (500) 2. Nie (150) • Jeśli TAK, to na którą? • Wariant 0: brak listy partii – pytanie otwarte • wariant 1 Nazwa parii bez logo - lista • wariant 2 Nazwa parii + logo partii - lista • wariant 3 Nazwa partii + nazwisko lidera partii - lista • wariant 4 Nazwa partii + logo partii + nazwiko lidera partii - lista • Odpowiedzi: numer z listy + trudno powiedzieć (100)
Badania nieporónywalne http://wiadomosci.wp.pl/kat,129714,title,Zaskakujace-wyniki-sondazu-to-moze-byc-manipulacja,wid,13720660,wiadomosc.html „Próba” kwotowa(?)CATI Próba losowa z operatu PESEL - CAPI Próba internautów(ważona ?)WAPI Czy jest sens liczyć średnie poparcie obu partii z trzech sondaży?
Różnice statystycznie nieistotne (Przykład fikcyjny) Liczebności prób Styczeń: n=81, Luty: n=121, Marzec: n=64, Kwiecień: n=121, Maj: n=225 Które zmiany proporcji są statystycznie znaczące? Kwestionariusz – Próba – Realizacja – Analiza danych
Różnice statystycznie nieistotne http://polska.newsweek.pl/sondaz-newsweeka-platforma-wyprzedza-pis-czytaj-na-newsweek-pl,artykuly,279158,1.html Czy: PO ma poparcie (istotnie) różne od PiS? Polska Razem (istotnie) przekracza próg 5%?
Złudna nota Badanie przeprowadzono 15 i 16 stycznia 2014 na ogólnopolskiej, reprezentatywnej próbie osób dorosłych o liczebności 1200 osób – metodą wywiadów telefonicznych CATI (800 wywiadów) oraz metodą wywiadów ankieterskich w miejscach publicznych (400 wywiadów). W prezentowanych wynikach uwzględniono wyłącznie osoby, które zadeklarowały na jaki komitet wyborczy / jakiego kandydata na prezydenta będą głosować. http://polska.newsweek.pl/sondaz-newsweeka-platforma-wyprzedza-pis-czytaj-na-newsweek-pl,artykuly,279158,1.html • Populacja Operat • Próba • Dokładność • kontakt