560 likes | 773 Views
Sondaż w mediach Warsztat dla dziennikarzy programów informacyjnych TVP. Henryk Banaszak Zakład Statystyki, Demografii i Socjologii Matematycznej. Po co się robi sondaże. Sondaż – badanie statystyczne. Kwestionariusz – próba – realizacja – analiza danych.
E N D
Sondaż w mediachWarsztat dla dziennikarzy programów informacyjnych TVP Henryk Banaszak Zakład Statystyki, Demografii i Socjologii Matematycznej
Po co się robi sondaże Sondaż – badanie statystyczne Kwestionariusz – próba – realizacja – analiza danych Losowy vs. nielosowy dobór respondentów Reprezentatywność prób Sondaż – NieSondaż - NibySondaż Dokładność oszacowań Dobry sondaż – Jakość sondażu Koszt jakości Trafność, wiarygodność, precyzja Publikacja wyników sondaży Pułapki interpretacji wyników sondażu
Po co zamawia się sondaż Celem sondażu jest • udzielenie odpowiedzi • na pytanie • o aktualny stan populacji.? W sondażu preferencji wyborczych pytanie to brzmi: Jaki jest odsetek zwolenników poszczególnych partii w populacji uprawnionych do głosowania Polaków?
Czym jest sondaż Sposób odpowiadania na tego typu pytania: • szacowanie (odsetków, średnich itd.) na podstawie wyników uzyskanych w: • poprawnie wylosowanej próbie • pobranej z dobrze zdefiniowanej populacji • przy użyciu dobrej jakości operatu losowania • rzetelnie zrealizowanej
Schemat wnioskowania w badaniu sondażowym • (1) Pobrano losowo 1600-osobową próbę wyborców • (2) W wylosowanej próbie 400 respondentów, to jest 25% badanych, deklarowało chęć głosowania na partię X • wobec tego • (3) W populacji wyborców odsetek deklarujących zamiar głosowania na partię X wynosi 25%+/- 2,5%,to jest wprzedziale22,5% - 27,5%. (1) & (2) (3)
pytanie dokładność Jaka jest proporcja głosujacych (zielonych)( w populacji ) 400 Wynik w próbie 120 osób „zielonych” losowanie obliczenia odpowiedź wniosek Czym jest sondaż Populacja Schemat doboru próby Metoda wnioskowania
Wynik sondażu jes zawsze niedokładny – ma postać przedziału Populacja Field-work Próba zbadana 1600 3 Non- response (400) Próba wylosowana 4 No answer (30%) 2000 5 False responses (5%) Operat 1 Dziurawa, stara 2 lista obiektów populacji Źródła dodatkowego błędu oszacowań Złożony wielstopniowy Schemat doboru próby Dlatego dokładność jest prawie zawsze gorsza niż
Dobry sondaż • Dobry kwestionariusz: dobra teoria, trafne wskaźniki, dobre modele pomiarowe • Dobra próbalosowa– dobry operat, optymalne warstwowanie, optymalna alokacja, małe wariancje estymatorów • Dobra realizacja – wysoki response rate, równomierność realizacji, niski poziom braków danych, niska stopa oszustw, brak efektu ankieterskiego • Dobra dokładnośćoszacowań • Poprawna interpretacjawyników – uwzględnia osiągniętą dokładność oszacowań, istotność różnic
Nie–Sondaże Przedsięwzięcia, w których osoby ankietowane nie są losowane, nie są sondażami: • ankieta uliczna • SMS-y wysyłane podczas trwania programu TV • sondaż internetowy bez weryfikowania tożsamości respondenta • ogólnopolski sondaż telefoniczny w Polsce*) • ankieta drukowana w czasopiśmie jako sondaż jej czytelników W żadnym z tych przedsięwzięć nie da się wyliczyć dokładności oszacowań
Kiedy wynik sondażunie zasługuje na publikację Kiedy w dokumentacji dostarczonej przez wykonawcę badania brakuje co najmniej jednego z poniższych elementów: • Definicja badanej populacji • Treść zadanego pytania • Sposób doboru respondentów (próba losowa, losowo-kwotowa, dobór nielosowy) • Liczebność próby • Sposób zbierania odpowiedzi: PAPI, CAPI, CATI, CAWI • Termin badania Kto płacił za sondaż Kto wykonał sondaż
Przykłady niepełnych informacji o badaniu • Artykuł zamieszczony na stronie internetowej „Gościa Niedzielnego”: • Na 1000 pedofilów, 400 to homoseksualiści, a 1 to ksiądz. Skąd pochodzą te dane ?
Przykłady niepełnych informacji o badaniu Polacy zaciskają pasa, „Rzeczpospolita”, 01.02.2013: „Kolejne badania potwierdzają, że konsumenci bojąc się negatywnego wpływu spowolnienia gospodarczego na swój domowy budżet, zaczynają ograniczanie wydatków w wielu dziedzinach. Z przeprowadzonego w styczniu przez dom mediowy OMD badania wynika, że aż 62 proc. z nich w najbliższym czasie planuje mniej wydawać, a jedynie 3 proc. zapowiada wzrost wydatków”. Jaką populację badano? Kim są „konsumenci”?
Przykłady niepełnych informacji o badaniu • Uczniowie: »Nie chcemy mieć Żydów w swoim otoczeniu«, „Gazeta Wyborcza“, 15.04.2013: • „Niedoinformowanie młodych ludzi dało o sobie znać przy pytaniach o eksterminację ludności żydowskiej w czasie II wojny światowej. Niemal połowa badanych (44%) stwierdziła, że Polacy i Żydzi ucierpieli wtedy w tym samym stopniu, 27,9% uznało większą ofiarę Żydów, a 24,7%. – Polaków. – Ten wynik może dziwić, zważywszy, że w czasie wojny zginęło 90% populacji Żydów i 10% populacji Polaków” – ocenia dr Michał Bilewicz z Centrum Badań nad Uprzedzeniami Uniwersytetu Warszawskiego Jak brzmiało pytanie?
Przykłady niepełnych informacji o badaniu • Europa ciągle nieprzyjazna dla gejów i lesbijek, „Gazeta Wyborcza“, 18.05.2013: • Autorzy sondażu, w ramach którego opowiedziano te historie, przepytali w internecie 93 tys. pełnoletnich osób z krajów UE i Chorwacji: gejów, lesbijek, biseksualistów i osób transseksualnych. Jak się pyta w internecie?
Przykłady niepełnych informacji o badaniu • Mieszkańcy: pieniądze dla samorządów, „Dziennik Gazeta Prawna“, 29.05.2013 : • Prawie trzy czwarte Polaków dostrzega rozwój swojej gminy lub miasta. Z kolei niemal 60% uważa, że więcej pieniędzy niż obecnie z płaconych przez nas podatków powinno wracać do budżetów lokalnych – wynika z badania przeprowadzonego we wszystkich województwach (po 100 ankietowanych na każde województwo) na zlecenie Związku Miast Polskich (ZMP). Jaka firma wykonała badanie?
Do czego ma prawo zamawiający sondaż Obowiązki agencji badawczej wobec klienta według AAPOR Report Immediately http://www.aapor.org/AAPOR_Code_of_Ethics/4249.htm#.UvFA07Qxjj0 AAPOR Code of Professional Ethics and Practices (Revised May 2010)
Kiedy wynik sondażu zasługuje na publikację Gdy wykonawca badania podaje: • dokładnośćpopulacyjnych oszacowańi sposób jej wyliczenia *) • stopień realizacji próby (response-rate) • opis zastosowanego schemat doboru próby • opis operatu, z którego próba była losowana • sposób wyznaczania wag analitycznych • stopień zgodnościpróby zrealizowanej z danymi GUS ze względu na: • Miejsce zamieszkania • Płeć, wiek i poziom wykształcenia • Źródło utrzymania • Dla prób losowo-kwotowych - stopień zgodności próby zrealizowanej z danymi GUS ze względu na zmienne, które nie były kryteriami rekrutacji respondentów
Czego unikać przedstawiając wyniki sondaży Porównywania odsetków odpowiedzi na pytania zadane w różny sposób Porównywania wyników sondaży przeprowadzanych różnymi metodami Komentowania różnic statystycznie nieistotnych, także zmian Sugerowania się liczbą ankietowanych jako wskaźnikiem wiarygodności sondażu Porównywania wyników sondaży z rezultatami przedsięwzięć sondażo-podobnych
Nieporównywalna treść pytań • Gdyby wybory parlamentarne odbywały się w najbliższą niedzielę, czy wzięła(-ął) by Pan(i) udział w głosowaniu (1000): • 1. Tak (650) 2. Nie (250) • Jeśli tak, to wie Pan(i), na którą partię odda Pan(i) swój głos? • 1. Tak (500) 2. Nie (150) • Jeśli TAK, to na którą? • Wariant 0: brak listy partii – pytanie otwarte • wariant 1 Nazwa parii bez logo - lista • wariant 2 Nazwa parii + logo partii - lista • wariant 3 Nazwa partii + nazwisko lidera partii - lista • wariant 4 Nazwa partii + logo partii + nazwiko lidera partii - lista • Odpowiedzi: numer z listy + trudno powiedzieć (100)
Badania nieporónywalne http://wiadomosci.wp.pl/kat,129714,title,Zaskakujace-wyniki-sondazu-to-moze-byc-manipulacja,wid,13720660,wiadomosc.html „Próba” kwotowa(?)CATI Próba losowa z operatu PESEL - CAPI Próba internautów(ważona ?)WAPI Czy jest sens liczyć średnie poparcie obu partii z trzech sondaży?
Różnice statystycznie nieistotne (Przykład fikcyjny) Liczebności prób Styczeń: n=81, Luty: n=121, Marzec: n=64, Kwiecień: n=121, Maj: n=225 Które zmiany proporcji są statystycznie znaczące? Kwestionariusz – Próba – Realizacja – Analiza danych
Różnice statystycznie nieistotne http://polska.newsweek.pl/sondaz-newsweeka-platforma-wyprzedza-pis-czytaj-na-newsweek-pl,artykuly,279158,1.html Czy: PO ma poparcie (istotnie) różne od PiS? Polska Razem (istotnie) przekracza próg 5%?
Pułapki interpretacji wyników Pułapki zwykłe • Nieporównywalna treść pytań • Nieporównywalne sposoby kontaktu z respondentem (CATI- CAPI, WAPI – CAPI) • Różnice i trendy statystycznie nieistotne Pułapki perfidne Próby pobrane z wadliwych operatów Mylące „Noty metodologiczne”
Złudna nota Badanie przeprowadzono 15 i 16 stycznia 2014 na ogólnopolskiej, reprezentatywnej próbie osób dorosłych o liczebności 1200 osób – metodą wywiadów telefonicznych CATI (800 wywiadów) oraz metodą wywiadów ankieterskich w miejscach publicznych (400 wywiadów). W prezentowanych wynikach uwzględniono wyłącznie osoby, które zadeklarowały na jaki komitet wyborczy / jakiego kandydata na prezydenta będą głosować. http://polska.newsweek.pl/sondaz-newsweeka-platforma-wyprzedza-pis-czytaj-na-newsweek-pl,artykuly,279158,1.html • Populacja Operat • Próba • Dokładność • kontakt
Złudna nota NOTA METODOLOGICZNA Czas realizacji badania: 12 kwietnia 2013r. Miejsce realizacji: badanie ogólnopolskie Próba: Losowo-kwotowa, stanowiąca liczebną reprezentację cech demograficznych dla ogółu pełnoletnich mieszkańców Polski z zachowaniem rozkładów terytorialnych (dane wg GUS). Operatem losowania jednostek badania jest baza teleadresowa jednostek będąca powszechnie uznanym spisem zawierającym niezbędne punkty adresowe i spełniający następujące metodologicznie konieczne warunki: aktualności, kompletności, wyłączności i dostępności. Techniką pozyskiwania numerów telefonicznych respondentów jest Random Digit Dialing, polega ona na losowaniu numerów telefonów z bazy powstałej przez generowanie numerów telefonów na podstawie przydziałów prefixów telefonicznych poszczególnym operatorom telefonii stacjonarnej przez Urząd Komunikacji Elektronicznej. Wielkość próby: n= 1081; błąd oszacowania = 3 proc.; poziom ufności 0,95. Technika badawcza: badanie zrealizowane metodą telefonicznych, standaryzowanych wywiadów kwestionariuszowych wspomaganych komputerowo (CATI). http://homohomini.com.pl/Sondaz_130413_RP.pdf • Populacja Operat • Próba • Dokładność • kontakt
Jak przedstawiać wynik sondażu w telewizyjnym programie informacyjnym • Przedstawić podstawowe informacje o sondażu na planszy z wykresami reprezentującymi wyniki: • Szczegóły kwalifikujace sondaż do publikacji oraz • Dokładność oszacowań • 2. Przed publikacją, interpretacją lub dyskusją • Ustalić, jak była treść pytań zadawanych respondentom, czy były stosowane „filtry”. • Ustalić podstawę procentowania dla każdego publikowanego odsetka (co stanowi 100% - wszyscy, czy ci którzy mają zdanie, zamierzają głosować, wiedzą na kogo będą głosować itd.) • Ustalić, które różnice są statystycznie istotne • Ustalić, czy w porównaniu z poprzednim sondażem nastąpiła zmiana statystycznie istotna • Ustalić, czy w kolejnych porównywalnych sondażach mamy do czynienia z trendem[patrz p. c)-d) powyżej]
Kwestionariusz – Próba – Realizacja – Analiza danych Próba Kwestionariusz – Próba – Realizacja – Analiza danych
Losowanie próby w badaniu sondażowym to jak rzucanie monetą lub lub lub 3 2 1 0 P=0,064 P=0,288 P=0,432 P=0,216
Probabilistyczny sposób doboru próby Próba dobrana jest w sposób losowy, gdy prawdopodobieństwo dostania się do próby jest znane (nie musi być dla wszystkich identyczne) dla każdego elementu populacji. W konsekwencji: wiadomo jak szacować parametry populacji (co jest ich estymatorem) wiadomo jaka jest dokładność tego oszacowania (szerokość przedziału) przy założonym dopuszczalnym ryzyku popełnienia błędu (poziomie ufności) daje się wyznaczyć minimalną liczebność próby niezbędnej do osiągnięcia założonej dokładności oszacowań daje się sprawdzić, które z różnic lub zależności stwierdzonych w próbie są statystycznie nieistotne
Probabilistyczny dobór próby – konsekwencja Uproszczona zależność dla najprostszego schematu losowania
Dokładność oszacowań frakcji populacyjnej a wielkość prostej próby losowanej w sposób prosty ze zwracaniem Granica dokładności wyznaczona dla poziomu ufności 0,95
Kiedy próba dobrze reprezentuje propulację? Gdy jest reprezentatywna! Pojedyncza, konkretna, zrealizowana próba jest reprezentatywna dla pewnej populacji Każda próba pobrana w sposób losowy - dający sie opisać w kategoriach rachunku prawdopodobieństwa Między tymi dwiema reprezentatywnościami zachodzi relacja wynikania*)
Reprezentatywność – zgodność z populacją Próba zrealizowanama strukturę zgodną ze strukturą badanej populacji Stopień reprezentatywności konkretnej próby można sprawdzić tylko ze względu na te cechy, których populacyjne rozkłady sa znane Zgodność ta jest stopniowalna Zgodność zachodzi zawsze ze względu na skończony zestaw cech. Ta sama próba może zatem być wysoce reprezentatywna ze względu na płeć i wiek badanych a jednocześnie wysoce niereprezentatywna ze względu na poziom ich wykształcenia Nie da się sprawdzić czy zrealizowana próba ma strukturę zgodną z populacyjną ze względu na te cechy jednostek, których Narodowy Spis Powszechny nie rejestruje: preferencji wyborczych, poglądów, wartości i tak dalej O ile nie jest losowana, zrealizowana w jednym badaniu próba może być dla badanej populacji wystarczająco reprezentatywna a w następnym badaniu już nie
Reprezentatywność – dobór losowy Próba jest reprezentatywna – została dobrana w sposób losowy. Prawdopodobieństwo dostania się do próby jest znane (nie musi być dla wszystkich identyczne) dla każdego elementu populacji, z której jest losowana wiadomo, w jaki sposób na podstawie próby najlepiej oszacować rozkłady cech w populacji wiadomo (daje się wyliczyć) jaka jest tych dokładność oszacowań każdawylosowana w ten sam sposób próba jest w takim samym stopniu zgodna z populacją ze względu na wszystkie określone w niej zmienne. Stopień jej reprezentatywności i dokładność oszacowań oznaczają de facto to samo
Dobór nielosowy Cechy doboru celowego: o składzie badanej próby decydują badacz (określa kryteria doboru) i ankieter - wybiera spośród obiektów spełniających kryteria. • Do określenia kryteriów doboru potrzebna jest wiedza o łącznych rozkładach cech w populacji – pochodząca z GUS albo z badań na dużych próbach losowych. Dobór losowo-kwotowy: losowa alokacja terytorialna (miasto-wieś, regiony, województwa, gminy wiejskie, miejskie) a następnie celowy dobór respondentów Cel nielosowych metod doboru: uzyskanie “dobrego przedstawicielstwa” populacji ze względu na ważne dla nas cechy, czyli wysokiej zgodności strukctury próby kwotowej ze strukturą populacji Dobrze skonstruowana próba kwotowa daje niekiedy dokładniejsze oszacowania niż mało liczna i źle zrealizowana próba losowa. Przykład - arkusz Kwestionariusz – Próba – Realizacja – Analiza danych
Operat losowania Operat= lista wszystkich obiektów badanej populacji Kwestionariusz – Próba – Realizacja – Analiza danych
Dostępne operaty dla prób ogólnopolskich Kwestionariusz – Próba – Realizacja – Analiza danych
Kwestionariusz – Próba – Realizacja – Analiza danych Realizacja Kwestionariusz – Próba – Realizacja – Analiza danych
Response rate a dokładność oszacowań Niedostępni, n2 Populacja próba = n -elementowa próbawylosowana z populacji Zbadani, n1 Response rate =
Response rate a dokładność oszacowań: przykład n = 2000 Populacja dostępnych Populacja nie-dostępnych n1 = 1600 n2 = 400 Quasi-przedział ufności dla frakcji populacyjnej Dokładność oszacowania p po wykonaniu 1600 wywiadów d = 12%
Response rate a graniczna dokładność oszacowań populacyjnej frakcji
Kryteria oceny jakości sondażu • DoKŁADNOŚĆ oszacowań:(% non-response, równomierność realizacji, % missing-data, % “sufitów”) • Czas realizacji (od zamówienia do wyników)Koszt realizacji(koszt 1 rekordu) JAKOŚĆ KOSZTUJE Nie istnieją sondaże szybkie, tanie i dobrze zrealizowane
Budżet badania Dokładność oszacowań Koszt liczebności Koszt dojazdów Wielkość próby Płace ankieterów Schemat doboru próby Jakość realizacji badania Koszt kontroli jakości realizacji Koszt operatu Zewnętrzna kontrola ankieterów wykonawcy Operat Koszt projektowania Projekt Kwestionariusz Czas trwania 1 wywiadu Raport
Jak można sprawdzić jakość sondażu? Nigdy nie można sprawdzić, czy wynik sondażu jest zgodny z rzeczywistością – wymagałoby to zbadania całej populacji Jeśli wykonawca nie dostarczy szczegółowych informacji o tym, jak sondaż wykonał, zazwyczaj nie można sprawdzić, jaka jest trafność, wiarygodność i precyzja oszacowań dokonywanych na podstawie jego wyników • Czasami jednak można ocenić jakość sondażu pośrednio: • Gdy decyzje biznesowe podejmowane na podstawie badań ( na przykład marketingowych) okazują się tak nietrafne, że nie da się tego wytłumaczyć naturalnym losowym składnikiem wyniku sondażowego • Gdy wynik wyborów weryfikuje trafność oszacowań wykonanych na podstawie sondażu Jedynym sposobem oceny jakości sondażu jest kontrola poprawności jego przeprowadzenia; opis zastosowanej procedury wykonawca ma obowiązek dostarczyć klientowi zawsze i natychmiast
Dobry przetarg • Szczegółowy SIWZ • Poprawny OPZ • Umowa chroniąca jakość • Właściwy wybór wykonawcy • Kontrolajakości realizacji kontraktu
Szczegółowy SIWZ Kto projektuje Warunki dopuszczenia do udziału w przetargu Kryteria wyboru oferty Jeśli chcemy maksymalizować stosunek jakości do kosztu badania powinniśmy jako kryterium wyboru oferty stosować iloraz dokładności oszacowania do ceny za jeden wywiad (rekord) Kontraktz wykonawcą przewiduje Kto wykonuje /dostarcza Podobną maksymalizację uzyskuje się zakładając docelową liczbę wywiadów zrealizowanych i wybierając takiego wykonawcę, który zażąda do tego najmniejszej póby