1 / 24

Auswahl der Untersuchungseinheiten – Stichprobenverfahren

Auswahl der Untersuchungseinheiten – Stichprobenverfahren. Terminologie I. Grundfrage: Für wen sollen Aussagen gelten? Grundgesamtheit (N=…) Definition der Menge von Objekten, für die die Aussagen gelten sollen Vollerhebung Elemente (Untersuchungseinheiten)= alle Objekte der GG

kiley
Download Presentation

Auswahl der Untersuchungseinheiten – Stichprobenverfahren

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Auswahl der Untersuchungseinheiten – Stichprobenverfahren

  2. Terminologie I • Grundfrage: Für wen sollen Aussagen gelten? • Grundgesamtheit (N=…) • Definition der Menge von Objekten, für die die Aussagen gelten sollen • Vollerhebung • Elemente (Untersuchungseinheiten)= alle Objekte der GG • gesamte Verteilung und Parameter der Merkmale bekannt Teilerhebung: nicht regelgeleitet: unvollständige Vollerhebung regelgeleitet: Auswahl, Stichprobe • Stichproben (n=…) • Verteilung und Parameter müssen geschätzt werden (z.B. Mittelwerte) • systematische Auswahl von Untersuchungseinheiten aus der GG, meist auf dem Zufallsprinzip basierend (random samples) - Kein Zufallsprozeß: willkürliche oder bewusste Auwahl • Stichproben die Regel, da: • ökonomischer , schneller, nicht-destruktiv (im Bezug auf GG), genauer aber: nicht auf alle Fragestellungen anwendbar, Abweichungen vom „wahren Wert“

  3. Terminologie II • targetpopulation • angestrebte Grundgesamtheit • framepopulation (Auswahlgrundlage) • Gesamtheit der Elemente, die prinzipielle Chance auf Aufnahme in die Stichprobe haben (i.d.R. Liste) • Inferenzpopulation • tatsächliche Grundgesamtheit, über die auf Basis der Stichprobe Aussagen gemacht werden können • Idealfall: targetpopulation = framepopulation • Probleme: undercoverage, overcoverage und mehrfach aufgeführte Fälle • undercoverage: framepopulation < targetpopulation Elemente der angestrebten GG sind nicht in der Liste, auf deren Grundlage die Stichprobe gezogen wird • overcoverage: framepopulation > targetpopulation Elemente sind auf Auswahlliste, die nicht zur angestrebten GG gehören

  4. Qualitätskriterien von Stichproben Repräsentativität Stichprobenumfang Ausschöpfungsquote Repräsentativität Eine Stichprobe ist repräsentativ, wenn… 1. die Stichprobe ein verkleinertes Abbild der Grundgesamtheit hinsichtlich der Heterogenität der Elemente und hinsichtlich der Ausprägungen der für die Untersuchung relevanten Variablen ist. 2. die Einheiten oder Elemente der Stichprobe definiert sind. 3. die Grundgesamtheit angebbar und empirisch definierbar ist. 4. das Auswahlverfahren angebbar ist und Forderung (1) erfüllt, d.h. keine Verzerrungen bei der Auswahl auftreten.

  5. Stichprobenumfang • Mit steigendem Stichprobenumfang verringert sich der Auswahlfehler (auch Stichprobenfehler), da sich die Stichprobe immer mehr der Grundgesamtheit annähert. •Der Auswahlfehler kommt dadurch zustande, dass nur eine begrenzte Anzahl Elemente der Grundgesamtheit in der Stichprobe enthalten sind. Ausschöpfungsquote ( Nonresponsequote) • systematische vs. nicht-systematische Ausfälle Berechnung: Bruttostichprobe - stichprobenneutralen Ausfälle = bereinigte Stichprobe - systematischen Ausfälle = durchgeführte und ausgewertete Interviews Ausschöpfungsquote(%) = durchgeführte Interviews / bereinigte Stichprobe *100

  6. Zufallsstichproben • für jedes Element der GG ist die Wahrscheinlichkeit, aufgenommen zu werden, bekannt und größer Null • einfache Zufallsstichprobe (simple random sample , SRS) • Auswahlwahrscheinlichkeit für alle Elemente gleich groß • einstufiger Auswahlprozess • einfache Listenauswahl • Lotterieauswahl (Urnenwahl) • systematische Auswahl: • Geburtstagsmethode, Buchstabenmethode, Schlussziffern etc. • Flächenstichprobe • Random-Route („Begehungsanweisung“) • Schweden-Schlüssel (Kish selection grid)

  7. einfache Listenauswahl

  8. „Schweden-Schlüssel“

  9. geschichtete Zufallsstichproben • GG wird in Schichten aufgeteilt, • jedes Element nur in einer Schicht • aus diesen Schichten werden dann einfache Zufallsstichproben gezogen • proportional • die Anteile der Schichten innerhalb der Stichprobe entsprechen den Anteilen der Schichten innerhalb der GG • disproportional • ist dies nicht der Fall • Vorteile: • wenn Streuung sehr groß • bei Untersuchung kleiner Subpopulationen

  10. Klumpenstichproben(clustersamples) • einfache Zufallsstichprobe • Anwendung auf Gruppen von Elementen (Klumpen) • innerhalb der Klumpen Vollerhebung • Klumpeneffekt • Genauigkeitsverlust gegenüber einer einfachen Zufallsstichprobe • steigt mit: relativer Klumpengröße, Homogenität innerhalb und Heterogenität zwischen den Klumpen • sinkt mit steigender Klumpenanzahl

  11. mehrstufige Auswahlverfahren • Auswahlverfahren werden auf verschiedenen Ebenen angewendet • zu beachten: Primäreinheiten enthalten nahezu immer unterschiedliche Anzahl an Sekundäreinheiten • Elemente aus größeren Einheiten besitzen ohne Gegenmaßnahmen geringere Wahrscheinlichkeit, gezogen zu werden

  12. PPS-Design (probabilityproportional tosize): Beispiel • Stichprobe von n = 1000 Haushalte aus einer Stadt mit N = 100.000 Haushalten • P(Person) = 0.01 • nur Listen für Blocks zur Verfügung, N=2000 • Ziehung von 200 Blocks, und in jedem Auswahl von 5 Haushalten • Jeder Haushalt soll aber die gleiche Wahrscheinlichkeit haben, in die Stichprobe zu kommen, ungeachtet der Blockgröße (jeweilige Anzahl der HH im Block) 1.Stufe: Blocks – zu realisierende Auswahlwahrscheinlichkeit proportional zur Größe: • P(Blocks)=(Anzahl auszuwählender Blocks*Blockgröße)/Anzahl aller HH der Stadt) • P(Bl. mit 100 HH) = 200*100/100.000 = 0.2 • P(Bl. Mit 400 HH)) = 200*400/100.000 = 0.8 -> Blöcke entsprechend dieser Wahrscheinlichkeit auswählen 2. Stufe: Haushalte – Ziehungswahrscheinlichkeit • P (Haushalt) in 100erBlock = 5/100 = 0.05 • P (Haushalt) in 400erBlock = 5/400 = 0.0125  • Tatsächliche P (HH in 100erBlock ) = 0.2*0.05 = 0.01 • Tatsächliche P (HH in 400erBlock ) = 0.8*0.0125 = 0.01

  13. willkürliche und bewusste Auswahlverfahren • willkürliche Auswahlverfahren • Auswahl liegt allein im Ermessen des Auswählenden (=unwissenschaftlich) • bewusste Auswahlverfahren • es existiert zwar ein Auswahlplan, aber die Auswahl erfolgt nicht zufällig • Auswahl extremer Fälle • Auswahl typischer Fälle • Auswahl nach dem Konzentrationsprinzip • Auswahl nach dem Schneeballprinzip • Quota-Verfahren • Quotenmerkmale sollen dieselbe relative Häufigkeit aufweisen, wie in der GG (z.B. Geschlecht, Alter, Bildung, soziale Schicht) • unabhängige und kombinierte Quoten • Probleme: • Verteilung der Quotenmerkmale muss bekannt sein • Quotenmerkmale selbst müssen relevant sein • Interviewer sollte innerhalb der Quoten Zufallsauswahl treffen • Quotierungsmerkmale müssen leicht erfassbar sein • Ausfälle können nicht untersucht werden

  14. Grundlagen der Inferenzstatistik I • Gründe für die Bevorzugung von Zufallsauswahlen: • alle Elemente besitzen dieselbe Chance, in die Stichprobe zu gelangen • Wahrscheinlichkeit der Aufnahme richtet sich daher allein nach der Häufigkeit • Bsp.: • GG von N=20.000 Studenten, davon 5000 BWL (25%) und 100 Altorientalisten (0.005%) • Stichprobe n=500 Studenten sollte wie folgt verteilt sein: 125 BWL-Studenten und 2,5 Altorientalisten • da nur Auswahl der Elemente in Stichprobe, werden die Anteile nicht zwingend wie im Beispiel ausfallen • es kann aber die Wahrscheinlichkeit angegeben werden, mit der auf die GG geschlossen werden kann

  15. Grundlagen der Inferenzstatistik II • wie sehr Zufallsstichprobe von GG abweicht, drückt der Stichprobenfehler aus: • ist abhängig von Homogenität der GG und Stichprobengröße • wenn die Wahrscheinlichkeit sehr hoch ist, Ergebnisse der Stichprobe auf GG zu übertragen, wird dies als „signifikant“ bezeichnet – immer verbunden mit der Angabe der Wahrscheinlichkeit • Signifikanz bedeutet NICHT, dass Ergebnis bedeutsam ist oder (im Fall von Unterschieden/Zusammenhängen) dass es groß/stark ist • Zufallsstichprobe gleicht Zufallsexperiment (Ausgang hängt vom Zufall ab) • Bernoulli-Theorem: Wahrscheinlichkeit eines Ereignisses gibt an, welche relativen Häufigkeiten zu erwarten sind, wenn man das Zufallsexperiment unendlich oft wiederholen würde

  16. Grundlagen der Inferenzstatistik III Empirische Häufigkeit und theoretische Wahrscheinlichkeit bei Werfen eines Würfel bei unterschiedlicher Wurfanzahl Beispiel aus: Gehring, Uwe W. / Weins, Cornelia (2004): Grundkurs Statistik für Politologen, 4. Aufl., Wiesbaden, S. 188.

  17. Grundlagen der Inferenzstatistik V Anteil der Zahl 6 bei 100 Würfen und 1000 Wiederholungen Beispiel aus: Gehring, Uwe W. / Weins, Cornelia (2004): Grundkurs Statistik für Politologen, 4. Aufl., Wiesbaden, S. 190.

  18. Grundlagen der Inferenzstatistik VI • Anhand dieser Verteilung kann berechnet werden, wie wahrscheinlich es ist, dass bei einmaliger Durchführung des Experiments ein bestimmter Anteil auftritt. • Bei einer gegebenen GG kann daher berechnet werden, wie wahrscheinlich es ist, bei vielen Stichproben Werte innerhalb bestimmter Grenzen (Wahrscheinlichkeitsintervall), um den wahren Wert zu erhalten.

  19. Grundlagen der Inferenzstatistik VII: Wahrscheinlichkeitsintervalle 95% Wahrscheinlichkeitsintervall einer (Standard)normalverteilung untere Intervallgrenze obere Intervallgrenze Angabe der Wahrscheinlichkeit Mittelwert in der GG Standardfehler des Mittelwerts

  20. Grundlagen der Inferenzstatistik VIII • Nun ist aber nicht die Verteilung der Stichprobenwerte um einen wahren Wert der GG gesucht, sondern die Wahrscheinlichkeit, mit der von einer Stichprobe auf den wahren Wert geschlossen werden kann, d.h.: • Innerhalb welcher Grenzen finden sich bei einer gegebenen Stichprobe die Werte in der GG mit welcher Wahrscheinlichkeit? • Wenn nun Stichprobenwerte mit einer gewissen Wahrscheinlichkeit (relativen Häufigkeit) innerhalb eines Intervalls um den Wert der GG liegen, enthalten auch so viele Stichproben, wie dieser Wahrscheinlichkeit entspricht, den Wert der GG innerhalb desselben (Konfidenz-)Intervalls um ihre Stichprobenwerte • d.h. sind bspw. 95% der Stichprobenwerte nicht weiter von dem Wert der GG entfernt, als mit dem Wahrscheinlichkeitsintervall angegeben, so ist auch der Wert der GG bei 95% der Stichproben nicht weiter als dieses Intervall vom Stichprobenwert entfernt (Repräsentationsschluss)

  21. Grundlagen der Inferenzstatistik IX: Konfidenzintervalle untere Intervallgrenze des Konfidenzintervalls obere Intervallgrenze des Konfidenzintervalls Mittelwert einer Stichprobe „wahrer“ Mittelwert der GG

  22. Grundlagen der Inferenzstatistik X: Beispiel • Schafft die FDP die 5% Hürde? • Stichprobe: 1000 Personen (N), darunter 60 FDP-Wähler (p=6%=0.06) • vorgegebene Wahrscheinlichkeit: 95% ( ) • untere Grenze: • untere Grenze = 0.045 • (obere Grenze analog = 0.075) • d.h. Wert für die FDP liegt mit 95%iger Wahrscheinlichkeit im Bereich von 4.5% und 7.5%  Es ist nicht sicher, dass die FDP die 5% Hürde schafft.

  23. Grundlagen der Inferenzstatistik XI Stichprobenverteilung bei variierendem Stichprobenumfang

More Related