250 likes | 455 Views
Statistik: 14.10.04. Erheben von Daten Kategoriale Merkmale. Datenquellen. Primäre Daten, aus Vollerhebung Stichprobenerhebung Sekundäre Daten Volkszählungsdaten Daten von Statistik Austria, von der OeNB Daten aus der Hörerevidenz der WU Personal-, Lagerkartei. Messen.
E N D
Statistik: 14.10.04 Erheben von Daten Kategoriale Merkmale
Datenquellen • Primäre Daten, aus • Vollerhebung • Stichprobenerhebung • Sekundäre Daten • Volkszählungsdaten • Daten von Statistik Austria, von der OeNB • Daten aus der Hörerevidenz der WU • Personal-, Lagerkartei PI Statistik, WS 2004/05
Messen • Messen: Ist Ergebnis eines Messprozesses mit • Messinstrumenten • Messverfahren • messenden Personen • Beispiele: gemessen werden (1) die Länge eines Tisches, (2) die Länge eines Eies, (3) die Härte von Stahl, (4) die Zufriedenheit des Käufers eines PKW PI Statistik, WS 2004/05
Qualität von Messungen Kriterien für die Qualität von Messungen • Genauigkeit (accuracy): bezieht sich auf einzelnen Messvorgang • systematischer Fehler (Bias) • Präzision, Variabilität • Reproduzierbarkeit: bezieht sich auf Messsystem • Stabilität: zeitlicher Aspekt des Messsystems PI Statistik, WS 2004/05
Prozesse: Messen - Variabilität Beobachten (Messen) ist zentrales Element für Qualität von Produktions- und Dienstleistungsprozessen • Prozessvariabilität • Messvariabilität • Beispiele: • Qualität des Kaffees • Wartezeit im Call-Center PI Statistik, WS 2004/05
Datenerhebungen (surveys) • Vollerhebung (census) und Stichprobe • Grundgesamtheit (Umfang N; N meist sehr groß) • Statistische Einheiten, Elemente • Stichprobenrahmen (Liste aller Elemente der Grundgesamtheit) • Stichprobe (Umfang n; n meist klein) PI Statistik, WS 2004/05
Auswahl der Stichprobe • Auswahl ohne Zufallsmechanismus (non-probability sample survey) • Bequemlichkeits-Stichprobe (convenience sampling) • Systematische Stichprobe • Auswahl nach Zufallsprinzip (probability sample survey) • Einfache Zufallsstichprobe (simple random sample) • Geschichtete Zufallsstichprobe (stratified random sample) • Systematische Zufallsstichprobe • Klumpen- (Cluster)stichprobe PI Statistik, WS 2004/05
Einfache Zufallsstichprobe • jede mögliche Stichprobe vom Umfang n hat die gleiche Wahrscheinlichkeit, gezogen zu werden PI Statistik, WS 2004/05
Beispiel: Einfache Zufalls-SP G = {a,b,c,d,e}, n=2: es gibt 10 mögliche Stichproben: (a,b), (a,c), ..., (a,e), ..., (d,e) • Urne enthält 10 Zettel mit den 10 Paaren; wir wählen zufällig einen aus • Urne enthält 5 Zettel mit den 5 Buchstaben; wir wählen zufällig zwei (ohne Zurücklegen) aus • Zufallszahlen PI Statistik, WS 2004/05
Zufallszahlen • In Büchern; z.B. in Hackl & Katzenbeisser, S. 434 • Statistik-Software kann Pseudozufallszahlen erzeugen, z.B. EXCEL: Analyse-Funktionen >> Zufallszahlengenerierung >> Diskrete Verteilung PI Statistik, WS 2004/05
Einfache ZSP: Vor-/Nachteile • Vorteile • Ergebnisse haben keinen systematischen Fehler (Bias); sie sind "unverzerrt" • kontrollierter Stichprobenfehler • Nachteil • in Praxis nicht leicht realisierbar, oft aufwendig PI Statistik, WS 2004/05
Geschichtete Zufallsstichprobe • Zerlegung der Grundgesamtheit in Schichten • Innerhalb jeder Schicht: einfache Zufallsstichprobe • Vorteil: reduzierter Stichprobenfehler PI Statistik, WS 2004/05
Beispiel: Einkommen PI Statistik, WS 2004/05
Klumpenstichprobe • Vollerhebung in zufällig ausgewählten Teilmengen (Klumpen; Teilmengen, die die Grundgesamtheit gut repräsentieren) Geschichtete und Klumpenstichprobe: sind Beispiele für zweistufige Stichprobenverfahren PI Statistik, WS 2004/05
Erhebungsfehler • Reiner Stichprobenfehler (pure sampling error) • Variation des Ergebnisses dadurch, dass bestimmte Elemente ausgewählt werden; quantifizierbar • Stichprobenverfälschungen, z.B. Fehler im Stichprobenrahmen • Nicht-Stichprobenfehler (non-sampling error): Fehlende Antwort (non-response), Fehler der beteiligten Personen (Interviewer, Interviewter), Fehler bei Verarbeitung; schlechte Fehlerkontrolle, etc.; kaum messbar PI Statistik, WS 2004/05
Kategoriale Merkmale • Auch qualitative und kategorielle Merkmale genannt • Ordnet der Beobachtungs- oder Untersuchungseinheit eine von endlich vielen Klassen (Kategorien) zu; • Dazu gehören nominale und ordinale Merkmale • Ist immer diskret (die Menge der Merkmalsausprägungen ist endlich oder abzählbar) PI Statistik, WS 2004/05
Kreisdiagramm Beispiel: Augenfarbe von Studierenden PI Statistik, WS 2004/05
Kreisdiagramm Explodierter 3D-Kreis PI Statistik, WS 2004/05
Säulen-, Stabdiagramm PI Statistik, WS 2004/05
Absolute & relative Häufigkeit • (absolute) Häufigkeit: gibt an, wie oft eine bestimmte Kategorie in der Datenmenge vorkommt; typisches Symbol: Hi • z.B.: 15 Studierenden haben blaue Augen • relative Häufigkeit (Anteil) h i • n: Umfang der Datenmenge • Oft als Prozente (Prozentanteil) angegeben PI Statistik, WS 2004/05
Kumulierte (relative) Häufigkeiten • Summe der relativen Häufigkeiten aller vorhergehenden Kategorien, einschließlich der aktuellen • Nur für ordinale Merkmale sinnvoll PI Statistik, WS 2004/05
Noten von 52 Studierenden PI Statistik, WS 2004/05
Pivot Table-Bericht • „Ein PivotTable-Bericht ist eine interaktive Tabelle, die große Datenmengen rasch kombinieren und vergleichen kann.“ • Wichtige Hilfe zum Auszählen von Datenmengen PI Statistik, WS 2004/05
Fragestellungen • Kommen alle Kategorien gleich häufig vor ? • Entsprechen die Häufigkeiten in den Kategorien einer bestimmten Vorgabe ? • Entspricht die Häufigkeit (Prozentsatz, Anteil) in einer bestimmten Kategorie einem bestimmten Wert? • In welchem Bereich kann man den Anteil einer Kategorie in der Grundgesamtheit erwarten ? PI Statistik, WS 2004/05