650 likes | 1.15k Views
2. Deskriptive Statistik. 2.1 Darstellung univariater Stichproben 2.2 Darstellung bivariater Stichproben 2.3 Kennwerte univariater Verteilungen 2.4 Kennwerte bivariater Verteilungen. 2. Aufgaben der deskriptiven Statistik:
E N D
2 Deskriptive Statistik 2.1 Darstellung univariater Stichproben 2.2 Darstellung bivariater Stichproben 2.3 Kennwerte univariater Verteilungen 2.4 Kennwerte bivariater Verteilungen
2 • Aufgaben der deskriptiven Statistik: - übersichtliche Darstellung großer Datenmengen - Erkennen von Gesetzmäßigkeiten - Vorbereitung zur theoretischen Überprüfung (schließende Statistik) • Mittel der deskriptiven Statistik: - Tabellen - Graphiken - Kennwerte der empirischen Verteilungen - Kennwerte des bivariaten Zusammenhangs • univariate und bivariate Betrachtungen: Deskriptive Statistik univariat bivariat
2 • 1. Differenzierungsmerkmal empirischer Daten: Skalenniveau - Nominalskala - Ordinalskala - Intervallskala - Rationalskala • 2. Differenzierungsmerkmal empirischer Daten: “spezielle Genauigkeit“ - singuläre Daten: - alle erfassten Daten unterschieden sich voneinander - z.B. metrische Daten mit hoher Messgenauigkeit oder ordinalskalierte Daten mit einfach besetzten Klassen - jeder Wert besitzt die absolute Häufigkeit = 1 - gruppierte Daten: - Wiederholung gleicher Messwerte oder Zusammenfassung zu Klassen (Kategorien, Rangplätze, Messwerte) - absolute Häufigkeiten 1 - singuläre Daten mit Bindung: - prinzipiell unterschiedliche Messwerte, aber durch Rundungen gleiche Werte - auch bei Transformation von metrischen zu ordinalskalierten Daten - Unterscheidung: separate Rangplätze mittlere Rangplätze - abhängig vom statistischen Verfahren Deskriptive Statistik
2.1 • Urliste: Ergebnis der Registrierung der Beobachtungsdaten (meist unübersichtlich): Darstellung univariater Stichproben Bsp. 1: Verkehrsmittel von deutschen Urlaubern (n=100) nominalskaliert metrisch, singulär mit Bindungen Bsp. 2: Körpergröße von 10-jährigen (n=200)
2.1 • einfachste Form der statistischen Analyse: absolute Häufigkeiten (z.B. Strichliste): • erste Strukturen erkennbar, aber im rechten Fall immer noch zu unübersichtlich • graphische Darstellung gefordert: je nach Fragestellung Darstellung univariater Stichproben
2.1 • gebräuchlichste Form der graphischen Darstellung ist Histogramm: - x-Achse: Merkmalsausprägungen - y-Achse: absolute Häufigkeit Darstellung univariater Stichproben Stabdiagramm zweidimensionales Histogramm dreidimensionales Histogramm Pfeilspitzen nur bei metrischen Daten
2.1 • je nach Fragestellung werden auch relative Häufigkeiten eingetragen: - z.B. beim Vergleich von zwei Stichproben unterschiedlicher Größe - Berechnung: - im Histogramm oder Kreisdia- gramm Darstellung univariater Stichproben m = Anzahl der Klassen n = Anzahl der Probanden relative Häufigkeit in % • bei relativen Häufigkeiten Vorsicht bei Interpretation geboten: - absolute Änderungen maskiert durch unterschiedlichen STP-Umfang - z.B. Busreisen absolut mehr, aber Marktanteil rückläufig
2.1 • bei Histogrammen können Koordinatenachsen auch vertauscht werden: - x-Achse: aboslute Häufigkeit - y-Achse: Merkmalsausprägungen - z.B. Alterspyramide Darstellung univariater Stichproben 1985 1990 Bahn Bus PKW Flugzeug Sonstige 100% 0 100%
2.1 • bei stetigen metrischen Variablen müssen Messwertklassen für die Darstellung von Häufigkeiten gebildet werden: - Klassengrenzen und -anzahl zunächst beliebig - Verbindung der Klassenmitten/-grenzen heißt Häufigkeits-/Summenpolygon - Wahrscheinlichkeit entspricht Flächeninhalt im Histogramm, nicht Höhe - häufig auch Darstellung der kumulativen Häufigkeiten Darstellung univariater Stichproben Messwertklassen kumulativ Polygon Summen- polygon
2.1 • Wahl der Klassen hat häufig Einfluss auf die weitere Analyse und Interpretation: - keine allgemeingültige Festlegung, aber Orientierungen • Gruppierung metrischer Daten: - untere Grenze der Klasse xi: xi,u - obere Grenze der Klasse xi: xi,o - Obergrenze der einen Klasse entspricht Untergrenze der nächst höheren Klasse, und andersherum: xi,o= xi+1,u ; xi,u= xi-1,o - Klassenmitte: x*i = (xi,u + xi,o)/2 - Klassenbreite: bi = xi,o – xi,u , bi = const(i\r) - offene Randklassen: xiru: xi,u = - ; xiro: xi,o = - Leerklassen: xi: hi = fi = 0 Darstellung univariater Stichproben
2.1 • Wahl der Klassenbreite b: - Problem bei zu großer Klassenbreite: Charakteristik der Verteilung wird verwischt - Problem bei zu kleiner Klassenbreite: Gruppierung zu unübersichtlich - Kriterium 1: - Kriterium 2: • Wahl der Reduktionslage x1,u: - eindeutiger Fall: xmin = 0 , x [0,] x1,u = 0 - kein eindeutiger Fall: bekannte Eigenschaften der Verteilung berücksichtigen (Symmetrie, keine Werte auf Klassengrenzen) - Algorithmus nach Lienert: Darstellung univariater Stichproben n = Anzahl der Messwerte d = Genauigkeit der Messung xmin = kleinster Messwert xmax = größter Messwert a) Bestimmung von k: b) Bestimmung von b: c) b wird so gerundet, dass es nicht genauer als die Messwerte ist d) Hilfsgröße:
2.1 e) Reduktionslage für mod(Δ,d)=0: Reduktionslage für mod(Δ,d)≠0: f) in der Folge gilt: g) Überprüfung auf besetzte Randklassen: Δ < b für mod(Δ,d)=0 Δ < b-d für mod(Δ,d)≠0 h) wenn diese Nebenbedingungen nicht erfüllt, Iteration mit k-1 Darstellung univariater Stichproben • Beispiel: n = 83 xmin = 7 xmax = 23 d = 1 Klassenanzahl: Klassenbreite: Hilfsgröße: Randklassen überprüfen: Reduktionslage: hk 7,5 9,5 11,5 13,5 15,5 17,5 19,5 21,5 23,5 Klassenmitte
2.1 • typische Verteilungsformen (Häufigkeitspolygone): Darstellung univariater Stichproben a) glockenform, eingipflig, zufällige Streuung um Mittelwert (sehr häufig) b) U-förmig, bei Häufung von Extremwerten (polarisierende Meinungsumfrage) c) L-förmig, kleiner Extremwert häufig, dann monoton abfallend (Lebensdauer von Glühlampen) d) J-förmig, großer Extremwert häufig, davor monoton ansteigend e) linksschief, eingipflig, Asymmetrie bei positiv definiten Variablen (Niederschlag) f) zweigipflig, häufig bei Mischverteilungen (Größe von 10- und 20-jährigen) g) schmalgipflig, geringe Streuung um einen zentralen Wert h) breitgipflig, starke Streuung um einen zentralen Wert
2.2 • wenn für jedes Untersuchungselement zwei Variablen X und Y erhoben werden, entstehen bivariate Verteilungsfunktionen (Zusammenhang!): • absolute Häufigkeiten der bivari- aten Merkmalsausprägung in Kon- tingenztafel: Darstellung bivariater Stichproben
2.2 • unterschiedliche Formen der zwei- und dreidimensionalen Darstellung von bivariaten Verteilungen: - geometrische Körper, Anzahl der Punkte oder proportionale Flächen • bei bivariaten Verteilungen von stetigen metrischen Variablen ist Darstellung mit gruppierten Histogrammen eher unüblich • stattdessen Darstellung der Messergebnisse als Punktwolken: aus der Punktwolke läßt sich bereits optisch auf einen möglichen Zusammenhang zwischen X und Y schließen (quantitativ: Korrelationsrechnung) Darstellung bivariater Stichproben nichtlineare Korrelation
2.2 • weitere häufige Darstellungsform sind Isolinien der Häufigkeit (Isoplethen): - hier bivariate Verteilung von Windrichtung (X) und Windgeschwindigkeit (Y) - auch Randverteilungen von X und Y eingezeichnet Darstellung bivariater Stichproben Y X
2.3 • meist kennzeichnen einige wenige statistische Maßzahlen die Verteilung einer Variablen: - Parameter der Verteilung - Vorteil: Übersichtlichkeit - Nachteil: Verlust an Informationen • wichtigste Parameter (Momente) einer Verteilung: 1. Mittelwertmaß (Lageparameter) 2. Streumaß (Streuparameter) 3. Schiefe (Asymmetrie) 4. Exzess (Wölbung, Kurtosis) • je nach Skalenniveau und Verteilung unterschiedliche Mittelwerte und Streumaße zu wählen Kennwerte univariater Stichproben fi xi
2.3 • Mittelwerte: - physikalisch: Massenschwerpunkt - statistisch: Wert, der am häufigsten auftritt bzw. die höchste Wahrscheinlichkeit besitzt - Definition: Kennzeichnung der zentralen Tendenz einer univariaten Verteilung • Modalwert (Modus) D: - Name bzw. Wert der Kategorie mit der größten Häufigkeit (Nominalskala) - häufigster Messwert einer diskreten metrischen Verteilung (Messgenauigkeit) - häufigste Klasse einer stetigen metrischen Verteilung (gruppierte Daten) - bei mehrgipfligen (bimodalen) Verteilungen Mittelwert (benachbarte Maxima), Mehrfachnennung (nicht benachbarte Maxima) oder keine Angabe - direkt aus Häufigkeitsverteilung abzulesen - sehr sensitiv gegenüber geringen Veränderungen des empirischen Materials - insensitiv gegenüber Ausreißern Kennwerte univariater Stichproben fi fi ?
2.3 • Bsp. Modalwert: Kennwerte univariater Stichproben D : “PKW“ D : 150 D : 13,5 D1 : 12 D2 : 15
2.3 • Median (Zentralwert) Z: - nur für Daten mit interner Rangfolge (nicht für Nominalskala) - derjenige Wert, der die Rangreihe halbiert - bei mod(n,2)≠0 : Beobachtungswert auf Rangplatz - bei mod(n,2)=0 : Mittel der Beobachtungswerte auf Rangplätzen - angepasster Mittelwert für Ordinalskala - insensitiv gegenüber Ausreißern (bei kleinem STP-Umfang empfohlen) • Bsp. Median: Kennwerte univariater Stichproben Z : 9,25 h Z : zwischen Wert von Beate und Georg Z : “Steffi“
2.3 • bei Daten mit Mehrfachnennungen in Klassen gleiches Vorgehen: Bestimmung der Medianklasse: - absolute Häufigkeiten und kumulierte Häufigkeiten bilden - Zuordnung der Rangplätze zu jeder Klasse - Bestimmung des Medianrangplatzes (hier: 30,5) - Bestimmung der Medianklasse (hier: Klasse 5) - bei Klassen mit Zahlenangaben auch genaue Abschätzung möglich unter der Annahme der Gleichverteilung der Werte innerhalb der Klasse: Kennwerte univariater Stichproben Klassenmittel: Z=14 xm,u : untere Klassengrenze der Medianklasse (hier: 12,5) b : Klassenbreite (hier: 3) n : STP-Umfang (hier: 60) ncm-1 : kumulative Häufigkeit der Klasse vor der Medianklasse (hier: 27) nm : absolute Häufigkeit der Medianklasse (hier: 15) Z=13,1
2.3 • arithmetisches Mittel x: - nur für metrische Daten - singuläre Messwerte: - mehrfach vorliegende Messwerte: (gewichtetes Mittel) - Messwertklassen ohne offene Randklassen näherungsweise: (sonst x*1 = - bzw. x*k = ) • Bsp. arithmetisches Mittel: n : STP-Umfang xi : Messwerte hi : absolute Häufigkeiten fi : relative Häufigkeiten k : Anzahl der Klassen x*i : Klassenmitten Kennwerte univariater Stichproben x=2,0 n=6 x=17,1 n=141 x=101,2 n=139
2.3 • arithmetisches Mittel skaliert bei linearen Tranformationen mit: - hilfreich bei manueller Berechnung • die Summe der Abweichungen (Anomalien) der Werte vom arithmetischen Mittel ist immer null: • die Summe der Quadratdifferenzen der Werte vom arithmetischen Mittel ist immer kleiner oder gleich der Summe der Quadratdifferenzen zu jedem beliebigen Wert a: Kennwerte univariater Stichproben lineare Transformation yi = 2 • xi + 1 x=2,0 x=5,0
2.3 • arithmetisches Mittel einer Gesamt-STP kann auch direkt aus den gewich-teten arithmetischen Mitteln von Teilmengen der STP berechnet werden: • Lage von Modus, Median und arithmetischem Mittel bei symmetrischen und asymmetrischen Verteilungen: - bei symmetrischen, unimodalen Verteilungen fallen alle drei Mittelwertmaße zusammen - bei asymmetrischen Verteilungen durchaus starke Unterschiede - Median immer zwischen Modus und arithmeti- schem Mittel Kennwerte univariater Stichproben n : STP-Umfang k : Anzahl der Teilmengen (Klassen) hi : Anzahl der Objekte in der Teilmenge xki : Teilmittelwerte x : Gesamtmittelwert mittlerer Niederschlag über Land (149 Mio km2): 900 mm mittlerer Niederschlag über Wasser (361 Mio km2): 1050 mm mittlerer Niederschlag auf der Erde (510 Mio km2): 1006 mm linksschief rechtsschief
2.3 • Vergleich von Modus, Median und arithmetischem Mittel: - Modus: - sehr anschaulich - häufigster (“normaler“) Wert - z.B. normalerweise 2h Fahrzeit - bei gleichverteilten Verteilungen sinnlos - bei mehrgipfligen Verteilungen mehrdeutig - Median: - anschaulich - Vorstellung des Zentrums in einem Datenkollektiv - mittig in asymmetrischen Verteilungen - arith. Mittel: - von allen Messwerten beeinflusst - sehr sensitiv gegenüber Ausreißern - nicht immer eindeutig zu interpretieren Kennwerte univariater Stichproben fi Fahrtzeit mit der DB D=2h Z=3h x=4h
2.3 • in den Geowissenschaften wird sehr häufig auf das arithmetische Mittel zurückgegriffen • gleichzeitig sind viele Größen asymmetrisch verteilt (z.B. Pendler-entfernungen, Niederschlag): rechtsschief • deshalb existieren Transformationen, die die Messwerte in eine symmetrische Verteilung überführen: - Mittelwert auf Basis der transformierten symmetrischen Daten berechnen - Mittelwert anschließend zurücktransformieren - nur bei Rationalskala und bei xi > 0 - hyperbolische Transformation: - logarithmische Transformation: - auch wichtig für Verfahren der schließenden Statistik Kennwerte univariater Stichproben “Harmonisches Mittel“ “Geometrisches Mittel“
2.3 • je nach Datenart sind nur bestimmte Mittelwertmaße zugelassen: Kennwerte univariater Stichproben
2.3 • Streumaße: - Maßzahlen zur Bewertung der Variabilität der Messwerte - Indikator der Breite einer Verteilung - wichtige Zusatzinformation zum Mittelwert (Lageparameter) - auch Information über Einfluss des Zufalls oder von Kovariablen - je nach Datenniveau unterschiedliche Streumaße • Variationsbreite (Spannweite): - nur für metrische Variablen - nur abhängig von den Extremwerten der STP: extrem sensitiv - meist nur für kleine STP (n ≤ 12), da Ausreißer unwahr- scheinlicher Kennwerte univariater Stichproben xmin v=157-126=31 xmax
2.3 • mittlere absolute Abweichung: - nur für metrische Variablen - berücksichtigt alle Werte der STP - heute kaum noch verwendet wegen der Betragsoperation - manchmal auch Differenz gegenüber dem Median gewählt: Kennwerte univariater Stichproben x = 2,0 e = 0,53 Z = 2,0 ez = 0,53
2.3 • empirische Varianz: - nur für metrische Variablen - mittlere quadratische Abweichung vom arithmetischen Mittel mit Einheit U2 - gebräuchliches Streumaß (mathematisch zugänglich, binomische Formel) - sehr sensitiv gegenüber Ausreißern (gehen zum Quadrat ein) • empirische Standardabweichung: - nur für metrische Variablen - mittlere Abweichung vom Mittelwert - gebräuchlichstes Streumaß - Nenner (1 - n) kennzeichnet STP-Streumaß (“unverzerrter Schätzer“) Kennwerte univariater Stichproben x = 2,0 s2 = 0,41 SS = 2,04 s = 0,64
2.3 • Variationsbreite versus empirische Standardabweichung: - Variationsbreite: maximaler Schwankungsbereich der Werte - Standardabweichung: mittlerer Schwankungsbereich der Werte Kennwerte univariater Stichproben Variationsbreite Standardabweichung Variabilität der täglichen Mitteltemperaturen im Januar und Juli
2.3 • bei manueller Berechnung ist folgende Formel für die Quadratsumme praktikabler: • bei einer linearen Transformation der Daten skaliert die Standard-abweichung mit b, ist aber invariant gegenüber a: Kennwerte univariater Stichproben lineare Transformation
2.3 • Quadratsumme bei mehrfach auftretenden Messwerten: • Quadratsumme bei Messwertklassen ohne offene Randklassen näherungsweise: • Werte innerhalb der Messwertklassen meist schief verteilt, so dass Klassenmitte nicht repräsentativ und empirische Standardabweichung s zu groß; deshalb Sheppard‘sche Korrektur (empirisch): • Beispiel: Kennwerte univariater Stichproben n : STP-Umfang xi : Messwerte hi : absolute Häufigkeiten k : Anzahl der Klassen x*i : Klassenmitten x* : arithmetisches Mittel der Klassenmitten
2.3 • in der Praxis häufig mehrere Stichproben jeweils mit Mittelwert und Varianz: geeignete Maßzahl für globales Streuen der Messwerte in den l Stichproben gesucht • 1. Möglichkeit: mittlere empirische Varianz • Beispiel: Kennwerte univariater Stichproben alle STP gleich groß: ni : Umfang der STP i xi : Mittelwert der STP i si2 : Varianz der STP i STP unterschiedlich groß:
2.3 • 2. Möglichkeit: empirische Gesamtvarianz unter Berücksichtigung aller Werte mit ihrer absoluten Lage • Beispiel: • Gesamtvarianz ist immer größer oder gleich der mittleren Varianz der l STP Kennwerte univariater Stichproben ni : Umfang der STP i xi : Mittelwert der STP i si2 : Varianz der STP i
2.3 • empirischer Interquartilsbereich, empirischer Quartilsabstand: - für metrische und ordinale Variablen - auf Basis einer der Größe nach geordneten Datenreihe - wesentlich robuster gegenüber Ausreißern als Varianz / Standardabweichung - Aufteilung der Datenreihe in 4 gleich große Kompartimente: - genaue Lage häufig nicht eindeutig festgelegt, da zwischen zwei Messwerten oder Rangplätzen - bei Messwerten mit Wiederholung u.U. gar keine sinnvolle Festlegung möglich - hier nur singuläre Daten berücksichtigt - Intervall zwischen Q1 und Q3 heißt empirischer Interquartilsbereich - bei metrischen Daten heißt (Q3-Q1) auch empirischer Quartilsabstand Kennwerte univariater Stichproben Q1 : unteres Quartil = Abgrenzung der 25% der kleinsten Werte Q2 : Median = Abgrenzung von 50 % der Werte Q3 : oberes Quartil = Abgrenzung der 25% der größten Werte
2.3 • allgemeine Bestimmung der Quartile: - Bestimmung des Medians: - Bestimmung des unteren Quartils durch Halbierung zwischen kleinstem Datenwert und Median: - Bestimmung des oberen Quartils durch Halbierung zwischen Median und größtem Datenwert: - wenn Rangplätze R nicht ganzzahlig, folgende Interpolation für Quartile Q: Kennwerte univariater Stichproben Q : Quartil RQ : berechneter nicht ganzzahliger Rangplatz von Q Ru : ganzzahliger Rangplatz unterhalb von RQ Ro : ganzzahliger Rangplatz unterhalb von RQ xu : Messwert auf Rangplatz Ru xo : Messwert auf Rangplatz Ro
2.3 • Beispiel für die Bestimmung von Quartilen und Quartilsabstand: • Darstellung der Quartile in so genanntem Boxplot: - zum direkten optischen Vergleich von Messergebnisreihen • Beispiel: Kennwerte univariater Stichproben
2.3 • bei metrischen Daten wird der halbe empirische Quartilsabstand als Streumaß angegeben: • Beispiel: • bei metrischen gruppierten Daten wird der halbe Quartilsabstand bzgl. Klassen berechnet: Kennwerte univariater Stichproben q1 : Nummer der (unteren) Quartilklasse von Q1 q3 : Nummer der (oberen) Quartilklasse von Q3 xq1,u : untere Klassengrenze der Q1-Klasse xq3,u : untere Klassengrenze der Q3-Klasse nq : Häufigkeit in der jeweiligen Quartilklasse nc,q-1: kumulative Häufigkeit in der Klasse q-1 b : Klassenbreite Q1* : trennt die ersten 25% der Histogrammfläche ab Q3* : trennt die letzten 25% der Histogrammfläche ab
2.3 • bei ordinalen gruppierten Daten ist das Streumaß der Unterschied zwischen den Beobachtungswerten der Q1- und Q3-Klasse: • Beispiel: Klassifizierung der Stürme Kennwerte univariater Stichproben große Streuung: Q1 und Q3 fallen in die Randklassen kleine Streuung: Q1 und Q3 fallen in die gleiche Klasse } Q1 fällt in die Klasse “stark“ Q3 fällt in die Klasse “schwach“ die wesentliche Streuung erfolgt zwischen “stark“ und “schwach“
2.3 Kennwerte univariater Stichproben • Begriff der Quartile läßt sich verallgemeinern: - Quantile: allgemeine Verteilungsmaße - Quartile: Viertel (25%, 50%, …) - Pentile: Fünftel (20%, 40%, …) - Dezile: Zehntel (10%, 20%, …) - Zentile: Hundertstel (1%, 2%, …) - Perzentile: “ • graphisch anhand von kumulierten Häufigkeitsverteilungen (Verteilungs- funktionen) zu veranschaulichen:
2.3 • relativer Informationsgehalt h: - für kategoriale Variablen (Nominalskala) - Maßzahl für die Verteilung der Beobachtungswerte auf die Kategorien - für h=0 gilt, dass alle Werte in der gleichen Kategorie liegen - für h=1 gilt, dass sich alle Werte gleichmäßig auf die Kategorien aufteilen (völlige Streuung) - bei einem großen h bestehen folglich geringe Unterschiede bzgl. der Häufig- keit zwischen den Kategorien • wegen der grundsätzlich beliebigen Anordnung der Kategorien ist h kein Maß für die Streuung um einen Zentralwert (Modus) Kennwerte univariater Stichproben k : Anzahl der Kategorien N : Gesamtzahl der Daten ni : absolute Häufigkeit jeder Kategorie
2.3 • Beispiel: “richtiges Symbol in Zeichenkette“ Kennwerte univariater Stichproben Zeichenkette: Elementtypen: ? Schüler 2. Klasse: 4 5 2 6 3 Schüler 4. Klasse: 1 0 1 18 0 Modalwert: D2. Klasse = D4. Klasse = • Schüler der 4. Klasse zeigen klare Ungleichverteilung zugunsten des richtigen Symbols: Vergleichsmaß für Streuung bei nominalverteilten Variablen
2.3 • je nach Datenart sind nur bestimmte Streumaße zugelassen: Kennwerte univariater Stichproben
2.3 • bei Nominal- und Ordinalskala ist Wahl des Streumaßes eindeutig • bei metrischen Daten hängt Wahl des Streumaßes von der Fragestellung ab: - Variationsbreite kennzeichnet zwar gesamten Wertebereich, ist aber sehr sensitiv gegenüber Ausreißern - Quartilsabstand ist zwar insensitiv gegenüber Ausreißern, berücksichtigt aber nur ca. 50 % der Daten - Standardabweichung berücksichtigt alle Daten, ist aber weniger anschaulich • bei normalverteilten Variablen sind arithmetisches Mittel und Standard-abweichung am besten geeignet und auch anschaulich: - typische Verteilung in den Geowissenschaften für zufällige Streuung um Mittelwert (Glockenkurve) Kennwerte univariater Stichproben x = Z = D : genau in der Mitte der symmetrischen Verteilung x ± 1•s : schließt ca. 68,0 % der Werte ein x ± 2•s : schließt ca. 95,5 % der Werte ein x ± 3•s : schließt ca. 99,7 % der Werte ein Näherungsformel für große normalverteilte STP:
2.3 • häufig lineare Transformation der Daten durch Umrechnung der Einheiten: - Meilen → Kilometer , m/s → km/h , °C → °F , … - Skalierung des Mittelwertes: - Skalierung der Standardabweichung: • um die Form von Verteilungen zu vergleichen, werden Stichproben häufig standardisiert: - lineare Transformation der Form zi = b• xi +a - danach besitzen alle STP den gleichen Mittelwert (=0) und die gleiche Standard- abweichung (=1) - Beispiel: Kennwerte univariater Stichproben
2.3 • in anderen Fällen interessiert gerade die Standardabweichung im Verhältnis zum Mittelwert: - empirischer Variationskoeffizient: - bei insgesamt kleineren Werten fällt eine konkrete Standardabweichung mehr ins Gewicht Kennwerte univariater Stichproben
2.3 • Beispiel Variationskoeffizient: Niederschlagszeitreihen in Nordafrika Kennwerte univariater Stichproben
2.3 • empirische und theoretische Häufigkeitsverteilungen werden neben dem Mittelwert und der Standardabweichung noch durch weitere Maßzahlen charakterisiert: - Momente (Potenzmomente): - zentrale Momente: - arithmetischer Mittelwert entspricht dem ersten Moment m1 - Varianz entspricht annähernd dem zweiten zentralen Moment mz2 - es gilt grundsätzlich mz1=0 - Schiefe als Formparameter der Asymmetrie steht im Zusammenhang mit drittem zentralen Moment: - Exzess als Formparameter der Wöl- bung steht im Zusammenhang mit viertem zentralen Moment: Kennwerte univariater Stichproben fi xi
2.3 • zur Schiefe S: - für symmetrische Verteilungen gilt S=0 - bei S > 0 heißt die Verteilung positiv schief oder linkssteil - bei S < 0 heißt die Verteilung negativ schief oder rechtssteil - vereinfachte Rechenformel zur qualitativen Bestimmung der Schiefe: • zum Exzess E: - für die Normalverteilung gilt E=0 (Mesokurtosis) - bei E >0 spricht man von positivem Exzess (Leptokurtosis) - bei E < 0 spricht man von negativem Exzess (Platykurtosis) - vereinfachte Rechenformel zur quali- tativen Bestimmung des Exzesses: Kennwerte univariater Stichproben Q1 : unteres Quartil Q3 : oberes Quartil De1 : unteres Dezil De9 : oberes Dezil