710 likes | 836 Views
STATISIK. LV Nr.: 0028 SS 2005 11.Mai 2005. Streuungsmaße. Varianz Standardabweichung Variationskoeffizient Mittlere absolute Abweichung Spannweite Quartilsabstand Schiefe Wölbung. Varianz. Beobachtungswerte a 1 ,...,a n (metrisch skaliert)
E N D
STATISIK LV Nr.: 0028 SS 2005 11.Mai 2005
Streuungsmaße • Varianz • Standardabweichung • Variationskoeffizient • Mittlere absolute Abweichung • Spannweite • Quartilsabstand • Schiefe • Wölbung
Varianz • Beobachtungswerte a1,...,an (metrisch skaliert) • Streuungsmaß: Arithmetische Mittel der Abweichungsquadrate der Einzelwerte ai von ihrem arithmetischen Mittel • Varianz (Mittlere quadratische Abweichung)
Varianz • Bsp. Körpergröße von 5 Personen: 162, 170, 155, 187, 179 • Arithmetisches Mittel = 170,6 • Varianz (Mittlere quadratische Abweichung) σ² = 1/5 · [(162-170,6)² + … + (179-170,6)² ] σ² = 131,44
Varianz • Streuungsmaß: quadrierte Summe der Abweichungen - nicht Summe der Abweichungen von ai von ihrem arithm. Mittel, da gilt: • Mittlere quadratische Abweichung bezogen auf einen beliebigen Wert M
Varianz • Verschiebungssatz (Beziehung zw. MQ(M) und Varianz): • Das bedeutet: • MQ(M) Varianz • MQ(M) = σ² wenn M = arithm. Mittel • Minimumeigenschaft des arithm. Mittels.
Varianz • Rechenvereinfachung: • Liegt eine Häufigkeitsverteilung vor: k Merkmalswerte x1,...,xk mit abs. Häufigkeiten hi bzw. rel. Häufigkeiten fi (i=1,...,k) • Varianz:
Varianz • Klassifizierte Daten: Häufigkeitsverteilung • Varianz näherungsweise berechnen, statt der Merkmalswerte xi werden die Klassenmitten xi´ verwendet:
Varianz • Bei unimodalen Verteilungen, ist die Varianz, die aus den klassifizierten Daten berechnet wird, größer als die Varianz, die aus den Einzelwerten berechnet wird. • Bei konstanten Klasseneinteilungen (Δx): Sheppardsche Korrektur: σ² ... die aus den klassifizierten Daten näherungsweise bestimmte Varianz
Varianz • Dimension: Quadrat der Dimension der einzelnen Beobachtungen • Eigenschaft: Varianz immer 0 • Ist Varianz = 0, liegt keine Streuung vor, alle Beobachtungswerte sind gleich und somit auch gleich dem arithmetischen Mittel.
Standardabweichung • Standardabweichung = Quadratwurzel der Varianz
Varianz & Standardabweichung Eigenschaften: • Lineare Transformation der Einzelwerte ai: ai* = α + βai (i=1,...,n) • Dann: Varianz: σ*² = β²σ² Standardabweichung: σ* = |β| σ • Sonderfall: β=1, Transformation ai* = α + ai σ*² = σ² und σ* = σ
Varianz & Standardabweichung • Eigenschaften: • Varianz einer Grundgesamtheit, die aus 2 Teilgesamtheiten (n1, n2) besteht: mit
Standardisierung • Standardisierung: • Spezielle lineare Transformation • Bildet aus Einzelwerten ai standardisierte Werte zi, indem von jedem ai das arithm. Mittel μ abgezogen wird und durch die Standardabweichung dividiert wird. • Arithm. Mittel der zi immer 0, • Varianz der zi immer 1.
Variationskoeffizient • Streuung zweier oder mehrerer Verteilungen mit sich stark voneinander unterscheidenden Mittelwerten vergleichen • Relatives Streuungsmaß (für verhältnis-skalierte Merkmale mit ausschließlich positiven Merkmalswerten), bezieht die Standardabweichung σ (absolutes Streuungsmaß) auf das arithm. Mittel μ.
MAD Mittlere absolute Abw. • Arithmetisches Mittel der absoluten Abweichungen der einzelnen Merkmalswerte vom Mittelwert (z.B. arithm. Mittel oder Median) • Minimumeigenschaft des Medians: M beliebiger Wert
MAD • Häufigkeitsverteilung der Daten • MAD bezogen auf Mittelwert μ • MAD aus Häufigkeitsverteilung von klassifizierte Daten: • Merkmalswerte xi durch Klassenmitten xi´ ersetzen.
Spannweite (Range) • Abstand zw. dem größten und dem kleinsten Wert • Einzelwerte der Größe nach ordnen: a[1],…,a[n] R = a[n] - a[1] • Häufigkeitsverteilung von k Merkmalsausprägungen: R = xk - x1 • Häufigkeitsverteilung von klassifizierten Daten: R = xko - x1u • Spannweite ist instabil gegenüber Ausreißern
Quartilsabstand • Quartile Q1, Q2 (=Median), Q3 teilen die Gesamtheit in 4 gleich große Teile. • α-Quantil: a(k) falls n·α keine ganze Zahl (k die auf n·α folgende ganze Zahl) ãα= 1/2 (a(k)+a(k+1)) falls n·α ganze Zahl k=n·α • Quartilsabstand (Interquartile Range) definiert als Spannweite der 50% mittleren Werte: QA = Q3 – Q1 • Eigenschaft: stabil gegenüber Ausreißern
Deskriptive Analyse: Box-Plot • Box-Plot • Box: beinhaltet 50% der Daten (Grenzen: 1. und 3. Quartil), Darstellung des Medians. • Whiskers: maximal 1,5-mal die Länge der Box. • Ausreißer: Werte außerhalb der Whiskers. • Ausreißer • Krasse Ausreißer
Deskriptive Analyse: Box-Plot • Box-Plot: grafische Darstellung einer Beobachtungsreihe (Verteilung und Struktur)
Deskriptive Analyse: Box-Plot • Box-Plot für Vergleich von 2 Messreihen:
Schiefe • Gibt Richtung (rechts- oder linksschief) und Größenordnung der Schiefe einer eingipfligen Häufigkeitsverteilung an. < 0 linksschiefe g1 = 0 symmetrisch > 0 rechtsschiefe • Kein direkter Streuungsparameter
Schiefe • Schiefe einer Häufigkeitsverteilung aus gruppierten Daten (k Klassen): Verwendung der Klassenmittel od. der Klassenmitten • Berechnung mit Klassenmittel und Klassenmitte kann zu unterschiedlichen Ergebnissen führen.
Schiefe • Linksschiefe Verteilung: g1 < 0
Schiefe • Symmetrische Verteilung: g1 = 0
Schiefe • Rechtschiefe Verteilung: g1 > 0
Wölbung • Wölbung od. Kurtosis od. Exzeß: Maßzahl für eingipflige Häufigkeitsvt. • Gibt an, ob (bei gleicher Varianz) das absolute Maximum der Häufigkeitsvt. größer als bei der Dichte der Normalvt. ist.
Wölbung < 0 abs. Max. kleiner als bei N-Vt. g2 = 0 Normalverteilung > 0 abs. Max. größer als bei N-Vt. • Wölbung einer Häufigkeitsverteilung aus gruppierten Daten (k Klassen): Verwendung der Klassenmittel od. der Klassenmitten
Konzentrationsmaße • Metrisch skaliertes Merkmal X mit nur positiven Ausprägungen • Frage: Wie teilt sich die Summe der Merkmalswerte x1,…,xn in der Beobachtungsreihe auf die Untersuchungs-einheiten auf? • Bsp: n landwirtschaftliche Betriebe, Größe der Nutzflächen: x1,...,xn. Wie teilt sich die gesamte Nutzfläche auf die einzelnen Betriebe auf?
Konzentrationsmaße • n Merkmalswerte werden durch q Merkmalsausprägungen a1<...<aq mit absoluten- und relativen Häufigkeiten hi bzw. fi bestimmt. • Gesamtbetrag der Merkmalswerte in der Beobachtungsreihe:
Konzentrationsmaße • Lorenzkurve: Grafische Darstellung der Konzentration der Merkmalswerte • Koordinatenkreuz: • Abszisse: es werden die nach der Größe der Merkmals-ausprägung geordneten relativen Häufigkeiten aufsummiert • Ordinate: Ausprägungen werden der Größe nach aufsummiert und auf Summe aller Ausprägungen bezogen
Konzentrationsmaße • Verbinden der Punkte (ki,li) ergibt die Lorenzkurve, wobei immer k0=l0=0 und kq=lq=1 gilt. 1 li 0 1 ki
Konzentrationsmaße • Interpretation: ein Punkt (ki,li) der Lorenz-kurve gibt an, dass auf ki · 100% der Untersuchungseinheiten li · 100% des Gesamtbetrages aller Merkmalsaus-prägungen entfallen. • Bsp. auf ki · 100% der landwirtschaftlichen Betriebe entfallen li · 100% der gesamten Nutzfläche
Konzentrationsmaße • Bsp. landwirtschaftliche Betriebe • Abszisse: Es wird der Prozentsatz der Betriebe mit der kleinsten Fläche bestimmt, dann wird der Prozentsatz der Betriebe mit der zweit-kleinsten Fläche bestimmt und zum Prozentsatz der Betriebe mit der kleinsten Fläche addiert, usw. • Ordinate: Flächenanteile der Betriebe bzgl. der Gesamtfläche werden der Flächengröße nach aufsummiert.
Konzentrationsmaße • Bsp. landwirtschaftliche Betriebe
Konzentrationsmaße • Bsp: landwirtschaftliche Betriebe
Konzentrationsmaße • Bsp. Landwirtschaftliche Betriebe: • Interpretation: auf ki · 100% der landwirtschaftlichen Betriebe entfallen li · 100% der gesamten Nutzfläche • auf 42% der Betriebe entfallen 6,3% der Nutzfläche, • auf 60% der Betriebe entfallen 12,5% der Nutzfläche, • auf 78% der Betriebe entfallen 27% der Nutzfläche, • auf 94% der Betriebe entfallen 55% der Nutzfläche.
Konzentrationsmaße Extremfälle: • Keine Konzentration, alle Untersuchungs-einheiten haben den gleichen Anteil am Gesamtbetrag. Lorenzkurve ist Diagonale. • Gesamtbetrag konzentriert sich (fast) vollständig auf eine Untersuchungseinheit. Lorenzkurve liegt (fast) auf Abszisse, ist also (fast) senkrecht.
Konzentrationsmaße Extremfälle:
Konzentrationsmaße • Gini-Koeffizient od. Lorenzsche Konzentrationsmaß (LKM): Maßzahl für die Konzentration. • Definiert als das 2-fache der Fläche F zw. Diagonale und Lorenzkurve. LKM = 2F. • Es gilt immer: 0 LKM(n-1)/n • Standardisierter Gini-Koeffizient: LKMnor = n/(n-1) LKM
Konzentrationsmaße • Berechnung von F: • k … Werte auf Abszisse • l … Werte auf Ordinate • q … Anzahl der verschiedenen Merkmalsausprägungen
Konzentrationsmaße • Bsp. Landwirtschaftliche Nutzfläche • LMK = 2F = i2Fi – 1 = 1,6048 – 1 = 0,6408 • mit i = 1,…,5 • LKMnor = 50/49 · 0,6408 = 0,6539
Verhältniszahlen • Quotient zweier Maßzahlen: Verhältniszahl • Gliederungszahlen • Man bezieht eine Teilgröße auf eine ihr übergeordnete Gesamtgröße • Beziehungszahlen • Quotient zweier sachlich sinnvoll in Verbindung stehender Maßzahlen • Index-Zahlen • Quotient zweier Maßzahlen gleicher Art
Gliederungszahlen • Gliederungszahlen • Bsp. Tagesproduktion 1500 Teile, davon 300 fehlerhaft. Dann sind 20% der Tagesproduktion Ausschuss (300/1500·100). Ausschussanteil ist eine Gliederungszahl
Beziehungszahlen • Beziehungszahlen: • Verursachungszahlen: Bezieht Bewegungsmassen auf die zugehörigen Bestandsmassen. • Entsprechungszahlen: Alle Beziehungszahlen, bei denen man Ereignisse nicht auf ihren Bestand beziehen kann.
Beziehungszahlen • Bsp. Verursachungszahlen: Geburtenziffer Bestandsmasse: Einwohner einer Stadt (E) Bewegungsmasse: Zahl der Lebend-geborenen (L) G = (L/E)*1000 Sagt, wie viele Geburten auf 1000 Einwohner einer Stadt entfallen.
Beziehungszahlen • Bsp. Entsprechungszahlen: Schüler-Lehrer-Verhältnis (Zahl der Schüler) / (Zahl der Lehrer) Sagt, wie viele Schüler (ungefähr) auf eine Lehrer entfallen. Dies entspricht aber i.A. nicht der durchschnittlichen Klassengröße.
Indexzahlen • Indexzahlen: Es werden zwei Maßzahlen der gleichen Art in Beziehung gesetzt. • Messzahlen oder Einfache Indizes • Die zugehörigen Maßzahlen beschreiben eine realen Sachverhalt. • (Zusammengesetzte) Indexzahlen • Eine der Maßzahlen ist eine Zahl, die einen fiktiven Zustand beschreibt.
Indexzahlen • Einfache Indizes: • Reihe von Maßzahlen, die man in Beziehung zueinander setzen will. x0,...,xt Maßzahlen zu Zeitpunkten t, x0 Maßzahl zum Basiszeitpunkt 0. Dann ist I0t = xt / x0 für t = 0, 1, 2, ... eine Zeitreihe einfacher Indizes