510 likes | 744 Views
STATISIK. LV Nr.: 1852 WS 2005/06 1. Dezember 2005. Inhalt. Deskriptive Statistik: Einfache Kennzahlen Lagemaße Streuungsmaße Konzentrationsmaße Verhältniszahlen Indexzahlen. Maßzahlen. Parameter, Kollektivmaßzahlen Lageparameter (Mittelwerte)
E N D
STATISIK LV Nr.: 1852 WS 2005/06 1.Dezember 2005
Inhalt • Deskriptive Statistik: • Einfache Kennzahlen • Lagemaße • Streuungsmaße • Konzentrationsmaße • Verhältniszahlen • Indexzahlen
Maßzahlen • Parameter, Kollektivmaßzahlen • Lageparameter (Mittelwerte) • Streuungsparameter (Variabilitätsmaße, Variationsmaße) • Schiefe • Wölbung
Lagemaße und Mittelwerte • Eigenschaften: • Liegen zwischen Minimum und Maximum der Daten • Wenn alle Daten derselben linearen Transformation unterworfen werden, macht auch das Lagemaß diese Transformation mit
Lagemaße und Mittelwerte • Arithmetisches Mittel • Median • Modus • Geometrisches Mittel • Harmonisches Mittel • Quantile
Arithmetisches Mittel • Mittelwert, durchschnittlicher Wert. • Für metrisch skalierte Merkmale. • a1,...,an beobachtete Merkmalswerte eines Merkmals X
Arithmetisches Mittel • Bsp. Merkmal X: Körpergröße in cm • Merkmalswerte (a1,...,an, n = 5): 162, 170, 155, 187, 179 • ā = 1/5 · (162+170+155+187+179) = 170,6
Arithmetisches Mittel Eigenschaften (Betrachte Einzelwerte ai, i=1,...,n): • Summe der Abweichungen der Einzelwerte von ihrem arithmetischen Mittel = 0 • Summe der quadrierten Abweichungen der Einzelwerte von ihrem arithmetischen Mittel ist kleiner als von einem beliebigen anderen Wert
Arithmetisches Mittel • Das arithmetische Mittel unterliegt der gleichen linearen Transformation wie die Einzelwerte Lineare Transformation: • Bsp. Körpergröße: ai* = 0,01·ai • Transformierte Werte: 1,62; 1,70; 1,55; 1,87; 1,79 • ā* = 1/5 · (1,62+1,70+1,55+1,87+1,79) = 1,706 • ā* = 0,01 · ā = 0,01 · 170,6 = 1,706
Arithmetisches Mittel • Arithmetische Mittel von zwei oder mehr Teilgesamtheiten: • Bsp. Körpergröße: 2 Stpr. mit n1=n2=5 • Stpr. 1: 162, 170, 155, 187, 179 mit ā1 = 170,6 • Stpr. 2: 172, 159, 193, 184, 168 mit ā2 = 175,2 • ā = 1/(5+5) · (853+876) = 172,9 = (5·170,6+5·175,2) / (5+5) = 172,9
Arithmetisches Mittel • Gewogenes (gewichtetes) arithmetische Mittel • Gewichte w1, ..., wn mit 0wi1 und Σiwi=1 • Für w1 = ... = wn = 1/n ergibt sich das gewöhnliche arithmetische Mittel
Median • Median (Zentralwert): mindestens 50% der Beobachtungen ai nehmen eine Wert größer oder gleich bzw. kleiner oder gleich dem Median an. • Sind x1... xn der Größe nach geordnet, ist der Median x̃0,5: x((n+1)/2) n ungerade x̃0,5 = ½(x(n/2)+x(n/2+1)) n gerade
Median • Häufigkeitsverteilung: Median ist diejenige Merkmalsausprägung, bei der die Summenhäufigkeitsfunktion den Wert 0,5 überschreitet. • Klassifizierte Daten: Der Median liegt in der Klasse, in der die Summenhäufigkeitsfunktion den Wert 0,5 erreicht.
Median • Bsp. Körpergröße in cm: n = 10, • Merkmalswerte der Größe nach geordnet: 155, 159, 162, 168, 170, 172, 179, 184, 187, 193 • Median: x̃0,5 = ½(x(n/2)+x(n/2+1)) = ½(x5+x6) = ½(170+172) = 171 • Bsp. Körpergröße in cm: n = 9, • Merkmalswerte der Größe nach geordnet: 155, 159, 162, 168, 170, 172, 179, 184, 187 • Median: x̃0,5 = x((n+1)/2) = x5 = 170
Quantile • Geordnete Beobachtungsreihe x(1)...x(n) • α-Quantil x(k) falls n·α keine ganze Zahl (k ist die auf n·α folgende ganze Zahl) x̃α= 1/2 (x(k)+x(k+1)) falls n·α ganze Zahl k=n·α • Spezielle Quantile: • Median = 0,5-Quantil • Unteres Quartil = 0,25-Quantil • Oberes Quartil = 0,75-Quantil
Quantile • Bsp. Körpergröße in cm: • Merkmalswerte der Größe nach geordnet (n=10): 155, 159, 162, 168, 170, 172, 179, 184, 187, 193 • Unteres Quartil = 0,25-Quantil, n · 0,25 = 2,5 also: x̃0,25 = x(k) = x(3) = 162 • Oberes Quartil = 0,75-Quantil, n · 0,75 = 7,5 also: x̃0,75 = x(k) = x(8) = 184
Modalwert • Modalwert (Modus, häufigster Wert, dichtester Wert): Gibt die Ausprägung an, die die größte Häufigkeit in der Beobachtungsreihe besitzt. • Für nominal skalierte Daten geeignet. • Es gilt: h(xmod) h(xi) für alle Merkmalsausprägungen xi,...,xk. • Klassifizierte Daten: Modalwert ist definiert als Klassenmitte der am dichtesten besetzten Klasse.
Geometrisches Mittel • Voraussetzung: Daten verhältnisskaliert • n Einzelwerte a1, ..., an • Merkmalsausprägungen relative Änderungen (z.B. Lohnerhöhung in %) • Geometrisches Mittel:
Geometrisches Mittel • Bsp. Produktionssteigerung eines Betriebes pro Jahr • 4 Jahre mit Produktionssteigerungen von: 2%, 11%, 4%, 7% • Durchschnittliche Steigerung: • Durchschnittliche Produktionssteigerung: ~6%
Geometrisches Mittel • Gewogenes (gewichtetes) geometrische Mittel • Gewichte w1, ..., wn mit 0wi1 und Σiwi=1 • Für w1=...= wn=1/n ergibt sich das gewöhnliche geometrische Mittel
Harmonisches Mittel • Nur positive od. negative Beobachtungswerte a1,...,an • Gewogenes harmonisches Mittel: Gewichte w1,...,wn mit 0wi1 und Σiwi=1 • Für w1=...= wn=1/n ergibt sich das gewöhnliche harmonische Mittel
Harmonisches Mittel • Bsp. Hat man etwa die Beziehung U = P · M und gilt ui = xi·mi und ist ui = U und mi = M, ergibt sich P = U / M • P ist das mit wi gewogene harmonische Mittel der xi • U = Gesamtumsatz, ui = Einzelumsatz des i-ten Gutes • P = durchschnittlicher Preis pro Mengeneinheit, • xi = Einzelpreis pro Mengeneinheit des i-ten Gutes • M = Gesamtmenge, mi = umgesetzte Menge des i-ten Gutes
Mittel • Vergleich arithmetische- geometrisches- und harmonisches Mittel: • Bei positiven Beobachtungswerten a1,...,an gilt stets die Beziehung • Bei identischen Beobachtungen a1=...=an sind die Mittel gleich.
Streuungsmaße • Varianz • Standardabweichung • Variationskoeffizient • Mittlere absolute Abweichung • Spannweite • Quartilsabstand • Schiefe • Wölbung
Varianz • Beobachtungswerte a1,...,an (metrisch skaliert) • Streuungsmaß: Arithmetische Mittel der Abweichungsquadrate der Einzelwerte ai von ihrem arithmetischen Mittel • Varianz (Mittlere quadratische Abweichung)
Varianz • Bsp. Körpergröße von 5 Personen: 162, 170, 155, 187, 179 • Arithmetisches Mittel = 170,6 • Varianz (Mittlere quadratische Abweichung) σ² = 1/5 · [(162-170,6)² + … + (179-170,6)² ] σ² = 131,44
Streuungsmaß • Streuungsmaß: Summe der quadrierten Abweichungen - nicht Summe der Abweichungen von ai von ihrem arithm. Mittel, da gilt: • Mittlere quadratische Abweichung bezogen auf einen beliebigen Wert M
Varianz • Verschiebungssatz (Beziehung zw. MQ(M) und Varianz): • Das bedeutet: • MQ(M) Varianz • MQ(M) = σ² wenn M = arithm. Mittel • Minimumeigenschaft des arithm. Mittels.
Varianz • Rechenvereinfachung: • Liegt eine Häufigkeitsverteilung vor: k Merkmalswerte x1,...,xk mit abs. Häufigkeiten hi bzw. rel. Häufigkeiten fi (i=1,...,k) • Varianz:
Varianz • Varianz einer Grundgesamtheit, die aus 2 Teilgesamtheiten (n1, n2) besteht: mit
Varianz • Klassifizierte Daten: Häufigkeitsverteilung • Varianz näherungsweise berechnen, statt der Merkmalswerte xi werden die Klassenmitten xi´ verwendet:
Varianz • Bei unimodalen Verteilungen, ist die Varianz, die aus den klassifizierten Daten berechnet wird, größer als die Varianz, die aus den Einzelwerten berechnet wird. • Bei konstanten Klasseneinteilungen (Δx): Sheppardsche Korrektur: σ² ... die aus den klassifizierten Daten näherungsweise bestimmte Varianz
Varianz • Dimension: Quadrat der Dimension der einzelnen Beobachtungen • Eigenschaft: Varianz immer 0 • Ist Varianz = 0, liegt keine Streuung vor, alle Beobachtungswerte sind gleich und somit auch gleich dem arithmetischen Mittel.
Standardabweichung • Standardabweichung = Quadratwurzel der Varianz
Varianz & Standardabweichung Eigenschaften: • Lineare Transformation der Einzelwerte ai: ai* = α + βai (i=1,...,n) • Dann: Varianz: σ*² = β²σ² Standardabweichung: σ* = |β| σ • Sonderfall: β=1, Transformation ai* = α + ai σ*² = σ² und σ* = σ
Standardisierung • Standardisierung: • Spezielle lineare Transformation • Bildet aus Einzelwerten ai standardisierte Werte zi, indem von jedem ai das arithm. Mittel μ abgezogen wird und durch die Standardabweichung dividiert wird. • Arithm. Mittel der zi immer 0, • Varianz der zi immer 1.
Variationskoeffizient • Streuung zweier oder mehrerer Verteilungen mit sich stark voneinander unterscheidenden Mittelwerten vergleichen • Relatives Streuungsmaß (für verhältnis-skalierte Merkmale mit ausschließlich positiven Merkmalswerten), bezieht die Standardabweichung σ (absolutes Streuungsmaß) auf das arithm. Mittel μ.
MAD Mittlere absolute Abw. • Arithmetisches Mittel der absoluten Abweichungen der einzelnen Merkmalswerte vom Mittelwert (z.B. arithm. Mittel oder Median) • Minimumeigenschaft des Medians: M beliebiger Wert
MAD • Häufigkeitsverteilung der Daten • MAD bezogen auf Mittelwert μ • MAD aus Häufigkeitsverteilung von klassifizierte Daten: • Merkmalswerte xi durch Klassenmitten xi´ ersetzen.
Spannweite (Range) • Abstand zw. dem größten und dem kleinsten Wert • Einzelwerte der Größe nach ordnen: a[1],…,a[n] R = a[n] - a[1] • Häufigkeitsverteilung von k Merkmalsausprägungen: R = xk - x1 • Häufigkeitsverteilung von klassifizierten Daten: R = xko - x1u • Spannweite ist instabil gegenüber Ausreißern
Quartilsabstand • Quartile Q1, Q2 (=Median), Q3 teilen die Gesamtheit in 4 gleich große Teile. • α-Quantil: a(k) falls n·α keine ganze Zahl (k die auf n·α folgende ganze Zahl) ãα= 1/2 (a(k)+a(k+1)) falls n·α ganze Zahl k=n·α • Quartilsabstand (Interquartile Range) definiert als Spannweite der 50% mittleren Werte: QA = Q3 – Q1 • Eigenschaft: stabil gegenüber Ausreißern
Box-Plot • Box-Plot: grafische Darstellung einer Beobachtungsreihe (Verteilung und Struktur)
Box-Plot • Box-Plot für Vergleich von 2 Messreihen:
Box-Plot • Box-Plot • Box: beinhaltet 50% der Daten (Grenzen: 1. und 3. Quartil), Darstellung des Medians. • Whiskers: maximal 1,5-mal die Länge der Box. • Ausreißer: Werte außerhalb der Whiskers. • Ausreißer • Krasse Ausreißer
Schiefe • Gibt Richtung (rechts- oder linksschief) und Größenordnung der Schiefe einer unimodalen Häufigkeitsverteilung an. < 0 linksschiefe g1 = 0 symmetrisch > 0 rechtsschiefe • Kein direkter Streuungsparameter
Schiefe • Schiefe einer Häufigkeitsverteilung aus gruppierten Daten (k Klassen): Verwendung der Klassenmittel od. der Klassenmitten • Berechnung mit Klassenmittel und Klassenmitte kann zu unterschiedlichen Ergebnissen führen.
Schiefe • Linksschiefe Verteilung: g1 < 0
Schiefe • Symmetrische Verteilung: g1 = 0
Schiefe • Rechtschiefe Verteilung: g1 > 0
Wölbung • Wölbung od. Kurtosis od. Exzeß: Maßzahl für unimodale Häufigkeitsverteilungen • Gibt an, ob (bei gleicher Varianz) das absolute Maximum der Häufigkeitsvt. größer als bei der Dichte der Normalvt. ist.