1 / 71

STATISIK

STATISIK. LV Nr.: 0028 SS 2005 11.Mai 2005. Streuungsmaße. Varianz Standardabweichung Variationskoeffizient Mittlere absolute Abweichung Spannweite Quartilsabstand Schiefe Wölbung. Varianz. Beobachtungswerte a 1 ,...,a n (metrisch skaliert)

corbin
Download Presentation

STATISIK

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. STATISIK LV Nr.: 0028 SS 2005 11.Mai 2005

  2. Streuungsmaße • Varianz • Standardabweichung • Variationskoeffizient • Mittlere absolute Abweichung • Spannweite • Quartilsabstand • Schiefe • Wölbung

  3. Varianz • Beobachtungswerte a1,...,an (metrisch skaliert) • Streuungsmaß: Arithmetische Mittel der Abweichungsquadrate der Einzelwerte ai von ihrem arithmetischen Mittel • Varianz (Mittlere quadratische Abweichung)

  4. Varianz • Bsp. Körpergröße von 5 Personen: 162, 170, 155, 187, 179 • Arithmetisches Mittel = 170,6 • Varianz (Mittlere quadratische Abweichung) σ² = 1/5 · [(162-170,6)² + … + (179-170,6)² ] σ² = 131,44

  5. Varianz • Streuungsmaß: quadrierte Summe der Abweichungen - nicht Summe der Abweichungen von ai von ihrem arithm. Mittel, da gilt: • Mittlere quadratische Abweichung bezogen auf einen beliebigen Wert M

  6. Varianz • Verschiebungssatz (Beziehung zw. MQ(M) und Varianz): • Das bedeutet: • MQ(M)  Varianz • MQ(M) = σ² wenn M = arithm. Mittel • Minimumeigenschaft des arithm. Mittels.

  7. Varianz • Rechenvereinfachung: • Liegt eine Häufigkeitsverteilung vor: k Merkmalswerte x1,...,xk mit abs. Häufigkeiten hi bzw. rel. Häufigkeiten fi (i=1,...,k) • Varianz:

  8. Varianz • Klassifizierte Daten: Häufigkeitsverteilung • Varianz näherungsweise berechnen, statt der Merkmalswerte xi werden die Klassenmitten xi´ verwendet:

  9. Varianz • Bei unimodalen Verteilungen, ist die Varianz, die aus den klassifizierten Daten berechnet wird, größer als die Varianz, die aus den Einzelwerten berechnet wird. • Bei konstanten Klasseneinteilungen (Δx): Sheppardsche Korrektur: σ² ... die aus den klassifizierten Daten näherungsweise bestimmte Varianz

  10. Varianz • Dimension: Quadrat der Dimension der einzelnen Beobachtungen • Eigenschaft: Varianz immer  0 • Ist Varianz = 0, liegt keine Streuung vor, alle Beobachtungswerte sind gleich und somit auch gleich dem arithmetischen Mittel.

  11. Standardabweichung • Standardabweichung = Quadratwurzel der Varianz

  12. Varianz & Standardabweichung Eigenschaften: • Lineare Transformation der Einzelwerte ai: ai* = α + βai (i=1,...,n) • Dann: Varianz: σ*² = β²σ² Standardabweichung: σ* = |β| σ • Sonderfall: β=1, Transformation ai* = α + ai σ*² = σ² und σ* = σ

  13. Varianz & Standardabweichung • Eigenschaften: • Varianz einer Grundgesamtheit, die aus 2 Teilgesamtheiten (n1, n2) besteht: mit

  14. Standardisierung • Standardisierung: • Spezielle lineare Transformation • Bildet aus Einzelwerten ai standardisierte Werte zi, indem von jedem ai das arithm. Mittel μ abgezogen wird und durch die Standardabweichung dividiert wird. • Arithm. Mittel der zi immer 0, • Varianz der zi immer 1.

  15. Variationskoeffizient • Streuung zweier oder mehrerer Verteilungen mit sich stark voneinander unterscheidenden Mittelwerten vergleichen • Relatives Streuungsmaß (für verhältnis-skalierte Merkmale mit ausschließlich positiven Merkmalswerten), bezieht die Standardabweichung σ (absolutes Streuungsmaß) auf das arithm. Mittel μ.

  16. MAD Mittlere absolute Abw. • Arithmetisches Mittel der absoluten Abweichungen der einzelnen Merkmalswerte vom Mittelwert (z.B. arithm. Mittel oder Median) • Minimumeigenschaft des Medians: M beliebiger Wert

  17. MAD • Häufigkeitsverteilung der Daten • MAD bezogen auf Mittelwert μ • MAD aus Häufigkeitsverteilung von klassifizierte Daten: • Merkmalswerte xi durch Klassenmitten xi´ ersetzen.

  18. Spannweite (Range) • Abstand zw. dem größten und dem kleinsten Wert • Einzelwerte der Größe nach ordnen: a[1],…,a[n] R = a[n] - a[1] • Häufigkeitsverteilung von k Merkmalsausprägungen: R = xk - x1 • Häufigkeitsverteilung von klassifizierten Daten: R = xko - x1u • Spannweite ist instabil gegenüber Ausreißern

  19. Quartilsabstand • Quartile Q1, Q2 (=Median), Q3 teilen die Gesamtheit in 4 gleich große Teile. • α-Quantil: a(k) falls n·α keine ganze Zahl (k die auf n·α folgende ganze Zahl) ãα= 1/2 (a(k)+a(k+1)) falls n·α ganze Zahl k=n·α • Quartilsabstand (Interquartile Range) definiert als Spannweite der 50% mittleren Werte: QA = Q3 – Q1 • Eigenschaft: stabil gegenüber Ausreißern

  20. Deskriptive Analyse: Box-Plot • Box-Plot • Box: beinhaltet 50% der Daten (Grenzen: 1. und 3. Quartil), Darstellung des Medians. • Whiskers: maximal 1,5-mal die Länge der Box. • Ausreißer: Werte außerhalb der Whiskers. • Ausreißer • Krasse Ausreißer

  21. Deskriptive Analyse: Box-Plot • Box-Plot: grafische Darstellung einer Beobachtungsreihe (Verteilung und Struktur)

  22. Deskriptive Analyse: Box-Plot • Box-Plot für Vergleich von 2 Messreihen:

  23. Schiefe • Gibt Richtung (rechts- oder linksschief) und Größenordnung der Schiefe einer eingipfligen Häufigkeitsverteilung an. < 0 linksschiefe g1 = 0 symmetrisch > 0 rechtsschiefe • Kein direkter Streuungsparameter

  24. Schiefe • Schiefe einer Häufigkeitsverteilung aus gruppierten Daten (k Klassen): Verwendung der Klassenmittel od. der Klassenmitten • Berechnung mit Klassenmittel und Klassenmitte kann zu unterschiedlichen Ergebnissen führen.

  25. Schiefe • Linksschiefe Verteilung: g1 < 0

  26. Schiefe • Symmetrische Verteilung: g1 = 0

  27. Schiefe • Rechtschiefe Verteilung: g1 > 0

  28. Wölbung • Wölbung od. Kurtosis od. Exzeß: Maßzahl für eingipflige Häufigkeitsvt. • Gibt an, ob (bei gleicher Varianz) das absolute Maximum der Häufigkeitsvt. größer als bei der Dichte der Normalvt. ist.

  29. Wölbung < 0 abs. Max. kleiner als bei N-Vt. g2 = 0 Normalverteilung > 0 abs. Max. größer als bei N-Vt. • Wölbung einer Häufigkeitsverteilung aus gruppierten Daten (k Klassen): Verwendung der Klassenmittel od. der Klassenmitten

  30. Konzentrationsmaße • Metrisch skaliertes Merkmal X mit nur positiven Ausprägungen • Frage: Wie teilt sich die Summe der Merkmalswerte x1,…,xn in der Beobachtungsreihe auf die Untersuchungs-einheiten auf? • Bsp: n landwirtschaftliche Betriebe, Größe der Nutzflächen: x1,...,xn. Wie teilt sich die gesamte Nutzfläche auf die einzelnen Betriebe auf?

  31. Konzentrationsmaße • n Merkmalswerte werden durch q Merkmalsausprägungen a1<...<aq mit absoluten- und relativen Häufigkeiten hi bzw. fi bestimmt. • Gesamtbetrag der Merkmalswerte in der Beobachtungsreihe:

  32. Konzentrationsmaße • Lorenzkurve: Grafische Darstellung der Konzentration der Merkmalswerte • Koordinatenkreuz: • Abszisse: es werden die nach der Größe der Merkmals-ausprägung geordneten relativen Häufigkeiten aufsummiert • Ordinate: Ausprägungen werden der Größe nach aufsummiert und auf Summe aller Ausprägungen bezogen

  33. Konzentrationsmaße • Verbinden der Punkte (ki,li) ergibt die Lorenzkurve, wobei immer k0=l0=0 und kq=lq=1 gilt. 1 li 0 1 ki

  34. Konzentrationsmaße • Interpretation: ein Punkt (ki,li) der Lorenz-kurve gibt an, dass auf ki · 100% der Untersuchungseinheiten li · 100% des Gesamtbetrages aller Merkmalsaus-prägungen entfallen. • Bsp. auf ki · 100% der landwirtschaftlichen Betriebe entfallen li · 100% der gesamten Nutzfläche

  35. Konzentrationsmaße • Bsp. landwirtschaftliche Betriebe • Abszisse: Es wird der Prozentsatz der Betriebe mit der kleinsten Fläche bestimmt, dann wird der Prozentsatz der Betriebe mit der zweit-kleinsten Fläche bestimmt und zum Prozentsatz der Betriebe mit der kleinsten Fläche addiert, usw. • Ordinate: Flächenanteile der Betriebe bzgl. der Gesamtfläche werden der Flächengröße nach aufsummiert.

  36. Konzentrationsmaße • Bsp. landwirtschaftliche Betriebe

  37. Konzentrationsmaße • Bsp: landwirtschaftliche Betriebe

  38. Konzentrationsmaße • Bsp. Landwirtschaftliche Betriebe: • Interpretation: auf ki · 100% der landwirtschaftlichen Betriebe entfallen li · 100% der gesamten Nutzfläche • auf 42% der Betriebe entfallen 6,3% der Nutzfläche, • auf 60% der Betriebe entfallen 12,5% der Nutzfläche, • auf 78% der Betriebe entfallen 27% der Nutzfläche, • auf 94% der Betriebe entfallen 55% der Nutzfläche.

  39. Konzentrationsmaße Extremfälle: • Keine Konzentration, alle Untersuchungs-einheiten haben den gleichen Anteil am Gesamtbetrag. Lorenzkurve ist Diagonale. • Gesamtbetrag konzentriert sich (fast) vollständig auf eine Untersuchungseinheit. Lorenzkurve liegt (fast) auf Abszisse, ist also (fast) senkrecht.

  40. Konzentrationsmaße Extremfälle:

  41. Konzentrationsmaße • Gini-Koeffizient od. Lorenzsche Konzentrationsmaß (LKM): Maßzahl für die Konzentration. • Definiert als das 2-fache der Fläche F zw. Diagonale und Lorenzkurve. LKM = 2F. • Es gilt immer: 0  LKM(n-1)/n • Standardisierter Gini-Koeffizient: LKMnor = n/(n-1) LKM

  42. Konzentrationsmaße • Berechnung von F: • k … Werte auf Abszisse • l … Werte auf Ordinate • q … Anzahl der verschiedenen Merkmalsausprägungen

  43. Konzentrationsmaße • Bsp. Landwirtschaftliche Nutzfläche • LMK = 2F = i2Fi – 1 = 1,6048 – 1 = 0,6408 • mit i = 1,…,5 • LKMnor = 50/49 · 0,6408 = 0,6539

  44. Verhältniszahlen • Quotient zweier Maßzahlen: Verhältniszahl • Gliederungszahlen • Man bezieht eine Teilgröße auf eine ihr übergeordnete Gesamtgröße • Beziehungszahlen • Quotient zweier sachlich sinnvoll in Verbindung stehender Maßzahlen • Index-Zahlen • Quotient zweier Maßzahlen gleicher Art

  45. Gliederungszahlen • Gliederungszahlen • Bsp. Tagesproduktion 1500 Teile, davon 300 fehlerhaft. Dann sind 20% der Tagesproduktion Ausschuss (300/1500·100). Ausschussanteil ist eine Gliederungszahl

  46. Beziehungszahlen • Beziehungszahlen: • Verursachungszahlen: Bezieht Bewegungsmassen auf die zugehörigen Bestandsmassen. • Entsprechungszahlen: Alle Beziehungszahlen, bei denen man Ereignisse nicht auf ihren Bestand beziehen kann.

  47. Beziehungszahlen • Bsp. Verursachungszahlen: Geburtenziffer Bestandsmasse: Einwohner einer Stadt (E) Bewegungsmasse: Zahl der Lebend-geborenen (L) G = (L/E)*1000 Sagt, wie viele Geburten auf 1000 Einwohner einer Stadt entfallen.

  48. Beziehungszahlen • Bsp. Entsprechungszahlen: Schüler-Lehrer-Verhältnis (Zahl der Schüler) / (Zahl der Lehrer) Sagt, wie viele Schüler (ungefähr) auf eine Lehrer entfallen. Dies entspricht aber i.A. nicht der durchschnittlichen Klassengröße.

  49. Indexzahlen • Indexzahlen: Es werden zwei Maßzahlen der gleichen Art in Beziehung gesetzt. • Messzahlen oder Einfache Indizes • Die zugehörigen Maßzahlen beschreiben eine realen Sachverhalt. • (Zusammengesetzte) Indexzahlen • Eine der Maßzahlen ist eine Zahl, die einen fiktiven Zustand beschreibt.

  50. Indexzahlen • Einfache Indizes: • Reihe von Maßzahlen, die man in Beziehung zueinander setzen will. x0,...,xt Maßzahlen zu Zeitpunkten t, x0 Maßzahl zum Basiszeitpunkt 0. Dann ist I0t = xt / x0 für t = 0, 1, 2, ... eine Zeitreihe einfacher Indizes

More Related