450 likes | 728 Views
STATISIK. LV Nr.: 1375 SS 2005 1.März 2005. Literatur. Bleymüller, Gehlert, Gülicher: „Statistik für Wirtschaftswissenschaftler“, Verlag Vahlen Hartung: „Statistik. Lehr- und Handbuch der angewandten Statistik“, Oldenburg Verlag München Wien. Einführung .
E N D
STATISIK LV Nr.: 1375 SS 2005 1.März 2005
Literatur • Bleymüller, Gehlert, Gülicher: „Statistik für Wirtschaftswissenschaftler“, Verlag Vahlen • Hartung: „Statistik. Lehr- und Handbuch der angewandten Statistik“, Oldenburg Verlag München Wien
Einführung • „Statistik“: Abgeleitet vom neulateinischen Begriff „status“ (Bed.: „Staat“, „Zustand“) • 18. und 19. Jhdt: „Lehre von der Zustandsbeschreibung des Staates“ (Sammeln und verbales oder numerisches Beschreiben von Daten) • Heute: im doppelten Sinne gebraucht • Quantitative Informationen (z.B. Bevölkerungsstatistik) • Formale Wissenschaft
Einführung Statistik befasst sich mit • Erhebung (Sammeln von Daten. Wie kommt man zu der benötigten Information?) • Aufbereitung (Präsentation; Reduktion von Daten, wobei ein Großteil der Information erhalten bleiben soll; wenige Kenngrößen; einfache Grafiken) • Analyse (Welche Schlüsse kann man ziehen? Allgemeine Aussagen basierend auf Stichproben?) von (numerischen) Daten.
Einführung • Warum Statistik? • Entscheidungshilfe z.B. 2 verschiedene Produkte – welches soll am Markt eingeführt werden? • Tieferes Verständnis bei Problemen z.B. Welche Faktoren beeinflussen die Kaufentscheidung? Richtung des Einflusses?
Einführung • Wie Statistik? • Planung (Untersuchungsziel, Organisation, ...) • Erhebung • Befragung (schriftlich, mündlich) • Beobachtung (in Wirtschaftswissenschaften selten) • Experiment (v.a. Naturwissenschaften) • Automatische Erfassung (z.B. Scannerkassen) • Aufbereitung (Verdichtung der Daten) • Analyse (deskriptive u. induktive Methoden) • Interpretation
Deskriptive Statistik beschreibende Statistik Beschreibung und Zusammenfassung Darstellung von Daten (Tabellen u. Grafiken) Kennzahlen (z.B. Mittelwerte, Streuungs-maße) Induktive Statistik schließende Statistik Von Stichproben auf Grundgesamtheiten Schätzer Tests Entscheidungstheorie Multivariate Methoden Deskriptiv - Induktiv
Statistische Daten • Von Interesse sind nie einzelne elementare Objekte (statistische Einheiten, Elemente) sondern immer Mengen von Elementen (statistische Gesamtheiten, statistische Massen). • Reale und hypothetische Gesamtheiten z.B. Bevölkerung eines Staates, Menge der Ergebnisse eines theoretisch fortlaufend ausgespielten Würfels • Endliche und unendliche Gesamtheiten
Statistische Daten • Bestandsmassen (Streckenmassen): • Objekte mit Lebensdauer • Werden zu einem Zeitpunkt erfasst • z.B. Einwohner Österreichs am 1.1.2005, Lagerbestand am 31.12.2004 • Bewegungs- oder Ereignismassen (Punktmassen) • Ereignisse • Werden innerhalb einer Zeitspanne erfasst • z.B. Geburten in Österreich im Jahr 2004, bei einer Bank eingegangene Schecks im April 2004
Statistische Daten • Beziehung Bestands- und Bewegungsmasse: Für jedes Element einer Bestandsmasse stellt der Beginn und das Ende der Existenz ein Ereignis dar • Fortschreibungsformel: Anfangsbestand + Zugang – Abgang = Endbestand Bestandsmasse Bewegungsmasse
Statistische Daten • Angehörige der Massen: Merkmalsträger / Beobachtungseinheit (Personen, Objekte) • Erhoben werden Werte von Merkmalen / Variablen (Merkmalsausprägungen) der Merkmalsträger • (statistische) Population: Gesamtheit aller Beobachtungseinheiten Bsp: Haarfarbe = Merkmal, Person X = Merkmalsträger, blond = Merkmalsausprägung des Merkmals Haarfarbe des Merkmalsträgers X
Datenerhebung • Vollerhebung Es werden Daten von allen Elementen der Population erhoben. • Stichprobenerhebung Es werden Daten von einer Teilmenge (Stichprobe) der Population erhoben.
Datenerhebung • Messen von Merkmalsausprägungen • Kriterien für Messungen: • Objektivität das zu ermittelnde Merkmal wird eindeutig festgestellt, Ergebnis ist unabhängig von der Person die misst • Validität (Gültigkeit) Messinstrument misst was es messen soll • Reliabilität (Zuverlässigkeit) Ergebnis der Messung wird exakt festgestellt, bei mehrmaligem Messen (approximativ) gleiches Ergebnis
Statistische Merkmale • Qualitative Merkmale • Messen durch Klassifikation (z.B. Geschlecht) • Quantitative Merkmale • Messen durch Zählen (z.B. Alter, Körpergröße) • Diskrete Merkmale • Messen mit ganzen Zahlen (z.B. Anzahl Familienmitglieder) • Stetige Merkmale • Messen mit reellen Zahlen (z.B. Körpergröße)
Merkmalsskalen • Nominalskala • Werte unterliegen keiner Rangfolge und sind nicht vergleichbar (z.B. Farbe, Geschlecht, ...) • Ordinalskala • Werte unterliegen einer Rangfolge, Abstände zw. verschiedenen Ausprägungen lassen sich nicht interpretieren (z.B. Schulnoten, Güteklassen, ...) • Intervallskala • Rangfolge, Abstände zw. verschiedenen Ausprägungen sind interpretierbar (z.B. Temperatur in Grad Celsius, Kalenderzeitrechung, ...) • Verhältnisskala • Rangfolge, interpretierbare Abstände, absoluter Nullpunkt (z.B. Körpergröße, Alter)
Merkmalsskalen Zulässige Transformationen (informationserhaltend) • Nominalskala: symmetrische Transformationen nur Änderung der Klassenbezeichnungen • Ordinalskala: streng monotone Transformationen x*=f(x) so dass für x1< x2 auch x1*< x2* • Intervallskala: lineare Transformationen x*=ax + b (a > 0) • Verhältnisskala: Ähnlichkeitstransformationen x*=ax (a > 0)
Empirische Verteilungen Häufigkeitsverteilung • Beobachtete Daten, n Untersuchungseinheiten, Merkmal X • k Merkmalsausprägungen (x1, ..., xk) • j-te Untersuchungseinheit (j=1,...,n), Ausprägung xi (i=1,...,k) • Liste der beobachteten Merkmalsaus-prägungen: Beobachtungsreihe oder Urliste
Empirische Verteilungen • Absolute Häufigkeiten: hi = „Anzahl der Elemente, welche Merkmalsausprägung xi besitzen“, i=1,...,k hi [0,n] und Σi hi = n (i=1,...,k) • Relative Häufigkeit: fi = 1/n·hi fi [0,1] und Σi fi = 1 (i=1,...,k) • Vorsicht: Anzahl der möglichen Werte oft Anzahl der tatsächlichen Werte
Empirische Verteilungen • Diskrete Merkmale: Einzelwerte • Stetige Merkmale: Klasseneinteilung • In beiden Fällen werden Häufigkeiten gezählt. • Sind xi Zahlen, werden sie ansteigend geordnet.
Darstellungsformen • Tabelle Häufigkeitsverteilung
Darstellungsformen • Grafik: Balkendiagramm für absolute und relative Häufigkeiten gleich – Skalierung der y-Achse
Darstellungsformen • Grafik: Histogramm
Darstellungsformen • Balkendiagramm: Abstand zwischen den Balken. Die Höhe stellt die Häufigkeit dar. • Histogramm: Kein Abstand zwischen den Balken. Bei ungleich breiten Klassen ist die Fläche – nicht die Höhe – Maß für die Häufigkeit. Die Balkenhöhe entsteht durch Division von Häufigkeit und Klassenbreite (Höhe=hi/bi).
Darstellungsformen • Tortendiagramm
Darstellungsformen Stetige Merkmale: • Klassen bilden • Klassengrenzen: x0, x1, ..., xk • Häufigkeiten hi: Anzahl der Werte zwischen xi-1 und xi. Liegt ein Wert genau auf der Klassengrenze, wird er üblicherweise der unteren Klasse zugerechnet
Summenhäufigkeitsfunktion • Absoluten Summenhäufigkeiten Hi: • Fortlaufende Summierung (Kumulierung) der absoluten Häufigkeiten. • Hi Anzahl der Elemente mit Merkmalswert xi. • Hi = h1+h2+...+hi = Σj hj für j=1,...,i und i=1,...,k • Relative Summenhäufigkeiten Fi: • Fortlaufende Summierung der relativen Häufigkeiten. • Fi = f1+f2+...+fi = Σj fj für j=1,...,i und i=1,...,k • Fi = Hi/n für i=1,...,k
Summenhäufigkeitsfunktion • Häufigkeiten aus Summenhäufigkeiten berechnen: hi = Hi – Hi-1 (i=1,...,k) fi = Fi – Fi-1 (i=1,...,k) wobei H0 = F0 = 0
Summenhäufigkeitsfunktion • Summenhäufigkeitsfunktion - empirische Verteilungsfunktion F(x) - wird aus Summenhäufigkeiten bestimmt. F(x) gibt den Anteil der Elemente mit einem Merkmalswert x an. 0 für x < x1 F(x) = Fi für xi x < xi+1 (i=1,...,k-1) 1 für x xk
Summenhäufigkeitsfunktion • Diskrete Merkmale
Summenhäufigkeitsfunktion • Stetige Merkmale
Maßzahlen • Parameter, Kollektivmaßzahlen • Lageparameter (Mittelwerte) • Streuungsparameter (Variabilitätsmaße, Variationsmaße) • Schiefe • Wölbung
Lagemaße und Mittelwerte • Eigenschaften: • Liegen zwischen Minimum und Maximum der Daten • Wenn alle Daten derselben linearen Transformation unterworfen werden, macht auch das Lagemaß diese Transformation mit • Harmonisches und geometrisches Mittel sind keine Lagemaße im strengen Sinn
Lagemaße und Mittelwerte • Arithmetisches Mittel • Median • Modus • Geometrisches Mittel • Harmonisches Mittel • Quantile
Arithmetisches Mittel • Mittelwert, durchschnittlicher Wert. • Für metrisch skalierte Merkmale. • a1,...,an beobachtete Merkmalswerte eines Merkmals X
Arithmetisches Mittel Eigenschaften (Betrachte Einzelwerte ai (i=1,...,n)): • Summe der Abweichungen der Einzelwerte von ihrem arithmetischen Mittel = 0 • Summe der quadrierten Abweichungen der Einzelwerte von ihrem arithmetischen Mittel ist kleiner als von einem beliebigen anderen Wert
Arithmetisches Mittel • Das arithmetische Mittel unterliegt der gleichen linearen Transformation wie die Einzelwerte Lineare Transformation: • Arithmetische Mittel von zwei oder mehr Teilgesamtheiten:
Arithmetisches Mittel • Gewogenes (gewichtetes) arithmetische Mittel • Gewichte w1, ..., wn mit 0wi1 und Σiwi=1 • Für w1=...= wn=1/n ergibt sich das gewöhnliche arithmetische Mittel
Median • Median (Zentralwert): mindestens 50% der Beobachtungen ai nehmen eine Wert größer oder gleich bzw. kleiner oder gleich dem Median an. • Sind a1... an der Größe nach geordnet, ist der Median x̃0,5: x((n+1)/2) n ungerade x̃0,5 = ½(x(n/2)+x(n/2+1)) n gerade
Median • Häufigkeitsverteilung: Median ist diejenige Merkmalsausprägung, bei der die Summenhäufigkeitsfunktion den Wert 0,5 überschreitet. • Klassifizierte Daten: Der Median liegt in der Klasse, in der die Summenhäufigkeitsfunktion den Wert 0,5 erreicht.
Modalwert • Modalwert (Modus, häufigster Wert, dichtester Wert): Gibt die Ausprägung an, die die größte Häufigkeit in der Beobachtungsreihe besitzt. • Für nominal skalierte Daten geeignet. • Es gilt: h(xmod) h(xi) für alle Merkmalsausprägungen xi,...,xk. • Klassifizierte Daten: Modalwert ist definiert als Klassenmitte der am dichtesten besetzten Klasse.
Geometrisches Mittel • Voraussetzung: Daten verhältnisskaliert • n Einzelwerte a1, ..., an • Merkmalsausprägungen relative Änderungen (z.B. Lohnerhöhung in %) • Geometrisches Mittel:
Geometrisches Mittel • Gewogenes (gewichtetes) geometrische Mittel • Gewichte w1, ..., wn mit 0wi1 und Σiwi=1 • Für w1=...= wn=1/n ergibt sich das gewöhnliche geometrische Mittel
Harmonisches Mittel • Beobachtungswerte a1,...,an • Gewogenes harmonisches Mittel • Gewichte w1, ..., wn mit 0wi1 und Σiwi=1 • Für w1=...= wn=1/n ergibt sich das gewöhnliche harmonische Mittel
Mittel • Vergleich arithmetische- geometrisches- und harmonisches Mittel: • Bei positiven Beobachtungswerten a1,...,an gilt stets die Beziehung • Bei identischen Beobachtungen a1=...=an sind die Mittel gleich.
Quantile • Geordnete Beobachtungsreihe a(1)...a(n) • α-Quantil a(k) falls n·α keine ganze Zahl (k ist die auf n·α folgende ganze Zahl) ãα= 1/2 (a(k)+a(k+1)) falls n·α ganze Zahl k=n·α • Spezielle Quantile: • Median = 0,5-Quantil • Unteres Quartil = 0,25-Quantil • Oberes Quartil = 0,75-Quantil