Angewandte Statisti k und Datenanalyse

Angewandte Statistikund Datenanalyse Emmerich Kneringer WS 2010 – 704.025 Brauchbar fürsF-Praktikum 1 Vortrag: Mo 4. Okt. 2010 1430-1700 RR 15 home page: physik.uibk.ac.at/fp1

Übersicht • Einführendes Beispiel • Evaluation • Vorbereitung auf das F-Praktikum • Datenanalyse-Software (Origin) • "curve fitting made easy" • Def. einer Fitfunktion • Gauss oder Lorentz • Myonlebensdauer • Interpretation der Fehlerangabe

Beispiel Evaluation von Lehrveranstaltungen • Eine kritische Betrachtung • Ausgangsfrage • Gibt es einen Zusammenhang zwischen der Anzahl der evaluierenden StudentInnen undder Benotung? • Daten • Evaluationen der 4 Semester WS 00/01 - SS 02 • 2128 Benotungen

Evaluation - Fragebogen

Auswertung mit Excel 1. Methode: Punktewolke

Verbesserung: Klassenbildung • Auch das Dekanat kam schon auf die Idee, dass man Intervalle (=Klassen) bilden könnte • Anstatt für eine bestimmte Anzahl von abgegebenen Fragebögen (z.B. 4-6) die Noten als Punkte einzuzeichenen, kann man die Noten histogrammieren • falls man sich die Verteilung ansehen will • oder man berechnet gleich den Mittelwert und die Standardabweichung (=Streuung) der Verteilung

Ein Beispiel für Daten, bei denen der Fehler überschätzt wurde! Versuche: Anpassung von zwei Geraden Die Fehlerbalken sind nicht korrekt! Anstatt des Fehlers der Datenpunkte wurde die Streuung der Daten eingezeichnet!

Auswertung mit Origin 2. Methode: Mittelwert mit Fehler Das beste, das man machen kann!

Interpretation • Mit Methode 2 kann man deutlich erkennen, dass Lehrveranstaltungen, bei denen wenige StudentInnen das Evaluationsformular ausfüllten, besser benotet wurden.Mit der Punktewolkemethode ist dies kaum erkennbar. • Die Ausgangsfrage wäre also so zu beantworten:Es gibt einen statistisch signifikanten Zusammenhang zwischen der Anzahl der evaluierenden StudentInnen und der Benotung bis zu einer Anzahl von 20 evaluierenden StudentInnen. Darüber sind die Daten mit der Hypothese konistent, dass es keinen Zusammenhang gibt.

Erklärung • Die hier gewählte Methode 2 funktioniert so, dass die Information der 3. Dimension auf einen Mittelwert mit Fehler reduziert wird. Dies kann dann 2-dimensional dargestellt werden (siehe oben). • Die Punktewolkemethode verwendet in diesem konkreten Fall der 'rationalen Datenpunkte' die Information der 3. Dimension nicht und ist daher ungeeignet.

Crash-Kurs Origin Benutzerdefinierte Fit-Funktion und Multipeak Fits Emmerich Kneringer 2. Teil

A. Benutzerdefinierte Fit-Funktion 1> Wählen Sie die Spalten Ampl(Y) und Err(yEr±)und wählen Sie Zeichnen: Punktdiagramm. 2> Wählen Sie 'Analyse  Nichtlinearer Kurven Fit Fortgeschrittenes Fit-Hilfsmittel'. Klicken Sie auf die Schaltfläche ´Weitere...´ um in den erweiterten Modus zu gelangen. Wenn diese Schaltfläche nicht vorhanden ist, sind Sie schon in diesem Modus.

Benutzerdefinierte Fit-Funktion (2) 3> Wählen Sie Funktion: Neu. 4> Geben Sie folgende Daten in die Felder ein: Name: Beliebig ... Type: User-Defined Eigene Parameternamen: Aktiv (Anzahl der Parameter wird ausgeblendet) Parameter Namen: A1,t1,A2,x0,w Unabhängige Var.: x Abhängige Var.: y Definition: A1*exp(-x/t1)+A2*exp(-((x-x0)^2)/w) Von: Ausdruck 5> Aktivieren Sie "Vor Gebrauch kompilieren". 6> Klicken Sie auf Speichern. nicht die übliche Notation

Benutzerdef. Fit-Funktion (3) 7> Klicken Sie auf "Prüfen" um die Funktionsdefinition zu kompilieren/prüfen. 8> Wählen Sie 'Aktion  Datensatz.' 9> Setzen Sie Peak_Ampl als Abhängige Variable (Y) und Peak_Pos als unabhängige Variable (X). 10> Wählen Sie 'Optionen  Kontrolle' und dann 'mit Instrument' als Gewichtungsmethode. 11> Wählen Sie 'Funktion  Speichern'. 12> Wählen Sie 'Aktion  Fit'. Initialisieren Sie Ihre Parameter folgendermaßen:

Benutzerdef. Fit-Funktion (4) ... Initialisieren Sie Ihre Parameter folgendermaßen: A1 = 50 t1 = 24 A2 = 19 x0 = 30 w1 = 10

Nachher

Weiteres Beispiel einer benutzerdef.Fit-Funktion: Daten(.OPJ) • FP1-Versuche "Glasfaseroptik" (108) und "Gauss-Strahlen und optische Resonatoren" (118) FORMULA: W0*sqrt(1+(x-f)^2/z0^2) ein Student:

Beispiel Daten B. Welche Funktion passt hier? Gauß? Lorentz?  w Die Funktionenunterscheiden sichin den Ausläufern!

Probiere Gauß und Lorentz Gauß Lorentz Beide Modelle haben Problememit den Ausläufern!

Die Ausläufer kann man hier am besten mit einer 2. Gaußverteilung mit grösserer Breite beschreiben  muli-peak Fit. 2-mal Gauß: keine Gewichtung w = 2

Was wurde hineingesteckt? “Wahrheit:” w1 = 4.4, w2 = 2.2 A1 = 1000, A2 = 2000 2-mal Gauß: statistische Gewichtung Mittelwerte und Breiten hängen nicht sehr von der Art der Gewichtung ab,die Amplituden jedoch schon! Richtig ist:statistische Gewichtung!

MultiPeak Fit 1> Wählen Sie Spalte Ampl(Y) und dann Diagramm:Punktdiagramm. 2> Wählen Sie Analyse: Fit Überlagerte Impulse  Lorentz ... 3> Wählen Sie drei Impulse in der folgenden Dialogbox aus. 4> Akzeptieren Sie den Wert in der Dialogbox ´Schätzung der halben Breite´. 5> Wählen Sie den ersten Impuls aus, indem Sie die Bildschirmleser durch Doppelklick auf die Impulsmitte und den Minimalwert setzen. 6> Tun Sie das selbe für die anderen beiden Impulse. Der Fit wird automatisch ausgeführt. Es werden vier Fitkurven dem Diagramm hinzugefügt. Drei dieser Kurven sind Fitlinien für jeden einzelnen Impuls und erscheinen in grün. Die vierte Kurve ist die Gesamtfitlinie. Sie erscheint in rot hinter den anderen Linien. Wenn Sie vor den Linien erscheinen soll,doppelklickenSie auf das graue Symbol für Layer 1 links oben im Fenster. In der Spalte ´Inhalt des Layers´ können Sie die Reihenfolge ändern (der Datensatz ganz unten in der Spalte erscheint im Layer ganz vorne!).

MultiPeak Fit: Resultat

3 Überlagerte Gauß-Funktionen Daten: gauss3peaks_B Modell: Gauss Gleichung: y=A/(w*sqrt(PI/2)))*exp(-2*((x-xc)/w)^2 Gewicht: Statistisch Chi^2/DoF = 0.79953 R^2 = 0.99717 xc1 0.0037  0.0152 w1 1.5373  0.0295 A1 2003.4  69.363 xc2 2.0176  0.0615 w2 3.0501  0.0804 A2 2081.7  98.812 xc3 6.3972  0.2452 w3 5.4826  0.2303 A3 898.83  64.879 Rohdaten

Daten: gauss_1peak_inte_1k_cut.dat Versuch 118: Gauss-Strahlen Gauss fitten Differenzieren

Origin Demo zum Ausprobieren (30 Tage): http://physik.uibk.ac.at/fp1/statistik+datenanalyse/origin/demos • am ZID ist Origin 7 (deutsch, SR4) installiert • Vorteile …einfach, man bekommt schnell Ergebnisse • Nachteile …zu einfach, man bekommt leicht falsche Ergebnisse • Alternativen: • http://root.cern.ch • Freie software (GPL) • Speziell geeignet für Linux • gnuplot • qtiplot

Statistische Methoden der Datenanalyse Von der Messreihe zur Verteilungsfunktion • 1. Messreihe

2. Histogramm dazu 3. Normierung

Die Interpretation von  im Sinne der unten angegebenen Wahrscheinlichkeiten setzt eine Gauss-Verteilung voraus. Interpretation von 1 , 2 , 3   = 1 68% m Zum Vergleich:Die Standardabweichung  einer Gleichverteilung in [–½, ½] ist 1/12  0.289. Daher ist die Wahrscheinlichkeit P[–, ] = 0.577, und P[–2, 2] = 1. Beachte: bei komplizierteren Grenzenmuss man folgendermassen vorgehen:

Praxis • zur Auflockerung und zum Abschluss:Beispiele aus der Praxis • N Datenpunkte, DoF = ? für • linearen Fit • Gauss-Verteilung • Polynom k-ter Ordnung k = N–1 ?  2/DoF = 0/0 Welches Modell scheint für diese Daten geeignet?

Polynomfit

2-Verteilung3 Freiheitsgrade (linearer Fit) Integrate[PDF[ChiSquareDistribution[3],x],{x,3.99,}] Out[1] = 0.262546 26% Polynomfit 2/DoF=? Prob=? 11.4 1.33 n.def 3·10–9 26% — y Was, wenn Prob = 99%? Modell falsch,zuwenig Daten oder Fehler überschätzt! x

Beim Polynomfit hängt der Parameterfehler nur vom Fehler der Daten (und den x-Koordinaten!), nicht jedoch von den y-Werten der Daten ab! Polynom-Fit: y = A0 + A1 x + A2 x2 + A3 x3 Animation:moving-data

Beim Polynomfit hängt der Parameterfehler nur vom Fehler der Daten (und den x-Koordinaten!), nicht jedoch von den y-Werten der Daten ab! Polynom-Fit: Animation: moving-data y = A0 + A1 x + A2 x2 + A3 x3

Beweis: • Der Fehler beim Least-Squares Parameterfit ist definiert durch die Variation der Parameter, wenn man von 2minzu 2min +1 geht. • Daraus folgt, dass die Fehler gleich bleiben, falls die Funktion 2(p1,…,pk) nur im Parameterraum verschoben wird. • Da beim Polynomfit 2(p1,…,pk) eine quadratische Form ist, müssen wir nur zeigen,dass die Matrix der 2.Ableitungen nicht von yi abhängt.

Gauss-Fit: y = Constant*exp(–(x–Mean)2/Sigma2) Animation:moving-data

Fehler der Fit-Parameter • Man merke sich: • Der Fit-Fehler hängt hauptsächlich von den Daten-Fehlern ab. • Ob ein Fit gut ist oder nicht wird durch den Wert von 2 bestimmt. • Dies macht nur wirklich Sinn, wenn die Daten einen Fehler haben. • Zusätzliche Datenpunkte verkleinern in der Regel die Fehler. • Origin: • Was ist, wenn die Daten keinen Fehler haben?

ENDE • bis hierher geht das Standardprogramm • falls Zeit ist, oder bei speziellen Fragen,geht‘s hier weiter

FP1-Versuch C. Myonlebensdauer theo= 2.2 s keine Gewichtung • Exponentieller Abfall ab 0.8 = 1.97 ± 0.025 ab 1.0 = 2.05 ± 0.027 ab 1.2 = 2.07 ± 0.030 ab 1.2 = 2.13 ± 0.050 Genauigkeit: ~ 1-2 % bei 10% Abweichung stat. Gewichtung

Zeichenbereich der Fit-Funktion erweitern • Beispiel Myonlebensdauer

Wahrscheinlichkeitsverteilungen • Gleich-Verteilung • Gauß-Verteilung • Poisson-Verteilung [diskret] • Exponential-Verteilung • Chi2-Verteilung • Parameter • Applets (im Internet) • p.d.f. Vergleich

Die Momente der Funktionenkönnen nur von den Parametern abhängen! Tabelle von wichtigen stat. Funktionen Verteilung p.d.f. Mittelwert  (+)/2   n Varianz 2  ()2/12 2 2 2n

Der bei einer einzigen Messung erhaltene Fehler eines Fit-Parameters kann im Prinzip auch aus der Streuung der Fit-Parameter bei vielen unabhängigen Experimenten erhalten werden. Interpretation des (Fit-)Fehlers 2+1 2/ndf 10.45 / 21P1 50.07  7.076P2 1.046  0.1477 Konsistenz! Entries 2500Mean 0.9989RMS 0.1392 1 Experiment: Bestimmung der mittleren Lebensdauer aus 50 Messungen (Wahrheit:  = 1). 2500 Experimente(Statistik der Fit-Parameter) P2 =

Wie soll man den Fehler der Fit-parameter angeben können, wenn keine Einzelfehler gegeben sind? Anwendung von: 2/DoF ~ 1 Emmerich Kneringer Kurvenanpassung'Fehler ohne Fehler' SS 2006 - 704037 11. Vorlesung 30. Mai 2006 home page: physik.uibk.ac.at/statistik

Fehler bei Mittelwertbildung (Fit einer Konstanten) Erinnerung Gesamtfehler ist nur eine Funktion der Einzelfehler!

Definition des Fehlers 'ohne Fehler'? • Datenpunkte ohne Fehler • Gleiches Gewicht gi = g = 1/2 für alle N Datenpunkte • 2best-fit Parameter sind unabhängig von g • Origin macht den Fit für g = 1 • dies ergibt einen Wert für das reduzierte Chi-quadrat: 2/DoFund eine Kovarianzmatrix covij • nun kann man sich nachträglich die 2-Funktion mit diesem Faktor normiert denken: • beste Schätzung für den Datenfehler i = (2/DoF) • Fehler aus der Kovarianzmatrix muss ebenfalls mit diesem Faktor skaliert werden – was in Origin automatisch geschieht!

Wenn der Verdacht besteht, dass die Datenfehler unter- oder überschätzt wurden, dann kann man beim Fit mit Datenfehler das Kästchen'Sqrt(reduziertes chi^2)Formel für Fehler' auswählen(ist per default nicht aktviert). Ist äquivalent mit einer Umskalierungder Datenfehler derart,dass man 2/DoF = 1 erhalten würde. [bezieht sich auf Origin] Fit mit Datenfehler u. reduziertes 2

Umskalierung der Datenfehlerkann man sich sparen, mit(siehe auch nächste Seite) Beispiel mit überschätztem Datenfehler • Umskalierung der Datenfehler: * 0.21

Auch bei den normalen Hilfsmitteln 'Fit Linear', 'Fit Sigmoide' steht diese Auswahlkästchen zur Verfügung. Beachte: selber Fehler wie in der rechten Grafikauf der Seite vorher!

Angewandte Statisti k und Datenanalyse

Angewandte Statisti k und Datenanalyse

Presentation Transcript

Deskriptive Statistik und Explorative Datenanalyse

Modul Statistische Datenanalyse

STATISTI ČKA METODA

IBM SPSS Predictive Analytics Datenanalyse und Vorhersagen

Datenanalyse LHCb

Angewandte Biomechanik

Institut für Anorganische und Angewandte Chemie

Angewandte Informatik

Angewandte Statistik

Migration - Datenanalyse

Standardisierte schriftliche Reife- und Diplomprüfung aus Angewandte Mathematik

Datenanalyse und Musik

Angewandte Geophysik

Kompetenznetzwerk für Angewandte und Transferorientierte Forschung (KAT)

Dienstleistungen der Bibliothek Wirtschaftsinformatik (IWI) und angewandte Mathematik (IAM)

Bergische Universität Wuppertal Theoretische Methoden und Angewandte Informatik

STATISTI ČKO POSMATRANJE

Angewandte Naturwissenschaften

§0 Datenanalyse

Angewandte Fragestellungen

Angewandte Informatik 1. Semester Bachelor für Forstwissenschaften und Waldökologie

Institut für Anorganische und Angewandte Chemie