170 likes | 339 Views
Nachtrag: Simulation zum Bias-Variance Tradeoff. Vergleich eines restriktiven Modells mit einem flexiblen Modell: Das wahre Modell sei die Standardnormalverteilung. Aus ihm werden Stichproben gewisser Größe n gezogen.
E N D
Nachtrag: Simulation zum Bias-Variance Tradeoff • Vergleich eines restriktiven Modells mit einem flexiblen Modell: • Das wahre Modell sei die Standardnormalverteilung. Aus ihm werden Stichproben gewisser Größe n gezogen. • Es werden zwei Modellräume (oft auch „Modellierungsmethoden“ genannt) miteinander verglichen: • „Flexibles Modell“: Die Menge aller Normalverteilungen mit unbekanntem Erw.wert als auch Std.Abw. ( zwei Parameter müssen geschätzt werden: μ,σ ) • „Restriktives Modell“: Die Menge aller Normalverteilungen mit unbekanntem Erw.wert und fester Std.Abw. σguess ( nur ein Parameter, μ, muss geschätzt werden) • Die Güte der Modellanpassung wird vermöge der Kolmogoroff-Smirnov-Statistik bewertet (= L1-Norm auf dem Raum aller Wahrscheinlichkeitsdichten)
Nachtrag: Simulation zum Bias-Variance Tradeoff anzahl = c(3,5,10,20,50,100,200,500,1000) # gibt die Stichprobengrößen an, für die simuliert werden soll repeats = 1000 # die Modellidentifikation (Schätzung der Parameter/des Parameters) # soll für jede Stichprobengröße repeats Mal durchgeführt werden mureal = 0 sigmareal = 1 # dies sind die tatsächlichen Parameter der Normalverteilung, # aus der die Stichproben gezogen werden sigmaguess = 0.9 # dies ist die im restriktiven Modell angenommene (falsche bzw.# ungenaue) Standardabweichung. Hier kann experimentiert werden! xval = seq(-8,8,length=500) yval = dnorm(xval) abstand1 = numeric(repeats) abstand2 = numeric(repeats) # rein technische Dinge
Nachtrag: Simulation zum Bias-Variance Tradeoff x11() # öffnet einen Grafikbildschirm par(mfrow=c(3,3)) # teilt den Grafikbildschirm in# 3x3 kleine Fenster auf for (n in anzahl) { for (r in 1:repeats) { daten = rnorm(n,mureal,sigmareal) # ziehung der Stichprobe muhat = mean(daten) # ML-Schätzung des Erwartungswerts (beide Modelle) sigmahat = sd(daten) # ML-Schätzung der Std.Abw (flexibles Modell) abstand1[r] = mean(abs(yval- dnorm(xval,muhat,sigmaguess))) abstand2[r] = mean(abs(yval- dnorm(xval,muhat,sigmahat))) # Berechnung der Kolmogoroff-Smirnoff-Statistik # für beide geschätzten Modelle } # end for r
Nachtrag: Simulation zum Bias-Variance Tradeoff plot(density(abstand1),main=paste("Datengroesse :",n), xlim=c(0,0.05),lwd=2) points(density(abstand2),col="red",type="l",lwd=2) abline(v=mean(abstand1),col="black",lty=3) abline(v=mean(abstand2),col="red",lty=3) cat(n," Beobachtungen: ", mean(abstand1),„ vs.",mean(abstand2),"\n") # grafische und textuelle Ausgabe der Ergebnisse } # end for n Preisfrage: Für welche Stichprobenumfänge n erwartet man, dass das flexible Modell besser abschneidet, für welche wird eher das restriktive Modell gewinnen? (Die Antwort hängt quantitativ, aber nicht qualitativ von σguess und dessen Abweichung vom tatsächlichen σ (= Bias) ab)
Restriktives ModellFlexibles Modell Simulation zum Bias-Variance Tradeoff
Maschinelles Lernen Dimensionsreduktion:Hauptkomponentenanalyse (PCA)Lineare Diskriminanzanalyse (LDA)
Principal Components Analyse Gegeben: Hochdimensionale Daten x1,…,xn∊ℝp (p groß). Aufgabe: Finde eine Projektion P auf einen eindimensionalen Raum, die möglichst viel „Information“ aus den Daten transportiert. Der eindimensionale Raum sei gegeben durch x = m+ae , e ∊ℝp , a ∊ℝ, m sei der Schwerpunkt der Daten, Wir suchen eine Projektion xj→ m+aje, die folgendes Zielkriterium minimiert:
m+ake . m e xk Principal Components Analyse Partielles Ableiten und Nullsetzen liefert (oBdA ||e|| = 1) : m+ake ist die orthogonale Projektion von xk auf die Gerade m+ae, a ∊ℝ.
Principal Components Analyse Setze in J(a1,…,an,e) ein : mit der Streumatrix
Principal Components Analyse Minimiere J(e), d.h. maximiere etSe unter der Nebenbedingung ||e|| = 1: Lagrange Multiplikator - Methode: , denn Somit muss gelten, und wegen etSe = etλe = λ ist λder maximale Eigenwert von S.
Principal Components Analyse Definition Principal Components Analyse: Projiziere die Datenpunkte orthogonal auf die Gerade, welche durch den Schwerpunkt der Daten verläuft und deren Richtung durch den Eigenvektor der Streumatrix gegeben ist, welcher den größten Eigenwert hat. Erweiterung: Projiziere auf einen d-dimensionalen (affinen) Raum, d>1, welcher von ek, k=1,…,d aufgespannt wird und welcher den Schwerpunkt der Daten enthält. Die zu optimierende Zielfunktion lautet dann Wie zuvor zeigt man, dass die ajk die orthogonale Projektion der xj auf den durch m,e1,…,ed gegebenen Raum definieren. Die Zielfunktion vereinfacht sich dann zu Es folgt mit den gleichen Argumenten, dass ek der Eigenvektor der Streumatrix mit dem k.-größten Eigenwert ist.
Principal Components Analyse Da die Streumatrix S symmetrisch ist, folgt, dass die Eigenvektoren von S paarweise senkrecht aufeinander stehen: Somit ist Für λ1≠λ2 folgt daraus (Die Eigenvektoren innerhalb eines Eigenraumes können stets paarweise senkrecht gewählt werden, z.B. Schmidtsches Orthogonalisierungsverfahren).
Lineare Diskriminanzanalyse (Fisher) Nachteile der PCA: Falls Information über die Klassenzugehörigkeit von Datenpunkten vorliegt, wird diese bei der PCA ignoriert. Die so gefundene Projektion kann u.U. die entscheidende Information vernichten! Sir Ronald Aylmer Fisher (1890-1962)
Streuung innerhalb der proji-zierten Gruppen ist klein Streuung der projizierten Gruppenmittel ist groß Lineare Diskriminanzanalyse Idee der LDA: Streuung innerhalb der projizierten Gruppen: w Setze Dann ist
Streuung innerhalb der proji-zierten Gruppen ist klein Streuung der projizierten Gruppenmittel ist groß Lineare Diskriminanzanalyse Idee der LDA: Streuung zwischen den projizierten Gruppen: w Die zu maximierende Zielfunktion lautet:
Lineare Diskriminanzanalyse J(w) ist invariant gegenüber Skalierung von w. Daher ist Maximierung von J(w) äquivalent zur Minimierung von wtSww unter der Nebenbedingung wtSbw = 1. Analog zum Vorgehen bei der PCA verwenden wir Lagrange-Multiplikatoren: Somit muss gelten Beachte, dass ein Vielfaches von m1-m2 ist. Nehmen wir vereinfachend an, Sw sei invertierbar. Dann folgt also maximiert die Zielfunktion J(w).