450 likes | 536 Views
Wie schätzt man die Zahl der Fische in einem See?. (Maximum-Likelihood-Schätzung). Prof. Dr. Michael Schürmann Oktober 2007. Schätzen 2. „Maximum-Likelihood“ 3. Testen. 1. Schätzen. Das Gourmant-Restaurant „Zum Fröhlichen Karpfen“
E N D
Wie schätzt man die Zahl der Fische in einem See? (Maximum-Likelihood-Schätzung) Prof. Dr. Michael Schürmann Oktober 2007
Schätzen • 2. „Maximum-Likelihood“ • 3. Testen
Das Gourmant-Restaurant „Zum Fröhlichen Karpfen“ verfügt über einen hauseigenen Fischteich, dessen Bestand in den letzten Jahren nicht mehr kontrolliert wurde. Die Restaurantbesitzer möchten sich nun einen ungefähren Überblick über den Fischbestand ihres Teiches verschaffen. Was könnten sie tun?
Vorschläge Sie könnten ein U-Boot einsetzen und jeden vorbeischwimmenden Fisch fotografieren. Bei der späteren Auswertung müssten dann Doppel- zählungen erkannt werden. Sie könnten das Wasser des Teiches abpumpen. Wenn der Teich fast leer ist, sollte es möglich sein, die (armen) Fische direkt zu zählen. Sie könnten eine Woche ununterbrochen angeln. Die Ausbeute soll dann mithilfe der berühmten Formel des bekannten Statistikers Prof. Dr. Reiner Unsinn auf die geschätzte Gesamtzahl der Fische im Teich hochgerechnet werden.
Bessere Idee Die Restaurantbesitzer gehen so vor: Sie fahren mit dem Ruderboot auf den Teich hinaus und fangen mit dem Spezialnetz eine größere Anzahl von Fischen, die sie, ohne diese zu verletzen, mit einem kleinen weißen Punkt markieren. (Achtung Tierschützer: Die Farbe ist biologisch abbaubar und verhält sich vollkommen neutral gegenüber der empfindlichen Fischhaut!) Danach geben sie die markierten Fische zurück in den Teich.
Nachdem einige Tage vergangen sind, fahren die Restaurantbesitzer wieder hinaus auf den Teich, um erneut eine bestimmte Anzahl von Fischen zu fangen. Sie notieren die Zahl der Fische, die bei diesem 2. Fang eine Markierung aufweisen. unbekannt n Zahl der Fische im Teich N Zahl der markierten Fische m Zahl der beim 2. Mal gefangenen Fische k Zahl der markierten Fische beim 2. Fang bekannt bekannt bekannt
Für diejenigen, die ausschmückender Text eher verwirrt, formulieren wir das Problem noch einmal etwas trockener als „Urnenproblem“. Die Zahl n der (weißen) Kugeln in einer Urne soll bestimmt werden. Dazu zieht man N Kugeln und ersetzt sie durch rote Kugeln, d. h. in der Urne befinden sich jetzt N rote und n – N weiße Kugeln. (Dazu muss natürlich n größer als N sein.) Gut mischen! Dann zieht man erneut, diesmal m Kugeln, und notiert die Anzahl k der roten Kugeln bei dieser 2. Ziehung.
unbekannt n Zahl der Kugeln in der Urne N Zahl der roten Kugeln m Zahl der beim 2. Mal gezogenen Kugeln k Zahl der roten Kugeln bei der 2. Ziehung bekannt bekannt bekannt
Offenbar kann k jeden Wert annehmen zwischen 0 und m, wenn die Zahl N größer oder gleich m ist (was wir annehmen). Es ist nun nahe liegend zu vermuten, dass der prozentuale Anteil der roten Kugeln in der Urne mit dem der roten Kugeln bei der 2. Ziehung annähernd übereinstimmt, dass also der Quotient aus m und k ungefähr gleich dem Quotienten aus n und N sein sollte: Dies führt zu der Schätzung
Schätzung für die Gesamtzahl der Fische im See: Dabei bezeichnet die rechte Seite die größte natürliche Zahl kleiner oder gleich m/k N. (Man könnte auch diejenige natürliche Zahl nehmen, die dem Wert m/k N am nächsten kommt.)
Mathematischer Hintergrund Wir wollen ausrechnen, wie groß die Wahrscheinlichkeit ist, k rote Kugeln zu ziehen, wenn die Werte für n, N und m festliegen. Wir überlegen uns zunächst, wie viele Möglichkeiten es überhaupt gibt, m Kugeln aus n Kugeln auszuwählen.
Dazu stellen wir uns vor, dass die m Kugeln der Reihe nach vor uns liegen. (Nachher müssen wir noch berücksichtigen, dass es auf die Reihenfolge nicht ankommt und wir des- wegen jetzt zunächst einige Fälle mehrfach zählen.) Für die erste Kugel gibt es noch n Möglichkeiten, für die zweite dann n – 1, für die dritte n – 2 u. s. w. ………… Schließlich gibt es für die Kugel Nr. m n – m + 1 Möglichkeiten insgesamt also n (n – 1 )(n – 2 ) … (n – m + 1 ) Möglichkeiten.
Diese Zahl müssen wir noch wegen der erwähnten Mehrfachzählungen durch m (m – 1) … 3 2 1 dividieren. . .
Wir erhalten den Binomialkoeffizienten Anzahl der Möglichkeiten, aus n Kugelnm auszuwählen
Anzahl der Möglichkeiten, bei der zweiten Ziehung genau k rote Kugeln (d. h. k rote und m – k weiße Kugeln) zu ziehen: Also: (Hypergeometrische Verteilung)
Likelihood-Funktion Der Quotient der Likelihood-Funktion für 2 aufeinander- folgende Werte ergibt sich zu Rechnen! Eine weitere Rechnung zeigt:
Schlägt genau um bei unserem Schätzwert !! Maximum-Likelihood-Schätzer
Die Wahrscheinlichkeit für das beobachtete k wird bei unserem geschätzten Wert für n am größten.
Sternschnuppen Man möchte eine Schätzung abgeben über die Zahl der Sternschnuppen, die in einer (sternenklaren) Nacht zwischen 23 und 1 Uhr beobachtet werden können. Dazu teilen wir das Zeitintervall von 2 Stunden in genügend kleine Teilintervalle, 23 Uhr 1 Uhr so dass man nicht mehr als eine Sternschnuppe in einem Teilintervall beobachten kann, z. B.
2 x 60 min = 120 min 4000 gleich lange Teilintervalle Ein Teilintervall dauert dann 120 min : 4000 = 0,03 min = 0,03 x 60 sec = 1,8 sec Außerdem nehmen wir an, dass sich die Zahl der beobachteten Sternschnuppen in den einzelnen Teilintervallen nicht beeinflussen, dass also z. B. die Zahl der Sternschnuppen im 10. Intervall keinen Einfluss auf die Zahl der Sterschnuppen im 19. Intervall hat.
Zahl der beobachteten Sternschnuppen im 1., …. , 4000. Intervall Zahl der insgesamt von 23 bis 1 Uhr beobachteten Sternschnuppen Wahrscheinlichkeit, k Sternschnuppen zu beobachten (Binomialverteilung)
p ist die Wahrscheinlichkeit, dass in einem Intervall eine Sternschnuppe kommt. Dann ist 1- p die Wahrscheinlichkeit, dass in einem Intervall keine Sternschnuppe kommt. Man kann annehmen, dass die Wahrscheinlichkeit, eine Sternschnuppe in einem kleinen Intervall zu beobachten, proportional zur Länge des Intervalls ist. Da die Länge eines Teilintervalls bei n gleich langen Intervallen gleich 120 x 60 sec : n ist, können wir annehmen, dass p proportional zu 1 : n ist, d. h. pn ist gleich einer Konstanten, die wir λ nennen.
Problem: Man schätze λ ! Dazu führen wir unsere Beobachtung der Zahl der Sternschnuppen in 4 verschiedenen Nächten durch und erhalten die folgende Tabelle: 3 1 2 4 Abend Nr. Zahl Sternschnuppen 0 1 3 2
Maximum bei der mittleren Anzahl der Sterschnuppen, d. h. bei (1 + 3 + 2 + 0) : 4 = 1,5 Maximum-Likelihood-Schätzung für λist somit 1,5 Mit der Formel kann man nun die geschätzten Wahrscheinlichkeiten dafür angeben, dass in einer Nacht k Sternschnuppen gesehen werden.
Zum Beispiel ergibt sich für 4 Sternschnuppen eine geschätzte Wahrscheinlichkeit von
TESTS TESTS TESTS TESTS TESTS TESTS TESTS
Werbespruch: Wer keine weiche Birne hat, kauft harte Äpfel aus Halberstadt! Obstbauer Meyer aus Halberstadt verhandelt mit dem Obstgroßhändler Müller über die Abnahme der diesjährigen Apfelernte. Müller möchte die Äpfel nur dann kaufen, wenn ein Apfel im Durchschnitt nicht wesentlich weniger als 140 g wiegt. Da die beiden im Herbst nicht jeden Apfel wiegen können (um dann das durchschnittliche Gewicht zu berechnen), kommen sie überein, den folgenden „Test“ durchzuführen:
Sie werden 16 zufällig herausgegriffene Äpfel der in Frage kommenden Ernte wiegen. Liegt nun der Durchschnitt der 16 Apfelgewichte über 140 g, so will Müller kaufen, liegt er unter 140 g, dann schließt er das Geschäft mit einem anderen Obstbauern ab.
Damit ist Meyer nicht einverstanden. Will es der Zufall, so erwischen die beiden besonders leichte Äpfel, und das Durchschnittsgewicht gibt die wahren Verhältnisse nicht wieder. Meyer meint, hier müsse ein anderer Weg beschrit- ten werden! Müller, der BWL studiert hat und sich seiner Statistik- kenntnisse erinnert, sinniert:
Man müsste die Wahrscheinlichkeit berechnen, dass ich mich aufgrund der gemessenen Apfelgewichte gegen den Kauf entscheide, obwohl die Äpfel in Wirklichkeit ein mittleres Gewicht von über 140 g aufweisen. Dann müssten wir uns vorher einigen, wie groß diese Wahrscheinlichkeit maximal sein darf, und dann müssten wir entsprechend den Schwellenwert des Gewichts festlegen, der meine Entscheidung bestimmt.
Ablehnungsbereich Es wird ein mittleres Gewicht gemessen, das unter dem Schwellengewicht liegt. Annahmebereich Es wird ein mittleres Gewicht gemessen, das über dem Schwellengewicht liegt. Test der „Nullhypothese“, dass das Gewicht über 140 g liegt
Entscheidung Hypothese abgelehnt Hypothese akzeptiert Realität Hypothese wahr Fehler 1. Art Hypothese falsch Fehler 2. Art
Bei den Verhandlungen über die „Irrtumswahrscheinlichkeit“ (Fehler 1. Art) einigen sich Meyer und Müller auf die üblichen 5%. Verteilung des Apfelgewichtes: Gauß-Verteilung (= Normalverteilung) Wahrscheinlichkeit, dass ein Ei weniger als 55 g wiegt = rote Fläche unter der Kurve Leider keine Apfelkurve gefunden …
Erwartungswert Varianz
Beispiel Gewicht vonÄpfeln Gewicht von Äpfeln aus Meyers Obstplantage Schätzer von : (angenommene Varianz: 249,64)
Durchschnittsgewicht der 16 Äpfel Schwellengewicht, unter dem Müller ablehnt Das Schwellengewicht , so dass diese Wahrscheinlichkeit gerade bei 0,05 liegt, lässt sich mit Hilfe der Normalverteilung berechnen.
Es ergibt sich: In unserem Beispiel beträgt das Durchschnittsgewicht der 16 Äpfel ca. 133, 06 g und liegt damit knapp unter dem Schwellengewicht 133, 5 g. Müller wird also den Handel mit Meyer nicht abschließen.