440 likes | 654 Views
Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde. Stage nouveau programme de seconde 16/04/10. – Partie 1 – Étude de la fluctuation d’échantillonnage. p. n tirages avec remise. X nombre de boules rouges. Un minimum de « théorie ».
E N D
Applications de l’étude des fluctuations d’échantillonnage dans le nouveau programme de seconde Stage nouveau programme de seconde 16/04/10
– Partie 1 – Étude de la fluctuation d’échantillonnage
p n tirages avec remise. X nombre de boules rouges Un minimum de « théorie »
X suit la loi binomiale de moyenneE(X) = np et d’écarttype correspondant à la fréquence desboules rouges a pour moyenne et pour écart type
Pour n « assez grand » la loi binomiale est proche d’une loi normale et F suit approximativement la loi normale de moyenne pet d’écart type Pour une loi normale, environ 95 % des observations se font dans un intervalle de rayon 2 écarts types autour de la moyenne.
Intervalle de fluctuation de 95 % des observations : [ p – 2 ; p + 2 ] On peut majorer cet intervalle : d’où Intervalle de fluctuation de plus de 95 % des observations : [ p – ; p + ]
Roue 1 Roue 2 Roue 3 Échantillon n° 1 : f 1 = 0,61 ... Population : p = 0,6 Échantillon n° 50 : f50 = 0,51 Fréquences f1, f2, ..., f50 obtenues sur les 50 échantillons Distribution d’échantillonnage Observations par simulation Observation_theorie_Echantillonnage.xls
Quels obstacles, quelles questions ? · Bien distinguer population et échantillon(s). · Définition de « échantillon ». · Intérêt de certaines « images mentales » comme l’urne (de Bernoulli) ou la roulette. · Nécessité d’expérimenter, physiquement et par simulation. · La définition de l’intervalle de fluctuation s’énonce en termes de probabilité. · Bien retenir qu’il y a un seul intervalle de fluctuation au seuil de 95 %. Il est centré sur p. · La formule de l’intervalle de fluctuation au seuil de 95 % n’est pas à faire apprendre aux élèves de seconde.
– Partie 2 – Prendre une décision à partir d’un échantillon
p = p0 ? Un minimum de « théorie » échantillonf connu
On fait l’hypothèse que la proportion de boules rouges dans l’urne est p = p0 . Si l’hypothèse est vraie, on sait que la probabilité qu’un échantillon aléatoire de taille n fournisse une fréquence dans l’intervalle (de fluctuation) [ p0 – , p0 + ] est environ (ou supérieure à) 0,95.
On prélève un échantillon aléatoire de taille n dans l’urne sur lequel on observe une fréquence f de boules rouges. On suit la règle de décision suivante : – Si f appartient à [ p0 – , p0 + ], on accepte l’hypothèse p = p0 au seuil de 5 %. – Si f n’appartient pas à [ p0 – , p0 + ], on rejette l’hypothèse p = p0 au seuil de 5 %.
Lorsqu’on, rejette l’hypothèse, le risque (la probabilité) de se tromper est de 5 %. il y a en effet environ 5 % des cas où la fréquence observée est en-dehors de l’intervalle de fluctuation, alors que H0 est vraie. En revanche, lorsqu’on accepte H0, on ne connait pas le risque d’erreur. En effet, celui-ci dépend de la nature de l’hypothèse H1 alternative à H0.
Quels obstacles, quelles questions ? · Les situations les plus simples sont celles où on rejette l’hypothèse : notion de « différence significative » ou de « preuve statistique » Dans ce cas, un raisonnement rigoureux est possible fondé sur la probabilité correspondant à l’intervalle de fluctuation. · Il y a deux risques d’erreur. Ne pas faire croire qu’il n’y en a qu’un.
Simulation avec les TICE 0,3 1,3 0 1 30%70% ? =ALEA() =ALEA() + 0.3 =ENT(ALEA() + 0.3) donne 0 dans 70% des cas et 1 dans 30% des cas
Exemple d’activité :l’affaire Castaneda contre Partida En Novembre 1976 dans un comté du sud du Texas, Rodrigo Partida était condamné à huit ans de prison. Il attaqua ce jugement au motif que la désignation des jurés de ce comté était discriminante à l’égard des Américains d’origine mexicaine. Alors que 79,1% de la population de comté était d’origine mexicaine, sur les 870 personnes convoqués pour être jurés lors d’une certaine période de référence, il n’y eût que 339 personnes d’origine mexicaine.
Partie A : Simulation de la désignation d’un juré.. • On rappelle que la fonction Random de la calculatrice génère un nombre aléatoire entre 0 et 1. Sur le tableur, on obtient la même fonction avec ALEA(). • Expliquer pourquoi on peut simuler la désignation d’un juré de ce comté sur la cellule A1 à l’aide de la formule =ENT( ALEA() + 0,791). On pourra s’aider de schémas pour représenter des intervalles.
L’ensemble de la simulation • ..\Castaneda v Partida.xls
La prise de décision: Y a-t-il eu discrimination ?Quelques réponses d’élèves... Ici, la simulation n’avait pas du tout été exploitée... Les élèves n’ont pas toujours l’habitude de synthétiser des données en mathématiques...
Ici, en revanche l’exploitation de la simulation est satisfaisante, mais ce qui manquait avec l’ancien programme, était le seuil à partir de laquelle la fréquence observée est significativement « éloignée » de la probabilité...
Cette copie est particulièrement satisfaisante; l’élève synthétise bien l’ensemble des paramètres (taille de l’échantillon et écart entre la fréquence observée et 0,791). • Il est aussi intéressant de noter que naturellement, cette élève utilise le terme de probabilités qui ne figurait pas à son programme...
Exemple d’activité :l’affaire Hazelwood En 1964, afin de lutter contre les discriminations dont étaient victimes les minorités ethniques, des lois furent promulguées aux Etats-Unis (Civil Rights Act) stipulant qu’en cas de suspicion de discriminations raciales à l’embauche, le prévenu serait coupable à l’issue du procès s’il ne pouvait prouver son innocence. Le gouvernement américain attaqua en justice le réseau d’établissements scolaires de Hazelwood Independent School District (situé dans le comté de Saint Louis) au motif que parmi les 405 enseignants recrutés lors des années 1972 à 1974, il n’y eût que 15 enseignants noirs alors que dans l’ensemble du comté le taux d’enseignants noirs recrutés durant la même période fut de 15,4%.
Utiliser votre cours de statistique, des simulations, des graphiques pour accréditer, à partir des chiffres ci-dessus, la thèse de la discrimination. • ..\Hazelwood.xls
Pour réfuter la thèse de la discrimination, les avocats d’Hazelwood ont contesté la pertinence des chiffres cités par l’accusation. Le taux d’enseignants noirs recrutés dans ce comté était, selon eux, faussé par les modalités particulières de recrutement dans la ville même de Saint Louis. En effet, durant cette même période, une politique dite de « discrimination positive » visait à essayer de recruter 50% de noirs parmi les nouveaux enseignants dans la ville de Saint-Louis. Ainsi, en ne prenant en compte que les enseignants Noirs recrutés dans le comté de Saint Louisen dehors de la ville de Saint Louis, ce taux n’était plus que 5,7%. • Peut-on à partir de ce nouveau chiffre condamner le réseau d’établissements scolaires d’Hazelwood ? • ..\Hazelwood.xls
Comment évaluer ? • « [...] S’agissant de la fluctuation d’échantillonnage, l’objectif est de faire réfléchir les élèves à la conception et à la mise en œuvre d’une simulation et de les sensibiliser aux notions d’intervalle de fluctuation, d’intervalles de confiance et à l’utilisation qui peut en être faite. Aussi, semble-t-il prématuré d’exiger dans des contrôles écrits une autonomie totale des élèves [...] on prendrait en effet le risque de restitutions par cœur pour compenser une assimilation naissante et encore fragile. • C’est pourquoi, l’évaluation [...] devrait être majoritairement être réalisée sous forme de comptes-rendus de travaux pratiques ou de devoir à la maison. • [...] Ces modalités d’évaluations mobilisent davantage les capacités de recherche, d’expérimentation et d’initiative. » • Source: document ressources pour la classe de seconde probabilités et statistiques
« [...] Par ailleurs, concernant tout particulièrement ce chapitre, la place de l’oral gagnerait à être développée tant cette forme de communication facilite, par le questionnement interactif [...] l’explicitation de certains raisonnements statistiques délicats à consigner à l’écrit. Dans ce cadre, on peut envisager de proposer des situations dont l’étude est réalisée en classe et dont le compte rendu rédigé à la maison, est suivi d’un exposé en classe ou bien d’échanges avec le professeur permettant d’approfondir certaines argumentations ou démarches imparfaitement restituées à l’écrit afin de les améliorer. ». • Source: document ressources pour la classe de seconde probabilités et statistiques
Exemple d’évaluation :sex-ratio • La probabilité habituelle de naissance d’un garçon est • p = 0,512. Quelle est la probabilité de naissance d’une fille ? • 2. Donner la bonne réponse (on ne demande pas de justifier). Si l’on prélève des échantillons aléatoires de taille n dans une population où la fréquence étudiée est p = 0,512 , dans plus de 95 % des cas, la fréquence f observée sur l’échantillon sera comprise dans l’intervalle :
3. Si la fréquence f , obtenue sur un échantillon, n’appartient pas à cet intervalle, on dira que f présente une « différence significative » avec p = 0,512. a) Dans la réserve indienne d’Aamjiwnaag, située au Canada à proximité de nombreuses industries chimiques, il est né entre 1999 et 2003, n = 132 enfants dont 46 garçons. Que vaut la fréquence f de garçons pour cette période à Aamjiwnaag (arrondir à 10 – 3) ? b) Vous semble t-il utile de demander une étude sanitaire (justifier par un calcul) ?
Exemple d’évaluation :les méfaits du tabac (1ère partie) À l’hôpital Bellevue, en 1952, la fréquence des « grands fumeurs » (plus de 15 cigarettes par jour) parmi les malades est 44 %. Parmi les 1 357 malades soignés pour un cancer du poumon, 806 sont de grands fumeurs. 1. Calculer, à 10 – 2 près, les bornes p – et p + , de l’intervalle de fluctuation à 95 % des fréquences des échantillons aléatoires de taille n = 1 357, lorsqu’on suppose que la proportion de grands fumeurs est p = 0,44. 2. Calculer la fréquence f des grands fumeurs parmi les 1 357 malades atteints de cancer du poumon. 3. Est-il « raisonnable » de penser que la différence entre f et p est uniquement due au hasard ? Expliquer.
p = ? Un minimum de « théorie » échantillonf connu
On ignore la proportion p de boules rouges dans l’urne. On sait que, sous certaines conditions, la probabilité qu’un échantillon aléatoire de taille n fournisse une fréquence f comprise dans l’intervalle [ p – , p + ] est supérieure à 0,95. Or : .
On en déduit que, pour plus de 95 % des échantillons aléatoires de taille n, la fréquence inconnue p appartient à l’intervalle [ f – , f + ] calculé à partir de l’échantillon. On adopte la procédure d’estimation suivante : on prélève UN échantillon aléatoire de taille n pour lequel on obtient UNE fréquence f et on estime que p est compris dans l’intervallede confiance [ f – , f + ] avec un niveau de confiance de 0,95.
Quels obstacles, quelles questions ? · L’intervalle de confiance ne correspond pas à une probabilité. On a un seul intervalle centré sur f obtenu après l’expérience aléatoire du tirage dans l’urne. Il n’y a plus de hasard : p est, ou non, dans l’intervalle de confiance. · Ne pas confondre (malgré la symétrie dangereuse de la formule) intervalle de fluctuation et intervalle de confiance. Il y a autant d’intervalles de confiance que d’échantillons. Ils sont centrés sur la fréquence f de l’échantillon. Réserver le mot « confiance » à l’intervalle de confiance. Utiliser plutôt « niveau » de confiance, ou « coefficient » de confiance et préférer « seuil » ou « probabilité » dans le cas de l’intervalle de fluctuation.
Exemple d’activité :Sondages électoraux Obama.ods
Exemple d’activité: estimation de pi par la méthode de Monte-Carlo • Dans le repère orthonormal (O;I;J) l’aire du carré OIKJ vaut 1. • On va utiliser la méthode de Monte Carlo pour approcher l’aire du quart de disque c’est-à-dire Pi/4. • En multipliant par quatre on retrouvera Pi.
Algorithme en langage naturelVARIABLEdisque: compte le nombre de points situés à l’intérieur du quart de disquen: nombre de points placés aléatoirementx :abscisse d’un point au hasard dans le carréy :ordonnée d’un point au hasard dans le carréTRAITEMENTPour i de 1 à nx prend une valeur aléatoire dans [0 ;1]y prend une valeur aléatoire dans [0 ;1] Si x²+y² <1 alors disque prend la valeur disque +1SORTIEAfficher (disque /n) Algorithme en Scilab
Visualisation des résultats avec Scilab Les premières décimales de Pi sont 3,1 4 1 5 9 2 6 5 3 5 Que j’aime à faire apprendre un nombre utile aux sages...
On pose • On pose la fréquence observée de points situés dans le quart de disque. • Alors en plaçant n points aléatoirement avec n assez grand, p est compris dans avec un niveau de confiance de 0,95.
Quelle précision ? • L’intervalle de confiance a une longueur de 2. • Mais, p vaut donc on doit multiplier l’intervalle de confiance par 4 pour estimer • On n’observe donc seulement 3 décimales au niveau de confiance de 0,95 • Mais, les élèves reconnaissent facilement 3,14. Cela contribue aussi à valider la démarche à leurs yeux.
Exemple d’évaluation :les méfaits du tabac (2e partie) Lors d’un sondage aléatoire effectué aux États-Unis en 1995, sur 737 fumeurs quotidiens, seuls 295 estimèrent courir un risque de cancer supérieur à celui des non fumeurs de leur âge (source : Journal of the American Medical Association 1999). 1. Calculer la fréquence f des fumeurs interrogés pensant prendre un risque. 2. Estimer la proportion p de fumeurs aux États-Unis pensant prendre un risque en utilisant l’intervalle de confiance au niveau 95 %, [ f – ; f + ].