440 likes | 722 Views
STATISTIQUE INFERENTIELLE. STAGE ACADEMIQUE LA REUNION. OBJECTIFS DU STAGE. Poser les bases de la théorie de la statistique inférentielle. En comprendre les enjeux, leur utilité, et leur domaine d’intervention pour justifier son introduction dans les programmes.
E N D
STATISTIQUE INFERENTIELLE STAGE ACADEMIQUE LA REUNION Isabelle ABOU Professeure Formatrice
OBJECTIFS DU STAGE • Poser les bases de la théorie de la statistique inférentielle. • En comprendre les enjeux, leur utilité, et leur domaine d’intervention pour justifier son introduction dans les programmes. • Donner quelques exemples d’application en classe. Isabelle ABOU
PLAN DE L’EXPOSE • 1ière PARTIE: GÉNÉRALITÉS • I. INTRODUCTION • II. SITUATIONS PROBLEMES • III. LA STATISTIQUE INFERENTIELLE • IV. LE PROGRAMME DE SECONDE • 2ième PARTIE: LA THÉORIE • I. LOI NORMALE • II. THEORIE DE L’ECHANTILLONNAGE • III. PRISE DE DECISION • IV. THEORIE DE L’ESTIMATION • V. ESTIMATION D’UNE PROPORTION • VI. EVALUATION DE TRAVAUX AVEC TIC • 3ième PARTIE: APPROFONDISSEMENT • I. TESTS STATISTIQUES • II. COMPLEMENTS Isabelle ABOU
1ière PARTIE:GÉNÉRALITÉS Isabelle ABOU
I. INTRODUCTION Isabelle ABOU
LES METHODES STATISTIQUES • Les méthodes statistiques sont utilisées dans presque tous les secteurs. • Parmi ses applications, citons • - dans le domaine industriel: la fiabilité des matériels, le contrôle de qualité, l’analyse des résultats de mesure et leur planification, la prévision, et • - dans le domaine de l’économie et des sciences de l’homme: les modèles économétriques, les sondages, les enquêtes d’opinion, les études quantitatives de marché. Isabelle ABOU
LA DEMARCHE STATISTIQUE • Après le recueil de données, la démarche statistique consiste à traiter et interpréter les informations recueillies. • Elle comporte deux grands aspects: l’aspect descriptif ou exploratoire et l’aspect inférentiel ou décisionnel. Isabelle ABOU
LA STATISTIQUE EXPLORATOIRE • Son but est de synthétiser, résumer, structurer l’information contenue dans les données. • Elle utilise pour cela des représentations de données sous forme de tableaux, de graphiques, d’indicateurs numériques. • Connue sous le nom de statistique descriptive, elle s’est enrichie de techniques de visualisation de données multidimensionnelles, c’est l’analyse de données. • Son rôle est de mettre en évidence les propriétés de l’échantillon et de suggérer des hypothèses. • Les principales méthodes : • - les méthodes de classification pour réduire la taille de l’ensemble des individus en formant des groupes homogènes. • - les méthodes factorielles qui cherchent à réduire le nombre de variables en les résumant à un petit nombre de composantes, analyse des composantes principales pour les variables numériques, analyse des correspondances pour les variables qualitatives. Isabelle ABOU
LA STATISTIQUE INFERENTIELLE • Son but est d’étendre les propriétés constatées sur l’échantillon à la population tout entière et de valider ou d’infirmer des hypothèses à priori ou formulées après une phase exploratoire. • Le calcul des probabilités y joue souvent un rôle fondamental. • Quelques exemples: • - l’estimation d’une moyenne, • - la vérification d’une hypothèse ou test, • - la modélisation et la prévision statistique. Isabelle ABOU
II. SITUATIONS PROBLEMES Isabelle ABOU
QUELQUES SITUATIONS PROBLEMES • Les exemples utilisés dans ce stage sont extraits de: • documents ressources - pour la classe de seconde- Probabilités et Statistiques- • http://media.education.gouv.fr/file/Programmes/17/9/Doc_ressource_proba-stats_109179.pdf • documents ressources - pour la voie professionnelle (lycée). • http://www.ac-grenoble.fr/maths/docresseconde/Proba_stat_LP.doc • - manuels de BTS. Isabelle ABOU
DEFAUTS DE PEINTURE • Dans une usine automobile, on contrôle les défauts de peinture de type • « grains ponctuels sur le capot ». • Lorsque le processus est sous contrôle, • on a 20 % de ce type de défauts. • Lors du contrôle aléatoire de 50 véhicules, on observe 26 % de défauts • (13 sur 50). • Faut-il s’inquiéter ? Isabelle ABOU
RESPECT DE LA PARITE • Deux entreprises A et B recrutent dans un bassin d’emploi où il y a autant de femmes que d’hommes, avec la contrainte du respect de la parité. • Dans l’entreprise A, il y a 100 employés dont 43 femmes. • Dans l’entreprise B, il y a 2500 employés dont 1150 femmes. • Quelle est l’entreprise qui respecte le mieux la parité ? Isabelle ABOU
TAUX ANORMAL DE LEUCEMIES • Une petite ville des États-Unis a connu 9 cas de leucémie chez de jeunes garçons en l’espace de 10 années. • Doit-on, comme l’ont alors affirmé les autorités, en accuser le hasard ? • Woburn est une petite ville industrielle du Massachusetts, au Nord-Est des États-Unis. • Du milieu à la fin des années 1970, la communauté locale s’émeut d’un grand nombre de leucémies infantiles survenant en particulier chez les garçons dans certains quartiers de la ville. • Les familles se lancent alors dans l’exploration des causes et constatent la présence de décharges et de friches industrielles ainsi que l’existence de polluants. • Dans un premier temps, les experts gouvernementaux concluent qu’il n’y a rien d’étrange. • Mais les familles s’obstinent et saisissent leurs propres experts. • Une étude statistique montre qu’il se passe sans doute quelque chose « d’étrange ». Isabelle ABOU
TABLEAU DE DONNEES • Le tableau suivant résume les données statistiques concernant les garçons de moins de 15 ans, pour la période 1969-1979 (Source : Massachusetts Department of Public Health). Isabelle ABOU
NAISSANCES • Les données statistiques suivantes ont été relevées : • en 2000, dans le village de Xicun, en Chine, il est né 20 enfants, parmi lesquels 16 garçons, • dans la réserve indienne d’Aamjiwnaag, située au Canada à proximité d’industries chimiques, il est né entre 1999 et 2003, 132 enfants dont 46 garçons. • Ces naissances sont-elles le seul fruit du hasard ? Isabelle ABOU
CONTESTER UN JUGEMENT • En Novembre 1976 dans un comté du sud du Texas, Rodrigo Partida était condamné à huit ans de prison. • Il attaqua ce jugement au motif que la désignation des jurés de ce comté était discriminante à l’égard des Américains d’origine mexicaine. • Alors que 79,1% de la population de ce comté était d’origine mexicaine, sur les 870 personnes convoqués pour être jurés lors d’une certaine période de référence, il n’y eut que 339 personnes d’origine mexicaine. Isabelle ABOU
CONSTESTER UN JUJEMENT (suite) • 1. Quelle est la fréquence des jurés d’origine mexicaine observée dans ce comté du Texas ? • 2. La simulation sur un tableur du prélèvement d’échantillons aléatoires de taille n = 870 dans une population où la fréquence des habitants d’origine mexicaine est p = 0,791. • Les fréquences des habitants d’origine mexicaine observées sur 100 échantillons simulés sont représentées ci-dessous. Isabelle ABOU
a) Calculer les bornes de l’intervalle [ p – , p + ]. (Arrondir à 10–²). b) Quel est le pourcentage des simulations fournissant une fréquence en dehors de l’intervalle précédent ? 3. Sur les simulations, est-il arrivé au hasard de fournir une fréquence d’habitants d’origine mexicaine comparable à celle des jurés d’origine mexicaine observée dans ce comté du Texas ? 4. Comment expliquez-vous cette situation ? Isabelle ABOU
SONDAGE • Un candidat à une élection effectue un sondage dans sa circonscription comportant 85842 électeurs : sur 1068 personnes interrogées, 550 déclarent vouloir voter pour ce candidat. • Pour gagner les élections au premier tour, un candidat doit obtenir 50% des voix. • Le candidat affirme : « si les élections avaient eu lieu le jour du sondage et si les réponses au sondage étaient sincères, alors j’aurais été élu au premier tour ». • Qu’en pensez-vous ? Isabelle ABOU
III. LA STATISTIQUE INFERENTIELLE PROBLEMATIQUE MODELISATION Isabelle ABOU
STATISTIQUE INFERENTIELLE et ECHANTILLONNAGE • PROBLEMATIQUE: • Etudier les caractéristiques d’une population de grande taille, en vue d’en prévoir l’évolution. • Une étude statistique portant sur tous les éléments d’une population étant soit impossible à réaliser car la taille de la population est trop grande, ou étant trop onéreuse, il faut obtenir des résultats fiables en se limitant à l’étude des éléments ou unités d’un échantillon. Isabelle ABOU
OBJECTIF DE L’ECHANTILLONNAGE: • Disposant d’observations sur un échantillon de taille n, on désire en déduire des propriétés de la population dont il est issu. • On cherchera par exemple à estimer la moyenne m d’une population à partir de la moyenne d’un échantillon. • Mais, comment déterminer l’échantillon de la population que l’on va observer? Isabelle ABOU
PROBLEMES LIES A L’ECHANTILLONNAGE • Cet échantillon doit donner des estimations non biaisées des paramètres mais permettre, de plus, d’évaluer la marge d’erreurs dues aux fluctuations d’échantillonnage. • L’échantillon doit être représentatif de la population: il en résulte que chaque unité doit avoir une probabilité non nulle d’être tirée, un tel échantillon est qualifié d’aléatoire. Isabelle ABOU
ECHANTILLON REPRESENTATIF • Il faut que l’échantillon ait été tiré selon des règles destinées à en assurer la représentativité. • Le mode de tirage le plus simple et le plus important est l’échantillonnage aléatoire simple correspondant à des tirages équiprobables et indépendants les uns des autres. • Dans ces conditions, les observations deviennent des variables aléatoires, il convient donc d’en chercher les lois de probabilité avant de tenter d’extrapoler à la population. Isabelle ABOU
EN CONCLUSION • Toute démarche statistique consiste à: • - prélever un échantillon représentatif de la population par des techniques appropriées. Les différentes méthodes utilisées relèvent de la théorie de l’échantillonnage, • - étudier les principales caractéristiques d’un échantillon, issu d’une population dont on connaît la loi de probabilité, • - savoir réaliser des échantillons de variables aléatoires pour vérifier des conclusions en utilisant des techniques de simulation. Isabelle ABOU
ETUDE SUR UN EXEMPLE • On prélève n ampoules électriques dans une production, et on mesure leur durée de fonctionnement. • Si les caractéristiques de fabrication d’une ampoule à l’autre n’ont pas varié, les différences entre les durées xi peuvent être considérées comme des fluctuations de nature aléatoire. • Ceci justifie l’hypothèse fondamentale de la théorie de l’échantillonnage: les valeurs observées xi sont des réalisations d’une même v.a X appelée variable parente (ou mère). • Ceci suppose l’existence d’une variable aléatoire abstraite, « la durée de vie d’une ampoule », de type donné, fabriquée dans des conditions données. Isabelle ABOU
MODELISATION • On introduira le modèle suivant: • à chaque individu tiré i, on associe une v.a Xi dont on observe une seule réalisation xi. • Dans l’exemple précédent, Xi est la durée de vie de l’ampoule i, qui une fois l’expérience faite a pris la valeur xi. • L’hypothèse précédente revient à dire que les Xi sont des v.a ayant toutes la même distribution, celle de X. • Pour des raisons de commodité, les Xi seront supposées mutuellement indépendantes. Isabelle ABOU
CADRE THEORIQUE • Les valeurs observées (x1,x2,…,xn) sont n réalisations indépendantes d’une v.a X mère, ou encore, une réalisation unique du n-uple (X1,X2,…,Xn) où les Xi sont n v.a indépendantes et de même loi que X. • On appellera n-échantillon de la v.a X, le n-uple (X1,X2,…,Xn) ainsi défini. • La théorie de l’échantillonnage se propose d’étudier les propriétés du n-uple (X1,X2,…,Xn), en particulier quand n est élevé. • Une statistique T est une v.a, fonction mesurable de X1,X2,…,Xn : T = f(X1,X2,…,Xn). Isabelle ABOU
IV. LE PROGRAMME DE SECONDE Isabelle ABOU
OBJECTIFS VISES DANSL’ECHANTILLONNAGE • Faire réfléchir les élèves à la conception et la réalisation d’une simulation. • Sensibiliser les élèves à la fluctuation d’échantillonnage, aux notions d’intervalle de fluctuation et d’intervalle de confiance, et à l’utilisation qui peut en être faite. Isabelle ABOU
ECHANTILLONNAGE Isabelle ABOU
COMMENTAIRES • L’objectif est d’amener les élèves à un questionnement lors des activités suivantes: • - L’estimation d’une proportion inconnue à partir d’un échantillon • - La prise de décision à partir d’un échantillon. Isabelle ABOU
INTERVALLE DE FLUCTUATION AU SEUIL DE 95% • Relatif aux échantillons de taille n, est l’intervalle centré autour de p, proportion d’un caractère dans la population, où se situe, avec une probabilité égale à 0,95, la fréquence observée dans un échantillon de taille n. • Cet intervalle peut être obtenu, de façon approchée par simulation. • Le professeur peut indiquer aux élèves le résultat suivant, utilisable dans la pratique pour les échantillons de taille n>=25, et des proportions p du caractère comprise entre 0,2 et 0,8. • Si f désigne la fréquence du caractère dans l’échantillon, f appartient à l’intervalle: avec une probabilité d’au moins 0,95. • Le professeur peut faire percevoir expérimentalement la validité de cette propriété mais elle n’est pas exigible. Isabelle ABOU
PENDANT LE STAGE • Nous allons donner les justifications mathématiques, basées sur la théorie de la statistique inférentielle, qui permettent de justifier la construction de l’intervalle de fluctuation. • Nous préciserons les approximations qui sont faites dans le programme de seconde. • Nous aborderons la théorie de l’échantillonnage et ses deux applications principales, dont il faut bien comprendre les hypothèses de départ. • 1/ La prise de décision à partir d’un échantillon, où l’on connaît la proportion dans la population entière. • 2/ L’estimation d’une proportion inconnue dans la population, à partir d’un échantillon. Isabelle ABOU
A SUIVRE…2ième PARTIE LA THÉORIE Isabelle ABOU