580 likes | 784 Views
Statistiques et probabilités. « Une chose n’est appelée contingente (fortuite, produite par hasard) qu’en raison de l’insuffisance de notre connaissance » Spinoza. Et si tout était dans cette image ?. Dessin : Albert Dubout. Points généraux.
E N D
« Une chose n’est appelée contingente (fortuite, produite par hasard) qu’en raison de l’insuffisance de notre connaissance » Spinoza Et si tout était dans cette image ? Dessin : Albert Dubout
Points généraux « La classe de maths doit toujours rester un lieu de créativité et de plaisir de chercher. » Remy JOST : IG mathématiques
Probabilité Expérimentation statistique Statistique Le hasard obéit aux lois mathématiques Expériences
Introduction des probabilités « La notion de fluctuation d'échantillonnage, essentielle en statistique, est abordée en étudiant la variabilité d’observation d’une fréquence. Elle favorise une expérimentation de l’aléatoire. L’objectif est de faire comprendre que le « hasard » suit des lois et de préciser l’approche par les fréquences de la notion de chance ou probabilité initiée en classe de troisième. »
L’expérimentation physique « valide » les simulations virtuelles mais surtout laissent des « images mentales » essentielles. « Expérimenter, d’abord à l’aide de pièces, de dés ou d’urnes, [...] la prise d’échantillons aléatoires de taille n fixée, extraits d’une population où la fréquence p relative à un caractère est connue. »
Simulation avec les TICE 0 1 rand (générateur de nombres aléatoires entre 0 et 1) rand + 0.3 int(rand + 0.3) donne 0 ou 1dans des proportions 70 % et 30 %.
Quelque rappels : Calcul de la médiane N observations 50% observations 50% observations Médiane
Calcul de la médiane La médiane tend à partager la population en deux populations de taille égale. Si m est la médiane, le nombre d"individus dont le caractère statistique est inférieur à m doit correspondre au nombre d'individus dont le caractère statistique est supérieur à m. Si cette définition s'accorde bien avec le cas d'une variable continue, elle n'est pas adaptée au cas d'une variable discrète où une autre définition est donnée. Si les valeurs du caractère statistique sont toutes différentes, la médiane, telle qu'elle est définie dans le cas discret, partage bien la population en deux, mais ce n'est pas toujours le cas si certaines valeurs du caractère statistique sont prises plusieurs fois. On trie les valeurs par ordre croissant. (inutile avec une calculatrice ou un logiciel) Si la population comporte n individus et si n est impair alors n = 2p+1, la médiane sera la (p+1)e valeur du caractère statistique. Exemple: série de 13 notes 4, 5, 7, 8, 8, 9, 10, 10, 10, 11,12, 13, 16. Médiane = M = 10 Si la population comporte n individus et si n est pair alors n = 2p, la médiane sera la moyenne entre la pe et (p+1)e valeur du caractère statistique. Exemple: série de 12 notes: 4, 5, 7, 8, 8, 9, 10, 10, 10, 11, 13, 16. Médiane = M = 9,5
Avantages de la médiane Elle est bien définie facile à comprendre et à calculer; Elle n'est pas influencée par les extrêmes et les cas aberrants; Elle permet de donner une assurance de la validité de la moyenne, quand ces deux paramètres ont des valeurs semblables. Généralement, les variables qualitatives ordinales se prêtent assez bien au calcul de la médiane. La médiane a cependant du sens que si les réponses sont graduées. Les appréciations qualitatives telles que « pas du tout, un peu, moyen, beaucoup et énormément », s'y prêtent bien. Inconvénients de la médiane Elle n'est pas calculée à partir de toutes les données. Elle ne se prête pas à des traitements algébriques. Les fluctuations dues au hasard entre les médianes de différents échantillons extraits de la même population sont assez larges. La médiane ne s'applique jamais aux variables qualitatives nominales. En effet, il ne fait pas de sens de faire une gradation des marques de voitures ou des noms des périodiques lus par les gens. Quand les valeurs d'une variable se répètent plus d'une fois, on construit généralement un tableau de fréquences.
Boîtes de Tukey (1915 – 2000)Box & Whiskers Plot (Boîtes à moustaches) N valeurs Groupe bas Groupe haut Q2 = médiane Q1 Q3 – Q1 = It interquartile Q3
Lecture d’un boîte à moustaches l’échelle des valeurs de la variable, située sur l’axe vertical. • la valeur du 1er quartile Q1 (25% des effectifs), correspondant au trait inférieur de la boîte, • la valeur du 2ème quartile Q2 (50% des effectifs), représentée par un trait horizontal à l’intérieur de la boîte, • la valeur du 3ème quartile Q3 (75% des effectifs), correspondant au trait supérieur de la boîte, • les 2 « moustaches» inférieure et supérieure, représentées ici par les petits rectangles verticaux de part et d’autre de la boîte. Ces 2 moustaches, délimitent les valeurs dites adjacentes qui sont déterminées à partir de l’écart interquartile (Q3-Q1). • les valeurs dites extrêmes, atypiques, exceptionnelles, (outliers) situées au-delà des valeurs adjacentes sont individualisées. Elles sont représentées par des marqueurs (carré, ou étoile, etc.).
Lecture d’un boîte à moustache Valeurs atypiques
l’échelle des valeurs de la variable, située sur l’axe vertical. • la valeur du 1er quartile Q1 (25% des effectifs), correspondant au trait inférieur de la boîte, • la valeur du 2ème quartile Q2 (50% des effectifs), représentée par un trait horizontal à l’intérieur de la boîte, • la valeur du 3ème quartile Q3 (75% des effectifs), correspondant au trait supérieur de la boîte, • les 2 « moustaches» inférieure et supérieure, représentées ici par les petits rectangles verticaux de part et d’autre de la boîte. Ces 2 moustaches, délimitent les valeurs dites adjacentes qui sont déterminées à partir de l’écart interquartile (Q3-Q1). • les valeurs dites extrêmes, atypiques, exceptionnelles, (outliers) situées au-delà des valeurs adjacentes sont individualisées. Elles sont représentées par des marqueurs (carré, ou étoile, etc.).
Un calcul de quartile en pratique Si n = 4p Q1 = moyenne entre la pe et (p+1)e valeur. Q2 = moyenne entre la (2p)e valeur et la (2p+1)e valeur. Q3 = moyenne entre la (3p)e valeur et la (3p+1)e valeur. Exemple : série de 12 notes: 4, 5, 7, 8, 8, 9, 10, 10, 10, 11, 13, 16 Q1 = 7,5 Q2 = 9,5 Q3 = 10,5 Si n = 4p+1 Q1 = moyenne entre la pe et (p+1)e valeur. Q2 = (2p+1)e valeur. Q3 = moyenne entre la (3p+1)e valeur et la (3p+2)e valeur. Exemple : série de 13 notes 4, 5, 7, 8, 8, 9, 10, 10, 10, 11, 12, 13, 16 Q1 = 7,5 Q2 = 10 Q3 = 11,5 Quartiles Les quartiles sont les trois valeurs qui partagent la population en 4 sous-populations de même taille Cas de la variable discrète On range les valeurs par ordre croissant. (inutile avec l’usage des TIC) On détermine le second quartile qui correspond à la médiane. Puis on cherche la médiane de la première moitié de la population qui correspond au 1er quartile. On cherche la médiane de la seconde moitié de la population qui correspond au troisième quartile. Si la population est de taille n, on distingue 4 cas.
Si n = 4p+2 Q1 = (p+1)e valeur. Q2 = moyenne entre la (2p+1)e valeur et la (2p+2)e valeur. Q3 = (3p+2)e valeur. Exemple : série de 14 notes 4, 5, 7, 8, 8, 9, 9, 10, 10, 10, 11, 12,13, 16 Q1 = 8 Q2 = 9,5 Q3 = 11 Si n = 4p+3 Q1 = (p+1)e valeur. Q2 = (2p+2)e valeur. Q3 = (3p+3)e valeur. Exemple : série de 15 notes 4, 5, 7, 8, 8, 9, 9, 10, 10, 10, 11,11, 12, 13, 16 Q1 = 8 Q2 = 10 Q3 = 11
Approximation utile pour une variable discrète On range les valeurs par ordre croissant. Q1 est la première valeur pour laquelle l'intervalle [x min, Q1] regroupe au moins 25% de la population. Q2 est la première valeur pour laquelle l'intervalle [x min, Q2] regroupe au moins 50% de la population. Q3 est la première valeur pour laquelle l'intervalle [x min, Q3] regroupe au moins 75% de la population. En reprenant les exemples précédents: Si n = 12 : 25% de n = 3, puis 50% de n = 6, puis 75% de n =9. La série de notes est 4, 5, 7, 8, 8, 9, 10, 10, 10, 11, 13, 16 Q1 = 7, Q2 = 9, Q3 = 10 Si n = 13: 25% de 13 = 3,25, puis 50% de 13 = 6,5, puis 75% de 13 = 9,75 que l'on arrondit à l'entier supérieur. La série de notes est 4, 5, 7, 8, 8, 9, 10, 10, 10, 11, 12, 13, 16 Q1 = 8, Q2 = 10, Q3 = 11 On s'aperçoit que cette approximation rend dissymétrique la définition, que le second quartile ne correspond plus à la médiane et que les valeurs obtenues diffèrent de celles de la définition précédente. Son avantage est de rendre la recherche des quartiles (approchés) plus facile sans que l'on soit obligé de distinguer 4 cas. Les différences obtenues par l'une ou l'autre des méthodes se révèlent négligeables et justifient l'usage de cette approximation.
Utilité de la boîte à moustaches Pour le praticien qui analyse une distribution observée, la boîte à moustaches permet de répondre à certaines questions : • Existe-t-il des observations atypiques ? (en les repérant et les identifiant ) • La distribution est-elle symétrique? (en repérant la position de la médiane dans la boîte, et la dissymétrie des moustaches). • Quelle est l’allure des extrémités de distribution ? • La partie centrale (50% des effectifs) est-elle plus ou moins concentrée ou étalée par rapport au reste de la distribution?
Pourquoi la valeur 1.5 pour déterminer les moustaches? Dans la boîte à moustaches définie par TUKEY, la boîte a pour hauteur la distance interquartile (Q3-Q1), et les moustaches sont basées généralement sur 1,5 fois la hauteur de la boîte. Dans ce cas, une valeur est atypique si elle dépasse de 1.5 fois l’écart interquartile au dessous du 1er quartile ou au dessus du 3ème quartile. En se basant sur les quartiles, c’est à dire des statistiques d’ordre, la médiane et l’écart interquartile ne sont jamais influencés par les valeurs extrêmes. La valeur 1.5 est selon TUKEY une valeur pragmatique (rule of thumb), qui a une raison probabiliste. Si une variable suit une distribution normale, alors la zone délimitée par la boîte et les moustaches devrait contenir 99,3 % des observations. On ne devrait donc trouver que 0.7% d'observations atypiques (outliers). Si le coefficient vaut 1, la probabilité serait de 0.957, et elle vaudrait 0.999 si le coefficient est égal à 2. Pour TUKEY la valeur 1.5 est donc un compromis pour retenir comme atypiques assez d’observations mais pas trop d’observations. Selon les logiciels le coefficient 1,5 est imposé ou paramétrable.
La fluctuation d’échantillonnage Développer la culture de l’incertain La statistique, quand elle se développe dans un cadre probabiliste est une forme de pensée fondée sur l’idée du risque consenti" Daniel Schwartz : "La statistique et le vivant" L’esprit statistique nait lorsque l’on prend conscience de la fluctuation d’échantillonnage.
On mesure la fréquence d’une certaine caractéristique sur divers échantillons prélevés au hasard d’une population bien identifiée =)résultats différents. Mais cette variabilité a des lois qui font que le hasard n’est pas simple chaos si dans une population on considère des échantillons de même taille, les fréquences observées sur ces échantillons se répartissent autour de la fréquence vraie (celle de la population) avec une certaine régularité =)notion de fourchette. 2 . Inversement, cette régularité calculable permet d’estimer un risque d’erreur àpartir d’un échantillon =)Intervalle de confiance qui contient la fréquence vraie de la caractéristique. On aboutit à l’estimation.
L’un des objectifs du programme est de mettre en évidence cette variabilité et d’en dégager empiriquement l’aspect prévisible. En l’absence d’enseignement théorique sur les probabilités, seule la répétition d’un grand nombre d’expériences permet de donner une légitimité à la méthode et aux résultats =)On peut aboutir ainsi à une connaissance intuitive de la loi des grands nombres. Pour qu’un ordre apparaisse dans le désordre apparent de la distribution des fréquences observées, il est nécessaire de travailler sur des échantillons de taille suffisante et en grande quantité.
Substituer au jet du dé le tirage d’un nombre aléatoire, c’est supposer une situation d’équiprobabilité que certainement on ne rencontre qu’imparfaitement avec un dé réel. René Thom "Simuler, c’est remplacer le réel par un virtuel controlé" La simulation présuppose donc qu’une loi de probabilité soit posée d’emblée. Les raisons qui conduisent à choisir tel ou tel modèle probabiliste relèvent de considérations diverses, comme par exemple la symétrie du dé ou de la pièce. Retenons Formellement, simuler une expérience, c’est choisir un modèle pour cette expérience Apprendre à simuler, c’est donc apprendre à bâtir un protocole expérimental qui permettra de construire une simulation "convenable" de loi de probabilité que l’on suppose pour l’expérience aléatoire.
Population Dans laquelle on cherche un pourcentage On attribue à la population entière le pourcentage trouvé de 52 % Échantillon de taille n On calcule le pourcentage de cet échantillon, par exemple 52 %
On fait une estimation ponctuelle d’un pourcentage à partir d’un pourcentage obtenu dans un échantillon Dans quelle mesure peut-on faire confiance au résultat obtenu dans un échantillon ? Le résultat aurait-il été le même si on avait pris, au hasard, un autre échantillon ?
On va passer de la théorie de l’estimation à celle de l’échantillonnage C’est-à-dire que l’on va se poser la question suivante : Comment sont constitués des échantillons extraits d’une population dont on connaît la composition ?
Poulation : pourcentage connu 52 % Autre échantillon de taille n Le pourcentage est-il le même dans cet échantillon que dans le précédent ? Échantillon de taille n Quel est le pourcentage dans cet échantillon ?
Grâce à un tableur, on simulera les résultats de calculs de pourcentages dans des échantillons extraits d’une population dont on connaît la composition, par exemple : 52 % de boules rouges et 48 % de boules noires. Après avoir effectué les simulations sur tableur, on se rend compte que les résultats obtenus varient en fonction des échantillons ; c’est ce que l’on appelle : La fluctuation d’échantillonnage
Comment minimiser les effets de la fluctuation d’échantillonnage ? Une réponse : l’estimation par INTERVALLE DE CONFIANCE On recommence l’expérience : on extrait un échantillon de taille n dans la population et on détermine dans cet échantillon le pourcentage de ce que l’on cherche.
Population pourcentage inconnu Échantillon de taille n On calcule le pourcentage dans cet échantillon, par exemple p = 52 %
On choisit maintenant un taux de risque a(et donc un taux de confiance 1 −a). Puis on détermine un intervalle dans lequel il y aura une probabilité de1 −a que se trouve la vraie valeur du pourcentage cherché dans la population totale. La détermination de cet intervalle dit : INTERVALLE DE CONFIANCE repose sur des résultats de la loi normale dont le théorème central limite.
Mouais Et sans transition et en guise de conclusion mon cher loulou ?
Vouivouivoui Je voulais l’avais bien dit que c’était tout du trafiqué, du menti, du spolié et cela depuis des quinquennats et des septennats
Compléments : Fourchette d’estimation Intervalle de confiance On peut admettre en première approximation que 95% des fréquences observées se trouvent dans une fourchette (Intervalle de confiance)
Cette régularité marquée par une fourchette dont on peut calculer l’amplitude autour de la probabilité permet quand on ignore cette probabilité d’en estimer un encadrement. Si 95% des échantillons ont une fréquence f comprise entre et Alors on trouve facilement que l’on aura pour de tels échantillons p compris entre et
p n tirages avec remise. X nombre de boules rouges Un peu de « théorie »