Statistique et probabilités

Statistique et probabilités

En classe de seconde

échantillon : liste de résultats de n expériences identiques et indépendantes. distribution des fréquences associée à un échantillon : liste des fréquences des différentes issues de cette expérience. fluctuation d’échantillonnage : les distributions des fréquences varient d’un échantillon à l’autre d’une même expérience. L’ampleur des fluctuations des distributions de fréquences calculées sur des échantillons de taille n diminue lorsque n augmente.

Simulation Simuler une expérience, c’est choisir un modèle de cette expérience puis simuler ce modèle, pour produire une liste de résultats assimilable à un échantillonde cette expérience. La simulation permet de disposer d’échantillons de grande taille et d’observer des phénomènes appelant une explication dans le champ des mathématiques.

En 1ère L : enseignement obligatoire au choix

Expérience aléatoire • Eventualités • Evénements • Loi de probabilité • Probabilité d’un événement, • de l’événement contraire. P(AB) + P(AB) = P(A) + P(B) • Equiprobabilité

La simulation de l’expérience et le phénomène de stabilisation des fréquences observées lorsque le nombre d’épreuves augmente, permet de postuler l’existence d’un modèle probabiliste, caractérisé par une loi de probabilité.

Enoncé vulgarisé de la loi des grands nombres Pour uneexpérience aléatoiredonnée, dans le modèle défini par uneloi de probabilité P, les distributions de fréquences obtenues sur des séries de taille n sont très proches de P quand n est grand.

En Terminale L : enseignement de spécialité

Probabilités • Arbres pondérés • Conditionnement par un événement de probabilité non nulle • Indépendance de deux événements • Formule des probabilités totales • Epreuve de Bernoulli et loi binomiale

Tableaux et arbres Différentes représentations pour un même ensemble

Une enquête de marketing portant sur le choix entre deux abonnements A et B lors de l’achat d’un téléphone portable et le statut de l’acheteur (salarié ou non salarié) a conduit au recueil des données de 9321 nouveaux acheteurs, consignées dans le tableau suivant:

S A NS S B NS 4 956 6 818 1 862 1 835 2 503 668

A S B A NS B 4 956 6 791 1 835 1 862 2 530 668

Chaque représentation (tableau ou arbre) contient toute l’information et permet de reconstituer n’importe laquelle des autres

Fréquences des événements

Notations : f(A)= 0,728 f (S) = 0,272 f(Aet S) = 0,531 etc……

Notations : f A (S) = 0,727 f A (NS) = 0,273 etc……

Notations : f S (A) = 0,729 f NS (A) = 0,736 etc……

Comment reconstituer un tableau de fréquences à partir d’un autre ?

S fA(S) A f (A) fA(NS) NS S fB(S) f (B) B fB(NS) NS f (A) fA(S) =f (AS)

A f (S) fS (A) =f (AS) fS(A) S f (S) B fS(B) A fNS(A) f (NS) NS fNS(B) B

S P (A ) PA (S ) =P (AS ) PA(S) A P(A) PA(NS) NS S PB(S) P(B) B PB(NS) NS Arbre pondéré

Indépendance de deux événements

Dans l’exemple étudié, fA (S) = 0,726 f(S) = 0,728 fA(S)f(S) Existence d’un lien de causalité ?

Dans une urne il y a des pièces indiscernables au toucher, de 1 ou 2 euros (E1 ou E2), 30 sont françaises, 70 non françaises (F ou NF). Il y a 60 pièces de 1 euro, dont k sont françaises, et 40 pièces de 2 euros, dont 30 – k sont françaises. On choisit une pièce au hasard. Est-il possible que le fait de savoir que la pièce extraite est une pièce de 1 euro, ne modifie pas la probabilité que la pièce extraite soit française ?

F E1 0,6 NF F 0,4 E2 NF

Lorsquek = 18, savoir qu’il s’agit d’une pièce de 1 euro ne modifie pas la probabilité qu’elle soit française.

Evénements indépendants

La notion d’indépendance entre deux événements est une propriété numérique à l’intérieur du modèle probabiliste.

Dans l’exemple précédent, supposons que le nombre total de pièces soit K. n1 : nombre de pièces de 1 euro, nF: nombre de pièces françaises nF,1: nombre de pièces françaises de 1 euro

Lorsque K est un nombre premier, • (par exemple K = 101 au lieu de K = 100) • si KnF,1 =nFn1, alors • soitnF = K (toutes les pièces sont françaises) • soit n1 = K (toutes les pièces sont de 1 euro)

Si nF = K

Si n1 = K

Statistique Adéquation d’une série de données à une loi équirépartie

En 1ère L L’équiprobabilité : une hypothèse parmi d’autres pour proposer un modèle Modèles issus d’une observation expérimentale

Objectif: sensibiliser les élèves au problème de la validation d’un modèle

Exemple : lancé d’un dé à 6 faces. Les résultats obtenus dans des conditions normales d’utilisation de ce dé sont-ils compatibles avec le modèle d’équiprobabilité sur l’ensemble {1, 2, 3, 4, 5, 6} ?

On lance n fois de suite ce dé. On dispose d’un échantillon de taille n de cette épreuve aléatoire. Cet échantillon peut-il être considéré comme un échantillon de taille nde la loi équirépartie sur l’ensemble {1, 2, 3, 4, 5, 6} ?

Critère de compatibilité entre une distribution de fréquences et la loi équirépartie. Distance entre une distribution de fréquences {f1, f2, .., f6} et la loi équirépartie sur {1, 2, .., 6} Les données seront considérées comme incompatibles avec la loi équirépartie si d obs2 est supérieur à une valeur seuil à définir.

d 2est soumiseàla fluctuation d’échantillonnage On simule N échantillons de n tirages équiprobables dans {1, 2, 3, 4, 5, 6}. Série de N valeurs de d 2 dans le modèle équiréparti.

Le 9ème décile de cette série, noté D9 : la plus petite valeur de la série telle que au moins 90% des valeurs soient dans l’intervalle [0; D9] Prendre D9 comme seuil de compatibilité c’est adopter la règle de décision : • si dobs2 > D9 : refuser l’hypothèse d’équiprobabilité • si dobs2 D9 : ne pas refuser l’hypothèse d’équiprobabilité

En fait, la seule décision qu’on puisse prendre c’est de refuser l’hypothèse d’équiprobabilité. Ne pas la refuser ne revient pas à la valider. Le risque d’erreur vient de ce que dobs2 peut être supérieur à D9 même si le dé est équilibré. (fluctuation d’échantillonnage)

Les données simulées qui aboutissent à ce seuil de décision indiquent que cette situation se produit dans 10% des échantillons d’une loi équirépartie. la marge d’erreur est 10%.

Prendre le 19ème vingtile, noté V19 (la plus petite valeur de la série telle que au moins 95% des valeurs soient dans l’intervalle [0; V19]) comme seuil décisionnel conduit au risque d’erreur de 5%. Prendre le 99ème centile comme seuil décisionnel conduit au risque d’erreur de 1%. Abaisser le seuil de risque revient à relever le seuil entre petites et grandes valeurs de d² . On peut être amené à refuser l’hypothèse d’équiprobabilité au seuil de 10% et à ne pas la refuser au seuil de 5% ou de 1%.

Expérience

Statistique et probabilités