500 likes | 987 Views
COURS STATISTIQUES PROBABILITES DESS « Génie logiciel, économie, droit et normes ». Une expérience aléatoire se décrit mathématiquement par la donnée d’un espace dont les points notés sont les résultats possibles de l’expérience, ainsi que d’une probabilité P sur .
E N D
COURS STATISTIQUES PROBABILITES DESS « Génie logiciel, économie, droit et normes »
Une expérience aléatoire se décrit mathématiquement par la donnée d’un espace dont les points notés sont les résultats possibles de l’expérience, ainsi que d’une probabilité P sur . Un événement A lié à l’expérience est représenté par une partie de noté A. Chaque événement possède une probabilité P(A) qui est un nombre compris entre 0 et 1. (, A, P)espace probabilisé P()=1= événement certain P(A) + P(Ac)=1 La loi de probabilité triviale est : Cas discret : Cas continue :
Une variable aléatoire discrète est une variable X dont la valeur dépend du résultat . X est une fonction définie sur l’espace associé à l’expérience aléatoire. Une v.a. discrète : dont l’ensemble des valeurs est dénombrable. Etant donné un espace de probabilité (, A, P) , une v.a ; discrète est une application : tq la famille de nombre ( ) est appelée loi de probabilité X. L’intérêt est de permettre de calculer les probabilités directement sans passer par Esperance : Variance :
Une variable aléatoire continue est une variable aléatoire dont les valeurs sont dans R. Une fonction f est une densité de probabilité si : f(.) est positive, intégrable et La fonction de répartition Esperance :
Probabilité conditionnelle : Deux évènements sont indépendants si : Deux variables aléatoires sont indépendantes si : Théorème de Bayes :
Lois discrètes Loi uniforme Loi Bernouilli
Loi Binomiale On répète « n » fois dans des conditions identiques une expérience où l’on observe l’apparition ou pas d’un événement avec à chaque expérience la même probabilité « p » d’apparition. X= nombre d’apparition de l’événement = n fois une bernouilli Loi géométrique Soit une suite d’ épreuves de Bernouilli indépendantes de même loi b(p). X : nombre de tirage nécessaire pour obtenir le premier évènement positif (X=1) Loi « sans mémoire», La probabilité de l’événement attendu au temps « k » ne dépend pas du fait qu’il ne soit pas apparu avant.( Seule v.a. discrète à posséder cette propirété « sans mémoire »)
Loi de Poisson Loi utilisée très souvent pour modéliser le nombre d’événement arrivant dans un temps donné T ne dépendant que de la durée de cette période Le nombre moyen d’événement par unité de temps . X= nombre d’événement arrivant sur une période T suit une loi de Poisson : On a, si p<0.1 et n>50 :
Lois continues Loi uniforme Loi exponentielle Loi « sans mémoire » en temps continue. Le passé ne permet pas de prédire l’avenir. En fiabilité cette loi est très utilisée pour représenter la durée de vie d’un « matériel». L’espérance 1/ est souvent appelé MTBF (« mean time betweeen failure ») et le taux de défaillance P(X>x)=probabilité d’attendre plus de x minutes avant l’apparition d’un phénomène avec 1/ comme temps moyen d’attente du phénomène
Loi Gamma Généralisation de la loi exponentielle. Loi utilisée dans les files d’attentes. P(X>x) représente la probabilité d’attendre plus de x minutes avant la kème apparition du phénomène étudié, où 1/ comme temps moyen d’attente du phénomène entre deux apparitions de celui-ci. Loi Weibull Utilisée en fiabilité. >1 : matériel qui se dégrade avec le temps <1 : matériel qui se bonifie avec le temps =1 : matériel sans usure (loi exponentielle)
Loi Laplace-Gauss (« normale ») Loi fondamentale en statistique. Très souvent utilisée pour modéliser des phénomènes étudiés. Elle est la loi limite de caractéristiques issus d’un échantillon de grande taille. On a les convergences suivantes B(n;p)N(np;np(1-p)) (np et n(1-p) supérieurs à 5) P()N(; ) (avec >18)
Loi du Chi 2 (Khi-deux de Pearson) On dit « chi2 à k degrés de liberté » Loi de student On dit « student à k degrés de liberté » Loi de Fisher-Snédécor On dit « fisher à k et l degrés de liberté »
Exemple 1 Une machine industrielle comprend trois organes de fonctionnement. Si l’un de ces organes présente une défaillance, la machine tombe en panne. Sachant que les défaillances possibles de ces organes sont indépendantes et que les probabilités sont respectivement 0.02 0.05 et 0.10 Quelle est la probabilité que la machine tombe en panne ? P(A)=0.02 P(B)=0.05 P(C)=0.10 P(panne)=1-P(pas panne)=
Exemple 2 Une machine a quatre dispositifs D1, D2, D3, D4, dont la défaillance peut intervenir de manière indépendante. On observe le fonctionnement de la machine pendant un intervalle de temps T. Soit Ai: » Di fonctionne sans défaillance pendant l’intervalle T », avec une proba : P(Ai ). On sait que P(A1)=0.80 P(A2)=0.85 P(A1)=0.90 P(A1)=0.90 La machine tombe en panne si D1 est défaillant. La machine continue de fonctionner si un seul des trois dispositifs D2, D3, D4 est défaillant ; mais la défaillance simultanée de deux de ces trois dispositifs met la machine en pane. Quelle est la probabilité de fonctionnement de cette machine sur l’intervalle de temps T ? Soit A=« la machine fonctionne sur un intervalle T »
Exemple 3 Un système S peut se présenter sous deux états, notés 0 et 1 en passant de l’un à l’autre de manière aléatoire. On a les résultats suivant : P(S=0)= 0.4 et P(S=1)=0.6. Une stations d’observations T1 fournit des informations sur l’état de S. La probabilité que T1 donne S dans l’état 0 si S est dans l’état 0 = 0.98. La probabilité que T1 donne S dans l’état 1 si S est dans l’état 1 = 0.95. A un instant donné, T1 donne S dans l’état 0. Quelle est la probabilité que S soit dans l’état 0 ? Posons E1 {S est dans l’état 0} A:{S est observé dans l’état 0 par T1 } P(E1 )=0.4 P(A /E1 )=0.98 P(A/ cE1 )=0.05
Exemple 4 Un système S peut se présenter sous deux états, notés 0 et 1 en passant de l’un à l’autre de manière aléatoire. On a les résultats suivant : P(S=0)= 0.4 et P(S=1)=0.6. Deux stations d’observations T1 et T2 fournissent des informations sur l’état de S. La probabilité d’erreur de T1 est 0.02 et celle de T2 est0.06 A un instant donné, T1 donne S dans l’état 0 et T2 donne S dans l’état 1. Quelle est la probabilité que S soit dans l’état 0 ? Posons E1 {S est dans l’état 0} et S2 {S est dans l’état 1} A:{S est observé dans l’état 0 par T1 et dans l’état 1 par T2 } P(E1 )=0.4 P(E2 )=0.6 P(A/ E1 )=0.98*0.06 (=proba que T1 soit vraie et T2 soit fausse sachant que S est dans l’état 0) P(A/ E2 )=0.02*0.94
Exemple 5 Une machine tombe en panne selon la loi exponentielle avec un facteur = 0.5/heure. Quelle est la probabilité que la machine tombe en panne entre la première et deuxième heure après le démarrage. La probabilité de survie, ensuite, pour T > 200, La durée de vie d'un composant d'un système est supposée suivre une loi exponentielle de paramètre . Un grand nombre de ces composants sont testés et on a observé que 5% ne durent pas plus de 100 heures. Estimer la probabilité qu'un composant pris au hasard dure plus de 200 heures, ou T est la durée de la vie en heures
Exemple 6 Pour le calcul de la fiabilité d'une carte électronique, il est admis que le taux global de défaillance est la somme des taux de chaque composant et que ceux-ci suivent une loi de mortalité exponentielle. La fiabilité globale suit donc une loi exponentielle.Les taux élémentaires sont donnés par des documents spécialisés (exemples : recueil de données de fiabilité des composants électroniques du CNET-RDF93 ; Military handbook - reliability prediction of electronic equipment - MIL-HDBK-217F ; manuels de fiabilité de constructeurs...). Ces recueils de données affectent également des facteurs permettant de prendre en compte les conditions d'environnement vibratoire, climatique et électrique. De même, le taux de défaillance du circuit imprimé prend en compte les dimensions, le nombre de trous métallisés ou pas, le nombre de pistes, leur largeur, et le nombre de couches.pour un taux de défaillance l = 12 10-6 h-1 et pour un fonctionnement 24 heures sur 24 pendant 208 jours par an, donnezla probabilité théorique que cette carte électronique fonctionne encore au bout de ces 208 jours. t = 24 x 208 » 5000 heures la probabilité théorique que cette carte électronique fonctionne encore est alors de R(5000) = e-0.000012.x5000 = 0,9418. Ceci signifie que la probabilité d'avoir une défaillance pendant la durée de fonctionnement de 5000 heures est de f = 1 - 0,9418 = 0,0582 soit 5,8 %.
Exemple 7 On suppose que le nombre de clients entrant dans un magasin un jour donné est une variable de Poisson de paramètre l = 12. Quelle est la probabilité de ne pas tomber en-dessous de 250 entrées de clients durant un mois de 22 jours ouvrables ? On fera les hypothèses d'indépendance qui s'imposent. Soit X le nombre de clients entrant dans le magasin durant un mois de 22 jours ouvrables. X suit une loi de Poisson de paramètre l = 22·12 = 264 (on suppose que les variables comptant le nombre d'entrées de chaque jour sont indépendantes). La probabilitéP(X³ 250) est donc donnée par P(X³ 250) = 1 - P(X < 250) = 1 - exp(-264)·Si=0..249 264i/i! = 0.8133788672.. Cette dernière somme étant plutôt longue, on peut approcher la distribution de la variable de PoissonX par celle d'une variable normale Y de moyenne m = l = 264 et de variance s2 = l = 264 , ce qui donne ici P(X³ 250) = P(X - m³ -14) @P((Y - m)/s³ 250/s) = P(Z³ -14/264½) et Z est une variable normale standard. Donc P(X³ 250) @ ½·[1 + erf(7·33½/66)] = 0.8055572942..
Les processus • Observation de phénomènes dans le temps • Temps discret • Temps continue Nous modélisons pas une écriture probabiliste les différents états d’un processus pour travailler avec.
Processus de Poisson Si les signaux observés sont « rares » et ne dépendent que du temps d’attente et d’un paramètre : Le nombre de signaux entre le temps « s » et le temps « s+t » suit P(t) Le temps d’attente entre deux signaux suit une loi exponentielle de paramètre Le temps d’attente entre « k » signaux suit une loi Gamma.
Exemple Le nombre de pannes d’un composant est de 3 par 24 heures. Probabilité qu’il y ait aucune panne en 24 heures : Probabilité qu’il y ait moins de deux pannes en 72 heures : Probabilité pour que le temps d’attente de la première panne soit supérieure à 24 heures : Probabilité pour que le temps d’attente de la première panne soit supérieure à 72 heures : Temps moyen d’attente d’une pane : 1/3 de journée Nombre moyen de panes par jours : 3 pannes
Processus de Markov On observe un processus qui évolue dans le temps. Son état au temps « k » ne dépend que de son état au temps « k-1 ».
Exemple : Un programme informatique est composé de 5 sous programmes indépendants : spgm1, .., spgm5 et d’un sous-programme de sortie spgm6. De spgm1 on peut aller à spgm2 avec une proba de ½ on peut boucler avec une proba de ½ De spgm2 on peut aller à spgm1 avec une proba de ½ on peut aller à spgm4 avec une proba de ½ De spgm3 on peut aller à spgm1 avec une proba de ¼ on peut aller à spgm2 avec une proba de ¼ on peut aller à spgm5 avec une proba de ¼ on peut aller à spgm6 avec une proba de ¼ De spgm4 on va à spgm3 Quand on arrive à spgm5, on boucle Quand on arrive à spgm6, on boucle
Graphe du problème 0.50 1 2 0.50 0.50 0.25 0.25 4 3 6 1.00 0.25 0.25 5
Quelle probabilité d’y être à nouveau au temps « 4 » ? (Nous supposons que le programme commence par spgm2) Première résolution : graphique Il y a 3 chemins pour aller de 2 à 2 24322 avec une proba : 0.50x1x0.25x0.50=1/16 21212 avec une proba : 0.50x0.50x0.50x0.50=1/16 21112 avc une proba : 0.50x0.50x0.50x0.50=1/16 Soit une proba de 3/16
Deuxième résolution : par matrice Si on pose les probabilités pij sous forme de matrice P, on a Matrice initiale P P4
Pour la plupart des chaînes de Markov vérifiant certaines propriétés, nous obtenons assez vite un régime stationnaire quelque soit l’état initial. Exemple : le processus markovien de graphe 0.6 0.6 0.6 0.4 0.4 1 2 3 0.4 0.4 Matrice associée
Le stationnarité s’écrit : et =(1, 2, 3) avec 1+ 2+ 3=1 On a =[1/4 1/2 1/4] Si on part de trois états différents : On obtient par simulation :
Exemple tiré de « sur la modélisation structurelle markovienne en fiabilité du logiciel » INRIA 1995 Un logiciel a 5 composantes dont les paramètres d’exécution exponentiels sont estimés à Les transition se font avec des probas : Les composantes 4 et 5 peuvent défaillir avec des probas : 4= 0.03 et 5= 0.01 Après une défaillance, les temps de recouvrement d’un bon fonctionnement sont des loi exponentielles de paramètres 4= 5 et 5= 10 On obtient : Il y a 95% de chances qu’il y ait deux défaillances avant 88 heures. La diminution d’un taux de défaillance 5 dans un rapport de 10 n’apporte qu’un gain de deux heures sur cette borne de 88 heures. Par contre, la simple division par trois de 4 donne une nouvelle borne de 257 heures.
C3 C5 R5 C1 C2 C4 R4
Soit un programme ayant 3 modules différents A, B, C On passe de A à B avec une proba 0.4 On passe de B à A avec une proba 0.4 On passe de B à C avec une proba de 0.3 On passe de C à B avec une proba de 0.3 On boucle en A avec une proba de 0.6 On boucle en B avec une proba de 0.7 On boucle en C avec une proba de 0.7 Graphe ? Matrice de transition ? Si je rentre par le module A, quelle probabilité d’être en C en deux étapes ? Etat stationnaire ?
Les différentes variables Variable nominale : Variable qualitative avec différentes modalités (sexe, CSP, …) Variable ordinale : Variable dont la réponse est un classement Variables d’échelle : On demande aux interviewés d’attribuer une « valeur ». Exemple : Échelle de Likert en 5 valeurs (« tout à fait d’accord » « pas du tout d’accord ») Variables numérique : La réponse est une note sur une échelle de valeurs Statistiques Questions ouvertes
Les indicateurs de dispersion Les indicateurs de position Le mode Les quartiles, centiles, … La médiane La variance La moyenne L’écart-type Utilisation de modules
Les graphes Variables nominales « Tuyaux d’orgue » Variables discrètes « Diagramme en batons » Variables continues « Histogrammes »
Corrélation Il existe différents outils pour mesurer la « liaison » entre deux variables, selon les type de variable et le type de liaison recherchée. Cependant, le coefficient de corrélation est le plus connu et utilisé. Le coefficient de corrélation mesure la « liaison linéaire » entre deux variables, valeur comprises entre -1 et 1. R proche de 0 : aucune liaison linéaire x x x x x x x x
x x x x x x x x x x x R proche de 1 : forte liaison linéaire positive x x x x x x x x x x x R proche de -1 : forte liaison linéaire négative
4,5 X Y 4 -2 4 3,5 -1 1 3 0 0 2,5 1 1 2 2 4 1,5 1 0,5 0 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 Corrélation forte relation causale Corrélation nulle aucune relation Il y a une très forte corrélation positive entre le nombre d ’anniversaires fêtées et l ’ancienneté de la personne. Plus je fête d ’anniversaire plus je vivrai vieux ? X et Y sont deux variables avec un coefficient de corrélation nul R=0 et Y=X2
Estimation Nous travaillons sur une fraction de la population mère. Tous nos résultats ne sont plus des résultats certains mais des « estimations » qui s’approchent plus ou moins du véritable résultat. Estimation de la moyenne : Estimation de la variance : Le théorème « central limit » dit :
Intervalles de confiance se lit dans la table N(0;1).
Tests statistiques Les tests statistiques fournissent un cadre "scientifique" qui permet de valider certaines hypothèses. Quand nous effectuons un test, nous vérifions une "hypothèse". On appelle "Ho" l'hypothèse testée lors d'un test. On appelle "H1" l'hypothèse dite « alternative » Seuil D'un Test On dit souvent que nous effectuons un test au seuil "a". Cela veut dire que nous nous fixons un seuil, "a", qui correspond au risque maximum que nous sommes prêt à prendre si nous nous trompons en disant que Ho, c’est à dire l’hypothèse que nous voulons vérifier, est fausse. On prend en marketing généralement un seuil "a" de 10%, 5% ou 1%. Valeur "P" d'un Test On appelle "p" le résultat numérique d'un test, appelé aussi « significativité ». "p" : "Probabilité de me tromper si je dis que c'est l'hypothèse alternative qui est vraie (H1)".
Test à utiliser Variables Variables Qualitatives Quantitatives Populations Mc Nemar Student Appariées Apparié Populations Chi2 Student Indépendantes indépendant On dit que nous avons deux populations indépendantes si les sujets des deux populations sont issues de deux échantillons construits indépendamment l'un de l'autre. On dit que nous avons deux populations appariées si les deux échantillons sont les mêmes (ou considérés comme identiques). Attention : "paired" en anglais s'est transformé en "pairé" sous EXCEL français. Si les échantillons sont importants (N>30), nous utiliserons le plus souvent les tests du Chi2, de Student ou de Mc Nemar.
TEST DE STUDENT APPARIE TEST DE STUDENT INDEPENDANT TEST DU CHI 2 TEST DE MC NEMAR « A » : nombre de personnes qui passent de « X » à « Y » « D » : nombre de personnes qui passent de « Y » à « X »