510 likes | 699 Views
La statistique descriptive. objectif : présenter les données pour que l'on puisse en prendre connaissance facilement. La statistique descriptive. peut concerner : une variable à la fois : statistique à une dimension deux variables à la fois : statistique à deux dimensions
E N D
La statistique descriptive • objectif : présenter les données pour que l'on puisse en prendre connaissance facilement
La statistique descriptive • peut concerner : • une variable à la fois : statistique à une dimension • deux variables à la fois : statistique à deux dimensions • plus de deux variables à la fois : statistique multidimensionnelle
La statistique descriptive • comporte : • les tableaux : distributions de fréquences • les diagrammes : graphiques • les paramètres statistiques : réduction des données à quelques valeurs numériques caractéristiques
Distribution groupée : exemple Classe Ci ni fi Ni Fi [140-160[ 150 10 0,05 10 0,05 [160-165[ 162,5 20 0,10 30 0,15 [165-170[ 167,5 30 0,15 60 0,30 [170-175[ 172,5 45 0,225 105 0,525 [175-180[ 177,5 40 0,20 145 0,725 [180-185[ 182,5 35 0,175 180 0,90 [185-190[ 187,5 15 0,075 195 0,975 [190-200[ 195 5 0,025 200 1,0 N=200 S 1k fi =1 k = nombre de classes
45 40 35 30 25 20 15 10 5 0 Polygone des fréquences Exemple Nombre de colonies bactériennes/dm2 ni1 52 73 154 255 356 457 328 289 1610 1211 312 1 1 2 3 4 5 6 7 8 9 10 11 12 Nombre de colonies bactériennes/dm2
90 80 70 60 50 40 30 20 10 0 Histogramme : exemple Classe ni Densité (*10)[140-160[ 10 5[160-165[ 20 40[165-170[ 30 60[170-175[ 45 90[175-180[ 40 80[180-185[ 35 70[185-190[ 15 30[190-200[ 5 5 140 160 170 180 190 200
AB A O B Diagramme sectoriel : exemple GROUPE ni A 35B 9O 40AB 16
La moyenne arithmétique : • Appelée moyenne notée x • Paramètre central qui concerne bien évidemment uniquement des variables quantitatives. • Calculable quelque soit la loi qui régit la distribution. • Somme des valeurs (T) divisée par le nombre de mesures (N). • Suivant la forme de présentation des observations, différentes formules de calcul peuvent être employées.
La moyenne arithmétique : • Propriétés : • Centre de gravité de la distribution. • La somme des écarts à la moyenne est nulle. • Affectée par les changements de variable. • Si y = ax + b; on a : y = ax + b • La moyenne contrairement à la médiane est très sensible aux valeurs extrêmes. • La moyenne d'un groupe résultant de la fusion d'autres groupes n'est égale à la moyenne des moyennes que si tous les groupes ont le même effectif. • Si la distribution de la variable suit une loi normale, la moyenne et la médiane et le mode sont confondus. • La distribution des moyennes de petits échantillons (N<30) indépendants tirés de la même population suit une loi normale si la distribution de la variable est normale. • Au delà de 30, la distribution des moyennes suit une loi normale sans condition sur la distribution de la variable. • La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la population.
La moyenne : formules • Somme des valeurs / Nbre d'observations N = Nombre total de mesures, p = Nombre de valeurs différentes observées, ni = Nombre d'occurrences de chaque valeur observée. fi = pourcentage de la valeur observée i g = nombre de groupes
La moyenne • Exemples • Soit la série statistique correspondant aux tailles de 6 étudiants : 160, 170, 180, 180, 190, 200 N = 6, T = 1080, x =1080/6 = 180 • Soit la distribution suivante Nombre de colonies bactériennes/dm2 ni ni*xi1 5 52 7 143 15 454 25 1005 35 1756 45 2707 32 2248 28 2249 16 14410 12 12011 3 3312 1 12p = 12 N = 224 T = 1 366 x = 1 366 / 224 = 6,098
Les autres valeurs centrales • Les autres moyennes • Moyenne géométrique d'une série de valeur positives est la racine Nième du produit des N valeurs. Elle est toujours inférieure ou égale à la moyenne arithmétique.
Les autres valeurs centrales • Les autres moyennes • Moyenne harmonique d'une série de valeurs positives est égale à l'inverse de la moyenne des inverses.
Les autres valeurs centrales • Les autres moyennes • Moyenne quadratique est la racine carré de la moyenne arithmétique des carrés.
Les autres valeurs centrales ˜ • La médiane notée x(tilde) est telle que la moitié des observations lui sont inférieure (ou égale) et la moitié supérieure (ou égale) : xi tel que Fi = 0,5. • Sur les distributions symétriques (normales par exemple) la médiane est égale à la moyenne et au mode. • Paramètre peu sensible aux valeurs extrêmes • Sur une distribution non groupée : • Si N impair, la médiane est l'observation de rang (N+1)/2 • Si N est pair, tout nombre entre xN/2 et xN/2+1convient. On prend la moyenne (pondérée en cas d'exaequo) entre ces deux valeurs. • Sur distribution groupée, la classe médiane est celle qui contient la médiane. • Détermination graphique • En admettant que les observations soient réparties uniformément dans cette classe, on a : x = limite inférieure de la classe contenant la médiane i x - x D = amplitude de la classe contenant la médiane i - i i 1 f = fréquence relative de la classe contenant la médiane i F ( x ) = fréquence relative cumulée de la classe i 0 , 5 - F ( x ) ˜ = x + D * x i i i f i
342 741 71 210 268 Paramètres de dispersion • Amplitude ou étendue • Ecart entre la valeur de l'observation maximale et celle de l'observation minimale. • Non définie pour les distributions groupées • On montre que l'écart type est toujours inférieur ou égal à la moitié de l'amplitude. • Dans les distributions unimodales en cloche l'écart type est égal au tiers de l'amplitude pour N de l'ordre de 10, au quart de l'amplitude pour N entre 15 et 50, au cinquième pour des effectifs de 50 à 200 et au sixième pour des effectifs de 200 à 1000. • Ecart interquartiles • Q3 -Q1 • Englobe 50% des observations • On utilise parfois l'écart semi-interquartile (Q3-Q1)/2 • Donne naissance à la représentation en « boxplot »
Paramètres de dispersion : Variance, Écart type • Variance et écart type • La variance (variance) d'une série ou d'une distribution de fréquence est la moyenne arithmétique des carrés des écarts à la moyenne. ^
Paramètres de dispersion : Variance, Écart type • Variance et écart type • C'est par rapport à la moyenne que la somme des carrés des écarts est la plus faible. ^
Paramètres de dispersion : Variance, Écart type • Variance et écart type • La variance de l'échantillon est notée S2. Ce n'est pas un bon estimateur de la variance de la population notée s2. ^
Paramètres de dispersion : Variance, Écart type • Coefficient de variation (cv) • C’est le rapport de l’écart type divisé par la moyenne • Écart type de la moyenne • Cf distribution des moyennes de plusieurs échantillons ^
Paramètres de dispersion : Coefficient de variation • Le coefficient de variation CV (Coefficient of variation, percentage standard deviation) • CV est le rapport écart type divisé par la moyenne. • CV est un nombre pur, sans unités. • CV est totalement indépendant des unités. • Le CV permet de comparer la variabilité de distributions de variables qui ne sont pas dans les mêmes unités.
Statistique descriptive à 2 dimensions • Situations : • Nature des variables : les deux variables peuvent être quantitatives, qualitatives ou l'une quantitative et l'autre qualitative. • Séries appariées : même variable mesurée dans deux circonstances • Avant - Après traitement • Cas - Témoins on apparie un témoin dépourvu de la maladie que l'on veut étudier sur différents points que l'on sait lier au phénomène étudié (par exemple pour une étude de la mortalité on apparie sur âge, sexe, ...) • Séries non appariées • Deux variables mesurées chez le même individu par exemple poids et taille; poids et couleur des yeux...
90 85 80 75 70 65 60 55 160 165 170 175 180 185 Tableaux statistiques à deux dimensions et représentation graphique • Séries • Distribution de fréquence • Table de contingence Poids Taille 70 170 80 180 65 165 75 175 90 182 73 170 60 162 68 165 83 180 ... ... Poids Taille Poids Taille 60 65 68 70 73 75 80 83 90 Tot. 162 1 1 165 1 1 2 170 1 1 2 175 1 1 180 1 1 2 182 1 1 Tot. 1 1 1 1 1 1 1 1 1 9
Fréquences relatives • Nombre de mesure totale N • Total de chaque ligne = Li • Total de chaque colonne = Ci • Effectif d'une cas = nij • Fréquences relatives: • nij / Li • nij / Cj • nij / N • Li / N • Cj / N Cheveux Yeux Blonds Bruns Autres Tot. (Li) Clairs 50 20 30 100 Foncés 60 80 60 200 Tot. (Cj) 110 100 90 300 300 = Nombre total de mesures 100 = Nombre d'individus ayant les yeux clairs 110 = Nombre d'individus ayant les cheveux blonds 50 / 300 = % d'individus ayant les cheveux blonds et les yeux clairs 50 / 110 = % d'individus parmi les blonds ayant les yeux clairs 50 / 100 = % d'individus parmi les yeux clairs ayant les cheveux blonds
N S x * y = Txy = somme des produits i i Covariance • Variable quantitative • cov (x,y) = moyenne des produits des écarts à la moyenne. 1/N * S1N(xi-x)*(yi-y) pour i = 1 à N • si x' = ax+b et y'=cy + d, on a Cov(x'y') = ac Cov (x,y) • toujours inférieure ou égale au produit des écart types • positive = "nuage" croissant • négative = "nuage" décroissant • calcul : T * T N S x y x * y - N i i i = 1 Cov (x,y) = N i = 1 • sert au calcul du coefficient de corrélation r.
Qu’est ce qu’un test statistique ? • A. Hypothèses statistiques • B. Tests d’hypothèses et de signification • C. Quelques rappels de logique : • D. Tests bilatéraux et tests unilatéraux • E. Les erreurs de première et de deuxième espèces • F. Significativité ou niveau de signification • H. Quelques exemples de questions
A. Hypothèses statistiques • Ce sont des affirmations relatives aux distributions de probabilité. • Ces affirmations peuvent être vraie ou fausse. • Dans la plupart des tests on formule une hypothèse dans le but de la rejeter. • Exemple : • le pourcentage observé dans la population est de 10%. Si l’on veut décider que le pourcentage observé dans un groupe particulier diffère du pourcentage observé dans la population. On supposera qu’il n’y a aucune différence. On peut encore formuler cette hypothèse sous la forme : • “Toutes les différences observées sont dues à des fluctuations d’échantillonnage : dues au hasard. • Une telle hypothèse est appelée hypothèse nulle notée H0. • Toutes les autres hypothèses sont dites hypothèses alternatives et sont notées H1.
B. Tests d’hypothèses et de signification • On appelle test d’hypothèses ou de signification les procédés statistiques qui permettent de décider si les hypothèses sont vraies ou fausses afin d’appréhender la réalité que l’on ne connaît pas. • C'est un domaine des statistiques inférentielles • Il existe des tests différents en fonction • du type de variables étudiées (quantitative/qualitative) • du type de problème (comparaison de 2 moyennes/comparaison de plus de 2 moyennes) • des conditions d'application (modélisation en terme de loi de probabilité) • Cependant la suite logique du déroulement d'un test est toujours la même
D. Tests bilatéraux et tests unilatéraux • L’hypothèse nulle H0 retenue est le plus souvent l’égalité. Les hypothèses alternatives peuvent être alors toutes les autres situations que l’on peut diviser en deux grandes catégories : plus grand que; plus petit que. • Lorsque l’on considère l’ensemble des hypothèses alternatives on parle de test bilatéral. • Lorsque pour des questions de bon sens à priori, on ne considère qu’une partie des hypothèses alternatives : soit plus grand que soit plus petit que on parle de test unilatéral. • ex : on désire comparer la taille des enfants de 3 et 4 ans. Le test est unilatéral, on ne "raccourcit pas les gosses"
E. Les erreurs de première et de deuxième espèces Risques alpha et beta • 1. L’erreur de première espèce : • Le système de décision que l’on emploie nous amène à rejeter l’hypothèse nulle alors que celle si est vraie. Exemple dans un essai concernant un nouveau médicament par rapport à un médicament plus ancien, on conclut à un différence des traitements alors que cela n’est pas la réalité. On commet un erreur de première espèce. • 2. L’erreur de deuxième espèce : • Elle représente une situation en miroir du premier cas. On accepte l’hypothèse nulle (le plus souvent d’égalité et on conclut à l’équivalence) alors que dans la réalité ce n’est pas vrai. Exemple dans un essai concernant un nouveau médicament par rapport à un médicament plus ancien, on conclut à l’équivalence des traitements alors que cela n’est pas la réalité. On commet un erreur de deuxième espèce. • 3. Remarque • Dans les tests unilatéraux, on peut isoler un cas particulier d’erreur dite de troisièmes espèce. C’est le cas ou l’on accepte l’hypothèse alternative (on rejette l’hypothèse nulle). On conclut alors à une différence signée (A>B par exemple) alors que dans la réalité, il y a une différence mais dans l’autre sens.
F. Significativité ou niveau de signification p • Lorsque l’on teste une hypothèse, la probabilité avec laquelle on accepte de réaliser une erreur de première espèce est appelée seuil de signification du test et est notée usuellement alpha. Ce risque est spécifié avant l’expérience, au moment où l’on pose le problème. • La probabilité avec laquelle on accepte de réaliser une erreur de deuxième espèce est notée usuellement beta. • La probabilité de rejeter H0 alors qu’elle est fausse est appelée puissance du test Puissance = 1- beta • Il n’y a pas de lien direct entre les deux risques alpha et beta. L’idéal serait de choisir alpha et beta aussi proche de 0 que possible. En général on choisit alpha très petit = 0.05 et l’on essaie de minimiser beta (en général 0,1). Cf calcul du nombre de sujets nécessaires. • Le seuil de signification p est la probabilité, sous l’hypothèse nulle d’observer une telle différence du fait du hasard (Cf étapes d’un test).
G. Les étapes d’un test • 1. Énoncé de H0 que l’on accepte provisoirement • 2. Énoncé des hypothèses alternatives H1 et choix d’un test bilatéral ou unilatéral • 3. Choix d’une statistique T (ex Khi2, t de Student, Epsilon ...) : fonction des observations dont on connaît la loi de probabilité quand H0 est vraie et qui va permettre de prendre une décision. • 4. Détermination de la valeur critique C calculée d’après cette loi et d’après le risque alpha accepté • 5. Calcul tiré de l’échantillon de la valeur prise t par cette statistique T • 6. Comparaison de t et de C qui aboutit à accepter ou à rejeter H0 • 7. Calcul du seuil de signification p : probabilité d’observer au moins cette différence du fait du hasard.
Comparaison d’un pourcentage observé à un pourcentage théorique Situation du problème • Situation du problème : • Variable qualitative dichotomique • Conformité d’un pourcentage observé à un pourcentage théorique • On exprime la question sous une forme compréhensible mais qui ne correspond pas à la réalité. Strictement, le pourcentage observé (Pobs) diffère du pourcentage théorique (Pth) (par exemple Pobs = 0,07 et Pth = 0,025). Ce qui est intéressant c’est de savoir si cette différence peut être attribuée au hasard ou encore si le pourcentage de la population dont est tiré l’échantillon observé peut être considéré comme valant Pth. • Problème fréquent • Exemple : taux de décès au cours d ’un intervention par rapport à une référence nationale.
Comparaison d’un pourcentage observé à un pourcentage théorique. H0/H1 • Hypothèses • Hypothèse nulle H0 : • L’échantillon peut être considéré comme issu d ’une population ayant comme pourcentage PH0 • PH0 = Pth • Hypothèses alternatives : • Test bilatéral • PH0 # Pth • Test unilatéral • PH0 > pth ou (exclusif) PH0< Pth • Statistiques utilisables • Khi 2 • Epsilon ou u (Loi normale) • Remarque : ces deux tests sont équivalents et ont les mêmes conditions d ’application : • N * Pth > 5 • N * (1-Pth) >5 On approche une loi binomiale par une loi normale • Si les conditions ne sont pas remplies on prend une autre méthode
2 2 (O1-C1) (O2-C2) + Khi 2 = C1 C2 DDL = 1 • Valeur critique : table du Khi 2 • Pour alpha = 0,05 Khi2 à 1 DLL = 3,84 alpha Khi 2 > Khi2 alpha Khi 2< Khi2 alpha Comparaison d’un pourcentage observé à un pourcentage théorique : Khi 2 • Utilisation du KHI2. Test Bilatéral (unilatéral possible mais moins habituel) • Tableau des valeurs : • Statistique : Conditions : C1 > 5 et C2 >5 • Décision : On rejette H0, on accepte H1 Il existe une différence statistiquement significative au seuil de risque alpha. On lit dans la table le seuil de significativité p On accepte H0. Attention au risque Bêta
2 2 (60-80) (140-120) = 8,33 Khi 2 = + 80 120 DDL =1 Khi2 : exemple • Exemple : • Dans un échantillon de 200 malades, on a observé un taux de décès dus à une maladie cardio-vasculaire de 30% alors que la référence nationale est de 40%. Peux -t- on considérer que le taux observé est statistiquement différent du taux national au seuil de risque 5% ? • H0 PH0 = 0.4 • H1 Test bilatéral : PH0 # 0.4 Note : 60 = 0,3 *200 80 = 0,4 *200 Khi 5% = 3,84 => Rejet de H0 DDL =1 Le pourcentage de décès observés diffère de manière significative de 40% au seuil de risque 5% Lecture dans la table de p : 0,001 < p < 0,01 (Khi2 = 10,83 Khi 2 = 6,63)
Comparaison de pourcentages : séries appariées : HO/H1 • Hypothèses • Hypothèse nulle H0 • Si le comportement est le même avant et après (entre cas et témoins) on doit s’attendre à avoir le même effectif de paires discordantes : de couple Oui -> Non et de couple Non -> oui. Le pourcentage de changement doit être de 50%>. • Ceci revient à un test de comparaison d’un pourcentage observé {Oui -> Non / ( Oui->Non + Non->Oui) ou Non -> Oui / ( Oui->Non + Non->Oui )} à un pourcentage théorique 50% • Hypothèse alternative H1 • Bilatéral : • Le pourcentage de Oui->Non ou de Non->Oui différe de 50% • Unilatéral • On peut a priori s’attendre au sens • Statistiques utilisables • Khi 2 : Test de Mac Nemar • Epsilon • Dans les 2 cas, on approche une loi binomiale par une loi normale => Conditions d’application
2 2 2 (30-44) (80 - 6) (90-150) = 941,12 + Khi2= + 150 6 30 2 Comparaison d'une distribution observée à une distribution théorique • Exemple 1 : • Dans un essai thérapeutique, on a testé un médicament sur 200 patients. Les résultats ont été notés en bons, moyens et mauvais. On a obtenu les pourcentages de bons résultats suivants : 45% de bons résultats, 15% de résultats moyens et 40% de mauvais résultats Dans la littérature ce traitement donne 75% de bons résultats, 22% de résultats moyens et 3% de résultats mauvais. Les résultats observés sont-ils conformes à ceux de la littérature? • H0 : Les résultats sont conformes • H1 : Les résultats ne sont pas conformes • Table de contingence Bons Moyens Mauvais Total Obs. 90 (0,45*200) 30 80 200 Théo 150 44 6 200 DDL = 2; Khi20,001 =13,82 => p<0,001 La distribution n'est pas conforme à la distribution observée dans la littérature. Les résultats obtenus sont statistiquement moins bons que ceux de la littérature. Remarque : le calcul d'un seul des termes du khi 2 (le dernier par exemple) permet de rejeter H0.
489,62 396,56 86,61 27,20 411,28 333,11 72,76 22,85 280,55 227,23 49,63 15,59 186,55 151,09 33,00 10,36 2 2 (487 - 489,62) 489,62 (3 - 10,36) 10,36 Khi 2 = + ...... + = 12,26 Exemple • Exemple 1 (suite) Les conditions d’application sont remplies (tous les effectifs théoriques sont supérieurs à 5). DDL = (4-1)*(4-1) = 9 Khi 2 5% pour DDL 9 = 16,92 On ne met pas en évidence de différence significative entre les distributions des groupes sanguins dans les 4 villes.
s Statistique t de Student • Statistique : • t de Student • Condition d’application : • Si N < 30 : Normalité de la distribution (cf paramètres de symétrie et d'aplatissement) • Données nécessaires : • Moyenne théorique m, moyenne observée x • Estimateur de l’écart type • Effectif de l’échantillon N | x - m | t = DDL = N-1 2 N • Décision : • t > t alpha lu dans la table : on rejette H0. Il y a une différence significative. On recherche dans la table le degré de signification p. • Remarque : Pour décider, on aurait pu calculer p et comparer p au risque alpha retenu. Si p<alpha on rejette H0
2 495 2500 - 2 495 100 s 4,95 x = = 100 100 - 1 5 - 4,95 t = = 0,70 DDL = 99 talpha 5% = 1,96 0,5025 100 Exemple • Exemple : • On tire au sort un échantillon de 100 comprimés de valium d’un lot de fabrication qui doit fournir des comprimés dosés à 5mg. On obtient les résultats suivants : Total des valeurs T= 495, Total des carrés des valeurs U = 2500. La fabrication peut-elle être considérée comme conforme au dosage prévu ? (on prend alpha = 5%) • H0 : La fabrication est conforme. = 0,5025 • Le t est inférieur au talpha 5% , je ne peux pas rejeter H0. La fabrication peut être considérée comme conforme. Mais attention au risque Bêta. • Remarque : t est le rapport entre l’écart des moyennes et l’ESM.
Exemple • Exemple : Dans une production de médicaments, la valeur théorique de la concentration de principe actif doit être de 12mg. L’écart type de la population est de 1 mg. On réalise tous les jours un échantillon de 100 comprimés destiné au suivi de la qualité. => Pour alpha = 5%, d = 2 * 0,1 • Sur 15 jours on a les résultats suivants : Sur les 15 jours un seul point est (j5) hors limite.
Corrélation • Position du problème • On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes ou, au contraire, si elles sont liées en étudiant les variation de l’une en fonction de l’autre et réciproquement • Si les variables sont indépendantes yi doit avoir, en moyenne, la même valeur quelque soit xi et inversement. • Pour répondre au problème posé, on reléve sur un échantillon de N individus, les N couples de valeurs x,y • Définition covariance (X,Y) r = var(X) * var (Y) • Le coefficient de corrélation mesure l’association linéaire entre X et Y • Il fait jouer un rôle symétrique à X et Y • Il reste identique si on change d’unité ou d’origine
Corrélation • Tableau des valeurs : • Représentation graphique • Nuage de points • Paramètres : • Moyennes, Écarts type estimés, Covariance, Coefficient de corrélation • Éléments nécessaires : • Nombre de couples : N • Total des produits X*Y • Total des X et des Y • Total des carrés des X et des Y
y 2 2 S [yi - y(x)] = S ( yi - a - b * xi) • • d2 • • d1 • y = a + b X x Corrélation • Régression et corrélation : • x et y sont deux variables aléatoires : x en fonction de y et y en fonction de x ont un sens (poids/taille) => corrélation • y est explicable par x (action /dose) => régression • Droite de régression des moindres carrés Droite de régression de y en x Minimise la somme des d1i Cette somme, xi et yi étant connus, est fonction uniquement de a et b. Le minimum est connu en annulant les dérivées partielles par rapport à a et par rapport à b Droite de régression de x en y Minimise la somme des d2i
Divers types de résultats « Amande à petit ventre » • Importance de la visualisation du nuage de points Forte corrélation positive r > +0,9 Forte corrélation négative r < -0,9 « Amande à gros ventre » Faible corrélation positive Faible corrélation négative Pas de corrélation r voisin de 0