1 / 49

Statistiques

Statistiques . Organisation du cours : 1er semestre 2003/2004 : Pr. KOHLER Statistiques descriptives Echantillonnage Codage des variables Statistiques descriptives univariées Statistiques descriptives multivariées Probabilités Probabilités et probabilités conditionnelles

jeroen
Download Presentation

Statistiques

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistiques • Organisation du cours : • 1er semestre 2003/2004 : Pr. KOHLER • Statistiques descriptives • Echantillonnage • Codage des variables • Statistiques descriptives univariées • Statistiques descriptives multivariées • Probabilités • Probabilités et probabilités conditionnelles • Caractéristiques d’un test diagnostique • Lois de probabilité • 2ième semestre 2003/2004 : Pr. ALBUISSON • Moyens pédagogiques • Cours et TD • Polycopiés : • Exercices TD : => à retirer pour le premier semestre à SPI-EAO (Bâtiment D RDC) • Cours : ADCN • www.spieao.uhp-nancy.fr/~kohler/ • Livres : • Livre du Pr. B. LEGRAS

  2. Statistiques : Généralités • Introduction • Statistiques (latin « status » état) • Ensemble cohérent de données numériques relatives à un groupe d'individus. • Statistiques démographiques • Statistiques annuelles des établissements de santé • Statistiques du chômage • Statistiques de santé • Etat de santé de la population • Activité : Statistiques d’activité hospitalière (SAE), PMSI • … • Rôle de l’INSEE • Statistique • Ensemble des méthodes qui permettent de rassembler et d'analyser les données numériques • Paramètre tel que moyenne... calculé à partir d'un ensemble de données

  3. Historique • Dénombrement de populations humaines pour les besoins de la guerre et de l'impôt. • Véritable début : 18ième siècle : • Arithmétique politique : connaissance d'un état • Première classification des causes de décès • Calcul des probabilités en France (B. Pascal, A. de Moivre, D. Bernouilli, P. S. de Laplace, K. F. Gauss, S. D. Poisson) • Statistiques mathématiques modernes 19ième siècle 1853 premier congrès (A. Quetelet, C. Babbage) • Première moitié du 20ième siècle • Statistiques biologiques et psychologiques • Biométrie et Psychométrie • 1920 A. Fisher et les plans d'expérience • 1930 Econométrie, Contrôle de qualité industriel • 1940 Recherche opérationnelle • Deuxième moitié du 20ième siècle • Développement de l'informatique • Test de rang, test « exact » • Analyses multi variées ou multidimensionnelles • Analyse des données • Méthodes bayesiennes

  4. La variabilité en santé Variabilité de la mesure Essayer de mesurer plusieurs(100) fois la taille en mm d’un individu : vous trouverez des valeurs différentes cependant dans l’absolu un individu a une taille et une seule. Variabilité inter individus Si vous observez des personnes dans la rue vous constatez qu’elles n’ont pas toutes la même couleur de cheveux. Variabilité intra individu Si vous mesurez la tension artérielle d’un individu à différents moments de la journée ou au même moment mais plusieurs jours de suite vous obtiendrez des valeurs différentes. Du fait de la variabilité, on est dans le domaine de l’incertain. Cette science de l’incertain, c’est le défi qu’a relevé la statistique en s’appuyant sur le concept de probabilité. Plutôt qu’une seule valeur, la prise en compte de l’incertain permet de déterminer un intervalle à l’intérieur duquel on a une certaine probabilité de se situer et donc un risque de ne pas y être.

  5. 1700 : John Graunt % d'enfants nés vivants, et morts avant l'âge de 6 ans 13 causes de Décès Muguet Convulsions Rachitisme Accidents dentaires et vers Naissances prématurées Décès de la première enfance Gros Foie Etouffement par couverture Variole Varicelle Rougeole Vers sans convulsion Inconnue Statistiques et santé • Description de l'état de santé d'une population • Causes de décès, morbidité • Évaluation d'un test ou d'un signe • Sémiologie quantitative : spécificité, sensibilité, valeurs prédictives • Évaluation d’un traitement • Essai thérapeutique • Recherche de facteurs étiologiques • Économie de la santé • Évaluation de la qualité et contrôle de production • ….

  6. Les différentes étapes de toute étude statistique • La collecte des données • Simple observation • Expérimentation • c'est-à-dire en provoquant volontairement l'apparition de certains phénomènes contrôlés • Analyse statistique • Analyse "déductive" ou descriptive • a pour but de résumer et de présenter les données observées pour que l'on puisse en prendre connaissance facilement : tableaux, graphiques ... • Analyse "inductive" ou inférence • permet d'étendre ou de généraliser dans certaines conditions les conclusions obtenues. Cette phase comporte certains risques d'erreur qui peuvent être mesurés en faisant appel à la théorie des probabilités. • Ces étapes ne sont pas indépendantes. • L'inférence nécessite des conditions particulières parfois très restrictives. Il en résulte que l'observation et l'expérimentation doivent être organisées de manière à répondre autant que possible à ces conditions. • Dossiers médicaux / cimetières de données

  7. La collecte des données • Enquête • Ensemble des opérations qui ont pour but de collecter de façon organisée des informations relatives à un groupe d'individus ou d'éléments observés dans leur milieu ou leur cadre habituel. • Les individus (malades...) ou les éléments en question (séjour hospitalier, comprimés...) sont appelés unité de base ou unité statistique ou individu statistique. L'ensemble des unités auquel on s'intéresse est appelé population ou univers ou ensemble statistique • Lorsque toutes les unités de la population sont observées l'enquête est exhaustive. Elle est encore appelée recensement. • Lorsqu'au contraire, une partie de la population est observée, l'enquête est dite partielle ou par échantillonnage. Elle est encore appelée sondage. La partie de la population observée constitue l'échantillon. • Les principaux problèmes qui se posent dans la préparation de l'enquête sont : • la définition de l'unité de base et de la population • la définition des observations à réaliser • le choix d'une méthode de collecte des données • le choix d'une méthode d'échantillonnage • la détermination de la taille de l'échantillon

  8. La définition de l'unité de base et de la population • Problème complexe • Exemple : recensement de la population humaine • Normalement basé sur l'étude individuelle de chacun des groupes de personnes qui vivent en commun dans un même logement ou << sous un même toit>>. • Faut-il dans ce cas partir de la notion de famille ou de la notion de ménage ? • Comment faut-il considérer les communautés religieuses ou militaires ? • Comment faut-il traiter le cas des personnes qui, venues de l'extérieur, se trouvent dans le territoire au moment de l'enquête pour une période plus ou moins longue ? • Où faut-il comptabiliser les personnes qui ne vivent pas constamment au même endroit (étudiants...) ? … • Exemple : l’étude des malades par l ’intermédiaire de la description des séjours hospitaliers (PMSI) • L ’unité est-elle : Le patient ? La maladie ? Le séjour ? • Le lecteur de tous rapports, mémoires ou publications doit s'interroger si des réponses précises à ce genre de questions ne sont pas fournies.

  9. La définition des observations • Les observations à réaliser doivent être parfaitement définies. • S'il s'agit d'observations qualitatives (résultat du classement de l’observation dans un groupe), tel que le diagnostic, l'état civil ou la profession, la signification exacte des termes employés devra être précisée de manière non ambiguë : « Qu’est ce qu’une Blonde ? » • Intérêt des classifications établies avec leurs règles de codage (CIM, CCAM, CIH...) • S'il s'agit d'observations quantitatives (résultat d’une mesure ou d’un comptage), tel que la glycémie (taux de sucre dans le sang), la pression artérielle, la fréquence cardiaque... non seulement les termes devront être définis mais le mode de détermination des valeurs (comptage, mesure, estimation visuelle), et les unités de mesure devront être précisées ainsi que le domaine de validité des mesures. • Entre les deux : les observations ordinales : estimation d'un signe subjectif : constipation, douleur.... rang dans une série : nombre d'étoiles du général...

  10. La définition des observations • Il faut également préciser les circonstances d'observation : date, heure, repos/effort... • La méthode de collecte des données repose sur un questionnaire. • Comment est-il rempli ? • Envoi postal; • Enquêteur; • Enquête téléphonique • Pour éviter les déboires et tester le questionnaire on fait une pré-enquête • Attention aux "non-réponses » (Données manquantes)

  11. Quelques méthodes d'échantillonnage • Attention : la nature ne fait pas si bien les choses... • Si l'objet de l'étude est d'évaluer la proportion de myopes dans la population de Nancy, que penser d'une étude qui ne s'adresserait qu'aux secrétaires ? • Biais évident : âge souvent jeune, sexe le plus souvent féminin, fonction pouvant affecter la vision • Echantillonnage aléatoire simple (simple random sampling) • Echantillonnage stratifié (stratified sampling) • A utiliser quand la population-parent (patients hospitalisés) est très hétérogène (service hospitalier et décès par exemple) et que l'on souhaite s'assurer que ses différentes composantes seront toutes bien représentées. La stratification peut apporter un gain de précision important par rapport à un échantillonnage aléatoire simple. • Echantillonnage à deux ou plusieurs niveaux (two-stage sampling, multistage sampling) • Tirage au sort des familles • Puis tirage au sort dans chaque famille de la personne enquêtée. • Méthode des quotas (quota) largement utilisée dans les sondages d'opinion. • Toutes les méthodes nécessitent une base d'échantillonnage

  12. La taille de l'échantillon • Fixée en valeur absolue ou en valeur relative : fraction de sondage • La précision dans une enquête dépend : • de la taille de l'échantillon • du caractère plus ou moins homogène ou hétérogène de la population parent. • La précision est d'autant meilleure que la taille de l'échantillon est importante et que la population est homogène. • => Pas de recette : pour fixer la taille d'un échantillon il est nécessaire d'avoir une idée suffisante de la précision souhaitée (risque accepté) et d'autre part du degré d'homogénéité (variabilité) de la population étudiée. • => Attention : la comparaison brute (de pourcentages par exemple) obtenu sur des échantillons de taille très différente aboutit à comparer des choses de précision très différente.

  13. Au total un échantillon représentatif ? • Un échantillon est représentatif d’une population si tous les individus de cette population ont la même probabilité (même chance) d’être dans l’échantillon. Si ce n’est pas le cas on a une erreur systématique : un biais. • Le tirage au sort donne un échantillon représentatif mais il nécessite de disposer d’une base de sondage « listing » de la population • Exemple • Lors de la fabrication de comprimés, on utilise une machine avec 6 moules. Si l’on constitue un échantillon en prenant 1 comprimé sur 6, on a un échantillon de comprimés issus du même moule donc non représentatif de la production. • Si l’on s’intéresse aux chutes en ne prenant que les malades hospitalisés on a un biais de recrutement : les malades les plus graves décédés à leur domicile nous échappent comme les plus légers qui ne sont pas hospitalisés • La capacité de généraliser les résultats dépend de la représentativité de l’échantillon.

  14. L'expérimentation • Principes • L'expérimentation ou encore la réalisation d'essais suppose que l'apparition des faits que l'on désire étudier est volontairement provoquée, dans des conditions qu'on maîtrise au moins partiellement. • Plus efficace que l'observation • Protocole expérimental en vue d'affirmer la causalité • But de l'étude • Conditions de l'expérience • Définition des facteurs à étudier • Sous l'entière dépendance de l'expérimentateur • Qualitatifs (Nature du traitement) • Modalités définies a priori • Quantitatifs (Dose administrée) • Niveau : progression arithmétique ou géométrique • Définition des unités expérimentales • Inclusion • Exclusion • Définition des observations à étudier • Critère de jugement • Définition du dispositif expérimental (Plan d'expérience)

  15. Exemples : • 1) • Dans un hôpital, on a établi un registre au niveau de l’accueil dont on reproduit ci-dessous certains éléments. Nom du patient Sexe Date Date Date de naissance d'entrée de sortie Dupond Marcelle Masculin 10/02/48 01/03/00 14/03/00 Albert Maurice Masculin 24/06/19 02/03/00 12/03/00 Calvari Emilie Femme 24/11/59 03/03/00 07/03/00 Calvari Emilie Féminin 24/11/59 10/03/00 18/03/00 Dupond Marcel Homme 10/02/48 17/03/00 17/05/00 Dupond Marcel Masculin 10/02/48 25/03/00 28/03/00 A) Les données sont elles correctes ? B) Comment coder le sexe ? C) Combien a-t-on d’hospitalisations, de patients ? D) Comment calculer la durée de séjour ? E) Quel est le pourcentage de femme ? • 2) • Peut on utiliser ce registre pour connaître l’âge moyen des personnes habitant le bassin de population drainé par cet hôpital ?

  16. Nature et enregistrement des données • Types de données • Données quantitatives • Données discontinues ou discrètes • Données continues • Données qualitatives • Données binaires • Données nominales • Données ordinales ou semi quantitatives Grande richesse en information Données quantitatives Données ordinales Données qualitatives Faible richesse en information

  17. Données quantitatives • Données discontinues ou discrètes : • Donnent lieu à des dénombrements ou comptages. • Les résultats s'expriment en nombres entiers non négatifs. • Exemples : Nombre d'enfants dans une famille; Nombre de désintégrations par minute... • Données continues • Donnent lieu à des mesures (mensurations). Elles soulèvent des problèmes de précision et de choix d'unité. Dans le domaine biologique il est illusoire, inutile et même dangereux d'utiliser plus de deux ou trois chiffres pour exprimer les résultats individuels. • Exemple : Taille, Poids ... • En pratique, dans le cas des mesures, on effectue en réalité des observations discontinues en raison de la nécessité d'arrondir les données alors que celles-ci sont fondamentalement continues (mise en classe). • Permettent les calculs arithmétiques (moyenne, écart type...)

  18. Données Qualitatives • Elles concernent des caractères ou des attributs que chacun des individus peut posséder ou non. • Codées avec des classes mutuellement exclusives • Type le plus simple : variable binaire (sexe...) • Type nominal : plus de deux classes • Problème de la classification utilisée • Exemple : Classification internationale des maladies • Peut être décomposé en variables binaires • Couleur des cheveux (brun, blond, autre) décomposée en Brun (oui, non); Blond (oui, non); Autre (oui, non) • Ne permettent pas les calculs arithmétiques (moyenne…) mais donnent lieu à des dénombrements.

  19. Données ordinales • Données qualitatives exprimant des niveaux différents ordonnés. • Exemple intensité d'une cuti (négatif, faiblement positif, positif, très positif) • Codées (0, +, ++, +++ ou 0, 1, 2 , 3) • Interprétation parfois délicate des calculs arithmétiques • Transformation en données quantitatives: utilisation d’échelles analogues visuelles • Très fréquentes en médecine et biologie Je ne suis pas fatigué Je suis très fatigué

  20. Enregistrement et traitement des données • Bordereau papier / Saisie informatique directe • Papier : disponibilité, coût initial faible (mais il faudra faire la saisie) • Informatique : possibilité de contrôle à la source : vérification intra champ et inter champs, aide au codage. • Standardisation de la présentation • A partir de l'observation médicale on a les phases suivantes • Extraction et interprétation des signes et symptômes : douleur thoracique caractéristique irradiant dans le bras gauche survenant au froid ou à l'effort => ANGOR • Synthèse : patient présentant une toux, des cors au pied, une élévation des enzymes cardiaques, un angor, un tabagisme, un infarctus du myocarde • Infarctus du myocarde avec élévation des enzymes cardiaques, angor... • Chez un fumeur qui tousse et qui a des cors au pied. • Hiérarchisation, Sélection • Traitement des données • Calculette (en voie de disparition) • Traitement informatique • Tableurs • Logiciels de statistique (EPIINFO, STATVIEW, SAS, SPPS ...)

  21. La statistique descriptive • But : présenter les données pour que l'on puisse en prendre connaissance facilement • peut concerner : • une variable à la fois : statistique à une dimension • deux variables à la fois : statistique à deux dimensions • plus de deux variables à la fois : statistique multidimensionnelle • comporte : • les tableaux : distributions de fréquences • les diagrammes : graphiques • les paramètres statistiques : réduction des données à quelques valeurs numériques caractéristiques

  22. Les distributions de fréquences • Séries statistiques : • simple énumération ou dénombrement des observations • peut être ordonnée (variable quantitative) • le nombre total d'observations, appelé effectif de l'échantillon, est noté N • Distributions non groupées • Lorsque les observations sont nombreuses, une même valeur peut être observée plusieurs fois. • On utilise xi pour représenter les valeurs différentes, son nombre d’occurrences est noté ni et est appelé fréquence absolue ; p représente le nombre de valeurs différentes que l'on a observé. • ni/N est appelé fréquence relative. • En cas de variable quantitative, on ordonne les xi et les fréquences absolues ou relatives peuvent être additionnées de proche en proche de manière à obtenir les fréquences cumulées notées Ni et Fi xi ni fi Ni Fi x1 172 3 0,015 3 0,015 x2 175 15 0,075 18 0,09 x... n... f... xp np fp N 1 N=200= S1p ni 1= S1p fi

  23. Les distributions groupées • Variables quantitatives • Quand le nombre de valeurs distinctes est élevé, on condense les tableaux statistiques en groupant les observations en classes. On obtient ainsi les distributions groupées. • Les classes sont mutuellement exclusives. Leurs valeurs extrêmes sont appelées bornes des classes. • L'amplitude de la classe encore appelée intervalle ou module de classe correspond à l'écart entre la borne supérieure et la borne inférieure. • Le point central ou encore point médian est situé à mi chemin entre les bornes. • L'intervalle de classe est généralement constant, toutefois, on utilise parfois une amplitude variable notamment pour les classes des valeurs extrêmes. • Dans certains cas la limite inférieure de la première classe ou supérieure de la dernière classe n'est pas précisée. On parle de classes ouvertes. A éviter !... • En cas de classes d'amplitudes différentes, la densité de fréquence ni/amplitude classei permet de comparer les fréquences d'une classe à l'autre. • Toutes les distributions relatives à des variables continues doivent être considérées comme des distributions groupées, puisque l'infinité de valeurs admissibles est condensée en un nombre fini de mesures en fonction de la précision de la méthode de mesure utilisée.

  24. Distribution groupée : exemple Classe Ci ni fi Ni Fi [140-160[ 150 10 0,05 10 0,05 [160-165[ 162,5 20 0,10 30 0,15 [165-170[ 167,5 30 0,15 60 0,30 [170-175[ 172,5 45 0,225 105 0,525 [175-180[ 177,5 40 0,20 145 0,725 [180-185[ 182,5 35 0,175 180 0,90 [185-190[ 187,5 15 0,075 195 0,975 [190-200[ 195 5 0,025 200 1,0 N=200 S 1k fi =1 k = nombre de classes

  25. Les graphiques • Diagrammes sur distributions non cumulées • Diagramme en bâtons • Distribution non groupée • On trace parallèlement à l'axe des ordonnées, en regard des xi qui sont portés en abscisse, un segment de longueur proportionnel à ni • Polygone des fréquences • Ligne brisée joignant les bâtons • fréquences absolues / relatives • Histogramme • Distribution groupée • composé de rectangles ayant comme base l'intervalle de classe et comme hauteur la densité de fréquence (ni/Di). La surface est proportionnelle à ni. • Diagramme sectoriel • Variable qualitative • Angle au centre proportionnel à ni (ou fi)

  26. Les graphiques • Diagrammes sur distributions cumulées • Polygone des fréquences • sur distribution non groupée = escalier • sur distribution groupée : ligne brisée • Histogrammes • Principaux aspects • Symétrie - Aplatissement • Distribution : • en cloche • en J • en U • à plusieurs bosses • ... • Autres représentations • Attention : Excel ne fait pas d’histogramme

  27. 45 40 35 30 25 20 15 10 5 0 Polygone des fréquences Exemple Nombre de colonies bactériennes/dm2 ni1 52 73 154 255 356 457 328 289 1610 1211 312 1 1 2 3 4 5 6 7 8 9 10 11 12 Nombre de colonies bactériennes/dm2

  28. 90 80 70 60 50 40 30 20 10 0 Histogramme : exemple Classe ni Densité (*10)[140-160[ 10 5[160-165[ 20 40[165-170[ 30 60[170-175[ 45 90[175-180[ 40 80[180-185[ 35 70[185-190[ 15 30[190-200[ 5 5 140 160 170 180 190 200

  29. AB A O B Diagramme sectoriel : exemple GROUPE ni A 35B 9O 40AB 16

  30. Les paramètres statistiques • Paramètres de position • Valeurs centrales • Moyenne arithmétique • Les autres moyennes • géométrique • harmonique • quadratique • Médiane • Mode • Médiale • Les fractiles • Quartiles • Percentiles • Paramètres de dispersion • Amplitude ou étendue • Ecart interquartiles • Variance, Ecart type • Coefficient de variation • Paramètre d'aplatissement et de symétrie

  31. Population m (mean) Echantillon x (average) La moyenne arithmétique : • Appelée moyenne notée x • Paramètre central qui concerne bien évidemment uniquement des variables quantitatives. • Calculable quelque soit la loi qui régit la distribution. • Somme des valeurs (T) divisée par le nombre de mesures (N). • Suivant la forme de présentation des observations, différentes formules de calcul peuvent être employées. • Propriétés : • Centre de gravité de la distribution. • La somme des écarts à la moyenne est nulle. • Affectée par les changements de variable. • Si y = ax + b; on a : y = ax + b • La moyenne contrairement à la médiane est très sensible aux valeurs extrêmes. • La moyenne d'un groupe résultant de la fusion d'autres groupes n'est égale à la moyenne des moyennes que si tous les groupes ont le même effectif. • Si la distribution de la variable suit une loi normale, la moyenne et la médiane et le mode sont confondus. • La distribution des moyennes de petits échantillons (N<30) indépendants tirés de la même population suit une loi normale si la distribution de la variable est normale. • Au delà de 30, la distribution des moyennes suit une loi normale sans condition sur la distribution de la variable. • La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la population.

  32. La moyenne : formules • Somme des valeurs / Nbre d'observations N = Nombre total de mesures, p = Nombre de valeurs différentes observées, ni = Nombre d'occurrences de chaque valeur observée. fi = pourcentage de la valeur observée i g = nombre de groupes

  33. La moyenne • Exemples • Soit la série statistique correspondant aux tailles de 6 étudiants : 160, 170, 180, 180, 190, 200 N = 6, T = 1080, x =1080/6 = 180 • Soit la distribution suivante Nombre de colonies bactériennes/dm2 ni ni*xi1 5 52 7 143 15 454 25 1005 35 1756 45 2707 32 2248 28 2249 16 14410 12 12011 3 3312 1 12p = 12 N = 224 T = 1 366 x = 1 366 / 224 = 6,098

  34. Les autres valeurs centrales • Les autres moyennes • Moyenne géométrique d'une série de valeur positives est la racine Nième du produit des N valeurs. Elle est toujours inférieure ou égale à la moyenne arithmétique. • Moyenne harmonique d'une série de valeurs positives est égale à l'inverse de la moyenne des inverses. • Moyenne quadratique est la racine carré de la moyenne arithmétique des carrés.

  35. Les autres valeurs centrales ˜ • La médiane notée x(tilde) est telle que la moitié des observations lui sont inférieure (ou égale) et la moitié supérieure (ou égale) : xi tel que Fi = 0,5. • Sur les distributions symétriques (normales par exemple) la médiane est égale à la moyenne et au mode. • Paramètre peu sensible aux valeurs extrêmes • Sur une distribution non groupée : • Si N impair, la médiane est l'observation de rang (N+1)/2 • Si N est pair, tout nombre entre xN/2 et xN/2+1convient. On prend la moyenne (pondérée en cas d'exaequo) entre ces deux valeurs. • Sur distribution groupée, la classe médiane est celle qui contient la médiane. • Détermination graphique • En admettant que les observations soient réparties uniformément dans cette classe, on a : x = limite inférieure de la classe contenant la médiane i x - x D = amplitude de la classe contenant la médiane i - i i 1 f = fréquence relative de la classe contenant la médiane i F ( x ) = fréquence relative cumulée de la classe i 0 , 5 - F ( x ) ˜ = x + D * x i i i f i

  36. Autres valeurs centrales et Fractiles • Valeurs centrales - suite • Mode encore appelé valeur dominante • Correspond à la valeur la plus fréquente. xicorrespondant au ni maximum. • Dans les distributions unimodales symétriques, mode médiane et moyenne sont confondus (distribution normale par exemple) • Médiale est la valeur telle que la somme des observations qui lui sont inférieures et la somme des observations qui lui sont supérieure sont égale. • Fractiles • Quartiles • Q1: xi tel que Fi = 0,25 => 1/4 des valeurs lui sont inférieures, 3/4 lui sont supérieures. • Q2 = Médiane • Q3 : xi tel que Fi = 0,75 => 3/4 des valeurs lui sont inférieures, 1/4 lui sont supérieures. • Détermination graphique • interpolation (cf médiane) • Percentiles • 10ième percentile : xi tel que Fi = 0,10

  37. 342 741 71 210 268 Paramètres de dispersion • Amplitude ou étendue • Ecart entre la valeur de l'observation maximale et celle de l'observation minimale. • Non définie pour les distributions groupées • On montre que l'écart type est toujours inférieur ou égal à la moitié de l'amplitude. • Dans les distributions unimodales en cloche l'écart type est égal au tiers de l'amplitude pour N de l'ordre de 10, au quart de l'amplitude pour N entre 15 et 50, au cinquième pour des effectifs de 50 à 200 et au sixième pour des effectifs de 200 à 1000. • Ecart interquartiles • Q3 -Q1 • Englobe 50% des observations • On utilise parfois l'écart semi-interquartile (Q3-Q1)/2 • Donne naissance à la représentation en « boxplot »

  38. Paramètres de dispersion : Variance, Écart type • Variance et écart type • La variance (variance) d'une série ou d'une distribution de fréquence est la moyenne arithmétique des carrés des écarts à la moyenne. • C'est par rapport à la moyenne que la somme des carrés des écarts est la plus faible. • La variance de l'échantillon est notée S2. Ce n'est pas un bon estimateur de la variance de la population notée s2. • L’estimation de la variance est notée s2. • Le numérateur de la variance est appelé somme des carrés des écarts et noté SCE. • L'écart type est la racine carré de la variance. On l'appelle également déviation standard (standard deviation). Il est dans l'unité de la variable. • Variance et écart type sont indépendants des translations (changement d ’origine) mais pas des multiplications (changement d'unité). • Si y = a * x + b, on a Sy = |a| * Sx • Pour les distributions en cloche, la variance calculée à partir des classes est surestimée, certain réalise la correction de Sheppard. • => Ne pas utiliser de distribution groupée… • Coefficient de variation (cv) • C’est le rapport de l’écart type divisé par la moyenne • Écart type de la moyenne • Cf distribution des moyennes de plusieurs échantillons ^

  39. p N å å U = x 2 = n x 2 i i i = = i 1 i 1 T 2 N å x SCE = ( - x ) 2 = U - i N = i 1 ˆ s CV = x Variance et écart type : calcul • Attention aux notations

  40. Paramètres de dispersion : Coefficient de variation • Le coefficient de variation CV (Coefficient of variation, percentage standard deviation) • CV est le rapport écart type divisé par la moyenne. • CV est un nombre pur, sans unités. • CV est totalement indépendant des unités. • Le CV permet de comparer la variabilité de distributions de variables qui ne sont pas dans les mêmes unités.

  41. Paramètres d'aplatissement et de symétrie • Moments centrés d'ordre k • moyenne arithmétique des écarts à la moyenne élevée à la puissance k. • si k pair => paramètre de dispersion • si k impair => paramètre de symétrie • Coefficient de Pearson et de Fisher • b1 pour caractériser la symétrie de la courbe; b2 pour caractériser l'aplatissement • b1 = M32 / M23 : est voisin de 0 si la distribution est symétrique • b2 = M4 / M22 : est voisin de 3 si la distribution suit une loi normale (plus aplatie qu'elle si b2 < 3) • cf Loi Normale • Skewness et kurtosis

  42. Statistique descriptive à 2 dimensions • Objectif : mettre en évidence les relations qui existent entre deux séries d'observations. • Situations : • Nature des variables : les deux variables peuvent être quantitatives, qualitatives ou l'une quantitative et l'autre qualitative. • Séries appariées : même variable mesurée dans deux circonstances • Avant - Après traitement • Cas - Témoins on apparie un témoin dépourvu de la maladie que l'on veut étudier sur différents points que l'on sait lier au phénomène étudié (par exemple pour une étude de la mortalité on apparie sur âge, sexe, ...) • Séries non appariées • Deux variables mesurées chez le même individu par exemple poids et taille; poids et couleur des yeux...

  43. 90 85 80 75 70 65 60 55 160 165 170 175 180 185 Tableaux statistiques à deux dimensions et représentation graphique • Séries • Distribution de fréquence • Table de contingence Poids Taille 70 170 80 180 65 165 75 175 90 182 73 170 60 162 68 165 83 180 ... ... Poids Taille Poids Taille 60 65 68 70 73 75 80 83 90 Tot. 162 1 1 165 1 1 2 170 1 1 2 175 1 1 180 1 1 2 182 1 1 Tot. 1 1 1 1 1 1 1 1 1 9

  44. Fréquences relatives • Nombre de mesure totale N • Total de chaque ligne = Li • Total de chaque colonne = Ci • Effectif d'une cas = nij • Fréquences relatives: • nij / Li • nij / Cj • nij / N • Li / N • Cj / N Cheveux Yeux Blonds Bruns Autres Tot. (Li) Clairs 50 20 30 100 Foncés 60 80 60 200 Tot. (Cj) 110 100 90 300 300 = Nombre total de mesures 100 = Nombre d'individus ayant les yeux clairs 110 = Nombre d'individus ayant les cheveux blonds 50 / 300 = % d'individus ayant les cheveux blonds et les yeux clairs 50 / 110 = % d'individus parmi les blonds ayant les yeux clairs 50 / 100 = % d'individus parmi les yeux clairs ayant les cheveux blonds

  45. N S x * y = Txy = somme des produits i i Covariance • Variable quantitative • cov (x,y) = moyenne des produits des écarts à la moyenne. 1/N * S1N(xi-x)*(yi-y) pour i = 1 à N • si x' = ax+b et y'=cy + d, on a Cov(x'y') = ac Cov (x,y) • toujours inférieure ou égale au produit des écart types • positive = "nuage" croissant • négative = "nuage" décroissant • calcul : T * T N S x y x * y - N i i i = 1 Cov (x,y) = N i = 1 • sert au calcul du coefficient de corrélation r.

  46. 6 1 20 10 3 2 16 4 30 1er janvier 31 décembre Quelques indicateurs statistiques classiques des établissements de santé • La SAE • Enquête annuelle déclarative établie par tous les établissements français • Décrit essentiellement les moyens • Décrit partiellement l’activité, plus particulièrement certaines activités soumises à autorisation (IVG,…) • Quelques difficultés • Combien de lits équipent mon établissement ? • Lits autorisés • Lits installés • Lits ouverts à une date donnée • Lits ouverts en moyenne sur l’année • Combien d’entrées entre le 1er janvier et le 31 décembre inclus ? (4) • Combien de sorties dans la même période ? (5) • Combien de malades présents dans la période ? (6) • Combien de journées ? • Des séjours des malades entrés dans la période (80) • Des parties de séjours des malades présents dans la période (73) • Des malades sortis dans la période (72)

  47. Quelques indicateurs statistiques classiques des établissements de santé • La durée moyenne de séjour pour une période donnée • SAE • Le nombre de journées est celui des malades présents auquel on ajoute le nombre de décès (hospitalisation complète) • Le nombre de malades est le nombre d’entrées (somme des entrées directes et des entrées par mutation) • DMS = 73/4 = 18,25 jours (si pas de décès) • PMSI • Le nombre de journées est celui des malades sortis pendant la période • Le nombre de malades est le nombre de malades sortis • DMS = 72/5 = 14,4 jours

  48. Quelques indicateurs statistiques classiques des établissements de santé • Taux d’occupation des lits • Le taux d’occupation des lits mesure l’utilisation des moyens mis à la disposition d’un établissement • Il existe une norme fixée au niveau national 85% en médecine et en chirurgie, 80% en obstétrique

  49. Quelques indicateurs statistiques classiques des établissements de santé • Comment compter le personnel ? • On différencie • Le nombre de personnes dans les différentes catégories professionnelles : • Employés, médecins, kinésithérapeutes…. • Le nombre d’équivalents temps plein (ETP) pour pouvoir tenir compte du travail à temps partiel. Ce nombre représente la « force » de travail. • Exemple : • Dans un CHU, on a 150 médecins hospitalo-universitaires qui travaillent à mi-temps à l’hôpital, 200 praticiens qui travaillent à temps plein et 50 praticiens qui travaillent à 80%. Quel est le nombre d’équivalents temps plein de ce CHU ? ETP = 150 * 0,5 + 200 + 50 * 0,8 = 75 + 200 + 40 = 315

More Related