830 likes | 1.02k Views
Initiation à la recherche clinique et épidémiologique (Les différents types d’enquête) Initiation à l’analyse de données (Comment présenter les données ?) (Pourquoi a-t-on besoin des tests ?). Dr Benoît Lepage (lepage@cict.fr), Dr Vanina Bongard (bongard@cict.fr)
E N D
Initiation à la recherche clinique et épidémiologique (Les différents types d’enquête) Initiation à l’analyse de données (Comment présenter les données ?) (Pourquoi a-t-on besoin des tests ?) Dr Benoît Lepage (lepage@cict.fr), Dr Vanina Bongard (bongard@cict.fr) Département d’Epidémiologie, Economie de la Santé et Santé Publique Université Toulouse III – Paul Sabatier Master de Santé Publique, Toulouse III
Les outils statistiques • Description de données • Sondages, échantillons, inférence • Estimations • Tests • Les principaux types d’enquêtes • Essais cliniques • transversales • Cohortes • Cas témoins
I. Outils statistiques Comment présenter les données ? • Unités statistiques :éléments faisant l’objet de l’étude : personnes, temps de mesures, département, … • Variables statistiques : • Paramètre pouvant prendre différentes valeurs d’une unité statistique à l’autre • variable qualitative = variable catégorielle • variable qualitative nominale (sans relation d’ordre) • variable qualitative ordonnée (relation d’ordre) • Variable quantitative • variable quantitative discontinue = discrète • variable quantitative continue
a. Représentation synthétique d’une variable qualitative • Tableaux de fréquence • Fréquence absolue : nombre de cas • Fréquence relative : pourcentage Variable booléenne, dichotomique, binaire, à 2 modalités N = 150 Sexe, n (%) hommes femmes Tabagisme, n (%) non fumeurs anciens fumeurs fumeurs 80 (53,3 %) 70 (46,7 %) 77 (51,3 %) 28 (18,7 %) 45 (30,0 %)
Graphiques => faire ressortir une vision synthétique (mais souvent moins précise que les tableaux) • Diagrammes en secteurs
b. De la variable qualitative à la variable quantitative • Histogrammes (variables discrètes)
Histogrammes 70 80 90 100 110 120 130 140 150 160 170 180 190
Courbes de distribution 40 30 20 10 0 70 90 110 130 140 160
c. Représentation synthétique d’une variable quantitative • 1. Paramètres de positionou de tendance centrale • moyenne arithmétique et géométrique • médiane • mode • 2. Paramètres de dispersion • variance • écart type, erreur standard • quantiles • intervalle interquartile • Extrêmes, étendue DISPERSION POSITION
1. Paramètres de position • Moyenne arithmétique Nb de cas Nb de cas Distribution gaussienne: Distribution non gaussienne: La moyenne correspond aux valeurs les plus fréquentes La moyenne ne correspond pas aux valeurs les plus fréquentes bon indicateur de tendance centrale mauvais indicateur de tendance centrale
1. Paramètres de position • Médiane : plus adaptée si distribution asymétrique • Valeur centrale séparant l’échantillon en deux moitiés • 50 % des valeurs sont au dessus • 50 % des valeurs sont en dessous • rang de la médiane : • (n + 1) / 2 si n est pair • n/2 si n est impair • Mode • Valeur la plus représentée (variables quantitatives discrètes +)
Exemple médiane (1) • Poids en Kg d’une série de 80 sujets (après classement par ordre croissant) • 45 50 55 58 60 63 64 64 65 66 67 67 67 67 68 68 68 68 68 68 • 70 70 71 71 71 71 72 72 72 72 73 73 73 73 73 73 73 73 73 73 • 74 74 74 74 74 74 74 74 74 75 75 75 75 76 76 76 76 77 77 77 • 77 78 79 79 79 79 80 80 80 80 80 81 81 81 82 82 83 84 84 86 • Moyenne de la 40ème et 41ème valeur • Médiane = (73+74)/2 = 73,5 kg • (ne nécessite pas de connaître toutes les valeurs)
Exemple médiane (2) • Une série de 7 sujets : • 45 50 55 58 60 63 64 • Ici, n est impair, la médiane est la valeur de rang (n+1)/2 • = la valeur de rang 4 • La médiane est 58
Dispersion
n 1 n i = 1 • Variance 2 (X i - ) 2 = • La variance est la moyenne des carrés des écarts des valeurs par rapport à la moyenne. • L’unité de la variance est l’unité de la variable étudiée au carré. • Ecart Type, déviation standard, SD • L’unité de l’écart type est identique à l’unité de la variable étudiée. = 2
Si une variable suitune distribution normale : - 2DS - 1DS + 1DS + 2DS 68% 95% Moy ± 1ET contient 68% des observations Moy ± 2ET contient 95% des observations Moy ± 3ET contient 99% des observations
Quantiles • (k – 1) valeurs séparant l’échantillon en k zones comportant le même nombre d’observations • k = 3 : tertiles • k = 4 : quartiles • k = 10 : déciles • k = 100 : centiles ou percentiles • Un intervalle entre deux quantiles correspond à un intervalle interquantile
Exemple : quartiles • Poids en Kg d’une série de 80 sujets (après classement par ordre croissant) • 45 50 55 58 60 63 64 64 65 66 67 67 67 67 68 68 68 68 68 68 • 70 70 71 71 71 71 72 72 72 72 73 73 73 73 73 73 73 73 73 73 • 74 74 74 74 74 74 74 74 74 75 75 75 75 76 76 76 76 77 77 77 • 77 78 79 79 79 79 80 80 80 80 80 81 81 81 82 82 83 84 84 86 • 1er quartile = (¼,¾) = 69 kg • 2ème quartile = Médiane = 73,5 kg • 3ème quartile = (¾,¼) = 77 kg
Notion d’inférence = tirer une conclusion au niveau d’une population inaccessible à partir d’observations faites sur un échantillon • Population cible : ensemble des individus auxquels on s’intéresse • Population source : ensemble des individus à partir desquels on effectue le tirage au sort • Echantillon : ensemble des individus effectivement étudiés
Un sondage est un procédé qui consiste à n’observer qu’une partie de la population étudiée (échantillon) et à tirer de cette observation des informations sur la population entière. Population source représentative de la population cible N sujets Echantillon n sujets n < N
Fluctuations d’échantillonnage Malade Non malade
AVANTAGES d’un sondage : Le sondage est plus rapide, moins cher et plus facilement réalisable qu’une enquête exhaustive sur la population cible. INCONVENIENT d’un sondage : Incertitude de l’extrapolation à la population cible des observations faites sur l’échantillon. CONTRAINTES d’un sondage : L’échantillon doit être représentatif de la population cible. L’échantillon doit être composé d’unités statistiques en nombre suffisant.
Il faut bien distinguer un biais des fluctuations normales d’échantillonnage erreur aléatoire erreur systématique Estimation biaisée Conduit à définir un intervalle de confiance du paramètre à estimer
Déformation des faits due au hasard de l’échantillonnage : erreur non systématique due au hasard (fluctuations d’échantillonnage ) Estimation précise et non biaisée Estimation peu précise mais non biaisée Déformation des faits due à un biais : erreur systématique allant toujours dans le même sens (biais) Estimation précise mais biaisée Estimation peu précise et biaisée Biais et erreurs aléatoires
Estimation : Définition (1) • Tenter de définir les paramètres d’une population à partir des paramètres observés sur un échantillon
Estimation : Définition (1) • Tenter de définir les paramètres d’une population à partir des paramètres observés sur un échantillon • Valeur observée valeur inconnue de la population
Estimation : Définition (1) • Tenter de définir les paramètres d’une population à partir des paramètres observés sur un échantillon • Valeur observée valeur inconnue de la population • Valeur observée proche de la valeur inconnue si échantillon représentatif
Estimation : Définition (1) • Tenter de définir les paramètres d’une population à partir des paramètres observés sur un échantillon • Valeur observée valeur inconnue de la population • Valeur observée proche de la valeur inconnue si échantillon représentatif • En répétant l’échantillonnage, autres valeurs proches les unes des autres
Estimation : Définition (2) Valeur observée(échantillon) Valeur exacte(population générale) • Incapable de connaître la vraie valeur !!! • Objectif de l’estimation en statistique => calculer des bornes où se trouve la valeur inconnue du paramètre (avec une confiance suffisamment grande) = Intervalle de confiance +++
Estimation d’une moyenne inconnue (1) • On sait calculer la moyenne observée d’une variable quantitative sur un échantillon • Problème: Estimer la moyenne inconnue de la population d’où est extrait l’échantillon
Estimation d’une moyenne inconnue (2) • Utiliser un échantillon représentatif de la population (obtenu par tirage aléatoire) • Estimation de à partir de l ’échantillon 1 : • est estimée par m1 = (xi) / n1 • où xi = {x1, x2, … , xn1} les n1 valeurs de X dans l ’échantillon 1 • m1 observée inconnue • Mais à quelle distance, de quel côté de ?
Estimation d’une moyenne inconnue (2) • Échantillon représentatif de la population (obtenu par tirage aléatoire) • m1 observée inconnue • Mais à quelle distance, de quel côté de ? • 2ème échantillon (par tirage aléatoire) • m2 proche de m1 • m2 observée inconnue • Mais à quelle distance, de quel côté de ?
Estimation d’une moyenne inconnue (2) • Échantillon représentatif de la population (obtenu par tirage aléatoire) • m1 observée inconnue • Mais à quelle distance, de quel côté de ? • 2ème échantillon (par tirage aléatoire) • m2 proche de m1 • m2 observée inconnue • Mais à quelle distance, de quel côté de ? • 3ème échantillon : idem...
Estimation d’une moyenne inconnue (3) • Si on dispose de la totalité des échantillons possibles tirés de la population générale
Estimation d’une moyenne inconnue (3) • Si on dispose de la totalité des échantillons possibles tirés de la population générale • On obtiendrait une moyenne m pour chaque échantillon
Estimation d’une moyenne inconnue (3) • Si on dispose de la totalité des échantillons possibles tirés de la population générale • On obtiendrait une moyenne m pour chaque échantillon Fluctuations d’échantillonnage de la moyenne
Estimation d’une moyenne inconnue (3) • L’estimation m de la moyenne inconnue est une variable aléatoire puisqu’elle varie d’un échantillon à l’autre Fluctuations d’échantillonnage de l’estimation de la moyenne Distribution de la variable X dans la population Distribution des moyennes de X dans chaque échantillon
Estimation d’une moyenne inconnue (3) • L’estimation m de la moyenne inconnue est une variable aléatoire puisqu’elle varie d’un échantillon à l’autre On peut estimer la moyennede l’estimation de la moyenne Et la variance de l’estimationde la moyenne Distribution de la variable X dans la population
Estimation d’une moyenne inconnue (4) Dans un échantillon,on sait calculer un intervalle de confiance à 95% m1 m2 m3 m4 m5 m6 m7 m8 m9 … mk Si on calcule l’intervalle de confiance auprès d’un très grand nombre d’échantillons, la vraie moyenne de la population est comprise dans 95 % des intervalles de confiance Moyenne de la population
Intérêt des tests • Les tests servent à extrapoler les résultats observés sur des échantillons à l’ensemble des populations dont ils sont issus +++ • Échantillon : image ponctuelle • Intérêt majeur des tests : • Économie de moyens +++ • En permettant de déceler des différences sur un nombre réduit d’observations
Principe des tests de comparaison • Principe général : Regarder si la différence qu’on observe dans un échantillon est due au hasard ou si au contraire cette différence est telle qu’il est fort peu probable de l’observer par hasard • 2 hypothèses sont posées : • Hypothèse nulle = « il n’y a pas de différence » • Hypothèse alternative = « il y a une différence » (dans la population à laquelle on veut généraliser le résultat)
Principe des tests de comparaison • Illustration : vous pariez à pile ou face avec un ami, il vous tend une pièce. • Hypothèse nulle H0 : la pièce n’est pas faussée, et j’ai une chance sur deux de gagner P(joueur 1 gagne) = P(joueur 2 gagne) • Hypothèse alternative H1 : la pièce est faussée, un des joueurs à une probabilité plus élevée de gagner que l’autre joueur : P(joueur 1 gagne) P(joueur 2 gagne)
Principe des tests de comparaison • Illustration : vous pariez à pile ou face avec un ami, il vous tend une pièce. • Au premier essai, vous perdez • Vous pensez que vous n’avez pas eu de chance cette fois ci, vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise.
Principe des tests de comparaison • Illustration : vous pariez à pile ou face avec un ami, il vous tend une pièce. • Au premier essai, vous perdez • Vous pensez que vous n’avez pas eu de chance cette fois ci, vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise. • Au deuxième essai, vous perdez à nouveau • Vous pensez que vous n’avez vraiment pas de chance, vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise.
Principe des tests de comparaison • Illustration : vous pariez à pile ou face avec un ami, il vous tend une pièce. • Au premier essai, vous perdez • Vous pensez que vous n’avez pas eu de chance cette fois ci, vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise. • Au deuxième essai, vous perdez à nouveau • Vous pensez que vous n’avez vraiment pas de chance, vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise. • Vous continuez à jouer, vous perdez 5 fois de suite. • Vous commencez à avoir de sérieux doute et à remettre en cause la validité de l’hypothèse nulle selon laquelle la pièce n’est pas faussée
Principe des tests de comparaison • Illustration : vous pariez à pile ou face avec un ami, il vous tend une pièce. • Au bout du 10ème essai, vous avez perdu 10 fois de suite, vous décider d’arrêter de jouer, • la probabilité que la pièce ne soit pas faussée (que l’hypothèse nulle soit vraie) est trop faible : vous rejetez cette hypothèse et acceptez l’hypothèse alternative H1 (la pièce est faussée) • vous prenez le risque de vous fâcher avec votre ami (le risque de se fâcher alors que la pièce était en réalité normale est devenu beaucoup trop faible). Il y a un seuil à partir duquel, on décide de rejeter l’hypothèse nulle
Exemple d’utilisation d’un test Principe général des tests de comparaison : Regarder si la différence qu’on observe dans un échantillon est due au hasard ou si au contraire cette différence est telle qu’il est fort peu probable de l’observer par hasard 2éme Exemple : La prévalence du diabète est-elle supérieure chez les sujets en surcharge pondérale par rapport aux sujets de poids normal ? Sondage dans la population cible pour obtenir un échantillon représentatif.
Hypothèse nulle H0 : La prévalence du diabète dans la population cible est identique parmi les sujets de poids normal et parmi les sujets en surcharge pondérale. P1 = P0 ou D = P1 – P0 = 0 Hypothèse alternative H1 : La prévalence du diabète dans la population cible est différente parmi les sujets de poids normal et parmi les sujets en surcharge pondérale. P1 P0 ou D = P1 – P0 0