Inférence statistique

Inférence statistique • Distribution d’échantillonnage • Estimation de la moyenne, de la variance de la distribution des moyennes à partir des données de l'échantillon • Estimation de la variance d'une population à partir des données de l'échantillon • Estimation d’un paramètre d’une distribution • Intervalle de confiance • Nombre de sujets nécessaires 1

Estimation des paramètres de la population • Variables quantitatives : moyenne et écart type • Rappels : • N = Effectif de l'échantillon (nombre de mesures) • T = Total des valeurs • U = Total des carrés • SCE = somme des carrés des écarts à la moyenne Note : p = nombre de valeurs différentes • Moyenne • Ecart type 2

La distribution de la moyenne • Supposons que dans une population on ait prélevé un premier échantillon de N individu : • Si l’on prélève dans les mêmes circonstance un 2ième, 3ième… échantillon, on obtient x’1…. x’n et x’’1…x’’n avec les moyennes correspondantes. • On peut considérer la suite infinie des observations x1, x’1, x’’1…. Comme des valeurs observées d’une VA X1 et ainsi de suite pour x2, x’2, x’’2…. D’une VA X2 Dans ces conditions, les moyennes observées sont elles même des valeurs d’une VA :

Distribution de la moyenne • Tout comme X1…. Xn la VA X possède une distribution de probabilité. C’est las distribution d’échantillonnage de la moyenne. • Les VA X1…. Xn ont toutes la même distribution de probabilité dont la moyenne est désignée par m et la variance par s2.

Estimation de la moyenne de la population La distribution des moyennes d'échantillons indépendants de faible effectif tirés de la même population suit une loi normale si la distribution de la variable est normale. Au delà de 30, la distribution des moyennes peut être approchée par une loi normale sans condition sur la distribution de la variable. La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la population. L'écart type de la distribution des moyennes d'échantillons indépendants tirés de la même population peut être estimé à partir de l'écart type de l'échantillon S (ou de l'estimateur de l'écart type de la population s ). s s N S N-1 S = ESM = = m N-1 (Standard deviation of the mean) • La variable aléatoire : X - m suit une loi de student à N-1 DDL t = => Si N > 30, il y a une probabilité de 95% que la moyenne se trouve dans l'intervalle m ± 2 * ESM 4

Estimation de l'écart type de la population L'écart type de l'échantillon n'est pas un bon estimateur de l'écart type de la population. Il existe une erreur systématique : c'est un estimateur biaisé. La distribution des variances d'échantillons aléatoires indépendants a comme moyenne 2 (N-1) *s 2 E(S ) = N 4 2 2*(N-1) *s Var (S ) = 2 N • et comme variance dans le cas d'une population normale • Dans le cas d'une population normale la quantité : 2 N * S suit une loi du khi 2 à N-1 DDL 2 s • Notons que si 2 2 N * S est une bonne estimation de la variance, sa racine carré n'est pas une estimation absolument correcte de l'écart type. On peut montrer que les résultats ainsi obtenus sont systématiquement trop faibles avec une erreur relative de 1/4(N-1) s = (N-1) 5

Méthode du maximum de vraisemblance (likelihood) • On appelle fonction de vraisemblance la probabilité ou la densité de probabilité relative aux valeurs observées x1…xn, exprimée en fonction du ou des paramètres de la population. Pour un échantillon aléatoire simple et pour une population définie par un seul paramètre g, la fonction de vraisemblance est : • Les estimateurs du maximum de vraisemblance correspondent par définition au maximum de cette fonction. La recherche de ce maximum peut être réalisé en annulant la dérivé de cette fonction ou en annulant la dérivé de son logarithme • Cette notion peut être tendue au cas de plusieurs paramètres, la recherche du maximum nécessite alors le calcul des dérivés partielles

Méthode du maximum de vraisemblance (likelihood) • Exemple : estimation d’un pourcentage. Soit une population infinie, dont les individus possèdent ou non un caractère (yeux bleu) et supposons que l’on veuille estimer la proportion des p individus possédant ce caractère. • On associe au caractère une VA X qui vaut 1 quand le caractère est présent et 0 lorsqu’il est absent. • La distribution de probabilité est : P(X=1 = p et P(X=0) = 1-p • Pour un échantillon aléatoire simple d’effectif N dont x individus sont porteurs du caractère considéré le logarithme de la fonction de vraisemblance est : • Sa dérivée par rapport à p est : • L’estimation du maximum de vraisemblance est : La fréquence relative est le meilleur estimateur du pourcentage

Le problème Population Échantillon • A partir des paramètres obtenus sur l'échantillon on veut estimer les paramètres de la population dont cet échantillon est extrait. • Ceci peut se faire uniquement si : • L'échantillon a été correctement constitué (notion d'échantillon représentatif). Que penseriez vous d'un expérimentateur qui voudrait généraliser les observations qu'il a réalisées, vis à vis du mal de dos, en n'ayant observé que des secrétaires médicales ? • Si la loi de probabilité qui régit la distributions des paramètres à estimer est connue => respect des conditions d'application • Au-delà de l’estimation ponctuelle un risque accepté sur la méthode permet de bâtir un intervalle de confiance m s Inconnus X S Connus 3

s X ± t * a N L'intervalle de confiance de la moyenne • L'estimation ponctuelle d'un paramètre ne présente que peu d'intérêt si on a aucune idée de la précision de l'estimation obtenue. • Supposons que l'on s'intéresse à la moyenne m dont on possède un estimateur X et que l'on s'efforce de déterminer de part et d'autre de X les limites G1 et G2 d'un intervalle qui a forte probabilité de contenir m. Pour résoudre se problème, on se donne un coefficient de confiance (ou de sécurité) voisin de 1, en général 0,95 (95%). L'intervalle G1-G2 est appelé intervalle de confiance avec un risque a = 1- coefficient de confiance • Cependant le fait de fixer le degré de confiance ne suffit pas pour connaître les limites G1 et G2. En général, on répartit le risque d'erreur en deux partie égale : P(m<G1) = P(m>G2) = a /2 • Les bornes de l'intervalle de confiance de la moyenne sont obtenues par : t suit une loi de Student à N-1 DDL ESM • Si N > 30 et a =0,05 on approche par la loi normale et l'intervalle devient X ± 1,96 * ESM • Attention à l'interprétation : si a = 0,05, cela ne veut pas dire qu'il y ait 95 chance sur 100 que m se trouve dans l'intervalle. m est une constante et n'est pas une variable aléatoire. En conséquence, elle est ou n'est pas dans l'intervalle. Ce sont les bornes de l'intervalle qui sont des variables aléatoires. Il est exact de dire que dans 95 % des cas, l'intervalle ainsi construit contient m 6

Application au PMSI • Les contrôles de qualité ancienne méthode avait comme objectif de savoir si les points ISA transmis par un établissement devaient être redressés ou non en fonction du résultat du contrôle de qualité. Pour cela on tirait au sort 100 RSS et l’on faisait la différence,x, pour chaque RSS des points ISA transmis et des points ISA contrôle.. • Construire un intervalle de confiance autour au de la moyenne au risque 5% • Méthode : • L’intervalle de confiance est

2 4 s s d = 2 => N = 2 N d Nombre de sujets nécessaires pour atteindre une précision donnée dans l'estimation de la moyenne • Cette question est liée à l'intervalle de confiance. Soit l'erreur maximum toléré d pour un degré de confiance 1 - a, c'est à dire que l'écart |X-m| ne dépasse d qu'avec une probabilité alpha • Pour résoudre ce problème, il faut que préalablement soit fixés alpha, d et s • On a, en utilisant l'approximation normale et alpha = 0,05 (approximation u97,5% = 2) : • Il faut quadrupler le nombre de sujets pour doubler la précision (réduire de moitié la longueur de l'intervalle) • Le calcul du nombre de sujets nécessaires dépendant du type de problème (précision d'estimation d'un paramètre, tests statistiques...). Pour chaque problème des formules ou des tables existent mais il faut toujours que préalablement un certain nombre de paramètres soit fixés. 7

Inférence statistique