1.98k likes | 3.75k Views
L’échantillonnage. Jean-Sébastien Pierre UMR 6553 20/01/2009. Plan. 1. Introduction 2. L’échantillonnage aléatoire Simple Séquentiel en deux étapes 3. L’échantillonnage stratifié Mise en œuvre et analyse Optimisation 4. L’échantillonnage en grappes Mise en œuvre et analyse
E N D
L’échantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009
Plan • 1. Introduction • 2. L’échantillonnage aléatoire • Simple • Séquentiel en deux étapes • 3. L’échantillonnage stratifié • Mise en œuvre et analyse • Optimisation • 4. L’échantillonnage en grappes • Mise en œuvre et analyse • Optimisation
Introduction « Pas de modèle sans échantillon, pas d’échantillon sans modèle » Un professionnel du prêt-à-porter « Les tissus, disponibles en quantité limitée, ne peuvent être ni repris ni échangés.Par contre vous pouvez obtenir un échantillon de chacun des tissus pour un prix modique. » La boutique A&A, http://www.a-et-a.com/
Le dictionnaire Robert • 1. Vx Étalon de mesure. (1636) Mod. Type réglementaire de certains matériaux de construction. Bois d'échantillon. Brique, pavé d'échantillon. — Mar. Bâtiment de fort, de petit, de faible échantillon, suivant la largeur et l'épaisseur des pièces de construction. • 2. (1407) Cour. Petite quantité d'une marchandise qu'on montre pour donner une idée de l'ensemble. Les échantillons d'une gamme de produits. Échantillons de vin, de café. Un cahier d'échantillons (d'étoffe). Une palette d'échantillons (de peinture). Boîte, jeux d'échantillons à usage commercial. Þ collection, présentoir. « Il étale ses échantillons, lentement, devant le client » (Maurois). « Quel danger, quelle folie de choisir sur des échantillons » (Sarraute). • Spécimen remarquable d'une espèce, d'un genre. Þ représentant. « Une très jolie servante, charmant échantillon de la beauté des femmes de Malaga » (Gautier). • Fig. Aperçu. « Je voulus lui donner un échantillon de mon talent » (Rousseau). Þ exemple. • 3. Spécialt (Statist.) Fraction d'une population destinée à être étudiée par sondage. panel. • 4. Inform. Élément d'une suite discrète résultant de l'échantillonnage d'une grandeur analogique.
Pourquoi échantillonner ? • Impossibilité d’accéder • À tous les individus d’une population • À la totalité d’une aire • => On procède donc par inférence • Echantillonnage • Sondage
Deux grandes stratégies • Aléatoire • Simple • Stratifié • En grappe ou par degrés • Systématique • Transects et grilles • Décimation/quantisation • Échantillonnage temporel
Limites du cours • On se limitera à l’échantillonnage aléatoire • Les problèmes de l’échantillonnage systématique seront abordés dans d’autes UE à propos de • La statistique spatiale • L’analyse des séries chronologiques
2. L’échantillonnage aléatoire Simple Séquentiel en deux étapes
Echantillonnage aléatoire simple • Définition • Les individus de la population sont tous équivalents • Le nombre d’individus à échantillonner est déterminé à l’avance • Chaque individu de la population a la même probabilité a priori d’être choisi • Le choix d’un individu ne favorise ni ne défavorise le choix ultérieur d’aucun autre individu de la population (tirages indépendants)
Les individus ou unités d’échantillonnage • Naturels • Animaux, plantes individualisées • Arbitraires • Unités de surface, de volume, de poids • 0.25 m2 de prairie • 1dm3 d’eau dans un étang • 1k de sol • Attention alors ! • Population biologique • Population statistique
Deux mode de tirage • Avec remise • Ou non exhaustif • La probabilité de sélection reste constante au cours de l’échantillonnage • Sans remise • Ou exhaustif • La probabilité de sélection s’accroît au cours de l’échantillonnage
Une approximation • Dans les très grandes populations, on considère souvent l’échantillonnage comme avec remise, même lorsqu’il n’y a pas remise • Dans les populations plus petites, il y aura lieu de prendre en compte le taux de sondage f = n/N
Les paramètres de l’échantillon • Moyenne de l’échantillon : • Variance de l’échantillon :
Paramètres et estimateurs • La moyenne est un estimateur sans biais de la moyenne de la population • La variance s2 est un estimateur biaisé par défaut (mais asymptotiquement sans biais) de la variance de la population
La précision d’échantillonnage Quelle connaissance avons nous de la moyenne de la population ?
Les mesures de précision • La variance • Incommode (exprimée dans le carré des unités) • L’erreur standard • Utilisée par les anglo-saxons • Le coefficient de variation • Utilisé par les agronomes • Le ½ intervalle de confiance • C’est un véritable encadrement
La précision est • Proportionnelle à l’écart-type de la moyenne (en général de l’estimateur) ou erreur standard sur la moyenne • Comment la calcule-t-on ? • Population infinie • Ou tirage avec remise • Population finie • Et tirage sans remise
estimateurs • Population infinie • Ou tirage non exhaustif • Population finie • Et tirage exhaustif
Le demi intervalle de confiance • On sait « encadrer » la moyenne avec une probabilité d’erreur définie par l’intervalle de confiance (voir annexe) • Ou, si n < 30
Précision absolue et relative • La quantité : • Ou, pour n>30 • Sera utilisée comme « précision absolue » La quantité • Sera nommée : « précision relative
Un exemple La taille du parasitoïde leptomastix dactylopii
L’échantillon • On a prélevé au hasard 50 individus femelles à partir de cochenilles du manioc provenant d’un champ du congo (données André Biassangama) > print(biassang) numer tail long fec strate 1 1 0.63 29 52 1 2 2 0.75 25 56 1 3 12 0.85 31 57 1 ………………………………………………………………………… 48 29 2.72 39 115 2 49 32 2.84 39 119 2 50 31 2.92 37 121 2
Exemple : taille de leptomastix > attach(biassang) # définition du jeu de données > sd<-sqrt(var(tail)/n) # calcul de l’erreur standard > qnorm(1-0.025) # calcul de z (alpha/2) [1] 1.959964 > d<-sd*qnorm(1-0.025) # précision absolue > d [1] 0.1474185 > mean(tail) # taille moyenne (mm) [1] 1.7818 > mean(tail)-d # borne inférieure [1] 1.634382 > mean(tail)+d # borne supérieure [1] 1.929218
Encadrement de la moyenne : • La taille moyenne de la population d de la population des femelles du parasitoïde Leptomastix dactylopii est estimée à 1.78 mm • On peut affirmer – avec 5% des chances de se tromper – qu’elle est comprise entre 1.63 et 1.93 mm
La précision absolue et relative • La moyenne est connue à plus ou moins 0.15 mm près • C’est à dire à 8.3% près > d/(mean(tail))*100 [1] 8.273571
Contrôler la précision d’échantillonnage La base du travail pratique
Le gain marginal de précision • La dérivée de la précision relative donne le gain marginal par unité supplémentaire d’échantillonnage.
Calculer l’effectif nécessaire • 1. Définir l’objectif à atteindre • Le risque a accepté (le plus souvent 0.05) • La précision absolue ou relative désirée • 2. Déterminer la variance de la population • On a souvent besoin d’un pré-échantillonnage • 3. Déterminer n
Un paradoxe ! « Pour faire un bon échantillonnage faites en d’abord un mauvais » (J.S. Pierre, pensées)
La détermination de n • De la définition de la précision • On déduit :
Et si on parlait argent ? • On définit : • L’effort d’échantillonnage : c’est n • Le coût de prise en charge de l’échantillonnage Co • Fabrication des cadres, pièges, coût du trajet, affrètement d’un bateau, etc… • Le coût unitaire de prélèvement d’un individu c • Mesuré en temps de travail, en euros, en litres de fuel (chalutier) etc… • Le coût total de l’échantillonnage :
Optimisation • Stratégies de type « minimax » • Maximiser l’information (minimiser la précision) • En minimisant, ou au moins en maîtrisant les coûts • Pas de solution universelle
Exemple • La taille moyenne de la population de Leptomastix est connue à 8.3% près avec un échantillon de 50 femelles • Quel échantillon est nécessaire pour atteindre une précision de 5% sur cette moyenne ?
Solution • Ecrivons la formule de la précision relative • On cherche à résoudre l’inégalité : • Donc :
Numériquement : • On prendra n=137 • Commenter
L’échantillonnage séquentiel en deux étapes Doit-on refaire un échantillon de 137 individus ?
Non ! • Il est licite de compléter l’échantillon de 50 individus à 137 • C’est à dire d’aller prélever aux hasard 137 - 50 = 87 nouveaux individus • Cette procédure s’appelle : « échantillonnage séquentiel en deux étapes »
Ouverture • Un échantillonnage est dit séquentiel s’il est conduit par étapes jusqu’à un critère d’arrêt. • L’échantillon est alors dit informatif il renseigne au fur et à mesure sur la précision atteinte ou sur d’autres critères d’arrêt • Deux types principaux : • Echantillonnage séquentiel à précision fixée • Echantillonnage décisionnel • Voir par exemple le livre de Frontier : stratégies d’échantillonnage en écologie
3. L’échantillonnage stratifié Du bon usage des strates
Que faire si la variance des individus est élevée ? • L’obtention d’une bonne précision est alors extrêmement coûteuse • Mais la population est peut-être très hétérogène ? • On peut alors la diviser en sous populations plus homogènes • On gagne alors beaucoup de précision
Mise en oeuvre Le modèle statistique change
S3 S2 S1 Une nouvelle vision de la population • Et des paramètres W m,s2 m3,s23 m1,s21 m2,s22
Définition des strates • Les strates forment une partition de la population • C’est à dire que leurs intersections sont deux à deux vides (elles sont disjointes) • Leur réunion est la population totale
Hypothèse : • Les variances « intra » sont inférieures à la variance totale