1 / 92

L’échantillonnage

L’échantillonnage. Jean-Sébastien Pierre UMR 6553 20/01/2009. Plan. 1. Introduction 2. L’échantillonnage aléatoire Simple Séquentiel en deux étapes 3. L’échantillonnage stratifié Mise en œuvre et analyse Optimisation 4. L’échantillonnage en grappes Mise en œuvre et analyse

tibor
Download Presentation

L’échantillonnage

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. L’échantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

  2. Plan • 1. Introduction • 2. L’échantillonnage aléatoire • Simple • Séquentiel en deux étapes • 3. L’échantillonnage stratifié • Mise en œuvre et analyse • Optimisation • 4. L’échantillonnage en grappes • Mise en œuvre et analyse • Optimisation

  3. Introduction « Pas de modèle sans échantillon, pas d’échantillon sans modèle » Un professionnel du prêt-à-porter « Les tissus, disponibles en quantité limitée, ne peuvent être ni repris ni échangés.Par contre vous pouvez obtenir un échantillon de chacun des tissus pour un prix modique. » La boutique A&A, http://www.a-et-a.com/

  4. Le dictionnaire Robert • 1. Vx Étalon de mesure. (1636) Mod. Type réglementaire de certains matériaux de construction. Bois d'échantillon. Brique, pavé d'échantillon. — Mar. Bâtiment de fort, de petit, de faible échantillon, suivant la largeur et l'épaisseur des pièces de construction. • 2. (1407) Cour. Petite quantité d'une marchandise qu'on montre pour donner une idée de l'ensemble. Les échantillons d'une gamme de produits. Échantillons de vin, de café. Un cahier d'échantillons (d'étoffe). Une palette d'échantillons (de peinture). Boîte, jeux d'échantillons à usage commercial. Þ collection, présentoir. « Il étale ses échantillons, lentement, devant le client » (Maurois). « Quel danger, quelle folie de choisir sur des échantillons » (Sarraute). • Spécimen remarquable d'une espèce, d'un genre. Þ représentant. « Une très jolie servante, charmant échantillon de la beauté des femmes de Malaga » (Gautier). • Fig. Aperçu. « Je voulus lui donner un échantillon de mon talent » (Rousseau). Þ exemple. • 3. Spécialt (Statist.) Fraction d'une population destinée à être étudiée par sondage. panel. • 4. Inform. Élément d'une suite discrète résultant de l'échantillonnage d'une grandeur analogique.

  5. Pourquoi échantillonner ? • Impossibilité d’accéder • À tous les individus d’une population • À la totalité d’une aire • => On procède donc par inférence • Echantillonnage • Sondage

  6. Deux grandes stratégies • Aléatoire • Simple • Stratifié • En grappe ou par degrés • Systématique • Transects et grilles • Décimation/quantisation • Échantillonnage temporel

  7. Limites du cours • On se limitera à l’échantillonnage aléatoire • Les problèmes de l’échantillonnage systématique seront abordés dans d’autes UE à propos de • La statistique spatiale • L’analyse des séries chronologiques

  8. 2. L’échantillonnage aléatoire Simple Séquentiel en deux étapes

  9. Echantillonnage aléatoire simple • Définition • Les individus de la population sont tous équivalents • Le nombre d’individus à échantillonner est déterminé à l’avance • Chaque individu de la population a la même probabilité a priori d’être choisi • Le choix d’un individu ne favorise ni ne défavorise le choix ultérieur d’aucun autre individu de la population (tirages indépendants)

  10. Les individus ou unités d’échantillonnage • Naturels • Animaux, plantes individualisées • Arbitraires • Unités de surface, de volume, de poids • 0.25 m2 de prairie • 1dm3 d’eau dans un étang • 1k de sol • Attention alors ! • Population biologique • Population statistique

  11. Deux mode de tirage • Avec remise • Ou non exhaustif • La probabilité de sélection reste constante au cours de l’échantillonnage • Sans remise • Ou exhaustif • La probabilité de sélection s’accroît au cours de l’échantillonnage

  12. Une approximation • Dans les très grandes populations, on considère souvent l’échantillonnage comme avec remise, même lorsqu’il n’y a pas remise • Dans les populations plus petites, il y aura lieu de prendre en compte le taux de sondage f = n/N

  13. Le modèle statistique

  14. Les paramètres de l’échantillon • Moyenne de l’échantillon : • Variance de l’échantillon :

  15. Paramètres et estimateurs • La moyenne est un estimateur sans biais de la moyenne de la population • La variance s2 est un estimateur biaisé par défaut (mais asymptotiquement sans biais) de la variance de la population

  16. Voir annexe polycopiée

  17. Le biais

  18. Le biais

  19. La précision d’échantillonnage Quelle connaissance avons nous de la moyenne de la population ?

  20. Les mesures de précision • La variance • Incommode (exprimée dans le carré des unités) • L’erreur standard • Utilisée par les anglo-saxons • Le coefficient de variation • Utilisé par les agronomes • Le ½ intervalle de confiance • C’est un véritable encadrement

  21. La précision est • Proportionnelle à l’écart-type de la moyenne (en général de l’estimateur) ou erreur standard sur la moyenne • Comment la calcule-t-on ? • Population infinie • Ou tirage avec remise • Population finie • Et tirage sans remise

  22. estimateurs • Population infinie • Ou tirage non exhaustif • Population finie • Et tirage exhaustif

  23. Le demi intervalle de confiance • On sait « encadrer » la moyenne avec une probabilité d’erreur définie par l’intervalle de confiance (voir annexe) • Ou, si n < 30

  24. Précision absolue et relative • La quantité : • Ou, pour n>30 • Sera utilisée comme « précision absolue » La quantité • Sera nommée : « précision relative

  25. Un exemple La taille du parasitoïde leptomastix dactylopii

  26. L’animal

  27. L’échantillon • On a prélevé au hasard 50 individus femelles à partir de cochenilles du manioc provenant d’un champ du congo (données André Biassangama) > print(biassang) numer tail long fec strate 1 1 0.63 29 52 1 2 2 0.75 25 56 1 3 12 0.85 31 57 1 ………………………………………………………………………… 48 29 2.72 39 115 2 49 32 2.84 39 119 2 50 31 2.92 37 121 2

  28. Exemple : taille de leptomastix > attach(biassang) # définition du jeu de données > sd<-sqrt(var(tail)/n) # calcul de l’erreur standard > qnorm(1-0.025) # calcul de z (alpha/2) [1] 1.959964 > d<-sd*qnorm(1-0.025) # précision absolue > d [1] 0.1474185 > mean(tail) # taille moyenne (mm) [1] 1.7818 > mean(tail)-d # borne inférieure [1] 1.634382 > mean(tail)+d # borne supérieure [1] 1.929218

  29. Encadrement de la moyenne : • La taille moyenne de la population d de la population des femelles du parasitoïde Leptomastix dactylopii est estimée à 1.78 mm • On peut affirmer – avec 5% des chances de se tromper – qu’elle est comprise entre 1.63 et 1.93 mm

  30. La précision absolue et relative • La moyenne est connue à plus ou moins 0.15 mm près • C’est à dire à 8.3% près > d/(mean(tail))*100 [1] 8.273571

  31. Contrôler la précision d’échantillonnage La base du travail pratique

  32. Comment évolue la précision ?

  33. Le gain marginal de précision • La dérivée de la précision relative donne le gain marginal par unité supplémentaire d’échantillonnage.

  34. Calculer l’effectif nécessaire • 1. Définir l’objectif à atteindre • Le risque a accepté (le plus souvent 0.05) • La précision absolue ou relative désirée • 2. Déterminer la variance de la population • On a souvent besoin d’un pré-échantillonnage • 3. Déterminer n

  35. Un paradoxe ! « Pour faire un bon échantillonnage faites en d’abord un mauvais » (J.S. Pierre, pensées)

  36. La détermination de n • De la définition de la précision • On déduit :

  37. Et si on parlait argent ? • On définit : • L’effort d’échantillonnage : c’est n • Le coût de prise en charge de l’échantillonnage Co • Fabrication des cadres, pièges, coût du trajet, affrètement d’un bateau, etc… • Le coût unitaire de prélèvement d’un individu c • Mesuré en temps de travail, en euros, en litres de fuel (chalutier) etc… • Le coût total de l’échantillonnage :

  38. Optimisation • Stratégies de type « minimax » • Maximiser l’information (minimiser la précision) • En minimisant, ou au moins en maîtrisant les coûts • Pas de solution universelle

  39. Exemple • La taille moyenne de la population de Leptomastix est connue à 8.3% près avec un échantillon de 50 femelles • Quel échantillon est nécessaire pour atteindre une précision de 5% sur cette moyenne ?

  40. Solution • Ecrivons la formule de la précision relative • On cherche à résoudre l’inégalité : • Donc :

  41. Numériquement : • On prendra n=137 • Commenter

  42. L’échantillonnage séquentiel en deux étapes Doit-on refaire un échantillon de 137 individus ?

  43. Non ! • Il est licite de compléter l’échantillon de 50 individus à 137 • C’est à dire d’aller prélever aux hasard 137 - 50 = 87 nouveaux individus • Cette procédure s’appelle : « échantillonnage séquentiel en deux étapes »

  44. Ouverture • Un échantillonnage est dit séquentiel s’il est conduit par étapes jusqu’à un critère d’arrêt. • L’échantillon est alors dit informatif il renseigne au fur et à mesure sur la précision atteinte ou sur d’autres critères d’arrêt • Deux types principaux : • Echantillonnage séquentiel à précision fixée • Echantillonnage décisionnel • Voir par exemple le livre de Frontier : stratégies d’échantillonnage en écologie

  45. 3. L’échantillonnage stratifié Du bon usage des strates

  46. Que faire si la variance des individus est élevée ? • L’obtention d’une bonne précision est alors extrêmement coûteuse • Mais la population est peut-être très hétérogène ? • On peut alors la diviser en sous populations plus homogènes • On gagne alors beaucoup de précision

  47. Mise en oeuvre Le modèle statistique change

  48. S3 S2 S1 Une nouvelle vision de la population • Et des paramètres W m,s2 m3,s23 m1,s21 m2,s22

  49. Définition des strates • Les strates forment une partition de la population • C’est à dire que leurs intersections sont deux à deux vides (elles sont disjointes) • Leur réunion est la population totale

  50. Hypothèse : • Les variances « intra » sont inférieures à la variance totale

More Related