320 likes | 407 Views
CONCEPTS FONDAMENTAUX EN STATISTIQUES POUR LES ETUDIANTS DANS LES SCIENCES HUMAINES : UNE SENSIBILISATION. daniel.gile@yahoo.com www.cirinandgile.com. QUANTIFIER ? (1). Dans le LAP des sciences humaines, on peut distinguer deux démarches :
E N D
CONCEPTS FONDAMENTAUX EN STATISTIQUES POUR LES ETUDIANTS DANS LES SCIENCES HUMAINES : UNE SENSIBILISATION daniel.gile@yahoo.com www.cirinandgile.com D.Gile statistiques
QUANTIFIER ? (1) Dans le LAP des sciences humaines, on peut distinguer deux démarches : - Une démarche philosophico-créatrice où l’essentiel du travail se situe dans la réflexion et la création conceptuelle et où la « réalité » n’est qu’un point de départ - Une démarche interprétative, majoritaire, où l’essentiel du travail se situe dans l’interprétation de la réalité Dans celle-ci, les chercheurs interprètent beaucoup sur la base de faits. Or, d’après les conventions du LAP, ces faits sont en général l’objet d’affirmations avec des exemples et des contre-exemples illustratifs D.Gile statistiques
QUANTIFIER ? (2) Dans l’ESP, les conventions exigent que de telles affirmations soient justifiées par des arguments (factuels et conceptuels) solides. Même dans le LAP, au moins deux dimensions quantitatives sont pertinentes : - L’intensité, ampleur ou autre caractéristique de la « force » des phénomènes évoqués - La fréquence d’occurrence de ces phénomènes : surviennent-ils suffisamment souvent pour pouvoir caractériser une « population » ? Une connaissance minimum des statistiques paraît donc intéressante, ne serait-ce qu’au niveau conceptuel. D.Gile statistiques
QUE SONT LES STATISTIQUES ? AU SENS DISCIPLINAIRE (PAR OPPOSITION AU SENS « DONNEES »): UN ENSEMBLE D’OUTILS ET DE METHODES MATHEMATIQUES POUR QUANTIFIER DES OBJETS ET PHENOMENES A DES FINS ANALYTIQUES D.Gile statistiques
STATISTIQUES DESCRIPTIVES ET STATISTIQUES INFERENTIELLES DESCRIPTIVES - POUR DECRIRE DE MANIERE SYNTHETIQUE DES TENDANCES SUSCEPTIBLES D’EXISTER SOUS UNE ABONDANCE DE CHIFFRES - POUR CARACTERISER DES RELATIONS ENTRE DES VARIABLES INFERENTIELLES POUR FAIRE DES INFERENCES SUR DES POPULATIONS A PARTIR D’ECHANTILLONS D.Gile statistiques
LES UNITES ETUDIEES UNITES PERSONNES, OBJETS, PROCESSUS, CHOIX, ACTIONS… TOUT CE QUI PEUT ETRE ENUMERE « POPULATIONS » ENSEMBLE DES UNITES QUI NOUS INTERESSENT ECHANTILLONS SOUS-ENSEMBLE DE LA POPULATION QUI REPRESENTE CELLE-CI D.Gile statistiques
VARIABLES LES UNITES ONT DES CARACTERISTIQUES QUALITATIVE OU QUANTITATIVES QUI INTERESSENT LES STATISTICIENS ELLES DEVIENNENT DES VARIABLES POIDS, TAILLE, NOTES A UN EXAMEN, PRIX, DUREE DE VIE D’UN PRODUIT, QUALITE DE LA VIE D’UNE PERSONNE, AMELIORATION DE L’ETAT DE SANTE D’UNE PERSONNE SOUVENT LA QUANTIFICATION DOIT ETRE CREEE (ECHELLES DE LICKERT) D.Gile statistiques
DISTRIBUTION LA DISTRIBUTION D’UNE VARIABLE EST LA REPARTITION DES VALEURS QU’ELLE PREND AU SEIN DE LA POPULATION NOMBRE OCCURRENCES NOTES D.Gile statistiques
STATISTIQUES DESCRIPTIVES:TENDANCES CENTRALES Si les données sont nombreuses et variables On peut souhaiter chercher une éventuelle TENDANCE CENTRALE Qui caractérise leur orientation D.Gile statistiques
TENDANCES CENTRALES - MOYENNE MOYENNE Attention : • Peut être sensible aux valeurs aberrantes 10, 9, 10, 9, 9, 10, 19 → 10,8 (9,5) (n=7) Cet effet dépend de la taille de la population 10, 9, 10, 9, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 9, 10, 10, 9, 19 → 9,95 (9,5) (n=21) • N’A PAS TOUJOURS UN « SENS » Deux évaluateurs: 9, 15 → 12 ? D.Gile statistiques
TENDANCES CENTRALES - MEDIANE Divise la population en deux parties égales : la moitié est en dessous de la médiane, et la moitié au-dessus 10, 9, 10, 9, 9, 9, 10, 19 ↓ 9, 9, 9, 9, 10, 10, 10, 19 → 9,5 Pas affectée par les valeurs aberrantes Mais peut être éloignée de la moyenne 8, 8, 8, 8, 9, 16, 16, 16 → 8,5 (11,21) D.Gile statistiques
TENDANCES CENTRALES - MODE Indique la valeur la plus fréquente (ou les valeurs les plus fréquentes) Peut être intéressant pour distributions qualitatives : Poulet, poulet, poulet, poisson, boeuf, boeuf, poulet Paris, Rome, Rome, Londres, Lisbonne, Paris, Paris D.Gile statistiques
DISPERSION (1) Si 9, 9, 9, 10, 11, 11, 10, 12, 10, 11, 12, 11, 11, 10 La valeur centrale MOYENNE caractérise bien la population Mais si 2, 1, 10, 12, 19, 18 → 10,3 ??? Une autre caractéristique importante de la distribution de cette population est sa DISPERSION D.Gile statistiques
DISPERSION (2) Il existe plusieurs mesures de dispersion La plus utilisée est l’ECART-TYPE Standard deviation Approximativement la moyenne de l’écart entre les valeurs individuelles et la moyenne L’écart-type a des propriétés intéressantes pour les tests statistiques D.Gile statistiques
RESUMÉ SUR LA CARACTERISATION DES DISTRIBUTIONS DE VARIABLES Une distribution à valeurs quantitatives se caractérise utilement par Sa moyenne Son écart-type Si on en connaît le type Distribution normale, distribution de Poisson etc., Sa moyenne et son écart-type peuvent suffire pour la caractériser avec beaucoup de précision D.Gile statistiques
STATISTIQUES DESCRIPTIVES - CORRLATIONS CORRELATIONS : Mesure de L’ASSOCIATION CONSTATEE Entre deux variables A NE PAS CONFONDRE AVEC LA CAUSALITE CORRELATION POSITIVE CORRELATION NEGATIVE COEFFICIENTS DE CORRELATION -1 à +1 D.Gile statistiques
REGRESSION LINEAIRE RECHERCHE D’UNE DROITE QUI CORRESPOND LE MIEUX AUX DONNEES MESUREES Y = AX + B PERMET DE FAIRE DES EXTRAPOLATIONS, DONC DES PREVISIONS REGRESSION LINEAIRE MULTIPLE RECHERCHE D’UNE FONCTION LINEAIRE DE PLUSIEURS VARIABLES QUI CORRESPOND LE MIEUX AUX DONNEES MESUREES D.Gile statistiques
STATISTIQUES INFERENTIELLES Ont une très grande importance Dans les sciences et la technologie Elles permettent d’étudier des échantillons Puis d’en tirer des conclusions Sur la population toute entière (Expériences scientifiques, processus industriels, contrôles de qualité, élections, évolution biologique, phénomènes atmosphériques…) D.Gile statistiques
STATISTIQUES INFERENTIELLES METHODES MATHEMATIQUES FONDEES SUR LA THEORIE DES PROBABILITES CALCULENT DES PROBABILITES SUR LA BASE DES TYPES DE DISTRIBUTION DES TENDANCES CENTRALES DE LA VARIABILITE CONSTATEES SUR DES ECHANTILLONS D.Gile statistiques
TESTS STATISTIQUES (1) UTILISES SURTOUT POUR AIDER A DECIDER : - SI LA DISTRIBUTION DE DEUX POPULATIONS EST LA MEME C.A.D. SI UNE CONDITION OU UN TRAITEMENT ONT PROBABLEMENT UN EFFET OU NON - SI UNE CORRELATION CONSTATEE SUR UN ECHANTILLON EST SUSCEPTIBLE D’ETRE CONSTATEE SUR LA POPULATION TOUTE ENTIERE D.Gile statistiques
TESTS STATISTIQUES (2) LES TESTS SE PRESENTENT SOUS LA FORME D’UN ELEMENT DE REPONSE A LA QUESTION SUIVANTE : LA DIFFERENCE CONSTATEE SUR LES ECHANTILLONS EST-ELLE DUE AU HASARD (H0) OU A UNE DIFFERENCE « REELLE » ENTRE LES POPULATIONS CONCERNEES (H1) ? LA REPONSE EST PROBABILISTE. LA PROBABILITE D’UNE « FAUX POSITIF » (ON DECIDE QUE LA DIFFERENCE EST REELLE ALORS QU’ELLE EST DUE AU HASARD) EST INDIQUEE PAR p ou α D.Gile statistiques
TESTS STATISTIQUES (3) Le test statistique calcule une valeur en fonction (notamment) des moyennes et écarts-types dans les échantillons. Si la valeur en question se trouve dans une certaine fourchette, on dit que la différence est « significative » à un certain niveau de p, par exemple 0,05 (avec une probabilité de 5 % de se tromper en disant que la différence est significative). Si la valeur en question se trouve ailleurs, on dit que la différence n’est pas significative, Ce qui veut dire qu’on ne peut pas dire sur la base de l’échantillon que les populations sont différentes avec une probabilité de 5% de se tromper. D.Gile statistiques
TESTS STATISTIQUES (4) Une différence significative est relative. Elle peut être significative à 5% mais pas à 1% Ce qui change, c’est le risque de faux positif que l’on est disposé à accepter. Une différence non significative ne veut pas dire qu’il n’y a pas de différence entre les populations que les échantillons représentent. Elle veut simplement dire que les données recueillies sur l’échantillon ne permettent pas de trancher, ne serait-ce qu’avec une probabilité donnée de se tromper. D.Gile statistiques
TESTS STATISTIQUES (5) Parfois, la chose est due à une trop forte variabilité dans les échantillons, qui pourrait être réduite avec des échantillons de plus grande taille. On ne peut pas préjuger pour autant des résultats avec des échantillons plus grands. SELECTION DES TESTS STATISTIQUES Il existe de nombreux tests statistiques, parmi lesquels il faut sélectionner le mieux adapté à la situation en fonction de différents facteurs. D.Gile statistiques
EXEMPLE D’UTILISATION DES TESTS STATISTIQUES Qualité trad: travailleurs formés (TF) et autodidactes (TA) Echantillon de TF échantillon de TA. Traduction d’un texte, évaluation de qualité de leur travail. Comparaison qualité des deux échantillons avec le test statistique approprié. On trouve différence significative à p< 0,05 Qu’est-ce que cela veut dire ? On trouve que cette différence n’est pas significative à p<0,01, qu’est-ce que cela veut dire ? Et si on trouve que la différence n’est significative ni à 0,05, ni à 0,01 ? D.Gile statistiques
TESTS STATISTIQUES SUPPL (1) TESTS PARAMETRIQUES : SI DISTRIBUTION NORMALE DE LA VARIABLE, ET PERMET D’ESTIMER LES PARAMETRES DE LA DISTRIBUTION TESTS NON PARAMETRIQUES : SI ON NE PEUT PAS POSER UNE DISTRIBUTION NORMALE ANOVA (ANALYSE DE VARIANCE) QUAND IL Y A PLUS DE DEUX CONDITIONS D.Gile statistiques
TESTS STATISTIQUES SUPPLEMENT (2) TEST t DE STUDENT TEST Z TEST CHI DEUX TEST EXACT DE FISHER TEST DE WILCOXON TEST DE MANN-WHITNEY TEST DE KRUSKALL-WALLIS ANALYSE DE VARIANCE A UN FACTEUR ANALYSE DE VARIANCE A DEUX FACTEURS …. D.Gile statistiques
ECHANTILLONNAGE CARACTERISTIQUE PRINCIPALE RECHERCHEE DANS UN ECHANTILLON : SA REPRESENTATIVITE PAR RAPPORT A LA POPULATION - ERREUR D’ECHANTILLONNAGE - BIAIS ECHANTILLONNAGE ALEATOIRE PERMET D’ELIMINER LES BIAIS AGRANDIR LA TAILLE DE L’ECHANTILLON PERMET DE REDUIRE L’ERREUR D’ECHANTILLONNAGE - ECHANTILLONNAGE STRATIFIE - ECHANTILLONNAGES NON ALEATOIRES D.Gile statistiques
CONCLUSIONS ET CONSEILS AUX ETUDIANTS (1) DANS VOTRE PROPRE TRAVAIL - LES STATISTIQUES SONT UN OUTIL D’AIDE A LA DECISION. ELLES PEUVENT ETRE UTILES, MAIS LEUR MANIEMENT N’EST NI INDISPENSABLE, NI SANS RISQUE - PREFERER UNE UTILISATION SIMPLE QUAND VOUS LE POUVEZ - SINON, S’ASSURER DU CONCOURS D’UN STATISTICIEN. SURTOUT NE PAS SE LANCER DANS DES STATISTIQUES INFERENTIELLES SEUL SOUS PRETEXTE QU’IL EXISTE DES LOGICIELS QUI VOUS EXPLIQUENT « TOUT » D.Gile statistiques
CONCLUSIONS ET CONSEILS AUX ETUDIANTS (2) - SI VOUS FAITES APPEL A UN STATISTICIEN, LE FAIRE DES LA CONCEPTION DE VOTRE ETUDE, PAS APRES COUP, POUR NE PAS VOUS RETROUVER AVEC DES DONNEES DIFFICILES A ANALYSER - NE PAS OUBLIER L’IMPORTANCE D’UN ECHANTILLON REPRESENTATIF SI VOS ECHANTILLONS NE LE SONT PAS, VOUS NE POUVEZ PAS GENERALISER VOS RESULTATS A LA POPULATION D.Gile statistiques
CONCLUSIONS ET CONSEILS AUX ETUDIANTS (3) DANS LA LECTURE CRITIQUE - VERIFIER LES CARACTERISTIQUES DE L’ECHANTILLON, LA PRESENCE D’UN BIAIS EVENTUEL ET LA GENERALISABILITÉ - NE PAS ACCEPTER LA CONCLUSION D’UN AUTEUR SUR L’EXISTENCE D’UNE DIFFERENCE S’IL A VERIFIÉ STATISTIQUEMENT ET N’A PAS TROUVÉ DE DIFFERENCE SIGNIFICATIVE - NE PAS ACCEPTER L’IDEE QUE LES DIFFERENCES NE SONT PAS SIGNIFICATIVES « PARCE QUE L’ECHANTILLON EST TROP PETIT ». D.Gile statistiques