390 likes | 585 Views
Méthodologie de l’observation. Partie B Statistiques Cours 4. Recherche de description. Rappel = décrire les caractéristiques (les distributions) d’une ou plusieurs variables mesurées sur un échantillon ou une population. 2 caractéristiques à dégager :
E N D
Méthodologie de l’observation Partie BStatistiques Cours 4
Recherche de description • Rappel = décrire les caractéristiques (les distributions) d’une ou plusieurs variables mesurées sur un échantillon ou une population. • 2 caractéristiques à dégager: • les indices de tendance centrale des données • les indices de dispersion • Présentation des informations et données • les transformations possibles et nécessaires des données • les représentations graphiques des résultats
L’indice de tendance centrale • = indique la caractéristique la plus représentative de tous les individus du groupe en la ramenant à un individu type qui se situerait au « centre » de la distribution • Il rend possible la comparaison entre des groupes d’individus différents sur base de la mesure d’une même variable • Ex : les éléphants d’Afrique ont « en moyenne » une masse supérieure à celle des éléphants d’Asie
L’indice de dispersion • = exprime l’étendue de la variabilité des observations • Les données peuvent être concentrées autour de la tendance centrale ou au contraire très dispersées Exemple : • un groupe d’élèves (classe A) avec une moyenne de 10/20 mais dont les résultats en fin d’année s’étendent de 5/20 à 18/20 • un groupe d’élèves (classe B) avec une moyenne de 10/20 mais dont les cotes s’établiraient de 9/20 à 14/20 La classe A a un indice de dispersion supérieur à la classe B
Les indices de tendance centrale • Echelle nominale le mode • Echelle ordinale la médiane • Echelle intervalle la moyenne
Pour les échelles nominales : le mode • Le mode (Mo) = la modalité de la variable nominale dont la fréquence (absolue et relative) est la plus élevée • 2 modes distribution bimodale • 3 modes distribution trimodale Exemple : tableau des fréquences pour la variable « type d’étude » Le mode de la variable « type d’étude » est la modalité « médecine »
Pour les échelles ordinales : la médiane • La médiane (Md) = la valeur qui divise exactement en deux la distribution de l’échantillon, de manière qu’il y ait 50% des observations qui la précèdent et 50% qui la suivent (les catégories ou les scores étant rangés au préalable). • Remarque: Le mode (Mo) peut également être utilisé pour résumer une distribution constituée de catégories ordonnées. Il définit la modalité qui recueille la plus haute fréquence.
Calcul du médian • Il faut commencer par classer les modalités par ordre croissant !! • Si n est pair, le rang médian tombe à mi-chemin entre les deux résultats centraux. On choisit de considérer comme médian, celui qui est immédiatement au-dessus Md = (N/2) +1 • Si n est impair, la médiane est exactement l’observation du milieu : Md = (N+1) /2
Exemple • On examine, sur base d’un échantillon de 20 étudiants, quel serait leur degré de motivation à suivre une session de formation : 1= très peu motivé , 2 = peu motivé , 3 = motivé , 4 = très motivé • N = 20 = pair • N/2 +1 = 11 • l’observation à prendre en considération est la 11ème. • la modalité médiane = la catégorie 2 (peu motivé)
Exemple • On classe un échantillon de 15 élèves en fonction d’un score (sur 200 points) obtenu à un test • N = 15 = impair • (N+1) /2 = 8 • l’observation qui nous intéresse est la 8ème • La valeur de ce 8ème rang est de 170 • La médiane = 170
Pour les échelles d’intervalle : la moyenne • La Moyenne est l’indice le plus fréquemment utilisé dans le cas des échelles d’intervalle. • Pour calculer la moyenne, il suffit d’additionner tous les résultats et de diviser cette somme par l’effectif : m = (Somme Xi/n) • Remarque: • Le mode peut également être utilisé • La médiane = la valeur de la variable telle qu’il existe autant de mesures qui lui soient inférieures que de mesures qui lui soient supérieures
Exemple • On a relevé la taille exprimée en cm de 30 individus adultes • µ = 5198 / 30 La moyenne = 173.27 cm • La médiane = 175 cm • Le mode = la modalité 175 cm
Remarques La moyenne est très fort influencée par les extrêmes Ex : Calculer le salaire moyen de 5 joueurs de foot • 4 joueurs gagnent 100.000 Euros par année, le 5ème joueur gagne 1.000.000 par année. • Le salaire moyen = 280.000 Euros • Dans ce cas, la moyenne ne reflète pas nécessairement bien toute la réalité • La médiane permettra alors de synthétiser ces données sous un autre angle
Remarques • Le mode est facilement repérable et interprétable. Cependant, il ne tient pas compte de toutes les données et ne se prête pas au traitement arithmétique • La médiane est facilement interprétable et aisée à déterminer mais elle ne se prête pas aux traitements arithmétiques • La moyenne est facilement interprétable, aisée à calculer et se prête bien aux traitements arithmétiques
Les indices de dispersion • Les indices de dispersion nous fournissent une information sur la façon dont les données sont distribuées autour de la tendance centrale • Deux séries statistiques peuvent avoir une même moyenne mais présenter un étalement différent autour de cette valeur moyenne
Les indices de dispersion • Echelle nominale (l’entropie) • Echelle ordinale l’espace interquartile • Echelle intervalle l’écart-type
Pour les échelles nominales • S’il existe un indice de dispersion approprié à une échelle nominale (l’entropie), dans la pratique, il est rarement calculé et utilisé • Une distribution d’une variable caractérisée par des effectifs égaux dans toutes les classes sera considérée comme peu homogène, fort dispersée • Une distribution où une des modalités reçoit tout l’effectif de l’échantillon sera définie comme très homogène, non dispersée
Pour les échelles ordinales • L’espace interquartile = comprend 50% des observations, celles qui sont les plus centrales espace interquartile I----------------I--------------------I---------------------I----------------------I 0 25% 50% 75% 100% • = l’espace compris entre les quartiles 1 et 3 • Q1 = la valeur en dessous de laquelle se trouvent 25% des observations inférieurs • Q3 = la valeur en dessous de laquelle se trouvent 75% des observations inférieures
Calcul de l’espace interquartile • Le rang de Q1 on calcule N/4, puis on cherche dans l’effectif cumulé à quelle modalité ce rang appartient • Le rang de Q3 on calcule (N/4) x 3, puis on cherche dans l’effectif cumulé à quelle modalité ce rang appartient • Espace interquartile = Q3-Q1 Exemple: Le rang de Q1 est : n/4 = 20/4 = 5 modalité 2 Le rang de Q3 est 3*n/4 = 3*20/4 = 15 modalité 3 L’espace interquartile = Q3-Q1 = 3-2=1
Autre exemple Le rang de Q1 = 3.75 = rang 4 Le rang 4 correspond à un score de 166 Le rang de Q3 = 11.25 = rang 11 Le rang 4 correspond à un score de 175 Q3-Q1 = 175-166 = 9 c’est sur l’espace de 9 intervalles que se répartissent les 50% d’observations les plus centrales
Pour les échelles d’intervalle • L’écart-type est l’indice de dispersion qui, correspondant à la moyenne, est le plus utilisé pour les échelles d’intervalle • L’écart-type nous donne un indice de la dispersion des observations • Il correspond à la racine carrée de la variance. • La variance = la moyenne arithmétique des carrés des écarts à la moyenne = ( (xi – m)² / n – 1 )
L’écart-type • Il sert à caractériser l’écart plus ou moins grand de l’ensemble des valeurs par rapport à la valeur moyenne • Si la dispersion est faible, cela signifie que les résultats sont groupés autour de la moyenne. • Si la dispersion est forte, cela signifie que les résultats sont fort dispersés autour de la moyenne. • Remarque : l’écart-type est différent de l’étendue. L’étendue est la différence entre la plus grande et la plus petite de s valeurs observées
Exemple • Imaginons que deux professeurs procèdent à la correction de 5 copies • La moyenne des deux professeurs est la même : 11/20 • Pourtant les 2 profs ont coté de manière différente : • les notes du prof A se situent entre 6 et 16 • les notes du prof B se situent entre 3 et 19. L’écart type des notes pour le prof A = 3.81 L’écart-type des notes pour le prof B = 6.20
Exemple Dans les trois cas, la moyenne est égale à 20, ainsi que la valeur de la médiane. On ne saurait pour autant conclure que les trois ensemble sont identiques. la variabilité des données est plus grande dans l’ensemble 3 que dans l’ensemble 2 et 1
Les Transformations de données Pour les échelles nominales • la transformation de fréquence absolue en fréquence relative (%) • le pourcentage = (fréquence / n) *100
Les Transformations de données Pour les échelles ordinales • Pour comparer plusieurs variables ordinales observées sur un même échantillon, on peut déterminer, pour chacune de ces variables, les déciles ou les centiles • Le premier décile (D1) = la valeur correspondant à l’observation telle que 10% des observations soient inférieurs et 90% des observations supérieures Rang de D1 = (n*1)/10 • Les centiles sont obtenus en divisant l’effectif par 100 et en le multipliant par le nombre correspondant au centile voulu : Rang du C35=(n*35)/100
Les Transformations de données Pour les échelles d’intervalle • Pour comparer deux distributions obtenues sur des échelles d’intervalle d’un même échantillon, on transforme les données de chaque distribution en scores centrés réduits. • Cette transformation consiste essentiellement à exprimer les données dans un système de mesure standard, correspondant à la courbe normale réduite, symbolisé par Z Zi = (Xi – m) / σ
Caractéristiques de la distribution normale réduite • mode = médiane = moyenne = 0 • l’écart-type vaut toujours 1 (σ =1) • la distribution est symétrique par rapport à la moyenne • On peut considérer que: • 68% des sujets ont un score compris entre –1 σ et +1 σ • 95% ont un score compris entre –2 σ et +2 σ • 99,8 % ont un score compris entre –3 σ et +3 σ
Caractéristiques de la distribution normale réduite • graphique de cette courbe : courbe de Gauss –3 σ –2 σ –1 σ µ 1 σ 2 σ –3 σ
Les représentations graphiques • le graphique à barres (histogramme) • pour les échelles nominales, ordinales et d’intervalle • le diagramme circulaire (pie, tarte) • pour les échelles nominales et ordinales • la ligne brisée des fréquences • pour les échelles ordinales et d’intervalle
Techniques spécifiques • Quelques techniques souvent utilisées en statistiques descriptives … • Uniquement dans le cas des échelles d’intervalle ! • Les taux de croissance • Les indices • Les tableaux et figures • Les transformations de données
Les taux de croissance • permet d’étudier l’évolution ou la variation d’un phénomène dans le temps • Ex: le nombre d’étudiants à l’université • Calcul de l’écart relatif = (valeur d’arrivée – valeur de départ) / valeur de départ =0.221 • Calcul du taux de croissance = l’écart relatif *100 = 22%
Les indices • Il est fréquent d’utiliser l’indice en base 100. • Celui-ci est obtenu en multipliant par 100 la valeur d’arrivée divisée par la valeur de départ • Indice en base 100 = (valeur d’arrivée / valeur de départ )*100 • Dans notre exemple: l’indice en base 100 = (1.444.038 / 1.182.784) *100 = 122
Les tableaux et figures Pour les tableaux, figures, etc.: • Une légende permet de préciser les différentes variables et leurs modalités respectives • En dessous, indiquer les sources des données recueillies (ONSS, FOREM, …) • Préciser les caractéristiques essentielles de la population concernée • Un titre clair
Les transformations de données 1) proportion et pourcentage • Ex: dans un échantillon, le nombre d’hommes = 20 • en valeur relative, les hommes représentent donc 2/5 de l’échantillon (20/50) • soit 40% 2) Taux, parts, coefficients • = proportions sous d’autres noms • Ex: taux de scolarité 3) Les rapports à une donnée extérieure • on rapport la partie à une donnée extérieure • Ex: ratio financier, densité de population, rendement