Les caractéristiques des distributions à un caractère

Les caractéristiques des distributions à un caractère Tendance centrale, dispersion, disparité et concentration.

Les moyennes On peut calculer 2 types de moyennes : La moyenne arithmétique (ou moyenne simple). Il s’agit d’une moyenne calculée de telle sorte que chaque variable de la population étudiée a le même poids dans le calcul. La moyenne pondérée tient compte du poids qu’a chaque valeur. On va pondérer chaque valeur d’un coefficient. La médiane C’est la valeur d’une série statistique qui divise en 2 groupes égaux la population étudiée. Le mode C’est la valeur d’une série statistique qui est la plus fréquente. Les indicateurs de tendance centrale

Tendance centrale et caractéristique de forme • Une distribution est symétrique si les observations, repérées par leurs fréquences sont également dispersées de part et d’autres de la valeur centrale. Une distribution est symétrique si mode, moyenne et médiane sont confondues. Les indicateurs de tendance centrale nous renseignent sur l’ordre de grandeur de la série statistique et sur sa forme.

Tendance centrale et caractéristique de forme • Une courbe non symétrique est dite oblique: l’obliquité se repère du côté de la décroissance la plus forte de la courbe des fréquences.

Limite des indicateurs de tendance centrale Exemple: • 2 élèves ont les notes de SES suivantes: Elève 1 : 2;2;2;2;10;10;10;10;10;18;18;18;18 Elève 2 : 9;9;9;9;10;10;10;10;10;11;11;11;11 Ces 2 élèves ont la même moyenne, le même mode et la même médiane. Ainsi, les indicateurs de tendance centrale ne montrent pas les irrégularités des notes. • Il parait donc utile de mettre en relief ces écarts. La notion de dispersion va donc compléter l’information sur les séries statistiques.

La dispersion • On appelle dispersion statistique, la tendance qu'ont les valeurs de la distribution d'un caractère à s'étaler, à se disperser, de part et d'autre d'une valeur centrale. • Exemple : analyser les inégalités de revenus en France, c’est-à-dire les écarts plus ou moins importants par rapport à la moyenne • On distingue la dispersion absolue (mesurée dans l'unité de mesure du caractère), et la dispersion relative (mesurée par un nombre sans dimension).

Les mesures de la dispersion absolue • Les paramètres de dispersion absolue indiquent de combien les valeurs d'une distribution s'écartent en général de la valeur centrale de référence. • Les mesures de la dispersion absolue s’expriment dans l’unité de mesure de la variable considérée. Exemples: • Pour le nombre d'habitants en 2006, il s’agira du nombre d'habitants • Pour la part des cadres dans le total de la population active occupée, il s’agira de % de personnes actives occupant un emploi de cadre. • Les trois paramètres de dispersion absolue les plus courants sont l'étendue, l'écart type et l'intervalle inter quantile

L'étendue ou amplitude d'une distribution est égale à la différence entre la plus grande et la plus petite valeur de la distribution : Etendue de X = Xmax –Xmin Ainsi, pour le nombre d’habitants des plus grandes villes françaises, l’étendue de la série est de 2037282 habitants. L’amplitude pour la part des cadres dans la population active occupée de ces mêmes villes est de 31,26 points. L’étendue ou amplitude

La mesure de la dispersion statistique et les valeurs centrales • A l’exception de l’amplitude, les paramètres de dispersion statistique caractérisent l’écart des valeurs de la distribution statistique de part et d'autre d'une valeur centrale de référence. Il peut s’agir de la moyenne ou de la médiane.

Mesures de la dispersion autour de la moyenne • La variance de X, notée σ² est une mesure globale de la variation d'un caractère de part et d'autre de la moyenne arithmétique. Elle exprime la dispersion dans une unité de l’ordre du carré de l’unité de mesure du caractère. • Pour obtenir un paramètre de dispersion absolue, on calcule la racine carrée de la variance • L'écart type, noté σest la racine carré de la moyenne des carrés des écarts à la moyenne, c'est à dire la racine carrée de la variance.

La signification probabiliste de l’écart-type • L’écart-type σ a l'avantage d'avoir une signification probabiliste. La théorie des probabilités permet en effet d'estimer la chance qu'a une valeur d'être éloignée de la moyenne de plus d'un certain nombre d'écart-types. • Lorsqu'une distribution est gaussienne (on dit aussi "normale") les probabilités de trouver les valeurs a une distance donnée de la moyenne μ sont les suivantes : • 68,3% des valeurs sont entreμ-σ et μ+σ • 95,5% des valeurs sont entreμ-2σ et μ+2σ • 99,7 % des valeurs sont entreμ-3σ et μ+3σ

Mesures de la dispersion autour de la médiane • Les quantiles sont les valeurs du caractère qui définissent les bornes d'une partition en classes d'effectifs égaux.

Les écarts et les rapports interquantiles • L'intervalle interquartile (Xq3-Xq1) est l'étendue de la distribution sur laquelle se trouvent concentrée au moins la moitié des éléments dont les valeurs de X sont les plus proches de la médiane. On exclut alors de la distribution les 25% des valeurs les plus faibles et les 25 % des valeurs les plus fortes de X. • L'intervalle interdécile (Xd9-Xd1) est l'étendue de la distribution sur laquelle se trouvent concentrés 80% des éléments dont les valeurs de X sont les moins différentes de la médiane. On exclut alors de la distribution les 10 % des valeurs les plus faibles et les 10% des valeurs les plus fortes.

Les mesures de la dispersion relative • Eliminer l’effet de l’unité de mesure du caractère pour pouvoir comparer les degrés de dispersion de deux caractères • Deux mesures usuelles de la dispersion relative à partir de: • l’intervalle interquantile: • l’intervalle interquantile relatif (IIQR) • le rapport interquantile • l’écart-type: • le coefficient de variation (CV)

Exemple : la distribution des niveaux de vie en France • Lecture : en 2006, en France, 10 % des individus ont un niveau de vie inférieur à 9723 euros. • Le plus pauvre des 10 % les plus riches avait un niveau de vie 3.4 fois plus élevé que le plus riche des 10 % les plus pauvres. Sources : Insee-DGI, enquêtes Revenus fiscaux 2002 à 2005, Insee-DGFiP-Cnaf-Cnav-CCMSA, enquêtes Revenus fiscaux et sociaux 2005 et 2006.

Avantage et limitesdes quantiles • Les quantiles permettent d’éliminer les problèmes liés aux valeurs extrêmes exceptionnelles. • Les indicateurs de dispersion utilisant les quantiles ignorent : • Ce qui se passe entre les valeurs limites des quantiles extrêmes. • Ce qui se passe au-delà des valeurs limites des quantiles extrêmes.

La boîte à moustaches • En mathématiques, les élèves ont l’habitude de représenter les séries statistiques à l’aide d’un graphique appelé « boîte à moustaches ».

Les diagrammes en boîte

La mesure de la disparité • La disparité consiste à mesurer l’écart entre les valeurs centrales qui caractérisent une ou plusieurs populations statistiques. • Exemple : comparer les revenus entre la France et les EU, analyser les disparités régionales, entre PCS, entre sexes,… en termes de chômage, de revenus…)

Exemple : la distribution des niveaux de vie moyen en France Lecture : En 2006, le niveau de vie des 10% de la population les plus pauvres était en moyenne de 7494 €. Entre 2004 et 2006, le niveau de vie moyen des français a augmenté de 10.4%. Les inégalités ont elles aussi augmenté, le rapport du niveau de vie moyen des 10% de la population les plus riches sur celui des 10% les plus pauvres passant de 5,63 à 6,75. On peut d’ailleurs noter que cette évolution s’explique par la stagnation des niveaux de vie moyen des 10% les plus pauvres et par une augmentation près de 20% du niveau de vie moyen du dixième de la population le plus aisé.

Disparité versus dispersion • Dans des sociétés comme la nôtre, le rapport des revenus moyens des deux dixièmes extrêmes est en général un meilleur indicateur des inégalités que le rapport interdécile. • Exemple: • Une amélioration des revenus des 5% les plus pauvres. • Une hausse des revenus des 1% les plus riches. Dans les 2 cas ci-dessus, le rapport interdécile reste inchangé.

La concentration • La concentration permet de visualiser les conséquences de la dispersion. • Elle concerne les variables continues ne pouvant prendre que des valeurs positives. • Nous limiterons notre méthode de détermination de la concentration à la méthode graphique.

La courbe de Lorenz (1905) • La courbe de Lorenz permet de visualiser la concentration. • Cette courbe se construit dans un repère orthonormé : • Les valeurs de la fréquence cumulée de la population en abscisses. • Les valeurs de la fréquence cumulée des revenus ou du patrimoine.

Des exemples de courbes de Lorenz • Plus la courbe de Lorenz s’éloigne de la droite d’équirépartition (cette surface est appelée surface de concentration), plus la concentration (les inégalités) est forte. • Sur la représentation ci-contre, on peut s’apercevoir que le Portugal a une distribution des revenus plus inégalitaire que la France Source : Eurostats, 2004.

Le coefficient de Gini • Cet indice est égal au rapport de deux surfaces : • Au numérateur, on trouve la surface comprise entre la droite d’équirépartition et la courbe de Lorenz, appelée surface de concentration. • Au dénominateur, la surface du triangle compris entre la droite d’équirépartition et l’axe des abscisses.

Comparaison de coefficient de Gini • Le coefficient de Gini est un nombre compris entre 0 et 1. • Plus il est grand (plus la surface de concentration est grande), plus la répartition est inégalitaire. Le coefficient de Gini de la France est de 0,27 et celui du Portugal est de 0,37.

Une critique de Gini par Chauvel La pertinence des mesures offertes par le coefficient de Gini est discutable car il s’agit d’une mesure unidimensionnelle de l’inégalité. Exemple de Chauvel.

Les strobiloïdes • Pour résoudre ce problème, il faut utiliser une loi de Champernowne. • Cette fonction de répartition se dérive, ce qui permet d'obtenir la densité de la répartition. échelle de revenu dont l'unité est le revenu médian α est un indicateur de densité et donc d’homogénéité de la classe moyenne. Plus α est grand, plus la courbe est asymétrique.

Les strobiloïdes • La courbe représentative de cette fonction est appelée strobiloïde, elle prend ce nom en l'honneur de Henri Mendras, et de la toupie (στροβιλοσ) de sa Seconde révolution française (Mendras, 1994), qui mettait en évidence le fait que la société ne se scinde pas en deux, et que l'architecture sociale échappe largement à une logique univoque de domination. Revenu médianisé Part de la population

L’avantage des strobiloïdes • En superposant 2 strobiloïdes, on peut avoir une lecture immédiate des conséquences d’un partage du revenu disponible dans la population, en termes de qui est gagnant et qui est perdant. • Ainsi, Chauvel propose des simulations de déformation de la courbe française de répartition des revenus vers des modèles de répartition d’autres pays.

Déformation de la courbe française vers le modèle américain • Principales conséquences sur la répartition du revenu disponible : • Baisse de 36% du premier décile. • Baisse de 14 % du premier quartile. • Hausse du dernier quartile de 8 %. • Prélever une part substantielle du revenu disponible des plus pauvres (moins de prestations sociales) ne dégage en définitive que des sommes fort modestes et ne conduit qu’à un enrichissement très limité des plus riches. Revenu médianisé Part de la population

Déformation de la courbe française vers le modèle suédois • Principales conséquences sur la répartition du revenu disponible : • Accroissement de 13 % du premier décile. • Hausse du premier quartile de 18%. • Hausse du revenu médian de 12 % • Baisse de 11% pour le dernier décile. • Baisse de 18 % pour le dernier vingtile. • Cette évolution profiterait donc surtout au bas de la classe moyenne. On conserverait à l’identique la pauvreté relative, c’est-à-dire la distance entre les pauvres et les gens moyens. Revenu médianisé Part de la population

Les caractéristiques des distributions à un caractère