370 likes | 630 Views
la statistique descriptive se compose de 3 domaines distincts : l a statistique uni variée : On étudie la répartition d'une population selon une variable ( la taille, le poids ...)
E N D
la statistique descriptive se compose de 3 domaines distincts : la statistique uni variée : On étudie la répartition d'une population selon une variable ( la taille, le poids ...) la statistique bivariée : On étudie ici la relation qui peut exister entre deux variables (entre la taille et le poids, par exemple...) la statistique multi variée: On ne parlera pas ici de statistique bivariée, mais il s'agit de relations entre plusieurs variables que l'on traite avec des méthodes comme l'analyse factorielle.
Les statistiques à deux ou plusieurs variables • multi varié • Théorisation • Modélisation • Choix d’une méthode d’ajustement • corrélation • Estimation et test d’hypothèses • bi variée • Tableau de contingence • Séries marginales • Séries conditionnelles • Relations entre les moyennes et les variances
Description bivariée : La statistique descriptive à deux dimensions a essentiellement pour but de caractériser les relations qui existent entre deux séries d'observations considérées simultanément. Ces observations peuvent être de nature qualitative ou quantitative, continue ou discontinue.
La statistique bivariée : Si nous nous intéressons à la relation qu'il pourrait y avoir entre deux variables distinctes, nous aurons recours à la statistique bivariée. Le type d'analyse que nous pouvons faire sur deux variables est de l'ordre corrélationnel, c'est-à-dire que nous nous intéresserons à la relation éventuelle qui peut exister entre deux variables, par exemple le degrés de dépendance etc... Les calculs se font ici en recherchant des indices de covariation ( ou variation concomitante) entre les deux variables (exemples : La relation entre le poids et la taille sur une population peut être calculer par un indice d'association ou indice corrélatif ).
On parlera ici de trois types d'indices principaux applicables selon le type de la variable à laquelle on a affaire : • Le coefficient X² (lire chi carré) et K de Cramer, • les coefficients Rhô de Spearman et Tau de Kendall, et • le coefficient r de Bravais-Pearson.
Tableau des indices de tendances, de dispersions et de dépendances selon les 3 types de variables :
Les questions que l'on se posent à propos de la relation entre deux variables statistique sont les suivantes : • Quelle est la forme de la relation ? • Quelle est l'intensité de la relation ? • Quelle est le sens de la relation ?
Exemple : Afin d'étudier la répartition des terres agricoles d'une région, on a noté un certain nombre de renseignements sur chaque exploitation, notamment : • sa taille (surface, en hectares), • l'âge du chef d'exploitation, • le type de culture pratiquée, • le nombre de personnes employées à temps plein sur l'exploitation
Le résultat est présenté sous la forme du tableau ci-dessous , individus ´ variables
Nous pouvons maintenant décrire chacun des caractères, un par un : • Taille • Age • Culture • employés
Mais ceci ne nous permet pas de mettre en évidence les liens existant peut être entre la taille et l'âge : les jeunes exploitants ont-ils des surfaces comparables, inférieures, supérieures à celles de leurs aînés ? De même, le type de culture pratiqué est-il le même quelle que soit la surface ? Le nombre d'employés est-il fonction du type de culture, etc...
Les tableaux statistiques :série statistique double : Y-a-t-il une liaison entre les deux variables présentées?
Tableau de contingence : Considérons N individus décrits simultanément selon deux caractères X et Y. X possède k modalités : x1, x2, x3, ……., xi, …….xk Y possède p modalités: y1, y2, y3,…….., yj,……..yp
Exemple de tableau de contingence : On appelle distribution marginale de X la distribution à une dimension des individus de la population qui présente une modalité de X quelque soit la modalité de Y. De façon analogue, on définit celle de Y.
3. Réduction des données : Les paramètres utilisés pour caractériser les distributions à deux variables sont de deux types : - Les paramètres qui concernent une seule variable, ils servent à caractériser les diverses distributions marginales. - Les paramètres qui servent à décrire les relations qui existent entre les deux séries d'observations considérées simultanément.
Séries marginales • Deux types de séries marginales peuvent être dégagés du tableau de contingence • Série marginale de la variable X (notes) • Série marginale de la variable Y (sexe)
Séries conditionnelles • Toute ligne(respectivement toute colonne); du tableau de contingence correspond à une série conditionnelle dont les effectifs présentent tous une certaine valeur de l’autre variable • Dans l’exemple théorique, le tableau de corrélation se décompose en p séries conditionnelles de la variable x et q conditions sur la variable Y
Séries conditionnelles • X/y1 • X/Y2 • Y/X1 • Y/X2 • Y/X3 • Y/X4 • . • . • Y/X10
Effectifs et fréquences partielles • n11 effectif partiel • n11/n.. Fréquence partielle • n1. effectif marginal X • n1./n.. Fréquence marginale X • n.1/n.. Fréquence marginale Y • fi/j et fj/i fréquences conditionnelles avec • fi/j= nij/n.j • fj/i= nij/ni.
Les caractéristiques des lois marginales et conditionnelles • Les moyennes marginales • Les variances marginales • Les moyennes conditionnelles • Les variances conditionnelles
Pour avoir une idée sur la variation simultanée de X et Y on peut utiliser la covariance : • On appelle covariance de X et Y le nombre • il est aussi égal à :
Utilité de la covariance : La covariance est positive si X et Y ont tendance à varier dans le même sens, et négative si elles ont tendance à varier en sens contraire.
Exemple :10 étudiants ont passé l'examen partiel et l'examen général et ont obtenu les notes suivantes : La covariance est positive, donc il y a une relation croissante entre X et Y. Autrement dit les deux variables varient dans le même sens.