450 likes | 864 Views
Liaison entre variables qualitatives. Introduction. Rappel Variables qualitatives Exemple sexe (homme, femme) secteur d’études (lettres, sciences) Etudier la relation entre les deux Se base sur les effectifs. Données brutes. variables. individus. Effectifs observés. Tri croisé
E N D
Introduction Rappel Variables qualitatives Exemple sexe (homme, femme) secteur d’études (lettres, sciences) Etudier la relation entre les deux Se base sur les effectifs
Données brutes variables individus
Effectifs observés • Tri croisé • on répartit les effectifs en fonction des combinaisons de modalités modalités variable 2 modalités variable 1 Source : Université de Provence, 2002-2003
Tri croisé • Fréquences marginales • totaux des lignes et des colonnes (marges)
Effectifs attendus • Dans le cas de l'hypothèse nulle, c'est-à-dire si les proportions étaient les • mêmes pour chaque groupe.
Comparaison Attendus Observés
Ecarts Attendus Observés
Ecarts carrés Ecarts
Ecarts carrés relatifs b Attendus Ecarts carrés a a/b
2 • Chi-deux Somme 2 = 2157,4
Formule • Distribution du chi2 avec un degré de liberté ddl = (R - 1)(C - 1) • R nombre de lignes • C nombre de colonne
La surface sous la courbe donne la probabilité de rejet de l'hypothèse nulle à tort. Elle correspond à la probabilité d'obtenir une valeur de χ2 au moins aussi grande que la probabilité critique par le seul fait du hasard. χ2 de 10.10
Test d’hypothèse • Statistique inférentielle • Le 2permet de tester l’hypothèse d’indépendance des variables : • les données observées résultent simplement de fluctuations dues au hasard • On peut mesurer la probabilité p de se tromper en rejetant l’indépendance
Tableur Pratiquement aucune chance de se tromper en rejetant l’indépendance : il y a bien un effet significatif
Tableur 30% de chances de se tromper en rejetant l’indépendance : pas d’effet significatif
Seuils de rejet • Seuils de rejet • p < 0,05 en sciences humaines • p < 0,01 si l’on veut être très strict
Attention • Ne jamais employer le test de chi-deux si certains des effectifs attendus sont 5.
Problème • 2 dépend de l’effectif • difficile d’apprécier la valeur du 2 dans l’absolu • on peut normaliser le coefficient pour le rendre indépendant de la taille
Coefficient • Phi • varie entre 0 et +1 • analogue au coefficient de corrélation des variables quantitatives 2 = = 2157,4 0,30
Application linguistique • Force d’association entre mots • Deux mots sont associés s’ils apparaissent souvent ensemble dans des pages Web • Ex. : • Chirac + Jospin • Chirac + Corona • etc.
Exemple • Google (réglé sur tout le Web) • On va chercher • A = Nombre d’occurrences Chirac • B = Nombre d’occurrences Jospin • C = nombre de cooccurrences Chirac Jospin • N = Nombre total de pages
A B C N
Formule directe • Une formule un peu compliquée, mais qui évite les calculs intermédiaires :
Classement • Par décroissant :
Graphe de relation Pour définir ce graphe il faut passer par le tableau de bord/vues/Nouvelles vues
Arbre de décomposition Pour définir cet arbre il faut passer par le tableau de bord/vues/Nouvelles vues/
Corrélation Traitements et analyses/Analyser/Corrélations
Analyse factoriel multiple • Une extension de l’analyse factoriel simple à plusieurs variables qualitatives (fermées unique ou multiple)
Tableau de Burt Les éléments matriciels diagonaux du tableau de Burt correspondent à des tris à plats sur chaque variable Dans Sphinx:Traitement et analyse/Approfondir
Projection sur les plans factoriels Remarques: Les deux premiers axes fournissent le premier plan factoriel où un maximum d'information sont représentées graphique: déterminer à partir des valeurs propres