320 likes | 542 Views
INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives. Introduction. Rappel Variables qualitatives Exemple sexe (homme, femme) secteur d’études (lettres, sciences) Etudier la relation entre les deux Se base sur les effectifs. Données brutes. variables. individus.
E N D
INF L14Initiation aux statistiques8 – Liaison entre variables qualitatives
Introduction Rappel Variables qualitatives Exemple sexe (homme, femme) secteur d’études (lettres, sciences) Etudier la relation entre les deux Se base sur les effectifs
Données brutes variables individus
Effectifs observés • Tri croisé • on répartit les effectifs en fonction des combinaisons de modalités modalités variable 2 modalités variable 1 Source : Université de Provence, 2002-2003
Tri croisé • Fréquences marginales • totaux des lignes et des colonnes (marges)
Comparaison Attendus Observés
Ecarts Attendus Observés
Ecarts carrés Ecarts
Ecarts carrés relatifs Attendus Ecarts carrés
2 • Chi-deux Somme 2 = 2157,4
Test d’hypothèse • Statistique inférentielle • Le 2permet de tester l’hypothèse d’indépendance des variables : • les données observées résultent simplement de fluctuations dues au hasard • On peut mesurer la probabilité p de se tromper en rejetant l’indépendance
Tableur Pratiquement aucune chance de se tromper en rejetant l’indépendance : il y a bien un effet significatif
Tableur 30% de chances de se tromper en rejetant l’indépendance : pas d’effet significatif
Seuils de rejet • Seuils de rejet • p < 0,05 en sciences humaines • p < 0,01 si l’on veut être très strict
Attention • Ne jamais employer le test de chi-deux si certains des effectifs attendus sont 5.
Problème • 2 dépend de l’effectif • difficile d’apprécier la valeur du 2 dans l’absolu • on peut normaliser le coefficient pour le rendre indépendant de la taille
• Phi • varie entre 0 et +1 • analogue au coefficient de corrélation des variables quantitatives 2 = = 2157,4 0,30
Application linguistique • Force d’association entre mots • Deux mots sont associés s’ils apparaissent souvent ensemble dans des pages Web • Ex. : • Chirac + Jospin • Chirac + Corona • etc.
Exemple • Google (réglé sur tout le Web) • On va chercher • A = Nombre d’occurrences Chirac • B = Nombre d’occurrences Jospin • C = nombre de cooccurrences Chirac Jospin • N = Nombre total de pages
A B C N
Formule directe • Une formule un peu compliquée, mais qui évite les calculs intermédiaires :
Classement • Par décroissant :
Termes à retenir • Tris croisé • Fréquences marginales • Chi-deux (2) • Hypothèse d’indépendance • Seuil de rejet • Phi ( )