470 likes | 1.12k Views
Plan de la prsentation. Mise en contexteThorieDmonstration avec SPSSAnalyse des rsultats. Mise en contexte. Plusieurs phnomnes sociaux sont discrets et qualitatifs plutt que continus et quantitatifsPlusieurs de ces phnomnes sont dichotomiques Ex: tre malade ou ne pas l'tre, voter
E N D
1. La régression logistique Mélanie Bourdon
Ève-Marie Filiatrault
Évelyne Robineau
2. Plan de la présentation
Mise en contexte
Théorie
Démonstration avec SPSS
Analyse des résultats
3. Mise en contexte Plusieurs phénomènes sociaux sont discrets et qualitatifs plutôt que continus et quantitatifs
Plusieurs de ces phénomènes sont dichotomiques
Ex: être malade ou ne pas l’être, voter ou ne pas voter
En utilisant une variable binaire pour représenter un phénomène, la moyenne de cette variable représente la proportion de fois où elle prend une valeur de 1, ce qui peut être interprété comme une probabilité
4. Mise en contexte La régression linéaire n’est alors pas possible pour deux raisons:
La régression linéaire peut s’étendre à l’infini lorsque la valeur de la variable indépendante s’accroît jusqu’à l’infini, alors qu’une probabilité, par définition, doit se situer entre 0 et 1
La régression avec une variable binaire ne pourrait pas respecter le principe de la distribution normale, car toutes les valeurs se situent à 0 ou à 1
5. Mise en contexte
6. Mise en contexte La régression logistique, une extension de la régression multiple, est une solution à ce problème
Elle fournit davantage d’information que l’analyse discriminante (ex: pseudo R2)
7. Théorie But: prédire la probabilité d’un phénomène
? ex dans Julien: prédire la probabilité d’absentéisme en se basant sur la satisfaction au travail
La variable dépendante ne peut prendre que deux valeurs
En codant cette variable de façon binaire, soit 0 et 1, les résultats peuvent être interprétés en termes de probabilité
Il est possible de coder une variable dépendante catégorielle ou métrique en variable binaire
La variable indépendante peut être catégorielle ou métrique
8. Théorie Chances = Probabilité que le phénomène se produise
Probabilité qu’il ne se produise pas
Ex: Probabilité qu’il pleuve = 20%
Probabilité qu’il ne pleuve pas = 80%
Chances qu’il pleuve = 0,20 = 1 = 0,25
0,80 4
Donc, il y a une chance contre quatre qu’il pleuve.
Cela signifie aussi que la pluie se manifestera 0,25 fois pour chaque fois qu’elle ne se manifestera pas (ou 25 fois pour chaque 100 fois)
9. Théorie Après quelques manipulations mathématiques, la formule se transforme comme suit:
10. Démonstration avec SPSS Vérification du fichier de Julien
Vérification des fréquences ? les valeurs manquantes sont bien déclarées
Tendance chez les répondants
Le premier répondant semble ne pas avoir répondu attentivement au questionnaire, nous avons donc choisi de déclarer des valeur manquantes
11. Démonstration avec SPSS Codage de la variable binaire
Puisque dans Julien la seule variable qui pourrait être déjà binaire est le sexe, et que cette variable ne peut pas être une variable dépendante, nous avons choisi de coder l’absentéisme.
Nous avons donc défini les deux états de la variable binaire comme étant une absence faible (0) et une absence élevée (1)
1) Aucun jour ? 0
2) 1 à 3 jours ? 0
3) 4 à 6 jours ? 1
4) 7 à 9 jours ? 1
5) 10 jours et plus ? 1
17. Démonstration SPSS Maintenant, il faut identifier des variables indépendantes qui pourraient influencer l’absentéisme. Nous avons choisi les différentes dimensions de la satisfaction au travail identifiées par Julien:
La richesse de la tâche
Les avantages économiques de l’emploi
Les relations avec les collègues
Les objectifs d’excellence
Les pratiques de gestion du supérieur immédiat
Les conditions facilitant le travail
Les perspectives de carrière
18. Démonstration SPSS Chacune de ces dimensions est mesurée par plusieurs questions dans le questionnaire de Julien
Nous avons donc dû calculer la moyenne des réponses aux questions se rapportant à chaque dimension afin d’obtenir une seule valeur pour chaque dimension
Il est à noter que cette manipulation change la variable ordinale en variable métrique, car la moyenne ne sera pas nécessairement un nombre entier
22. Les questions se rapportant à chaque dimension de la satisfaction au travail Perspectives de carrière : q3d à q3g
Avantages économiques de l’emploi : q3a à q3i
Relations avec les collègues : q3j
Richesse de la tâche : q4d à q4l
Objectifs d’excellence : q4a à q4c
Conditions facilitant le travail : q3h et q3i
Pratiques de gestion du superviseur : q2a à q2e
24. Régression logistique
26. Régression logistique En utilisant la méthode forward-LR, SPSS procédera à une première étape (step1) où il choisira la dimension la plus significative pour prévoir l’absentéisme
SPSS procédera alors à une seconde étape (step2) où il choisira la seconde variable la plus significative pour prévoir l’absentéisme. Et ainsi de suite, jusqu’à ce que le test statistique qu’il effectue ne soit plus significatif pour les dimensions suivantes, qui ne seront alors pas ajoutées à l’équation
30. Analyse des résultats
38. Interprétation des coefficients (possibilité 1) Une façon d’interpréter les coefficients est de les insérer dans la formule des chances. Par exemple, pour savoir l’impact de la variation d’une unité de satisfaction envers la richesse de la tâche:
39. Interprétation des coefficients (possibilité 2) Il est aussi possible de calculer l’impact sur la probabilité de la façon suivante:
1) Trouver la moyenne de la variable binaire dépendante
44. Interprétation des coefficients 2) ? probabilité (phénomène arrive) = bi × p (1-p)
= - 0,515 × 0,44 (1-0,44)
= - 0,13
Donc, une unité de satisfaction de plus envers la richesse de la tâche diminue de 13% la probabilité d’avoir un absentéisme élevé
? probabilité (phénomène arrive) = bi × p (1-p)
= - 0,404 × 0,44 (1-0,44)
= - 0,10
Donc, une unité de satisfaction de plus envers les perspectives de carrière diminue de 10% la probabilité d’avoir un absentéisme élevé
46. Questions ?