1 / 48

Statistiques, deuxième séance

Statistiques, deuxième séance. Licence de psychologie. 2. Régression linéaire double. Cas de deux facteurs. Un exemple et sa formalisation Les conditions d’application La procédure L’interprétation des résultats Exemples supplémentaires. Plan. 2.1. Un exemple. Psychologie du « travail ».

Download Presentation

Statistiques, deuxième séance

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistiques, deuxième séance Licence de psychologie

  2. 2. Régression linéaire double Cas de deux facteurs

  3. Un exemple et sa formalisation Les conditions d’application La procédure L’interprétation des résultats Exemples supplémentaires Plan

  4. 2.1. Un exemple Psychologie du « travail »

  5. You can smell Greeley, Colorado, long before you can see it. The smell is hard to forget but not easy to describe, a combination of live animals, manure, and dead animals being rendered into dog food. Eric Schlosser, Fast Food Nation, Peguin Books, 2002. P 149. On sent Greeley (Colorado) bien avant de le voir. L’odeur est difficile à oublier, mais pas facile à décrire. Une combinaison d’animaux vivants, de fumier, de cadavres transformés en pâtée pour chiens. Greeley, Colorado

  6. Satisfaction au travail… • Grâce à un questionnaire détaillé, nous pouvons mesurer la satisfaction au travail d’employés attachés à des entreprises de l’industrie alimentaire. Le résultat du questionnaire, une fois codé, nous donne un score S de satisfaction • Nous aimerions savoir dans quelle mesure cette satisfaction dépend de l’ancienneté A (en années) et des responsabilités R (score) incombant aux employés.

  7. Nous cherchons à déterminer dans quelle mesure la satisfaction dépend des responsabilités et de l’ancienneté Cela pourrait permettre de prédire la satisfaction des futurs employés On étudie le lien entre deux facteurs catégoriels quantitatifs X1 et X2, et une variable dépendante, également quantitative, X0 Afin de prédire la VD en fonction des deux VI Formalisation de l’exemple

  8. Nous voulons un modèle linéaire Nous voulons généraliser la régression linéaire simple Formalisation de l’exemple

  9. On cherche :

  10. Il faut donc • Pouvoir mesurer l’erreur d’estimation • Minimiser cette erreur pour déterminer les coefficients ci • Déterminer les rôles respectifs des deux facteurs et leur éventuelle interaction dans leur effet sur la variable dépendante

  11. 2.2. Conditions d’application De la régression multiple

  12. Situation statistique Nous disposons de deux facteurs numériques Et d’une variable dépendante numérique

  13. Notations Nous noterons la variable X0 et les facteurs X1 et X2. Nous noterons les coefficients de corrélation simples

  14. 2.3. Procédure Méthode, calculs

  15. Coefficients de corrélation simples • On calcule les coefficients de corrélations simples • Qui donnent la matrice des coefficients de corrélation simples

  16. Coefficients de corrélation simples • On calcule les coefficients de corrélations simples • Qui donnent la matrice des coefficients de corrélation simples

  17. Alpha • On calcule ensuite les coefficients de régression partiels

  18. Corrélation double • Qui donnent le coefficient de corrélation double

  19. Enfin ! • De là, on tire les coefficients de régression :

  20. Interprétation graphique On cherche le meilleur plan pour représenter le nuage en dimension 3. C’est illisible, aussi ne représente-t-on pas habituellement le nuage de points.

  21. Corrélation partielle • Il arrive qu’on ait besoin des coefficients de corrélation partiels

  22. 2.4. Interprétation Des valeurs obtenues

  23. Premières remarques • Le coefficient de corrélation double R(0;1,2) est l’équivalent double de |r|, et non de r • Les « alpha » mesurent le caractère plus ou moins important des facteurs sur la VD • Les c renseignent sur le sens des liens entre facteurs et VD. Ils sont de même signe que les « alpha » correspondant. Il s’agit du sens du lien dans le modèle incorporant les deux facteurs!

  24. r(0,1) mesure le lien qui existe, de fait, entre X1 et X0 Entre « glace » et « lunette », le coefficient est élevé R(0,1.2) mesure le lien qui existerait entre X1 et X0 si X2n’intervenait pas Entre « glace » et « lunette », si l’on supprime l’effet du soleil, le coefficient est faible Corrélation simple et partielle

  25. Causalités possibles X(0) et X(1) sont liés Causalité directe 0-1 Causalité directe 1-0 Causalité double 2-0; 2-1 « Aucune Causalité » Salaire Satisfaction Maladie de foie Alcool Glace Lunettes Note, Évolution

  26. Alpha et c • Alors que les « alpha » mesurent le caractère plus ou moins prédictif des facteurs • Les « c » mesurent le caractère plus ou moins discriminant des facteurs • Est discriminant un facteur tel qu’une petite variation entraîne une grande variation de la VD • Est prédictif un facteur dont la connaissance renseigne efficacement sur celle de la VD

  27. Discriminant vs prédictif

  28. Discriminant vs prédictif

  29. Discriminant vs prédictif

  30. Discriminant vs prédictif

  31. 2.5. Exemple pratique De la régression linéaire double

  32. Retour à l’abattoir

  33. Situation • Nous disposions d’un échantillon d’employés, appartenant à la population des employés travaillant dans les abattoirs. • Nous avions relevé sur cet échantillon les trois variables numériques suivantes : • La satisfaction au travail S (VD) • L’ancienneté A (en années, VI) • Les responsabilités R (score, VI)

  34. Données prétraitées La matrice des corrélations simples est, en posant VI(1)=A :

  35. Écarts types et moyennes

  36. Coefficients simples • L’ancienneté est liée aux responsabilités • La satisfaction est liée aux responsabilités • La satisfaction est peu liée linéairement à l’ancienneté • Tous les liens sont positifs

  37. Alpha • On calcule à partir des coefficients de corrélation simple :

  38. Interprétation • On voit également que les responsabilités sont plus prédictives de la satisfaction (le alpha correspondant étant plus grand en valeur absolue). • On voit que le premier facteur est lié négativement, dans l’équation de régression, à la VD. Ainsi, le modèle prévoit que la satisfaction diminue avec l’ancienneté, à responsabilités égales. (pourtant le r est positif).

  39. Mystère • La satisfaction est liée négativement à l’ancienneté (c1) • La satisfaction est liée positivement à l’ancienneté (r(01)) • On peut concevoir les choses comme suit : • L’ancienneté à un effet négatif (1 an: -1) • Les responsabilités ont un effet positif (1 point: +2) • L’ancienneté est les responsabilités sont liées: (1 an: +1) • Dans ce cas, bien que l’ancienneté ait un effet négatif, visible dans le modèle double, le r est positif à cause de R • Mais il est également évident qu’on a pu oublier un facteur important…

  40. R • On en déduit

  41. Interprétation • Le coefficient ne semble pas mauvais. On a donc raison ici d’utiliser (avec prudence toutefois !) le modèle de régression linéaire, qui permet de prévoir la satisfaction. • On peut presque affirmer que la satisfaction dépend de l’ancienneté et des responsabilités

  42. Et enfin

  43. Interprétation • On voit donc que la responsabilité est plus discriminante que l’ancienneté. • L’équation de régression ainsi obtenu permet de prédire les valeurs de S connaissant A et T, en remplaçant tout simplement A et T par leur valeurs.

  44. Et enfin

  45. Interprétation • Il semble donc que l’ancienneté ait un effet plutôt négatif. Cela provient entre autre (on a déjà donné une explication) sans doute du fait que si l’ancienneté augmente mais pas les responsabilités, cela est considéré comme un déclassement, peu ou prou. • Pour augmenter la satisfaction, il faut sans doute donner plus de responsabilités. Cela n’est pourtant pas sûr : ne donne-t-on pas déjà les responsabilités aux personnes les plus motivées ?

  46. Prudence avec la régression Quelques pièges à éviter

  47. La régression linéaire double (multiple) dépend grandement du choix des facteurs. (conditions de travail, lieu de travail) Comme dans le cas simple, corrélation n’est pas causalité R est une estimation Il n’y a rien de surprenant à obtenir un lien croissant ou décroissant selon la deuxième VI avec les mêmes données Du fait que la représentation graphique est illisible, on ne voit pas bien les valeurs aberrantes.

More Related