730 likes | 1k Views
Thierry Foucart UMR 6086, Mathématiques, SP2MI, Bd Marie et Pierre Curie, BP 30179 86962 FUTUROSCOPE CHASSENEUIL CEDEX. Modèle linéaire. Analyse numérique d’une matrice de corrélation. Transitivité et Colinéarité . 1. introduction au modèle linéaire. . 1.1 un exemple.
E N D
Thierry Foucart UMR 6086, Mathématiques, SP2MI, Bd Marie et Pierre Curie, BP 30179 86962 FUTUROSCOPE CHASSENEUIL CEDEX. Modèle linéaire.Analyse numérique d’une matrice de corrélation.Transitivité et Colinéarité.
1.1 un exemple • étude des liaisons entre le revenu, l’âge, la CSP, le niveau de diplôme, l’orientation politique, le sexe … au sein d’une population d’électeurs. • Grand nombre de tableaux croisés : impuissance des tests classiques du c2 et de Fisher • modélisation : expression mathématique des liaisons.
1.2 modèle linéaire. Y = b0 + b1 X1 + b2 X2 + b3 X3 + b4 X4 + Y : revenu X1 : âge X2 : CSP X3 : diplôme X4 : orientation politique • : variable d’ajustement hypothèses rigides (linéarité, indépendance des observations, normalité et homoscédasticité de la variable d’ajustement e).
1.3 interprétation du modèle • toutes choses égales par ailleurs. • recherche d’un effet propre de Xj sur Y : bj 0. • l’âge X1 augmente d’un an : le revenu moyen Y augmente toujours de b1,quelle que soient la CSP, le diplôme, l’orientation politique. • démarche implicite : on suppose a priori l’existence d’un effet propre et on le contrôle.
1.4 analyse en quatre points : • Analyse numérique de la matrice des corrélations : transitivité, corrélation partielle. • Colinéarité : instabilité des estimations • Evaluation de la régression bornée. • Régression orthogonale. Sélection des composantes principales.
2.1 Modèle linéaire. E(Xj) = 0, V(Xj) = 1 Y = b0 + b1 X1 + … + bj Xj + ... + bp Xp + bj = coefficients de régression théoriques e : variable résiduelle : E(e) = 0, V(e) = s2 X: matrice des observations des Xj (en colonnes) Y : matrice des observations de Y (en colonne) R : matrice symétrique p x p des corrélations entre les variables Xj
2.2 Estimateur MCO B : estimateur sans biais de variance minimale (efficace) défini par (B1, B2, ..., Bp)t. Bj : estimateur du coefficientbj Les propriétés des estimateurs dépendent de R-1
2.3. Factorisation de Cholesky. Le calcul de R-1 consiste à factoriser R puis àinverser T. Factorisation de Cholesky T matrice triangulaire supérieure La matrice R étant symétrique définie positive est inversible : la matrice T existe et est inversible. R = T T t L
2.4 Calcul de la matrice T • i = 1,..., p ti,1 = r1,i / [r1,1 ] ½ (1) i-1 "i = 2, ..., p ti,i = [ri,i - ti,k2 ]1/2 (2) k=1 i-1 ri,j - ti,k tj,k k = 1 "i=2,...,p-1 "j=i+1,...p tj,i = ___________________ (3) ti,i
-1 ap,p–1< rp,p–1 < bp,p-1 1 2.5 Encadrement d’un terme ap,p–1=– tp–1,p–1 [1 – tp,k2]1/2 + tp–1,k tp,k bp,p–1= tp–1,p–1 [1 – tp,k2]1/2 + tp–1,k tp,k p-2 p-2 k = 1 k = 1 p-2 p-2 k = 1 k = 1 généralisation par permutation ai,j< ri,j < bi,j
2.6 terme diagonal p-1 cp,p = tp,k2 rp,p > cp,p rj,j > cj,j cj,j = Rj2 k = 1 • Rj2 : coefficient de détermination obtenu dans • la régression de Xj par les autres variables explicatives
2.6 Exemple numérique X1 X2 X3 X4 X1 1 X2 0.5 1 X3 0.5 0.5 1 X4 -0.5 0.4 0.3 1 r1,2 ] -0.3697771 , 0.5126343 [ r4,4 ] .98 , + [ R42 = 0.98
3.1 Transitivité de la corrélation. X Y Z X 1 R = Y 0.8 1 Z r3,1 r3,2 1 • Forte corrélation entre X et Y : r1,2 = 0.8 • Une forte corrélation entre Y et Z (r3,2 = 0.8) implique-t-elle une forte corrélation entre X et Z (r3,1 élevé) ?
3.2 Evaluation de la transitivité X Y Z X 1 R = Y 0.8 1 Z r3,1r3,2 1 • r3,2 = -0.2 r3,1 ]-0.75, 0.43[ • r3,2 = 0.6 r3,1 ] 0, 0.96 [ • r3,2 = 0.746 r3,1 ] 0.196, 1[ (>>0 pour n=100) • r3,2 = 0.919 r3,1 ] 0.499, 1[
3.3 Représentation graphique ensemble des couples (r3,2, r3,1) tels que la matrice soit définie positive (r1,2 = 0.8)
3.4 Généralisation X1 X2 X3 X4 X1 1 X20.5 1 X3 0.5 0.5 1 X4-0.5 0.4 0.3 1 • cas d’une matrice p x p : • relation entre r1,2 et r3,4 : quelle est la conséquence de la liaison entre la CSP et le diplôme (r1,2) sur la liaison entre l’âge et le revenu (r3,4) ?
3.7 Positionnement du coefficient de corrélation Evaluation de la position de ri,j dans son intervalle ] a, b [ à l’aide d’un indice variant de –1 à 1 - 1 (ri,j – (a+b)/2) / [ (b – a)/2 ] 1
3.8 corrélation partielle On obtient le coefficient de corrélation partielle : rpi,j = (ri,j – (a+b)/2) / [ (b – a)/2 ] • ri,j = (a + b)/2 si et seulement si rpi,j = 0 • rpi,j fonction linéaire croissante de ri,j • ri,j tend vers a ou b si et seulement rpi,j tend vers 1 en v.a. • relation entre rk,l et rpi,j : rk,l tend vers a (ou b) implique que rpi,j tend vers 1 en v.a. (sous conditions)
4.1 Application du modèle • Domaine d’application D = ensemble des valeurs vraisemblables des variables explicatives. • forte liaison entre la CSP et le diplôme : un employé a rarement un diplôme BAC+5. Le modèle ne permet pas d’estimer le revenu d’un employé titulaire d’un BAC+5. • Plus les variables explicatives sont nombreuses : • plus le risque de colinéarité est élevé. • moins la colinéarité est visible. • plus le domaine d’application est restreint.
4.2 Colinéarités statistiques • entre deux variables : leur coefficient de corrélation linéaire est proche de 1 en valeur absolue . • entre plusieurs variables : il existe une combinaison linéaire de ces variables de variance faible (d’où l’ACP).
4.3 Conséquences numériques Les termes de la matrice R-1 sont élevés, en particulier les termes diagonaux. Termes diagonaux de VB: variances des estimateurs Bj
4.4 Effets de la colinéarité statistique • Variances des estimateurs MCO des bj élevées : d’où valeurs des coefficients estimés parfois élevées. • Coefficients de corrélation entre les Bj proches de 1 : compensation entre les estimations • Conséquence : coefficients estimés parfois opposés aux coefficients théoriques • Coefficient de détermination instable.
4.5 modèle simulé. Y = 0.5 X1 + 0.5 X2 – 0.5 X3 – 0.5 X4 + n = 100 R2 = 1 X1 X2 X3 X4 X1 1 X2 0.5 1 X3 0.5 0.5 1 X4 -0.5 0.4 0.3 1
4.6 Interprétation du modèle : Le modèle théorique correspond aux propriétés suivantes : • l’âge et la CSP ont un effet propre positif sur le revenu (b1 = b2 = 0.5 ) • le diplôme et l’orientation politique un effet propre négatif sur le revenu (b3 = b4 = - 0.5 ).
4.7 Estimations suivant les MCO(premier échantillon, n = 100) • b1 1.6339 0.8739 1.870 0.5 Estimation écart-type t vraie valeur • b2 -0.1482 0.5659 -0.262 0.5 • b3 -1.0375 0.4153 -2.498 -0.5 • b4 0.4439 0.7848 0.566 -0.5 • b0 -0.1650 0.1110 -1.486 0 R2 = 0.49
4.8 Estimations suivant les MCO(deuxième échantillon, n = 100) Estimation écart-type t vraie valeur b1 0.4638 0.7832 0.592 0.5 b2 0.3674 0.5072 0.724 0.5 b3 -0.5204 0.3722 -1.398 -0.5 b4 -0.5594 0.7033 -0.795 -0.5 b0 -0.0985 0.0995 -0.990 0 R2 = 0.50
4.9 Coefficient de déterminationTroisième exemple X1 X2 X3 Y X1 1 X20.6 1 X3 -0.279 0.6 1 Y 0.0446 0 0 1 R2 = 0.99536 (r1,2 = 0.600) R2 = 0.45260 (r1,2 = 0.599)
4.10 Variation du coefficient de détermination R42 en fonction de r1,2
5. Détection de la colinéarité. X1 X2 X3 X4 X1 1 X2 0.5 1 X3 0.5 0.5 1 X4 -0.5 0.4 0.3 1
5.1 Facteurs d’inflation • Facteurs d’inflation : fj = 1 / (1 – Rj2) (termes diagonaux de la matrice R-1) • Indice de multicolinéarité (Tomassonne) : I = (1/p) fj (moyenne des facteurs d’inflation) En l’absence totale de colinéarité, les facteurs d’inflation et l’indice I sont égaux à 1
5.2 Valeurs propres • On note l1, l2, …, lp les valeurs propres de R classées suivant les valeurs décroissantes. Faibles valeurs propres : colinéarité statistique • L’indice de conditionnement (Belsley et al.): k = 1/ p (ou 1/ p) • L’indice de multicolinéarité : I = (1/p) 1/ j
5.3 Application au modèle simulé • Facteurs d’inflation : b1 f1 = 62 b2 f2 = 26 b3 f3 = 14 b4 f4 = 50 • Indice de conditionnement • Valeurs propres l1=2.019 l2=1.47 l3=0.5 l4= 0.007 I = 38 • Indice de multicolinéarité = 148.83
6.1 Estimateur biaisé d’un paramètre m E[(X’ – m )2] = V(X’)+ [E(X’) – m]2 E[(X – m )2] = V(X) > E[(X’ – m )2]
6.2 Estimateur de la régression bornée critère des MC sous la contrainte B 2 M (Pour k = 0, on retrouve l’estimateur des MCO)
6.3 Application. • On fait varier k de 0 à 1. • on estime les coefficients de régression par l’estimateur de la régression bornée. • On construit la représentation graphique des bjen fonction de k appelée ridge trace. • On choisit k de façon que leurs valeurs soient stabilisées.
6.8 Distances entre vecteur observé et vecteur réeld2b, B = (bj– bj)2(erreur quadratique) • 50 échantillons de taille 100 : 50 distances1) par la régression des MCO k = 02) par la régression bornée k = 0.013) par la régression bornée k = 0.05
6.9 Résultats numériques Carrés des distances entre vecteurs estimés et vecteur vrai (50 vecteurs estimés)