Modèle linéaire. Analyse numérique d’une matrice de corrélation. Transitivité et Colinéarité .

Thierry Foucart UMR 6086, Mathématiques, SP2MI, Bd Marie et Pierre Curie, BP 30179 86962 FUTUROSCOPE CHASSENEUIL CEDEX. Modèle linéaire.Analyse numérique d’une matrice de corrélation.Transitivité et Colinéarité.

1. introduction au modèle linéaire.

1.1 un exemple • étude des liaisons entre le revenu, l’âge, la CSP, le niveau de diplôme, l’orientation politique, le sexe … au sein d’une population d’électeurs. • Grand nombre de tableaux croisés : impuissance des tests classiques du c2 et de Fisher • modélisation : expression mathématique des liaisons.

1.2 modèle linéaire. Y = b0 + b1 X1 + b2 X2 + b3 X3 + b4 X4 +  Y : revenu X1 : âge X2 : CSP X3 : diplôme X4 : orientation politique • : variable d’ajustement hypothèses rigides (linéarité, indépendance des observations, normalité et homoscédasticité de la variable d’ajustement e).

1.3 interprétation du modèle • toutes choses égales par ailleurs. • recherche d’un effet propre de Xj sur Y : bj 0. • l’âge X1 augmente d’un an : le revenu moyen Y augmente toujours de b1,quelle que soient la CSP, le diplôme, l’orientation politique. • démarche implicite : on suppose a priori l’existence d’un effet propre et on le contrôle.

1.4 analyse en quatre points : • Analyse numérique de la matrice des corrélations : transitivité, corrélation partielle. • Colinéarité : instabilité des estimations • Evaluation de la régression bornée. • Régression orthogonale. Sélection des composantes principales.

2. Analyse numérique d’une matrice de corrélation

2.1 Modèle linéaire. E(Xj) = 0, V(Xj) = 1 Y = b0 + b1 X1 + … + bj Xj + ... + bp Xp +  bj = coefficients de régression théoriques e : variable résiduelle : E(e) = 0, V(e) = s2 X: matrice des observations des Xj (en colonnes) Y : matrice des observations de Y (en colonne) R : matrice symétrique p x p des corrélations entre les variables Xj

2.2 Estimateur MCO B : estimateur sans biais de variance minimale (efficace) défini par (B1, B2, ..., Bp)t. Bj : estimateur du coefficientbj Les propriétés des estimateurs dépendent de R-1

2.3. Factorisation de Cholesky. Le calcul de R-1 consiste à factoriser R puis àinverser T. Factorisation de Cholesky T matrice triangulaire supérieure La matrice R étant symétrique définie positive est inversible : la matrice T existe et est inversible. R = T T t L

2.4 Calcul de la matrice T • i = 1,..., p ti,1 = r1,i / [r1,1 ] ½ (1) i-1 "i = 2, ..., p ti,i = [ri,i -  ti,k2 ]1/2 (2) k=1 i-1 ri,j -  ti,k tj,k k = 1 "i=2,...,p-1 "j=i+1,...p tj,i = ___________________ (3) ti,i

-1  ap,p–1< rp,p–1 < bp,p-1 1 2.5 Encadrement d’un terme ap,p–1=– tp–1,p–1 [1 –  tp,k2]1/2 +  tp–1,k tp,k bp,p–1= tp–1,p–1 [1 – tp,k2]1/2 +  tp–1,k tp,k p-2 p-2 k = 1 k = 1 p-2 p-2 k = 1 k = 1 généralisation par permutation ai,j< ri,j < bi,j

2.6 terme diagonal p-1 cp,p =  tp,k2 rp,p > cp,p rj,j > cj,j cj,j = Rj2 k = 1 • Rj2 : coefficient de détermination obtenu dans • la régression de Xj par les autres variables explicatives

2.6 Exemple numérique X1 X2 X3 X4 X1 1 X2 0.5 1 X3 0.5 0.5 1 X4 -0.5 0.4 0.3 1 r1,2 ] -0.3697771 , 0.5126343 [ r4,4 ] .98 , + [ R42 = 0.98

3. Relations entre les corrélations

3.1 Transitivité de la corrélation. X Y Z X 1 R = Y 0.8 1 Z r3,1 r3,2 1 • Forte corrélation entre X et Y : r1,2 = 0.8 • Une forte corrélation entre Y et Z (r3,2 = 0.8) implique-t-elle une forte corrélation entre X et Z (r3,1 élevé) ?

3.2 Evaluation de la transitivité X Y Z X 1 R = Y 0.8 1 Z r3,1r3,2 1 • r3,2 = -0.2 r3,1 ]-0.75, 0.43[ • r3,2 = 0.6 r3,1 ] 0, 0.96 [ • r3,2 = 0.746 r3,1 ] 0.196, 1[ (>>0 pour n=100) • r3,2 = 0.919 r3,1 ] 0.499, 1[

3.3 Représentation graphique ensemble des couples (r3,2, r3,1) tels que la matrice soit définie positive (r1,2 = 0.8)

3.4 Généralisation X1 X2 X3 X4 X1 1 X20.5 1 X3 0.5 0.5 1 X4-0.5 0.4 0.3 1 • cas d’une matrice p x p : • relation entre r1,2 et r3,4 : quelle est la conséquence de la liaison entre la CSP et le diplôme (r1,2) sur la liaison entre l’âge et le revenu (r3,4) ?

3.5 Représentation graphique

3.6 Représentation graphique

3.7 Positionnement du coefficient de corrélation Evaluation de la position de ri,j dans son intervalle ] a, b [ à l’aide d’un indice variant de –1 à 1 - 1  (ri,j – (a+b)/2) / [ (b – a)/2 ]  1

3.8 corrélation partielle On obtient le coefficient de corrélation partielle : rpi,j = (ri,j – (a+b)/2) / [ (b – a)/2 ] • ri,j = (a + b)/2 si et seulement si rpi,j = 0 • rpi,j fonction linéaire croissante de ri,j • ri,j tend vers a ou b si et seulement rpi,j tend vers 1 en v.a. • relation entre rk,l et rpi,j : rk,l tend vers a (ou b) implique que rpi,j tend vers 1 en v.a. (sous conditions)

4. Colinéarités statistiques.

4.1 Application du modèle • Domaine d’application D = ensemble des valeurs vraisemblables des variables explicatives. • forte liaison entre la CSP et le diplôme : un employé a rarement un diplôme BAC+5. Le modèle ne permet pas d’estimer le revenu d’un employé titulaire d’un BAC+5. • Plus les variables explicatives sont nombreuses : • plus le risque de colinéarité est élevé. • moins la colinéarité est visible. • plus le domaine d’application est restreint.

4.2 Colinéarités statistiques • entre deux variables : leur coefficient de corrélation linéaire est proche de 1 en valeur absolue . • entre plusieurs variables : il existe une combinaison linéaire de ces variables de variance faible (d’où l’ACP).

4.3 Conséquences numériques Les termes de la matrice R-1 sont élevés, en particulier les termes diagonaux. Termes diagonaux de VB: variances des estimateurs Bj

4.4 Effets de la colinéarité statistique • Variances des estimateurs MCO des bj élevées : d’où valeurs des coefficients estimés parfois élevées. • Coefficients de corrélation entre les Bj proches de  1 : compensation entre les estimations • Conséquence : coefficients estimés parfois opposés aux coefficients théoriques • Coefficient de détermination instable.

4.5 modèle simulé. Y = 0.5 X1 + 0.5 X2 – 0.5 X3 – 0.5 X4 +  n = 100 R2 = 1 X1 X2 X3 X4 X1 1 X2 0.5 1 X3 0.5 0.5 1 X4 -0.5 0.4 0.3 1

4.6 Interprétation du modèle : Le modèle théorique correspond aux propriétés suivantes : • l’âge et la CSP ont un effet propre positif sur le revenu (b1 = b2 = 0.5 ) • le diplôme et l’orientation politique un effet propre négatif sur le revenu (b3 = b4 = - 0.5 ).

4.7 Estimations suivant les MCO(premier échantillon, n = 100) • b1 1.6339 0.8739 1.870 0.5 Estimation écart-type t vraie valeur • b2 -0.1482 0.5659 -0.262 0.5 • b3 -1.0375 0.4153 -2.498 -0.5 • b4 0.4439 0.7848 0.566 -0.5 • b0 -0.1650 0.1110 -1.486 0 R2 = 0.49

4.8 Estimations suivant les MCO(deuxième échantillon, n = 100) Estimation écart-type t vraie valeur b1 0.4638 0.7832 0.592 0.5 b2 0.3674 0.5072 0.724 0.5 b3 -0.5204 0.3722 -1.398 -0.5 b4 -0.5594 0.7033 -0.795 -0.5 b0 -0.0985 0.0995 -0.990 0 R2 = 0.50

4.9 Coefficient de déterminationTroisième exemple X1 X2 X3 Y X1 1 X20.6 1 X3 -0.279 0.6 1 Y 0.0446 0 0 1 R2 = 0.99536 (r1,2 = 0.600) R2 = 0.45260 (r1,2 = 0.599)

4.10 Variation du coefficient de détermination R42 en fonction de r1,2

5. Détection de la colinéarité. X1 X2 X3 X4 X1 1 X2 0.5 1 X3 0.5 0.5 1 X4 -0.5 0.4 0.3 1

5.1 Facteurs d’inflation • Facteurs d’inflation : fj = 1 / (1 – Rj2) (termes diagonaux de la matrice R-1) • Indice de multicolinéarité (Tomassonne) : I = (1/p)  fj (moyenne des facteurs d’inflation) En l’absence totale de colinéarité, les facteurs d’inflation et l’indice I sont égaux à 1

5.2 Valeurs propres • On note l1, l2, …, lp les valeurs propres de R classées suivant les valeurs décroissantes. Faibles valeurs propres : colinéarité statistique • L’indice de conditionnement  (Belsley et al.): k = 1/ p (ou 1/ p) • L’indice de multicolinéarité : I = (1/p)  1/ j

5.3 Application au modèle simulé • Facteurs d’inflation : b1 f1 = 62 b2 f2 = 26 b3 f3 = 14 b4 f4 = 50 • Indice de conditionnement • Valeurs propres l1=2.019 l2=1.47 l3=0.5 l4= 0.007 I = 38 • Indice de multicolinéarité  = 148.83

6. Application de la régression bornée.

6.1 Estimateur biaisé d’un paramètre m E[(X’ – m )2] = V(X’)+ [E(X’) – m]2 E[(X – m )2] = V(X) > E[(X’ – m )2]

6.2 Estimateur de la régression bornée critère des MC sous la contrainte B 2  M (Pour k = 0, on retrouve l’estimateur des MCO)

6.3 Application. • On fait varier k de 0 à 1. • on estime les coefficients de régression par l’estimateur de la régression bornée. • On construit la représentation graphique des bjen fonction de k appelée ridge trace. • On choisit k de façon que leurs valeurs soient stabilisées.

6.4 Premier exemple

6.5 estimations (k = 0.1)

6.6 Deuxième exemple

6.7 estimations (k = 0.02).

6.8 Distances entre vecteur observé et vecteur réeld2b, B =  (bj– bj)2(erreur quadratique) • 50 échantillons de taille 100 : 50 distances1) par la régression des MCO k = 02) par la régression bornée k = 0.013) par la régression bornée k = 0.05

6.9 Résultats numériques Carrés des distances entre vecteurs estimés et vecteur vrai (50 vecteurs estimés)

6.10 Les 20% plus mauvais résultats par les MCO

6.11 fonction de répartition des carrés des distances (MCO)

Modèle linéaire. Analyse numérique d’une matrice de corrélation. Transitivité et Colinéarité .

Modèle linéaire. Analyse numérique d’une matrice de corrélation. Transitivité et Colinéarité .

Presentation Transcript

Corr Science

Aplicaciones de Aire Comprimido Fuera de Planta

Les cookies Monoprix BIO

Aire extrême-orientale

CA UNAT Rhône-Alpes 5 septembre 2011

Matrice Extracellulare

AIRE LAVADO O EVAPORATIVO

Modern Chinese Literary Trans lation

Colin Powell

MATRICELE ÎN MATEMATICĂ

Type= Corr

How Clean is Your Air and What Can You Do About It

Calcul d’une DFT avec une matrice

Role of AIRE in Thymoma-associated Myasthenia Gravis ?

La circulation sur l’aire de manœuvre de l’aérodrome de Martinique Aimé Césaire

Matrice Extracellulaire et Paroi Artérielle

“UNA CASA EN EL AIRE” “UNA MICROEMPRESA EN EL AIRE”

AIRE

基于费米能差提取原子核对称能

NEUROPATHIES PERIPHERIQUES

Pôle de compétences Stratégie et gouvernance des organisations

La Contaminación del Aire