Analyse en Composantes Principales A.C.P.

Analyse en Composantes PrincipalesA.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).

Introduction • L’ACP, introduite par K. Pearson et Thurston (années 20), est une technique des statistiques descriptives destinée à l’analyse des données multidimensionnelles. • Elle permet de réduire la dimension de l’espace des descripteurs. • On cherche à réduire le nombre de descripteurs (variables) avec le minimum de perte d’information et préservant les relations existant déjà avec entre les différents descripteurs.

Position du Problème • On a observé p variables sur n individus. Dans la pratique cela représente un tableau à np entrées qu’il est difficile, voire impossible à lire, pour extraire les informations les plus pertinentes. • Exemple artificiel : Supposons qu’on a observé le jeu de données suivant :

Exemple(suite)

Rappels • Matrice de variance-covariance : mesure la liaison entre les différents descripteurs Σ= où cov(Xi, Xi) = Var(Xi). • Matrice de corrélation : même chose que Σ sauf qu’il s’agit d’un paramètre sans dimension R = (Rij)i,j

Matrice de corrélation

Commentaires Le tableau 1 est difficile à lire (en particulier lorsqu’on a plusieurs variables et sujets). • Par conséquent les relations entre les différents descripteurs sont indécelables à première vue. • La matrice de corrélation (matrice de liaison sans dimension) montre que la variable 1 est fortement corrélée avec la variable 2 ; il en est de même pour les variables 3 et 4.

Comment se fait la réduction de la dimension tout en préservant les liaisons entre les différents descripteurs ? • Les variables de départ sont remplacées par « des vecteurs propres » de la matrice Σ ou de la matrice R, appelés Composantes principales. • Y-a-t-il un critère d’arrêt ? généralement on s’arrête quand au moins 75% de la variance est expliquée par la variance cumulée par les CP.

Qu’est-ce qu’un vecteur propre ? •  est une valeur propre de la matrice A si et seulement si Av = v • Le vecteur v dans la relation ci-dessus est appelé vecteur associé à  • Les valeurs propres s’obtiennent en résolvant le système d’équations det(A- I) = 0. • Le nombre de valeurs propres, 1> … > p, est égal au nombre de lignes = nombre de colonnes de la matrice A • Important : La somme des valeurs propres de A est égale à la variance contenue dans l’ensemble des données.

Expression des composantes principales • D’un point de vue pratique les composantes principales s’écrivent Fj = 1X1+….+ pXp c’est-à-dire que Fj est une combinaison linéaire des variables initiales X1,… , Xp. En plus de cet aspect calculatoire on doit pouvoir faire des affirmations sur la qualité de la réduction et la qualité de la représentation graphique.

Représentation graphique • Lorsque les différentes CP ont été trouvées on peut représenter les différentes variables et les différents individus dans le plan CP1, CP2 comme illustré ci-dessous

Interprétation • Chaque valeur propre représente la variance prise en compte par la composante principale correspondante. • Pour l’exemple on obtient : • Ici les deux premières composantes rendent compte de 0,5003+0,4917 = 0,9920 = 99,2 % de la variance totale. • Ce qui veut dire que les 4 descripteurs peuvent être remplacés par les 2 premières composantes tout en préservant la quasi-totalité de l’information (réduction).

Résultats des calculs • Scores des individus : il s’agit des valeurs prises par les composantes principales sur les individus. • Ici

Résultats (suite I) • Saturations des variables : il s’agit des coefficients de corrélation entre les variables et les composantes principales. • La première composante est surtout corrélée avec les deux derniers descripteurs

Résultats (suite II) • Contribution (relative) d’un individu à la formation d’une composante principale : • CTR(sujet 1, CP1)= • Qualité de la représentation : pour sujet 1 et CP2 QLT =

Résultats (suite II) • Qualité de la représentation d’une variable à la formation d’une CP : contribution de la première variable à la formation de la première composante principale CTR =

Interprétation • Scores et saturations ne sont pas exprimés dans la même unité de mesure. • Interpréter chaque axe : part de la variance sont il rend compte, variables avec lesquelles il est corrélé. • Individus proches de l’origine : ils ont peu contribué à l’inertie. • Interpréter plutôt les oppositions marquées entre individus.

Exemple • Analyser les données Budget-temps (voir feuilles de TD) MERCI de votre attention !

Analyse en Composantes Principales A.C.P.

Analyse en Composantes Principales A.C.P.

Presentation Transcript

PRINCIPALES ENFOQUES EN LA FORMACIÓN

Les hyperréels en analyse

Analyse arbeidsmotieven en mediagedrag

ANALYSE DE DOCUMENT EN HISTOIRE

Composantes de programme

3 composantes principales du système circulatoire

Principales Ferias Turísticas en Perú

PRINCIPALES ACTIVIDADES TURISTICAS EN COLOMBIA

REGIOSCREENING Inventarisatie en Analyse

Besøksstatistikk – en analyse:

Principales Novedades en Factura Electrónica

Principales hitos en Solvencia II

Principales pathologies en Ophtalmologie

Probleem- en risico analyse handhaving

Principales medidas en Epidemiologia

Principales Ciclovias en CHIMBOTE

Composantes matérielles/logicielles en RV

PRINCIPALES ACTIVIDADES PRODUCTIVAS EN GUATEMALA.

Les composantes du e.learning

Application des méthodes de décomposition en composantes principales à la climatologie

Application des méthodes de décomposition en composantes principales à la climatologie

Principales reformas electorales en México