340 likes | 980 Views
Universidade Federal Rural do Rio de Janeiro Pós-Graduação em Agronomia Ciência do Solo: CPGA-CS. Análise de Componentes Principais. Carlos Alberto Alves Varella Doutor em Engenharia Agrícola. Novembro 2011. Introdução. É a técnica mais conhecida da estatística multivariada;
E N D
Universidade Federal Rural do Rio de Janeiro Pós-Graduação em Agronomia Ciência do Solo: CPGA-CS Análise de Componentes Principais Carlos Alberto Alves Varella Doutor em Engenharia Agrícola Novembro 2011
Introdução • É a técnica mais conhecida da estatística multivariada; • Pode ser utilizada para geração de índices e agrupamento de indivíduos; • Cada componente principal é uma combinação linear de todas as variáveis originais; • São independentes entre si; • É importante ter uma visão conjunta de todas ou quase todas as técnicas da estatística multivariada para resolver a maioria dos problema práticos.
Construção da matriz de dados (Matriz X) • Matriz de dados para ‘p’ variáveis e ‘n’ indivíduos; • Características observadas são : X1, X2, X3, ..., Xp; • A matriz é de ordem n x p.
Matriz de Covariância, S • Obtida a partir da matriz X de dados de ordem ‘n x p’; • É uma estimativa da matriz de covariância Σ da população π; • A matriz S é simétrica e de ordem ‘p x p’.
Padronização dos dados • Média zero e variância 1 • Média qualquer e variância 1
Variáveis Padronizadas • A matriz Z é igual a matriz de correlação R da matriz de dados X;
Considerações sobre a padronização • Normalmente partimos da matriz padronizada; • O resultado a partir da matriz S pode ser diferente do resultado a partir da matriz R. • A padronização só dever ser feita quando as unidades das variáveis observadas não são as mesmas.
Determinação dos Componentes Principais • Os componentes principais são determinados resolvendo-se a equação característica da matriz S ou R, isto é:
Autovalores da matriz R • λ1, λ2, λ3, ..., λp são as raízes da equação característica da matriz R ou S, então: • λ1, λ2, λ3, ..., λp podem se autovalores da matriz R ou S;
é ù a i 1 ê ú a ê ú ~ i 2 = a ê ú i M ê ú a ê ú ë û ip Autovetores • Para cada autovalor λi existe um autovetor:
= + + + Y a X a X a X L i i 1 1 i 2 2 ip p Componente principal Yi • Sendo o autovalor = λi , então o i-ésimo componente principal é dado por:
( ) ˆ = l V ar Y i i ˆ ˆ ˆ > > > V ar ( Y ) V ar ( Y ) V ar ( Y ) L 1 2 p Propriedades dos Componentes Principais • A variância do componente principal Yi é igual ao valor do autovalor λi: • O primeiro componente é o que apresenta maior variância e assim por diante:
å å å ˆ ˆ = l = V ar ( X ) V ar ( Y ) i i i ( ) ˆ = C ov Y , Y 0 i j Propriedades dos Componentes Principais • Total de variância das variáveis originais = somatório dos autovalores = total de variância dos componentes principais: • Os componentes principais não são correlacionados entre si:
( ) ˆ l l V ar Y = × = × = × i i i C 100 100 100 ( ) i p p traço S ( ) å å ˆ l V ar Y i i = = i 1 i 1 Importância de cada componente principal • Medida pela porcentagem de variância de cada componente em relação ao total
( ) ( ) ˆ ˆ + V ar Y V ar Y L × ³ < 1 k 100 70 % onde k p k ( ) å ˆ V ar Y i = i 1 Número de componentes • Não existe um modelo estatístico; • O número de ser aquele que acumula 70% ou mais de proporção da variância total.
( ) ˆ a V ar Y ( ) 1 j 1 = × = × = l × Corr X Y r a ) ( ) ) j , 1 Xj Y 1 1 j 1 ˆ V ar X V ar X j j Interpretação dos componentes • Verifica-se o Grau de influência que cada variável Xj tem sobre o componente Yi.
a a a 1 p = = = 11 12 w , w , w L ) ) ) ( ) ( ) ( ) 1 2 p V ar X V ar X V ar X 1 2 p Interpretação dos componentes • Verifica-se o peso ou loading de cada variável sobre o componente
Escores dos componentes • Organização dos dados
Escores do primeiro componente para ‘n’ tratamentos e ‘p’ variáveis • O escore é o valor da cominação linear; • Yn1=componente 1 do tratamento n para p variáveis.
Exemplo de Aplicação • Variáveis originais observadas (X1 e X2) e padronizados (Z1 e Z2). Duas variáveis para cinco tratamentos (k=5).
Padronização da Variância • Os dados serão padronizados para variância 1:
Matriz de Correlação • Elementos da diagonal principal igual a 1. Significa a correlação entre mesmas variáveis; • Elementos fora da diagonal principal igual a 0,5456. Significa a correlação entre as variáveis (X1,X2).
Autovalores da matriz de correlação • São os elementos fora da diagonal principal da matriz. Significa a variância de cada componente principal. λ1 = 1,5456 e λ2 = 0,4544
Traço da matriz de correlação • Somatório dos elementos da diagonal da matriz. Significa o total de variância. Traço(R) = 1+1=2
Primeiro autovetor da matriz de correlação • São os coeficientes das variáveis padronizadas Z1, Z2. • Y1 é a combinação linear de Z1, Z2 que denominamos de primeiro componente principal
Resultados da análise • Variância, ponderação, correlação, % de variância e % de variância acumulada dos componentes principais.
23 22 Primeiro componente (Y1) 21 20 19 -14 -13.5 -13 -12.5 -12 Segundo componente (Y2) Gráfico de dispersão • Permite visualizar se os componentes principais (Yis) são capazes de discriminar indivíduos da população () utilizando características (Xi).