1 / 29

Análise de Componentes Principais

Universidade Federal Rural do Rio de Janeiro Pós-Graduação em Agronomia Ciência do Solo: CPGA-CS. Análise de Componentes Principais. Carlos Alberto Alves Varella Doutor em Engenharia Agrícola. Novembro 2011. Introdução. É a técnica mais conhecida da estatística multivariada;

neviah
Download Presentation

Análise de Componentes Principais

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Universidade Federal Rural do Rio de Janeiro Pós-Graduação em Agronomia Ciência do Solo: CPGA-CS Análise de Componentes Principais Carlos Alberto Alves Varella Doutor em Engenharia Agrícola Novembro 2011

  2. Introdução • É a técnica mais conhecida da estatística multivariada; • Pode ser utilizada para geração de índices e agrupamento de indivíduos; • Cada componente principal é uma combinação linear de todas as variáveis originais; • São independentes entre si; • É importante ter uma visão conjunta de todas ou quase todas as técnicas da estatística multivariada para resolver a maioria dos problema práticos.

  3. Construção da matriz de dados (Matriz X) • Matriz de dados para ‘p’ variáveis e ‘n’ indivíduos; • Características observadas são : X1, X2, X3, ..., Xp; • A matriz é de ordem n x p.

  4. Matriz de Covariância, S • Obtida a partir da matriz X de dados de ordem ‘n x p’; • É uma estimativa da matriz de covariância Σ da população π; • A matriz S é simétrica e de ordem ‘p x p’.

  5. Padronização dos dados • Média zero e variância 1 • Média qualquer e variância 1

  6. Variáveis Padronizadas • A matriz Z é igual a matriz de correlação R da matriz de dados X;

  7. Considerações sobre a padronização • Normalmente partimos da matriz padronizada; • O resultado a partir da matriz S pode ser diferente do resultado a partir da matriz R. • A padronização só dever ser feita quando as unidades das variáveis observadas não são as mesmas.

  8. Determinação dos Componentes Principais • Os componentes principais são determinados resolvendo-se a equação característica da matriz S ou R, isto é:

  9. Autovalores da matriz R • λ1, λ2, λ3, ..., λp são as raízes da equação característica da matriz R ou S, então: • λ1, λ2, λ3, ..., λp podem se autovalores da matriz R ou S;

  10. é ù a i 1 ê ú a ê ú ~ i 2 = a ê ú i M ê ú a ê ú ë û ip Autovetores • Para cada autovalor λi existe um autovetor:

  11. = + + + Y a X a X a X L i i 1 1 i 2 2 ip p Componente principal Yi • Sendo o autovalor = λi , então o i-ésimo componente principal é dado por:

  12. ( ) ˆ = l V ar Y i i ˆ ˆ ˆ > > > V ar ( Y ) V ar ( Y ) V ar ( Y ) L 1 2 p Propriedades dos Componentes Principais • A variância do componente principal Yi é igual ao valor do autovalor λi: • O primeiro componente é o que apresenta maior variância e assim por diante:

  13. å å å ˆ ˆ = l = V ar ( X ) V ar ( Y ) i i i ( ) ˆ = C ov Y , Y 0 i j Propriedades dos Componentes Principais • Total de variância das variáveis originais = somatório dos autovalores = total de variância dos componentes principais: • Os componentes principais não são correlacionados entre si:

  14. ( ) ˆ l l V ar Y = × = × = × i i i C 100 100 100 ( ) i p p traço S ( ) å å ˆ l V ar Y i i = = i 1 i 1 Importância de cada componente principal • Medida pela porcentagem de variância de cada componente em relação ao total

  15. ( ) ( ) ˆ ˆ + V ar Y V ar Y L × ³ < 1 k 100 70 % onde k p k ( ) å ˆ V ar Y i = i 1 Número de componentes • Não existe um modelo estatístico; • O número de ser aquele que acumula 70% ou mais de proporção da variância total.

  16. ( ) ˆ a V ar Y ( ) 1 j 1 = × = × = l × Corr X Y r a ) ( ) ) j , 1 Xj Y 1 1 j 1 ˆ V ar X V ar X j j Interpretação dos componentes • Verifica-se o Grau de influência que cada variável Xj tem sobre o componente Yi.

  17. a a a 1 p = = = 11 12 w , w , w L ) ) ) ( ) ( ) ( ) 1 2 p V ar X V ar X V ar X 1 2 p Interpretação dos componentes • Verifica-se o peso ou loading de cada variável sobre o componente

  18. Escores dos componentes • Organização dos dados

  19. Escores do primeiro componente para ‘n’ tratamentos e ‘p’ variáveis • O escore é o valor da cominação linear; • Yn1=componente 1 do tratamento n para p variáveis.

  20. Exemplo de Aplicação • Variáveis originais observadas (X1 e X2) e padronizados (Z1 e Z2). Duas variáveis para cinco tratamentos (k=5).

  21. Padronização da Variância • Os dados serão padronizados para variância 1:

  22. Matriz de Correlação • Elementos da diagonal principal igual a 1. Significa a correlação entre mesmas variáveis; • Elementos fora da diagonal principal igual a 0,5456. Significa a correlação entre as variáveis (X1,X2).

  23. Autovalores da matriz de correlação • São os elementos fora da diagonal principal da matriz. Significa a variância de cada componente principal. λ1 = 1,5456 e λ2 = 0,4544

  24. Traço da matriz de correlação • Somatório dos elementos da diagonal da matriz. Significa o total de variância. Traço(R) = 1+1=2

  25. Primeiro autovetor da matriz de correlação • São os coeficientes das variáveis padronizadas Z1, Z2. • Y1 é a combinação linear de Z1, Z2 que denominamos de primeiro componente principal

  26. Resultados da análise • Variância, ponderação, correlação, % de variância e % de variância acumulada dos componentes principais.

  27. Escores dos componentes principais

  28. 23 22 Primeiro componente (Y1) 21 20 19 -14 -13.5 -13 -12.5 -12 Segundo componente (Y2) Gráfico de dispersão • Permite visualizar se os componentes principais (Yis) são capazes de discriminar indivíduos da população () utilizando características (Xi).

  29. Aula prática com o programa computacional SAS FIM

More Related