1 / 46

Componentes Principales

Componentes Principales. Karl Pearson. Objetivo: dada una matriz de datos de dimensiones nxp que representa los valores de p variables en n individuos, investigar si es posible representar los individuos mediante r variables (r<p) con poca (o ninguna si es posible) pérdida de información.

fisk
Download Presentation

Componentes Principales

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Componentes Principales

  2. Karl Pearson

  3. Objetivo: dada una matriz de datos de dimensiones nxp que representa los valores de p variables en n individuos, investigar si es posible representar los individuos mediante r variables (r<p) con poca (o ninguna si es posible) pérdida de información.

  4. Nos gustaría encontrar nuevas variables Z, combinación lineal de las X originales, tales que: • r de ellas contengan toda la información • las restantes p-r fuesen irrelevantes

  5. Primera interpretación de componentes principales: Representación gráfica óptima de los datos

  6. Proyección de un punto en una dirección: maximizar la varianza de la proyección equivale a minimizar las distancias ri xi zi xiTxi = riT ri+ zTi zi a

  7. Minimizar las distancias a la recta es lo mismo que maximizar la varianza de los puntos proyectados (estamos suponiendo datos de media cero)

  8. Segunda interpretación de componentes: Predicción óptima de los datos Encontrar una variable zi =a’Xi que sea capaz de prever lo mejor posible el vector de variables Xi en cada individuo. Generalizando, encontrar r variables, zi =Ar Xi , que permitan prever los datos Xi para cada individuo lo mejor posible, en el sentido de los mínimos cuadrados Puede demostrarse que la solución es que zi =a’Xi tenga varianza máxima.

  9. Tercera interpretación: Ejes del elipsoide que contiene a la nube de puntos Recta que minimiza las distancias ortogonales, proporciona los ejes del elipsoide que contiene a la nube de puntos Coincide con la idea de regresión ortogonal de Pearson

  10. Ejemplo. Datos de gastos de familias EPF

  11. Segundo componente

  12. Ejemplo gastos EPF

  13. Propiedades de los CP

  14. Propiedades • Conservan la varianza generalizada • Conservan la varianza efectiva

  15. Propiedades • La variabilidad explicada es la proporción del valor propio a la suma

  16. Propiedades La covarianza entre los componentes y las variables es proporcional al vector propio que define el componente Y como

  17. Propiedades • Las covarianzas entre los componentes y las variables son proporcionales al vector propio y el factor de proporcionalidad es el valor propio

  18. Propiedades

  19. Propiedades

  20. CP como predictores óptimos Queremos prever cada fila de la matriz Mediante un conjunto de variables Con el mínimo error

  21. CP como predictores óptimos Dado el vector a el coeficiente c se obtiene por regresión Con lo que Para obtener a tenemos que minimizar

  22. CP como predictores óptimos

  23. CP como predictores óptimos El resultado de la aproximación es

  24. CP como predictores óptimos Y en general, la mejor aproximación de la matriz con otra de Rango r<p es

  25. Los CP son los predictores óptimos de las variables originales • La aproximación de CP puede aplicarse a cualquier matriz aunque tengamos más variables que observaciones

  26. Propiedades • En lugar de trabajar con la matriz de varianzas podemos hacerlo con la de correlaciones • Esto equivale a trabajar con variables estandarizadas

  27. CP sobre correlaciones

  28. Ejemplo Inves

  29. Ejemplo Inves

  30. Ejemplo Medifis

  31. Ejemplo mundodes

  32. Ejemplo Mundodes

  33. Ejemplos para análisis de imagenes

  34. En lugar de tener que transmitir 16 matrices de N2 Pixeles transmitimos un vector 16x3 con los valores de los componentes y una matriz 3xN2 con los vectores propios De esta manera ahorramos: Ahorramos el 70% . Si en lugar de 16 imágenes tenemos 100 el ahorro puede ser del 95%

  35. Generalización • Buscar direcciones de proyección interesantes desde algun punto de vista. • Esta es la idea de Projection Pursuit. Buscar proyecciones que produzcan distribuciones de los datos tan alejadas de la normalidad como sea posible.

More Related