1 / 18

Tema 8: Análisis Multivariante

Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también cualitativas) a la vez. Esencialmente, vamos a ver tres problemas:. 1.- Reducir el número de variables (Análisis en componentes

Download Presentation

Tema 8: Análisis Multivariante

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tema 8: Análisis Multivariante

  2. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también cualitativas) a la vez. Esencialmente, vamos a ver tres problemas: 1.- Reducir el número de variables (Análisis en componentes principales). 2.- Dada una variable clasificadora (cualitativa), predecir el valor de la variable, para un individuo dado, a partir de un conjunto de variables numéricas (Análisis Discriminante). 3.- Distinguir grupos (clusters) entre los individuos de la población. (Análisis Cluster)

  3. EJEMPLO: Hemos recogido datos sobre la incidencia de incendios y conatos en distintas provincias españolas…

  4. PREGUNTA1: ¿Se puede “resumir” la información proporcionada por los datos utilizando una cantidad menor de variables? ¿Podemos conformar “índices, a partir de ciertas variables”? (Análisis en componentes principales) PREGUNTA2: ¿Qué grupos homogéneos podemos distinguir entre las provincias? (Análisis cluster) PREGUNTA3: Suponiendo que hemos clasificado a las provincias en tres grupos (A, B y C), ¿cómo identificar las variables más in- fluyentes a la hora de asignar un grupo u otro a una cierta provincia? Dada una zona de otro país, ¿cómo decidir a cuál de los grupos A, B, C se parece más? (Análisis Discriminante)

  5. Análisis en Componentes Principales. Y1, Y2, …, Yn X1, X2, …, Xn Componentes principales Variables iniciales (son cuantitativas) 1.- Mismo número de variables, pero ordenadas según % de “información” retenido. 2.- Independientes. 3.- En principio, son artificiales, pero con frecuencia algunas de ellas pueden ser interpretadas a partir de los pesos. 4.- La relación entre las Y’s y las X’s es del tipo: 1.- Número elevado de variables. 2.- Existen correlaciones entre ellas (info. redundante) 3.- Tienen significación “clara” Yj=a1,jX1+ a2,jX2+ … + an,jXn pesos

  6. -En la práctica, uno se queda con el número de componentes principales • Y1,…,Ym necesario para retener un porcentaje suficiente de información • original. Se entiende de ese modo que se está perdiendo parte de • información, pero a cambio de mayor claridad/concisión (menor • número de variables). En suma, el proceso permite reducir el número • de variables. • Una aplicación útil es la elaboración de índices a partir de un conjunto • de variables. Statgraphics

  7. 2. Análisis Discriminante. X1, X2,…,Xn, Y Factor de clasificación (var. Cualitativa o cuant. Discreta) Variables cuantitativas (Y puede ser el grado de satisfacción de un usuario de una biblioteca, el hábito de lectura, el tema de un artículo o un libro, el periodo histórico, la gravedad de una enfermedad, etc.) PREGUNTA1: ¿Cuáles son las variables Xi que permiten discriminar (predecir) mejor el valor de Y (es decir, las más “influyentes”: obsérvese que si Y es cuantitativa, esta pregunta se puede responder también utilizando regresión múltiple).

  8. 2. Análisis Discriminante. X1, X2,…,Xn, Y Factor de clasificación (var. Cualitativa o cuant. Discreta) Variables cuantitativas PREGUNTA1: ¿Cuáles son las variables Xi que permiten discriminar (predecir) mejor el valor de Y (es decir, las más “influyentes”: obsérvese que si Y es cuantitativa, esta pregunta se puede responder también utilizando regresión múltiple). PREGUNTA2: Dado un nuevo individuo que presenta ciertos valores Para las variables X1,…,Xn, predecir el valor de Y para dicho individuo.

  9. EJEMPLO: Hemos seleccionado cinco términos clave que aparecen típicamente, con distintas frecuen- cias, en textos históricos, filosóficos y filológicos. Después, hemos regis- trado la frecuencia de aparición de dichos términos clave en 30 artículos de dichas materias, y hemos anotado el tema (FILOSOFIA, HISTORIA, FILOLOGIA) de cada uno de esos artículos. Nos preguntamos: 1.- ¿Cuáles son los términos clave que permiten clasificar mejor un artículo dentro de cada área (Filosofía, Historia o Filología)? ¿Es realmente efectivo? 2.- ¿Dónde encuadrar (de manera “automática”) un artículo, conocidas las frecuencias de dichos términos “clave” en dicho artículo?

  10. PREGUNTA1: ¿Cuáles son las variables Xi que permiten discriminar (predecir) mejor el valor de Y (es decir, las más “influyentes”: obsérvese que si Y es cuantitativa, esta pregunta se puede responder también utilizando regresión múltiple). Funciones discriminantes: F1=a1,1X1+…+a1,nXn F2=a2,1X1+…+a2,nXn … pesos • La técnica puede funcionar o no. • Puede haber una o varias funciones discriminantes. • Están ordenadas por su “poder discriminante” (su “efectividad” • para clasificar a un individuo en un grupo determinado). • Dentro de una función discriminante, las variables más influyentes • son las que tienen mayor peso.

  11. PREGUNTA2: Dado un nuevo individuo que presenta ciertos valores Para las variables X1,…,Xn, predecir el valor de Y para dicho individuo. Funciones de clasificación: Si la variable clasificadora Y tiene j valores distintos (niveles), tendremos j funciones de clasificación: S1= c1,0+ c1,1X1+ … + c1,nXn .... Sj = cj,0+ cj,1X1+ … + cj,nXn Dado un nuevo individuo que presenta unos ciertos valores para X1,…,Xn, sustituimos dichos valores en las fórmulas de arriba, y vemos cuál de esas expresiones es la mayor; el nivel de Y al que corresponda dicha expresión, será el valor predicho para Y.

  12. Statgraphics

  13. 3. Análisis Cluster. A partir de los valores de X1,…, Xn registrados sobre una muestra de una población, queremos establecer grupos “homogéneos” dentro de la población. Dichos “grupos homogéneos” reciben el nombre de clusters. Ejemplo: Determinación de perfiles de usuarios (en general, de “clientes”). X2 X1

  14. 3. Análisis Cluster. A partir de los valores de X1,…, Xn registrados sobre una muestra de una población, queremos establecer grupos “homogéneos” dentro de la población. Dichos “grupos homogéneos” reciben el nombre de clusters. Ejemplo: Determinación de perfiles de usuarios (en general, de “clientes”). X2 Si buscamos tres clusters… X1

  15. 3. Análisis Cluster. A partir de los valores de X1,…, Xn registrados sobre una muestra de una población, queremos establecer grupos “homogéneos” dentro de la población. Dichos “grupos homogéneos” reciben el nombre de clusters. Ejemplo: Determinación de perfiles de usuarios (en general, de “clientes”). X2 Si buscamos cuatro clusters… X1

  16. El análisis cluster se basa en la detección de “afinidades” entre individuos; para nosotros, cada individuo viene representado por (x1,…,xn), y la noción intuitiva de “afinidad” se materializa en el concepto matemático de DISTANCIA. En este sentido, antes de realizar un análisis cluster, debemos fijar (elegir): • Distancia entre individuos • Distancia entre grupos. • Número de clusters. Diferentes elecciones conducen en general a distintos resultados, que han de interpretarse. Buscamos los resultados “más significativos” posibles.

  17. Fin del Temario Statgraphics

More Related