510 likes | 829 Views
6. ANÃLISIS DISCRIMINANTE. Introducción Regla discriminante lineal de Fisher Versión poblacional Versión muestral El problema general de clasificación para dos poblaciones Probabilidad a priori Costes de clasificación Coste esperado por mala clasificación
E N D
6. ANÁLISIS DISCRIMINANTE • Introducción • Regla discriminante lineal de Fisher • Versión poblacional • Versión muestral • El problema general de clasificación para dos poblaciones • Probabilidad a priori • Costes de clasificación • Coste esperado por mala clasificación • Regiones óptimas 1
6. ANÁLISIS DISCRIMINANTE • Clasificación para dos poblaciones normales • Versión poblacional • Versión muestral • Clasificación general para g poblaciones • Costes de clasificación • Coste esperado por mala clasificación • Regiones óptimas 2
6. ANÁLISIS DISCRIMINANTE • Clasificación para g poblaciones normales • Score cuadrático de clasificación • Versión muestral • Clasificación para g poblaciones normales con matrices de covarianzas iguales • Score lineal de clasificación • Versión muestral 3
Introducción Supervisada: Análisis discriminante Clasificación No supervisada: Análisis de conglo- merados (clustering) El análisis discriminante es una técnica de clasificación para asignar nuevas observaciones a grupos ya conocidos. 4 ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher Sea la variable y dos poblaciones y Sean y Se busca una combinación lineal de la forma que sea óptima para clasificar una observación en alguna de las dos poblaciones. 5 ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher Se tiene que 6 ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher Hay que buscar l que optimice la separación entre las dos poblaciones: se maximiza la separación entre las medias: 7 ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher Si se maximiza sin restricciones, el máximo puede no ser finito: se maximiza dividiendo por la varianza La solución que se obtiene es: Nota: es común. Función discriminante lineal de Fisher 8 ANÁLISIS DISCRIMINANTE
π2 Y (mejor recta) 2 π1 Proyección de 2 1 Proyección de 1 Regla discriminante lineal de Fisher En el caso en que , se tiene: l1y l2determinan la recta 9 ANÁLISIS DISCRIMINANTE
2 Y=l’X Y2 1 x0 m l’x0 Y1 Regla discriminante lineal de Fisher El punto medio es: • Dada una nueva observación x0: • Asignar x0 a π1 si • Asignar x0 a π2si 10 ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher Proposición 11 ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher: Versión muestral Dadas dos poblaciones y , se tienen las siguientes matrices de datos: y sean Nota: no es necesario n1=n2 12 ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher: Versión muestral La regla lineal es: Función discriminante lineal muestral de Fisher que es óptima para clasificar entre las dos poblaciones. El punto medio es: 13 ANÁLISIS DISCRIMINANTE
Regla discriminante lineal de Fisher: Versión muestral Y=l’X Y2 x0 m l’x0 Y1 • Dada una nueva observación x0 , la regla de clasificación • sería: • Asignar x0 a π1 si • Asignar x0a π2si 14 ANÁLISIS DISCRIMINANTE
Clasificación Ejemplo Calcular la función de discriminación lineal. Clasificar la observación 15 ANÁLISIS DISCRIMINANTE
El problema general de clasificación para dos poblaciones Dada la variable y dos poblaciones y siendo f1 la función de densidad de y f2 la función de densidad de 16 ANÁLISIS DISCRIMINANTE
En f2 f1 R1 R2 El problema general de clasificación para dos poblaciones El problema es separar el espacio muestral en dos regiones R1 y R2 disjuntas tales que: 17 ANÁLISIS DISCRIMINANTE
El problema general de clasificación para dos poblaciones • Probabilidad de clasificar en si viene de • Probabilidad de clasificar en si viene de • Probabilidad de clasificar en si viene de • Probabilidad de clasificar en si viene de 18 ANÁLISIS DISCRIMINANTE
El problema general de clasificación para dos poblaciones • p1 : probabilidad de que venga de • p2 : probabilidad de que venga de • P(clasificar correctamente en ) = • P(clasificar incorrectamente en ) = • P(clasificar correctamente en ) = • P(clasificar incorrectamente en ) = 19 ANÁLISIS DISCRIMINANTE
VIENE DE 0 C(1&2) CLASIFICAR EN C(2&1) 0 El problema general de clasificación para dos poblaciones El objetivo es encontrar la mejor regla de clasificación, que proporcionará las regiones que minimicen el coste esperado por mala clasificación. 20 ANÁLISIS DISCRIMINANTE
El problema general de clasificación para dos poblaciones El coste esperado por mala clasificación para dos regiones es: El objetivo es hallar dos regiones que minimicen el CEMC. 21 ANÁLISIS DISCRIMINANTE
El problema general de clasificación para dos poblaciones Teorema Las regiones R1 y R2 que minimizan el coste esperado por mala clasificación son: 22 ANÁLISIS DISCRIMINANTE
El problema general de clasificación para dos poblaciones Corolario p1 = p2 C(1&2) = C(2&1) 23 ANÁLISIS DISCRIMINANTE
El problema general de clasificación para dos poblaciones • p1= p2y C(1&2) = C(2&1) 24 ANÁLISIS DISCRIMINANTE
Clasificación para dos poblaciones normales En este caso se conoce la función de densidad para Dada la variable y las dos poblaciones con , respectivamente, el objetivo es hallar las dos regiones R1 y R2que minimizan el CEMC. 25 ANÁLISIS DISCRIMINANTE
Clasificación para dos poblaciones normales Teorema Las regiones R1 y R2 que minimizan el CEMC son: siendo 26 ANÁLISIS DISCRIMINANTE
Clasificación para dos poblaciones normales Observación • Si la regla de clasificación es cuadrática. • Si se obtienen las regiones: 27 ANÁLISIS DISCRIMINANTE
Clasificación para dos poblaciones normales Si se considera , entonces se llega a la regla discriminante lineal de Fisher. 28 ANÁLISIS DISCRIMINANTE
Clasificación para dos poblaciones normales Versión muestral Dadas dos poblaciones y las matrices de datos Nota: no es necesario n1= n2 29 ANÁLISIS DISCRIMINANTE
Clasificación para dos poblaciones normales: Versión muestral estimando y , se tiene: 30 ANÁLISIS DISCRIMINANTE
Clasificación general para g poblaciones Sea la variable y las g poblaciones siendo sus respectivas funciones de densidad y las probabilidades a priori. 31 ANÁLISIS DISCRIMINANTE
Clasificación general para g poblaciones El coste de clasificar en viniendo de es C(i&k), siendo C(i&i) = 0, Las g regiones en las se puede clasificar vienen dadas por: 32 ANÁLISIS DISCRIMINANTE
Clasificación general para g poblaciones La probabilidad de clasificar en si viene de es La probabilidad de clasificar en si viene de es 33 ANÁLISIS DISCRIMINANTE
VIENE DE 0 C(1&2) C(1&g) C(2&1) 0 C(2&g) CLASIFICAR EN C(g&1) C(g&2) 0 Clasificación general para g poblaciones El objetivo es encontrar la mejor regla de clasificación, que dará lugar a las regiones que hacen mínimo el coste por mala clasificación. 34 ANÁLISIS DISCRIMINANTE
Clasificación general para g poblaciones El coste esperado por mala clasificación dado que la observación viene de es: En general, el coste esperado por mala clasificación es: 35 ANÁLISIS DISCRIMINANTE
Clasificación general para g poblaciones El CEMC también se puede escribir como: 36 ANÁLISIS DISCRIMINANTE
Clasificación general para g poblaciones Teorema El CEMC se minimiza asignando la observación x a la población para la cual Corolario Si todos los costes de clasificación son iguales, el CEMC se minimiza cuando es mínima, es decir, cuando se clasifica x en la población donde es máxima. 37 ANÁLISIS DISCRIMINANTE
Clasificación general para g poblaciones La región de puntos que se clasifican en la población i es 38 ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales En este caso se conoce la función de densidad para Dada la variable y las g poblaciones con respectivamente, el objetivo es hallar las g regiones R1,R2 ,...,Rg que minimizan el CEMC. 39 ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales La función de densidad en el caso normal para las poblaciones es: Si los costes son iguales, hay que maximizar . 40 ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales Se clasifica x en si , es decir, si: 41 ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales Como las matrices de covarianzas son distintas, se tiene una expresión cuadrática: Score cuadrático de clasificación Se clasifica x en si Nota: Si no hay probabilidades a priori, log pi = 0. 42 ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales Versión muestral Sea y sean g poblaciones conocidas . g matrices de datos, de tamaños n1, n2,...,ng, no necesariamente iguales: 43 ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales Versión muestral Sean 44 ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales Versión muestral La función de densidad estimada es: El score cuadrático de clasificación es: Se clasifica x en si , es decir, si 45 ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales con matrices de covarianzas iguales Score lineal de clasificación • Nota: • si las matrices de covarianzas son: • Iguales: caso lineal • Distintas: caso cuadrático Sean Si todas las poblaciones tienen distribución normal, el score cuadrático sería: 46 ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales con matrices de covarianzas iguales: Score lineal de clasificación Si desarrollando la forma cuadrática se llega al score lineal de clasificación. 47 ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales con matrices de covarianzas iguales Score lineal de clasificación Para clasificar, hay que maximizar Score lineal de clasificación La regla de clasificación por tanto, es clasificar x en si 48 ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales con matrices de covarianzas iguales Versión muestral Sea la variable y las g poblaciones con distribuciones estimadas respectivamente. Si se estima con Si=S, el score lineal de clasificación queda Score lineal muestral de clasificación 49 ANÁLISIS DISCRIMINANTE
Clasificación para g poblaciones normales con matrices de covarianzas iguales Versión muestral La regla de clasificación es asignar x a si es el estimador de la media y S es el estimador de : 50 ANÁLISIS DISCRIMINANTE