Capítulo 2 Aproximación Paramétrica

Capítulo 2 Aproximación Paramétrica Reconocimiento de Formas en Data Mining Prof: Héctor Allende

Contenidos • Introducción • La función de densidad de probabilidad normal • Funciones discriminantes para la f.d.p normal • Diseño de clasificadores lineales y cuadráticos • El problema de la estimación de los parámetros • Detección de puntos dudosos Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción • Objeto de estudio: Clasificación supervisada paramétrica Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción • Supervisado: El aprendizaje supervisado requiere disponer de un conjunto de prototipos (conjunto de entrenamiento) a partir del cual construiremos y evaluaremos un clasificador. • Paramétrico: Se supone un completo conocimiento a priori de la estructura estadística de las clases. Podemos modelar las clases mediante funciones de densidad de probabilidad conocidas. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción • Clasificador de Bayes: • La función de densidad normal (gaussiana) es la más tratada en la literatura. Propiedades: 1. Parámetros que especifican la distribución. La f.d.p. Normal queda completamente especificada por pocos parámetros. 2. Incorrelación e independencia. Dado un conjunto de patrones que siguen una distribución normal, si las variables asociadas están incorreladas, entonces son independientes. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción 1. Introducción 3. Justificación física. Aproximación razonable para la mayor parte de los datos tomados de la naturaleza. La función de densidad normal es acertada en situaciones en las que un conjunto de patrones de una determinada clase toman valores en un rango contínuo y alrededor de un patrón promedio. Considera que los patrones de clases diferentes tienen distintos valores pero los valores de los patrones de una clase son lo más parecidos posibles. 4. Densidades marginales y condicionales. Las densidades marginales y condicionadas de una distribución normal son también normales. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción 5. Invarianza frente a transformaciones lineales. La distribución que sigue cualquier combinación lineal de una variable aleatoria normal es también normal (con diferentes parámetros). Siempre puede encontrarse, para una distribución normal, un nuevo conjunto de ejes tal que las nuevas variables son independientes en este nuevo sistema. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal • 2.1 La f.d.p. normal unidimensional. • Forma funcional. • donde • es la media de la clase i • es la varianza de la clase i Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal Fdp normales de media 0 y varianzas: 0.15, 1 y 2 Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal • Una propiedad interesante y útil: • El área bajo la curva de la función de densidad de probabilidad normal puede calcularse de forma precisa según el número de desviaciones típicas. • El 68.3% de las observaciones están en el intervalo [- ;  + ] • El 95.4% de las observaciones están en el intervalo [ - 2;  + 2] • El 99.7% de las observaciones están en el intervalo [- 3;  + 3] Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal Áreas bajo la curva de la fdp gaussiana en función del número de desviaciones típicas Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal • Parámetros que especifican la distribución • - La fdp normal está completamente especificada por los parámetros i y i2 • - En la práctica, i y i2 son desconocidos y deben estimarse a partir de los puntos de entrenamiento • Estimadores no sesgados de i y i2 : • donde: • Ni es el número de prototipos de la clase i. • xj es el j-ésimo prototipo de la clase i. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal • 2.2 La f.d.p. normal multidimensional. • Forma funcional. • i : matriz de covarianza de la clase i • | i | : determinante de i • i-1 : matriz inversa de i • (X - i)T : vector traspuesto de (X- i) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal Representación de una fdp normal dibimensional Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal • Parámetros que especifican la distribución • - La fdp normal multivariante está completamente especificada por los parámetros i y i • - En la práctica, estos parámetros son desconocidos y deben estimarse a partir de prototipos. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal Estimadores no sesgados de i y de i : donde: Ni es el número de prototipos de la clase i. Xl es el l-ésimo prototipo de la clase. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal - Estimación alternativa (elemento a elemento): para j, k = 1, 2, ..., d donde: * Xjl : componente j-ésima del prot. l-ésimo de wi * ij : componente j-ésima del vector medio de wi Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal • Ejemplo. • Disponemos de 5 prototipos de la clase wi: • Estimación de i. • Estimación de i (completa): • 1. Vectores (X l - ): Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal 2. Matrices (X l - )(X l - )T: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal 3. Finalmente, Parámetros estimados para esta clase: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal Estimación de i (elemento a elemento) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal • Propiedades de i • 1. i es simétrica. Como ijk = ikj , hay que calcular únicamente d (d + 1)/2 componentes. • 2. i es (semi)definida positiva (|i|>0) • 3. ijk es la covarianza de la clase i entre las variables j y k (j,k = 1,2,...,d j k) y se interpreta como la relación o dependencia entre estas dos variables. • 4. Los valores de la diagonal de la matriz de covarianza son las varianzas de las variables individuales, esto es, ijj = 2ij • 5. Si ijk = 0, las variables j y k son estadísticamente independientes. Si no, existe correlación entre ellas. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal A) Vars. independientes B) Vars. correladas Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal • 2.2 La f.d.p. normal multidimensional. • 2.2.1 La distancia de Mahalanobis • Los puntos para puntos para los que el valor de la fdp es constante están situados en hiperelipsoides en las que la forma cuadrática (X- )T -1(X- ) es constante: distancia de Mahalanobis (al cuadrado) de X a . Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal A) Dens. de prob B) Diagrama de dispersión Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal • Las direcciones de los ejes principales de estos hiperelipsoides están determinadas por los autovectores de  y sus longitudes por los autovalores correspondientes. • Al estar ponderada por , esta métrica considera la distinta dispersión de las variables en el espacio. • Importante: con una métrica de este tipo, el concepto de distancia es muy distinto al concepto de distancia en nuestro mundo Euclídeo Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal Dos distribuciones normales con igual media y diferentes matrices de covarianza Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal 2.2 La f.d.p. normal multidimensional. 2.2.2 Correlación de variables A) Alta covarianza B) Baja covarianza. En ambos casos, 21 =5.7 y 22=7.1 Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal • Coeficiente de correlación. • Medida normalizada del grado de relación entre las variables, independiente de las unidades de medida. • Este coeficiente verifica que | ij |  1 Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal • Relación entre covarianzas y correlaciones:  =  R  Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal - ij= , entonces ij = j i ij . Además, como ij = ji, entonces ij = = = ji - Como ii = = = 1. ii = i i ii = i2 porque ij = 1 Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal • Interpretación del factor de correlación • Si proyectamos la nube de puntos sobre un plano definido por los ejes (abscisas) y (ordenadas): • - Superficie: determinada por  (desviaciones típicas). • - Forma: determinado por R (correlaciones). • Dado que | ij| 1 (-1  ij 1) • 1. Si ij = 0, la correlación es nula (son independientes): los puntos se disponen aleatoriamente en un círculo (1 = 2) o en una elipse (1  2) cuyo centro es (i,j). Una correlación con valor 0 indica que no existe relación lineal en absoluto. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal Ejemplos de correlación nula Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal 2. Si 0 < ij < 1 los puntos se disponen en una elipse centrada en (i,j). El eje principal tiene una pendiente positiva y una forma más o menos circular dependiendo de si ij está más o menos cercano a 0. Ejemplos de correlación positiva Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal 3. Si ij = 1, la correlación el lineal y perfecta ( Xj depende linealmente de Xi): los puntos se disponen a lo largo de una línea recta con pendiente positiva Ejemplos de correlación lineal Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal 4. Para -1 < ij < 0, similar a caso 2 y para ij = -1, similar a caso 3 (ahora con pendiente negativa). La orientación y longitud de los ejes de las elipses que caracterizan las distribuciones se deducen de los autovectores y autovalores de la matriz de covarianza. Ejemplos de correlación negativa Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. • El clasificador de mínimo error (Bayes) puede expresarse en términos de funciones discriminantes: • Forma general delas funciones discriminantes asumiendo f.d.p. normales Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. • Casos particulares: • - Caso 1. i = 2I (Clasif. Lineal) • - Caso 2. i =  (Clasif. Lineal) • - Caso 3. i arbitrarias (Clasif. Cuadrático) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. • 3.1 Clasificadores lineales • 3.1.1 Caso 1: i = 2I • Variables estadísticamente independientes (incorreladas) y todas tienen la misma varianza, 2. • Las matrices de covarianza son diagonales con valor 2 Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. Clasificador lineal con i = 2I Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. • Simplificaciones de las funciones discriminantes. • - En este caso • Sustituyendo en (10): • - Considerando que ||  || es la norma Euclídea Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. - Si i son iguales, no son significativas para : Alternativamente, Regla de mínima distancia Euclídea. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. • Funciones discriminantes lineales: • Superficies de decisión: • donde: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. Front. de dec. Para un clasificador de mín. distancia Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. • 3.1.2 Caso 2: i =  • Las variables no son estadísticamente independientes (correladas) y las varianzas individuales son diferentes. • Geométricamente: patrones distribuidos en agrupamientos hiperelipsoidales de igual tamaño y forma. Cada agrupamiento centrado en su media correspondiente, i Clasif. Lineal con i= (120,12) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. Clasif. Lineal con i= (12=0,12) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. • Simplificación de las funciones discriminantes. • Si i son iguales, no son significativas para : • Alternativamente, • Regla de mínima distancia Mahalanobis. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. • Funciones discriminantes lineales: • Superficies de decisión. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal. • 3.2 Clasificadores cuadráticos • 3.2.1 Caso 3: i arbitrarias • Fronteras de decisión expresadas como una función cuadrática (círculos, elipses, parábolas, hipérbolas). • Este es el caso más general (caso 3), del cual se derivan como casos particulares los dos estudiados anteriormente. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

Capítulo 2 Aproximación Paramétrica