120 likes | 345 Views
Técnicas de clasificación de documentos. Generalidades y método de la matriz de similaridad. Antes de empezar, I. Baeza (5.3) Estrategias de feedback local : expandir la q con términos correlados con los de la propia q.
E N D
Técnicas de clasificación de documentos Generalidades y método de la matriz de similaridad
Antes de empezar, I • Baeza (5.3) • Estrategias de feedback local: expandir la q con términos correlados con los de la propia q. • Los términos correlados están presentes en clusters obtenidos del conjunto de docs recuperados • Lás técnicas usadas son: • Clusters de asociación: se basa en la co-ocurrencia de de raíces o términos en los documentos. Aquellos que ocurren con frecuencia tienen algún tipo de asociación sinónima. • Clusters Métricos: tienen en cuenta dónde ocurren las co-ocurrencias de términos o raíces. • Clusters Escalares: Se basa en la idea de que dos raíces o términos con entornos similares deben tener algún tipo de relación de sinonimia. Se calculan vectores de correlaciones y se comparan escalarmente.
Antes de empezar, II • Baeza (5.4) • Estrategias de Análisis Global: tratan de obtener información no sólo del conjunto de docs recuperados sino de la colección completa de docs. • Algunas técnicas usadas: • Thesauros similares: se construyen mediante relaciones término a término, no en el sentido de presencia/ausencia, sino en la idea de que los términos son conceptos y se indexan por los documentos en que aparecen. • Thesauros Estadísticos: se pretende que los términos que expandan la q deben tener un alto poder de discriminación, con lo que deben tener una baja frecuencia, lo cual va en contra de la cantidad de información que proporcionan (están en pocos docs).
Tipos de variables • 1.- Cuantitativas o numéricas • Peso, talla, edad,… • 2.- Ordinales • Posición, orden, lista, … • 3.- Cualitativas o categóricas • Color, raza, … • 4.- Dicotómicas • Sexo, presencia/ausencia, … • se codifican con 2 valores
Codificación de variables • En el tránsito de homogeneización 1 a 4 se pierde información (salvo excepciones, paso 3 a 4) • Ej.: Paso 1 a 3: definiendo categorías • Variable: peso • Valores: x>0 • Categorías • Delgado: <70 • Grueso: 70 - 85 • Gordo: 85 - 100 • Obeso: >100 • Observación: “Carlos pesa 73 Kg.” <-> “Carlos es grueso”
Codificación de variables • Codificación Disyuntiva Completa • Mecanismo de codificación de variables cualitativas sin pérdida de información • Incrementa los requisitos de memoria • Consiste en generar una variable dicotómica por cada categoría • Ej.: • Variable x: color • Categorías: verde, azul, marrón, negro • x = azul <-> (v, a, m, n) = (0, 1, 0, 0)
Técnicas de análisis multivariante • “Conjunto de técnicas estadísticas y matemáticas para analizar, describir e interpretar observaciones multidimensionales procedentes de la observación de más de una variable.” (Cuadras 1981) • El AM se caracteriza por ofrecer una gran cantidad de técnicas exploratorias aplicables a numerosas disciplinas experimentales
Técnicas de AM • Análisis Factorial • Modelo lineal para explicar un conjunto extenso de variables observables mediante factores. • Análisis de Datos • Análisis de Coordenadas Principales • Método de la Matriz de similaridad • Análisis de Correspondencias • Distancia de la Chi-cuadrado o de Benzecri (basada en frecuencias) • Análisis de Proximidades (multidimensional scaling) • Utiliza distancias euclídeas y no euclídeas y disimilaridades entre objetos • Clasificación (clustering) • Taxonomía numérica (problema de definición) • Jerarquías indexadas y Geometría ultramétrica • Algoritmos de clasificación • Análisis Discriminante (problema de decisión) • Partiendo de k poblaciones, se trata de clasificar un individuo del que se conocen n valores de otras tantas variables observadas.
Coordenadas principales, I • Gower 1966 • Adecuado para variables cuantitativas • a : presentes comunes • d : ausentes comunes, etc.
Coordenadas principales, II • Coeficiente de similaridad • Creciente en a • Decreciente en b y en c • Simétrica en b y en c • Grado de semejanza entre wi y wj en relación con los n caracteres estudiados
5 4 3 2 1 0 Otras consideraciones sobre ACP • No existen criterios que permitan decidir a priori el coeficiente de similaridad más adecuado • Depende de: tipo de datos y peso que se desea: a, b, c, d • Conviene tener en cuenta que: • sij no deben ser función de d • Falsea la similaridad • S debe ser semidefinida o definida positiva • Facilita la representación • Sij debe verificar la propiedad ultramétrica • Útil para conseguir una clasificación jerárquica de los objetos Matriz de similaridades Jerarquía Indexada (dendograma) Algoritmo de clasificación