1 / 74

Tema 1. Modelos de RI avanzados

Tema 1. Modelos de RI avanzados. Sistemas de Gestión Documental. Introducción. IR: representación, almacenamiento, organización y acceso a la información Las Necesidades de Información NIC / NIOP Problema de caracterización Problema de formulación de consulta. Introducción.

hachi
Download Presentation

Tema 1. Modelos de RI avanzados

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tema 1.Modelos de RI avanzados Sistemas de Gestión Documental

  2. Introducción • IR: representación, almacenamiento, organización y acceso a la información • Las Necesidades de Información • NIC / NIOP • Problema de caracterización • Problema de formulación de consulta

  3. Introducción • Ejemplo de consulta • “Encontrar las páginas que contengan información sobre equipos de ajedrez que se enfrentan en torneos nacionales y tienen alguna subvención de algún tipo. La página debe contener información sobre el ranking nacional del equipo en los últimos 3 años y la dirección de e-mail o el teléfono del entrenador”. • La dificultad está en construir la consulta para que la entienda el SRI.

  4. Introducción • Information retrieval / Data retrieval • NIOP / NIC • Lenguaje Natural / Lenguaje de consulta • Permite errores / No permite errores • Información / Datos • Inexacto / Exacto

  5. Introducción • Data retrieval • No resuelve el problema de la RI. Sólo devuelve datos sobre un tema. Es estructurado y nada ambiguo en cuanto a las consultas. • Information retrieval (RI) • Trata de resolver la NI. Debe interpretar los contenidos de los documentos y hacer un ranking de las respuestas. La consulta no es estructurada (LN) y es ambigua. La relevancia es el principal punto de interés.

  6. Introducción • RI: tema específico de bibliotecarios y especialistas ??? • Puntos originales de interés: indexación y búsquedas • Investigación actual: modelización, clasificación, arquitectura de sistemas, interfaces de usuario, visualización de datos, filtraje, lenguajes, etc. • Desde los años 1990 explota el interés debido al nacimiento del World Wide Web.

  7. Introducción • Respecto al Web: • Es la BD Documental más grande del mundo • Presenta problemas: • Nadie se hace responsable de los contenidos • No es fácil buscar ni indexar • No hay herramientas de soporte perfectas • No se usa un lenguaje útil para las máquinas • ...

  8. Modelos de RI • La RI se basa en la utilización de términos índice para indexar y recuperar documentos. • Indexar un documento puede consistir en sustituir su contenido por un conjunto de términos índices que lo representan. • Recuperar puede consistir en especificar un conjunto de términos que deben hallarse entre los índices de un documento, estableciendo un ranking de relevancia.

  9. Modelos de RI • El problema de la RI será, pues, la manera de predecir la relevancia de los documentos y su grado de relevancia (ranking). • Las distintas premisas utilizadas en el cálculo de la relevancia darán lugar a distintos ‘modelos’ de trabajo o de RI.

  10. Modelos de RI • Un modelo de RI se define como: • Es una cuádrupla [D,Q,F,R(qi,dj)], con: • D es un conjunto de representaciones de documentos • Q es un conjunto de representaciones de necesidades de información de los usuarios • F es un marco de modelado de documentos, consultas y sus relaciones • R(qi,dj) es una función de ranking que asocia un número real con una consulta y un documento. El ranking define el orden en el que el documento satisface la consulta.

  11. Modelos de RI • Para construir un modelo • Analizar las representaciones de documentos y consultas • Concebir el marco en el que pueden ser representados • Construcción de función de ranking • Ejemplo: modelo de espacios vectoriales

  12. Modelos de RI • Algunos modelos clásicos: • Booleano (set theoretic) • Vectorial (algebraico) • Probabilístico (teoría de la probabilidad) • Listas no solapadas • Nodos próximos Contenido Estructura

  13. Modelos de RI Taxonomía de los modelos de RI TEORIA DE CONJUNTOS Conjuntos difusos Booleano extendido MODELOS CLASICOS Booleano Espacios Vectoriales Probabilístico ALGEBRAICO Vector generalizado Latent Semantic Indexing Redes Neuronales Recuperación: Búsqueda retrospectiva DSI ACCIONES DEL USUARIO MODELOS ESTRUCTURADOS Listas no solapadas Nodos próximos PROBABILISTICO Redes de inferencia Redes de confianza Navegación NAVEGACION Plana Guía estructurada Hipertexto

  14. Modelos clásicos • Los documentos se describen a través de un conjunto de términos representativos llamados índices o términos índice. • Los índices son principalmente nombres, y se usan en menor medida verbos, adjetivos, adverbios, ... • Sin embargo, se pueden considerar todos los términos como importantes en una aproximación llamada ‘full text’.

  15. Modelos clásicos • No todos los términos son igualmente importantes. • Ej. Un término que aparece en todos los documentos de una colección será menos importante que otro que aparezca sólo en unos pocos, puesto que ayuda a discernir. • El proceso de decidir la importancia de un término se puede realizar a través de la asignación de ‘pesos’ • Para ki (término), dj (documento), wij 0 es el peso asociado al término en el documento.

  16. Modelos clásicos • Definición. Sea t el número de términos índice en el sistema, y ki un término índice genérico. K={k1,...,kt} es el conjunto de índices. Un peso wij>0 se asocia con cada término ki del documento dj. Para un término que no aparece en el documento, wij=0. Con cada documento dj hay asociado un vector de índices dj=(w1j,w2j,...,wtj). Además, definimos una función gi que devuelve el peso asociado con índice ki en un vector t-dimensional: gi(dj)=wij. • Los pesos de los términos son mutuamente independientes, esto es, sabiendo el peso wij, no podemos saber nada a priori del peso wi+1j. Esto es una simplificación válida para nuestro problema.

  17. Modelo Booleano • Modelo clásico basado en la teoría de conjuntos y el álgebra de Boole. • Es el modelo más simple. • Los documentos se representan por conjuntos de términos contenidos en ellos. • Las consultas se expresan como expresiones booleanas con una semántica clara y concreta. • Adoptado por muchos de los SRI tempranos.

  18. Modelo Booleano • Presenta algunos problemas: • Decisión binaria, sin escala de relevancia. wij {0,1} • Se basa más en data retrieval que en information retrieval. • Difícil traducir una NI a una expresión booleana. • Las consultas son combinaciones de términos usando operadores and, or y not. Además, hay que buscar una representación óptima a través de una FND (Forma Normal Disjunta).

  19. Modelo Booleano • Ejemplo de consulta en FND: Consulta genérica q = ka ( kbkc ) a b Consulta FND q = ka ( kbkc ) q = (ka kb )  (kakc ) qfnd = (ka kb kc )  (ka kb kc )  (kakb kc ) qfnd = (1,1,1)  (1,1,0)  (1,0,0) c

  20. Modelo Booleano • Definición. Para el modelo booleano, los pesos de los términos son binarios (wij {0,1}). Una consulta es una expresión booleana convencional. Si qfnd es la forma normal disjunta de una consulta, y qcc alguno de los componentes de esta fnd, la similitud de un documento dj con una consulta q se define como: 1 si  qcc | (qcc qfnd )  (ki, gi(dj) = gi(qcc)) sim(dj,q) = 0 en otro casoSi sim(dj,q)=1, entonces el documento se predice como relevante. En cualquier otro caso, el documento no es relevante.

  21. a b c Modelo Booleano • Ejemplo • dj = (0,1,0) • q = ka ( kbkc ) • No hay respuesta parcial (1 ó 0) • Resultado: sim(dj,q)=0

  22. Modelo Vectorial • Asume que el uso de pesos binarios es limitativo y propone un marco con posibilidad de relevancia parcial. • Por tanto, se asignan pesos no binarios a los términos en los documentos • Se pretende computar el grado de similitud entre documentos y consultas de forma gradual, y no absoluta. • El resultado será un conjunto de documentos respuesta a una consulta ordenados en ranking de relevancia.

  23. Modelo Vectorial • Definición. En el modelo vectorial, el peso wij que se asocia a un par (ki,dj) es positivo y no binario. De igual modo, los pesos de los términos en una consulta se someten a los mismos pesos, de modo que wiq 0 es el peso asociado asociado al par [ki,q]. El vector q se define como q=(w1q, w2q,..., wtq) siendo t el número total de términos indexados en el sistema. De igual forma, el vector documento se representa por dj=(w1j,w2j,...,wtj) • Por tanto, un documento y una consulta se representan como vectores t-dimensionales (vectores en un espacio de t dimensiones, siendo t el número de términos indexados en la colección de documentos).

  24. Modelo Vectorial • La similitud entre documentos y consultas se evalua a través de la correlación de los vectores que los representan, q y dj. • La correlación se puede definir a través del coseno del ángulo entre los vectores:

  25. Modelo Vectorial • Sobre la fórmula del coseno • La norma del vector consulta no afecta al ranking porque es igual para todos los documentos, cosa que no pasa con la norma del vector documento • La similitud varía entre 0 y +1 puesto que así lo hacen los pesos de los términos de los vectores

  26. Modelo Vectorial • En este modelo, en lugar de predecir si un documento es o no relevante, se proporciona un grado de relevancia. • Un documento podría ser recuperado sólo con una coincidencia parcial. • Se establece un umbral de relevancia para decidir cuando mostrar un documento como relevante. • El problema para obtener la relevancia consistirá en la forma de asignar pesos.

  27. Modelo Vectorial • Problema de clustering en IR: definir que documentos son relevantes y que documentos no lo son. Se pueden usar dos medidas para ello: • Similitud intra-cluster. Se puede utilizar como medida la frecuencia de términos (tf). • Diferencia inter-cluster. Se puede utilizar como medida la frecuencia de documento inversa (idf). • Estas medidas (tf, idf) se pueden aplicar para el cálculo de los pesos de los términos.

  28. Modelo Vectorial • Definición. Sea N el total de documentos de una colección, y ni los documentos en los que aparece el término ki. La frecuencia del término ki en el documento dj la denotamos por freqij. La frecuencia normalizada del término ki en el documento dj es f. El máximo se obtiene sobre los términos del documento. La frecuencia de documento inversa será idf.El peso del término en documentos y consultas se calcula con estas fórmulas empíricas:

  29. Modelo Vectorial • Las principales ventajas del modelo son: • Se mejora el rendimiento con las fórmulas de obtención de pesos. • Se pueden recuperar documentos que se ‘aproximen’ a la consulta. • La fórmula del coseno proporciona, además, un ranking sobre la respuesta. • La principal desventaja es que considera los términos como independientes, lo que puede causar bajo rendimiento (en teoría).

  30. Modelo Vectorial • Como conclusión: • Es muy elástico como estrategia de ranking en colecciones generales. • Es difícil de mejorar sin expansión de consultas o relevance feedback. • En comparación con otros modelos, es superior o igual en rendimiento a las alternativas. • Es simple y rápido. • Hoy en día, es uno de los más utilizados.

  31. Modelo Probabilístico • También se le llama ‘binary independence retrieval model’. • La idea del modelo es: dada una consulta, existe exactamente un conjunto de documentos, y no otro, que satisface dicha consulta. Este conjunto es el ‘conjunto ideal’. • Por tanto, el problema de la RI será el proceso de especificar las propiedades del conjunto ideal.

  32. Modelo Probabilístico • El problema es que no conocemos exactamente las propiedades del conjunto ideal. • Deberemos realizar una suposición inicial sobre estas propiedades para tratar de refinarlas consulta tras consulta. • Tras cada consulta, el usuario determinará los documentos que son relevantes, con lo que se podrá refinar la descripción del conjunto ideal.

  33. Modelo Probabilístico • Principio de probabilidad. Dada una consulta q y un documento dj, el modelo probabilístico trata de determinar la probabilidad de que el usuario encuentre el documento relevante. El modelo asume que esta probabilidad de relevancia depende sólo de las representaciones del documento y de la consulta. El modelo también asume que hay un subconjunto de todos los documentos que el usuario prefiere como respuesta a su consulta. A este conjunto se le llama conjunto de respuesta ideal, y lo denotaremos por R. El conjunto R debería maximizar la probabilidad global de relevancia para el usuario. Los documentos que no pertenezcan al conjunto serán considerados como no relevantes para el usuario.

  34. Modelo Probabilístico • Definición. Para el modelo probabilístico, los pesos de los términos índice son binarios (wij {0,1}, wiq {0,1}). Una consulta q es un subconjunto de términos índice. Sea R el conjunto de documentos conocidos (o inicialmente supuestos) como relevantes. Sea R’ el complemento de R. Sea P(R|dj) la probabilidad de que el documento dj sea relevante a la consulta q y P(R’|dj) la probabilidad de que dj no sea relevante a q. Entonces, la similitud del documento con la consulta se define como:

  35. Modelo Probabilístico • Explicación. • P(R|dj) es la probabilidad de que dado un documento seleccionado, ese documento sea relevante para el usuario. • P(dj |R) es la probabilidad de seleccionar aleatoriamente el documento dj de entre los relevantes. • P(R) es la probabilidad de que seleccionando algún documento aleatoriamente de la colección, sea relevante. • P(dj) es la probabilidad de obtener el documento dj aleatoriamente seleccionando uno de entre toda la colección. • P(R’|dj), P(dj |R’), P(R’) son los análogos, aplicados a la no relevancia. • El cociente es ahora fácil de calcular con las probabilidades de que los términos del documento estén o no estén en los documentos de los conjuntos relevantes o no relevantes, según el caso.

  36. Modelo Probabilístico • Para que quede claro, un documento será relevante si:P(R|dj) > P(R’|dj)oP(dj|R) > P(dj|R’)

  37. Modelo Probabilístico • No podemos calcular exactamente las probabilidades, y tenemos que hacer estimaciones • La relevancia de cada documento es independiente de la relevancia de otros

  38. Modelo Probabilístico • Ventajas • Los documentos se presentan en orden decreciente de probabilidad de relevancia. • Inconvenientes • Hay que hacer una separación inicial de documentos en relevantes y no relevantes. • Es binario (no se consideran frecuencias de aparición de términos en los documentos). • Se asume la independencia de términos.

  39. Comparación • El modelo booleano es el más flojo de todos los clásicos. No permite relevancias parciales y ofrece problemas de rendimiento. • El modelo vectorial ofrece mejores resultados que el probabilístico, pero para colecciones generalistas.

  40. Modelos avanzados • Conjuntos difusos • Booleano extendido • Espacio Vectorial Generalizado • Latent Semantic Indexing • Redes neuronales • Redes de inferencia (inference network) • Redes de confianza (belief network)

  41. Conjuntos difusos • La representación de un documento a través de términos implica una representación vaga de la semántica del documento. • Por tanto, la relevancia de un documento con respecto a una consulta solo puede ser un valor aproximado, no exacto.

  42. Conjuntos difusos • Se puede definir un conjunto difuso, de modo que cada documento tendrá un grado de pertenencia (<=1) a ese conjunto. • La relevancia equivaldrá al grado de pertenencia al conjunto, y será un valor comprendido entre 0 y 1.

  43. Conjuntos difusos. Ejemplo. • Se puede expandir un término de una consulta a través de un tesauro.es equivalente a • Se puede establecer una correlación entre los términos relacionados.

  44. Conjuntos difusos. Ejemplo. • El factor de correlación podría ser:ni = num. de docs que contienen a kinl = num. de docs que contienen a klnil = num. de docs que contienen a ki y kl

  45. Conjuntos difusos. Ejemplo.

  46. Conjuntos difusos. Ejemplo. • Para cada término ki podemos definir un conjunto difuso asociado, donde cada documento tendrá un grado de pertenencia. • El grado de pertenencia se puede calcular como la suma de los factores de correlación del término i con los términos que contiene el documento.

  47. Conjuntos difusos. Ejemplo. d3=(0,4,2,15)

  48. Conjuntos difusos. Ejemplo. • El usuario realizará sus consultas de un modo similar al modelo booleano. • La consulta se transformará en una forma normal disjunta. • Los operadores AND y OR de la expresión de la consulta se resuelven a través de: • Cálculo del mínimo (and) o máximo (or) grado de pertenencia. • Operación matemática (sumas, productos) sobre los coeficientes de correlación de los términos.

  49. Conjuntos difusos • En resumen • Correlación de términos • Correlación de documentos con los conjuntos difusos asociados a los términos • Cálculos algebraicos para computar el grado de pertenencia de un documento a un conjunto difuso definido para la consulta. • No es un modelo muy extendido entre los especialistas de RI. • No hay experimentos suficientemente amplios para comparar el modelo con otros

  50. Booleano extendido • El modelo booleno es simple y elegante, pero al no permitir pesos, no se puede hacer ranking. • El tamaño del conjunto respuesta es demasiado grande o demasiado pequeño. • Como consecuencia, ya no se usa. • El uso del modelo booleano con pesos y relevancia parcial permite evitar alguno de estos problemas (combinación booleano – vectorial).

More Related