950 likes | 1.16k Views
Extracción y Recuperación de Información. SEPLN 99 Tutorial Horacio Rodríguez UPC horacio@lsi.upc.es. Recuperación y Extracción de Información. Information{retrieval, filtering, routing, summarising harvesting, mining, extraction, formatting, integration, ...} Dos familias básicas
E N D
Extracción y Recuperación de Información SEPLN 99 Tutorial Horacio Rodríguez UPC horacio@lsi.upc.es
Recuperación y Extracción de Información • Information{retrieval, filtering, routing, summarising harvesting, mining, extraction, formatting, integration, ...} • Dos familias básicas • Recuperación de información (Information Retrieval, IR) • Extracción de información (Information Extraction, IE) • Dos ámbitos • Colecciones de documentos • Internet => (500 Mpáginas) • Papel del LN • IR: marginal y discutido (pero... uso de recursos, CLIR) • IE: básico
Ejemplos de sistemas de búsqueda de información (Oard,Marchionini,96)
Minería de datos vs Minería de datos textuales (Marti A. Hearts,99)
Aplicaciones • Directas • Servicios de Información • Bibliotecas digitales, buscadores de internet, extraccción de información de la Web, enciclopedias, ofimática, documentación (patentes, leyes, bibliografía), integración y distribución de noticias, multilingüismo ... • Indirectas • Construcción de recursos: • lexicones, corpus, ontologías, bases de conocimiento ... • Afinado (tuning) de recursos
The top 10 Research Issues for Companies that Use and Sell IR Systems (Croft 1995) • Relevance Feedback • Information Extraction • Multimedia • Effective Retrieval • Routing & Filtering • Interfaces & Browsing • “Magic” • Efficient, Flexible Indexing and retrieval • Distributed IR • Integrated Solutions => V.A.Kulyukin (1999)
Organización del tutorial • Recuperación de información (IR) • Papel del LN en los sistemas de IR • Cross Lingual IR (CLIR) • Extracción de Información (IE)
La IR trata de la Representación, Almacenamiento, Organización y acceso a las Unidades de Información Textos (documentos) Hipertextos, Multimedia, ...
¿Qué leer? • Libros • R. Baeza-Yates, B. Ribeiro-Neto (1999) • Grefenstette, G. (1998) • M.T. Maybury (1997) • G. Salton, M.J. McGill (1983) • T. Strzalkowski (1999) • C.J. van Rijsbergen (1979) • Actas • TREC http://trec.nist.gov/ • Cursos • F.Verdejo, J. Gonzalo, A. Peñas • Information Retrieval & Natural Language Processing • http://rayuela.ieec.uned.es/~ircourse/
Componentes de un SRI (Oard,Dorr,96) {0,1} juicio humano: j espacio de las consultas: Q espacio de los documentos: D Consulta Documento q d representación 1 representación 2 espacio de representación: R función de comparación: c {0,1}
Sistema ideal c(q(cons), d(doc)) = j(cons, doc) cons Q doc D
Representación del documento: indexado (Baeza-Yates, Ribeiro-Neto,99) documento: texto + estructura reconocimiento de la estructura acentos, espaciado, etc... stopwords grupos nominales términos que forman el índice lematización indexación manual o automática
Proceso de la Recuperación de Información texto consulta Interfaz de usuario texto Opeaciones textuales realimentación representación operaciones sobre la consulta Indexado consulta Gestor de BD Búsqueda Indices documentos recuperados documentos clasificados Base de textos Clasificación
Características de los SRI • Tipo de información almacenada • Texto, voz, información estructurada • Lenguaje de consulta • Exacto, ambiguo • Tipo de emparejamiento • Exacto, aproximado • Tipo de información deseada • Vaga, precisa • Relevancia: utilidad de la información para el usuario de acuerdo a su consulta.
Base de Documentos (1) • Organización de la BD • Colecciones, Tesauros, Clusters • clasificación previa de los documentos: lengua, dominio, estructura • ej. UMLS: http://www.nlm.nih.gov/ • Organización de las unidades • contenido • operaciones • modelo del documento • lenguajes de representación del texto (formato) • texto simple: ASCII, Unicode, ... • texto marcado: SGML, HTML, XML
Base de Documentos (2) • Documento: • simple • estructurado: capítulos, secciones, párrafos, oraciones, ... • Sublenguajes: • Documentación técnica, terminología, jergas, multilingúismo • Sekine,98 • Documentos semiestructurados • Hearst,98 • Páginas Internet • Amitay,97 • Metadatos: • Título, resumen, listas, hiperenlaces, texto del hiperenlace, ...
Operaciones sobre los documentos • Preproceso • análisis léxico, estandarización • formas no estándard, fechas, números, siglas, locuciones, lexías, ... • lematización • análisis morfológico, consulta a formarios, reglas léxicas/morfol, alg. Porter • filtrado • Stopwords (diccionarios negativos) • Clasificación • manual • automática • clasificación • clustering • Compresión
Indexado • indexado manual vs automático • indicadores • objetivos: estructurales • subjetivos: textuales (de contenido) • indexado pre-coordinado vs post-coordinado • términos simples vs términos en contexto Modelo más corriente: Bag of simple words
Representación de los documentos • Modelos clásicos • texto completo • booleano • vectorial • probabilístico • Variantes evolucionadas del modelo probabilístico • Bayesiano • Redes de inferencia • Redes de creencia • paradigmas alternativos • Modelo vectorial generalizado • Modelo booleano extendido • Latent Semantic Indexing • Redes neuronales
Operaciones de consulta Modelo booleano simple Expresiones booleanas sobre términos que aparecen en el documento o palabras clave. Conectivos: AND, OR, NOT, paréntesis Extensiones: restricciones de distancia (nivel párrafo, nivel frase, adyacencia) ventana fija o variable Modelo booleano extendido: ponderación de términos: frecuencia del término en el documento, en la colección, normalización Expansión de las consultas uso de F.Conocimiento externas (ej. WN) extensión con sinónimos y/o hiperónimos truncado de términos generalización morfológica relevance feedback
Medidas de calidad de la recuperación recuperados = a + b relevantes = a + d recall (cobertura) = a / (a + d) precisión = a / (a + b) a recuperado b d recall = están todos los que son precisión= son todos los que están c relevante Cuando el resultado es una ordenación de documentos con un índice de relevancia asociado (ranked) y no un booleano, las medidas pueden ser vectores de precisión a (normalmente) 3, 5, 7, 9, 11 puntos de cobertura (p.ej. a niveles (0.2, 0.5, 0.8) o medias de estos vectores.
Modelo booleano t1 t2 t3 ... ti ... tm d1 0 1 0 d2 1 0 1 0 d3 ... dj ... dn atributos: todos los términos (palabras, lemas, multipalabras, ...) que aparecen en la colección (excepto los stopwords) filas: cada documento representado por un vector de booleanos (1 si el término aparece en el documento, 0 en caso contrario). Hay n documentos columnas: cada término representado por un vector de booleanos. Hay m términos no es posible una respuesta ponderada no se tiene en cuenta ni frecuencia ni orden ni importancia de los términos
Modelo Vectorial (1) t1 t2 t3 ... ti ... tm d1 d2 d3 ... dj wij ... dn wij peso (relevancia) del término j en el documento i Forma más corriente de definir la relevancia tfij frecuencia del término tj en el documento di dfj # documentos en los que aparece tj idfj log (N / dfj ) wij = tfij *idfj
Modelo Vectorial (2) Otra forma dvj poder discriminador de un término. Si al seleccionarlo disminuye la similitud entre documentos (la densidad) dvj = Q - Qj Q densidad sin seleccionar el término tj N = # documentos Qj densidad seleccionando el término tj relevancia: wij = tfij *dvj
Modelo Vectorial (3) Otra forma C = centroide de la colección de documentos Q densidadrespecto al centroide C El cálculo de la relevancia es idéntico al caso anterior En cualquier caso la consulta se representa también vectorialmente y se seleccionan los documentos más próximos de acuerdo a una distancia
Medidas de similitud Medida de similitud Producto escalar Coeficiente de Dice Coseno Coeficiente de Jaccard Modelo booleano Modelo vectorial
Relevance Feedback • Etapas • formular la consulta • obtener los documentos más próximos • someterlos al juicio del usuario • relevantes • irrelevantes • expandir la consulta • añadir los términos más relevantes de los documentos calificados de tales • volver a seleccionar
Extensiones de la RF • Autorelevance feedback (Blind feedback) • considerar (sin intervención humana) como relevantes los documentos más próximos a la consulta • Uso de información histórica • consultas similares • Keim, Lewis, Madigan, 96 • summarization-based • extracción de términos relevantes a partir de resúmenes (5-10%) • Strzalkowski, Lin, Pérez-Carballo,97 • extraction-based • búsqueda de fragmentos (passages) relevantes
Modelos probabilísticos Excelente survey: F. Crestani, M. Lalmas, C.J.Van Rijsbergen, I. Campbell (1998) Dada una consulta qk se debe calcular para cada documento di la probabilidad de que sea relevante: O irrelevante: Un documento podría devolverse si o bien si la diferencia supera un cierto umbral
Modelos probabilísticos binarios (1) Son los más utilizados donde Xi toma valores 0 ó 1 dada una consulta qk se puede asumir (es mucho asumir pero ¡qué remedio!) que las componentes del vector X son independientes cuando están condicionadas a R.
Modelos probabilísticos binarios (2) Si notamos y somos capaces de estimar (mediante historia o Relevance Feedback) los valores de pi y qi entonces para un documento dj podemos calcular g(dj) y aceptar el documento cuando supere un umbral
Otros modelos • Modelo bayesiano • M. Keim, D.D. Lewis, D. Madigan (1996) • Teoría de la evidencia (Dempster-Shafer) • M.Lalmas, I.Ruthven, M.Theophylactou (1997) • Modelo vectorial generalizado • Yang et al,97 • Latent Semantic Indexing • Dumais et al,97 • Evans et al,98
Modelo vectorial generalizado Crítica del modelo vectorial: Asume los términos ortogonales (independientes) cuando es evidente que hay relaciones semánticas de coocurrencia de términos. t1 t2 t3 ... ti ... tm d1 d2 d3 ... dj ... dn VSM: espacio de m dimensiones, la base del espacio son términos, los vestores que representamos son documentos GVSM: (espacio dual). Espacio de n dimensiones. La base del espacio son los documentos, ahora los vectores son términos
Latent Semantic Indexing (LSI) doc3 doc3 t1 doc2 t2 Dimension 2 lsi t2 doc1 doc2 doc1 t1 Dimension 1 lsi Espacio de m (# términos) dimensiones, en él representamos n (# documentos) puntos (o vectores) LSI: análisis factorial: análisis de componentes principales. Se calculan los valores y vectores propios y se recogen los p valores más significativos. Se crea un espacio de p (200-300) dimensiones (con los vectores propios como base) y se proyectan en él términos, documentos y consultas.
IR y LN: lecturas generales • T. Strzalkowski,99 • Smeaton, A.(1995) • transparencias de un tutorial • Smeaton, A. (1999) • Lewis, D, Sparck Jones K. (1996) • divulgación más bien crítica • T. Strzalkowski et al, 97,98 • participación en TREC-6 y TREC-7 • Voorhees,99 • transparencias de un tutorial
IR y LN • Recursos de LN • Tareas de PLN • Indexado • palabras, raices, lemas, acepciones, multitérminos • , frases, … • problemas: • nombres propios • palabras desconocidas • unidades no estándar • polisemia • => Sólo levemente mejor que usar monotérminos (formas) • Recuperación • expansión de las consultas
Indexación con palabras • Palabras para indexar y consultar • variación morfológica • no siempre buenos indicadores del contenido • polisemia • relaciones semánticas entre palabras • sinonimia • hiper/hiponimia • Agrupación de términos • términos multipalabras • dependencia terminológica • colocaciones • clustering
Indexación con palabras y categorías • No parece aportar nada • Krowetz,97 • Más de la mitad de los términos de un duccionario que difieren en categoría gramatical tienen algún tipo de relación semántica • Gonzalo et al,99 • La anotación e indexado con categoría gramatical (incluso realizada manualmente) parece demasiado discriminatoria para ser útil para la RI
Indexación con acepciones • Problema: etiquetado semántico • inventario de acepciones • diccionario (cuál), WordNet (synset, variant, file), Clusters • algoritmo de desambiguación: WSD • Evaluación • Krowetz,Croft,92 • ambigüedad en la acepción => 2% de degradación • Sanderson,94 • es necesaria una precisión del 90% para que sea útil • Gonzalo et al, 99 • importancia de WSD. Mejora con precisión > 70% • Schultz,Pedersen,95 • 7-17% de mejora
Indexación con frases (1) • Desambiguación morfosintáctica (pos tagging) • Análisis sintáctico superficial (shallow parsing) • Análisis fragmental (chunkers) • Detección automática de colocaciones (Smadja,93) • Extracción de grupos nominales • Problema de la ambigüedad sintáctica • no tenerla en cuenta • normalizar, ej. CLARIT (CMU) • indexar con árboles de dependencias que capturen la ambigüedad
Indexación con frases (2) • Xerox • pares de palabras que coocurren • pares de palabras con dependencia sintáctica • sujeto/verbo, verbo/complemento directo, adjetivo/nombre, … • sólo mejora con contextos grandes • Claritech • extracción de frases nominales, normalización => indexado • GE + Rutgers • stream-based IR • actuación de varios módulos alternativos de indexado (stopwords, lematización, extracción de frases, nombres propios, normalización, …) y ponderación
Recuperación:expansión de las consultas • Añadir términos a la consulta basados en la aparición en documentos relevantes y no aparición en documentos irrelevantes • CLARIT, Umass • Uso de tesauros • WordNet • EWN
WN en IR • Indexado • discriminación de acepciones • agrupación de palabras relacionadas semánticamente • Sanderson,94 (Glasgow) • Expansión de las consultas • Smeaton 95 • Hierarchical Concept Graphs • Vorhees,94 • Richardson, Smeaton, 95 • Smeaton,Quigley,96 • Gonzalo et al,98 • comparación al indexar por synset, acepción o palabra • mejora a partir de 70% de precisión en WSD
CLIR • Cross Language Information Retrieval • Recuperación de documentos de acuerdo a peticiones formuladas por una persona sin tener en cuenta la lengua en que los documentos y las consultas han sido expresadas • Técnicas • Traducir los documentos • Traducir las consultas • Proyectar unos y otras a un espacio de indexado neutral • Limitaciones • Los textos de las consultas son más cortos que los documentos • El contexto (y la fiabilidad) al traducir la consulta es menor • Los errores de traducción son menos graves en los documentos
CLIR: lecturas básicas • Grefenstette, G. (1998) • Yang et al,97 • J.Klavans, E.Hovy (1999) • D.W.Oard, B. Dorr (1996) • Oard, D. (1997) • P.Schäuble, P. Sheridan (1998) • Fluhr,95
Aproximaciones a CLIR (Oard,97) CLIR Texto libre Vocabulario Controlado Basado en Corpus Basado en Conocimiento Corpus paralelos Corpus comparables Corpus monolingües Basado en Diccionarios Basado en Ontologías Alineación de documentos Alineación de oraciones Alineación de términos Basado en Tesauros
Aproximaciones basadas en conocimiento • Uso de diccionarios bilingües • Oard, D. and P. Hackett (1997) usan el sistema LOGOS de TA para traducir documentos y consultas • Ballesteros, L. and Croft, W. (1998) usan y comparan SYSTRAN con T1(Langenscheidt) para traducir las consultas • EMIR (European Multilingual IR), Fluhr,95 • Uso de ontologías • EWN • Peters, C. and Picchi, E. (1997) • Gonzalo, J., F. Verdejo, C. Peters and N. Calzolari (1998)
Aproximaciones basadas en corpus • Corpus paralelos • alineados a nivel de documento • Dumais et al,97 • Yang et al,97 • alineados a nivel de oración • Davis, M. and Ogden, W. (1997) • alineados a nivel de término • D.W.Oard, B. Dorr (1996) • Corpus comparables • P.Schäuble, P. Sheridan (1998) • Peters, C. and Picchi, E. (1997) • Corpus no alineados (monolingües) • Ballesteros, L. and Croft, W. (1998)
Ejemplo: Davis,Odgen,97 • Usa un diccionario biligüe y un corpus (UN) bilingüe español/inglés • Las consultas en español son desambiguadas • Se expanden las consultas con la traducción de los términos categorizados usando el bilingüe • Si existe ambigüedad se realiza una desambiguación usando el corpus bilingüe • consulta en español => 30 documentos más significativos en la parte española del corpus • se extraen los 5000 términos ingleses más significativos (Rochio) de la traducción de los 30 documentos • en caso de ambigüedad se utiliza el término inglés mejor clasificado entre los 5000