1 / 25

XML retrieval

XML retrieval. <Presentation>. <Title>. </Title>. <Group Number=“N”>. < Member > Adrià Joan Marí Ferrer </ Member > < Member > Enrique Vicente Garnelo Prediger </ Member > < Member > Guillem Torres Badia </ Member > < Member > Iván Sánchez Padilla </ Member >. </Group>.

acacia
Download Presentation

XML retrieval

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. XML retrieval <Presentation> <Title> </Title> <Group Number=“N”> <Member>Adrià Joan Marí Ferrer</Member> <Member>Enrique Vicente Garnelo Prediger</Member> <Member>Guillem Torres Badia</Member> <Member>Iván Sánchez Padilla</Member> </Group> </Presentation>

  2. 1. Introducción 1.1. ¿Qué es recuperación estructurada? 1.2. ¿Qué es XML? 1.3. Desafíos de indexación

  3. 1.1. Recuperación estructurada • Tradicionalmente los sistemas RI han recuperado información desde texto puro, sin estructura. • Algunos problemas muy estructurados de búsqueda de texto se tratan de manera más eficiente con una base de datos relacional. SELECT lastname FROM employees WHERE job_desc LIKE ‘invoic%’; • Muchas fuentes de datos estructurados se modelan mejor como documentos estructurados en lugar de datos relacionales.

  4. 1.1. Comparación métodos de recuperación

  5. 1.2. Conceptos básicos de XML • El XML (eXtensibleMarkupLanguage) es un lenguaje de marcas desarrollado para almacenar datos. • Un documento XML es un árbol con etiquetas.Cada nodo del árbol es un elemento XML y se escribe con tagsde apertura y cierre. Las mismas delimitan contextos. • El estándar para acceder y procesar documentos XML es el XML DocumentObjectModel(DOM).

  6. 1.2. Conceptos básicos de XML Documento XML Objeto DOM simplificado <play> <author>Shakespeare</author> <title>Macbeth</title> <actnumber="I"> <scenenumber="vii"> <title>Macbeth’scastle</title> <verse>Will I with wine and wassail ...</verse> </scene> </act> </play>

  7. 1.2. XPath • XPath es un estándar para definir rutas en una colección de documentos XML. • Ejemplos: • act/scene selecciona todos los elementos scene cuyo padre es un elemento act. • play//sceneselecciona todos los elementos scene que ocurren en un elemento play. • /play//titleselecciona un conjunto con dos miembros (el título de la obra y el título de la escena). + en

  8. 1.2. XPath • Se permite que el último elemento de una ruta sea un término de vocabulario, separada de elemento de ruta por el símbolo #. • Ejemplo: • title#"Macbeth" selecciona todos los títulos que contienen el término Macbeth.

  9. 1.2. Narrowed Extended Xpath I • Un formato habitual para consultas XML es NEXI. //article [.//yr = 2001 or .//yr = 2002] //section [about(.,summerholidays)] • La cláusula about aporta información para la clasificación. Secciones dadas en el tipo de artículo adecuado serán clasificadas según cuán relevantes sean para el tema summerholidays.

  10. 1.3. Desafíos en la recuperación XML • Desconocimiento por parte del usuario de la estructura del documento (el árbol asociado). • Principio de recuperación en documento estructurados: • Se debería devolver la menor unidad de contenido. • Secciones del documento como resultado de consultas. • Definición de unidades de indexado:

  11. 2. Modelo de espacio vectorial adaptado 2.1. Sub-árboles léxicos 2.2. Similitud de contexto 2.3. Pesado y puntuación

  12. 2.1. Sub-árboles léxicos – I • Codificación de la palabra con su respectiva etiqueta. • Se tendrán pares (contexto, término)  (c,t)

  13. 2.1. Sub-árbolesléxicos - II • Desglosar “términos compuestos” en las hojas • Bill Gates  2 nodos • Definimoslasdimensiones del espaciovectorial • Sub-árboles con al menos 1 término del vocabulario  SUB-ÁRBOLES LÉXICOS • Podremos computar similitud entre árboles

  14. 2.2. Similitud de contexto • Mismo formalismo del modelo vectorial visto en clase. • (!) La dimensión del espacio vectorial son árboles léxicos. • Se definen términos estructurados (c,t): • Similitud de contexto: • |Cq| y |Cd|  N° de nodosinvolucrados en el camino • Cqdevuelve Cd siiCq+nodosadicionales=Cd • Cq=Cd  CR(Cq, Cd)=1

  15. 2.3. Pesado y puntuación - I • V: vocabulario de términos no estructurados. • B: conjunto de todos los contextos XML. • idf: dependera de la unidad de documentoelegida. • SimNoMerge(q,d) puededar >0 (no verdaderocoseno) normalizado long. documento. • No se normaliza la query para simplificar la formula. • No afecta el ranking  el valor esigual para todos los documentos

  16. 2.3. Algoritmo de puntuación

  17. 2.3. SimNoMerge • Los diferentes contextos XML están separados, son independientes en el pesado. • SimMerge como variante: • Se toman todos los contextos con Cr distinto de 0. • atl # ”recognition”  fm/atl, article//atl…. • /play/act/scene/title se unirá a /play/title para búsquedas del tipo /play/title # “Macbeth”. • Afecta directamente el rendimiento

  18. 3. Evaluación 3.1. ¿Qué es INEX? 3.2. Rendimiento y restricciones

  19. 3.1. ¿Qué es INEX? • InitiativeforEvaluation of XML Retrieval. • Su objetivo es la evaluación de recuperación de información orientada al contenido en XML. • Consiste en: • una colección de documentos (IEEE, Wikipedia) • 60 consultas o “topics” (CO y CAS) • Evaluamos la eficacia según el resultado de las consultas en dos dimensiones: • Cobertura de componentes (E,S,L,N) • Relevancia de la consulta (0-3)

  20. 3.2. Rendimiento • SimNoMerge obtiene mejores resultados • La mejora de la precisión es mayor para k bajas • Esto demuestra que la recuperación ordenada es eficaz Resultados de consultas CAS para colección INEX 2002 con modelo espacio vectorial Comparación de precisión en k entre representaciones de solo contenido y estructuradas para colección INEX 2003-2004

  21. 4. ALTERNATIVAS 4.1. JuruXML 4.2. Recuperación booleana

  22. 4.1. JuruXML • Pionero en recuperación IR en XML. • Basado en árboles XML. • Sintaxis sencilla, basada en la de XML. • Indexación basada en pares (término, contexto) • Capaz de realizar 58 de las 60 consultas INEX, fallando en: • Realizar “join” • Relaciones dependientes del orden de nodos

  23. 4.2. Recuperación booleana • Técnicas de recuperación basadas en bases de datos. • Enfoque más estructurado. • Pros: • Exactitud • Implementación sencilla • Contras: • Poco flexible • Ejemplo: XQuery + en

  24. Bibliografía + Fuentes Introduction to informationretrieval Christopher Manning, PrabhakarRaghavan, HinrichSchutze ISBN 0521865719 JuruXML – XML retrievalsystem at INEX’02 YosiMass, Matan Mandelbrod, EinatAmitay, YoelleMaarek, AyaSoffer ACM 1-58113-000-0/00/0000

  25. Bibliografía + Fuentes • http://www.w3schools.com/ • LearnXPath: http://www.w3schools.com/XPath/ • LearnXQuery: http://www.w3schools.com/xQuery/

More Related