250 likes | 547 Views
XML retrieval. <Presentation>. <Title>. </Title>. <Group Number=“N”>. < Member > Adrià Joan Marí Ferrer </ Member > < Member > Enrique Vicente Garnelo Prediger </ Member > < Member > Guillem Torres Badia </ Member > < Member > Iván Sánchez Padilla </ Member >. </Group>.
E N D
XML retrieval <Presentation> <Title> </Title> <Group Number=“N”> <Member>Adrià Joan Marí Ferrer</Member> <Member>Enrique Vicente Garnelo Prediger</Member> <Member>Guillem Torres Badia</Member> <Member>Iván Sánchez Padilla</Member> </Group> </Presentation>
1. Introducción 1.1. ¿Qué es recuperación estructurada? 1.2. ¿Qué es XML? 1.3. Desafíos de indexación
1.1. Recuperación estructurada • Tradicionalmente los sistemas RI han recuperado información desde texto puro, sin estructura. • Algunos problemas muy estructurados de búsqueda de texto se tratan de manera más eficiente con una base de datos relacional. SELECT lastname FROM employees WHERE job_desc LIKE ‘invoic%’; • Muchas fuentes de datos estructurados se modelan mejor como documentos estructurados en lugar de datos relacionales.
1.2. Conceptos básicos de XML • El XML (eXtensibleMarkupLanguage) es un lenguaje de marcas desarrollado para almacenar datos. • Un documento XML es un árbol con etiquetas.Cada nodo del árbol es un elemento XML y se escribe con tagsde apertura y cierre. Las mismas delimitan contextos. • El estándar para acceder y procesar documentos XML es el XML DocumentObjectModel(DOM).
1.2. Conceptos básicos de XML Documento XML Objeto DOM simplificado <play> <author>Shakespeare</author> <title>Macbeth</title> <actnumber="I"> <scenenumber="vii"> <title>Macbeth’scastle</title> <verse>Will I with wine and wassail ...</verse> </scene> </act> </play>
1.2. XPath • XPath es un estándar para definir rutas en una colección de documentos XML. • Ejemplos: • act/scene selecciona todos los elementos scene cuyo padre es un elemento act. • play//sceneselecciona todos los elementos scene que ocurren en un elemento play. • /play//titleselecciona un conjunto con dos miembros (el título de la obra y el título de la escena). + en
1.2. XPath • Se permite que el último elemento de una ruta sea un término de vocabulario, separada de elemento de ruta por el símbolo #. • Ejemplo: • title#"Macbeth" selecciona todos los títulos que contienen el término Macbeth.
1.2. Narrowed Extended Xpath I • Un formato habitual para consultas XML es NEXI. //article [.//yr = 2001 or .//yr = 2002] //section [about(.,summerholidays)] • La cláusula about aporta información para la clasificación. Secciones dadas en el tipo de artículo adecuado serán clasificadas según cuán relevantes sean para el tema summerholidays.
1.3. Desafíos en la recuperación XML • Desconocimiento por parte del usuario de la estructura del documento (el árbol asociado). • Principio de recuperación en documento estructurados: • Se debería devolver la menor unidad de contenido. • Secciones del documento como resultado de consultas. • Definición de unidades de indexado:
2. Modelo de espacio vectorial adaptado 2.1. Sub-árboles léxicos 2.2. Similitud de contexto 2.3. Pesado y puntuación
2.1. Sub-árboles léxicos – I • Codificación de la palabra con su respectiva etiqueta. • Se tendrán pares (contexto, término) (c,t)
2.1. Sub-árbolesléxicos - II • Desglosar “términos compuestos” en las hojas • Bill Gates 2 nodos • Definimoslasdimensiones del espaciovectorial • Sub-árboles con al menos 1 término del vocabulario SUB-ÁRBOLES LÉXICOS • Podremos computar similitud entre árboles
2.2. Similitud de contexto • Mismo formalismo del modelo vectorial visto en clase. • (!) La dimensión del espacio vectorial son árboles léxicos. • Se definen términos estructurados (c,t): • Similitud de contexto: • |Cq| y |Cd| N° de nodosinvolucrados en el camino • Cqdevuelve Cd siiCq+nodosadicionales=Cd • Cq=Cd CR(Cq, Cd)=1
2.3. Pesado y puntuación - I • V: vocabulario de términos no estructurados. • B: conjunto de todos los contextos XML. • idf: dependera de la unidad de documentoelegida. • SimNoMerge(q,d) puededar >0 (no verdaderocoseno) normalizado long. documento. • No se normaliza la query para simplificar la formula. • No afecta el ranking el valor esigual para todos los documentos
2.3. SimNoMerge • Los diferentes contextos XML están separados, son independientes en el pesado. • SimMerge como variante: • Se toman todos los contextos con Cr distinto de 0. • atl # ”recognition” fm/atl, article//atl…. • /play/act/scene/title se unirá a /play/title para búsquedas del tipo /play/title # “Macbeth”. • Afecta directamente el rendimiento
3. Evaluación 3.1. ¿Qué es INEX? 3.2. Rendimiento y restricciones
3.1. ¿Qué es INEX? • InitiativeforEvaluation of XML Retrieval. • Su objetivo es la evaluación de recuperación de información orientada al contenido en XML. • Consiste en: • una colección de documentos (IEEE, Wikipedia) • 60 consultas o “topics” (CO y CAS) • Evaluamos la eficacia según el resultado de las consultas en dos dimensiones: • Cobertura de componentes (E,S,L,N) • Relevancia de la consulta (0-3)
3.2. Rendimiento • SimNoMerge obtiene mejores resultados • La mejora de la precisión es mayor para k bajas • Esto demuestra que la recuperación ordenada es eficaz Resultados de consultas CAS para colección INEX 2002 con modelo espacio vectorial Comparación de precisión en k entre representaciones de solo contenido y estructuradas para colección INEX 2003-2004
4. ALTERNATIVAS 4.1. JuruXML 4.2. Recuperación booleana
4.1. JuruXML • Pionero en recuperación IR en XML. • Basado en árboles XML. • Sintaxis sencilla, basada en la de XML. • Indexación basada en pares (término, contexto) • Capaz de realizar 58 de las 60 consultas INEX, fallando en: • Realizar “join” • Relaciones dependientes del orden de nodos
4.2. Recuperación booleana • Técnicas de recuperación basadas en bases de datos. • Enfoque más estructurado. • Pros: • Exactitud • Implementación sencilla • Contras: • Poco flexible • Ejemplo: XQuery + en
Bibliografía + Fuentes Introduction to informationretrieval Christopher Manning, PrabhakarRaghavan, HinrichSchutze ISBN 0521865719 JuruXML – XML retrievalsystem at INEX’02 YosiMass, Matan Mandelbrod, EinatAmitay, YoelleMaarek, AyaSoffer ACM 1-58113-000-0/00/0000
Bibliografía + Fuentes • http://www.w3schools.com/ • LearnXPath: http://www.w3schools.com/XPath/ • LearnXQuery: http://www.w3schools.com/xQuery/