Modelos

Modelos de Texto Estructurado M.Andrea Rodríguez TastetsDIIC - Universidad de Concepciónhttp://www.inf.udec.cl/~andrea

Algebraic Set Theoretic Generalized Vector Lat. Semantic Index Neural Networks Structured Models Fuzzy Extended Boolean Non-Overlapping Lists Proximal Nodes Classic Models Probabilistic boolean vector probabilistic Inference Network Belief Network Browsing Flat Structure Guided Hypertext Modelos U s e r T a s k Retrieval: Adhoc Filtering Browsing

Introducción • Respuesta a consultas basadas en palabras claves considera que los documentos son planos, i.e., una palabra en el título tiene el mismo peso que una palabra en el cuerpo del documento. • La estructura de los documentos es una pieza adicional de información de la cual se puede obtener ventaja. • Por ejemplo, palabras en el título y subtítulo pueden tener un peso mayor.

Introducción • Considere la siguiente necesidad de información: • Retrieve all documents which contain a page in which the string “atomic holocaust” appears in italic in the text surrounding a Figure whose label contains the word earth • La consulta correspondiente puede ser: • same-page( near(“atomic holocaust”, Figure( label( “earth” ))))

Definición Básica • Match point: la posición en el texto de una secuencia de palabras que iguala la consulta: • Consulta: “atomic holocaust in Hiroshima” • Doc dj: contiene 3 líneas con este string • Entonces, doc dj contiene 3 match points • Region: una porción contigua del texto • Node: un componente estructural del texto tal como un capítulo, sección, etc..

Listas No sobrepuestas • Basado en Burkowski, 1992. • Idea: divide el texto en regiones no superpuestas las cuales son coleccionadas en una lista • Existen muchas formas de dividir el texto en partes no superpuestas que producen múltiples listas: • una lista de capítulos • una lista de secciones • una lista de subsecciones • Regiones de texto desde listas pueden superponerse

Listas No sobrepuestas L0 Capítulo L1 Sección L2 Subsección L3

Listas No sobrepuestas • Implementación: • archivo invertido simple que combina texto y regiones de texto • cada entrada de este archivo invertido está asociada a la lista de regiones de texto • listas de regiones de texto pueden mezclarse con listas de palabras claves

Listas No sobrepuestas • Regiones no se sobreponen, lo cual limita las consultas que se pueden preguntar • Tipos de consultas: • seleccione una región que contenga una palabra dada • seleccione una región A que no contenga una región B (regiones A y B pertenecen a distintas listas) • seleccione una región que no esté contenida en ninguna otra región

Conclusiones • El modelo de listas no superpuestas es simple y permite implementaciones eficientes • Pero, permite un conjunto limitado de tipos de consultas • El modelo no incluye ninguna herramienta para ranking de documentos por grado de similaridad a la consulta • Qué significa similaridad estructural?

Nodos Proximales • Basado en Navarro and Baeza-Yates, 1997 • Idea: definir estructuras de indexación jerárquicas independientes sobre el mismo texto. • Cada una de estas jerarquías está compuesta de capítulos, secciones, párrafos,etc.. • Múltiples jerarquías pueden ser definidos • Dos jerarquías pueden referirse a regiones que se sobreponen

Definiciones • Cada estructura de indexación está compuesta de • capítulos • secciones • subsecciones • párrafos • líneas • Cada uno de estos componentes es llamado nodo • Cada nodo está asociado a una región de texto

Nodos Proximales Capítulo Secciones Subsecciones Subsubsecciones holocaust 10 256 48,324

Nodos Proximales • Puntos claves: • En el índice jerárquico, un nodo puede estar contenido dentro de otro nodo • Pero, dos nodos de una misma jerárquica no se sobreponen • La lista invertida por palabras claves complementa el índice jerárquico • La implementación es más compleja que la de lista no superpuestas

Nodos Proximales • Consultas son expresiones regulares: • búsqueda por strings • referencias a componentes estructurales • combinación de esto • El modelo es una compromiso entre expresividad y eficiencia • Consultas son simples pero pueden ser procesadas eficientemente • Es un model más expresivo que las lista no superpuestas

Nodos Proximales • Consulta: encuentre las secciones, las subsecciones y las subsubsecciones que contengan la palabra “holocaust” • [(*section) with (“holocaust”)] • Procesamiento de consulta simple: • Atraviese la lista invertida por “holocaust” y determine todos los puntos de igualdad (match points) • Use los match points para buscar en el índice jerárquico por los componentes estructurales

Nodos Proximales • Consulta: [(*section) with (“holocaust”)] • Procesamiento de consulta sofisticado: • obtenga la primera entrada en la lista invertida por “holocaust” • use este match point para buscar en el índice jerárquico por los componentes estructurales • El componente de matching más interno: uno más pequeño • Evaluar si el componente más interno incluye la segunda entrada en la lista invertida por “holocaust” • Si es así, evaluar la tercera entrada y así sucesivamente • Esto permite evaluar eficientemente los nodos cercanos (o proximales)

Conclusiones • El modelo permite la formulación de consultas que son más sofisticadas de las permitidas por el modelo de listas no superpuestas • Para acelerar el procesamiento de consulta, nodos cercanos son inspeccionados • Tipos de consultas que son consultadas pueden estar limitadas (todos los nodos en la respuesta deben venir de la misma jerarquía de índice) • El modelo refleja un compromiso entre expresividad y eficiencia

Modelo de Browsing • Exploración de documentos • Tipos de browsing: • flat: se explora un espacio plano (ej. espacio de documentos como puntos en un espacio n-dimensional) • Guiado por estructura: directorios que agrupan jerárquicamente documentos. • Hypertext: es una estructura de navegación interactiva de alto nivel. Consiste de nodos los cuales están correlacionados por enlaces dirigidos en una estructura de grafo.

Modelos

Modelos

Presentation Transcript

MODELOS MENTALES

Modelos Lineales

Modelos organizacionales

MODELOS CURRICULARES

MODELOS

Modelos probabilísticos

MODELOS

Modelos Matriciales

Modelos tridimensionales

Modelos didácticos.

Modelos pedagógicos

Modelos

Modelos Atômicos

MODELOS PEDAGÓGICOS

MODELOS ATÓMICOS

MODELOS.

Modelos

Modelos

Modelos

MODELOS PEDAGÓGICOS

MODELOS

Modelos atómicos