670 likes | 877 Views
Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción http://www.inf.udec.cl/~andrea. Algebraic. Set Theoretic. Generalized Vector Lat. Semantic Index Neural Networks. Structured Models. Fuzzy Extended Boolean. Non-Overlapping Lists Proximal Nodes.
E N D
Modelos Alternativos (2)M.Andrea Rodríguez TastetsDIIC - Universidad de Concepciónhttp://www.inf.udec.cl/~andrea
Algebraic Set Theoretic Generalized Vector Lat. Semantic Index Neural Networks Structured Models Fuzzy Extended Boolean Non-Overlapping Lists Proximal Nodes Classic Models Probabilistic boolean vector probabilistic Inference Network Belief Network Browsing Flat Structure Guided Hypertext Modelos U s e r T a s k Retrieval: Adhoc Filtering Browsing
Modelo Vector Generalizado • Modelos clásicos asumen la independencia de los términos índices. • Para el modelo vector: • El conjunto de vectores de términos {k1, k2, ..., kt} are linealmente independientes, los cuales forman la base para el subespacio de interes. • Esto se interpreta también como una ortogonalidad: • i,j ki kj = 0 • En 1985, Wong, Ziarko, y Wong propusieron una interpretación en la cual los vectores de términos son linealmnete independientes, pero no ortogonales.
Idea Base: • En el modelo vector generalizado, dos vectores de términos índices pueden ser no ortogonales y son representados en base a componentes más pequeños (minterms). • Tal como antes, sea, • wij el peso asociado con [ki,dj] • {k1, k2, ..., kt} sea el conjunto de todos los términos • Si estos pesos son todos binarios, todos los patrones de ocurrencia de los términos puden ser representados por:: • m1 = (0,0, ..., 0) m5 = (0,0,1, ..., 0) • m2 = (1,0, ..., 0) …. • m3 = (0,1, ..., 0) • m4 = (1,1, ..., 0) m2t =(1,1,1,…..1) • Aquí, m2 indica documentos en los cuales sólo el término k1 occurre.
Idea Base: • La base para el modelo vector generalizado está formado por un conjunto de vectores definidos sobre el conjunto de minterms (que son ortogonales), como sigue: 0 1 2 ... 2t • m1 = (1, 0, 0, ..., 0, 0) • m2 = (0, 1, 0, ..., 0, 0) • m3 = (0, 0, 1, ..., 0, 0) • • m2t= (0, 0, 0, ..., 0, 1) • Note que, • i,j mi mj = 0 e.i., ortogonales
Idea Base: • Vectores minterm son ortogonales, pero no necesariamente independientes: • El minterm m4 está dado por: m4= (1, 1, 0, ..., 0, 0) • Este minterm indica la ocurrencia de los términos k1 y k2 en el mismo documento. Si tal documento existe en una colección, se dice que el mintem m4 está activo y que una dependencia entre estos términos está inducida. • Se asume que la co-ocurrencia de términos en documentos induce dependencias entre ellos.
Formando el Vector de Términos • El vector asociado con el término ki es computado: • El peso c con el par [ki,mr] suma los pesos de los términos ki en todos lo documentos en los cuales tiene un patrón de ocurrencia dado por mr. • Note que para una colección de tamaño N, sólo N minterms afectan el ranking. t
Dependencia entre Términos Índices • Un grado de correlación entre términos entre ki y kj puede ser determinado por: • Este grado de correlación suma (en una forma ponderada) las dependencias entre ki y kj inducido por los documentos en la colección (representado por el mr minterms). • Luego se aplica el modelo vectorial:
k2 k1 d7 d6 d2 d4 d5 d3 d1 k3 Ejemplo
Cálculo de C i,r
Conclusiones • El modelo considera correlación entre términos índices. • No es claro cuánto mejor es con respecto al modelo vector clásico. • Costo computacional mayor • Ideas nuevas e interesantes
Latent Semantic Indexing • IR clásica puede llevar a una recuperación deficiente por: • Documentos no relacionados pueden ser incluidos en la respuesta. • Documentos relevantes que no contienen al menos un térmico índice no son considerados. • Razonamiento: • recuperación basada en términos índices es vaga y afectada por “ruido”. • El usuario está más relacionado a conceptos e ideas que a términos índices. • Un documento que comparte conceptos con otro documento conocido de ser relevante puede ser de ínteres también.
Latent Semantic Indexing • La clave es mapear documentos y consultas a un espacio de dimensión menor (e.i. un espacio compuesto de conceptos de mayor nivel con un conjunto menor de términos índices). • Recuperar en este espacio reducido de conceptos puede ser mejor para recuperar que un espacio de términos índices.
Latent Semantic Indexing • Definiciones • Sea t el número total de términos índices • Sea N el número de documentos • Sea (Mij) una matriz de documento-término con t filas y N columnas • Cada elemento de esta matriz está asociada con un peso wij asociado con el par [ki,dj] • El peso wij puede basarse en el esquema tf-idf
Latent Semantic Indexing • La matriz (Mij) puede ser descompuesta en 3 matrices (decomposición de valor singular) como sigue: • (Mij) = (K) (S) (D)t • (K) es la matriz de vectores propios derivada de (M)(M)t • (D)t es la matriz de vectores propios derivada de (M)t(M) • (S) es una matriz diagonal r x r de valores singulares donde • r = min(t,N) que es el rango de (Mij)
Ejemplo • Sea (Mij) la matriz dada por • determinar las matrices (K), (S), y (D)t
Latent Semantic Indexing • En la matriz (S), seleccionar sólo los s valores singulares mayores • mantenga las correspondientes columnas en (K) y (D)t • La matriz resultante es llamada (M)s y está dada por • (M)s = (K)s (S)s (D)t • donde s, s < r, es la dimensionalidad del espacio de conceptos • El parámetro s debe ser • suficientemente grande para permitir la caracterización de los datos • suficientemente pequeño para filtrar datos no relevantes. s
Latent Ranking • La consulta puede ser modelada como un seudo-documento en la matriz original (M) • Asuma que la consulta es numerada como un documento 0 in la matriz • La matriz cuantifica la relación entre cualquier par de documentos en el espacio reducido • La primera fila de la matriz da el ranking de todos los documentos con respecto a la consulta del usuario.
Conclusiones • Latent semantic indexing otorga una conceptualización interesante de recuperación de información • Permite reducir la complejidad de la representación, el cual puede ser explorado,por ejemplo, con el propósito de interacción con el usurario.
Modelo de Redes Neuronales • IR clásica: • Términos son usados parta indexar documentos y consultas • Recuperación está basada en el matching de términos índices. • Motivación: • Redes neuronales son conocidas por ser buenas para realizar matching.
Modelo de Redes Neuronales • Redes Neuronales: • El cerebro humano está compuesto de billones de neuronas • Cada neurona puede ser vista como una unidad de procesamiento • Un neurona es estimulada por una señal de entrada y emite una señal de salida como reacción • Una cadena de reacción de propagación de señales es llamada spread activation process • Como resultado de este proceso, el cerebro puede controlar el cuerpo para lograr reacciones físicas.
Modelo de Redes Neuronales • Una red neuronal es una simplificación de la interacción de neuronas en el cerebro humano. • Nodos son unidades de procesamiento • Arcos son conexiones sinápticas • La fuerza de propagación es modelada como un peso asignado a cada arco • El estado de un nodo es definido por su nivel de activación • Dependiendo de su nivel de activación, un nodo puede generar una señal de salida.
Query Terms DocumentTerms Documents k1 d1 ka ka dj kb kb dj+1 kc kc dN kt Redes Neuronales para IR • Basado en el trabajo de Wilkinson & Hingston, SIGIR’91
Redes Neuronales para IR • Redes de tres niveles • Las señales se propagan a través de la red • Primer nivel de propagación: • Los términos de la consulta inician la señal • Estas señales se propoagan a través de la red hasta alcanzar los nodos documentos • Segundo nivel de propagación: • Los nodos documentos pueden ellos por sí mismos generar nuevas señales las cuales afectan los términos de los documentos • Los nodos de términos de documentos pueden responder con nuevas señales
Cuantificación de la Señal • Normalizar la fuerza de la señal (MAX = 1) • Términos de consulta emiten una señal igual a 1 • Pesos asociados a cada arco desde un nodo término de consulta ki a un nodo término documento ki: • Wiq = wiq sqrt ( i wiq ) • Pesos asociados a cada arco desde un nodo término de un document ki a un nodo documento dj: • Wij = wij sqrt ( i wij ) 2 2
Cuantificación de la Señal • Después del primer nivel de propación, el nivel de activación de un nodo documento dj está dado por: • iWiqWij = i wiq wij sqrt ( i wiq ) * sqrt ( i wij ) el cual es exactamente el ranking del modelo vectorial • Nuevas señales pueden ser intercambiadas entre nodos términos de documento y nodos documento en un proceso análago a un ciclo de feedback • Un threshold mínimo debe ser asegurado para evitar generación de señales perturbadoras. 2 2
Conclusiones • El modelo da una formulación interesante al problema de IR • El modelo no ha sido evaluado extensiblemente • No es claro las mejoras que otorga
Modelo Alternativos Probabilísticos • Teoría de Probabilidad • Semánticamente clara • Computacionalmente enrredada • Por qué Redes Bayesianas? • Es un formalismo claro que combina evidencias • Comparticiona el mundo (dependencias) • Redes Bayesianas para IR • Redes de Inferencia (Turtle & Croft, 1991) • Redes de Creencia (Ribeiro-Neto & Muntz, 1996)
Inferencia Bayesiana Escuelas de pensamiento en probabilidad • Frecuencia: noción estadística relacionada con las leyes de cambios • Epistemología: interpreta la probabilidad como grado de creencia
Inferencia Bayesiana Axiomas básicos: • 0 < P(A) < 1 ; • P(sure)=1; • P(A V B)=P(A)+P(B) Si A y B son mutuamente exclusivos
Inferencias Bayesianas Otras formulaciones • P(A)=P(A B)+P(A ¬B) • P(A)= i P(A Bi) , donde Bi,i es un conjunto exhaustivo y mutuamente exclusivo • P(A) + P(¬A) = 1 • P(A|K) creencia en A dado el conocimiento de K • if P(A|B)=P(A), A y B son independientes • if P(A|B C)= P(A|C), A y B son condicionalmente independientes, dado C • P(A B)=P(A|B)P(B) • P(A)= i P(A | Bi)P(Bi)
Inferencia Bayesiana Regla de Bayes: El corazón de la técnica Bayesiana P(H|e) = P(e|H)P(H)/ P(e) donde, H : una hipótesis y e es una evidencia P(H) : Probabilidad anterior P(H|e) : Probabilidad posterior P(e|H) : Probabilidad de e si H es verdadero P(e) : una constante normalizadora, entonces escribimos: P(H|e) ~ P(e|H)P(H)
Redes Bayesianas Definición: Son grafos dirigidos acíclicos en los cuales nodos representan variables aleatorias, los arcos representan relaciones de causalidad entre estas variables, y la fuerza de estas causalidades son expresadas por probabilidaddes condicionales.
Redes Bayesianas yi : Nodos padres (en este caso, nodos de raíz) x : nodo hijo yi causa x Y el conjunto de padres de x La enfuencia de Y en x puede ser cuantificada por cualquier función F(x,Y) tal que x F(x,Y) = 1 0 < F(x,Y) <1 Por ejemplo, F(x,Y)=P(x|Y) y1 y2 y3 x1
x1 x2 x3 x4 x5 Redes Bayesianas Dada la dependencia declarada en una red Bayesiana, la expresión para la probabilidad conjunto puede ser calculada como un producto de probabilidad condicional local, por ejemplo, P(x1, x2, x3, x4, x5)= P(x1 ) P(x2| x1 ) P(x3| x1 ) P(x4| x2, x3 ) P(x5| x3 ). P(x1 ) : probabilidad anterior del nodo raíz
x1 x2 x3 x4 x5 Redes Bayesianas En una red Bayesiana cada variable es condicionalmente dependiente de todos los no descendientes, sus padres Por ejemplo, P(x4, x5| x2 ,x3)= P(x4| x2 ,x3) P( x5| x4)
Modelo de Redes de Inferencia • Vista Epistemológica del problema de IR • Variables aleatorias asociadas con documentos, términos índices y consultas • Una variable aleatoria asociada con un documento dj representa el evento de observar tal documento
dj ki kt k1 k2 q and q2 q1 or I Modelo de Redes de Inferencia Nodos documentos (dj) términos índices (ki) consultas (q, q1, y q2) necesidad de información del usuario (I) Arcos desde dj, su nodo de término índice ki indica que la observación de dj aumenta la creencia en la variable ki
dj ki kt k1 k2 q and q2 q1 or I Modelo de Redes de Inferencia dj tiene términos k2, ki, y kt q tiene términos k1, k2, y ki q1 y q2 es una formulación Boolean q1=((k1 k2) v ki); I = (q v q1)
Modelo de Redes de Inferencia Definiciones: k1, dj,, son q variables aleatorias k=(k1, k2, ...,kt) un vector t-dimensional ki,i{0, 1}, entonces k tiene 2t posibles estados dj,j{0, 1}; q{0, 1} El ranking de un documento dj es calculado como P(q dj) q y dj,son representación cortas para q=1 y dj =1 (dj representa un estado donde dj = 1 and ljdl =0, porque se observa un documento en cada momento)
Modelo de Redes de Inferencia P(q dj) = k P(q dj| k) P(k) = k P(q dj k) = k P(q | dj k) P(dj k) = k P(q | k) P(k | dj ) P( dj ) P(¬(q dj)) = 1 - P(q dj)
Modelo de Redes de Inferencia Como la instanciación de dj hace todos los nodos de términos índices mutuamente independientes P(k | dj ),entonces P(q dj) = k[ P(q | k) x (i|gi(k)=1 P(ki | dj ))x(i|gi(k)=0 P(¬ki | dj)) x P( dj )] recuerde que: gi(k)= 1 si ki=1 en el vector k 0 en otro caso
Modelo de Redes de Inferencia Probabilidad anterior P(dj) refleja la probabilidad asociado a un evento de observación a un documento dj • Uniforme para N documentos P(dj) = 1/N P(¬dj) = 1 - 1/N • Basada en la norma del vector dj P(dj)= 1/|dj| P(¬dj) = 1 - 1/|dj|
Modelo de Redes de Inferencia Para el modelo Boolean P(dj) = 1/N 1 if gi(dj)=1 P(ki | dj) = 0 otro caso P(¬ki | dj) = 1 - P(ki | dj) solo los nodos asociados con los términos índices del documento dj son activados
Modelo de Redes de Inferencia Para el modelo Boolean 1 if qcc | (qcc qdnf) ( ki, gi(k)= gi(qcc) P(q | k) = 0 otherwise P(¬q | k) = 1 - P(q | k) uno de los componentes conjuntivos de la consulta debe ser igualado por los términos índices activos en k
Modelo de Redes de Inferencia Para una estrategia tf-idf P(dj)= 1 / |dj| P(¬dj) = 1 - 1 / |dj| probabilidad anterior refleja la importancia de normalización de documento
Modelo de Redes de Inferencia Para la estrategia tf-idf P(ki | dj) = fi,j P(¬ki | dj)= 1- fi,j La relevancia del término ki es determinada por su factor de frecuencia de término normalizada fi,j =freqi,j / max freql,j