410 likes | 532 Views
Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW. Marek Kopel. Wydziałowy Zakład Systemów Informacyjnych. Plan wystąpienia. Problemy wyszukiwania w WWW Klasyczne modele wyszukiwania informacji Model z funkcją spójności i zgodności Zastosowania
E N D
Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW Marek Kopel Wydziałowy Zakład Systemów Informacyjnych
Plan wystąpienia • Problemy wyszukiwania w WWW • Klasyczne modele wyszukiwania informacji • Model z funkcją spójności i zgodności • Zastosowania • Kierunki dalszych badań
Wyszukiwanie w WWW • Dokumenty tekstowe • przeszukiwanie pełno-tekstowe, meta-tagi • Obrazki • nazwa pliku, adres, tekst wokół obrazka • Usenet (grupy dyskusyjne) • od razu zaindeksowane czasowo i tematycznie • Katalogi • indeksowane przez ludzi
Wspomaganie wyszukiwania • Indeksowanie • słowa kluczowe • meta-tagi • indeksowanie innych indeksów • Rankowanie • keywords w adresie, • linki kierujące do dokumentu • meta-tag <-> treść, • opis linka <-> treść docelowa • Profilowanie użytkownika (personalizacja) • wybieranie na podstawie preferencji (np. kolekcji) • Badanie spójności ?
Model Boolowski • zbiór terminów T, • zbiór D dokumentów WWW, • zbiór pytań Q, • funkcja opisująca (indeksująca): :D2T-, • funkcja wyszukująca: :Q 2D. Zwykle pytanie ma postać:
Waga terminu w dokumencie • Wyraża istotność terminu dla tematyki dokumentu • Różne sposoby obliczania • Najczęściej modyfikacje TF-IDF, czyli liczba wystąpień terminu / wszystkich terminów w dokumencie
Model wektorowy • zbiór terminów T = {t1, …, tn}, • zbiór D dokumentów WWW, • zbiór pytań Q, • d = <d1, …, dn>, di – waga i-tego terminu w dokumencie, • q= <q1, …, qn>, qi – waga i-tego terminu w pytaniu, • :Q ord(2D)
Model z profilem użytkownika • zbiory T, D, Q,funkcje , • zbiór profili P, • wyszukiwanie : • :QP ord(2D) – wyszukiwanie bezpośrednie. • :P 2D– filtrowanie, (p) DP • :Q ord( ) – wyszukiwanie z zbiorze DP.
Model z funkcją spójności D D’ D’ D
Autonomous Citation Indexing • głównie prace naukowe • odkrywanie powiązań między dokumentami na podstawie cytowań (bibliografia) • ograniczanie znajdywania duplikatów poprzez analizę grafu cytowań (http://citeseer.nj.nec.com/cs) - system wykorzystujący ACI
Metody heurystyczne • Probabilistic Latent Semantic Analysis • określa prawdopodobieństwo tematyki dokumentu na podstawie terminów w nim występujących • Probabilistic Hyperlink-Induced Topic Search • używa analiz bibliometrycznych • określa tematyki kolekcji dokumentów oraz autorów związanych z tymi tematykami • Probabilistic Model of Document Content and Hypertext Connectivity • łączy zorientowaną na terminy metodę PLSA oraz zorientowaną na cytowania metodę PHITS • identyfikacja tematyki • identyfikacja dokumentów reprezentatywnych • predykcję nawigacji
Context Focused Crawler • indeksowanie dokumentów webowych relewantnych do predefiniowanego zbioru tematów • omijanie nierelewantnych obszarów sieci • tworzenie grafu kontekstowego poprzez: • indeksowanie dokumentów - TF-IDF • przypisywanie do warstw grafu konkekstowego - Naive Bayes Classifier
Model z funkcją spójności c.d. s: 2D+- funkcja spójności, r: 2D2D- funkcja zawężająca, taka, że: r(Dq )Dq s(r(Dq ))>s(Dq) r(r(D)) r(D) D
Sąsiedztwo hiperlinków dj xxxx xx xxx x xxxx xxxx xxx x xxx xx xx xxxxxx x xx xxxxxx x xx xxxx x x xx x xxx x xxxxxx xx xxxxx xx xx xxx xxx xx xxxxx x x x xx xx xxx x xxxx xxxx xxx xxx xx xxxxx x x x xx x x xxxxx xxx xx xxx x xxx xx x xx x xxxx x x xxxxx xxx xx xxx x xxx xx x xxxx x xxxx di xxxx xx xxx x xxxx xxxx xxx xxx xx xxxxxx x x xx x x xxxxx xxx xx xxx x xxx xxx xx x xxxx xxx x xxx xx xx xxx x xxxx xxxx xxx xxx xx xxxxx x x xxxxx xxx xx xxx xxxx xx x xx x xxxx xxx x xxx xx xxxxxxxx x xx xxxxxx x xx
Spójność Mamy: • zbiór dokumentów D={d1,...,dN}, • zbiór terminów T={t1,...,tM}. Powiązaniem dokumentu diz dokumentem dj ze względu na hiperlink i termin tm nazywamy: gdzie: - liczba terminów tm w sąsiedztwie hiperlinka - liczba terminów tm w dokumencie dj
Spójność c.d. dj di tm
Spójność c.d. dj di tm tm
Spójność c.d. Powiązaniemdokumentudi z dokumentem dj ze względu na termin tmnazywamy wektor: gdzie:
Spójność c.d. dj di tm tm tm
Spójność c.d. Powiązaniem dokumentu dii dokumentu dj ze względu na termin tm nazywamy wektor: gdzie:
Spójność c.d. dj di tm tm tm
Spójność c.d. Powiązaniem dokumentu dii dokumentu dj nazywamy wektor:
W{i,j} dj di W{i,k} dk Spójność c.d. Spójnościąkolekcjidokumentów D nazywamy wektor: Miarą spójności kolekcji nazywamy funkcję: gdzie: σ– odchylenie standardowe składowych wektora spójności kolekcji, – średnia składowych wektora spójności kolekcji
Przykład 1 Mamy zbiór terminów T={t1, t2, t3, t4, t5} i kolekcję dokumentówD ={d1, d2,d3, d4} oraz wektory spójności dokumentów: WD = <1,5; 0,5; 1; 1,25; 1,75> s(WD) ≈ 1,68 W{1,2} = <2, 0, 1, 1, 2> W{2,3} = <2, 0, 1, 1, 2> W{1,3} = <0, 2, 1, 0, 3> W{2,4} = <0, 0, 0, 1, 0> W{1,4} = <1, 0, 1, 2, 0> W{3,4} = <1, 0, 0, 0, 0> <1,3; 0,6; 1; 0,6; 2,3> 1,89
Przykład 1 Mamy zbiór terminów T={t1, t2, t3, t4, t5} i kolekcję dokumentówD ={d1, d2,d3, d4} oraz wektory spójności dokumentów: WD = <1,5; 0,5; 1; 1,25; 1,75> s(WD) ≈ 1,68 W{1,2} = <2, 0, 1, 1, 2> W{2,3} = <2, 0, 1, 1, 2> W{1,3} = <0, 2, 1, 0, 3> W{2,4} = <0, 0, 0, 1, 0> W{1,4} = <1, 0, 1, 2, 0> W{3,4} = <1, 0, 0, 0, 0> <1; 0; 0,3; 0,6; 0,6> 0,91
Problem 1 d3 d8 d5 d6
Wektory w przestrzeni • Cos(90°)=0 - ortogonalne • Cos(0°)=1
Zgodność tematyczna Zgodnością tematyczną kolekcji D1 i D2 nazywamy funkcję: u: 2Dx2D+ gdzie: - wektory spójności kolekcji kolekcji D1 i D2
Przykład 2 Mamy zbiór terminów T={t1, t2, t3, t4, t5, t6, t7, t8, t9, t10} i wektory spójności tematycznej trzech kolekcji D1, D2 i D3: = <4, 0, 4, 0, 6, 2, 0, 0, 1, 0> = <0, 5, 0, 4, 3, 0, 0, 4, 0, 0> = <4, 0, 2, 1, 3, 4, 0, 1, 0, 2> u(D1, D2)= u(D2,D3)= u(D1, D3)=
Problem 2 Automatyczne tworzenie katalogów WWW
Problem 3 D2 D3 D1 s(D2) s(D1) s(D3) 2 3 1 t porównanie spójności: s(D1) ? s(D2) ? s(D3) porównanie zgodności tematycznej: u(D1 , D2) ? u(D2 , D3) ? u(D1 , D3)
Literatura • Daniłowicz, Czesław, Nguyen, Ngoc Thanh: Consensus Methods for Solving Inconsistency of Replicated Data in Distributed Systems. Distributed Parallel Databases 2003 vol. 14 nr 1, p. 53-69 • Daniłowicz, Czesław, Jankowski, Łukasz, Nguyen, Ngoc Thanh: Consistency measures of agent knowledge in multiagent systems. Proceedings of the 14th International Conference on Systems Science. Eds Zdzisław Bubnicki, Adam Grzech. Wrocław: Oficyna Wydawnicza PWroc. 2001 p. 390-398 • Daniłowicz, Czesław, Nguyen, Ngoc Thanh: Consensus-based methods for restoring consistency of replicated data. Inteligent Information Systems. Proceedings of the IIS '2000 Symposium. Mieczysław Kłopotek, Maciej Michalewicz, Sławomir T. Wierzchoń [eds]. Heidelberg; New York: Physica-Verlag 2000 p. 325-335 • Gerhard Weikum: Extending Transaction Management To Capture More Consistency With Better Performance (1993) • Haerder, T., Reuter, A., Principles of Transaction–Oriented Database Recovery, ACM Computing Surveys Vol.15 No.4, 1983 • Guido Moerkotte, Peter C. Lockemann: Reactive Consistency Control in Deductive Databases (1991), ACM Transactions on Database Systems • Ernest Teniente, Antoni Olivé: Updating Knowledge Bases while Maintaining their Consistency (1995), VLDB Journal: Very Large Data Bases
Literatura c.d. • Martin Decker, Guido Moerkotte, Joachim Posegga: Consistency Driven Planning (1996), Portuguese Conference on Artificial Intelligence • Wojciech Cellary, Genevieve Jomier: Consistency of Versions in Object-Oriented Databases (1990) • M. Raynal, A. Schiper: A Suite Of Formal Definitions For Consistency Criteria In Distributed Shared Memories (1996),Proceedings Int Conf on Parallel and Distributed Computing (PDCS'96) http://citeseer.nj.nec.com/raynal96suite.html • Kourosh Gharachorloo, Daniel Lenoski, James Laudon, Phillip Gibbons, Anoop Gupta, John Hennessy: Memory Consistency and Event Ordering in Scalable Shared-Memory Multiprocessors (1990), 25 Years ISCA: Retrospectives and Reprints • Yvan G. Leclerc, Q.-Tuan Luong, P. Fua: Measuring the Self-Consistency of Stereo Algorithms (2000), ECCV (1) http://citeseer.nj.nec.com/leclerc00measuring.html • Chengjie Liu, Pei Cao: Maintaining Strong Cache Consistency in the World-Wide Web (1998), International Conference on Distributed Computing Systems • Yvon Kermarrec, Alberto Soleto: Managing document consistency over the Web or managing documents duplication • C.A.S. Santos, P.N.M. Sampaio, J.P. Courtiat: Revisiting the concept of hypermedia document consistency (1999), LAAS - CNRS 7 Av. du Colonel... ACM Multimedia (2)