1 / 41

Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW. Marek Kopel. Wydziałowy Zakład Systemów Informacyjnych. Plan wystąpienia. Problemy wyszukiwania w WWW Klasyczne modele wyszukiwania informacji Model z funkcją spójności i zgodności Zastosowania

walda
Download Presentation

Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Metody analizy spójności i zgodności tematycznej kolekcji dokumentów WWW Marek Kopel Wydziałowy Zakład Systemów Informacyjnych

  2. Plan wystąpienia • Problemy wyszukiwania w WWW • Klasyczne modele wyszukiwania informacji • Model z funkcją spójności i zgodności • Zastosowania • Kierunki dalszych badań

  3. Wyszukiwanie w WWW • Dokumenty tekstowe • przeszukiwanie pełno-tekstowe, meta-tagi • Obrazki • nazwa pliku, adres, tekst wokół obrazka • Usenet (grupy dyskusyjne) • od razu zaindeksowane czasowo i tematycznie • Katalogi • indeksowane przez ludzi

  4. Wspomaganie wyszukiwania • Indeksowanie • słowa kluczowe • meta-tagi • indeksowanie innych indeksów • Rankowanie • keywords w adresie, • linki kierujące do dokumentu • meta-tag <-> treść, • opis linka <-> treść docelowa • Profilowanie użytkownika (personalizacja) • wybieranie na podstawie preferencji (np. kolekcji) • Badanie spójności ?

  5. Model Boolowski • zbiór terminów T, • zbiór D dokumentów WWW, • zbiór pytań Q, • funkcja opisująca (indeksująca): :D2T-, • funkcja wyszukująca: :Q 2D. Zwykle pytanie ma postać:

  6. Waga terminu w dokumencie • Wyraża istotność terminu dla tematyki dokumentu • Różne sposoby obliczania • Najczęściej modyfikacje TF-IDF, czyli liczba wystąpień terminu / wszystkich terminów w dokumencie

  7. Model wektorowy • zbiór terminów T = {t1, …, tn}, • zbiór D dokumentów WWW, • zbiór pytań Q, • d = <d1, …, dn>, di – waga i-tego terminu w dokumencie, • q= <q1, …, qn>, qi – waga i-tego terminu w pytaniu, • :Q ord(2D)

  8.             

  9. Model z profilem użytkownika • zbiory T, D, Q,funkcje ,  • zbiór profili P, • wyszukiwanie : • :QP  ord(2D) – wyszukiwanie bezpośrednie. • :P 2D– filtrowanie, (p) DP • :Q ord( ) – wyszukiwanie z zbiorze DP.

  10. Model z funkcją spójności D         D’   D’ D

  11. Autonomous Citation Indexing • głównie prace naukowe • odkrywanie powiązań między dokumentami na podstawie cytowań (bibliografia) • ograniczanie znajdywania duplikatów poprzez analizę grafu cytowań (http://citeseer.nj.nec.com/cs) - system wykorzystujący ACI

  12. Metody heurystyczne • Probabilistic Latent Semantic Analysis • określa prawdopodobieństwo tematyki dokumentu na podstawie terminów w nim występujących • Probabilistic Hyperlink-Induced Topic Search • używa analiz bibliometrycznych • określa tematyki kolekcji dokumentów oraz autorów związanych z tymi tematykami • Probabilistic Model of Document Content and Hypertext Connectivity • łączy zorientowaną na terminy metodę PLSA oraz zorientowaną na cytowania metodę PHITS • identyfikacja tematyki • identyfikacja dokumentów reprezentatywnych • predykcję nawigacji

  13. Context Focused Crawler • indeksowanie dokumentów webowych relewantnych do predefiniowanego zbioru tematów • omijanie nierelewantnych obszarów sieci • tworzenie grafu kontekstowego poprzez: • indeksowanie dokumentów - TF-IDF • przypisywanie do warstw grafu konkekstowego - Naive Bayes Classifier

  14. Model z funkcją spójności c.d. s: 2D+- funkcja spójności, r: 2D2D- funkcja zawężająca, taka, że: r(Dq )Dq s(r(Dq ))>s(Dq) r(r(D)) r(D) D

  15. Sąsiedztwo hiperlinków dj xxxx xx xxx x xxxx xxxx xxx x xxx xx xx xxxxxx x xx xxxxxx x xx xxxx x x xx x xxx x xxxxxx xx xxxxx xx xx xxx xxx xx xxxxx x x x xx xx xxx x xxxx xxxx xxx xxx xx xxxxx x x x xx x x xxxxx xxx xx xxx x xxx xx x xx x xxxx x x xxxxx xxx xx xxx x xxx xx x xxxx x xxxx di xxxx xx xxx x xxxx xxxx xxx xxx xx xxxxxx x x xx x x xxxxx xxx xx xxx x xxx xxx xx x xxxx xxx x xxx xx xx xxx x xxxx xxxx xxx xxx xx xxxxx x x xxxxx xxx xx xxx xxxx xx x xx x xxxx xxx x xxx xx xxxxxxxx x xx xxxxxx x xx

  16. Spójność Mamy: • zbiór dokumentów D={d1,...,dN}, • zbiór terminów T={t1,...,tM}. Powiązaniem dokumentu diz dokumentem dj ze względu na hiperlink i termin tm nazywamy: gdzie: - liczba terminów tm w sąsiedztwie hiperlinka - liczba terminów tm w dokumencie dj

  17. Spójność c.d. dj di tm

  18. Spójność c.d. dj di tm tm

  19. Spójność c.d. Powiązaniemdokumentudi z dokumentem dj ze względu na termin tmnazywamy wektor: gdzie:

  20. Spójność c.d. dj di tm tm tm

  21. Spójność c.d. Powiązaniem dokumentu dii dokumentu dj ze względu na termin tm nazywamy wektor: gdzie:

  22. Spójność c.d. dj di tm tm tm

  23. Spójność c.d. Powiązaniem dokumentu dii dokumentu dj nazywamy wektor:

  24. W{i,j} dj di W{i,k} dk Spójność c.d. Spójnościąkolekcjidokumentów D nazywamy wektor: Miarą spójności kolekcji nazywamy funkcję: gdzie: σ– odchylenie standardowe składowych wektora spójności kolekcji, – średnia składowych wektora spójności kolekcji

  25. Przykład 1 Mamy zbiór terminów T={t1, t2, t3, t4, t5} i kolekcję dokumentówD ={d1, d2,d3, d4} oraz wektory spójności dokumentów: WD = <1,5; 0,5; 1; 1,25; 1,75> s(WD) ≈ 1,68 W{1,2} = <2, 0, 1, 1, 2> W{2,3} = <2, 0, 1, 1, 2> W{1,3} = <0, 2, 1, 0, 3> W{2,4} = <0, 0, 0, 1, 0> W{1,4} = <1, 0, 1, 2, 0> W{3,4} = <1, 0, 0, 0, 0> <1,3; 0,6; 1; 0,6; 2,3> 1,89

  26. Przykład 1 Mamy zbiór terminów T={t1, t2, t3, t4, t5} i kolekcję dokumentówD ={d1, d2,d3, d4} oraz wektory spójności dokumentów: WD = <1,5; 0,5; 1; 1,25; 1,75> s(WD) ≈ 1,68 W{1,2} = <2, 0, 1, 1, 2> W{2,3} = <2, 0, 1, 1, 2> W{1,3} = <0, 2, 1, 0, 3> W{2,4} = <0, 0, 0, 1, 0> W{1,4} = <1, 0, 1, 2, 0> W{3,4} = <1, 0, 0, 0, 0> <1; 0; 0,3; 0,6; 0,6> 0,91

  27. Problem 1 d3 d8 d5 d6

  28. Wektory w przestrzeni • Cos(90°)=0 - ortogonalne • Cos(0°)=1

  29. Zgodność tematyczna Zgodnością tematyczną kolekcji D1 i D2 nazywamy funkcję: u: 2Dx2D+ gdzie: - wektory spójności kolekcji kolekcji D1 i D2

  30. Przykład 2 Mamy zbiór terminów T={t1, t2, t3, t4, t5, t6, t7, t8, t9, t10} i wektory spójności tematycznej trzech kolekcji D1, D2 i D3: = <4, 0, 4, 0, 6, 2, 0, 0, 1, 0> = <0, 5, 0, 4, 3, 0, 0, 4, 0, 0> = <4, 0, 2, 1, 3, 4, 0, 1, 0, 2> u(D1, D2)= u(D2,D3)= u(D1, D3)=

  31. Problem 2 Automatyczne tworzenie katalogów WWW

  32. Problem 3 D2 D3 D1    s(D2) s(D1) s(D3) 2 3 1 t porównanie spójności: s(D1) ? s(D2) ? s(D3) porównanie zgodności tematycznej: u(D1 , D2) ? u(D2 , D3) ? u(D1 , D3)

  33. Literatura • Daniłowicz, Czesław, Nguyen, Ngoc Thanh: Consensus Methods for Solving Inconsistency of Replicated Data in Distributed Systems. Distributed Parallel Databases 2003 vol. 14 nr 1, p. 53-69 • Daniłowicz, Czesław, Jankowski, Łukasz, Nguyen, Ngoc Thanh: Consistency measures of agent knowledge in multiagent systems. Proceedings of the 14th International Conference on Systems Science. Eds Zdzisław Bubnicki, Adam Grzech. Wrocław: Oficyna Wydawnicza PWroc. 2001 p. 390-398 • Daniłowicz, Czesław, Nguyen, Ngoc Thanh: Consensus-based methods for restoring consistency of replicated data. Inteligent Information Systems. Proceedings of the IIS '2000 Symposium. Mieczysław Kłopotek, Maciej Michalewicz, Sławomir T. Wierzchoń [eds]. Heidelberg; New York: Physica-Verlag 2000 p. 325-335 • Gerhard Weikum: Extending Transaction Management To Capture More Consistency With Better Performance (1993) • Haerder, T., Reuter, A., Principles of Transaction–Oriented Database Recovery, ACM Computing Surveys Vol.15 No.4, 1983 • Guido Moerkotte, Peter C. Lockemann: Reactive Consistency Control in Deductive Databases (1991), ACM Transactions on Database Systems • Ernest Teniente, Antoni Olivé: Updating Knowledge Bases while Maintaining their Consistency (1995), VLDB Journal: Very Large Data Bases

  34. Literatura c.d. • Martin Decker, Guido Moerkotte, Joachim Posegga: Consistency Driven Planning (1996), Portuguese Conference on Artificial Intelligence • Wojciech Cellary, Genevieve Jomier: Consistency of Versions in Object-Oriented Databases (1990)  • M. Raynal, A. Schiper: A Suite Of Formal Definitions For Consistency Criteria In Distributed Shared Memories (1996),Proceedings Int Conf on Parallel and Distributed Computing (PDCS'96) http://citeseer.nj.nec.com/raynal96suite.html • Kourosh Gharachorloo, Daniel Lenoski, James Laudon, Phillip Gibbons, Anoop Gupta, John Hennessy: Memory Consistency and Event Ordering in Scalable Shared-Memory Multiprocessors (1990), 25 Years ISCA: Retrospectives and Reprints • Yvan G. Leclerc, Q.-Tuan Luong, P. Fua: Measuring the Self-Consistency of Stereo Algorithms (2000), ECCV (1) http://citeseer.nj.nec.com/leclerc00measuring.html • Chengjie Liu, Pei Cao: Maintaining Strong Cache Consistency in the World-Wide Web (1998), International Conference on Distributed Computing Systems • Yvon Kermarrec, Alberto Soleto: Managing document consistency over the Web or managing documents duplication • C.A.S. Santos, P.N.M. Sampaio, J.P. Courtiat: Revisiting the concept of hypermedia document consistency (1999), LAAS - CNRS 7 Av. du Colonel... ACM Multimedia (2)

  35. Dziękuję za uwagę

More Related