380 likes | 505 Views
Uniwersytet Łódzki Katedra Informatyki. W. Bartkiewicz. Wprowadzenie do budowy usług informacyjnych. Wykład 5. Reformulacja zapytań Sprzężenie relewancji. Uwaga: W bieżącej prezentacji obszernie wykorzystano slajdy z wykładu
E N D
Uniwersytet Łódzki Katedra Informatyki W. Bartkiewicz Wprowadzenie do budowy usług informacyjnych Wykład 5. Reformulacja zapytań Sprzężenie relewancji Uwaga: W bieżącej prezentacji obszernie wykorzystano slajdy z wykładu „Information Retrieval and Web Search”, prowadzonego na Stanford University przez Christophera Manninga i Prabhakara Raghavana.
Katedra Informatyki Niejednoznaczność zapytań • Opisy dokumentów oraz termy indeksujące stanowią określenia pochodzące z języka naturalnego. • Problem – nieprecyzja języka naturalnego. • Ponieważ systemy wyszukiwawcze specyfikowane są na poziomie leksykalnym, a nie pojęciowym, pojawia się problem dopasowania tych samych (lub powiązanych) pojęć wyspecyfikowanych w zapytaniu i w opisie dokumentu z wykorzystaniem nieprecyzyjnych (np. różnych) słów. • Podstawowe typy relacji leksykalnych: • Homonimy (polisemia) – wiele znaczeń tego samego słowa. • Synonimy (wyrazy bliskoznaczne) – różne sposoby wyrażenia tych samych (blisko powiązanych) pojęć. • Metonimy – użycie aspektu pojęcia w znaczeniu całości (np. pałac prezydencki ogłosił ..., do laski marszałkowskiej zgłoszono projekt ...). • Hiponimy (hipernimy) – słowa opisujące pojęcia ogólniejsze i bardziej szczegółowe. • Meronimy – słowa opisujące pojęcia powiązane relacją całość – element. • Antonimy – słowa przeciwstawne.
Katedra Informatyki Reformulacja zapytań • Ludzie rozwiązują problemy nieprecyzji leksykalnej z wykorzystaniem kontekstu. • Modelowanie kontekstu nie jest łatwe. • Problem – zapytania użytkowników są często krótkie, złożone z jednego, dwu termów – brak kontekstu. • Dostarczanie kontekstu z wykorzystaniem reformulacji zapytań • Rozszerzanie zapytania – dodawanie do niego dodatkowych termów (lub zmiana wag termów zapytania) • Sprzężenie relewancji – wykorzystanie informacji o relewancji dokumentów, dostarczonej przez użytkownika. • Analiza globalna – modyfikacja zapytania z wykorzystaniem tezaurusów, zawierających globalne zależności między termami, uzyskane na podstawie analizy językowej lub zawartości całej kolekcji. • Analiza lokalna – modyfikacja zapytania na podstawie lokalnych zależności między termami, związanymi z zapytaniem. • Przekształcenie zapytania z przestrzeni słów do przestrzeni pojęć: • Algebraiczne metody nienadzorowane, np. LSI (Latent Semantic Indexing) • Metody formowania pojęć, oparte na klasyfikacji i grupowaniu termów.
Katedra Informatyki Sprzężenie relewancji • Sprzężenie relewancji: Użytkownik dostarcza informacji o relewancji dokumentów we wstępnym zbiorze wynikowym: • Użytkownik zadaje (krótkie, proste) zapytanie. • System znajduje zbiór dokumentów będący wynikiem zapytania. • Użytkownik w zbiorze wynikowy wskazuje kilka dokumentów relewantnych i (czasami) nierelewantnych. • Na podstawie informacji o relewancji oraz wstępnego zapytania, system oblicza lepszą reprezentację potrzeby informacyjnej użytkownika. • Na podstawie zmodyfikowanego zapytania określany jest nowy zbiór wynikowy. • Procedura ta może być powtarzana kilkukrotnie, w iteracyjnym procesie dochodzenia do jak najlepszego wyniku. • Pomysł: Trudno sformułować dobre zapytanie nie mając szczegółowej wiedzy o kolekcji dokumentów, tak więc dochodzimy do niego w procesie iteracyjnym.
Katedra Informatyki Zapytanie Nowe zapytanie Nowy ranking 1. Doc1 2. Doc2 3. Doc3 . . 1. Doc2 2. Doc4 3. Doc5 . . 1. Doc1 2. Doc2 3. Doc3 . . Ranking dokumentów Reformulacja zapytania Sprzężenie Architektura sprzężenia relewancji Kolekcja dokumentów System IR Rankings
Katedra Informatyki Reformulacja zapytania • Automatyczna modyfikacja zapytania: • Ekspansja zapytania: Dodawanie nowych termów wybranych z dokumentów wskazanych jako relewantne. • Modyfikacja wag: Zwiększanie wag termów występujących w dokumentach wskazanych jako relewantne, zmniejszanie wag termów występujących w dokumentach wskazanych jako nierelewantne. • Dzięki temu nowe zapytanie będzie przesuwane w kierunku dokumentów relewantnych i odsuwane od nierelewantnych. • Często stosuje się wyłącznie sprzężenie pozytywne. • Półautomatyczne – dodatkowe termy może wybierać z przygotowanych list użytkownik (rzadziej stosowane). • Kilka algorytmów dla automatycznego sprzężenia relewancji.
Katedra Informatyki Algorytm Rocchio • Algorytm Rocchio włącza mechanizmy sprzężenia relewancji do standardowego modelu wektorowego. • Załóżmy, że znany jest zbiór dokumentów relewantnych Cr. • Chcemy maksymalizować sim (q, Cr) - sim (q, Cnr). • Optymalny wektor zapytania, rozdzielający dokumenty relewantne i nierelewantne, wyznaczany jest wówczas przez różnicę centroidów (uśrednionych wektorów wag) dukumentów relewantnych i nierelewantnych: • gdzie N jest rozmiarem kolekcji. • Niestety nie znamy Cr.
Katedra Informatyki Algorytm Rocchio – Zapytanie optymalne x x x x o x x x x x x x x o x o x x o x o o x x x – dokumentynierelewanne o– dokumenty relewantne Optymalnezapytanie
Katedra Informatyki Algorytm Rocchio • Ponieważ nie znamy wszystkich dokumentów, po prostu wykorzystujemy zbiór wektorów znanych dokumentów relewantnych (Dr) i nierelewantnych (Dnr) do modyfikacji wstępnego zapytania q0. • gdzie a, b, g są wybieranymi ręcznie lub ustalanymi empirycznie parametrami (wagami) odpowiednio wstępnego zapytania, dokumentów relewantnych i nierelewantnych. • Nowe zapytanie jest więc przesuwane w kierunku dokumentów relewantnych i odsuwane od nierelewantnych. • Wymienność między aoraz bi g , jeśli użytkownik oceni wiele dokumentów, lepsza jest wyższa wartośćb i g . • Wagi termów mogą stać się ujemne. W takich przypadkach są ignorowane (ustawiane na 0).
Katedra Informatyki Algorytm Rocchio – Modyfikacja wstępnego zapytania Wstępnezapytanie x x x o x x x x x x x o x o x x o x o o x x x x xznane dokumenty nierelewantne oznane dokumenty relewantne Zapytaniepoprawione
Katedra Informatyki Algorytm Rocchio – Modyfikacja wstępnego zapytania • Przykład • Wstępne zapytanie: (5, 0, 3, 0, 1) • Dokument D1, relewantny: (2, 1, 2, 0, 0) • Dokument D2, nierelewantny: (1, 0, 0, 0, 2) • a= 1, b= 0.50, g= 0.25 • Q’= Q + 0.5 D1 - 0.25 D2 = (5, 0, 3, 0, 1) + 0.5 (2, 1, 2, 0, 0) - 0.25 (1, 0, 0, 0, 2) = (5.75, 0.50, 4.00, 0.0, 0.5)
Katedra Informatyki Algorytm „Regularny” Ide’a • Polega ona na założeniu, zwiększenie wpływu sprzężenia zwrotnego spowoduje zwiększenie stopnia reformulacji zapytania, a więc nie normalizujemy wielkości sprzężenia • gdzie a, b, g są jak w metodzie Rocchio – wagami (parametrami) odpowiednio wstępnego zapytania, dokumentów relewantnych i nierelewantnych.
Katedra Informatyki Algorytm „Dec Hi” Ide’a • Polega na wykorzystaniu tylko najwyżej ocenionego z dokumentów nierelewantnych. • gdzie a, b, g są jak poprzednio – wagami (parametrami) odpowiednio wstępnego zapytania, dokumentów relewantnych i nierelewantnych. • Operację maxnierelewantny rozumiemy w sensie wyboru wektora reprezentującego nierelewantny dokument o najwyższym rankingu.
Katedra Informatyki Metody sprzężenia relewancji oparte na modelu wektorowym • Ogólnie wyniki eksperymentalne wykazują podobne efekty działania powyższych metod sprzężenia relewancji opartych na modelu wektorowym. • Generalnie wskazuje się poprawę wyników wyszukiwania (zarówno kompletność i precyzję) przy zastosowaniu informacji zwrotnej o relewancji. • Kilka uwag o parametrach: • Oryginalnie Rocchio używał wagi a równej 1. • Sprzężenie pozytywne (dla dokumentów wskazanych jako relewantne) generalnie jest bardziej wartościowe niż negatywne, tak więc zazwyczaj przyjmuje się b > g (np. g = 0.25, b = 0.75). • Wiele systemów pozwala wyłącznie na sprzężenie pozytywne (g = 0). • Generalnie dobrym pomysłem może być ustawienie wag na 1 (z ewentualnym usunięciem sprzężenia negatywnego).
Katedra Informatyki Probabilistyczne sprzężenie relewancji • Podstawowy problem dyskutowanego na poprzednim wykładzie probabilistycznego modelu wyszukiwania informacji (BIR) polegał na tym, że wymagał on wskazania zbioru dokumentów relewantnych i nierelewantnych, a więc dostarczenia informacji o relewancji. • Możemy więc wykorzystać go do modelowania sprzężenia relewancji, wyliczając wagi termów, zgodnie z formułą Robertsona i Sparck Jones: • gdzie N jest liczbą dokumentów w kolekcji, n – liczbą dokumentów zawierających dany term, S – liczbą dokumentów relewantnych wskazanych przez użytkownika, s – liczbą dokumentów zawierających dany term wśród wskazanych dokumentów relewantnych. • Waga termu ci generalnie porównuje więc częstość występowania termu w dokumentach wskazanych jako relewantne do częstości jego występowania w całej kolekcji.
Katedra Informatyki Probabilistyczne sprzężenie relewancji • Probabilistyczne sprzężenie relewancji jest innym sposobem przeliczenia wag termów zapytania, zauważmy jednak, że nie podejście to nie uwzględnia oryginalnych wag. • Dlatego często stosowane jest ono do klasycznej ekspansji zapytania, tzn. termy porządkowane są według wyliczonych wag i następnie: • do zapytania dodawane są termy których waga jest wyższa niż pewien założony próg, albo • do zapytania dodawana jest pewna z góry założona liczba termów o najwyższych wagach.
Katedra Informatyki Sprzężenie relewancji – problemy • Sprzężenie relewancji może produkować długie zapytania, co skutkuje dłuższymi czasami przetwarzania zapytania i wyższym kosztem systemu wyszukiwawczego. • Częściowym rozwiązaniem jest wspomniane na ostatnim slajdzie ograniczenie się do pewnego podzbioru najistotniejszych termów. • Sprzężenie relewancji może być bardzo efektywne i poprawiać wyraźnie wyniki wyszukiwania. • Wymaga jednak dostatecznie dużej liczby dokumentów ocenionych przez użytkownika, w przeciwnym przypadku mechanizm ten jest niestabilny (rekomendowane jest co najmniej 5 dokumentów). • Wymaga zapytań dla których zbiór dokumentów relewantnych jest średni lub duży. • Użytkownicy zazwyczaj niechętnie chcą udzielać tak wielu dodatkowych informacji. • Dlatego często wykorzystuje się tzw. sprzężenie pseudo relewancji lub pośrednie sprzężenie relewancji.
Katedra Informatyki Sprzężenie pseudo relewancji • Sprzężenie pseudo relewancji polega na pominięciu fazy pobierania informacji o relewancji od użytkownika. • Zakłada się po prostu, że m ocenionych najwyżej dokumentów w rankingu jest relewantnych i wykorzystuje się je do przeformułowania zapytania. • Badania wskazują na poprawę efektów wyszukiwania. • Pojawia się jednak niebezpieczeństwo tzw. dryfu zapytania. Jeśli wyniki wstępnego zapytania są niewłaściwe, sprzężenie pseudo relewancji tylko to pogłębia. • Sprzężenie pseudo relewancji może być traktowane jako jedna z metod analizy lokalnej, do których wrócimy jeszcze w dalszej części wykładu. • Pośrednie sprzężenie relewancji polega na automatyzacji procesu pobierania informacji od użytkownika. • Jako relewantne przyjmuje się np. dokumenty, przeglądane przez użytkownika. • Jest to obszar zastosowań eksploracji ciągów kliknięć na łącza (clickstream mining). • Problemy: czy każdy przeglądany dokument jest relewantny? Wymagane są dobre streszczenia prezentowane użytkownikowi w rankingu.
Katedra Informatyki Analiza globalna • Rozszerzanie zapytania – dodawanie do niego dodatkowych termów (lub zmiana wag termów zapytania) • Sprzężenie relewancji – wykorzystanie informacji o relewancji dokumentów, dostarczonej przez użytkownika. • Analiza globalna – modyfikacja zapytania z wykorzystaniem tezaurusów, zawierających globalne zależności między termami, uzyskane na podstawie analizy językowej lub zawartości całej kolekcji. • Analiza lokalna – modyfikacja zapytania na podstawie lokalnych zależności między termami, związanymi z zapytaniem. • Kolejną podstawową metodą rozszerzania zapytania jest analiza globalna, polegająca na wykorzystaniu informacji o powiązaniach między słowami kluczowymi, wynikających z ogólnych analiz językowych lub analizy całej bazy dokumentów.: • Wymusza to na użytkowniku kontrolę słownictwa. • W najprostszym przypadku może to polegać po prostu na umożliwieniu użytkownikowi przeglądania listy termów indeksu odwrotnego. • Zazwyczaj jednak korzysta się z tzw. tezaurusów.
Katedra Informatyki Rozszerzanie zapytania
Katedra Informatyki Tezaurusy • Tezaurus jest słownikiem dostarczającym informacji o powiązaniach semantycznych między termami: • Tezaurus hierarchiczny – hierarchia powiązań typu term szerszy (ogólniejszy) – węższy (bardziej specyficzny). • Tezaurus skojarzeniowy (asocjacyjny) – płaska (a w zasadzie raczej amorficzna) struktura powiązań między synonimami i termami generalnie jakiś sposób związanymi miedzy sobą. • Dla każdego termu występującego w zapytaniu wyszukuje się w tezaurusie i dodaje: • Synonimy i termy powiązane dla stworzenia szerszego kontekstu zapytania. • Słowa o węższym znaczeniu (hiponimy) dla specjalizacji zapytania. • Słowa o szerszym znaczeniu (hipernimy) dla uogólnienia zapytania. • Dodawanie termów może mieć charakter: • Automatyczny – zapytanie rozszerzane jest bez dialogu z użytkownikiem. • Z asystą użytkownika – na podstawie tezaurusa tworzone są różnego rodzaju listy podpowiedzi, z których użytkownik wybiera termy dodawane do zapytania.
Katedra Informatyki Rozszerzanie zapytania • Generalnie zwiększa kompletność wyszukiwania. • Sprawdza się przede wszystkim w wyszukiwaniu dziedzinowym zwłaszcza nauce i technice, w dziedzinach gdzie niezbędny jest pewien model wiedzy. • Przy niejednoznacznych termach może powodować spadek precyzji wyszukiwania, poprzez dodawanie skorelowanych, ale niewłaściwych termów, np.: • “Apple computer” “Apple red fruit computer”
Katedra Informatyki Tezaurusy ręczne • Tezaurusy mogą być tworzone przez ludzi (ekspertów) definiujących powiązania między słowami: • Tezaurusy ogólnego przeznaczenia np. WordNet, tezaurus Reget’a. • Tezaurusy dla konkretnej dziedziny (np. MedLine). • Problemy: • Ręcznie tworzone tezaurusy mogą być trudno dostępne dla konkretnych języków czy dziedzin zastosowania. • Budowa i utrzymanie ręcznego tezaurusa może być dosyć czasochłonne i kosztowne. • Tezaurusy ręczne odzwierciedlają ogólną wiedzę na temat semantyki powiązań między pojęciami, niekoniecznie właściwą i dostosowaną do konkretnej bazy dokumentów. • Dlatego za lepsze rozwiązanie przyjmuje się raczej wykorzystanie tezaurusów generowanych automatycznie na podstawie analizy zawartości konkretnej kolekcji dokumentów.
Katedra Informatyki Tezaurusy skojarzenioweKorelacja termów • Przy generowaniu tezaurusów skojarzeniowych, zazwyczaj wykorzystuje się różnego rodzaju miary korelacji termów: • gdzie i = 1, ..., n, j = 1, ..., n, • n jest liczbą termów w słowniku, • cij jest miarą korelacji między termami ti i tj, • tfik jest częstością termu ti w dokumencie dk, • D jest zbiorem wszystkich dokumentów w bazie danych • Tak więc korelacja między termami wyznaczana jest na podstawie częstości ich współwystępowania w poszczególnych dokumentach kolekcji. • Mnożymy po prostu skalarnie wektory wierszy macierzy termów/ dokumentów, odpowiadające danym termom. • Macierz cij nazywamy macierzą asocjacji termów.
Katedra Informatyki Tezaurusy skojarzenioweKorelacja termów • Macierz asocjacji termów może być normalizowana, tak by dla termów o takiej samej częstości we wszystkich dokumentach korelacja wynosiła 1: • Normalizacja może polegać również na zastosowaniu cosinusoidalnej miary podobieństwa między wierszami termów w macierzy termów/dokumentów:
Katedra Informatyki Tezaurusy skojarzenioweKwestie implementacyjne • W praktyce oczywiście macierz asocjacji termów cij, miałaby bardzo duże rozmiary, ponadto byłaby to macierz rzadka • Zazwyczaj więc przechowujemy wyłącznie elementy cij > 0. • Elementy macierzy cij, aktualizowane są dla każdego nowego dokumentu dodawanego do kolekcji. Dla każdej pary termów ti, tj współwystępujących w nowym dokumencie dk: Jeśli element cij nie istnieje, dodajemy nowe cij = dfik·dfjk. Jeśli element cij istnieje, modyfikujemy go cij += dfik·dfjk.
Katedra Informatyki Tezaurusy skojarzenioweInne miary korelacji termów • Często stosowanym wariantem jest wyznaczanie korelacji termów nie na podstawie częstości ich współwystępowania w całych dokumentach, ale w pewnym ruchomym oknie, złożonym z określonej liczby słów. • Alternatywą jest zastąpienie częstości współwystępowania miarą odległości (w słowach) miedzy termami w dokumencie. • gdzie • Vi jest zbiorem wszystkich wystąpień termu ti, we wszystkich dokumentach, • r(ku,kv) – jest odległością (w słowach) wystąpień słów ku i kv ( jeśli ku i kv są wystąpieniami w różnych dokumentach. • Miara ta może być również normalizowana:
Katedra Informatyki Tezaurusy skojarzenioweRozszerzanie zapytania • Rozszerzanie zapytania może być realizowane zgodnie z powyższą prostą procedurą: dla każdego termu występującego w zapytaniu (qiQ): • W i-tym wierszu macierzy asocjacji termów cij(odpowiadającym termowi qi), znajdujemy k największych wyrazów. • Termy odpowiadające znalezionym k elementom cij o najwyższej korelacji z termem qi, dodajemy do zapytania (lub proponujemy użytkownikowi w procedurze półautomatycznej). • Alternatywą jest znalezienie i dodanie do zapytania k termów najbardziej skorelowanych z całym zapytaniem. • Korelację termu tj z zapytaniem Q, możemy wyznaczyć stosując prostą miarę asocjacji lub współczynnik cosinusów.
Katedra Informatyki Tezaurusy skojarzeniowePowiązania pośrednie • Zauważmy, że macierz asocjacji termów tworzona jest w sposób lokalny, tzn. poprzez analizę współwystępowania termów w poszczególnych dokumentach. • Wiele powiązań między termami może nie zostać wykrytych. • Na przykład termy „samochód” i „pojazd samochodowy” mogą nie występować razem w opisie jednego dokumentu. • Problem ten może zostać częściowo rozwiązany poprzez wykorzystanie asocjacji pośrednich: • Na przykład termy „samochód” i „pojazd samochodowy” mogą nie występować razem w opisie jednego dokumentu, ale w niektórych dokumentach mogą współwystępować termy „samochód” i „motoryzacja”, a w innych „pojazd samochodowy” i „motoryzacja”. • Jednym ze sposobów wykorzystania asocjacji pośrednich jest zastosowanie do obliczania podobieństw termów do zapytania rekurencyjnej sieci neuronowej (konekcjonistycznej). • Sieci tego typu nazywane są również sieciami rozprzestrzeniania aktywacji.
Katedra Informatyki Tezaurusy skojarzenioweRozprzestrzenianie aktywacji • Sieć rozprzestrzeniania aktywacji (spreading activation network) jest w pełni połączoną rekurencyjną siecią typu Hopfielda. • Każdy term traktowany jest jako węzeł sieci (neuron). • Podczas uczenia sieci wagi połączeń między węzłami wyznaczane są poprzez obliczenie współczynnika korelacji cij między odpowiednimi termami reprezentowanymi przez te węzły. • Analizowane wcześniej miary korelacji oparte na współwystępowaniu termów (np. cosinusoidalna) mają charakter symetryczny, tzn. cij = cji. • Wagi sprzężeń zwrotnych (dla tego samego termu) ustawiane są na wartość 0 (cii = 0). • Tak zdefiniowana macierz asocjacji termów (wag sieci neuronowej) spełnia warunki zbieżności sieci rekurencyjnej, może więc posłużyć jako macierz wag połączeń sieci Hopfielda.
Katedra Informatyki Tezaurusy skojarzenioweRozprzestrzenianie aktywacji • Rozszerzanie zapytania oparte na rozprzestrzenianiu aktywacji realizowane jest w procesie relaksacji sieci Hopfielda. • W sieci Hopfielda wejście sieci definiowane jest przez stan początkowy wszystkich neuronów. W naszym przypadku określany jest on poprzez wektor wag termów zapytania, tak więc xi(0) = qi. • W każdym kroku relaksacji sieci obliczamy xi(t+1) = jcij·xj(t). • Proces relaksacji (poprzedni krok) powtarzany jest aż do osiągnięcia przez sieć stanu stabilnego. • Wartości neuronów xi po zakończeniu relaksacji określają podobieństwo poszczególnych termów do zapytania. • Zauważmy, że w każdym kroku stany neuronów obliczane są jako ich podobieństwa do zestawu termów występujących w kroku poprzednim. • Jeśli więc termy „samochód” i „motoryzacja” były silnie skorelowane i w zapytaniu występował pierwszy z nich, neuron odpowiadający termowi „motoryzacja” również zostanie pobudzony. • Jeśli teraz z termem „motoryzacja” będzie skorelowany term „pojazd samochodowy”, to w kolejnym kroku zostanie on pobudzony, nawet jeśli nie był on skorelowany bezpośrednio z termem „samochód”.
Katedra Informatyki Tezaurusy skojarzenioweRozprzestrzenianie aktywacji • Sieci Hopfielda powyższego typu nazywane są często sieciami rozprzestrzeniania aktywacji. • Ich zadaniem jest obliczanie pobudzenia definiowanego przez pewien wzorzec wejściowy, z wykorzystaniem pośrednich asocjacji między węzłami sieci. • Niektóre badania empiryczne wskazują, że niekontrolowany proces rozprzestrzeniania aktywacji prowadzi do pobudzenia termów słabo związanych z zapytaniem. • Sugeruje się więc przerwanie procesu relaksacji sieci po 2 – 3 iteracjach, zamiast po osiągnięciu stanu stabilnego. • Podobne założenia legły u podstaw innej metody rozszerzania zapytania, wykorzystującej pośrednie asocjacje między termami, tzw. metody skupień skalarnych • Zakłada ona z definicji wykorzystanie jednokrokowych asocjacji pośrednich.
Katedra Informatyki Tezaurusy skojarzenioweSkupienia skalarne • Idea wyznaczania współczynnika asocjacji termów opartego na skupieniach skalarnych polega na koncepcji, że skorelowane termy powinny mieć zbliżone sąsiedztwa (zbiory synonimów). • Macierz asocjacji skalarnej sij obliczana jest jako podobieństwo wektorów korelacji termów ti, tj z innymi termami. • Mówimy, że macierz sij jest indukowana przez sąsiedztwo termów. Jak widzimy wykorzystuje ona informację nie tylko o termach skorelowanych bezpośrednio, ale także tych, które skorelowane są z nimi. • Procedura postępowania jest dalej taka sama jak w poprzednich przypadkach. Zapytanie rozszerzane jest o termy najbardziej związane z każdym termem zapytania z osobna, lub z zapytaniem w całości.
Katedra Informatyki Tezaurusy hierarchiczne • Tezaurus hierarchiczny stanowi odzwierciedlenie hierarchii pojęć, i zazwyczaj generowany jest przy zachowaniu następujących warunków: • Termy w hierarchii jak najlepiej powinny odzwierciedlać tematy dokumentów w kolekcji. • Hierarchia powinna być tak zorganizowana, aby term rodzicielski odzwierciedlał pojęcie powiązane, ale generalnie bardziej ogólne niż pojęcia odpowiadające termom potomnym. • Termy potomne mogą mieć więcej niż jednego rodzica, tak więc struktura ta mimo że określana jest jako hierarchia, w zasadzie tworzy skierowany graf acykliczny. • Termy wieloznaczne mogą występować w hierarchii wielokrotnie, oddzielnie dla każdego ich znaczenia w dokumentach. • Nie zawsze (ale zazwyczaj tak) możemy założyć przechodni charakter związku między rodzicem i potomkiem, co wynika ze scalenia w jednej hierarchii wielu różnych typów związków między pojęciami ogólniejszymi i bardziej specyficznymi. • Na przykład „kapitan statku” jest „zawodem”, „Kapitan Ahab” jest „kapitanem statku”. Ale „Kapitan Ahab” nie jest „zawodem”.
Katedra Informatyki Tezaurusy hierarchiczne • Zazwyczaj algorytmy generowania tezaurusa hierarchicznego na podstawie kolekcji dokumentów realizowane są w dwu krokach: • Strukturalizacja zbioru termów na poziomy o coraz mniejszej ogólności. • Znalezienie związków miedzy termami na różnych poziomach i ustanowienie relacji rodzic – potomek. ogólności. Jeśli korelacja jest dostatecznie wysoka tworzy się powiązanie. • Istnieje szereg podejść do strukturalizacji zbioru termów kolekcji. Najważniejsze z niech podzielić możemy na: • Podejścia oparte na wykorzystaniu częstości dokumentu dla danego termu (df) – liczby dokumentów zawierających dany term. • Podejścia oparte na grupowaniu (analizie skupień) hierarchicznym (hierarchical clustering). • Podejścia z pierwszej grupy opierają się na następujących założeniach: • Termy o wyższej częstości df (występujące w większej liczbie dokumentów) mają szersze znaczenie, termy o niższej mają znaczenie węższe. • Jeśli więc term x ma wyższe df niż y, to x jest kandydatem na rodzica y.
Katedra Informatyki Tezaurusy hierarchiczneAlgorytm Forsytha i Rady • Algorytm Forsytha i Rady jest klasycznym algorytmem generowania tezaurusa hierarchicznego z wykorzystaniem częstości df i miar korelacji termów. • Dzielimy przedział częstości wszystkich df na podprzedziały (tyle ile chcemy mieć poziomów w hierarchii). Przedział o najwyższej częstości oznaczamy przez 0, następny przez 1, itd. • Grupujemy termy słownika podstawie ich df do poszczególnych przedziałów częstości. Każdemu przedziałowi odpowiada jedna klasa. • Dla każdego termu t na poziomie i, obliczamy podobieństwo t do wszystkich termów na poziomie wyższym i-1. Jako miarę podobieństwa możemy przyjąć cosinus lub inną miarę korelacji (asocjacji) termów opisaną wcześniej. • Term t staje się potomkiem termu o najwyższym podobieństwie. Jeśli kilka termów na poziomie i-1 spełnia ten warunek, t staje się potomkiem każdego z nich. • Po powiązaniu wszystkich termów na poziomie i, sprawdzamy termy poziomu i-1, znajdując te które nie posiadają potomków. Tworzymy dla każdego z nich identycznego „sztucznego” potomka na poziomie i.
Katedra Informatyki Tezaurusy hierarchiczneAlgorytm Sandersona • Algorytm Sandersona wykorzystuje miarę tzw. subsumpcji (pociągania za sobą) termów. • Term x pociąga za sobą term y, jeśli zbiór dokumentów w których występuje y jest podzbiorem zbioru dokumentów w których występuje x. • Jeśli więc x ma wyższą częstość oraz pociąga za sobą y, jest kandydatem na rodzica y. • Ponieważ relacja subsumpcji, ma charakter skierowany nie wymaga wcześniejszego podziału słownictwa na klasy odpowiadające przedziałom częstości df. • Dla każdej pary termów x i y, takiej że df(x) >= df(y), określany jest zbiór dokumentów, które je zawierają. Przyjmujemy, że x pociąga za sobą y, jeśli: P(x|y) = P(x,y)/P(y) >= 0.8 oraz P(y|x) < P(x|y) • Zależności między termami są porządkowane. Odrzucane są zależności przechodnie. Jeśli a pociąga b i b pociąga c, to zależność a pociąga c może zostać odrzucona.
Katedra Informatyki Analiza lokalna • Analiza lokalna polega na rozszerzaniu zapytania z wykorzystaniem miar asocjacji między termami, wygenerowanymi na podstawie dokumentów z górnej części rankingu dokumentów wyszukanych dla tego zapytania. • Schemat postępowania jest więc zbliżony jak w przypadku sprzężenia pseudo relewancji. • Generalnie sprzężenie pseudo relewancji może być traktowane jako metoda analizy lokalnej. • Metody te mogą również wykorzystywać do rozszerzenia zapytania korelacje między termami dokumentów najbardziej dopasowanych do zapytania przy użyciu metod analogicznych do analizy globalnej.