220 likes | 326 Views
Uniwersytet Łódzki Katedra Informatyki. W. Bartkiewicz. Wprowadzenie do budowy usług informacyjnych. Wykład 4. Model probabilistyczny wyszukiwania informacji. Uwaga: W bieżącej prezentacji obszernie wykorzystano slajdy z wykładu
E N D
Uniwersytet Łódzki Katedra Informatyki W. Bartkiewicz Wprowadzenie do budowy usług informacyjnych Wykład 4. Model probabilistyczny wyszukiwania informacji Uwaga: W bieżącej prezentacji obszernie wykorzystano slajdy z wykładu „Information Retrieval and Web Search”, prowadzonego na Stanford University przez Christophera Manninga i Prabhakara Raghavana.
Katedra Informatyki Założenia modelu probabilistycznego • Model wektorowy opierał się na algebrze liniowej. W przeciwieństwie do niego model probabilistyczny bazuje statystyce Bayesowskiej. • W praktyce, jak zobaczymy, oba te modele w znacznym stopniu się pokrywają. • Ogólna zasada tworzenia rankingu: • Mamy kolekcję dokumentów. • Użytkownik wykonuje zapytanie. • Zwracana jest lista dokumentów, uporządkowanych odpowiednio dla potrzeb informacyjnych użytkownika. • W modelu probabilistycznym dokumenty rankingowane są według prawdopodobieństwa relewantności dla potrzeb informacyjnych użytkownika: P(relewantny | dokument, zapytanie)
Katedra Informatyki Krótka powtórka z podstaw rachunku prawdopodobieństwa • Niezależność zdarzeń • Niech a, b będą dwoma zdarzeniami z prawdopodobieństwami P(a) i P(b). • Zdarzenia a i b są niezależne wtedy i tylko wtedy gdy: P(a b) = P(a)P(b) • W ogólności a1, a2, ... , an są niezależne wtedy i tylko wtedy gdy: P(a1 a2 ... an) = P(a1)P(a2)...P(an) • Warunkowe prawdopodobieństwo zdarzeń: • P(a | b) jest prawdopodobieństwemapod warunkiemb, nazywanym także prawdopodobieństwem warunkowyma przy danym b. P(a | b) = P(a b) / P(b) • Niezależność warunkowa zdarzeń: • Zdarzenia a1, ..., ansą warunkowo niezależne wtedy i tylko wtedy gdy: P(ai | aj) = P(ai) dla wszystkich i oraz j.
Katedra Informatyki Krótka powtórka z podstaw rachunku prawdopodobieństwa • Zdarzenia niezależne – przykład: aib są wynikiem rzutu dwoma kostkami P(a=5 | b=3) = P(a=5) =1/6 • Zdarzenia zależne – przykład: aib są wynikiem rzutu dwoma kostkami t jest sumą dwu rzutów t = a + b P(t=8 | a=2) = 1/6 P(t=8 | a=1) = 0
Katedra Informatyki Krótka powtórka z podstaw rachunku prawdopodobieństwa Prawdopodobieństwo warunkowe a gdzieajestzdarzeniemnie a x a y w b z b P(a) = x + y P(b) = w + x P(a | b) = x / (w + x) = P(a b) /P(b) P(a | b) P(b) = P(a b) = P(b | a) P(a)
Katedra Informatyki Krótka powtórka z podstaw rachunku prawdopodobieństwa Twierdzenie Bayesa a priori a posteriori
Katedra Informatyki Krótka powtórka z podstaw rachunku prawdopodobieństwa Twierdzenie Bayesa Przykład aWaga ponad 80 kg. bWzrost ponad 180 cm. P(a | b) = x / (w+x) = x / P(b) P(b | a) = x / (x+y) = x / P(a) x=P(a b) Ponad 80 kg x y w z Ponad 180 cm
Katedra Informatyki Krótka powtórka z podstaw rachunku prawdopodobieństwa Szansa
Katedra Informatyki Zasada rankingowania probabilistycznego • Podstawą teoretyczną wszystkich modeli probabilistycznych wyszukiwania informacji jest tzw. zasada rankingowania probabilistycznego (Probability Ranking Pronciple). • Zgodnie z nią optymalne działanie systemu wyszukiwawczego może zostać osiągnięte poprzez rankingowanie dokumentów zgodnie z prawdopodobieństwem ich oceny jako relewantnych dla zapytania. • Prawdopodobieństwa te powinny zostać oszacowane tak dokładnie, jak to jest możliwe na podstawie dostępnych do tego celu danych.
Katedra Informatyki Zasada rankingowania probabilistycznego • Dla danego dokumentu d w kolekcji oznaczmy przez: • R – zdarzenie polegające na tym, że dokument jest relewantny • NR – zdarzenie polegające na tym, że jest on nierelewantny. • Dla danego zapytania q i dokumentu d w kolekcji szacujemy prawdopodobieństwo, że użytkownik uzna d za relewantny P(R|d), a następnie sortujemy dokumenty zgodnie z wyznaczonymi prawdopodobieństwami. • Zazwyczaj dokumenty ocenia się nie korzystając bezpośrednio z P(R|d), ale z szansy S(R|d) = P(R|d) / P(NR|d). • Ponieważ interesuje nas ranking (porównanie względne) dokumentów, na ogół nie korzystamy nawet z szansy, ale tzw. RSV (Retrieval Status Value) – miary proporcjonalnej do prawdopodobieństwa relewancji (RSV ~ P(R|d)). • Założenia (dyskusyjne): • Relewantność każdego z dokumentów jest niezależna od relewantności innych dokumentów (tzn. każdy dokument może być rozważany w izolacji od innych). • Boolowski model relewancji, tzn. dokument jest albo relewantny, albo nie.
Katedra Informatyki Relewancja i twierdzenie Bayesa – podstawowe definicje • P(R|d), P(NR|d)– prawdopodobieństwo, że dokument d jest relewantny (nierelewantny). • P(R), P(NR) – prawdopodobieństwo a priori wyszukania relewantnego (nierelewantnego) dokumentu. • P(d|R), P(d|NR) – prawdopodobieństwo wystąpienia dokumentu d w zbiorze dokumentów relewantnych (nierelewantnych). • P(d) – prawdopodobieństwo wystąpienia dokumentu d w kolekcji.
Katedra Informatyki Model BIR • Model BIR (Binary Independence Retrieval) jest najczęściej stosowanym (i najprostszym) modelem probabilistycznym. • Binary - dokumenty oraz zapytania reprezentowane są przez binarne wektory występowania termów – 1 jeśli dany term występuje w dokumencie (zapytaniu), 0 jeśli nie. • Independence – termy występujące w opisie dokumentu są niezależne. Najbardziej problematyczne założenie. W zasadzie nigdy nie jest spełnione. • BIR opiera się więc na naiwnym probabilistycznym modelu Bayesowskim.
Katedra Informatyki Model BIR • Przyjmijmy, że dokumenty reprezentowane są przez binarne wektory występowania termów x = (x1, ..., xn), przy czym xi = 1, jeśli term i występuje w opisie dokumentu i, xi = 0, gdy nie. • Podobnie zapytania reprezentowane są przez binarne wektory q = (q1, ..., qn). • Dla danego zapytania q i dla każdego dokumentu wyznaczamy miarę RSV(q, x) ~ P(R | q, x), która posłuży nam następnie do sporządzenia rankingu dokumentów. • Do stworzenia miary RSV wykorzystamy szansę oraz twierdzenie Bayesa:
Katedra Informatyki Model BIR • Korzystamy z założenia niezależności Stałe dla danego zapytania Wymaga oszacowania
Katedra Informatyki Model BIR • Ponieważ xi jest równe albo 0 albo 1: • Oznaczmy przez: • Załóżmy ponadto, że dla wszystkich termów nie występujących w zapytaniu (qi = 0) mamy: pi = ri.
Katedra Informatyki Model BIR • Załóżmy ponadto, że dla wszystkich termów nie występujących w zapytaniu (qi = 0) mamy: pi = ri. • Wówczas dla wszystkich termów nie występujących w zapytaniu (qi = 0) pi / ri = 1.
Katedra Informatyki Wszystkie termy dopasowane Wszystkie termy dopasowane Nie dopasowanetermy zapytania Wszystkie termy zapytania Model BIR
Katedra Informatyki Stałe dla zapytania Jedyny element, który musi być obliczony do rankingu • Retrieval Status Value: Model BIR
Katedra Informatyki Model BIR • Pomimo, że formuła wyszukiwania probabilistycznego wygląda w sposób złożony, widzimy, że jest to w zasadzie wariant modelu wektorowego, wykorzystujący nieco inną formułę obliczania wag termów niż tf*idf. • Problemem podstawowym oczywiście jest oszacowanie współczynników ci, niezbędnych do wyznaczenia RSV dokumentu.
Katedra Informatyki • Oszacowania: Model BIR • Załóżmy, że mamy pewien zbiór treningowy zapytań z informacją o relewancji dokumentów, które powinny zostać wyszukane w odpowiedzi na te zapytania. • W takiej sytuacji możemy wyznaczyć współczynniki ci, z następującej tabeli, sporządzanej dla każdego termu i (Robertson i Sparck Jones).
Katedra Informatyki Model BIR • Niestety, w praktyce rzadko dysponujemy danymi dotyczącymi relewancji. • Wyjątkiem jest interaktywna metoda modyfikacji zapytania, z wykorzystaniem tzw. sprzężenia relewancji. O sprzężeniu relewancji mówić będziemy na jednym z kolejnych wykładów. • Współczynniki ci oszacowane muszą być wówczas wyłącznie na podstawie statystyk występowania termów w kolekcji dokumentów. • Zazwyczaj liczba dokumentów nierelewantnych w kolekcji jest dużo większa niż relewantnych. • Dla dużych wartości N, prawdopodobieństwo wystąpienia termu w dokumentach nierelewantnych może więc być szacowane przez n/N. (czyli przy założeniu, że wszystkie dokumenty są nierelewantne). • Wówczas mamy: log (1– ri)/ri = log (N– n)/n ≈ log N/n = IDF! • Musimy więc obliczyć wyłącznie prawdopodobieństwo wystąpienia termu w dokumentach relewantnych pi. • Klasyczna metoda polega na użyciu iteracyjnej formuły, wyznaczającej wartość pi rekurencyjnie.
Katedra Informatyki Model BIR • Wstępnie inicjujemy pi jako stałe dla każdego xi w zapytaniu. • Ponieważ nie mamy żadnych informacji wstępnych, przyjmujemy wszystkie pi = 0.5. Jak już wcześniej wspomnieliśmy przyjmujemy również ri = n/N. • Określamy przybliżenie zbioru dokumentów relewantnych. • Wybieramy |V| dokumentów o najwyższym RSV wyznaczonym dla danych pi i ri. • Niech Vi będzie wśród nich zbiorem dokumentów zawierających term xi. • Obliczamy kolejne przybliżenia pi i ri. • pi = | Xi | / |V|. • ri = (n - |Vi |) / (N-|V|) • Punkty 2 i 3 powtarzamy, aż do osiągnięcia zbieżności.