320 likes | 571 Views
Metodyka algorytmów wyszukiwarek internetowych. Wyszukiwanie boolowskie. Joanna Tabath, Przemysław Szydłowski. Wstęp:.
E N D
Metodyka algorytmów wyszukiwarek internetowych Wyszukiwanie boolowskie Joanna Tabath, Przemysław Szydłowski
Wstęp: Wyszukiwanie rozmaitych zasobów to dla przeciętnego użytkownika jeden z najważniejszych aspektów korzystania z internetu. Wszak każdy z nas nieustannie poszukuje ciekawych informacji, atrakcyjnych plików itd. Internet jako taki nie jest statyczny, lecz dynamicznie się zmienia. Żeby zapewnić aktualność informacji zebranych w bazach danych wyszukiwarek, należałoby praktycznie codziennie skanować całą sieć i natychmiast wprowadzać stosowne poprawki oraz uzupełniać indeksy o nowe zasoby. Ze zrozumiałych względów jest to jednak niemożliwe. Wraz z upływem czasu wyszukiwarki będą stawały się coraz mniej efektywne, co oczywiście nie wyklucza ich stosowania pod warunkiem, że będzie się to robić z głową. Należy jak najczęściej używać zapytań w trybie zaawansowanym, względnie operatorów logicznych, aby możliwie jak najdokładniej określić kryteria poszukiwania i tym samym ograniczyć liczbę wyświetlanych odpowiedzi. Z drugiej strony należy pamiętać, że każda wyszukiwarka poda inne wyniki, mniej lub bardziej rzetelne/aktualne. Stosowanie zaawansowanego trybu zapytań i operatorów logicznych pozwala uściślić kryteria poszukiwania, a to z kolei ogranicza liczbę odnajdywanych odnośników i zwiększa skuteczność całego procesu. Operatory logiczne wpisuje się bezpośrednio w polu, w którym formułuje się zapytanie do wyszukiwarki. Poniższe operatory należą do grona podstawowych i są akceptowane przez większość popularnych wyszukiwarek:
wyrażenia booleanowskie (AND, OR, NOT = logiczne "i", "lub", "nie") - służą do łączenia słów i fraz. Zastosowanie AND sprawia, że wyszukiwane są tylko dokumenty zawierające obydwa słowa (przed i za AND); OR - przynajmniej jedno z podanych słów; NOT - dokumenty, w których występuje dane słowo, są pomijane. • znaki plus/minus - znak plus umieszczony przed danym słowem (bez spacji) sprawia, że wyszukiwane są tylko te dokumenty, które zawierają to słowo. Znak minus ma działanie odwrotne - wyszukiwane są dokumenty, w których dane słowo nie występuje. Przykłady zapytania:car +audi - spowoduje wyszukanie dokumentów związanych tematycznie z samochodami, ale tylko takich, które zawierają w swej treści słowo "audi", polityka -ZSRR - spowoduje wyszukanie dokumentów dotyczących polityki, ale nie tych, które zawierają "ZSRR". • cudzysłów - ujęcie kilku słów kluczowych w cudzysłów powoduje, że zostaną wyszukane tylko te dokumenty, które zawierają tę frazę w całości. Dokumenty zawierające jedynie pojedyncze słowa z frazy zostaną zignorowane. • zróżnicowana wielkość liter (case sensitive) - powoduje, że wyszukiwane są strony zawierające dokładnie zdefiniowany tekst (np. "Fish", ale nie "fish" albo "fiSH"). • Każda wyszukiwarka oferuje pomoc (help), czyli oddzielną stronę ze szczegółowymi objaśnieniami składni zapytań trybu zaawansowanego i innymi istotnymi informacjami. Zawsze warto się zapoznać z pomocą danej wyszukiwarki, bo może się okazać, że oferowane przez nią mechanizmy różnią się nieco od istniejących standardów.
Multiwyszukiwarki Multiwyszukiwarki to serwisy, które same w sobie nie są wyszukiwarkami ani katalogami i nie mają własnych baz danych. Jednakże znacząco podnoszą komfort pracy, ponieważ umożliwiają jednoczesne korzystanie z wielu "zwykłych" wyszukiwarek/katalogów. Typowa multiwyszukiwarka to strona WWW z polem pozwalającym na wpisanie słowa kluczowego. Wpisane przez użytkownika zapytanie jest wysyłane równocześnie (lub sekwencyjnie) do wielu serwisów wyszukiwawczych, a zebrane w ten sposób wyniki są wyświetlane na oddzielnej stronie. Zależnie od rodzaju multiwyszukiwarki wyniki pojawiają się na bieżąco lub w "paczkach" np. po 20 sztuk, mogą być segregowane według miejsca skąd pochodzą, trafności itd. Niektóre multiwyszukiwarki dają się skonfigurować, czyli ustawić liczbę i rodzaj serwisów wyszukiwawczych, do których będzie wysłane zapytanie. Zalety multiwyszukiwarek są oczywiste: oszczędność czasu, wygoda użytkowania, większe szanse na odnalezienie właściwych adresów. Jednak efektywność tych serwisów jest zależna od efektywności "zwykłych" wyszukiwarek, a więc w obu wypadkach występują podobne problemy.
Katalogi W przeciwieństwie do wyszukiwarek, które tworzą swoje bazy danych automatycznie, katalogi stanowią wynik ludzkiej pracy. Ma to swoje zalety i wady. Zaletą jest fakt, że poszczególne odnośniki są weryfikowane pod względem aktualności i zawartości, a następnie umieszczane w odpowiedniej kategorii tematycznej. Dzięki temu użytkownik ma ułatwione zadanie, gdyż nie musi się przebijać przez tysiące zbędnych adresów, jak to ma miejsce w przypadku wyszukiwarek. Jednak ponieważ człowiek ma nieporównanie mniejsze możliwości przerobowe niż pracujący 24 godziny na dobę robot, katalogi przegrywają z wyszukiwarkami pod względem ilości indeksowanych zasobów.
Terminologia Advanced search (advanced query) - wyszukiwanie w trybie zaawansowanym, z użyciem cudzysłowów, znaków plus/minus, operatorów logicznych (także Complex Search, Boolean Search). Concept search - wyszukiwanie z zastosowaniem zapytania o szerszym znaczeniu, nie dosłownym. Tryb dostępny tylko w niektórych wyszukiwarkach. Directory search - wyszukiwanie hierarchiczne polegające na zagłębianiu się w coraz to węższe dziedziny, kategorie. Dotyczy katalogów internetowych. Simple search (simple query) -wyszukiwanie z wykorzystaniem prostych zapytań.
Modele wyszukiwania informacji Każda baza danych wyszukiwarki posiada pewne właściwe dla siebie możliwości formułowania zapytań, lecz dla się wyodrębnić kilka najczęściej spotykanych rodzajów wyszukiwania: 1. Wyszukiwania wg słów kluczowych (wyszukiwanie proste, simple search) 2. Wyszukiwanie boolowskie [AND, OR, NOT], 3. Wyszukiwanie koncepcyjne, 4. Szukanie frazy (ciągu wyrazów, pełnych zdań), 5. Szukanie z określeniem odległości słów, 6. Tezaurus, 7. Wyszukiwanie rozmyte
1. Wyszukiwanie proste • Najprostszy sposób polega na wpisaniu pojedynczego słowa w polu tekstowym i wciśnięciu Enter (lub kliknięciu przycisku Szukaj). Wyszukiwarka zwróci wszystkie strony z witryny, które zawierały dane słowo. Ta metoda wyszukiwania często daje dobre rezultaty. • Następna metoda polega na wyszukiwaniu więcej niż jednego słowa na raz. Można wybrać: - wyszukiwanie wszystkich słów zwróci strony zawierające wszystkie wpisane przez Ciebie słowa -wyszukiwanie dowolnego słowa zwróci stronę zawierającą przynajmniej jedno z wpisanych przez Ciebie słów
2. Wyszukiwanie Boolowskie • Jeśli nie wystarcza wyszukiwanie proste, pomocne może okazać się wyszukiwanie boolowskie (ang. boolean). Do wyboru są operatory i, lub, nie, oraz ich kombinacje. & - logiczne I (koniunkcja) zwróci strony zawierające oba słowa. Na przykład„gcc & łata” zwróci adresy wszystkich stron zawierających zarówno słowo„gcc” jak i„łata”. | - logicczne LUB (alternatywa) zwróci strony zawierające przynajmniej jedno ze słów. Na przykład„gcc | łata” zwróci adresy wszystkich stron zawierających„gcc” lub„łata”. ~ - logiczne NIE (zaprzeczenie) wyłącza słowo z rezultatów. Zazwyczaj używa się go z koniunkcją ( & ), bo wtedy powoduje pominięcie pewnych rezultatów. Na przykład„gcc & ~łata” zwróci adresy wszystkich stron które zawierają słowo„gcc” ale nie zawierają słowa„łata”. Wyszukiwanie samego „~łata” nie zwróci nic, ponieważ wyszukiwanie niczego nic nie zwróci, a usunięcie z pustej listy wyników tych, które zawierają słowo„łata” już nic nie zmieni. () - grupowanie umożliwia tworzenie jeszcze bardziej złożonych wyrażeń, gdyż pozwala na grupowanie bloków logicznych. Na przykład„(gcc | make) & ~łata” zwróci adresy stron zawierających słowo„gcc” lub„make” ale nie zawierających słowa„łata”.
3. wyszukiwanie koncepcyjne (ang. concept search) Wyszukiwanie elementów powiązanych , niekoniecznie odpowiadających wprost na pytanie . Mogą to być np. słowa podobne znaczeniowo lub powiązane w inny sposób.
4. Szukanie frazy (ciągu wyrazów, pełnych zdań), Szukanie frazyto szukanie dokumentów zawierających ciąg wyrazów lub pełne zdanie. Ten rodzaj wyszukiwania uzyskuje się przez zamknięcie poszukiwanego łańcucha słów w cudzysłowie
5. Szukanie z określeniem odległości słów W wyszukiwaniu z określeniem odległości miedzy słowami (proximity searching ) użytkownik określa odległość (ilość wyrazów) pomiędzy słowami kluczowymi np.: wyszukiwanie "guns roses" z odstępem miedzy 2 da nam wyniki typu : - guns and roses- guns 'n roses- more guns than rosesPodczas gdy nie dostaniemy następuujących wyników:- …used guns, but in the next example André used roses- Guns blazed in the rose garden http://www.courtstuff.com/5th/subcase.html
6. Tezaurus Jest to sposób w którym wyszukiwarka używa specjalnego słownika - zbioru synonimów, któryc może używać dla podanych w zapytaniu słów, jeżeli nie pojawiają się one w dokumentach
7. PageRank – swego rodzaju statyczna waga strony. PageRank jest najbardziej demokratycznym narzędziem służącym do ustalania "ważności indywidualnej strony" polegającym na porównaniu łącz między witrynami w sieci. Page rank wykorzystuje sposób znany z kręgów naukowych praca uzyskuje wyższą ocenę im częściej powołują się na nią inni autorzy czyli w tym przypadku ważność strony jest większa im więcej innych stron się do niej odnosi. Google traktuje hiperłącze ze strony 1 do strony 2 jako głos udzielony stronie 2 przez stronę 1. Dodatkowo analizuje strony z odnośnikami. Linki na stronach, które same w rankingu są oceniane wysoko, mają większe znaczenie i pomagają zwiększyć wartość ocenianej strony,wskazujących na daną stronę.
Algorytmy stosowane w wyszukiwarkach Algorytmy oceny relewancji dokumentu względem szukanej frazy - algorytmy oceny zawartości strony
Ważenie termów • Ważenie termów jest procesem obliczania wag, czyli stopnia przynależności termu do dokumentu. W Modelu Wektorowym wartość taka jest pojedynczą liczbą. Niech aij oznacza wagę termu i w dokumencie j.
Ważenie Binarne • Binarna waga słów to jedna z metod określania relatywności dokumentu względem termu (zadanej frazy, słowa). • Określa współczynnik aij=1 lub aij=0, • aij oznacza słowo i w dokumencie j z kolekcji dokumentów; • Taka miara informuje tylko o samym istnieniu jakiegoś związku między dokumentem i a termem a , jednak nie niesie żadnej informacji na temat siły tego związku i nadaje współczynnikowi aij odpowiednią wartość: 1 - gdy słowo występuje, 0- gdy słowo nie występuje,
2. Ważenie częstością słów TF - częstość wystąpień słowa TF (ang. term frequency) - w mechanizmach wyszukiwarek internetowych częstość słów (ważenie częstością słów), funkcja oceny relatywności dokumentu na podstawie wagi ilościowej (częstości wystąpień) słów w obrębie dokumentu. • Bardziej złożonym modelem jest model wykorzystujący częstość termów. W tej technice aij = Tfij , gdzie Tfij określa ile razy term i występuje w dokumencie j. Łatwo zauważyć,iż częstość występowania termów niesie więcej informacji, niż proste ważenie binarne.
Podejście takie ma jednak pewną wadę. Wyobraźmy sobie sytuację, że prawie wszystkie dokumenty z kolekcji zawierają pewne słowo, np. "zeszyt". Jakkolwiek słowo "zeszyt" jest z pewnością bardzo istotnym składnikiem każdego dokumentu, staje się bezużyteczne jeśli chcielibyśmy go użyć do rozróżnienia poszczególnych dokumentów. Stąd wniosek, że term "zeszyt" w ujęciu globalnym jest mało wartościowy, gdyż występuję w prawie każdym dokumencie. Nasuwa się stąd wniosek, iż ważenie częstością termów skupia się jedynie na lokalnym znaczeniu poszczególnych termów w odniesieniu do dokumentów.
Częstość słów - odwrotna częstość w dokumentach TFIDF - model wektorowy TFIDF (ang. TF – term frequency, IDF – inverse document frequency) - ważenie częstością termów - odwrotna częstość w dokumentach - jedna z metod obliczania wagi słów w oparciu o liczbę ich wystąpień, należąca do grupy algorytmów obliczających statystyczne wagi termów. Każdy dokument reprezentowany jest przez wektor, składający się z wag słów występujących w tym dokumencie. TFIDF informuje o częstości wystąpienia termów uwzględniając jednocześnie odpowiednie wyważenie znaczenia lokalnego termu i jego znaczenia w kontekście pełnej kolekcji dokumentów. Ważenie Tf-idf (Częstość termów - Odwrotna częstość w dokumentach) ma na celu wyeliminowanie wad ważenia częstością termów przez odpowiednie wyważenie znaczenia lokalnego termu i jego znaczenia w kontekście pełnej kolekcji dokumentów. W tym schemacie aij=tfij *Log(N/dfi) , gdzie tfij jest częstością termu, dfi jest liczbą dokumentów , w których term i występuje natomiast N oznacza całkowitą liczbę dokumentów w kolekcji. Czynnik Log(N/dfi), oznaczany często idf (odwrotna częstość w dokumentach) koryguje wartość częstości termu i w odniesieniu do jego globalnego znaczenia w całej kolekcji dokumentów. W przypadku gdy jakiś term występuje we wszystkich dokumentach, czyli dfi = N cały czynnik idf przyjmie wartość 0 odzwierciedlając tym samym brak wartości danego termu przy rozróżnianiu dokumentów z kolekcji.
Macierzterm-dokument • Każdy z elementówaijmacierzy określa przynależność termu i do dokumentu j zgodnie z przyjętym schematem ważenia termów. Kolumny macierzy, zwane wektorami dokumentów, reprezentują dokumenty z kolekcji, podczas gdy wiersze, zwane wektorami termów, wykorzystywane są do indeksowania kolekcji dokumentów.Taka reprezentacja jest bardzo pomocna przy zapytaniach, gdyż traktując zapytanie tak samo jak dokument można bardzo łatwo obliczyć podobieństwo dokumentu do zapytania przy wykorzystaniu zwykłych zależności geometrycznych między dwoma wektorami
4. PageRank PageRank – metoda nadawania indeksowanym stronom internetowym określonej wartości liczbowej, oznaczającej jej jakość. Algorytm PageRank jest wykorzystywany przez najpopularniejszą i dającą najtrafniejsze wyniki wyszukiwarkę internetową Google. PageRank jest rozwinięciem znanej od dawna heurystyki, wedle której jakość tekstu jest proporcjonalna do ilości tekstów, które się na niego powołują. Rozwinięcie zaproponowane przez autorów Google polegało na ważeniu sumy linków wskazujących na rozpatrywany tekst ich własną wartością PageRank. Innymi słowy: jeśli na dany tekst powołuje się artykuł, który sam ma wysoką ocenę, ma to większe znaczenie niż gdy na ten sam tekst powołuje się mało popularna strona. Metody zbliżone do algorytmu PageRank są obecnie coraz śmielej wprowadzane do mechanizmów innych wyszukiwarek internetowych. Szczegóły właściwego algorytmu nigdy nie zostały upublicznione i są jednymi ze ściśle strzeżonych tajemnic Google. Do tego są najprawdopodobniej sukcesywnie zmieniane w celu dopracowania mechanizmu. Wszystkie informacje dostępne jawnie przedstawiają jedynie wzorcową wersję algorytmu stosowanego w wyszukiwarce Google.
Metoda Robertsona i Sparcka-Jonesa (1997) • Inne sposoby ważenia termów zaproponowali Robertson i Sparck-Jones (1997)Według nich źródłami wag dla dokumentów winny być: • Częstość występowania w zbiorze dokumentów CFW(i) = log (N) – log (n) N- liczba dokumentów , n- liczba dokumentów zawierających term ti • Częstość termu w dokumencie TF(i,j)= liczba wystąpień termu ti w dokumencie dj • Długość dokumentuDL(j)= całkowita liczba wystąpień termów w dokumencie djNDL(j)= DL(j) / (średnia długość dokumentu Autorzy zaproponowali tzw. wagę „kombinowaną” – najpierw wylicza się wagę kombinowaną dla każdego termu w dokumencie: CW(i,j)=[CFW(i)*TF(i,j*k1+1)] / { k1*[(1-b) + b*NDL(j)] + TF(i,j)]
Metoda Robertsona i Sparcka-Jonesa (1997) c.d. • W przedstawionej formule : • Wpływ częstości dokumentu nie jest zbyt duży • Jeśli term wystąpi tylko raz w dokumencie , to CW(i,j) = CWF(i) Dla systemów pracujących interakcyjnie z użytkownikiem (tzn. w których użytkownik zaznacza , które z dokumentów wyszukanych w pierwszej kwerendzie są wg niego relewantne, sprzężenie zwrotne) zaproponowali modyfikację CW przez podstawienie tzw. Wagi relewancji RW zamiast CFW. RW(i) = {log (r + 0,5)(N – n – R +r – 0,5)} / {(n – r + 0,5)(R-r+0,5)} r -liczba znanych relewantnych dokumentów zawierających ti R – liczba znanych relewantnych dokumentów dla kwerendy N i N odpowiednie liczby dokumentów relewantnych i nierelewantnych
KL-Dir Model Markova • KL-divergence measure jest miarą opierającą swoje wyniki na prawdopodobieństwie. • Miarę określaną przez tą metodę oblicza się z następującego wzoru:
Metoda bazowa B Metoda bazowa również opiera się na badaniu częstości występowaniu termu w dokumencie. • Częstość termu oznacza się przez tf(ti,dj)=tfij • Częstość dokumentu oznacza się df(ti)=dfi liczba dokumentów zawierających ti • Znormalizowane odwrotne częstości dokumentów definiuje się jako nidf(ti)=1-log [df(ti)+1] / log (N+1) , N – liczba dokumentów • Wagi cech w kwerendzie q definiuje się jako ltn(ti)=(1+ log [tf(ti,q)]) * nidf(ti) • Wagi cech dokumentów definiuje się jako lnc(ti,dj)=(1 + log[tf(ti,dj)]) • Ostatecznie ranking dokumentów odbywa się wg wag : aij=ltn(ti) * lnc(ti,dj)
Metoda linków • Metoda linków opiera się na hipertekstowej metodzie wyszukiwania tekstów Główne idee tej metody są następujące: • Rozpatruje się relewantność w stosunku do kwerendy • Hipertekst redukuje się do podstruktury złożonej tylko z linków wystarczająco relewantnych dla kwerendy • Redukuje się wariancję wartości statusu wyszukiwania(Retrieval Status Value) węzła , mierzonej współczynnikiem kosinusowym, powodowaną wartością RSV sąsiadów • Link od dj do dk generuje się jeśli dokumenty zawierają wspólną frazę i spełniają następujące warunki : • Wspólna fraza l={ti,th} składa się z dwóch termów , które muszą wystąpić w obu dokumentach w taki sposób , że tylko krótkie nie-stop-słowa mogą wystąpić miedzy nimi (jedno- lub dwuliterowe słowa są tu uważane za krótkie) • częstość dokumentów df(l) osiąga pewną wartość progową
Metoda linków c.d. Dodając takie linki do zbioru dokumentów zmieniamy go w hipertekst , przy czym każdy hiperlink jest identyfikowany przez frazę l = {ti , hj}. Otrzymany w ten sposób hipertekst należy zredukować do podstruktury złożonej tylko z linków wystarczająco relewantnych do kwerendy warunek relewancji jest następujący : • oba zredukowane termy ti i th muszą wystąpić w kwerendzie • Relewancja linku l = {ti , hj} w stosunku do kwerendy musi być powyżej wartości progowej c.
Metoda linków c.d. Oceniawszy relewancje linków definiujmy otoczenie Dj(q) w stosunku do kwerendy q jako (dk,l) Dj(q) jeśli : Ostatecznie wartość statusu wyszukiwania RSV metody linków określa się jako :
HITS • HITS (ang. hypertext induced topic selection), algorytm opracowany przez Jona Kleinberga z myślą o silniku przeszukującym pod nazwą CLEVER, wykorzystywany do oceny relatywności tekstu względem termu. • Algorytm HITS zakłada, że dokumenty w zbiorze są ze sobą nawzajem połączone, tworząc pewnego rodzaju graf skierowany. W grafie tym węzłami są dokumenty, a krawędziami odnośniki. Krawędzie są skierowane w taki sposób, aby wskazywały na element cytowany, a wychodziły z elementu cytującego. Same założenia modelu wskazują na naturalne wykorzystanie go odnośnie dokumentów hipertekstowych jako zawierających odnośniki (w tym także dokumentów w sieci WWW). • Algorytm HITS opiera się na dwóch ideach: autorytetu (ang. authority) i koncentratora (ang. hub). Dokumentem autorytatywnym (autorytetem) jest dokument cytowany wskazywany, taki, na który wskazuje wiele dokumentów (wiele dokumentów cytuje ten dokument). Koncentratorem jest dokument cytujący, który wskazuje na dokumenty autorytarne (dokument cytuje wiele ważnych dokumentów). • Mówiąc w skrócie algorytm bada wzajemne powiązania pomiędzy stronami. Jeśli na jednej stronie znajduje się odwołanie do innej (cytowanie), to z dużym prawdopodobieństwem można przyjąć, iż jest ona dobra. W efekcie poszukujący otrzymuje zestaw stron już wstępnie bardzo trafnie wyselekcjonowanych.
Co dalej ? • Obecne narzędzia ograniczone są do przetwarzania informacji tekstowych. Wyszukiwarki do przetwarzania informacji multimedialnych ?! Możemy zapytać : „Kogo przedstawia to zdjęcie” albo „Odnajdź podobne”