360 likes | 633 Views
Metody wyszukiwania informacji. Wykonali: Leszek Kłosowicz Przemysław Juszczuk. Przegląd najpopularniejszych metod wyszukiwania. Wyszukiwanie według słów kluczowych : polega na znajdowaniu dokumentów zawierających jedno lub kilka z podanych przez użytkownika słów.
E N D
Metody wyszukiwania informacji Wykonali: Leszek Kłosowicz Przemysław Juszczuk
Przegląd najpopularniejszych metod wyszukiwania • Wyszukiwanie według słów kluczowych : polega na znajdowaniu dokumentów zawierających jedno lub kilka z podanych przez użytkownika słów. • wyszukiwanie koncepcyjne : celem takiego wyszukiwania jest znalezienie stron niekoniecznie zawierających podane słowo lecz raczej związanych z nią znaczeniowo.
Przegląd najpopularniejszych metod wyszukiwania • Szukanie frazy : polega na szukaniu dokumentów zawierających podany ciąg słów lub pełne zdanie podane wcześniej przez użytkownika. • Tezaurus : jest zbiorem synonimów, których może używać wyszukiwarka dla podanych w zapytaniu słów ( w przypadku, gdy nie pojawią się one w dokumencie ).
Przegląd najpopularniejszych metod wyszukiwania Wyszukiwanie rozmyte : to sposób wyszukiwania, który wykrywa także zbieżność części słów (maskowanie końcówek) lub wręcz słów napisanych niepoprawnie. Uzyskuje się go, stosując maski. Znak "*" zastępuje kilkuliterową końcówkę wyrazu, a symbol "?" może zastąpić tylko jeden znak.
Przegląd najpopularniejszych metod wyszukiwania Szukanie podobnych dokumentów:jest to wyszukiwanie, w którym poleca się znaleźć inne dokumenty podobne do znalezionego wcześniej.
Wstęp do wyszukiwania strukturalnegoRóżnica pomiędzy wyszukiwaniem katalogowym a strukturalnym Wyszukiwarki katalogowe działają na podstawie hierarchicznej, redagowanej ręcznie i ciągle uzupełnianej struktury wpisów. Proces wyszukiwania jest bardzo szybki i daje dość precyzyjne wyniki, jednak dużo ważnych dla użytkownika informacji pozostaje „w ukryciu”.
Wyszukiwanie strukturalne • Zwane inaczej wyszukiwaniem indeksowym. Stało się bardzo popularne, dzięki wykorzystaniu w procesie wyszukiwania słów kluczowych. • Hiperłącza tworzone przez autorów stron www przedstawiają relację pomiędzy stronami źródłowymi a docelowymi.
Definicja wyszukiwania strukturalnego Wyszukiwanie strukturalne – jest procesem przeszukiwania sieci pozwalającym nie tylko na tekstową analizę treści strony, lecz także na wskazanie specyficznej struktury hiperłączy.
Strona trzecia Strona druga Strona pierwsza Odnośnik Odnośnik Odnośnik Strona czwarta Graficzne przedstawienie struktury hiperłączy
Dzięki takiemu mechanizmowi otrzymujemy bardzo dużą ilość potencjalnie relewantnych stron, których wyszukanie za pomocą samego mechanizmu analizy tekstu nie byłoby możliwe.
Pojęcie klasteryzacji Samo wyszukiwanie zwraca tysiące linków, których przejrzenie nie jest możliwe w realnym czasie. Potrzebny jest pewien mechanizm grupowania stron na podstawie podobieństw. Właśnie clustering pozwala na pewny logiczny podział znalezionych dokumentów.
O co chodzi, czyli algorytm SRC • SRC – Search Results Clustering • Dane wejściowe – N linków do dokumentów czyli zwykłe wyniki wyszukiwania ( adres,tytuł, fragment strony). • Założenia – istnieje logiczna struktura tematyczna w zestawie wyników. • Dane wyjściowe – zbiór grup tematycznych ułożonych hierarchicznie, częściowo na siebie zachodzących.
Problemy wyszukiwania strukturalnego Projekt Carrot zajmuje się wyszukiwaniem strukturalnym w języku polskim. Jednak ze względu na budowę języka pojawia się problem ze zdefiniowaniem wartości progowych.
Wyszukiwanie boolowskie • Wyszukiwanie boolowskie polega na szukaniu dokumentów spełniających zadane kryteria. • Zadawane pytania mogą zawierać spójniki boolowskie: AND, OR lub NOT.
Wyszukiwanie boolowskie • Spójnik AND: słowo1 AND słowo2 wyszukane zostaną dokumenty, w których występują jednocześnie oba słowa.
Wyszukiwanie boolowskie • Spójnik OR: słowo1 OR słowo2 wyszukane zostaną dokumenty, które zawierają przynajmniej jedno ze słów.
Wyszukiwanie boolowskie • Spójnik NOT: NOT słowo wyszukane zostaną dokumenty, które nie zawierają podanego słowa.
Wyszukiwanie boolowskie • Zapytanie kierowane do wyszukiwarki, traktowane jest jako zdanie logiczne. • Jako wynik wyszukiwarka zwraca strony, dla których podane zdanie logiczne jest prawdziwe.
Wyszukiwanie boolowskie • Przykładowe zapytanie formalnie można zapisać następująco: Z=(S1 OR S2) AND NOT S3 gdzie Z to zapytanie, a S1, S2 i S3 to pewne słowa.
Wyszukiwanie boolowskie • Wyszukiwarka przechowuje n-elementową listę ponumerowanych słów (słownik). • Dokumenty reprezentowane są przez wektory binarne o długości n.
Wyszukiwanie boolowskie • Słowa z zapytania konwertowane są do wektorów binarnych poprzez wyszukanie odpowiednich pozycji słów w słowniku . • Wyszukanie relewantnych dokumentów polega na wykonaniu prostych operacji logicznych na wektorach.
Wyszukiwanie boolowskie • Wada wyszukiwania boolowskiego to słaba możliwość posortowania otrzymanych wyników (pod kątem relewantności dokumentów). Możliwy jest jedynie dyskretny pomiar zbieżności dokumentu z zapytaniem.
Wyszukiwanie boolowskie • Wyszukiwanie boolowskie oferuje użytkownikowi łatwy sposób tworzenia dokładnych i skomplikowanych zapytań, dlatego też jest zaimplementowane w prawie każdej wyszukiwarce.
Webring – metoda pokrewna • w dosłownym tłumaczeniu: sieciowy pierścień. • Jest to swoista odmiana katalogu internetowego, grupująca strony WWW poświęcone jednej określonej tematyce, zagadnieniu, branży itd. • Różnica pomiędzy zwykłym katalogiem internetowym polega na tym, iż tron określonego webringu zawiera w swoim kodzie źródłowym HTML specjalną sekwencję, która na końcu strony tworzy stopkę zawierającą kilka odnośników odwołujących się do specjalnego skryptu CGI Skrypt ten przeszukuje bazę danych stron należących do danego webringu, umożliwiając odwiedzającym swobodną nawigację po nich"
Zalety Webringu • Łatwe przemieszczanie się do kolejnych stron w pierścieniu ( lub cofanie się, a także wybieranie stron losowo ). • Możliwość wybrania aktualnie interesującej strony z listy – wykazu wszystkich stron danego webringu. • Przystąpienie do webringu zwiększa oglądalność danej witryny • Popularyzacja danego tematu/zagadnienia.
Przegląd innych wyszukiwarek Hakia jest wyszukiwarką, która opiera się na języku naturalnym. W założeniu, ma rozumieć semantykę wpisywanych zapytań. Pełna wersja Hakii, ma ruszyć na początku przyszłego roku, nie wiadomo czy wierzyć tym zapowiedziom, gdyż Hakia miała już działać w I kwartale 2006. www.hakia.com
Przegląd innych wyszukiwarek Na podobnej zasadzie działają min. Wyszukiwarki Ask.com oraz AnswerBus.com ( www.AnswerBus.com ) jednak mają one jedną zasadniczą wadę. Często w ramach odpowiedzi na postawione pytanie otrzymujemy zbiór luźno powiązanych z tematem stron.
Przegląd innych wyszukiwarek Mechanizm NetSprinta podobnie jak Google korzysta m.in. z Wikipedii oraz serwisów informacyjnych, dając użytkownikowi możliwość zapoznania się z najnowszymi wiadomościami na dany temat. Wyszukiwarka nie zawsze radzi sobie dobrze też m.in. z podpowiedziami po błędnym wpisaniu zapytania.
Przegląd innych wyszukiwarek • Innym trendem w wyszukiwaniu są rozwiązania dedykowane przeszukujące specyficzne bazy danych. Przykładem takiej wyszukiwarki jest http://www.gopubmed.org/ • mechanizm pomagający precyzyjnie wyszukiwać dokumenty związane z dziedziną biomedycyny.