230 likes | 415 Views
Procesy decyzyjne w aktywnym wyszukiwaniu informacji w Internecie. Mieczysław Kłopotek, Arkadiusz Dzierżanowski, Marcin Brzóska, Mariusz Kujawiak. Problemy związane z wyszukiwaniem informacji w WWW. Nadmiarowość i nieaktualność informacji. Rozproszona struktura WWW.
E N D
Procesy decyzyjne w aktywnym wyszukiwaniu informacji w Internecie Mieczysław Kłopotek, Arkadiusz Dzierżanowski, Marcin Brzóska, Mariusz Kujawiak
Problemy związane z wyszukiwaniem informacji w WWW • Nadmiarowość i nieaktualność informacji. • Rozproszona struktura WWW. • Zbyt duża ilość dokumentów. • Różnorodność źródeł informacji. • Dynamiczny rozwój sieci Internet.
Wyszukiwarki - oparte na analizie treści strony - oparte na analizie topologii sieci - oparte na zasadzie aukcji miejsc - oparte na katalogach
Meta i multiwyszukiwarki • Serwisy typu "lista„ • strony WWW na których zgromadzone zostały odnośniki do wybranych, standardowych wyszukiwarek • Serwisy poszukujący pojedynczo • uzyskane w ten sposób odnośniki są odpowiednio porządkowane i wyświetlane zazwyczaj przy zachowaniu podziału na poszczególne wyszukiwarki. • Serwisy poszukujące równolegle • łączą się jednocześnie z wieloma serwisami i na bieżąco pobierają z nich dane.
Osobiste narzędzia wyszukiwawcze Narzędzia takie odwiedzając strony zaproponowane przez użytkownika wyszukują przydatne dla niego informacje Narzędzie takie zainstalowane w komputerze, korzysta z wielu indekserów jednocześnie, a następnie przetwarza uzyskane wyniki, usuwa duplikaty i wyświetla jednolitą listę zgodnie z przyjętymi przez użytkownika zasadami.
Wspomaganie decyzji (nawigacyjnych) w osobistych narzędziach wyszukiwawczych • Oparte na powiązaniach pomiędzy dokumentami • PageRank • PHITS • Oparte na zawartości dokumentów • PLSA • TFIDF • Hybrydowe • PLSA&PHITS
PageRank • Popularny dzięki wyszukiwarce internetowej Google.com. • Google traktuje odsyłacz ze strony A do strony B jako głos udzielony stronie B przez stronę A.
PHITS Algorytm korzysta z macierzy A, która zawiera dane dotyczące cytowania jednego dokumentu przez inny tzn. Aij jest niezerowe jeśli dokument di jest cytowany przez dokument dj, lub równoważnie jeśli dj zawiera odsyłacz do dokumentu di. Wyróżniamy dwa rodzaje dokumentów: • authoritatives • hubs PHITS modeluje linki wchodzące do dokumentu, czyli cytowania zewnętrzne dokumentu.
PLSA Macierz termów i dokumentów N zliczająca słowa, tj. Nij oznacza, jak często term (pojedyncze słowo lub fraza) ti występuje w dokumencie d. Dokument dj. jest reprezentowany jako wypukła kombinacja czynników o wagach mieszaniny P(zk|dj), tzn. prawdopodobieństwa predykcji termu w poszczególnych dokumentach są ograniczone do formy funkcyjnej P(ti | dj) = Σk P(ti|zk)P(zk|dj),
TFIDF Waga dokumentów oparta na statystycznej wadze termów – TFIDF (term frequency – inverse document frequency). Wyrażona jest ona następującym wzorem: tfidfij = tfij / idfj = tfij / log2(N/dfj) • tfij – to liczba wystąpień termu j w dokumencie i, • dfj – liczba dokumentów zawierających term j, • N – ogólna liczba dokumentów. Z punktu widzenia tego algorytmu dużego znaczenia nabierze term często występujący w jednym z dokumentów, a rzadko w innych.
TFIDF Mając dany zbiór termów Z={w1,w2,w3}, po wyliczeniu wag dla poszczególnych wyrazów, obliczamy całkowitą wagę dokumentu z następującego wzoru: Si – waga dokumentu i, Di – całkowita liczba termów w dokumencie i, N – całkowita liczba termów, Wj – waga termu j, Dij – liczba wystąpień termu j w dokumencie i
PLSA&PHITS Ponieważ zarówno PLSA i PHITS jest oparte na podobnym rozkładzie, można zdefiniować prostszy wspólny model dla prawdopodobieństwa hiperłaczy i termów w dokumentach: • Zaletą takiego połączenia jest możliwość wykorzystanie zawartego tekstu i powiązania dokumentów. • Zastosowanie tego modelu umożliwia precyzyjne określanie dokumentów najbardziej do siebie podobnych poprzez zawartość merytoryczną tego dokumentu jak również powiązanie z innymi dokumentami przez zawarte w treści hiperłącza.
Przykłady wykorzystania algorytmu TFIDF Witryna http://onet.pl - ilość stron 322 słowa kluczowe „piłka nożna”
Przykłady wykorzystania algorytmów (1) Wprowadzenie pomocniczej miary „quasi” statystycznej dla algorytmu opartego na powiązaniach pomiędzy stronami, pozwala na wzięcie pod uwagę także zawartości merytorycznej dokumantu.
Rozkład procentowy jakości stron Witryna http://allegro.pl - ilość stron 150 słowo kluczowe „komputer” Przed filtrowaniem stron WWW Po filtrowaniu stron WWW
Przykłady wykorzystania algorytmów (2) Witryna http://www.ii.ap.siedlce.pl - ilość stron 54 słowa kluczowe „studia”
Przykłady wykorzystania algorytmów (1) Witryna http://allegro.pl - ilość stron 134 słowo kluczowe „komputer”
Wyszukiwarka 1 Wyszukiwarka 2 Wyszukiwarka m … Serwer MetaSzukacza Klient 1 Klient 2 … Klient n Struktura działąnia metawyszukiwarki MetaSzukacz
Metawyszukiwarka MetaSzukacz Akcja na przycisku „Szukaj” rozsyła zapytanie do wybranych wyszukiwarek Pole do wprowadzenia zapytania do wyszukiwarek Wybór wyszukiwarek z których będą pobierane opisy dokumentów
Prezentacja wyników w MetaSzukaczu Mapa rozmieszczenia dokumentów z pomocą algorytmu WEBSOM Informacje o wybranym dokumencie w mapie Wybór algorytmu decyzyjnego który wskazuje następny podobny dokument Zawartość merytoryczna wybranego dokumentu Legenda mapy określająca ważność dokumentu
Subiektywna ocena algorytmów nawigacji dla zapytania „metawyszukiwarki”