1 / 28

Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

projekt KBN 4 T11C 026 25 (okres realizacji XI.2003- XI.2005. Mapy i inteligentna nawigacja w sieci WWW z wykorzystaniem sieci bayesowskich i systemów immunologicznych. Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy: prof. dr hab. inż. Slawomir T. Wierzchon ,

eydie
Download Presentation

Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. projekt KBN 4 T11C 026 25 (okres realizacji XI.2003- XI.2005 Mapy i inteligentna nawigacja w sieci WWW z wykorzystaniem sieci bayesowskich i systemów immunologicznych Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy: prof. dr hab. inż. Slawomir T. Wierzchon , mgr inż. Krzysztof Ciesielski mgr inż. Michal Draminski, Instytut Podstaw Informatyki PAN, Warszawa mgr Mariusz Kujawiak Instytut Informatyki Akademii Podlaskiej , Siedlce dr inż. Marcin Sydow Polsko-Japońska Wyższa Szkoła Technik Komputerowych, Warszawa Research partially supported by the KBN research project 4 T11C 026 25 "Maps and intelligent navigation in WWW using Bayesian networks and artificial immune systems"

  2. Agenda • Cel projektu • Pojęcie mapy dokumentu • Proces tworzenia mapy • Architektura systemu • Problematyka klasteryzacji w mapach dokumentów • Wyniki niektórych eksperymentów • Co przed nami ....

  3. Cel projektu • Celem projektu jest stworzenie narzędzi do wspomagania zadania eksploracji pełnotekstowych baz dokumentów poprzezstworzenie nawigacyjnej mapy dokumentów, na której bliskość geometryczna na mapie odzwierciedlałaby bliskość koncepcyjną dokumentów, a trzeci wymiar byłby wykorzystywany do odzwierciedlenia gęstości dokumentów

  4. Koncepcja mapy dokumentów • Wizualizacja zbioru dokumentów na płaszczyźnie • Wiele podejść (inxight, internet cartographer, WEbSOM i warianty) • Idea WebSOM • bliskość na mapie = bliskość w przestrzeni dokumentów • Obszary mapy etykietowane informatywnie • Trzeci wymiar – odmienność w stosunku do otoczenia • Nasze podejście bazuje na idei WebSOM • Trzeci wymiar – gęstość dokumentów

  5. Interfejs systemu BEATCA dostęp z http://www.ipipan.waw.pl/~klopotek /mak/current_research/KBN2003/KBN2003Translation.htm Zapytanie Wyntrana mapa Lista map Dokumenty z „komórek”

  6. Trójwymiarowe wizualizacje map (BEATCA)

  7. W planach: hypergeometryczne reprezentacje (Fish-Eye Effect)

  8. Proces tworzenia mapy(bez etykietowania) Zbiór dokumentów Mapa doklumentów Grupy w przestrzeni dokumentów Punkty w przestrzeni dokumentów

  9. WebSOM – model przestrzeni dokumentów My dog likes this food dog • W tzw. Modelu wektorowym dokument jest punktem w przestrzeni rozpiętej przez termy – o współrzędnych odpowiadających częstosci tych termów food When walking, I take some food walk

  10. Przestrzeń dokumentów a zapytania w wyszukiwarce dog • Relewantność dokumentu do kwerendy mierzy się kosinusem kąta między kwerendą a dokumentem food Query: walk walk

  11. WebSOM – specyficzna klasteryzacja dokumentów Każda komórka mapy ma swój wektore ferencyjny r x m Mocna zmiana położenia (gruba strzałka) Document space 2D map Important difference to general clustering: not only clusters with similar documents, but also neighboring clusters similar

  12. Wady WebSOM • Wysoka złożoność obliczeniowa • Niestabilność (mapy różnią się dla tych samych dokumentów)

  13. Nasza modyfikacja • Reprezentacja w postaci kompaktowych wektorów referencyjnych • Inicjalizacja ogólnymi tematami • Łączona metoda szukania zwycięzcy • Mapy wielopozuiomowe • Wielofazowa klasteryzacja • Początkowa klasteryzacja – identyfikacja głównych tematów • Wstępne grupowanie dokumentów • WEBSOM dla grup dokumentów • Rozmyte grupowanie komórek WebSOM i etykietowanie

  14. Reprezentacja w postaci kompaktowych wektorów referencyjnych • Wektory referencyjne komórek mapy są rzadkie • Podczas uczenia stają się jeszcze rzadsze • Reprezenntowane przez zrównoważone drzewa „red-black tree” • Zadano próg tolerancji • Termy (wymiary) poniżej progu są usuwane • Zdecydowanie zmniejszono złozoność bez pogorszenia jakości

  15. Inicjalizacja tematyczna wektorów referencyjnych • Zamiast WebSOMowej losowej • Identyfikacja K głównych tematów (i ich opisów) • Użycie LSI, lub • Naiwnej sieci bayesowskiej lub • PLSA – niestety nie rekomendujemy • Wybór K punktów na mapie jako tyzw. „punktów fiksowych poszczególnych tematów • Inicjalizacja punktów fiksowych tematami głównymi • Pozostałe komórki inicjalizujemy wektorami „pośrednimi”

  16. Klasteryzacja wstępna dokumentów • Metoda • gazu neuronowego lub • gazu neuronowego z funkcją użyteczności lub • sieci immunologicznej (przyszłe badania) • sieci bayesowskiej (przyszłe badania)

  17. Łączone poszukiwanie zwycięzcy na mapie typu WebSOM • Globalne poszukiwanie – dokładne, lecz wolne • Lokalne przeszukiwanie – szybsze, lecz może być niedokładne dla szybkich zmian rozkładu • Start – jedna faza poszukiwań globalnych • Ruchy dokumentów coraz płynniejsze – lokalne poszukiwanie wystarcza • Nawrót globalnego przeszukiwania w wypadku nagłych przemieszczeń (outliery, zmnmiejszenie promienia otoczenia)

  18. Mapy hierarchiczne • Bottom-up approach • Feasible (with joint winner search method) • Start with most detailed map • Compute weighted centroids of map areas • Use them as seeds for coarser map • Top-down approach is possible but requires fixpoints

  19. Klasteryzacja grup dokumentów (komórek do obszarów) • Tradycyjne metody zawodne: • Skrajnie rozmyta struktura tematyczna SOM • Podobieństwo w oryginalnej przestrzeni i na mapie koniecznie zachowane • Problemy outrlierów • Brak estymacji liczby grup apriori • Zastosowano Fuzzy C-MEANS na kracie komórek • Połączenie rozmytego grupowania z podejściem grafowym (MST gęstości i odległości) • Sjklastrowane dokumenty etykietowane ważonymi centroidami wektorów referencyjnych komórek skalowanymi entropią międzygrupową

  20. Architektura systemu

  21. Eksperymenty ze zbieżnością map • Badano zbieżność do stabilnego stanu mapy w zależności od • Typu funkcji alpha (tempo redukcji promienia poszukiwań) • Typu metody szukankia zwycięzcy

  22. Zbieżność – funkcje alpha (liniowa kontra odwrotnie proporcjonalna)

  23. Zbieżność – poszukiwanie zwycięzcy (łączne kontra lokalne)

  24. Eksperymenty z czasem wykonania • Czynniki badane • Rozmiar mapy (całkowita liczba komórek) • Metoda optymalizacji słownika • dictionary optimization • reference vector representation

  25. Execution time - map size

  26. Execution time - optimizations

  27. Dalsze badania • Implementacja kolejnych metod klasteryzacji • Implementacja koncepcji przyrostowego konstruowania map • Budowa efektywnego pająka • Badania porównawcze szybkości i jakości generowanych na różnych ścieżkach

  28. Dziękuję. Czy są pytania?

More Related