180 likes | 357 Views
Hierarchické zhlukovanie sietí na webe. Ondrej Pok. Plán prezentácie. Ciele diplomového projektu Prehľad zhlukovacích algoritmov Návrh a implementácia Plán do ďalšieho semestra. Ciele. Implementovať zhlukovací algoritmus použiteľný pre rôzne typy dát
E N D
Hierarchické zhlukovanie sietí na webe Ondrej Pok
Plán prezentácie • Ciele diplomového projektu • Prehľad zhlukovacích algoritmov • Návrh a implementácia • Plán do ďalšieho semestra
Ciele • Implementovať zhlukovací algoritmus • použiteľný pre rôzne typy dát • integrovať do projektu ClusterNavigator • Umožniťhierarchickézhlukovanie (rekurzívnu aplikáciu zhlukovacej metódy )
Analýza existujúcich metód • Hierarchické metódy • Zhora nadol (divisive) • Zdolanahor (agglomerative) • vytvára sa dendrogram * • Rozdeľujúce (partitioning) • k-means, k-medoids
Analýza existujúcich metód • Grid methods • Subspace clustering • Genetické algoritmy • Shared nearest neighbours (Spoloční najbližší susedia)
Analýza existujúcich metód • Veľmi rozšírené sú hierachické metódy a k-means • počet zhlukov ako vstup od používateľa • problém ako zvoliť správny počet ?
Analýza existujúcich metód Metóda Shared Nearest Neighbours • Základom je matica alebo graf podobnosti všetkých inštancií • Nájde prirodzené zhluky bez zadania počtu od používateľa • Pracuje so zoznamom k najbližších susedov (najpodobnejších inštancií)
Analýza existujúcich metód Metóda Shared Nearest Neighbours • Výhody: • Používateľ nezadáva počet zhlukov • Použiteľná na ľubovoľné dáta (za podmienky že je k dispozícii, alebo sa dá vypočítať podobnosť inštancií) • Dokáže nájsť zhluky nepravidelných tvarov a rôznej hustoty
Dáta • Publikácie • citácie = explicitné vzťahy • Pracovné ponuky • žiadne explicitné vzťahy • Sociálne siete • explicitné vzťahy
Návrh • Súčasť projektu Cluster Navigator • Z toho vyplývajú niektoré obmedzenia • programovací jazyk Java • použitie knižnice na prácu s grafmi JUNG ako dohodnutého rozhrania
Implementácia • Použité rozhranie GraphClusterer z knižnice JUNG • 2 zhlukovacie algoritmy podľa: • Jarvis-Patrick • Ertöz-Steinbach-Kumar
Overenie • Implementáciu som overoval (zatiaľ len) Unit-testami
Plán do ďalšieho semestra • Overenie: • porovnanie implementovaných algoritmov s inými zhlukovacími algoritmymi v knižnici JUNG • porovnanie vlastností zhlukov nájdených rôznymi metódami v testovacej množine dát
Plán do ďalšieho semestra • Hierarchické zhlukovanie • umožniť rekurzívnu aplikáciu zhlukovacej metódy na nájdené zhluky (s inými parametrami)
Plán do ďalšieho semestra • Učenie klastrov: • umožniť aby si používateľ prispôsobil zhlukovanie podľa svojich kritérií podobnosti • Plánujem spolupracovať s Bc. Ondrejom Dančíkom, ktorý pracuje na vývoji „učiaceho porovnávača“ a použiť jeho výsledky v tejto oblasti
Plán do ďalšieho semestra • Prispôsobenie zhlukovania - učiace porovnávanie • Používateľ zadá pozitívne a negatívne príklady • Porovnávač zmení kritériá podobnosti • Zmení sa ováhovanie hrán v grafe podobnosti
Ciele do ďalšieho semestra • Porovnanie zhlukovacích algoritmov • Umožniť hierarchické zhlukovanie • Prispôsobenie klastrovania – použiť „učiace“ porovnávanie