150 likes | 303 Views
Dynamika v hierarchicke j klasifik ácií článkov. Mária Bieliková, Dušan Zeleník bielik @fiit.sk d usan.zelenik @gmail.com FIIT STU 12.11.2009 WIKT. s úbor dokumentov ( články - internetové noviny ) množstvo článkov starnúce články, kauzy , t émy
E N D
Dynamika v hierarchickej klasifikácií článkov Mária Bieliková, Dušan Zeleník bielik@fiit.sk dusan.zelenik@gmail.com FIIT STU 12.11.2009 WIKT
súbor dokumentov (články - internetové noviny) • množstvo článkov • starnúce články, kauzy, témy • stále pridávané články – denne 100 až 1000 • záujem čitateľa • najaktuálnejšie články • sledovanie káuz (práve čítam) • odporúčanie – viazané na čitateľa (história) Na úvod...
internetové noviny • články • rss kanál • titulka, text, čas pridania, autor, kategória • používatelia • identifikovateľný podľa cookie id • záznamy akcií zobrazenia článku S čím pracujeme...
udržiavať vzťahy medzi dokumentmi (podobnosť) • zjednodušiť prepočet vzťahov • pridávanie • odoberanie • starnutie článkov • vyhľadanie najpodobnejších • bez porovnania so všetkými (N*N) • škálovateľná tvorba zhlukov • zlúčenie podobných dokumentov • stereotypy záujmu používateľa Koncept
Hierarchical Agglomerative Clustering E ABE B AB A H G F C CD D
pri pridávaní prvkov prepočíta centrum zhluku • riadi sa špecifikovaným prahom Leader-Follower vzdialenosť > prah A D vzdialenosť < prah vzdialenosť < prah B C
strom • postupnosť spájania • zhluky na rôznych • úrovniach • pridávanie a odoberanie prvkov • nutnosť vykonať celý proces znova • zaradiť do najlepšieho zhluku = strata presnosti Vlastnosti stromu
listy=dokumenty, ostatné vrcholy=metadokumenty • vzťahy, spojením vždy dvoch najbližšich vrcholov • rýchlejšie ako obyčajná množina • možnosť “online” akutalizácie • vytváranie zhlukov “na mieru” Strom dokumentov
obsah dokumentu • text, názov, kategória (zadáva autor) • v strome reprezentovaný ako vektor výskytu slov • extrakcia z článku • lémy (strata mien, názvov, nespisovných slov) • korene slov (redukcia rozmeru, strata významu) • báza slov (“najvhodnejšie” slová domény) • porovnanie článkov - vektorov • cosine similarity Dokument
Kto je bližšie? (1 || 2 || sú ďaleko) Kto je bližšie? (1 || 2 || sú ďaleko) ? Tvorba stromu 1 ? Kto je bližšie? (1 || 2 || sú ďaleko) 1 2 ? 2 1 2
Tvorba stromu + spätná úprava metadokumentov cestou ku koreňu
tvorba skupín podobných článkov • rôzna jemnosť rozdelenia • hľadanie najbližších článkov Podobné články
používateľská história zobrazenia článkov • hľadanie metadokumentu (záujmu) – podmnožina • rôzna jemnosť na základe frekvencie čítania Odporúčanie článkov
znižovanie váhy článku pri starnutí • ovplyvnenie rozhodovacieho procesu • predpokladom je blízkosť článkov rovnakej kauzy • odstraňovanie článkov • presúvanie článkov do “starších” stromov Aktualizácia článkov ‘09 Prešírenie časovej informácie v metadokumentoch ‘09 ‘03 ‘05 ‘09 ‘03 blízke články = súvisiace = téma ‘09 ‘05 ‘03 ‘03 ‘05 ‘05 ‘05 ‘09 ‘05 ‘04 ‘03 ‘03 ‘03 ‘03 ‘03
zabezpečenie neustáleho pridávania článkov • ošetrenie starnutia článkov – káuz (tém) • hľadanie podobných – súvisiacich článkov • odporúčanie podľa záujmov používateľa … na záver