1 / 15

Dynamika v hierarchicke j klasifik ácií článkov

Dynamika v hierarchicke j klasifik ácií článkov. Mária Bieliková, Dušan Zeleník bielik @fiit.sk d usan.zelenik @gmail.com FIIT STU 12.11.2009 WIKT. s úbor dokumentov ( články - internetové noviny ) množstvo článkov starnúce články, kauzy , t émy

quiana
Download Presentation

Dynamika v hierarchicke j klasifik ácií článkov

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Dynamika v hierarchickej klasifikácií článkov Mária Bieliková, Dušan Zeleník bielik@fiit.sk dusan.zelenik@gmail.com FIIT STU 12.11.2009 WIKT

  2. súbor dokumentov (články - internetové noviny) • množstvo článkov • starnúce články, kauzy, témy • stále pridávané články – denne 100 až 1000 • záujem čitateľa • najaktuálnejšie články • sledovanie káuz (práve čítam) • odporúčanie – viazané na čitateľa (história) Na úvod...

  3. internetové noviny • články • rss kanál • titulka, text, čas pridania, autor, kategória • používatelia • identifikovateľný podľa cookie id • záznamy akcií zobrazenia článku S čím pracujeme...

  4. udržiavať vzťahy medzi dokumentmi (podobnosť) • zjednodušiť prepočet vzťahov • pridávanie • odoberanie • starnutie článkov • vyhľadanie najpodobnejších • bez porovnania so všetkými (N*N) • škálovateľná tvorba zhlukov • zlúčenie podobných dokumentov • stereotypy záujmu používateľa Koncept

  5. Hierarchical Agglomerative Clustering E ABE B AB A H G F C CD D

  6. pri pridávaní prvkov prepočíta centrum zhluku • riadi sa špecifikovaným prahom Leader-Follower vzdialenosť > prah A D vzdialenosť < prah vzdialenosť < prah B C

  7. strom • postupnosť spájania • zhluky na rôznych • úrovniach • pridávanie a odoberanie prvkov • nutnosť vykonať celý proces znova • zaradiť do najlepšieho zhluku = strata presnosti Vlastnosti stromu

  8. listy=dokumenty, ostatné vrcholy=metadokumenty • vzťahy, spojením vždy dvoch najbližšich vrcholov • rýchlejšie ako obyčajná množina • možnosť “online” akutalizácie • vytváranie zhlukov “na mieru” Strom dokumentov

  9. obsah dokumentu • text, názov, kategória (zadáva autor) • v strome reprezentovaný ako vektor výskytu slov • extrakcia z článku • lémy (strata mien, názvov, nespisovných slov) • korene slov (redukcia rozmeru, strata významu) • báza slov (“najvhodnejšie” slová domény) • porovnanie článkov - vektorov • cosine similarity Dokument

  10. Kto je bližšie? (1 || 2 || sú ďaleko) Kto je bližšie? (1 || 2 || sú ďaleko) ? Tvorba stromu 1 ? Kto je bližšie? (1 || 2 || sú ďaleko) 1 2 ? 2 1 2

  11. Tvorba stromu + spätná úprava metadokumentov cestou ku koreňu

  12. tvorba skupín podobných článkov • rôzna jemnosť rozdelenia • hľadanie najbližších článkov Podobné články

  13. používateľská história zobrazenia článkov • hľadanie metadokumentu (záujmu) – podmnožina • rôzna jemnosť na základe frekvencie čítania Odporúčanie článkov

  14. znižovanie váhy článku pri starnutí • ovplyvnenie rozhodovacieho procesu • predpokladom je blízkosť článkov rovnakej kauzy • odstraňovanie článkov • presúvanie článkov do “starších” stromov Aktualizácia článkov ‘09 Prešírenie časovej informácie v metadokumentoch ‘09 ‘03 ‘05 ‘09 ‘03 blízke články = súvisiace = téma ‘09 ‘05 ‘03 ‘03 ‘05 ‘05 ‘05 ‘09 ‘05 ‘04 ‘03 ‘03 ‘03 ‘03 ‘03

  15. zabezpečenie neustáleho pridávania článkov • ošetrenie starnutia článkov – káuz (tém) • hľadanie podobných – súvisiacich článkov • odporúčanie podľa záujmov používateľa … na záver

More Related