140 likes | 259 Views
Automatické rozpoznávanie štýlu písania v blogoch. Bc. Martin Virik, DPII Vedúci projektu: Ing. Marián Šimko. Divoké blogy. Veľká rôznorodosť vo veľkom množstve. Voľne vznikajúce štýly a žánre Filtrovanie žánrov s nízkou informačnou hodnotou Sledovanie nálad a záujmov blogerov
E N D
Automatické rozpoznávanie štýlu písania v blogoch Bc. Martin Virik, DPII Vedúci projektu: Ing. Marián Šimko
Divoké blogy • Veľká rôznorodosť vo veľkom množstve • Voľne vznikajúce štýly a žánre • Filtrovanie žánrov s nízkou informačnou hodnotou • Sledovanie nálad a záujmov blogerov • Podpora vyhľadávania a odporúčania
Triedenie štýlov a žánrov • Súčasné trendy: • Informatívne (neosobné) • návody, recepty, správy, ... • triedenie podľa témy • Subjektívne (osobné) • denníky, komentáre, príbehy, zážitky ... • triedenie podľa prevládajúcich emócií
Subjektívne – naše rozdelenie • V dvoch rovinách • úvahový vs. rozprávací štýl • autor sa zameriava buď na vyjadrenie názoru alebo na vyrozprávanie príbehu • obe z nich môžu obsahovať prvky toho druhého • emocionálny vs. racionálny štýl • blogeri zvyknú buď bezprostredne reagovať na horúce udalosti a zážitky z dňa alebo písať s chladnou hlavou
Subjektívne – naše rozdelenie I II Komentáre, úvahy, ucelené myšlienky Krátke reakcie na spoločenské udalosti III IV Dlhšie príbehy z dovoleniek, školy, detstva ... Krátke reakcie na zážitky z dňa
Experiment s používateľmi • Cieľ overiť zrozumiteľnosť rozdelenia a získať úvodnú vzorku dát • Získaných 200 zatriedených článkov z blog.sme.sk od 20 účastníkov
Analýza textu • Lexikálna a morfologická • Počet slov a unikátnych lém • Frekvencia podstatných a prídavných mien, zámen a slovies • Pomer plnovýznamových a neplnovýznamových slovných druhov • Frekvencia výskytu sekvencií slov bez významu (Tak a to je teda...)
Analýza textu • Syntaktická a štrukturálna • Pomer jednoduchých viet a súvetí • Priemerný počet viet v súvetí • Prevládajúci čas, osoba a číslo kandidátov na prísudok • Štandardné rozdelenie veľkosti odstavcov • Hustota odkazov, obrázkov
Navrhovaný klasifikátor • Úloha priradiť článku jednu zo 6 tried informatívny Klasifikátor I II III IV nezaraditeľný
Navrhovaný klasifikátor • Článok -> 28-rozmerný vektor • Filtrovanie článkov a výber atribútov • 3 binárne klasifikačné algoritmy • Strojové učenie • Naive Bayes • Support Vector Machine • Algoritmus k–najbližších susedov • 10–fold cross–validation • Sériové spájanie klasifikátorov
Implementácia – súčasný stav • Implementované získavanie hlavných 28 atribútov z textu v slovenskom jazyku • Pomocou nástroja Weka implementované vyberanie atribútov a jednotlivé klasifikačne algoritmy
Implementácia – ďalšie kroky • Získať podstatne väčšiu ohodnotenú vzorku článkov • Filter článkov • fotoblogy, videoblogy, články v nárečí ... • Implementovať a testovať jednotlivé klasifikátory • Implementovať a testovať celý klasifikátor • Udržiavať zoznam atribútov relevantný • Sledovať zmenu štýlov v čase
Zhrnutie • Triedenie štýlov písania ako príspevok k spoznávaniu živého webu • Ďalšie delenie subjektívnych blogov v dvoch rovinách • úvahový–rozprávací • emocionálny–racionálny • Efektívne triedenie blogov pomocou analýzy neobsahových, jazykových vlastností textu