60 likes | 142 Views
Extrahovanie a vyhľadávanie v citáciách ( sk ). Pavel Michalko Vyhľadávanie informácií 2012 /2013. Čo som robil a prečo. Čo: Extrahovanie, priraďovanie a vyhľadávanie v citáciách v slovenských textoch. Prečo: Podpora pri kontrole plagiátorstva
E N D
Extrahovanie a vyhľadávanie v citáciách (sk) Pavel Michalko Vyhľadávanie informácií 2012/2013
Čo som robil a prečo • Čo: • Extrahovanie, priraďovanie a vyhľadávanie v citáciách v slovenských textoch. • Prečo: • Podpora pri kontrole plagiátorstva • Časová náročnosť pri manuálnej kontrole (veľké množstvo údajov) • Súčasť/pomoc pri mojej DP • Problém: • Rôzne formáty citovania, referencovania • Rôzne formáty dokumentov a formátovanie textu
Čo podobné existuje • FreeCite • http://freecite.library.brown.edu/ • Parsovanie citácií a vyťahovanie jednotlivých údajov. • Veľmi dobre rozpoznávanie: autor, title, editor ... • Slabšie rozpoznávanie: roky, source ... • Nedokáže pracovať s celým textom – rovno zoznam citácií. • Nedokáže teda určiť citované miesto – referenciu. • Občasné problémy so špeciálnymi znakmi slovenčiny (UTF-8).
Ako to funguje • Extrahovanie textu z doc, docx, txt (ApacheTika) • Normalizácia (whitespaces, specialchars, interpunc.) • Identifikácia zoznamu použitej literatúry (RegExp) • Rozdelenie textu na odseky a rozpoznanie referencií • Kontrola či dokument obsahuje min.1 referenciu alebo bibliografiu • Rozdelenie zoznamu bibl. na odseky = položky/citácie • Extrahovanie údajov (autor, title, rok, source) • Rok a source = RegExp • Title - štatistické informácie (umiestnenie, dĺžka, char. slová) • Autor - len ak sa nájde title(predpoklad, že sa nachádza pred ním) • Priradenie referencií k jednotlivým citáciam • Indexácia (ApacheLucene) pre možnosť vyhľadávania
Softvér a výstupy • Java konzolová aplikácia • Vstup cez argumenty • bez argumentov: vybrané dokumenty ako arg:
Vyhodnotenie • Rok a source • takmer 100% úspešnosť • použitie RegExp – charakteristický formát • Author a title • Menej uspokojivé výsledky • Nemožno použiť samotné RegExp (rozlíšenie autor, title, kniha ?) • Autor má lepšie výsledky, pretože stačí správne určiť začiatok title