1 / 11

Záverečná prezentácia semestrálnej práce

Extrakcia lokalít pomocou systému Ontea. Záverečná prezentácia semestrálnej práce. Bc.Vladimír Janov. Obsah prezentácie. Probl ém a motivácia Existujúce riešenia Postup práce pri riešení Ukážka Vyhodnotenie. Probl ém a motivácia. Problém Exktrakcia geografických údajov z bázy údajov

natan
Download Presentation

Záverečná prezentácia semestrálnej práce

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extrakcia lokalít pomocou systému Ontea Záverečná prezentácia semestrálnej práce Bc.Vladimír Janov

  2. Obsah prezentácie • Problém a motivácia • Existujúce riešenia • Postup práce pri riešení • Ukážka • Vyhodnotenie

  3. Problém a motivácia • Problém • Exktrakcia geografických údajov z bázy údajov • Častí miest • Mestá • Śtáty • Kontinenty • Používateľské rozhranie • Výsledky • Báza údajov • Motivácia • prispenie k existujúcim softvérom v tejto doméne • praktické aplikovanie vedomostí z predmetu

  4. Existujúce riešenia • GATE (http://gate.ac.uk/) • vyvinutý v roku 1995 • líder v oblasti TextMining • plugin do IDE Eclipse • open source s GUI Výhody • Opakovateľnosť – zjednodušenie opakovania porovnateľných experimentov • Kvantitatívne vyhodnocovanie –porovnáva anotované dáta dokumentov a generuje kvantitatívne metriky • Kolaborácia – podľa informáciách na stránke, GATE v tejto oblasti prevyšuje priemernú softvérovú integráciu a prenositeľnosť. • Znovupoužíteľnost, nie znovuvynachádzanie

  5. Existujúce riešenia • ONTEA (http://ontea.sourceforge.net/) • Platforma pre sémantickú anotáciu založenú na vzorkách (patterns) • Vyvinutá v slovenskej akadémii vied (SAV) • Ľahká integrácia v reálnom projekte JAVA • Pracovanie s regulárnymi výrazmi • Nie je potrebná žiadna inštalácia • Zdrojový kód na sourceforge.net

  6. Riešenie Popis riešenia • JAVA projekt • E-maily vo formáte Mbox (mozilla thunderbird) • Algoritmus • Načítanie a rozparsovanie Mbox súboru na jednotlié maily • Odfiltrovanie nepotrebných častí • Aplikovanie ONTEA anotovacej metódy s použitím regulárnych výrazov na konkríétne telo e-mailu, poi klinutí na jeho predmet v GUI • Výsledky sa používateľoivi zobrazia v GUI • Po kliknutí na výsledok sa jeho výskyt zvýrazní v tele emailu • Po dvojnásobnom kliknutí na výsledok sa daná lokalita zobrazí v GoogleMaps

  7. Riešenie Popis riešenia • JAVA projekt s nasledujúcimi triedami • App •  Application.java – hlavný vstupný bod do aplikácie (main) • Backup •  MainFrame.java – trieda obsahujúca GUI pre zobrazenie okien v aplikácii • Data – package obsahujúci konkrétnu logiku riešenia •  MboxAnnotations.java – metódy pre samotnú anotáciu výsledkov a následné vyfiltrovanie správnej hodnoty •  MboxFileParser.java – prvotné rozparsovanie jednotlivých emailov a následné parsovanie predmetu a tela emailu •  MboxFilter.java – slúži na vyfiltrovanie nepotrebných častí emailu •  MboxMail.java – trieda na zápis predmetu a tela e-mailu • Gui – automaticky vygenerovaný balík pomocou Eclipse

  8. Riešenie Práce na projekte • Analýza problému – naštudovanie si API • Implementácia – vytvorenie súboru Mbox, návrh GUI, implementácia logiky • Overenie a ošetrenie chýb

  9. Ukážka

  10. Vyhodnotenie • Množina I (množina získaných dokumentov) je rovný počtu geografických názvov v e-mailoch uložených v súbore vi_mail. E-mailov je 17 a relevantnýchnázvov je spolu 39. Množina R (množina relevantných dokumentov) obsahuje po manuálnej analýze množiny získaných e-mailových správ 37 geografických názvov. Množina RI (množina relevantných získaných dokumentov) je 33.

  11. Vyhodnotenie • Presnosť • Výška presnosti vyhľadávania geografických názvov v e-maloch pri množine získaných dokumentov je 84,6%. • P = RI/I = 33/39 = 0,846 • Pokrytie • Výška pokrytia pre množinu relevantných dokumentov je 89,1%. • R = RI/R = 33 / 37 = 0,891 • F1 štatistika • Táto štatistika vykazuje úspešnosť 86,9%. • F1 = 2 / (1/R + 1/P) = 2 / (1,12 + 1,18) = 0,869.

More Related