1 / 14

Extrakcia udalost í z emailov

Extrakcia udalost í z emailov. Bc. Ladislav Clementis Fakulta informatiky a informačných technológií Slovenská technická univerzita v Bratislave Vyhľadávanie informácií 2010/2011. Zadanie projektu. Extrakcia udalostí z firemných emailov : -     Názov udalosti -     Dátum konania

curry
Download Presentation

Extrakcia udalost í z emailov

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extrakciaudalostí z emailov Bc. Ladislav Clementis Fakulta informatiky a informačných technológií Slovenská technická univerzita v Bratislave Vyhľadávanie informácií 2010/2011

  2. Zadanie projektu • Extrakciaudalostí z firemnýchemailov: • -    Názovudalosti • -    Dátumkonania • -    Časkonania • -    Miestokonania (pobočka, adresaklienta...) • -    Zúčastnenýklient (ak je nejaký) • -    Projekt (aksa ho udalosťtýka)

  3. Architektúra riešenia

  4. Vstup - neinteraktívny • Plaintext export firemného mailboxu • Báza informácii o spoločnosti, klientoch a projektoch (adresy a názvy) • Kľúčové slová v plaintext súbore

  5. Výstup - neinteraktívny • Sprístupnenie výsledkov extrakcie udalostí používateľovi pre manuálnu kontrolu • Výsledky sú zgrupované do klastrov – podľa predmetov emailov (subject)

  6. Vstup - interaktívny • Počty nesprávnych nájdených informácií o udalostiach • Počty nenájdených informácií o udalostiach

  7. Výstup - interaktívny • Počet nájdených informácií o udalosti • Počet správnych nájdených informácií o udalosti • Počet nesprávnych nájdených informácií o udalosti • Počet chýbajúcich informácií o udalosti • Celkový počet nájdených informácií • Celkový počet správnych nájdených informácií • Celkový počet nesprávnych nájdených informácií • Celkový počet chýbajúcich informácií

  8. Výstup - štatistika • Presnosť= tp / (tp + fp) • Pokrytie = tp / (tp + fn)

  9. Úspešnosť extraktora – malá vzorka • 20 emailov • 3 konverzácie • 2 udalosti • nájdených informácií k udalostiam: 11 • nájdených správnych informácií k udalostiam: 11 • nájdených nesprávnych nájdených informácií: 0 • chýbajúcich informácií k udalostiam: 0 • presnosť: 100% • pokrytie: 100%

  10. Úspešnosť extraktora – veľká vzorka • 2318 emailov • 375 konverzácií • 43 udalostí • nájdených informácií k udalostiam: 178 • nájdených správnych informácií k udalostiam: 172 • nájdených nesprávnych nájdených informácií: 6 • chýbajúcich informácií k udalostiam: 13 • presnosť: 96,63% • pokrytie: 92,97%

  11. Dôvod nie 100% úspešnosti • Nedodržanie formy emailov pri oznamovaní udalostí a nedodržanie firemnej metodiky o tvare dátumov a časov zamestnancami – autormi emailov

  12. Ukážka aplikácie

  13. Ukážka aplikácie s popismi

  14. Príklad vstupu ###mail### From: Peter Steblik Sent: Wednesday, September 08, 2010 11:21 AM To: etap Cc: Bcc: gevexpress Subject: 20. vyrocieEtap - posedenie Body: V piatok24.09.2010 o 18:00sanastanovistiVetrikovauskutocniposedenienapocestvyrociazalozeniafirmy. Kedze ide o 20. vyrocie, bude tam vela dobrot, husacina a vino. Vestcistevitani. Priduajexternisti z GevExpress, ktori pre naszaposlednerokytohospraviliaz az. *~*~*~*~*~*~*~*~*~* Peter Steblik Executive manager ###mail###

More Related