140 likes | 292 Views
Extrakcia udalost í z emailov. Bc. Ladislav Clementis Fakulta informatiky a informačných technológií Slovenská technická univerzita v Bratislave Vyhľadávanie informácií 2010/2011. Zadanie projektu. Extrakcia udalostí z firemných emailov : - Názov udalosti - Dátum konania
E N D
Extrakciaudalostí z emailov Bc. Ladislav Clementis Fakulta informatiky a informačných technológií Slovenská technická univerzita v Bratislave Vyhľadávanie informácií 2010/2011
Zadanie projektu • Extrakciaudalostí z firemnýchemailov: • - Názovudalosti • - Dátumkonania • - Časkonania • - Miestokonania (pobočka, adresaklienta...) • - Zúčastnenýklient (ak je nejaký) • - Projekt (aksa ho udalosťtýka)
Vstup - neinteraktívny • Plaintext export firemného mailboxu • Báza informácii o spoločnosti, klientoch a projektoch (adresy a názvy) • Kľúčové slová v plaintext súbore
Výstup - neinteraktívny • Sprístupnenie výsledkov extrakcie udalostí používateľovi pre manuálnu kontrolu • Výsledky sú zgrupované do klastrov – podľa predmetov emailov (subject)
Vstup - interaktívny • Počty nesprávnych nájdených informácií o udalostiach • Počty nenájdených informácií o udalostiach
Výstup - interaktívny • Počet nájdených informácií o udalosti • Počet správnych nájdených informácií o udalosti • Počet nesprávnych nájdených informácií o udalosti • Počet chýbajúcich informácií o udalosti • Celkový počet nájdených informácií • Celkový počet správnych nájdených informácií • Celkový počet nesprávnych nájdených informácií • Celkový počet chýbajúcich informácií
Výstup - štatistika • Presnosť= tp / (tp + fp) • Pokrytie = tp / (tp + fn)
Úspešnosť extraktora – malá vzorka • 20 emailov • 3 konverzácie • 2 udalosti • nájdených informácií k udalostiam: 11 • nájdených správnych informácií k udalostiam: 11 • nájdených nesprávnych nájdených informácií: 0 • chýbajúcich informácií k udalostiam: 0 • presnosť: 100% • pokrytie: 100%
Úspešnosť extraktora – veľká vzorka • 2318 emailov • 375 konverzácií • 43 udalostí • nájdených informácií k udalostiam: 178 • nájdených správnych informácií k udalostiam: 172 • nájdených nesprávnych nájdených informácií: 6 • chýbajúcich informácií k udalostiam: 13 • presnosť: 96,63% • pokrytie: 92,97%
Dôvod nie 100% úspešnosti • Nedodržanie formy emailov pri oznamovaní udalostí a nedodržanie firemnej metodiky o tvare dátumov a časov zamestnancami – autormi emailov
Príklad vstupu ###mail### From: Peter Steblik Sent: Wednesday, September 08, 2010 11:21 AM To: etap Cc: Bcc: gevexpress Subject: 20. vyrocieEtap - posedenie Body: V piatok24.09.2010 o 18:00sanastanovistiVetrikovauskutocniposedenienapocestvyrociazalozeniafirmy. Kedze ide o 20. vyrocie, bude tam vela dobrot, husacina a vino. Vestcistevitani. Priduajexternisti z GevExpress, ktori pre naszaposlednerokytohospraviliaz az. *~*~*~*~*~*~*~*~*~* Peter Steblik Executive manager ###mail###