1 / 16

Kyoungryol Kim

Extracting Schedule Information from Korean Email. Kyoungryol Kim. Table of Contents. Introduction Methods and Experiments Proposed Architecture Discussion. Introduction. Goal. To extract schedule information, Meeting location and Speaker, automatically from Email. 안녕하세요 ,

inari
Download Presentation

Kyoungryol Kim

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extracting Schedule Informationfrom Korean Email Kyoungryol Kim

  2. Table of Contents • Introduction • Methods and Experiments • Proposed Architecture • Discussion

  3. Introduction

  4. Goal • To extract schedule information, Meeting location and Speaker, automatically from Email 안녕하세요, 금주 수요일 오후 2시~4시에, 1층 세미나실에서 세미나를 진행합니다. CI LAB과 TC LAB 이 공동으로 주관하는 세미나이며, 지도교수님께서 참석하실 예정입니다. 석사과정학생들은 꼭 참석바랍니다. 발표자는 김 아나톨리, 박광희학생이니 준비해주십시오. 문의사항은 박상원 학생에게 문의바랍니다. 감사합니다. Extract

  5. Methods and Experiments

  6. Proposed Architecture ... 4 시 에 , 1층 세미나실 에서 세미나 를 진행 합니다 ... 발표자 는 김 아나톨리 , 박광희 학생 이 니 ... 4 O 시 O 에 O , O 1층 B 세미나실 B 에서 O 세미나 O 를 O 진행 O 합니다 O ... 발표자 O 는 O 김 B 아나톨리 I , O 박광희 B 학생 O 이 B 니 O ... 4 O 시 O 에 O , O 1층 B 세미나실 I 에서 O 세미나 O 를 O 진행 O 합니다 O ... 발표자 O 는 O 김 B 아나톨리 I , O 박광희 B 학생 O 이 O 니 O ... 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O ... 발표자 O 는 O 김 B-Speaker 아나톨리 I-Speaker , O 박광희 B-Speaker 학생 O 이 O 니 O 안녕하세요, 금주 수요일 오후 2시~4시에, 1층 세미나실에서 세미나를 진행합니다. CI LAB과 TC LAB 이 공동으로 주관하는 세미나이며, 지도교수님께서 참석하실 예정입니다. 석사과정학생들은 꼭 참석바랍니다. 발표자는 김 아나톨리, 박광희 학생이니 준비해주십시오. 문의사항은 박상원 학생에게 문의바랍니다. 감사합니다. INPUT TEXT Boundary Disambi-guation NE Type Classific-ation OUTPUT Boundary Detection NE Extraction Tokenization CRF Model ? ?

  7. Proposed Architecture ... 4 시 에 , 1층 세미나실 에서 세미나 를 진행 합니다 ... 발표자 는 김 아나톨리 , 박광희 학생 이 니 ... 4 O 시 O 에 O , O 1층 B 세미나실 B 에서 O 세미나 O 를 O 진행 O 합니다 O ... 발표자 O 는 O 김 B 아나톨리 I , O 박광희 B 학생 O 이 B 니 O ... 4 O 시 O 에 O , O 1층 B 세미나실 I 에서 O 세미나 O 를 O 진행 O 합니다 O ... 발표자 O 는 O 김 B 아나톨리 I , O 박광희 B 학생 O 이 O 니 O ... 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O ... 발표자 O 는 O 김 B-Speaker 아나톨리 I-Speaker , O 박광희 B-Speaker 학생 O 이 O 니 O 안녕하세요, 금주 수요일 오후 2시~4시에, 1층 세미나실에서 세미나를 진행합니다. CI LAB과 TC LAB 이 공동으로 주관하는 세미나이며, 지도교수님께서 참석하실 예정입니다. 석사과정학생들은 꼭 참석바랍니다. 발표자는 김 아나톨리, 박광희 학생이니 준비해주십시오. 문의사항은 박상원 학생에게 문의바랍니다. 감사합니다. INPUT TEXT Boundary Disambi-guation NE Type Classific-ation OUTPUT Boundary Detection NE Extraction Tokenization CRF Model ? ?

  8. Proposed Architecture ... 4 시 에 , 1층 세미나실 에서 세미나 를 진행 합니다 ... 발표자 는 김 아나톨리 , 박광희 학생 이 니 ... 4 O 시 O 에 O , O 1층 I-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O ... 발표자 O 는 O 김 I-Speaker 아나톨리 I-Speaker , O 박광희 B-Speaker 학생 O 이 O 니 O ... 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O ... 발표자 O 는 O 김 B-Speaker 아나톨리 I-Speaker , O 박광희 B-Speaker 학생 O 이 O 니 O ... 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O ... 발표자 O 는 O 김 B-Speaker 아나톨리 I-Speaker , O 박광희 B-Speaker 학생 O 이 O 니 O 안녕하세요, 금주 수요일 오후 2시~4시에, 1층 세미나실에서 세미나를 진행합니다. CI LAB과 TC LAB 이 공동으로 주관하는 세미나이며, 지도교수님께서 참석하실 예정입니다. 석사과정학생들은 꼭 참석바랍니다. 발표자는 김 아나톨리, 박광희 학생이니 준비해주십시오. 문의사항은 박상원 학생에게 문의바랍니다. 감사합니다. INPUT TEXT Boundary Disambi-guation OUTPUT Boundary Detection Tag Matching NE Extraction Tokenization CRF Model NE Patterns SVM

  9. Proposed Architecture 관광 O 협회 O 중앙회 O 김병삼 B-Speaker 국장 O , O 벤처기업협회 O 김 B-Speaker 영수 O 본부장 B-Speaker , O 벤처기업 O 연구원 O 이미순 B-Speaker 박사 O , O 기술 O 보증기금 O 강성 O 수 I-Speaker 팀장 O 관광 O 협회 O 중앙회 O 김병삼 B-Speaker 국장 O , O 벤처기업협회 O 김 B-Speaker 영수 O 본부장 O , O 벤처기업 O 연구원 O 이미순 B-Speaker 박사 O , O 기술 O 보증기금 O 강성 O 수 I-Speaker 팀장 O 1. Check whether tagged NE Type is proper, using SVM classifier. Classes : Speaker / Location / O (check only to the types Speaker and Location, not O) e.g.) 김 B-Speaker Speaker (do nothing) 영수 O (skip) 본부장 B-SpeakerO (correct tag) 4 O 시 O 에 O , O 1층 I-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 2. Check whether B- or I- tags are assigned properly or should be corrected, using NE-patterns come from training corpus. e.g.) POS-featured NE-patterns. 5 층 자판기 앞 B-Location/nnc I-Location/nbu I-Location/ncn I-Location/ncn Boundary Detection Tag Matching Boundary Disambiguation Boundary Correction Boundary Expansion SVM NE Patterns

  10. Proposed Architecture 관광 O 협회 O 중앙회 O 김병삼 B-Speaker 국장 O , O 벤처기업협회 O 김 B-Speaker 영수 O 본부장 B-Speaker , O 벤처기업 O 연구원 O 이미순 B-Speaker 박사 O , O 기술 O 보증기금 O 강성 O 수 I-Speaker 팀장 O 관광 O 협회 O 중앙회 O 김병삼 B-Speaker 국장 O , O 벤처기업협회 O 김 B-Speaker 영수 O 본부장 O , O 벤처기업 O 연구원 O 이미순 B-Speaker 박사 O , O 기술 O 보증기금 O 강성 O 수 I-Speaker 팀장 O 관광 O 협회 O 중앙회 O 김병삼 B-Speaker 국장 O , O 벤처기업협회 O 김 B-Speaker 영수 I-Speaker 본부장 O , O 벤처기업 O 연구원 O 이미순 B-Speaker 박사 O , O 기술 O 보증기금 O 강성 B-Speaker 수 I-Speaker 팀장 O 1. Backward search : check whether the tagged sequence can have I-tag or B-tag, previously, using NE-patterns 2. Forward search : check whether the tagged sequence can have I-tag on the next., using NE-patterns 3. Filling blank : check whether the blank (O-tag) between B-tag and I-tag or I-tag and I-tag, can have I-tag, using NE-patterns e.g.) 순천 대학교 70 주년 기념관 B-Location/ncn 순천 I-Location/ncn 대학교 O/nnc 70 I-Location I-Location/nbu 주년 I-Location/ncn 기념관 4 O 시 O 에 O , O 1층 I-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O Boundary Detection Tag Matching Boundary Disambiguation Boundary Correction Boundary Expansion SVM NE Patterns

  11. NE-Patterns • NE-patterns table as below is made from the training corpus • By looking at this table, we might correct and expand boundary of NEs. • Feature can be added more, so far POS-tag feature only will be applied. e.g. ) 장소 : 진주 동방 호텔 5층 POS : ncn sp ncn ncn ncn nnc nbu Answer : O O B-Location I-Location I-Location I-Location I-Location Tagged : O O B-Location I-Location I-Location O I-Location

  12. Boundary Detection • Boundary Tagset : IOB2 • Features • Linguistic • {-2,-1,0,1,2} POS-level word, {-2,-1,0,1,2} POS-tag, POS-tag + length of the word, character-level bigram • Orthographic : 18 types of the word • isKorean, isChinese, isAlpha, isAlnum, 2DigitNum, PuncChar, Currency, ... • Gazetteer: • Person/Location Pronoun dictionary (ETRI 99) • from Training corpus : • Heading words, Surrounding words, NE words • Syntactic : • Sentence level : • Position of the POS-level word in the chunk (S / C / E) • Position of the chunk in the sentence (S / C / E) • Document level : • Position of the sentence in the document (S / SC / CE / E) • TF-IDF Newly added features

  13. Experiment : Boundary Detection • Boundary Detection • 948 emails including 'Location' or 'Speaker' • 995 Speakers, 1,114 Meeting Locations • CRFs Model, 10-fold cross validation, Exact Matching F-measure B-Sp : + 7.19 I-Sp : + 1.56 B-Loc : +3.18 I-Loc : +5.45 Result of Feb 17 Result of Feb 24

  14. Discussion • Dependency between NEs in the sentence • Location and Speaker appeared together only 5 times out of 1844 sentences. This can be a good factor to classify NE-type. • Location • with time(start time : 5.81%, end time : 1.54%) • with landmark : 4.79% • with title : 3.45%, topic : 0.38% • with speaker : 0.27%, attendee : 0.22%, supervisor : 0.74%, target : 0.59% • with reference : 1.74%, movesby : 0.86% • Speaker • with topic : 8.10%, title : 0.71% • with attendee : 2.22%, supervisor : 0.37%, target : 0.32% • with time (start time : 1.17%, end time : 0.71%) • with location : 0.27%

  15. Discussion • Possibility information from CRFs module • We may use this information if we train models in different criteria. Comparing the possibility with number of models and then select one which has biggest possibility number. e.g.) Input Sentence : 다. 장 소 : 한국관광공사 지하1층 TIC 상영관 - Morpheme : 다 | O / O | 0.8958613190892613 - Morpheme : . | O / O | 0.9937353480938121 - Morpheme : 장 | O / O | 0.9460514699205853 - Morpheme : 소 | O / O | 0.9830620933125314 - Morpheme : : | O / O | 0.9991695612063729 - Morpheme : 한국관광공사 | B-Location / B-Location | 0.7054019272613514 - Morpheme : 지하1층 | I-Location / I-Location | 0.9216401435591766 - Morpheme : TIC | B-Location / I-Location | 0.34791983714386404 - Morpheme : 상영관 | I-Location / I-Location | 0.383894050337381 (Answer) : O O O O O B-Location I-Location I-Location I-Location (Tagged) : O O O O O B-Location I-Location B-Location I-Location

  16. Schedule Plan • ~Feb 24 : • >85% of F-measure for boundary detection, with applying boundary disambiguation module. • Open web-based system to share my experimental result. • ~Mar 3 : • NE-type classification module • ~Mar 10 : • System refinement and organization. • ~Mar 31: • Writing paper, problem analysis

More Related