170 likes | 285 Views
Extracting Schedule Information from Korean Email. Kyoungryol Kim. Table of Contents. Introduction Methods and Experiments Demo Schedule. Introduction. Goal. To extract schedule information, Meeting Location ( isHeldAt ) with it's GeoTag.
E N D
Extracting Schedule Informationfrom Korean Email Kyoungryol Kim
Table of Contents • Introduction • Methods and Experiments • Demo • Schedule
Goal • To extract schedule information, Meeting Location (isHeldAt) with it's GeoTag 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울 명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵 준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 명동 민들레영토 오는길 지도와 같이 명동역 8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 Extract
Problem Statement 4 Steps to extract terms 'isHeldAt' with it's GeoTag, • Select sentences containing term 'isHeldAt'. • Detect boundary of the term from selected sentences. • Select number of the term 'isHeldAt' regarding how many schedule information is included. • Get full address of the extracted location and convert it to GeoTag using Google API.
Proposed Architecture NER 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울 명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵 준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 명동 민들레영토 오는길 지도와 같이 명동역 8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울 명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵 준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 명동 민들레영토 오는길 지도와 같이 명동역 8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울 명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵 준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 명동 민들레영토 오는길 지도와 같이 명동역 8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 Input Document GeoTag Extraction Sentence Classification Boundary Detection Deduplication & Selection OUTPUT
Baseline system • [Min et al 2005] Information Extraction Using Context and Position • Corpus : 245 meeting announcement email • Target : Attendee, Meeting Location, Time, Date • Performance (F-measure) : • Attendee : 36%, Meeting Location : 57%, Time : 92.5%, Date : 91% • Method • Sentence to LSP • NE Recognition • ME, NN, Pattern-selection • Instance Disambiguation • ML : Naive Bayes • Score calculation
Reference for NER tagging • [Lee et al. 2006] Fine-grained Named Entity Recognition using Conditional Random Fields for Question Answering • Performance : • Precision 85.8%, Recall 81.1%, F1 83.4% • Boundary tags : IBO2 model (B-I-O) • NE-classes : 147 types • Domain of Corpus: • Encyclopedia documents (Training : 8,037 docs, Test : 100 docs) • Features : • Lexical feature -2,-1,0,1,2 • Suffix -2,-1,0,1,2 • POStag -2,-1,0,1,2 • POStag + length • Position of Morpheme in Eojeol (Start /Center /End) • NE dictionary (true or false) + length • NE dictionary feature (index) + length • 15 regular expressions : [A-Z]*, [0-9]*, [0-9][0-9], [0-9][0-9][0-9][0-9], [A-Za-z0-0]*, ---. Boundary Detection (CRFs) 3 classes NE-type Classification (ME) 147 classes
NER - Boundary Detection • Boundary Tagset : IOB2 • Features • Linguistic • {-2,-1,0,1,2} POS-level word, {-2,-1,0,1,2} POS-tag, POS-tag + length of the word • Orthographic : 18 types of the word • isKorean, isAlpha, isAlnum, 2DigitNum, ... • Gazetteer: • Person/Location Pronoun dictionary (ETRI 99) • from Training corpus : • Heading words, Surrounding words, NE words • External resources : • Person : Chosun/Joins.com Person DB (64,042) • Location : Nate Local DB 35,335, Sigaji.com 8,193, Ofood 43,390BusStop 19,431, Address,B/D 23,365, Subway 1,288,Hotel (Auction accomodation, hotelnjoy) 884,Country/Place name 11,946, School(Elementary~University) 21,957 • Syntactic : • Position of the POS-level word in the chunk (relative:S/C/E, absolute) • Position of the chunk in the sentence (relative:S/SC/CE/E, absolute) • Position of the sentence in the document (relative:S/SC/CE/E, absolute) • TF-IDF
External Resources (1) • Location : • Shop Name (80,436) • Nate Local DB (3~10 chars.) (http://localinfo.nate.com) • Sigaji.com Shop DB (3~10 chars.) (http://sigaji.com/location/) • oFood (http://ofood.co.kr) • Hotel Name (884) • Auction Accomodation (http://accommodations.auction.co.kr) • Hotelnjoy(http://www.hotelnjoy.com) • Public Transportation (20,719) • Subway stations • Bus-Stop names • Address (from Zipcode DB) (23,365) • Si/do, Gu/gun, Dong/myun/ri, B/D names
External Resources (2) • Person • Chosun Person DB, Joins Person DB • 64,042 people • Name combination feature from collected person DB. • assume length of the name is 3 • # 1st char : 177, #2nd char : 351, #3rd char: 475 • possible combinations : 29,510,325e.g.) + + = 갈영남
Experiment : Sentence Selection • Sentence Selection • 12,167 target sentences, 1,066 sentences including 'isHeldAt' • 11 regular expression applied for test. • will be substituted to SVM-based classifier.
Experiment : Sentence Selection • Sentence Selection • Regular expressions applied in the baseline system : • .*(장)\\p{Space}*(소).* • Regular expressions applied in the system : • Pattern analysis by using UniTex
Experiment : NER - Boundary Detection • Boundary Detection • 1,066 target sentences including 'isHeldAt' • CRFs Model, 10-fold cross validation, Exact Matching
Demo • http://barnabas.kaist.ac.kr:8080/
Schedule Plan • ~March 18: • Finish implementing NER module with NE type classification. • Performance evaluation comparing with Dr.Lee's NER on our corpus. • ~March 25: • GeoTag Annotation • Finish implementing GeoTag . • ~March 31: • System refinement. • Start to writing paper.