210 likes | 353 Views
Extraction and Classification of Location from Meeting Announcement Email in Korean. Kyoungryol Kim. Table of Contents. Introduction Motivation Problem Definition Contribution Background and Related Work Experimental Data Location NER Relation Type Classification Discussion.
E N D
Extraction and Classification of Location from Meeting Announcement Email in Korean Kyoungryol Kim
Table of Contents • Introduction • Motivation • Problem Definition • Contribution • Background and Related Work • Experimental Data • Location NER • Relation Type Classification • Discussion
Motivation (1/3) : Necessity • Email is regarded as a working tool • Many of them are Meeting announcement • e.g. Meeting announcement accounts for around 17% (30,201 out of 183,022) of emails in Enron Email Dataset. * Enron Email Dataset, August 21, 2009 version, http://www.cs.cmu.edu/~enron/ Automatic Schedule information Extraction
Motivation (2/3) : Target Field • Main information types in Meeting Announcement Email • Title • Usually included in the title of email. • Target Person • Important information • regarded as recipient of the email • Start/End Time • had researched already in [DH Choi 2010] with high performance. • Start time : >90%, End time: >84% of F-measure. • Meeting Location * • [Min et al. 2005] tried to extract meeting location, 245 emails, Meeting Location : 57% of F-measure Needs to be refined more. • Locationcan be used in many location-based applications. • Meeting location with landmark will be the best to recognize real location. • e.g. There are 2 same café “민들레영토”, in “서울 명동”. To distinguish them the landmark, “명동역8번 출구” and “YMCA빌딩 1층” can be the clue. 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울 명동 민들레영토 명동 민들레영토오는길 지도와 같이 명동역 8번 출구로 나오셔서 쭉 상가 끼고 걸어가시면 저기YMCA빌딩 1층에 있습니다.
Motivation (3/3) : Approaches • What kind of methods are possible to get meeting location? • Find relevant sentence first, detect boundary of Meeting Location NE next. (Sitter et al. 2003) • High recall but low precision • NER on location-type NE by General purpose NER systemand classify them whether meeting location or not. (Min et al. 2005) • Low recall and low precision • Evaluation on meeting announcement corpus by ETRI Fine-Grained NER (Lee et al. 2010), 460 documents, ( Exact / Contain / Contain Similar types) • NER on location-type NE by Meeting announcement specialized NER system and classify them whether meeting location or not. Similar Types : AF_BUILDING, LC.*, OGG_.*
Problem Definition To find Meeting Location, the problem divided into 2 part : • Location-type Named Entity Recognition • Relation Type Classification between Meeting and Location NE 풍선을 사랑 하시는 벌룬데코 식구 및 회원 여러분 안녕 하세요,, 벌룬데코에서 이번에"크리스마스"라는 주제로 여러분들에게 제2차 Up Grade 세미나 를 다음과 같은 일정으로 개최합니다. 모쪼록 많은 분들이 참석 하시어 보다 낳은 발전된 장식 기술을 배워 가시기 바랍니다. ---------- 다 음 ---------- * 행사명: 제 2 차 Up Grade 세미나 ( 약 150명 ) * 때 : 2002년 11월 13일(수요일) -오전 10시~오후 3시 (피에쑤,,,;; 시간관계상 늦지 마세요^^;;) * 장 소 : 반포 종합 사회 복지관 ☞잠원역2번 출구 거목상가 앞 200m ☞반포역6번 출구 한신타운 쪽 100m 직진 * 주최 ; 벌룬데코(535-4086, 596-2214) * 참가대상: 2급 자격증(수료증) 수료하신 분 * 참가비: ₩10,000원( 재료비, 식대 포함) * 참가방법: 국민 088-24-0303-666 예금주 ; 벌룬데코 이메일bbb4086@ hanmail.net 으로 등록 신청 하시면 됩니다. ***장소 관계상 인원이 조기 마감 될 수 있사오니 서둘러 등록 하시기 바랍니다. 벌 룬 데 코 풍선을 사랑 하시는 벌룬데코 식구 및 회원 여러분 안녕 하세요,, 벌룬데코에서 이번에"크리스마스"라는 주제로 여러분들에게 제2차 Up Grade 세미나 를 다음과 같은 일정으로 개최합니다. 모쪼록 많은 분들이 참석 하시어 보다 낳은 발전된 장식 기술을 배워 가시기 바랍니다. ---------- 다 음 ---------- * 행사명: 제 2 차 Up Grade 세미나 ( 약 150명 ) * 때 : 2002년 11월 13일(수요일) -오전 10시~오후 3시 (피에쑤,,,;; 시간관계상 늦지 마세요^^;;) * 장 소 : 반포 종합 사회 복지관 ☞잠원역2번 출구 거목상가 앞 200m ☞반포역6번 출구 한신타운 쪽 100m 직진 * 주최 ; 벌룬데코(535-4086, 596-2214) * 참가대상: 2급 자격증(수료증) 수료하신 분 * 참가비: ₩10,000원( 재료비, 식대 포함) * 참가방법: 국민 088-24-0303-666 예금주 ; 벌룬데코 이메일bbb4086@ hanmail.net 으로 등록 신청 하시면 됩니다. ***장소 관계상 인원이 조기 마감 될 수 있사오니 서둘러 등록 하시기 바랍니다. 벌 룬 데 코 Location NER Classify
Contribution • Korean NER system specialized on Location NE in the meeting announcement email. • For general purpose NER system does not work well in this domain,we need meeting announcement email specialized NER system. • Extracting high-level Location Named Entity • Through 2 systems, finally we can get Location NE with its high-level location information, ‘isHeldAt’, ‘locationLandmark’, or general location. • Sentence-type independent system • The proposed system is targeted on any type of sentence, not only itemized-sentence, but also natural language sentence.
The Proposed Method 1) Location Named Entity Recognition 2) Relation Type Classification
Overall Architecture 풍선을 사랑 하시는 벌룬데코 식구 및 회원 여러분 안녕 하세요,, 벌룬데코에서 이번에"크리스마스"라는 주제로 여러분들에게 제2차 Up Grade 세미나 를 다음과 같은 일정으로 개최합니다. 모쪼록 많은 분들이 참석 하시어 보다 낳은 발전된 장식 기술을 배워 가시기 바랍니다. ---------- 다 음 ---------- * 행사명: 제 2 차 Up Grade 세미나 ( 약 150명 ) * 때 : 2002년 11월 13일(수요일) -오전 10시~오후 3시 (피에쑤,,,;; 시간관계상 늦지 마세요^^;;) * 장 소 : 반포 종합 사회 복지관 ☞잠원역2번 출구 거목상가 앞 200m ☞반포역6번 출구 한신타운 쪽 100m 직진 * 주최 ; 벌룬데코(535-4086, 596-2214) * 참가대상: 2급 자격증(수료증) 수료하신 분 * 참가비: ₩10,000원( 재료비, 식대 포함) * 참가방법: 국민 088-24-0303-666 예금주 ; 벌룬데코 이메일bbb4086@ hanmail.net 으로 등록 신청 하시면 됩니다. ***장소 관계상 인원이 조기 마감 될 수 있사오니 서둘러 등록 하시기 바랍니다. 벌 룬 데 코 풍선을 사랑 하시는 벌룬데코 식구 및 회원 여러분 안녕 하세요,, 벌룬데코에서 이번에"크리스마스"라는 주제로 여러분들에게 제2차 Up Grade 세미나 를 다음과 같은 일정으로 개최합니다. 모쪼록 많은 분들이 참석 하시어 보다 낳은 발전된 장식 기술을 배워 가시기 바랍니다. ---------- 다 음 ---------- * 행사명: 제 2 차 Up Grade 세미나 ( 약 150명 ) * 때 : 2002년 11월 13일(수요일) -오전 10시~오후 3시 (피에쑤,,,;; 시간관계상 늦지 마세요^^;;) * 장 소 : 반포 종합 사회 복지관 ☞잠원역2번 출구 거목상가 앞 200m ☞반포역6번 출구 한신타운 쪽 100m 직진 * 주최 ; 벌룬데코(535-4086, 596-2214) * 참가대상: 2급 자격증(수료증) 수료하신 분 * 참가비: ₩10,000원( 재료비, 식대 포함) * 참가방법: 국민 088-24-0303-666 예금주 ; 벌룬데코 이메일bbb4086@ hanmail.net 으로 등록 신청 하시면 됩니다. ***장소 관계상 인원이 조기 마감 될 수 있사오니 서둘러 등록 하시기 바랍니다. 벌 룬 데 코 풍선을 사랑 하시는 벌룬데코 식구 및 회원 여러분 안녕 하세요,, 벌룬데코에서 이번에"크리스마스"라는 주제로 여러분들에게 제2차 Up Grade 세미나 를 다음과 같은 일정으로 개최합니다. 모쪼록 많은 분들이 참석 하시어 보다 낳은 발전된 장식 기술을 배워 가시기 바랍니다. ---------- 다 음 ---------- * 행사명: 제 2 차 Up Grade 세미나 ( 약 150명 ) * 때 : 2002년 11월 13일(수요일) -오전 10시~오후 3시 (피에쑤,,,;; 시간관계상 늦지 마세요^^;;) * 장 소 : 반포 종합 사회 복지관 ☞잠원역2번 출구 거목상가 앞 200m ☞반포역6번 출구 한신타운 쪽 100m 직진 * 주최 ; 벌룬데코(535-4086, 596-2214) * 참가대상: 2급 자격증(수료증) 수료하신 분 * 참가비: ₩10,000원( 재료비, 식대 포함) * 참가방법: 국민 088-24-0303-666 예금주 ; 벌룬데코 이메일bbb4086@ hanmail.net 으로 등록 신청 하시면 됩니다. ***장소 관계상 인원이 조기 마감 될 수 있사오니 서둘러 등록 하시기 바랍니다. 벌 룬 데 코 Input Document Named Entity Recognition (Location) Relation Type Classification OUTPUT - isHeldAt - locationLandmark - generalLocation
Training Corpus See Section III Email Document Web System Input Tokenization Gazetteer Extraction Feature Extraction Boundary Tagging Location NER Gazetteers NE Lists Headings Surroundings … NE Tagged Document See Section IV Feature Extraction Relation Type Classification Relation Type Classification See Section V Extracted NE with Meeting-NE Relation Type Output
Architecture of Relation Type Classifier Training the system (supervised learning) Testing the system (actual use and evaluation) Training Corpus Input: Location NE-tagged Document Web Feature Extraction Gazetteer Extraction Tokenization Gazetteer Relation Type Classification By SVMs Model Feature Extraction Template Generation SVMs Learning SVMs Model Output: Extracted NE with Meeting-NE Relation Type
Statistics of Relation Types • Meeting-Location Relation Type Classification • Target : 1,844 Location-type Terms • 1,098 isHeldAt (59.13%) • 145 locationLandmark (7.81%) • 614 generalLocation (33.06%)
Features • Linguistic • Gazetteer • Named Entity Dictionary • Nate Local DB 35,335, Sigaji.com 8,193, Ofood 43,390BusStop 19,431, Address,B/D 23,365, Subway 1,288,Country/Place name 11,946, • from Training Corpus : • Heading words in the current sentence • Heading words in the previous sentence • NE consisting words • Lexical Pattern • POS-tag feature before and next to the NE • Is this NE the first location NE next to colon? • Is this term in the parenthesis? • Is parenthesis opened and closed next to the NE ? • Is direction word just next to the NE? • Syntactic • Syntactic Features • Is the NE the first or the last Location-type of NE in the sentence? • Ratio of location NE in the current sentence to the document • Relative position of the NEs in the sentences • Is the NE the longest location NE in the sentence?
Experiment : Features (1/3) • Gazetteer • Named Entity Dictionary • Collected from the web • Check if each morpheme, eojeol or term matches the word in the dictionary. • Nate Local DB, Sigaji.com, Ofood • BusStop, Address, B/D, Subway • Country/Place name • from Training Corpus : • Heading words in the current sentence. • Heading words in the previous sentence. Heading word is the word before the colon in the sentencee.g. 장소 :피오레웨딩컨벤션(봉계동 여수 세무서 옆) • Eojeol-level NE consisting words Feature 1A Feature 1 (A+B)
Experiment : Features (2/3) • Lexical Patterns • POS-tag feature just before and next to the NE e.g. 장소 : 피오레웨딩컨벤션 (봉계동 여수 세무서옆) • Is this NE the first location NE next to colon? e.g. 장소 : 피오레웨딩컨벤션(봉계동 여수 세무서 옆) • Is this NE in the parenthesis? e.g. 장소 : 피오레웨딩컨벤션(봉계동 여수 세무서 옆) • Is parenthesis opened and closed next to the NE ? e.g. 장소 : 피오레웨딩컨벤션(봉계동 여수 세무서 옆) • Is direction word just next to the NE? • 34 direction words : 위, 아래, 밑, 옆, 앞, 내, 외, … e.g. 장소 : 피오레웨딩컨벤션(봉계동 여수 세무서 옆) Feature 1+2 (A~F)
Experiment : Features (3/3) • Syntactic Features • Is the NE the first or the last Location-type of NE in the sentence? e.g. (1호선에서 갈아탈 경우 동묘역에서6호선을 갈아타고 봉화산방향으로 타고 오시면 2번째 정거장이 보문역입니다. • Ratio of NEs in the current sentence to the document (<25%,<50%,<75%,<100%,=100%) • Relative position of the NEs in the sentence (S / SC / CE / E) e.g. (1호선에서 갈아탈 경우 동묘역에서6호선을 갈아타고 봉화산방향으로 타고 오시면 2번째 정거장이 보문역입니다. S CE E • Is the NE the longest location NE in the sentence? Feature 1+2+3 (A~C)
Experiment: Relation Type Classification • Meeting-Location Relation Type Classification • Target : 1,844 Location-type NEs • SVMs 3 classes (multi-class) classifier • Total Accuracy : 84.79
Discussion : Limitations • Performance • Both system (NER, Relation Classification) should be refined more in detail, with sophisticated experiment. • Scaling Up • For our corpus consist of 1,011 emails, the method to cover more data in the real-world should be mentioned. • Feature Selection • Since we use +165,000 word-gazetteer and many of these features always zero in the training data. In order to save memory and to maximize the performance, these unsupported features need to be removed.