1 / 27

Kyoungryol Kim

Extraction and Classification of Location from Meeting Announcement Email in Korean. Kyoungryol Kim. Table of Contents. Introduction Motivation Problem Definition Contribution Related Work Experimental Data The Proposed Method Evaluation. Introduction. Motivation.

mele
Download Presentation

Kyoungryol Kim

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extraction and Classification of Location from Meeting Announcement Email in Korean Kyoungryol Kim

  2. Table of Contents • Introduction • Motivation • Problem Definition • Contribution • Related Work • Experimental Data • The Proposed Method • Evaluation

  3. Introduction

  4. Motivation • Email is one of the most popular communication tool. • Characteristics of Email • Asynchronous • Low Accessability • Considerate Media • Historical Record • Exclusive • Personal public channel • Personalized information • Personal identity * Reference : Hur et al., Email Attribute Research as Internet Communication Tool, Proceeding of KSDS Spring Conference 2010, pp.206-207, 2010 User need to Check Frequently Integration with the other Applications + Email as a Working Place Announcements, Schedule, Tasks Automatic Schedule information Extraction

  5. Meeting Announcement • Main information-type in Meeting Announcement Email • Title • Usually included in the title of email. • Target Person • Important information • regarded as recipient of the email • Start/End Time • had researched already in [DH Choi 2010] with high performance. • Start time : >90%, End time: >84% of F-measure. • Meeting Location * • [Min et al. 2005] tried to extract meeting location 245 emails, Meeting Location : 57% of F-measure • Needs to refine more. • Can be used in many location-based applications especially with mobile equipment.

  6. Problem Definition • Extract ‘Meeting Location (isHeldAt)’ from email, by 2 Step. • Location-type Named Entity Recognition • Relation Type Classification for Meeting-Named Entity 풍선을 사랑 하시는 벌룬데코 식구 및 회원 여러분 안녕 하세요,, 벌룬데코에서 이번에"크리스마스"라는 주제로 여러분들에게 제2차 Up Grade 세미나 를 다음과 같은 일정으로 개최합니다. 모쪼록 많은 분들이 참석 하시어 보다 낳은 발전된 장식 기술을 배워 가시기 바랍니다. ---------- 다 음 ---------- * 행사명: 제 2 차 Up Grade 세미나 ( 약 150명 ) * 때 : 2002년 11월 13일(수요일) -오전 10시~오후 3시 (피에쑤,,,;; 시간관계상 늦지 마세요^^;;) * 장 소 : 반포 종합 사회 복지관 ☞잠원역2번 출구 거목상가 앞 200m ☞반포역6번 출구 한신타운 쪽 100m 직진 * 주최 ; 벌룬데코(535-4086, 596-2214) * 참가대상: 2급 자격증(수료증) 수료하신 분 * 참가비: ₩10,000원( 재료비, 식대 포함) * 참가방법: 국민 088-24-0303-666 예금주 ; 벌룬데코 이메일bbb4086@ hanmail.net 으로 등록 신청 하시면 됩니다. ***장소 관계상 인원이 조기 마감 될 수 있사오니 서둘러 등록 하시기 바랍니다. 벌 룬 데 코 Extract

  7. Contribution • Extracting high-level Location Named Entity • Extracted Location • Is not just extracted text, but high-level Named Entity • NE type : Location • Relation between meeting : isHeldAt, locationLandmark • Can be used as a location, too. • Supplement of location information is possible • Lack of information in ‘Meeting Location’ can be supplied by ‘Location Landmark’. • Sentence-type independent system • Proposed system is targeted on any type of sentence, not only for itemized-sentence, but also natural language sentence. 장 소 : 군포제일교회 6층회의실(그린힐스포츠옆) 다가오는 11월 8일(토)에 2008년도 대한산업공학회 추계학술대회를 “지능형 정보기술을 적용한 서비스 사이언스””라는 주제로 한양대학교(서울캠퍼스)에서 개최될 예정이다

  8. Related Work

  9. Related Work • [Min et al 2005] Information Extraction Using Context and Position • Corpus : 245 meeting announcement email • Target : Attendee, Meeting Location, Time, Date • Performance (F-measure) : • Attendee : 36%, Meeting Location : 57%, Time : 92.5%, Date : 91% • Method • Sentence to LSP • NE Recognition • ME, NN, Pattern-selection • Instance Disambiguation • ML : Naive Bayes • Score calculation

  10. Related Work • [Lee et al. 2006] Fine-grained Named Entity Recognition using Conditional Random Fields for Question Answering • Performance : • Precision 85.8%, Recall 81.1%, F1 83.4% • Boundary tags : IBO2 model (B-I-O) • NE-classes : 147 types • Domain of Corpus: • Encyclopedia documents (Training : 8,037 docs, Test : 100 docs) • Features : • Lexical feature -2,-1,0,1,2 • Suffix -2,-1,0,1,2 • POStag -2,-1,0,1,2 • POStag + length • Position of Morpheme in Eojeol (Start /Center /End) • NE dictionary (true or false) + length • NE dictionary feature (index) + length • 15 regular expressions : [A-Z]*, [0-9]*, [0-9][0-9], [0-9][0-9][0-9][0-9], [A-Za-z0-0]*, ---. Boundary Detection (CRFs) 3 classes NE-type Classification (ME) 147 classes

  11. Experimental Data

  12. Stats. Corpus • 1,011 meeting announcement email, 13,076 sentences • 10 NE-types, 13 Relation Types

  13. Example of ‘Meeting Location’ (1/2) • Meeting locations found in itemized sentence • Cannot cover all cases just using ‘Pattern’ : e.g.) “장\\p{Space}소.*:” • Dependency between the other information, linguistic/syntactic information. 3월 9일 월요일 오후5시 30분 종합과학관 A동 123호 복도 의 117호 강의실 논문, 실험 결과정리 발표 - 이은송이, 권민지 시민 모두가 행복한 도시 익산! 이제는 여성이다! 익산의제21 복지환경분과에서 주최하는 성평등 시민강좌 및 여성정책발전 토론회! 현재 3번의 시민강좌를 마치고 드디어 다음주 목요일 여성정책발전 토론회를 개최합니다. 익산 성평등 시민강좌 및 여성정책발전 토론회 - 2009년 7월 9일(목) 오후 4시 영등동 시립도서관 1. 주제발표 * 여성친화도시 익산시 여성정책 발표 : 김 태 준(익산시 정책보자관) * 익산시 여성정책에 대한 제언 : 전 정 희(전북여성정책발전센터 소장) 2. 종합토론 * 좌장 : 하 춘 자(익산의제21실천협의회 복지환경분과위원장) * 토론자 : 김용균 시의원, 김태준 보자관, 전정희 소장, 방신영(익산여성의전화 부설기관장) No item title 아이건강국민연대 대표자 회의 초대장 2009년 6월 26일 (금) 2009년 아이건강국민연대 대표자 회의에 모십니다. 안녕하십니까? 그간 아이들의 건강을 위해 애써 오신 연대 단체회원 여러분을 모시고 2009년 아이건강국민연대 상반기 대표자 회의를 개최 하고자 합니다. 2009년 상반기에는 행복한 아이건강축제, 몸살림 마음 살림 어린이 교육, 제주연대 친환경연합 MOU체결, 아이건강 제주연대 창립 등 여러 가지 활동을 하였습니다. 연대단체 대표분 들을 모시고 아이들을 건강하게! 농촌을 활기차게! 한반도를 청정하게! 하는 목표로 2009년 하반기 사업의 방향과 사업에 대한 논의를 드리기 위한 자리이오니 부디 함께 해 주시길 바랍니다. (참석 여부를 꼭 알려주세요) 아이건강국민연대 드림 ◎ 일시 : 6월 26일(금) 오후 5시 ~ 7시 ◎ 장소 : 청미래 (약도 참조) ◎ 일정 : - 오후 4시 30분~5시 : 인사와 다과 나눔 - 5시~ 5시 30분: 2009년 상반기 사업 보고 및 하반기 사업계획 - 5시 30분 ~ 7시 : 법안추진 보고 및 2009년 하반기 중점 사업계획 - 7시 ~8시 : 석식 및 친교 ※ 문의 사항 : 김민선 사무국장 (019-338-9040) No item title 2009 녹색구매 세계대회 ○ 대 회 명 : 제3회 녹색구매세계대회 ○ 대회일시 : 2009년 10월 20일(화)~24일(토) / 5일간 ○ 대회장소 : 개막식 - 경기도 문화예술회관, 컨퍼런스 - 호텔 캐슬, 부대행사 – 화성행궁 광장 ○ 참가예상 : 약70개국 1,500여명 ○ 주요내용 : 10월 20일 - 녹색장터 및 전야제(라디오공개방송) 10월 21일 - 개회식, 주제강연, 세션운영 / 녹색장터 ※ 개회식은 입장시간(8:40~9:20) 엄수 10월 22일 - 세션운영 10월 23일 - 종합토론, 선언문 채택 및 낭독, 폐회/수원투어 10월 24일 - 외국인 생태보전지역 탐방(DMZ) ○ 주 최 : 국제녹색구매네트워크(IGPN), 자치단체국제환경협의회(ICLEI) ○ 주 관 : 녹색구매세계대회조직위원회, KGPN(한국녹색구매네트워크), 한국소비자원, 한국환경산업기술원, 전국지속가능발전협의회, KBCSD(지속가능발전기업협의회), 국가청정생산지원센터 ○ 후 원 : 수원시, 경기도, 환경부, 지식경제부, 공정거래위원회, 자원순환산업진흥협의회, UNDESA(UN경제사회국), UNESCAP(UN아시아태평양경제사회이사회),CITYNET, 한국관광공사 3 meeting locations 장유능동하드코트 개장기념 동호인 대회 대표자 회의를 사정상 아래와 같이 연기합니다. 1.사 유 : 2008년 8월 19일(화) 오후7시 서키트대회 만찬회 실시로 인해 연기 2.대표자 회의 변경일자 : 2008년 8월 20일 (수) 오후 7시 협회(삼계)사무실 3. 각 클럽대표자 및 협회 임원, 고문님들께서는 만찬회에 참석하여 주시기 바랍니다. Different item title

  14. Example of ‘Meeting Location’ (2/2) • Meeting locations found in natural language sentence • Cannot cover all cases just using ‘Pattern’ e.g.) “장소는.*” • Dependency between the other information, linguistic/syntactic information. 안녕하세요 한국예술치료학회입니다. 올해 춘계학술대회에 관한 문의 전화가 많아서 안내를 해드립니다. 공지가 늦는 이유는 학회 홈페이지가 새로 오픈준비에 있기 때문입니다. 이번 학술대회 부터는 학회원님들의 편리를 위하여 신청접수에서 부터 결재까지 홈페이지상에서 가능하도록 작업중에 있습니다. 더불어 새로운 홈페이지에서는 학술시간, 논문신청접수, 임상감독, 자격증심사까지 대부분의 업무가 전산화 될 것입니다. 더욱 자세한 공지는 추후에 올리도록 하겠습니다. 이번 학술대회는 5월28일(금) ∼ 5월30일(일) ※ 2박 3일입니다. 주제는 “발달장애 아동을 위한 예술치료의 효과” 에 관하여 기조강연과 워크샵이 이루어질 예정입니다. 장소는 천안국립중앙청소년수련원 (2009년 추계학술대회장소와 동일함) 입니다. 그럼 새로운 홈페이지에서 뵙겠습니다. 조금만 기다려 주시기 바랍니다. ※ 세부계획은 게시판 학술자료실에 탑재해 두었습니다. 예술치료학회 간사 - 김유진- 문의전화 063)850-6320 우선 엠티 일정이 변경된 점에 대해서 대단히 죄송스럽게 생각합니다.... 4월2일~3일로 변경 되었으며, 선발대와 본대 그리고 사정에 의한 후발대루 나눠서 가게 되었습니다. 일정 변경에 대한 이유를 말씀드리자면 먼저 선배님들의 스케쥴을 고려한 점도 있으며, 신입회원 분들의 저조한 참석률 때문에 다시 금요일로 변경하게 되었습니다... 다시 한번 죄송스럽게 생각합니다. 따라서 다시 정확한 인원 조사를 위해 월요일 즉 내일 간단히 말씀드릴게 있어서 긴급 회의를 소집하고자 합니다. 시간은 일단 수업 끝나고 6시30분쯤이 될것이구요 장소는 일단 5층 자판기 앞에서 모인다음에 다른 강의실로 옮기겠습니다. 엠티비 내주신 분들중에 부득이한 사정으로 인해 못 가시는 분들껜 환불해드리겠습니다. 또한, 토요일 일정으로 인해 못 가셨던 분들은 금요일로 변경되었으니 엠비티를 지참하시고 와주시기 바랍니다. 첫 엠티고 선배님들도 어렵게 모시게 되었으니 신입분들께선 어쩔수 없는 사정이 아닌한 꼭 참석해주시길 바랍니다. 그럼 낼 뵙겠습니다. 이번 06년도 부회장을 맡게된 전대성입니다.; 12월 5일 월요일 7시 학관 3층 세미나 실에서 임원 회의가 있을 예정이오니 임원 여러분들께서는 꼭 참석해 주시기 바랍니다. 내용은 대략 겨울 엠티와 종강총회 때 올라온 건의사항에 대해 회의할 것으로 생각됩니다. 1학년 임원여러분들은 꼭 참석해 주세요. 오늘 월례회 회의 결과 번개미팅 일정이 21일 수요일 오전 10시30분으로 확정되었습니다. 이날 모임에 참석하실 청여 회원들께서는 일정에 차질이 없도록 정해진 시간까지 교회앞으로 모여주시기 바랍니다. 차량은 그날 임보라목사님께서 교회 차량을 제공하시기로 했는데, 참석하시는 분들의 차량 두 대에 나누어 타고 될 것 같습니다. `트렁크갤러리`에 도착해서(11시경) 갤러리에 전시된 작품들을 관람한 후 맛있는 점심을 나누고, 이어서 더 맛있는 이야기도 나누시기 바랍니다. 근처에 있는 남산공원과 산책로를 거닐며 바쁜 일상을 쪼개 어렵게 끄집어낸 여유를 느껴보시기 바랍니다. 약 1시30분경에 소박한 일정을 마칠 예정입니다. 많은 분들이 함께 나누는 시간과 추억이 되길 바랍니다. 2010년도 제4차 사장간담회 및 임시총회를 5월 20일(목) 07:30 소공동 롯데호텔 36층 버클리룸에서 개최하오니 참석하여 주시기 바라며, 안건은 공문발송목록 제177번(총무 제122호, 2010. 5. 10 발송)을 참고하여 주시기 바랍니다. 끝.

  15. The Proposed Method

  16. Proposed Architecture 풍선을 사랑 하시는 벌룬데코 식구 및 회원 여러분 안녕 하세요,, 벌룬데코에서 이번에"크리스마스"라는 주제로 여러분들에게 제2차 Up Grade 세미나 를 다음과 같은 일정으로 개최합니다. 모쪼록 많은 분들이 참석 하시어 보다 낳은 발전된 장식 기술을 배워 가시기 바랍니다. ---------- 다 음 ---------- * 행사명: 제 2 차 Up Grade 세미나 ( 약 150명 ) * 때 : 2002년 11월 13일(수요일) -오전 10시~오후 3시 (피에쑤,,,;; 시간관계상 늦지 마세요^^;;) * 장 소 : 반포 종합 사회 복지관 ☞잠원역2번 출구 거목상가 앞 200m ☞반포역6번 출구 한신타운 쪽 100m 직진 * 주최 ; 벌룬데코(535-4086, 596-2214) * 참가대상: 2급 자격증(수료증) 수료하신 분 * 참가비: ₩10,000원( 재료비, 식대 포함) * 참가방법: 국민 088-24-0303-666 예금주 ; 벌룬데코 이메일bbb4086@ hanmail.net 으로 등록 신청 하시면 됩니다. ***장소 관계상 인원이 조기 마감 될 수 있사오니 서둘러 등록 하시기 바랍니다. 벌 룬 데 코 풍선을 사랑 하시는 벌룬데코 식구 및 회원 여러분 안녕 하세요,, 벌룬데코에서 이번에"크리스마스"라는 주제로 여러분들에게 제2차 Up Grade 세미나 를 다음과 같은 일정으로 개최합니다. 모쪼록 많은 분들이 참석 하시어 보다 낳은 발전된 장식 기술을 배워 가시기 바랍니다. ---------- 다 음 ---------- * 행사명: 제 2 차 Up Grade 세미나 ( 약 150명 ) * 때 : 2002년 11월 13일(수요일) -오전 10시~오후 3시 (피에쑤,,,;; 시간관계상 늦지 마세요^^;;) * 장 소 : 반포 종합 사회 복지관 ☞잠원역2번 출구 거목상가 앞 200m ☞반포역6번 출구 한신타운 쪽 100m 직진 * 주최 ; 벌룬데코(535-4086, 596-2214) * 참가대상: 2급 자격증(수료증) 수료하신 분 * 참가비: ₩10,000원( 재료비, 식대 포함) * 참가방법: 국민 088-24-0303-666 예금주 ; 벌룬데코 이메일bbb4086@ hanmail.net 으로 등록 신청 하시면 됩니다. ***장소 관계상 인원이 조기 마감 될 수 있사오니 서둘러 등록 하시기 바랍니다. 벌 룬 데 코 풍선을 사랑 하시는 벌룬데코 식구 및 회원 여러분 안녕 하세요,, 벌룬데코에서 이번에"크리스마스"라는 주제로 여러분들에게 제2차 Up Grade 세미나 를 다음과 같은 일정으로 개최합니다. 모쪼록 많은 분들이 참석 하시어 보다 낳은 발전된 장식 기술을 배워 가시기 바랍니다. ---------- 다 음 ---------- * 행사명: 제 2 차 Up Grade 세미나 ( 약 150명 ) * 때 : 2002년 11월 13일(수요일) -오전 10시~오후 3시 (피에쑤,,,;; 시간관계상 늦지 마세요^^;;) * 장 소 : 반포 종합 사회 복지관 ☞잠원역2번 출구 거목상가 앞 200m ☞반포역6번 출구 한신타운 쪽 100m 직진 * 주최 ; 벌룬데코(535-4086, 596-2214) * 참가대상: 2급 자격증(수료증) 수료하신 분 * 참가비: ₩10,000원( 재료비, 식대 포함) * 참가방법: 국민 088-24-0303-666 예금주 ; 벌룬데코 이메일bbb4086@ hanmail.net 으로 등록 신청 하시면 됩니다. ***장소 관계상 인원이 조기 마감 될 수 있사오니 서둘러 등록 하시기 바랍니다. 벌 룬 데 코 Input Document Named Entity Recognition (Location) Relation Type Classification OUTPUT - isHeldAt - locationLandmark - generalLocation

  17. NER - Boundary Detection • Boundary Tagset : IOB2 • Features • Linguistic • {-2,-1,0,1,2} POS-level word, {-2,-1,0,1,2} POS-tag, POS-tag + length of the word • Orthographic : 18 types of the word • isKorean, isAlpha, isAlnum, 2DigitNum, ... • Gazetteer: • Person/Location Pronoun dictionary (ETRI 99) • from Training corpus : • Heading words, Surrounding words, NE words • External resources : • Person : Chosun/Joins.com Person DB (64,042) • Location : Nate Local DB 35,335, Sigaji.com 8,193, Ofood 43,390BusStop 19,431, Address,B/D 23,365, Subway 1,288,Hotel (Auction accomodation, hotelnjoy) 884,Country/Place name 11,946, School(Elementary~University) 21,957 • Syntactic : • Position of the POS-level word in the chunk (relative:S/C/E, absolute) • Position of the chunk in the sentence (relative:S/SC/CE/E, absolute) • Position of the sentence in the document (relative:S/SC/CE/E, absolute) • TF-IDF

  18. External Resources (1) • Location : • Shop Name (80,436) • Nate Local DB (3~10 chars.) (http://localinfo.nate.com) • Sigaji.com Shop DB (3~10 chars.) (http://sigaji.com/location/) • oFood (http://ofood.co.kr) • Hotel Name (884) • Auction Accomodation (http://accommodations.auction.co.kr) • Hotelnjoy(http://www.hotelnjoy.com) • Public Transportation (20,719) • Subway stations • Bus-Stop names • Address (from Zipcode DB) (23,365) • Si/do, Gu/gun, Dong/myun/ri, B/D names

  19. Evaluation

  20. Module1. NER - Boundary Detection • Boundary Detection • Target : 13,076 sentences in 1,011 documents. • CRFs Model, 10-fold cross validation, Exact Matching • Baseline is the case applying Word and POS-tag feature only B-Location I-Location

  21. ETRI NER Evaluation Result • ETRI-NER(CRFs model) by Dr. Changki Lee • Test on 460 documents of Meeting Email Corpus • Exact Matching, Contain, Contain Similar types Similar Types as Location: <*:AF_BUILDING>, <:LC.*>, <OGG_.*) e.g. ) ㅇ장소: <서울: LCP_CAPITALCITY > <COEX:OGG_BUSINESS>, <아셈홀:AF_BUILDING> 회의실 <208호:QT_ORDER>

  22. Fine-Grained NE Tag Set • Fine-grained Named Entity Tag set • ETRI Tag Set is aimed to use QA task • 42 classes are related to Meeting schedule information extraction task.

  23. Module 2. Relation Type Classification • Document-Location Relation Type Classification • Target : 1,844 Location-type Terms • 1,104 isHeldAt (59.98%) • 126 locationLandmark (6.83%) • 614 generalLocation (33.3%)

  24. Features: Relation Type Classification • Term Dependency • relative position of start time toward the term. (left/right in current sentence, previous/next sentence) • Linguistic • Gazetteer • from Training Corpus : • Heading words in the current / previous • Surrounding words of the NE (window size=3) • External Resources • Words about the direction (e.g. 동쪽, 밑, 옆, .. ) • POS-tag • POS-tag feature before and next to the NE • Lexical Pattern • Is the unit of length appeared on the right-side of the NE ? • RegExp : [0-9]+(m|km|ft|yd|mile|미터|킬로미터|피트|야드|마일|리) • Is the phone number appeared on the left or right-side of the NE? • RegExp : ((0[0-9]{1,3})-)?([1-9][0-9]{2,3})-([0-9]{4}) • Syntactic • Relative Position • Relative position of Sentence in the Document • Relative position of Eojeol in the sentence • Relative position of NE between the other terms in the sentence • Is the NE the first or last Location-type of NE in the sentence? 장소 : 피오레웨딩컨벤션(봉계동 여수 세무서 옆) 보문역7번출구로 나와 진행방향으로 50m정도 내려오시면 노동사목회관이 있습니다. 회의장소 : 낙천정(3473-8232) (서초역3번/남부터미널역6번)

  25. Experiment: Relation Type Classification • Document-Location Relation Type Classification • Target : 1,844 Location-type Terms • SVMs 3 classes (multi-class) classifier • Comparison with result of previous week (Heading feature is applied only) generalLocation isHeldAt locationLandmark

  26. Research Webite • URL : http://barnabas.kaist.ac.kr:8080/ • Specific research information with the result will be updated via this research website.

  27. Schedule Plan • ~March 18: • Finish implementing NER module with NE type classification. • Performance evaluation comparing with Dr.Lee's NER on our corpus. • ~March 25: • Finish implementing Relation Type Classification module • ~March 31: • System refinement. • Finish writing paper. • ~April 7: • System refinement

More Related