1 / 22

Kyoungryol Kim

Extracting Schedule Information from Korean Email. Kyoungryol Kim. Table of Contents. Introduction Methods and Experiments Demo Schedule. Introduction. Introduction. Main information in Meeting Announcement Title Usually included in the title of email. Target Person

lucia
Download Presentation

Kyoungryol Kim

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extracting Schedule Informationfrom Korean Email Kyoungryol Kim

  2. Table of Contents • Introduction • Methods and Experiments • Demo • Schedule

  3. Introduction

  4. Introduction • Main information in Meeting Announcement • Title • Usually included in the title of email. • Target Person • Important information • regarded as recipient of the email • Start/End Time • had researched already in [DH Choi 2010] with high performance. • Start time : >90%, End time: >84% of F-measure. • Meeting Location * • [Min et al. 2005] tried to extract meeting location 245 emails, Meeting Location : 57% of F-measure • Can be used in many location-based applications especially with mobile equipment.

  5. Goal • Extract ‘Meeting Location (isHeldAt)’ from email, 약산샘물 활성화를 위한 각 대리점사장님및관련되시는모든분들과 아래와 같이 회의를 개최할 예정 이오니 참고 하시기 바랍니다(사전 스케줄 조정) 회의일시: 2006.05.20 토요일 오후 2시 회의장소:약산주식회사 서울 대회의실 (신림본동다이아몬드빌딩 7층) * 전철2호선 신림역 하차 2번출구에서50M 도보(신빌딩 뒤) 주요내용: 사업경과 설명(본부장) / 효과적인 마켓팅 방안 강의(염홍기박사) 회원증가 우수 대리점 사장 성공 사례 발표(원세권,박상규사장) 홍보용 전단, 씨디, 테이프등을 배부하오니 수령해 가셔서 활용 하시기 바랍니다 세부내용은 별도 공문 보내 드리겠습니다 Extract

  6. Example of ‘Meeting Location’ (1/2) • Meeting locations found in itemized sentence • Cannot cover all cases just using ‘Pattern’ : e.g.) “장\\p{Space}소.*:” • Dependency between the other information, linguistic/syntactic information. 3월 9일 월요일 오후5시 30분 종합과학관 A동 123호 복도 의 117호 강의실 논문, 실험 결과정리 발표 - 이은송이, 권민지 시민 모두가 행복한 도시 익산! 이제는 여성이다! 익산의제21 복지환경분과에서 주최하는 성평등 시민강좌 및 여성정책발전 토론회! 현재 3번의 시민강좌를 마치고 드디어 다음주 목요일 여성정책발전 토론회를 개최합니다. 익산 성평등 시민강좌 및 여성정책발전 토론회 - 2009년 7월 9일(목) 오후 4시 영등동 시립도서관 1. 주제발표 * 여성친화도시 익산시 여성정책 발표 : 김 태 준(익산시 정책보자관) * 익산시 여성정책에 대한 제언 : 전 정 희(전북여성정책발전센터 소장) 2. 종합토론 * 좌장 : 하 춘 자(익산의제21실천협의회 복지환경분과위원장) * 토론자 : 김용균 시의원, 김태준 보자관, 전정희 소장, 방신영(익산여성의전화 부설기관장) No item title 아이건강국민연대 대표자 회의 초대장 2009년 6월 26일 (금) 2009년 아이건강국민연대 대표자 회의에 모십니다. 안녕하십니까? 그간 아이들의 건강을 위해 애써 오신 연대 단체회원 여러분을 모시고 2009년 아이건강국민연대 상반기 대표자 회의를 개최 하고자 합니다. 2009년 상반기에는 행복한 아이건강축제, 몸살림 마음 살림 어린이 교육, 제주연대 친환경연합 MOU체결, 아이건강 제주연대 창립 등 여러 가지 활동을 하였습니다. 연대단체 대표분 들을 모시고 아이들을 건강하게! 농촌을 활기차게! 한반도를 청정하게! 하는 목표로 2009년 하반기 사업의 방향과 사업에 대한 논의를 드리기 위한 자리이오니 부디 함께 해 주시길 바랍니다. (참석 여부를 꼭 알려주세요) 아이건강국민연대 드림 ◎ 일시 : 6월 26일(금) 오후 5시 ~ 7시 ◎ 장소 : 청미래 (약도 참조) ◎ 일정 : - 오후 4시 30분~5시 : 인사와 다과 나눔 - 5시~ 5시 30분: 2009년 상반기 사업 보고 및 하반기 사업계획 - 5시 30분 ~ 7시 : 법안추진 보고 및 2009년 하반기 중점 사업계획 - 7시 ~8시 : 석식 및 친교 ※ 문의 사항 : 김민선 사무국장 (019-338-9040) No item title 2009 녹색구매 세계대회 ○ 대 회 명 : 제3회 녹색구매세계대회 ○ 대회일시 : 2009년 10월 20일(화)~24일(토) / 5일간 ○ 대회장소 : 개막식 - 경기도 문화예술회관, 컨퍼런스 - 호텔 캐슬, 부대행사 – 화성행궁 광장 ○ 참가예상 : 약70개국 1,500여명 ○ 주요내용 : 10월 20일 - 녹색장터 및 전야제(라디오공개방송) 10월 21일 - 개회식, 주제강연, 세션운영 / 녹색장터 ※ 개회식은 입장시간(8:40~9:20) 엄수 10월 22일 - 세션운영 10월 23일 - 종합토론, 선언문 채택 및 낭독, 폐회/수원투어 10월 24일 - 외국인 생태보전지역 탐방(DMZ) ○ 주 최 : 국제녹색구매네트워크(IGPN), 자치단체국제환경협의회(ICLEI) ○ 주 관 : 녹색구매세계대회조직위원회, KGPN(한국녹색구매네트워크), 한국소비자원, 한국환경산업기술원, 전국지속가능발전협의회, KBCSD(지속가능발전기업협의회), 국가청정생산지원센터 ○ 후 원 : 수원시, 경기도, 환경부, 지식경제부, 공정거래위원회, 자원순환산업진흥협의회, UNDESA(UN경제사회국), UNESCAP(UN아시아태평양경제사회이사회),CITYNET, 한국관광공사 3 meeting locations 장유능동하드코트 개장기념 동호인 대회 대표자 회의를 사정상 아래와 같이 연기합니다. 1.사 유 : 2008년 8월 19일(화) 오후7시 서키트대회 만찬회 실시로 인해 연기 2.대표자 회의 변경일자 : 2008년 8월 20일 (수) 오후 7시 협회(삼계)사무실 3. 각 클럽대표자 및 협회 임원, 고문님들께서는 만찬회에 참석하여 주시기 바랍니다. Different item title

  7. Example of ‘Meeting Location’ (2/2) • Meeting locations found in natural language sentence • Cannot cover all cases just using ‘Pattern’ e.g.) “장\\p{Space}소.*:” • Dependency between the other information, linguistic/syntactic information. 안녕하세요 한국예술치료학회입니다. 올해 춘계학술대회에 관한 문의 전화가 많아서 안내를 해드립니다. 공지가 늦는 이유는 학회 홈페이지가 새로 오픈준비에 있기 때문입니다. 이번 학술대회 부터는 학회원님들의 편리를 위하여 신청접수에서 부터 결재까지 홈페이지상에서 가능하도록 작업중에 있습니다. 더불어 새로운 홈페이지에서는 학술시간, 논문신청접수, 임상감독, 자격증심사까지 대부분의 업무가 전산화 될 것입니다. 더욱 자세한 공지는 추후에 올리도록 하겠습니다. 이번 학술대회는 5월28일(금) ∼ 5월30일(일) ※ 2박 3일입니다. 주제는 “발달장애 아동을 위한 예술치료의 효과” 에 관하여 기조강연과 워크샵이 이루어질 예정입니다. 장소는 천안국립중앙청소년수련원 (2009년 추계학술대회장소와 동일함) 입니다. 그럼 새로운 홈페이지에서 뵙겠습니다. 조금만 기다려 주시기 바랍니다. ※ 세부계획은 게시판 학술자료실에 탑재해 두었습니다. 예술치료학회 간사 - 김유진- 문의전화 063)850-6320 우선 엠티 일정이 변경된 점에 대해서 대단히 죄송스럽게 생각합니다.... 4월2일~3일로 변경 되었으며, 선발대와 본대 그리고 사정에 의한 후발대루 나눠서 가게 되었습니다. 일정 변경에 대한 이유를 말씀드리자면 먼저 선배님들의 스케쥴을 고려한 점도 있으며, 신입회원 분들의 저조한 참석률 때문에 다시 금요일로 변경하게 되었습니다... 다시 한번 죄송스럽게 생각합니다. 따라서 다시 정확한 인원 조사를 위해 월요일 즉 내일 간단히 말씀드릴게 있어서 긴급 회의를 소집하고자 합니다. 시간은 일단 수업 끝나고 6시30분쯤이 될것이구요 장소는 일단 5층 자판기 앞에서 모인다음에 다른 강의실로 옮기겠습니다. 엠티비 내주신 분들중에 부득이한 사정으로 인해 못 가시는 분들껜 환불해드리겠습니다. 또한, 토요일 일정으로 인해 못 가셨던 분들은 금요일로 변경되었으니 엠비티를 지참하시고 와주시기 바랍니다. 첫 엠티고 선배님들도 어렵게 모시게 되었으니 신입분들께선 어쩔수 없는 사정이 아닌한 꼭 참석해주시길 바랍니다. 그럼 낼 뵙겠습니다. 이번 06년도 부회장을 맡게된 전대성입니다.; 12월 5일 월요일 7시 학관 3층 세미나 실에서 임원 회의가 있을 예정이오니 임원 여러분들께서는 꼭 참석해 주시기 바랍니다. 내용은 대략 겨울 엠티와 종강총회 때 올라온 건의사항에 대해 회의할 것으로 생각됩니다. 1학년 임원여러분들은 꼭 참석해 주세요. 오늘 월례회 회의 결과 번개미팅 일정이 21일 수요일 오전 10시30분으로 확정되었습니다. 이날 모임에 참석하실 청여 회원들께서는 일정에 차질이 없도록 정해진 시간까지 교회앞으로 모여주시기 바랍니다. 차량은 그날 임보라목사님께서 교회 차량을 제공하시기로 했는데, 참석하시는 분들의 차량 두 대에 나누어 타고 될 것 같습니다. `트렁크갤러리`에 도착해서(11시경) 갤러리에 전시된 작품들을 관람한 후 맛있는 점심을 나누고, 이어서 더 맛있는 이야기도 나누시기 바랍니다. 근처에 있는 남산공원과 산책로를 거닐며 바쁜 일상을 쪼개 어렵게 끄집어낸 여유를 느껴보시기 바랍니다. 약 1시30분경에 소박한 일정을 마칠 예정입니다. 많은 분들이 함께 나누는 시간과 추억이 되길 바랍니다. 2010년도 제4차 사장간담회 및 임시총회를 5월 20일(목) 07:30 소공동 롯데호텔 36층 버클리룸에서 개최하오니 참석하여 주시기 바라며, 안건은 공문발송목록 제177번(총무 제122호, 2010. 5. 10 발송)을 참고하여 주시기 바랍니다. 끝.

  8. Methods and Experiments

  9. Proposed Architecture 약산샘물 활성화를 위한 각 대리점사장님및관련되시는 모든분들과 아래와 같이 회의를 개최할 예정 이오니 참고 하시기 바랍니다(사전 스케줄 조정) 회의일시: 2006.05.20 토요일 오후 2시 회의장소:약산주식회사 서울 대회의실(신림본동다이아몬드빌딩 7층) * 전철2호선 신림역 하차 2번출구에서 50M 도보(신빌딩 뒤) 주요내용: 사업경과 설명(본부장) / 효과적인 마켓팅 방안 강의(염홍기박사) 회원증가 우수 대리점 사장 성공 사례 발표(원세권,박상규사장) 홍보용 전단, 씨디, 테이프등을 배부하오니 수령해 가셔서 활용 하시기 바랍니다 세부내용은 별도 공문 보내 드리겠습니다 약산샘물 활성화를 위한 각 대리점사장님및관련되시는 모든분들과 아래와 같이 회의를 개최할 예정 이오니 참고 하시기 바랍니다(사전 스케줄 조정) 회의일시: 2006.05.20 토요일 오후 2시 회의장소:약산주식회사 서울 대회의실(신림본동다이아몬드빌딩 7층) * 전철2호선 신림역 하차 2번출구에서 50M 도보(신빌딩 뒤) 주요내용: 사업경과 설명(본부장) / 효과적인 마켓팅 방안 강의(염홍기박사) 회원증가 우수 대리점 사장 성공 사례 발표(원세권,박상규사장) 홍보용 전단, 씨디, 테이프등을 배부하오니 수령해 가셔서 활용 하시기 바랍니다 세부내용은 별도 공문 보내 드리겠습니다 약산샘물 활성화를 위한 각 대리점사장님및관련되시는 모든분들과 아래와 같이 회의를 개최할 예정 이오니 참고 하시기 바랍니다(사전 스케줄 조정) 회의일시: 2006.05.20 토요일 오후 2시 회의장소:약산주식회사 서울 대회의실(신림본동다이아몬드빌딩 7층) * 전철2호선 신림역 하차 2번출구에서 50M 도보(신빌딩 뒤) 주요내용: 사업경과 설명(본부장) / 효과적인 마켓팅 방안 강의(염홍기박사) 회원증가 우수 대리점 사장 성공 사례 발표(원세권,박상규사장) 홍보용 전단, 씨디, 테이프등을 배부하오니 수령해 가셔서 활용 하시기 바랍니다 세부내용은 별도 공문 보내 드리겠습니다 Input Document Named Entity Recognition (Location) Relation Type Classification OUTPUT - isHeldAt - locationLandmark - generalLocation

  10. Baseline system • [Min et al 2005] Information Extraction Using Context and Position • Corpus : 245 meeting announcement email • Target : Attendee, Meeting Location, Time, Date • Performance (F-measure) : • Attendee : 36%, Meeting Location : 57%, Time : 92.5%, Date : 91% • Method • Sentence to LSP • NE Recognition • ME, NN, Pattern-selection • Instance Disambiguation • ML : Naive Bayes • Score calculation

  11. Reference for NER tagging • [Lee et al. 2006] Fine-grained Named Entity Recognition using Conditional Random Fields for Question Answering • Performance : • Precision 85.8%, Recall 81.1%, F1 83.4% • Boundary tags : IBO2 model (B-I-O) • NE-classes : 147 types • Domain of Corpus: • Encyclopedia documents (Training : 8,037 docs, Test : 100 docs) • Features : • Lexical feature -2,-1,0,1,2 • Suffix -2,-1,0,1,2 • POStag -2,-1,0,1,2 • POStag + length • Position of Morpheme in Eojeol (Start /Center /End) • NE dictionary (true or false) + length • NE dictionary feature (index) + length • 15 regular expressions : [A-Z]*, [0-9]*, [0-9][0-9], [0-9][0-9][0-9][0-9], [A-Za-z0-0]*, ---. Boundary Detection (CRFs) 3 classes NE-type Classification (ME) 147 classes

  12. NER - Boundary Detection • Boundary Tagset : IOB2 • Features • Linguistic • {-2,-1,0,1,2} POS-level word, {-2,-1,0,1,2} POS-tag, POS-tag + length of the word • Orthographic : 18 types of the word • isKorean, isAlpha, isAlnum, 2DigitNum, ... • Gazetteer: • Person/Location Pronoun dictionary (ETRI 99) • from Training corpus : • Heading words, Surrounding words, NE words • External resources : • Person : Chosun/Joins.com Person DB (64,042) • Location : Nate Local DB 35,335, Sigaji.com 8,193, Ofood 43,390BusStop 19,431, Address,B/D 23,365, Subway 1,288,Hotel (Auction accomodation, hotelnjoy) 884,Country/Place name 11,946, School(Elementary~University) 21,957 • Syntactic : • Position of the POS-level word in the chunk (relative:S/C/E, absolute) • Position of the chunk in the sentence (relative:S/SC/CE/E, absolute) • Position of the sentence in the document (relative:S/SC/CE/E, absolute) • TF-IDF

  13. External Resources (1) • Location : • Shop Name (80,436) • Nate Local DB (3~10 chars.) (http://localinfo.nate.com) • Sigaji.com Shop DB (3~10 chars.) (http://sigaji.com/location/) • oFood (http://ofood.co.kr) • Hotel Name (884) • Auction Accomodation (http://accommodations.auction.co.kr) • Hotelnjoy(http://www.hotelnjoy.com) • Public Transportation (20,719) • Subway stations • Bus-Stop names • Address (from Zipcode DB) (23,365) • Si/do, Gu/gun, Dong/myun/ri, B/D names

  14. External Resources (2) • Person • Chosun Person DB, Joins Person DB • 64,042 people • Name combination feature from collected person DB. • assume length of the name is 3 • # 1st char : 177, #2nd char : 351, #3rd char: 475 • possible combinations : 29,510,325e.g.) + + = 갈영남

  15. Stats. : NER - Boundary Detection • Boundary Detection • Target : 12,970 sentences in 949 documents. • CRFs Model, 10-fold cross validation, Exact Matching • Baseline is the case applying Word and POS-tag feature only B-Location I-Location

  16. ETRI NER Evaluation Result • ETRI-NER(CRFs model) by Dr. Changki Lee • Test on 460 documents of Meeting Email Corpus • Exact Matching, Contain, Contain Similar types Similar Types as Location: <*:AF_BUILDING>, <:LC>, <OGG_*) e.g. ) ㅇ장소 : <서울: LCP_CAPITALCITY > <COEX:OGG_BUSINESS>, <아셈홀:AF_BUILDING> 회의실 <208호:QT_ORDER>

  17. Fine-Grained NE Tag Set • Fine-grained Named Entity Tag set • ETRI Tag Set is aimed to use QA task • 42 classes are related to Meeting schedule information extraction task.

  18. Stats. : Relation Type Classification • Document-Location Relation Type Classification • Target : 1,844 Location-type Terms • 1,104 isHeldAt (59.98%) • 126 locationLandmark (6.83%) • 614 generalLocation (33.3%)

  19. Features: Relation Type Classification • Term Dependency • relative position of start time toward the term. (left/right in current sentence, previous/next sentence) • Linguistic • Gazetteer • Dictionary • noun sequence feature. • verb feature. • suffix feature. • from Training Corpus : • Heading words in the current / previous / next sentence. • Surrounding words in the current / previous / next sentence. • Term consisting word in • Pronoun Dictionary (ETRI 99) • Address book • Shop name (Nate Local DB / Sigaji.com / Ofood.com) • Hotel(Auction accomodation, hotelnjoy) • Country, place name of the world. • School name (Elementary-Middle-High school/University) • Syntactic • number of morphemes for each type of POS-tag. • number of eojeol (chunk) in the current / previous / next sentence. • position of the term in the sentence (relative:S/SC/CE/E, absolute) • position of the sentence in the document (relative:S/SC/CE/E, absolute) applied to be applied

  20. Experiment: Relation Type Classification • Document-Location Relation Type Classification • Target : 1,844 Location-type Terms • SVMs 3 classes (multi-class) classifier • Baseline for each relation-type is the result of when system selects each type only. isHeldAt locationLandmark generalLocation

  21. System Demo • http://barnabas.kaist.ac.kr:8080/NER • Example documents: 이번주 CI LAB 석사 모임 공지를 하겠습니다. 26일(토요일) 오후 2시에 하기로 하였습니다. 일정 변경에 대한 이유를 말씀드리자면 신입생들의 저조한 참석률 때문에 다시 토요일로 변경하게 되었습니다. 다시 한번 죄송스럽게 생각합니다. 일단 '2층 자판기 앞 소파'에서 모입니다. 부득이한 사정으로 인해 못 오는 분들은 미리 연락해주십시오. 첫 모임이고 선배님들도 어렵게 모시게 되었으니 신입분들께선 어쩔수 없는 사정이 아닌한 꼭 참석해주시길 바랍니다. 그럼 토요일에 뵙겠습니다. 김경렬 드림 주간 회의를 아래와 같이 갖고자 하오니 바쁘고 힘든 일 있으시더라도 적극 참석 바랍니다. ----- 아 래 ----- 일 시 : 2011년 3월 24일 (목요일) 오후 7시 장 소 : KAIST KI빌딩 내 카페베네 KAIST 오시는길 : 충남대사거리에서 우측도로를 타고 1km 정도 오시면 됩니다. 연락처 : ☎ 042-350-7825 김경렬

  22. Schedule Plan • ~March 18: • Finish implementing NER module with NE type classification. • Performance evaluation comparing with Dr.Lee's NER on our corpus. • ~March 25: • Finish implementing Relation Type Classification module • ~March 31: • System refinement. • Start to writing paper.

More Related