260 likes | 359 Views
Meeting Information Extraction from Meeting Announcement in Korean. Kyoungryol Kim. Table of Contents. Introduction Motivation Goal Problem Definition Problem Modeling. Introduction. Motivation. Everyday we receive a lot of Meeting Announcement
E N D
MeetingInformation Extraction from Meeting Announcement in Korean Kyoungryol Kim
Table of Contents • Introduction • Motivation • Goal • Problem Definition • Problem Modeling
Motivation • Everyday we receive a lot of Meeting Announcement • Conference, Seminar, Workshop, Meeting, Appointment… • Meeting announcement accounts for 17% (30,201 out of 183,022) of emails in Enron Email Dataset. • Smartphone era • Many people manage schedule using online-calendar via smartphonee.g. Google Calendar • But, typing by touch screen keyboard make many errors and even it’s difficult. * Enron Email Dataset, August 21, 2009 version, http://www.cs.cmu.edu/~enron/
Goal • Extracting schedule information from meeting announcement,and update them to the calendar, automatically. Meeting Announcement 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 민들레영토오는길 지도와 같이 명동역 8번 출구로 나오셔서 쭉 상가 끼고 걸어가시면 저기YMCA빌딩 1층에 있습니다. Extract Update
Problem Definition To find Meeting Location, the problem divided into 2 parts : • Finding locations from the text for each type of predefined complexity. • Named entity disambiguation on found locations. 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 1. Finding TargetLocations 2. Disambiguation
Problem Modeling Meeting Announcement Text Meeting Location on the Map 1. How to extract meeting location? 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 Extract meeting location strings Possible ways : (1) Rule-based (2) Machine learning (2-1) Supervised learning (2-2) Unsupervised learning 1.1. What NER approach is adequate for meeting announcement?
Problem Modeling Meeting Announcement Text Meeting Location on the Map LOCATION FOUND IN ITEMIZED SENTENCES 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 3월 9일 월요일 오후5시 30분 종합과학관 A동 123호 복도 의 117호 강의실 논문, 실험 결과정리 발표 - 이은송이, 권민지 시민 모두가 행복한 도시 익산! 이제는 여성이다! 익산의제21 복지환경분과에서 주최하는 성평등 시민강좌 및 여성정책발전 토론회! 현재 3번의 시민강좌를 마치고 드디어 다음주 목요일 여성정책발전 토론회를 개최합니다. 익산 성평등 시민강좌 및 여성정책발전 토론회 - 2009년 7월 9일(목) 오후 4시 영등동 시립도서관 1. 주제발표 * 여성친화도시 익산시 여성정책 발표 : 김 태 준(익산시 정책보자관) * 익산시 여성정책에 대한 제언 : 전 정 희(전북여성정책발전센터 소장) 2. 종합토론 * 좌장 : 하 춘 자(익산의제21실천협의회 복지환경분과위원장) * 토론자 : 김용균 시의원, 김태준 보자관, 전정희 소장, 방신영(익산여성의전화 부설기관장) Extract meeting location strings 1. How to extract meeting location? No item title Possible ways : (1) Rule-based (2) Machine learning (2-1) Supervised learning (2-2) Unsupervised learning 아이건강국민연대 대표자 회의 초대장 2009년 6월 26일 (금) 2009년 아이건강국민연대 대표자 회의에 모십니다. 안녕하십니까? 그간 아이들의 건강을 위해 애써 오신 연대 단체회원 여러분을 모시고 2009년 아이건강국민연대 상반기 대표자 회의를 개최 하고자 합니다. 2009년 상반기에는 행복한 아이건강축제, 몸살림 마음 살림 어린이 교육, 제주연대 친환경연합 MOU체결, 아이건강 제주연대 창립 등 여러 가지 활동을 하였습니다. 연대단체 대표분 들을 모시고 아이들을 건강하게! 농촌을 활기차게! 한반도를 청정하게! 하는 목표로 2009년 하반기 사업의 방향과 사업에 대한 논의를 드리기 위한 자리이오니 부디 함께 해 주시길 바랍니다. (참석 여부를 꼭 알려주세요) 아이건강국민연대 드림 ◎ 일시 : 6월 26일(금) 오후 5시 ~ 7시 ◎ 장소 : 청미래 (약도 참조) ◎ 일정 : - 오후 4시 30분~5시 : 인사와 다과 나눔 - 5시~ 5시 30분: 2009년 상반기 사업 보고 및 하반기 사업계획 - 5시 30분 ~ 7시 : 법안추진 보고 및 2009년 하반기 중점 사업계획 - 7시 ~8시 : 석식 및 친교 ※ 문의 사항 : 김민선 사무국장 (019-338-9040) No item title 2009 녹색구매 세계대회 ○ 대 회 명 : 제3회 녹색구매세계대회 ○ 대회일시 : 2009년 10월 20일(화)~24일(토) / 5일간 ○ 대회장소 : 개막식 - 경기도 문화예술회관, 컨퍼런스 - 호텔 캐슬, 부대행사 – 화성행궁 광장 ○ 참가예상 : 약70개국 1,500여명 ○ 주요내용 : 10월 20일 - 녹색장터 및 전야제(라디오공개방송) 10월 21일 - 개회식, 주제강연, 세션운영 / 녹색장터 ※ 개회식은 입장시간(8:40~9:20) 엄수 10월 22일 - 세션운영 10월 23일 - 종합토론, 선언문 채택 및 낭독, 폐회/수원투어 10월 24일 - 외국인 생태보전지역 탐방(DMZ) ○ 주 최 : 국제녹색구매네트워크(IGPN), 자치단체국제환경협의회(ICLEI) ○ 주 관 : 녹색구매세계대회조직위원회, KGPN(한국녹색구매네트워크), 한국소비자원, 한국환경산업기술원, 전국지속가능발전협의회, KBCSD(지속가능발전기업협의회), 국가청정생산지원센터 ○ 후 원 : 수원시, 경기도, 환경부, 지식경제부, 공정거래위원회, 자원순환산업진흥협의회, UNDESA(UN경제사회국), UNESCAP(UN아시아태평양경제사회이사회),CITYNET, 한국관광공사 3 meeting locations Extract address information and limit the boundary Search the location from the DB 장유능동하드코트 개장기념 동호인 대회 대표자 회의를 사정상 아래와 같이 연기합니다. 1.사 유 : 2008년 8월 19일(화) 오후7시 서키트대회 만찬회 실시로 인해 연기 2.대표자 회의 변경일자 : 2008년 8월 20일 (수) 오후 7시 협회(삼계)사무실 3. 각 클럽대표자 및 협회 임원, 고문님들께서는 만찬회에 참석하여 주시기 바랍니다. Search the location from external resources Different item title
Problem Modeling Meeting Announcement Text Meeting Location on the Map LOCATION FOUND IN NATURAL LANGUAGE SENTENCES 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 안녕하세요 한국예술치료학회입니다. 올해 춘계학술대회에 관한 문의 전화가 많아서 안내를 해드립니다. 공지가 늦는 이유는 학회 홈페이지가 새로 오픈준비에 있기 때문입니다. 이번 학술대회 부터는 학회원님들의 편리를 위하여 신청접수에서 부터 결재까지 홈페이지상에서 가능하도록 작업중에 있습니다. 더불어 새로운 홈페이지에서는 학술시간, 논문신청접수, 임상감독, 자격증심사까지 대부분의 업무가 전산화 될 것입니다. 더욱 자세한 공지는 추후에 올리도록 하겠습니다. 이번 학술대회는 5월28일(금) ∼ 5월30일(일) ※ 2박 3일입니다. 주제는 “발달장애 아동을 위한 예술치료의 효과” 에 관하여 기조강연과 워크샵이 이루어질 예정입니다. 장소는 천안국립중앙청소년수련원 (2009년 추계학술대회장소와 동일함) 입니다. 그럼 새로운 홈페이지에서 뵙겠습니다. 조금만 기다려 주시기 바랍니다. ※ 세부계획은 게시판 학술자료실에 탑재해 두었습니다. 예술치료학회 간사 - 김유진- 문의전화 063)850-6320 우선 엠티 일정이 변경된 점에 대해서 대단히 죄송스럽게 생각합니다.... 4월2일~3일로 변경 되었으며, 선발대와 본대 그리고 사정에 의한 후발대루 나눠서 가게 되었습니다. 일정 변경에 대한 이유를 말씀드리자면 먼저 선배님들의 스케쥴을 고려한 점도 있으며, 신입회원 분들의 저조한 참석률 때문에 다시 금요일로 변경하게 되었습니다... 다시 한번 죄송스럽게 생각합니다. 따라서 다시 정확한 인원 조사를 위해 월요일 즉 내일 간단히 말씀드릴게 있어서 긴급 회의를 소집하고자 합니다. 시간은 일단 수업 끝나고 6시30분쯤이 될것이구요 장소는 일단 5층 자판기 앞에서 모인다음에 다른 강의실로 옮기겠습니다. 엠티비 내주신 분들중에 부득이한 사정으로 인해 못 가시는 분들껜 환불해드리겠습니다. 또한, 토요일 일정으로 인해 못 가셨던 분들은 금요일로 변경되었으니 엠비티를 지참하시고 와주시기 바랍니다. 첫 엠티고 선배님들도 어렵게 모시게 되었으니 신입분들께선 어쩔수 없는 사정이 아닌한 꼭 참석해주시길 바랍니다. 그럼 낼 뵙겠습니다. Extract meeting location strings 1. How to extract meeting location? Possible ways : (1) Rule-based (2) Machine learning (2-1) Supervised learning (2-2) Unsupervised learning 이번 06년도 부회장을 맡게된 전대성입니다.; 12월 5일 월요일 7시 학관 3층 세미나 실에서 임원 회의가 있을 예정이오니 임원 여러분들께서는 꼭 참석해 주시기 바랍니다. 내용은 대략 겨울 엠티와 종강총회 때 올라온 건의사항에 대해 회의할 것으로 생각됩니다. 1학년 임원여러분들은 꼭 참석해 주세요. 오늘 월례회 회의 결과 번개미팅 일정이 21일 수요일 오전 10시30분으로 확정되었습니다. 이날 모임에 참석하실 청여 회원들께서는 일정에 차질이 없도록 정해진 시간까지 교회앞으로 모여주시기 바랍니다. 차량은 그날 임보라목사님께서 교회 차량을 제공하시기로 했는데, 참석하시는 분들의 차량 두 대에 나누어 타고 될 것 같습니다. `트렁크갤러리`에 도착해서(11시경) 갤러리에 전시된 작품들을 관람한 후 맛있는 점심을 나누고, 이어서 더 맛있는 이야기도 나누시기 바랍니다. 근처에 있는 남산공원과 산책로를 거닐며 바쁜 일상을 쪼개 어렵게 끄집어낸 여유를 느껴보시기 바랍니다. 약 1시30분경에 소박한 일정을 마칠 예정입니다. 많은 분들이 함께 나누는 시간과 추억이 되길 바랍니다. Extract address information and limit the boundary Search the location from the DB 2010년도 제4차 사장간담회 및 임시총회를 5월 20일(목) 07:30 소공동 롯데호텔 36층 버클리룸에서 개최하오니 참석하여 주시기 바라며, 안건은 공문발송목록 제177번(총무 제122호, 2010. 5. 10 발송)을 참고하여 주시기 바랍니다. 끝. Search the location from external resources
Problem Modeling Meeting Announcement Text Meeting Location on the Map 1. How to extract meeting location? 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 Extract meeting location strings 1.2. What is the definition of the location? * Traditional Location-type NE definition : Place and Location
Problem Modeling Meeting Announcement Text Meeting Location on the Map • Definition 1. Location Named Entity A particular point or place in physical space (Wiktionary). • [Cyber Space] Exceptionally, If the cyber space is used as a place gathering people, then the cyber space can be a location. e.g. MSN에서 9시에 모입니다. • [Road, Street, Transportation] cannot be a location, except if it points particular place or it is necessary to describe the location. e.g. 진천 I/C, 왼쪽에 석촌지하차도가 보임 • [Bridge]can be a location. e.g. 납안교, 한강대교 • [Train/Subway Station, Bus-stop] can be a location. e.g. 도곡역1번출구, 뱅뱅사거리 • [Address] Full/partial address can be a location. e.g. 전북 무주군 설천면심곡리43-15 • [Organization, Company, Heritage, Building] can be a location if it is used to represent the location. • [Parenthesis] If the location is ambiguous when the string in the parenthesis is removed and separated by the parenthesis, then the string including parenthesis are the part of the location. e.g. COEX 컨퍼런스센터4층 (402호), 건국대학교(서울) 의생명연구동 강당, 경인교육대학교 (경기캠퍼스),부산벡스코(BEXCO) 컨벤션홀201호, 생명과학관(녹지) 139호 • [Enumeration] The different representations for same location are recognized separately. e.g. 장소 ? 가야 레스토랑. 전화/215-654-8900, 주소/1002 Skippack Pike, Blue Bell, PA 19422전주 화산체육관 (전북 전주시 완산구 중화산동 1가 45번지), 2. 장소 : 늘푸름(오산시 은계동91-8) • Definition 2. Meeting Location Meeting Location is the Location where the meeting will be held. • Definition 3. Location Landmark Location Landmark is the Location where can be used as a landmark to go to the meeting location. DEFINITION OF LOCATION-type NE 1. How to extract meeting location? 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 Extract meeting location strings 1.2. What is the definition of the Location-type NE? * Traditional Location-type NE definition : Place and Location
Problem Modeling Meeting Announcement Text Meeting Location on the Map 1. How to extract meeting location? 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 1.3. Among extracted Location-NEs, how can we choose meeting location? Extract meeting location strings Relation-type Classification : Classify the Relation between Location-NE and Meeting Announcement, based on the various syntactic/linguistic features. * 3 Relation-types - isHeldAt: Meeting will be held at the location. - locationLandmark: Location can be used as a landmark of the meeting location. - generalLocation: The other kind of location which is not applicable to above 2 relation types.
Problem Modeling Meeting Announcement Text Meeting Location on the Map 2. How can we find geographical location from the strings? 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 Find geographical location from the extracted meeting location string. 2.1. Can we distinguish the type of each word in the location string? 2.1.1 What kind of types for each token? 서울명동 민들레영토 민들레영토 명동역8번 출구 YMCA빌딩 1층
Problem Modeling Meeting Announcement Text Meeting Location on the Map CLASSIFICATION OF THE TYPE OF THE TOKENS FOR THE LOCATION 2. How can we find geographical location from the strings? 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 TYPES OF TOKEN: 1. Main Part 1.1. ADDR : ADDR_DIV1, ADDR_DIV2, ADDR_DIV3, ADDR_DIV4, ADDR_STREETNO, ADDR_HOUSENO e.g. 경기도 성남시 분당구 야탑1동 353-3 1.2. ORG : ORG_BUSINESS, ORG_EDUCATION, ORG_ECONOMY, ORG_SPORTS, ... , ORG_OTHERS e.g. 고신대학교, 코엑스, 토즈, 휘닉스아일랜드 1.3. STATION / GATE e.g. 강남역1번출구 2. Extra Part 2.1. BUILDING / FLOOR / ROOM e.g. 학술정보관2층 프리젠테이션룸 Find geographical location from the extracted meeting location string. 2.1. Can we distinguish the type of each word in the location string? 서울명동 민들레영토 민들레영토 명동역8번 출구 YMCA빌딩 1층 * Subcategory of ORG is referenced from [Lee et al. 2006] – Fine-grained NER Categories, ETRI.
Problem Modeling Meeting Announcement Text Meeting Location on the Map 2. How can we find geographical location from the strings? 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 Find geographical location from the extracted meeting location string. 2.1. Can we distinguish the type of each word in the location string? 2.1.2 How can we distinguish each token as a predefined type? 서울명동 민들레영토 민들레영토 명동역8번 출구 YMCA빌딩 1층
Problem Modeling Meeting Announcement Text Meeting Location on the Map GET THE SEQUENCE OF TYPES FROM THE INPUT LOCATION 2. How can we find geographical location from the strings? 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 1. By analyzing 1,135 meeting locations and 214 landmarks from the training corpus, we’ve gathered all possible sequences of types for the token as below : Find geographical location from the extracted meeting location string. 2.1. Can we distinguish the type of each word in the location string? 서울명동 민들레영토 민들레영토 명동역8번 출구 YMCA빌딩 1층
Problem Modeling Meeting Announcement Text Meeting Location on the Map GET THE SEQUENCE OF TYPES FROM THE INPUT LOCATION 2. How can we find geographical location from the strings? 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 2. Get ready Named Entity dictionary for the organizations- ORG-type NE dictionary referenced from ETRI Fine-grained NER (875,415 ORG-type NEs) - STATION-type NE dictionary referenced from Korail(Train, Subway station database) Find geographical location from the extracted meeting location string. 2.1. Can we distinguish the type of each word in the location string? 서울명동 민들레영토 민들레영토 명동역8번 출구 YMCA빌딩 1층
Problem Modeling Meeting Announcement Text Meeting Location on the Map GET THE SEQUENCE OF TYPES FROM THE INPUT LOCATION 2. How can we find geographical location from the strings? 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 3. Make rules based on the sequences of types from the training corpus. - Regular Expressions for STATION, BUILDING, FLOOR, ROOM, ORG, ADDR with the conditions from extracted sequences of types and ORG-type NE dictionary, address book, recursively e.g. 법학전문대학원본관 3층 회의실 -> Find by RegEx : 법학전문대학원본관 3층(FLOOR) 회의실(ROOM) -> Find from NE dic: 법학전문대학원본관 3층(FLOOR) 회의실(ROOM) -> Find from address book : 법학전문대학원본관 3층(FLOOR) 회의실(ROOM) -> Find by RegEx: 법학전문대학원본관(BUILDING)3층(FLOOR) 회의실(ROOM) -> GET SEQUENCE : BUILDING-FLOOR-ROOM Find geographical location from the extracted meeting location string. 2.1. Can we distinguish the type of each word in the location string? 서울명동 민들레영토 민들레영토 명동역8번 출구 YMCA빌딩 1층
Problem Modeling Meeting Announcement Text Meeting Location on the Map 2. How can we find geographical location from the strings? 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 Find geographical location from the extracted meeting location string. 2.1. How can we represent geographical location ? • 1. To store location to the local DB, and to communicate with other GIS-services : • We borrowed representation of OpenStreetMap. There are 3 types of locations : • - Node • - Way • - Closed Way • 2. To point geographical location on the map : • - WGS84 (standard) : ( latitude, longitude [, altitude] ) • e.g. (37.5634717, 126.9823638)
Problem Modeling Meeting Announcement Text Meeting Location on the Map DATABASE SCHEMA FOR STORING GEOGRAPHICAL LOCATIONS 2. How can we find geographical location from the strings? 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 changeset node Find geographical location from the extracted meeting location string. 2.1. How can we represent geographical location ? • 1. To store location to the local DB, and to communicate with other GIS-services : • We borrowed representation of OpenStreetMap. There are 3 types of locations : • - Node • - Way • - Closed Way • 2. To point geographical location on the map : • - WGS84 (standard) : ( latitude, longitude [, altitude] ) • e.g. (37.5634717, 126.9823638) bounds changeset_tag node_tag
Problem Modeling Meeting Announcement Text Meeting Location on the Map 2. How can we find geographical location from the strings? 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 Find geographical location from the extracted meeting location string. 2.2. Can we extract address information from the meeting location string? Meeting Location : 서울명동 민들레영토 ADDR_DIV1-ADDR_DIV3-ORG ADDR_DIV1 : 서울시 ADDR_DIV2 : 중구 ADDR_DIV3 : 명동1가 ADDR_DIV4 : South-West : (37.5634717, 126.9823638) North-East : (37.5651763, 126.9866025) We can pre-construct geographical boundary DB, to all of the address using Google Geocode API.
Problem Modeling Meeting Announcement Text Meeting Location on the Map 2. How can we find geographical location from the strings? 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 Find geographical location from the extracted meeting location string. 2.3. How can we find geographical location for the ORG-type token? Query : 서울 명동민들레영토 1. By splitting query into 4 parts, get ORG. - ADDR : ADDR_DIV1~4/STREETNO/HOUSENO - ORG - STATION - EXTRA : GATE/BUILDING/ROOM e.g. ADDR : 서울 명동 ORG : 민들레영토 STATION : EXTRA :
Problem Modeling Meeting Announcement Text Meeting Location on the Map 2. How can we find geographical location from the strings? 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 Find geographical location from the extracted meeting location string. 2.3. How can we find geographical location for the ORG-type token? If there’s an address boundary set, search the location only in the boundary. By querying to get candidates for the location. If the system finds only one location in the address boundary, then return and exit. 1. Query to the local DB 2. Query to the Local Search Open API Services - Naver Local Search API - Convert Coordinate (KTM -> WGS84)
Problem Modeling Meeting Announcement Text Meeting Location on the Map 2. How can we find geographical location from the strings? 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 서울명동 민들레영토 기본 안건 - 제작지원비 지급 지연에 대한 설명 - 기금 조정 운영안 - 가을 워크샵준비위 구성 - 기타(기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다) 민들레영토 오는길 지도와 같이 명동역8번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. 참고하세요 Find geographical location from the extracted meeting location string. 2.4. How can we disambiguate the location among candidates? Disambiguation measure : - Address boundary - Distance from Landmark (if we have landmark) - Number of matched characters
Overall Architecture Training System Testing System Input Document PersonalInformation Expand Gazetteer Finding Target Locations Gazetteer Location NER Trained Models (CRFs,SVMs) Corpus Expansion OpenAPI Map Services Train Models Relation-type Classification Document Annotation Adding Document to Corpus Normalization Disambiguation Training Corpus OUTPUT