1 / 14

Knowledge Extraction

Knowledge Extraction. Jaeseok Myung , Jongheum Yeon. Contents. Data Set Survey Extraction Steps Document Collecting Preprocessing Entity Extraction Relationship Extraction Co-work with KB Conclusion. Crawler.

rosa
Download Presentation

Knowledge Extraction

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Knowledge Extraction JaeseokMyung, JongheumYeon

  2. Contents • Data Set • Survey • Extraction Steps • Document Collecting • Preprocessing • Entity Extraction • Relationship Extraction • Co-work with KB • Conclusion Center for E-Business Technology

  3. Crawler • 프로젝트 위키 페이지 http://ids.snu.ac.kr/wiki/KEE_(Knowledge_Extraction_Engine)참조 • 크롤링 대상이 지정된 xml 설정 파일을 읽어 수집을 수행 • 결과를 xml 로 저장 • 자바용 크롤러 라이브러리 Web-Harverst사용 • CVS • :pserver:cygnus.snu.ac.kr:/oss-cvs/kinkin • Class • KinCrawler • 설정 파일을 불러와 Web-Harvest 라이브러리를 실행 • 설정 파일이 크롤링의 동작을 모두 담고 있다 • 설정 파일은 xml 형식으로 XPath와 XQuery를 이용 • conf/kdaq01.xml • Reference • http://web-harvest.sourceforge.net/samples.php?num=4 • http://web-harvest.sourceforge.net/manual.php • http://www.w3.org/TR/xpath • http://www.w3.org/TR/xquery/ • http://www.w3.org/TR/xquery-operators/ • InsertData • xml 파일로 된 결과를 DB에 저장

  4. Crawling Sample • 엠파스 지식(kdaq.empas.com)을 수집 • corona.snu.ac.kr의 오라클에 저장 • 지식 Q&A ≫ 쇼핑∙상품정보 ≫ 휴대폰 ∙PDA • 지식 Q&A ≫ 쇼핑∙상품정보 ≫ 쇼핑노하우 • 두 카테고리에 대해 답변이 있는 지식으로 각각 3500 건씩 저장 • 수집항목 • 질문 • URL / 질문자 ID / 날짜 / 카테고리 / 제목 • 내용 / 태그 / 추천수합 / 조회수 • 답변 • 네티즌 선택, 질문자 선택 여부 / 답변자 ID / 날짜 / 내용

  5. Survey • Keyword • [information/named entity/relationship/knowledge] extraction • semantic annotation • ontology building • System & Tool • GATE • 이용 가능한 대표적인 문서 아키텍처 및 프로그램 • 자바 기반의 독립 프로그램으로 실행 가능 • 라이브러리 형식으로 프로그램에 포함하여 사용 가능 • 유니코드를 지원하여 다국어 처리 가능 • 관련된 서베이 논문 • information extraction 이나 ontology building 과 같은 보다 일반적인 내용을 다룬 논문 • 한글 논문

  6. Extraction Steps • Document Collecting • 분석 대상이 될 문서 수집 • Preprocessing • 자연어 처리 과정을 통하여 분석 가능 형태로 변환 • Entity Extraction • 문서내의 주요 어휘를 추출 • Relationship Extraction • 어휘간 관계를 추출 Center for E-Business Technology

  7. Document 3 Document 2 Document 1 박지성, '불사조 축구화' 신고 축구 레전드로 한국에서는 박지성(27, 맨체스터유나이티드)이 나이키가 아시아 선수 중 최초라 자신만을 위해 특별히 제작한 ‘불사조 축구화, 박지성 티엠포레전드FG’를 신고 달리게 됐다. 나이키의 마케팅적 판단이라고 할 수도 있지만 그 사실조차도 세계무대에서 박지성의 위상을 알 수 있는 부분이다. 지난 8월 30일 제니트와의 UEFA 슈퍼컵에 교체 투입된 박지성이 30여 분간 활약하며 첫 선을 보인 이 신발은 검정 바탕에 붉은 색 나이키 로고와 골드 컬러로 박지성의 열정을 강조했다. 나이키는 박지성의 이름을 딴 축구화뿐만 아니라 축구복, 축구공 그리고 가방까지 제작해 ‘Be The Legend’라는 캠페인을 진행할 예정이다. Document Collector Extraction Module Preprocessed Result Preprocessing Algorithms Title • 박지성/불사조/축구화/신다/축구/레전드 Contents • 한국/박지성/27/맨체스터유나이티드/‘불사조 축구화, 박지성 티엠포레전드FG’/ 신다/달리다/되었다/나이키/마케팅/판단/사실/세계무대/박지성/위상/부분/지난/8월 30일/제니트/UEFA/슈퍼컵/교체/투입/박지성/30여분간/활약/첫 선/보이다/신발/검정/바탕/붉은색/나이키로고/골드컬러/박지성/열정/강조/하다 Entity Extraction Algorithms Relationship Extraction Algorithms Result 박지성 검정 축구화 바탕 제품 티엠포레전드FG 나이키

  8. Document Collecting • 역할 • 분석 대상이 될 문서를 수집하여 저장 • Crawling or Importing (crawling이 더 일반적) • 방법 • 수집하기 적절한 페이지 선정 • 로그인 필요하거나 구조가 동적으로 변하면 수집이 어려움 • 문서 구조 분석을 통하여 원하는 부분의 텍스트 수집 • Tag의 순서, id 및 class attribute등을 이용 • 도구 • DOM Parser를 이용하여 특정 tag의 텍스트를 수집 가능 • Nutch와 같은 오픈소스 크롤러 등을 이용하는 것도 좋음 • 절차 • 대상 선정 및분석, 수집 부분 구현 Center for E-Business Technology

  9. Preprocessing • 역할 • 자연어 처리 • 문장 구분, 형태소 분석, 품사 태깅, 구문 분석 • 전처리 결과 저장 • 추출 알고리즘이 동작할 수 있는 general model 구성 • 도구 • 철이 (http://ids.snu.ac.kr/wiki/%EC%B2%A0%EC%9D%B4) • KLT (http://nlp.kookmin.ac.kr/HAM/kor/download.html) • Java version은 없으므로 JNI를 이용하여 연결해야 함 • 절차 • 도구 탐색 및 적응 • 저장 구조 결정 및 구현 Center for E-Business Technology

  10. Extraction Algorithms • 종류 • Entity • Relationship • 특징 • Ad-hoc 함 • 활용 목적에 맞게 특정한 entity나 relationship을 추출해야 하기 때문 • 모든 목적에 적합한 entity와 relationship을 추출해주는 algorithm은 없을 것으로 생각됨 • 기간을 산정하기 어려움 (Ad-hoc하고 복잡도가 다름) • Preprocessing에 의존적임 • 전처리 과정에서 얻어오는 정보를 이용하여 추출하는 경우가 대부분 • 전처리 과정의 오류도 함께 전파되므로 주의가 필요 • 수작업이 어느 정도 필요함 • 참조 • 시소러스 자동 구축에 관한 연구가 전부 관련 있으므로 참조 가능 Center for E-Business Technology

  11. Entity Extraction • 역할 • 문서 내에서 의미 있는 어휘를 식별 • 애플리케이션의 목적에 맞는 어휘 사전의 구축 • 방법 • 사전을 이용 • 명사 사전, 상품명 사전 등 활용 목적에 따라 외부 사전을 이용 가능 • 세종 사전(http://www.sejong.or.kr/), 포털의OpenAPI등 이용 • 통계적 방법 • Frequency, Co-occurrence등 이용 • 패턴 이용 • 참조 • Information Extraction, Feature Selection, Feature Extraction, … Center for E-Business Technology

  12. Relationship Extraction • 역할 • 어휘간의 관계를 정의하고 그에 맞는 추출 알고리즘 구축 • Relationship 추출의 단계 • Metadata : 각어휘간 관계는 없는 것으로 간주 • Controlled Voca. : 비슷한 어휘군을 대표하는 대표어를 추출 • Taxonomy : 어휘군 간의 상하위 관계를 분류 • Thesaurus : 어휘간 관계에 BT/NT/RT 등을 추가 • Ontology-1단계 : OWL등의 표준어휘, 예를 들어 equivalent등을 고려 • Ontology-2단계 : 자유로운 semantics를 처리 • 참조 • Information Extraction, Semantic Annotation, .. Center for E-Business Technology

  13. KB Team과의 Co-work 포인트 • 어떤 Entity가 필요한가 (상품명?) • 어떤 Relationship이 필요한가 (가격? 상품평?) • KB의 API • 어떤식으로KB에 데이터를 저장 할 수 있는지 알아야 함 • KB의 데이터 모델에 맞는 추출 방법 구상 • Weight를 갖는지, datatype은 어떠한지, constraint는 있는지 등을 고려해야 함 Center for E-Business Technology

  14. 결론 • 어떠한 entity와 relationship을 추출할 것인지를 가장 먼저 결정한 후 그에 맞는 문서를 수집해야 함 • 문서 수집과 전처리는 추출 알고리즘을 위해 공통적으로 거쳐야 하는 부분이므로 중요하고, 빨리 끝내야 하며, 외부 도구를 이용하는 작업이므로 다소 기계적인 부분임 • 어떠한 entity와 relationship을 추출할 것인지는 KB팀과 함께 • 어떻게 entity와 relationship을 추출할 것인지는 목적에 따라 다양한방법을 구상 Center for E-Business Technology

More Related