1 / 11

Knowledge Extraction Engine

Knowledge Extraction Engine. 2007-09-08 명재석 , 연종흠. 데이터 수집. 크롤링 엠파스 지식 (kdaq.empas.com) 범위 지식 Q&A ≫ 쇼핑 ∙ 상품정보 ≫ 휴대폰 ∙PDA 지식 Q&A ≫ 쇼핑 ∙ 상품정보 ≫ 쇼핑노하우 답변이 있는 지식 양 최신 게시물부터 과거 데이터 순서로 수집 각각 3500 건 휴대폰 (06.01.23 ~ 08.09.06), 노하우 (08.01.29 ~ 08.09.07) 기타 집필지식

fred
Download Presentation

Knowledge Extraction Engine

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Knowledge Extraction Engine 2007-09-08 명재석, 연종흠

  2. 데이터 수집 • 크롤링 • 엠파스 지식(kdaq.empas.com) • 범위 • 지식 Q&A ≫ 쇼핑∙상품정보 ≫ 휴대폰 ∙PDA • 지식 Q&A ≫ 쇼핑∙상품정보 ≫ 쇼핑노하우 • 답변이 있는 지식 • 양 • 최신 게시물부터 과거 데이터 순서로 수집 • 각각 3500 건 • 휴대폰 (06.01.23 ~ 08.09.06), 노하우(08.01.29 ~ 08.09.07) • 기타 • 집필지식 • Q&A형식이 아닌 사용자가 작성한 노하우

  3. 수집 항목 • 질문 • URL • 질문자 ID • 날짜 • 카테고리 • 제목 • 내용 • 태그 • 추천수합 • 조회수 • 답변 • 네티즌 선택, 질문자 선택 여부 • 답변자 ID • 날짜 • 내용

  4. Category Tag Belong Have Member Writer Question Writer Reply Answer

  5. Objectives • 구조화되지 않은 텍스트로부터 구조화된 지식을 습득 • 노하우 데이터를 기반으로 지식 베이스를 구축 • 노하우 데이터의 특성을 규명 • 객관적, 사실적 데이터와의 연결점을 모색 • 위와 같은 기능을 수행하는 시스템의 구현 • 전체 KB 프로젝트의 모듈로서 포함될 수 있도록.. Center for E-Business Technology

  6. Big Picture Intelligent Service Provider Knowledge Base Knowledge Extraction Engine • KB에 정보 요청 • Entity 식별 • relationship 검색 • End-User 서비스 • Semantic Search • Automatic Tagging • Storage 역할 • ISP의 요청에 응답 • KEE의입력 처리 • Entity • Name(ID) • Relationship • Name(ID) • Entity A -> B • 문서 전처리 • 자연어 처리 • 문서 재구성 및저장 • 추출알고리즘 • Entity • User-defined Relationship • KB에 저장 • 플러그인 구조 Center for E-Business Technology

  7. Intelligent Service Provider Intelligent Service Provider • Utilize the knowledge (Jaeseok -> Person) • People usually don’t have to find it directly • KB에 정보 요청 • Entity 식별 • relationship 검색 • End-User 서비스 • Semantic Search • Automatic Tagging Center for E-Business Technology

  8. Knowledge Base • Directed Graph • Interface • Long-term Research (Complex Model) • Attributes(datatype, weight, log) • Modify, Remove Interface Knowledge Base • Storage 역할 • ISP의 요청에 응답 • KEE의입력 처리 • Entity • Name(ID) • Relationship • Name(ID) • Entity A -> B Center for E-Business Technology

  9. Knowledge Extraction Engine • Plug-in Management • Policy • New plug-in -> Analyze all documents • New document -> Apply all plug-in • Remove(?) : log 남겨야하나? Knowledge Extraction Engine • 문서 전처리 • 자연어 처리 • 문서 재구성 및저장 • 추출알고리즘 • Entity • User-defined Relationship • KB에 저장 • 플러그인 구조 Entity User-defined Relationship Center for E-Business Technology

  10. Discussion • KEE의 세부 구현 • Preprocessing, Policy, … • 이미 구조화된 지식의 활용 • ERD도 지식의 표현이므로 • 입력될 문서의 종류에 따라 KB의 성격이 달라짐 • 특성이 다름 : 노하우, 뉴스, 블로그, … • 도메인이 다름 : 쇼핑, 여행, … • 집중화 vs. 분산화 • KB의 Knowledge Model • Relationship이 weight와 같은 attribute를 갖는 형태가 정당한가 Center for E-Business Technology

More Related