110 likes | 260 Views
Knowledge Extraction Engine. 2007-09-08 명재석 , 연종흠. 데이터 수집. 크롤링 엠파스 지식 (kdaq.empas.com) 범위 지식 Q&A ≫ 쇼핑 ∙ 상품정보 ≫ 휴대폰 ∙PDA 지식 Q&A ≫ 쇼핑 ∙ 상품정보 ≫ 쇼핑노하우 답변이 있는 지식 양 최신 게시물부터 과거 데이터 순서로 수집 각각 3500 건 휴대폰 (06.01.23 ~ 08.09.06), 노하우 (08.01.29 ~ 08.09.07) 기타 집필지식
E N D
Knowledge Extraction Engine 2007-09-08 명재석, 연종흠
데이터 수집 • 크롤링 • 엠파스 지식(kdaq.empas.com) • 범위 • 지식 Q&A ≫ 쇼핑∙상품정보 ≫ 휴대폰 ∙PDA • 지식 Q&A ≫ 쇼핑∙상품정보 ≫ 쇼핑노하우 • 답변이 있는 지식 • 양 • 최신 게시물부터 과거 데이터 순서로 수집 • 각각 3500 건 • 휴대폰 (06.01.23 ~ 08.09.06), 노하우(08.01.29 ~ 08.09.07) • 기타 • 집필지식 • Q&A형식이 아닌 사용자가 작성한 노하우
수집 항목 • 질문 • URL • 질문자 ID • 날짜 • 카테고리 • 제목 • 내용 • 태그 • 추천수합 • 조회수 • 답변 • 네티즌 선택, 질문자 선택 여부 • 답변자 ID • 날짜 • 내용
Category Tag Belong Have Member Writer Question Writer Reply Answer
Objectives • 구조화되지 않은 텍스트로부터 구조화된 지식을 습득 • 노하우 데이터를 기반으로 지식 베이스를 구축 • 노하우 데이터의 특성을 규명 • 객관적, 사실적 데이터와의 연결점을 모색 • 위와 같은 기능을 수행하는 시스템의 구현 • 전체 KB 프로젝트의 모듈로서 포함될 수 있도록.. Center for E-Business Technology
Big Picture Intelligent Service Provider Knowledge Base Knowledge Extraction Engine • KB에 정보 요청 • Entity 식별 • relationship 검색 • End-User 서비스 • Semantic Search • Automatic Tagging • Storage 역할 • ISP의 요청에 응답 • KEE의입력 처리 • Entity • Name(ID) • Relationship • Name(ID) • Entity A -> B • 문서 전처리 • 자연어 처리 • 문서 재구성 및저장 • 추출알고리즘 • Entity • User-defined Relationship • KB에 저장 • 플러그인 구조 Center for E-Business Technology
Intelligent Service Provider Intelligent Service Provider • Utilize the knowledge (Jaeseok -> Person) • People usually don’t have to find it directly • KB에 정보 요청 • Entity 식별 • relationship 검색 • End-User 서비스 • Semantic Search • Automatic Tagging Center for E-Business Technology
Knowledge Base • Directed Graph • Interface • Long-term Research (Complex Model) • Attributes(datatype, weight, log) • Modify, Remove Interface Knowledge Base • Storage 역할 • ISP의 요청에 응답 • KEE의입력 처리 • Entity • Name(ID) • Relationship • Name(ID) • Entity A -> B Center for E-Business Technology
Knowledge Extraction Engine • Plug-in Management • Policy • New plug-in -> Analyze all documents • New document -> Apply all plug-in • Remove(?) : log 남겨야하나? Knowledge Extraction Engine • 문서 전처리 • 자연어 처리 • 문서 재구성 및저장 • 추출알고리즘 • Entity • User-defined Relationship • KB에 저장 • 플러그인 구조 Entity User-defined Relationship Center for E-Business Technology
Discussion • KEE의 세부 구현 • Preprocessing, Policy, … • 이미 구조화된 지식의 활용 • ERD도 지식의 표현이므로 • 입력될 문서의 종류에 따라 KB의 성격이 달라짐 • 특성이 다름 : 노하우, 뉴스, 블로그, … • 도메인이 다름 : 쇼핑, 여행, … • 집중화 vs. 분산화 • KB의 Knowledge Model • Relationship이 weight와 같은 attribute를 갖는 형태가 정당한가 Center for E-Business Technology