390 likes | 587 Views
- 뇌신경정보학사업 2 단계 자유공모과제 - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용. 최 기 선 한국과학기술원 전산학과 참여기업 : 나눔정보테크 , ㈜ 오롬정보. 순서. 연구개요 목표 및 내용 연차별 연구개발 추진체계 연구내용 문서 영역의 설정 및 지식 구조 분석 질병 영역 지식 구조 분석 지식 습득과정의 모델링 문장단위 의미 분류 기술 지식 저장 형태 연구 지식 탐색 및 질의 응답 모델 결론 1 차년도 연구 성과. 연구 개요. 연구목표
E N D
- 뇌신경정보학사업 2단계 자유공모과제 -인간의 지식처리 모델링을 위한전문분야 지식 베이스 원형 구축 및 활용 최 기 선 한국과학기술원 전산학과 참여기업: 나눔정보테크, ㈜오롬정보
순서 • 연구개요 • 목표 및 내용 • 연차별 연구개발 추진체계 • 연구내용 • 문서 영역의 설정 및 지식 구조 분석 • 질병 영역 지식 구조 분석 • 지식 습득과정의 모델링 • 문장단위 의미 분류 기술 • 지식 저장 형태 연구 • 지식 탐색 및 질의 응답 모델 • 결론 • 1차년도 연구 성과
연구 개요 • 연구목표 • 인간의 지식처리 모델링을 위한 • 전문분야 지식베이스 원형 구축 및 활용 • 연구내용 • 언어 영역에서의 지식을 대표할 수 있는 문서 영역을 찾아 • 그 안에서의 지식의 습득 및 표현, 언어 이해 과정의 모델링
연구개발 추진체계 습득과정 모델 정립 지식 저장 형태 연구 지식 습득 시제품 개발 수동 습득 지식 100 node 1차년도 자동 습득 지식 지식 습득 도구 개발 지식 변환 모델 연구 지식 탐색 모델 연구 1000 node 2차년도 자동 습득 지식 질의 응답 모델 연구 질의 응답 시제품 개발 일반화 2000 node 3차년도
심장판막증 병명 심장의 판막에 장해가 생기는 병 정의 운동을 조금만 해도 숨이 차다 증세 현기증이 나며 박동이 심하다 증세 판막부가 좁아지는 협착증 종류 선천적인 기형 원인 류머티즘 원인 동맥경화 원인 세균성 원인 구현될 시스템의 예 심장판막증 심장의 판막에 장해가 생기는 병. 심장이 비대하여 운동을 조금만 해도 숨이 차고 현기증이 나며, 박동이 심하게 된다. 판막부가 좁아져서 혈액의 흐름에 방해를 받는 협착증이 있다. 원인으로는 선천적인 기형, 류머티즘, 동맥경화, 세균성인 심내막염 등이다. 정의: 심장의 판막에 장해가 생기는 병. 증세:심장이 비대하여 운동을 조금만 해도 숨이 차고 현기증이 나며, 박동이 심하게 된다. 종류:판막부가 좁아져서 혈액의 흐름에 방해를 받는 협착증이 있다. 원인:원인으로는 선천적인 기형, 류머티즘, 동맥경화, 세균성인 심내막염 등이다. 심장판막증 정의 종류 원인 증세 생기다 협착증 심하다 판막에 장해가 차다 선천적 기형 류머티즘 심장의 … 동맥경화 세균성 문서 언어해석/의미 태깅 사건 추출 지식베이스에 습득된 지식 추가 지식습득 질의응답 지식탐색 심장판막증이 무엇입니까? 질의 변환 지식베이스 탐색 및 추론 심장 판막증이란 심장의 판막에 장해가 생기는 병으로 증세는 …종류는 … 원인은…입니다. 질의 의도 분석 사용자 A 지식변환 운동을 조금만 하면 숨이 차고 현기증이 나면서 심장 박동이 심한데요 무슨 병일까요? 응답 형태 추정 언어 생성 개념별 분류 심장판막증으로 추정 됩니다. 종류는 판막부가 좁아지는 .. 원인은 …입니다. 병원에 가셔서 …. 사용자 B
연차별 연구개발 목표 및 내용 : 1차년도 • 인간 지식을 반영하는 문서로부터 지식의 추출 연구 • 문서 영역 설정 • 인간 지식활동을 대표할 수 있는 문서 영역 설정 • 지식 습득 과정 모델 정립 • 문장단위 의미 분류 기술 개발 • 설정된 문서로부터 사건 추출 과정 연구 • 통사구조, 의미구조, 형태론적 구조 파악 • 지식 저장 형태 연구 • 설정된 문서의 지식 저장 및 지식 표현 연구 • 지식 수동 습득: 초기 100노드 • 지식 습득 시제품 개발 • 지식 습득을 통한 지식 구축 시제품 개발
문서영역 설정 • 설정된 문서 영역 • 질병영역 • 지식의 습득/탐색에 적합한 응용 • 백과사전 • 여러 가지 개념에 대한 잘 정리된 지식을 제공 • 질병영역에 대한 다양한 질병백과사전 존재 • 코퍼스 수집 • 질병영역 백과사전 • 계몽백과 사전, 휴메딕 의료사전 • Joins 헬스케어 의약도서관 의학백과사전 • 헬스조선 의약정보도서관, 야후! 건강정보 • 질병상담 예문 • 야후! 건강정보 FAQ, Doctor.co.kr
설정된 영역의 지식구조 분석 • 계몽백과사전의 예 : ‘위궤양’ • 브리타니카사전의 예 : ‘pneumonia’ 일련번호 표제어 서술 명사구 <id>15103 <title>위궤양 <contents> 위의 점막이 헐어서 점막 밑에 있는 조직이 파괴되는 병. 위궤양은 자극이 심한 음식을 지나치게 먹거나 정신적인 피로가 원인이 된다. 증세로는 식후에 위가 아프거나 대변에 피가 섞이기도 한다. 30∼40세의 남자에게 많이 생긴다. 자극이 심한 음식물과 정신적인 피로를 피하고 감정이 상하지 않도록 주의한다. 주제어 inflammation and consolidation of the lung tissue as a result of infection, inhalation of foreign particles, or irradiation.Many organisms, including viruses and fungi, can cause pneumonia, but the most common causes are bacteria, in particular species of Streptococcus and Mycoplasma. Although viral pneumonia does occur...
질병의 특성 분류 • 의미범주 수동 태깅 /DEF: definition (정의) /CAU: cause (원인) /SYM: symptom (증상) /REM: remedy (치료) /PRE: prevention (예방) /PRO: progress (경과) /OBJ: object (대상) /SOR: sort (종류) /IFT : if-then (조건) /OTH: others (기타) ‘질병’ 개념을 구성하는 특성은 무엇인가? 위의 점막이 헐어서 /CAU점막 밑에 있는 조직이 파괴되는 병./DEF 위궤양은 자극이 심한 음식을 지나치게 먹거나 정신적인 피로가 원인이 된다. /CAU 증세로는 식후에 위가 아프거나 대변에 피가 섞이기도 한다. /SYM 30∼40세의 남자에게 많이 생긴다. /OBJ 자극이 심한 음식물과 정신적인 피로를 피하고 감정이 상하지 않도록 주의한다. /REM
특 성 (Ci) 상대빈도 증상 10.9 원인 10.1 치료 3.48 종류 1.87 결과 1.21 대상 0.96 경과 0.92 대표 의미속성 선택 • 대표 의미 속성 선택 • 특성의 상대빈도에 의한 주요 특성을 대표 의미 속성으로 선택 • 상대빈도(RF: Relative Frequency) • 선택된 대표 의미 속성 • 증상, 원인, 치료 Ci : 질병 개념의 i-번째 특성 S(m, Ci) : m번째 항목에서 Ci를 나타내는 단문의 수 S(m) : m번째 항목의 단문의 수
II. 지식 습득과정의 모델링- 문장단위 의미 분류 기술 -
문장단위 의미분류 기술 모델링 • 문장의 의미분류 • 목적 : 질병영역 내 사용된 문장에 대해 의미속성 부여 • 방법 : 질병영역 내 코퍼스 분석, 특성 어휘 추출 • 특성어휘 분석 • 대표의미속성(원인/증상/치료) 문서로부터 분석 • 사용된 특성 어휘 • 문형 (Sentence patterns) • 서술어 (Predicates) • 명사 (Nouns) • 명사-술어 공기 (Noun-predicate concurrence) • 연결어미 (Conjunctive endings)
문형 자질의 예 • ‘원인’ 문서 • ~에[로] 의하(다)/ 말미암(다)/인하(다) • ~때[경우]에 생기(다)/ 나타나(다) • ~때문에 일어나(다)/ 나타나(다) • ‘증상’ 문서 • ~이[가] 나타나(다)/생기(다)/일어나(다) • ~게 되(ㄴ 다) • ~수[것] (도)있(다) • ‘치료’ 문서 • ~해야 하(ㄴ 다) • ~시키(다)
서술어 자질의 예 • 서술어 구성 품사 • 일반동사 (/pvg) • 성상 형용사 (/paa) • 동작성 명사 (/ncpa) + 동사 파생접미사 (/xsv) • 상태성 명사 (/ncps) + 형용사 파생접미사 (/xsm) • 특성 용언 추출 • 1단계: 일반 코퍼스에 나타난 고빈도 형태소 제외 • 2단계: 수렴값 이상의 상대빈도를 갖는 서술어만 포함 • 3단계: 각 특성 문서에 유일하게 나타나는 술어에 가중치 부여
명사 자질 • 특성 의존도에 따른 명사 분류 • 제1군 명사 : 단서어로서 특성 자체를 명시 • 제2군 명사 : 특성을 설명하는 어휘
명사-서술어 공기 자질 • ‘증상’문서의 예
의미속성 자동 부착 실험 • 의미속성 자동 분류 모델 • 각 문장의 특성(C) 측정: 최대값의 특성으로 선택 • M(C) = a S+ c P + e E • M’(C) = a S + b W + c P + d N + e E - S: 문형 점수 - W: 단서어휘(clue word) 점수 - P: 술어 점수 - N: 명사 점수 - E: 연결어미 점수 (a>b>c>d>e : 계수가 클수록 문장의 특성 결정에 중요하다) • 의미속성 자동부착 실험 • 학습자료 : 계몽백과사전에서 추출한 35개 항목 • 평가자료 : 계몽백과사전에서 추출한 18개 항목 • 1차 실험 : M(C) 사용 (문형, 술어, 연결어미 사용) • 2차 실험 : M’(C) 사용 (단서어휘, 명사 점수 추가 사용)
특성 문장 실험 재현률(Rc) 오류율 원인 CAU 26 1차 0.84 0.01 2차 0.88 증상 SYM 56 1차 0.76 0.02 2차 0.78 치료 REM 26 1차 0.61 0.01 2차 0.77 의미속성 자동 부착 실험 결과 • 재현률: Rc = N(R) / (N(S)- N(I)) • N(R): 특성 문서에서 옳게 인식된 문장 수 • N(S): 특성 문서의 문장 수 • N(I): 특성문서의 吳분류 문장 수 • 오류율 : Er = N(I) / N(R) • 吳분류 문장 :특성 문서에 포함되었으나 실제로 해당 특성을 포함하지 않는 문장. - 평균 재현률(%)
의미속성 자동부착 실험 (II) • 비훈련 지식원에 대한 실험 • 훈련집합 : 계몽백과사전에서 추출한 35개 항목 • 실험집합 : Joins 헬스케어에서 추출된 20개 항목 • ‘원인’문서내 114개 단문 • 실험결과 • Accuracy : 0.711 • Recall : 0.753 • Precision : 0.786 • F-measure : 0.770
검증자료 (20개질병) 대상자료 (180개) M’(C) 수동부착 지식노드 (20개) M’’(C) 자동부착 후 수동교정 지식노드 (180개) M’’’(C) 의미속성 반자동 부착 과정 • 의미속성의 반자동 부착 • 대상자료 : Joins 헬스케어에서 추출된 180개 노드 • 검증자료 : Joins 헬스케어에서 추출된 20개 노드 • 반자동 부착과정 • 초기모델 : M’(C) • 검증자료 수동부착 • 모델 재훈련 : M’’(C) • Threshold 교정 • 대상자료 자동부착 • 수작업 교정 • 모델 재훈련 : M’’’(C) • 특성어휘 교정 • 최종 결과 • 의미 속성이 수동/반자동 부착된 200개 질병 문장
의미속성 부착 프로그램 • 의미속성 부착 모델 • 1단계 : 입력된 단문의 각 의미속성별 확률치 추출 • 특성어휘 사용 • Mc : 원인점수, Ms : 증상점수, Mr : 치료점수 • 2단계 : 입력된 단문에 적합한 의미속성 선택 • 원인, 증상, 치료, 혹은 기타 • 기타 : 구축하고자하는 대상이 아닌 내용 • 예: 질병에 관련되지 않은 내용 • 2개의 임계치 사용 • Cut-off T : if( MAX{Mc, Ms, Mr} < T ) 문장속성 = 기타 otherwise 문장속성 = MAX{Mc, Ms, Mr} • Differencial D : if(MAX{Mc, Ms, Mr} – NOT_MAX{Mc, Ms, Mr} < D) 문장속성 = 기타otherwise 문장속성 = MAX{Mc, Ms, Mr}
지식의 구조화 • 지식의 구조 • 지식구조정보+지식내용 • 개념의 특성에 기반한 개념지도 (concept map) • 지식의 구조정보 • 구조화된 지식노드 • 상/하위 노드관계 • 속성의 상속 • 지식의 내용 • 사건리스트 • 논리형태로 표현 소화불량 정의 치료 원인 증세 소화기에 생기는 병 피로하다 소화가 충분히 이루어지지 않는다. 운동부족 지나치게 많이 마시다. 식욕이 감퇴된다. 지나치게 많이 먹다 위가 아프다. 소화가 안 되는 음식물을 먹다 구토 설사를 일으키다
지식의 저장 형태 • 지식의 내용 • 논리형태(Logical Form) • 예: 배(x2), SUB_가(x2, e3), 아프(e3) • 구문구조로부터 자동 추출 가능한 형태 고려 • 사건/개체간의 관계는 구문관계를 기준 • 표층격 사용 • 단순화 고려 • 사건의 존재에 큰 변화를 주지 않는 구문요소는 제외 • 사건/개체/관계/특성/조용 형태로 구분
CON OBJ SUBJ MOD 먹고 아프다 음식물을 배가 상한 논리 형태의 추출 • 구문구조로부터 자동추출 • “상한 음식물을 먹고, 배가 아프다.” • 의존구조 • 상하(e1), MOD_ㄴ(e1, x1), 음식물(x1), OBJ_을(x1, e2), 먹(e2), CON_고(e2, e3), 배(x2), SUB_가(x2, e3), 아프(e3)
논리 형태의 종류(1/2) • 사건(event) 형태 • 먹(e1), 아프(e2), 일으키(e3), … • 개체(Entity) 형태 • 위(x1), 설사(x2), 운동(x3), 부족(x4), … • 관계(Relation) 형태 • 주어관계 • SUB_가(x1, e2) : 위(x1)가 아프다(e2) • 목적어관계 • OBJ_를(x2, e3) : 설사(x2)를 일으키다(e3) • 연결관계 • CON_고(e13, e14) : 배가 아프고(e13) 식욕이 없다(e14) • 수식관계
논리 형태의 종류(2/2) • 수식관계 • MOD_의(x5, x6) : 눈(x5)의 전염병(x6) • MOD_에(x7, e7) : 각막(x7)에 외상을 입다(e7) • MOD_ㄴ(e8, x9) : 상한(e8) 음식물(x9) • MOD_게(e9, e10): 낮게(e9) 하다(e10) • MOD__(a1, e1) : 많이(a1) 먹다(e1) • 조용형태 : -이-, -하-, -되-, … • ZOY_하(e0, x0) : 피로(x0)하다(e0) • ZOY_이(e11, x11) : 세균성(x11)인(e11) 심내막염(x12) • 특성형태 • 많이(a1), 오래(a2), …
질의 응답을 통한 지식탐색 (1/2) • 실행 예 • Q1: “기침이 아주 심합니다.” • A1: “감기, 천식 등의 증상으로 보입니다. 다른 증세가 있으시면 말씀해 주십시오.” • Q2: “천식을 고치는 방법을 알려주십시오.” • A2: “천식의 치료법은 …” • Q3: “앞으로 어떤 증상이 생기는지요?” • A3: “질병의 이름이나 다른 증세를 말씀해 주십시오.”
사용자질의 지식원 지식원 지식원 지식습득 구절분리 의도분석 의미태깅 LF 변환 형태소분석 질의 의도 품사태깅 질의 LF 구문분석 내부지식 이벤트탐색 탐색된 LF 답변생성 답변 질의 응답을 통한 지식 탐색 (2/2) • 내부지식 구축 • 지식원의 의미속성 부착 • 지식원의 논리형태 변환 • 사용자 질의 분석 • 질의의 의도분석 • 질의의 논리형태 추출 • 지식탐색 • 질의의 의미속성 태깅 • 지식 노드 탐색 • 답변 생성 • 정보제시 • 추가정보 요구
지식 탐색 (1/2) • 지식탐색 • 입력 : 단문단위 논리형태 • 출력 : 단문의 의미속성 및 해당 지식노드(질병)명 • Prob(n,f|p) = Prob(f|p) * Prob(n|f,p) • Prob(f|p) : 의미속성 확률 • Prob(n|f,p) : 지식노드 확률 • p : 단문 “소화가 안돼서요” • f : 의미속성 SYMPTOM • n : 지식노드명 KB_식체
지식 탐색 (2/2) • 의미속성확률: Prob(의미속성|구절) • 구절이 어떠한 의미속성을 담고 있는가? • “소화가 안돼서요”가 증세일 확률 • 내부지식에 저장된 각 속성별 논리형식에 발현하는 사건,개체,특성 형태의 등장횟수 • P(f|p) = P(f|LF1…n) iP(f|LFi), s.t. LFi {사건/개체/특성} • 지식노드확률: Prob(지식노드|의미속성이 밝혀진 구절) • 구절이 어떠한 지식노드의 의미속성인가? • “소화가 안돼서요”가 증세일 때, 식체의 증세일 확률 • 질의의 논리형식과 부합하는 사건/개체/관계 형태수
지식탐색 실험 • 실험집합 • 사용된 지식베이스 : 계몽 사전에서 추출된 34개 질병 노드 • 평가집합 • KMDIC1 : 지식베이스 구축에 사용된 34개 질병의 정의문 • 총 110개 문장 (원인:44개, 증세:48개, 치료:18개) • KMDIC2 : 계몽사전 8개 질병의 정의문 • 총 21개 문장 (원인:7개, 증세:9개, 치료:5개) • 실험방법 • 구축된 지식베이스의 탐색 • 탐색된 지식노드의 후보 중 높은 확률값을 가진 노드만 선택
지식탐색 실험 결과 • 평가기준치 • 역순위 평균 (Mean Reciprocal Rank) • 의미속성 추정결과 • 지식노드 추정결과
구현된 지식 탐색 시연 시스템 • 지식베이스 • 계몽백과사전 • 34개 질병노드 • 지식의 구조 • 4개 의미속성 • 질병명/원인 • 증세/치료 • 논리구조형태 • 사건의 저장 • 질의응답 • 의도 추정 • 지식의 탐색 • 탐색된 지식 제시
1차년도 성과 • 인간 지식을 반영하는 문서로부터 지식의 추출 연구 • 문서 영역 설정 • 질병영역 질병백과사전 코퍼스 • 지식 습득 과정 모델 정립 • 문장단위 의미 분류 기술 개발 • 설정된 문서로부터 논리식 추출 과정 연구 • 통사구조, 의미구조, 형태론적 구조 파악 • 지식 저장 형태 연구 • 설정된 문서의 지식 저장 및 지식 표현 연구 • 지식의 수동/반자동 습득 • 질병영역 지식 구축 (134개 노드) • 지식 습득 시제품 개발 • 지식 습득을 통한 지식 구축 시제품 개발