210 likes | 568 Views
뇌신경정보학 연구사업. 중과제: 인간의 신경인지기전 모델에 기반한 추론 및 학습 기술 개발. 정보탐색팀. 장병탁 (서울대학교 컴퓨터공학부) 김청택 (서울대학교 심리학과) 오경환 (서강대학교 컴퓨터학과) 변영태 (홍익대학교 정보/컴퓨터공학부) 2002년 11월 15일 (金). 정보 추출. . . 정보 여과. 정보 분류. 고성능 정보검색 시스템. Web. 웹 마이닝. 컨텐츠 정보분석. 문서 인덱싱. 신경망 기반 정보 추출 및 분류 시스템.
E N D
뇌신경정보학 연구사업 중과제: 인간의 신경인지기전 모델에 기반한 추론 및 학습 기술 개발 정보탐색팀 장병탁 (서울대학교 컴퓨터공학부) 김청택 (서울대학교 심리학과) 오경환 (서강대학교 컴퓨터학과) 변영태 (홍익대학교 정보/컴퓨터공학부) 2002년 11월 15일 (金)
정보 추출 정보 여과 정보 분류 고성능 정보검색 시스템 Web 웹 마이닝 컨텐츠 정보분석 문서 인덱싱 신경망 기반 정보 추출 및 분류 시스템 제품 정보 DB 구축 대규모 텍스트 분석 주제어 추출 인간의 정보 분류/범주화 체계 모델의 자동 학습 . . … 텍스트 처리 인지 기제 PLSA NMF ICA 개인차 이용 시스템 정보분류체계의 행동,수리적 모형 Multiple-cause model 대용량 DB LSA, PCA, MDS Factor Analysis 은닉변수 기반 텍스트 마이닝 시스템 인지심리분석시스템 정보탐색기술 연구 체계도
2차년도 연구목표 • 은닉변수 신경망 학습 기반의 정보 검색 기술 개발 • 정보검색 신경망 모델의 자동학습 기법 연구 • 텍스트 문서의 자동 분석, 분류, 여과를 위한 기술 연구 개발 • 인간에게 적합한 시스템의 구축 방식과 구축시 제한점 해결 방안 연구 • 개인차를 이용하는 시스템의 구현 방법에 대한 연구 • 제안된 모형의 구현 가능성과 구현 방법에 관한 기법 연구 • 신경망 모델 기반의 웹 정보 마이닝 기술 개발 • 특정 영역의 웹 정보의 분석, 분류, 여과 방법 연구 • 사용자의 요구 혹은 성향에 맞게 분석된 웹 정보를 추출할 수 있는 기술에 관한 연구
특정영역 정보의 웹 문서 분류 및 정보 추출 시스템 구성 • 특정 영역 서비스 시스템의 성능 향상 • 양질의 많은 웹 문서의 보유 • term(텀) 위주 → 문서형태(HTML tag) 및 WordNet 계층정보 이용 • 지식베이스(KB)의 확장 • 한글 영역 데이터 • 패턴(tag + symbol)을 통한 정보추출 • 영역 전문 사이트 효율적 처리 • http://www.animalinfo.org • http://animaldiversity.ummz.umich.edu • http://www.nature21.com
웹 문서 분류 (1/2) • SVD(Singular Value Decomposition)를 통해 문서 간의 상관관계를 구함 • HTML tag, term, WordNet data의 문서 정보 matrix를 이용 • K-means 알고리즘을 수정한 Clustering 방법으로 문서를 분류
웹 문서 분류 (2/2) • 실험 • “Animal Info” site http://www.animalinfo.org • Site 구성 • www.animalinfo.org/ : 86개 • www.animalinfo.org/species/ : 210개 ← 전문문서 • www.animalinfo.org/country/ : 174개 • 성능 평가
웹 문서로부터의 정보 추출 “ … </font> </td> </tr> <tr> <td> <font> 수 명 </font> </td> <td> <font> 5 ~ 10년 </font> </td> </tr> <tr> <td> <font> 먹이 섭취량 </font> </td> <td> … ” <1> 토끼 <2> +--A:토끼의먹이 <3> 양질의펠렛, 건초(알팔파, 큰조아재비, 귀리), 물, 신선한야채로먹이를구성해야한다. 그밖에는간식으로주고그양을제한해서줘야한다. 토끼의평균먹이섭취량은체중의약 4%이다. 성숙한뉴질랜드화이트는…. <1> 토끼 <2> +--P:잎이많이붙어있다 <3> 잡초, 풀뿌리, 나무토막같은이물이적다. <1> 토끼 <2> +--A:수명 <3> 5 ~ 10년 … “… </font> </td> </tr> <tr> <td> <font> # </font> </td> <td> <font> 5 ~ 10# </font> </td> </tr> <tr> <td> <font> # </font> </td> <td> …” Preprocessing Ptn1: “<tr> <td> <font> # </font> </td>” Ptn2: “<tr> <td> <font> # </font> </td>” PatternSelect InfoExtract
latent semantic features bike ride motorcycle helmet bmw bikes road ama game baseball pitcher play games league catcher season team hockey season nhl game pittsburgh puck play car engine cars drive speed ford make mph … … z1 z2 z3 zm z: latent variable . . . . . w1 w2 w3 w4 w5 w6 wn document w: word …Peter Gammons is more knowledgable about baseball… actually had the gall to say that one out of every six pitchers in the NL … The Braves have two catchers who have demonstrated solid abilities to call games, to work with the pitchers, to throw out runners... 토픽기반 정보 분류 토픽기반 문서검색/분류 • 은닉변수모델에 기반한 텍스트 문서 분석 추출된 주제어 집합에 기반한 문서 검색/분류 • 문서 검색/분류에서 Basic VSM의 문제점 • IR에서 기본적인 BOW 접근법은 단어들간의 의미관계를 파악하지 못함. 유사어를 포함한 단어들간의 유사도 측정에서 문제점 발생. • 극단적인 경우, 문서간 공통 단어가 존재하지 않더라도 두 문서가 유사한 토픽일 수 있음. • 가능한 해결책 • 문서내 단어들의 유사어들을 포함하도록 문서 표현의 확장 • Thesaurus나 코퍼스에 기반한 단어간 유사도를 계산하거나, 토픽공간 상으로 문서 매핑
+ LVM BVSM … d2 d1 다중요인 모델 학습에 기반한 문서 유사도 측정 • 벡터공간상에서의 문서간 유사도 측정 • 다중 요인 모델 학습에 의한 문서 유사도 측정 SIM(d1, d2) = K1(d1, d2) + (1-)K2(t1, t2) VSM GVSM LSI WordNet-based
문서검색에의 적용 및 성능 평가 (1/2) • 4 standard dataset • MEDLINE: 1033 documents, 30 query • CACM: 3204 documents, 51 query • CISI: 1460 documents, 76 query • CRANFIELD: 1398 documents, 225 query
문서검색에의 적용 및 성능 평가 (2/2) • 11-point average precision • Statistical significance (p-value) : paired-t test
LSA와 축회전에 기반한 문서 분류 (1/2) • 텍스트 문서에서의 LSA 활용 • 단어들로 구성된 축 상에 텍스트 문서 표현. • 데이터 차원 감소. • Idea from Psychometrics • 요인분석(factor analysis)에서 데이터의 분석을 보다 더 용이하게 하기 위해서는 축의 회전이 필요. • 수학적 재해석 • LSA: Projection-Based • Ours: Feature – Attribute
LSA와 축회전에 기반한 문서 분류 (2/2) 기본 LSA • Hierarchical Cluster Analysis • Obesity surgery surging in popularity • Asia falls foul to fat • Obesity almost as bad as smoking • Misconceptions about weight problems • Obesity drugs alone won't do it • Ancient Apocalypse: The fall of the Egyptian Old Kingdom • From warrior women to female pharaohs: • A royal feud? • Mummy • Akhenaten and the Amarna period • First gene therapy experiment for Alzheimer's • The fall and rise of gene therapy • Gene therapy hope for cancer patients • Gene therapy hope for cancer patients • Gene therapy shows promise against cancer LSA 후 축 회전
LSA와 축회전에 기반한 키워드 추출 (1/2) • 파스칼 전자 백과사전에서 심리학, 경제학, 물리학, 언어학,진화론,컴퓨터,고고학,종교,해부학,바이러스의 Keywords로 검색하여 300개의 문서를 무선적으로 선택 • SVD 실행 후 oblique rotation을 사용함 • Agradient projection algorithm (Jennrich, 2001, 2002) • (a)Compute G=df/dT • (b)Replace T by þ(T-aG) and go to (a) or stop ( þ(X) =Xdg(X’X) )
Usage Mining 사용자 모델링 • User Modeling - 웹 추천 시스템 • 인터넷 정보 검색시 불필요한 작업을 최소화 하고 사용자에게 가장 필요한 정보 제공. • 사용자의 프로파일과 행동을 분석 • Dynamic Web Contents Recommendation System • 동적으로 사용자의 행위를 예측하여 최적의 웹 정보를 제공하는 웹 추천 시스템 • 적용되는 제안 알고리즘 • Support Vector Regression(SVR), Multiple Missing Value Imputation based on MCMC, SOM • KDD Cup 데이터를 통한 성능 평가 • 예측의 정확성 향상 • 예측을 위한 학습 시간의 단축 - 동적인 웹 정보의 추천을 가능케 함
SVR을 통한 웹 페이지 접속 시간 추정 • SVR 모델은 각 페이지에 대하여 구축되며, 해당 페이지를 제외한 나머지 페이지들에 대한 선호도를 축으로 하는 예측 모형으로 작성됨 • 그림에서 각 점은 사용자 한 명을 나타내며, 초평면에 있는 축들은 이미 사용자가 지나온 페이지 브라우징 시간, 세로축은 해당 페이지에 대한 브라우징 시간이다. 따라서 그림은 해당 페이지를 제외한 다른 페이지의 시간에 따라 해당 사용자의 해당 페이지에 관한 브라우징 시간을 예측 • Example 앞의 Web page data 구조에서 Id1의 page2에 대한 선호도 예측 모형은 다음과 같다. 선호도page2 = f(page1, page3,…,pageM) 이 모형을 통해 page2에 대한 선호도를 예측할 수 있다. Id1 사용자에 대해서 나머지가 선호도 가 없는 페이지(cell이 missing인 페이지)에 대한 선호도를 계산하여 가장 큰 값을 갖는 페이지를 Id1 사용자에게 추천하게 됨
Bayesian Learning for SOM • 본 연구에서 적용되는 변형된 Self Organizing feature Maps • Self Organizing feature Maps의 비 수렴성 문제를 확률적 분포를 이용하여 해결함 • Hybrid SOM: 신경망의 가중치 갱신이 Gaussian 확률 분포를 통하여 이루어짐 SOM의 입력 벡터가 정규화 되어 있고, 승자 노드의 결정에 유클리디안 거리를 사용하기 때문에 Gaussian 확률 분포 이론을 적용하였음
KDD Cup 2000 data에 대한 실험 • 웹 로그 데이터 • 인터넷 쇼핑몰 Gazelle.com 의 2개월 간의 클릭 스트림만을 모아 놓은1.2GB의 텍스트 데이터. • 예측 성능 • 앙상블Support Vector Regression을 이용한 웹 페이지 추천 결과가 기존에 사용되는 알고리즘에 비해 성능 향상을 보임 • MSE(mean squared error)는 실제값과 예측값의 차이를 평가하는 측도로서 작을수록 모형에 대한 예측의 정확성이 높아짐
연구 지속 방향 • 효과적 데이터 수집을 위한 Web Crawling 알고리즘 개발 • 텍스트 분석을 위한 은닉변수 모델의 핵심 엔진 통합 및 대용량 문서 데이터에 대한 검증 • TREC 데이터, 한글 백과 사전 • 효율적인 정보서비스 시스템을 위한 각 모듈의 적용 및 통합 • 사용자에 대한 효과적 정보 제공을 위한 usage mining 기술 연구 • 웹 검색을 위한 인지모델 개발 • 웹에서 사용자들의 검색 특성을 파악하고 어떤 종류의 모델이 검색의 효율성을 향상시킬 수 있는지 연구. • 은닉변수모델 및 잠재의미 분석에 기반한 웹 문서의 분석 및 분류