80 likes | 198 Views
신입생 교육 Java Project: Personalized Document Classifier on Shared Repository. IDS+IDB 08’ 신입생 교육 Java Project IDS 팀 연종흠 , 남광현 , 박성찬 2008. 01. 15. 상황. 신입생 교육 조교로부터 전달받은 요구사항이 ‘ 재미없다 ’ 는 선배들의 조언을 받아들여 , 연구실 내부 문서 관리 시스템이라는 기본 조건 위에 새로운 아이디어를 덧붙여 보기로 함. 기본 아이디어.
E N D
신입생 교육 Java Project:Personalized Document Classifieron Shared Repository IDS+IDB 08’ 신입생 교육 Java Project IDS팀 연종흠, 남광현, 박성찬 2008. 01. 15
상황 • 신입생 교육 조교로부터 전달받은 요구사항이 ‘재미없다’는 선배들의 조언을 받아들여, 연구실 내부 문서 관리 시스템이라는 기본 조건 위에 새로운 아이디어를 덧붙여 보기로 함
기본 아이디어 • 각자가 자기만의 분류 체계를 갖고 있다면 좋지 않을까? • 이를테면, 사용자 a가 문서 A를 자기 분류 체계 Ca상의 분류 Ca-1, Ca-2로 정의하여 갖고 있으며 또한 공개하고 있다면, • 시스템은 자동으로 이 문서 A를 사용자 b에게는 Cb상의 분류 Cb-1로 분류하여 보여주고, 사용자 c에게는 Cc상의 분류 Cc-1, Cc-2, Cc-3 으로분류하여 보여준다. • 즉, 누가 어떻게 올린 자료든 유저가 정한 분류 체계로 자동으로 분류된다는 것.
수학적 정의 • Users : U = {U1, U2, … , Un} • Documents : D = {d1, d2, … , dm} • User Concepts : UCi = {Ci1, Ci2, … , Cil} • 유저 한 명당 하나의 Concept Set을 갖고 있음 • Cij 는 D의 부분집합 • Subsumption : Cij ≤ Cik • 같은 User Concpets집합에 포함된 경우에 계층 관계 정의 가능 • Mapping between User Concepts • Mij : P(Ci) → P(Cj)
어떻게 하지? • Ontology Mapping Algorithm 응용 • 혹은 고안? • Heuristic 고안 • Machine Learning 응용 • …
그런데 이거 어려울 것 같아! 왜? • Ontology Mapping은 성숙한 분야가 아님 • 자동 Mapping의 성능은 만족스럽지 못함 • 각 사용자가 각 사용자마다의 Mapping을 필요로 하므로, 최소 O(N*N)의 공간 복잡도 • 너무 높음!
그래도 어떻게든 되지 않을까? • 문제가 Ontology Mapping에 비해 간단! • Relation, Constraints 등이 없는 그냥 taxonomy • 개인이 사용하는 taxonomy의 크기도 크지 않을 것임 • 대상이 ‘연구실 내’이므로, 유저 집합의 크기가 크지 않을 것임! • n(U) ≤ 30
그 밖의 이슈 • 이거 의미가 있는 건가? • 구현이 기존 ‘재미없는’ 스펙에 비해 크게 복잡해질 텐데? • 방학 중에 어느 정도의 완성도를 갖출 수 있을까?