390 likes | 563 Views
KMS/Portal 에서의 효율적인 정보검색. 2003. 9. 19. Verity K2 Enterprise SearchMate dyano Enterprise SIGA win SEMIO Newsbang.com. 국내 지식검색시장 선두기업. The Leader of Knowledge & e-Business Infrastructure. 목 차 회사 소개 KMS/Portal 현황 정보검색 요구의 변화 효율적인 정보검색 방안 Q&A. 회사 소개 KMS/Portal 현황
E N D
KMS/Portal 에서의 효율적인 정보검색 2003. 9. 19 • Verity K2 Enterprise • SearchMate • dyano Enterprise • SIGA win • SEMIO • Newsbang.com 국내 지식검색시장 선두기업 The Leader of Knowledge & e-Business Infrastructure
목 차 회사 소개 KMS/Portal 현황 정보검색 요구의 변화 효율적인 정보검색 방안 Q&A
회사 소개 KMS/Portal 현황 정보검색 요구의 변화 효율적인 정보검색 방안 Q&A
1. 회사 소개 • 주식회사 쓰리소프트 (3Soft, Inc. ) / www.3soft.com 회사명/URL 설립/주소 • 1993년 11월 1일 / 서울특별시 영등포구 여의도동 45-11 신한빌딩 조직규모 • 이한복 대표이사 등 42명으로 구성 주요사업 • 정보검색 Solution 개발 (정보수집,정보분류,정보추출 등) 및 판매 • 정보검색 관련 어플리케이션 개발 주요연혁 • 1993 ㈜쓰리소프트 설립 • 1994 정보검색엔진 InfoMore 개발 • 1995 Verity사와 공급계약 체결/국회회의록 등 공공기관 시스템 구축 • 2001 KOSDAQ 등록 • 2001 온라인 정보 모니터링 시스템 dyano 개발 • 2001 (미)Semio사와 기술 및 판매협력 계약 • 2001 기업포탈, EC, 전자도서관 등 솔루션에 OEM 채택 (삼성SDS ACUBE, LG iKEP, ECO) • 2001 실시간 통합자동 검색, 클러스터링 엔진 SearchMate 개발완료 • 2001 매출 100억 달성 • 2002 서치메이트’ 대한민국 이머징 우수기술상 수상 • 2002 뉴스정보사이트 ‘뉴스방닷컴(www.newsbang.com)’개설
국내 정보검색, KMS(지식관리시스템), • e-Commerce 시장의 폭발적 성장 • 지능형 solution 및 KMS solution 공급 확대 • 지능형 Agent 등 차세대 제품 개발 본격화 인터넷 사업 질적 성장기 • 96년 : 부설 지능형 Agent 연구소 설립 • 미국 Sageware사 투자 • 97년 : 인터넷 기반 정보검색시스템 • InfoACE개발 • 98년 : 유망 중소정보통신기업 선정 • 에듀넷, KOTRA, 국방과학연구소 등 • 정보검색시스템 구축 인터넷 확산기 • 93년 : ㈜쓰리소프트 설립 • 94년 : 국산 정보검색엔진 InforMore 개발 • 미국 Verity사와 기술협력 계약 체결 • 95년 : Verity사와 공급계약 체결 • 국회회의록, 언론기관, 공공기관의 • 기술문서관리시스템 구축 국내 정보검색 시장 발아기 1999 ~ 1993 ~ 1995 1996 ~ 1998 (도약기) (설립기) (구축기) 1. 회사 소개 국내 정보검색 Solution 선도기업
1. 회사 소개 정보검색에서 지능형 지식관리 분야로 확장 정보검색 시장요구 정보수집 및 처리능력 검색엔진의 안정성 개인화 및 지식화 3Soft Solution 지능형 지식관리시스템 대용량 정보수집 검색시스템 • 한글처리기 • Information Server • Developer’s Kit • K2 Toolkit • Spider(정보수집) • K2 Enterprise • K2 Catalog • Dyaknow • SIGA(선택적 정보수집) • SearchMate(클러스터링) • Semio(Taxonomy저작도구) • 자연어처리 • 질의응답
1. 회사 소개 • 국내 400여개 이상 고객에게 검색엔진 및 정보검색 솔루션 납품
회사 소개 KMS/Portal 현황 정보검색 요구의 변화 효율적인 정보검색 방안 Q&A
2. KMS/Portal 현황 • 지식관리의 정의 “ 기업 내 정보,데이터 등의 형식으로 보관되어 있는 사람의 지식과 경험을 잘 조화 시키기 위한 일련의 프로세스로서 기업 내 지식자산에 대한 가치를 향상시키기 위한 목적을 갖는다.” • 국내에서는 90년대 후반 정부/공공기관을 중심으로 확산 - Cyber Korea 21 - 지식기반국가건설 - 신지식인 • 기본 방향 - 조직내 산재되어 있는 다양한 지식원천에 대한 체계적인 관리 - 조직내에서 발생하는 지식에 대한 축적 - 축적된 지식에 대한 원할한 활용(정보검색)
2. KMS/Portal 현황 초기 형태 발전 형태 주요 방향 • 지식의 축적 • 조직내에서 생산되는 지식의 축적 • 단순한 문서관리 형태의 저장 • 지식의 관리 • 다양한 형태로 생산되는 지식의 체계적인 관리 • 지식 공유 강화 • 조직내뿐만 아니라 외부 지식에 대한 수집 및 공유 • 지식에 대한 검색 강화 • 개인화 및 커뮤니티 확산 • 지식의 과다 보유에 따른 개인화 강화 형태 • Groupware • 이메일 등의 관련 문서 저장 • EDMS • 조직내에서 산출되는 문서의 저장 • PMS • 프로젝트 진행상황과 산출물의 저장 • 시스템 통합 • 산재되고 중복된 시스템의 통합 • 포탈시스템 • 단일접속창구를 통한 정보서비스 • 개인화서비스 • 업무별/직급별에 따른 맞춤형정보서비스 제공 구축 효과 • 지식관리의 중요성 인식 • 지식관리 효과 발생에 따른 인식 증대 • 지식의 공유 • 축적된 지식에 대한 공유 • 생산성 향상 및 비용절감 (중복투자 감소) • 지식프로세스의 확립 • 체계적인 지식프로세스 정립 • 조직내 지식의 신속한 전달 • 정보의 신속한 전달 및 지식의 공유 • 생산성 향상 및 비용절감 Contents Integration Application Integration Process Integration (EIP/EKP)
회사 소개 KMS/Portal 현황 정보검색 요구의 변화 효율적인 정보검색 방안 Q&A
3.정보검색 요구의 변화 • 정보환경의 변화 효율적인 정보검색 방안 모색 하루에 140 억 개 이상의 전자 메일이 교환 되고 있으며, 신규 700 만 페이지 이상이 웹에 생성되고 있음 정보의 과잉 정보 활용자가 자신에게 필요한 정보인지 아닌지를 분류하는데 평균 17 % 의 총 근무시간이 낭비되고 있음 생산성 저하 실제로 활용 가능한 정보 중에 실제로 정보 분석가가 활용하는 정보의 양은 평균 4% 미만으로 추정됨 정보의 낭비 앤더슨컨설팅: Information Overload
End Users Packaged services Packaged applications Customized services Application layer Knowledge Portal Interface Knowledge management service Collaboration Services Discovery Services Corporate taxonomy Knowledge Map Information and process management Knowledge Repository EDMS/Groupware Search Solution의 역할 증대 Email, file servers, Internet/Intranet services Infrastructure Information and Knowledge source GW DBMS (Apps) EDMS E-mail WWW People Internal external 3.정보검색 요구의 변화 Ovum Model
3.정보검색 요구의 변화 “기업포탈, 지식관리에 있어 가장 중요한 기능은 무엇인가?” 검색 59% 정보검색 부분 분류체계 47% 43% 개인화 31% 협동, 공유 Single sign-on 24% 워크플로우 8% 온라인 대화 8%
3.정보검색 요구의 변화 • 단순한 Keyword에 의존한 검색에는 한계가 있음 • 정보량의 증가에 따른 검색결과의 과다 • 필요한 정보 접근에 대한 적시성과 정확성 결여 • 정보 활용에 대한 효율성 증대 필요 • 다양한 정보 접근 방법 제공 • 사용자 중심의 편의성 제공에 따른 정보 활용의 효율성 증대
회사 소개 KMS/Portal 현황 정보검색 요구의 변화 효율적인 정보검색 방안 Q&A
4. 효율적인 정보검색 방안 • 기본적인 고려 사항 • 다양한 Platform 지원 • Unix, NT, Linux … • 다양한 Repository 지원 • Oracle, Informix, Sysbase, SQL Server, DB2, File System, Lotus Notes, MS Exchange … • 다양한 문서 형태에 대한 지원 • MS Office, HWP, 한글PDF, 훈민정음, 아리랑 … • 다양한 언어에 대한 지원 • 타 시스템과의 연동의 용이성 • 다양한 개발환경(C/C++, Java/JSP, ASP/COM)의 지원 • 고성능 및 확장의 용이성 • 대용량의 데이터 및 다수의 사용자에 대해 일정한 성능 유지 • 물리적인 분산처리 지원 • 시스템 확장에 따른 검색시스템의 확장이 용이 • 무 장애 시스템 • 기능 확장의 용이성 • 효율적인 정보검색시스템 구축을 위한 다양한 기능의 확장 용이성
자료수집 자동분류 정보추출 통합검색 자료예약 자동요약 지식환류 요구 수집 처리 분석 생산 배포 4. 효율적인 정보검색 방안 • 정보의 요구, 수집, 처리, 분석, 생산, 배포 및 환류에 대한 일관된 처리와 관리 • 정보 활용의 단일 창구 (Portal) • 정보 활동의 각 요소를 모두 통합적으로 지원
4. 효율적인 정보검색 방안(정보수집) • 다양한 형태의 내부 정보 수집 사용자 (Intranet / Extranet) Search Broker 검색서버 Search Server Search Server 색인 DB 색인 DB 색인 DB 색인 DB 색인 DB 색인 DB 색인 DB Oracle DB Gateway Notes DB Gateway SQL Server DB Gateway 검색 대상 시스템 ORACLE ORACLE Lotus Notes ORACLE ORACLE SQL Server SQL Server 6Sigma 그룹웨어 포탈시스템 KMS PMS EDMS 협업시스템
4. 효율적인 정보검색 방안(정보수집) • Web Robot을 이용한 외부 정보 수집 • 경쟁력 제고를 위해서는 내부정보 뿐만 아니라 관련된 외부 정보의 수집이 필수 • 효율적인 외부정보 수집을 위해 Web Robot을 기반으로 한 정보수집시스템 구축 기존의 외부정보 수집 새로운 정보수집 요구사항 Too Much Noise 최적의 자원활용 DB저장 DB저장 Indexing Indexing Search Search 필요한 정보의 선택적 수집
4. 효율적인 정보검색 방안(정보수집) • 정보수집 대상에 대한 효율적인 관리 • 정보수집 사이트 정보에 대한 관리(UI 기반) • 각 대상처별 성격에 따라 차등화된 정보 수집 주기 설정 및 수집 실행 • 인증사이트에 대한 수집 기능 • 다양한 첨부문서에 대한 수집 기능 • 중복문서에 대한 배제 Internet 사이트 조사 수집 대상 사이트 방문 컨텐츠 수집 Robot Agent 수집 대상 사이트 정보 사이트 등록 Agent 관리기 수집 시스템 관리자 수집대상 사이트 목록 • 노이즈 제거 • 정보 추출 수집 문서 Database
4. 효율적인 정보검색 방안(정보분류) 시대적 환경 변화에 따라서 과거와는 달리 우리가 접하는 정보의 양은 그 규모에 있어서 기하급수적으로 증가하고 있으며 그 중에서 필요한 정보를 얻기란 점점 더 어려워지고 있다. Merrill Lynch finds that users are complaining... 24,000 “정보가 그곳에 있는것은 안다, 하지만 찾을 수가 없다.” 7,500 2,500 1,000 500 100 2003 1999 2000 2001 1998 2002
4. 효율적인 정보검색 방안(정보분류) • 디지털 문서의 기계적인 양산으로 문서구조화 비용이 매우 크게 증가 • 2001년도 미국 내 대기업 각각의 문서구조화 비용은 $2million 예상 – Forrester research • Fortune 1000대 기업들은 이미 Text-mining에 $1.5 billion을 쏟아 부었고, 2001년까지 그 투자비는 $5 billion에 달할 것이다. – Gartner group • 기업에 필요한 중요한 정보들은 관리되지 않는 상태로 산재해있다. • 사람에 의한 분류작업은 많은 비용이 발생한다. • 수작업보다 우수한 자동분류는 불가능하다. • 지금까지의 기술로는 … 수동분류 자동분류 장점 -. 개념적인 의미 파악이 가능 -. 기업환경에 적절한 뷴류가 가능 -. 품질이 매우 우수 -. 매우 높은 일관성 -. 비용절감 효과가 크다 -. 상대적으로 적은수의 인력이 요구 -. 구축 기간이 짧다 단점 -. 분류하는데 오랜 시간이 걸린다 -. 우수 인력 확보가 어렵다 -. 비용이 많이 든다 -. 품질 및 일관성의 보장이 어렵다 -. 품질 향상을 위해 초기 대량의 기초 데이터 확보가 필수적이다
4. 효율적인 정보검색 방안(정보분류) • 정보분류 방식 • Clustering 방식 • 검색단계에서의 분류 • Categorization 방식 • 입력단계에서의 분류 • Clustering 방식 • 제목과 Summary 등으로부터 주요 keyword를 추출하여 실시간으로 분류체계(Taxonomy)를 생성 • 검색단계에서 분류 • 검색된 결과를 실시간 자동분류 • 검색어에 따라 상이한 결과 • 정형화된 업무에 적용시 혼란
4. 효율적인 정보검색 방안(정보분류) • Categorization방식 • 원문의 Index로 부터 주요 keyword를 추출하여 기 구성된 분류체계(Taxonomy)별로 분류법을 생성 • 입력단계에서 분류 • 정의된 분류체계에 의해 분류 • 검색결과에 따라 동일한 분류체계 • 정형화된 업무에 적합 정의된 분류체계
4. 효율적인 정보검색 방안(정보분류) • 정보 분류 단계 • 제1단계 : 분류체계 생성 • 지식맵, 카테고리, Ontology, 등 • 제2단계 : 분류기준 생성 • 문서번호별, 작성자별, 키워드별, 등 • 제3단계 : 자료 그룹화 • 보유문서 전체 또는 기초 데이터를 대상으로 유사한 문서들끼리 그룹화를 한다. • 제4단계 : 품질 조정 • 분류체계와 문서 그룹을 연동한다. • 이때, 분류명과 분류기준을 문서 그룹의 성격에 맞게 세부 조정한다. • 제5단계 : 분류 검증 • 분류체계 및 분류기준을 사용하여 분류할 대상 문서들에 대한 분류를 수행한다. 정보분류는 한번의 작업으로 끝나는 것이 아니고, 반복적인 순환 작업을 통해 분류의 정확도를 향상시키고, 변화하는 정보들에 대해 항상 새로운 분류체계 및 분류기준을 적용, 유지되도록 하여야 한다
분류체계 해당문서 작년에 이어 올해도 참가하여고속열차KTX 모형과 역사 모형 등을 전시하고, 고속철도의 필요성 등을 홍보하였다. 특히 첫날 12일(목)에는 이한동 국무총리, 오장섭건설교통부장관 등이… 4. 효율적인 정보검색 방안(정보분류) 문서입력 형태소 분석 비구조화된 데이터 색인 자동분류 사용자 확인? Yes No 문서 등록자 행정부or건설교통부&고속철도or고속열 첫날 12일(목)에는 이한동 국무총리, 오장섭건설교통부장관 등이고속철도.. B. 컨텐츠 Highlight • 분류기준 제시 분류 관리자 No Yes 분류만족? 문서분류 관리 (Taxonomy 수정) 디렉토리 직접선택 분류 결과 검토 불만족 만족 분류 완성
4. 효율적인 정보검색 방안(정보분류) • 주제어(Keyword) 기반의 자동 정보분류 • Mata Data 기반의 자동 정보분류 • 기 구축된 분류법(분류체계 + 분류기준)에 의해서 새로 등록되는 지식들을 적절한 분류에 자동 등록 • 상호참조(Cross reference)와 다중분류(Double Posting)지원으로 지식의 접근을 용이하도록 함
컨텐츠 구조화 unstructured information Taxonomy Corporate Portal Intranet Internet … DOC … … … … HTML … … … PDF … … … … 4. 효율적인 정보검색 방안(정보분류) • Taxonomy • 문서(정보)에 대한 분류법 및 분류들 간의 계층적 구조 • Taxonomy의 종류 • 정적 Taxonomy • 인간의 사고 체계에 따라 분류를 만들고 각 분류를 특징 짓는 어휘를 정의하여 수집된 자료에 대한 분류를 수행하도록 하는 것 • 동적 Taxonomy • 수집된 자료를 실시간으로 분석하여 그 자료들 중 대표성을 가지는 단어들을 추출하여 그것으로 분류를 만들고 그것에 의해 분류를 수행하도록 하는 것 • 비구조화된 대량의 문서들을 전산기호학(computational semiotics)과언어학을 이용한 컨텐츠 분석을 통해 자동분류의 기준이 되는 주제 계층 구조와 분류법을 생성하고 관리
4. 효율적인 정보검색 방안(정보분류) • 분류체계 관리 프로세스 개념 추출 Taxonomy 보완 • 게임 • 디아블로 • 스타크래프트 • 머드게임 • 전략시뮬레이션 • : 자동분류 a. 핵심개념 추출 분류체계 관리도구 b. 상관관계 분석 c.하위 카테고리 추천 컨텐츠 매니저 d. 카테고리 선정 (추가/수정) Uncategorized documents 수정 분류법 적용 분류체계 및 분류법 확장
4. 효율적인 정보검색 방안(정보추출) • 대용량 비정형 자료 (보고서, 뉴스, 웹 등) 에서 문장을 분석하여 해당 내용만을 추출함으로써, 특정 인물, 조직, 사건에 대한 동향 파악이 가능 • 전체 문서로부터 특정 인물, 기술, 회사 용어 등에 대한 정보를 자동 추출 • 자연어 처리 기술과 구문 분석, 의미 분석, 개체명 인식 기술을 사용 • 대상문서에서 질의어 관련 기술을 대표하는 핵심어 리포트 기능을 보유 개체명 추출 인명, 조직명, 기술명 등의 추출 비구조 데이터 언어 분석 형태소/구문/의미 분석 분석도구 사전 정보 추출 개체명 별 개요 추출 동일한 개체에 대하여 같은 의미 내용을 갖는 정보들 끼리의 병합 관련정보 병합 추출 정보 DB 추출 정보의 구조적 관리 보정 툴 추출 내용 보정
구문 분석 결과의 예 형태소 분석 결과의 예 문장 술부 주부 동사 명사 명사 사과 먹다 철수 4. 효율적인 정보검색 방안(정보추출) 형태소분석 vs 구문분석 형태소분석은 각 단어의 품사만을 탐지하나, 구문분석은 각 단어의 역할을 탐지한다. • 과학자들에게"에 대한 분석 예 1) "과학자들에게" 사전 검색 -> 실패 2) "과학자들에" 사전 검색 -> 실패 3) "과학자들" 사전 검색 -> 실패 4) "과학자" 사전 검색 -> 성공 5) "들에게" 사전 검색 -> 실패 6) "들에" 사전 검색 -> 실패 7) "들" 사전 검색 -> 성공 8) "에게" 사전 검색 -> 성공 9) 문법검사 성공 (명사 + 접미사 + 조사) • “철수가 사과를 먹었다” 라는 문장은 주어(Noun Phrase) 가 ‘철수’ 이고 나머지가 술부 (Verb Phrase) 로 분석된다.
4. 효율적인 정보검색 방안(정보추출) • 정보추출 과정 • 개체명 인식 • 전체 문서로부터 특정한 인명, 조직명, 장소, 시간, 수량 등을 인식 • 이벤트 유형 분석 • 다양한 이벤트 구조의 범주화를 통하여 사건의 세부 유형 분석 • 문장 유형에 따른 의미 분석으로 질의 대상이 능동적으로 행동한 양상과, 사건 등의 결과로 영향을 입은 상황 등을 선별하여 제공 • 범용 템플리트 제공 • 구문 분석에 의한 범용적인 템플리트 제공으로 정보 추출 과정 자동화 • 사용자 요구에 의한 도메인 중심 템플리트 별도 제공 • 정보 추출 • 형태소 분석, 구문 분석, 의미 분석, 개체명 인식, 이벤트 유형 분석 모듈을 통한 문서의 주요 정보 추출 • 정보 예측용으로 활용 • 추출 결과 분석에 따른 사건 추이 파악 및 예측 정보로 활용 가능
4. 효율적인 정보검색 방안(질의응답) • 사용자의 의도를 파악한 질의 분석 • 질의문 내 불용어를 제외한 질의 내용 재구성 • 형태소 및 구문 분석을 이용한 정밀한 키워드 단위 분석 • 개체명 인식과 언어 분석 기술에 기반한 응답문 제공 • 사용자의 질의문을 적절히 분석하고 대량의 문서를 검색하여 적절한 정답을 제공 • 개체명에 대한 단계별 분류 및 자동 인식 기능 • 개체명 인식에 대한 사용자 보정 기능 • 유사도 판단에 의한 정답 우선 순위 부여로 사용자 편의 제고 • 유사 질문 제공 • 부정확한 질의문 입력 시 유사 질문을 추천하여 보다 정확한 정답을 찾을 수 있도록 서비스
4. 효율적인 정보검색 방안(질의응답) • 질의응답 처리 과정 입력 창 질의어 입력 질의 유형 분석 질의 의도 분석 문서 검색 관련 문서 판별 비구조 데이터 인명, 장소, 시간, 수량 등 인식 개체명 인식 각종 사전 응답 추론 응답문 구성 출력 창 사용자
4. 효율적인 정보검색 방안(자동요약) • 신속한 정보 전달 • 문서의 크기를 줄이면서도, 중요한 내용은 그대로 보존하며 문서 요약 • 요약 크기 조절 • 요약 크기 조절 기능 (30 % 요약, 10% 요약 또는 4 문장 요약 등) • 선택적 요약 • 다양한 요약 방법을 제공하여 장르별 선택적 요약문을 생성 • 예) 신문 기사의 경우 첫 2 ~ 3 문장을 요약문으로 제시하지만, 전자 메일의 경우는 본문 분석을 통해 요약문을 생성함 명사 추출 어휘 군집화 비구조 데이터 문서 주제어 판별 의미 분석 모델 제목 질의 주제어 질의 문서 벡터 공간 요약
4. 효율적인 정보검색 방안 SSO / SSL / ACL 사용자 맞춤정보서비스 통합검색 정보/지식 활용 어플리케이션 • 정보수집 • 다양한 정보원 으로부터 정보 수집 • 수집대상 관리 • 수집 주기 관리 • 정보분류 • Meta Data, Keyword 기반의 정보분류 • 분류체계/분류기준 관리 • 실시간 분류 • 정보추출 • 인명/지명/조직명/사건명 추출 • 사건별 내용 정리 • 질의응답 • 사용자 질의 분석 • 정답추천 • 유사 질의문 추천 • 문서요약 • 대용량처리 • 장르별 특징 요약 • 요약 크기 조절 • 실시간 요약 정보검색엔진 문서 웨어하우징 정형/비정형 데이타
회사 소개 KMS/Portal 현황 정보검색 요구의 변화 효율적인 정보검색 방안 Q&A
감사합니다. ㈜쓰리소프트 파트너사업부 안 승 환 Ash@3soft.com