구조화 문서 검색 : XML 문서 검색 웹 문서의 효율적 검색

구조화 문서 검색 : XML 문서 검색웹 문서의 효율적 검색 부산대학교 공과대학 정보컴퓨터공학부 권혁철

문서 관리, 활용, 검색 • 생명주기 • 문서에서 개념을 자동으로(프로그램에 의해) 추출하여 활용할 수 있어야 한다. • 문서의 생명주기 동안 효과적으로 관리할 수 있어야 한다. • 문서의 관리에서 지식의 관리로 변해야 한다. • 문서 생명주기에 따라 적합한 검색이 가능해야 한다. • 다양한 응용 시스템과 쉽게 연동이 가능해야 한다.

정보의 온라인화, 웹화 • 일상화, 관리의 자동화, 표준화, 멀티미디어화, 하이퍼텍스트화, 개방화(openess), 지능적 처리 응용에 따른 적응성 확대

구조화한 문서에서 정보 검색 • 문서구조와 presentation을 구별하여 문서구조 중심으로 검색 • 장점 • 정보검색의 정확도가 향상된다. • 다양한 검색 방법을 사용할 수 있다. • 문서의 생명 주기를 고려한 검색이 가능하다. • 문서의 구조에 의한 검색이 가능하다. • 지능적 검색이 가능하다. • 문제점 • 표준화하지 않으면 장점을 살리기 어렵다. • 구조화 문서의 작성이 어렵다. • 태그선정이 어렵다. • 태그 선정이 어렵다. 더구나 응용영역 간에 태그에 대한 정의가 다를 때 이에 대한 번역이 필요하다. • 구조화 문서를 효과적으로 검색을 위한 검색기법이 요구되며, 검색 비용이 커진다. • 링크와 문서 구조를 총괄하는 검색 모형 필요하다.

구조화 문서에서 검색의 예 • 기존 검색 엔진과 차이 • 전화번호가 051-510-2218인 사람은 누구인가? • ? 전화번호 ↔ Tel ↔ 전화 ↔ … • 홍길동 아들이 다니는 학교는? • where <book> <publisher> <name>Morgan Kaufmann </> </> <title> $T </> <author> $A </> </> in “www.a.b.c/bib.xml” Where <$P> <title> $T </title> <year> 1995 </> <$E> Smith </> </> in “www.a.b.c/bib.xml”, $E in {author, editor} Construct <$P> <title> $T </title> $<E> Smith </> </> • 전자 상거래, EDI등 전문 검색

XML과 정보검색 • 인간과 기계가 읽을 수 있다. • 정보의 display보다 구조화, 정보의 전달과 활용에 중심을 둠 • 새로운 태그의 정의가 가능 • 구조가 무한히 Nested될 수 있음 • 형(Type)이 DTD에 의해 표현된다. <product> <name language=“French”>trompette six trous</name> <price currency=“Euro”> 420.12 </price> <address format=“XLB56” language=“French”> <street> 31 rue Croix-Bosset </street> <zip> 92310 </zip> <city> Sevres </city> <country>France</country> </address> </product> • RDF(Resource Description Famework) • 검색이 효율적으로 • 내용간의 관계의 기술 가능 • 에이전트 응용에 적합

HTML 4.01과 XML • Presentation ↔ Contents • HTML 문서를 Well formed XML 문서로 문법적으로 변환이 가능하다. • 궁극적으로 XML문서는 문서 구조와 태그를 어떻게 정의하느냐에 따라서 문서의 교환과 검색의 효율성에 차이가 있다.

Ontology • 사용자나 시스템의 문서에 대한 모형 • 문서 구조에 대한 모형 (전문 분야별) • 너무 일반화하면 HTML처럼 된다. • 태그의 명칭 • ‘Sponsor’, ‘후원자’, ‘스폰서’, ‘광고주’ • 문서에 포함해야 할 정보 • 응용 시스템과 연계 • 응용 분야 간에 태그가 다르거나, 태그에 대한 해석이 다를 때

XML에 정의 된 검색관련 Tag • <dc:Language> </dc:Language> • RFC1766 ⇒ 2자 ~ 8자 언어이름 • 2자 ⇐ RFC1766 (ISO 639-1) : KR, US • 3 ~ 8자 : IANA에 등록 후 사용 • 3자 (ISO 639-2) : KOR • ‘en-US’ (미국식 영어) • ‘enm’ : 중세 영어 (1000 ~ 1500년) • ‘en-scouse’ ⇐ 리버풀 방언 • Content-Language : kw-confied, kw-kornmyn, kw-nowedya (켈트어의 3가지 철자법) • 한글 코드 (기본 : Unicode) • 사투리, 고어 • 남한, 북한의 철자법

XML과 정보의 무결성 검증, 추론 • XML에 있는 태그, self-describing 기능과 Type을 이용하여 정보의 무결성 검증이 어느 정도 가능하다. • Horn clause logic 따위를 이용(Prolog) • Family(가족)에서 아버지는 둘일 수 없다. • 아버지의 아버지는 할아버지다.

XML에 의한 문서 표준화와 전문 검색 시스템 • 전자책 : OEB 1.0 • 전자 도서관 • 가상 데이터베이스 • 국가 문서 표준 • 전자 상거래 • EDI • 전자결제 • P2P

해결 해야 할 점 • 태그의 선정과 표준화 • Link • URL을 통하여 interdocument structure 표현 • 시소러스 또는 응용영역, 또는 다른 언어 간의 태그 번역 • 자연언어처리의 필요성 • Semi-structured data에서 검색 기법 • 개방된 XML문서의 검색방법 • 색인어와 구조화 관계의 표현과 저장 및 검색 • 표준화가 되지 않은 문서는 더욱 심각

구조화 문서 검색 : XML 문서 검색 웹 문서의 효율적 검색