200 likes | 431 Views
A Survey of Multilingual Text Retrieval. Douglas W. Oard, Bonnie J. Dorr 한 경 수 1999. 2. 22. Contents. Introduction Text Retrieval System Model Approaches to Multilingual Text Retrieval Text Translation Multilingual Thesauri Corpus-Based Techniques Other research projects
E N D
A Survey of Multilingual Text Retrieval Douglas W. Oard, Bonnie J. Dorr 한 경 수 1999. 2. 22.
Contents • Introduction • Text Retrieval System Model • Approaches to Multilingual Text Retrieval • Text Translation • Multilingual Thesauri • Corpus-Based Techniques • Other research projects • Some Observations on the State of the Art • Conclusion A Survey of MLTR[Oard96]
Introduction • Multilingual Text Retrieval(MLTR) • 질의와 문서에 사용된 언어에 구애 받지 않는 검색 • MLTR의 필요성 • 문서집합이 여러 언어의 문서들로 구성 • 한 문서에 여러 언어가 등장 • technical documents, literary criticism, academic works … • 사용자가 문서집합의 언어에 능통하지 못한 경우 • MLTR과 MT의 통합( Figure 1) • MLTR의 검색 결과에 대한 번역 사용자의 적합성 판단에 도움 • Survey Scope • 질의어의 언어와 다른 언어로 쓰여진 문서에 대한 검색(CLTR) A Survey of MLTR[Oard96]
Text Retrieval System Model • Text Retrieval Model의 고려사항 • 질의와 문서의 상이한 특성 • “질의는 짧고 문서는 길다!” • Paraphrase problem • 문서와 사용자 질의에 사용된 어휘의 불일치 문제 • MLTR = special case of paraphrase problem • 질의와 문서를 호환 가능한 통합 표현으로 변환하는 표현 함수를 각각 설계( Figure 2) • 2 Text Retrieval System • exact match • ranked retrieval • ranked Boolean retrieval system • probabilistic retrieval system • similarity-based retrieval system(vector space model) A Survey of MLTR[Oard96]
Approaches to MLTR Text Translation Controlled Vocabulary System MLTR Thesaurus-based Concept Retrieval Encoding Semantic Information Automatic Thesaurus Construction Corpus-based Term Vector Translation Latent Semantic Indexing A Survey of MLTR[Oard96]
Text Translation Approaches to MLTR(1/13) • 방법 • 질의나 문서 중 하나를 MT시스템을 이용해 번역 • 질의 번역 • 짧은 질의로 인해 MT시스템의 성능 효과가 제한적 • 문서 번역 • 긴 문서에서 충분한 문맥 정보(context information)를 습득 • 번역 오류에 견고 • 방대한 양의 문서로 인해 MT시스템의 efficiency가 관건 • 문제점 • MT시스템의 작업이 성능향상에 영향 미치지 못할 수 있다. • 단어 순서, 기능어 첨가 … • MT시스템의 작업이 검색 성능을 저하시킬 수 있다. • 단일 대역어의 선택 A Survey of MLTR[Oard96]
Multilingual Thesauri 개요(1/2) Approaches to MLTR(2/13) • 용어 정의 • 시소러스(thesaurus) • 응용 프로그램에서 사용할 수 있도록 단어들을 조직화하여 영역 지식을 인코드하는 툴 • 동의어(synonymy), 계층적 개념 관계, 연관 관계(associative relation) • multilingual thesaurus • 하나 이상 언어의 단어를 조직화하는 시소러스 • bilingual dictionary, subject thesaurus, concept list, term list, lexicon …( Table 2) • 시소러스 기반 방법의 특징 • 사용자가 상당한 양의 영역 지식을 이용 가능 • 시소러스 생성, 관리, 이용에 많은 비용 필요 • 사용자가 사용 가능한 어휘와 검색시스템의 적용 영역에 제한적 • 사용하기가 어렵다. • 단어의 실제 사용 통계를 지속적으로 반영하기 어렵다. • 코퍼스 기반 방법 등장 A Survey of MLTR[Oard96]
Multilingual Thesauri 개요(2/2) Approaches to MLTR(3/13) • 시소러스 이용 방식 • 통제 어휘 시스템(controlled vocabulary system) • 각 개념을 미리 정해 놓은 하나의 어휘로 표현 • 질의도 같은 어휘를 이용하여 사용자가 수동으로 작성 • 통제 어휘 색인에 많은 비용 필요 • 개념 검색(concept retrieval) • free text로 시소러스의 개념 관계를 자동으로 이용 • 개념 치환(concept substitution) • 질의 확장(query expansion) • 구문 및 의미 정보의 추가 • 다의어(polysemy) 효과 완화 정확률 향상 • scope note, 품사 태깅(part-of-speech tagging) A Survey of MLTR[Oard96]
Early Work Multilingual Thesauri(1/4) • 1969 Salton • 수동 번역한 bilingual concept list 이용(English/German) • 수동 질의 번역, SMART 시스템 이용 • “MLTR 시스템이 단일언어 검색 시스템만큼 효과적인 성능이 가능” • 1969 Pevzner • PNP-2 이용(Russian/English) • 완전 일치 통제 어휘 검색 시스템 • 매우 큰 Russian/English 시소러스 이용 • 103개의 Russian 질의에 대해 실험 • “각 언어의 문서 선택에 있어서 통계적으로 거의 차이가 없다” A Survey of MLTR[Oard96]
6 Lines of Researchon Multilingual Thesauri Multilingual Thesauri(2/4) • Design Standard • 1971 UNESCO: multilingual thesaurus 표준 제안 • 1978 ISO 5964로 표준 승인(1985년 개정) • 1984 EUROVOC 시소러스: 현재 EC의 9개 언어 포함 • Development & Maintenance Tool • 시소러스의 3가지 생성 기법 • 처음부터 새로 작성하는 방법(build it from scratch) • 이미 존재하는 시소러스를 번역하는 방법 • monolingual thesaurus들을 합병하는 방법 • Special Purpose H/W • ISSP(Japanese-English thesaurus) • New Language Pairs & Domains • User Interface • 기존의 질의 인터페이스의 표현력을 초보 사용자들이 이용하기 어렵다. 메뉴 기반의 비쥬얼 인터페이스 등장 • User Need Assessment A Survey of MLTR[Oard96]
Concept Retrieval Multilingual Thesauri(3/4) • 방법 • multilingual thesaurus를 사용한 질의 확장(query expansion) 기법을 적용 • 검색 성능에 대한 역 효과를 최소화 시키면서도, 교차 언어 환경에서 단어 사용의 다양성을 고려 • 비제약 질의 확장(Unconstrained Query Expansion) • [Davis & Dunning 95] English-Spanish • 간단한 bilingual term list를 이용해서 English 질의에 사용된 각 단어에 대해 모든 대역어들을 사용해서 Spanish 질의를 생성 • 결과: 0.04 (단일언어: 0.21) • “비제약 질의 확장은 MLTR에 유용하지 않다” • 구 색인(Phrase Indexing) • [Hull & Grefenstette 96] French-English • bilingual term list, 비제약 질의 확장 • 결과: 0.27 0.36 (단일언어: 0.39) • “구 색인 기법을 적용하면 MLTR의 성능이 단일 언어의 경우와 비슷” A Survey of MLTR[Oard96]
Encoding Semantic Information Multilingual Thesauri(4/4) • EMIR Project • SPIRIT 이용(French-English) • 시소러스에 의미 정보(semantic information)를 인코딩 • 품사 정보(part of speech) • 대역어 수 감소 • 단어(word), 구(phrase), 복합명사(compound) • 복합명사 형태로 인코딩된 의미 정보가 개념 관계 대신 사용된다. • 복합명사는 의미관계에 기반해서 단어를 연결 구보다 효과적 • 성능 평가(French-English) • SYSTRAN + SPIRIT: 0.21 • ESPIRIT: 0.27 • 단일언어: 0.34 • [Rassinoux 94] • conceptual graph • [Kitano 88] • case frame A Survey of MLTR[Oard96]
Corpus-Based Techniques 개요 Approaches to MLTR(8/13) • 특징 • 단어 사용에 대한 관측된 통계에 기반하므로, 현재의 단어 사용 정보를 반영 • 통계적 검색 시스템과의 통합에 적절 • 유사한 문서는 유사한 단어를 사용한다. • 저빈도어가 고빈도어보다 문서 구분 능력이 더 뛰어나다. • 표현: TF*IDF 가중치 • 유사도 비교 • 벡터 공간 기법: SMART • 확률 검색 기법: INQUERY • Parallel Corpus vs. Comparable Corpus • parallel corpus • 동일한 문서나 문장 혹은 단어를 번역해 놓은 코퍼스 • 각 번역 단위로 정렬 • Document-aligned, Sentence-aligned, Term-aligned • comparable corpus • 동일한 내용을 기술한 문서 쌍을 모아 놓은 코퍼스 A Survey of MLTR[Oard96]
Automatic Thesaurus Construction Corpus-Based Techniques(1/4) • 코퍼스 기반 방법 vs. 자동 시소러스 구축 • 자동 시소러스 구축 기법 • 관측된 단어 사용의 통계로부터 단어간의 관계 정보를 습득 • 코퍼스 기반 방법을 자동 시소러스 구축 기법으로 볼 수 있다. • 방법 • 빈도 정보 이용 • [van der Eijk 93] Dutch-English • 문장 단위 병렬 코퍼스, 명사구 이용 • target 언어의 TF*IDF 값을 기준으로 대역어 후보로 선정 • 문장 쌍에서 출현하는 상대적 위치가 크게 상이한 것은 제외 • 단일 대역어 선정: 60%, 대역어 후보 리스트: 95% • 기계 학습 방법(machine learning approach) • [Lin & Chen 96] Chinese-English • Chinese-English concept list 생성/이용 • 단어의 공기 정보에 기반한 Hopfield neural network 이용하여 단어의 군집 생성 • “시소러스의 관련 용어 정보처럼 단어 공기 정보 이용 가능” A Survey of MLTR[Oard96]
Term Vector Translation(1/2) Corpus-Based Techniques(2/4) • 단어 벡터 변환(Term Vector Translation)의 정의 • 한 언어의 단어 가중치들을 다른 언어로 매핑하는 기법 • 방법 • 적합성 피드백(relevance feedback) 이용 • [Fluhr 95] French/English • French 질의에 대한 검색 결과 상위의 French 문서와 그에 대응하는 English 문서를 각각 질의에 추가하여 검색 • evolutionary programming 기법 이용 • [Davis & Dunning 95] English/Spanish, 문장 단위 병렬 코퍼스 • English 질의에 유사한 English 문장에 대응되는 Spanish 문장에서 common Spanish term들을 선택 • evolutionary programming 기법을 이용하여 단어들을 삭제해 나간다.(0.004 0.02) A Survey of MLTR[Oard96]
Term Vector Translation(2/2) Corpus-Based Techniques(3/4) • Linear operator를 사용한 직접 변환 • [Davis & Dunning 96] English/Spanish, 문장 단위 병렬 코퍼스 • 동일한 문장에 대해 각 언어의 단어 공기 빈도를 표시하는 2차원 행렬을 각각 구성 • 벡터 방정식을 풀어서 English 행렬을 Spanish 행렬로 변환하는 linear operator를 구한다. • 이 operator를 이용하여 질의 벡터를 변환(0.01) • bilingual lexicon 이용 • [Oard 94], 단어 단위 병렬 코퍼스 • bilingual term list에 각 단어의 대역어 후보에 대한 확률 값들이 부여되어 있다. • 이 정보를 이용하여 질의 벡터를 변환 • bilingual lexicon 생성이 어려운 작업이다. A Survey of MLTR[Oard96]
Latent Semantic Indexing Corpus-Based Techniques(4/4) • 기본 개념 • 행렬 분해(matrix decomposition)를 이용하여 문서 집합에 의해 정의되는 벡터 공간의 principal component를 찾는다. • Principal component로 span되는 차원이 축소된 공간으로 벡터들을 투영한다. • [Landauer & Littman 91] • French/English • English 질의에 대해 상위에 위치한 French 벡터가 English paragraph과 대응하는 French paragraph에서 유도된 경우가 92% A Survey of MLTR[Oard96]
Other research Projects Approaches to MLTR(13/13) • CRISTAL Project • Conceptual Retrieval of Information using Semantic dicTionAry in three Languages • Cap Gemini Innovation • French, English, Italian 질의를 사용하여 French 문서 집합을 검색 할 수 있도록 디자인 • French Dicologique thesaurus 이용 • CINDOR • Syracuse Univ. & Textwise Inc. • multilingual thesaurus를 이용한 concept retrieval • INQUERY A Survey of MLTR[Oard96]
Some Observationson the State of the Art • Present State of MLTR • 통제 어휘 기법은 매우 잘 발달 • 자동 시소러스 구축(코퍼스 기반 방법)은 아직 미숙 • 효과적인 자동 시소러스 구축이 안되면, 개념 검색(concept retrieval)의 영역 제한 문제가 심각해진다. • 시소러스 기반 방법과 코퍼스 기반 방법의 통합이 활발한 연구 분야 • 코퍼스 기반 방법의 성능 평가의 어려움 • 학습 코퍼스와 평가 코퍼스의 영역이 서로 상이 • 다의어(Polysemy) 문제 • MLTR 환경에서 영역이 커짐에 따라 급속도로 문제가 된다. • 해결책 • 구문 및 의미 정보 이용(phrase formation) • 단어 의미 중의성 해결(word sense disambiguation) 기법 적용 A Survey of MLTR[Oard96]
Conclusion • 결론 • Text Translation • Thesaurus-Based Approaches • controlled vocabulary system • concept retrieval • Corpus-Based Approaches • automatic thesaurus construction • term vector translation • 향후 연구 쟁점 • 규모가 큰 scored multilingual corpus의 부족 문제 해결 • MLTR의 성능에 있어서 다의어의 역효과를 완화 시키는 방법 A Survey of MLTR[Oard96]