110 likes | 445 Views
TREC 참가 사례 발표. 장병탁 ( 신동호 , 김유환 , 김선 , 엄재홍 , 서영우 ) 서울대학교 컴퓨터공학부 인공지능연구실 / 자연언어처리연구실 http://scai.snu.ac.kr/. TREC. TREC: Text Retrieval Conference 주관 : NIST (National Institute of Standards and Technology) 목적 대용량의 텍스트 문서에 기반한 정보 검색에 대한 연구를 활성화
E N D
TREC 참가 사례 발표 장병탁 (신동호, 김유환, 김선, 엄재홍, 서영우) 서울대학교 컴퓨터공학부 인공지능연구실/자연언어처리연구실 http://scai.snu.ac.kr/
TREC • TREC: Text Retrieval Conference • 주관: NIST (National Institute of Standards and Technology) • 목적 • 대용량의 텍스트 문서에 기반한 정보 검색에 대한 연구를 활성화 • 실제적인 문제를 다룸으로써 연구 결과를 상업적 제품에 빠르게 이전할 수 있도록 함 • 평가 방법 (evaluation measure)를 제공함으로서 연구 결과간의 비교가 용이 • 홈페이지: http://trec.nist.gov/
The 7 Tracks in TREC-9 • Filtering Track (Adaptive Filtering, Batch Filtering, Routing) • Web Track (Small Web Track, Large Web Track) • Question Answering Track • Spoken Documents Retrieval Track • Query Track • Interactive Track • Cross-Language Track
TREC의 데이터 • TREC Collection • 문서 집합 (Documents) • 질문 집합 (Topics) • 적합도 평가 (Relevance judgments) • 일부 문서에 대해서만 Relevance judgments가 되어 있다. • 참가자가 보내온 결과를 분석하는 과정에서 새로운 Relevance judgments를 발견할 수 있고, 이는 다음 TREC에 사용된다. TREC-2 TREC-3 TREC-1
Topic의 예 <num> Number: 396 <title> sick building syndrome <desc> Description: Identify documents that discuss sick building syndrome or building-related illnesses. <narr> Narrative: A relevant document would contain any data that refers to the sick building or building-related illnesses, including illnesses caused by asbestos, air conditioning, pollution controls. Work-related illnesses not caused by the building, such as carpal tunnel syndrome, are not relevant.
Document의 예 <DOC> <DOCNO>FT911-3</DOCNO> <PROFILE>AN-BEOA7AAIFT</PROFILE> <DATE>910514 </DATE> <HEADLINE> FT 14 MAY 91 / International Company News: Contigas plans DM900m east German project </HEADLINE> <BYLINE> By DAVID GOODHART </BYLINE> <DATELINE> BONN </DATELINE> <TEXT> CONTIGAS, the German gas group 81 per cent owned by the utility Bayernwerk, said yesterday that it intends to invest DM900m (Dollars 522m) in the next four years to build a new gas distribution system in the east German state of Thuringia. : : : </TEXT> </DOC>
참가 및 평가 절차 2. NIST는 받은 결과를 모아서 Pool을 만든다 3. NIST에서는 Pool의 각 문서에 대해서 Relevance judgments를 한다. (이 과정에서 새로운 Relevance judgments가 발견될 수도 있다.) 1. 참가자들은 추출한 결과 (run)를 NIST에 보내준다. 351 Run1 400 352 351 352 Run2 400 352 … 351 4. NIST는 relevance judgments를 이용하여 System을 평가한다. Run3 400 400 352 351
TREC Pooling • 참가자들이 보내온 모든 결과의 크기에 제한이 없는 경우, 결과의 평가를 사람들(Assessor)이 해야 하므로, 정확한 성능 측정을 하기가 어렵다. • Pooling Techniques • Harman (TREC-4) and Zobel (SIGIR-98) • 방법 • 각 run의 각 토픽에서 상위 N개를 추출한 다음 모아서 각 토픽별로 하나의 풀을 생성한다. • 풀에 없는 문서는 non-relevant로 가정 • 효과 • Pooling을 통해서 추가적인 relevant documents를 찾을 수 있다. • 찾은 relevant documents를 통해서 보다 정확한 시스템의 성능 평가를 할 수 있다. • 모든 참가자들에게 비교적 공평
TREC-9 일정 • 2000년 2월 8일 • 새로운 참가자들을 위해서 문서가 들어있는 디스크 (CD 5장) 배포 • 2000년 8월 2일 – 8월 30일 • 실험 결과를 NIST에 보냄 • 결과 마감일은 Track에 따라 다를 수 있음 • 2000년 10월 5일 • 평가 결과를 참가자들에게 알려줌 • 2000년 10월 말경(날짜 미정) • 논문 제출 마감 • 2000년 11월 13-16일 • NIST (Gaithersburg, MD)에서 TREC-9 Conference 개최
SCAI 트렉 참가 사례 • TREC-7 (1998년) • Ad-hoc Track • Filtering Track • TREC-8 (1999년) • Filtering Track • Question Answering Track • Web Track • TREC-9 (2000년) • Filtering Track • Question Answering Track • Web Track • Spoken Documents Retrieval Track