1 / 11

TREC 참가 사례 발표

TREC 참가 사례 발표. 장병탁 ( 신동호 , 김유환 , 김선 , 엄재홍 , 서영우 ) 서울대학교 컴퓨터공학부 인공지능연구실 / 자연언어처리연구실 http://scai.snu.ac.kr/. TREC. TREC: Text Retrieval Conference 주관 : NIST (National Institute of Standards and Technology) 목적 대용량의 텍스트 문서에 기반한 정보 검색에 대한 연구를 활성화

jemima
Download Presentation

TREC 참가 사례 발표

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TREC 참가 사례 발표 장병탁 (신동호, 김유환, 김선, 엄재홍, 서영우) 서울대학교 컴퓨터공학부 인공지능연구실/자연언어처리연구실 http://scai.snu.ac.kr/

  2. TREC • TREC: Text Retrieval Conference • 주관: NIST (National Institute of Standards and Technology) • 목적 • 대용량의 텍스트 문서에 기반한 정보 검색에 대한 연구를 활성화 • 실제적인 문제를 다룸으로써 연구 결과를 상업적 제품에 빠르게 이전할 수 있도록 함 • 평가 방법 (evaluation measure)를 제공함으로서 연구 결과간의 비교가 용이 • 홈페이지: http://trec.nist.gov/

  3. TREC의 역사

  4. The 7 Tracks in TREC-9 • Filtering Track (Adaptive Filtering, Batch Filtering, Routing) • Web Track (Small Web Track, Large Web Track) • Question Answering Track • Spoken Documents Retrieval Track • Query Track • Interactive Track • Cross-Language Track

  5. TREC의 데이터 • TREC Collection • 문서 집합 (Documents) • 질문 집합 (Topics) • 적합도 평가 (Relevance judgments) • 일부 문서에 대해서만 Relevance judgments가 되어 있다. • 참가자가 보내온 결과를 분석하는 과정에서 새로운 Relevance judgments를 발견할 수 있고, 이는 다음 TREC에 사용된다. TREC-2 TREC-3 TREC-1

  6. Topic의 예 <num> Number: 396 <title> sick building syndrome <desc> Description: Identify documents that discuss sick building syndrome or building-related illnesses. <narr> Narrative: A relevant document would contain any data that refers to the sick building or building-related illnesses, including illnesses caused by asbestos, air conditioning, pollution controls. Work-related illnesses not caused by the building, such as carpal tunnel syndrome, are not relevant.

  7. Document의 예 <DOC> <DOCNO>FT911-3</DOCNO> <PROFILE>AN-BEOA7AAIFT</PROFILE> <DATE>910514 </DATE> <HEADLINE> FT 14 MAY 91 / International Company News: Contigas plans DM900m east German project </HEADLINE> <BYLINE> By DAVID GOODHART </BYLINE> <DATELINE> BONN </DATELINE> <TEXT> CONTIGAS, the German gas group 81 per cent owned by the utility Bayernwerk, said yesterday that it intends to invest DM900m (Dollars 522m) in the next four years to build a new gas distribution system in the east German state of Thuringia. : : : </TEXT> </DOC>

  8. 참가 및 평가 절차 2. NIST는 받은 결과를 모아서 Pool을 만든다 3. NIST에서는 Pool의 각 문서에 대해서 Relevance judgments를 한다. (이 과정에서 새로운 Relevance judgments가 발견될 수도 있다.) 1. 참가자들은 추출한 결과 (run)를 NIST에 보내준다. 351 Run1 400 352 351 352 Run2 400 352 … 351 4. NIST는 relevance judgments를 이용하여 System을 평가한다. Run3 400 400 352 351

  9. TREC Pooling • 참가자들이 보내온 모든 결과의 크기에 제한이 없는 경우, 결과의 평가를 사람들(Assessor)이 해야 하므로, 정확한 성능 측정을 하기가 어렵다. • Pooling Techniques • Harman (TREC-4) and Zobel (SIGIR-98) • 방법 • 각 run의 각 토픽에서 상위 N개를 추출한 다음 모아서 각 토픽별로 하나의 풀을 생성한다. • 풀에 없는 문서는 non-relevant로 가정 • 효과 • Pooling을 통해서 추가적인 relevant documents를 찾을 수 있다. • 찾은 relevant documents를 통해서 보다 정확한 시스템의 성능 평가를 할 수 있다. • 모든 참가자들에게 비교적 공평

  10. TREC-9 일정 • 2000년 2월 8일 • 새로운 참가자들을 위해서 문서가 들어있는 디스크 (CD 5장) 배포 • 2000년 8월 2일 – 8월 30일 • 실험 결과를 NIST에 보냄 • 결과 마감일은 Track에 따라 다를 수 있음 • 2000년 10월 5일 • 평가 결과를 참가자들에게 알려줌 • 2000년 10월 말경(날짜 미정) • 논문 제출 마감 • 2000년 11월 13-16일 • NIST (Gaithersburg, MD)에서 TREC-9 Conference 개최

  11. SCAI 트렉 참가 사례 • TREC-7 (1998년) • Ad-hoc Track • Filtering Track • TREC-8 (1999년) • Filtering Track • Question Answering Track • Web Track • TREC-9 (2000년) • Filtering Track • Question Answering Track • Web Track • Spoken Documents Retrieval Track

More Related