1 / 26

Chap. 11 Probabilistic Information Retrieval

Chap. 11 Probabilistic Information Retrieval. Review of basic probability theory(1/2). 어떤 사건이 일어날 확률은 0 ≤ p(A) ≤ 1 이다 . 두 개의 사건 A 와 B 의 joint event 가 일어날 확률은 p(A, B) 로 표현한다 . Chain rule 사건 A 가 일어나지 않고 B 는 일어날 확률 Partition rule. Review of basic probability theory(2/2). Bayes ’ rule

mahon
Download Presentation

Chap. 11 Probabilistic Information Retrieval

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Chap. 11 Probabilistic Information Retrieval

  2. Review of basic probability theory(1/2) 어떤 사건이 일어날 확률은 0≤p(A) ≤1이다. 두 개의 사건 A와 B의 joint event가 일어날 확률은 p(A, B)로 표현한다. Chain rule 사건 A가 일어나지 않고 B는 일어날 확률 Partition rule

  3. Review of basic probability theory(2/2) • Bayes’ rule • 사건 A의 발생확률에 대한 초기 추정치가 중요 • Prior probability(A) • Posterior probability(A|B) • 사건 B 발생을 확인한 후,A가 발생할 확률 • 사건의 우도(odds)

  4. The probability ranking principle(1/2) • The 1/0 loss case • Notation • Rd,q: d가 query q에 대해서 적합한지(relevant) 나타내는 변수 • 확률평가 원리(probability ranking principle, PRP)의기반 • 사용자가 필요로 하는 정보에 대해 해당 문서가 적합한지를 P(R=1|d,q)로 표현 • 1/0 loss: 적합하거나 그렇지 않거나로 판단(retrieving cost는 없다고 가정) • Top k documents: 최상의 결과를 보이는 상위 k개의 문서를 점수의 내림차순으로 정렬 • Bayes optimal decision rule

  5. The probability ranking principle(2/2) • Theorem 11.1 PRP는 예측되는 손실(Bayes위험이라고도 불림)을 1/0 loss 이하로 줄인다는 점에서 최적(optimal)이다. • 실제 세계에서는 반드시 타당하다고 말하기는 어렵지만 IR 모형을 개발하는 데에 있어서 유용하다. • The probability ranking principle with retrieval costs • C1: 적합한 문서 검색 소요비용, C0: 적합하지않은 문서 검색 소요비용 • 전체 문서 d’중에서 아직 검색해 오지 않은 문서 d가 다음 조건을 충족할 때 다음 순번에 d 검색

  6. The binary independence model • Binary independence model(BIM) • Notation • 문서 vector • Term t가 문서 내에 존재하면 xt=1, 그렇지 않으면xt=0 • “independence” : 문서 안의 각 term들이 다른 term의 존재여부에 영향을 주지 않는다. • 적합성에 대한 독립성 가정 • 어떤 문서의 적합성은 다른 문서의 적합성과 무관하다(실제로는 비현실적) • BIM하에서의 적합/비적합 확률 • 정확한 수치는 알 수 없으나, 추정 가능(prior probabilities) : 쿼리에 적합한 문서를 찾을 확률 : 쿼리에 부적합한 문서를 찾을 확률

  7. The binary independence model • Deriving a ranking function for query terms • 적합성의 Odds는 적합성의 확률과 같은 방향으로 증감하므로(monotonic), 계산의편의를 위해 odds를 사용 • Naïve Bayes conditional independence assumption • 특정문서 안에 단어의 존재는 다른 단어의 존재와 독립적 그러므로

  8. The binary independence model • xt의 값이 0 또는 1일 뿐이므로(binary) 다음과같이 분리 • pt와 ut • 모형을단순화하는 또 다른 가정 • Query에 존재하지 않는 term들의 경우 적합한문서에 그 단어가 존재할 확률과 적합하지 않은 문서에 존재할 확률이 같다고 가정(qt=0이면 pt=ut)

  9. The binary independence model • 단순화하는 가정에 따르면, qt=0인 경우는 결과에 차이를 주지 않으므로, • 다르게표현해 가장 오른쪽 PI를 xt가 0일 때와 1일 때 모두의 곱으로 바꾸면, • 계산해야 할 값 Constant!! 결과에 영향을 미치지 않음

  10. The binary independence model • retrieval status value(RSV) • 다음과같이 표기하기로 하면, • 문제는,term t가적합한 문서에 존재할 확률(pt)에 대한 odds, 문서가 적합하지 않다면 term t가부적합한 문서에 존재할 확률(ut)의 odds로 축소됨 • RSVd는 다음과 같이 표기 가능

  11. The binary independence model • Probability estimates in theory • 앞의식들을 달리 표현하면(여기에서 ct는 가중치) • 단순한 smoothing을 적용해 ½을 모두 더하면

  12. The binary independence model • 확률을상대적 빈도로 추정해 계산하는 것은 일종의 maximum likelihood estimate이다. • 이런pseudocounts는 다음 식에 나타난 것과 같은 Bayesian prior로서 어휘의 분포를 활용하는 것과 부합한다. • Probability estimates in practice • 컬렉션 내에서 적합한 문서는 극소수일 것이라는 가정을 가지면, ut는 dff/N이다. 그러므로 아래의 식이 성립한다.

  13. The binary independence model • Pt의 추정방법 • 알려진 적합문서에서 어휘의 발생빈도를 활용 • Croft와 Harper(1979)는 combination match model 적용 • 모든 어휘에 대해 pt는 상수, pt=0.5라고 가정 • Greiff(1998)는 term t의 발생을 collection 수준에서 추정하면 보다 좋은 추정치를 확보할 수 있다고 주장

  14. The binary independent model • Probabilistic approach to relevance feedback • (pseudo) relevance feedback 활용(iterative) • 초기확률값pt와 ut를 상상. 초기에는 pt가 1/2라고가정. • 적합문서집합 R={d: Rd,q = 1}에대해 최선의 추정값을 얻기 위해 현재의 pt와 ut값 활용 • R 모형을 보완하기 위해 사용자와 상호작용. User relevant judgment(V) 사용. V는두 하위집합으로 구성. • VR과 VNR을이용해 pt와 ut재추정 • VR이나 VNR의 문서 개수가 충분히 크다면 , 문서들로부터 maximum likelihood estimate를 통한 직접 추정 가능

  15. The binary independence model • VR과 VNR의 크기가 작을 경우 • 통계적으로 신뢰하기어려움(noisy) • 새로운정보를 기존의 guess와 결합하는 것이 유용할 때 있음 • k: estimate 일련번호(횟수). K: 다음 iteration에 대한 Bayesian weighting, 특별한 조건이 없는 한 5 정도의값이 적당(앞 iteration의 결과를 이번 iteration에 반영하되, 강한 가중치를 주어, 이번 iteration의 small case들이 미치는 영향을 줄임) • Step 2에서부터 반복

  16. The binary independence model • pseudo relevance feedback을활용하는 또 다른 직접적인 방법 • VR=V라고 가정 • pt와 ut의 초기값은 위와 같이 가정 • 적합문서집합(relevance document set)의 크기에 대한 추정치 결정(작게 잡아 최상위에 rank된 몇 개의 문서만 사용하는 보수적인 방법이 적합) • pt와 ut에 대한 추정치 개선 • Ranking과 결과값이 수렴할 때까지 2단계에서부터 계속 반복

  17. The binary independence model • pt를 정한 후 가중치 ct를 정한다. • 하지만, pt/(1-pt)를 갖고 계산하는 것은 용어 t가등장하는 문서중에서 적합문서의 비율이라 발생빈도와 전적으로 일치하지는 않는다.

  18. An appraisal and some extensions • An appraisal of probabilistic models • 확률론적 정보검색 모형에 대한 적절한 확률 근사치를 얻기 위해 필요한 가정들 • A Boolean representation of documents/queries/relevance • Term independence • Terms not in the query don’t affect the outcome • Document relevance values are independend • BM 25 weighting scheme는 등장 이후널리 받아들여짐

  19. An appraisal and some extensions • Tree-structured dependencies between terms • Term 들이 independent 하다는 가정을 제거 • 각 term은 단 하나의 다른 term에 의존 가능 • 1970년대 처음 제안됐을 때에는 estimation 문제가 있었으나, 1990년대 Friedman과 Goldszmidt가 tree-augmented Naïve Bayes model을제시한 후 재조명됨

  20. An appraisal and some extensions • Okapi BM25: A nonbinary model • Binary independence model은원래 짧은 카탈로그 기록이나 길이가 일정한 초록들을 대상으로 만들어졌다. • 대안적인 모형은 어휘발생빈도(term frequency), 문서 길이(document length)에 관심을 가져야 한다. • BM 25 weighting scheme(Okapi weighting이라고 불림) • 문서 길이와 어휘 발생빈도를 반영하는 확률 모형

  21. An appraisal and some extensions • 추론 과정 • Idf만을 고려한 가장 단순한 문서 구조 • Relevance feedback이 없는 상태에서는 S=s=0으로 간주(ut≈ dft/N) • 이 수식에서 , dft> (0.5 * 문서 전체 개수)이면RSVd< 0. • 저자들은 stopword list 등을 사용하면, 문제가 되는 상황이 발생하지 않는다고 말함

  22. An appraisal and some extensions • 문서 길이와 tf를 고려하여 변형 • tftd:문서 d 내의 어휘 t의 빈도 • Ld: 문서 길이, Lavg: 문서평균 길이 • k1: 양의 tuning parameter(binary일 때 0) • b: document length에 의한 normalization의 정도를 조절하는 tuning parameter(0≤ b≤1)

  23. An appraisal and some extensions • Query가 길 때, Query에 대한 normalization 적용 • tftq: query에 어휘 t의 발생빈도 • K3: tftq scaling에 간여하는 tuning parameter • 기존의많은 실험 결과 다음의 parameter setting이 reasonable한 것으로 간주됨 • k1과 k3는 1.2~2 사이 값 • b는 0.75

  24. An appraisal and some extensions • relevance judgment에 대한 정보를 갖고 있다면

  25. An appraisal and some extensions • Bayesian network approach to information retrieval • Turtle and Croft(1989, 1991) • 문서들간의의존성을 더 잘 모형화하기 위한 복잡한 네트웤 구성 • 두 개의 parts • Document collection network • Large, & precomputed • Maps from documents to terms to concepts • Query network • Small, but new network to be built each term • Maps from query terms to query subexpressions, to user’s information need • InQuery: University of Massachusetts에서 만든 text retrieval system

  26. An appraisal and some extensions

More Related