270 likes | 488 Views
Chap. 11 Probabilistic Information Retrieval. Review of basic probability theory(1/2). 어떤 사건이 일어날 확률은 0 ≤ p(A) ≤ 1 이다 . 두 개의 사건 A 와 B 의 joint event 가 일어날 확률은 p(A, B) 로 표현한다 . Chain rule 사건 A 가 일어나지 않고 B 는 일어날 확률 Partition rule. Review of basic probability theory(2/2). Bayes ’ rule
E N D
Review of basic probability theory(1/2) 어떤 사건이 일어날 확률은 0≤p(A) ≤1이다. 두 개의 사건 A와 B의 joint event가 일어날 확률은 p(A, B)로 표현한다. Chain rule 사건 A가 일어나지 않고 B는 일어날 확률 Partition rule
Review of basic probability theory(2/2) • Bayes’ rule • 사건 A의 발생확률에 대한 초기 추정치가 중요 • Prior probability(A) • Posterior probability(A|B) • 사건 B 발생을 확인한 후,A가 발생할 확률 • 사건의 우도(odds)
The probability ranking principle(1/2) • The 1/0 loss case • Notation • Rd,q: d가 query q에 대해서 적합한지(relevant) 나타내는 변수 • 확률평가 원리(probability ranking principle, PRP)의기반 • 사용자가 필요로 하는 정보에 대해 해당 문서가 적합한지를 P(R=1|d,q)로 표현 • 1/0 loss: 적합하거나 그렇지 않거나로 판단(retrieving cost는 없다고 가정) • Top k documents: 최상의 결과를 보이는 상위 k개의 문서를 점수의 내림차순으로 정렬 • Bayes optimal decision rule
The probability ranking principle(2/2) • Theorem 11.1 PRP는 예측되는 손실(Bayes위험이라고도 불림)을 1/0 loss 이하로 줄인다는 점에서 최적(optimal)이다. • 실제 세계에서는 반드시 타당하다고 말하기는 어렵지만 IR 모형을 개발하는 데에 있어서 유용하다. • The probability ranking principle with retrieval costs • C1: 적합한 문서 검색 소요비용, C0: 적합하지않은 문서 검색 소요비용 • 전체 문서 d’중에서 아직 검색해 오지 않은 문서 d가 다음 조건을 충족할 때 다음 순번에 d 검색
The binary independence model • Binary independence model(BIM) • Notation • 문서 vector • Term t가 문서 내에 존재하면 xt=1, 그렇지 않으면xt=0 • “independence” : 문서 안의 각 term들이 다른 term의 존재여부에 영향을 주지 않는다. • 적합성에 대한 독립성 가정 • 어떤 문서의 적합성은 다른 문서의 적합성과 무관하다(실제로는 비현실적) • BIM하에서의 적합/비적합 확률 • 정확한 수치는 알 수 없으나, 추정 가능(prior probabilities) : 쿼리에 적합한 문서를 찾을 확률 : 쿼리에 부적합한 문서를 찾을 확률
The binary independence model • Deriving a ranking function for query terms • 적합성의 Odds는 적합성의 확률과 같은 방향으로 증감하므로(monotonic), 계산의편의를 위해 odds를 사용 • Naïve Bayes conditional independence assumption • 특정문서 안에 단어의 존재는 다른 단어의 존재와 독립적 그러므로
The binary independence model • xt의 값이 0 또는 1일 뿐이므로(binary) 다음과같이 분리 • pt와 ut • 모형을단순화하는 또 다른 가정 • Query에 존재하지 않는 term들의 경우 적합한문서에 그 단어가 존재할 확률과 적합하지 않은 문서에 존재할 확률이 같다고 가정(qt=0이면 pt=ut)
The binary independence model • 단순화하는 가정에 따르면, qt=0인 경우는 결과에 차이를 주지 않으므로, • 다르게표현해 가장 오른쪽 PI를 xt가 0일 때와 1일 때 모두의 곱으로 바꾸면, • 계산해야 할 값 Constant!! 결과에 영향을 미치지 않음
The binary independence model • retrieval status value(RSV) • 다음과같이 표기하기로 하면, • 문제는,term t가적합한 문서에 존재할 확률(pt)에 대한 odds, 문서가 적합하지 않다면 term t가부적합한 문서에 존재할 확률(ut)의 odds로 축소됨 • RSVd는 다음과 같이 표기 가능
The binary independence model • Probability estimates in theory • 앞의식들을 달리 표현하면(여기에서 ct는 가중치) • 단순한 smoothing을 적용해 ½을 모두 더하면
The binary independence model • 확률을상대적 빈도로 추정해 계산하는 것은 일종의 maximum likelihood estimate이다. • 이런pseudocounts는 다음 식에 나타난 것과 같은 Bayesian prior로서 어휘의 분포를 활용하는 것과 부합한다. • Probability estimates in practice • 컬렉션 내에서 적합한 문서는 극소수일 것이라는 가정을 가지면, ut는 dff/N이다. 그러므로 아래의 식이 성립한다.
The binary independence model • Pt의 추정방법 • 알려진 적합문서에서 어휘의 발생빈도를 활용 • Croft와 Harper(1979)는 combination match model 적용 • 모든 어휘에 대해 pt는 상수, pt=0.5라고 가정 • Greiff(1998)는 term t의 발생을 collection 수준에서 추정하면 보다 좋은 추정치를 확보할 수 있다고 주장
The binary independent model • Probabilistic approach to relevance feedback • (pseudo) relevance feedback 활용(iterative) • 초기확률값pt와 ut를 상상. 초기에는 pt가 1/2라고가정. • 적합문서집합 R={d: Rd,q = 1}에대해 최선의 추정값을 얻기 위해 현재의 pt와 ut값 활용 • R 모형을 보완하기 위해 사용자와 상호작용. User relevant judgment(V) 사용. V는두 하위집합으로 구성. • VR과 VNR을이용해 pt와 ut재추정 • VR이나 VNR의 문서 개수가 충분히 크다면 , 문서들로부터 maximum likelihood estimate를 통한 직접 추정 가능
The binary independence model • VR과 VNR의 크기가 작을 경우 • 통계적으로 신뢰하기어려움(noisy) • 새로운정보를 기존의 guess와 결합하는 것이 유용할 때 있음 • k: estimate 일련번호(횟수). K: 다음 iteration에 대한 Bayesian weighting, 특별한 조건이 없는 한 5 정도의값이 적당(앞 iteration의 결과를 이번 iteration에 반영하되, 강한 가중치를 주어, 이번 iteration의 small case들이 미치는 영향을 줄임) • Step 2에서부터 반복
The binary independence model • pseudo relevance feedback을활용하는 또 다른 직접적인 방법 • VR=V라고 가정 • pt와 ut의 초기값은 위와 같이 가정 • 적합문서집합(relevance document set)의 크기에 대한 추정치 결정(작게 잡아 최상위에 rank된 몇 개의 문서만 사용하는 보수적인 방법이 적합) • pt와 ut에 대한 추정치 개선 • Ranking과 결과값이 수렴할 때까지 2단계에서부터 계속 반복
The binary independence model • pt를 정한 후 가중치 ct를 정한다. • 하지만, pt/(1-pt)를 갖고 계산하는 것은 용어 t가등장하는 문서중에서 적합문서의 비율이라 발생빈도와 전적으로 일치하지는 않는다.
An appraisal and some extensions • An appraisal of probabilistic models • 확률론적 정보검색 모형에 대한 적절한 확률 근사치를 얻기 위해 필요한 가정들 • A Boolean representation of documents/queries/relevance • Term independence • Terms not in the query don’t affect the outcome • Document relevance values are independend • BM 25 weighting scheme는 등장 이후널리 받아들여짐
An appraisal and some extensions • Tree-structured dependencies between terms • Term 들이 independent 하다는 가정을 제거 • 각 term은 단 하나의 다른 term에 의존 가능 • 1970년대 처음 제안됐을 때에는 estimation 문제가 있었으나, 1990년대 Friedman과 Goldszmidt가 tree-augmented Naïve Bayes model을제시한 후 재조명됨
An appraisal and some extensions • Okapi BM25: A nonbinary model • Binary independence model은원래 짧은 카탈로그 기록이나 길이가 일정한 초록들을 대상으로 만들어졌다. • 대안적인 모형은 어휘발생빈도(term frequency), 문서 길이(document length)에 관심을 가져야 한다. • BM 25 weighting scheme(Okapi weighting이라고 불림) • 문서 길이와 어휘 발생빈도를 반영하는 확률 모형
An appraisal and some extensions • 추론 과정 • Idf만을 고려한 가장 단순한 문서 구조 • Relevance feedback이 없는 상태에서는 S=s=0으로 간주(ut≈ dft/N) • 이 수식에서 , dft> (0.5 * 문서 전체 개수)이면RSVd< 0. • 저자들은 stopword list 등을 사용하면, 문제가 되는 상황이 발생하지 않는다고 말함
An appraisal and some extensions • 문서 길이와 tf를 고려하여 변형 • tftd:문서 d 내의 어휘 t의 빈도 • Ld: 문서 길이, Lavg: 문서평균 길이 • k1: 양의 tuning parameter(binary일 때 0) • b: document length에 의한 normalization의 정도를 조절하는 tuning parameter(0≤ b≤1)
An appraisal and some extensions • Query가 길 때, Query에 대한 normalization 적용 • tftq: query에 어휘 t의 발생빈도 • K3: tftq scaling에 간여하는 tuning parameter • 기존의많은 실험 결과 다음의 parameter setting이 reasonable한 것으로 간주됨 • k1과 k3는 1.2~2 사이 값 • b는 0.75
An appraisal and some extensions • relevance judgment에 대한 정보를 갖고 있다면
An appraisal and some extensions • Bayesian network approach to information retrieval • Turtle and Croft(1989, 1991) • 문서들간의의존성을 더 잘 모형화하기 위한 복잡한 네트웤 구성 • 두 개의 parts • Document collection network • Large, & precomputed • Maps from documents to terms to concepts • Query network • Small, but new network to be built each term • Maps from query terms to query subexpressions, to user’s information need • InQuery: University of Massachusetts에서 만든 text retrieval system