230 likes | 3.31k Views
IIR 輪講復習 #11 Probabilistic information retrieval. お知らせ. たつをさんによる補足情報 http://chalow.net/clsearch.cgi?cat=IIR 復習資料おきば http://bloghackers.net/~naoya/iir/ppt/. 参考. http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html 本資料は書籍の輪読会に向けたサマリ 本資料内で一部上記ドキュメント , スライドからの引用あり. 11 章のテーマ.
E N D
お知らせ • たつをさんによる補足情報 • http://chalow.net/clsearch.cgi?cat=IIR • 復習資料おきば • http://bloghackers.net/~naoya/iir/ppt/
参考 • http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html • 本資料は書籍の輪読会に向けたサマリ • 本資料内で一部上記ドキュメント, スライドからの引用あり
11章のテーマ • 確率モデルの基礎 • 情報検索に確率的な概念を持ち込んだモデル • "ある文書がある検索質問に対して適合するかどうかは確率的に決定される" (Maron & Kuhns, 1960)
検索モデルの整理 • ブーリアンモデル (1章) • ベクトル空間モデル (6, 7章) • 確率モデル (11章) • ファジィ集合モデル • 拡張ブーリアンモデル (1章で補足程度) • ネットワークモデル (11章で補足程度) • クラスタモデル (16章, 17章) • ...
ブーリアンモデル • 検索質問を論理式で表現し検索 • Perl AND Ruby • 検索質問中で用いた索引語がそのままの形で文章に出現することを要求 • 文書中に索引語が含まれるかどうかだけを問題にする。頻度は無視 • スコアリングなし
ベクトル空間モデル • クエリ、文書を索引語の重みベクトルで表現、ベクトル間の類似度で文書の適合度を計算するモデル • 類似度 ... Cosine Similarity など • 索引語の重みには tf-idf などを利用 • 適合度により文書の順序づけが可能 • Relevance feedback (9章)が可能 • ブーリアンモデルの論理演算の利点は失われる
確率モデル ・・・ 本章のテーマ • ある文書が検索質問に対して適合するかどうかは確率的に決定される • 索引語、適合文書、非適合文書等々の出現確率を何らかの方法によって表現する • 理論的基礎がしっかりしており、値の意味が正確 • idf なども理論的な意味付けを明確にして利用することができる
PRP - Probability ranking principle • Rd,q • 与えられたクエリ q に対して文書 d が適合するかどうかを表す確率変数 (0 or 1) • P(R=1|d, q)により順位づける • 情報要求に対する適合性の推定確率 • PRP • 「与えられたデータを使って正確に推定された適合確率がユーザーにとっての最高の検索結果になるという原理」(数原さん)
確率的基準を用いた検索モデル • P(R|d, q)をどのように定義するか、またどのような仮定を用いるか • Robertson, Sparck Joens のモデル • Fuhr の RPI モデル • Kwok の CT モデル • BIM (Binary Independence model) • OKapi BM25
BIM - Binary Independence Model • クエリ、文書を、単語出現ベクトル(成分が 0 or 1)で表現する • 単語間に独立性 • クエリに現れない単語が結果に影響しない • 文書間における適合の独立性 これら(大きな)仮定が数式の操作に寄与する
BIM と異なる仮定のモデル ・・・ BM25 • Okapi BM25 • BIM の仮定は単語頻度や文章長を考慮しない • 単語頻度、文章長を考慮し重み付けに利用 → 精度の改善 単語頻度、文章長を加味することで数式を改善
何がしたいのか → 確率論による検索モデルの組み立て • P(R|d, q) → • ベイズ定理で以下のように変形 • この数式から出発、仮定を使って変形 • スコアリングの基準となる確率値の推測方法を得る • 索引語の重み付け (IDF etc) などに理論的な正当性を与える
オッズで扱い分母を消去 • 欲しいのは順位 (not 絶対値) • オッズは適合確率に対して単調 与えられたクエリに対して定数。ランクするだけなら推定の必要なし
単語の独立性 → 乗法定理でベクトルを展開 • BIM の仮定が効いてくる 定数
成分が 0/1 なのを利用して項を分割 • 更にBIMの仮定が効いてくる
更に式を変形.. クエリに出現しない単語は適合、不適合文書において同じくらい出現と仮定 qt = 0 のときpt = ut 定数 与えられたクエリに対して定数 ここだけ考える
すべては RSVd の計算に落ち着く オッズ比の対数 文書群、クエリが与えられた際に ct (すなわちpt)を推定する方法を考える
Pt の推定方法 (ごめんなさい、理解が曖昧です...) • 事象が起こった回数を全体の試行回数で割る ... 相対頻度、最尤推定 (MLE) • MLE をスムージング → 最大事後確率 (MAP) 推定 (?) • Relevance feedback による繰り返しの確率推定 • 初期値推定 → RF で学習 • 機械学習 • Vector Space Model よりも理論的な正当性が高い
An appraisal and some extensions • 確率的モデル • 1970 ~ • 1990 から再注目、現在もホットトピック • BIM の性能 • 仮定が厳しいためか良い性能を発揮するのが困難 • ベクトル空間モデルと確率モデルの比較 • モデルの違いはそれほど大きくない • コサイン類似度, tf-idf ではなく確率理論による少しだけ違う式を使う
伝統的確率モデルの拡張手法 • Tree-structured dpendencies between terms • 単語の依存関係を導入 → 木構造 • 後の TAN (tree-augumented Naive Bayes) である • Okapi BM25 • BIM に単語頻度、文書長を加味 • ベイジアンネットワーク • 有向グラフにより変数間の確率的な依存関係を表現
参考文献 • 徳永健伸1999『情報検索と言語処理』 東京大学出版会