240 likes | 365 Views
WWW2009 MADRID! Query Categorization. 於 WWW 論文読み会( webkai ) 東京大学 岡崎直観(辻井研究室). 今回の発表資料. 以下の URL に置 いてあります http://www.chokkan.org/www2009/. 自動的に構築した概念グラフを 利用した教師無しクエリ分類. E. Diemert , G. Vandelle . (Yahoo! Search Innovation)
E N D
WWW2009 MADRID!Query Categorization 於 WWW論文読み会(webkai) 東京大学 岡崎直観(辻井研究室)
今回の発表資料 • 以下のURLに置いてあります • http://www.chokkan.org/www2009/
自動的に構築した概念グラフを利用した教師無しクエリ分類自動的に構築した概念グラフを利用した教師無しクエリ分類 E. Diemert, G. Vandelle. (Yahoo! Search Innovation) Unsupervised query categorization using automatically-built concept graphs, WWW2009, pp. 461-470.
背景・目標・成果 • クエリからカテゴリを推定したい • 「音楽に関連するクエリに対して,アーティストのニュースやビデオなどを提示したい」 • 本研究の目標 • 教師無しの手法で高性能なクエリ分類システムを作る • Webくらいの大規模なコーパスにスケールさせる • Webの構造化されていないデータで分類システムを作る • 研究の成果 • 提案手法でも教師有りの分類システムと肩を並べる • 提案手法で構築した概念グラフが,クエリログやWeb文書の知識の代わりとなり得ることを発見した
概念グラフの作り方 tで検索した検索結果上位N件にt’が含まれる割合 • ノード = 概念 • 本研究では,名詞句とする(※NPチャンキングなどはやらないが) • エッジ: • ノードt, t’間のエッジは必ず一方向(強い方だけ) • 無向非循環グラフ • サイクルが出来てしまうときは,サイクル中の再弱のエッジを切る
カテゴリを概念グラフに取り込む • カテゴリを表すノードを概念グラフ内に取り込む • 各カテゴリには10個以内のキーワードが付与されている • カテゴリ名で検索して得られたスニペットに含まれる語をキーワードとする • 例: Helth: {diet, fitness, longevity, disease, symptoms, tretments} • あるカテゴリのキーワードから0.5以上の関連度を持つ概念ノード(2次以上も)をdescriptorノード群とする • そのカテゴリのノードを概念グラフ内に作成し,descriptorノード群から関連度1.0としてエッジを張る
クエリに対してカテゴリの重み付けスコアを得るクエリに対してカテゴリの重み付けスコアを得る • クエリqが与えられたとき,そのクエリが属するカテゴリの重み付きスコアを求める • クエリから概念のスコア付けを行う • 概念のノードからスコアを伝搬させる(4次まで) • 最終的にカテゴリノード受け取ったスコアが,クエリのカテゴリ所属スコアになる
評価 SVM(RFBカーネル) • Yahoo! Search USのクエリログのうち,3151クエリを9カテゴリ(音楽,旅行,映画,・・・)に手作業で分類 • KDD Cup 2005データ • MSN Searchの800のクエリに67カテゴリを手作業で付与
Wikipediaを用いたユーザーのクエリ意図の理解 J. Hu, G. Wang, F. Lochovsky, J.-T. Sun, Z. Chen. (MSRA & HKU) Understanding user’s query intent with Wikipedia, WWW2009, pp. 471-480
目標・成果 • 目標 • 入力クエリの意図クラスを推定するための意味表現形式 • 検索意図を正しく分類するための意図クラス境界の決定法 • 入力されたクエリの意図クラスを分類する方法 • 成果 • 意図カテゴリを,Wikipediaの概念とカテゴリで表現する • 例えば,意図クラス「旅行」をWikipedia検索にかけて,「旅行会社」「航空券」などの関連カテゴリ,「時差ぼけ」「搭乗券」などのWikipedia記事で表現する • Markovランダムウォークを使って,各概念・カテゴリが意図クラスに属するスコアを求める • 入力されたクエリをWikipediaの概念・カテゴリに直接対応付けられないとき,関連する概念・カテゴリを見いだす
概念・カテゴリグラフの作成 ‘+’は意図クラスのシード概念・カテゴリを表す(次のスライド) • ノード • Wikipedia概念(記事) • カテゴリ • エッジ • カテゴリの親子関係 • 記事間のリンク(Wikilink) • 記事のカテゴリ所属関係 • エッジの重み • 上述の関係によるリンクの数
ノードが意図クラスに所属するスコアを求めるノードが意図クラスに所属するスコアを求める 活性伝搬でスコアを受け取ったノードの色が濃くなっている • 意図クラスを表すシード概念を用意する • 「旅行」クラスなら,「旅行」「ホテル」「カテゴリ:旅行」「航空券」など • これらのノードに対し1/N,それ以外のノードに0を与えるベクトルv0を用意する(Nはその意図クラスのシード概念数) • エッジの重みから遷移確率行列(P)を求める • 活性伝搬を行い,シードに関連する概念・カテゴリをスコア付きで求める
入力されたクエリから意図クラスを求める • 入力されたクエリがグラフ上に存在するとき • その活性値で識別(識別基準が書かれていなかった・・・,多分何らかの閾値を設定しているはず) • 入力されたクエリがグラフ上に存在しないとき • Live Searchを使ってスニペットを得る • スニペットに含まれる語と関連の深い概念を見つける • スニペットの単語ベクトルと,Wikipedia記事の類似度(BM25)で,概念のスコア付けを行う • 見いだした概念の意図クラスに関する活性値の和を計算 • ある閾値θを超えたら,その意図クラスに属すると判定
評価結果 • 手法 • LR: ロジスティック回帰 • ベース概念が素性 • LRE: LRと活性拡散 • 拡張された概念が素性となる • WIKI: 提案手法 • WIKI-R: 活性拡散を行わない • テストデータは自作 • 「旅行」「人名」「仕事」
ウェブ検索におけるユーザの位置に関する意図の発見ウェブ検索におけるユーザの位置に関する意図の発見 X. Yi, H. Raghavan, C. Leggetter. (Massachusetts Amherst & Yahoo! Labs) Discovering users’ specific geo intention in Web search, WWW2009, pp. 481-490
背景 • 13%以上のWeb検索は,位置に関する問い合わせ • “manhattan coffee” →「マンハッタンにあるコーヒーショップを探している」 • 位置に関する検索意図があると思われるクエリの50%しか,場所名が明示されていない • “pizza” →「ピザの店を探している」らしいが,場所が不明 • 検索クエリによって,場所のローカルさが異なる • “pizza” “dentist” →「近くのピザ屋」「近くの歯医者」 • “map” ”hotel” →「旅行先の地図」「旅行先のホテル」 • 検索クエリによって,場所の範囲が異なる • “pizza” → 10マイル程度の粒度 • “dentist” → よい歯医者なら30マイルまでOK • “2008 honda civic” → 安ければ100マイルまでOK
研究の目的と成果 • 検索クエリに都市レベルの粒度の場所検索意図があるかどうかを推定 • “pizza” → +1; “funny cats” → -1 • 検索クエリの(IPアドレスなどから推測される現在位置に対する)ローカルさを推定 • local geo queries(高ローカル): “pizza” “dentist” など • neighbor region geo queries: “car dealer” “real estate” • others(低ローカル): “state map” “hotels” • 場所に関するクエリに対応する都市を推定 • “Liberty Statue” → New York • クリックスルー・データから訓練例を自動獲得
全体のシステム構成 yes no yes • システムからの出力 • Qに場所に関する検索意図があるかどうか • その場所はlocal, neighbor, otherのどこにあるか • Qに対応する場所を表す都市名
クエリから場所の条件付き確率 • クエリQが与えられたとき,場所Ciを推定したい • ナイーブベイズモデル(もどき)で推定 • P(Ci)は一様分布として無視する(→「もどき」) • P(Q|Ci)は都市ごとのbi-gramモデルで推定
素性:Geo Information Unit (CIU) • 基本的にはunigram, bigram, trigramを以下の基準で重み付けしたもの • クエリ中の場所以外(Qnc)に出現した回数,確率 • n-gramのコーパス中での出現頻度,確率 • n-gramと都市名に関するクエリ部分(Qc)の共起の強さ(PMI) • n-gramと共起する都市名の数 • 都市毎のP(w|Ck) • すべての都市に関して最大のP(w|Ck) • 確率分布P(w|Ck)と一様分布とのKL距離
クエリから場所検索意図の推定 • 訓練例は検索クエリログから自動構築 • クエリQで検索 → DN+のサイトをクリック: +1 • クエリQで検索 → DN+のサイトをクリック: -1 • +1: 7.5M事例 • -1: 57.8M事例 • QをQcとQncに分解 • Qncから+1/-1を推定
検索クエリのローカルさの推定 • 検索クエリQをQcとQncに分解する • Qcが表す場所と検索したIPアドレスの位置の距離を計算 • 距離が50マイル未満: local geo • 距離が50マイル以上100マイル未満: neighbor region geo • 距離が100マイル以上: other • Qncから上記の3つのラベルを当てる
クエリから場所の推定 • 検索クエリQをQcとQncに分解する • Qcを場所名とみなしてP(Qc|Qnc)の確率モデルを作る • Qncから最大のP(Qc|Qnc)を与えるQc*を選び, P(Qc*|Qnc)>taならば,Qc*を予測した都市とする • taを変えながらprecision-recallカーブを描く