80 likes | 288 Views
研究概要. リンク構造解析スコアリング 既存手法( PageRank アルゴリズム / HITS アルゴリズム) リンク構造上隣接関係を基にスコアリング( PageRank / HITS ) 「リンク行為=リンク先 Web ページの推薦」と定義( PageRank ) 「(検索結果集合)+( 1 クリック距離集合)」にスコアリング( HITS ) 既存手法問題点 PageRank: 「リンク行為=リンク先 Web ページの推薦」? 直接リンク不可能な場合が存在 HITS: アルゴリズム適用範囲=検索語句との関連性大?
E N D
研究概要 • リンク構造解析スコアリング • 既存手法(PageRankアルゴリズム / HITSアルゴリズム) • リンク構造上隣接関係を基にスコアリング(PageRank / HITS) • 「リンク行為=リンク先Webページの推薦」と定義(PageRank) • 「(検索結果集合)+(1クリック距離集合)」にスコアリング(HITS) • 既存手法問題点 • PageRank: 「リンク行為=リンク先Webページの推薦」? • 直接リンク不可能な場合が存在 • HITS: アルゴリズム適用範囲=検索語句との関連性大? • 1クリック距離集合は検索語句に無関係である場合が存在 • 提案手法 • リンク構造上隣接関係を拡張したスコアリング手法 リンク元 リンク不能 リンク先 リンク元の影響度が減衰 中継点
提案 1: グループ化 • 概要 • 類似情報を持つWebページ集合をグループ化(意味付与) • 類似情報: 「同一作成者/同一コンテンツ内」 • 同一グループ内のリンク構造を削除 • 処理 • ディレクトリ構造による木構造 • 葉(Webページ)を枝(ディレクトリ)と併合 • リンク構造の更新 リンク構造上隣接関係を拡張 Root Directory Web Page Group
提案 2: スコアリング • 静的スコアリング • 全文書集合に含まれるリンク構造を対象 • グループ化と併用 • 動的スコアリング • 全文検索結果集合に含まれるリンク構造を対象 • グループ化適用前後2種類のスコアを算出 • グループ化と併用 • ランキング(併合スコアリング) • 上記各スコア,全文検索スコアを併合 • 重み付け加算を採用 隣接関係拡張 / リンク数減少を図る 隣接関係拡張 / リンク数増加を図る スコア特性を活かす併合式を検討
実験 1: グループ化 • グループ化処理結果比較 • リンク構造解析スコア分布 グループあたりWebページ数 グループ化前後による ノード数 / リンク数 比較 手法別スコアリング結果比較
全文検索 静的(前) 静的(後) 動的(前) 動的(後) グループ化前 グループ化後 双方 未抽出 実験 2: スコアリング • 各スコアリング手法単体評価 • 適合文書抽出割合比較
全文検索 全文検索+PageRank 提案手法 (2,1,2,0,0) • スコア併合式 / 重み係数調査 • 検索精度評価比較 Score (p) = Wr・ Retrieval (p) + Wsn・ StaticN (p) + Wsg・ StaticG (p) + Wdn・ DynamicN (p) + Wdg・ DynamicG (p)
考察 • グループ化 • グループ間粒度に格差が発生 • 静的スコアリング • 検索可能課題の割合:グループ化前=61% / 後=13% • グループ化前後の併合により検索精度向上 • 動的スコアリング • 検索可能課題の割合:グループ化前=32% / 後=31% リンク構造解析スコアに影響 グループ化適用時のみ抽出可能な検索課題が存在 検索不可能課題が非常に多い
まとめ / 今後の課題 • まとめ • 提案手法それぞれの有効性を確認 • 併合スコアによる検索精度向上を確認 • 今後の課題 • グループ化 • グループの粒度差解消に関する調査検討 • 各グループに付与された意味情報に関する調査検討 • 他グループ化手法の検討 • スコアリング • 各手法が有効に働くWebページ構成に関する調査検討 • スコア併合式に関する調査検討 • スコア算出コストの軽減案検討