320 likes | 441 Views
2011/10/24 Web 工学. Fast Shortest Path Distance Estimation in Large Networks. Michalis Potamias , Francesco Bonchi , Carlos Castillo, and Aristides Gionis 発表 : 秋葉 拓哉 ( コンピュータ科学専攻 M1). どんな論文?. 最短 路クエリのアルゴリズムと実験 チーム: 主著者はボストン大学 他 3 名は Yahoo! Research ( Barcelona, Spain)
E N D
2011/10/24Web 工学 Fast Shortest Path DistanceEstimation in Large Networks MichalisPotamias, Francesco Bonchi, Carlos Castillo, and Aristides Gionis 発表: 秋葉 拓哉 (コンピュータ科学専攻 M1)
どんな論文? • 最短路クエリのアルゴリズムと実験 • チーム: • 主著者はボストン大学 • 他 3 名は Yahoo! Research (Barcelona, Spain) • 主著者がインターンした際の成果 • CIKM 2009 の Student Best Paper • ちなみに同会議の Best Paper も Yahoo! Research • 現在 CIKM 2011 開催中 (Glasgow)
話の流れ • 最短路クエリ問題とは? • ランドマークを用いた最短距離の推定 • ランドマーク選択の手法の検討 • 実験結果
Context-Aware Search 「木」 を検索
Context-Aware Search 「木」 を検索
これらの応用におけるグラフ・最短距離 • Social Search • Social Network: 人を頂点,枝を友人関係 • Context-Aware Search • Web Graph: ページを頂点,枝をリンク これらのグラフ上での最短距離を 結果のランキングの指標に使う
最短経路問題のその他の需要 経路設計 道・乗り換え案内 情報検索・ データベース[HWYY07, TWRC09] 生物情報学 [RAS+05, RS06] コンピュータ ネットワーク [BLM+06, PS06] データ マイニング [WF94, Sco06] その他... XML, オントロジー, ... 基礎的な問題 → 需要も幅広い
最短距離を知りたいけど… • 幅優先探索:( : 辺の本数) • 世の中のグラフはとても大きい • 毎回幅優先探索するのは遅すぎる (多分ちょっと古いデータ)
最短経路クエリ処理 1. 前処理 前計算 データ 2. クエリ処理 「30 分です」 「本郷から駒場」 「20 分です」 「中野から秋葉原」 「7 時間です」 「札幌から那覇」
最短経路クエリ処理 1. 前処理 前計算 データ 活用 2. クエリ処理 「30 分です」 「本郷から駒場」 「20 分です」 「中野から秋葉原」 「7 時間です」 「札幌から那覇」
三角不等式 • グラフ 上での の最短距離 • ★ ( は任意の頂点)
上界による最短距離推定(単一ランドマーク) • ★ これをそのまま使う • 前処理 • 頂点 を1つ選ぶ(ランドマーク) • , を全頂点に対し前計算しておく (幅優先探索) • クエリ処理 u s t
上界による最短距離推定(複数ランドマーク) ランドマークを単一 () から複数 () にしよう • ★ 複数頂点に使う • 前処理 • 一定数の頂点集合を決める(ランドマーク) • 各 に対し, を全長点に対し前計算 (BFS) • クエリ処理 } s t
ランドマークの選択 • 個のランドマークを選びましょう • は 20 とか 100 とか300 とか • ベースライン: ランダムな選択 • [Tang+, SIGCOMM’03], [Kleinberg+, FOCS’04], [Vieira+, CIKM’07] • 本論文の Key Insight: • ランダムより良いヒューリスティクスがあるのでは?
アイディア グラフ グラフ • 多くの最短路が通る点がよさそう • グラフの中央っぽい点がよさそう 良い例 嫌な例
Basic Strategies • Degree Strategy • 次数の高いものから選ぶ • Centrality Strategy • Closeness Centrality の小さいものから選ぶ 頂点の Closeness Centrality とは? つまり,全長点への距離の平均. 小さいものほど ``中央’’ に近いと考える. 実際には,ランダムサンプルにより近似して計算.
Constrained Strategies • アイディア • 近いところに一杯あっても無駄 • Degree/ Strategy • 既に選んだ頂点から距離は選択禁止 • Centrality/ Strategy
Partitioning-Based Strategies • アイディア • 色々なところに散らばっているとよさそう • Graph Partitioning を使おう Graph Partitioningとは? グラフ を 個の近いサイズの成分に分解 違う成分間の辺数を最小化 NP-困難であり,ヒューリスティクスがよく研究されている (10th DIMACS Implementation Challenge 開催中)
Partitioning-Based Strategies • Degree/P • 各分割で次数最高の点 • Centrality/P • 各分割で Closeness Centrality 最高の点 • Border/P • 各分割で以下を最大化する点 (≒縁に近い点)
データセット Table 1
近似精度 (相対誤差) Table 2
近似精度 (相対誤差) Figure 3
厳密手法とのクエリ時間の比較 Table 5
Social Search での精度 Figure 5
まとめ • 話したこと • 最短経路クエリ問題とは • ランドマークを用いた最短経路の推定 • ランドマークを選択の戦略 • 実験結果 • 話さなかったこと • ランドマーク選択の NP-困難性 • 下界による推定,上界と下界を同時に用いた推定 (うまくいかない)
Related Work(本論文の後の文献を含む) • 交通ネットワークでの最短路クエリ • より構造が活用しやすいため多くの手法あり • ALT (A* + landmarks), Reach, Hierarchical, … • 厳密最短路クエリ • ALT • 2-HOP [Cohen+, SODA’02] [Cheng+, EDBT’09] • 対称性 [Xiao+, EDBT’09] • 木分解 [Wei, SIGMOD’10] • 近似最短路クエリ • NSI [Rattigan+, SIGKDD’06] • Landmark [Potamias+, CIKM’09 (本論文)] • Distance-Sketch [Das Sarma+, WSDM’10] • Path-Sketch [Gubichev+, CIKM’10] • 到達可能性クエリ