1 / 24

参照共起分析の Web ディレクトリへの適用

参照共起分析の Web ディレクトリへの適用. NTT 未来ねっと研究所 ○原田昌紀 風間一洋 佐藤進也 harada@ingrid.core.ntt.co.jp. 研究の背景. サーチエンジン =ロボット+全文検索エンジン ○  Web ページ単位で詳細な   検索ができる。 ○ 網羅性が高い。 × 質の低い Web ページが   検索される(スパムもある)。. Web ディレクトリ =人手で収集、評価、分類 ○  Web サイト単位で階層的に   分類されている。 ○ 完成度の高い Web サイト   のみが登録されている。 × 網羅性が低い。.

moana
Download Presentation

参照共起分析の Web ディレクトリへの適用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 参照共起分析のWebディレクトリへの適用 NTT未来ねっと研究所 ○原田昌紀 風間一洋 佐藤進也 harada@ingrid.core.ntt.co.jp

  2. 研究の背景 サーチエンジン =ロボット+全文検索エンジン ○ Webページ単位で詳細な  検索ができる。 ○ 網羅性が高い。 × 質の低いWebページが  検索される(スパムもある)。 Webディレクトリ =人手で収集、評価、分類 ○ Webサイト単位で階層的に  分類されている。 ○ 完成度の高いWebサイト  のみが登録されている。 × 網羅性が低い。 維持と構築に要する人的コストが問題。 ロボットが収集したデータを利用して、 Webディレクトリの構築を自動化できないか?

  3. 発表の概要 • 研究の目的とアプローチ • 関連研究 • Webディレクトリ拡大手順の提案 • 関連Webサイト発見アルゴリズム(2種類) • 評価実験 • まとめ

  4. 本研究の目的とアプローチ • 目的:Webディレクトリの自動拡大の実現 • アプローチ • 各カテゴリに分類されたWebサイト群を元に、ロボットで収集したデータから、それらに関連するWebサイトを発見し、登録Webサイト数を増大させる。 • ハイパーリンクによる参照関係の解析を応用 • 与えられたWebサイト群に関連し、重要度の高いWebサイトを発見することが狙い。

  5. 関連研究: テキストの自動分類 • テキストの自動分類 • テキストをあらかじめ決められたカテゴリに分類する。 • ハイパーテキストの自動分類 • ノードをあらかじめ決められたカテゴリに分類する。 • 近傍のノードの分類結果によって補正する。 • 問題点 • 多数のカテゴリへの高精度の分類は困難。 • Web上のテキストは多様であり、特に難しい。 テキストの自動分類によるWebディレクトリ構築は困難。 →テキストの内容を用いない方法を検討する。

  6. 関連研究:特定トピックのオーソリティ発見 • HITS [Kleinberg1998] • トピックを表すキーワードの検索結果の近傍からオーソリティとハブを抽出。 オーソリティ…多数のハブから参照される、重要なWebページ。 ハブ…多数のオーソリティを参照する、リンク集的なWebページ。 • カテゴリ名によるオーソリティ発見…詳細な分類には不向き。 ・・・ ・・・ オーソリティ ハブ 例:ゲーム全般 /ゲーム/   ゲーム販売店 /ショッピング/趣味とおもちゃ/ゲーム/   ゲーム開発企業 /ビジネス/エンターテインメント/ゲーム/

  7. 関連研究: 関連Webページ発見手法 関連Webページ : リンク6 リンク7 リンク8 リンク9 : L以内 シードWebページ L以内 関連Webページ 関連Webページ • 参照共起関係 • 共通のリンク元でハイパーリンクの位置がL以内にあること。 • 関連Webページ発見アルゴリズム • 与えられたWebページと関連するオーソリティを発見する。 → Webディレクトリに登録すべきWebサイトを発見できる。

  8. Webディレクトリ拡大手順 1. 大域Webグラフを作成する。 2. 各カテゴリで関連Webサイトを発見する。 3. 重複したWebサイトを除去する。

  9. 1.大域Webグラフの作成 • ロボットで大量のWebページを収集し、それらの参照関係からWebグラフを作成する。 • WWWサーバ間のハイパーリンクのみ辺とする。 • Webサイトを点としたWebグラフを作成。 • Webディレクトリにおける検索の単位。 • 実装では同じサーバで同じパスを持つファイル群をWebサイトとみなした。 http://www.ntt.co.jp/product/ http://www.ntt.co.jp/product/index-j.html http://www.ntt.co.jp/product/product.html http://www.ntt.co.jp/product/*

  10. 2.関連Webサイト発見アルゴリズムの適用 • 各カテゴリに登録されているWebサイト群に、それらと関連するオーソリティを加える。 例:ビジネス/食品/飲料/酒類 http://www.asahibeer.co.jp/ http://www.gekkeikan.co.jp/ http://www.kirin.co.jp/ http://www.moritakk.com/ http://www.ozeki.co.jp/ http://www.sapporobeer.co.jp/ http://www.suntory.co.jp/ http://www.asahibeer.co.jp/ http://www.gekkeikan.co.jp/ http://www.kirin.co.jp/ http://www.moritakk.com/ http://www.ozeki.co.jp/ http://www.sapporobeer.co.jp/ http://www.suntory.co.jp/ http://www.budweiser.co.jp/ http://www.takara.co.jp/ http://www.heineken.co.jp/ http://www.kirin-seagram.co.jp/ http://j-entertain.co.jp/guiness/ http://www.kizakura.co.jp/ http://www.hakutsuru.co.jp/ : 関連度 22.1 19.5 14.4 12.5 11.8 8.8 8.2  : 関連Webサイト発見 アルゴリズムを適用

  11. 3.重複Webサイトの削除 • 重複して発見されたWebサイトは関連度が最大のカテゴリのみに残す。 ビジネス/食品/飲料 ビジネス/食品/食材・調味料 http://www.cocacola.co.jp/ http://www.morinagamilk.co.jp/ http://www.nestle.co.jp/ http://www.ucc.co.jp/ http://www.yakult.co.jp/ http://www.ajinomoto.co.jp/ http://www.nipponham.co.jp/ http://www.sangaria.co.jp/ http://www.dydo.co.jp/ http://www.ucc.co.jp/ http://www.cclemon.com/ : http://www.hanamaruki.co.jp/ http://www.heiwa-food.co.jp/ http://www.soysauce.or.jp/ http://www.kagome.co.jp/ http://www.marukome.co.jp/ http://www.ajinomoto.co.jp/ http://www.nipponham.co.jp/ http://www.higeta.co.jp/ http://www.takeya-miso.co.jp/ http://nitanda.com/ http://www.aohata.co.jp/ : 関連度 9.9 8.9 8.4 8.1 7.7 5.8 : 関連度 11.1 9.2 8.3 7.7 5.9 5.7  :

  12. 関連Webサイト発見アルゴリズム • 関連Webページ発見アルゴリズムを拡張。 • 複数のシードに関連するWebサイトを発見する。 • ステップ3で比較可能な関連度を出力する。 (1) Companion+ • シードセットの近傍にHITSを適用し、オーソリティを発見。 (2) MultiCocitation • 多くのシードと参照共起関係にあるWebサイトを発見。

  13. (1) Companion+ • Companion+[豊田2000]を複数シードに拡張。 • シードセット全体の近傍からオーソリティを発見する。 (近傍:参照元Webサイト+参照共起関係にあるWebサイト) • 関連度=(オーソリティスコア)2×近傍Webサイト数 シードセット

  14. (2) MultiCocitation • Cocitation[Dean1998]を複数シードに拡張。 • 多くの異なるシードと参照共起関係にあるWebサイトを発見。 関連度=参照共起関係にあるシードの数 + 0.1×Σシードと参照共起する回数 シード シードセット 関連Webサイト(関連度: 1.3) 関連Webサイト(関連度: 2.2)

  15. 評価実験: 対象データ • Webディレクトリ • Open Directory Projectの日本語カテゴリ http://dmoz.org/World/Japanese/ • 登録Webサイト数 6,143URL • カテゴリ数 702 • 大域Webグラフ • サーチエンジンODINの検索対象Webページ • Webディレクトリの登録サイトを起点として収集。 • 総Webページ数 約1130万URL 辺となるハイパーリンク 約1350万本 辺の起点 約80万個,辺の終点 約110万個

  16. 実験1: 精度の評価      元々のカテゴリで発見された評価用Webサイト 精度=         評価用Webサイトのうち発見されたもの • 関連Webサイトが正しいカテゴリに配置されるか? • 各カテゴリから、評価用Webサイトを一つずつ取り出す。 • それらを除いたWebディレクトリに拡大手順を施す。 • 評価用Webサイトが発見されたときの精度を評価。 注意:元々Webディレクトリに登録されていたWebサイトのみを評価。

  17. 実験1:精度の評価結果 • MultiCocitationは実用的な精度を達成。 • Companion+ではトピックドリフトが発生。 • 被参照数の大きいシードにのみ関連するWebサイトが発見されやすい。 各カテゴリで最大N件の関連Webサイトを発見した場合の精度

  18. 実験1:シードセットサイズと発見精度 • 登録Webサイト数が大きいカテゴリでは精度が低下 • シード数が大きいカテゴリは、他のカテゴリの関連Webサイトを奪うことがある。→関連度の定義に改善の余地がある。

  19. 実験2-1: 適合度の評価 • 被験者:ネットワーク分野の研究者8名。 • カテゴリ:被験者がよく知っている分野を2つ。 • 関連Webサイトのトピックとの適合性を判断。 • 適合する +2点 • どちらかといえば適合する +1点 • 評価不能(アクセスできないなど)  0点 • どちらかといえば適合しない -1点 • 適合しない -2点 • カテゴリの適合度=関連Webサイト全体の平均点 注意:分類精度の評価とは異なる。

  20. 実験2-1: 適合度の評価 • Companion+ 平均0.99 • MultiCocitation 平均1.44 • カテゴリによって適合度の高低がある。 × アート/映画/洋画 ○ /音楽/ビートルズ ○ニュース/新聞

  21. 実験2-1: 適合度の評価 • 適合度の低いカテゴリがある理由 • リンク集における分類と、Webディレクトリの分類の不一致。 例:アート/映画/洋画…邦画のWebサイトが発見される。 • 近傍Webグラフが小さいカテゴリでは、少数の関連Webサイトしか得られない。シードセット中に被参照数の大きいWebサイトが一つは必要。

  22. 実験2-2: 重要度の評価 • 登録する価値があるWebサイトが発見されるか? • 知名度、信頼性、情報量、オリジナリティ、デザインで判断。 • 登録すべき +2点 • どちらかといえば登録すべき +1点 • 評価不能(アクセスできないなど)  0点 • どちらかといえば登録すべきでない -1点 • 登録すべきではない -2点 • 各カテゴリで重要度(平均点)を比較 • シードセットのWebサイト。 • 発見された関連Webサイトのうち、「適合する」あるいは「どちらかといえば適合する」Webサイト

  23. 実験2-2:重要度の評価結果 • Companion+の評価 • 被参照数の大きいWebサイトを発見しやすい。→トピックに適合していれ ば、重要なWebサイト。 • MultiCocitationの評価 • 網羅的なリンク集の影響で、重要度の低いWebサイトを発見しやすい。 • シードセットの重要度と正の相関がある。 シードセット 平均1.00 Companion+平均0.96 MultiCocitation平均0.74

  24. まとめと今後の課題 • 関連Webページ発見アルゴリズムを拡張し、Webディレクトリの自動拡大を実現した。 • 多数のカテゴリを持つWebディレクトリでも、高い精度で関連Webサイトを発見できた。 • シードセットの重要度が高いときには、トピックに適合し、重要度の高いWebサイトを発見できた。 • 今後の課題 • 適合度と重要度を両立するアルゴリズムの検討。 • カテゴリ間の関係(階層構造)の利用。 http://odin.ingrid.org/にてデモシステムを公開予定。

More Related