1 / 28

ネット時代の情報センス

ネット時代の情報センス. 情報検索技術のトピックス (平成1 6 年度版) 喜田拓也 (http://rd.cc.kyushu-u.ac.jp/~kida/). 横山光輝さんの誕生日. はじめに. ウェブ上で効率よく情報をさがす方法 検索エンジンについて ロボット検索エンジンの仕組み キーワードの選び方 その他のトピックス 喜田のこれまでの研究 データ圧縮と文字列照合 さいごに. 検索エンジンとは. 利用者. 検索結果. ウェブ上から情報を探し出すツール 電子メールの次のよく利用されているサービス インターネットユーザの 80 %が利用している

Download Presentation

ネット時代の情報センス

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ネット時代の情報センス 情報検索技術のトピックス(平成16年度版) 喜田拓也(http://rd.cc.kyushu-u.ac.jp/~kida/) 横山光輝さんの誕生日

  2. はじめに • ウェブ上で効率よく情報をさがす方法 • 検索エンジンについて • ロボット検索エンジンの仕組み • キーワードの選び方 • その他のトピックス • 喜田のこれまでの研究 • データ圧縮と文字列照合 • さいごに

  3. 検索エンジンとは 利用者 検索結果 • ウェブ上から情報を探し出すツール • 電子メールの次のよく利用されているサービス • インターネットユーザの80%が利用している • 検索エンジンの種類 • ディレクトリ型 • ロボット型 問合せ 検索エンジン サーバ データの蓄積と索引化 巡回 ページ情報 ウェブ

  4. ディレクトリ型検索エンジン(登録型、カテゴリー型)ディレクトリ型検索エンジン(登録型、カテゴリー型) • 人手で整理・登録(索引づけ)する • 長所 • 適切なキーワードが分からなくても検索できる。 • 検索結果とキーワードとの関係が強い。 • 短所 • 検索対象となるページが少ない。 例題:Yahoo! Japanで福岡のケーキ屋をさがそう 検索エンジン

  5. ロボット型検索エンジン(全文検索型、フリーワード型)ロボット型検索エンジン(全文検索型、フリーワード型) • ロボットが自動的に情報を収集し、サーバで自動的に索引づけをする • 長所 • 検索対象となるページが多い。 • ページに含まれているすべての語句が検索対象になる。 • 短所 • 無関係なページも多数検索される。 例題:Googleで今日が誕生日の有名人をさがそう 検索エンジン

  6. 検索エンジンサービスの相互関係(ディレクトリ型)検索エンジンサービスの相互関係(ディレクトリ型) 2003月1日現在(「検索にガンガンヒットするホームページの作り方」から引用)

  7. 検索エンジンサービスの相互関係(ロボット型)検索エンジンサービスの相互関係(ロボット型) 2003月1日現在(「検索にガンガンヒットするホームページの作り方」から引用)

  8. 検索結果の並びの順番 • Googleなどでは、検索結果の並びは検索語(キーワード)に関連の深い順にならんでいる。 • リンク・ポピュラリティー • 被リンク数が多ければ多いほどページの得点が高い。 • リンク・レピュテーション • リンク文字列=リンク先のページの説明 • PageRank • 点の高いページからのリンク > 点の低いページからのリンク

  9. キーワードの選び方1.固有名詞は良いキーワードキーワードの選び方1.固有名詞は良いキーワード • 今やっているドラマについて知りたい! • なるべく固有名詞を用いる。 • 「ドラマ一覧」・・・一般的な名詞 • 「2003年春ドラマ」・・・より具体的な名詞

  10. キーワードの選び方2.複数のキーワードを用いるキーワードの選び方2.複数のキーワードを用いる • キーワードを一つでは、絞り込むのが難しい。 • 「ドラマ」・・・約 2,090,000 件ヒット!(2003年4月16日現在) • 複数個のキーワードを並べてみる。 • 「ドラマ 一覧」・・・ 約 216,000件 • 「ドラマ 一覧 2003」・・・ 約102,000 件 • 「ドラマ 一覧 2003 春」・・・ 約9,980 件

  11. キーワードの選び方3.目的のページを想像するキーワードの選び方3.目的のページを想像する • 見つけたいページに含まれていると予想される語句をキーワードにする • 「今やってるドラマの一覧」→ 「2003年 春 ブラックジャックによろしく」 • 「J-Phoneとauの携帯電話はどちらのほうが、人気が高い?」→ 「携帯電話加入者数」 • 単語や語句の意味を知りたい→「~とは」「~入門」 • うちの近くのお店を知りたい→郵便番号をキーワードに入れる

  12. キーワードの選び方4.同義語・類義語に注意するキーワードの選び方4.同義語・類義語に注意する • 「J-Phone」「Jフォン」「ジェイフォン」 • 「au」「エーユー」「KDDI」 • 「利用者」「加入者」 • 「さんま」「サンマ」「秋刀魚」 • →キーワードアドバイス サービスを利用してみる

  13. キーワードの選び方5.ブーリアン演算子を用いるキーワードの選び方5.ブーリアン演算子を用いる • And検索、Or検索、Not検索 クリーム コロッケ クリーム and コロッケ ・・・ クリームコロッケ クリーム or コロッケ  ・・・ ソフトクリーム、コロッケカレーなど クリーム not コロッケ ・・・ コロッケとは関係ないクリーム

  14. その他のトピックス • 最新情報を探す • 「最新」というキーワードでは最新の情報は得られない • フレッシュアイを使おう • メタ検索エンジン • Metcha Search (http://bach.scitec.kobe-u.ac.jp/metcha/) • 検索デスク (www.searchdesk.com) • multifind (www.infofreako.com/factory/multifind/) • 検索エンジンスパム • 検索エンジンの精度を落とす原因となる • (検索エンジンから)厳しい罰則が与えられる

  15. 喜田のこれまでの研究 データ圧縮技術と文字列照合技術の融合

  16. データ圧縮 • 符号化 • 情報(記号列)をデジタル化すること → 本質的に無駄な部分が含まれている! • データ圧縮 • データ中の冗長な情報を取り除くことで、データのサイズを小さくすること • データ圧縮法 • 適応的Huffman符号化 • 算術符号化 • LZ77, LZ78, LZW(辞書ベース圧縮) • Burrows Wheeler 変換を用いた圧縮 • 文法変換に基づく圧縮

  17. 文字列照合 • 文字列照合(問題)とは • 何の役に立つの? • キーワード検索 • テキスト・データベース処理 • データ整形 • データ・マイニング • スペル・チェッカー • ゲノム情報処理 パターン: オトコ テキスト: オモイコンダラシレンノミチヲイクガオトコノ

  18. 研究目的 圧縮文書ファイル群 文書ファイル群 「この世には不思議なことなど何もないのだよ、関口君」 京極堂を変わり者の東の横綱とすると、榎木津は西の横綱だ。何だか酷く男が羨ましくなつてしまつた。「楠本君。せいぜい月の光を浴びるがいいよ」「世界中の不幸と苦悩を纏めて背負ったような顔をして、そんなもの誰だって背負っているぞ!ちっとも偉くない。心の暗闇だか何だか知らないが、心に光度(カンデラ)や照度(ルクス)があるか。明るい暗いで善し悪しが決まるのは電灯くらいだ」「僕が落すのは憑物。犯人(ホシ)を落すのは警察。原稿を落すのは関口君だ」「あなたが―蜘蛛だったのですね。」「それが―絡新婦の理ですもの」 aldoghqu3850pcxps;lafdjaeqw09bjzpafq05^@62:vzZIAPF’(90rwDEVcx0832nkvl;pzp99OPF:eDfja

  19. 普通の 文字列照合機械 展開 圧縮テキストに対する 文字列照合機械 圧縮されたデータに対する文字列照合 原テキスト 圧縮テキスト 圧縮テキスト

  20. この問題に対する3つの手法 「展開しながら」法 「展開してから」法 目標1: これらより速い! 「展開しないで」法 事情により差し替えてます・・・

  21. 研究の成果(その1) 1.4 AlphaStation XP1000 (Alpha21264: 667MHz) Tru64 UNIX V4.0F Genbank(DNA塩基配列)17.1Mbyte 1.2 1.0 「展開しながら」法 0.8 CPU時間(秒) compress(LZW)+KMP 0.6 gunzip(LZ77)+KMP 0.4 「展開しないで」法 0.2 T. Kidaら[1998] ビットパラレルによる高速化[1999] 0 5 10 15 20 25 30 パタンの長さ

  22. ディスク容量は十分あるったい!

  23. × × × × 圧縮文字列照合する理由は? 容量は十分あるのに、テキストを圧縮して保存しますか? NO!

  24. 原テキスト上の照合時間 圧縮テキスト上の照合時間 > 圧縮文字列照合する理由は? 当初の目標 新目標 展開時間 + YES!

  25. 0.8 0.7 0.6 0.5 0.4 「展開しないで」法 0.3 非圧縮テキストをAgrepで照合 BPE圧縮テキストに対する照合(KMP) 0.2 「展開しないで」法 0.1 BPE圧縮テキストに対する照合(BM) Shibata, et al. (2000) 5 10 15 20 25 30 0.0 研究の(凄い)成果 AlphaStation XP1000 (Alpha21264: 667MHz) Tru64 UNIX V4.0F Medline(英文テキスト) 60.3Mbyte 非圧縮テキストをKMPで照合 CPU時間(秒) パタンの長さ

  26. さいごに

  27. XMLデータ例 <作家> <名前>京極夏彦</名前> <ジャンル>ミステリー、妖怪</ジャンル> <著作> <タイトル>姑獲鳥の夏</タイトル> <出版年>1994</出版年> <出版社>講談社ノベルス</出版社> </著作> </作家> その後、取り組んだこと • データ圧縮による文字列近似度(編集距離)の計算の高速化 • 二つのDNA配列の近似度をすばやく測ることができる! • 半構造化データに対する文字列照合に関する研究(2002年) • 大量のXMLデータに対し、タグ構造を見ながら検索できる。 • これまでの研究から、データ圧縮を用いて高速化できないか? • 半構造化データを高速に照合できるデータ圧縮法の開発。

  28. 今現在、論文執筆中 • VLDCパタンと文字列との間にk文字のミスマッチを許した照合処理 • Variable Length Don’t Care (VLDC) パタン: • *のための*入門 • 京都*殺人事件 • k文字のミスマッチ • パタン: 機動戦士*ガンダム* • k = 2 • OK!: 機動戦士ガンダムZZ、機動戦士Vガンダム、     機動武闘伝Gガンダム • NG!: 新機動戦記ガンダムW、∀ガンダム *:0文字以上の任意の文字列にマッチ

More Related