130 likes | 296 Views
北海道大学工学部 情報エレクトロニクス学科 コンピュータサイエンス・コース. 3年ゼミナール紹介. 情報知識ネットワーク 有村・喜田研究室 { arim,kida}@ist.hokudai.ac.jp ex. 7678, 7679. 研究室ホームページ http://www-ikn.ist.hokudai.ac.jp/. 紹介: 情報知識ネットワーク研究室 (有村・喜田 研). 研究テーマ: 情報検索とデータマイニング 教官: 有村博紀 教授,喜田拓也 助教授 研究協力者: 宇野毅明,佐藤健(国立情報学研究所),
E N D
情報知識ネットーワーク 研究室紹介(有村・喜田研) 北海道大学工学部 情報エレクトロニクス学科コンピュータサイエンス・コース 3年ゼミナール紹介 情報知識ネットワーク 有村・喜田研究室{arim,kida}@ist.hokudai.ac.jpex. 7678, 7679 研究室ホームページ http://www-ikn.ist.hokudai.ac.jp/
情報知識ネットーワーク 研究室紹介(有村・喜田研) 紹介: 情報知識ネットワーク研究室(有村・喜田 研) • 研究テーマ: 情報検索とデータマイニング • 教官: 有村博紀 教授,喜田拓也 助教授 • 研究協力者: 宇野毅明,佐藤健(国立情報学研究所), 湊 真一,トーマス・ツォイグマン(北大大学院情報科学研究科) 坂本比呂志,下薗真一(九工大), 北大情報科学CS専攻知識ソフトウェア科学講座メンバーとも研究交流
情報知識ネットーワーク 研究室紹介(有村・喜田研) 有村博紀 • 専門: • データマイニング • 情報検索(とくに全文テキスト索引) • 計算学習理論(機械学習) • 興味があること • 膨大なデータから,人間に役立つ情報と知識をとりだすこと • 高速なアルゴリズム(プログラム)を設計すること • 最近面白かったこと • 企業の人たちと一緒に,ソフトウェア開発をしたこと.
Frequent Patterns with s = 50 % A collection of trees Mining 情報知識ネットーワーク 研究室紹介(有村・喜田研) データマイニング・エンジンの開発 ウェブやHTML,テキストデータなどのグラフデータから特徴的なパターンを高速に取り出す. 情報検索や日本語テキスト処理,画像データ処理に役立つ. • AWAP: Fast Text Mining Engine (1997-2002) • FREQT: Fast XML and Tree-likeData Miner (SDM'02) • OPTT: Optimized Pattern Disocvery (PKDD'02) • StreamT: Online XMLStream Miner (IEEE ICDM'02) • UnoT: Unordered Tree Miner (Discovery Science'03) (with 浅井達哉君@現・富士通研,安部賢治君@現・シャープ,宇野毅明先生@NII,中野眞一先生@群馬大,)
情報知識ネットーワーク 研究室紹介(有村・喜田研) AWAP: Fast Text Mining Engine (1997-2002) HONDA vs. SOFTBANK HONDA vs. TOYOTA ホンダってどんな会社だろう? ソフトバンクじゃなくて,ホンダに出ているものはなにかな? トヨタじゃなくて,ホンダに出ているものはなにかな?
情報知識ネットーワーク 研究室紹介(有村・喜田研) 喜田拓也 • 専門: • 情報検索(特に文字列照合) • テキスト・アルゴリズム • データ圧縮 • 興味があること • 巧妙なアルゴリズムを知るor設計すること • 効率よく情報を検索するためにコンピュータができること • 最近面白かったこと • 国際会議でイタリアへ行ったこと.
テキストデータ 転送 転送 転送 二次記憶装置上 主記憶装置上 復号 圧縮テキスト 圧縮テキスト 二次記憶装置上 二次記憶装置上 主記憶装置上 主記憶装置上 主記憶装置上 情報知識ネットーワーク 研究室紹介(有村・喜田研) 圧縮データに対する文字列照合 文字列照合アルゴリズム 文字列照合アルゴリズム 圧縮文字列照合アルゴリズム
0.8 0.7 0.6 0.5 CPU時間(秒) 0.4 0.3 0.2 BPE圧縮テキストに対するBoyer-Moore型のアルゴリズムを用いた照合(Shibataら[2000]) 0.1 5 10 15 20 25 30 0.0 パタンの長さ 情報知識ネットーワーク 研究室紹介(有村・喜田研) 実験結果(非圧縮テキスト上のアルゴリズムとの対比) AlphaStation XP1000 (Alpha21264: 667MHz) Tru64 UNIX V4.0F Medline(英文テキスト) 60.3Mbyte 非圧縮テキストをKMPで照合 BPE圧縮テキストに対する照合 非圧縮テキストをAgrepで照合 * BPEはByte Pair Encoding圧縮法 * KMPはKnuth-Morris-Pratt法 * AgrepはWu&Manberが開発した検索ツール (with 柴田裕介君@現・NTTコムウェア, 松本徹也君@現・NTTドコモ, 竹田正幸先生@九大,篠原歩先生@九大)
情報知識ネットーワーク 研究室紹介(有村・喜田研) 3年生ゼミナール • ゼミナール • 英語または日本語の資料を読む • わかったことを他のひとに説明する • 新しい考え/方法を作る • プログラムを作る/実験する • 日本語または英語で書く • 大学の残りの2年間でしてほしいこと* • 興味があること/やりたいことをみつける • 何でもいいから,集中して基礎的な勉強をしてみる (20代前半に) これは今回は見送り *)大学院の2年間で身につけてほしいことでもあります.
情報知識ネットーワーク 研究室紹介(有村・喜田研) H16年の例3年生ゼミナール: テキスト 写真略 • 英語の教科書 • "Managing Gigabytes"(ギガバイトを征服!) • 著者:Ian H. Witten, Alistair Moffat, Timothy C. Bell,Morgan Kaufmann Publishers, 1999. • ウェブサーチ・エンジンを作るための現在唯一の教科書 • テキストと画像の圧縮 • テキスト索引の実装 • 問合せの実現 Ian Witten先生 ワイカト大学, NZ 写真略 Alistair Moffat先生 メルボルン大学, AU ManagingGygabyte site: http://www.cs.mu.oz.au/mg/
情報知識ネットーワーク 研究室紹介(有村・喜田研) 3年生ゼミナール: • ゼミで直接まなぶこと • 情報検索の基礎技術 • データ圧縮の技術 • ウェブ検索エンジンのしくみ • 情報工学として • アルゴリズムとデータ構造の議論に慣れる • 情報理論と統計の実際をしる • 工学(engineering)の感覚 • 読む・話す・聞く・作る
情報知識ネットーワーク 研究室紹介(有村・喜田研) 3年生ゼミナール • オプション(希望者があれば) • プログラム作成 • 複数パターン照合機械(情報検索) • ハフマンor LZ圧縮プログラム(テキスト圧縮) • アイテム集合発見プログラム(データマイニング) • コンテスト???
情報知識ネットーワーク 研究室紹介(有村・喜田研) おまちしています 情報知識ネットワーク 有村・喜田研究室{arim,kida}@ist.hokudai.ac.jpex. 7678, 7679 研究室ホームページ http://www-ikn.ist.hokudai.ac.jp/