290 likes | 471 Views
サーベイ: Blog 研究の現在 2005. 国立情報学研究所 大向 一輝 協力 沼 晃介・鈴木 聡・上松 大輝・間瀬 哲也. サーベイの目的. Blog 研究の動向 Blog をテーマとする論文( 2003 年以降) CiteSeer : 22 件( Blogs ) 11 件( Blogging ) CiNii : 18 件 Blog 研究は「研究」か? 書籍・解説・講演論文が大多数を占める 査読付き論文がほとんどない 手段としての Blog 扱いやすいデータセットとして Blog が使われている. サーベイの目的.
E N D
サーベイ:Blog研究の現在 2005 国立情報学研究所 大向 一輝 協力 沼 晃介・鈴木 聡・上松 大輝・間瀬 哲也
サーベイの目的 • Blog研究の動向 • Blogをテーマとする論文(2003年以降) • CiteSeer:22件(Blogs)11件(Blogging) • CiNii:18件 • Blog研究は「研究」か? • 書籍・解説・講演論文が大多数を占める • 査読付き論文がほとんどない • 手段としてのBlog • 扱いやすいデータセットとしてBlogが使われている
サーベイの目的 • 研究にとってのBlogの位置づけ,Blogにとっての研究の位置づけを明確にしたい • 各研究者がBlogをどう見ているかを知る • 今後のBlog研究の方向性を議論する • 話題提供 • Microformats
サーベイ対象 • WWW2005 Second Annual Workshop on the Weblogging Ecosystem: Aggregation, Analysis and Dynamics (2005.5) • 発表件数:10 • http://www.blogpulse.com/www2005-workshop.html • 第19回人工知能学会全国大会 (2005.6) • 発表件数:7(総数280以上) • http://www-kasm.nii.ac.jp/jsai2005/schedule/ • WWW2005 Developers’ Day - Microformats • http://tantek.com/presentations/2005/05/what-are-microformats/ • その他
Blog研究のトレンド(2004) • Weblogging Ecosystem WS Keynoteより • Blog Census Information(ブログ国勢調査) • Link Diffusion(リンク構造分析) • Ethnography・ Cultural Studies (民俗学とカルチュラル・スタディーズ) • クローリング戦略・カテゴライズ • スパム防止
Weblogging Ecosystem 2004 • How can we measure the influence of the blogosphere? • Blog検索の方法論 • Automatic Collection and Monitoring of Japanese Weblogs • Web日記からのエントリー抽出 • Implicit Structure and the Dynamic of Blogspace • トピック・引用関係の時系列分析(パターンマッチング) • BlogPulse: Automated Trend Discovery for Weblogs • 機械学習・NLPによるトレンド分析 • Personal Knowledge Publishing Suite with Weblog • RSS・FOAFを用いた情報流通 • Mapping the Blogospere in America • Bloggerを地図上にマッピング • Blogs as “Protected Space” • インタビューによるBloggerの心理研究
Blog研究のトレンド(2005) • 時系列分析 • リンク構造 • 個人とそのつながり • メタデータ • Bloggerの行動分析
時系列分析 • Blogのリアルタイム性を利用 • 「Instant Messaging to the Web」[Quan04] • ある瞬間のホットトピックを抽出することが目的 • キーワード抽出 • Blogger(個人)抽出
時系列分析 Discovering Important Bloggers Based on a Blog Thread Analysis [Nakajima(NICT)] • 引用関係・TrackBackからBlogエントリーの時系列スレッド構造を抽出 • スレッドの分析からAgitator・Summarizerとして機能している書き手を発見 • リンク数・スレッド内エントリー数の変化率・トピックの内容変化
時系列分析 Analyzing concerns of people using Weblog articles and real world temporal data [Fukuhara(NICT)] • Blogのエントリに含まれる単語の時系列的出現パターンの分類 • トピックに共起するサブトピックの変遷
時系列分析 Weblogにおける語の広がり方に基づいたキーワード抽出 [岡田(東京理大)] • 語の出現頻度が上昇傾向であるもの=ホットトピック • コメントがつきやすい語=ホットトピック Differences between Blogs and Web Diaries [Fujiki(東工大)] • BlogWatcher(バースト)を利用したホットトピックの抽出 • Blog・Web日記をデータセットとした場合の比較
リンク構造分析 • Blog環境に特化したネットワーク分析手法の導入 • PageRankの限界 • リンクスパム • CMSによる大量のリンク生成 • 情報提供者・評価者としての「個人」 • 個人を評価するアルゴリズム • コミュニティ発見
リンク構造分析 Extracting Latent Weblog Communities: A Partitioning Algorithm for Bipartite Graphs [Ishida(東京農大)] • 引用元(Blog)と引用先を分離し,2分グラフを構築 • ポータル向けにリンクが集中してしまう • 大量のアフィリエイトリンクなどにより,巨大な2分グラフができてしまう • 関連性が最も弱い要素をつなぐパス(WP)を作成し,そのパスのBetweennessを用いてクラスタリング
リンク構造分析 The EigenRumor Algorithm for Ranking Blogs [Fujimura(NTT)] • Blog(個人が特定可能な世界)に適したランキング手法の提案 • コンテンツ間リンクを「情報提供者-コンテンツ」「情報評価者-コンテンツ」リンクに分割 • 情報提供者としての評価・情報評価者としての評価・コンテンツの評価を固有ベクトル法で計算
個人とそのつながり • Blogは「個人」を代表する • 複数のコンテンツをまとめる主体 • 読み手・書き手・編集者を兼ねる • Blogger同士のつながり→ソーシャルネットワーク • 個人の存在を考慮する手法には適用しやすい • 協調フィルタリング • アクセス制御
個人とそのつながり bloggerの嗜好を利用した協調フィルタリングによるWeb情報推薦システム[小原(東京電大)] • 1Blog=1ユーザとみなして協調フィルタリングを適用 • ニュースへのリンクの有無から計算 • コールドスタート問題を回避 実世界の社会ネットワークに基づく情報共有システム[森(東大)] • 抽出・構築された社会ネットワークを利用したアクセス制御
メタデータ • Blogツール=メタデータ生成器 • 標準的なRSS以外のメタデータを付加したい • アプリケーションとともに設計 • 例 • 位置情報 • コンテキスト • 実世界でのコミュニケーションイベント
メタデータ Learning Contextualised Weblog Topics [Avesani(IRST)] • Blogのエントリーをコンテキストごとに読みたい • 例:分散型アマゾンレビュー • 同一コンテキストをどのように判別するか • Tagを利用しても表記のゆれが残る • ローカルコンテキストを利用したカテゴリ名マッチング • Aさんの「Blog」とBさんの「Blogging」を統一 • Syntactic・Semantic・Inductiveな手法が必要
メタデータ GIS & Blogosphere [Hurst(Intelliseek)] • BlogマイニングシステムとGISシステムをつなぐ • Livejournal・XangaからBlogを収集 • ユーザが半手動で位置を登録 • Livejournal:Givenの地名セット • Xanga:Metro(Tagのようなもの) • 地名のマッチング • 曖昧性が高い(複数候補にマッチする)
メタデータ タグ付けされた場所に基づいたコミュニケーション支援[上松(横国大)] • ランドマーク・地名のFolksonomy • GPS携帯電話を用いることで絶対位置とのリンク付け ActionLog[沼(総研大)] • 実世界でのイベント情報メタデータ(タイトル・時刻)を利用したコンテンツ作成支援
Bloggerの行動分析 • Blogがつくりだす人々の振るまいを分析 • ミクロ分析 • マクロ分析
Bloggerの行動分析 • Weblogネットワークの特徴とユーザの行動に関する分析[古川(東京理科大)] • Blog間の関係と,書き手の閲覧行動との相関 • ブックマーク・コメント・TrackBack・定期的閲覧・内容的類似性 • 機械学習による決定木の作成 • 定期的に閲覧しているBloggerがまた閲覧しているものは,自分にとっても有用である • 内容的類似性は大きな影響を与えない
Bloggerの行動分析 The Political Blogosphere and the 2004 U.S. Election: Divided They Blog [Glance(Intelliseek)] • アメリカ大統領選における右派・左派のBlogの記事の傾向を分析 • 同派内リンクは多く,派を越えるリンクは少ない • 同派内の記事の類似性は高く,派を越えると低い
Blog研究の今後 • ここまでのまとめ • リアルタイム性 • 時系列分析 • 個人性・コミュニケーション性 • リンク構造 • 個人とそのつながり • インフラストラクチャー • メタデータ • 結果としての人の振る舞い • Bloggerの行動分析 • Blogは「情報を必要な人にできるだけ速く届けるためのメディア」 • SNS・その他ソーシャルウェアを含む
Blog研究の今後 • 「情報を必要な人にできるだけ速く届けるためのメディア」の使用前・使用後 • 小さなWebではない • 工学系:どうやって実現するか • (メタ)データ • アプリケーション • セマンティックWebの出番? • 社会系:何が実現されたか • 書き手のモダリティ・振る舞い • 国際的な分析
Microformats • XHTMLに付加するためのメタデータ・フレームワーク • 「小文字のセマンティックWeb」の一種 • 例:XFN(XHTML Friends Network) <a href=http://i2k.example.orgrel="friend met"> • Microformats Family • XFN • hCalendar:カレンダー・イベント情報(iCalendar) • hCard:アドレス帳(vCard) • hReview:レビュー • RelNoFollow:検索エンジンのリンク評価禁止
Microformats • 用途ごとに仕様を決める • XMDP:XHTML Metadata Profiles • 語彙の説明 • コンテンツ本体への埋め込み • ネームスペースのようなもの <headprofile=“http://gmpg.org/xfn/11”> • メタデータ <a href=http://i2k.example.orgrel=“CC by-sa” rel=“nofollow”>
Microformats • Less Syntax • XHTMLタグのアトリビュートのみ • class=“***” rel=“***” • Less Semantics • エージェントによる概念の自動発見は不可能 • そもそも既知の問題だけを対象としている • Application Dependent • Microformatsを認識できるアプリケーションがなければ意味がない(ただし害もない) • セマンティックWebも同じ • セマンティックWebへの道 • 相互運用性があればなんとかなる • リンクへのrel要素の付加はRDFのモデルと同じ? • まずはメタデータの絶対量が増えることが重要
まとめ • Blog研究の現在 2005 • Web研究 != Blog研究 になりはじめてきた • コミュニケーションメディアとしてのBlog • 即時性 • 個人性 • コミュニケーション・インタラクション • コミュニティを支えるメタデータ • MicroformatsとセマンティックWeb • 恐れるに足らず(たぶん味方) • UI・UEが引き起こすインパクトは侮れない • Continue to「Blog研究の現在 2006」…