760 likes | 996 Views
今そこにある呟き Twitter からのリアルタイムなイベント抽出 及び応用アプリケーションについて. 榊 剛史 @tksakaki 松尾 豊 @ymatsuo 東京大学 松尾研究室. 軽く自己紹介. 東京大学 松尾研究室 博士課程 1 年 株式会社 ホットリンク 特任研究員 以前は、東京電力で電柱昇ったりしてました。 Twitter 上で、よく教授と間違われます。 海外でも間違えられてた・・・・. ↑ウェブ学会のところ. ↑口コミ係長のところ. 今日のアジェンダ. Twitter で分かる「今」と「どこ」 地震抽出システムについて
E N D
今そこにある呟きTwitterからのリアルタイムなイベント抽出及び応用アプリケーションについて今そこにある呟きTwitterからのリアルタイムなイベント抽出及び応用アプリケーションについて 榊 剛史 @tksakaki 松尾 豊 @ymatsuo 東京大学 松尾研究室
軽く自己紹介 • 東京大学 松尾研究室 博士課程1年 • 株式会社 ホットリンク 特任研究員 • 以前は、東京電力で電柱昇ったりしてました。 • Twitter上で、よく教授と間違われます。 • 海外でも間違えられてた・・・・ ↑ウェブ学会のところ ↑口コミ係長のところ
今日のアジェンダ • Twitterで分かる「今」と「どこ」 • 地震抽出システムについて • リアルタイムイベント抽出の仕組み • キーワード検索とSVMによるイベント抽出 • Particle Filter による位置推定 • Twitter上でのリアルタイム情報伝播の特徴 • イベント種類による情報伝播の特性 • リアルタイムイベント抽出 応用システム • にじったー/Toretter • 電車遅延抽出/渋滞抽出 • Celeb Paparazzi(仮)
本日のターゲット層 • アカデミック層 • ビジネス層 →アカデミック向けのマニアックな内容につ いては、 がついてます。 基本的に発表中は飛ばします。 (時間配分によっては説明します)
今日のアジェンダ • Twitterで分かる「今」と「どこ」 • 地震抽出システムについて • リアルタイムイベント抽出の仕組み • キーワード検索とSVMによるイベント抽出 • Particle Filter による位置推定 • Twitter上でのリアルタイム情報伝播の特徴 • イベント種類による情報伝播の特性 • リアルタイムイベント抽出 応用システム • にじったー/Toretter • 電車遅延抽出/渋滞抽出 • Celeb Paparazzi(仮)
Twitterにおける「今」と「どこ」 • Twitterにおける「今」の重要性 • ニュースサイト • ツイちぇき!! • Buzztter • TV見ながらTweet • フォロワーの行動監視
Twitterにおける「今」と「どこ」 • Twitterにおける「今」の重要性 • ニュースサイト • ツイちぇき!! • Buzztter • TV見ながらTweet • フォロワーの行動監視 今何が起きているかが分かる
Twitterにおける「今」と「どこ」 • Twitterにおける「今」の重要性 • ニュースサイト • ツイちぇき!! • Buzztter • TV見ながらTweet • フォロワーの行動監視 今何が起きているかが分かる 他人が何をしているかが分かる
Twitterにおける「今」と「どこ」 • Twitterにおける「今」と「どこ」の重要性 • 地震の発生と震源地を知る • 天体現象を知る • ゲリラ豪雨 • 虹 • 朝の電車遅延情報
Twitterにおける「今」と「どこ」 • Twitterにおける「今」と「どこ」の重要性 • 地震の発生と震源地を知る • 天体現象を知る • ゲリラ豪雨 • 虹 • 朝の電車遅延情報 リアルな世界で 「今」「どこで」何かが起きているのが分かる
Twitterにおける「今」と「どこ」 • 「今」と「どこ」を利用したアプリケーション • Torretter :地震検出システム • 時間的な近さから同じ地震であることを同定 • Geolocation情報、ユーザーのプロフィールの場所情報を利用して、震源地を推定する(未実装) • Nijitter:虹検出システム • 時間的な近さとTweet数から虹が出ていることを同定 • 位置情報をもとに、虹が出ていると思われる場所に虹を表示 • 本日はこの仕組みについて説明 • サンプル:地震
Twitterにおける「今」と「どこ」 • 「今」と「どこ」を利用したアプリケーション • Torretter :地震検出システム • 時間的な近さから同じ地震であることを同定 • Geolocation情報、ユーザーのプロフィールの場所情報を利用して、震源地を推定する(未実装) • Nijitter:虹検出システム • 時間的な近さとTweet数から虹が出ていることを同定 • 位置情報をもとに、虹が出ていると思われる場所に虹を表示 • 本日はリアルタイムイベント抽出の仕組みについて説明 • サンプル:地震
今日のアジェンダ • Twitterで分かる「今」と「どこ」 • 地震抽出システムについて • リアルタイムイベント抽出の仕組み • キーワード検索とSVMによるイベント抽出 • Particle Filter による位置推定 • Twitter上でのリアルタイム情報伝播の特徴 • イベント種類による情報伝播の特性 • リアルタイムイベント抽出 応用システム • にじったー/Toretter • 電車遅延抽出/渋滞抽出 • Celeb Paparazzi(仮)
アプローチ 「地震」「揺れた」を含むTweetから 地震直後に呟いたTweetのみを抽出 Twitterユーザーをセンサーと捉えて 地震検出・震源地推定
ポイント1 機械学習で 「地震」「揺れた」を含むTweetから 地震直後に呟いたTweetのみを抽出
ポイント1 □地震直後につぶやいた呟き 揺れた! こえ~~ 地震だ!! 地震!? 地震! びびったー □その他のつぶやいた呟き 今更、何故「鍋焼きうどん」買うの! こんなに沢山?!地震に供えて? 十年後って、自分が生きてる保証も無いですよね。 地震とか、戦争とかもわからんし・・・?
ポイント1 □地震直後につぶやいた呟き 揺れた! こえ~~ 地震だ!! 地震!? 地震! びびったー □その他のつぶやいた呟き 今更、何故「鍋焼きうどん」買うの! こんなに沢山?!地震に供えて? 十年後って、自分が生きてる保証も無いですよね。 地震とか、戦争とかもわからんし・・・?
ポイント1~説明 Tweet Tweet Tweet … Tweet Twitter search API 検索 キーワードを 含む呟き 「地震」 「揺れた」 提案システム Tweetクローラー テキスト分析器 データベース Mecab SVM
ポイント1~説明 Tweet Tweet Tweet Tweet … Twitter search API 検索 キーワードを 含む呟き 「地震」 「揺れた」 提案システム Tweetクローラー テキスト分析器 データベース Mecab SVM
ポイント1~説明 Tweet Tweet Tweet Tweet … Twitter search API 検索 キーワードを 含む呟き 「地震」 「揺れた」 提案システム Tweetクローラー テキスト分析器 データベース Mecab SVM
ポイント1~説明 Tweet Tweet Tweet … Tweet Support Vector Machine =機械学習の手法 Twitter search API 検索 キーワードを 含む呟き 「地震」 「揺れた」 提案システム Tweetクローラー テキスト分析器 データベース Mecab SVM 地震に関する呟きのみ抽出
ポイント1~詳細説明 • ターゲットとするイベントに関するキーワードを含むTweetを抽出 • 地震の場合 • 「揺れた」「地震」 • 虹の場合 • 「虹」 • 収集したTweetを正解と不正解に分類→ 学習データ • 例: • 「地震だ!!」 --正解 • 「地震が多い国って、日本だけじゃないんだよな・・・」 --不正解
ポイント1~詳細説明 • ターゲットイベント用Tweets分類器作成 • 収集した学習データを利用 • 学習手法:Support Vector Machine • 使用した特徴量(例文:やばい、地震きた!) • 統計量(3語、2番目) Tweetsが全部で何語か?また、キーワードは何番目か? • キーワード( やばい、地震、くる) Tweets中に含まれている全ての語 • キーワード文脈情報(やばい、くる) キーワードの前後に出現する語
アプローチ 「地震」「揺れた」を含むTweetから 地震直後に呟いたTweetのみを抽出 Twitterユーザーをセンサーと捉えて 地震検出・震源地推定
ポイント2 Twitterユーザーをセンサーと捉えて 地震検出・震源地推定
ポイント2~説明 Twitterからのイベント検出 センサーによるイベント検出 確率モデル 確率モデル センサーの測定値 呟き分類器 tweets ・・・ ・・・ ・・・ ・・・ ・・・ センサーによる観測 Twitterユーザーによる観測 ターゲット オブジェクト イベント発生
ポイント2~説明 Twitterからのイベント検出 センサーによるイベント検出 確率モデル 確率モデル センサーの測定値 呟き分類器 tweets ・・・ ・・・ ・・・ ・・・ ・・・ ユーザーが「地震」について呟く センサーによる観測 Twitterユーザーによる観測 ターゲット オブジェクト イベント発生
ポイント2~説明 センサーによるイベント検出 Twitterからのイベント検出 確率モデル 確率モデル センサーの測定値 ・・・ 呟き分類器 ・・・ ・・・ tweets ・・・ ・・・ ユーザーが「地震」について呟く センサーによる観測 Twitterユーザーによる観測 ターゲット オブジェクト イベント発生
ポイント2~説明 センサーによるイベント検出 Twitterからのイベント検出 地震に関する呟きを抽出 確率モデル 確率モデル センサーの測定値 呟き分類器 tweets ・・・ ・・・ ユーザーが「地震」について呟く センサーによる観測 Twitterユーザーによる観測 ターゲット オブジェクト イベント発生
ポイント2~説明 センサーによるイベント検出 Twitterからのイベント検出 地震を検出 地震に関する呟きを抽出 確率モデル 確率モデル センサーの測定値 呟き分類器 tweets ・・・ ・・・ ユーザーが「地震」について呟く センサーによる観測 Twitterユーザーによる観測 ターゲット オブジェクト イベント発生
ポイント2~説明 センサーによるイベント検出 Twitterからのイベント検出 地震を検出 地震センサーが地震を検出 地震に関する呟きを抽出 確率モデル 確率モデル センサーの測定値 呟き分類器 tweets ・・・ ・・・ ユーザーが「地震」について呟く センサーによる観測 Twitterユーザーによる観測 ターゲット オブジェクト イベント発生
ポイント2~説明 Twitterからのイベント検出 センサーによるイベント検出 地震を検出 地震センサーが地震を検出 地震に関する呟きを抽出 確率モデル 確率モデル センサーの測定値 呟き分類器 tweets ・・・ ・・・ ユーザーが「地震」について呟く センサーによる観測 Twitterユーザーによる観測 ターゲット オブジェクト イベント発生
ポイント2~説明 センサーによるイベント検出 Twitterからのイベント検出 地震を検出 地震を検出 地震センサーが地震に反応 地震に関する呟きを抽出 確率モデル 確率モデル センサーの測定値 呟き分類器 tweets ・・・ ・・・ ユーザーが「地震」について呟く センサーによる観測 Twitterユーザーによる観測 ターゲット オブジェクト イベント発生 センサーによる観測と同じ確率的処理で検出可能
ポイント2~詳細説明 • 実際には確率モデルを使用して検出 • Twitterユーザーをセンサーを考えると、ノイズが多く、また誤検出もあり得る • 1つのTweetだけでは、イベントが起きたとは判定できない →時系列的なセンサーの値から、イベント判定を行う • 2つの確率モデルを利用 • 時系列データよりイベント検出を行う確率モデル • 指数関数にフィッティング • 一連の位置情報より位置推定を行う確率モデル • ベイズフィルタを使用
ポイント2~詳細説明~時系列モデル • 観測データを指数関数にフィッティング • ターゲットイベントの発生判定を、指数分布に基づいて確率的に算出
ポイント2~詳細説明~空間モデル • ターゲットイベントの発生場所の確率分布を算出 • センサーによる位置推定に使われるベイズフィルタを利用 • カルマンフィルタ • パーティクルフィルタ
ポイント2~詳細説明~空間モデル • カルマンフィルタ • ベイズフィルタとして最もよく使われている手法 • 長所計算が速い • 短所適用対象が、高精度かつ計測間隔の短い • センサーに限られてしまう
ポイント2~詳細説明~空間モデル • パーティクルフィルタ(粒子フィルタ) • 確率分布をparticle=粒子の集合でシミュレートする手法 • 長所さまざまな確率分布に適用可能 • 短所高次元なデータを用いた予測には適用できない • (位置推定は2次元なので適用可能)
検出の精度 どのくらいの精度で検出できたのか?
地震自体の検出結果 期間: 2009年8月 – 2009年9月 収集したTweet数: 49,314tweets 利用したTweet数: 6291 tweets by 4218 users 震度3以上の地震を96%の精度で検出
Kyoto Tokyo 予測震源地 (提案) Osaka 実際の震源地 震源地予測結果 風船:呟きの位置 色:呟き時刻
台風の進路予測 実際の経路 予測経路 (Particle Filter)
問題点 地震検出の精度・位置推定の精度が Twitterユーザーの多い地域>少ない地域 震源地が海だと予測できない
今日のアジェンダ • Twitterで分かる「今」と「どこ」 • 地震抽出システムについて • リアルタイムイベント抽出の仕組み • キーワード検索とSVMによるイベント抽出 • Particle Filter による位置推定 • Twitter上でのリアルタイム情報伝播の特徴 • イベント種類による情報伝播の特性 • リアルタイムイベント抽出 応用システム • にじったー/Toretter • 電車遅延抽出/渋滞抽出 • Celeb Paparazzi(仮)
Twitter上でのイベント情報の伝播 • 調査の発端 • センサーによる観測手法 →センサー同士が影響しないことが前提 → Twitterユーザー同士は影響を及ぼしてしまうのではないか? • 2種類のイベントについてネットワークの特徴量を比較 • ユーザーの周囲で突発的に発生するイベント • 地震・台風 • 学会/研究会イベント
Twitter上でのイベント情報の伝播 • 2種類の情報伝播ネットワークを定義 • フォロワーネットワーク • Retweetネットワーク ユーザーB follow ユーザーA 地震?? 地震が起きたっぽい 地震?? 大丈夫!? RT @user B: 地震?? follow ユーザーB ユーザーA