300 likes | 519 Views
Twitter Catches the Flu: 事実性判定を用いた インフルエンザ流行予測. 荒牧英治 * ** 増川佐知子 * 森田瑞樹 *** * 東京大学 知の構造化センター ** 科学技術振興機構 さきがけ *** 独立行政法人 医薬基盤研究所. 本研究の特徴. 即時性 これまで: 1 週間間隔の更新であり,非常事態においてその察知が遅れる可能性がある 本研究: 超早期 での警告が可能 大規模 これまで: 全国 5,000 の医療機関の定点観測 本研究: 毎日数万 を超えるインフルエンザに関する Tweet. OUTLINE.
E N D
Twitter Catches the Flu: 事実性判定を用いたインフルエンザ流行予測 荒牧英治 * ** 増川佐知子 * 森田瑞樹 *** * 東京大学 知の構造化センター ** 科学技術振興機構 さきがけ *** 独立行政法人 医薬基盤研究所 NL201SLP86
本研究の特徴 • 即時性 • これまで: 1週間間隔の更新であり,非常事態においてその察知が遅れる可能性がある • 本研究: 超早期での警告が可能 • 大規模 • これまで: 全国5,000の医療機関の定点観測 • 本研究: 毎日数万を超えるインフルエンザに関するTweet NL201SLP86
OUTLINE 問題設定 Twitterを用いることの問題 • 背景 • 目的 • 提案手法 • 実験 • まとめ NL201SLP86
単語の頻度「風邪」「熱」「インフルエンザ」単語の頻度「風邪」「熱」「インフルエンザ」 冬 夏 NL201SLP86
「ひきそう」 • 今日は暑いなぁ・・・・昨日は涼しかったのに。風邪ひきそうだよ・・・ • あう、変な場所で寝てしまった。風邪ひきそう • 冷房ききすぎてて寒い…。本格的な風邪ひくかも。 • おはやう、昨日は寒くて風邪引くかとおもた • 風邪一歩手前。身体が冷えきってるので湯たんぽなう。昨日は遊びすぎた NL201SLP86
「願望」「予防」 • 今年の年末は風邪なんて引いちゃいられない! • 雨で靴が濡れて足が冷えた。ヘッドホンの延長コードが断線した……帰りに新しいのを買いに行く。風邪ひきたくないな。 • 風邪予防マスクがあったかい朝。 • 風邪予防に夜は濡れマスクをして寝てるんだけど、思わぬ副効果有り!唇が荒れない! NL201SLP86
動物の症状/誤字 • そんなことより今はまじめに家事やりたい。今日は子犬さんが風邪気味なので早めに帰ってあったかいものを作ってあげたいと思います。... • おっはよぅ。晴れてるけ ど風邪が強いなぁ。 • 台風並みに風邪が強いな NL201SLP86
アニメの人物の症状 • オリジナル展開のせい でりっちゃんと唯ちゃん で風邪が被ったな • 唯が最終話でひいた 風邪が律より重たかっ たのは、唯は風邪引い たことが無かったので 免疫が無かったからかな。 NL201SLP86
OUTLINE 提案手法 • 背景 • 目的 • 提案手法 • 実験 • まとめ NL201SLP86
学習器による判定(ベースライン)≒スパム判定学習器による判定(ベースライン)≒スパム判定 • 判定のための2つの条件 「投稿者(またはその周辺の人間)が風邪をひく」といった内容であるか? 入力文 内容(命題)の妥当性 その内容は,現在(または近い過去)であり,肯定文であるか? モダリティの妥当性 非事実 事実 NL201SLP86
コーパスの例 NL201SLP86
学習の素性周辺語のBOW (window size=6) たぶん インフル がちょっと流行ってるんかなぁ L1 R2 R1 R3 R5 R6 R4 NL201SLP86
SVM以外の学習手法は? NL201SLP86
OUTLINE 実験 • 背景 • 目的 • 提案手法 • 実験 • まとめ NL201SLP86
どの程度,現実を予測できるのか? • 比較手法 • (1) Tweet-SVM: 提案手法 • (2) Tweet-Raw: ベースライン • 単なるインフルエンザを含んだツィート数 • (3) Google: • Google Flu Trend 日本版 [Ginsberg et.al., Nature2009] • (4) Drug: • 感冒薬(風邪薬) の家計支出 [総務省家計調査] • 評価 • 国立感染症情報センターの報告との相関係数 NL201SLP86
過熱報道期 (新型インフル騒動) 平常時 平常時 過熱報道期 (新型インフル騒動)
結果 過熱報道期 NL201SLP86
R=0.816 R=0.817 R=-0.208 R=0.683 NL201SLP86
結果 NL201SLP86
ピーク前とピーク後で分けて評価 R=0.955 R=0.959 R=0.974 R=0.962 NL201SLP86
OUTLINE 医学/疫学研究(感染症モデル)との比較 • 背景 • 目的 • 提案手法 • 実験 • まとめ NL201SLP86
感染症モデルSIRモデル(1次マルコフ近似) 感染率β 隔離率γ S I R Infectious 感染人口 Removed 隔離人口 Susceptible 感受性人口 経験的にγ≒0.38 (半減期は1.8日) [西浦&合原2009]
仮定: S→I 遷移にTweetする γ=0.38 とすると r=0.834 (> 0.821) BUT: もっともフィットした時はγ≒0.2 (R=0.842) (半減期は3.5日) NL201SLP86
OUTLINE まとめ • 背景 • 目的 • 提案手法 • 実験 • まとめ NL201SLP86
まとめ • 言語情報のみでインフルエンザ流行を推定 • TwitterはWeb検索クエリと同等の精度 • 特に平常時の流行のピーク前の予測精度は世界最高精度(r=0.97) • 感染症モデル(SIRモデル)との整合性 • TwitterはS→I 遷移の観測に相当する • 既存のモデルと整合しつつ高精度 • 実世界を扱うこと 社会的にも学術的にも重要な課題 NL201SLP86
公開しているリソース • コーパス • ガイドライン • カゼミル: 「カゼミル」で検索 • http://mednlp.jp/ • 荒牧英治 Ph.D. • University of Tokyo • eiji.aramaki@gmail.com NL201SLP86