270 likes | 336 Views
ブログマイニングによる観光情報分析. 北海道工業大学 情報デザイン学科 岩佐渉、三田村保、湯川恵子、大堀隆文. はじめに. ブログ:日々更新される日記的サイト ブログ開設数 868 万人、インターネット利用者全体の 11% 現在、北海道では観光産業が基幹産業として非常に重要視されている 「北海道」というキーワードを含むブログはブログ検索サイトで検索すると 150 万以上存在する 本研究では、ブログマイニングツールの開発を行い、ブログと観光との関連についての研究の基礎的な検討を行った. 内容. ブログマイニング FC2 ブログ 開発ツール「 blogHITer 」
E N D
ブログマイニングによる観光情報分析 北海道工業大学 情報デザイン学科 岩佐渉、三田村保、湯川恵子、大堀隆文
はじめに • ブログ:日々更新される日記的サイト • ブログ開設数 868万人、インターネット利用者全体の11% • 現在、北海道では観光産業が基幹産業として非常に重要視されている • 「北海道」というキーワードを含むブログはブログ検索サイトで検索すると150万以上存在する • 本研究では、ブログマイニングツールの開発を行い、ブログと観光との関連についての研究の基礎的な検討を行った
内容 • ブログマイニング • FC2ブログ • 開発ツール「blogHITer」 • システム構成 • 形態素解析ツール「chasen」 • 分析結果 • 「旅行」カテゴリユーザの分析
ブログマイニング • ブログマイニング webマイニング技術利用によりブログを解析し、社会情勢やコミュニティの存在など有益な情報を取り出すこと • webマイニング データベース技術、情報検索技術、自然言語処理技術との関連性も深く、データマイニング技術と連携している。 • webコンテンツマイニング:webページを構成するテキスト情報 • web構造マイニング:webページ間を結ぶリンク構造情報 • web利用マイニング:webページへのアクセスログ • 本研究は、webコンテンツマイニングであり、ブログの内容を対象としている。
主なブログ • 主なブログとして16種類挙げる。
FC2ブログ • 様々なカテゴリのブログを作ることが可能 • 全てにおいて優良で、幅広い目的にあったサービスを展開。 • 登録者数は80万人以上。
blogHITerの構成 • ブログ収集 • ブログ解析 • バースト検索 • 傾向分析 • 行動分析
ブログ収集 • Entry.java fc2.txtからデータを読込む ブログにアクセスし、内容を保存 • Getfc2.java newentry.rdfを解析 fc2.txtに必要なデータを保存
ブログ解析 • バースト検索 検索された言葉に関して、ブログ著者間の使用頻度を検索し表示する機能 • 傾向分析 指定されたユーザIDや月に関して、それぞれの言葉の使用頻度を検索し表示する機能 • 行動分析 ブログ記入時間がいつだったかを表示する機能
Chasenについて • 自然言語処理のうち、形態素解析(Morphological Analysis)に用いられるツール。 • 奈良先端科学技術大学院大学の自然言語処理学講座で開発がなされ、フリーで配布されている。
収集ブログデータ • 収集対象:FC2ブログ • 収集範囲:2005/7/1~2006/6/31 • 収集ID数:338件 • 総記事数:32,841個 • 最小記事数:1個 • 最大記事数:364個 • 平均記事数:97.1個
バースト検索結果(検索語=「冬休み」) • 冬休み期間である12月、1月が回数が多い。 • 7月、8月は回数が少ない。
傾向分析結果(ユーザID=「156」) • 「写真」という言葉が多く、趣味が写真であると考えられる。 • 「156」は昼にブログを書いていることがわかる。 • 実際に「156」のブログを確認したところ、写真関係の記事が多い。
行動分析結果(全ユーザ) • ブログ記入時間の1時間毎の総計を分析することが出来る。 • 個々の行動分析をまとめて見ることが出来る。
行動分析の総計のグラフ • 22時から1時までの夜間にブログを投稿している人が多い(25%) • 昼時である12時が多い(8%) • 朝方の5時、6時は投稿している人はほとんどいない(1.3%)
ブログと観光との比較分析 • 一般ユーザと旅行カテゴリユーザの比較 • 行動分析 • バースト検索
FC2ブログカテゴリ一覧 • 日記 • ニュース • ブログ • モブログ • 音楽 • 映画 • 政治・経済 • オンラインゲーム • ゲーム • アニメ・コミック • 本・雑誌 • 小説・文学 • 車・バイク • テレビ・ラジオ • アイドル・芸能 • 就職・お仕事 • 恋愛 • ファッション・ブランド • 結婚・家庭生活 • 育児 • ペット • 趣味・実用 • ライフ • 株式・投資・マネー • アフィリエイト • グルメ • ヘルス・ダイエット • ビジネス • コンピュータ • 携帯電話・PHS • 写真 • 地域情報 • 旅行 • 海外情報 • スポーツ • ファイナンス • 学校・教育 • 福祉・ボランティア • 学問・文化・芸術 • お笑い • ギャンブル • 謎 • 独身・フリー • 心と身体 • サブカル • その他 • アダルト 計47個
収集ブログデータ(旅行カテゴリ) • 収集対象:FC2ブログ・旅行カテゴリ • 収集範囲:2006/1/1~2006/12/31 • 収集ID数:111件 • 総記事数:8699個 • 最小記事数:1個 • 最大記事数:363個 • 平均記事数:78.0個
旅行カテゴリと一般の行動分析比較 • 一般は夜間に更新することが多いのに対し、旅行カテゴリは18時-が多い。
旅行カテゴリの傾向分析(ユーザID=「chikatetsu」)旅行カテゴリの傾向分析(ユーザID=「chikatetsu」) • 地下鉄関係の人であると推測できる。 • 夕方から夜にかけて更新することが多い。 • 実際に、確認したところ駅員であった。
検索語「観光」での検索結果 • 338人中92人(27.2%)から検出した。
検索語「旅行」での検索結果 • 338人中192人(56.8%)から検出した。
「観光」の検出人数 • 7、8月が多い。 • 徐々に下がっていくグラフ。
「旅行」の検出人数 • 7、8月や3、4月に検出される人数が多い。 • ほぼ一定なグラフ。
終わりに • ブログ分析ツールblogHITerの開発 • ブログの記事が投稿された時間を表示する行動分析 • そのユーザーがどのような単語を多く使っているかという傾向分析 • 今後の展開 • 記事内容、トラックバック、コメント、アフィリエイトの分析 • 他のブログ(livedoorブログ等)のマイニング • ブログ検索エンジン(テクノラティ等)の活用 • 観光とブログ分析の比較 • 一般ユーザと旅行カテゴリユーザとの比較 • 観光データとの比較
ブログマイニングによる観光情報分析 北海道工業大学 情報デザイン学科 岩佐渉、三田村保、湯川恵子、大堀隆文