190 likes | 266 Views
藤沢市 議事録の研究. 総合政策学部 3 年 飯塚直 総合政策学部 3 年 臼杵憲一 環境情報学部 4 年 黒崎伸夫. 当初の研究目的. 藤沢市の議事録を年度ごとに集計し、 どんなことが話し合われているのかを分析する 経年で話題の変化が見られるのか? 「 TextImi 」による話し言葉の分析⇒形態素分析 手法 ①出現語頻度表 ②係り受け頻度表 ③基礎意味チャンク集計表. 分析以前にしたこと. データの収集 議事録データ 1995 年度~ 2003 年度 各年度のデータを 4 ~ 5 のファイルに分割
E N D
藤沢市 議事録の研究 総合政策学部3年 飯塚直 総合政策学部3年 臼杵憲一 環境情報学部4年 黒崎伸夫
当初の研究目的 • 藤沢市の議事録を年度ごとに集計し、 どんなことが話し合われているのかを分析する 経年で話題の変化が見られるのか? 「TextImi」による話し言葉の分析⇒形態素分析 手法 ①出現語頻度表 ②係り受け頻度表 ③基礎意味チャンク集計表
分析以前にしたこと • データの収集 議事録データ 1995年度~2003年度 各年度のデータを4~5のファイルに分割 1ファイルのデータ数 10000件 • データの整形 システムに載せるためにCSVデータに置き換える 時間のかかった作業 ①プログラミングによってデータを整形 数値への変換、「発言内容」や「期間」などの分類 ②アップロードのエラーに対処する 元データにあるカンマの削除等
データ入手 藤沢市議会 会議録検索システム http://www02.gijiroku.com/fujisawa/index.html
CSVファイルのフォーマットを伺う ID, 日付, 会議名, 発言者名, 発言本文
CSVファイルの作成から解析可能段階に至るまでの経緯CSVファイルの作成から解析可能段階に至るまでの経緯 授業でアドバイザーの方にCSVファイルの作成要領を伺う(12/5) CSV作成→アドバイザーの方にお願いする(12/13) →指示を頂き、ダブルクオーテーションを削除するように改良(12/17) →IDなどフォーマットエラー多数によりアップロードできず、指示を頂く(12/17) →中間発表で助言を頂き、再度CSV生成(12/19) →1件に対する発言文が多すぎるため、文単位で区切るようにとの指示(12/20) →再度スクリプト作成しCSV生成、アップロード作業をお願いする(12/28) →件数が多すぎてシステムで扱えないことが判明し、村木さんにCSVファイルを1万件ごとに分割して頂く(12/30) →件数が多すぎてアドバイザーの方が対応できず、自分達でアップロードするようにとの指示(1/7) →アップロードおよび解析用URLについて連絡を受ける(1/7) →3人で分担してアップロード作業を進める →件数が多いせいかシステムがうまく作動しないことが多かったため中野さんに相談したところ別のサーバーを用意して頂いたためそちらで解析開始(1/14)
現時点で分析は途中 • データ数が膨大すぎたため、 データの整形やエラーの対処に時間がかかった • 現時点では、出現語頻度表しかできていない • 水曜日のレポート提出までには、集計結果を載せる
出現語頻度表 分析方法 • 全ての年度に共通して出てくるような名詞 「子ども」や「高齢者」などを18語選択し、 出現語頻度表の100位までで出現数を集計する 2. 各年度で特徴的な珍しい名詞。 多年度には出現しない⇒その年度のTOPIX 出現語頻度表の200位までで出現数を集計する
各年度で特徴的な名詞 頻度表200位までに出現した名詞 「その年に話題になったTOPIX」 1995年 「市民病院」 「難病」 1996年 「漁港」 「市民参加」 1997年 「児童クラブ」 1998年 「下水道」 「保育園」 1999年 「ダイオキシン」「寒川町」「NPO」 2000年 「ダイオキシン」「エネルギーセンター」「井戸」 2001年 「ダイオキシン」「荏原」 2002年 「個人情報」
解釈 • 2000年に社会問題となった「ダイオキシン問題」は、 「1999年」 から市議会の議題に挙がっていて、 頻出の出現語として確認することができた。(200位以内) 最も出現頻度が多かった年は「2001年」で、 他にも、問題となった企業名「荏原」の出現頻度が高かった。