250 likes | 360 Views
アンケート結果からの知識抽出に関する研究. 大阪工業大学大学院情報科学研究科 情報科学専攻 博士 前期課程 2 年 M06-A06 岩切 広賢. 1 . アンケート 分析 の課題と提案. 従来のアンケート分析. 1.1 課題. 分布グラフの生成. 時間・労力がかかる 分析者の能力に応じて個人差が出る 選択回答と記述回答の関連性の分析が困難. 選択回答. アンケート 結果. 回答者の分布. 分析者が 読む. 意見・興味・関心の把握. 記述回答. 1.2 提案. アンケート分析 の提案. 分布グラフの生成.
E N D
アンケート結果からの知識抽出に関する研究 大阪工業大学大学院情報科学研究科 情報科学専攻博士前期課程2年 M06-A06 岩切 広賢
1. アンケート分析の課題と提案 従来のアンケート分析 1.1 課題 分布グラフの生成 • 時間・労力がかかる • 分析者の能力に応じて個人差が出る • 選択回答と記述回答の関連性の分析が困難 選択回答 アンケート 結果 回答者の分布 分析者が 読む 意見・興味・関心の把握 記述回答
1.2 提案 アンケート分析の提案 分布グラフの生成 • 要約処理による「関心語と評価語のペア」の抽出 • 関心の有無/高低に応じて分布グラフを分割した「関心度グラフ」の抽出 選択回答 アンケート 結果 回答者の分布 分析者が 読む 要約処理 意見・興味・関心の把握 記述回答 関心語と評価語のペア
評価語:関心語に対してどういう感想を持ったかを表す語評価語:関心語に対してどういう感想を持ったかを表す語 関心語:回答者が関心・興味を持った語 「関心語と評価語のペア」 • ネットワーク • ユビキタス • シンポジウム • おもしろい • 深い • 新しい • 楽しい • すごい • 有名だ • 難しい • 大切だ • 重要だ
1.2 提案 アンケート分析の提案 分布グラフの生成 分布グラフの分割 • 要約処理による「関心語と評価語のペア」の抽出 • 関心の有無/高低に応じて分布グラフを分割した「関心度グラフ」の抽出 選択回答 アンケート 結果 回答者の分布 関心度グラフ 分析者が 読む 要約処理 意見・興味・関心の把握 記述回答 関心語 関心語と評価語のペア
「関心度グラフ」 関心語:“ネットワーク” 分布グラフ
1.2 提案 アンケート分析の提案 分布グラフの生成 分布グラフの分割 • 要約処理による「関心語と評価語のペア」の抽出 • 関心の有無/高低に応じて分布グラフを分割した「関心度グラフ」の抽出 選択回答 アンケート 結果 関心度グラフ 分析者が 読む 要約処理 記述回答 関心語 関心語と評価語のペア
2. 分析アルゴリズム (1)関心語の抽出 記述回答 要約処理 • 対象:全記述回答 • 形態素解析による名詞の抽出 • 名詞の重要度算出 名詞の重要度=名詞の使用率×名詞の重み • 重要度による関心語の抽出 (1)形態素解析 (2)名詞の重要度算出 (3)関心語の抽出 関心語 (4)用言の重要度算出 (5)評価語の抽出 関心語と評価語のペア
(2)関心語と評価語のペアの抽出 記述回答 要約処理 • 対象:特定の関心語を含む記述回答 • 形態素解析による用言の抽出 用言:動詞・形容詞・形容動詞 • 用言の重要度算出 用言の重要度=用言の使用率×用言の重み • 重要度による評価語の抽出 (1)形態素解析 (2)名詞の重要度算出 (3)関心語の抽出 関心語 (4)用言の重要度算出 (5)評価語の抽出 関心語と評価語のペア
1.2 提案 アンケート分析の提案 分布グラフの生成 分布グラフの分割 • 要約処理による「関心語と評価語のペア」の抽出 • 関心の有無/高低に応じて分布グラフを分割した「関心度グラフ」の抽出 選択回答 アンケート 結果 関心度グラフ 分析者が 読む 要約処理 記述回答 関心語 関心語と評価語のペア
(3)分布グラフの分割 選択回答 関心語 記述回答 (1)分布グラフの生成 (2)関心語利用状況の抽出 分布グラフ 関心語利用状況 • (3)関心語における回答者数の分割 関心度グラフ
3.検証実験 3.1 実験に使用した検証データ • 対象データ:「大阪工業大学情報科学部設立10周年記念シンポジウム」のアンケート (実施日:2006年9月) • 選択設問:8問 • 記述設問:3問 • 参加者数:約550人 • アンケート回収数:309人
3.2 要約処理 (1)関心語と評価語の抽出 関心語の抽出 記述設問1 :「基調講演について、感想やご意見をお聞かせください。」 記述回答数:166件 関心語 評価語の抽出 評価語 関心語 評価語
(2)得られた「関心語と評価語のペア」 記述設問1 :「基調講演について、感想やご意見をお聞かせください。」 面白い 幅広い 話 広がる 内容 面白い 覚える わかる 評価 興味深い • 意味ある関心語と評価語のペアを抽出 • 意味不明/回答者の意図と異なるペアが出現 情報 情報 考える 非常だ 非常だ
3.3分布グラフの分割 (1)記述設問1と選択設問2の関連性の分析 • 記述設問1:「基調講演について、感想や ご意見をお聞かせください」 関心語:“話”、“内容”、“情報” • 選択設問2:「基調講演はいかがでしたか?」 回答項目:
(2)得られた「関心度グラフ」 • 関心語“話”“内容”“情報” • 0%50%0%50%0%50%割合 • 回答項目ごとの関心の有無/高低を明示 • 関心語を含む記述をした回答者はわずか 原因:①記述回答者数(166人)は選択回答者数(300人)に 比べて少なかった ②出現する名詞の数(732個)が多く関心が分散している • 回答項目 大変参考になった 8% 参考になった どちらとも言えない 8% 8% 参考にならなかった 評価 関心が大いにある 関心が少しある 関心がない/不明である
4.今後の課題 • 関心語と評価語のペア • 関心語と評価語の掛かり関係の解析 • 辞書の利用 • 否定形の解析 • 関心度グラフ • 関連のある関心語のグループ化
名詞の重要度=名詞の使用率×名詞の重み 名詞の使用率 =名詞を含む記述回答数 / 全記述回答数 名詞の重み =名詞を含む各記述回答における名詞の重みの平均値 各記述回答における名詞の重み =名詞の出現頻度 / 記述回答における名詞数
名詞の重みの算出 名詞の重要度の算出
関心語利用状況の抽出 • 回答番号1における関心語“ネットワーク”の重みは0.5であり、その関心語の重みの平均値0.38を超えているため、大いに関心があるとして関心語利用状況は2となる。 • 回答番号2では関心語“ネットワーク”を含まないので、関心がない/不明として関心語利用状況は0となる。 • 回答番号3における関心語“ネットワーク”の重みは0.25であり、その関心語の重みの平均値0.38を超えていないため、少し関心があるとして関心語利用状況は1となる。
関心語利用状況 2:大いに関心がある、1:少し関心がある、0:関心がない/不明
補助動詞 別の動詞に後続することにより文法的機能を果たす動詞で、それ自体の本来の意味は保っていない(前の同市との組み合わせで意味を持つ) 例:「いる」、「ある」、「いく」、「くる」 「やる」、「あげる」、「みる」 「みせる」、「ほしい」etc
連想検索 • 連想検索とは、単語ではなく文書を検索要求として入力し、関連する文書を探し出すことのできる検索技術。