390 likes | 560 Views
日本語テクスト解析ツール TextImi. 慶應義塾大学大学院政策・メディア研究科後期博士課程 中野智仁( tomohito@sfc.keio.ac.jp ). 言語と世界. 人間とは無関係に言語と世界が対応しているわけではない 言語を用いて人間は世界を理解し、意味づけていく. 世界(外的世界・内的世界). 言語. Mental Representation 心的表象. 何を表現するか( What ) どう表現するか( How ). 意味の社会的構築.
E N D
日本語テクスト解析ツールTextImi 慶應義塾大学大学院政策・メディア研究科後期博士課程 中野智仁(tomohito@sfc.keio.ac.jp)
言語と世界 人間とは無関係に言語と世界が対応しているわけではない 言語を用いて人間は世界を理解し、意味づけていく 世界(外的世界・内的世界) 言語 Mental Representation 心的表象 何を表現するか(What) どう表現するか(How)
意味の社会的構築 アイデアや観念は言葉で語られ、言葉で形を与えられる中でなんらかの方向性(つまり言説)を持つようになる。言葉によって、それをどう捉えるか、どういうふうに見るのかのパースペクティブを決めていく。見えないものは言葉によってのみ、語れることによって作られる。 そのようにして作られた「世間」観や「社会」観が曖昧とはいえ多くの日本人に共有され、それぞれの「世間」や「社会」の捉え方にのっとって普段の生活が営まれている。言葉の分析を通じて改めて人々にとっての「世間」や「社会」の実質的なあり方を明らかにすることで、たとえば日本文化に対する考察、日本人の持つ「公共性」の理解といったより大きな分野や研究領域にも寄与する「意味的な視点からの」独自の展開の可能性を提供しうる。
社会現象の質的理解への関心 現場の声・知識 関与するアクターたちの間の意識、認識 コミュニケーションを通じて編成される彼らの知 さまざまな方法論と手法 現象学的社会学、シンボリック相互作用論、エスノメソドロジー… 言語分析、言説分析、参与観察、フィールドワーク…
データとしてのテクスト 人々の意味づけの痕跡としてのテクスト あることについて人々がそれぞれに言葉をもって発言した内容、表現の記録 ネットワーク技術の進展とテクスト取得量の増加 数千件~数万件の自由回答文(FA) ネットワーク上のコミュニティにおける投稿 デジタル化された既存のアンケートやインタビュー記録のストック テクスト分析の範囲の拡大 大量のテクストデータへの低コストでのアクセス 一部の集団から不特定多数まで、範囲の拡大の可能性
大量テクストの効率的な処理の必要性 人間の独力の解釈には余るデータの量 「どういう人のどういう発言がどれだけあったか」 数千~数万の数の発言からの読み取りの困難 現状なされている試み:テキストマイニング 自然言語処理技術の応用 形式化されていない自然文を単語などに分割し、その出現頻度や相関を解析していく
テキストマイニングの基本技術 テクストの単語単位への分解・定量化 子供に携帯電話を持たせる親が増えた。 [ [子供],[に],[携帯],[電話],[を],[持つ],[せる],[親],[が],[増える],[た] ] テクスト中の単語間の関係からの概観 特定キーワードの増減、相関関係から見る大量データの概要 表現に対する重み付けを通じての評価点の計算
テキストマイニングの例 形態素解析によってテキスト内の単語を抽出 得られた単語をシソーラスを用いてクラスタリング 各クラスターと回答者の属性(性別、年代)のクロス集計をコレスポンデンス分析 松村真宏「mixiにおける男女別・年代別の利用者意識の抽出」第22回ことば工学研究会, SIG-LSE-A503, pp.71-81, 2006.
言語分析には適用しづらいテキストマイニング 言語分析には適用しづらいテキストマイニング 実際の意味内容の確認までの困難 単語や単純な係り受けを基本とした情報のみでは実際の発言における意図や評価についての解釈は定まりにくい 実際の分析においては結局のところ分析者自身がテクスト原文を読み込むという作業が不可欠となってしまう →(作業のコストおよび解釈の恣意性やブレの問題の発生) 結果としての大量テクストの未活用 生データのリスト添付のみ サンプリングしたうえでの代表的な意見のみの抜粋 分析者の主張の傍証として特徴的な意見のみをピックアップ
問題の整理 ネットワークに蓄積される大量のテクストデータ 「大量の」人々の意見・主張・認識の直接的な調査の可能性 大量テクストの処理方法の未発達 データのあたり付け、概観にのみ有効なテキストマイニング 意味内容にまで踏み込んだ分析は行えず、未活用のテクスト
「意味チャンク」による解析の提案(1) 日本語テクスト解析ツールTextImi 機械は大量データの処理を効率的に行える しかし意味の解釈まではおこなえない 意味の解釈そのものは人間(分析者)自身が行う必要がある ただし人間に大量のデータを一貫して読み解くという行為は難しい 機械は大量テクストの分析の支援として、テクストから人間の解釈を妥当に行わせる、より「実質的な意味のまとまり」を解析抽出し表示する必要がある。
「実質的な意味のまとまり」? 言葉の意味は使用の中に現れる 他の語との意味的な関係(結合・分節)のなかで始めてその情況における意味が意味づけられる そして、意味的に関係があるということと、統計的に関係があるということはかならずしもイコールではない 人は言葉をどのように意味的に関係付けているのか 特に動詞と助詞の意味調整的な機能に注目する 動詞の図式構成機能 助詞の操作子機能
「意味チャンク」による解析の提案(2) 意味のまとまり:意味チャンク テクスト解析に、以下に定義される単位を用いる ひとつの受け語(述語)と 助詞を含むそこに係るすべての(0個以上の)係り語 のひとまとまり 意味チャンクの複合として文を解析する 子供に携帯電話を持たせる親が増えた。 (1)[ [子供, に]-[携帯電話, を]- [持つ] ] (2)[ [親, が]- [増えた] ]
Noun + Particle Adverbial relation Meaning Chunk Predicate Adnominal relation Compound Meaning Chunk
TextIMI deals with text as a set of various MCs. • (a) • 携帯電話を子供に買い与える親がどんどん増えている。 • (Many parents have come to give their children mobile phone.) • (b-1) • [ [子供, に]-[携帯電話, を]- [買い与える] ] • (to buy and give mobile phone to children) • + • (b-2) • [ [親, が]- [増えた] ] • ((the number of ) parents increases)
意味チャンクの解析 • 「太郎が次郎に花子を紹介する。」 • チャンク構成要素 • 述語:「紹介する」 • 係り語:「太郎-が」「次郎-に」「花子-を」 • 「花子を太郎が次郎に紹介した。」 • チャンク構成要素 • 述語:「紹介する-た」 • 係り語:「太郎-が」「次郎-に」「花子-を」 • 「太郎が弟の次郎に美しい花子を突然紹介した。」 • チャンク構成要素 • 述語:「紹介する-た」 • 係り語:「太郎-が」「次郎-に」「花子-を」 語順の違いや、副詞形容動詞等の装飾があっても、構成要素のマッチングにより同じチャンクとして抽出される
意味チャンクの解析 • ファンデーションの使用感想についてのアンケート実文より • (現在使用しているファンデーションの良い点) • 「しっとり 肌になじむ 感じ、粉っぽく浮かない。」 • 「 肌に 良く なじむ 。」 • 「自分の 肌になじんでいる 。」 • 「 肌に よく なじむ 感じが気に入っている。」 • 「さらっと 肌になじむ ところ。」 • 実際の表現としては様々な書き方があるものの、「肌になじむ」というチャンクを含んでいるという点で同様。 • 他の類義語(「なじむ」と似たような意味の動詞等)、表記の揺れを設定し吸収することで、類似の意味内容、意見を機械的に抽出し、集約することができる。
テクストからのチャンク解析結果の検索 検索結果の出力 検索条件の指定 チャンク解析 検索インターフェイス テクストデータの集合 テクスト内意味チャンクのデータベース(索引)
「意味チャンク」による解析の利点(1) 小さな文脈のテクストからの抽出 言葉と言葉との関係をある程度保持した単位 名詞が助詞、述語と共に抜き出されるからこそ、それがどのような意味で使われているかについての解釈がそれなりに容易に行われるようになる テクストからの意味解釈の揺れ、恣意性が大幅に縮減されることが期待される
「意味チャンク」による解析の利点(2) 意味内容を保持しつつの自然文の標準化 本来複雑な文構造を、ひとつの述語および係る名詞助詞という形で標準化することにより、同じような構成要素を持った基礎意味チャンクの集合が整理されて表示される 同じような意味内容のチャンクを含むと期待されるテクストが抽出され、テクスト内の意味内容の効率的な集約ができる
「意味チャンク」による解析の利点(3) 解釈の軸としての意味チャンク 入力に対しての機械の解析は一貫している 類似の構造(同義の名詞、述語や、助詞の特定のパターン)を持つ意味チャンクを機械に解析・抽出させることで、ぶれることのない一定の基準を基に大量テクストの意味内容の解釈を行うことができる
意味チャンク集合からの意味内容の集約 テクストからの意味チャンクの検索 特定の語を用いてテクストに書き手が表現した内容を意味チャンクの検索やチャンク間の参照関係をたどる そのテクストのテーマにおける同義語や表現の揺れを吸収することで類似の意味チャンクを抽出していく 意味チャンクの集合のグルーピング 得られたチャンクの集合に対して、同様の内容を語っていると解釈、判断できたものにコードを振り、まとめ、テクスト内の意味内容の構造化を行っていく
意味内容の集約例(1) 通所介護利用者アンケート(社団法人かながわ福祉サービス振興会実施) 自由回答質問 現在利用している通所介護サービスの改善してほしい点 回答期間: 平成13年度~平成16年度 総回答者数: 1922件 (H13-180件, H14-849件, H15-824件) テクストに含まれる意味チャンク数: 8390件
意味内容の集約例(2) 頻出単語を含む意味チャンクの検索を行い、その語がどのように語れているかを抽出する このテクストの場合、全名詞10906件のうち、「時間」という語が一番多く、488件 (△は未回答者の記号)
意味内容の集約例(3) 「時間」を含む意味チャンクとして [[時間,を]-[長くする]] [[時間,を]-[延長する]] などが頻出する。これらのチャンクを抽出する検索式に対し、 「介護サービスの利用時間に関する不満要望」 としてコードを振る
意味内容の集約例(4) ただし、同時に「送迎」や「迎え」、「バス」などを含む意味チャンクに関しては、送迎バスの到着時間などに対する不満である場合も一覧表から確認された 「時間」という語が長い、短い、早い、遅いなどの述語と結びついていて、かつ「送迎」や「入浴」、「レクレーション」といった語も含む意味チャンクを抽出し、「別の」時間について言及するものとして別途妥当なコードを振る
不満・要望意見の集約結果 語の出現ランキングにおける名詞上位20件、動詞・形容詞上位10件に対して同様の作業をおこなった 最終的に8390件の意味チャンクから不満・要望意見として判断されたのは述べ1853件
不満・要望意見の集約結果 制度・運営に関する不満・要望意見 代表名 「利用時間を延長してほしい」意見数:251 「施設・設備を改善してほしい」意見数:75 「利用日数・手続きに融通をきかせたい」意見数:47 「職員を増やしてほしい」意見数:26 「土日祝日にも利用したい」意見数:21 「職員の入れ替わりが激しい」意見数:20 「ショートステイを利用したい」意見数:17
不満・要望意見の集約結果 サービス・プログラムに関する不満・要望意見 代表名 「送迎を改善してほしい」意見数:116 「リハビリテーションを充実してほしい」意見数:96 「食事を改善してほしい」意見数:75 「連絡を徹底してほしい」意見数:67 「レクレーションを充実してほしい」意見数:51 「入浴を改善してほしい」意見数:45 「外出がしたい」意見数:35 「利用者の個別性を考慮して欲しい」意見数:34 「トイレを改善して欲しい」意見数:20 「することがない/つまらない」意見数:17 「利用者に過保護すぎる」意見数:17 「専門的なサービスが受けたい」意見数:10
不満・要望意見の集約結果 その他 / 特になし 代表名 「その他」意見数:100 「特になし」意見数:713
大カテゴリの経年変化 不満・要望意見の構造の変化
カテゴリ「制度・運営」内の意味内容の経年変化 カテゴリ「制度・運営」内の意味内容の経年変化 「制度・運営」に関する不満・要望意見比率の経年変化
意味内容の集約例(4) ファンデーションブランド調査(オンラインリサーチ) 自由回答質問 現在使用しているファンデーションブランドの好きなところ・良いところ・気に入っているところを出来るだけ具体的にお知らせくだい。 現在使用しているファンデーションブランドの嫌いなところ・悪いところ・気に入らないところを出来るだけ具体的にお知らせくだい。 回答期間: 2005年9月22日~2005年9月26日 総回答者数: それぞれ10859件
現使用ブランド評価とブランドスイッチ意向 現使用ブランド評価とブランドスイッチ意向 スイッチ意向 あり スイッチ意向 なし スイッチ意向 あり スイッチ意向 なし 良い点・気に入っている点 悪い点・気に入らない点
大量テクストからの意味内容の集約 意味チャンクを軸とした分析者の解釈 小さな文脈としての意味チャンク 機械による一貫した意味チャンクの抽出 人間による柔軟な解釈・カテゴライズの支援 大量の質的情報の活用にむけての、ただ語の分布を見るのではなく、ただ読み込むのではない、人々それぞれの声を掴み取るテクスト分析ツール・手法 課題・展望 「解釈」の位置づけ 分析者(人間)の解釈を前提としその介入を大幅に許す本ツール 同じデータであっても分析者によって結果が異なりうるなかで、その妥当性を機械の一貫性以外の部分でどれだけ確保することができるか