1 / 23

言語情報を利用したテキストマイニング

言語情報を利用したテキストマイニング. 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓  山本 薫  坪井 裕太 松本 裕治. 本発表の目標. 構文解析された文の集合から頻出する部分木を抽出 部分木のサイズに制限を設けない 巨大なコーパスに対し,高効率,スケーラブルである必要. a. a. c. a. d. b. c. d. c. d. a. a. a. a. d. c. b. c. c. d. a. a. b. c. c. d. 頻出する部分木の抽出 (頻度2回以上). 構文木の集合. 映像は良いが

julian-mann
Download Presentation

言語情報を利用したテキストマイニング

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 言語情報を利用したテキストマイニング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓  山本 薫  坪井 裕太 松本 裕治

  2. 本発表の目標 • 構文解析された文の集合から頻出する部分木を抽出 • 部分木のサイズに制限を設けない • 巨大なコーパスに対し,高効率,スケーラブルである必要 a a c a d b c d c d a a a a d c b c c d a a b c c d 頻出する部分木の抽出 (頻度2回以上) 構文木の集合

  3. 映像は良いが   音声は悪い 映像  良い   音声  悪い ? 映像は悪いが   音声は良い テキストを単語の 集合として表現  (Bag of Words) テキストマイニング(1/2) • 文書分類,クラスタリング,単語共起の抽出 • これまでのテキストマイニングの多くは… テキストが持つ意味のある構造 が捉えられない

  4. 形態素解析 単語同定 チャンキング 係り受け解析 構文解析済みテキスト マイニング アルゴリズム 構造化された知識 (頻出する部分構文木) 半構造テキストマイニング テキスト 形態素解析 単語同定 単語の集合 マイニング アルゴリズム       知識 (頻出する単語の共起)

  5. a:4 b:3 c:3 a b:2 a c:2 マイニング結果 シーケンシャルパターンマイニング(Agrawalら94) 系列 sid 1 a c d アイテム 2 a b c 3 c b a 最小サポート値 = 2 4 a a b 系列データベースS • 系列データベースSで  (最小サポート値) 回以上の系列 に出現する部分系列を完全に列挙 • 自然言語処理: アイテムを単語,系列を文,テキスト中の  回以上の文に出現する単語の列を列挙

  6. 射影 2 c 1 c d a:4 b:3 c:3 d:1 a:1 b:2 c:2 a:1 c:1 c:1 d:1 a:1 b:1 d:1 2 b c 4 a b 1 d 2 c 3 a a:4 a b:2 a c:2 b:2 c:3 1 d 3 b a 結果 PrefixSpan (Peiら 00) 系列 sid 1 a c d 2 a b c 3 c b a 4 a a b 最小サポート値=2

  7. b-r1 a b は r1 の関係 b-r2 a b は r2 の関係 b-r3 a b は r3 の関係 • 射影の詳細化 • a b が構造的に 関係 r を 持つ • b で 射影せず, b-r (アイテム名-関係名で射影) PrefixSpan の拡張(1/2) 射影? a b • 射影の制約 • 隣接するアイテムのみ 射影(N-gram) • 係り関係のみ • 言語制約(機能語の連続は考慮しない • 頻度以外の制約の導入

  8. PrefixSpan の拡張(3/3) sid 系列 関係関数 1 a c d a 2 b a c b 3 b c b a 4 b a c d S • S 中の 系列 sid の i番目と j番目のアイテムの関係(rel)を返す • アイテム-関係関数の返り値(rel) で射影 • 返り値がεの場合は射影を行わないと定義 • 関係関数の実装により半構造化データ,言語的制約を表現 • 具体例 (N-Gram,チャンク,係り受け)

  9. 係り受け(1/2) • 日本語は比較的語順が自由 • 係り受けを考慮することで,意味的に同一で語順の異なる文を同一視 • 係り関係木の正規化 f f e e d a a d c b b c

  10. 係り受け(2/2) • 係り元(i)の係り先(j)からみて k(k>=0)代目の子孫であるとき(i,j)の関係名を k と定義, それ以外はε • 係り受け木→系列 ε f e 0 a b c d e f ((a (b (c d)) e) f) a 1 d i 2 2 1 0 ε b 2 c 2

  11. 1 c-0 d-ε 1 d-0 b-1:1 c-0:3 a-0:2 c-0:1 a:4 b:3 c:4 d:1 b-0:1 d-0:1 c-0:1 d-0:1 2 b-1 c-0 0 ε 4 c-0 1 0 1 c-0 2 c-0 0 a-0 3 a:4 a c-0 :3 b:3 b a-0 :2 c:4 4 a-0 c-ε 1 d-0 結果 3 b-0 a-ε 係り受け(3/3) 系列 1 ((a c) d)) 2 (a (b c)) 3 ((c b) a) 4 ((b a) c) 最小サポート値=2

  12. 実験 • 新聞記事 (京都大学コーパス3.0 約38,000文) • 小説 (「我輩は猫である」 全文 約 9,000文) • ChaSen,CaboChaを用いて形態素,係り受け解析 • 構造  • 文節をアイテムとする係り受け構造

  13. 実験結果 • ((ついて 述べ,) (記者会見で 明らかにした)) • ((各地の 震度は) (次の 通り)) • (ことが (調べで 分かった)) • (休養を (また (我輩は 要する)))   新聞記事に頻出する定型表現が抽出できた

  14. 応用例: 対訳パターン抽出 英語 日本語 単純に連結 J1 J2 J3 ….. Jn E1 E2 E3 ….. Em 単言語間は その言語の構造で 規定される関係関数 二言語間は すべての射影を許可 • 共起する構造化パターンの抽出 • Dice 係数,相互情報量等で順位付け

  15. まとめ • 自然言語処理ツールを利用し,その結果得られた半構造化テキストデータに対するマイニング手法を提案 • PrefixSpanに対し,「関係関数」を導入, 種々の言語的な情報を反映した半構造化データに対するマイニング手法の提案 • 対訳パターンの抽出に利用できる可能性を提示

  16. 今後の課題 • 抽出されたパターンの客観的有効性の評価 • 対象とする構造,関係関数の違いにより,具体的な応用でどういった差があるか評価 • グラフ構造に対する関係関数の記述方法 • 完全性,健全性の議論

  17. ご静聴ありがとうございました PrefixSpanの C++ による実装は http://cl.aist-nara.ac.jp/~taku-ku/software/prefixspan/ にて入手可能です

  18. チャンク(2/3) 友達と京都に行って,ラーメンを食べた  行く {友達, 京都} 食べる {ラーメン} それぞれ 辞書式に ソート { {

  19. 実験結果

  20. データマイニング • 膨大なデータから有益,興味のある,思いがけないデータを明示的な知識として発見 • 膨大なデータから頻出する部分パターンの発見 • 膨大なデータに対してスケーラブルである必要性 • バスケット分析 • 顧客の購買分析                         (ソーセージを買う人はロールパンを買いやすい)

  21. 応用例1: 機械学習の素性抽出 • 半構造化データに対し,クラス   ラベル(+1,-1)が付与 • 半構造化データの部分パターンを  素性として選択 • 単純にクラスとデータを連結 • クラスラベルと部分パターンの   共起度(相互情報量,dice係数)の 高いパターンを素性として選択 ((a b) (c d)) +1 -1 +1 +1 -1 .. (c (b (e f))) (a (c (d e))) ((a c)(d e)) (c (a (b e)))

  22. マイニングの手法 • 幅優先 (Apriori) • 候補生成-テスト • データーベースを何回も捜査する必要がある • 深さ優先 (FP-Tree, PrefixSpan) • 分割統治法 • 並列性,メモリの使用量が少ない

  23. 応用例: 対訳パターン抽出(2/2) • 実験 • 日英対訳コーパス 9268文 • 構造: 系列, N-gram (機能語相当は考慮しない) • 系列 52分, N-gram 7秒で全候補パターンを生成 • 系列にて発見されたパターン • earliest convenience 都合 つき 次第 • let …..know お知らせ • thank ….letter 手紙 ありがとう • 連続しない単語の翻訳パターンが抽出

More Related