1 / 41

談話の顕現性を考慮した 重要語抽出とその応用

飯田 龍 徳永健伸 東京工業大学 { ryu-i,take }@ cl.cs.titech.ac.jp. 談話の顕現性を考慮した 重要語抽出とその応用. SigNL-193-11: 29 September 2009. はじめに. 談話の顕現性を考慮した 語の重要度 文章中のある文脈で出現する語が文章の主題から見てどのくらい重要であるか 要約・情報抽出などの応用分野で重要 e.g. Web 検索 ( クエリ : ステロイド ). 主題として導入されている例.

Download Presentation

談話の顕現性を考慮した 重要語抽出とその応用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 飯田 龍 徳永健伸東京工業大学 {ryu-i,take}@cl.cs.titech.ac.jp 談話の顕現性を考慮した重要語抽出とその応用 SigNL-193-11: 29 September 2009

  2. はじめに • 談話の顕現性を考慮した語の重要度 • 文章中のある文脈で出現する語が文章の主題から見てどのくらい重要であるか • 要約・情報抽出などの応用分野で重要 • e.g. Web検索 (クエリ: ステロイド) 主題として導入されている例 アトピー性皮膚炎の治療に用いられるステロイドは、副作用が強く、使用時には必ず医師の指示に従い、正しく使用することが大切です 直接は関係が無いがキーワードが含まれるため検索される例 脳の病気にもステロイドみたいなアグレッシブな特効薬があればいいのに~ 同じ表現が含まれていても検索対象とすべきかどうかの判断は異なる

  3. 典型的な語の重要度 • 文章中に出現する語の重要度は典型的にはtf-idfもしくはその亜種を用いて計算される • tf-idf: 該当文章に出現する回数とその語の逆出現頻度の積 • 問題点 • 日本語のような主題が頻繁に省略される言語の場合,主題となる語に高い重要度を付与できない可能性がある

  4. 本研究のねらい • Iida et al. (2009)で導入した顕現性の観点に基づく語のランキングの情報を重要度として採用 • 後方文脈でどの語が省略されるかを予測しながら語をランキングする  tf-idfで捉えられない語の重要度を求めることが可能 • 要約を例にこの重要度の有効性を調査

  5. 目次 • 研究背景と本研究のねらい • 談話の顕現性を考慮した重要語ランキング (Iida et al. 2009) • 要約への応用 • 評価実験 • まとめと今後の課題

  6. 顕現性を考慮した重要語ランキングのアイデア(Iida et al. 2009) • 顕現性の高い語は省略されやすい  ゼロ照応の現象が起こっている場合には先行詞はその文脈において顕現性が高い • タグ付与されたゼロ照応関係を利用してある状況における顕現性の高さを学習 • 静的モデル: 文章全体から学習 • 動的モデル: 文章の各文から学習

  7. 静的モデル • 顕現性の高い語を1位,それ以外を2位とした半順序関係を訓練事例とし,RankingSVM (Joachims, 2002) を用いて全順序を出力するランカーを作成 • 訓練: 1事例1記事 • 1st : 一度でも文間の先行詞としてゼロ代名詞から指される表現 (候補は文節単位に抽出) • 省略される可能性あり  顕現性が高い • 2nd : それ以外

  8. 訓練事例の例 • 1st: 太郎1,次郎2 • 2nd : 公園,噴水,前,昨日,試合,結果

  9. 動的モデル • 文章の最初からある文まで見たときの顕現性の高さを求める ranker 1st:太郎12nd:結果3 3rd: 次郎2 …

  10. 動的モデル • 文章の最初からある文まで見たときの顕現性の高さを求める • 前文脈で顕現性の高いN語をキャッシュに保持しておき,現行の文に出現している語と比較 キャッシュ(size=2) 太郎1 公園 太郎1 次郎2 ranker 1st:太郎12nd:結果3 3rd: 次郎2 …

  11. 動的検出モデル: 訓練事例作成 • 静的モデルと同様にRankingSVMで順序学習を行う • 談話の各文で訓練事例集合を作成 • 1st :文内もしくは前方文脈に出現する語のうち,後方文脈のゼロ代名詞と照応関係になるもの • 2nd:それ以外

  12. 訓練事例作成の例 1st 太郎1 2nd 公園

  13. 訓練事例作成の例 1st 太郎1 次郎2 2nd 噴水 前

  14. 訓練事例作成の例 1st 結果3 2nd 太郎1 次郎2 昨日 試合

  15. 動的検出モデル: 解析 • 1つ前のリストと現在の文内の候補から新たにリストを更新 • キャッシュのサイズは固定 キャッシュ (size =2) 太郎1 公園 ranker 1st:太郎12nd次郎2…

  16. 順位学習に利用する素性 • 両方のモデルで利用可能な素性 • 品詞 • テキストの最初の文に出現 • 格助詞 (e.g. 主題“は”, 主語“が”, etc.) • 文の最後の文節に係る • 動的モデルのみで利用可能な素性 • 現在の文から候補までに出現した接続表現 • キャッシュの中に保持されているか否か • 候補までの距離(文単位) • 引用の中かどうか

  17. 顕現性の高い語の検出例(静的モデル)n=5 ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロシア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領官邸など 数カ所が 炎上した。 ロシア側は 首都制圧の 最終段階に 入ったと みられる。 グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を 加えた 後、 装甲車部隊が 大統領官邸付近に 進出。 同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開している。 一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビを 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五十両を 破壊したと 発表。 また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表団とともに 防空ごうに 避難しており、 無事と いう。 ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に 正月休戦を 提案したが、 ロシア側は これを 黙殺した。

  18. 顕現性の高い語の検出例(動的モデル) n=5 ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロシア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領官邸など 数カ所が 炎上した。 ロシア側は 首都制圧の 最終段階に 入ったと みられる。 グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を 加えた 後、 装甲車部隊が 大統領官邸付近に 進出。 同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開している。 一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビを 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五十両を 破壊したと 発表。 また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表団とともに 防空ごうに 避難しており、 無事と いう。 ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に 正月休戦を 提案したが、 ロシア側は これを 黙殺した。

  19. 顕現性の高い語の検出例(動的モデル) n=5 ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロシア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領官邸など 数カ所が 炎上した。 ロシア側は 首都制圧の 最終段階に 入ったと みられる。 グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を 加えた 後、 装甲車部隊が 大統領官邸付近に 進出。 同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開している。 一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビを 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五十両を 破壊したと 発表。 また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表団とともに 防空ごうに 避難しており、 無事と いう。 ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に 正月休戦を 提案したが、 ロシア側は これを 黙殺した。

  20. 顕現性の高い語の検出例(動的モデル) n=5 ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロシア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領官邸など 数カ所が 炎上した。 ロシア側は 首都制圧の 最終段階に 入ったと みられる。 グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を 加えた 後、 装甲車部隊が 大統領官邸付近に 進出。 同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開している。 一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビを 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五十両を 破壊したと 発表。 また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表団とともに 防空ごうに 避難しており、 無事と いう。 ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に 正月休戦を 提案したが、 ロシア側は これを 黙殺した。

  21. 顕現性の高い語の検出例(動的モデル) n=5 ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロシア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領官邸など 数カ所が 炎上した。 ロシア側は 首都制圧の 最終段階に 入ったと みられる。 グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を 加えた 後、 装甲車部隊が 大統領官邸付近に 進出。 同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開している。 一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビを 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五十両を 破壊したと 発表。 また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表団とともに 防空ごうに 避難しており、 無事と いう。 ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に 正月休戦を 提案したが、 ロシア側は これを 黙殺した。

  22. 顕現性の高い語の検出例(動的モデル) n=5 ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロシア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領官邸など 数カ所が 炎上した。 ロシア側は 首都制圧の 最終段階に 入ったと みられる。 グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を 加えた 後、 装甲車部隊が 大統領官邸付近に 進出。 同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開している。 一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビを 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五十両を 破壊したと 発表。 また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表団とともに 防空ごうに 避難しており、 無事と いう。 ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に 正月休戦を 提案したが、 ロシア側は これを 黙殺した。

  23. 顕現性の高い語の検出例(動的モデル) n=5 ロシア南部チェチェン共和国の 首都グロズヌイに 進攻した ロシア軍は 三十一日、 首都中心部を 装甲車などで 攻撃、 大統領官邸など 数カ所が 炎上した。 ロシア側は 首都制圧の 最終段階に 入ったと みられる。 グロズヌイからの 報道では、 ロシア軍は 激しい 空爆と 砲撃を 加えた 後、 装甲車部隊が 大統領官邸付近に 進出。 同官邸前などで ドゥダエフ政権部隊と 激しい 市街戦を 展開している。 一方、 ドゥダエフ政権側の 首都防衛司令官は 同日 夕、 テレビを 通じ、 首都防衛は うまく いっており、 ロシア軍の 戦車 五十両を 破壊したと 発表。 また、 ドゥダエフ大統領は 現在、 交渉中の ロシア議会の 代表団とともに 防空ごうに 避難しており、 無事と いう。 ドゥダエフ大統領は 三十日 夜、 エリツィン・ロシア大統領に 正月休戦を 提案したが、 ロシア側は これを 黙殺した。

  24. 自動要約への応用 • Iida et al. (2009)の顕現性に基づく手法ではランキングの順位を出力する • 要約のような応用処理では語の重要度を求める必要がある 静的モデルと動的モデルの出力する順位をもとに重要度をヒューリスティックに求める

  25. 各モデルの重要度の計算 • 静的モデル • 順位が低いほど重要度が高い • 動的モデル • 順位の逆数の総和が大きいほど重要度が高い rankji: 文Sjにおけるwiの順位

  26. 目次 • 研究背景と本研究のねらい • 談話の顕現性を考慮した重要語ランキング (Iida et al. 2009) • 要約への応用 • 評価実験 • まとめと今後の課題

  27. 評価実験 • Text Summarization Challenge 2 (TSC2)の評価データを利用した評価実験 • 提案する重要度が有効かを調査するため自動要約の問題を例に予備実験を行った • 重要文抽出に関する評価 • 重要箇所抽出に関する評価

  28. 重要文抽出 • 文章の重要箇所を文単位で抽出 • 例)30%の重要文 太平洋戦争末期、フィリピン・ダバオ市で日本人の父親と生き別れ、父親の出身地である長野県上伊那郡飯島町に国籍回復を求めていたフィリピン残留孤児、竹沢大助さん(63)=フィリピン名、ドミナドル・ランバヤン=に対し、飯島町は三日、戸籍への書き込み作業を開始することを明らかにした。|竹沢さんは十日、同町で戸籍謄本を手にする。|生き別れから五十年余。“日本人”に戻ることのできた来日中の竹沢さんは喜びをかみしめた。|竹沢さんの亡父・水津八さんは麻栽培のためダバオ市に渡り、一九二三年にフィリピン人女性と結婚。 |竹沢さんは二男。戦争が始まって父は召集され、竹沢さん自身も四四年に軍需工場に徴用された。 |終戦後は父親は強制送還され、そのまま生き別れとなった。 |反日感情の中、日本人であることを隠し続けたが、十八年ほど前から日本にいる親類と行き来を始めた。 |ところが、戸籍には三歳上の兄しか記載されていないことが判明。 |三年前から町に国籍回復を求めていた。決め手になったのは、フィリピン政府が戦争で消失したことを認め、再発行した両親の婚姻証明書や本人の出生届だった。 |昨年五月、同町にこれらの書類を提出。 |今年六月十二日に日本を訪れ、同町の回答を待ち、滞在し続けていた。 |竹沢さんは「胸がいっぱいでまだ信じられない。 |父の墓前に早く報告したい。これからは同じ境遇の孤児たちを通訳などで手助けしたい」と、りゅうちょうな日本語で話した。

  29. 重要文抽出の実験設定 • 静的/動的モデルの順序学習 • NAISTテキストコーパス(飯田ら, 2007)を利用 • 文間ゼロ照応699事例から訓練事例を作成 • 実験データ • TSC2のdryrun,formalrun合わせた180記事を利用 • 要約率: 10%, 30%, 50% それぞれの正答率で評価 • 比較方法 • 語の重要度のみで重要文を抽出(教師無し)

  30. 重要文抽出の実験設定(Cont’d) • 比較手法 • Lead法 • tf-idf • 静的モデル,動的モデル,静的モデル-idf,動的モデル-idf

  31. 重要文抽出の実験結果 教師無し手法の結果

  32. 重要文抽出(教師有り手法) • 素性: 平尾(2002)を参考に • 文の出現位置,文の長さ,文に出現する接続表現や助詞,固有名が出現するか否か • tf-idf / 静的モデル-idf / 動的モデル-idfの値 • 学習・解析 • 重要文として抽出する文を1位,それ以外を2位としてRankingSVMで順序学習 • 解析時は各要約率を満たすように上位N文を選択する

  33. 重要文抽出の実験結果(Cont’d) 教師有り手法の結果

  34. 重要文抽出についてのまとめ • 語の重要度のみで重要文を抽出する 場合 • 要約率が高い(10%)ときには,動的モデルを利用した重要度がtf-idfより良い結果を得た • 他の情報も素性として利用した教師有り手法で重要文を抽出する場合 • 要約率が高い(10%)ときには,静的モデルが有効に役立つということがわかった

  35. 重要箇所抽出 結核予防ワクチンであるBCGに、日本人とタイ人に特徴的なエイズ・ウイルス(HIV)の遺伝子の一部を組み込んだエイズワクチンを、国立予防衛生研究所と味の素中央研究所のグループが開発、マウス実験などで免疫力を高める効果を確認した。近く国内で初めて、サルを使った感染予防実験を開始する。アジアを中心に広く途上国で使える可能性がある。予研エイズ治療室の本多三男室長らはHIVの「急所」が外被たんぱくのV3ループ部分らしいという最近の米国の研究成果を応用。日本人感染者に共通するV3ループ部分のHIV遺伝子配列を決定し、タイ人感染者に特徴的なHIV遺伝子配列を使った組み換えBCGも作製した。ワクチンでエイズ感染を防ぐには、HIVに感染した細胞を見つけて異物として排除するTリンパ球と、HIVそのものを攻撃する抗体を増やさなければならない。マウスとモルモット各五匹で免疫効果を別々に実験したところ、マウス全例でTリンパ球の活性が高まり、モルモットでは二匹で抗体が大量に増えたことを確認。予研グループは「有望な結果が得られた」と判断した。感染防止力を調べるサルの実験は、予研霊長類センター(茨城県つくば市)で一月から実施する予定だ。新ワクチンはウイルスそのものではないため、発病する危険はないとされ、主体となるBCGも安全性が確立されている。新生児にも接種でき、エイズ母子感染の防止に役立つという。山崎修道・予研所長は「アジアを対象にしたワクチンを一日も早く実用化したい」と話している。 20%の要約率で抜粋 結核予防ワクチンであるBCGに、HIVの遺伝子の一部を組み込んだエイズワクチンを、開発、免疫力を高める効果を確認した。広く途上国で使える可能性がある。HIVの「急所」が外被たんぱくのV3ループ部分らしいという研究成果を応用。エイズ母子感染の防止に役立つという。

  36. 重要箇所抽出への貢献度の調査 • 評価方法 • 重要度の尺度に基づき上位N語を抽出した際に重要箇所に含まれる名詞をどの程度包含できるかを調査 • Nの値を動かして評価する • 比較する重要度 • tf-idf,静的モデル-idf,動的モデル-idf

  37. 重要箇所抽出に関する実験結果 要約率: 20% tf-idf あ 静的モデル-idf 文章中に頻出していて重要である語は捉えられている 動的モデル-idf tf-idfで捉えられない重要語を上位にランク付けできている

  38. 重要箇所抽出に関する実験結果 要約率: 40% tf-idf あ 静的モデル-idf 動的モデル-idf

  39. 重要箇所抽出の具体例 tf-idf 動的モデル-idf 一九九二年度の高校中退者数が前年から一割以上減少し、調査開始以来最低を記録したことが十八日、文部省のまとめで分かった。在籍者に対する中退者の比率(中退率)も一・九%と初めて二%を切った。生徒減少期に入り、学校に「簡単に中退させるわけにはいかない」という意識が浸透した結果とみられる。調査対象は全国の公私立約五千五百校。中退者の総数は十万一千百九十四人で前年より一万一千七百三十九人(一〇・四%)減少した。中退率も〇・二ポイント下がって一・九%となり、率、数ともに八二年の調査開始以来最低となった。中退者数は生徒急増期と重なったため、調査開始以来増加傾向が続き、生徒数が二万人近く減少した九〇年度にも微増。最多の十二万三千五百人を記録した。中退率も私立は三%台から徐々に下降したが、公立を含む全体では二・一―二・〇%で一進一退していた。しかし、一部の高校で四十人学級=NEWSのことば参照=がスタートした九二年度は在籍者の減少幅(四%)を大幅に上回る減少率で、全国的な減少傾向が明らかになった。留年も約一〇%減少しており、文部省では「一単位でも落としたら留年というような厳しい進級認定を弾力化したり、中退問題の研究指定校による実験研究も進み、高校に中退問題への認識が深まった」と分析する。◇安易に退学させない 全国普通科高等学校長会の斎藤範里・生徒指導研究委員長(東京都立石神井高校長)の話 従来、点数、出席日数で機械的に生徒を切り捨てる傾向もあったが、ここ二、三年、進級規定を見直して、できるだけ面倒をみていこうという機運が出てきた。生徒数も減少し、保護者の意識も高まったので簡単に退学させられない。退学する場合も納得のうえで進路変更する例が増えているはずで、今後も中退は減ると思う。(この記事にはグラフ「高校中退者数と中退率の推移」があります)

  40. まとめ • Iida et al. (2009)で提案した談話の顕現性に基づく語の重要度が言語処理の応用分野に有効であるかを調査 • 自動要約を例にtf-idfと比較を行い,それぞれの重要度の尺度が相補的に役立つ可能性を示した

  41. 今後の課題 • ヒューリスティックな重要度算出の改善 • e.g. 自動要約の評価データも利用した教師有りの重要度算出 • state-of-the-artな要約手法へ統合 • Clarke & Lapata (2008) や 富田ら(2009)などの制約充足問題としての要約手法への統合 • 談話構造に基づく重要度の指標と比較 • RST (Macru, 2000) • グラフ構造で表現された談話構造 (Wolf&Gibson, 2006)

More Related