240 likes | 364 Views
先行文脈と局所文脈を併用した 照応性判定モデルの学習. 飯田 龍 乾 健太郎 松本 裕治 奈良先端科学技術大学院大学 {ryu-i,inui,matsu}@is.naist.jp [NLP11, 17 March 2005]. 照応解析. 文章内の同一指示関係を同定する処理 照応解析の応用 : MT, IR, IE, QA. 先行詞. 照応詞.
E N D
先行文脈と局所文脈を併用した照応性判定モデルの学習先行文脈と局所文脈を併用した照応性判定モデルの学習 飯田 龍 乾 健太郎 松本 裕治 奈良先端科学技術大学院大学{ryu-i,inui,matsu}@is.naist.jp [NLP11, 17 March 2005]
照応解析 • 文章内の同一指示関係を同定する処理 • 照応解析の応用: MT, IR, IE, QA 先行詞 照応詞 村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。 非照応詞 • 2つの部分タスクに分解できる • 照応性判定(Anaphoricity determination):名詞句(照応詞候補)を照応詞か非照応詞に分類 • 先行詞同定(Antecedent identification):与えられた照応詞に対して先行詞を同定 [NLP11, 17 March 2005]
照応性判定 • 初期の照応解析に関する研究では統語的な特徴から照応詞と判断できるものについてのみ研究対象としている(Hobbs `78, Lappin and Leass `94) • 文章中のどの要素が照応詞となるかはあらかじめ与えられた上で先行詞同定の精度向上を目指す • 近年では照応性判定に研究者の関心が集まってきている (Bean and Riloff `99, Ng and Cardie `02, Uryupina `03, Ng `04) • 英語のような冠詞の情報を手がかりとして利用できる言語であっても,照応性を判定することはそれほど単純ではない • 照応解析全体の精度は照応性判定の結果に依存する • 日本語のように定冠詞を手がかりとして利用できない言語の場合は,照応性判定の問題はさらに重要である [NLP11, 17 March 2005]
目的 • 日本語の照応性判定の精度向上を目指す • 既存の照応性判定手法の利点を組み合わせた手法を提案 • 名詞句照応とゼロ照応それぞれにおいて提案手法が有効であるかを調査する [NLP11, 17 March 2005]
目次 • 目的 • 照応性判定に必須な情報 • 提案手法 • 従来手法との比較 • 評価実験と考察 • まとめと今後の課題 [NLP11, 17 March 2005]
先行文脈情報 先行詞 照応詞 非照応詞 局所文脈情報 照応性判定に必須な情報 2つの言語的な手がかり: • 先行文脈情報 • 照応詞と先行詞の情報 • 局所文脈情報 • 照応詞と非照応詞の情報 [NLP11, 17 March 2005]
先行文脈情報 先行詞 局所文脈情報 照応詞 非照応詞 先行詞候補集合 照応詞候補 首相 村山富市首相 八日 照応詞候補と対となりそうな先行詞候補を持つ … 社会党 1. 先行文脈情報 • 照応詞候補と先行詞候補から抽出可能な情報 先行詞候補 照応詞候補 村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。 [NLP11, 17 March 2005]
先行文脈情報 先行詞 局所文脈情報 照応詞 照応詞 非照応詞 村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。 「首相」助詞: は, 意味属性: 〈政治家〉=> 照応詞 対比 旧情報 「自重」助詞: を, 意味属性: 〈慎み, 愛〉=> 非照応詞 2. 局所文脈情報 • 照応詞と対比すべき非照応詞の情報 非照応詞 指示詞(「その」など)の情報や「同社」のような表層的な手がかり [NLP11, 17 March 2005]
提案手法 • 先行文脈情報と局所文脈情報を併用 • 照応詞候補に対して最も先行詞らしい候補(最尤先行詞候補)を同定し,その情報も参照しながら照応性を判定する [NLP11, 17 March 2005]
先行文脈情報 局所文脈情報 村山富市首相 首相 最尤先行詞候補 照応性判定モデル 村山富市首相 :照応詞 首相 2段階の解析手法 照応詞候補 村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。 村山富市首相 先行詞同定モデル 先行詞候補集合 八日 超党派 独自 社会党 … 首相 照応詞候補 [NLP11, 17 March 2005]
先行文脈情報 局所文脈情報 独自 自重 最尤先行詞候補 照応性判定モデル 独自 照応詞候補 :非照応詞 自重 2段階の解析手法 村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。 照応詞候補 村山富市首相 先行詞同定モデル 先行詞候補集合 八日 超党派 独自 社会党 … 自重 [NLP11, 17 March 2005]
正例集合 NP4 ANP 先行詞同定モデル NP3 NANP 負例集合 最尤先行詞候補 NP3 訓練事例の作成 • 正例(照応性有り) • 負例(照応性無し) NPi:先行詞候補 NP1 NP2 先行詞候補集合 NP3 先行詞 NP4 NP5 照応詞 ANP NP1 NP2 先行詞候補集合 NP3 NP4 NP5 非照応詞 NANP [NLP11, 17 March 2005]
探索型手法 NP1 NP1’ NP1’ × × 先行詞 NP2 NP2’ NP2’ ANP NP2 正例 × × NP3 NP3’ NP3’ ANP NP3 負例 × ○ NP4 NP4’ NP4’ × × ANP NP4 負例 照応詞 ANP TNP TNP 照応詞 非照応詞 問題点: 局所文脈情報を利用できない 照応詞 ANP ANP 正例 TNP 非照応詞 NANP 負例 NANP 照応詞 or 非照応詞 問題点: 先行文脈情報を利用できない 照応性判定の先行研究 先行詞 分類型手法 • 探索型手法(Soon et al. `01, Ng and Cardie `02, Yang et al. `03) • 分類型手法(Bean and Riloff `99, Ng and Cardie `02, Uryupina `03, Ng `04) 照応詞 非照応詞 [NLP11, 17 March 2005]
探索型手法 3つの手法のまとめ 先行詞 分類型手法 • 探索型手法(Soon et al. `01, Ng and Cardie `02, Yang et al. `03) • 利点: 先行文脈情報を利用できる • 欠点: 局所文脈情報を利用できない • 分類型手法(Bean and Riloff `99, Ng and Cardie `02, Uryupina `03, Ng `04) • 利点:局所文脈情報を利用できる • 欠点: 先行文脈情報を利用できない • 提案手法 • 利点:先行文脈情報と局所文脈情報を利用できる 照応詞 非照応詞 提案手法 [NLP11, 17 March 2005]
目次 • 目的 • 照応性判定に必須な情報 • 提案手法 • 従来手法との比較 • 評価実験と考察 • まとめと今後の課題 [NLP11, 17 March 2005]
評価実験 • 日本語の名詞句照応における照応性判定 • 評価事例 (新聞記事コーパス) • 名詞句: 照応詞876, 非照応詞6,292->照応詞候補から照応詞を当てた場合に正解とする • 分類器にはSupport vector machinesを利用 • 10分割交差検定 • 先行詞同定モデル: トーナメントモデル(飯田 `04) • 先行詞候補間で勝ち抜き戦を行い最尤先行詞候補を決定 • 3つのモデルを比較 • 探索型モデル(Soon et al. `01) • 分類型モデル(Ng and Cardie `02) • 提案モデル [NLP11, 17 March 2005]
3種の素性 • タイプA • 照応詞候補に関する語彙,統語,意味(名詞の意味属性),位置情報 • タイプB • (i) 先行詞候補に関する語彙,統語,意味(名詞の意味属性),位置情報,(ii) 照応詞候補と先行詞候補から抽出可能な情報 • タイプC • 先行詞候補間の情報 トーナメントモデル(飯田 `04) [NLP11, 17 March 2005]
探索型モデル 分類型モデル 提案モデル 提案モデルは他のモデルより精度が良い 精度 分類型モデルと比較して探索型モデルの精度が良い 再現率 名詞句の照応性判定の実験結果 • 照応詞876, 非照応詞6,292 [NLP11, 17 March 2005]
先行詞 奈良、平安時代に中央政府の最北の出先機関だったとされる国史跡・秋田城跡に派遣された役人1は、サケやマスなどを食材にした郷土料理は(φ1ガ)口にせず、あくまで「関西風」の食事にこだわっていたことが(φ2ガ)分かった。 照応詞 非照応詞 照応性判定モデルをゼロ照応解析への適用 • ゼロ照応解析 • ゼロ代名詞(述語の省略された格要素)の先行詞同定 • 照応性判定と先行詞同定に分類できる • ゼロ照応解析における照応性判定 • φ1->照応詞 (前方照応) • φ2->非照応詞 (後方照応, 外界照応) [NLP11, 17 March 2005]
ゼロ照応における照応性判定の評価実験 • 評価事例 (新聞記事コーパス) • 主格のゼロ代名詞: 照応詞4,225, 非照応詞1,957->照応詞候補から非照応詞を当てた場合に正解とする • 名詞句照応と同じ設定で実験 • 分類器にはSupport vector machinesを利用 • 10分割交差検定 • 先行詞同定モデル: トーナメントモデル(飯田 `04) • 3つのモデルを比較 • 探索型モデル (Soon et al. `01) • 分類型モデル (Ng and Cardie `02) • 提案モデル [NLP11, 17 March 2005]
ゼロ代名詞の照応性判定の実験結果 • 照応詞4,225, 非照応詞1,957 探索型モデル 分類型モデル 提案モデル 名詞句の場合と比較して 精度はすべてのモデルで低下している 提案モデルが最も精度が良い 精度 再現率 [NLP11, 17 March 2005]
->抽出可能な素性に依存している • 名詞句: 文字列一致情報が有効 • ゼロ代名詞: ゼロ代名詞自体からは表層的な手がかりが抽出できないため,名詞句の場合と比べ情報が少ない(代わりに利用する選択制限の情報では粒度が荒い)->選択制限の質の向上 先行詞「村山富市首相」と照応詞「首相」 食べる[ガ: 〈有生物〉, ヲ: 〈食べ物〉] 実験結果 • 9点平均精度 (再現率 = 0.1, 0.2, …, 0.9) • ゼロ代名詞の平均精度 << 名詞句の平均精度 [NLP11, 17 March 2005]
まとめ • 照応性判定のモデルを提案 • 先行文脈情報 • 局所文脈情報 • 従来の機械学習を利用した解析モデルと比較し,解析精度が向上した • 名詞句の照応性判定: 63.6% ->81.1% • ゼロ代名詞の照応性判定: 47.3% ->50.9% [NLP11, 17 March 2005]
戦後五十年間で女性が一生の間に産む子供の数は三分の一に減り、働く場所は家の中から外へ――。総理府男女共同参画室が三日付で発表した「女性の歩み五十年」で、戦後における女性の地位や生活の変化が改めて浮き彫りになった。戦後五十年間で女性が一生の間に産む子供の数は三分の一に減り、働く場所は家の中から外へ――。総理府男女共同参画室が三日付で発表した「女性の歩み五十年」で、戦後における女性の地位や生活の変化が改めて浮き彫りになった。 今後の課題 • 名詞句の照応性判定: • 名詞の定性(名詞句が定名詞か否か)の判定 • 今回の問題設定では定名詞句のみが照応詞となるとしてタグ付与を行っている->明示的に定性を判定する試み • ゼロ代名詞の照応性判定: • 選択制限の質の向上 • 文章の構造や談話の流れと照応性との関係を調査 総称名詞 総称名詞 [NLP11, 17 March 2005]