320 likes | 489 Views
照応性判定を含む名詞句照応解析の 実験と分析. 飯田 龍 乾 健太郎 松本 裕治 奈良先端科学技術大学院大学 {ryu-i,inui,matsu}@is.naist.jp [NLP169-15, 2005/09/30]. 非照応詞. 2 つの部分タスクに分解できる 照応性判定 : 名詞句(照応詞候補)を 照応詞 か 非照応詞 に分類 先行詞同定 : 与えられた照応詞に対して 先行詞 を同定. 名詞句の照応解析. 文章内の同一指示関係を同定する処理 照応解析の応用 : 機械翻訳,情報抽出,質問応答. 先行詞. 照応詞.
E N D
照応性判定を含む名詞句照応解析の実験と分析照応性判定を含む名詞句照応解析の実験と分析 飯田 龍 乾 健太郎 松本 裕治 奈良先端科学技術大学院大学{ryu-i,inui,matsu}@is.naist.jp [NLP169-15, 2005/09/30]
非照応詞 • 2つの部分タスクに分解できる • 照応性判定:名詞句(照応詞候補)を照応詞か非照応詞に分類 • 先行詞同定:与えられた照応詞に対して先行詞を同定 名詞句の照応解析 • 文章内の同一指示関係を同定する処理 • 照応解析の応用: 機械翻訳,情報抽出,質問応答 先行詞 照応詞 村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。 [NLP169-15, 2005/09/30]
発表の焦点 • 文献(飯田, 05)で提案した照応解析手法が,既存の照応解析手法の利点を効果的に併用できていることの説明 • 提案手法と既存手法を日本語名詞句照応解析の実験を通じて比較 • 提案モデルの誤り事例を分析し今後の方向性を提示 [NLP169-15, 2005/09/30]
目次 • 目的 • 照応解析の先行研究 • 探索型モデル(Soon et al., 01) (Ng and Cardie, 02a) • 分類先行探索型モデル(Ng and Cardie, 02b) (Ng, 04) • トーナメントモデル (飯田, 04) • 提案手法 • 評価実験 • 誤り分析 • まとめ [NLP169-15, 2005/09/30]
照応解析の先行研究 おおきく2つに分類できる • 理論指向の規則に基づく手法(Mitkov 97, Baldwin 95, 中岩ら 96, 奥村ら 95, 村田ら 97) • 言語学的な知見を人手で規則に取り入れる試み • 文章の繋がりの良さを解釈するセンタリング理論に基づく • 例外的な現象について規則を書き尽くすことができない • 照応タグ付きコーパスを用いた学習に基づく手法 • 照応解析の問題を、与えられた照応詞に対して名詞句が先行詞となるかならないかの2値分類問題に分解 • 表層情報から抽出可能な素性を利用したモデルで規則ベースの手法と同程度の精度を得ている [NLP169-15, 2005/09/30]
NP1… NP2NP3 … NP4… … 。NP5… … 。 ANP … … 。 NPi: 先行詞候補, ANP: 照応詞NP2: 先行詞 素性 クラス score 村山富市首相 1.5 正例 NP2 ANP 八日 -0.8 先行詞候補集合 超党派 負例 NP3 ANP … 0.1 負例 社会党 -0.4 NP4 ANP 新民主連合会長 0.2 負例 NP5 ANP 照応詞候補 首相 を先行詞に決定 if ( score≧ θana) then 村山富市首相 探索型モデル (Soon et al., 01) (Ng and Cardie, 02a) • 照応解析の問題を2値分類問題に分解 村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。 入力テキスト [NLP169-15, 2005/09/30]
NP1… NP2 NP3 … NP4 … … 。NP5 … … 。 ANA … … 。 NPi: 先行詞候補, ANA: 照応詞NP2: 先行詞 素性 クラス 村山富市首相 1.5 正例 NP2 ANP 八日 -0.8 先行詞候補集合 超党派 負例 NP3 ANP … 0.1 負例 社会党 -0.4 NP4 ANP 新民主連合会長 0.2 負例 NP5 ANP 照応詞候補 首相 を先行詞に決定 if ( score ≧ θana) then 村山富市首相 探索型モデル (Soon et al., 01) (Ng and Cardie, 02a) • 照応性判定と先行詞同定の問題を同時に解く 村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。 利点: 先行文脈の情報が利用可能欠点: 非照応詞について訓練事例を作成できない 入力テキスト score [NLP169-15, 2005/09/30]
score ≧ θant score 探索型モデル 村山富市首相 1.5 八日 照応詞 ANP -0.8 ANP 正例 超党派 非照応詞 scoreθ ana NANP 負例 NANP … 0.1 -0.4 社会党 0.2 新民主連合会長 首相 score θ ana 照応詞候補 を非照応詞と決定 首相 首相 分類先行探索型モデル (Ng and Cardie, 02) (Ng, 04) • 探索型モデルの非照応詞を訓練事例に加えることができないという欠点を克服する 照応詞を正例,非照応詞を負例として照応性を判定するモデルを作成する 照応性判定モデル [NLP169-15, 2005/09/30]
score 村山富市首相 1.5 八日 照応詞 ANP -0.8 ANP 正例 先行詞候補集合 超党派 非照応詞 scoreθ ana NANP 負例 NANP … 0.1 -0.4 社会党 0.2 新民主連合会長 首相 score θ ana 照応詞候補 を非照応詞と決定 首相 首相 分類先行探索型モデル (Ng and Cardie, 02) (Ng, 04) • 探索型モデルの非照応詞を訓練事例に加えることができないという欠点を克服する 照応詞を正例,非照応詞を負例として照応性を判定するモデルを作成する 利点: 非照応詞を訓練事例として利用できる Ng(04)の報告によると探索型モデルよりも精度が良い欠点: (1) パラメタを二つ推定してやる必要がある(2) 照応性判定の際に先行詞の情報を うまく利用できない score ≧ θant 照応性判定モデル [NLP169-15, 2005/09/30]
NP3 素性 クラス NP4 NP5 ANP ⇒ (1). right ANP NP3 NP5 left (2). ⇒ ANP NP2 NP3 right ⇒ (3). ANP NP1 NP3 right ⇒ (4). を先行詞と決定 NP3 NP1 NP2 NP3 NP4 NP5 ANP 照応詞 先行詞候補集合 トーナメントモデル (飯田, 04) • 先行詞候補間で勝ち抜き戦を行い先行詞を同定する • ゼロ代名詞の先行詞を同定する実験において,探索型モデルより精度が良い [NLP169-15, 2005/09/30]
NP3 NP1 NP2 NP3 NP4 NP5 ANP 照応詞 先行詞候補集合 • 訓練事例作成 素性 クラス left NP1 NP2 ANP NP1 NP2 NP3 NP4 ANP 照応詞 ANP right NP2 NP3 先行詞候補集合 先行詞 ANP right NP2 NP4 トーナメントモデル (飯田, 04) • 先行詞候補間で勝ち抜き戦を行い先行詞を同定する 素性 クラス NP4 NP5 ANP ⇒ (1). right ANP NP3 NP5 left (2). ⇒ ANP NP2 NP3 right ⇒ (3). ANP NP1 NP3 right ⇒ (4). を先行詞と決定 NP3 [NLP169-15, 2005/09/30]
NP3 NP1 NP2 NP3 NP4 NP5 ANA 照応詞 先行詞候補集合 • 訓練事例作成 素性 クラス left NP1 NP2 ANP NP1 NP2 NP3 NP4 ANP 照応詞 ANP right NP2 NP3 先行詞候補集合 先行詞 ANP right NP2 NP4 トーナメントモデル (飯田, 04) • 先行詞候補間で勝ち抜き戦を行い先行詞を同定する 素性 クラス NP4 NP5 ANP ⇒ (1). right ANP NP3 NP5 left (2). ⇒ 利点: 先行文脈の情報が利用可能 正例と負例に偏りがない探索型モデルより精度が良い 欠点: 照応性の判定ができないそのまま名詞句の照応解析に利用できない ANA NP2 NP3 right ⇒ (3). ANA NP1 NP3 right ⇒ (4). を先行詞と決定 NP3 [NLP169-15, 2005/09/30]
各モデルの利点と欠点 • これらの利点を効果的に併用する解析モデルはこれまでのところ報告されていない これらをうまく併用することで解析精度の向上に貢献 [NLP169-15, 2005/09/30]
目次 • 目的 • 学習に基づく既存手法 • 提案手法 • 評価実験 • 誤り分析 • まとめ [NLP169-15, 2005/09/30]
提案モデル • 分類先行探索型モデルの2段階の処理を逆順で行う • 先行詞同定 照応性判定 の2段階の処理 • そのため提案モデルを探索先行分類モデルと呼ぶ [NLP169-15, 2005/09/30]
村山富市首相 首相 最尤先行詞候補 照応性判定モデル 村山富市首相 :照応詞 首相 提案モデル(探索先行分類型モデル) 照応詞候補 村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。 トーナメントモデルを利用可能 先行文脈情報を利用可能 村山富市首相 先行詞同定モデル 先行詞候補集合 八日 超党派 独自 社会党 … 首相 照応詞候補 [NLP169-15, 2005/09/30]
正例集合 NP4 ANP 先行詞同定モデル NP3 NANP 負例集合 最尤先行詞候補 NP3 照応性判定の訓練事例作成 • 正例(照応性有り) • 負例(照応性無し) NPi:先行詞候補 NP1 NP2 先行詞候補集合 NP3 先行詞 NP4 NP5 非照応詞を訓練事例に利用可能 照応詞 ANP NP1 NP2 先行詞候補集合 NP3 NP4 NP5 非照応詞 NANP [NLP169-15, 2005/09/30]
照応性判定の精度向上に貢献 先行詞同定の精度向上に貢献 探索先行分類型モデルの特徴 • 既存モデルのすべての利点を併用可能 [NLP169-15, 2005/09/30]
目次 • 目的 • 学習に基づく既存手法 • 提案手法 • 評価実験 • 誤り分析 • まとめ [NLP169-15, 2005/09/30]
評価実験 • 日本語の名詞句照応を対象とした照応解析 • 評価事例 (新聞記事コーパス)90記事(10分割交差検定) • 名詞句(照応詞候補) : 照応詞884, 非照応詞6,591 • 照応詞は文節の主辞(最右の名詞自立語)を対象とする. • 談話内に出現した名詞句のみを先行詞とする. • 総称名詞は照応詞,先行詞として考えない. 仕様の詳細:http://cl.naist.jp/~ryu-i/coreference_tag.html • 分類器にはSupport vector machinesを利用 • 4つのモデルを比較 • 探索型モデル(Ng and Cardie, 02a) • 分類先行探索型モデル(Ng, 04) • 探索先行分類型モデル(提案モデル) • 先行詞同定に探索型モデルを利用 • 先行詞同定にトーナメントモデルを利用 [NLP169-15, 2005/09/30]
4種の素性 • TNP: 照応詞候補に関する語彙,統語,意味(名詞の意味属性),位置情報 • ANT: (i) 先行詞候補に関する語彙,統語,意味(名詞の意味属性),位置情報,(ii) 照応詞候補と先行詞候補から抽出可能な情報 • ANT_SET:照応詞候補と先行詞候補集合から抽出可能な情報e.g., 照応詞候補と文字列一致する先行詞候補が先行文脈に存在するか • ANT-ANT:先行詞候補間の情報 [NLP169-15, 2005/09/30]
照応関係を正しく同定できた数 照応詞の総数 照応関係を正しく同定できた数 システムが検出した照応詞の総数 評価式 • 再現率 = • 精度 = • 探索型モデル, 探索先行分類型モデル • パラメタ1つ(θana)を動かして再現率-精度曲線を描く • 分類先行探索型モデル • パラメタ2つ( θana,θant)を動かして再現率-精度曲線を描く [NLP169-15, 2005/09/30]
実験結果(再現率-精度曲線) 探索先行分類型モデル(トーナメントモデル) 探索先行分類型モデル(探索型モデル) 分類先行探索型モデル 探索型モデル [NLP169-15, 2005/09/30]
誤り分析 • トーナメントモデルを利用した探索先行分類型モデルについて • 先行詞同定の誤り分析 • 照応性判定の誤り分析 • 解析のスコアが高く,かつ解析を誤った100事例 [NLP169-15, 2005/09/30]
先行詞同定の誤り分析 • 解析の確信度の高い100事例を分析 [NLP169-15, 2005/09/30]
(a) 高品質な意味属性が必要 • 意味的に不整合な名詞句の対の間で照応関係が同定される e.g., 照応詞「読者」 に対して「日本」が先行詞として同定される • 日本語語彙大系の名詞意味属性の一致情報を利用しているが分類にうまく貢献していない 言語資源をうまく利用する方法を考える必要がある [NLP169-15, 2005/09/30]
(b) 複数実体を指す名詞句 • 「両首脳」や「二人」のように一つの名詞句で複数の実体を指すことができる表現がある • これらが先行文脈の複数実体を指している場合は既存モデルでは対応できない • 既存モデルは先行詞を唯一に決定する 複数実体を指す可能性のある表現をあらかじめ保持しておき,その表現にあてはまる場合は複数個の先行詞を同定 [NLP169-15, 2005/09/30]
(g)タグの仕様の問題点 • 今回作成した照応関係タグ付与の基準では厳密に実体を区別しすぎている • 文脈によって「ロシア側」という表現が「ロシア政府」を指したり「ロシア軍」を指したりする • どのていど二つの実体の違いを考慮すべきかは応用分野に依存 これらの区別が必要な応用分野は多くない ロシア軍1… …ロシア側2 … … 。ロシア政府2 … ロシア側1 … … 。 • Automatic Content Extraction (ACE)の仕様では,政府や国民を区別せず,それらを包含するような地政学的実体(Geo-Political Entity; GPE)というものを考えている GPEの採択も含めタグの仕様についても再検討 [NLP169-15, 2005/09/30]
照応性判定の誤り分析 • 非照応詞の照応性判定誤り • 照応詞の照応性判定誤り [NLP169-15, 2005/09/30]
(c) 先行詞候補が別実体を指す 複数実体をどのように区別するのかも課題となる …ロシア兵1八人と一般市民が死亡していたと述べた。…ロシア側がさらに攻撃を続ければ、捕虜となったロシア兵2を「いつでも処刑できる」と言明した。 照応性判定の誤り分析(Cont’d) (a) 先行詞候補が文字列一致 • 照応性判定モデルが文字列一致に関する素性に過剰に重みを付与して分類している • 固有表現,普通名詞,代名詞などすべてをまとめて学習していることに起因している 名詞句の種類ごとに分けて学習する出現頻度の低い代名詞の学習事例をどのようにして効率的に作成するかが課題となる キリスト教会は … 。 キリスト教会色に … 。 [NLP169-15, 2005/09/30]
まとめ • 探索先行分類型モデルが既存手法の利点を効果的に併用するモデルであることを説明し,日本語名詞句照応解析の評価実験を通じて提案手法の有効性を示した • 提案モデルで解析を誤った事例を先行詞同定と照応性判定の観点から分析し今後の方向性について議論した [NLP169-15, 2005/09/30]
おまけ [NLP169-15, 2005/09/30]