340 likes | 573 Views
NL187-7 Sep, 24, 2008. 結束性と首尾一貫性から見た ゼロ照応解析. 飯田龍,乾健太郎,松本裕治 奈良先端科学技術大学院大学 情報科学研究科 {ryu-i,inui,matsu}@is.naist.jp. 研究の対象. ゼロ照応解析 文章中の省略されている格要素を検出して その指し先を補完するタスク 情報抽出のような応用処理で必須となる要素技術 言語理解の実現度の良い試金石. 先行詞.
E N D
NL187-7 Sep, 24, 2008 結束性と首尾一貫性から見たゼロ照応解析 飯田龍,乾健太郎,松本裕治 奈良先端科学技術大学院大学 情報科学研究科 {ryu-i,inui,matsu}@is.naist.jp
研究の対象 • ゼロ照応解析 • 文章中の省略されている格要素を検出してその指し先を補完するタスク • 情報抽出のような応用処理で必須となる要素技術 • 言語理解の実現度の良い試金石 先行詞 政府1は低所得者を(φ1ガ)支援する計画を(φexoニ)発表した。 関係省庁2の協力を(φ1ガ)(φ2ニ)要請する。 照応詞 (ゼロ代名詞)
今回の研究の焦点 • 結束性と首尾一貫性の観点からゼロ照応解析の問題を考える • 結束性: 文体レベルのつながりの良さ • センタリング理論(Grosz et al. 1995) • 首尾一貫性: 意味レベルのつながりの良さ • 修辞構造理論(Mann&Thompson, 1988) • Schankのスクリプト知識(1977)
結束性の観点から照応解析を考える • センタリング理論(Grosz et al., 1995)に基づく照応解析 (Walker et al., 1994) • 現在の発話の談話要素を顕現性の高いものから並べる[主題(ゼロ)>主語>間接目的語>直接目的語>その他] • 次の発話中にもし照応詞(代名詞など)が存在すれば,1の中で最も高くランク付けされた談話要素を先行詞に決定する 太郎> 公園 (太郎) > 次郎> 噴水,前
規則ベースの手法と機械学習ベースの手法 • センタリング理論に基づく規則ベースの手法 • 特徴:文を単位とした段階的な談話の更新 • 欠点:前文の先行詞候補のみしか扱えない • 機械学習に基づく解析手法(Soon et al., 2001; Ng and Cardie, 2002, etc.) • 照応詞と先行詞の候補が照応関係となるか否かの2値分類問題を解く • 特徴: 前方文脈すべての候補を解析対象に含む • 欠点: 解析の際の探索回数が爆発する 実際に解析する際に非常に問題になる
キャッシュ: size=3 インフルエンザ,二年ぶり,兆し 更新 インフルエンザ,厚生省,患者報告数 この中から先行詞を探索する 提案手法: 段階的に候補をキャッシングする • キャッシュ: 後で参照されそうなn-bestを保持
提案手法: 段階的なキャッシングを利用した照応解析 • キャッシュ: 後で参照されそうなn-bestを保持 キャッシュ: size=3 インフルエンザ,二年ぶり,兆し 更新 現在の文内の候補とキャッシュ内の候補からどのように次のキャッシュの要素を選択するか? インフルエンザ,厚生省,患者報告数 更新 インフルエンザ,患者報告数,ウイルス 先行詞らしいn-bestを残す教師有り学習の問題
負例 正例 インフルエンザ,兆し 二年ぶり 負例 正例 患者報告数,インフルエンザ 厚生省, 昨年,二年ぶり,兆し キャッシュ更新ための訓練事例作成と実行 • 訓練 • テスト • 候補集合全体を分類しスコア上位N個をキャッシュへ 文1の候補 インフルエンザ,二年ぶり,兆し 文2の候補 厚生省,昨年,患者報告数 φ2 φ1 文3の候補 A香港型,同省 φ3 φ4
キャッシングのさまざまな方法 • 段階的にキャッシュの内容を更新(局所キャッシュモデル) • 局所キャッシュモデルは文章末までに何回も更新するので,最初に出現した談話要素をうまく保持できない? • 文章全体の談話要素をあらかじめランキング(大域キャッシュモデル) • 局所キャッシュと大域キャッシュの両方を利用(混合キャッシュモデル)
評価実験 • 文間のゼロ照応解析で各ゼロ代名詞が出現したときに,どのくらいキャッシュに正解を保持できているのか? • データ: NAISTテキストコーパス(飯田ら, 2007) • 訓練事例: 1163記事,4895事例 • 評価事例2種類報道記事: 1157記事,4365事例社説記事: 609記事, 5231事例 • ベースライン • 1文前までの候補を抽出する (平均候補数: 7) • 2文前までの候補を抽出する (平均候補数: 14)
評価実験 (Cont’d) • キャッシュサイズ • 局所キャッシュモデルN = 7, 14 • 大域キャッシュモデル M = 7, 14 • 混合キャッシュモデル N+M = 14 • 局所モデルのサイズ: N=7 • 大域モデルのサイズ: M=7 • 学習/分類 • 最大エントロピーモデル (Megam http://www.cs.utah.edu/~hal/megam/) • 評価尺度 • 先行詞のカバー率: 各ゼロ代名詞に対し,キャッシュ内に先行詞をどのくらい含んでいるか? • 候補の削減率: 候補全体に対して探索すべき候補を削減できているか?
キャッシュモデルで利用する素性 • 候補の品詞 • 候補が引用の中に出現しているか否か • 候補が最初の文に出現したか否か • 候補の助詞の情報(間接的に主題, 文法役割を表す) • 候補が格助詞“は”,“が”,“に”,“を” などを伴った最も直前の候補か否か • 候補が最後の文節に係る • ゼロ代名詞から候補までさかのぼったときに出現し • た接続表現 • キャッシュの中の要素か否か • 文間の距離 談話要素の顕現性に関連する 局所キャッシュモデルでのみ利用可能
実験結果(報道記事) 局所キャッシュ N=14 混合キャッシュ N=7 先行詞のカバー率 N=14 大域キャッシュ N=7 baseline(2文前) baseline(1文前) 先行詞候補の削減率
キャッシュモデルを用いた候補削減の具体例 • 局所キャッシュモデル(N=7) 先行詞候補 キャッシュされた先行詞候補
今回の研究の焦点 • 結束性と首尾一貫性の観点からゼロ照応解析の問題を考える • 結束性: 文体レベルのつながりの良さ • センタリング理論(Grosz et al. 1995) • 首尾一貫性: 意味レベルのつながりの良さ • 修辞構造理論(Mann&Thompson, 1988) • Schankのスクリプト知識(1977)
首尾一貫性からゼロ照応解析を考える • さまざまな意味レベルの関係 • 修辞構造理論(Mann&Thompson, 88) • Schankのスクリプト知識(1977) • (Aガ)罪を犯す (Aガ)捕えられる (Aガ)罰せられる • 含意関係認識のための知識獲得(Lin&Pantel 2001, Torisawa 2006, Abe et al. 2008, Szpektor&Dagan 2008, etc.) この知識をゼロ照応解析に利用する
知識獲得のための3種類の手がかり • 動詞の項が類似する場合は関係も類似 • DIRT(Lin&Pantel, 2001)が有名 • X is the author of Y X wrote Y • 今回はunaryDIRT (Szpektor&Dagan, 2008)を利用 • X is the author of X wrote (単項のみを扱う) • 並列構造で何回も出現する(Torisawa 2003, 2006) • 村山富市首相は...に会見し,...と述べた. {会見する, 述べる} • 同一文章内で同じ名詞句(アンカー)を伴って出現する (Pekar 2006)
共起情報の抽出 • アンカーを考慮した共起抽出 • 「代名詞」や「名詞-非自立」,「名詞-接尾」以外の名詞が同一文章中に複数回出現している場合,それらを近似的に同一指示関係とみなす • ガ格の係り受け関係のみ抽出 • 例) 村山首相が...と言った...首相が...否定した. { ガ:言う, ガ:否定する }
動詞対のスコアの計算方法 • 共起の抽出 • 約20年分の新聞記事から抽出 • 自己相互情報量PMIで算出 • データスパースネスの問題を回避するためpLSI (Hoffman, 1999)を用いてスムージングを行う
評価実験: ガ格ゼロ代名詞の先行詞同定 • アンカーを用いた動詞対のスコアを素性に加えた場合に精度が向上するかを調査 • データ: NAISTテキストコーパス • 訓練: 1163記事,9122事例 • 評価: 1157記事,8952事例 • どこにゼロ代名詞が出現しているかは与える • 先行詞同定のモデル • トーナメントモデル (飯田ら, 2004) + 局所キャッシュモデル (N=14) 精度の上限: 91.5% • 学習・分類 • Support Vector Machine (svmlight) • カーネル: 線形,多項2次 • パラメタ: default値
4種類の素性 • ゼロ代名詞(と述語)に関する素性 • passive/active, 引用の中, etc. • 先行詞候補に関する素性 • 格助詞(e.g. は/が/を/に/etc.), 主辞の品詞, etc. • ゼロ代名詞と先行詞候補の対に関する素性 • 選択選好のスコア, 先行詞とゼロ代名詞の距離,etc. • 先行詞候補対に関する素性 • 選択選好のスコアの差, 距離の差, etc. (詳しくはIida et al.(2007)などを参照) + ゼロ代名詞側の動詞と先行詞が係る動詞の間のスコア(MIanchor(vi,vj))
実験結果: 先行詞同定の評価 • 動詞対のスコアを単純に素性に加えただけでも効果あり McNemar検定 p < 0.05で有意差あり
動詞対のスコアを利用して解析できるようになった例動詞対のスコアを利用して解析できるようになった例 • (φiガ)支持する(φiガ)推進する
まとめ • 結束性と首尾一貫性の観点からゼロ照応の問題を考察 • 結束性の観点から • キャッシュモデルの実現例を提案 • 先行詞候補を削減し,解析を効率化 • 首尾一貫性の観点から • 動詞間の推論規則のスコアをゼロ照応解析に導入 • ガ格ゼロ代名詞の先行詞同定で有効に働くことを示した
今後の方向性 • キャッシュモデルの話題 • いろんな記述スタイルに対してキャッシュサイズによる振舞いの違いを調査 • 動詞対のスコアの話題 • スコア計算に利用したコーパスの規模と精度の関係 • 省略の連鎖を考慮した解析 〈先行詞〉 〈動詞i〉 (φiガ) 〈動詞i〉 (φjガ)
実験結果(報道記事) Cont’d N=50 N=28 N=21 N=14 局所キャッシュ N=7 先行詞のカバー率 先行詞候補の削減率
大域キャッシュモデル • 文章全体の談話要素をランキング 大蔵省は1十日、64特殊法人の33整理・合理化の60一環と21して、 明治時代から40続いている 塩の20専売制を15一九九六年中に75廃止する方針を18固めた。 現在は19国が10JTに13委託している 塩事業を29民営化、72JTが4独占管理している 塩の35輸入・販売を41自由化する。 ただ、 塩の50製造・販売の58混乱を47避ける ため、80五年間の59経過期間を28設定。53新たに70民間法人の36塩事業センターを30設立し、 緊急時向けの27塩備蓄などを42(φガ) 行う。 専売制の14廃止は、6最終的に74約六百人の56人員削減に48つながる 大規模な61行政改革で、65二月78十日に57予定されている 総務庁への26特殊法人見直し報告に45盛り込む。 文字が白いほど先行詞らしさのスコアが大きい
大域キャッシュモデル • 訓練時 • 評価時 • 分類器が出力するスコア(確率/分離平面からの距離)を用いてランキング,n-bestを決定する 政府1は低所得者を(φ1ガ)支援する計画を発表した。 関係省庁の協力を(φ1ガ)要請する。 正例: (一度でも先行詞になる候補) 負例: (それ以外) 低所得者,計画,関係省庁,協力 政府
大域キャッシュモデル • 評価時 大蔵省は1十日、64特殊法人の33整理・合理化の60一環と21して、 明治時代から40続いている 塩の20専売制を15一九九六年中に75廃止する方針を18固めた。 現在は19国が10JTに13委託している 塩事業を29民営化、72JTが4独占管理している 塩の35輸入・販売を41自由化する。 ただ、 塩の50製造・販売の58混乱を47避ける ため、80五年間の59経過期間を28設定。53新たに70民間法人の36塩事業センターを30設立し、 緊急時向けの27塩備蓄などを42(φガ) 行う。 専売制の14廃止は、6最終的に74約六百人の56人員削減に48つながる 大規模な61行政改革で、65二月78十日に57予定されている 総務庁への26特殊法人見直し報告に45盛り込む。
混合キャッシュモデル 局所キャッシュモデル 大域キャッシュモデル 局所的な談話の遷移を捉える 大域的な談話の主題を捉える cache size=N cache size=M 2つのモデルの結果を両方利用する 混合キャッシュモデル cache size=N+M