290 likes | 425 Views
相対的な係りやすさを考慮した 日本語係り受け解析. NAIST (4月よりNTT CS研 PD) 工藤 拓 松本 裕治. 太郎は花子と京都に行きます. 生テキスト. 日本語の係り受け解析. 形態素解析, 文節同定. 太郎は / 花子と / 京都に / 行きます. 係り受け解析. 太郎は / 花子と / 京都に / 行きます. 統計的日本語係り受け解析 . 確信度に基づく手法 [ 春野 98, 内元 99, 工藤 00] 係り関係はすべて独立と仮定 統計的な確信度に基づき複数の係り先候補から係り先を 1 つ選択
E N D
相対的な係りやすさを考慮した日本語係り受け解析相対的な係りやすさを考慮した日本語係り受け解析 NAIST (4月よりNTT CS研 PD)工藤 拓 松本 裕治
太郎は花子と京都に行きます 生テキスト 日本語の係り受け解析 形態素解析, 文節同定 太郎は / 花子と / 京都に / 行きます 係り受け解析 太郎は / 花子と / 京都に / 行きます
統計的日本語係り受け解析 • 確信度に基づく手法 [春野98, 内元99, 工藤00] • 係り関係はすべて独立と仮定 • 統計的な確信度に基づき複数の係り先候補から係り先を1つ選択 • 過去多くの研究 • 決定的な手法 [工藤 02] • Shift-Reduce と同種の手法で決定的に解析 • 確信度は必ずしも必要でない • 確信度に基づく手法と同程度の性能
が に係る: の係り先候補: に関する素性: (品詞, 単語,それらの組等) 学習データ: (係り関係はすべて独立と仮定) 準備 太郎は / 花子と / 京都に / 行きます 2 3 4 1 文節列: 係り受けパターン列:
係り先の選択 解析手法 [関根 99] • 文末の文節から順に同定 太郎は 花子が 持っている 本を 探している 確信度 f の設計に帰着される
絶対モデル (旧モデル) • 候補二文節が「係る」か「係らない」かのニ値分類を考える • 写像 の導出 +1 -1 太郎は 花子が 持っている 本を 探している
学習戦略 1 係り先の選択 係りやすさの確信度 絶対モデル cont. • 線形分類器 (SVM, ME) の場合, 以下の戦略で分離平面 を構築
絶対モデルの問題点 (1/2) +1 • 素性の工夫で解決可能だが, 別途素性選択が必要 • 解析時に正例が複数あったり, 正例が1つもない場合 どうすればよいのか? -1 太郎は 花子が 持っている 本を 探している +1 太郎は 本を 持っている {太郎は→探している} → +1 {太郎は→持っている} → +1 ? -1
相対モデル (提案手法) • 係りやすさは他の候補との関係できまる • 他の候補と比較したときの相対的な係りやすさを学習すべき
相対モデル 絶対モデル w A (-1) A D D (+1) E B B (+1/-1) E (+1) D > { A,B,C } E > { F } B > { C } C (-1) C F (-1) F 相対的な大小関係は数直線上に保持 2つのグループの境界を求める 絶対モデル vs 相対モデル cont. 1 太郎は 花子が 持っている 本を 探している 2 太郎は 本を 持っている A: {太郎は→花子が} -1 B: {太郎は→持っている} -1 C: {太郎は→本を} -1 D: {太郎は→探している} +1 E: {持っている→本を} +1 F: {持っている→探している} -1 C: {太郎は→本を} -1 B: {太郎は→持っている} +1
学習戦略 2 係り先の選択 係りやすさの確信度 相対モデル cont. • 以下の戦略で射影ベクトル を構築
絶対的な基準点 絶対モデル 相対モデル 絶対モデル vs 相対モデル
相対モデルと優先度学習 • 相対モデル: 優先度学習[Herbrich 98]の日本語係り受け解析への自然な適用 • 学習手法 • RankBoost [Freund03] • Ranking SVM [Joachims02], SVOR [Herbrich 00] • Markov Random Fields (最大エントロピー法) • 応用 • 情報検索, QA 結果のリランキング [Joachims02] • 構文解析結果のリランキング [Collins00,02] • 照応解析 [Iida03,Isozaki04]
相対モデル 絶対モデル 周辺化する対象が異なる 最大エントロピー法による定式化
学習戦略 2 ここをできるだけ大きくすればよい 最大エントロピー法による定式化 cont. 学習: 最尤推定 相対モデルの学習戦略を近似的に実現するような学習
関連研究 後方文脈モデル [内元 00] 3つ組み/4つ組みモデル [金山 00] 決定的解析モデル [工藤 02]
後方文脈モデル [内元 00] • 二値分類を三値分類に • 「係る」「係らない」→「係る」「越える」「手前」 • 解析時: 確率値の統合 越える 係る 手前 • 絶対モデルの本質的な問題は解決されない • 学習と解析の戦略が異なる
3つ組み/4つ組みモデル [金山 00] • 文法を用いて候補を 2つないし 3つに限定 係り先候補: • 基本的に多値分類(3つ組み, 4つ組みは別モデル) • 一般の k 組モデルに拡張困難 (データスパースネス) • 事前に候補を限定する必要がある 候補を用意する必要があるので, 比較対象に含めない
決定的解析モデル [工藤02] • Shift-Reduce の変種を用い決定的に解析 • Shift vs Reduce の動作を二値分類 • 複数の候補から係り先を選択しない • 長距離の係り関係は shift が多用される • 近くに係りやすいという性質を反映 • 長距離の係りうけに弱い
実験 • 性能比較 • 相対 (提案法) • 絶対 (「係る」「係らない」) • 後方文脈 (「係る」「越える」「手前」) • 決定的解析 (Shift-Reduce) • 係り受けの距離ごとに評価すると?
設定 • 京大コーパス 3.0 • 学習データ: 24,263 文 234,474 文節 • デベロップメントデータ: 4,833 文 47,580 文節 • 評価データ: 9,287 文 89,982 文節 • 比較対象 • 相対 (提案法) • 絶対 (「係る」「係らない」) • 後方文脈 (「係る」「越える」「手前」) • 決定的解析 (shift-reduce) (CaboCha をそのまま利用) • 評価方法 • 係りうけ正解率 • 文正解率 • 素性: 内元 00 とほぼ同一の素性
実験結果 • 有意差検定 (マクネマー検定 有意水準 1%) • 相対 vs {絶対, 後方} → 有意差あり • 相対 vs 決定 → 有意差なし
学習結果 (距離ごとの評価) (距離 X で係る係り受けの precision, recall, F値) • 相対, 後方: 長距離依存に強い • 決定: 短距離依存に強い • 相対: 比較的バランスが取れている (距離によるバイアスがかかりにくい)
モデルの組み合わせ • 性質の違い • 相対モデル: 長距離依存に強い • 決定モデル: 短距離依存に強い • これらを組み合わせると精度向上!? • 単純な組み合わせ手法 • 決定モデルの距離3以下の係り先は無条件に採用, 残りは相対モデル • 非交差条件が崩れる場合は相対モデルを採用 注意: 予稿集には掲載されておりません
モデルの組みあわせ cont. • 確信度などを用いない単純な組み合わせ • 係り受け正解率は有意に向上 • 2つのモデルの戦略, 性質の違い
学習効率 {相対, 絶対, 後方}: L-BFGS (準ニュートン法の一種) 決定: SMOに基づく標準的な SVM パッケージ • 相対モデルは学習効率が非常に良い • 対立する事例は学習を困難にする
まとめと今後の課題 • 相対モデル • 他の候補との係りやすさの相対的な比較 • 従来法より高性能, 高効率 • 性質の違い • 短距離依存: 決定的解析モデルが優位 • 長距離依存: 相対モデルが優位 • ad-hoc な統合でもそれなりに精度向上 • どんな時に全係り先候補を見ればよいのか?
実験結果 (有意差検定) 検定手法: マクネマー検定 (対応が取れてる場合の母比率差の検定) P値: 同一母集団からサンプルとられた確率