150 likes | 282 Views
日本語動詞の自動分類. Bernard Lamers May 1, 2002. 先週の復習: vector template. Vector template: [verb name, TRANS, PASS, VBN, CAUS, ANIM, class] 例: [opened, .69, .09, .21, .16, .36, unaccusative]. 先週の復習: TRANS. Transitive use: The door was opened. They flooded the rice fields. Non-transitive use:
E N D
日本語動詞の自動分類 Bernard Lamers May 1, 2002
先週の復習:vector template • Vector template: • [verb name, TRANS, PASS, VBN, CAUS, ANIM, class] • 例: • [opened, .69, .09, .21, .16, .36, unaccusative]
先週の復習:TRANS • Transitive use: • The door was opened. • They flooded the rice fields. • Non-transitive use: • The door opened. • His mailbox flooded with love letters. transitive use TRANS= transitive use + non-transitive use
先週の復習:PASS • VBD-tag: main verb active • VBN-tag: • The door was painted recently passive • He has painted his house active passive use PASS passive use + active use
先週の復習:VBN 動詞αのVBNタグの数 VBN= 動詞αのVBNタグの数+VBDタグの数
先週の復習:CAUS • 主語のmulti-set (bag): • {a, a, a, b} cardinality: 4 • 目的語のmulti-set • {a} cardinality: 1 • overlap: {a, a, a} cardinality: 3 overlapのcardinality CAUS= 主語のcardinality+目的語のcardinality
先週の復習:ANIM • I, you, he, she, theyなどの代名詞が常に生物の実体を指していることを仮定 • ANIMの設定にはWordNetなどの単語データベースが使われていない。 動詞αの代名詞である主語の数 ANIM= 動詞αのすべての主語の数
データの分析(ページ7、表4) • 予測した結果 • Unergative: TRANSが一番低い。Unaccusative, object-dropの順番で上がる。 • Unaccusative: ANIMが一番低い、CAUSが一番高い。 • 予測しなかった結果: • Object-drop: CAUS ≠ 0 • UnaccのPASS, VBN ≒Object-dropのPASS,VBN
実験(1) • 目的:動詞αのTRANS, PASS, VBN, CAUSとANIMが与えられたとき、動詞αのクラスを返すシステム • システムのトレーニングはC5.0を使って行われる。 • Semantic featuresが一ずつどの程度classificationに貢献するかを検査 1) 10-fold cross 2) single hold out
実験(2) • 実験のbaseline (chance performance): 20/59 ≒33.9% • 実験のmaximum accuracy: • Theory: 100% • Practice: 86.5% (分類タスクを専門家に任せたときの精度)
10-fold cross validation • ランダムに54個の動詞を選び、そのvectorを計算し、classifierを訓練させる。 • 残りの5個の動詞を自動分類。 • 以上のプロセスを50回繰り返す。 • 結果は表8と9。
Single hold-out validation • テストセットの大きさはN。 • for (n = 1; n <= N; n++){ • n番目の動詞を取って、保留する。残りの動詞でclassifierを訓練させる。 • 保留された動詞を自動分類。 } • 結果は表11と12。
結論 • 分類の全体的な精度は69.8%。Baseline: 33,9%, 専門家の成績86.5%。 • ひとつだけのfeatureを使うときの精度とfeatureの組み合わせを使うときの精度の直接の関係がない。 • PASSを使わなくても、精度が変わらない。
日本語への適用(1) • 日本語の場合でも動詞が属するクラスを知ることが極めて有利な情報である(Miyagawa 1989などを参考) • 英語では目的語があるかどうかを確かめるのは難しい。日本語の場合、もっと簡単(を) TRANSの精度が上がる可能性がある。 • 日本語の受身形(-られ-)が認識しやすい。しかし、日本語は自動詞でも受身形になりうる。
日本語への適用(2) • 英語の自動詞/他動詞ペアは形がいっしょ。日本語では「起きる/起こす」「焼ける/焼く」などのペアが多い 形が違うので、CAUSをもっと高い精度で取れるかもしれない。 • 日本語では代名詞が頻繁に使われていない。ANIMを計算するために、辞典等を使う。