310 likes | 558 Views
NAIST テキストコーパス : 述語項構造と共参照関係のアノテーション. 飯田龍 小町守 乾健太郎 松本裕治 奈良先端科学技術大学院大学 {ryu-i,mamoru-k,inui,matsu}@is.naist.jp 2007/1/26 (Fri) NL-177-10. はじめに. 述語項構造や共参照の解析の研究とともに タグ付与コーパスの作成の研究が盛ん 述語項構造解析・共参照解析の問題設定は自明ではない さまざまなタグ付与の仕様が提案されている
E N D
NAISTテキストコーパス: 述語項構造と共参照関係のアノテーション 飯田龍 小町守 乾健太郎 松本裕治 奈良先端科学技術大学院大学{ryu-i,mamoru-k,inui,matsu}@is.naist.jp 2007/1/26 (Fri) NL-177-10
はじめに • 述語項構造や共参照の解析の研究とともにタグ付与コーパスの作成の研究が盛ん • 述語項構造解析・共参照解析の問題設定は自明ではない • さまざまなタグ付与の仕様が提案されている • 述語項構造: PropBank, 京都テキストコーパス4.0,Global Document Annotation (GDA)コーパス, etc • 共参照: Message Understanding Task (MUC) Coreference (CO) task,Automatic Content Extraction (ACE) Entity Detection and Tracking (EDT) task, GNOME corpus, MATE corpus, etc 2007/1/26(Fri) NL-177-10
今回の取り組み • 日本語を対象とした分析/評価/学習のための大規模な述語項構造・共参照関係タグの作成 • 既存のタグ付与の仕様を比較し,各問題に対して暫定的に仕様を決定 • タグ付与作業で出てきた問題について分析 • タグ付与作業を行った成果 • NAIST Text Corpus 1.2βを公開http://cl.naist.jp/nldata/corpus/ 2007/1/26(Fri) NL-177-10
目次 • はじめに • 照応と共参照 • タグ付与の使用に関する先行研究とNAISTテキストコーパスの仕様の比較 • 実際の作業結果の報告 • タグ付与の問題点 • おわりに 2007/1/26(Fri) NL-177-10
照応と共参照 現実世界(仮想世界) <村山富市> <太郎のiPod> <次郎のiPod> • 照応関係: ある表現が同一文章内の他の表現を指す関係 • 共参照関係: 二つの表現が現実世界(もしくは仮想世界)で同一実体を指す関係 村山首相は…彼は… 太郎はiPodを買った。次郎もそれを買った。 2007/1/26(Fri) NL-177-10
タグ付与の使用に関する先行研究とNAISTテキストコーパスの仕様の比較タグ付与の使用に関する先行研究とNAISTテキストコーパスの仕様の比較 タグ付与の種類: 3種の関係のタグ付与 • 共参照関係 • Automatic Content Extraction (ACE)Entity Detection and Tracking (EDT) task • 京大コーパス4.0, GDAコーパス • 述語と項の関係 • 事態性名詞と項の関係 2007/1/26(Fri) NL-177-10
ACE Entity Detection and Tracking (EDT) Task • MUC Coreference (CO) taskの後継 • MUC CO task (97, 98) , ACE EDT task (99~) • 対象言語 • English, Chinese and Arabic • 最近の情報抽出タスクのgold standard • 共参照解析のための2つの概念 • mention: 文章中に出現している表現そのもの • entity: mentionが指す実体 2007/1/26(Fri) NL-177-10
ACE EDT Task (Cont’d) 現実(仮想)世界 mention_aclass: namestype: Persons 共参照 entity_iclass:specific_reference mention_bclass: pronouns type: Persons • mentionとentityの区別 文章 ジョンはリンゴを食べた。 彼はオレンジも食べた。 現状では総称的な実体はタグ付与対象となっていない mentionとentityにそれぞれ制約を強いている 2007/1/26(Fri) NL-177-10
共参照関係タグ付与コーパス(日本語) • Global Document Annotation (GDA) コーパス • 総称名詞間にタグが付与されている • 京都コーパス4.0 • ある実体とその役割の間に共参照相当のタグが付与 フロン対策急げ…フロンによる環境対策は… フロン=フロン 村山首相 は … 村山=首相 2007/1/26(Fri) NL-177-10
NAISTテキストコーパスでの共参照関係 • 問題となる点 • 総称名詞なども共参照関係として認めるのか? 総称名詞は照応詞,先行詞とみなさない • タグ付与対象となる名詞句のクラスに制限を加える? 名詞句のクラスに制約を加えずに共参照関係を認定 本aは、書物の一種で、印刷・製本された出版物を指す。 図書館の本bは借りることができる。 本a⊃本b • ACEのように名詞句のクラスを固有名などに制限するのはある種の問題(情報抽出)に特化 • さまざまな応用処理を対象にする場合,そのような制限は望ましくない 2007/1/26(Fri) NL-177-10
述語と項の関係の先行研究 文内のみのタグ付与 ラベルの意味が不明瞭 • PropBank (Palmer, 05): CoNLL shared task (04, 05) • 述語を含む文を対象に意味役割タグを付与 • ARG0, ARG1, …, ARG5, AA, AM, AM-ADV, etc (35種類) 2007/1/26(Fri) NL-177-10
述語と項の関係の先行研究 • 京都コーパス4.0 (555記事) • ガ/ヲ/ニ/カラ/ヘ/ト/ヨリ/マデなど表層レベルのタグ付与 • 日本語の場合はゼロ照応ため文を越えて付与する • ニツイテなども表層格とする トムiは今日学校jへ行った。 帰っガ:トムi, ニ:外界照応,カラ:学校j てすぐに遊びに出かけた。 2007/1/26(Fri) NL-177-10
NAISTテキストコーパスでの述語と項の関係 私は彼にリンゴを食べさせる。 京都コーパス4.0 [述語=“食べさせる”, ガ=“私” ヲ=“リンゴ” ニ=“彼”] NAISTコーパス [述語=“食べる”, ガ=“彼” ヲ=“リンゴ” 追加格(させる)=“私”] • 深層格や表層格などどのレベルでタグを付与する? • 表層レベルからなんらかの情報を捨象することが応用分野に貢献するか否かが自明ではない 表層格,特に頻出するガ/ヲ/ニ格をまず対象に • 「誰が何を何に対してどうする」といった情報の抽出を目的におく 述語の原型に対してタグ付与する 2007/1/26(Fri) NL-177-10
事態性名詞の先行研究 • 事態性名詞 • ある種のイベントを表す名詞 • NomBank (Meyers et al., 04) • Penn Treebank II の約5,000名詞 • PropBankと同じタグセット (ARG0, …, ARGM-LOCなど) • 京都コーパス4.0 12% growth in dividends next year[REL=growth, ARG1=in dividends, ARGM-TMP=next year] 新民主連合所属議員の離党問題について「政権に影響を及ぼすことにはならない。…[離党ガ影響(する)] 2007/1/26(Fri) NL-177-10
NAISTテキストコーパスでの事態性名詞 • 事態性名詞 • 事態性名詞そのものを認定する必要がある • 対象を限定:サ変名詞,和語動詞の名詞化 (例「動き」「走り」) (つまり「運動会」などは除く) • 複合語の扱い • 構成的に分解可能 複合語の構成素にタグ付与 • 「紛争仲裁」 「紛争」「仲裁」にタグ付与する • 「フランス革命」 「革命」にはタグ付与しない 彼からの電話によると、私は彼の家に電話を忘れたらしい。 2007/1/26(Fri) NL-177-10
NAISTテキストコーパス仕様のまとめ • 共参照関係 • 非総称名詞間の共参照関係にのみタグ付与 • 名詞句のクラスに制約は加えない • 述語と項の関係 • 述語の原型を対象に表層ガ/ヲ/ニ格をタグ付与 • 事態性名詞と項の関係 • 事態性名詞はサ変名詞もしくは和語動詞の名詞化 • 構成的に分解可能な場合には複合名詞の構成素も事態性名詞として解釈する • 述語と同様に表層ガ/ヲ/ニ格を付与 2007/1/26(Fri) NL-177-10
目次 • はじめに • 照応と共参照 • タグ付与の使用に関する先行研究とNAISTテキストコーパスの仕様の比較 • 実際の作業結果の報告 • タグ付与の問題点 • おわりに 2007/1/26(Fri) NL-177-10
統計量 • 京都テキストコーパス3.0 (2,929記事,38,384文)を対象に 2007/1/26(Fri) NL-177-10
統計量 • 京都テキストコーパス3.0 (2,929記事,38,384文)を対象に 8割以上が係り関係にある 約6割がゼロ照応関係にある 2007/1/26(Fri) NL-177-10
統計量 • 京都テキストコーパス3.0 (2,929記事,38,384文)を対象に 8割以上が係り関係にある 約6割がゼロ照応関係にある 同一文節内に最も多く出現 約8割がゼロ照応の関係 2007/1/26(Fri) NL-177-10
タグの一致率 • 作業者2人に30記事を対象に作業を行ってもらった結果 • 一人の作業結果を正解,もう一人の結果をシステムの出力として再現率,精度を求める 2007/1/26(Fri) NL-177-10
タグ付与の問題点 4つ種の主要な問題について議論 • 共参照関係のタグ付与 • 述語のタグ付与 • 事態性名詞のタグ付与 • 述語と項の関係のタグ付与 2007/1/26(Fri) NL-177-10
共参照のタグ付与の問題点 • 換喩のタグ付与 「ロシア側」という表現が異なる表現と共参照関係となり 実際に問題を解く際には非常に難しい問題設定となる 「ロシア」間で共参照関係を認定 グロズヌイからの報道によると三日、大統領官邸の北西一・五キロの鉄道駅付近でロシア軍部隊iとチェチェン側部隊が衝突したが、ロシア側iは中心部への進撃を阻まれて苦戦。 ... ロシア政府jは三日、戦況に関する声明を発表し、大統領官邸を含む首都中心部は依然としてロシア側が支配していると強調した。しかし現地からのテレビ映像では、官邸はじめ中心部は依然としてドゥダエフ政権部隊の兵士が警戒に当たっており、ロシア側jの発表と食い違いを見せている。 2007/1/26(Fri) NL-177-10
述語のタグ付与の問題点 • 機能語相当表現との曖昧性 • 本動詞的な解釈: 会社Aが会社Bを子会社とする • 機能語的な解釈: “ある一つの側面からの価値付け” • 土屋ら(06): 機能語相当表現(複合辞)を対象に作業者間の一致度を評価 ある程度揺れなく作業できている • 項を考慮しながら述語を認定する場合に困難になる 各表現ごとにどちらに解釈すべきかをあらかじめ 提示する 会社Aが会社Bを子会社として … 2007/1/26(Fri) NL-177-10
事態性名詞のタグ付与の問題点 • 複合語の分割をどこまでやるのか? • 仕様: 構成的に分割できる場合のみ複合語の中も タグ付与の対象とする • 「投資率」のような複合語をどの程度構成的に分解するかの解釈が作業者間で揺れた • 結果物はモノなのかコトなのか? • 「契約」「規制」「投資」などの表現 料金規制当局と公共事業者が、一種の社会契約を結んだという考えに立つもので、経営効率化促進のための社会契約インセンティブ規制とも言われる。 事態性名詞についての細かな取り決めが必要 2007/1/26(Fri) NL-177-10
項のタグ付与の問題点 • 交替の現象ために起こる揺れ 例)(φガ)(φヲ)実現する • agentガ themeヲ 実現する • themeガ 実現する 他動詞的な解釈でタグを付与する • 動作主性(agentivity)をどこまで認めるか? 例)動詞: 「しばる」の項「規制」 • 規制(agent)ガ themeヲ しばる • agentガ 規制(instrument)デ themeヲ しばる どちらの格パタンを優先するかを決める 2007/1/26(Fri) NL-177-10
おわりに • 述語項構造・共参照関係のタグ付与の現状の仕様を既存のコーパス作成の仕様と比較して紹介 • 問題点で述べた箇所を中心に今後もコーパスとその仕様を洗練する予定 2007/1/26(Fri) NL-177-10
公開情報 • NAIST Text Corpus 1.2β • ダウンロードhttp://cl.naist.jp/nldata/corpus/ • タグ付与の仕様http://cl.naist.jp/~ryu-i/coreference_tag.html 2007/1/26(Fri) NL-177-10
述語と項の関係の先行研究 • 京都コーパス4.0 (555記事) • ガ/ヲ/ニ/カラ/ヘ/ト/ヨリ/マデなど表層レベルのタグ付与 • 日本語の場合はゼロ照応ため文を越えて付与する • ニツイテなども表層格とする • Global Document Annotation コーパス (橋田, 05) • ゼロ照応の場合でも同一文内に先行詞が出現している場合にはタグが付与されていない 学習手法の訓練事例として利用するには網羅性の点で問題となる トムiは今日学校へ行った。 帰っガ:トムi, ニ:外界照応 てすぐに遊びに出かけた。 2007/1/26(Fri) NL-177-10
MUC Coreference Task • 機械学習を用いた共参照解析の gold standard データ • 情報抽出の部分問題としての共参照解析タスク 一般に共参照関係とはみなされない関係もタグ付与の対象となっている • most, every のような量化表現を伴った名詞句 • Julius Caesar, the well-known emperor … のような同格表現 2007/1/26(Fri) NL-177-10