350 likes | 556 Views
Plan. Introduction Etat de l’art Propositions Expérimentation et Evaluation Conclusion. Introduction. Extraire une grammaire pour le traitement automatique de la langue chinoise à partir d’un corpus annoté Désambiguïsation des grammaires
E N D
Plan • Introduction • Etat de l’art • Propositions • Expérimentation et Evaluation • Conclusion
Introduction • Extraire une grammaire pour le traitement automatique de la langue chinoise à partir d’un corpus annoté • Désambiguïsation des grammaires • Extraire une grammaire d’arbre adjoint (TAG) à partir du corpus arboré du chinois
Etat de l’art • Grammaires d’arbres adjoints (TAGs) • Extraction des TAGs • PENN Chinese Treebank • Analyseur syntaxique de Chiang
Introduction aux TAGs α2 Un formalisme lexicalisé P - une grammaire constituée d’arbres élémentaire : l’arbre initial et l’arbre auxiliaire N0↓ V [dort] - Chaque arbre est ancré par unité lexicale β2 V - Il inclut deux opérations : la substitution et l’adjonction V* ADV [beaucoup]
Opération sur les arbres α1 - La substitution est une opération hors-contexte de dérivation d’un arbre initial sur le nœud feuille d’un arbre élémentaire α2 N P Arbre dérivé Arbre de dérivation Jean P N0↓ V α2 V N dort substitution dort Jean α1 - L’adjonction est une opération contextuelle d’insertion d’un arbre auxiliaire au sein d’un arbre élémentaire N Arbre de dérivation Arbre dérivé Jean β2 P α2 V α2 P N0↓ V adjonction V* ADV N0↓ V α1 ADV β2 V beaucoup dort beaucoup dort
PENN Chinese Treebank (1) -Corpus chinois annoté syntaxiquement en caractères chinois simplifié - Le CTB 5.1 contient: 507,216 mots, 824,975 Hanzi, 18,782 phrases et 890 fichiers de données -Les mots sont d’emblée balisés avec des étiquettes renfermant des informations sur les parties du discours, la syntaxe, les fonctions
PENN Chinese Treebank (2) - Le texte nu (raw) 球拍卖完了qiu2pai1mai4wan2le1 - Le texte segmenté (segmented) 球拍卖完了球拍卖完 了 qiu2pai1 mai4wan2le1 qiu2 pai1mai4 wan2le1 raquette a été vendu balle vente aux enchères fini La raquette a été vendue La balle a été tout vendue aux enchères - Avec annotations morpho-syntaxiques (postagged) 她_PN 很_AD 爱_VV 美_NN 。_PU 美_AD 人_NN ta1 hen3 ai4 mei3 。 Mei3 ren2 Elle beaucoup aimer belle .Belle femme Elle aime beaucoup se faire belle. La belle femme - Avec annotations syntaxiques complètes (bracketed) (IP-HLN (NP-SBJ(NP-PN (NR 上海shang4hai3/ShangHai) (NR 浦东pu3dong1/PuDong)) (NP (NN 开发kai1fa1/développer) (CC 与yu3/et) (NN 法制fa3zhi4/système juridique) (NN 建设jian4she4/construire))) (VP (VV 同步tong2bu4/synchroniser)))
Analyseur syntaxique de Chiang • - Stochastic TIG parser (David Chiang, 2000) • Grammaire d’insertion d’arbres lexicalisée (TIG) • une restriction des TAGs • - La différence principale entre TAG et TIG ? • - arbres auxiliaires enveloppants • - opération de sister-adjonction TIG TAG
TIG sister-adjonction 陈旭chen2xu4应该ying1gai1马上ma3shang4出发chu1fa1 chen2xu4 doit partir tout de suite
Extraction d’une grammaire TIG (1) Étant donné un constituant ηp avec ses fils η0 - ηi lequel est le fils tête ? Réponse : table de percolation de tête Étant donné un fils (non-tête) ηj de ηp est-ce que ηj est un complément ou un adjoint ? Réponse : table d’arguments complément-adjoint
Table de percolation de tête Table de percolation de tête Par exemple: [[美丽的mei3li4de4/belle]AD [女孩nv3hai2/fille]NN ]NP
Table d’arguments complément-adjoint Table d’arguments complément-adjoint Dernière ligne: –SBJ (surface subject) ou de –OBJ (object) ou de –IO (indirect object) ou de –PRD (predicate) sauf s’il est suivi –ADV (adverb)
Corpus arboré Modèle probabiliste Ensemble des arbres élémentaires Foret de dérivation Processus d’extraction d’analyse (NR 上海)(NR 浦东)(NN 开发) … Entrainement (Trainer) Analyse (Parser) Recherche de l’analyse la plus probable Arbre dérivé obtenu
Proposition • Probank (Palmer et al., 2002) • Extraire des TIGs à partir du CTB en utilisant les rôles sémantiques du Propbank • Réalisation
Propbank (1) Propbank du chinois: • - contient les premiers 250k mots du CTB5.1 • 37,183 propositions, 4,865 framesets des verbes. • html et SGML • structure plus profonde
Propbank (2) Schéma d’annotation: Powell and Zhu Rongji met Powell met with Zhu Rongji Powell and Zhu Rongji had a meeting meet(Powell, Zhu Rongji) Avantage: - permet de réduire la taille des grammaires extraites • permet aussi de réaliser une liaison entre un frameset d’un prédicat dans une langue avec l’autre langue 存cun2 existe dépôt qui lieu entité Somme d’argent Institut financière
Propbank (3) 签qian1/signer: soit signer quelque chose sur le document ou le projet, soit signer quelque chose
Réalisation (1) • Déterminer les constituants de l’analyse syntaxique • Assigner un rôle sémantique du Propbank aux constituants du CTB • Modifier la table de distinction d’arguments complément-adjoint
Réalisation (2) – cpb1.0.txt ctb5.1/bracketed/chtb_406.fid 5 53 gold 迁入.01 ----- 0:2-ARGM-TMP 6:4-ARG1 52:1-ARGM-ADV 54:2-ARG2 53:0-rel ctb5.1/bracketed/chtb_871.fid 7 53 gold 迁入.01 ----- 6:4-ARG1 52:1-ARGM-ADV 54:1-ARG2 53:0-rel 7:1-ARG0 9:1-ARGM-ADV 10:1-ARG0-CRD ctb5.1/bracketed/chtb_406.fid 2 18 gold 迁入.01 ----- 15:1-ARGM-ADV 19:1-ARG2 13:0*14:0*23:1-ARG1 18:0-rel ctb5.1/bracketed/chtb_165.fid 4 11 gold 迁址.01 ----- 0:1-ARGM-MNR 3:2-ARG0 7:1-ARGM-ADV 8:1-ARGM-ADV 9:1-ARGM-TMP 12:1-ARG1 ctb5.1/bracketed/chtb_406.fid 6 7 gold 迁址.01 ----- 0:2-ARG0 5:1-ARGM-ADV 6:1-ARGM-ADV 8:1-ARG1 7:0-rel ctb5.1/bracketed/chtb_165.fid 2 29 gold 迁址.01 ----- 30:1-ARG1 22:0*23:0*34:1-ARG0 29:0-rel 6:1-ARGM-ADV 0:0*1:0*9:1-ARG1 7:0- ctb5.1/bracketed/chtb_165.fid 2 11 gold 迁至.01 ----- 0:1-ARGM-TMP 2:1-ARG0 6:1-ARGM-ADV 8:2-ARG1 12:3-ARG2 11:0-rel ctb5.1/bracketed/chtb_713.fid 3 21 gold 签.01 ----- 0:4-ARG0 13:1-ARGM-ADV 18:1-ARG2 23:1-ARG1 21:0-rel ctb5.1/bracketed/chtb_059.fid 17 15 gold 签.02 ----- 11:1-ARG0 12:1-ARGM-TMP 13:1-ARGM-ADV 14:1-ARGM-ADV 16:1-ARG1 22:1-ARG1-QTY 15:0-rel 5:3-ARG0 10:1-ARGM-ADV 13:2-ARG1 11:0-relctb5.1/bracketed/chtb_115.fid 6 18 gold 签订.01 ----- 0:1-ARGM-ADV 2:5-ARG0 17:1-A ctb5.1/bracketed/chtb_072.fid 21 9 gold 签.02 ----- 0:2-ARGM-TMP 6:2-ARG0 8:1-ARGM-ADV 10:3-ARG1 14:1-ARG1-QTY 9:0-rel ctb5.1/bracketed/chtb_080.fid 14 9 gold 签.02 ----- 0:2-ARGM-TMP 6:2-ARG0 8:1-ARGM-ADV 10:3-ARG1 16:1-ARG1-QTY 9:0-rel ctb5.1/bracketed/chtb_087.fid 16 8 gold 签.02 ----- 5:2-ARG0 7:1-ARGM-ADV 4:0*9:0*10:3-ARG1 8:0-rel 38:0*39:2-ARG1 37:0-relctb5.1/bracketed/chtb_419.fid 7 30 gold 签订.01 ----- 0:1-ARGM-LOC 5:1-ARGM-TMP 7:1-ARG0 9:1-ARGM-ADV 10:1-ARG0-CRD 32:2-ARG1 36 ctb5.1/bracketed/chtb_595.fid 32 18 gold 签.02 ----- 8:2-ARG0 15:1-ARGM-TMP 7:0*19:0*21:1-ARG1 18:0-rel ctb5.1/bracketed/chtb_028.fid 2 13 gold 签定.01 ----- 0:2-ARG0 12:1-ARGM-TMP 14:1-ARG1 13:0-rel gold 签订.01 ----- 0:1-ARGM-TMP 4:1-ARG0 ctb5.1/bracketed/chtb_021.fid 5 13 gold 签定.01 ----- 0:1-ARGM-TMP 3:3-ARG0 15:2-ARG1 13:0-relctb5.1/bracketed/chtb_082.fid 7 4 gold 签定.01 ----- 3:1-ARGM-TMP 1:0*2:0*11:1-ARG1 4:0-relctb5.1/bracketed/chtb_721.fid 5 4 gold 签定.01 ----- 0:1-ARGM-DIS 1:1-ARG0 2:1-ARGM-TMP 5:1-ARG1 4:0-relctb5.1/bracketed/chtb_244.fid 10 6 gold 签定.01 ----- 0:1-ARGM-TMP 2:2-ARG0 7:1-ARG1 6:0 22:1-ARG0 24:1-ARG1 -relctb5.1/bracketed/chtb_140.fid 4 21 gold 签定.01 ----- 0:1-ARGM-TMP 18:1-ARG0 22:1-ARG1 23:1-ARG1-QTY 21:0- relctb5.1/bracketed/chtb_082.fid 2 33 gold 签定.01 ----- 0:5-ARG1 16:1-ARGM-TMP 17:1-ARG0 29:1-ARGM-LOC 33:0-relctb5.1/bracketed/chtb_713.fid 0 3 gold 签订.01 ----- 0:1-ARG0 4:3-ARG1 3:0-relctb5.1/bracketed/chtb_411.fid 15 11 gold 签订.01 ----- 0:1-ARGM-TMP 3:2-ARG0 7:1-ARGM-ADV 8:1-ARG0-CRD 13:2-ARG1 11:0-relctb5.1/bracketed/chtb_271.fid 3 24 gold 签订.01 ----- 21:1-ARG0 22:1-ARGM-ADV 23:1-ARGM-ADV 26:1-ARG1 24:0-relctb5.1/bracketed/chtb_271.fid 0 4 gold 签订.01 ----- 0:1-ARG0 2:1-ARGM-LOC 5:4-ARG1 4:0-relctb5.1/bracketed/chtb_027.fid 2 8 gold 签订.01 ----- 0:2-ARG0 4:1-ARGM-TMP 6:1-ARGM-LOC 10:3-ARG1 8:0-relctb5.1/bracketed/chtb_437.fid 5 8 gold 签订.01 ----- 2:1-ARG0 3:1-ARG0-CRD 1:0*9:0*11:1-ARG1 8:0-relctb5.1/bracketed/chtb_103.fid 5 22 gold 签订.01 ----- 21:1-ARG0 23:1-ARG1 22:0-relctb5.1/bracketed/chtb_049.fid 15 8 gold 签订.01 ----- 0:1-ARGM-DIS 2:1-ARG0 5:1-ARGM-ADV 6:1-ARG0-CRD 9:1-ARG1 8:0-relctb5.1/bracketed/chtb_875.fid 8 44 gold 签订.01 ----- 26:3-ARG0 44:0-rel 46:1-ARG1ctb5.1/bracketed/chtb_875.fid 4 5 gold 签订.01 ----- 0:3-ARG0 4:1-ARGM-ADV 7:2-ARG1 5:0-relctb5.1/bracketed/chtb_271.fid 4 39 gold 签订.01 ----- 5:0*6:0-ARG1 7:1-ARGM-ADV 8:1-ARG0 26:1-ARG0-CRD 39:0-relctb5.1/bracketed/chtb_255.fid 8 11 gold 签订.01 ----- 0:2-ARGM-TMP 20:5-ARG1 18:0-relctb5.1/bracketed/chtb_081.fid 8 19 gold 签订.01 ----- 0:2-ARGM-TMP 7:1-ARG0 10:1-ARGM-ADV 11:1-ARG0-CRD 21:2-ARG1 19:0-relctb5.1/bracketed/chtb_644.fid 20 23 gold 签订.01 ----- 0:1-ARGM-TMP 2:2-ARGM-ADV 11:1-ARG0 18:1-ARG0-CRD 25:3-ARG1 Cpb1.0.txt:
Réalisation (2) ctb5.1/bracketed/chtb_713.fid 3 21 gold 签.01 ----- 0:4-ARG0 13:1-ARGM-ADV 18:1-ARG2 23:1-ARG1 21:0-rel ctb5.1/bracketed/chtb_713.fid : le chemin d’accès du fichier 3 21: le 22e mot de la 4e phrase (indice débutant à 0) 0 :4-ARG0: l’argument se trouve dans la 1ère phrase puis remonte de 4 niveaux du nœud terminal est un ARG0
Réalisation (3) Principal processus de mon programme • - Segmenter les colonnes de chaque ligne d’annotation du cpb1.0.txt • Segmenter des couples numériques par ‘-‘ dans la partie des arguments, prendre le chiffre à gauche du tiret comme la clé et l’étiquette à droite du tiret comme le contenu de la clé • Parcourir la table pour modifier les étiquettes du CTB
Expérimentation (1) Une partie de CTB qui correspond au corpus propbank: • - Corpus d’apprentissage (80% du corpus entraîné) • Corpus de test (10%) • Corpus de développement (10%)
Expérimentation (2) 4 expériences: - Expérimentation sur le CTB original - Expérimentation sur le CTB modifié par mon code - Expérience 1 - Expérience 2 - Expérience 3 combinaison entre les tables d’arguments de la méthode Chiang et ma proposition
Expérimentation (3) Résultats des exérimentations: (IP-HLN (NP-SBJ (NN 外商wai4shang1/étranger) (NN 投资tou2zi1/investissement) (NN 企业qi3ye4/enterprise)) (VP (VV 成为cheng2wei2/devenir) (NP-OBJ (NP (NP-PN (NR 中国zhong1guo2/la Chine)) (NP (NN 外贸wai4zi1/commerce étranger))) (ADJP (JJ 重要zhong4yao4/important)) (NP (NN 增长点zengzhangdian/croissance))))) Expérimentation sur le CTB original Expérimentation sur le CTB modifié par notre code (IP-HLN (NP-ARG0 (NN 外商wai4shang1/étranger) (NN 投资tou2zi1/investissement) (NN 企业qi3ye4/enterprise)) (VP (VV 成为cheng2wei2/devenir) (NP-ARG1 (NP (NP-PN (NR 中国zhong1guo2/la Chine)) (NP (NN 外贸wai4zi1/commerce étranger))) (ADJP (JJ 重要zhong4yao4/important)) (NP (NN 增长点zengzhangdian/croissance))))) Expérience 1 Expérience 2 (IP-HLN (NP-SBJ-ARG0 (NN 外商wai4shang1/étranger) (NN 投资tou2zi1/investissement) (NN 企业qi3ye4/enterprise)) (VP (VV 成为cheng2wei2/devenir) (NP-OBJ-ARG1 (NP (NP-PN (NR 中国zhong1guo2/la Chine)) (NP (NN 外贸wai4zi1/commerce étranger))) (ADJP (JJ 重要zhong4yao4/important)) (NP (NN 增长点zengzhangdian/croissance))))) Expérience 3
Evaluation (1) Protocole PARSEVAL implémenté par l’outil EVALB avec Bikel
Evaluation (2) L’utilisation des annotations Propbank semblent nuire au processus d’extraction et d’analyse • Il y a beaucoup d’erreurs d’annotations dans le fichier cpb1.0.txt • Mon programme n’est pas parfait puisqu’il est nécessaire de réaliser plus d’expériences pour trouver où se trouvent les erreurs La grammaire extraite lors de l’expérience 1 souffre d’une très petite taille comparée aux autres. Tous les arbres extraits étant alors constitués de "lignes" uniques (des spines) (Seddah, et al., 2009)
Conclusion J’ai malheureusement constaté que mon approche ne présentait pas d’avantage déterminant face à une extraction de grammaire utilisant les annotations originelles du CTB. Les performances moindres proviennent soit d’erreurs dans mon algorithme de transferts d’annotations soit d’une trop grossière table de distinction argument-adjoints basée sur les annotations Propbank. J’espère que ce travail préliminaire sur le sujet pourra être prolongé par la suite.
Merci votre attention! 谢谢 关注 !
Question Différence entre mot et Hanzi Contrairement aux mots écrits français, qui sont composés de lettres, les mots chinois (词ci2) écrits sont composés de caractères chinois (字zi4) ou sinogrammes. Contrairement à une idée généralement répandue, les caractères chinois ne représentent pas des mots ; ils représentent en fait des morphèmes, et une majorité de mots sont composés de deux caractères, alors que d’autres sont composé d’un seul, plus rarement de trois ou quatre. Ceci n’est pas spécifique au chinois. En français par exemple, un mot tel que ‘infaisable’ comprend trois morphèmes, signifiant ‘non’ (in-), ‘faire’ (-fais-), et ‘possible’ (-able). De la même façon, le chinois 做不完zuo4bu4wan2 ‘infaisable’ est composé de trois sinogrammes ou morphèmes signifiant respectivement ‘faire’, ‘non’, et ‘finir’. Cela signifie aussi que tout mot composé contient sa propre étymologie, issue des caractères porteurs de signification qui le composent, ce contrairement par exemple aux mots des langues européennes, dont la graphie rend compte d'une prononciation qui finit souvent par oublier le sens premier (ex : Lorient venant de L'Orient, Lille de L'île, Le Havrevenant du mot français havre, qui signifie port, et venant de Haven, mot germanique de même sens, par exemple Copenhague, le port des marchands). Pékin, en mandarin 北京bei3jing1, prononcé de nos jours Běijīng, contient donc les caractères 北bei3 (nord) et 京jing1 (capitale) et signifie donc littéralement "Capitale du nord". Nankin (南京nan2jing1) quant à elle est "capitale du sud"