240 likes | 398 Views
Extraction d’équivalents de traduction à partir d’un corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical. François MANIEZ Centre de Recherche en Terminologie et Traduction Université Lumière Lyon 2, maniezf@univ-lyon2.fr.
E N D
Extraction d’équivalents de traduction à partir d’un corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre de Recherche en Terminologie et Traduction Université Lumière Lyon 2, maniezf@univ-lyon2.fr
1.Introduction2.Hypothèses initiales3.Corpus utilisé4.Les adjectifs composés de l’anglais5.Méthode de repérage utilisée6.Résultats7.Sources de l’absence d’appariement8.Améliorations à apporter au modèle
1.Introduction • Les corpus bilingues alignés permettent d’extraire automatiquement des équivalents de traduction des collocations et des lexies complexes (Langlois & Plamondon 1998). • Les termes de l’anglais sont majoritairement formés à l’aide des deux seuls patrons syntaxiques N N et Adj N. (Gaussier 2001). • Le repérage des bigrammes correspondant à ces patrons syntaxiques et celui de leur équivalent de traduction dans le corpus bilingue (bitexte) peut servir à l’extraction d’une terminologie bilingue.
2.Hypothèses initiales • Similitude morphologique entre les ET Les termes de la langue technique et scientifique anglaise et leurs traductions françaises partagent fréquemment les mêmes racines gréco-latines (méthode des cognats). • Stabilité des traductions Il y a peu de variation dans la traduction des termes et collocations de la langue scientifique.
3.Corpus utilisé • corpus bilingue aligné composé de 30 articles ayant pour sujet la cardiologie (134 000 mots) et de leur traduction parue dans la version française du Journal of the American Medical Association • étiquetage morpho-syntaxique des deux parties du corpus ; pas d’analyse syntaxique • Formes traitées : toutes les expressions de patron syntaxique ADJ N (élimination des formes de comparatif et de superlatif, ainsi que des adjectifs composés).
4.Les adjectifs composés de l’anglais Absence de traitement car : • leurs équivalents de traduction (ET) varient beaucoup plus que ceux des autres adjectifs • les patrons syntaxiques utilisés pour les traduire sont divers et plus complexes que ceux déjà mentionnés, d’où une augmentation du temps de traitement. difficulté d’un repérage exhaustif (pretest probability, noninvasive tests)
Exemples de traductions des adjectifs composés : adjectif simple: • placebo-controlled human study essai contrôlé chez l'homme • low-cholesterol diet régime hypocholestéromique • calcium-channel blockers inhibiteurs calciques • connective-tissue diseaseconnectivite
sigle : • low-density lipoprotein LDL groupe prépositionnel : • dental-induced endocarditis endocardite d’origine dentaire • single-dose regimen protocole de prise unique • antibiotic-resistant endocarditis endocardite à germes résistants • dental procedure-induced infective endocarditis endocardite infectieuse d'origine dentaire
Ellipse (réduction) The high initial dose of antibiotic ensures a high blood level during and just after the bacteremia-producing procedure. La dose initiale élevée assure une concentration sanguine élevée pendant et juste après le geste bactériémique. • Etoffement Maintenance-dose antibiotics are inadequate to prevent bacterial endocarditis. Les antibiotiques administrés à dose d'entretien sont inefficaces pour prévenir l'endocardite bactérienne.
Transformation de la structure syntaxique LDL represents the atherogenic, cholesterol-containing particle les LDL, véhicules du cholestérol, sont les particules athérogènes. • Variation des équivalents de traduction (plus fréquente pour les participes) cocaine-induced myocardial infarction IDM associés à l'usage de cocaïne, infarctus myocardique par usage de cocaïne
5.Méthode de repérage utilisée • Extraction des séquences de type Adj N de la partie anglaise du corpus. • Extraction des séquences correspondant aux patrons syntaxiques les plus fréquemment observés dans les traductions françaises des séquences de type Adj N (Adj N, N Adj, N Prep N, N Prep Det N) de la partie française du corpus. • Appariement des groupes nominaux des deux langues au niveau du corpus, et non pas au niveau des phrases alignées.
La méthode d’extraction compare les informations contenues dans trois tables distinctes : • le corpus bilingue aligné au niveau de la phrase (2000 enregistrements). • les séquences Adj N de l’anglais (2000 séquences distinctes pour 3200 occurrences) • les groupes nominaux du français correspondant aux quatre patrons syntaxiques sélectionnés (4000 séquences distinctes pour 5500 occurrences)
Appariement entre les séquences de type Adj N et leurs équivalents de traduction potentiels, par un programme mettant en relation les trois fichiers, écrit sous un SGBD: • Chaque séquence Adj N est dans un premier temps mise en relation avec un sous-ensemble du fichier des groupes nominaux français. • filtre utilisé : similitude graphique des quatre premiers caractères de l’adjectif et du nom (méthode des cognats) • + utilisation de la fonction DIFFERENCE() de DBASE pour la reconnaissance d’ET contenant des accents (predictive value).
Le corpus bilingue est consulté afin d’établir le nombre d’enregistrements contenant les deux chaînes comparées dans chacun des deux champs du corpus bilingue, l’énoncé anglais et sa traduction française.
Indices utilisés : • R1 = nombre de phrases contenant les 2 GN comparés / fréquence du GN anglais • R2 = nombre de phrases contenant les 2 GN comparés / fréquence du GN français
Les trois équivalents de traduction les plus fréquemment observés sont relevés et classés en fonction de leur probabilité de correspondance calculée à partir du pourcentage de co-occurrence dans les énoncés alignés par rapport à leur fréquence d’emploi sur l’ensemble du corpus.
6. Résultats : (pour toutes les séquences de fréquence supérieure à 2 sur l’ensemble du corpus). • précision de 92% (129 ET corrects /140 ET attribués) • rappel de 71% (129 ET corrects attribués /182 GN au total)
7.Sources de l’absence d’appariement : 7.1. Le GN fait partie d’une unité terminologique de taille supérieure : • familial dyslipidemic hypertension : hypertension familiale dyslipidémique,dyslipidémie familiale hypertensive • hypertensive heart disease : cardiopathie hypertensive • sudden cardiac death : mort subite d'origine cardiaque
7.2. Le GN appartient à une structure coordonnée : [pulmonary and systemic] venous [hypertension and congestion] l'hypertension et la congestion veineuse pulmonaire et systémique
7.3. Non-correspondance du nombre de mots des ET. ·Traduction du nom par une lexie composée : clinical management : prise en charge clinique ·Amalgame à la traduction : antibiotic therapy : antibiothérapie coronary angiography : coronarographie ·Réduction hypertensive patients (hommes / patients) hypertendus
7.4. La synonymie entraîne une faible valeur des indices R1 et R2to use parenteral prophylaxis : avoir recours à la voie injectable, utiliser des antibiotiques par voie parentérale. • 7.5. non correspondance des cognatsmale patients sujets masculins • 7.6. Siglaisonischemic stroke AVC ischémiquemyocardial infarction IDM
8. Améliorations à apporter au modèle ·Traitement du patron syntaxique N N ·Sélection plus fine des candidats ET ·Traitement au niveau de la phrase pour les hapax, avec prise en compte de la position des groupes nominaux dans la phrase. ·Reconnaissance des séquences appartenant à des unités de taille supérieure (Cf. Frantzi 99, Maynard 01)