250 likes | 445 Views
Outils et ressources linguistiques pour l’alignement de textes bilingues français-vietnamiens. NGUYỄN Thị Minh Huyền Séminaire d’équipe Langue et Dialogue La Bresse, 27 – 29 Mars 2002. Contenu. Problématique Environnement de travail Alignement multilingue Réflexion. Problématique.
E N D
Outils et ressources linguistiques pour l’alignement de textes bilingues français-vietnamiens NGUYỄN Thị Minh Huyền Séminaire d’équipe Langue et Dialogue La Bresse, 27 – 29 Mars 2002
Contenu • Problématique • Environnement de travail • Alignement multilingue • Réflexion
Problématique • Objectifs • Ressources linguistiques • Outils pour le TAL • Spécificités du vietnamien
Objectifs • Créer et gérer des ressources linguistiques • Traiter le vietnamien : comprendre les textes • Lexique • Syntaxe • Sémantique • Aligner des corpus bilingues français-vietnamiens
Ressources linguistiques • Collection • Corpus bilingues français-vietnamien • documents littéraires, juridiques, techniques • Lexiques monolingues • Dictionnaires bilingues • Construction • Lexiques bilingues français-vietnamien • Codage : normalisation (ISO TC37/SC4)
Outils de TAL • Annotation phonétique • Annotation grammaticale (lexicale, syntaxique) • Annotation sémantique • Annotation multilingue
Spécificités du vietnamien • Le vietnamien parmi les autres langues • Groupe Viet-Muong, branche Mon-Khmer, famille Austro-Asiatique • Caractéristiques : isolante, monosyllabique, tonique • Hypothèse historique (A.G. Haudricourt) : • Origine : ~ Mon-Khmer, non tonique • Échanges culturels : ~ Thaï, tonique • Influence chinoise : écriture idéographique, vocabulaire • Impact colonial : écriture latine, vocabulaire, grammaire
Spécificités du vietnamien • Unité de la langue • Syllabe Mot Phrase • Syllabe : 3 types • ayant un sens, utilisée comme mot • ayant un sens, constituante de mots polysyllabiques (surtout sino-vietnamiens) • pas de sens pas vraiment monosyllabique difficulté pour la segmentation en mots
Spécificités du vietnamien • Mot : une ou plusieurs syllabes • Mot redoublé, mot composé • Phrase • sujet + prédicat • ordre de mots important (S-V-O) • composition de phrase souple (mot-outil absent) • Phénomène : Redoubler mots, expressions
Spécificités du vietnamien • Catégories lexicales • nom, pronom, verbe, adjectif, conjonction, mot complément, mot introductif, interjection • une classe d’articles riche (parmi les noms) • ông già ~ le vieux, bà già ~ la vieille • thơ ~ poème, poésie; un poème ~ mộtbài thơ • système de pronoms compliqué Nó nghe bà ấy kể người ta đồn cô ấy nói lão ta nghi chị ấy nói ông ấy kể … Il/Elle entendre elle raconter on faire courir un bruit elle dire il douter elle dire il raconter
Spécificités du vietnamien • Catégories lexicales (suite) • mutation grammaticale fréquente • cày ~ charrue, labourer, être labouré • Anh viết thư này rất hay ~ Tu écrire lettre ce très bien • Thư nàyviếtrất hay ~ Lettre ce écrire très bien • Anh ấy (đã) cho tôi quyển sách này~ Il avoir donné moi livre ce • Anh ấy (đã) gửi quyển sách này cho tôi~ Il avoir envoyé livre ce à moi
Spécificités du vietnamien • Structure syntaxique • Phrase = sujet + prédicat • Mot Syntagme Phrase • Syntagme : • Groupe nominal (NP) • Groupe verbal (VP) • Groupe adjectival (AP) • Groupe prépositionnel (PP) • composition de syntagme : dépend fortement du mot principal
Spécificités du vietnamien • Groupe nominal • NP (Det1) (Det2) (Det3) N (AP+) (VP+) (PP+) (DP) • Det1 : nom collectif • Det2 : numéral • Det3 : classificateur • DP : pronom démonstratif • Exemple [[Tất cả]DET1 [những]DET2 [cô]DET3 [bán hàng]VP ]NP Tout les (jeune fille) vendre marchandise
Spécificités du vietnamien • Groupe prépositionnel • PP Prep NP/AP/VP • Prep : conjonction • Groupe adjectival • AP (J+) A (J/NP/PP/VP/AP+) • J : mot complément • Exemple: [của [cửa hàng [đẹp [nhất]J [(ở) [phố [này]DP]NP]PP]AP]NP]PP de magasin beau le_plus (dans) rue ce
Spécificités du vietnamien • Groupe verbal • VP (J+) V (PP/NP/VP/AP+) • Exemple: [[đều]J [rất]Jthích [mặc [màu [xanh]AP]NP]VP]VP tous très aimer se vêtir couleur bleu • Phrase • S NP VP/AP • Exemple [[[Tất cả]DET1 [những]DET2[cô]DET3 [bán hàng]VP [của [cửa hàng [đẹp [nhất]J [phố [này]DP]NP]AP]NP]PP]NP[[đều]J [rất]Jthích [mặc [màu [xanh]AP]NP]VP]VP
Spécificités du vietnamien • Ambiguïté – exemples • Ông già đi nhanh quá! Le vieux aller/marcher vite trop ! Le vieux décéder vite trop ! Vous vieillir vite trop ! • Anh hoạ sĩ vẽcô gái bánhoa hồngđỏ rấtđẹp Le peintre dessiner la fille vendre fleur rose rouge très beau
Environnement de travail • Projet pour le TAL au Vietnam (2001-2003) • Construction de dictionnaires électroniques • Traduction anglais-vietnamien • Fouille de données (corpus textuels) • Représentation de données • Recherche d’information • Étude de spécificités du vietnamien • Alignement multilingue
Alignement multilingue • Phrases : • hypothèses simplificatrices communes : • ordre des phrases identique ou très proche • peu de suppressions ou d’adjonctions dans les textes • alignements 1 : 1 prépondérants • ancrage lexical (distributions similaires, dictionnaire bilingue, cognates) • corrélation des longueurs de phrases • combinaison de ces deux techniques • interrogation documentaire multilingue.
Alignement multilingue • Mots et expressions • deux étapes : • repérer mots et expressions des textes • les mettre en correspondance • Techniques : • méthodes statistiques • approches linguistiques basées sur la reconnaissance de patrons et modèles (patterns, templates) • combinaison des deux
Quelques réflexions • Étiquetage lexical • Analyse syntaxique • Alignement multilingue français-vietnamien
Étiquetage lexical • Segmentation • Plusieurs chemins ? • Répétition d’expressions ? • Noms propres ? • Etiquetage • QTAG • Considérer des catégories lexicales plus fines • catégorie lexicale ~ sémantique ?
Analyse syntaxique • CFG • LFG, HPSG, TAG ? • Structure de trait ?
Alignement multilingue F-V • Au niveau des phrases • Outil développé dans l’équipe L&D • Au niveau des mots • Syntagmes ? • Seuls mots autonomes ? • Plutôt direction français vietnamien
Les délais … • Etiquetage lexical : mai 2002 • 1er analyseur syntaxique : juillet 2002 • …