200 likes | 289 Views
Terminologie et corpus : la question du genre et de la variation. Myriam Bouveret (DYALANG) Anne Condamines (ERSS) Valérie Delavigne (DYALANG) Pierre Zweigenbaum (DIAM/SIM). Introduction.
E N D
Terminologie et corpus : la question du genre et de la variation Myriam Bouveret (DYALANG) Anne Condamines (ERSS) Valérie Delavigne (DYALANG) Pierre Zweigenbaum (DIAM/SIM) Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
Introduction • le corpus permet de construire des ressources langagières de types différents (glossaires, index, terminologies, thésaurus, ontologies…) • mais le corpus est aussi en soi une ressource langagière à considérer en amont • des corpus, méthodes, ressources adaptées aux applications, utilisateurs Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
Sens / signification • Ce déplacement en linguistique renvoie à la question de la signification • Linguistique et informatique ont une base logique commune qui a permis de travailler sur le sens • Nécessité de trouver de nouvelles bases entre linguistique et informatique reposant sur la signification (cf. Slodzian 2000) Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
Contexte, variation, genre • On pose ici le problème du sens en contexte : variation et genre pour des ressources crées à partir de textes • le genre, une sorte de variation • Un texte n’est pas normé, il est produit selon un genre (ex : comptes rendus médicaux, résumés de thèse, fiches de dégustation, etc…) Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
2. La variation • « La variation mesure un décalage entre une forme lexicalisée et son usage » (Slodzian 2000 :75) • Le sens n’est pas figé. Synonymie et polysémie comme variation inhérente à la langue naturelle • Cas de variation : variation sémantique (polysémie, synonymie), variantes morphologiques et variation multilingue Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
Variation sémantique et morphologique exemples extraits du corpus LLI, Laboratoire de linguistique et d'informatique de l'université de Montréal Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
TAL: Différents aspects de la variation Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
Sémantique Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
Genre et variation lexicale • Le genre d’un texte influe sur sa syntaxe, mais aussi sur son lexique • Une dimension du genre est le public visé • Exemple: grand public vs spécialistes Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
Genre et variation morphologique • Le genre d’un texte influe sur sa syntaxe, mais aussi sur son lexique • Cas: productivité des adjectifs dérivés dans des corpus médicaux (hématologie) • Exemple: dérivés en –al sont plus productifs dans des documents Web que dans des comptes rendus hospitaliers Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
Genre et variation syntaxique • Les outils de TAL ont des performances qui varient avec le genre des textes • L’étiquetage morpho-syntaxique (GRACE) diffère selon le genre: HEUR et Brill-Limsi • Exemple :journaux, mémoires, romans et essais. Performances homogènes sauf pour mémoires Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
3. La question du genre • Problématique • Caractériser les textes au-delà de leur contenu • Prendre en compte la situation de production d’un texte • Genre influe sur les ressources terminologiques ex : légitimité /illégitimité des textes de vulgarisation • Définition • Comportement discursif observable par des régularités langagières auxquelles les locuteurs obéissent (Bahktine) • Compétence métalinguistique. • Normes: horizon d’attente, modèle de création • Descriptions insuffisantes: droit, génie génétique, physique nucléaire, art pariétal… Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
Une typologie des genres est-elle possible ? Tentatives nombreuses: rhétorique classique,champ littéraire, institution scolaire. Mais : • Multiplication des situations possibles • Classes trop générales • Hétérogénéité des genres (ex: écrit vs oral) • Plusieurs genres dans un même texte • Diversité des critères descriptifs (action sociale, fonctionnement rhétorique, situations énonciatives, finalité du discours, situation sociale, types d’interaction, actes de langage…) Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
Marqueurs de reformulation • Un exemple: les marqueurs des discours de vulgarisation indice fort : importance du métalangage juxtaposition, coordination, verbes (être, appeler, nommer, signifier, désigner…) expressions métalinguistiques (c'est-à-dire, autrement dit,en d’autres termes…), joncteurs (ou, soit…) - Mais • Marqueurs non spécifiques • Tous les textes de vulgarisation ne portent pas ces marques • Certains textes spécialisés les portent Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
Marqueurs de relation • Marqueur d’anaphorique a permis de repérer 44 génériques (cf. Aussenac, Condamines et Szulman 2000) • Exemple: Archivage de l’état de configuration logiciel. Cette activité… • Ces génériques apparaissent comme têtes de termes complexes: acteur, activité, composant, processus • Hypothèse: si plus fréquents dans textes non spécialistes on peut utiliser ces génériques pour constituer des ressources terminologiques s’adressant à des non-spécialistes Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
Conclusion • Pistes pour une étude de la variation • Outils d’extraction cf. Syntex • Patterns d’extraction • Marqueurs de genre • Modèles de ressources flexibles : intégrant la variation. Nature du sens ? • Modèles de ressources économiques : indexant la variation Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
Pistes: des marqueurs de genre • Quelles questions poser pour typifier les genres ? • Comment exploiter les outils existants pour étudier des genres ? Ex, Biber utilise les concordanciers pour une étude des marques discursives (« study of discourse characteristics » Biber, Conrad and Reppen, 1998 :106) • Des marqueurs grand public/spécialisé ? Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
Pistes: des dimensions du genre • Difficultés de caractériser les genres (ex Web, mémoires) • On peut utiliser des traits ou des dimensions différentielles • Exemple: dimensions externes (destinataire, objectif) et dimensions internes (style, factualité, technicité) cf.Sinclair (EAGLES), Biber Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
Bibliographie Assadi H.et Bourigault D., 2000, « Analyse syntaxique et statistique pour la construction d’ontologies à partir de textes », in Actes d’IC 2000, Ingénierie des connaissances, Toulouse 2002, Eyrolles, 243-256 Aussenac, Condamines et Szulman, à paraître, « Prise en compte de l’application dans la constitution de produits terminologiques » Biber D., Conrad S. and Reppen R., 1998, Corpus Linguistics. Investigating language stucture and use, Cambridge University Press Biber D., 1994, “Representativeness in corpus design. Linguistica Computazionale, IX-X:377-408”. Current Issues in Computational Linguistics: in honor of Don Walker. Condamines A. et Rebeyrolles J., 2000, « Construction d’une BCT à partir de textes : expérimentation d’une méthdoe », in Actes d’IC 2000, Ingénierie des connaissances, Toulouse 2002, Eyrolles, 191-206 Delavigne V. et Bouveret M. (Ed.), 2000, Sémantique des termes, Dyalang, Publications de l’Université de Rouen Grabar et Zweigenbaum, à paraître, « Productivité à travers domaines et genres : dérivés adjectivaux et langue médicale », Langue française Illouz G., « Typage de données textuelles et adaptation des traitements linguistiques. Application à l’annotation morpho-syntaxique », thèse de l’Université de Paris XI, 2000 Illouz G ; 1999, « Méta-étiqueteurs adaptatif : vers une utilisation pragmatique des ressources linguistiques », Actes de TALN 99, (Pascal Amsili coord.), 185-194, ATALA Cargèse Sinclair J., 1996, « Preliminary Recommendations on Text Typology , document en ligne (http://nicolet.ilc.pi.cnr.it/EAGLES/texttyp/texttyp.html), EAGLES (Expert Advisory Group on Language Engineering Standards) Slodzian M., 2000, « L’émergence d’une terminologie textuelle et le retour du sens », in Béjoint et Thoiron 2000, Le sens en terminologie, Duculot-Aupelf, 61-85 Zweigenbaum P. et Grabar N., « Liens morphologiques et structuration de terminologie », in Actes d’IC 2000, Ingénierie des connaissances, Toulouse 2002, Eyrolles, 325-334 Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet