580 likes | 754 Views
Analyses croisées d’un corpus de vulgarisation et de dictionnaires de la langue générale : l'exemple de la volcanologie . Amélie JOSSELIN, Doctorante , Université Lyon II Lumière. Plan de la présentation. A. Cadre de l’étude : Présentation du projet de thèse
E N D
Analyses croisées d’un corpus de vulgarisation et de dictionnaires de la langue générale : l'exemple de la volcanologie . Amélie JOSSELIN, Doctorante , Université Lyon II Lumière
Plan de la présentation • A. Cadre de l’étude : Présentation du projet de thèse • B. Zoom sur l’objectif 2 : Corpus & Dictionnaires • C. Présentation des données et des outils : -corpus -outils exploitation corpus -dictionnaires • D. Analyse d’exemples - série conceptuelle volcan actif, endormi, éteint… - verbe erupt
Place et rôle de la terminologie dans les dictionnaires généraux. Etude du domaine de la volcanologie. « Les lexicographes doivent absolument importer des unités de langue de spécialité (LSP) dans les dictionnaires de langue et en entreprendre la description au même titre que les mots usuels ». A.1. Libellé du sujet • Dichotomie apparente • « Place » : quantitative = un fait établi • « Rôle » : raison d’être jamais remise en cause : Cf. Boulanger (2001 : 247)
La Volcanologie est une des branches des Sciences de la Terre où l’on a le plus coutume d’utiliser des mots à contresens, dans des acceptions trop larges, ou trop étroites, ou totalement inadéquates Alain de Goër (in Le Volcanisme : Lexique. Avertissement (1985)) A.2 Choix du domaine • Intérêt personnel • Bon exemple de « terminologie grand public » / vulgarisation • Lexique du domaine mal traité
A.3 But global de la thèse Tenter d’améliorer le traitement de la terminologie dans les dictionnaires généraux en s’adaptant aux demandes des utilisateurs, lorsqu’utilisateurs il y a.
A.4 Objectifs • (1) Réfléchir à la raison d’être des termes, c’est-à-dire des mots appartenant aux langues de spécialité, dans les dictionnaires généraux • (2) Analyser les choix éditoriaux qui ont été faits concernant la terminologie dans les dictionnaires existants ainsi que la gestion de ces choix • (3) Redéfinir de manière précise les besoins dictionnairiques des utilisateurs en matière de terminologie • (4) Proposer des solutions lexicographiques qui s’adaptent mieux aux besoins des divers utilisateurs et qui utilisent les nouveaux moyens informatiques.
Examen de la documentation théorique A.5 Méthodologie (1) • Objectif 1 Réfléchir à la raison d’être des termes, c’est-à-dire des mots appartenant aux langues de spécialité, dans les dictionnaires généraux
Analyse du traitement d’un domaine précis (volcanologie) dans des dictionnaires existants (unil. : FR, EN ; bil. : EN/FR) à la lumière des données d’un corpus de vulgarisation du domaine A.5 Méthodologie (2) • Objectif 2 Analyser les choix éditoriaux qui ont été faits concernant la terminologie dans les dictionnaires existants ainsi que la gestion de ces choix
Qui? Elaboration d’un sondage portant sur les mots scientifiques et techniques dans les dictionnaires généraux QUI? Nombre Global? Mots usuels ou spéc? Besoin réel? Combien? Combien? Combien? Evaluer adéquation dicos / attentes Illustrations? Combien? Clarté déf.? A.5 Méthodologie (3) • Objectif 3 Redéfinir de manière précise les besoins dictionnairiques des utilisateurs en matière de terminologie Quelle utilisation? Degré de satisfaction? Justifier inclusion termes Quelle(s) info(s) inclure
Synthèse des résultats du sondage, et des analyses croisées dictionnaires / corpus A.5 Méthodologie (4) • Objectif 4 Proposer des solutions lexicographiques qui s’adaptent mieux aux besoins des divers utilisateurs et qui utilisent les nouveaux moyens informatiques.
B/ Zoom sur l’objectif 2 :Corpus & Dictionnaires B.1 Quelle analyse et dans quel but?
Quelle analyse? Rappel Analyser à titre d’exemple le traitement du domaine de la volcanologie dans 4 dictionnaires généraux unilingues et 2 bilingues afin d’améliorer, de manière générale, le traitement des mots sci-tech dans ce genre de dictionnaires au niveau de la macrostructure et de la microstructure
But : Amélioration de la Macrostructure 1. Quels termes doivent être inclus dans la nomenclature du dictionnaire? - Termes simples (ex : volcan, lave, cratère) - Termes complexes (ex : volcan-bouclier, caldeira d’effondrement, bombe en croûte de pain) 2. Comment doivent-ils être inclus? • Problème de l’emplacement des termes complexes / syntagmes nominaux (macro/microstructure)
Dictionnaires unilingues Définitions Phraséologie (collocations, composés etc.) Exemples Renvois Dictionnaires bilingues Indications sémantiques Equivalents : nombre et précision Phraséologie (collocations, composés etc.) Exemples But : Amélioration de la Microstructure
B/ Zoom sur l’objectif 2 :Corpus & Dictionnaires B.2 Analyser, mais comment?
Méthodes précédemment utilisées pour l’analyse 3 méthodes : • 1/ Partir des dicos de langue générale : - mots cités dans préface (Wesemaël & Wesemaël 2003) - échantillons dans telle lettre (Mazière 1981, Jessen 1997, Boulanger 2001) • 2/ Partir des textes où circulent les mots du domaine => dico général - article de journal (Monde des Sciences : Mazière 81, Pour la Science Wesemaël & Wesemaël 2003) - ouvrage de vulgarisation (astronomie, Wesemaël & Wesemaël 2003) • 3/ Partir d’un dictionnaire spécialisé du domaine => dico général - Thoiron 1998 : Introduction au langage de la médecine / NPR-OXHA - Candel & Humbley 1997 : Vocabulaire de géomorphologie / TLF
Utilisation grandissante du corpus en lexicographie et en terminologie Depuis assez longtemps pour la lexicographie générale unilingue (1987) et bilingue (1994) : -Ex : Birmingham Collection of Texts (Collins Cobuild), The Bank of French (Oxford-Hachette). Depuis peu mais de plus en plus pour la terminologie (Meyer & Mackintosh 1996, Bowker & Pearson 2002…) : -Rôle documentation > rôle introspectionpour le terminologue (Meyer & Mackintosh 1996) -Nouvelle approche textuelle / sémasiologique (Condamines 1999, Bourigault & Slodzian 1999 etc.)
Extraction Comparaison données dico Corpus volcanologie FR/EN Liste de (candidats) termes Analyse données corpus Notre méthode Notre méthode
Objectifs de recherche pour l’utilisation du corpus • (1) Extraire une liste de candidats-termes du domaine de la volcanologie, et la confronter aux nomenclatures des dictionnaires existants • (2) Repérer des collocations et d’autres types de phraséologie relatifs à ces termes • (3) Repérer des contextes définitoires pour aider à l’amélioration des définitions (dic. unilingues) ou des indications sémantiques (dic. bilingues)
Objectifs de recherche pour l’utilisation du corpus • (4) Repérer des relations sémantiques entre les termes (synonymie, hyponymie…) • (5) Repérer des exemples (combinaisons libres) intéressants • (6) Identifier ou vérifier le ou les équivalent(s) d’un terme
C/ Présentation des données et outils de travail C.1 Les deux corpus
2 types de corpus • Un corpus comparable : “Comparable corpora consist of original texts in each language, matched as far as possible in terms of text type, subject matter and communicative function.” Altenberg et Granger (2002 : 8)
2 types de corpus • Un corpus traduit bi-directionel : “ Translation corpora consist of original texts in one language and their translations into one or several other languages. If the translations go in one direction only (from language A to language B) they are unidirectional; if they go in both directions (from language A to language B and from language B to language A) they are bi-directional.” Altenberg et Granger (2002 : 8)
Pourquoi la vulgarisation? • (1) Les textes de vulgarisation contiennent des termes (Delavigne 2001) • (2) Les termes trouvés dans les textes de vulgarisation doivent figurer dans un dictionnaire général [Postulat de départ] • (3) Le style définitoire des textes de vulgarisation est très utile du point de vue lexicographique
Quelle vulgarisation (1) ?Type de discours scientifique • Discours de semi-vulgarisation (ex: Pour la Science, Scientific American) • Discours de vulgarisation (ex : Science et Vie, New Scientist) • Discours pédagogique (ex : manuels universitaires)
Genres Non-Presse Textes Glossaires Presse Magazines Journaux Textes exposition Docs Web Manuels Livres Quelle Vulgarisation (2)? Genre
C/ Présentation des données et outils de travail C.2 Outils d’exploitation du corpus
Termes simples -N -A -V Syntagmes: -SN -SA -SV Outils utilisés pour le corpus comparable • Analyseur syntaxique de corpus : SYNTEX (D. Bourigault, ERSS, UTM) => extraire liste de candidats-termes • Concordancier: COCOON • (DCB, Université d’Ottawa) • => faire des recherches pointues
Outil utilisé pour le corpus traduit LogiTerm(Terminotix, Ottawa) • Module d’alignement de textes traduits (RALI, Montréal => cf. Transsearch, Hansard) • Fonctions (basiques) de concordancier bilingue
C/ Présentation des données et outils de travail C.3 Dictionnaires analysés
Dictionnaires analysés • Langues : anglais, français • Dictionnaires usuels => de nomenclature comparable • Dictionnaires répandus (stat. de vente) • Dictionnaires de langue / encyclopédiques • Support Cd-Rom • (Basés sur corpus)
Dictionnaires analysés • 2 unilingues FR : - Nouveau Petit Robert 2001 [NPR] - Petit Larousse 2002 [PL] • 2 unilingues EN : - New Oxford Dictionary of English 2000 [NODE] - American Heritage College Dictionary 1996 [AH] • 2 bilingues EN/FR - Oxford / Hachette 1996 [OXHA] - Harrap’s 2000 [HAR]
D/ Analyse de 2 exemples 1/ Série volcan actif / endormi / éteint Active / dormant / extinct volcano
Choix de l’exemple - Plus haute fréquence parmi les SN avec volcano / volcan identifiés par Syntex - Point de vue contrastif bilingue : syntaxe différente “Volcanoes are classified as extinct, dormant or active” (TEA-2-14) • Contextes S’insère dans une série conceptuelle dont il faut analyser tous les éléments • Liste des SN extraits par Syntex • Connaissance du domaine
Trouve t-on les termes dans les dicos, et où? • 3 à 4 des collocations anglaises présentes dans : • les 2 unilingues anglais • les 2 sections (En-Fr/Fr-En) des bilingues • Certaines collocations françaises totalement absentes • “volcan actif” : PL, OXHA [Corpus = 120] • “volcan endormi” : unil FR (PL, NPR), bil (OXHA, HAR) [Corpus = 8] • “volcan en sommeil” dans HAR [Corpus = 4] • “volcan assoupi” dans OXHA [Corpus = 3] Càd slt donnée comme collocation en Langue Source (LS) ou slt comme équivalent en Langue Cible (LC) • Certaines collocations dans un seule section du dic. bil. • “volcan actif”, “volcan en sommeil”: donnés slt comme collocations LS dans HAR • “volcan en repos (OXHA) / volcan au repos (HAR)” : donnés slt comme équivalents (LC)
Trouve t-on les termes dans les dicos, et où? • Certaines collocations 2 fois dans même section bil. • “active volcano” comme terme LC sous volcan et activité • “volcan éteint” comme terme LS sous volcan et éteint • Certaines collocations 1 fois slt ds même section, sans renvoi à l’autre entrée : • Systématique dans section EN-FR • “dormant volcano” sous dormant, pas de référence à dormant dans l’entrée volcano • Incohérent dans la section FR-EN • “volcan actif” trouvé slt sous “volcan” dans HAR, pas de référence à volcan sous actif
Termes français Termes anglais Bilan sur la macrostructure • Termes anglais bcp mieux représentés : • Explication possible : pas de syn. en anglais? • Incohérence au niveau présentation • Critères d’inclusion? • anglais : conceptuel [termino] • français : fréquence [lexico] ? (pb. volcan actif!)
Présentation de l’information (1) • Forme de la collocation • Attribut ou épithète • Données dictionnaire vs. données corpus • Ex: active • HAR = attribut to be/become active (of volcano) être/entrer en activité • Corpus = essentiellement épithète • Ex: inactive / inactif • OXHA, HAR = épithète (inactive volcano) • Corpus = essentiellement attribut • Etiquette de domaine & Divisions sémantiques • Très rares cas avec l’étiquette « géologie » • OXHA: dormant 2) geology [volcano] au repos, en sommeil;
Présentation de l’information (2) • Ex. active dans OXHA Actant. A word which indicates the context, when the choice of equivalent depends on the context in which the SL word is used. An actant may be a typical subject or typical object of a headword, which acts in the immediate structure in which the word is used and is able to fit into the structure of the sentence. • Présentation des Actants
Info supp. des dicos : dans le corpus? • « volcan dormant » terme français LS donné par HAR : • 0 occurrence dans le corpus • « volcan au repos » (terme LC dans OXHA) & « volcan en repos » (terme LC dans HAR): • 0 occurrence telle quelle dans le corpus • Occurrences proches : => Terme serait plutôt : « volcan en phase / période de repos »
Définitions (1) • Absence de définitions • Ex : volcan actif dans NPR • Renvois interminables • Ex : volcan en activité dans NPR (=> éruption) • Problèmes de circularité : •Ex : dormant dans NODE (of a volcano) temporarily inactive
Définitions (2) • Problèmes de clarté (métalangage) • Ex : dormant volcano dans AH 3. Temporarily quiescent: a dormant volcano. • Degré de précision scientifique • Active dans NODE : (of a volcano) that is erupting or has erupted in historical times • Dormant dans AH : 3. Temporarily quiescent => Voir ce que donne le corpus sur ces définitions
volcan Actif En activité Endormi Assoupi En sommeil Eteint Extinct volcano Active Dormant Classification selon le degré d’activité
Synonymie partielle et flou sémantique Décomposition en traits sémantiques après dépouillement corpus Confusion active / dormant Déf° « historical »? Anthropocentrique Confusions dormant / extinct