650 likes | 829 Views
La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus. Liesbeth Degand FNRS/ Université catholique de Louvain. Relations causales et connecteurs.
E N D
La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus Liesbeth Degand FNRS/Université catholique de Louvain Sémantique et Corpus, Toulouse, juin 2004
Relations causales et connecteurs • Son prochain objectif: le record du monde d'apnée statique d'Andy Le Sauce qui, en piscine, retient sa respiration pendant 7 minutes 35 secondes. Pour inscrire son nom sur les tablettes Jean-Pol François devra gagner plus de deux minutes puisque son record de Belgique est fixé à cinq minutes vingt-deux secondes. (Le Soir, 1997) Sémantique et Corpus, Toulouse, juin 2004
Relations causales et connecteurs • Apparemment, le président Mobutu est rentré, vendredi, à Kinshasa. Apparemment, puisque personne - des membres du gouvernement venus l'accueillir ni des représentants de la presse accourus pour l'événement - ne l'a vu descendre de l'avion dans lequel on l'avait vu embarquer, en matinée, à Nice. (Le soir, 1997) Sémantique et Corpus, Toulouse, juin 2004
Relations causales et connecteurs (…) je crois que ça s'appelle en français mais excusez-moiparce queje vais peut-être (…) estropier le mot hein / un goupillon là (Valibel) Sémantique et Corpus, Toulouse, juin 2004
Relations causales et connecteurs • Ce transfert de souveraineté est génial , parce queje vais fièrement pouvoir dire à l' avenir que je suis une vraie Chinoise. (Le soir, 1997) Sémantique et Corpus, Toulouse, juin 2004
Relations causales et connecteurs • A l' occasion de leurs retrouvailles , les deux cousins - qui ont pratiquement le même âge : 62 et 60 ans - auront tout le loisir de parler de leurs souvenirs communs et de leur progéniture, caril n' y a pas l' ombre d' un nuage dans les relations bilatérales entre les deux pays, même si les Belges préféreraient , évidemment , voir les Norvégiens les accompagner dans la grande fratrie européenne. (Le soir, 1997) Sémantique et Corpus, Toulouse, juin 2004
L’échelle d’Implication du Locuteur • Conceptualisation scalaire des connecteurs en termes d’implication du locuteur. Les connecteurs sont ordonnés sur une échelle allant d’un implication minimale (relation objective) à une implication maximale (relation subjective). • IdL fait référence au degré avec lequel le locuteur joue implicitement un rôle actif dans la construction de la relation (causale) Sémantique et Corpus, Toulouse, juin 2004
L’échelle d’Implication du Locuteur Speaker Involvement increases with the degree to which both the causal relation and the related segments vehicle actions and assumptions of the present speaker (Pander Maat & Degand 2001) NVC VC Cep NCEp CSA Sémantique et Corpus, Toulouse, juin 2004
Détermination du niveau d’IdL • Degré d’iconicité de la relation causale • Présence d’un protagoniste conscient dans la situation causale • Caractère plus ou moins implicite du protagoniste • Distance par rapport au locuteur et au temps présent Sémantique et Corpus, Toulouse, juin 2004
Connecteurs et Implication du Locuteur • Tout connecteur encode un certain niveau d’IdL qu’il contribue à l’interprétation de son environnement discursif. Lorsque ce niveau est trop bas ou trop élevé pour être combinable avec cet environnement, l’usage du connecteur est inapproprié, ou il impose une nouvelle interprétation. Sémantique et Corpus, Toulouse, juin 2004
Connecteurs et Implication du Locuteur • J’étais pressé, monsieur l’agent, c’est pourquoi j’ai pris le sens interdit. • J’étais pressé, monsieur l’agent, donc j’ai pris le sens interdit. Sémantique et Corpus, Toulouse, juin 2004
Connecteurs, IdL et corpus • Connecteurs causaux en néerlandais et en français • Néerlandais: daardoor, daarom, dus, omdat, want, aangezien • Français: de ce fait, c’est pourquoi, dès lors, donc, parce que, car, puisque Sémantique et Corpus, Toulouse, juin 2004
Connecteurs, IdL et corpus • Analyse manuelle de 50 occurrences de chacun des connecteurs dans corpus écrits (presse) et oraux (Valibel, CGN). • Deux juges • Codage linguistique des marqueurs d’Idl • Type de relation • Modalité de S1 et S2 • Présence d’un protagoniste conscient • Expression linguistique du protagoniste • Continuïté du protagoniste entre S1 et S2 • Temps verbal • … Sémantique et Corpus, Toulouse, juin 2004
Codage linguistique (…) On a pardonné à certains d'avoir collaboré parce qu'il ne fallait pas affaiblir le camp anticommuniste. (…) 7 14 08 5 2 9 1 3 6 3 1 11 11 1 6 Corpus: Le Soir1997Connecteur: parce queFragment: #08Modalité S1: Action Modalité S2: OpinionType de relation: volitifRéalisation du pp en S1: expliciteRéalisation du pp en S2: implicite… Sémantique et Corpus, Toulouse, juin 2004
Difficultés • Choix des catégories et des traits sémantiques • Combien de catégories? Théorie(s) et hypothèses • Combien de traits sémantiques? Ni trop, ni trop peu… Sémantique et Corpus, Toulouse, juin 2004
Difficultés • Accord inter-juges?! • Détermination de la modalité Scène 2 : suite à un accident, la voiture de Madame P. est déclarée en perte totale car le coût de la réparation dépasse la valeur intrinsèque du véhicule.S1 = fait, expérience ou action? Sémantique et Corpus, Toulouse, juin 2004
Difficultés • Accord inter-juges?! • Détermination de la relation causale Si j' accepte aujourd'hui de sortir ces dossiers cachés au fond des tiroirs , c' est parce que le formidable travail qui a été fait ne peut rester oublié.Relation volitive ou épistémique? Sémantique et Corpus, Toulouse, juin 2004
Difficultés • Les difficultés sont sémantiques, pas syntaxiques • Ex. Détermination de S1 et S2 & Modification du connecteur • C' est donc surtout parce qu' il estime qu' il convient sur ces sujets délicats d' éviter la précipitation dans la généralisation, que le corps médical de l' hôpital de l' ULB n' assurera pendant quatre jours que les urgences. • C' est parfois difficile parce qu' il y a ce côté tri-dimensionnel alors que malgré tout , nous ne sommes pas dans l' eau et nous subissons le poids de la pesanteur. Sémantique et Corpus, Toulouse, juin 2004
Difficultés • Les difficultés sont sémantiques, pas syntaxiques • Ex. Détermination de S1 et S2 & Modification du connecteur • C' est donc surtout parce qu' il estime qu' il convient sur ces sujets délicats d' éviter la précipitation dans la généralisation (P),que le corps médical de l' hôpital de l' ULB n' assurera pendant quatre jours que les urgences (Q). • C' est parfois difficile (Q) parce qu' il y a ce côté tri-dimensionnel alors que malgré tout , nous ne sommes pas dans l' eau et nous subissons le poids de la pesanteur (P). Sémantique et Corpus, Toulouse, juin 2004
Solutions … • Opérationaliser!!! • Explicitation du processus interprétatif • Au moins deux juges • Taille des échantillons (min. 50?) Sémantique et Corpus, Toulouse, juin 2004
var4 modalité S1 1 = fait Description d’un état ou d’un événement localisable dans le temps (attribution possible de VdV ; extrait imaginable au passé). Le segment ne contient pas de conceptualiseur, il n’y a pas de protagoniste conscient impliqué dans situation causale, seul un auteur/locuteur responsable du récit. Ex. … Papraphrase: “C’est un fait que …” + spécification de temps et lieu Sémantique et Corpus, Toulouse, juin 2004
var4 modalité S1 3 = Expérience Il y a un conceptualiseur, qui est non-agentif. L’expérience est localisable dans le temps, VdV possible. Il s’agit d’événéments individuels, vrais à un moment donné. Différent d’un fait par la présence d’un conceptualiseur, ou une autre forme de représentation mentale. Ex. … Paraphrase: “je me souviens que …”, “j’ai appris/découvert que… » Sémantique et Corpus, Toulouse, juin 2004
Connecteurs causaux et IdL • Le potentiel expressif de chacun des connecteurs causaux peut être représenté comme une zone continue sur l’échelle. • Les connecteurs les plus fréquents doivent diverger significativement sur l’échelle. • L’échelle est constante pour des langues différentes, les connecteurs peuvent diverger par les zones qu’ils occupent. Sémantique et Corpus, Toulouse, juin 2004
Contiguïté relationnelle (NL) Sémantique et Corpus, Toulouse, juin 2004
Contiguïté relationnelle (FR) Sémantique et Corpus, Toulouse, juin 2004
Divergences d’IdL • Français: • parce que < car < puisque • de ce fait < c’est pourquoi < donc/dès lors • Néerlandais: • omdat < want/aangezien • daardoor< daarom < dus Sémantique et Corpus, Toulouse, juin 2004
Distance entre protagoniste et locuteur:donc/dès lors Sémantique et Corpus, Toulouse, juin 2004
Expression linguistique du protagoniste:donc/dès lors Sémantique et Corpus, Toulouse, juin 2004
Echelle d’IdL contrastive • Français: • parce que < car < puisque • de ce fait < c’est pourquoi < dès lors <donc • Néerlandais: • omdat < aangezien < want • daardoor < daarom < dus Sémantique et Corpus, Toulouse, juin 2004
Premières conclusions • L'IdL peut rendre compte de la variété d'usage des connecteurs causaux et des effets de substitution d'un connecteur par un connecteur de niveau différent. • L'IdL peut mettre au jour des divergences très fines entre connecteurs. • L'IdL permet de contraster des "équivalents" dans des langues différentes. Sémantique et Corpus, Toulouse, juin 2004
Vers une analyse automatisée… Yves Bestgen, FNRS/UCLWilbert Spooren, VU Amsterdam Sémantique et Corpus, Toulouse, juin 2004
Connecteurs et Analyses de Corpus • Approches classiques: • analyses manuelles d'échantillons relativement restreints (25-50) • analyst-dependent • Vers une approche automatisée • vastes corpus • analyst-independent Sémantique et Corpus, Toulouse, juin 2004
Connecteurs causaux en NL et FR • Aangezien, omdat, want, doordat • Puisque, parce que, car • Hypothèses linguistiques doordat < omdat < aangezien < want parce que < car < puisque • Techniques TAL • identification et extraction du matériel linguistique pertinent • analyse du matériel linguistique en fonction des hypothèses Sémantique et Corpus, Toulouse, juin 2004
Matériel (NL) • Corpus presse écrite néerlandaise de +/- 30 millions de mots • POS-taggé & lemmatisé • Essai sur 6 premiers mois • exclusion des rubriques à faible contenu sémantique • Données: 16.5 millions de mots Sémantique et Corpus, Toulouse, juin 2004
Techniques d'extraction d'information sémantique Analyse sémantique latente ET Analyse de contenu thématique Sémantique et Corpus, Toulouse, juin 2004
Analyse sémantique latente Technique statistique permettant de calculer la proximité sémantique de deux mots (segments) sur base de la probabilité de les retrouver dans un contexte textuel similaire. Deux mots sont similaires s'ils apparaissent dans des paragraphes similaires. Sémantique et Corpus, Toulouse, juin 2004
Analyse sémantique latente • Contexte textuel représenté par une base sémantique (énorme réseau multidimensionnel). • La signification d'un mot est représentée par un vecteur à N dimensions. • Pour calculer la proximité sémantique entre deux mots, on calcule le cosinus entre les deux vecteurs qui les représentent. Sémantique et Corpus, Toulouse, juin 2004
Cos. = 0 Cos. > 0 Cos. = 1 singe – lettreordinateur – mémoirepolicier - gendarme Sémantique et Corpus, Toulouse, juin 2004
Analyse sémantique latente Identification des mots avec lesquels les connecteurs sont sémantiquement associés, i.e. determination de la similarité sémantique entre les segments, phrases, paragraphes contenant want, omdat, aangezien, doordat. Sémantique et Corpus, Toulouse, juin 2004
Analyse de contenu thématique • Technique d'analyse de contenu permettant de déterminer si un concept donné survient +/- fréquemment dans un type de segment donné (Popping 2000) • Le concept X est plus fréquent dans les segments A que dans les segments B Sémantique et Corpus, Toulouse, juin 2004
Analyse de contenu thématique: première étape • Construction du dictionnaire • Identification des segments, p.ex. avec want, omdat, doordat, aangezien … Sémantique et Corpus, Toulouse, juin 2004
Analyse de contenu thématique: seconde étape • Construction d'une matrice avec les segments contenant des instances lexicales des concepts X, Y, Z Sémantique et Corpus, Toulouse, juin 2004
Connective Raw frequency Relative frequency (per million words) aangezien doordat omdat want 248 826 7689 5621 30 101 938 686 Fréquence des connecteurs dans le corpus Sémantique et Corpus, Toulouse, juin 2004
Préalable: Analyse « syntaxique » • Identification des segments de <cause> et de <conséquence> dans les phrases • Règles heuristiques pour distinguer: • Conn. Antécédent:Puisque c’est ainsi, je reviendrai mardi. • Conn. Médial 1: Je suis venue parce que tu me l’avais demandé. • Conn. Médian 2:Je reviendrai mardi. Car c’était délicieux. Sémantique et Corpus, Toulouse, juin 2004
Analyse syntaxique: difficultés • Hiérarchisation des règles par défaut et règles « prioritaires » • Détermination des frontières des segments • Taille minimale des segments pour une analyse sémantiquePour le français c’est en cours, pour le néerlandais c’est fait! Sémantique et Corpus, Toulouse, juin 2004
Analyse automatique du niveau d’IdL (analyse sémantique) • Les connecteurs diffèrent les uns des autres par le niveau d’IdL qu’ils encodent • doordat: niveau d'IdL bas (non-volitif, objectif, factuel) • want: niveau d'Idl élevé (épistémique-interactionnel, subjectif, opinion-argument) • omdat & aangezien: position intermédiaire (volitif, épistémique) Sémantique et Corpus, Toulouse, juin 2004
Dictionnaire de subjectivité Sémantique et Corpus, Toulouse, juin 2004
IdL (modalité de S1): Hypothèse • Les segments de <conséquence> liés par doordat contiennent des mots factuels, ceux liés par omdat contiennent des mots d’action et d’opinion, et ceux liés par aangezien et want contiennent des mots d’opinion. Sémantique et Corpus, Toulouse, juin 2004
IdL: Résultats • L’analyse automatique confirme les analyses de corpus manuelles: doordat co-occure significativement plus avec des segments factuels que les autres connecteurs, omdat plus avec des segments d’action et want et aangezien plus avec des segments d’opinion. Sémantique et Corpus, Toulouse, juin 2004
IdL et pronoms personnels • Les pronoms personnels font référence à un protagoniste conscient dans l’événement causal, de ce fait on peut les considérer comme des marqueurs linguistiques de subjectivité (Degand & Pander Maat 2003, Pit 2003) Sémantique et Corpus, Toulouse, juin 2004