360 likes | 470 Views
Contribution à l’étude des messages électroniques francophones Quelques résultats et leurs conséquences pour le TAL. Nicolas TORZEC LERIA – Université d’Angers nicolas.torzec@wanadoo.fr. Journée d’étude ATALA du 5 juin 2004 Traitement automatique des nouvelles formes de communication écrite.
E N D
Contribution à l’étude des messages électroniques francophones Quelques résultats et leurs conséquences pour le TAL Nicolas TORZEC LERIA – Université d’Angers nicolas.torzec@wanadoo.fr Journée d’étude ATALA du 5 juin 2004 Traitement automatique des nouvelles formes de communication écrite
Plan • Introduction • Méthodologie • Objectif • Présentation du corpus étudié • Description des études réalisées • Quelques résultats et leurs conséquences pour le TAL • Étude de la structure des messages • Étude des phrases • Étude des formes • Conclusion et perspectives Traitement automatique des NFCE
Introduction Traitement automatique des NFCE
IntroductionContexte et problématique • Les messages électroniques : un type particulier de texte • Textes électroniques résultants de CMO asynchrone : courriels, articles de forums de discussion… • Communication Médiée par Ordinateur (CMO) : communication écrite entre deux ou plusieurs personnes par le biais d’ordinateurs interconnectés • Spécificités linguistiques des messages électroniques • Abondance de formes extra-lexicales (?) • Phrases agrammaticales (?) • Style d’écriture dans lequel l’orthographe est intentionnellement détournée (?) • Conséquences pour le Traitement Automatique des Langues (TAL) Spécificité linguistique + absence de ressources et de traitements linguistiques adaptés Traitement automatique difficile au moyen d’un analyseur traditionnel Production d’analyses linguistiques erronées ou trop imprécises (quid des services?) Traitement automatique des NFCE
IntroductionNotre approche • Objectif final : Développement de ressources et de traitements linguistiques mieux adaptés à l’analyse automatique des messages électroniques francophones • Phase 1 : Construction d’un corpus de messages électroniques francophones • Spécification et construction d’un corpus électronique annoté spécialisé permettant - d’étudier les messages électroniques francophones - de développer des ressources et traitements linguistiques pour le TAL • Phase 2 : Étude du corpus • Analyse des caractéristiques linguistiques des messages de notre corpus • Analyse des problèmes rencontrés lors de leur traitement automatique • Proposition de solutions permettant de remédier à ces problèmes • Phase 3 : Exploitation du corpus • Développement de ressources et traitements linguistique adaptés à ce type de texte • Validation/Évaluation de ressources et de traitements linguistiques Traitement automatique des NFCE
Méthodologie Traitement automatique des NFCE
MéthodologieObjet de nos études • Caractéristiques linguistiques des messages électroniques francophones ? • Abondance de formes hors lexique pour lesquelles les analyseurs traditionnels ne peuvent fournir d’information ? • Phrases ne correspondant pas au français écrit standard modélisé dans les grammaires habituellement utilisés dans les analyseurs traditionnels ? • Style d’écriture spécifique dans lequel l’orthographe est malmené voire intentionnellement détournée ? • Conséquences pour le traitement automatique des langues • Quid de l’analyse structurelle ? • Quid de la segmentation automatique en phrases et de l’analyse syntaxique ? • Quid de l’analyse morpho-lexicale et morpho-syntaxique ? • Nécessité de traitements dédiés ? Traitement automatique des NFCE
MéthodologiePrésentation du corpus étudié 1/3 • Objectifs du corpus • Permettre l’étude linguistique des messages électroniques francophones • Permettre le développement de ressources et traitements linguistiques pour le TAL Interrogations liées à la nature des messages et à la représentativité du corpus Interrogations liées à la quantité et à la diversité des messages nécessaires • Un corpus de messages électroniques francophones • Choix de messages provenant de forums de discussion électroniques francophones Diversité linguistique de ces messages : thèmes, auteurs, registres, styles… Collecte aisée d’une grande quantité & diversité de messages électroniques • 925 000 messages électroniques francophones (145M de tokens, 199 forums) • Collecte et nettoyage automatique [détails] • Cinq mois de collecte (1er et 3e trimestre 2002), outils ad hoc • Pas d’échantillonnage (i.e. totalité des messages et forums disponibles) Traitement automatique des NFCE
MéthodologiePrésentation du corpus étudié 2/3 • Un corpus annoté • Annotations structurelles [détails] • Annotations morpho-lexicales [détails] • Annotations morpho-syntaxiques [détails] • Annotation automatique de l’ensemble du corpus ( volume) [détails] • Analyseur linguistique Tilt de France Telecom R&D : - robuste, doté de ressources lexicales conséquentes et paramétrable - intègre des prétraitements variés et des fonctions de correction automatique • Validation manuelle d’une partie du corpus ( validité et précision) [détails] • Correction et enrichissement manuel des annotations par des linguistes • Messages provenant de forums sélectionnés pour leurs caractéristiques linguistiques • 7 400 messages électroniques francophones (500 000 tokens, 6 forums) Traitement automatique des NFCE
MéthodologiePrésentation du corpus étudié 3/3 • Un corpus électronique réutilisable • i.e. un corpus électronique documenté et normalisé • Documentation • Documents décrivant les traitements appliqués aux messages collectés • Documents décrivant les jeux d’étiquettes et conventions d’annotation suivies • Normalisation • Conformité avec les recommandations et directives de la TEI • TEI : ensemble de normes visant à unifier le codage des documents électroniques pour faciliter leur réutilisation et leur échange • Encodage • Encodage en XML : -- Interprétable par un lecteur humain -- Espéranto informatique (interopérabilité) Traitement automatique des NFCE
MéthodologieDescription des études réalisées • Études sur corpus • Exploitation de notre corpus et de ses annotations… • Études qualitatives & quantitatives • Niveau 1 : Étude de la structure des messages • Analyse qualitative et quantitative de la structure des messages • Conséquences pour le TAL • Niveau 2 : Étude des phrases • Résultats relatifs à la ponctuation finale et conséquences pour le TAL • Résultats relatifs à la ponctuation interne et conséquences pour le TAL • Niveau 3 : Étude des formes • Typologie des formes rencontrées dans les messages électroniques francophones • Résultats relatifs aux formes extra-lexicales et conséquences pour le TAL Traitement automatique des NFCE
Quelques résultats et leurs conséquencespour le TAL Traitement automatique des NFCE
Étude de la structure des messages Traitement automatique des NFCE
Étude de la structure des messagesQuelques résultats … • Structure des messages • Organisation en « blocs de texte » séparés par des lignes blanches • Typologie des « blocs de texte » rencontrées • Paragraphe (texte strictement parlant) • Texte reporté, introduction de texte reporté • Signature, bandeau publicitaire • Quelques chiffres • Les messages comportent en moyenne 3 paragraphes • Les paragraphes comportent en moyenne 2 phrases • 73% des messages comportent du texte reporté (grande variabilité) • 59% des messages comportent une introduction de texte reporté (grande variabilité) • 40% des messages comportent une signature finale (grande variabilité) • 20% des messages comportent un bandeau publicitaire final (grande variabilité) Traitement automatique des NFCE
Étude de la structure des messages… et leurs conséquences pour le TAL • L’organisation en « blocs de texte » (explicitement séparés) va faciliter : • l’analyse structurelle • la segmentation automatique en phrases • Nécessité de traitements spécifiques • Existence de « blocs de texte » spécifiques, absents des textes conventionnels • Nécessité de les détecter et de leur appliquer des traitements adaptés à leur nature Traitement automatique des NFCE
Étude des phrases Traitement automatique des NFCE
Étude des phrasesGénéralités • Quelques chiffres • Les messages comportent en moyenne 5 phrases • Les phrases comportent en moyenne 14 « mots » • 18% des messages n’ont pas de ponctuation standard du tout (grande variabilité) • Des phrases pas si courtes (pas si simples ?) et pas toujours ponctuées. • Conséquences pour le TAL • Segmentation automatique en phrases et analyse syntaxique difficile ? … Traitement automatique des NFCE
Étude des phrasesPonctuation finale et capitalisation initiale • Ponctuation finale • 46% des messages n’ont pas de ponctuation finale standard Mais grande variabilité : 29% hors forums de petites-annonces • 36% des messages n’ont pas de ponctuation finale du tout Mais grande variabilité : 18% hors forums de petites-annonces • Capitalisation initiale • 34% des phrases n’ont pas de majuscule initiale Mais variabilité : 29% hors forums de petites-annonces • Conséquences pour le TAL • Inadéquation des systèmes de segmentation automatique en phrase traditionnels : i.e. heuristiques inadaptées (non respect des conventions habituelles) • Nécessité de traitements spécifiques pour la segmentation automatique en phrases Traitement automatique des NFCE
Étude des phrasesPonctuation interne • Quelques chiffres • 53% des phrases comportent une ponctuation interne • Conséquences pour le TAL • Phrases explicitement structurées : analyse syntaxique facilitée (indices structurels) Stabilité entre les forums Grande variabilité Répartition des symboles de ponctuation interne Traitement automatique des NFCE
Étude des formes Traitement automatique des NFCE
Étude des formesTypologie des formes rencontrées Typologie des formes rencontrées dans les messages électroniques francophones Traitement automatique des NFCE
Étude des formesGénéralités • Quelques chiffres • 78 % des formes sont des mots ordinaires du lexique de référence • 13 % des formes sont des symboles de ponctuation • i.e. 19% des formes sont des formes non standard ! • Grande variabilité en fonction du type de forum traité Ex. : 10% : fr.soc.religion, fr.rec.cuisine, fr.bio.général 19% : fr.rec.musique.hip-hop 38% : fr.petites-annonces.immobilier, fr.petites-annonces.informatique.matériel • Conséquences pour le TAL • Analyse morpho-lexicale problématique (idem pour l’analyse morpho-syntaxique) • Nécessité de ressources et de traitements linguistiques spécifiques pour l’analyse des formes non standard Traitement automatique des NFCE
Étude des formesLes formes non standard 1/3 • Formes non standard à base de chiffres arabes et romains • 3% des formes sont à base de chiffres arabes et romains • Correspondent essentiellement à des cardinaux • Autres symboles typographiques • 1% des formes sont des symboles typographiques ne servant pas à la ponctuation • Conséquences pour le TAL • La fréquence de ces formes ne porte pas vraiment à conséquence : les analyseurs traditionnels savent déjà les traiter correctement ! Traitement automatique des NFCE
Étude des formesLes formes non standard 2/3 • Mots ordinaires inconnus ou étrangers • 2,8% des formes sont des mots de la langue absents du lexique de référence Variabilité fonction du type de forum (ex. : 1,2% bio ; 3,6% hip-hop ; 3,9% info) • 0,7% des formes sont des mots étrangers absents du lexique de référence Variabilité fonction du type de forum (ex. : 0,2% religion ; 0,8% info) • Abréviations, sigles et consorts • 3,3% des formes sont des abréviations (au sens général du terme) Variabilité importante fonction du type de forum et de forme Ex. : le cas des abréviations (au sens strict) : 0,2% religion ; 10% info • Conséquences pour le TAL • Pas si fréquents que cela, mais pénalisant du point de vue du TAL et des services • Nécessité de ressources morphologiques et lexicales ad hoc Traitement automatique des NFCE
Étude des formesLes formes non standard 3/3 • Fautes d’orthographes et consorts • 5% des formes sont (perçues comme) des mots incorrectement orthographiés Principalement faute d’orthographe (3%) et agglutination (2%) Variabilité f° du type de forum et de forme (ex. orth : 3,8% bio, 4,5% hip-hop, 2% autres) • Graphies ludiques • 0,8% des formes correspondent à (ou sont perçues comme) des graphies ludiques Mais grande variabilité en fonction du forum (ex. : 2,84% hip-hop, 0,2% autres) • 0,3% des formes correspondent à (ou sont perçues comme) des émoticones Mais grande variabilité en fonction du forum (ex. : 11% info, < 0,6% autres) • Conséquences pour le TAL • Fautes d’orthographe fréquentes : nécessité de modules de correction orthographique • Graphies ludiques pénalisantes : nécessité de traitements morphologiques dédiés Traitement automatique des NFCE
Conclusion Traitement automatique des NFCE
Conclusion et perspectives • Conclusion • Étude qualitative et quantitative des caractéristiques linguistiques des messages électroniques francophones de notre corpus • Analyse des problèmes posés par leur analyse par un système de traitement automatique des langues • Proposition de stratégies de traitement automatique adaptées • Perspectives • Développement de ressources et de traitements linguistiques mieux adaptés au traitement automatique des messages électroniques francophones. Exploitation des résultats des études réalisées Exploitation du corpus par des techniques d’extraction lexicale et d’apprentissage automatique à partir de corpus Traitement automatique des NFCE
Merci… Traitement automatique des NFCE
Annexes Traitement automatique des NFCE
[ retour ] Annexe 1Collecte et nettoyage du corpus • Collecte du corpus brut • Collecte automatique des messages dans les forums de discussion électroniques • Problèmes liés à l’évolution constante des forums et de leur contenu • Problèmes liés au téléchargement de gros volumes de données • Outil de collecte spécifique permettant la création de corpus de suivi • Paramétrable : possibilités de filtrage et de collecte incrémentale des messages • Robuste : fonctionnalités de reprise sur erreur automatique et manuelle • Nettoyage du corpus brut • Nettoyage automatique visant à faciliter les traitement automatiques ultérieurs • Suppression des messages et des pièces jointes non textuels • Homogénéisation des entêtes pour les rendre plus facilement exploitables • Outils ad hoc (le nettoyage manuel semble inévitable !) Traitement automatique des NFCE
[ retour ] Annexe 2Annotation automatique du corpus • Pré-traitement • Filtrage automatique des messages pour ne garder que les portions à annoter • Annotation automatique • Analyseur linguistique robuste et paramétrable : TILT (FT R&D DMI/GRI) • Segmentation du texte en paragraphes, phrases et unités typées • Analyse minimale • Interprétation des segments non mots • Analyse lexicale et correction orthographique • Reconnaissance des locutions • Analyse syntaxique • Désambiguïsation morpho-syntaxique par analyse syntaxique partielle • Post-traitement • Formatage des résultats pour les rendre plus facilement exploitables Traitement automatique des NFCE
[ retour ] Annexe 3Validation manuelle du corpus • Préparation des messages à valider • Reformatage dans un format facilitant la validation et correction manuelle • Validation manuelle • Validation et correction manuelle des annotations par des linguistes • Validation des annotations structurelles, lexicales et morpho-syntaxiques • Validation en contexte et en une seule passe • Utilisation d’outils de bureautique standard, personnalisés par des macros • Difficultés • Abondance de formes extra-lexicales souvent spécialisées et ambiguës • Importance des guides d’annotation détaillées pour la qualité de la validation • Vitesse d’annotation variable (en moyenne : 250 formes validées par heure) • Travail de 12 hommes /mois Traitement automatique des NFCE
[ retour ] Annexe 4Annotations structurelles Annotations structurelles : différents niveaux de balisage Traitement automatique des NFCE
[ retour ] Annexe 5Annotations morpho-lexicales Annotations morpho-lexicales : une catégorisation fine des formes extra-lexicales Traitement automatique des NFCE
[ retour ] Annexe 6Annotations morpho-syntaxiques Annotations morpho-syntaxiques : réutilisation du jeu d’étiquettes du projet GRACE Traitement automatique des NFCE
Fin… Traitement automatique des NFCE