120 likes | 228 Views
Premier bilan de l ’ utilisation de LinguaStream 2.0.0 pour le rep é rage de la coh é sion nom-verbe. Yu-Ting HUANG UE TAL Le 10/01/2006. Objectifs. Evaluer LinguaStream2.0.0 dans le cadre du repérage de GN et GV pour étudier une proximité sémantique
E N D
Premier bilan de l’utilisation de LinguaStream 2.0.0 pour le repéragede la cohésion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006
Objectifs • Evaluer LinguaStream2.0.0 dans le cadre du repérage de GN et GV pour étudier une proximité sémantique • réduction de la durée des études / réduire la durée études (au lycée) -> variantes morphologiques • augmenter les taux d’intérêt / hausse de taux d’intérêt -> variantes synonymiques • marché international du bois / acheter le bois chez d'autres -> chaîne cohésive {marché, acheter} • Présenter le premier bilan de l’observation des données
Points de départ • Données : 10 ans de le Monde constitués en aval de l’analyse de Syntex et calculées par Upery (Bourigault 2003) selon un critère distributionnel (vndoc.mdb) • BdD permet de visualiser tous les paragraphes d'apparition de tous les couples <p>GN [N de ARG] et GV [V obj ARG] <p> dont les ARG sont identiques.
1. Pourquoi LinguaStream? • enrichissement incrémental des documents électroniques, • facilite la conception et l’évaluation de chaînes de traitements complexestout en requérant des compétences informatiques minimales
1. Démarche à suivre • 10 ans de le Monde xmlisé selon les caractéristiques de la plate-forme • Construire un lexique pour l’ensemble de noms recteurs et l’ensemble de verbes recteurs. « Aligner » les deux lexiques. • Faire une expression régulière pour trouver puis surligner les couples nom-verbe : {anchor:start, type:paragraph} <voisins> (!{type:paragraph})+ {type:nom} /as $x(!{type:paragraph})+ {type:verbe} /as $x (!{type:paragraph})+ </voisins> /sem {id:"$x"} {anchor:end, type:paragraph}
Extrait du fichier LinguaStream sur lequel nous avons travaillé
Mais… 1. Difficultés rencontrées • Taille de corpus • Résultats surgénéralisés et non satisfaisants • Manque du formalisme DSDL (Discourse Structure Description Language) permettant d’exprimer des contraintes au niveau discursif.
2.Premier bilan de l’observation des données • Les 23 couples les plus fréquents : les couples qui partagent au moins 100 paragraphes • Chaque couple -> 10 paragraphes • 14 couples morphologiquement liés, 6 couples en contexte immédiat, 1 couple non morphologique (hausse/augmenter), 1 couple marginal (nombre/compter), 1 couple erroné (coupe/couper dans la Coupe du Monde) • Dans le cas des couples les plus fréquents, la plupart des parents distributionnels sont des parents morphologiques.
Résultat de l’analyse manuelle des 23 couples les plus fréquents
Perspectives • Mieux manipuler l’outil • un autre moyen pour repérer des couples distributionnels • Étendre l’observation sur des couples moyennement fréquents • voisins distributionnels -> construire des chaînes de cohésion?
Références • Bourigault D. (2002) « Upery : un outil d'analyse distributionnelle étendue pour la construction d’ontologies à partir de corpus », Actes de la 9ème conférence annuelle sur le Traitement Automatique des Langues (TALN 2002), Nancy, pp. 75-84 • Lyons J. (1980), Sémantique linguistique, Larousse, Langue et langage, 496 p. • Morris, J. & Hirst G. (1991), “Lexical cohesion computed by thesaural relations as an indicator of the structure of text” in Computational Linguistics 17 (pp. 21-48) http://acl.ldc.upenn.edu/J/J91/J91-1002.pdf • Teich, E & Fankhauser, P. (2005) ”Exploring Lexical Patterns in Text: Lexical Cohesion Analysis withWordNet” in Interdisciplinary Studies on Information Structure 02 (pp.129–145), Dipper, S., M. Götze and M. Stede (eds.): Heterogeneity in Focus: Creating and Using Linguistic Databases http://www.sfb632.unipotsdam.de/publications/isis02_7teich-fankhauser.pdf • Vergez-Couret M. (2006) Apprendre Linguastream par l’exemple : Annoter les marqueurs linguistiques de la relation d’élaboration (en cours de réalisation) • Widlöcher A., Bilhaut F (2005) « La plate-forme LinguaStream : Un outil d’exploration linguistique sur corpus », TALN juin 2005, pp. 517-522 • LinguaStream http://www.linguastream.org