Yu-Ting HUANG UE TAL Le 10/01/2006

Premier bilan de l’utilisation de LinguaStream 2.0.0 pour le repéragede la cohésion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006

Objectifs • Evaluer LinguaStream2.0.0 dans le cadre du repérage de GN et GV pour étudier une proximité sémantique • réduction de la durée des études / réduire la durée études (au lycée) -> variantes morphologiques • augmenter les taux d’intérêt / hausse de taux d’intérêt -> variantes synonymiques • marché international du bois / acheter le bois chez d'autres -> chaîne cohésive {marché, acheter} • Présenter le premier bilan de l’observation des données

Points de départ • Données : 10 ans de le Monde constitués en aval de l’analyse de Syntex et calculées par Upery (Bourigault 2003) selon un critère distributionnel (vndoc.mdb) • BdD permet de visualiser tous les paragraphes d'apparition de tous les couples <p>GN [N de ARG] et GV [V obj ARG] <p> dont les ARG sont identiques.

Extraits du fichier vndoc.mdb, base de données utilisée

1. Pourquoi LinguaStream? • enrichissement incrémental des documents électroniques, • facilite la conception et l’évaluation de chaînes de traitements complexestout en requérant des compétences informatiques minimales

1. Démarche à suivre • 10 ans de le Monde xmlisé selon les caractéristiques de la plate-forme • Construire un lexique pour l’ensemble de noms recteurs et l’ensemble de verbes recteurs. « Aligner » les deux lexiques. • Faire une expression régulière pour trouver puis surligner les couples nom-verbe : {anchor:start, type:paragraph} <voisins> (!{type:paragraph})+ {type:nom} /as $x(!{type:paragraph})+ {type:verbe} /as $x (!{type:paragraph})+ </voisins> /sem {id:"$x"} {anchor:end, type:paragraph}

Extrait du fichier LinguaStream sur lequel nous avons travaillé

Mais… 1. Difficultés rencontrées • Taille de corpus • Résultats surgénéralisés et non satisfaisants • Manque du formalisme DSDL (Discourse Structure Description Language) permettant d’exprimer des contraintes au niveau discursif.

2.Premier bilan de l’observation des données • Les 23 couples les plus fréquents : les couples qui partagent au moins 100 paragraphes • Chaque couple -> 10 paragraphes • 14 couples morphologiquement liés, 6 couples en contexte immédiat, 1 couple non morphologique (hausse/augmenter), 1 couple marginal (nombre/compter), 1 couple erroné (coupe/couper dans la Coupe du Monde) • Dans le cas des couples les plus fréquents, la plupart des parents distributionnels sont des parents morphologiques.

Résultat de l’analyse manuelle des 23 couples les plus fréquents

Perspectives • Mieux manipuler l’outil • un autre moyen pour repérer des couples distributionnels • Étendre l’observation sur des couples moyennement fréquents • voisins distributionnels -> construire des chaînes de cohésion?

Références • Bourigault D. (2002) « Upery : un outil d'analyse distributionnelle étendue pour la construction d’ontologies à partir de corpus », Actes de la 9ème conférence annuelle sur le Traitement Automatique des Langues (TALN 2002), Nancy, pp. 75-84 • Lyons J. (1980), Sémantique linguistique, Larousse, Langue et langage, 496 p. • Morris, J. & Hirst G. (1991), “Lexical cohesion computed by thesaural relations as an indicator of the structure of text” in Computational Linguistics 17 (pp. 21-48) http://acl.ldc.upenn.edu/J/J91/J91-1002.pdf • Teich, E & Fankhauser, P. (2005) ”Exploring Lexical Patterns in Text: Lexical Cohesion Analysis withWordNet” in Interdisciplinary Studies on Information Structure 02 (pp.129–145), Dipper, S., M. Götze and M. Stede (eds.): Heterogeneity in Focus: Creating and Using Linguistic Databases http://www.sfb632.unipotsdam.de/publications/isis02_7teich-fankhauser.pdf • Vergez-Couret M. (2006) Apprendre Linguastream par l’exemple : Annoter les marqueurs linguistiques de la relation d’élaboration (en cours de réalisation) • Widlöcher A., Bilhaut F (2005) « La plate-forme LinguaStream : Un outil d’exploration linguistique sur corpus », TALN juin 2005, pp. 517-522 • LinguaStream http://www.linguastream.org

Yu-Ting HUANG UE TAL Le 10/01/2006

Yu-Ting HUANG UE TAL Le 10/01/2006

Presentation Transcript

Shi-Yu Huang and Ya-Chun Lai

2010/2/4 Yi-Ting Huang

Ting Zhu, Yu Gu , Tian He, Zhi -Li Zhang

It’s curriculum vitae of Ting-Yu

Bin Chen, Fengru Huang, Yu Fang Peking University

Presented by Intern Huang, Yu-Hao 2006.10.03.

Yu le,my uncle

Katherine Don, Michael Dewsnip, Chi-Yu Huang nzdl greenstone

T.H.A.D.D. GROUP TOM DUAN HELEN YU ANDY LEE DANNY HUANG DAWEY HUANG

Wen-Ting Huang Jau-Chi Huang

Speaker: Yao-Ting Huang Advisor: Kuan-Mao Chao

X-TAL

Speaker: Yu-han Lee Advisor: Yn-ho Huang Ph.D

EnergieRegion + Aller-Leine-Tal

Handlingsplan UE Nordland 2006 - 2010

Ting-Yu Lin and Jennifer C. Hou

Teacher: Guey-Sheng Liou Student: Yu-Ting Huang Date:2013/11/15

Instructor: Chen, Ming-Puu Presenter: Tsai, Yu-Ting 2008.04.17

Cheng Yu & An-Ting Chang

Bin Chen, Fengru Huang, Yu Fang Peking University

Shi-Yu Huang and Ya-Chun Lai

Wen-Ting Huang Jau-Chi Huang