1 / 22

Textométrie : point de vue linguistique des données

Textométrie : point de vue linguistique des données. Serge Heiden UMR ICAR ENS-LSH / CNRS slh@ens-lsh.fr. ATHIS, ENS-LSH, Lyon, 28-29 Septembre 2007. Projet ANR Textométrie 2007-2010. Objectifs Partenaires : Lyon (porteur), Paris, Nice, Besançon, Oxford, Montréal. Objectifs. Développer :

illias
Download Presentation

Textométrie : point de vue linguistique des données

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Textométrie : point de vue linguistique des données Serge Heiden UMR ICAR ENS-LSH / CNRS slh@ens-lsh.fr ATHIS, ENS-LSH, Lyon, 28-29 Septembre 2007

  2. Projet ANR Textométrie2007-2010 • Objectifs • Partenaires : Lyon (porteur), Paris, Nice, Besançon, Oxford, Montréal

  3. Objectifs • Développer : • une plate-forme open-source de textométrie : • Modèle de données unifié • Architecture modulaire • Calculs et Interfaces usuels de la textométrie • diffuser au moins une application : • Locale (type Hyperbase, Lexico) • Web (type Weblex)

  4. Partenaires • DTM : Ludovic Lebart (développements logiciels innovants dans la suite de composants réalisés pour SPAD et SPAD-T, important logiciel de statistique et d'analyse des données diffusé par la société SPADsoft, Paris : http://www.spadsoft.com) • HYPERBASE : Etienne Brunet (diffusé en CDROM par l’U. de Nice : http://ancilla.unice.fr/~brunet/pub/hyperbase.html) • LEXICO : André Salem (diffusion par le web, en shareware : http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW) • SATO : François Daoust (diffusé par l’UQAM, en CDROM et par le web : http://www.ling.uqam.ca/sato/outils/sato.htm) • WEBLEX : Serge Heiden (diffusé par l’ENS-LSH : application web à usage académique par projets de recherche : http://weblex.ens-lsh.fr/doc/weblex.pdf) • XAIRA : Lou Burnard (diffusé par l’OUCS : par le web, en open source : http://www.xaira.org) • Logiciel ASTARTEX : Jean-Marie Viprey (outil académique, support d’expérimentation et d’illustration de fonctionnalités textométriques innovantes : • http://laseldi.univ-fcomte.fr/document/viprey/page_JMV.htm) • ITE, entrepôt OAI du CRDO : Michel Jacobson (diffusion par le web, en open source : http://michel.jacobson.free.fr/ITE/index_en.html)

  5. Synthèse de la méthode textométrique • 1. Préparation du corpus • 2. Analyse du corpus

  6. 1. Préparation de corpus • établissement du texte http://bfm.ens-lsh.fr

  7. Préparation du corpus • Codage (XML – Unicode - TEI)

  8. Enrichissement linguistique : Entités nommées • Dates • Personnes • Sommes monétaires • Lieux • Événements • etc.

  9. 0. EXEMPLE : Texte source (dépêche) • In July 1995 CEG Corp. posted net of $102 million, or 34 cents a share. Late last night the company announced a growth of 20%.

  10. 1. Texte brut -> XML 2. Para. et titres 3. Mots 4. Phrases 5. Nombres 6. Monnaie 7. Dates 8. HTML Chaîne de TAL Entités nommées[LT XML Edinburgh Language Technology Group] plain2xml.perl | fsgmatch -q ".*/TEXT" char/paras.gr | openangle.perl | fsgmatch -q ".*/P|TITLE" char/words.gr | openangle.perl | ltstop -q ".*/P" -mark "W[C='.']" TOK-lttok_res.xml | fsgmatch -q ".*/P|TITLE" numbers.gr | fsgmatch -q ".*/P|TITLE" numex.gr | fsgmatch -q ".*/P|TITLE" timex.gr | sgmltrans -r generaltrans

  11. Vue HTML colorisée du résultat

  12. Étiquetage morphosyntaxique et lemmatisation • Vue tabulée (Cordial) :

  13. [pos= «V..i.*» & lem= « aimer »][]*[lem= « bain » & fp= « chia »]within section Expression algébrique paragraphe phrase section 1 2 3 axe des occurrences ... ... ... n Macro-structure du texte Outils de TAL Interprétations & propriétés du projet de recherche 2. Analyse sur texte enrichi Champ sémantique Partie du discours Forme du mot Figure poétique lemme ... ...

  14. Analyse exploratoire par moteur de recherche • exemple d’index hiérarchique par requête

  15. Concordances • Usage 4 : exemple de concordance

  16. Analyse globale synthèse de tendances Cooccurrents Dimensions Lexicogramme récursif Gamme des fréquences Lexicogramme Vocabulaire Répartitions Concordance d’expressions CQP Index CQP* Répartition CQP Edition en ligne du texte du corpus … Analyse locale lecture détaillée Edition originale du texte du corpus Fonctions non contrastives de Weblex Analyse paradigmatique Analyse syntagmatique • Rapidité • Couverture Synthèse Moteur Édition • Précision • Contrôle

  17. Structure des fonctionnalités • Synthèse de : Hyperbase, Lexico, Sato, Weblex • 4 axes fonctionnels : • S = Synthèses statistiques • E = Édition • M = Moteurs de recherche • A = Annotation Point de vue : Quantitatif Qualitatif

  18. Weblex et le modèle SEMA S • Analyse quantitative : • Analyse factorielle, CAH • Indices statistiques maison : • Spécificités • Cooccurrences (lexicogramme simple et récursif) • N-grammes = segments répétés • Moteurs de recherche • Données textuelles : • (ling.) CQP IMS Stuttgart (recherche multi-propriétés / occurrence) & Concordances KWIC triées • (IR) Greenstone (recherche booléenne simple / document) • Données orales : • NXT Search (NITE) (recherche dans des graphes d’annotation) • Général : XQuery - eXist • Édition de fac-similé • Données textuelles : HTML, PDF • Données orales : SMIL, PDF M E

  19. Modèle de données courant :11 rubriques d’entrée • Codage : comment interpréter -> XML (‘<‘, ‘>’) • Encodage : caractères -> Unicode (code – nom - glyph) • Segmentation et annotation d’unités lexicales • Délimitation de contextes : espace de rencontre • Spécification de partitions : contrastes – oppositions • Indexation : types d’index (corps, langues, titres, notes, etc.), en/hors texte • Alignement : e.g. français/anglais au niveau phrase • Références bibliographiques synthétiques • Références bibliographiques complètes : projet, responsabilités, points d’accès, métadonnées, publications, etc. • Feuilles de style d’édition : affichage de la forme logique (e.g. XSLT + (XSL-FO ou CSS2), synchro SMIL)

  20. Formes • Lemmes • Entités Généralisation dela Méthode :CercleHerméneutique TAL Interprétation • Qualité : • Qui ? • Quand ? Annotation Sources Édition SEMA Établissement du texte Transmission OCR • TXT • Unicode • XML • XML-TEI Légende : Activité █ Objet █ Assistance informatique █ Contrôle qualité █

  21. Transmissibilité des textes = capitalisation des efforts de codage • Traçabilité = documentation • Entêtes de métadonnées (titre, auteur, date…) : Dublin Core, OLAC, OAI • Codage du corps des textes (principes, standard) : XML TEI • Responsabilités et qualité • Exemple : CCFM (http://ccfm.ens-lsh.fr)

  22. Merci

More Related