Textométrie : point de vue linguistique des données

Textométrie : point de vue linguistique des données Serge Heiden UMR ICAR ENS-LSH / CNRS slh@ens-lsh.fr ATHIS, ENS-LSH, Lyon, 28-29 Septembre 2007

Projet ANR Textométrie2007-2010 • Objectifs • Partenaires : Lyon (porteur), Paris, Nice, Besançon, Oxford, Montréal

Objectifs • Développer : • une plate-forme open-source de textométrie : • Modèle de données unifié • Architecture modulaire • Calculs et Interfaces usuels de la textométrie • diffuser au moins une application : • Locale (type Hyperbase, Lexico) • Web (type Weblex)

Partenaires • DTM : Ludovic Lebart (développements logiciels innovants dans la suite de composants réalisés pour SPAD et SPAD-T, important logiciel de statistique et d'analyse des données diffusé par la société SPADsoft, Paris : http://www.spadsoft.com) • HYPERBASE : Etienne Brunet (diffusé en CDROM par l’U. de Nice : http://ancilla.unice.fr/~brunet/pub/hyperbase.html) • LEXICO : André Salem (diffusion par le web, en shareware : http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW) • SATO : François Daoust (diffusé par l’UQAM, en CDROM et par le web : http://www.ling.uqam.ca/sato/outils/sato.htm) • WEBLEX : Serge Heiden (diffusé par l’ENS-LSH : application web à usage académique par projets de recherche : http://weblex.ens-lsh.fr/doc/weblex.pdf) • XAIRA : Lou Burnard (diffusé par l’OUCS : par le web, en open source : http://www.xaira.org) • Logiciel ASTARTEX : Jean-Marie Viprey (outil académique, support d’expérimentation et d’illustration de fonctionnalités textométriques innovantes : • http://laseldi.univ-fcomte.fr/document/viprey/page_JMV.htm) • ITE, entrepôt OAI du CRDO : Michel Jacobson (diffusion par le web, en open source : http://michel.jacobson.free.fr/ITE/index_en.html)

Synthèse de la méthode textométrique • 1. Préparation du corpus • 2. Analyse du corpus

1. Préparation de corpus • établissement du texte http://bfm.ens-lsh.fr

Préparation du corpus • Codage (XML – Unicode - TEI)

Enrichissement linguistique : Entités nommées • Dates • Personnes • Sommes monétaires • Lieux • Événements • etc.

0. EXEMPLE : Texte source (dépêche) • In July 1995 CEG Corp. posted net of $102 million, or 34 cents a share. Late last night the company announced a growth of 20%.

Vue HTML colorisée du résultat

Étiquetage morphosyntaxique et lemmatisation • Vue tabulée (Cordial) :

[pos= «V..i.*» & lem= « aimer »][]*[lem= « bain » & fp= « chia »]within section Expression algébrique paragraphe phrase section 1 2 3 axe des occurrences ... ... ... n Macro-structure du texte Outils de TAL Interprétations & propriétés du projet de recherche 2. Analyse sur texte enrichi Champ sémantique Partie du discours Forme du mot Figure poétique lemme ... ...

Analyse exploratoire par moteur de recherche • exemple d’index hiérarchique par requête

Concordances • Usage 4 : exemple de concordance

Analyse globale synthèse de tendances Cooccurrents Dimensions Lexicogramme récursif Gamme des fréquences Lexicogramme Vocabulaire Répartitions Concordance d’expressions CQP Index CQP* Répartition CQP Edition en ligne du texte du corpus … Analyse locale lecture détaillée Edition originale du texte du corpus Fonctions non contrastives de Weblex Analyse paradigmatique Analyse syntagmatique • Rapidité • Couverture Synthèse Moteur Édition • Précision • Contrôle

Structure des fonctionnalités • Synthèse de : Hyperbase, Lexico, Sato, Weblex • 4 axes fonctionnels : • S = Synthèses statistiques • E = Édition • M = Moteurs de recherche • A = Annotation Point de vue : Quantitatif Qualitatif

Weblex et le modèle SEMA S • Analyse quantitative : • Analyse factorielle, CAH • Indices statistiques maison : • Spécificités • Cooccurrences (lexicogramme simple et récursif) • N-grammes = segments répétés • Moteurs de recherche • Données textuelles : • (ling.) CQP IMS Stuttgart (recherche multi-propriétés / occurrence) & Concordances KWIC triées • (IR) Greenstone (recherche booléenne simple / document) • Données orales : • NXT Search (NITE) (recherche dans des graphes d’annotation) • Général : XQuery - eXist • Édition de fac-similé • Données textuelles : HTML, PDF • Données orales : SMIL, PDF M E

Modèle de données courant :11 rubriques d’entrée • Codage : comment interpréter -> XML (‘<‘, ‘>’) • Encodage : caractères -> Unicode (code – nom - glyph) • Segmentation et annotation d’unités lexicales • Délimitation de contextes : espace de rencontre • Spécification de partitions : contrastes – oppositions • Indexation : types d’index (corps, langues, titres, notes, etc.), en/hors texte • Alignement : e.g. français/anglais au niveau phrase • Références bibliographiques synthétiques • Références bibliographiques complètes : projet, responsabilités, points d’accès, métadonnées, publications, etc. • Feuilles de style d’édition : affichage de la forme logique (e.g. XSLT + (XSL-FO ou CSS2), synchro SMIL)

Formes • Lemmes • Entités Généralisation dela Méthode :CercleHerméneutique TAL Interprétation • Qualité : • Qui ? • Quand ? Annotation Sources Édition SEMA Établissement du texte Transmission OCR • TXT • Unicode • XML • XML-TEI Légende : Activité █ Objet █ Assistance informatique █ Contrôle qualité █

Transmissibilité des textes = capitalisation des efforts de codage • Traçabilité = documentation • Entêtes de métadonnées (titre, auteur, date…) : Dublin Core, OLAC, OAI • Codage du corps des textes (principes, standard) : XML TEI • Responsabilités et qualité • Exemple : CCFM (http://ccfm.ens-lsh.fr)

Merci

Textométrie : point de vue linguistique des données