1 / 24

ASSTICCOT : Constitution de produits terminologiques à partir de corpus 

ASSTICCOT : Constitution de produits terminologiques à partir de corpus . N. Aussenac-Gilles (IRIT), A. Condamines (ERSS) www.irit.fr/ASSTICCOT/ De janvier à décembre 2002 Plan Rappels : objectifs initiaux et mode de fonctionnement Méthode de travail Expériences interdisciplinaires

berdine
Download Presentation

ASSTICCOT : Constitution de produits terminologiques à partir de corpus 

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ASSTICCOT : Constitution de produits terminologiques à partir de corpus  N. Aussenac-Gilles (IRIT), A. Condamines (ERSS) www.irit.fr/ASSTICCOT/De janvier à décembre 2002 Plan Rappels : objectifs initiaux et mode de fonctionnement Méthode de travail Expériences interdisciplinaires Réponses à une grille de réflexion commune Résultats Perspectives ASSTICCOT, RTP-DOC, Paris

  2. Résultats Rappels Perspectives M2/Questions M1/Expériences Objectifs de l’Action Spécifique • Faire se rencontrer plusieurs communautés sur la question de la modélisation de connaissances à partir de corpus : • Linguistique de corpus et terminologie • Sciences de l’information • Informatique • Ingénierie des connaissances • Recherche d’information • Traitement Automatique de la Langue • Apprentissage à partir de textes ASSTICCOT, RTP-DOC, Paris

  3. Résultats Rappels Perspectives M2/Questions M1/Expériences Motivations • Des problématiques similaires à mieux identifier • Vers plus d’interdisciplinarité • L’existant : des relations bilatérales • L’enjeu : une évaluation systématique des complémentarités • Repérer des axes de recherche à développer • Valoriser et fédérer les acquis dans un contexte pluridisciplinaire • rendre plus efficace l’élaboration de ressources terminologiques en fonction des besoins • repérer l’impact de ces questions sur chaque discipline ASSTICCOT, RTP-DOC, Paris

  4. Résultats Rappels Perspectives M2/Questions M1/Expériences Mode de fonctionnement • Composition • Une trentaine de chercheurs issus de différentes disciplines • Une dizaine de laboratoires dont DYALANG, LIPN, IRIT et ERSS. • 4 groupes • Linguistique de corpus et terminologie (M. Bouveret) • TAL et apprentissage (P. Zweigenbaum) • Sciences de l’information et recherche d’information (S. Lainé-Cruzel) • Ingénierie des connaissances (S. Després) • Deux types de réunions (6 réunions + 1 prévue) • travail par groupe (selon une grille commune de questions) • séances plénières (mises en commun, confrontations entre disciplines) • Organisation d’un atelier associé à CFD (oct. 2002) ASSTICCOT, RTP-DOC, Paris

  5. Résultats Rappels Perspectives M2/Questions M1/Expériences Méthode de travail • Partage d’expériences pluridisciplinaires • Grille de réflexion commune • Exposés de synthèse disciplinaire (non développé dans l’exposé) ASSTICCOT, RTP-DOC, Paris

  6. Résultats Rappels Perspectives M2/Questions M1/Expériences Exemples de collaborations bilatérales (1) • Terminologie textuelle et TAL • TAL pour la construction de ressources : Syntex et Caméléon • Données terminologiques comme ressources pour le TAL : thésaurus pour traiter des dossiers patients • TAL et RI: Syntex et catégorisation automatique pour la Recherche d’Information ASSTICCOT, RTP-DOC, Paris

  7. Résultats Rappels Perspectives M2/Questions M1/Expériences Exemples de collaborations bilatérales (2) • Ontologies et recherche d’information • Hiérarchie de termes pour la classification de documents DocCUBE • Ontologies pour la reformulation de requêtes • Ontologies pour l’interrogation de données semi-structurée PICSEL • Terminologie textuelle et outils de TAL pour la construction d’ontologies • Index d’un livre, Ontologie de l’ingénierie des connaissances ASSTICCOT, RTP-DOC, Paris

  8. Résultats Rappels Perspectives M2/Questions M1/Expériences Expériences pluridisciplinaires • Collaboration entre IC, Terminologie Textuelle et TAL : • Bénéficie de l’expérience du groupe TIA (pb de frontière) • Collaborations entre RI, IC et Sciences de l’information : réseau Rhône Alpes • Passer d’expériences ponctuelles à une théorisation des problèmes et une vraie approche pluridisciplinaire ASSTICCOT, RTP-DOC, Paris

  9. Résultats Rappels Perspectives M2/Questions M1/Expériences Grille de questions pour une réflexion interdisciplinaire • Définition des besoins -> • Rôle des corpus • Positionnements théoriques • Définition des méthodes et outils : logiciels de Traitement Automatique de la Langue, d’apprentissage, d’exploration de textes • Description des modèles produits ou utilisés • Mode d’évaluation des résultats ASSTICCOT, RTP-DOC, Paris

  10. Résultats Rappels Perspectives M2/Questions M1/Expériences 1 - Besoins : Documents et connaissances • Documents et collections de documents comme possibles sources de connaissances d’un domaine • Comment accéder à ces connaissances ? • Comment accéder aux documents à travers les connaissances ? • Quels produits terminologiques intermédiaires pourraient faciliter cet accès ? • > problèmes communs à l’ingénierie des connaissances et aux sciences de l’information, recouvrant des problématiques différentes • Documents comme moyens d’accès à des manifestations linguistiques (s’oppose à l’introspection) : mise en œuvre vs enrichissement des connaissances de la langue • Documents comme révélateurs d’usages (corpus) • > lien avec la linguistique de corpus, la terminologie, les sciences de l’information ASSTICCOT, RTP-DOC, Paris

  11. Résultats Rappels Perspectives M2/Questions M1/Expériences 1 - Besoins : Nature des ressources terminologiques • Ressources existantes • Sans lien vers les textes (construites par introspection ou entretiens avec des experts) • Générales (indépendantes du domaine et/ou de l’application) • Figées dans le temps • >peut-on les intégrer dans les applications ? • Nouveaux besoins • Domaines spécifiques => constituer des ressources terminologiques spécialisées • Rôle majeur des documents => construire ces ressources à partir de textes pour mieux tenir compte des usages et rendre plus efficace l’accès aux documents • Masse et évolutivité => savoir gérer la cohérence entre documents et ressources ASSTICCOT, RTP-DOC, Paris

  12. Résultats Rappels Perspectives M2/Questions M1/Expériences Grille de questions pour une réflexion interdisciplinaire • Définition des besoins • Rôle des Corpus -> • Positionnements théoriques • Définition des méthodes et outils : logiciels de Traitement Automatique de la Langue, d’apprentissage, d’exploration de textes • Description des modèles produits ou utilisés • Mode d’évaluation des résultats ASSTICCOT, RTP-DOC, Paris

  13. Résultats Rappels Perspectives M2/Questions M1/Expériences 2 - Corpus • Définition commune • L’existant : des textes (ou portions de textes) • Le corpus est construit en fonction d’un besoin particulier ou d’une hypothèse d’étude • Des réalités différentes • Collection, document, corpus • Nature et taille • critères de construction • modes et objectifs d’exploitation ASSTICCOT, RTP-DOC, Paris

  14. Résultats Rappels Perspectives M2/Questions M1/Expériences 2 - Bilan d’étude sur les corpus • Des besoins communs • Nécessité de caractériser les textes au delà de leur thématique (problème des genres textuels) • Meilleure maîtrise du lien entre caractéristiques des textes et nature des applications • Prise en compte de la méthode utilisée pour construire des ressources dans la constitution du corpus ASSTICCOT, RTP-DOC, Paris

  15. Résultats Rappels Perspectives M2/Questions M1/Expériences 2 - Une étude sur genre textuel et variation des phénomènes langagiers • Le genre d’un texte influe sur sa syntaxe, mais aussi sur son lexique • Diversité des critères descriptifs : public visé (grand public vs spécialistes : Crise cardiaque / Infarctus du myocarde), statut du locuteur, finalité du discours, … • Ex : Productivité des adjectifs dérivés dans des corpus médicaux (hématologie) : les dérivés en –al sont plus productifs dans des documents Web que dans des comptes rendus hospitaliers • Une typologie des genres est-elle possible ? • Multiplication des situations possibles • Classes trop générales • Hétérogénéité des genres (ex: écrit vs oral) • Plusieurs genres dans un même texte • Trop grande diversité des critères descriptifs ASSTICCOT, RTP-DOC, Paris

  16. Résultats Rappels Perspectives M2/Questions M1/Expériences Grille de questions pour une réflexion interdisciplinaire • Définition des besoins • Rôle des corpus • Positionnements théoriques • Définition des méthodes et outils : logiciels de Traitement Automatique de la Langue, d’apprentissage, d’exploration de textes • Description des modèles produits ou utilisés (ressources et applications) -> • Mode d’évaluation des résultats ASSTICCOT, RTP-DOC, Paris

  17. Résultats Rappels Perspectives M2/Questions M1/Expériences 5 – Ressources et applications : Objets de l’étude • S’appuyer sur des études de cas • Identifier des points d’impact de l’application visée sur la démarche de construction de ressources terminologiques 1) Profil du « constructeur » 2) Construction du corpus 3) Choix de la structure de données 4) Utilisation des outils de TAL, de fouille de textes 5) Utilisation des outils de modélisation 6) Validation, évaluation • Dresser des perspectives pour une meilleure maîtrise et adéquation du processus ASSTICCOT, RTP-DOC, Paris

  18. Résultats Rappels Perspectives M2/Questions M1/Expériences 5 - Résultats sur ressources et applications (1) • Il existe des résultats théoriques, des méthodes et des outils, qui aboutissent à des résultats prometteurs. • Un cadre unifié, un éventail de pratiques • Approche qui rend compte de l’usage spécialisé de la langue • Quelle complémentarité avec des ressources existantes (dictionnaires, WordNet) ? • Exploitation par les outils (Synoterm) • Exploitation par le cogniticien • Faut-il replacer ces ontologies dans des cadres de haut niveau ? ASSTICCOT, RTP-DOC, Paris

  19. Résultats Rappels Perspectives M2/Questions M1/Expériences 5 - Résultats sur ressources et applications (2) • Efforts à poursuivre • Mieux intégrer les différents outils • Mieux maîtriser le paramétrage par type de projet • Trouver le bon compromis entre investissement et gain • L’ontologie formelle n’est pas toujours nécessaire. • Trouver le modèle optimal par contexte d’application • Anticiper les besoins d’évolution • Savoir faire des propositions pragmatiquement acceptables, utilisables dans un objectif d’ingénierie • Aller au delà de propositions théoriques et disciplinaires ASSTICCOT, RTP-DOC, Paris

  20. Résultats Rappels Perspectives M2/Questions M1/Expériences Résultats • Productions • Documents par discipline • Atelier lors de la conférence CFD2002 • Document de synthèse • Collaborations bilatérales • MoI en vue d’un réseau européen «SemTech» (6 PCRD) • Résultats théoriques • Théorisation des expériences pluridisciplinaires et situation des points de vue monodisciplinaires • Identification de principes communs • Perspectives de recherche ASSTICCOT, RTP-DOC, Paris

  21. Résultats Rappels Perspectives M2/Questions M1/Expériences Principes communs • La construction de ressources terminologiques est un processus d’interprétation humaine de résultats fournis par des outils • Les ressources doivent être spécialisées par domaine et par application (réutilisabilité ?) • Les concepts sont élaborés à partir de réalisations textuelles avec lesquelles ils conservent un lien terminologique ASSTICCOT, RTP-DOC, Paris

  22. Résultats Rappels Perspectives M2/Questions M1/Expériences Perspectives scientifiques (1) • Problème du genre des textes • Définition de critères de caractérisation des textes • Objectif de l’utilisation des textes comme un des critères de caractérisation • Se donner les moyens de gérer l’évolution des besoins et des ressources (textes, terminologie) • Cohérence usages – ressources crées • Évolution des besoins ASSTICCOT, RTP-DOC, Paris

  23. Résultats Rappels Perspectives M2/Questions M1/Expériences Perspectives scientifiques (2) • Influence de l’application visée sur la nature des ressources terminologique à constituer • Vers une typologie (caractérisation) des applications ? • Mieux maîtriser les potentialités des différents types de ressources • Prise en compte de la variation par les outils de TAL • Intégration d’outils • Par rapport au genre textuel : liens entre critères de caractérisation et résultats des outils de TAL • Par rapport aux applications visées (accès à l’information, etc.) ASSTICCOT, RTP-DOC, Paris

  24. Résultats Rappels Perspectives M2/Questions M1/Expériences Perspectives de l’AS • Equipe projet • Livre • Justifie demande de prolongation ASSTICCOT, RTP-DOC, Paris

More Related