240 likes | 426 Views
ASSTICCOT : Constitution de produits terminologiques à partir de corpus . N. Aussenac-Gilles (IRIT), A. Condamines (ERSS) www.irit.fr/ASSTICCOT/ De janvier à décembre 2002 Plan Rappels : objectifs initiaux et mode de fonctionnement Méthode de travail Expériences interdisciplinaires
E N D
ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines (ERSS) www.irit.fr/ASSTICCOT/De janvier à décembre 2002 Plan Rappels : objectifs initiaux et mode de fonctionnement Méthode de travail Expériences interdisciplinaires Réponses à une grille de réflexion commune Résultats Perspectives ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences Objectifs de l’Action Spécifique • Faire se rencontrer plusieurs communautés sur la question de la modélisation de connaissances à partir de corpus : • Linguistique de corpus et terminologie • Sciences de l’information • Informatique • Ingénierie des connaissances • Recherche d’information • Traitement Automatique de la Langue • Apprentissage à partir de textes ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences Motivations • Des problématiques similaires à mieux identifier • Vers plus d’interdisciplinarité • L’existant : des relations bilatérales • L’enjeu : une évaluation systématique des complémentarités • Repérer des axes de recherche à développer • Valoriser et fédérer les acquis dans un contexte pluridisciplinaire • rendre plus efficace l’élaboration de ressources terminologiques en fonction des besoins • repérer l’impact de ces questions sur chaque discipline ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences Mode de fonctionnement • Composition • Une trentaine de chercheurs issus de différentes disciplines • Une dizaine de laboratoires dont DYALANG, LIPN, IRIT et ERSS. • 4 groupes • Linguistique de corpus et terminologie (M. Bouveret) • TAL et apprentissage (P. Zweigenbaum) • Sciences de l’information et recherche d’information (S. Lainé-Cruzel) • Ingénierie des connaissances (S. Després) • Deux types de réunions (6 réunions + 1 prévue) • travail par groupe (selon une grille commune de questions) • séances plénières (mises en commun, confrontations entre disciplines) • Organisation d’un atelier associé à CFD (oct. 2002) ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences Méthode de travail • Partage d’expériences pluridisciplinaires • Grille de réflexion commune • Exposés de synthèse disciplinaire (non développé dans l’exposé) ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences Exemples de collaborations bilatérales (1) • Terminologie textuelle et TAL • TAL pour la construction de ressources : Syntex et Caméléon • Données terminologiques comme ressources pour le TAL : thésaurus pour traiter des dossiers patients • TAL et RI: Syntex et catégorisation automatique pour la Recherche d’Information ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences Exemples de collaborations bilatérales (2) • Ontologies et recherche d’information • Hiérarchie de termes pour la classification de documents DocCUBE • Ontologies pour la reformulation de requêtes • Ontologies pour l’interrogation de données semi-structurée PICSEL • Terminologie textuelle et outils de TAL pour la construction d’ontologies • Index d’un livre, Ontologie de l’ingénierie des connaissances ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences Expériences pluridisciplinaires • Collaboration entre IC, Terminologie Textuelle et TAL : • Bénéficie de l’expérience du groupe TIA (pb de frontière) • Collaborations entre RI, IC et Sciences de l’information : réseau Rhône Alpes • Passer d’expériences ponctuelles à une théorisation des problèmes et une vraie approche pluridisciplinaire ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences Grille de questions pour une réflexion interdisciplinaire • Définition des besoins -> • Rôle des corpus • Positionnements théoriques • Définition des méthodes et outils : logiciels de Traitement Automatique de la Langue, d’apprentissage, d’exploration de textes • Description des modèles produits ou utilisés • Mode d’évaluation des résultats ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences 1 - Besoins : Documents et connaissances • Documents et collections de documents comme possibles sources de connaissances d’un domaine • Comment accéder à ces connaissances ? • Comment accéder aux documents à travers les connaissances ? • Quels produits terminologiques intermédiaires pourraient faciliter cet accès ? • > problèmes communs à l’ingénierie des connaissances et aux sciences de l’information, recouvrant des problématiques différentes • Documents comme moyens d’accès à des manifestations linguistiques (s’oppose à l’introspection) : mise en œuvre vs enrichissement des connaissances de la langue • Documents comme révélateurs d’usages (corpus) • > lien avec la linguistique de corpus, la terminologie, les sciences de l’information ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences 1 - Besoins : Nature des ressources terminologiques • Ressources existantes • Sans lien vers les textes (construites par introspection ou entretiens avec des experts) • Générales (indépendantes du domaine et/ou de l’application) • Figées dans le temps • >peut-on les intégrer dans les applications ? • Nouveaux besoins • Domaines spécifiques => constituer des ressources terminologiques spécialisées • Rôle majeur des documents => construire ces ressources à partir de textes pour mieux tenir compte des usages et rendre plus efficace l’accès aux documents • Masse et évolutivité => savoir gérer la cohérence entre documents et ressources ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences Grille de questions pour une réflexion interdisciplinaire • Définition des besoins • Rôle des Corpus -> • Positionnements théoriques • Définition des méthodes et outils : logiciels de Traitement Automatique de la Langue, d’apprentissage, d’exploration de textes • Description des modèles produits ou utilisés • Mode d’évaluation des résultats ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences 2 - Corpus • Définition commune • L’existant : des textes (ou portions de textes) • Le corpus est construit en fonction d’un besoin particulier ou d’une hypothèse d’étude • Des réalités différentes • Collection, document, corpus • Nature et taille • critères de construction • modes et objectifs d’exploitation ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences 2 - Bilan d’étude sur les corpus • Des besoins communs • Nécessité de caractériser les textes au delà de leur thématique (problème des genres textuels) • Meilleure maîtrise du lien entre caractéristiques des textes et nature des applications • Prise en compte de la méthode utilisée pour construire des ressources dans la constitution du corpus ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences 2 - Une étude sur genre textuel et variation des phénomènes langagiers • Le genre d’un texte influe sur sa syntaxe, mais aussi sur son lexique • Diversité des critères descriptifs : public visé (grand public vs spécialistes : Crise cardiaque / Infarctus du myocarde), statut du locuteur, finalité du discours, … • Ex : Productivité des adjectifs dérivés dans des corpus médicaux (hématologie) : les dérivés en –al sont plus productifs dans des documents Web que dans des comptes rendus hospitaliers • Une typologie des genres est-elle possible ? • Multiplication des situations possibles • Classes trop générales • Hétérogénéité des genres (ex: écrit vs oral) • Plusieurs genres dans un même texte • Trop grande diversité des critères descriptifs ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences Grille de questions pour une réflexion interdisciplinaire • Définition des besoins • Rôle des corpus • Positionnements théoriques • Définition des méthodes et outils : logiciels de Traitement Automatique de la Langue, d’apprentissage, d’exploration de textes • Description des modèles produits ou utilisés (ressources et applications) -> • Mode d’évaluation des résultats ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences 5 – Ressources et applications : Objets de l’étude • S’appuyer sur des études de cas • Identifier des points d’impact de l’application visée sur la démarche de construction de ressources terminologiques 1) Profil du « constructeur » 2) Construction du corpus 3) Choix de la structure de données 4) Utilisation des outils de TAL, de fouille de textes 5) Utilisation des outils de modélisation 6) Validation, évaluation • Dresser des perspectives pour une meilleure maîtrise et adéquation du processus ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences 5 - Résultats sur ressources et applications (1) • Il existe des résultats théoriques, des méthodes et des outils, qui aboutissent à des résultats prometteurs. • Un cadre unifié, un éventail de pratiques • Approche qui rend compte de l’usage spécialisé de la langue • Quelle complémentarité avec des ressources existantes (dictionnaires, WordNet) ? • Exploitation par les outils (Synoterm) • Exploitation par le cogniticien • Faut-il replacer ces ontologies dans des cadres de haut niveau ? ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences 5 - Résultats sur ressources et applications (2) • Efforts à poursuivre • Mieux intégrer les différents outils • Mieux maîtriser le paramétrage par type de projet • Trouver le bon compromis entre investissement et gain • L’ontologie formelle n’est pas toujours nécessaire. • Trouver le modèle optimal par contexte d’application • Anticiper les besoins d’évolution • Savoir faire des propositions pragmatiquement acceptables, utilisables dans un objectif d’ingénierie • Aller au delà de propositions théoriques et disciplinaires ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences Résultats • Productions • Documents par discipline • Atelier lors de la conférence CFD2002 • Document de synthèse • Collaborations bilatérales • MoI en vue d’un réseau européen «SemTech» (6 PCRD) • Résultats théoriques • Théorisation des expériences pluridisciplinaires et situation des points de vue monodisciplinaires • Identification de principes communs • Perspectives de recherche ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences Principes communs • La construction de ressources terminologiques est un processus d’interprétation humaine de résultats fournis par des outils • Les ressources doivent être spécialisées par domaine et par application (réutilisabilité ?) • Les concepts sont élaborés à partir de réalisations textuelles avec lesquelles ils conservent un lien terminologique ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences Perspectives scientifiques (1) • Problème du genre des textes • Définition de critères de caractérisation des textes • Objectif de l’utilisation des textes comme un des critères de caractérisation • Se donner les moyens de gérer l’évolution des besoins et des ressources (textes, terminologie) • Cohérence usages – ressources crées • Évolution des besoins ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences Perspectives scientifiques (2) • Influence de l’application visée sur la nature des ressources terminologique à constituer • Vers une typologie (caractérisation) des applications ? • Mieux maîtriser les potentialités des différents types de ressources • Prise en compte de la variation par les outils de TAL • Intégration d’outils • Par rapport au genre textuel : liens entre critères de caractérisation et résultats des outils de TAL • Par rapport aux applications visées (accès à l’information, etc.) ASSTICCOT, RTP-DOC, Paris
Résultats Rappels Perspectives M2/Questions M1/Expériences Perspectives de l’AS • Equipe projet • Livre • Justifie demande de prolongation ASSTICCOT, RTP-DOC, Paris