1 / 41

Une méthode pour la construction d’ontologies à partir de textes

Une méthode pour la construction d’ontologies à partir de textes. Nathalie Aussenac-Gilles IRIT, Toulouse Outils d’analyse de corpus Typologie et exemples Une méthode de construction d’ontologies à partir de textes. Documents Techniques. Outils d’Analyse de Textes. Principes.

jerry
Download Presentation

Une méthode pour la construction d’ontologies à partir de textes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Une méthode pour la construction d’ontologies à partir de textes Nathalie Aussenac-Gilles IRIT, Toulouse • Outils d’analyse de corpus • Typologie et exemples • Une méthode de construction d’ontologies à partir de textes Cours ENSEEIHT COT-3

  2. Documents Techniques Outils d’Analyse de Textes Principes • Ressources linguistiques brutes: • liste de termes, de relations • problème de quantité • problème de validité et de pertinence par rapport au besoin • => Filtrer • 2 types de filtrage • Manuel : acquisition de connaissances à partir de textes • Automatique (apprentissage) : text mining Modèle Cours ENSEEIHT COT-3

  3. Produits terminologiques Documents Techniques Outils d’Analyse de Textes Ontologie SBC Terminologie système de traduction Ressources terminologiques Type d’application Thesaurus système de recherche d’informations Lexique sémantique système d’extraction d’informations Cours ENSEEIHT COT-3

  4. Typologie des outils d’analyse de textes Mode d’utilisation : amorçage : traitement massif pour l’aide au repérage de concepts centraux et de classes sémantiques fouille : en cours de processus, retour au texte pour la modélisation « fine » de concepts Fonction : extraction de concordances : YAKWA, SATO extraction de termes : LEXTER, NOMINO extraction de relations : Caméléon, Likes, Prométhée regroupement de termes Cours ENSEEIHT COT-3

  5. Extraction de concordances • Fonction : pour un patron donné, toutes les occurrences rassemblées • Niveau d’annotation du corpus • corpus « nu » : uniquement forme (suite de mots) • corpus étiqueté : patrons morpho-syntaxique. Exemples : • {nom}+{verbe « être » indicatif}+{article indéfini} • {pronom personnel 1ère pers.}+{verbe indicatif}+{« dans »}+{déterminant démonstratif}+{Nom} activité de construction d' un |modèle |de connaissances , ou modélisation des solution verticale comporte un |modèle |à la KADS , une bibliothèque de composants A un stade ultime , le |modèle |formel est , la plupart du temps , connaissances en distinguant le |modèle |conceptuel du modèle opérationnel du monde ( on parle de |modèle |de produit ) et objet de modélisation de le projet européen KADS , le |modèle |conceptuel joue le rôle de modèle originale , de créer un |modèle |cognitif du futur système Cours ENSEEIHT COT-3

  6. Cours ENSEEIHT COT-3

  7. Cours ENSEEIHT COT-3

  8. Fonction : extraction et tri automatiques de candidats termes CT : séquence susceptible d’être retenue comme étiquette de concept Méthodes d’extraction statistiques segments répétés information mutuelle morpho-syntaxiques repérage de patrons analyse syntaxique partielle Critères de tris numériques fréquence d’occurrences dans le corpus productivité : nombre de CT plus complexes dont le CT est constituant Extraction de termes Cours ENSEEIHT COT-3

  9. Lexter, un extracteur de candidats termes • Explore un corpus étiqueté syntaxiquement • Analyse robuste de textes techniques ou scientifiques • Extrait des syntagmes nominaux complexes • Recherche à l’aide de patrons en négatif (recherche et rejette les séparateurs de candidats termes) • Points forts : • résolution des associations ambiguës d’adjectifs et de prépositions (ou syntagmes prépositionnels) au sein des groupes nominaux complexes. Cours ENSEEIHT COT-3

  10. Lexter, un extracteur de candidats termes Texte brut Etiquettage syntaxique Cordial Texte étiqueté Découpage Lexter, étape 1 : Découpage : Analyse de surface pour extraire les Syntagmes Nominaux de Longueur Maximale (SNLM) système àmémoire de cas en anatomie pathologique traits de signification pertinents des concepts sémantiques Syntagmes Nominaux de Longueur Maximale (SNLM) Lexter, étape 2, Parsing : analyse en profondeur pour décomposer récursivement les SNLM [ [ système à [ mémoire de cas ] ] en[ anatomie pathologique ] ] [ [ [ traits de signification ] pertinents ]des [ concepts sémantiques ] ] Parsing Réseau de candidats termes Cours ENSEEIHT COT-3

  11. Liste des candidats termes dont «modèle conceptuel » est en expansion Cours ENSEEIHT COT-3

  12. Caméléon : principes • Extraction de relations sémantiques par marqueurs linguistiques • Requiert un extracteur de candidats termes en amont comme NOMINO ou LEXTER • Gère des corpus de très grosse taille ex: 2,2 millions de mots 12 000 textes ayant une visée pédagogique • Connection directe avec des modèles du domaine Cours ENSEEIHT COT-3

  13. Relations conceptuelles Relient classes ou instances Place privilégiée de la relation EST_UN (organisation hiérarchique des concepts) Rôle sémantique ou propriété Prend du sens par l’interprétation humaine Leur formalisation Interprétation formelle de EST_UN : héritage, classification Typage des concepts reliés (signature) Modèle en référence à un monde Les classifieurs Document Activité Dossier de conception accepté Conditionne_le_début_de Activité d’intégration Relations conceptuelles et relations formelles Est-un Est-un Cours ENSEEIHT COT-3

  14. Textes et termes Mise au point d’une base de marqueurs Mise au point de marqueurs Marqueurs génériques Termes en relation Projection et évaluation sur corpus (T1,T2) (T1,T4) … Projection de couples Analyse de coocurrences Proposition de marqueurs spécifiques Marqueurs spécifiques Projection et évaluation sur corpus Marqueurs validés sur corpus Cours ENSEEIHT COT-3

  15. Mise au point d’une base de marqueurs Cours ENSEEIHT COT-3

  16. Réseau conceptuel Textes et termes Repérage de relations avec Caméléon Relations, marqueurs validés sur corpus Projection sur corpus Hypothèses de relations Validation en contexte Projection de marqueurs Cours ENSEEIHT COT-3

  17. Repérage de relations avec Caméléon Cours ENSEEIHT COT-3

  18. Caméléon, bilan • Marqueurs les plus productifs • Hyponymie; précision > 75% • Méronymie; adaptation, précision > 75% • Points forts : • Validation de propositions de relations au sein du modèle • Retour au texte pour valider • Gestion d’une base de marqueurs génériques • Débouche sur des marqueurs spécifiques Cours ENSEEIHT COT-3

  19. Classification de termes Classique : mots associés regroupement de mots apparaissant dans les mêmes contextes textuels (fenêtre, phrase, paragraphe, document, …) Analyse distributionnelle (« à la Harris ») regroupement de mots apparaissant dans les mêmes contextes syntaxiques compléments des mêmes noms adjectifs modifieurs des mêmes noms syntagmes nominaux ou noms compléments des mêmes verbes etc. les classes ainsi construites doivent être validées, interprétées. nécessité d’une analyse syntaxique (robuste et partielle) préalable Cours ENSEEIHT COT-3

  20. Classification Cours ENSEEIHT COT-3

  21. Des textes aux modèles conceptuels : nouveaux principes • partir des textes comme sources de connaissances • utiliser des techniques et outils d’analyse de corpus basés sur des principes linguistes essentiellement et statistiques éventuellement • plonger le modèle conceptuel dans son contexte linguistique en conservant un lien du modèle vers les textes Cours ENSEEIHT COT-3

  22. Cadre méthodologique L’ontologie est construite pour une application. L’application s’inscrit dans une pratique (domaine). La tâche de constitution du corpus est cruciale : collecter des textes, les baliser, éventuellement les « fabriquer » en fonction de l’application, avec l’aide des spécialistes documentations techniques, guides, transcriptions d’interview, ... L’ingénieur de la connaissance est un médiateur. prise en charge de l’application arbitrage entre spécialistes distance avec le texte Cours ENSEEIHT COT-3

  23. Une méthode (Aussenac, Biebow, Szulman) Application cible élémentsde expertise modèles existants description des besoins /application visée Modélisation de connaissances modèle à partir de corpus documentation formel technique outils d ’ACT outil support de modélisation disponibles Cours ENSEEIHT COT-3

  24. Th(IC)2 : une ontologie de l’ingénierie des connaissances • Une contribution au projet (KA)2 • Valider des hypothèses de recherche • évaluation expérimentale d’outils et méthodes à partir de corpus • ontologie vs. thesaurus • Objectifs visés : un thésaurus de l’IC • un thésaurus de l’IC utilisable par des chercheurs pour indexer leurs pages Web • une ontologie de l’IC • Corpus en 2 parties • Textes scientifiques (LIVRIC), descriptions de laboratoires (AFIA) Cours ENSEEIHT COT-3

  25. Corpus Informatisé Ontologies existantes Principales étapes Application visée Ressources terminologiques Expertise Application visée Description Expertise Ressources terminologiques besoins Constitution du corpus Documentation Application visée Expertise technique Ressources terminologiques Etude linguistique Application visée Expertise Termes Relations lexicales Outils ACT Normalisation Regroupements Concepts ontologie Relations Outil support modélisation Formalisation sémantiques Outils ACT Outil support modélisation Formalisme Cours ENSEEIHT COT-3

  26. Target application Expertise Terminological resources Constitution du corpus Requirements description Electronic corpus Corpus gathering Technical documents • Un tâche difficile • Compromis entre représentativité (sujet, genre textuel) ET taille • Trouver les textes les plus pertinents pour l’application • Opportunisme : 2 sous-corpus Cours ENSEEIHT COT-3

  27. Expertise Application visée Etudelinguistique (1) Ressources terminologiques Corpus Termes Etude Informatisé Relations lexicales linguistique Regroupements Lexter Caméléon • outils utilisés : Lexter, Caméléon • deux approches pour sélectionner les termes à étudier (20 Ktermes): • lecture des termes en liste • lecture des contextes d’occurrence des termes • Validation par les experts • structuration au fur et à mesure • “outil” en tête dans Lexter, puis structuration, • noms propres en relation avec “outil”, “méthode”, “système”…, puis structuration Cours ENSEEIHT COT-3

  28. Application de LEXTER Candidats termes les plus fréquents Cours ENSEEIHT COT-3

  29. Liste des candidats termes extraits par Lexter d’un article de Biebow & Szulmann Cours ENSEEIHT COT-3

  30. Distribution Distribution Liste de candidats termes extraits par Lexter (freq >= 5) de l ’article Assadi & Bourigault (sous-corpus AFIA) Cours ENSEEIHT COT-3

  31. Validation Individuelle Par sous-listes de candidats termes, une par document Sélection selon des critères liés au corpus AFIA : candidats termes présents au moins 2 fois dans le document en moyenne, 48 mots par liste contre 975 par document LIVRIC : candidats termes présents au moins 2 fois dans le document, ou une seule fois et au moins une fois dans un autre document de ce sous-corpus en moyenne, 81 mots par liste contre 5 095 par document Protocole et interface de validation sur le web Cours ENSEEIHT COT-3

  32. Cours ENSEEIHT COT-3

  33. Expertise Application visée Etude linguistique (2)autour de OUTIL Ressources terminologiques Corpus Termes Etude Informatisé Relations lexicales linguistique Regroupements Lexter Caméléon • validation des candidats termes : 109 -> 67 • éliminations : outil de préformage de la semelle • regroupement de synonymes : outil de GL du projet, outil de génie logiciel du projet, outil de génie logiciel • étude des relations hyperonymie : définition de marqueurs spécifiques X être article NP-OUTIL NP-OUTIL, adv-specification X Cours ENSEEIHT COT-3

  34. TERMINAE Cours ENSEEIHT COT-3

  35. De la langue naturelle à un langage formel : normaliser Langue naturelle Pas de primitives, des définitions circulaires, des énoncés imprécis, contextuels, des objets « instables » Langage formel Des expressions logiques construites avec des primitives, des connecteurs, des quantificateurs. . . • Choisir un contexte de référence des objets dont on parle pour fixer et stabiliser leur interprétation • stabilité référentielle et stabilité relationnelle • Structurer et organiser les concepts ainsi créés Cours ENSEEIHT COT-3

  36. Application visée Expertise Normalisation (1) Ressources terminologiques Termes Relations lexicales Concepts Relations sémantiques Normalisation Lexter TERMINAE • Interprétation sémantique guidée par l’expertise et les besoins de l’application • élimination et regroupement : 67 -> 46 • élimination simple : outil de cartographie • regroupements de synonymes • outil textuel, outil d’analyse de textes, outil linguistique, outil d’analyse de corpus • regroupements à granularité épaisse • outil anthropotechnique -> outil de génie cognitif • Des termes aux relations: exploration de contextes decooccurrence de termes: méthode, formalisme, système, ... Caméléon Cours ENSEEIHT COT-3

  37. Application visée Expertise Normalisation (2) Ressources terminologiques Termes Relations lexicales Concepts Relations sémantiques Normalisation Lexter TERMINAE • Des relations lexicales aux relations sémantiques • Déterminer les concepts reliés et le type des relations • Les représenter à l’aide de rôles ou de relations EST-UN • Décider des propriétés des relations : héritage, … • Des relations à une hiérarchie de concepts • Différentier des concepts dans une hiérarchie de critères homogènes : outilsconceptuels vs outils logiciels outil d’ingénierie des connaissances vs outil résultat de l’ingénierie des connaissances • Relations révèlent des critères de différentiation • Ajout de concepts non terminologiques Caméléon Cours ENSEEIHT COT-3

  38. Application visée Expertise Ressources terminologiques Termes Relations lexicales Concepts Relations sémantiques Normalisation Lexter TERMINAE Caméléon Formalisation: premiers résultats • TERMINAE : environnement de modélisation • Représentation des connaissances en logique de description Cours ENSEEIHT COT-3

  39. Conclusion sur la méthode • utilisation des textes comme support de connaissances => novateur, libère l’expert • lien entre modèle conceptuel et connaissances => lisibilité, compréhensibilité, utilisabilité, maintenabilité, réutilisabilité • utilisation systématique d’outils => se focaliser sur la prise de décision et sa justification, en garder trace Cours ENSEEIHT COT-3

  40. Bilan • Points forts de l’approche • Maîtrise du processus du corpus jusqu’au modèle • Outils préindustriels disponibles • Mise en valeur réciproque des savoir-faire entre traitement automatique des textes et modélisation des connaissances • Vers une meilleure intégration des résultats • Prendre en compte le type d’application plus tôt dans l’analyse linguistique • Préciser la sémantique des relations formelles : vers une repérage heuristique Cours ENSEEIHT COT-3

  41. Nouveaux enjeux : le web sémantique • But : retrouver des connaissances sur le web • Alternatives • centralisée + participation des auteurs • une ontologie générale • un moteur de recherche • des pages annotées à partir de l ’ontologie • centralisée sans participation des auteurs • une ontologie générale (faite par les utilisateurs ou par 1 équipe) • association « manuelle » de pages à des nœuds de l’ontologie • type « entrepôt de données » • restructuration XML de pages web - > annotation automatique ??? • Requêtes spécialisées préparées Cours ENSEEIHT COT-3

More Related