670 likes | 857 Views
Construction d’ontologies à partir de textes. Nathalie Aussenac-Gilles IRIT – CSC ingénierie des connaissances aussenac@irit.fr. Thème et objectifs. Thème : Méthode et outils pour la construction de modèles conceptuels à partir de textes Objectifs :
E N D
Construction d’ontologies à partir de textes Nathalie Aussenac-Gilles IRIT – CSC ingénierie des connaissances aussenac@irit.fr Construction d'ontologies à partir de textes - BDA 2003
Thème et objectifs • Thème : • Méthode et outils pour la construction de modèles conceptuels à partir de textes • Objectifs : • Montrer les enjeux pour les recherches sur la modélisation conceptuelle de la problématique des ontologies • Clarifier les caractéristiques des différents paradigmes • Placer le débat au niveau des modèles et de leurs contenus • Importance de l’usage et des applications • Présenter un panorama d’outils et une méthode Construction d'ontologies à partir de textes - BDA 2003
Plan • Ontologies et textes à BDA : motivations • Différentes facettes de la modélisation conceptuelle • Ressources terminologiques et ontologiques : définitions • Construire des modèles conceptuels à partir de textes Construction d'ontologies à partir de textes - BDA 2003
Motivations Convergence des objets de recherche • Domaines concernés : Bases de données, modélisation objet, ingénierie des connaissances • Langages, méthodes, plates-formes, vérification par la logique … de modèles conceptuels • Ateliers de génie logiciel étendus pour représenter des ontologies • ER ou UML pour représenter des ontologies • ex : ICOM http://www.cs.man.ac.uk/~franconi/icom/ atelier basé sur ER, intègre un moteur de logique de description, sauvegarde des ontologies en XML. Construction d'ontologies à partir de textes - BDA 2003
MotivationsCroisements du côté des applications • Frontières moins nettes entre types d’applications • Ex : PICSEL : ontologie pour accéder à des serveurs de BD • BD semi-structurées pour la mémoire d’entreprise • Mise en forme de business rules au sein d’un SI • Utilisation des ontologies pour organiser, structurer des données • Ex : faut-il une ontologie ou une BD pour organiser une bibliographie ? • « Ontologie » désigne une hiérarchie de termes, une base de données lexicales ou Construction d'ontologies à partir de textes - BDA 2003
MotivationsPoser les bases pour un débat • Confusion ou perplexité au niveau des applications • Face à un besoin d’entreprise : ontologie ou schéma E/R ou UML ? • Confusion entre la question des langages et la question de la nature de chacun de ces modèles • Situer le débat au niveau de la modélisation conceptuelle • Statut des modèles • Ancrage et fondements des connaissances Construction d'ontologies à partir de textes - BDA 2003
MotivationsL’invasion des ontologies • Tout est-il ontologie ? • Retour sur la définition • Retour sur les prétentions affichées • Panorama sur les ressources terminologiques et ontologiques • Des ontologies « à tout faire » • Des prétentions … aux usages • Ce que permet la formalisation (cf. BD déductive ?) • Formaliser pour affiner le sens • Formaliser pour vérifier • Formaliser pour raisonner • Ce que permet une dimension lexicale • Des termes pour communiquer • Des termes pour localiser des concepts ou des connaissances Construction d'ontologies à partir de textes - BDA 2003
Plan • Ontologies et textes à BDA : motivations • La modélisation conceptuelle en question • Réponses possibles en matière de modélisation • Différentes facettes de la modélisation conceptuelle • Ressources terminologiques et ontologiques : définitions • Construire des modèles conceptuels à partir de textes Construction d'ontologies à partir de textes - BDA 2003
2. Modélisation conceptuelle en question • Modéliser, c’est répondre à des besoins • Modèles comme support au dialogue • Modèles comme spécification de code • Eventail de contraintes sur les modèles • Modéliser, c’est représenter • Primitives conceptuelles (méta-modèle) • « Langage » de représentation • Modéliser, c’est sélectionner les « bonnes connaissances » • Méthodes pour analyser, identifier, décrire • Outils d’aide Construction d'ontologies à partir de textes - BDA 2003
Facettes de la modélisationFondements des modèles • Fonder des modèles sur l’introspection, l’analyse d’organigrammes et des normes (formes normalisées) • L’approche BD • Fonder des modèles sur des principes ontologiques caractérisant classes et propriétés des objets, des états … • Approche ontologique formelle et philosophique • Fonder des modèles sur l’analyse de l’activité et des savoir-faire individuels ou collectifs mis en œuvre • L’approche IC (ergonomie et sociologie) • Fonder des modèles sur l’usage des connaissances tel qu’il est révélé par le langage, avec le consensus minimal que cela suppose • Approche développée dans ce tutoriel Construction d'ontologies à partir de textes - BDA 2003
Plan • Ontologies et textes à BDA : motivations • Différentes facettes de la modélisation conceptuelle • Ressources terminologiques et ontologiques • Définitions • Enjeux de la formalisation • Construire des modèles conceptuels à partir de textes Construction d'ontologies à partir de textes - BDA 2003
3.a. Ressources terminologiques et ontologiques : définitions Une gamme de produits construits pour accéder aux connaissances via la langage • Thésaurus (recherche documentaire et RI) • Terminologies (aide à la rédaction, traduction) • Base de connaissances terminologiques (formation, modélisation d’un corpus) • Ontologies (systèmes à base de connaissances, agents sur le web, …) Construction d'ontologies à partir de textes - BDA 2003
Thesaurus Thésaurus SRLF et de la SFAR hémopéritoine Construction d'ontologies à partir de textes - BDA 2003
Ontologie : définition Ontologie INGÉNIERIE DES CONNAISSANCES.Ensemble des objets reconnus comme existant dans le domaine. Construire une ontologie, c’est aussi décider d’une manière d’être et d’exister des objets. • Modèles des connaissances d’un domaine : ontologie du domaine • … pertinentes pour une application, une tâche donnée : ontologie régionale • Application de principes de normalisation, de « bonne construction » • Conceptualisation sous forme de réseau sémantique (concepts, relations) + axiomes Construction d'ontologies à partir de textes - BDA 2003
Hiérarchie de concepts Hiérarchie de relation Liens Concept défini Ontologie hémopéritoine : « épanchement hématique localisé au niveau du péritoine » ETAT_PATHOLOGIQUE ETAT_PATHOLOGIQUE_LOCAL LESION adénopathie … épanchement épanchement gazeux épanchement liquidien épanchement de pus épanchement hématique ANATOMIE … ANA_TISSU_ENVEL capsule duremère mésentère peau … péritoine LOCALISATION à_côté_de à_l'extérieur_de au_dessus_de … au_niveau_de LESION (LOCALISATION) ANATOMIE épanchement hématique (au_niveau_de) péritoine Construction d'ontologies à partir de textes - BDA 2003
Ontologie fracture à la base du crâne Hiérarchie de relations Hiérarchie de concepts LESION épanchement fracture SITUATION angle base bord LOCALISATION à_côté_de à_l'extérieur_de au_dessus_de … au_niv_de … OBJET … DE … ANATOMIE_OBJET OS crâne Liens LESION (LOCALISATION) SITUATION SITUATION (OBJET) ANATOMIE_OBJET Concept défini fracture (au_niveau_de) base (DE) crâne Construction d'ontologies à partir de textes - BDA 2003
Thesaurus vs. Ontologie • Thesaurus • Contenu : • Descripteurs, mots-clés • Relations : «is_a», « synonyme » (terme préférentiel), «voir_aussi» • Utilisé par un agent humain (documentaliste, spécialiste) • pour indexer des documents • Ontologie • Contenu • Une taxinomie des concepts, une taxinomie de relation • Des « rôles » • Décrite dans un langage de représentation des connaissances et exploitée par un système informatique • Possibilité de comparer et de classer des concepts • Capacité générative • Inférences Construction d'ontologies à partir de textes - BDA 2003
Le modèle des données d’une BCT Fragments de Textes DOCUMENT2 Service YYY ------------ #Top Concepts Unité1.2 Service XXX ------------ #Document définition --- --- attributs ---- Unité 1.1 DOCUMENT1 Service XXX relation conceptuelle dossier de spécification Termes document de projet. contextes de validité document de spécification détaillée informations linguistiques Construction d'ontologies à partir de textes - BDA 2003
3.b. Ontologies : enjeux de la formalisationCapacité d’expression Exemple : projet PICSEL, LRI • Partie terminologique • Concepts organisés en hiérarchie, définis par leurs relations (cns ou père + prop.spécifiques) (DEF-CONCEPT chercheur (and personnel-recherche (ATLEAST 1 Grade)(ATMOST 1 Grade) (ALL Grade Grade) (ALL encadre Thésard))) • Contraintes : • Relations d’exclusion entre concepts de base EquipementCulturel equipementSportif • Typage des rôles : (ALL encadre Thésard) dans définition Chercheur Construction d'ontologies à partir de textes - BDA 2003
3.b. Ontologies : enjeux de la formalisationCapacité d’expression • Partie déductive • Relations autres que unaires et binaires : R1 : VolAR(villeDépart, dateDépart1, villeArrivée, dateDépart2) <= Vol(v1), lieuDepart(v1, villeDépart), lieuArrivée (v1, villeArrivée), Vol(v2), lieuDepart(v2, villeArrivée), lieuArrivée (v2, villeDépart), dateDépart(v1,dateDépart1), dateDépart(v2,dateDépart2), antérieure (dateDépart, dateDépart2) • Relations disjonctives : autant de règles que d’alternatives ProduitJeune(x) <= produit(x), (ATMOST 1 produitServiceAssocié) ProduitJeune(x) <= produit(x), produitServiceAssocié(x,y), bonMarché(y) • Relations inverses • Raccourci d’enchaînement de rôles Construction d'ontologies à partir de textes - BDA 2003
3.b. Ontologies : enjeux de la formalisationCapacité d’expression • Expression de requêtes • SéjourAuSoleil(s,p) <= CombinéSéjour(s), LogementAssocié(s,l), lieuDeRésidence(r), SituéDans(r,p), LieuAuSoleil(p) • Calcul de plans de requête • Vérifier la satisfiabilité • Substituer chaque terme de la requête par sa définition logique, c’est-à-dire par toutes ses spécialisations possibles -> plusieurs requêtes disjonctives • Réécriture de chaque requête conjonctive (même principe) à partir de la réécriture de chacun des atomes -> identification des faits correspondants • Affinement de requêtes • Repérage de conflits • Exploitation de la hiérarchie pour généraliser • Calcul de requête satisfiable à partir de requêtes insatisfiables par généralisation de concepts Construction d'ontologies à partir de textes - BDA 2003
Plan • Ontologies et textes à BDA : motivations • Différentes facettes de la modélisation conceptuelle • Ressources terminologiques et ontologiques • Construire des modèles conceptuels à partir de textes • Justification • Panorama d’outils pour l’analyse de textes • Une méthode à travers une étude de cas : le projet verre Construction d'ontologies à partir de textes - BDA 2003
4 - Construire des modèles à partir de textesJustification • Pourquoi recourir aux textes ? • Sources de connaissances (partagées et stabilisées à l’écrit) • Améliorent la lisibilité et la maintenance des modèles • Complémentaires de l’expertise humaine • Gain de temps, réduction des coûts • Quels textes ? Nature et contenu des corpus • Ensemble de textes choisis en fonction de l’application et de leurs caractéristiques (contenu, genre textuel, date, auteurs, format, etc.) • Documents techniques, documents didactiques, retranscriptions d’entretiens, informations échangées par réseaux … Construction d'ontologies à partir de textes - BDA 2003
Quels outils d’analyse de textes pour la construction de modèles conceptuels ? Textes tal1 Modèle Système d’information Traitant des textes tal2 Logiciels de traitement automatique des langues : TAL « Partir des textes pour mieux y revenir » Construction d'ontologies à partir de textes - BDA 2003
Ressource LESION LOCALISATION ANATOMIE système épanchement hématique (au_niveau_de) péritoine Problématique du traitement de l’information textuelle CONCEPT hémopéritoine terme texte L'échographie abdominale retrouve une contusion splénique et un hémopéritoine. Traumatisme abdominal avec une fracture de rate et un hémopéritoine abondant, ayant nécessité une splénectomie en urgence. Un nouvel état de choc apparaît associé à syndrome compartimentaire abdominal (hémopéritoine + hématome rétropéritonéal)) justifiant la laparotomie exploratrice. L'évacuation de l'hémopéritoine ne permet pas de mettre en évidence une cause nette au saignement ;Instabilité hémodynamique initiale, avec TA 80 / 60 et fréquence cardiaque à 120 / min en relation avec des pertes sanguines sur les foyers de fractures (échographie abdominale normale, absence d‘ hémopéritoine ou de lésion viscérale intrapéritonéale évidente)).deux échographies abdominales successives un hémopéritoine évolutif, sans pneumopéritoine, ainsi qu'un décollement péricardique postérieur.un traumatisme thoraco-abdominal avec fracture des arcs postérieurs des 7e, 8e et 9e côtes droites, contusion hépatique au niveau des segments VI-VII, hémopéritoine de moyenne abondance, contusion splénique,Instabilité hémodynamique nécessitant remplissage, transfusion de culots globulaires, PFC et plaquettes dans le cadre d'un hémopéritoine sur fracture du bassin. Construction d'ontologies à partir de textes - BDA 2003
système Traitement de l’information textuelle RTO CONCEPT sevrage (OBJET) Noradrénaline sevrage_Noradrénaline sevrage en noradrénaline sevrage de la noradrénaline termes sevrage Adj? [de|en] la? noradrénaline sevré de noradrénaline patrons noradrénaline être Adv? sevré texte sevrage en noradrénaline le 23 / 10. Stabilité cardiorespiratoire, le sevrage de la Noradrénaline est fait à J5 de la réintervention et l'extubation est réalisée à J6.Evolution favorable avec sevrage rapide en Noradrénaline le 20 / 06 / 99. Stabilité hémodynamique initiale correcte avec sevrage progressif en Noradrénaline obtenu à J3. Les suites du choc hypovolémique hémorragique sont simples, avec sevrage de noradrénaline à J3 et extubation à J2. L'évolution est alors favorable avec Instauration d'une corticothérapie ayant permis un sevrage rapide de la Noradrénaline, La patiente est sevrée de noradrénaline le 16 / 06 / 00. Le patient est sevré de Noradrénaline le 13 / 05 / 00. La Noradrénaline est sevrée dans la nuit du 20 au 21 / 01. Après remplissage vasculaire par 1000 cc de Plasmion et 1000 cc d'Elohes, la Noradrénaline est rapidement sevrée Construction d'ontologies à partir de textes - BDA 2003
Panorama de logiciels pour extraire et structurer • Une typologie fonctionnelle : • Extraction de concordances : YAKWA, SATO • Extraire des candidats termes. ex : Syntex, NOMINO, ANA • Extraire des relations candidates. Ex: Prométhée, Caméléon • Extraire des constructions prédicats / arguments : ASIUM, SVET’LAN • Autres typologies • Méthodes linguistique / méthodes statistiques • Construction de RTO / mise à jour de RTO • Phase d’amorçage / phase d’enrichissement • Rappel : il ne s’agit pas de construction automatique… Construction d'ontologies à partir de textes - BDA 2003
1 . Extraction de concordances • Fonction : pour un patron donné, présenter toutes les occurrences rassemblées • Niveau d’annotation du corpus • corpus « nu » : uniquement forme (suite de mots) • corpus étiqueté : patrons morpho-syntaxique. Exemples : • {nom}+{verbe « être » indicatif}+{article indéfini} • {pronom personnel 1ère pers.}+{verbe indicatif}+{« dans »}+{déterminant démonstratif}+{Nom} activité de construction d' un |modèle |de connaissances , ou modélisation des solution verticale comporte un |modèle |à la KADS , une bibliothèque de composants A un stade ultime , le |modèle |formel est , la plupart du temps , connaissances en distinguant le |modèle |conceptuel du modèle opérationnel du monde ( on parle de |modèle |de produit ) et objet de modélisation de le projet européen KADS , le |modèle |conceptuel joue le rôle de modèle originale , de créer un |modèle |cognitif du futur système Construction d'ontologies à partir de textes - BDA 2003
Exemple de logiciel d’exploration de corpus : Yakwa • Principes • Requêtes basées sur la syntaxe et la sémantique • Nécessite une corpus étiqueté (Tree Tagger analyseur syntaxique) • Utilisation pour la recherche de relations entre concepts • Aller chercher des indices lexicaux (marqueurs) de relations sémantiques pour organiser les concepts • Lien avec Caméléon : utilisation de marqueurs génériques pour relations EST-UN et PARTIE-DE Construction d'ontologies à partir de textes - BDA 2003
Création de requêtes Construction d'ontologies à partir de textes - BDA 2003
Interprétation des résultats Construction d'ontologies à partir de textes - BDA 2003
Fonction : extraction et tri automatiques de candidats termes CT : séquence susceptible d’être retenue comme étiquette de concept Méthodes d’extraction statistiques segments répétés information mutuelle morpho-syntaxiques repérage de patrons analyse syntaxique partielle Critères de tris numériques fréquence d’occurrences dans le corpus productivité : nombre de CT plus complexes dont le CT est constituant 2 . Extraction de termes Construction d'ontologies à partir de textes - BDA 2003
Syntex : analyse syntaxique et construction d’un réseau de syntagmes • En entrée : un corpus étiqueté • Dans chaque phrase, à chaque mot est associée une étiquette morphosyntaxique(Cordial, TreeTager) • En sortie : 1) un corpus analysé syntaxiquement • Dans chaque phrase, identification des relations de dépendance syntaxique (sujet, complément d’objet, épithète, …) entre les mots • En sortie : 2) un réseau de syntagmes • 1) De chaque phrase, extraction de syntagmes verbaux, nominaux, adjectivaux • 2) Pour l’ensemble du corpus, construction d’un réseau de syntagmes structuré par les relations Tête et Expansion Construction d'ontologies à partir de textes - BDA 2003
Analyse syntaxique Le chat de Marie mange une petite souris. Etiquetage morphosyntaxique Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom. Analyse syntaxique SUJ OBJ Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom. Construction d'ontologies à partir de textes - BDA 2003
T 2) Construction d’un réseau de syntagmes SUJ OBJ L’ érosion attaque un plan de faille Extraction de syntagmes plan faille T E attaquer plan de faille T : tête E : expansion E attaquer un plan de faille plan : nom plan de faille : syntagme nominal attaquer : verbe attaquer un plan de faille : syntagme verbal Construction d'ontologies à partir de textes - BDA 2003
2) Construction d’un réseau de syntagmes attaquer ~ pénéplaine ~ pente raide ~ plan de faille ~ roche sédimentaire ~ section anticlinale ~ table karstique plan ~ de cisaillement ~ de diaclase ~ de faille ~ de glissement ~ de schistosité ~ de stratification T T faille escarpement de ~ ligne de ~ plan de ~ E Construction d'ontologies à partir de textes - BDA 2003
Données de l’analyse distributionnelle Termes Contextes Construction d'ontologies à partir de textes - BDA 2003
Mesures de similarité • Productivité d’un terme, d’un contexte Construction d'ontologies à partir de textes - BDA 2003
3 . Extraction de relations : Caméleon • La notion de marqueur : • Eléments lexico-syntaxiques permettant de repérer une relation conceptuelle • Hypothèses : • Une même relation peut s’exprimer par différents marqueurs • Les relations peuvent dépendre du corpus • Les marqueurs peuvent dépendre du corpus • Corpus étiqueté en entrée, hypothèses de relations en sortie • Modèle conceptuel enrichi de relations conceptuelles Construction d'ontologies à partir de textes - BDA 2003
Ajuster les marqueurs • Sélectionner des relations et des marqueurs génériques ex : hypéronymie (est-un) : • Det N1 est Det N2 (qui, adj, p.passé, p.présent) • Tous les N2 sauf det N1 • Det N1 comme det N2 • Les évaluer en corpus • Les adapter au corpus pour réduire le bruit et le silence • Identifier patrons et relations spécifiques au corpus • Par projection de couples de termes • Par observation de contextes • Par observation des résultats de Syntex On construit une base de marqueurs adaptés au corpus Construction d'ontologies à partir de textes - BDA 2003
Répérer des relations lexicales Formule qui définit le marqueur Phrases qui contiennent la forme et qui peuvent contenir une relation (hypothèses) Termes en relation que peuvent indiquer des concepts reliés Construction d'ontologies à partir de textes - BDA 2003
Repérage de relations avec Caméléon Des hypothèses de relations aux Relations conceptuelles Construction d'ontologies à partir de textes - BDA 2003
Plan • Ontologies et textes à BDA : motivations • Différentes facettes de la modélisation conceptuelle • Ressources terminologiques et ontologiques • Construire des modèles conceptuels à partir de textes • Justification • Panorama d’outils pour l’analyse de textes • Une méthode appliquée à une étude de cas : le projet verre Construction d'ontologies à partir de textes - BDA 2003
Construire des modèles à partir de texte Principes • Exploiter les textes • Partir des textes comme sources et supports de connaissances • Utiliser des techniques et outils d’analyse de corpus basés sur des principes linguistes et statistiques • Plonger le modèle conceptuel dans son contexte linguistique : conserver un lien du modèle vers les textes • Poids de l’application • L’ontologie est construite pour une application. • L’application s’inscrit dans une pratique (domaine) • L’ingénieur de la connaissance est un médiateur. Construction d'ontologies à partir de textes - BDA 2003
L’ontologue au centre s s Spécialistes o Ontologue u Utilisateur Ressources existantes Domaine Ressource Termino- Ontologique Textes tal Application Construction d'ontologies à partir de textes - BDA 2003
3. Structurer et normaliser les données 4. Formaliser dans un modèle Une autre vue sur la méthode 1. Constituer un corpus Documents Techniques Outils d’Analyse de Textes 2. Appliquer des outils d’analyse de textes Modèle Construction d'ontologies à partir de textes - BDA 2003
1. Constitution du corpus • Choisir des documents • Compromis entre représentativité (sujet, genre textuel) ET taille • Trouver les documents les plus pertinents pour l’application • Mettre les documents au bon format • Evaluer leur pertinence • Décider de la manière de les traiter • Identifier les groupes homogènes : type de document, sujet • Rendre compte de connaissances communes ou différenciées • Opportunisme : découpage en sous-corpus Construction d'ontologies à partir de textes - BDA 2003
Constitution du corpus Livre Vocabulaire technique : procédés du verre textile 10 chapitres 104132 mots Brevets Vocabulaire technique des dépôts de brevets 13 brevets 61272 mots Veille Vocabulaire de la finance et économie 7 mois articles AFP 91658 mots Vocabulaire générique du verre 563 noms et 59 SN Entre 93 et 98% des SV et SN et plus de la moitié des mots simples sont propres à chaque sous-corpus. • caractérisation rapide de la nature de ces vocabulaires Construction d'ontologies à partir de textes - BDA 2003
Syntex 2 . Etude terminologique Documents techniques • Extraction de termes mis en relation par Syntex • Recherche de relations à l’aide de patrons avec Yakwa • Fiches terminologiques dans Terminae et fiches Concept-terminologique dans Excel • Liée à la normalisation Outils d’analyse de textes Yakwa Eléments d’ontologie Terminae Construction d'ontologies à partir de textes - BDA 2003
Représentation dans Terminae Construction d'ontologies à partir de textes - BDA 2003