160 likes | 338 Views
Modélisation, reformulation et interrogation d’expressions temporelles extraites de textes en langage naturel. Cyril Faucher , Jean-Yves Lafaye , Frédéric Bertrand. L3i, Université de La Rochelle, France cyril.faucher@univ-lr.fr.
E N D
Modélisation, reformulation et interrogation d’expressions temporelles extraites de textes en langage naturel Cyril Faucher, Jean-Yves Lafaye, Frédéric Bertrand L3i, Université de La Rochelle, France cyril.faucher@univ-lr.fr Ce travail est financé par l’Agence Nationale de la Recherche (ANR-Contint, projet RelaxMultiMedias 2) Master 2, 16/09/2010
Le doctorat • La thèse c’est • un sujet • faire l’état de l’art du domaine (bibliographie) • des contributions • expérimenter des approches, développer des applications • valoriser son travail par des articles : conférences nationales / internationales et des revues (journaux) • rédiger un mémoire de thèse • Mais aussi • participer à des groupes de travail, séminaires, etc • enseigner à l’Université, à l’IUT, etc • Débouchés principaux : Maître de Conférence, ingénieur de recherche (public ou privé), startup, etc
2 Thèse dans un contexte de projet de recherche avec des partenaires industriels
Plan • 1. Contexte et objectifs • 2. Modéliser des propriétés temporelles d’événements • 3. Acquisition et Modélisation de Connaissances Temporelles : chaîne TKAM
2 1. Contexte • Notion d’événements • Nature des événements: culturels, touristiques • Propriétés spatiales et temporelles • Récurrence et périodicité • Interopérabilité avec les standards du domaine (presse) • IPTC (NewsML, EventsML) • iCalendar
1. Objectifs • Représenter de manière intégrée des événements et leurs données associées (métadonnées) • Assurer la persistance dans une base de données / connaissances • Aligner un modèle métier sur des ontologies existantes (donne accès à des raisonneurs, définit une sémantique de manière formelle et structurée) • Formuler des requêtes avec des expressions contrôlées proche du langage naturel
1. Contexte et objectifs • Chaîne d’acquisition de connaissances temporelles • A partir de textes (dépêches), extraire des événements • Produire une reformulation du texte des dépêches, dans un langage formel non ambigu, proche du langage naturel initial • => validation sémantique par l’utilisateur • => interrogation Texte contrôlé Evénements + propriétés temporelles Texte libre
1. Contexte : utilisation de l’IDM • Utilisation des techniques de l’Ingénierie Dirigée par les Modèles pour assurer • l’interopérabilité d’applications métier (passerelles entre les applicatifs) • l’intégration de données hétérogènes • la vérification de l’intégrité d’instances / d’information • Exemple : transformation / reformulation / intégration Texte Libre SGBDR Texte contrôlé Ontologie
2. Modéliser des propriétés temporelles d’événements : Comment ? • Deux types de représentations des occurrences d’événements • Concrète : un ensemble (en extension) contenant des dates identifiables dans un calendrier (une granularité est fixée, le calendrier est défini sur une base annuelle) • Extension : { …, « de 2010-05-20T14:00:00 à 2010-05-20T16:00:00 », « de 2010-05-27T14:00:00 à 2010-05-27T16:00:00 », … } • Abstraite : une formule décrit en intension l’ensemble précédent • Particulièrement adapté aux événements périodiques ou pseudo périodiques (exceptions), et aussi aux événements définis relativement les uns par rapport aux autres • Intension[Carnap] : « tous les jeudis de mai de chaque année de 14h à 16h » « tous les jours 3 heures avant la basse mer »
2. Modéliser des propriétés temporelles d’événements : avec quel modèle ? • Modèle métier : Modèle d’accessiblité [Battistelli, Teissèdre] • Modèle d’événement : métadonnées sur les événements (IPTC) • spatiales • temporelles • … • Modèles temporels existants • ISO 19108 standard : Time geometry: Instant, Period, Allen’s relations • iCalendar format : Periodic interval, Exception (+ periodic exception) • TimeML [Pustejovsky], OWL-Time [Pan] • Modèle temporel proposé • synthèse de l’ISO et d’iCalendar sous une forme objet • position relative (3 heures avant la basse mer) • une grammaire formelle
2. Modéliser des propriétés temporelles d’événements : extrait du Modèle Temporel • Extension de l’ISO 19108 • Fondé sur le concept de règle périodique (PeriodicRule) Norme ISO 19108
2. Un langage textuel contrôlé pour exprimer des propriétés temporelles • L’utilisateur saisie des expressions temporelles avec un éditeur contextuel Peuplement Vue textuelle
3. Validation des expressions • Espace technique : • objet • conception par contrats vérification Expressions temporelles Modèle du calendrier - un mois est composé de 4 à 5 semaines - une année est composée de 52 à 53 semaines 6ème semaine de chaque mois 6ème semaine de chaque année Janvier 2010 suit décembre 2009 Décembre 2009 précède janvier 2009 vérification Base de connaissance Définition de règles • Espace technique : • logique de description - janvier suit décembre de l’année précédente - février suit janvier de la même l’année
3. Interrogation des expressions • Requêtes • Est-ce qu’un musée est « ouvert le 20/05/2010 » ? • Promotion : extension -> intension : « ouvert tous les jeudis » • Recherche dans la base de connaissance des expressions du type • « tous les jeudis » • « tous les jours (changement de granularité) » • Réponse du système : logique ternaire • VRAI • FAUX • ? (inconnu)
3. Acquisition et de Modélisation de Connaissances Temporelles : chaîne TKAM - du texte en langage naturel au texte contrôlé - Expression saisie : « Ouvert du lundi au vendredi, de 9h à 18h. Nocturne le jeudi jusqu'à 22h. Fermé le 18 mai. » La chaîne de traitement a été expérimentée sur un corpus de 513 expressions fournies par RelaxNews iCalendar Export Texte contrôlé Instances du modèle temporel Instances du modèle linguistique