140 likes | 281 Views
EIAH’2003 - Strasbourg Une méthode incrémentale d’extraction de connaissances pédagogiques sur le web. Pierre Pompidor Michel Sala Danièle Hérin LIRMM – Montpellier II / CNRS 161 rue ada, 34 392 Montpellier cedex 5 {pompidor, sala, dh}@lirmm.fr
E N D
EIAH’2003 - StrasbourgUne méthode incrémentale d’extraction de connaissances pédagogiques sur le web Pierre Pompidor Michel Sala Danièle Hérin LIRMM – Montpellier II / CNRS 161 rue ada, 34 392 Montpellier cedex 5 {pompidor, sala, dh}@lirmm.fr Phone : 33 4 67 1 85 85 Fax : 04 67 41 85 00
Plan • Introduction • Méthodologie • Architecture • Cycle de fonctionnement • Exemple • Requêteur • Analyseur • Analyse d’une ressource • De définition • De spécialisation • Révision de l’ontologie • Génération de brouillon de cours • Conclusion
Introduction • Thème de travail • Agrégation semi-automatique de connaissances extraites du web. Pour la création de brouillons de cours. • Problématiques Liées à l’utilisation d’un moteur de recherche • Imprécision dans la formulation de requêtes (mots clés) • Imprécision des réponses fournies par le moteur de recherche
Approche • Analyse des pages • À partir d’interrogation du moteur de recherche Google • par des listes de mots clés de plus en plus élaborées • Les mots clés sont intégrés de manière incrémentale dans une ontologie qui représente l’ossature du document en cours de réalisation (brouillon de cours) • Extraction des mots clés • Réalisée par une analyse lexicale, syntaxique et sémantique • à partir d’une base de patrons syntaxiques (200 actuellement) extraits de l’analyse de définitions du dictionnaire en ligne.
Cycle de fonctionnement • Phase préalable • Analyse de la syntaxe des définitions du dictionnaire Larousse en ligne • Création de « patrons » syntaxiques • Phase 1 : Création « manuelle » d’une ontologie initiale sur le cours • Phase 2 : Interrogation d’un moteur de recherche à partir des concepts de l’ontologie • Phase 3 : Analyse des pages fournies par le moteur • Vérification de la pertinence de l’emploi des mots clés • Extraction des éléments de définitions • Extraction des éléments de spécialisation • Phase 4 : Enrichissement de l’ontologie initiale • Phase 5 : Génération du brouillon de cours • À partir de l’ontologie enrichie
Ontologie initiale • L’enseignant crée une ontologie initiale : elle correspond aux concepts de base et à l’ossature de son cours. • Architecture Multi-tiers • Serveur d’application / serveur applicatif • Serveur d’objets / serveur de composants
Interrogation d’un moteur de recherche • Le « requêteur » interroge un moteur de recherche à partir d’une liste de mots clé pris sur chaque branche de la hiérarchie de l’ontologie. « architecture Multi-tiers » « serveur d’application » « architecture Multi-tiers » « serveur applicatif » « architecture Multi-tiers » « serveur d’objets » « architecture Multi-tiers » « serveur de composants » • Les pages fournies en résultat sont transmises à l’analyseur
Analyse des pages • Pour chaque concept de l’ontologie, extraction de deux types de connaissances • Des définitions : explication du concept • Des spécialisations : instances du concept • Types d’analyse • Lexicale : mots présents dans la page • Syntaxique : appariement des patrons • Sémantique : détermination des référents
Analyse des pages Extraction des éléments de définition • Contenu de la page « Un serveur d’application est basé une architecture multi-tiers. C’est un modèle d’architecture d’applications dans lequel on sépare la présentation, les traitements et les données. L’objectif poursuivi est de permettre une évolution de l’un de ces trois tiers de façon relativement indépendante des deux autres. » • Analyse • « Serveur d’application » et « architecture multi-tiers » s’apparient La page est analysée • Le patron « c’[être] un(e) généralisation-du-concept-X dans lequel » s’apparie. extraction de « on sépare la présentation, les traitements et les données • La deuxième page ne peux pas être analysée.
Analyse des pages Extraction des éléments de spécialisation • Contenu de la page « Le serveur d’application est l’environnement d’exécution des applications côté serveur. Il prend en charge l’ensemble des fonctionnalités qui permettent à N clients d’utiliser une même application : …. Le serveur d’application est donc indispensable si l’on souhaite éviter de re-développer l’ensemble de ces fonctionnalités (cas des GGI). Les moteurs JSP / Servlets, Microsoft ASP, Cold Fusion, PHP, … sont à ce titre des serveur d’application ». • Analyse • « Serveur d’application » et « architecture multi-tiers » s’apparient La page est analysée • Le patron « … [être] [locution de coordination] [article défini] concept-X » s’apparie. extraction de « les moteurs JSP / servlets, Microsoft ASP, Cold Fusion, PHP, … »
Enrichissement de l’ontologie • Architecture Multi-tiers On sépare la présentation, les traitements et les données • Serveur d’application / serveur applicatif est l’environnement d’exécution des applications coté serveur • Moteur JSP / servlets • Microsoft ASP • PHP • Cold Fusion • Serveur d’objets / serveur de composants • Modèle COM • Active X • EJB • Corba
Générateur de brouillon de cours • La méthode converge. • L’ontologie n’évolue plus et le générateur de brouillon de cours produit un texte synthétique (mal formé) dont les concepts de l’ontologie sont l’ossature. • Le brouillon Dans une architecture multi-tiers, on sépare la présentation, les traitements et les données. Une architecture multi-tiers se compose de serveurs d’application et de serveurs d’objets.Un serveur d’application est l’environnement d’exécution des applications coté serveur, et sépare les niveaux : accès aux données, traitement métier et présentation. Un serveur d’application se compose d’un moteur JSP ou de servlets, Microsoft ASP, PHP et Cold fusion. Un serveur d’objets (ou serveur de composants) se compose d’un modèle COM, de EJB, Corba. Le modèle COM se compose d’Active X.
Conclusion - 1 • Production de résultats concrets • Hypothèse : l’enseignant connait des concepts qui constituent l’ossature du cours. • Ontologie initiale • L’enseignant explore le web pour intégrer des connaissances pédagogiques • Enrichissement de l’ontologie • Génération d’un brouillon de cours. • Travail en cours • Maitrise de l’enrichissement de l’ontologie • Techniques de synthèse de connaissances • Cycle d’apprentissage doit être complété pour faire de la ressource pédagogique créée, une ressource réutilisable et normée
Conclusion - 2 • Travail en cours • Maitrise de l’enrichissement de l’ontologie • Techniques de synthèse de connaissances • Cycle d’apprentissage à compléter • Rendre la ressource pédagogique créée, réutilisable et normée.