1 / 14

Pierre Pompidor Michel Sala Danièle Hérin LIRMM – Montpellier II / CNRS

EIAH’2003 - Strasbourg Une méthode incrémentale d’extraction de connaissances pédagogiques sur le web. Pierre Pompidor Michel Sala Danièle Hérin LIRMM – Montpellier II / CNRS 161 rue ada, 34 392 Montpellier cedex 5 {pompidor, sala, dh}@lirmm.fr

kuper
Download Presentation

Pierre Pompidor Michel Sala Danièle Hérin LIRMM – Montpellier II / CNRS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. EIAH’2003 - StrasbourgUne méthode incrémentale d’extraction de connaissances pédagogiques sur le web Pierre Pompidor Michel Sala Danièle Hérin LIRMM – Montpellier II / CNRS 161 rue ada, 34 392 Montpellier cedex 5 {pompidor, sala, dh}@lirmm.fr Phone : 33 4 67 1 85 85 Fax : 04 67 41 85 00

  2. Plan • Introduction • Méthodologie • Architecture • Cycle de fonctionnement • Exemple • Requêteur • Analyseur • Analyse d’une ressource • De définition • De spécialisation • Révision de l’ontologie • Génération de brouillon de cours • Conclusion

  3. Introduction • Thème de travail • Agrégation semi-automatique de connaissances extraites du web. Pour la création de brouillons de cours. • Problématiques Liées à l’utilisation d’un moteur de recherche • Imprécision dans la formulation de requêtes (mots clés) • Imprécision des réponses fournies par le moteur de recherche

  4. Approche • Analyse des pages • À partir d’interrogation du moteur de recherche Google • par des listes de mots clés de plus en plus élaborées • Les mots clés sont intégrés de manière incrémentale dans une ontologie qui représente l’ossature du document en cours de réalisation (brouillon de cours) • Extraction des mots clés • Réalisée par une analyse lexicale, syntaxique et sémantique • à partir d’une base de patrons syntaxiques (200 actuellement) extraits de l’analyse de définitions du dictionnaire en ligne.

  5. Cycle de fonctionnement • Phase préalable • Analyse de la syntaxe des définitions du dictionnaire Larousse en ligne • Création de « patrons » syntaxiques • Phase 1 : Création « manuelle » d’une ontologie initiale sur le cours • Phase 2 : Interrogation d’un moteur de recherche à partir des concepts de l’ontologie • Phase 3 : Analyse des pages fournies par le moteur • Vérification de la pertinence de l’emploi des mots clés • Extraction des éléments de définitions • Extraction des éléments de spécialisation • Phase 4 : Enrichissement de l’ontologie initiale • Phase 5 : Génération du brouillon de cours • À partir de l’ontologie enrichie

  6. Ontologie initiale • L’enseignant crée une ontologie initiale : elle correspond aux concepts de base et à l’ossature de son cours. • Architecture Multi-tiers • Serveur d’application / serveur applicatif • Serveur d’objets / serveur de composants

  7. Interrogation d’un moteur de recherche • Le « requêteur » interroge un moteur de recherche à partir d’une liste de mots clé pris sur chaque branche de la hiérarchie de l’ontologie. « architecture Multi-tiers » « serveur d’application » « architecture Multi-tiers » « serveur applicatif » « architecture Multi-tiers » « serveur d’objets » « architecture Multi-tiers » « serveur de composants » • Les pages fournies en résultat sont transmises à l’analyseur

  8. Analyse des pages • Pour chaque concept de l’ontologie, extraction de deux types de connaissances • Des définitions : explication du concept • Des spécialisations : instances du concept • Types d’analyse • Lexicale : mots présents dans la page • Syntaxique : appariement des patrons • Sémantique : détermination des référents

  9. Analyse des pages Extraction des éléments de définition • Contenu de la page « Un serveur d’application est basé une architecture multi-tiers. C’est un modèle d’architecture d’applications dans lequel on sépare la présentation, les traitements et les données. L’objectif poursuivi est de permettre une évolution de l’un de ces trois tiers de façon relativement indépendante des deux autres. » • Analyse • « Serveur d’application » et « architecture multi-tiers » s’apparient  La page est analysée • Le patron « c’[être] un(e) généralisation-du-concept-X dans lequel » s’apparie.  extraction de « on sépare la présentation, les traitements et les données • La deuxième page ne peux pas être analysée.

  10. Analyse des pages Extraction des éléments de spécialisation • Contenu de la page « Le serveur d’application est l’environnement d’exécution des applications côté serveur. Il prend en charge l’ensemble des fonctionnalités qui permettent à N clients d’utiliser une même application : …. Le serveur d’application est donc indispensable si l’on souhaite éviter de re-développer l’ensemble de ces fonctionnalités (cas des GGI). Les moteurs JSP / Servlets, Microsoft ASP, Cold Fusion, PHP, … sont à ce titre des serveur d’application ». • Analyse • « Serveur d’application » et « architecture multi-tiers » s’apparient  La page est analysée • Le patron « … [être] [locution de coordination] [article défini] concept-X » s’apparie.  extraction de « les moteurs JSP / servlets, Microsoft ASP, Cold Fusion, PHP, … »

  11. Enrichissement de l’ontologie • Architecture Multi-tiers On sépare la présentation, les traitements et les données • Serveur d’application / serveur applicatif est l’environnement d’exécution des applications coté serveur • Moteur JSP / servlets • Microsoft ASP • PHP • Cold Fusion • Serveur d’objets / serveur de composants • Modèle COM • Active X • EJB • Corba

  12. Générateur de brouillon de cours • La méthode converge. • L’ontologie n’évolue plus et le générateur de brouillon de cours produit un texte synthétique (mal formé) dont les concepts de l’ontologie sont l’ossature. • Le brouillon Dans une architecture multi-tiers, on sépare la présentation, les traitements et les données. Une architecture multi-tiers se compose de serveurs d’application et de serveurs d’objets.Un serveur d’application est l’environnement d’exécution des applications coté serveur, et sépare les niveaux : accès aux données, traitement métier et présentation. Un serveur d’application se compose d’un moteur JSP ou de servlets, Microsoft ASP, PHP et Cold fusion. Un serveur d’objets (ou serveur de composants) se compose d’un modèle COM, de EJB, Corba. Le modèle COM se compose d’Active X.

  13. Conclusion - 1 • Production de résultats concrets • Hypothèse : l’enseignant connait des concepts qui constituent l’ossature du cours. • Ontologie initiale • L’enseignant explore le web pour intégrer des connaissances pédagogiques • Enrichissement de l’ontologie • Génération d’un brouillon de cours. • Travail en cours • Maitrise de l’enrichissement de l’ontologie • Techniques de synthèse de connaissances • Cycle d’apprentissage doit être complété pour faire de la ressource pédagogique créée, une ressource réutilisable et normée

  14. Conclusion - 2 • Travail en cours • Maitrise de l’enrichissement de l’ontologie • Techniques de synthèse de connaissances • Cycle d’apprentissage à compléter • Rendre la ressource pédagogique créée, réutilisable et normée.

More Related