1 / 29

e.dot

e.dot. Entrepôts de Données Ouverts sur la Toile RNTL. Organisation. Introduction Objectifs de e.dot Retombées techniques et commerciales Partenaires Principes de base Organisation Financement. Introduction: le contexte. De plus en plus d’informations utiles pour les entreprises

Download Presentation

e.dot

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. e.dot Entrepôts de Données Ouverts sur la Toile RNTL e.dot – septembre 2002

  2. Organisation • Introduction • Objectifs de e.dot • Retombées techniques et commerciales • Partenaires • Principes de base • Organisation • Financement e.dot – septembre 2002

  3. Introduction: le contexte e.dot – septembre 2002

  4. De plus en plus d’informations utiles pour les entreprises Milliards de pages et millions de serveurs Que trouve-t-on sur le Web public et privé ? Des documents (HTML, doc, pdf…), des données semi structurées (XML, formats exotiques), des données structurées (« hidden Web » -- accès BD via formulaires, services Web), Qualité médiocre: spamming, données pas à jour Requêtes par mot clé pour obtenir des pages Intégration d’information: basées sur des adapteurs (wrappers) La toile aujourd’hui e.dot – septembre 2002

  5. Ce qui est en train de changer • Format d’échange universel (XML) • Mariage entre documents et bases de données • Standard de langage de requêtes: XQuery • Services Web (SOAP, WSDL) • Format pour exporter des services sur le Web • Format pour encapsuler des requêtes • Web sémantique (RDF, etc.) • Indispensable pour pouvoir trouver et utiliser l’information Le projet e.dot est fondé sur ces technologies e.dot – septembre 2002

  6. Objectifs de e.dot e.dot – septembre 2002

  7. Objectifs • Génériques: Outils pour construire des entrepôts de données thématiques en découvrant des données sur le Web et en enrichissant des systèmes d’information existants par intégration automatiques de ces données • Particulier: Développer un entrepôt de données XML intégrant de manière automatique des informations liées au risque de contamination des aliments, qu’elles soient issues du Web, privées ou obtenues sous licence • Appel d’offre: étendre les systèmes d’information collectifs ou individuels via Internet e.dot – septembre 2002

  8. Principes de base • Surveillance continue du Web : • Crawling du Web HTML et XML • Classification automatique des pages d’intérêt • Intégration simple dans l’entrepôt : • Récupération automatique des données (en particulier XML) traitant du risque de contamination des aliments • Possibilité d’enrichir les documents XML  • Interrogation très fine des données stockées : • Ecrans intuitifs et spécifiques • Navigation dans le corpus via des hyperliens. • Mise en place de thésaurus agro-alimentaire • Fourniture rapide de réponses précises : • Liste triée de réponses • Calcul original de la pertinence • Accès direct aux éléments du document • Granularité des réponses • Gestion de liens vers des documents PDF, photos… e.dot – septembre 2002

  9. Architecture simplifiée + BD relationnelles e.dot – septembre 2002

  10. Innovations et points forts • Un projet en rupture avec l’existant : vers le « tout-XML » • Surveillance automatique du Web (XML, HTML…) • Extraction automatique de données de sources hétérogènes • Classification thématiques des informations récupérées • Intégration sémantique de données hétérogènes • Stockage des données dans un entrepôt natif XML • Utilisation du langage de requêtes Xquery e.dot – septembre 2002

  11. Retombées e.dot – septembre 2002

  12. Retombées directes • La création de nouveaux outils logiciels et de services dans l’offre de Xyleme • La construction d’un entrepôt de données sur le « risque de contamination des aliments » directement opérationnel pour les industriels de l’agro-alimentaire • Des avancées technologiques en matière d’intégration de données et de recherche d’informations sur le web e.dot – septembre 2002

  13. Retombées commerciales • Patrick Ferran e.dot – septembre 2002

  14. Retombées dans le domaine du risque de contamination des aliments • Passer de bases de données disparates existantes à un entrepôt uniforme, facilitant l'évaluation du risque de contamination des aliments • La connaissance sur le risque des aliments étant un domaine émergeant, fort intérêt des industriels pour les résultats et les connaissances les plus récents (amélioration de leur réactivité face au risque) • Diffusion à tous les industriels, y compris les PME de l'agro-alimentaire qui ont peu de moyens d'accès à l'information e.dot – septembre 2002

  15. Partenaires e.dot – septembre 2002

  16. Partenaires • Une entreprise experte des technologies liées à XML : Xyleme • Guy Ferran (Directeur Technique) • Trois équipes de recherche en informatique : • BIA/INRA-INAPG: O. Haemmerlé et P. Buche (MDC) • Verso/INRIA: B. Amann (MDC) et S. Abiteboul (DR) • IASI/Paris11: M.-C. Rousset (Prof) et N. Pernelle (MDC) e.dot – septembre 2002

  17. Xyleme SA • Xyleme, spécialisée dans la recherche et l’intégration de larges volumes de contenus XML hétérogènes et multi sources. • Xyleme a développé un entrepôt de données XML très performant + un crawler puissant qui permet de surveiller le Web de façon très pointue • Xyleme a été créée en 2000 à partir de travaux de Verso/INRIA • Aujourd’hui: environ 30 personnes (20 techniques), capitaux de DB, Viventure, SGAM e.dot – septembre 2002

  18. BIA/INRA – INA P-G • BIA est spécialisée dans la représentation et l'interrogation de connaissances incomplètes, imprécises et faiblement structurées • Le domaine d'application est l'évaluation du risque lié à la contamination des aliments • BIA participe au projet national Sym'Previus (mise en place d'un système d'information sur le risque microbiologique des aliments) • 5 enseignants-chercheurs et chercheurs de l'équipe sont concernés par le projet e.dot e.dot – septembre 2002

  19. Verso/INRIA • Projet de Recherche de l’INRIA-Rocquencourt; transfert prochain à INRIA-Futurs/Saclay • Equipe spécialisée dans les bases de données XML et le Web • Projet Européen DbGlobe (mi-parcours) • Travaux ayant conduit à la création de Xyleme • Projet GAEL (RNRT) • Devient début 2003 composante de Gemo/INRIA-Futurs e.dot – septembre 2002

  20. IASI/Paris11 • Laboratoire de Recherche en Informatique • Equipe spécialisée dans la représentation de connaissances et la médiation de données via des ontologies • Projet PICSEL et PICSEL2 (avec France Télécom R&D) • Projet GAEL (RNRT) • Action spécifique du CNRS sur le Web sémantique • Devient début 2003 composante de Gemo e.dot – septembre 2002

  21. Organisation de e.dot e.dot – septembre 2002

  22. Organisation du projet 1 2 3 4 Tous les partenaires participent à tous les sous projets • Sous projet 1 (BIA): spécification d’un entrepôt de données pour le risque de contamination des aliments • Sous projet 2 (Xyleme): acquisition de données du Web • Sous projet 3 (IASI): organisation et structuration de l’entrepôt • Sous projet 4 (BIA): validation auprès des utilisateurs Durée 2 ans e.dot – septembre 2002

  23. Sous projet 1: Spécification de l’entrepôt • Analyse des besoins • Avec l’aide de biologistes et d’industriels, analyse des manques dans la base existante Sym’Previus • Analyse du contenu d’autres bases nationales ou internationales • Analyse de sites du Web qui pourraient contenir des informations intéressantes e.dot – septembre 2002

  24. Sous projet 2: Acquisition A partir de bases de données structurées ou de bases documentaires • Spécification déclarative de la recherche et de l’intégration de données • Import et stockage dans un entrepôt XML • Découverte de données sur le Web • Exploration du « hidden Web » • Pré validation par BIA des données e.dot – septembre 2002

  25. Sous projet 3: Organisation de l’entrepôt • Extraction des méta données • Définition du schéma global de l’entrepôt • Réalisation d’un environnement de spécification d’entrepôt • Maquette e.dot – septembre 2002

  26. Sous projet 4: Validation • De l’architecture • Des différents modules • De l’information obtenue • Dans cette dernière phase, on incitera les partenaires de Sym’Previus à diffuser leurs informations sur le Web via ce nouveau média e.dot – septembre 2002

  27. Financement original demandé e.dot – septembre 2002

  28. Conclusion • Présentations complémentaire possibles • Xyleme SA (G. Ferran) • Active XML: intégration de services Web dans des documents XML (B. Amann) • TreeFinder: Fouille de données XML (M.-C. Rousset) • Entrepôt de données sur le risque de contamination des aliments (O. Haemmerlé) e.dot – septembre 2002

  29. Merci e.dot – septembre 2002

More Related