290 likes | 376 Views
e.dot. Entrepôts de Données Ouverts sur la Toile RNTL. Organisation. Introduction Objectifs de e.dot Retombées techniques et commerciales Partenaires Principes de base Organisation Financement. Introduction: le contexte. De plus en plus d’informations utiles pour les entreprises
E N D
e.dot Entrepôts de Données Ouverts sur la Toile RNTL e.dot – septembre 2002
Organisation • Introduction • Objectifs de e.dot • Retombées techniques et commerciales • Partenaires • Principes de base • Organisation • Financement e.dot – septembre 2002
Introduction: le contexte e.dot – septembre 2002
De plus en plus d’informations utiles pour les entreprises Milliards de pages et millions de serveurs Que trouve-t-on sur le Web public et privé ? Des documents (HTML, doc, pdf…), des données semi structurées (XML, formats exotiques), des données structurées (« hidden Web » -- accès BD via formulaires, services Web), Qualité médiocre: spamming, données pas à jour Requêtes par mot clé pour obtenir des pages Intégration d’information: basées sur des adapteurs (wrappers) La toile aujourd’hui e.dot – septembre 2002
Ce qui est en train de changer • Format d’échange universel (XML) • Mariage entre documents et bases de données • Standard de langage de requêtes: XQuery • Services Web (SOAP, WSDL) • Format pour exporter des services sur le Web • Format pour encapsuler des requêtes • Web sémantique (RDF, etc.) • Indispensable pour pouvoir trouver et utiliser l’information Le projet e.dot est fondé sur ces technologies e.dot – septembre 2002
Objectifs de e.dot e.dot – septembre 2002
Objectifs • Génériques: Outils pour construire des entrepôts de données thématiques en découvrant des données sur le Web et en enrichissant des systèmes d’information existants par intégration automatiques de ces données • Particulier: Développer un entrepôt de données XML intégrant de manière automatique des informations liées au risque de contamination des aliments, qu’elles soient issues du Web, privées ou obtenues sous licence • Appel d’offre: étendre les systèmes d’information collectifs ou individuels via Internet e.dot – septembre 2002
Principes de base • Surveillance continue du Web : • Crawling du Web HTML et XML • Classification automatique des pages d’intérêt • Intégration simple dans l’entrepôt : • Récupération automatique des données (en particulier XML) traitant du risque de contamination des aliments • Possibilité d’enrichir les documents XML • Interrogation très fine des données stockées : • Ecrans intuitifs et spécifiques • Navigation dans le corpus via des hyperliens. • Mise en place de thésaurus agro-alimentaire • Fourniture rapide de réponses précises : • Liste triée de réponses • Calcul original de la pertinence • Accès direct aux éléments du document • Granularité des réponses • Gestion de liens vers des documents PDF, photos… e.dot – septembre 2002
Architecture simplifiée + BD relationnelles e.dot – septembre 2002
Innovations et points forts • Un projet en rupture avec l’existant : vers le « tout-XML » • Surveillance automatique du Web (XML, HTML…) • Extraction automatique de données de sources hétérogènes • Classification thématiques des informations récupérées • Intégration sémantique de données hétérogènes • Stockage des données dans un entrepôt natif XML • Utilisation du langage de requêtes Xquery e.dot – septembre 2002
Retombées e.dot – septembre 2002
Retombées directes • La création de nouveaux outils logiciels et de services dans l’offre de Xyleme • La construction d’un entrepôt de données sur le « risque de contamination des aliments » directement opérationnel pour les industriels de l’agro-alimentaire • Des avancées technologiques en matière d’intégration de données et de recherche d’informations sur le web e.dot – septembre 2002
Retombées commerciales • Patrick Ferran e.dot – septembre 2002
Retombées dans le domaine du risque de contamination des aliments • Passer de bases de données disparates existantes à un entrepôt uniforme, facilitant l'évaluation du risque de contamination des aliments • La connaissance sur le risque des aliments étant un domaine émergeant, fort intérêt des industriels pour les résultats et les connaissances les plus récents (amélioration de leur réactivité face au risque) • Diffusion à tous les industriels, y compris les PME de l'agro-alimentaire qui ont peu de moyens d'accès à l'information e.dot – septembre 2002
Partenaires e.dot – septembre 2002
Partenaires • Une entreprise experte des technologies liées à XML : Xyleme • Guy Ferran (Directeur Technique) • Trois équipes de recherche en informatique : • BIA/INRA-INAPG: O. Haemmerlé et P. Buche (MDC) • Verso/INRIA: B. Amann (MDC) et S. Abiteboul (DR) • IASI/Paris11: M.-C. Rousset (Prof) et N. Pernelle (MDC) e.dot – septembre 2002
Xyleme SA • Xyleme, spécialisée dans la recherche et l’intégration de larges volumes de contenus XML hétérogènes et multi sources. • Xyleme a développé un entrepôt de données XML très performant + un crawler puissant qui permet de surveiller le Web de façon très pointue • Xyleme a été créée en 2000 à partir de travaux de Verso/INRIA • Aujourd’hui: environ 30 personnes (20 techniques), capitaux de DB, Viventure, SGAM e.dot – septembre 2002
BIA/INRA – INA P-G • BIA est spécialisée dans la représentation et l'interrogation de connaissances incomplètes, imprécises et faiblement structurées • Le domaine d'application est l'évaluation du risque lié à la contamination des aliments • BIA participe au projet national Sym'Previus (mise en place d'un système d'information sur le risque microbiologique des aliments) • 5 enseignants-chercheurs et chercheurs de l'équipe sont concernés par le projet e.dot e.dot – septembre 2002
Verso/INRIA • Projet de Recherche de l’INRIA-Rocquencourt; transfert prochain à INRIA-Futurs/Saclay • Equipe spécialisée dans les bases de données XML et le Web • Projet Européen DbGlobe (mi-parcours) • Travaux ayant conduit à la création de Xyleme • Projet GAEL (RNRT) • Devient début 2003 composante de Gemo/INRIA-Futurs e.dot – septembre 2002
IASI/Paris11 • Laboratoire de Recherche en Informatique • Equipe spécialisée dans la représentation de connaissances et la médiation de données via des ontologies • Projet PICSEL et PICSEL2 (avec France Télécom R&D) • Projet GAEL (RNRT) • Action spécifique du CNRS sur le Web sémantique • Devient début 2003 composante de Gemo e.dot – septembre 2002
Organisation de e.dot e.dot – septembre 2002
Organisation du projet 1 2 3 4 Tous les partenaires participent à tous les sous projets • Sous projet 1 (BIA): spécification d’un entrepôt de données pour le risque de contamination des aliments • Sous projet 2 (Xyleme): acquisition de données du Web • Sous projet 3 (IASI): organisation et structuration de l’entrepôt • Sous projet 4 (BIA): validation auprès des utilisateurs Durée 2 ans e.dot – septembre 2002
Sous projet 1: Spécification de l’entrepôt • Analyse des besoins • Avec l’aide de biologistes et d’industriels, analyse des manques dans la base existante Sym’Previus • Analyse du contenu d’autres bases nationales ou internationales • Analyse de sites du Web qui pourraient contenir des informations intéressantes e.dot – septembre 2002
Sous projet 2: Acquisition A partir de bases de données structurées ou de bases documentaires • Spécification déclarative de la recherche et de l’intégration de données • Import et stockage dans un entrepôt XML • Découverte de données sur le Web • Exploration du « hidden Web » • Pré validation par BIA des données e.dot – septembre 2002
Sous projet 3: Organisation de l’entrepôt • Extraction des méta données • Définition du schéma global de l’entrepôt • Réalisation d’un environnement de spécification d’entrepôt • Maquette e.dot – septembre 2002
Sous projet 4: Validation • De l’architecture • Des différents modules • De l’information obtenue • Dans cette dernière phase, on incitera les partenaires de Sym’Previus à diffuser leurs informations sur le Web via ce nouveau média e.dot – septembre 2002
Financement original demandé e.dot – septembre 2002
Conclusion • Présentations complémentaire possibles • Xyleme SA (G. Ferran) • Active XML: intégration de services Web dans des documents XML (B. Amann) • TreeFinder: Fouille de données XML (M.-C. Rousset) • Entrepôt de données sur le risque de contamination des aliments (O. Haemmerlé) e.dot – septembre 2002
Merci e.dot – septembre 2002