310 likes | 577 Views
Systèmes OLAP pour l’analyse de documents textuels XML. Franck Ravat, Olivier Teste, Ronan Tournier, Gilles Zurfluh. IRIT (Institut de Recherche en Informatique de Toulouse) Présentation : Olivier Teste. Plan. Introduction Modèle conceptuel Démarche Conclusion. Contexte.
E N D
Systèmes OLAP pour l’analyse de documents textuels XML Franck Ravat, Olivier Teste, Ronan Tournier, Gilles Zurfluh. IRIT (Institut de Recherche en Informatique de Toulouse) Présentation : Olivier Teste
Plan • Introduction • Modèle conceptuel • Démarche • Conclusion Atelier MADSI (INFORSID 2008)
Contexte Contexte de l’approche Atelier MADSI (INFORSID 2008)
Contexte • Pourquoi se soucier des documents ? • Analyse en ligne sur données numériques • Données numériques : 20% des informations décisionnelles [Sullivan-01] & [Tseng-06] • 80% des données restent hors de portée (les documents entre autres) • Mais • Systèmes OLAP : données numériques • Documents = données textuelles avec peu ou pas de structure • XML: permet de structurer des documents Atelier MADSI (INFORSID 2008)
Contexte • Analyse multidimensionnelle • Modélisation TEMPS.Années Tranche 2002 2001 MAGASINS.Villes 2000 Dallas Lyon 1999 Toulouse C1 C2 C3 C4 PRODUITS.Classes Classes Catégories Desc_prod Années Id_P Mois PRODUITS Jours Dept_lib Desc_date Id_T Id_M VENTES Montant Bénéfice Villes Régions MAGASINS TEMPS Dept_num RaisonSo Atelier MADSI (INFORSID 2008)
Contexte Sujets des 2 publications • Exemple d’analyse multidimensionnelle • De l’analyse numérique… • Vers l’analyse non numérique Nombre de publications par auteur Sujet des publications Atelier MADSI (INFORSID 2008)
Objectifs Cadre de cette présentation • Démarche d’implantation de systèmes OLAP • Modèle multidimensionnel adapté • Approche mixte d’implantation • Outil CASE pour assister l’utilisateur Atelier MADSI (INFORSID 2008)
Modèle conceptuel • Introduction • Modèle conceptuel • Concepts • Exemple • Démarche • Conclusion Atelier MADSI (INFORSID 2008)
Modèle conceptuel • Données issues de documents • Structuration hiérarchique • Liens intra ou inter documents • Contenu : données textuelles • Méta données • Limite des modèles actuels [Ravat-07] • Non-analyse du contenu • Analyses prédéfinies • Difficultés pour identifier le sujet d’analyse Atelier MADSI (INFORSID 2008)
Modèle conceptuel • Galaxie: caractéristiques • Unique concept : une Dimension • Une dimension = un axe d’analyse • Une dimension = un sujet potentiel d’analyse Atelier MADSI (INFORSID 2008)
Concepts • Dimension Di=(ADi, HDi, IDi, IStarDi) • ADi = ensemble d’attributs • HDi = ensemble de hiérarchies • IDi = ensemble d’instances • IStarDi = fonctions associant les instances ensemble Atelier MADSI (INFORSID 2008)
Concepts • Dimension Di=(ADi, HDi, IDi, IStarDi) • ADi = ensemble d’attributs • HDi = ensemble de hiérarchies • Hiérarchies Hi=(ParamHi, WeakHi) • ParamHi = liste ordonnée de paramètres • WeakHi = association des attributs faibles Paramètre = niveau de granularité d’analyse Attribut Faible = complément sémantique d’un paramètre Atelier MADSI (INFORSID 2008)
Concepts Exemple d’instance d’auteur • Dimension Di=(ADi, HDi, IDi, IStarDi) • ADi = ensemble d’attributs • HDi = ensemble de hiérarchies • IDi = ensemble d’instances • IStarDi = fonctions d’association des instances Atelier MADSI (INFORSID 2008)
Concepts • Galaxie G=(DG, StarG, LkG) • DG = ensemble de dimensions • StarG = fonction associant les dimensions • LkG = ensemble de fonctions représentant les liens intra ou inter documents Atelier MADSI (INFORSID 2008)
Exemple • Analyse d’articles scientifiques et de projets Atelier MADSI (INFORSID 2008)
Démarche • Introduction • Modèle conceptuel • Démarche • Phase 1 : Analyse • Phase 2 : Confrontation • Phase 3 : Résolution de conflits • Phase 4 : Implantation • Conclusion Atelier MADSI (INFORSID 2008)
Démarche • Positionnement Comment passer des documents à une galaxie? Atelier MADSI (INFORSID 2008)
Démarche • État de l’art : conception de systèmes OLAP • Approches ascendantes [Golfarelli-98]… • Prise en compte des sources de données • Ignore les besoins utilisateurs • Approches descendantes [Kimball-96]… • Prise en compte des besoins utilisateurs • Ignore les sources de données • Approches mixtes [Bonifati-01]… • Prise en comptes des sources et des besoins • Nécessite une phase de confrontation Atelier MADSI (INFORSID 2008)
Phase 1 : Analyse • Analyse concurrente des sources et des besoins utilisateurs Atelier MADSI (INFORSID 2008)
Phase 1 : Analyse • Spécification des besoins • Identification des attributs (dictionnaire) • Spécification d’une matrice des besoins • Identification des nœuds • Regroupement/hiérarchisation des attributs en dimensions Atelier MADSI (INFORSID 2008)
Phase 1 : Analyse • Analyse des sources • Identifier • Contenu • Structure du contenu • Méta données Atelier MADSI (INFORSID 2008)
Phase 2 : confrontation • Confrontation,comparaison et détection d’incompatibilités Atelier MADSI (INFORSID 2008)
Phase 2 : confrontation • Phase de comparaison et d’association • Schéma en galaxie convertie en une DTD • Extraction de la DTD source • Association des éléments compatibles entre eux Atelier MADSI (INFORSID 2008)
Phase 2 : confrontation • Phase de comparaison et d’association Incompatibilités Atelier MADSI (INFORSID 2008)
Phase 3 & 4 • Résolution de conflits et implantation Atelier MADSI (INFORSID 2008)
Phase 4 : Implantation Atelier MADSI (INFORSID 2008)
Conclusion • Introduction • Modèle conceptuel • Démarche • Conclusion • Résumé • Perspectives Atelier MADSI (INFORSID 2008)
Conclusion • Résumé • Modèle en Galaxie • Démarche mixte en 4 phases • Analyse des besoins utilisateur / sources • Confrontation / comparaison • Résolution des conflits • Implantation • Perspectives • Intégration de sources hétérogènes (différentes DTD) • Vers une automatisation de la confrontation… Atelier MADSI (INFORSID 2008)
- • MERCI Atelier MADSI (INFORSID) Mai 2007, Présentation : Olivier Teste / Ronan Tournier SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données IRIT, Institut de Recherche en Informatique de Toulouse Université de Toulouse (UT1 & UT3) Atelier MADSI (INFORSID 2008)
Architecture Générale • 4 niveaux Outil d’aide à la conception Atelier MADSI (INFORSID 2008)
Phase 4 : Implantation Atelier MADSI (INFORSID 2008)