610 likes | 795 Views
Analyse en ligne (OLAP) de documents. Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par : Franck Ravat et Olivier Teste. Plan. Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives.
E N D
Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par : Franck Ravat et Olivier Teste
Plan • Introduction • Modèle conceptuel • Manipulations multidimensionnelles • Intégration de documents • Validation • Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
Contexte (1/6) • Les systèmes d’aide à la décision XML XML Cadre de la thèse Analyse en ligne (OLAP) de documents Décembre 2007
Contexte (2/6) • Analyse multidimensionnelle Analyse en ligne (OLAP) de documents Décembre 2007
Contexte (3/6) • Pourquoi se soucier des documents ? • Analyse en ligne sur données transactionnelles • Données transactionnelles: 20% des données d’un système d’information [Sullivan-01] & [Tseng-06] • 80% des données restent hors de portée • Mais • Systèmes OLAP: données numériques • Documents = données textuelles Analyse en ligne (OLAP) de documents Décembre 2007
Contexte (4/6) • XML: permet de structurer des documents • Extended Markup Language • Format de description • Possède une grammaire descriptive (DTD) • Permet de définir sa structure Analyse en ligne (OLAP) de documents Décembre 2007
Contexte (5/6) • XML: exemple de document • <These> • <Contenu> • <ChapitreTitre="Titre du chapitre 1"> • <SectionTitre="Titre de la section 1.1"> • <Paragraphe>Contenu…</Paragraphe> • <Paragraphe>Contenu …</Paragraphe> • </Section> • <SectionTitre="Titre de la section 1.2"> • … • </Section> • </Chapitre> • <ChapitreTitre="Titre du chapitre 2"> • … • </Chapitre> • </Contenu> • </These> Analyse en ligne (OLAP) de documents Décembre 2007
Contexte (6/6) Sujets des 2 publications • Analyse multidimensionnelle • De l’analyse numérique… • Vers l’analyse non numérique Nombre de publications par auteur Sujet des publications Analyse en ligne (OLAP) de documents Décembre 2007
Problématique • Mais • Comment analyser données textuelles ? • Comment représenter les structures ? • Comment alimenter ces structures ? • But : Analyser 100% des données d’un SI • Données transactionnelles • Documents XML Analyse en ligne (OLAP) de documents Décembre 2007
État de l’art (1/3) • Les systèmes d’aide à la décision XML XML XML Analyse en ligne (OLAP) de documents Décembre 2007
État de l’art (2/3) • Entrepôts et XML • Entrepôts de données XML [Oracle]… • Pas d’intégration de documents • Entrepôts de documents XML [Xylème]… • Pas destinés à l’analyse XML Analyse en ligne (OLAP) de documents Décembre 2007
État de l’art (2/3) • Magasins et XML • Intégration de données XML [Golfarelli-01]… • Données sources fortement structurées • Stockage XML multidimensionnel [Messaoud-06]… • Grande redondance dans les données XML Analyse en ligne (OLAP) de documents Décembre 2007
État de l’art (3/3) • Analyse et XML • Analyse de documents [McCabe-00]… • Repose sur des analyses numériques • Pas d’analyse du contenu • Pas d’exploitation de la structure • Pas de synthèse des informations textuelles XML Analyse en ligne (OLAP) de documents Décembre 2007
État de l’art (3/3) • Actuellement OLAP ne gère pas • Données textuelles • Structure • Contenu • Objectif : Analyse OLAP de documents Analyse en ligne (OLAP) de documents Décembre 2007
Plan • Introduction • Modèle conceptuel • Manipulations multidimensionnelles • Intégration de documents • Validation • Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
Modèle conceptuel (1/7) Analyse en ligne (OLAP) de documents Décembre 2007
Modèle conceptuel (2/7) • Données issues de documents • Structuration hiérarchique • Liens intra ou inter documents • Contenu : données textuelles • Méta données • Limite des modèles actuels [Cabibbo-00], [Abellò-06]… • Non-analyse du contenu • Analyses prédéfinies • Difficultés pour identifier le sujet d’analyse Analyse en ligne (OLAP) de documents Décembre 2007
Modèle conceptuel (3/7) • Galaxie: caractéristiques • Unique concept: une Dimension • Une dimension = un axe d’analyse • Une dimension = un sujet potentiel d’analyse Analyse en ligne (OLAP) de documents Décembre 2007
Modèle conceptuel (4/7) • Dimension Di=(ADi, HDi, IDi, IStarDi) • ADi = ensemble d’attributs • HDi = ensemble de hiérarchies • IDi = ensemble d’instances • IStarDi = fonctions associant les instances ensemble Analyse en ligne (OLAP) de documents Décembre 2007
Modèle conceptuel (5/7) • Dimension Di=(ADi, HDi, IDi, IStarDi) • ADi = ensemble d’attributs • HDi = ensemble de hiérarchies • Hiérarchies Hi=(ParamHi, WeakHi) • ParamHi = liste ordonnée de paramètres • WeakHi = association des attributs faibles Paramètre = niveau de granularité d’analyse Attribut Faible = complément sémantique d’un paramètre Analyse en ligne (OLAP) de documents Décembre 2007
Modèle conceptuel (6/7) Exemple d’instance d’auteur • Dimension Di=(ADi, HDi, IDi, IStarDi) • ADi = ensemble d’attributs • HDi = ensemble de hiérarchies • IDi = ensemble d’instances • IStarDi = fonctions d’association des instances Analyse en ligne (OLAP) de documents Décembre 2007
Modèle conceptuel (7/7) • Galaxie G=(DG, StarG, LkG) • DG = ensemble de dimensions • StarG = fonction associant les dimensions • LkG = ensemble de fonctions représentant les liens intra ou inter documents Analyse en ligne (OLAP) de documents Décembre 2007
Exemple • Analyse d’articles scientifiques et de projets Analyse en ligne (OLAP) de documents Décembre 2007
Plan • Introduction • Modèle conceptuel • Manipulations multidimensionnelles • Intégration de documents • Validation • Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
Fonction d’agrégation (1/6) AGREGATION Analyse en ligne (OLAP) de documents Décembre 2007
Fonction d’agrégation (2/6) • Principe d’agrégation • Exemple de somme Analyse en ligne (OLAP) de documents Décembre 2007
Fonction d’agrégation (3/6) • Problématique • Agréger des données textuelles • Reconstituer une règle d’agrégation • Règle d’agrégation: ontologie • Ontologie légère[Lassila-01] • Ontologie de domaine Analyse en ligne (OLAP) de documents Décembre 2007
Fonction d’agrégation (4/6) • Exemple d’ontologie (SI) Analyse en ligne (OLAP) de documents Décembre 2007
Fonction d’agrégation (5/6) • Exemple d’agrégation LCA (Design, Processing) = OLAP Distance (Design, Processing) = 3 D=1 D=3 Entrée { (Design, d=0), (Processing, d=0) } Sortie (OLAP, d=3) Analyse en ligne (OLAP) de documents Décembre 2007
Fonction d’agrégation (6/6) • Deux opérations de manipulation • LCA: plus petit ancêtre commun • Distance structurelle entre deux nœuds • AVG_KW : Processus d’agrégation • Remplacement de mots-clef le LCA • Problème: forte probabilité de retourner la racine • Contrôle de la perte de sémantique • Limiter l’agrégation (distance heuristique = 3) Analyse en ligne (OLAP) de documents Décembre 2007
Opérations de manipulation (1/6) MANIPULATION Analyse en ligne (OLAP) de documents Décembre 2007
Opérations de manipulation (2/6) • But: « Manipuler une galaxie » • Opérations OLAP • Liens pour naviguer au sein des données Analyse en ligne (OLAP) de documents Décembre 2007
Opérations de manipulation (3/6) • Opérations OLAP [Ravat-07e] revisitées • Focalisation • Restriction • Forage • Rotation Analyse en ligne (OLAP) de documents Décembre 2007
Opérations de manipulation (4/6) • Spécification d’une analyse: FOCUS Sélectionner : principaux mot-clefs des section d’articles par auteur, par année Analyse en ligne (OLAP) de documents Décembre 2007
Opérations de manipulation (4/6) • Spécification d’une analyse: FOCUS Sélectionner : principaux mot-clefs des section d’articles par auteur, par année Analyse en ligne (OLAP) de documents Décembre 2007
Opérations de manipulation (5/6) • Changement du niveau de détail: • Rotation Analyse en ligne (OLAP) de documents Décembre 2007
Opérations de manipulation (6/6) Auteur cité 3 fois dans une conférence • Exploitation des liens Nombre de fois qu’un auteur est cité Portée des travaux : Comment analyser le contexte des citations ? Context of the citations Analyse en ligne (OLAP) de documents Décembre 2007
Plan • Introduction • Modèle conceptuel • Manipulations multidimensionnelles • Intégration de documents • Validation • Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
Démarche d’intégration (1/5) Analyse en ligne (OLAP) de documents Décembre 2007
Démarche d’intégration (2/5) • Architecture: positionnement Comment passer des documents à une galaxie? Analyse en ligne (OLAP) de documents Décembre 2007
Démarche d’intégration (3/5) • Conceptions de BDM • Démarches ascendantes [Golfarelli-98]… • Démarches descendantes [Kimball-96]… • Démarches mixtes [Carneiro-02]… Analyse en ligne (OLAP) de documents Décembre 2007
Démarche d’intégration (4/5) • Étapes Analyse en ligne (OLAP) de documents Décembre 2007
Analyses concurrentes (1/3) • Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007
Analyses concurrentes (2/3) • Spécification des besoins • Identification des attributs • Spécification d’une matrice des besoins • Identification des nœuds • Regroupement des attributs en dimensions • Hiérarchisation des attributs au sein des dimensions Analyse en ligne (OLAP) de documents Décembre 2007
Analyses concurrentes (3/3) • Analyse des sources • Identifier • Contenu • Structure du contenu • Méta données Analyse en ligne (OLAP) de documents Décembre 2007
Confrontation (1/2) • Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007
Confrontation (2/2) • Phase d’association Incompatibilités Analyse en ligne (OLAP) de documents Décembre 2007
Enrichissement et chargement • Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007
Validation • Introduction • Modèle conceptuel • Manipulations multidimensionnelles • Intégration de documents • Validation • Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007
Architecture (1/3) • 4 niveaux Analyse en ligne (OLAP) de documents Décembre 2007