1.46k likes | 2.75k Views
Informatique décisionnelle. Introduction à l’informatique décisionnelle. MOHAMED HAMOU. mohamed.hamou@gmail.com. L’information. • Nouvelle ressource des entreprises du XXIème siècle • Avec le temps, les entreprises produisent et manipulent de très importants volumes de données
E N D
Informatique décisionnelle Introduction à l’informatique décisionnelle MOHAMED HAMOU mohamed.hamou@gmail.com
L’information • Nouvelle ressource des entreprises du XXIème siècle • Avec le temps, les entreprises produisent et manipulent de très importants volumes de données • Ces données sont stockées dans les systèmes opérationnels de l’entreprise au sein de bases de données
Motivations des entreprises • Besoin des entreprises – accéder à toutes les données de l’entreprise – regrouper les informations disséminées – analyser et prendre des décisions rapidement • Exemples d’applications concernées – Grande distribution : marketing, maintenance, … – Bancaire : suivi des clients, gestion de portefeuilles – Télécommunications : pannes, fraudes, mobiles, …
La prise de décision en entreprise • Une décision est le résultat d'un processus comportant le choix conscient entre plusieurs solutions, en vue d'atteindre un objectif. • L'efficacité des services d'une entreprise dépend de la qualité de ses décisions. – Améliorer l'habilité à prendre des décisions, c'est faire usage des ressources dont dispose l'entreprise.
Processus décisionnel Peut être découpé en cinq étapes • 1) Définir le problème • 2) Rassembler les faits et données • 3) Evaluer et interpréter les faits et données • 4) Etablir plusieurs solutions • 5) Décider (choisir une solution)
Informatique décisionnelle • La mise en place d’un système informatique décisionnelle a pour objectif de faciliter le décideur dans son processus de prise de décision. • L’informatique permet d’accélérer drastiquement le temps de rassemblement des faits et données et leur interprétation • C’est un ensemble d’outils qui ne remplace en aucun cas le décideur.
Système d’aide à la décision • L’objectif est toujours d’automatiser/fiabiliser les tâches répétitives
Architecture des systèmes décisionnels Extracteur Referentiel Entrepôt de données Integrateur Extracteur Extracteur Décideurs Sources
Entrepôt de données : définition Définition 1 (Goglin) : un entrepôt de données est un stockage intermédiaire de données issues des applications de production, dans lequel les utilisateurs finaux puisent avec des outils de restitution et d’analyse. Définition 2 (Bill Inmon) : Un entrepôt de données est une collection de données thématiques, intégrées, non volatiles et historisées organisées pour la prise de décision. Inmon et Codd sont considérés comme les auteurs du concept dans le début des années 90.
« Thématiques » • Thématique = "Orienté sujet " . • Orienté par thème et non plus par fonction. • Exemples : • Dans les bases de données opérationnelles : assurance vie, assurance automobile, paye, facturation. • Dans les bases de données décisionnelles : client, produit, réseau de distribution, médicament, marché, absences, réussite. • Ce côté est renforcé dans les magasins.
« Intégrées » • L’entrepôt n’est pas une concaténation des sources, les données sont sémantiquement intégrées. • Exemples : • Reconnaître qu’il s’agit de la même personne malgré un déménagement • Reconnaître qu’il s’agit du même produit malgré des codes barres différents • Remarque : très difficile, mais indispensable.
« Non volatiles, historisées » • Pas de suppressions. • Nécessité d’un référentiel de temps. • L’historisation permet • l’extrapolation, • la mesure de l’impact d’une décision par comparaison de la situation avant et après la mise en application de cette décision. • Exemple : • Suivi des évolutions des comportements des clients.
« Agrégées » • Niveau de granularité. • Exemple : • Stockage de tous les appels téléphoniques pour un client • APPEL_TELEPHONIQUE (n° client, horo-date, durée, correspondant, étranger, etc...) • (300 clients, 200 tuples par client, 60000 tuples d’appels). • Stockage agrégé par client sur 1 mois • APPEL_TELEPHONIQUE (n° client, mois, nombre d’appel, durée moyenne, nombres d’appels vers l’étranger) • (300 tuples d’appels).
« Prise de décision » • Les systèmes "opérationnels" (ou de " production ", ou de " gestion " ) sont dédiés aux métiers de l’entreprise pour les assister dans leurs tâches de gestion quotidiennes (et directement opérationnels). • ERP • Les systèmes " décisionnels " sont dédiés au management de l’entreprise pour l’aider au pilotage de l’activité (et indirectement opérationnels). • Ils offrent au décideur une vision transversale de l’entreprise. • DW
Exemples • Suivi du comportement de la clientèle dans les télécommunications • Nombre moyen d’heures par mois et par région, • répartition des appels clients sur la semaine, • Répartition des appels clients sur la journée, • nombre moyen d’appels représentant 20% d’une facture, • Durée moyenne d’une communication urbaine, • Durée moyenne d’une communication internationale. • Suivi du marché (lignes installées, désinstallées, services choisis, répartition géographique) • Comportement du réseau (pannes)
Exemples • Quel est le volume des ventes par produit, par région, pour le 3ième trimestre 2009 ? • Quel est le volume des ventes de produits laitiers, pour la région parisienne, par an, pour les 5 dernières années ? • Quel est le type de produits dont les ventes baissent constamment dans les 6 derniers mois de l’année en cours ? • Est-ce qu’une baisse de 10% ferait redémarrer les ventes de disques ?
Les sources de données • En général les "legacy systems", c'est-à-dire principalement les bases de données de production. • exemples : factures, fichier des nouveaux clients. • On extrait justement les données pour ne pas travailler directement sur les sources. • "Décisionnel et transactionnel ne font pas bon ménage ", • perturbations, • supports physiques différents, • outils et utilisateurs différents.
Les sources de données • Mais aussi des sources extérieures : • météo, • calendrier des jours fériés, • cours de la bourse, • Géographie (études épidémiologiques, accidents de la route), • études INSEE. • Vieilles sources.
L’extraction des données • a pour but d'extraire les données et de les mettre dans un format commun. • choisit d'extraire ce qui est nécessaire • on n'importe pas la totalité des sources, • satisfaire les "vues utilisateurs". • applique une stratégie de rafraîchissement • périodicité, • ou déclenchement.
L’extraction des données • 3 principales techniques : • Ecrire des interfaces entre les sources et l'entrepôt, • Exploiter les fonctionnalités de réplication offertes par les SGBD, • loader, triggers, passerelles, copies, logs, vues, etc … • Utiliser un outil ETL • génère les programmes d'alimentation, • peut gérer leur déroulement, • intégration de données.
L’intégration des données • Intégration des données dans l'entrepôt en résolvant les conflits entre les différentes sources d'information • codages, fautes d'orthographe, etc… • tables de conversion, etc …
L’intégration des données • Différence de codage: • sexe = M/F sexe = 1/2 • Différence d’unité • poids = 4000 poids = 4 • taille = 38 taille = 7 • Différence de granularité • heures travaillées = 35 heures travaillées = 150 • Différence de fraîcheur : • âge = 20 âge = 21 • Imprécision • poids = 54,2 poids = 54 • Erreur : • nom = « Clémentine » nom = « Clémentinne »
L’intégration des données • Différence de contenu dans les textes libres : • adresse = « Père Noël, cercle polaire, Rovaniemi, Finlande » • adresse = « cercle polaire, Rovaniemi, Finlande » • Différence d’expression dans les textes libres : • adresse = « 4 av. du gal Leclerc » • adresse = « 4 avenue du général Leclerc » • Différence linguistique de niveau de perception dans les textes libres : • couleur = « rouge » • couleur = « vermillon » • prescription = « antibiotique » • prescription = «pénicilline »
L’intégration des données • Exercice 1 Source 1 Source 2 Intégration ?
L’intégration des données • Exercice 2 Source 1 Source 2 Intégration ?
L’intégration des données • Exercice 3
Les méta-données • Les méta-données regroupent l'ensemble des informations concernant l'entrepôt et les processus associés. Destinées Aux utilisateurs SGBD Aux équipes et outils responsables du processus de transformation des données de production vers l'entrepôt.
Les méta-données 2 principales utilités Carte routière pour l'interrogation Utilisateurs Pour les algorithmes d'extraction, intégration, nettoyage, rafraîchissement, historisation, qualité. (localisation, règles de transformation, flux) Responsables des processus (équipes, outils) + méta-données habituelles (types, autorisations) SGBD
Les magasins • sous-ensemble de l’entrepôt, • temps d’accès réduits, volume réduit, coût réduit, • orienté vers un sujet particulier, • les données sont adaptées à une classe de décideurs ou à un usage particulier (ex: fortement agrégées, DM) • généralement modélisé sous forme multidimensionnelle, • nécessité de définir une stratégie d’extraction de l’entrepôt, • on peut avoir des sous-magasins.
Outils de restitution • sur les magasins, ou directement sur l’entrepôt, • requêtes SQL, SQL/OLAP • tableurs, • outils requêteurs spécialisés (outils de reporting), • progiciels spécialisés, • sortie web, • logiciels de datamining, • sortie système expert.
OLTP - OLAP OLTP : On-Line Transaction Processing Dans une base de données de type relationnelle, les données sont stockées sous formes de tables décomposées en colonnes et en lignes, chaque ligne représente un enregistrement de la base de données. OLAP : On-Line Analytic Processing OLAP est un terme pour décrire l'approche dimensionnelle de l'aide à la décision.
OLTP - OLAP • Le traitement des données en mode transactionnel (OLTP) est totalement différent du domaine des systèmes dimensionnels (OLAP). • Les systèmes diffèrent pour : – Les utilisateurs – Le contenu des données – Les structures, – L ’administration
Analyse multidimensionnelle • On rencontre plusieurs techniques d’analyse de données, l’analyse multi-dimensionnelle est particulièrement utilisée en informatique décisionnelle. • L’analyse multi-dimensionnelle permet d’analyser des mesures selon différents paramètres (multiples) qui peuvent avoir un effet sur celles-ci
Exemple • Une société désire construire une base de données pour suivre l'évolution de ses ventes par mois et par catégories de produits de ses différents magasins. • Pour chaque magasin, elle dispose d ’une table qui contient les ventes
Exemple • Pour analyser ces données, on peut par exemple placer les mois en ligne et les catégories en colonne. • Si l ’on veut comparer les ventes par rapport aux catégories, par magasin et par mois. Il devient difficile de dessiner un simple tableau. – On parle alors de cube
Le modèle multidimensionnel • Souvent appelé modèle OLAP (On Line Analytical Processing) (Codd, 1993). • Présenté comme une alternative au modèle relationnel. • Correspond mieux aux besoins du décideur. • "Orienté sujet". • " Cube" centré sur une activité. • Exemple : vente.
Les faits • Un cube relate un fait. L’activité est caractérisée par des faits qui se produisent (événements). • Exemples : • fait de vente, • fait de notation, • fait de passage de transaction boursière, • fait de consultation médicale, • fait de dépense dans un hôpital, • fait d’absence de cours, • fait de marquage de but, • fait de fréquentation d’un cinéma.
Les indicateurs • Les faits sont quantifiés par des indicateurs, également appelés"métriques", ou "mesures", ou "variables". Par exemple le fait de vente se caractérise par la quantité vendue et le montant de la vente. • Ce sont les cellules du cube. Les indicateurs représentent une quantité mesurable, un fait observé. • Chaque indicateur a une fonction d’agrégat (on peut les additionner, ou calculer le minimum, ou la moyenne). • Ils sont généralement numériques et additifs : • Le montant des vente est additif (se somme sur toutes les dimensions), le niveau du stock est semi-additif (se somme sur les produits, mais pas sur le temps), la moyenne de fréquentation est non additive.
Les indicateurs • Exemples : • CA par produit/agence/dans le temps, • coût moyen d’une hospitalisation par pathologie, • le nombre de visiteurs moyens dans un établissement, • taux d’occupation des lits, • nombre d’articles en stock, • satisfaction, • taux de remplissage des avions par vol, • temps d’attente moyen au supermarché, • nombre de connexions sur un site web, • durée des communications sur un site web.
Les indicateurs • Formule : On appelle "formule" une mesure non stockée, obtenue à partir des mesures stockées. • Exemples : prix moyen = total ventes / nombre vendu • Remarque : il existe des faits sans mesures, les "dummy measures" • Exemple : location d'une voiture, consultation à hôpital, réservation d'un livre. • L'agrégation sera le comptage des faits.
Les dimensions • Les "dimensions" sont les axes d'analyse. • Exemples : produits, temps, région, promotion, fournisseur, joueur, élève, hôpital. • Chaque dimension est associée à une hiérarchie. • Exemples : • continent -> pays -> région -> ville -> magasin • année -> trimestre -> mois -> jour • catégorie-> sous-catégorie -> produit
Produit clé_produit description marque catégorie sous_catégorie couleur taille Temps clé_temps heure jour semaine mois année férié événement Fait de Vente clé_temps clé_produit clé_magasin montant_ventes quantité_vendue Magasin clé_magasin adresse ville département secteur_vente surface Modélisation en étoiles
Sous_catégorie clé_sous_catégorie sous_catégorie catégorie Temps clé_temps heure jour semaine mois année férié événement Fait de Vente clé_temps clé_produit clé_magasin montant_ventes quantité_vendue Modélisation en flocons Produit clé_produit description marque clé_sous_catégorie couleur taille Magasin clé_magasin clé_localisation secteur_vente surface Localisation clé_localisation adresse ville département Les tables de dimension sont normalisées