280 likes | 575 Views
DATA WAREHOUSE - DATA MINING. Motivations et architecture Le multidimensionnel Le data mining La recherche de règles associatives Conclusion. 1. OLTP versus OLAP. 15. 10. 5. 0. 1994. 1995. 1996. 1997. 1998. 1999. Explosion de l ’OLAP. Facteurs économiques & technologiques.
E N D
DATA WAREHOUSE - DATA MINING • Motivations et architecture • Le multidimensionnel • Le data mining • La recherche de règles associatives • Conclusion
15 10 5 0 1994 1995 1996 1997 1998 1999 Explosion de l ’OLAP • Facteurs économiques & technologiques Milliards de $ Années
Motivations des entreprises • Besoin des entreprises • accéder à toutes les données de l’entreprise • regrouper les informations disséminées dans les bases • analyser et prendre des décisions rapidement (OLAP) • Exemples d'applications concernées • Bancaire : suivi des clients, gestion de portefeuilles • mailing ciblés pour le marketing • Grande distribution : marketing, maintenance, ... • produits à succès, modes, habitudes d’achat • préférences par secteurs géographiques • Télécommunications : pannes, fraudes, mobiles, ... • classification des clients, détection fraudes, fuites de clients, etc. • Médecine, Pharmacie, Bourse, Production, …
L'approche entrepôt de données • Datawarehouse • Ensemble de données historisées variant dans le temps, organisé par sujets, consolidé dans une base de données unique, géré dans un environnement de stockage particulier, aidant à la prise de décision dans l’entreprise. • Trois fonctions essentiels : • collecte de données de bases existantes et chargement • gestion des données dans l’entrepôt • analyse de données pour la prise de décision
Architecture type Présentation Datawarehouse Analyse Exploration Client décisionnel Client décisionnel BD Entrepôt Médiateur Transformation, Fusion Extraction, Filtrage Moniteur/Adapteur Moniteur/Adapteur Moniteur/Adapteur Source BD Source Données opérationnelles BD source Données externes BD légataires
Datamart (Magasin de données) • sous-ensemble de données extrait du datawarehouse et ciblé sur un sujet unique • Bases • multidimensionnelles Data Warehouse Bases de production Data Marts SGBD relationnel Outils d ’extraction Outils d’alimentation • Bases • relationnelles Bases externes
Bilan Entrepôt • Le datawarehouse regroupe, historise, résume les données de l ’entreprise • Le concepteur définit schéma exportés et intégrés • des choix fondamentaux ! • Ciblage essentiel ! • Le datamart c’est plus ciblé et plus petit. • Questions ? • Peut-on ajouter des données au niveau de l ’entrepôt ?
2. Modélisation multidimensionnelle • Dimensions: • Temps • Géographie • Produits • Clients • Canaux de ventes..... • Indicateurs: • Nombre d’unités vendues • CA • Coût • Marge.....
Le data cube et les dimensions Axe d'analyse: La géographie (Pays - région - ville) Variables analysées: Nb unités, CA, marge... Axe d'analyse: Les produits (classe, produit) Axes d'analyse: dimensions Variables analysées: indicateurs Axe d'analyse: Le temps (Année, trimestre, mois, semaine)
La granularité des dimensions Années Jours Temps Mois Trimestres Géographie Villes Régions Pays Produits Numéros Types Gammes Marques
France Est Sud Ouest Lyon Marseille Nice La navigation multidimensionnelle Projection en 2 dimensions Coupe d ’un cube Produits Produits pour une région donnée CA CA Région Temps en semaines Réduction selon 1 dimension Zoom selon une dimension Produits CA Temps en mois
NumPro, NumFou, Date NumPro, NumFou NumPro, Date NumFou, Date Date NumPro NumFou Les vues d'un cube • Partant d'un cube 3D, il est possible d'agréger selon une dimension tournante • On obtient un treillis de vues (calculable en SQL)
ROLAP versus MROLAP SQL+Cube SQL+Cube Opérateurs décisionnels Cache Cube Analyseur Optimiseur SQL Analyseur Optimiseur Opérateurs décisionnels Opérateurs relationnels Opérateurs relationnels Cache SGBD Cache SGBD SGBD ROLAP SGBD MROLAP
Bilan OLAP • La modélisation multidimensionnelle est adaptée à l ’analyse de données • Le datacube est au centre du processus décisionnel • transformation et visualisation 3D • une algèbre du cube : • Slice, Dice, Rollup, Drilldown • Questions ? • Combien de datacubes à partir de N variables ?
3. Qu ’est-ce-que le data mining ? • Data mining • ensembles de techniques d'exploration de données afin d'en tirer des connaissances (la substantifique moelle) sous forme de modèles présentées à l ’utilisateur averti pour examen • Connaissances • analyses (distribution du trafic en fonction de l ’heure) • scores (fidélité d ’un client), classes (mauvais payeurs) • règles (si facture > 10000 alors départ à 70%) Données entrepôt Connaissances Data mining Découverte de modèles Compréhension Prédiction
Domaines d'utilisation • De plus en plus de domaines • explosion des données historisées • puissance des machines support • Quelques domaines réputés • Analyse de risque (Assurance) • Marketing • Grande distribution • Médecine, Pharmacie • Analyse financière • Gestion de stocks • Maintenance • Contrôle de qualité
Mécanismes de base • Déduction : base des systèmes experts • schéma logique permettant de déduire un théorème à partir d'axiomes • le résultat est sûr, mais la méthode nécessite la connaissance de règles • Induction : base du data mining • méthode permettant de tirer des conclusions à partir d'une série de faits • généralisation un peu abusive • indicateurs de confiance permettant la pondération
Découverte de modèles • Description ou prédiction • Apprentissage sur la base • Utilisation pour prédire le futur • Exemple : régression linéaire Y = a X + B Confiance Entrées Sortie
Principales Techniques • Analyse statistique • régression linéaire • régression logistique • réseaux baysiens • Découverte de modèles fonctionnels • fonctions probabilistes • réseaux de neurones • Segmentation • K-moyennes • Raisonnement à base de cas • Classification • arbres de décision • réseaux d'agents
Règles associatives • La découverte de règles • découverte de relations plus fines entre données • du style si X alors Y • si Achat(Vin) alors Achat(Boursin) (10%, 15%) • su Achat(Pain) & Achat(Fromage) alors Achat(Vin) (70%, 80%) • Support : probabilité absolue P(XY) • |XY|/ |BD| = % de transactions vérifiant la règle • Confiance : probabilité conditionnelle P(Y/X) • |XY|/|X| = % de transactions vérifiant l'implication = sup(XY) / sup(X) • Comment extraire les règles intéressantes ? • exemple : Supp.> 0.1 et Conf.> 0.7 • comment optimiser les calculs d'indicateurs sur des VLDB?
Recherche des règles intéressantes • Nécessité de calculer les supports • de tous les produits => 1-ensemble fréquent • de tous les ensembles suceptibles d ’être fréquents • La confiance se déduit du support • conf (X-->Y) = suup(X) / sup(XY) • Un ensemble de taille k est appelé un k-ensemble. • Un ensemble de support plus grand que minsup est fréquent. • Tout k-ensemble fréquent est composé de (k-1)-ensembles fréquents • en effet, un ensemble ne peut être fréquent si ses sous-ensembles ne le sont pas
Comment évaluer efficacement ? • Réduire le nombre de passes (I/O) • Réduire le temps CPU • Nombreux algorithmes • Apriori [Agrawal & Imielinski & Swami] • Apriori-tid [Agrawal & Srikant] • Partition[Savasete & Omseinski & Navatgr] • Dynamic Counting [Brin & Ullman & Tsur] • Bitmap [Gardarin & Pucheral & Fei] • ...
Des règles plus générales • Les règles multi-attributs : • associent des valeurs d'attributs distincts • telephone : Source = "New-York" => Cible ="Paris" (5%,30%) • Les règles à attributs numériques : • règles de la forme A[x,y] => C ou A est un attribut numérique et C une condition : il faut trouver x et y. • exemple Age [x,y] => Salaire > 300 KF (5%,30%) x? y? • Les règles négatives et/ou disjonctives : • Expr(Ci) => Expr(Cj) avec ET, OU, NOT • Les règles avec généralisation • associée à une taxonomie
Les règles cycliques • Les règles cycliques : • règles vérifiées périodiquement • ex : tout les matins, café => sucre, gâteaux • X=>Ycycle (l,o) signifie que X=>Y tous les l unités de temps en commençant au temps o. • Les patterns séquentiels : • séquence d’items • similaire aux règles associatives mais l’ordre est important • exemple : achat de chaussures, puis de pantalons, puis de chemises
5. Conclusion • De nombreuses techniques d'exploration • La plupart ne passe pas à l'échelle • limitées à quelques milliers d ’objets • échantillonner puis valider • Un bon outil doit proposer plusieurs techniques ! • Les problèmes : • Comment explorer de volumineuses bases de données ? • L’index bitmap est intéressant pour les règles associatives • Trouver d ’autres structures d ’indexation • Maintenance incrémental des règles ? • Exploration de types de données complexes ? • Parallélisation des algorithmes ?
Quelques produits • DataMind de Datamind SA • classification, modèles fonctionnels (agents), statistiques • Knowledge Seeker d'Angoss • statistiques, classification, arbres de décision • SPSS Chaid et Neural Connection de SPSS • statistiques, classification, réseaux de neurones • MineSet de Silicon Graphics • classification, visualisation de règles • SAS de SAS • Statistiques, arbres de décision, réseaux de neurones • Intelligent Miner d'IBM, Clementine de Integral Solutions...
Les Data Trucs • Database • Datawarehouse • entrepôt des données historisées de l'entreprise • Datamart • magasin de données ciblé sur un ou plusieurs sujets • Data mining • exploration des données afin de découvrir des connaissances • Datacube • cube de présentation d'unités selon 3 dimensions • Datawebhouse • entrepôt des données collectées sur le web