610 likes | 796 Views
Fouille de données complexes. Karine Zeitouni Master COSY – Université de Versailles Saint-Quentin Edition 2005-2006 En ligne sur : http://www.prism.uvsq.fr/users/karima/DM. Introduction. De plus en plus d’entrepôts de données sont ou seront créés Raisons principales :
E N D
Fouille de données complexes Karine Zeitouni Master COSY – Université de Versailles Saint-Quentin Edition 2005-2006 En ligne sur : http://www.prism.uvsq.fr/users/karima/DM
Introduction • De plus en plus d’entrepôts de donnéessont ou seront créés • Raisons principales : • Le tout numérique dans l’entreprise génère des données à entreposer • échange et recherche de données facilités (via Internet) • capteurs et numérisations de toute sorte (librairies digitales) • Explosion des données multimédias • SIG / Télédétection (données cartographiques, données satellitales) • agence de photo de presses • CAO, Bio-informatique, imagerie médicales (données techniques) • finance (cours des actions= séries temporelles) • GED (documents, emails) • vidéo, … Cours M2 COSY - Fouille de données complexes
Plan • Fouille de données spatiales • Les Bases de données spatiales • Méthodes de la FDS • Fouille de données textuelles • Fouille de données séquentielles Cours M2 COSY - Fouille de données complexes
Définition d’une BD spatiale • Ensemble organisé d’objets géographiques : • Chaque objet est une association d'une description qualitative ou quantitative et d’une localisation spatiale • Gérée au sein d’un SIG • Organisée en couches thématiques • Ex : découpage administratif, Réseaux routier, Cadastre, POS, Topographie (courbes de niveau)... Cours M2 COSY - Fouille de données complexes
Interface graphique Cours M2 COSY - Fouille de données complexes
Parallèle relationnel – Spatial (1) • Parallèle entre Thème et table: • Un thème peut être vu comme une table avec un attribut de localisation Table Id_route 1 2 3 Nom_route Av. Morane Saulnier Rue Dewoitine Av. Europe TypeSurface Goudronnée Goudronnée Goudronnée Localisation Nb_voies 4 3 1 Cours M2 COSY - Fouille de données complexes
Parallèle relationnel – Spatial (2) select c.nom, c.loc from commune c where c.population > 10000 • Requêtes spatiales • Sélection • Ville de plus de 10 000 • Sélection spatiale • Accès aux objets situés dans une fenêtre donnée • Accès par relation à un objet • Communes au bord de le N10 • Jointure spatiale • Zones d’intersection des communes et des forêts (map overlay) • Agrégation • Fusion des communes par département select c.nom, c.loc from commune c where Intersecte (c.loc, Rectangle(xmin,ymin,xmax,ymax)) select c.* from commune c, route r where r.nom = 'N10' and adjacent(c.loc, r.loc) select c.nom, f.nom, Intersection (c.loc, f.loc) from commune c, foret f where Intersecte (c.loc, f.loc) select departement, fusion (loc) from commune group by departement Cours M2 COSY - Fouille de données complexes
Parallèle relationnel – Spatial (3) • Cette comparaison montre que : • les SGBD Géographiques sont spécifiques, • mais ils peuvent être vus comme une extension des SGBD relationnels Cours M2 COSY - Fouille de données complexes
Exemple d’Oracle spatial • Niveau de fiabilité supérieur à celui des simples fichiers (sécurité d’accès, intégrité transactionnelle…) • Intégration des données géo-spatiales dans un SGBD: =>utilisation beaucoup plus efficace des données =>garantie de l’universalité et de l’interopérabilité - conforme aux normes (OpenGIS, ISO, …) =>requêtes combinées aux informations géo-spatiales et classiques - dans un langage SQL (familier aux développeurs) Cours M2 COSY - Fouille de données complexes
Problème type Dr. John Snow découvre la cause probable des cas de choléra Cours M2 COSY - Fouille de données complexes
Autre application - Analyse de l’accidentologie routière • Vise à décrire et expliquer le risque routier par : • la description des accidents inventoriés • leur contexte géographique Accidents inventoriés Fouille de Cartes et Voirie Données connaissances extraites Spatiales Activités ... Cours M2 COSY - Fouille de données complexes
Applications décisionnelles : Analyse spatiale de phénomènes localisés : risque routier, épidémiologie, criminologie, pollution, … FDS versus Analyse spatiale Fouille de données spatiales versus Analyse spatiale Cours M2 COSY - Fouille de données complexes
FD « classique » Batterie de méthodes exploratoires Pas de raisonnement spatial BD spatiales Requêtes avec critères spatiaux Pas d’analyse exploratoires Fouille de données spatiales versus Fouille de données classique • Fouille de données spatiales • Intègre les techniques de BDS et de FD • Explore les données et les relations spatiales d ’une BDS Cours M2 COSY - Fouille de données complexes
Fouille de données spatiales - Définition • Découverte de connaissances implicites depuis une BDS • toute propriété, règle ou régularité • impliquant les objets de la BD spatiales et/ou les objets avoisinants et leurs relations spatiales • Principales méthodes : • Statistiques spatiales • Clustering • Règles d’association • Classification Cours M2 COSY - Fouille de données complexes
Statistiques spatiales • Analyse globale - Mesure d’auto-corrélation spatiale d’une variable • Indice global (par carte) de Moran et Geary (en 1945 et 54) • Analyse locale - Indice local d’associations spatiales (LISA) [Anselin 90] • Particularités au niveau local => met en évidence les données atypiques • utilise une matrice de voisinage binaire ou pondérée (wij) • quantifie la contribution individuelle de chaque lieu à l’indice global Cours M2 COSY - Fouille de données complexes
Application aux sections • Vert : moins corrélé que la moyenne globale • Rouge : plus corrélé que l’indice global • Jaune: comme l’indice global • Blanc : tronçons sans calcul (pas d’accidents) Cours M2 COSY - Fouille de données complexes
Application aux régions Autocorrélation locale du nombre de blessés Cours M2 COSY - Fouille de données complexes
Problèmes engendrés • Problème 1: Les données spatiales sont liées • Les méthodes de FD supposent les données indépendantes • Problème 2: Les relations spatiales sont implicites • Non stockées dans la BD • Leur calcul nécessite des jointures coûteuses • Leur intégration dans l’analyse est coûteuse • Problème 3: Les relations spatiales sont multiples • Topologiques (adjacence, intersection, …) ou métriques (distance) • Le choix de la bonne relation spatiale est difficile Cours M2 COSY - Fouille de données complexes
Clustering • Groupage d’objets similaires / séparation dissimilaires • Similarité en spatial = distance euclidienne • Utilisé moins pour classer que pour découvrir des concentrations ou des points chauds • ex: criminologie, épidémiologie, accidents • Méthodes en spatial : • orientés perf. : CLARANS, DBSCAN, ... • sur spatial & attributs : GDBSCAN, Neighborhood EM [Govaert] • évitement obstacle : COE-CLARANS [Han] • Concentration atypiques : machine GAM [Openshaw] Cours M2 COSY - Fouille de données complexes
Clustering spatial sous contraintes • Problème : • Trouver des regroupements qui respectent des contraintes et des obstacles physiques • Contraintes physiques « COE-CLARANS » [Tung ICDT’01] • Ex: installation de réseaux ATM doit tenir compte des obstacles géographiques (rivière, pont, etc.) • Solution: calculer la distance entre p et q en considérant les obstacles Cours M2 COSY - Fouille de données complexes
Exemple avec la machine GAM : caractériser les accidents de nuit/ WE Localisations des accidents de nuit WE en rouge Recherche de concentrations spatiales locales atypiques Cours M2 COSY - Fouille de données complexes
Clustering sous Oracle 10g But: Trouver les zones de concentration de criminologie. Moyen: Grouper les données spatiales dans une table spécifiée USBG_high_crimes 1. Définir high_crimes>150 Create Table USBG_high_crimes As Select* From USBG_data Where CrimeIndex>150 2. Appliquer la méthode de clustering (k=4) Select geometry From Table(sdo_sam.spatial_cluster(‘USBG_high_crimes’,’geom’,4)) Cours M2 COSY - Fouille de données complexes
Clustering sous Oracle 10g Visualiser les clusters par Oracle MapViewer USBG_data en jaune, partie crimes élevés en bleu foncé et clusters en bleu transparent Cours M2 COSY - Fouille de données complexes
Règles d’associations spatiales • Règle d’association multi-dimensionnelle • Sur une table (attributs x Valeurs) en remplaçant les valeurs d ’"articles" d'une transaction par les valeurs d’attributs "A1^A2...^Am => B1^...^Bn"avec support et confiance où Ai et Bj sont des valeurs d'attributs • Sur des données spatiales idem + Rel° spatiales => idem + Rel° spatiales ce qui revient à trouver des associations entre des propriétés des objets et celles de leurs "voisins" Cours M2 COSY - Fouille de données complexes
Exemple station_service ^ dans (zone_rurale) -> proche (autoroute) (25%, 80%) exprime que les stations service en zone rurales sont près des autoroutes, • à 80% (confiance) • et que ces stations forment 25% (support) des stations inventoriées. • Variantes • Thème de référence [Koperski] • Règle de co-localisation quelconque [Shashi] Cours M2 COSY - Fouille de données complexes
Co-localisation • Sous ensemble d’objets spatiaux fréquemment situés ensemble Cours M2 COSY - Fouille de données complexes
Arbre de décision spatial • Rappel • Règles de classement pour expliquer une variable « classe » par des variables explicatives. • En FDS Les propriétés du voisinage peuvent être explicatives • Exemple : classer les accidents selon 3 classes d’impliqués (piéton, 2 roues, véhicules) selon les propriétés des accidents et des objets voisins • Découvre des liens cachés avec certains types de voisins et les illustrer sur la carte. Cours M2 COSY - Fouille de données complexes
Exemple – Spatial CART Cours M2 COSY - Fouille de données complexes
Approches proposées FD spatiales Index de Jointure Spatial Etape 1 FD multi-tables Adapter les données aux algos existants Etendre les algorithmes au multi-tables Prendre en compte la duplication des objets Etape 2 Algos ILP CROISEMENT algorithme classique Programme logique Connaissances Connaissances Cours M2 COSY - Fouille de données complexes
Approche préconisée par Oracle 10g Cours M2 COSY - Fouille de données complexes
Index de jointure spatiale? • Structure secondaire qui matérialise et codifie les relations spatiales An ….. Id ID1 Relation spatiale ID2 Id …. Bn …. 01 ….. 12 01 ….. …. 01 60 02 …. …. 02 43 …. 02 …. 45 … … ….. … … ….. ….. ……. …… … … ….. …… … ……. … ….. ….. …. ….. ……. …. ….. ….. ….. … … 99 99 … … 99 53 75 Thème 1 Index de jointure spatiale Thème 2 Cours M2 COSY - Fouille de données complexes
La FD classique est mono-table • Représentation des données en FD classique 1 table unique Valeurs atomiques 1 exemple d’apprentissage par ligne Cours M2 COSY - Fouille de données complexes
Bâtiment IndexJS Accident ID Libelle ID1 ID2 Dist ID1 Date Impliqué … An 01 Ecole 01 12/03/03 Piéton … an1 01 01 10 02 Ecole 02 10/04/03 2 roues … An2 01 02 55 03 Marché 02 01 75 02 03 20 Opérateur CROISEMENT Transformation préalable Cours M2 COSY - Fouille de données complexes
Conclusion sur la FDS • La fouille de données spatiales = prolongement de la fouille de données • Tient compte des interactions dans l’espace • La préparation des données peut changer la donne ? • FD spatiale FD multi-tables grâce aux index de jointures spatiales FD classique grâce à l’opérateur • C’est souvent le cas d’autres objets complexes : • Fouille de texte FD par transformation en vecteur de termes • Fouille d’images FD sur descripteurs Cours M2 COSY - Fouille de données complexes
Fouille de textes • Croissance phénoménale de données textuelles • Documents sur Internet, mail, rapports, … • Besoin d’automatiser leur recherche et leur classement • Comment faire supporter à la machine le traitement rapide du langage naturel ? • Techniques d’Analyse du Langage Naturel (TALN): • Extraction d’éléments du langage : nom propres (personne, lieu, société) • Utilise les règles de grammaire et des patrons linguistiques, des thésaurus (synonymes et hiérarchies de termes) ou des ontologies (règles en plus) • Fouille de textes (si grand nombre de textes) • Clustering de texte • Classification (catégorisation) • Associations de termes Cours M2 COSY - Fouille de données complexes
Fouille de texte versus fouille de données Cours M2 COSY - Fouille de données complexes
sport textes Moteur de Catégorisation culture santé politic economic vacances Classification de documents • Principe • Classification (par apprentissage) de textes dans 1 ou plusieurs catégories • Application en e-commerce : • Relier une description de produit en texte libre à une classe de produits. • Application web: • les sites tels que Yahoo constituent une exellente base d’apprentissage, car les catégories y ont été générées manuellement. Sert à générer un classifieur pour classer les prochains documents. • Ces classes peuvent servir comme balises sémantiques Cours M2 COSY - Fouille de données complexes
Site organisé par catégorie Cours M2 COSY - Fouille de données complexes
Processus global de catégorisation Termes uniques présents dans les documents Documents d’apprentissage Sélection des termes pré-traitement Termes uniques Dictionnaire document Représentation Vecteurs des documents Vecteur des documents Calcul des similarités Apprentissage Calcul des scores des catégories catégories affectées k proches voisins Catégorisation Cours M2 COSY - Fouille de données complexes
Document: doc Tokenizing Removing stop words Stemming words* Calculating term frequency stoppedTermsTF StemmedTermsTF* Prétraitement des documents Génère des données de type: (docID, (term, term frequency)*) Cours M2 COSY - Fouille de données complexes
Ex: Stop-words (mots chevilles) • Liste de mots (ex. ceux listés par Oracle text) sont les 200 suivants : a , beaucoup, comment, encore, lequel, moyennant, près, ses, toujours, afin, ça, concernant, entre, les, ne, puis, sien, tous, ailleurs, ce, dans, et, lesquelles, ni, puisque, sienne, toute, ainsi, ceci, de, étaient, lesquels, non, quand, siennes, toutes, alors, cela, dedans, était, leur, nos, quant, siens, très, après, celle, dehors, étant, leurs, notamment, que, soi, trop, attendant, celles, déjà, etc, lors, notre, quel, soi-même, tu, au, celui, delà, eux, lorsque, notres, quelle, soit, un, aucun, cependant, depuis, furent, lui, nôtre, quelqu’un, sont, une, aucune, certain, des, grâce, ma, nôtres, quelqu’une, suis, vos, au-dessous, certaine, desquelles, hormis, mais, nous, quelque, sur, votre, au-dessus, certaines, desquels, hors, malgré, nulle, quelques-unes, ta, vôtre, auprès, certains, dessus, ici, me, nulles, quelques-uns, tandis, vôtres, auquel, ces, dès, il, même, on, quels, tant, vous, aussi, cet, donc, ils, mêmes, ou, qui, te, vu, aussitôt, cette, donné, jadis, mes, où, quiconque, telle, y, autant, ceux, dont, je, mien, par, quoi, telles, autour, chacun, du, jusqu, mienne, parce, quoique, tes, aux, chacune, duquel, jusque, miennes, parmi, sa, tienne, auxquelles, chaque, durant, la, miens, plus, sans, tiennes, auxquels, chez, elle, laquelle, moins, plusieurs, sauf, tiens, avec, combien, elles, là, moment, pour, se, toi, à, comme, en, le, mon, pourquoi, selon, ton. Cours M2 COSY - Fouille de données complexes
t1 t2 tT w11 w12 w1T w21 w22 w2T wN1 wN2 wNT d1 d2 dN Représentation des documents et Mesure de similarité • Représentation des documents • Vecteurs de document • ou matrice Document x terme • Pondération (ex: tf-idf) • + Réduction de dimension Similarité : • Par le cosinus : Plus il est élevé (angle obtus) plus les documents sont similaires Cours M2 COSY - Fouille de données complexes
Pondération TF-IDF • TF-IDF signifie Term Frequency x Inverse Document Frequency : • Proposée par [Salton 1989], mesure l'importance d’un terme dans un document relativement à l’ensemble des documents. Avec: • tf i,j = fréquence du terme i dans le document j df i = nombre de documents du corpus contenant le terme iN = nombre de documents du corpus Cours M2 COSY - Fouille de données complexes
Évaluation de Performances • Ex. pour la catégorisation binaire (Y/N): • Mesures basés sur la table de contingences : • Rappel mesure la largeur de la catégorisation : ratio des documents bien classés par rapport à l’ensemble des documents appartenant réellement à la catégorie. r=a/(a+c) • Précision mesure la qualité de la catégorisation et correspond à la fraction des documents bien classés sur tous les documents affectés à la catégorie. p=a/(a+b) • F-mesure mesure le compromis entre r et p: F1=2r*p/(r+p) Cours M2 COSY - Fouille de données complexes
Utilisations • Panier de la ménagère en considérant l’historique des transactions des clients. • Le Web Usage Mining en considérant les succession des pages accédées par un même internaute. • Analyse de séquences ADN • Analyse de séquences d’événements quelconques : • Ex: Séquence d’activités de l’enquête «Ménages- Déplacements» • Différences avec les séries temporelles • Séries qualitatives et non numériques • Parfois série d’ensembles, série de données multi-variées, … Cours M2 COSY - Fouille de données complexes
Ex : Le Web Usage Mining • Le Weblog contient des informations richessur la dynamiquedu Web => Son analyse permet de cibler les utilisateurs (clients, marchés) potentiels • La recherche de régularités (séquences fréquentes de pages) permet : • D’ajuster la conception des pages et des liens et d’améliorer les performancesdes sites • Les associations de pages côté client permet d’optimiser le cache du navigateur, d’effectuer du « prefetching » • L’analyse de tendance (temporelle): • Indique les changements et la dynamique du web pour s’y adapter Cours M2 COSY - Fouille de données complexes