640 likes | 782 Views
La fouille des flux d'informations. Yves Lechevallier, Alzennyr Da Silva, Fabrice Rossi INRIA-AxIS, France Francisco De Carvalho CIn-UFPE, Brésil Rosanna Verde, Antonio Balzanella SUN,Italie. Plan. Introduction/ Flux d’information Fouille de flux de données
E N D
La fouille des flux d'informations Yves Lechevallier, Alzennyr Da Silva, Fabrice Rossi INRIA-AxIS, France Francisco De Carvalho CIn-UFPE, Brésil Rosanna Verde, Antonio Balzanella SUN,Italie
Plan • Introduction/ Flux d’information • Fouille de flux de données • Classification de flux évolutifs • Extraction des données d’usage/ Web Mining • Classification de données évolutives • Détermination du nombre de classes • Conclusions AAFD 2010
Introduction / Flux d’informations Aujourd'hui, dans de nombreux domaines, d’énormes quantités de données sont recueillies du fait de la rapide croissance des moyens d'acquisition de ces données. Par exemple:Les opérations financières, les données du Web, les consommations d'électricité, les données des capteurs à distance Les méthodes d’analyse des flux d’informations doivent résoudre les deux contraintes suivantes : • l'ensemble des données ne peut pas être stocké; • les résultats des analyses doivent être rapidement disponibles. AAFD 2010
Définition d’un flux d’informations Un flux d’information est un échantillon de taille infinie d’unités de collecte zm=(tm,(xm,ym)) où • tm est l’instant de unité de collecte • xm est l’unité statistique ou l’étiquette de cette unité statistique • ym est le vecteur de description de cette unité de collecte xm est l’élément d’une population. On peut dire aussi que xm est un individu. AAFD 2010
Flux d’informations A partir de ce flux d’informations si la population est finie on peut construire un échantillon Y(xm) sur chaque unité statistique xm de cette population. Y(xm)=((tm1,(xm1,ym1)), …, (tmi,(xmi,ymi)), ..) avec xml=xm et l=1,…,i,… Y(xm) est un flux de données si l’ensemble des unités de collecte associées à cette unité statistique est un échantillon de taille infinie, sinon c’est une série temporelle. AAFD 2010
Plan • Introduction/ Flux d’information • Fouille de flux de données • Classification de flux évolutifs • Extraction des données d’usage/ Web Mining • Classification de données évolutives • Détermination du nombre de classes • Conclusions AAFD 2010
Flux de données Un flux est un ensemble d’observations dont les valeurs réelles sont ordonnées par une grille temporelle discrète. • Flux de données univarié • Flux de données multivariés • Multiples flux de données univariés AAFD 2010
Flux de données / Série temporelle L’échantillonnage de ce flux de données permet de modéliser ce flux par une série temporelle. Par exemple l’échantillonnage de Vitter permet de maintenir un échantillon de taille N sur ce flux de données. L’approche de Babcock permet de maintenir un échantillonnage intégrant une fonction d’oubli. AAFD 2010
Flux de données / fenêtre Découpage du flux en fenêtres disjointes { AAFD 2010
Fouille dans un flux de données L’objectif est d’extraire des connaissances à partir d’un flux de données, temporellement ordonné, et en évolution rapide; AAFD 2010
Fouille dans un flux de données Contraintes des flux sur les méthodes de fouille de donnés • Temps réduit pour le traitement de nouvelles observations • Utilisation de peu de mémoire • Un seul passage des données • Les connaissances sur ce flux doivent être disponible en permanence et/ou sur demande. AAFD 2010
Analyse d’un ensemble de flux de données Soit un ensemble de n flux de données où est un flux de données où les valeurs sont ordonnées par une discrète grille AAFD 2010
Plan • Introduction/ Flux d’information • Fouille de flux de données • Classification de flux évolutifs • Extraction des données d’usage/ Web Mining • Classification de données évolutives • Détermination du nombre de classes • Conclusions AAFD 2010
Classification d’un ensemble de flux de données • Trouver un ensemble de classes de flux de données homogènes formant une partition P=(C1,..,CK). • Chaque flux est affecté à une classe Ck • L’objectif est de maximiser l'homogénéité au sein de chaque classe et l'hétérogénéité entre ces classes. AAFD 2010
Classification de flux évolutifs Cette classification doit • contenir des résumés des données • permettre de découvrir la structure de regroupement au cours du temps • détecter les changements dans les proximités entre les flux au cours du temps • être capable de faire face à l'évolution des flux de données. AAFD 2010
Stratégie La stratégie de classification se décompose en trois étapes: On-line: • classification locale réalisée sur les fenêtres disjointes • Mise à jour de la matrice d’adjacence Off-line – à la demande des utilisateurs • Mise à jour de la partition en k classes de l’ensemble des flux de données. AAFD 2010
Classification locale Sur chaque fenêtre la méthode des Nuées Dynamique est appliquée et fourni les résultats suivants: - une partition locale des flux - un ensemble local des prototypes (résumés des flux dans cette fenêtre) Partition locale Prototypes C1 C2 C3 AAFD 2010
Mise à jour de la matrice A d’adjacence Pour chaque classe locale de la fenêtre courante: Sélectionner les paires (Yi,Yj) de flux classés dans la même classe locale. Pour chaque paire (Yi,Yj) ajouter la valeur 1 à A(i,j) et à A(j,i) de A. A(2,1)=A(2,1)+1 A(1,2)=A(1,2)+1 AAFD 2010
Mise à jour du graphe Les nœuds du graphe sont les flux Les éléments de la matrice d’adjacence représente les nombre d’arêtes liant les deux flux. A = MATRICE D’ADJACENCE GRAPH AAFD 2010
La partition globale A partir de cette matrice de proximités il est possible de construire une partition de cet ensemble de flux. Cette partition peut être obtenue par : • Une analyse (MDS) à partir de la matrice d’adjacence A • Puis faire K-means sur les coordonnées factorielles ou bien • Faire K-médoides ou une MDS sur la matrice des proximités AAFD 2010
Analyse multidimensionnelle MDS génère une représentation d’un ensemble de points dans un espace de dimension plus réduite Sachant que la matrice d’adjacence A représente une similarité entre deux flux. Il est facile de transformer cette similarité en distance par: D(i,l) = MAX(A) - A(i,l) AAFD 2010
K-means sur l’ensemble des projections des points dans cet espace réduit K-means donne une partition à partir de ces facteurs. AAFD 2010
Fournir des résultats au cours du temps La stratégie de classification proposée est également en mesure de fournir la structure de classification sur des intervalles de temps spécifiés par l’utilisateur. Requête de classification { w90 w91 w92 w93 w94 w95 w96 w97 w98 w99
Fournir des résultats au cours du temps A1 A3 La matrice d’adjacence A est stockée pour chaque fenêtre Fournir la classification dans l’intervalle de temps [32t ; 4t] Il faut calculer la matrice A(3,1) entre les matrices A1 et A3 par L’étape de classification off-line est appliquée sur cette matrice A(3,1)=A3-A1
Exemples Classification On line sur deux ensembles de données Données sur la fourniture d’électricité Données financières 76 séries chronologiques de Yahoo Finance, qui représentent le prix quotidien de clôture des actions ordinaires . 179 séries chronologiques qui représentent la fourniture en électricité à plusieurs endroits en Australie.
Validation interne Impact du nombre de classes locales sur deux indices de validation interne: Le nombre de classes dans les partitions locales n'a aucune influence sur les résultas de la classification finale en fonction des valeurs des deux indices (DB et CH)
Plan • Introduction/ Flux d’information • Fouille de flux de données • Classification de flux évolutifs • Extraction des données d’usage/ Web Mining • Classification de données évolutives • Détermination du nombre de classes • Conclusions AAFD 2010
Flux d’informations L’ensemble Y(xm) des unités de collecte associées à chaque unité statistique xm est fini. Les unités statistiques sont issues d’une population de taille infinie. Y(xm)=((tm1,(xm1,ym1)), …, (tmN,(xmN,ymN)) avec xml=xm et l=1,…,i,…N AAFD 2010
Quelques mots sur le Web Mining Se décline en trois domaines d’application : • Web Content Mining (contenu des documents) • Web Structure Mining (structure des documents) • Web Usage Mining (comportement des utilisateurs) Motivations pour le Web Usage Mining : • Cache « intelligent » • Personnalisation des pages • Reconception du site • « Comprendre » l’internaute AAFD 2010
Motivation • La plupart des méthodes du WUM (Web Usage Mining) prennent en compte toute la période qui enregistre les traces d’usage : • les résultats obtenus sont ceux qui prédominent sur la totalité de la période • Inconvénients : • certains types de comportements peuvent être ignorés par les méthodes classiques AAFD 2010
Objectif • Réaliser une analyse portant sur des sous-périodes significatives de temps : • identifier le changement de comportement des utilisateurs • étudier l’évolution temporelle des profils de ces utilisateurs • Utilisation des résumés pour représenter les profils AAFD 2010
Formatage des données d’usage Le clic est l’unité de collecte [remotehost] [name] [login] [date] [url] [status] [size] [referrer] [agent] • remotehost adresse électronique de l’utilisateur; cette adresse correspondant souvent au nom de domaine d’un serveur si l’utilisateur est connecté à internet via un fournisseur d’accès ou une entreprise • name/loginsupposent que l’utilisateur se soit lui-même identifié • datedate et heure précises de réception de la requête • URLadresse de la page visitée sur le site (www.<…>) • statuscode retour qui indique si l’action s’est bien déroulée • size indique la taille du fichier retourné • referrersignale l’adresse de laquelle a effectué la requête, la page de provenance • agentle navigateur et le type de système d’exploitation de l’utilisateur AAFD 2010
Prétraitement de données Structuration et transformation des données (clic, session, navigation, url, etc.) Stockage de ces informations dans un entrepôt de données Tanasa & Trousse (Advanced Data Preprocessing for Intersites Web Usage Mining, IEEE Intelligent Systems, vol. 19, n° 2, pp. 56-65, April 2004) Tanasa’s Thesis (2005) AAFD 2010
Plan • Introduction/ Flux d’information • Fouille de flux de données • Classification de flux évolutifs • Extraction des données d’usage/ Web Mining • Classification de données évolutives • Détermination du nombre de classes • Conclusions AAFD 2010
Dans le cadre des flux de données Classification globale Notre proposition Classification locale temps (P1, P2, …, Pk) L’évolution des classes sera détectée en comparant la classification globale avec la classification locale Diviser la période analysée en sous périodes significatives : mois de l’année AAFD 2010
Algorithme des Nuées dynamiques« k-means batch » (a) Initialisation Choisir K prototypes L1,...,LK distincts de L (b) Étape d’affectation Pour chaque objet si de E calculer l’indice l de la classe d’affectation qui vérifie (c) Étape de représentation Pourchaque classekrechercher le prototype LkdeLqui minimise Répéter (b) et (c) jusqu’à la convergence AAFD 2010
Algorithme k-means On suppose que nous avons un échantillon de taille infinie. A la réalisation xt nous ne disposons que de l'information connue sur l’échantillon de taille t . Initialisation Prendre K points de Une étape t de calcul On associe à la réalisation xt la classe k dont le représentant le plus proche On modifie le représentant de la classe k par avec nk est le nombre de réalisations déjà mises dans la classe k. condition d’arrêt il faut AAFD 2010
Classification par sous-périodes de temps • Paramètres de l’algorithme: • Nombre de classes • Nombre maximum d’essais • Classifications non superviséesproposées: • Classification globale (CG) • Classification locale précédente (CGL1) • Classification locale dépendante (CGL2) • Classification locale indépendante (CLI) AAFD 2010
Classification globale (CG) AAFD 2010
Classification locale précédente (CGL1) AAFD 2010
Classification locale dépendante(CGL2) . . . Neme sous-période 4eme sous-période 1ere sous-période 3emesous-période 2emesous-période P1, P2, …, P10 AAFD 2010
Classification locale dépendante(CGL2) AAFD 2010
Classification locale indépendante(CLI) AAFD 2010
Analyse d’un site académique AAFD 2010
Analyse des résultats par les prototypes • Pour comprendre l’évolution des classes par sous-périodes, nous avons: • réalisé un suivi des prototypes des classes (mois par mois) pour les classifications • Locale indépendante (CLI) • Locale dépendante (CLG2) • projeté ces prototypes dans le plan factoriel obtenu sur la population totale AAFD 2010
Suivi des prototypes des classes Classification locale indépendante (CLI) Classification locale dépendante (CLG2) AAFD 2010
Variance intra-classes (W) Variance intra-classes : indépendante (trait noir), dépendante (trait rouge) et globale (trait bleu). AAFD 2010
Analyse des résultats par les partitions • Critères d’évaluation (validation interne): • Pour une analyse entre deux partitions • l’indice de Rand corrigé (Hubert et Arabie (1985)) • Pour une analyse classe par classe • F-mesure (van Rijsbergen (1979)) AAFD 2010
Résultats avec l’indice de Rand corrigé AAFD 2010