230 likes | 472 Views
Vers un entrepôt de données pour le trafic routier. Claudia Bauzer-Medeiros (1) , Olivier Carles (2) , Florian Devuyst (3) , Georges Hébrail (4) , Bernard Hugueney (5) , Marc Joliveau (3) , Geneviève Jomier (5) , Maude Manouvrier (5) , Yosr Naïja (5) , Gérard Scemama (1) , Laurent Steffan (5)
E N D
Vers un entrepôt de données pour le trafic routier Claudia Bauzer-Medeiros(1), Olivier Carles(2), Florian Devuyst(3), Georges Hébrail(4),Bernard Hugueney(5), Marc Joliveau(3), Geneviève Jomier(5), Maude Manouvrier(5), Yosr Naïja(5),Gérard Scemama(1), Laurent Steffan(5) IC UNICAMP – Université de Campinas – Brésil GRETIA - INRETS MAS – École Centrale de Paris I3 – ENST Paris LAMSADE – Université Paris-Dauphine Dans le cadre de l’ACI Masses de Données CADDY http://norma.mas.ecp.fr/wikimas/Caddy
Plan • Introduction et contexte • Données du trafic routier • Construction de l’entrepôt • Multi-représentation de séries temporelles • Architecture du système d’information • État de l’art • Conclusion et perspectives 2 ACI CADDY - EDA 2006
Introduction Problématique : • Entrepôt de données spatio-temporelles • Sources de données de type capteurs enregistrant périodiquement des phénomènes spécifiques • Prise en compte, pour extraire de l’information, de : • la localisation des capteurs, • la périodicité des prises de valeurs • la variation espace-temps des valeurs • Application à la gestion de trafic urbain 3 ACI CADDY - EDA 2006
Contexte • Combinaison de travaux issus de la recherche en entrepôt de données spatiales, en série temporelles et en modélisation mathématique • Dans le cadre d’une ACI Masses de Données CADDY (Contrôle de l’Acquisition de Données temporelles massives, stockage et modèles DYnamiques) • Collaboration avec l’INRETS (Institut National de Recherche sur les Transports et leur Sécurité) • Objectif : produire un système pour l’aide à la décision pour la gestion du trafic routier 4 ACI CADDY - EDA 2006
Données du trafic routier (1/2) • Variables macroscopiques temporelles mesurées par des capteurs implantés sur des axes routiers • Débit : nombre de véhicules par unité de temps (minute ou heure) • Taux d’occupation : exprimé en pourcentage • Mesures de débit et de taux d’occupation constituant des séries temporelles 5 ACI CADDY - EDA 2006
Données du trafic routier (2/2) Graphe modélisant le réseau routier d’une ville • Plus de 400 capteurs • Valeurs enregistrées toutes les 3 minutes • Plus de 400 000 valeurs élémentaires par jour 6 ACI CADDY - EDA 2006
Corrélation avec les valeurs de débits Taux d’occupation d’un jour de semaine ordinaire (lundi à vendredi – non férié) Pics entre 8h et 10h et entre 17h et 20h Construction de l’entrepôt (1/3) • Insertion des données hors ligne dans un premier temps avec un souhait de l’étendre au temps réel • Données de la base organisées selon différents axes : • Capteurs • Temps • Valeurs mesurées • Mise en valeur de lacorrélation de l’évolution de ces séquences temporelles avec l’activité humaine 7 ACI CADDY - EDA 2006
Pour une analyse spatiale selon la topologie du réseau Fluide ou congestionné Pour analyser l’activité humaine à travers le temps Pour analyser l’incidence des conditions météo et/ou des événements ayant un impact sur la circulation Construction de l’entrepôt (2/3) 8 ACI CADDY - EDA 2006
Dériver des relations entre les valeurs mesurées et différents types d’événements temporels associés à des activités humaines Intégrer les informations de l’entrepôt à d’autres systèmes urbains (ex. cadastre) + Faciliter la visualisation « Quels sont les axes fluides, les veilles de week-end de vacances scolaires entre 15h et 17h par beau temps? » « Quelles sont les zones congestionnées d’un quartier en fin de soirée lors de manifestations sportives ? » Construction de l’entrepôt (3/3) Plusieurs expérimentations pour valider ces agrégations sémantiques 9 ACI CADDY - EDA 2006
Multi-représentation de séries temporelles • Utilisation de représentation compacte des séries afin de pouvoir les étudier ou les analyser • Objectif : construire une représentation • Préservant au maximum l’information présente dans les données • Sans connaissance a priori sur cette information • Deux types de résumés : • Résumés numériques • Résumés symboliques 10 ACI CADDY - EDA 2006
Résumés numériques (1/2) • Partition du domaine de définition temporel en épisodes • Découpage régulier en épisodes ou adapté localement aux données • Modèles les plus simples : modèles linéaires d’ordre 0 et d’ordre 1 • Choix du modèle et choix du nombre d’épisodes généralement liés aux données à représenter 11 ACI CADDY - EDA 2006
Résumés numériques (2/2) Extrait de série temporelle de taux d’occupation Modélisation par ACPA (Adaptive Piecewise Constant Approximation) ACPA : Chakrabarti, K., E. Keogh, S. Mehrotra, et M. Pazzani (2002). Locally adaptive dimensionalityreduction for indexing large time series databases. ACM Trans. on Database Systems(TODS) 27(2), 188–228. 12 ACI CADDY - EDA 2006
Résumés symboliques (1/2) • Intégration d’algorithmes de segmentation de courbes et de recherche de formes types journalières • Association d’un symbole à une classe d’extraits de séries temporelles considérés comme équivalents • Ex. Association de symboles à des profils typiques de circulation journalière ou à de niveaux typiques d’encombrement dus axes routiers • Obtention d’un alphabet de symboles par classification • Représentation symbolique calculée à la demande de l’utilisateur ou à l’entrée des données brutes dans le système 13 ACI CADDY - EDA 2006
Résumés symboliques (2/2) Extrait de série temporelle de taux d’occupation et de sa modélisation par CBSR (Clustering Based Symbolic Representation) Hugueney, B. (2003). Représentations symboliques de longues séries temporelles. Thèse de doctorat, Univ. Paris 6. 14 ACI CADDY - EDA 2006
Public de décideurs (experts de compagnie de transports publics) et de chercheurs du domaine routier, d’hommes politiques, d’opérateurs du SI, voire plus général Architecture du SI (1/6) 15 ACI CADDY - EDA 2006
Architecture du SI (2/6) • Plusieurs sources de données : • Données spatio-temporelles fournies par les capteurs • Annotations textuelles et fichiers de documentation • Données géographiques (associées principalement au tracés urbains) • Informations météorologiques • Nettoyage préalable des données • Stockage des données dans un Entrepôt de données appartenant à la couche Stockage 16 ACI CADDY - EDA 2006
Architecture du SI (3/6) Couche Stockage • Ensemble d’ontologies : • Pour organiser les définitions et la terminologie utilisée dans le domaine d’application • Plusieurs dimensions ou axes de connaissance fournis par différentes demandes ou profils utilisateurs • Magasins de données : • Contenant des « vues matérialisées » sur l’entrepôt • Créés au fur et à mesure de l’apparition de nouvelles demandes sur un sous-ensembles des données 17 ACI CADDY - EDA 2006
Debrégeas A., Hébrail G., Interactive interpretation of Kohonen maps applied to curves, Int. Conf. on Knowledge Discovery and Data Mining (KDD’98), New-York, Août 1998 Architecture du SI (4/6) Couche Interface • Responsable des interactions des utilisateurs avec le système • Prévision de différentes formes de visualisations interactives • Actuellement : visualisation sous la forme de carte, de table de données, ou de courbes 18 ACI CADDY - EDA 2006
Architecture du SI (5/6) Couche Modules Dédiés • Ensemble de composants intervenant dans le traitement des demandes utilisateurs • Aide à la transformation d’une demande utilisateur depuis l’Interface dans un ensemble d’accès à la couche Stockage • Responsable du traitement des données depuis la couche Stockage et de leur transformation en vue de leur visualisation 19 ACI CADDY - EDA 2006
Architecture du SI (6/6) Couche Modules Dédiés • Modules d’Analyse : Recherche de motifs dans les séries temporelles • Module Requêtes : Intégration des résultats partiels des requêtes envoyées à l’entrepôt et aux magasins et correspondance entre Stockage et Interface • Module Systèmes : Opérations de maintenance du système utilisées exclusivement par les opérateurs du SI (ex. nettoyage des données) • Module Ontologies : Construction et mise à jour des ontologies 20 ACI CADDY - EDA 2006
État de l’art • Couplage SIG, bases de données, outils d’aide à la décision et outils de visualisation pour déterminer des itinéraires • Utilisation des SOLAP à des fins de stockage et de visualisation • Bertini, R., S. Matthews, S. Hansen, A. Delcambre, et A. Rodriguez (2005). ITS Archived Data User Service in Portland, Oregon : Now and Into the Future. In 8th Int. IEEE Conf. On Intel. Transport. Sys., Vienna (Austria), • Bédard, Y., M. J. Proulx, et S. Rivest (2005). Enrichissement du OLAP pour l’analyse géographique : exemples de réalisation et différentes possibilités technologiques. In 1ère journée francophone EDA 2005, Lyon (France) • Lu, C., L. Sripada, S. Shekhar, et R. Liu (2005). Transportation Data Visualization and Mining for Emergency Management. Int. Journal of Critical Infrastructures (Inderscience) 1(2/3) • Rivest, S., P. Gignac, J. Charron, et Y. Bédard (2004). Développement d’un système d’exploration spatio-temporelle interactive des données de la Banque d’information corporative du ministère des Transports du Québec. In Colloque Géomatique - Un choix stratégique !, Montréal (Canada) • Pas de prise en compte de l’activité humaine 21 ACI CADDY - EDA 2006
Conclusion • Démarche multidisciplinaire pour le traitement de masses de données spatio-temporelles dans le domaine du trafic routier • Intégration d’un entrepôt de données à des fonctionnalités d’analyse et et de représentation multi-échelles numériques et symboliques • Mécanismes d’agrégation permettant de répondre à des requêtes telles que : • « Quel est le débit moyen par capteur les lundis de 2005 entre 10h et 12h? » • « Quels sont les états (fluides ou saturés) du trafic sur un ensemble de capteurs pour les jeudis du premier semestre de 2005 entre 17h et 20h ? » 22 ACI CADDY - EDA 2006
Perspectives • Étendre les mécanismes pour répondre à des requêtes plus complexes telles que : • « Étant donné un événement (ex. match de rugby) devant avoir lieu à un endroit (ex. Stade Charlety à Paris), à une date d et une heure h, quel est l’état prévu du trafic dans la zone z aux heures h-i ou h+i ? » • « La rue r est-elle bouchée le dimanche entre 14h et 16h ? » • Découverte et visualisation de motifs spatio-temporels • Analyse en ligne multi-échelle et multi-représentation • Restitution de l’information adaptée à l’utilisateur (décideur, exploitant, usager) • Apprentissage • Après CADDY : • Acquisition et traitement temps réel des flux de données, simulation et prévision • Étude d’autres systèmes complexes avec corrélations spatio-temporelles entre les flux de données : hydrologie au Sahel (AGRHYMET, CIRAD), consommation d’électricité (EDF), collaboration avec le CEA … 23 ACI CADDY - EDA 2006