540 likes | 666 Views
Conception d’un modèle d’analyse multidimensionnelle de données spatialement continues (SOLAP raster). Analyse de hotspots de criminalité. Jean-Paul Kasprzyk, doctorant. Réunion du comité de thèse: Jean-Paul Donnay, Thérèse Libourel, Marc Simon, Jef Wijsen. Novembre 2013. Plan de l’exposé.
E N D
Conception d’un modèle d’analyse multidimensionnelle de données spatialement continues (SOLAP raster) Analyse de hotspots de criminalité Jean-Paul Kasprzyk, doctorant Réunion du comité de thèse: Jean-Paul Donnay, Thérèse Libourel, Marc Simon, Jef Wijsen Novembre 2013
Plan de l’exposé • Introduction: business intelligence • Modèle SOLAP raster • Application: analyse de hotspots de criminalité • Performance d’un SOLAP raster • Conclusions • Formation doctorale
Plan de l’exposé • Introduction: business intelligence • Modèle SOLAP raster • Application: analyse de hotspots de criminalité • Performance d’un SOLAP raster • Conclusions • Formation doctorale
Introduction: business intelligence Les données: aspect transactionnel
Introduction: business intelligence Les données: aspect décisionnel Le volume des données numériques croit exponentiellement
Introduction: business intelligence Business Intelligence Architecture d’un système BI (Badard et al, 2009)
Introduction: business intelligence SOLAP • Les outils SOLAP actuels ne gèrent l’information spatiale qu’à travers le mode vectoriel • Pas de gestion de l’information spatialement continue • Intérêt d’un SOLAP en mode maillé (raster)
Plan de l’exposé • Introduction: business intelligence • Modèle SOLAP raster • Application: analyse de hotspots de criminalité • Performance d’un SOLAP raster • Conclusions • Formation doctorale
Modèle SOLAP raster Modèle SOLAP raster: généralités • Objet de l’article « Le raster en tant que mesure dans un modèle SOLAP relationnel » • Etat de l’art: (Miquel et al, 2002 ; Ahmed & Miquel, 2005 ; Vaisman & Zimanyi, 2009 ; Gomez et al, 2012) • Principes de base • Modèle Relationnel OLAP • Schéma en étoile, en flocon de neige ou en constellation • Cube de données = collection d’images géoréférencées couvrant un même territoire • Une vue du cube = agrégation d’un ensemble d’images par opération locale de « map algebra » (Tomlin, 1983) • La sélection des images à agréger dépend des dimensions non spatiales
Modèle SOLAP raster Relation fait raster • Un raster O = • r x c pixels de valeur v où et • Une fonction de géoréférenciation : • Propriété: • Une relation fait raster F = collection de mesures raster de même domaine Les dimensions non spatiales sont reliées à la table des faits comme dans un SOLAP classique
Modèle SOLAP raster Agrégation des mesures raster • Agrégation de n rasters • Agrégation d’un raster en une valeur unique • Agrégation spatiale d’un raster Fonction d’agrégation α appliquée entre pixels homologues Fonction d’agrégation α appliquée sur l’ensemble des pixels de O Cas 1: intersection avec un raster binaire (objet spatial) Cas 2: intersection avec un objet vecteur Fonction d’agrégation α appliquée à un sous-ensemble de pixels de O
Modèle SOLAP raster Schéma en étoile ou en flocon de neige D2 D1 • Dimension spatiale liée par jointure spatiale • Dimension non spatiale liée par jointure relationnelle Schéma en étoile Fait_raster D spatiales (raster ou vecteur) Dn Jointure d’une dimension non spatiale d’un schéma en flocon de neige
Modèle SOLAP raster Changement d’échelle Fact_table_NO Fact_table_NE Fact_table Fact_table_SO Fact_table_SE
Modèle SOLAP raster Schéma en constellation Dimensions non spatiales • Schéma en constellation • Même nombre de faits par table • Toutes les mesures sont des images de même taille • Une table des faits une fonction de géoréférenciation • Un niveau d’échelle unerésolution (unebandwidth) • Un jeu de dimensions spatiales raster par « coverage » • Taille de l’entrepôt = F+4F+16F+32F+… • Alternative: une seule table des faits avec plusieurs mesures raster Tables des faits Dimensions spatiales raster Dimensions spatiales vecteur (F NO NE SO SE)
Modèle SOLAP raster Représentations • Une vue d’un cube raster correspond à l’agrégation des mesures raster selon les membres de plusieurs dimensions • La représentation d’une vue dépend du nombre de dimensions visibles « 0 » D 1 D 1D 2D
Modèle SOLAP raster Pourquoi du ROLAP? • ROLAP: opérations dans un SGBD relationnel • Traitements plus longs • Grande capacité de stockage • Supporte le format raster • MOLAP: opérations dans un système multidimensionnel • Traitements moins longs • Capacité de stockage limitée • Ne supporte pas (encore) le format raster Temps de traitement relatifs d’un SOLAP raster Sélection des données Agrégation des données Partie optimisée par un MOLAP négligeable dans un SOLAP raster
Plan de l’exposé • Introduction: business intelligence • Modèle SOLAP raster • Application: analyse de hotspots de criminalité • Performance d’un SOLAP raster • Conclusions • Formation doctorale
Application: analyse de hotspots de criminalité But de l’application Crime.csv LocalisationType de crimeDate Entrepôt ETL Serveur R-SOLAP raster Serveur M-SOLAPvecteur Analyse de la criminalité spatialement discrète Analyse de la criminalité spatialement continue (hotspots)
Application: analyse de hotspots de criminalité Estimation de densité par noyau (KDE) • Technique très populaire pour la génération et la visualisation de hotspots • Hotspots utilisés, entre autres, en criminalité pour de la prédiction • Principe: • Transformation de données ponctuelles en un champ continu (raster) • Chaque cellule a comme valeur une fréquence dépendant du nombre de points à proximité • Les hotspots sont isolés par classification de l’image (quantiles) Classification KDE
Application: analyse de hotspots de criminalité Propriété d’un KDE Si sont de même taille, même résolution, et même « bandwidth » + =
Application: analyse de hotspots de criminalité Intérêt technique de l’application • Performance d’un SOLAP raster diminue avec: • Nombre de dimensions non spatiales • Taille des images • Génération de hotspots • Nécessite peu de dimensions • Type de crime • Temps • (espace) • KDE nécessite deux paramètres • Bandwidth: indépendant de la taille de l’image dépendant de l’échelle d’analyse • Résolution: influence sur la taille de l’image MAIS peu d’influencesur le résultat utilisation de « petites images » (entre 200 et 600 ko non compressé) • (Chainey, 2013): 150 x 150 • ArcGIS: 250 x 250
Application: analyse de hotspots de criminalité Présentation des données • http://www.police.uk/ • Territoire d’environ 50km X 50km • Année 2012 • Fichiers CSV: • Environ 1 200 000 crimes • Données par mois et par type de crimes • Latitude / longitude en WGS84 • Fichiers KML • Environ 7600 polygones des zones de police par mois • Données de criminalité londonienne provenant de la « Metropolitan Police » et de la « City of London Police »
Application: analyse de hotspots de criminalité Types de crime
Application: analyse de hotspots de criminalité Modèle conceptuel (UML) SOLAP Raster SOLAP classique … Crime_fact Raster_fact ID_factMonthCrime_type ID_crimeMonthCrime_type 1 0-N Changement d’échelle 0-N 1-N Force_boundary ID_forceMonth
Application: analyse de hotspots de criminalités Intégration des données • Alimentation de la table « crime_fact » (1200000 faits) • Alimentation de la table « force_boundary » • Suppression des données sans localisation • Conversion latitude/longitude en « geometry » • Projection dans British National Grid (SRID 27700) • Suppression des données en dehors de la zone d’étude • Etablissement du lien relationnel entre « crime_fact » et « force_boundary » • Export de 132 shapefiles de points pour chaque croisement de dimension « crime_type-month » • Génération de 132 images KDE • Resolution: 300m • Bandwidth: 1500m • Alimentation de la table « raster_fact » • Mise à jour des dimensions de la table « raster_fact » • …
Application: analyse de hotspots de criminalités Vue raster_column
Application: analyse de hotspots de criminalité Comparaison SOLAP raster – SOLAP vecteur « Quelle est la répartition spatiale de la criminalité générale pour l’année 2012? » Requête la plus lourde possible • Addition des 132 images: environ 35 sec Entrepôt classique Entrepôt raster • Sélection des 1200000 entrées: environ 27 sec • KDE sur les données: environ 52 sec • TOTAL: environ 79 sec
Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les hotspots de criminalité liée à la drogue pour le premier trimestre 2012? » Stretch « standard deviation » Fact107 + fact207 + fact307
Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les hotspots de criminalité liée à la drogue pour le premier trimestre 2012? » Ajout de la couche « Pub raster »
Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les pubs générateurs de criminalité liée à la drogue pour le premier trimestre 2012? » - Slice couche « Pub raster » Zoom in Pub*(measure)
Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les pubs générateurs de criminalité liée à la drogue pour le premier trimestre 2012? » Ajout couche « Pub point » Shoreditch Soho
Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les pubs générateurs de criminalité liée à la drogue (poids: 2) et aux armes (poids: 1) pour le premier trimestre 2012? » Shoreditch Soho (2*(fact107+fact107+fact107)+(fact106+fact206+fact306))*pub
Application: analyse de hotspots de criminalité Exemples de requête «Quel est le nombre de crimes liés à la drogue et aux armes par force de police de mars 2012? » • Drill across • Add dimension force_boundary
Application: analyse de hotspots de criminalité 3 mois plus tard…
Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les pubs générateurs de criminalité liée à la drogue pour le premier trimestre 2012? » • Retour à la vue précédente Shoreditch Soho (Fact107 + fact207 + fact307)*pub
Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les pubs générateurs de criminalité liée à la drogue pour le second trimestre 2012? » Cranbrook Estate Shoreditch Soho (Fact407 + fact507 + fact607)*pub
Application: analyse de hotspots de criminalité Exemples de requête « Quelle est l’évolution des pubs générateurs de criminalité liée à la drogue entre le premier trimestre et le second trimestre 2012? » • Evolution avec la vue précédente • Zoom out Cranbrook Estate Shoreditch Soho Mesure - mesure(-1)
Application: analyse de hotspots de criminalité Exemples de requête « Quelle est l’évolution des hotspots de criminalité liée à la drogue entre le premier trimestre et le second trimestre 2012? » Suppression de la dimension spatiale pub (Fact407 + fact507 + fact607) -(Fact107 + fact207 + fact307)
Application: analyse de hotspots de criminalité Optimisation du paramétrage des KDE • Prediction accuracy index (PAI) • Indice utilisé en crime mapping pour évaluer la qualité de prédiction de hotspots • PAI = • PAI permet d’évaluer la qualité du paramètre « bandwidth » d’un KDE • A exploiter pour optimiser le paramétrage des KDE au moment de l’intégration des données • Rappel: une « bandwidth » par niveau d’échelle pour garder des images comparables (nombre de crimes dans hotspots / nombre de crimes total) (surface de hotspot / surface d’étude)
Plan de l’exposé • Introduction: business intelligence • Modèle SOLAP raster • Application: analyse de hotspots de criminalité • Performance d’un SOLAP raster • Conclusions • Formation doctorale
Performance d’un SOLAP raster Contrainte de performance d’un OLAP • OLAP report: groupement de chercheurs sur le OLAP créé en 1994 • Définition du OLAP en 5 mots-clés • Fast • Requête simple < 1 sec • Requête basique < 5 sec • Requête complexe < 20 sec • Analysis • Shared • Multidimensionnality • Information
Performance d’un SOLAP raster Performance d’un SOLAP classique Nombre de faits Nombre de données
Performance d’un SOLAP raster Performance d’un SOLAP raster Temps d’agrégation Taille des rasters
Performance d’un SOLAP raster Performance d’un SOLAP raster Nombre de faits Nombre de membres
Performance d’un SOLAP raster Performance d’un SOLAP raster Nombre de faits Nombre de dimensions non spatiales
Performance d’un SOLAP raster Plusieurs solutions • Garcia Gutierrez & Baumann, 2008: • Pré-agrégation des données • Impossible de couvrir toutes les possibilités (infinité) • Kang et al, 2013: • Etablissement de clusters de rasters • Simplification des calculs d’agrégation • exemple: • A + B + C + D = 2*A + 2*C • Perte de précision du résultat final
Performance d’un SOLAP raster Network OLAP (NOLAP) • Solutions précédentes: • simplification des calculs • Solution proposée • Répartir les calculs sur plusieurs serveurs (cloud) • Cube de données cube de serveurs • Principe: • Requête divisée en sous-requêtes Agrégation des crime de type « drugs » et « violent crime » pour l’année 2012 = Agrégation des crimes de type « drugs » pour l’année 2012 + agrégation des crimes de type « violent crime » pour l’année 2012 • Temps d’agrégation divisé par nombre de serveurs
Performance d’un SOLAP raster Serveur maître Exemple d’architecture NOLAP Gestion dimension « type de crime » Gestion dimensions spatiales Gestion dimension « temps » Cloud « Quels sont les hotspots de criminalité pour 2012? » Sous-requêtes d’agrégation selon dimension « temps » pour chaque type de crime Anti-social behaviour Other theft Client Requête principale Violent crime Vehicule crime Image finale Agrégation des images renvoyées selon dimension « type de crime » Burglary Criminal damage Chaque serveur renvoie son image d’agrégation Drugs Weapons • Deux alternatives • Un sous-cube par serveur du cloud table des faits du serveur maître = liste d’adresse vers le cloud • Cube complet copié dans chaque serveur Shoplifting Robbery
Performance d’un SOLAP raster NOLAP: caractéristiques • Nombre de serveurs • croît linéairement avec nombre de membres gérés par le serveur principal (exemple: types de crime) Privilégier cloud pour la dimension temporelle • croît exponentiellement avec nombre de dimensions non spatiales Rester raisonnable • Temps d’agrégation considérablement diminuéMAISil faut rajouter le temps de transfert des requêtes et des images à travers le réseau • Dans notre cas: une image < 600 ko, maximum 11 images transférées • Utilisation d’un langage de programmation capable de gérer le « multi tâches »: DotNet, php, …
Plan de l’exposé • Introduction: business intelligence • Modèle SOLAP raster • Application: analyse de hotspots de criminalité • Performance d’un SOLAP raster • Conclusions • Formation doctorale