1 / 52

Analyse de hotspots de criminalité

Conception d’un modèle d’analyse multidimensionnelle de données spatialement continues (SOLAP raster). Analyse de hotspots de criminalité. Jean-Paul Kasprzyk, doctorant. Réunion du comité de thèse: Jean-Paul Donnay, Thérèse Libourel, Marc Simon, Jef Wijsen. Novembre 2013. Plan de l’exposé.

addison
Download Presentation

Analyse de hotspots de criminalité

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Conception d’un modèle d’analyse multidimensionnelle de données spatialement continues (SOLAP raster) Analyse de hotspots de criminalité Jean-Paul Kasprzyk, doctorant Réunion du comité de thèse: Jean-Paul Donnay, Thérèse Libourel, Marc Simon, Jef Wijsen Novembre 2013

  2. Plan de l’exposé • Introduction: business intelligence • Modèle SOLAP raster • Application: analyse de hotspots de criminalité • Performance d’un SOLAP raster • Conclusions • Formation doctorale

  3. Plan de l’exposé • Introduction: business intelligence • Modèle SOLAP raster • Application: analyse de hotspots de criminalité • Performance d’un SOLAP raster • Conclusions • Formation doctorale

  4. Introduction: business intelligence Les données: aspect transactionnel

  5. Introduction: business intelligence Les données: aspect décisionnel Le volume des données numériques croit exponentiellement

  6. Introduction: business intelligence Business Intelligence Architecture d’un système BI (Badard et al, 2009)

  7. Introduction: business intelligence SOLAP • Les outils SOLAP actuels ne gèrent l’information spatiale qu’à travers le mode vectoriel • Pas de gestion de l’information spatialement continue • Intérêt d’un SOLAP en mode maillé (raster)

  8. Plan de l’exposé • Introduction: business intelligence • Modèle SOLAP raster • Application: analyse de hotspots de criminalité • Performance d’un SOLAP raster • Conclusions • Formation doctorale

  9. Modèle SOLAP raster Modèle SOLAP raster: généralités • Objet de l’article « Le raster en tant que mesure dans un modèle SOLAP relationnel » • Etat de l’art: (Miquel et al, 2002 ; Ahmed & Miquel, 2005 ; Vaisman & Zimanyi, 2009 ; Gomez et al, 2012) • Principes de base • Modèle Relationnel OLAP • Schéma en étoile, en flocon de neige ou en constellation • Cube de données = collection d’images géoréférencées couvrant un même territoire • Une vue du cube = agrégation d’un ensemble d’images par opération locale de « map algebra » (Tomlin, 1983) • La sélection des images à agréger dépend des dimensions non spatiales

  10. Modèle SOLAP raster Relation fait raster • Un raster O = • r x c pixels de valeur v où et • Une fonction de géoréférenciation : • Propriété: • Une relation fait raster F = collection de mesures raster de même domaine Les dimensions non spatiales sont reliées à la table des faits comme dans un SOLAP classique

  11. Modèle SOLAP raster Agrégation des mesures raster • Agrégation de n rasters • Agrégation d’un raster en une valeur unique • Agrégation spatiale d’un raster Fonction d’agrégation α appliquée entre pixels homologues Fonction d’agrégation α appliquée sur l’ensemble des pixels de O Cas 1: intersection avec un raster binaire (objet spatial) Cas 2: intersection avec un objet vecteur  Fonction d’agrégation α appliquée à un sous-ensemble de pixels de O

  12. Modèle SOLAP raster Schéma en étoile ou en flocon de neige D2 D1 • Dimension spatiale liée par jointure spatiale • Dimension non spatiale liée par jointure relationnelle Schéma en étoile Fait_raster D spatiales (raster ou vecteur) Dn Jointure d’une dimension non spatiale d’un schéma en flocon de neige

  13. Modèle SOLAP raster Changement d’échelle Fact_table_NO Fact_table_NE Fact_table Fact_table_SO Fact_table_SE

  14. Modèle SOLAP raster Schéma en constellation Dimensions non spatiales • Schéma en constellation • Même nombre de faits par table • Toutes les mesures sont des images de même taille • Une table des faits  une fonction de géoréférenciation • Un niveau d’échelle unerésolution (unebandwidth) • Un jeu de dimensions spatiales raster par « coverage » • Taille de l’entrepôt = F+4F+16F+32F+… • Alternative: une seule table des faits avec plusieurs mesures raster Tables des faits Dimensions spatiales raster Dimensions spatiales vecteur (F NO NE SO SE)

  15. Modèle SOLAP raster Représentations • Une vue d’un cube raster correspond à l’agrégation des mesures raster selon les membres de plusieurs dimensions • La représentation d’une vue dépend du nombre de dimensions visibles « 0 » D 1 D 1D 2D

  16. Modèle SOLAP raster Pourquoi du ROLAP? • ROLAP: opérations dans un SGBD relationnel • Traitements plus longs • Grande capacité de stockage • Supporte le format raster • MOLAP: opérations dans un système multidimensionnel • Traitements moins longs • Capacité de stockage limitée • Ne supporte pas (encore) le format raster Temps de traitement relatifs d’un SOLAP raster Sélection des données Agrégation des données Partie optimisée par un MOLAP  négligeable dans un SOLAP raster

  17. Plan de l’exposé • Introduction: business intelligence • Modèle SOLAP raster • Application: analyse de hotspots de criminalité • Performance d’un SOLAP raster • Conclusions • Formation doctorale

  18. Application: analyse de hotspots de criminalité But de l’application Crime.csv LocalisationType de crimeDate Entrepôt ETL Serveur R-SOLAP raster Serveur M-SOLAPvecteur Analyse de la criminalité spatialement discrète Analyse de la criminalité spatialement continue (hotspots)

  19. Application: analyse de hotspots de criminalité Estimation de densité par noyau (KDE) • Technique très populaire pour la génération et la visualisation de hotspots • Hotspots utilisés, entre autres, en criminalité pour de la prédiction • Principe: • Transformation de données ponctuelles en un champ continu (raster) • Chaque cellule a comme valeur une fréquence dépendant du nombre de points à proximité • Les hotspots sont isolés par classification de l’image (quantiles) Classification KDE

  20. Application: analyse de hotspots de criminalité Propriété d’un KDE Si sont de même taille, même résolution, et même « bandwidth » + =

  21. Application: analyse de hotspots de criminalité Intérêt technique de l’application • Performance d’un SOLAP raster diminue avec: • Nombre de dimensions non spatiales • Taille des images • Génération de hotspots • Nécessite peu de dimensions • Type de crime • Temps • (espace) • KDE nécessite deux paramètres • Bandwidth: indépendant de la taille de l’image dépendant de l’échelle d’analyse • Résolution: influence sur la taille de l’image MAIS peu d’influencesur le résultat utilisation de « petites images » (entre 200 et 600 ko non compressé) • (Chainey, 2013): 150 x 150 • ArcGIS: 250 x 250

  22. Application: analyse de hotspots de criminalité Présentation des données • http://www.police.uk/ • Territoire d’environ 50km X 50km • Année 2012 • Fichiers CSV: • Environ 1 200 000 crimes • Données par mois et par type de crimes • Latitude / longitude en WGS84 • Fichiers KML • Environ 7600 polygones des zones de police par mois • Données de criminalité londonienne provenant de la « Metropolitan Police » et de la « City of London Police »

  23. Application: analyse de hotspots de criminalité Types de crime

  24. Application: analyse de hotspots de criminalité Modèle conceptuel (UML) SOLAP Raster SOLAP classique … Crime_fact Raster_fact ID_factMonthCrime_type ID_crimeMonthCrime_type 1 0-N Changement d’échelle 0-N 1-N Force_boundary ID_forceMonth

  25. Application: analyse de hotspots de criminalités Intégration des données • Alimentation de la table « crime_fact » (1200000 faits) • Alimentation de la table « force_boundary » • Suppression des données sans localisation • Conversion latitude/longitude en « geometry » • Projection dans British National Grid (SRID 27700) • Suppression des données en dehors de la zone d’étude • Etablissement du lien relationnel entre « crime_fact » et « force_boundary » • Export de 132 shapefiles de points pour chaque croisement de dimension « crime_type-month » • Génération de 132 images KDE • Resolution: 300m • Bandwidth: 1500m • Alimentation de la table « raster_fact » • Mise à jour des dimensions de la table « raster_fact » • …

  26. Application: analyse de hotspots de criminalités Vue raster_column

  27. Application: analyse de hotspots de criminalité Comparaison SOLAP raster – SOLAP vecteur « Quelle est la répartition spatiale de la criminalité générale pour l’année 2012? » Requête la plus lourde possible • Addition des 132 images: environ 35 sec Entrepôt classique Entrepôt raster • Sélection des 1200000 entrées: environ 27 sec • KDE sur les données: environ 52 sec • TOTAL: environ 79 sec

  28. Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les hotspots de criminalité liée à la drogue pour le premier trimestre 2012? » Stretch « standard deviation » Fact107 + fact207 + fact307

  29. Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les hotspots de criminalité liée à la drogue pour le premier trimestre 2012? » Ajout de la couche « Pub raster »

  30. Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les pubs générateurs de criminalité liée à la drogue pour le premier trimestre 2012? » - Slice couche « Pub raster » Zoom in Pub*(measure)

  31. Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les pubs générateurs de criminalité liée à la drogue pour le premier trimestre 2012? » Ajout couche « Pub point » Shoreditch Soho

  32. Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les pubs générateurs de criminalité liée à la drogue (poids: 2) et aux armes (poids: 1) pour le premier trimestre 2012? » Shoreditch Soho (2*(fact107+fact107+fact107)+(fact106+fact206+fact306))*pub

  33. Application: analyse de hotspots de criminalité Exemples de requête «Quel est le nombre de crimes liés à la drogue et aux armes par force de police de mars 2012? » • Drill across • Add dimension force_boundary

  34. Application: analyse de hotspots de criminalité 3 mois plus tard…

  35. Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les pubs générateurs de criminalité liée à la drogue pour le premier trimestre 2012? » • Retour à la vue précédente Shoreditch Soho (Fact107 + fact207 + fact307)*pub

  36. Application: analyse de hotspots de criminalité Exemples de requête « Quels sont les pubs générateurs de criminalité liée à la drogue pour le second trimestre 2012? » Cranbrook Estate Shoreditch Soho (Fact407 + fact507 + fact607)*pub

  37. Application: analyse de hotspots de criminalité Exemples de requête « Quelle est l’évolution des pubs générateurs de criminalité liée à la drogue entre le premier trimestre et le second trimestre 2012? » • Evolution avec la vue précédente • Zoom out Cranbrook Estate Shoreditch Soho Mesure - mesure(-1)

  38. Application: analyse de hotspots de criminalité Exemples de requête « Quelle est l’évolution des hotspots de criminalité liée à la drogue entre le premier trimestre et le second trimestre 2012? » Suppression de la dimension spatiale pub (Fact407 + fact507 + fact607) -(Fact107 + fact207 + fact307)

  39. Application: analyse de hotspots de criminalité Optimisation du paramétrage des KDE • Prediction accuracy index (PAI) • Indice utilisé en crime mapping pour évaluer la qualité de prédiction de hotspots • PAI = • PAI permet d’évaluer la qualité du paramètre « bandwidth » d’un KDE • A exploiter pour optimiser le paramétrage des KDE au moment de l’intégration des données • Rappel: une « bandwidth » par niveau d’échelle pour garder des images comparables (nombre de crimes dans hotspots / nombre de crimes total) (surface de hotspot / surface d’étude)

  40. Plan de l’exposé • Introduction: business intelligence • Modèle SOLAP raster • Application: analyse de hotspots de criminalité • Performance d’un SOLAP raster • Conclusions • Formation doctorale

  41. Performance d’un SOLAP raster Contrainte de performance d’un OLAP • OLAP report: groupement de chercheurs sur le OLAP créé en 1994 • Définition du OLAP en 5 mots-clés • Fast • Requête simple < 1 sec • Requête basique < 5 sec • Requête complexe < 20 sec • Analysis • Shared • Multidimensionnality • Information

  42. Performance d’un SOLAP raster Performance d’un SOLAP classique Nombre de faits Nombre de données

  43. Performance d’un SOLAP raster Performance d’un SOLAP raster Temps d’agrégation Taille des rasters

  44. Performance d’un SOLAP raster Performance d’un SOLAP raster Nombre de faits Nombre de membres

  45. Performance d’un SOLAP raster Performance d’un SOLAP raster Nombre de faits Nombre de dimensions non spatiales

  46. Performance d’un SOLAP raster Plusieurs solutions • Garcia Gutierrez & Baumann, 2008: • Pré-agrégation des données • Impossible de couvrir toutes les possibilités (infinité)  • Kang et al, 2013: • Etablissement de clusters de rasters • Simplification des calculs d’agrégation • exemple: • A + B + C + D = 2*A + 2*C • Perte de précision du résultat final 

  47. Performance d’un SOLAP raster Network OLAP (NOLAP) • Solutions précédentes: • simplification des calculs • Solution proposée • Répartir les calculs sur plusieurs serveurs (cloud) • Cube de données  cube de serveurs • Principe: • Requête divisée en sous-requêtes Agrégation des crime de type « drugs » et « violent crime » pour l’année 2012 = Agrégation des crimes de type « drugs » pour l’année 2012 + agrégation des crimes de type « violent crime » pour l’année 2012 • Temps d’agrégation divisé par nombre de serveurs

  48. Performance d’un SOLAP raster Serveur maître Exemple d’architecture NOLAP Gestion dimension « type de crime » Gestion dimensions spatiales Gestion dimension « temps » Cloud « Quels sont les hotspots de criminalité pour 2012? » Sous-requêtes d’agrégation selon dimension « temps » pour chaque type de crime Anti-social behaviour Other theft Client Requête principale Violent crime Vehicule crime Image finale Agrégation des images renvoyées selon dimension « type de crime » Burglary Criminal damage Chaque serveur renvoie son image d’agrégation Drugs Weapons • Deux alternatives • Un sous-cube par serveur du cloud table des faits du serveur maître = liste d’adresse vers le cloud • Cube complet copié dans chaque serveur Shoplifting Robbery

  49. Performance d’un SOLAP raster NOLAP: caractéristiques • Nombre de serveurs • croît linéairement avec nombre de membres gérés par le serveur principal (exemple: types de crime) Privilégier cloud pour la dimension temporelle • croît exponentiellement avec nombre de dimensions non spatiales Rester raisonnable • Temps d’agrégation considérablement diminuéMAISil faut rajouter le temps de transfert des requêtes et des images à travers le réseau • Dans notre cas: une image < 600 ko, maximum 11 images transférées • Utilisation d’un langage de programmation capable de gérer le « multi tâches »: DotNet, php, …

  50. Plan de l’exposé • Introduction: business intelligence • Modèle SOLAP raster • Application: analyse de hotspots de criminalité • Performance d’un SOLAP raster • Conclusions • Formation doctorale

More Related