1 / 114

Introduction Quelques outils de base de l’EDA Méthodes à noyaux Filtres spatiaux robustes

Analyse Exploratoire des Données Géographiques ESDA Didier JOSSELIN ESPACE, UMR 6012, CNRS, Avignon, France didier.josselin@univ-avignon.fr Tél.: 04 90 16 26 93. P L A N. Introduction Quelques outils de base de l’EDA Méthodes à noyaux Filtres spatiaux robustes Variogrammes robustes

eloise
Download Presentation

Introduction Quelques outils de base de l’EDA Méthodes à noyaux Filtres spatiaux robustes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analyse Exploratoire des Données GéographiquesESDADidier JOSSELINESPACE, UMR 6012, CNRS, Avignon, Francedidier.josselin@univ-avignon.frTél.: 04 90 16 26 93

  2. P L A N Introduction Quelques outils de base de l’EDA Méthodes à noyaux Filtres spatiaux robustes Variogrammes robustes Autocorrélation spatiale Filtres adaptatifs Médienne, Distogramme Rapport SIG / outils de Statistique ARPEGE, LAVSTAT Conclusion

  3. Exploratory Spatial Data Analysis :Application de l’EDA à l’analyse spatiale

  4. L’enjeux principal de l’analyse spatiale et donc … de l’ESDA - L’analyse d’ensemblelocale d’objets géographiques… points surfaces lignes objets complexes - Pour rechercher les : relations statistiques relations spatiales relations à travers les échelles relations « statistico-spatiales » à travers…

  5. L’ E D A et la statistique “classique”

  6. Analyse des données

  7. La voie de l’EDA

  8. Histogramme, branchage,boîte à pattes, dot plot ...

  9. Question : quels sont les qualités et les défauts de l’histogramme ?

  10. + Les qualités ... • Mode de représentation synthétique • Mathématiquement bien étudié et établi • Permet de nombreux tests de dépendance statistique (contingence) - Méthodes de discrétisations «  automatiques »

  11. - Les défauts ... • Sensibilité au nombre de classes • Mélange d’individus différents par classe • Contrainte de surfaces proportionnelles aux fréquences  formes « bizarres » - Méthodes de discrétisations «  automatiques »

  12. Réponse apportée par le branchage (Stem and leaf)

  13. Réponse apportée par des graphiques simples Dot Plot Stacked Plot Jittered Plot

  14. Réponse apportée par la boîte à pattes proches intérieurs adjaçents lointains Q1 Q3 Q2 min max Distance Inter Quartile (dIQ) 1,5 x (Q3-Q2)

  15. Réponse apportée par l’histogramme dynamique (ex : le distogramme, Josselin, 1999)

  16. Démo histogramme dynamiqueet boîte à pattes

  17. Question :quels sont les qualités et les défauts des méthodes classiques de comparaison de distributions (Khi2, Kolmogorov-Smirnov ...) sur tableau de contingence ?

  18. + Les qualités ... • Utilisent l’histogramme • Sont synthétiques et font appel à des tests de probabilité • Mathématiquement bien étudié et établi

  19. - Les défauts ... • Sensibilité au nombre de cases • On perd l’individu • On ne peut pas évaluer la forme de la distribution - Plusieurs valeurs peuvent correspondre à des réalités significativement différentes

  20. La réponse du QQ Plot Valeurs xi classées par ordre croissant (i est l’indice) Quantiles théoriques suivant une loi normale

  21. Démo QQ-Plot

  22. Ré-expression de variable,régressions robustes, Lowess

  23. Question :quels sont les qualités et les défauts des régressions de type “moindres carrés”, linéaires ou non linéaires ?

  24. Les mêmes qualités que d’habitude ... et les mêmes défauts ... • Sensibilité aux valeurs extrêmes… • Nécessité de normalité des résidus et bonne répartitions des individus en X et Y

  25. Une première réponse : la ré-expression des données Puissance Transformée 4X4 3 X3 2 X2 1 X ½ racine(X) 0 log(X) -½ -1/racine(X) -1 -1/X -2 -1/X2 -3 -1/X3 Log(x) L’échelle de puissance de Tukey

  26. La réponse de la “droite résistante” à la régression linéaire (ex :grigri-plot, A. Banos, 1999) Résistant line Régression Moindres carrés

  27. Principe de la droite résistante • On regroupe les individus en 3 paquets d’effectifs égaux (en fonction de X) • On calcule pour chaque groupe l’individu robuste {médiane des X, médiane des Y} • On ajuste la droite sur les 2 points médians extrêmes, puis sur le point médian central

  28. Démo Droite Résistante

  29. La réponse du “Lowess” à la régression non linéaire

  30. Principe du lowess (lissage robuste d’un nuage de points) • On définit une distance et on calcule, pour chaque point les poids des points voisins • On calcule la régression locale sur chaque point (polynôme) • On calcule les résidus et on applique un ajustement robuste par la médiane, pour éliminer les résidus trop importants

  31. La voie de l’ESDA ?

  32. Démo Lowess, filtres robustes sur données

  33. ESDA : outils existants

  34. Question :Comment lisser, homogénéiser, simplifieretanalyser à travers les échelles... un phénomène observé ?

  35. Filtres spatiaux robustes

  36. X+1 X-1 X-2 X+2 X a=5, t=2 Principe • On promène un filtre d’amplitude a choisi par l’utilisateur • En chaque valeur de la série, on applique la fonction f (pour nous la médiane) :

  37. Médiane mobile

  38. Filtres spatiaux Même principe que sur série, mais s’applique en 2D Distance Degré de contiguïté

  39. 1 2 3 5 4 Contiguïté Matrice de contiguïté (i,j) 5 zones J I Cij = 1 si i et j ont une frontière commune 0 sinon On peut aussi définir des degrés de contiguïté :- d'ordre k (supérieur à 1) - d'ordre infèrieur à k

  40. 1 2 3 5 4 Distance Matrice de contiguïté (i,j) 5 zones J I a = 1 Cij = 1/daij si i ¹ j avec a > 1 0 sinon On peut aussi d₫finir des pond₫rations dans la distance en jouant sur a

  41. Filtres spatiaux

  42. Estimateurs de densité Application aux accidents de la route en 1996 dans la CUDL A. Banos, F. Huguenin-Richard, 1999 Source : CUDL, 1996

  43. Estimation de densité par fonction de Kernelet les fenêtres mobiles adaptatives • Principe général : - estimation en tout point de l’espace de l’intensité d’un phénomène (nombre d’accidents) - balayage systématique de la zone d’étude par une fenêtre circulaire mobile de rayon r défini par l’utilisateur ou auto-adaptative - pondération du nombre d’accidents en fonction de la distance de chaque accident au centre de la fenêtre circulaire D’après Bailey T., Gatrell, A., 1995 A. Banos, F. Huguenin-Richard, 1999

  44. Estimation de densités locales. Représentation surfacique Densités estimées à partir de 20 000 fenêtres mobiles fixes de rayon 1000 m Densités estimées à partir de 20 000 fenêtres mobiles adaptatives de rayon 1000 m A. Banos, F. Huguenin-Richard, 1999 Source : CUDL, 1996

  45. Estimation de densités locales. Représentation 3D Densités estimées à partir de 20 000 fenêtres mobiles fixes de rayon 1000 m Densités estimées à partir de 20 000 fenêtres mobiles adaptatives de rayon 1000 m A. Banos, F. Huguenin-Richard, 1999 Source : CUDL, 1996

  46. Les clusters Population de référence • Soit une population de référence : l’ensemble des accidents en 1996 dans la Cudl • Extraction d’une sous-population : les accidents ayant impliqué au moins un piéton enfant • Constat visuel : forme de la distribution spatiale des 2 semis de points semble identique • Question : - existent-t ils dans la sous-population des concentrations locales non identifiables à l’œil nu ? Sous-population A. Banos, F. Huguenin-Richard, 1999

  47. Principe de la méthode des clusters • Comparaison statistique de la distribution spatiale de la sous-population avec sa distribution théorique associée, construite sous hypothèse d’une répartition spatiale aléatoire • Application de la loi de Poisson pour tester la significativité des écarts observés entre les 2 distributions • Couverture de la zone d’étude par des fenêtres mobiles circulaires - nombre défini par l’utilisateur - rayon variable, choisi au hasard dans un intervalle fixé par l’utilisateur

  48. Identification de concentrations locales P(,) < 0.05 P(,) < 0.01 P(,) < 0.005 P(,) < 0.001 A. Banos, F. Huguenin-Richard, 1999

  49. Démo Filtres spatiaux robustes

  50. Question :Comment quantifier la variation d’un phénomène dans l’espace, à travers les échelles, en changeant de résolution spatiale ?

More Related