1.16k likes | 1.34k Views
Analyse Exploratoire des Données Géographiques ESDA Didier JOSSELIN ESPACE, UMR 6012, CNRS, Avignon, France didier.josselin@univ-avignon.fr Tél.: 04 90 16 26 93. P L A N. Introduction Quelques outils de base de l’EDA Méthodes à noyaux Filtres spatiaux robustes Variogrammes robustes
E N D
Analyse Exploratoire des Données GéographiquesESDADidier JOSSELINESPACE, UMR 6012, CNRS, Avignon, Francedidier.josselin@univ-avignon.frTél.: 04 90 16 26 93
P L A N Introduction Quelques outils de base de l’EDA Méthodes à noyaux Filtres spatiaux robustes Variogrammes robustes Autocorrélation spatiale Filtres adaptatifs Médienne, Distogramme Rapport SIG / outils de Statistique ARPEGE, LAVSTAT Conclusion
Exploratory Spatial Data Analysis :Application de l’EDA à l’analyse spatiale
L’enjeux principal de l’analyse spatiale et donc … de l’ESDA - L’analyse d’ensemblelocale d’objets géographiques… points surfaces lignes objets complexes - Pour rechercher les : relations statistiques relations spatiales relations à travers les échelles relations « statistico-spatiales » à travers…
Question : quels sont les qualités et les défauts de l’histogramme ?
+ Les qualités ... • Mode de représentation synthétique • Mathématiquement bien étudié et établi • Permet de nombreux tests de dépendance statistique (contingence) - Méthodes de discrétisations « automatiques »
- Les défauts ... • Sensibilité au nombre de classes • Mélange d’individus différents par classe • Contrainte de surfaces proportionnelles aux fréquences formes « bizarres » - Méthodes de discrétisations « automatiques »
Réponse apportée par des graphiques simples Dot Plot Stacked Plot Jittered Plot
Réponse apportée par la boîte à pattes proches intérieurs adjaçents lointains Q1 Q3 Q2 min max Distance Inter Quartile (dIQ) 1,5 x (Q3-Q2)
Réponse apportée par l’histogramme dynamique (ex : le distogramme, Josselin, 1999)
Question :quels sont les qualités et les défauts des méthodes classiques de comparaison de distributions (Khi2, Kolmogorov-Smirnov ...) sur tableau de contingence ?
+ Les qualités ... • Utilisent l’histogramme • Sont synthétiques et font appel à des tests de probabilité • Mathématiquement bien étudié et établi
- Les défauts ... • Sensibilité au nombre de cases • On perd l’individu • On ne peut pas évaluer la forme de la distribution - Plusieurs valeurs peuvent correspondre à des réalités significativement différentes
La réponse du QQ Plot Valeurs xi classées par ordre croissant (i est l’indice) Quantiles théoriques suivant une loi normale
Question :quels sont les qualités et les défauts des régressions de type “moindres carrés”, linéaires ou non linéaires ?
Les mêmes qualités que d’habitude ... et les mêmes défauts ... • Sensibilité aux valeurs extrêmes… • Nécessité de normalité des résidus et bonne répartitions des individus en X et Y
Une première réponse : la ré-expression des données Puissance Transformée 4X4 3 X3 2 X2 1 X ½ racine(X) 0 log(X) -½ -1/racine(X) -1 -1/X -2 -1/X2 -3 -1/X3 Log(x) L’échelle de puissance de Tukey
La réponse de la “droite résistante” à la régression linéaire (ex :grigri-plot, A. Banos, 1999) Résistant line Régression Moindres carrés
Principe de la droite résistante • On regroupe les individus en 3 paquets d’effectifs égaux (en fonction de X) • On calcule pour chaque groupe l’individu robuste {médiane des X, médiane des Y} • On ajuste la droite sur les 2 points médians extrêmes, puis sur le point médian central
La réponse du “Lowess” à la régression non linéaire
Principe du lowess (lissage robuste d’un nuage de points) • On définit une distance et on calcule, pour chaque point les poids des points voisins • On calcule la régression locale sur chaque point (polynôme) • On calcule les résidus et on applique un ajustement robuste par la médiane, pour éliminer les résidus trop importants
Question :Comment lisser, homogénéiser, simplifieretanalyser à travers les échelles... un phénomène observé ?
X+1 X-1 X-2 X+2 X a=5, t=2 Principe • On promène un filtre d’amplitude a choisi par l’utilisateur • En chaque valeur de la série, on applique la fonction f (pour nous la médiane) :
Filtres spatiaux Même principe que sur série, mais s’applique en 2D Distance Degré de contiguïté
1 2 3 5 4 Contiguïté Matrice de contiguïté (i,j) 5 zones J I Cij = 1 si i et j ont une frontière commune 0 sinon On peut aussi définir des degrés de contiguïté :- d'ordre k (supérieur à 1) - d'ordre infèrieur à k
1 2 3 5 4 Distance Matrice de contiguïté (i,j) 5 zones J I a = 1 Cij = 1/daij si i ¹ j avec a > 1 0 sinon On peut aussi d₫finir des pond₫rations dans la distance en jouant sur a
Estimateurs de densité Application aux accidents de la route en 1996 dans la CUDL A. Banos, F. Huguenin-Richard, 1999 Source : CUDL, 1996
Estimation de densité par fonction de Kernelet les fenêtres mobiles adaptatives • Principe général : - estimation en tout point de l’espace de l’intensité d’un phénomène (nombre d’accidents) - balayage systématique de la zone d’étude par une fenêtre circulaire mobile de rayon r défini par l’utilisateur ou auto-adaptative - pondération du nombre d’accidents en fonction de la distance de chaque accident au centre de la fenêtre circulaire D’après Bailey T., Gatrell, A., 1995 A. Banos, F. Huguenin-Richard, 1999
Estimation de densités locales. Représentation surfacique Densités estimées à partir de 20 000 fenêtres mobiles fixes de rayon 1000 m Densités estimées à partir de 20 000 fenêtres mobiles adaptatives de rayon 1000 m A. Banos, F. Huguenin-Richard, 1999 Source : CUDL, 1996
Estimation de densités locales. Représentation 3D Densités estimées à partir de 20 000 fenêtres mobiles fixes de rayon 1000 m Densités estimées à partir de 20 000 fenêtres mobiles adaptatives de rayon 1000 m A. Banos, F. Huguenin-Richard, 1999 Source : CUDL, 1996
Les clusters Population de référence • Soit une population de référence : l’ensemble des accidents en 1996 dans la Cudl • Extraction d’une sous-population : les accidents ayant impliqué au moins un piéton enfant • Constat visuel : forme de la distribution spatiale des 2 semis de points semble identique • Question : - existent-t ils dans la sous-population des concentrations locales non identifiables à l’œil nu ? Sous-population A. Banos, F. Huguenin-Richard, 1999
Principe de la méthode des clusters • Comparaison statistique de la distribution spatiale de la sous-population avec sa distribution théorique associée, construite sous hypothèse d’une répartition spatiale aléatoire • Application de la loi de Poisson pour tester la significativité des écarts observés entre les 2 distributions • Couverture de la zone d’étude par des fenêtres mobiles circulaires - nombre défini par l’utilisateur - rayon variable, choisi au hasard dans un intervalle fixé par l’utilisateur
Identification de concentrations locales P(,) < 0.05 P(,) < 0.01 P(,) < 0.005 P(,) < 0.001 A. Banos, F. Huguenin-Richard, 1999
Question :Comment quantifier la variation d’un phénomène dans l’espace, à travers les échelles, en changeant de résolution spatiale ?