1 / 54

OUTILS STATISTIQUES ET ANALYSES DE DONNEES

OUTILS STATISTIQUES ET ANALYSES DE DONNEES. Mutations des Territoires en Europe – CNRS/UMR 5045. DEA A.T.R.E. - Année 2003-2004. Lala RAZAFIMAHEFA. 1 ère partie - EXPLORATION STATISTIQUE DES DONNEES AVEC EXCEL. 1. PRESENTATION DES DONNEES 2. NATURE DES VARIABLES

Download Presentation

OUTILS STATISTIQUES ET ANALYSES DE DONNEES

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. OUTILS STATISTIQUESET ANALYSES DE DONNEES Mutations des Territoires en Europe – CNRS/UMR 5045 DEA A.T.R.E. - Année 2003-2004 Lala RAZAFIMAHEFA

  2. 1ère partie - EXPLORATION STATISTIQUE DES DONNEES AVEC EXCEL 1. PRESENTATION DES DONNEES 2. NATURE DES VARIABLES 2.1. variables continues ou quantitatives 2.2. variables nominales ou qualitatives 3. CODAGE DES DONNEES Exploitation des questionnaires 4. REPRESENTATION GRAPHIQUE DES DONNEES 4.1. une variable continue 4.2. deux variables continues 4.3. trois variables continues 4.4. une variable nominale 4.5. deux variables nominales 5. DISCRETISATION D'UNE VARIABLE CONTINUE 5.1. visualiser la distribution 5.2. découpage en intervalles d'amplitudes égales 5.3. découpage selon les quantiles 5.4. transformation en progression géométrique 5.5. découpage par seuils naturels 5.6. découpage standard en utilisant la moyenne et l'écart-type 5.7. transformation en distribution lognormale 6. INTENSITE DES RELATIONS ENTRE LES VARIABLES 6.1. entre deux variables continues 6.2. entre deux variables nominales 6.3. caractérisation d'une modalité par une autre modalité 6.4. entre une variable continue et une variable nominale 6.5. caractérisation d'une modalité par une variable continue

  3. en colonnes, les variables en lignes, les individus PRÉSENTATION DES DONNÉES Sous forme de tableau...

  4. NATURE DES VARIABLESVariables continues ou quantitatives moyenne =moyenne(B2:B11) minimum =min(B2:B11) maximum =max(B2:B11) écart-type =ecartypep(B2:B11) étendue maximum-minimum valeurs mesurables  valeur moyenne, dispersion

  5. NATURE DES VARIABLESVariables continues ou quantitatives densité99 =D2:B2 varpop9099 =(D2-C2)*100/C2 créer des variables pertinentes densité, taux, variation, évolution, indice...

  6. NATURE DES VARIABLES Variables nominales ou qualitatives si =si(condition;option1;option2) 0 - 5 ans 5 - 10 ans 10 - 15 ans 15 - 20 ans moins de 20 ans et =et(condition1;condition2;...) ou =ou(condition1;condition2;...) concaténer =concatener(chaine1;chaine2;...) ou =val1&val2&val3&... catégories ou modalités  proportions créer des variables pertinentes récapituler, affiner, croiser...

  7. CODAGE DES DONNEES Réponses simples questionnaire 1 âge :  - de 25 ans  26 - 30 ans  31 - 35 ans  36 - 40 ans  + de 40 ans questionnaire 2 âge :  - de 25 ans  26 - 30 ans  31 - 35 ans  36 - 40 ans  + de 40 ans questionnaire 3 âge :  - de 25 ans  26 - 30 ans  31 - 35 ans  36 - 40 ans  + de 40 ans  on ne peut cocher qu'une réponse et une seule parmi n  une variable nominale à n modalités, chaque modalité correspondant à une réponse

  8. CODAGE DES DONNEESRéponses multiples, sans ordre x x x x questionnaire 2 loisirs en week-end : cinéma discothèque sports pique-nique sortie culturelle autres questionnaire 3 loisirs en week-end : cinéma discothèque sports pique-nique sortie culturelle autres questionnaire 1 loisirs en week-end : cinéma discothèque sports pique-nique sortie culturelle autres x x x  on peut cocher 0 ou plusieurs réponses parmi n, sans accorder un ordre de préférence aux réponses  n variables booléennes, chaque variable correspondant à une réponse et recevant la valeur vrai si la case a été cochée, faux sinon

  9. CODAGE DES DONNEESRéponses multiples, avec ordre 3 3 2 questionnaire 1 espace rural : agriculture sports espace de loisirs espace vert résidence autres questionnaire 3 espace rural : agriculture sports espace de loisirs espace vert résidence autres questionnaire 2 espace rural : agriculture sports espace de loisirs espace vert résidence autres 3 2 1 2 1 1  on doit cocher k réponses parmi n, en accordant un ordre de préférence aux réponses  n variables continues ou nominales, la valeur de chaque variable correspondant à son ordre de préférence

  10. REPRESENTATION GRAPHIQUE DES DONNEESUne variable continue  une variable : tri  courbes

  11. REPRESENTATION GRAPHIQUE DES DONNEESDeux variables continues  une variable : tri  courbes  deux variables :  nuages de points

  12. REPRESENTATION GRAPHIQUE DES DONNEESTrois variables continues  une variable : tri  courbes  deux variables :  nuages de points  trois variables :  bulles

  13. REPRESENTATION GRAPHIQUE DES DONNEESUne variable nominale  une variable : tri-à-plat  histogrammes, secteurs

  14. REPRESENTATION GRAPHIQUE DES DONNEESDeux variables nominales  une variable : tri-à-plat  histogrammes, secteurs • deux variables : • croisements • histogrammes 3D, radars

  15. DISCRETISATION D'UNE VARIABLE CONTINUE :but, procédures But : créer des classes de valeurs pertinentes dans le cadre de l'analyse Procédures : 1. Visualiser la distribution 2. Choisir la méthode selon l'allure de la distribution

  16. amplitude de l'intervalle min =C2 borne7=borne6+intervalle =E8+$C$5 Fonction matricielle Fréquence DISCRETISATION D'UNE VARIABLE CONTINUEVisualiser la distribution  découper les valeurs en intervalles d'amplitudes égales  calculer la fréquence des valeurs  afficher l'histogramme

  17. DISCRETISATION D'UNE VARIABLE CONTINUEChoisir la méthode selon l'allure de la distribution  distribution uniforme  découpage en intervalles d'amplitudes égales  distribution dissymétrique  découpage selon les quantiles  transformation en progression géométrique  transformation en distribution lognormale  distribution pluri-modale  découpage par seuils naturels  distribution normale  découpage standard en utilisant la moyenne et l'écart-type

  18. DISCRETISATION D'UNE VARIABLE CONTINUEDécoupage en intervalles d'amplitudes égales  distribution uniforme  crée des classes équilibrées en effectifs

  19. fonction centile =CENTILE(A2:A51;G4) DISCRETISATION D'UNE VARIABLE CONTINUEDécoupage selon les quantiles  distribution dissymétrique quelconque  crée des classes selon le découpage désiré en pourcentages

  20. DISCRETISATION D'UNE VARIABLE CONTINUEDécoupage par seuils naturels  distribution pluri-modale  crée des classes qui respectent au mieux le regroupement naturel des valeurs

  21. Fixer le nombre de classes k calculer la raison r r = 10(log max - log min)/k calculer les valeurs des bornes bi = min.ri DISCRETISATION D'UNE VARIABLE CONTINUETransformation en progression géométrique  distribution très dissymétrique  crée des classes équilibrées en effectifs

  22. DISCRETISATION D'UNE VARIABLE CONTINUEDécoupage standard en utilisant la moyenne et l'écart-type  distribution normale  fait apparaître les valeurs extrêmes de la distribution

  23. Découpage standard des valeurs logarithmiques Calcul des valeurs des bornes par la fonction puissance =PUISSANCE(10;D5) fonction logarithme =LOG(A2) DISCRETISATION D'UNE VARIABLE CONTINUETransformation en distribution lognormale  distribution dissymétrique vers les faibles valeurs  redresse les classes vers une distribution normale

  24. =COEFFICIENT.CORRELATION(B2:B11;C2:C11) INTENSITE DES RELATIONS ENTRE LES VARIABLESentre deux variables continues  corrélation

  25. tableau croisé contenant les valeurs observées calcul des valeurs théoriques en cas d'indépendance total ligne * total colonne total général 47,20=(220*127)/592 probabilité de se tromper en affirmant que les deux var. sont liées =TEST.KHIDEUX(E3:H6;E12:H15) INTENSITE DES RELATIONS ENTRE LES VARIABLESentre deux variables nominales tableau croisé  test du Khi2

  26. probabilité de se tromper en affirmant que les 2 modalités sont liées INTENSITE DES RELATIONS ENTRE LES VARIABLEScaractérisation d'une modalité par une autre modalité  loi hypergéométrique

  27. Outils  Utilitaire d'analyse...  Analyse de variance: un facteur Statistique de Fisher probabilité de se tromper en affirmant que les variables sont liées INTENSITE DES RELATIONS ENTRE LES VARIABLESentre une variable continue et une variable nominale  statistique de Fisher associée à une analyse de variance

  28. tableau croisé contenant : - le tri à plat, - les moyennes, - les variances (fonction var.p) variance de la moyenne dans la classe : sk² = (n-nk)*s²/((n-1)*nk) évaluation de l'écart entre les moyennes : tk=(mk-m)/sk probabilité de se tromper en affirmant que la moyenne dans la classe est différente de la moyenne générale =1-LOI.NORMALE.STANDARD(E17) INTENSITE DES RELATIONS ENTRE LES VARIABLEScaractérisation d'une modalité par une variable continue  test de comparaison de moyennes

  29. 2ème partie - ANALYSE EXPLORATOIRE MULTIDIMENSIONNELLE 1. GENERALITES 1.1. Objectifs 1.2. Les variables de mesures de l’information 1.3. Variables actives et illustratives 1.4. Caractérisation, valeur-test et probabilités 2. L’ANALYSE EN COMPOSANTES PRINCIPALES (ACP) 3. L’ANALYSE FACTORIELLE DES CORRESPONDANCES (AFC) 4. L’ANALYSE DES CORRESPONDANCES MULTIPLES (ACM) 5. LA CLASSIFICATION 5.1. Objectifs 5.2. Classification ascendante hiérarchique (CAH) 5.3. Classification autour de centres mobiles (CCM) 5.4. Classification mixte (Hybrid clustering) 5.4.1. Groupements stables 5.4.2. Consolidation 5.4.3. Processus de la classification mixte

  30. GENERALITES : objectifs, vocabulaire • Objectifs • Se ramener à des représentations planes choisies "judicieusement", appelées "plans factoriels" • Le centre de gravité du nuage de points se situe à l'origine du plan factoriel • Les variables de mesure de l'information : vocabulaire • Inertie totale : quantité d'information totale contenue dans le nuage de points • Poids relatif : part prise par un point à l'inertie totale • Distorsion : mesure de la distance d'un point au centre de gravité du nuage • Valeur propre associée à un axe factoriel : part de l'inertie totale portée par l'axe factoriel • Cosinus carré : mesure de la qualité de représentation d'un point dans le plan factoriel Un point est d'autant plus proche du plan que son cosinus carré est grand. Un point ne peut s'interpréter sur un plan que s'il y est bien représenté. • Contribution d'un point à la construction d'un axe factoriel : elle est plus ou moins grande selon que le point étire ou non le nuage dans la direction de cet axe.

  31. Variables actives et illustratives • Regrouper les variables par "thèmes" Mêler dans l'analyse des variables comparables et "cohérentes entre elles" • variables actives : celles qui participent à la détermination des plans factoriels • variables illustratives : ne participent pas à la détermination des plans factoriels, mais peuvent être projetées sur ces plans pour apporter des informations supplémentaires dans les caractérisations. • Caractérisation, valeur-test et probabilités • Caractérisation : analyse de l'intensité de la liaison d'une entité avec les autres variables Mise en jeu de différentes méthodes statistiques • A chaque caractérisation correspond un critère de sélection statistique (cf. 1ère partie – paragraphe 6.) • Ce critère de sélection permet de ranger les variables selon leur importance dans la caractérisation • variables actives : précision • variables illustratives : probabilité, risque • Valeur-test : mesure la distance au centre de gravité en nombre d'écarts-type d'une loi normale GENERALITES : rôle des variables, caractérisation

  32. ANALYSE EN COMPOSANTES PRINCIPALES • Tableau de données en entrée : • en lignes, les individus • en colonnes, des variables quantitatives • donnée : valeur continue de chaque variable pour chaque individu • Résultats d'une ACP • Cercle des corrélations : permet d'interpréter les liaisons entre les variables et de donner un sens aux axes factoriels • Représentation des individus dans le plan factoriel précédemment décrit. • Application : enquête budget-temps multimédia 1991/1992 • Connaître les associations entre les temps consacrés à différentes activités • Étudier les liens entre ces familles d'activités et quelques caractéristiques des individus

  33. ANALYSE EN COMPOSANTES PRINCIPALESLe cercle des corrélations activité professionnelle activités extérieures ou d'ouverture activités intérieures activités de temps libre ou disponible

  34. ANALYSE EN COMPOSANTES PRINCIPALESReprésentation des individus et des modalités illustratives

  35. ANALYSE FACTORIELLE DES CORRESPONDANCES • Tableau de données en entrée : croisement de deux variables qualitatives • en lignes, les modalités de la première variable (individus) • en colonnes, les modalités de la deuxième variable (fréquences) • donnée : effectif résultant du croisement • Résultats d'une AFC • Représentations séparées des variables et des individus afin de donner un sens aux axes • Représentation simultanée des deux nuages de points pour analyser les proximités entre les modalités. • Application : recensement de 1968 • Interpréter les différences socioéconomiques selon les régions

  36. ANALYSE FACTORIELLE DES CORRESPONDANCESReprésentation des individus et des variables actives

  37. ANALYSE DES CORRESPONDANCES MULTIPLES • Tableau de données en entrée : • en lignes, les individus • en colonnes, des variables qualitatives • donnée : modalité d'appartenance de l'individu pour chaque variable • Résultats d'une ACM • Représentation des variables afin de donner un sens aux axes • Représentation simultanée des individus et des variables pour mettre en évidence les proximités entre ces individus et les modalités qu'ils ont choisies • Application : Dynamique touristique dans les communes des Pyrénées- Orientales (Source : inventaire communal 1998) • Analyser l'intensité touristique et voir quelles sont les causes d'attraction touristique qui y sont liées

  38. ANALYSE DES CORRESPONDANCES MULTIPLESTri à plat des variables actives (1) TRI-A-PLAT DES QUESTIONS ACTIVES ----------------------------+-----------------+----------------------------------------------------------------------------------- MODALITES | AVANT APUREMENT | APRES APUREMENT IDENT LIBELLE | EFF. POIDS | EFF. POIDS HISTOGRAMME DES POIDS RELATIFS ----------------------------+-----------------+----------------------------------------------------------------------------------- 24 . janvier MO01 - janvier=0 | 149 149.00 | 149 149.00 **************************************** MO02 - janvier=1 | 53 53.00 | 53 53.00 *************** MO03 - janvier=2à4 | 23 23.00 | 23 23.00 ******* ----------------------------+-----------------+----------------------------------------------------------------------------------- 25 . février MO01 - février=0 | 113 113.00 | 113 113.00 ******************************* MO02 - février=1 | 63 63.00 | 63 63.00 ***************** MO03 - février=2 | 18 18.00 | 18 18.00 ***** MO04 - février=3à4 | 31 31.00 | 31 31.00 ********* ----------------------------+-----------------+----------------------------------------------------------------------------------- 26 . mars MO01 - mars=0 | 128 128.00 | 128 128.00 *********************************** MO02 - mars=1 | 67 67.00 | 67 67.00 ****************** MO03 - mars=2à4 | 30 30.00 | 30 30.00 ********* ----------------------------+-----------------+----------------------------------------------------------------------------------- 27 . avril MO01 - avril=0 | 77 77.00 | 77 77.00 ********************* MO02 - avril=1 | 76 76.00 | 76 76.00 ********************* MO03 - avril=2à3 | 72 72.00 | 72 72.00 ******************** ----------------------------+-----------------+----------------------------------------------------------------------------------- 28 . mai MO01 - mai=0 | 85 85.00 | 85 85.00 *********************** MO02 - mai=1 | 84 84.00 | 84 84.00 *********************** MO03 - mai=2à3 | 56 56.00 | 56 56.00 *************** ----------------------------+-----------------+----------------------------------------------------------------------------------- 29 . juin MO01 - juin=0 | 31 31.00 | 31 31.00 ********* MO02 - juin=1 | 64 64.00 | 64 64.00 ****************** MO03 - juin=2 | 79 79.00 | 79 79.00 ********************** MO04 - juin=3à4 | 51 51.00 | 51 51.00 ************** ----------------------------+-----------------+-----------------------------------------------------------------------------------

  39. ANALYSE DES CORRESPONDANCES MULTIPLESTri à plat des variables actives (2) ----------------------------+-----------------+----------------------------------------------------------------------------------- 30 . juillet MO01 - juillet=0à1 | 15 15.00 | 15 15.00 ***** MO02 - juillet=2 | 43 43.00 | 43 43.00 ************ MO03 - juillet=3 | 81 81.00 | 81 81.00 ********************** MO04 - juillet=4 | 86 86.00 | 86 86.00 *********************** ----------------------------+-----------------+----------------------------------------------------------------------------------- 31 . août MO01 - août=0à1 | 15 15.00 | 15 15.00 ***** MO02 - août=2 | 28 28.00 | 28 28.00 ******** MO03 - août=3 | 58 58.00 | 58 58.00 **************** MO04 - août=4 | 124 124.00 | 124 124.00 ********************************** ----------------------------+-----------------+----------------------------------------------------------------------------------- 32 . septembre BF_1 - septembr=0 | 22 22.00 | 22 22.00 ****** BF_2 - septembr=1 | 49 49.00 | 49 49.00 ************** BF_3 - septembr=2 | 82 82.00 | 82 82.00 ********************** BF_4 - septembr=3 | 54 54.00 | 54 54.00 *************** BF_5 - septembr=4 | 18 18.00 | 18 18.00 ***** ----------------------------+-----------------+----------------------------------------------------------------------------------- 33 . octobre BG_1 - octobre=0 | 99 99.00 | 99 99.00 *************************** BG_2 - octobre=1 | 66 66.00 | 66 66.00 ****************** BG_3 - octobre=2 | 47 47.00 | 47 47.00 ************* BG_4 - octobre=3 | 13 13.00 | 13 13.00 **** ----------------------------+-----------------+----------------------------------------------------------------------------------- 34 . novembre MO01 - novembre=0 | 147 147.00 | 147 147.00 **************************************** MO02 - novembre=1 | 60 60.00 | 60 60.00 ***************** MO03 - novembre=2à3 | 18 18.00 | 18 18.00 ***** ----------------------------+-----------------+----------------------------------------------------------------------------------- 35 . décembre MO01 - décembre=0 | 102 102.00 | 102 102.00 **************************** MO02 - décembre=1 | 70 70.00 | 70 70.00 ******************* MO03 - décembre=2 | 30 30.00 | 30 30.00 ********* MO04 - décembre=3à4 | 23 23.00 | 23 23.00 ******* ----------------------------+-----------------+-----------------------------------------------------------------------------------

  40. ANALYSE DES CORRESPONDANCES MULTIPLES Représentation des variables actives dans le plan (1,2) ? Intensité faible Intensité forte Été non-attractif

  41. ANALYSE DES CORRESPONDANCES MULTIPLESReprésentation des variables actives dans le plan (1,3) Arrière-saison attractive Intensité faible Intensité forte Hiver attractif

  42. ANALYSE DES CORRESPONDANCES MULTIPLESReprésentation des variables actives dans le plan (2,3) Arrière-saison attractive Été non-attractif ? Hiver attractif

  43. ANALYSE DES CORRESPONDANCES MULTIPLESReprésentation des variables illustratives

  44. ANALYSE DES CORRESPONDANCES MULTIPLESReprésentation simultanée des individus et des variables actives Arrière-saison attractive Intensité faible Intensité forte Hiver attractif

  45. ANALYSE DES CORRESPONDANCES MULTIPLESSuivie d’une classification

  46. ANALYSE DES CORRESPONDANCES MULTIPLEStourisme PO : récapitulatif

  47. ANALYSE DES CORRESPONDANCES MULTIPLESCaractérisation de la typologie (1) CLASSE 1 / 5 ---------------------------------------------------------------------------------------------------------------------------------- V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES ---------------------------------------------------------------------------------------------------------------------------------- 19.56 CLASSE 1 / 5 bb1b 44 10.38 0.000 74.51 86.36 22.67 juin=3à4 juin MO04 51 9.41 0.000 66.07 84.09 24.89 mai=2à3 mai MO03 56 7.60 0.000 45.35 88.64 38.22 juillet=4 juillet MO04 86 7.23 0.000 50.75 77.27 29.78 mars=1 mars MO02 67 6.98 0.000 55.56 68.18 24.00 septembr=3 septembre BF_4 54 6.38 0.000 33.87 95.45 55.11 août=4 août MO04 124 6.23 0.000 55.32 59.09 20.89 octobre=2 octobre BG_3 47 6.09 0.000 44.44 72.73 32.00 avril=2à3 avril MO03 72 5.78 0.000 46.03 65.91 28.00 février=1 février MO02 63 5.33 0.000 45.00 61.36 26.67 novembre=1 novembre MO02 60 5.26 0.000 47.17 56.82 23.56 janvier=1 janvier MO02 53 5.20 0.000 41.43 65.91 31.11 décembre=1 décembre MO02 70 4.99 0.000 84.62 25.00 5.78 octobre=3 octobre BG_4 13 3.76 0.000 28.93 79.55 53.78 monument=1 monuments AJ_2 121 3.41 0.000 66.67 18.18 5.33 congrès=1 congrès AV_2 12 3.34 0.000 55.56 22.73 8.00 novembre=2à3 novembre MO03 18 3.34 0.000 55.56 22.73 8.00 septembr=4 septembre BF_5 18 3.30 0.000 46.43 29.55 12.44 casino=1 casino AL_2 28 3.00 0.001 32.84 50.00 29.78 festival=1 festivals AQ_2 67 2.83 0.002 27.78 68.18 48.00 curiosit=1 curiosités naturelles AI_2 108 2.20 0.014 33.33 31.82 18.67 commerce=1 commerces AT_2 42 2.07 0.019 30.77 36.36 23.11 thermes=1 thermes AK_2 52 1.92 0.027 31.11 31.82 20.00 gastrono=1 gastronomie AM_2 45 1.86 0.031 28.81 38.64 26.22 mer=1 mer AA_2 59 ---------------------------------------------------------------------------------------------------------------------------------- CLASSE 2 / 5 ---------------------------------------------------------------------------------------------------------------------------------- V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES ---------------------------------------------------------------------------------------------------------------------------------- 9.33 CLASSE 2 / 5 bb2b 21 8.91 0.000 78.26 85.71 10.22 janvier=2à4 janvier MO03 23 8.56 0.000 63.33 90.48 13.33 mars=2à4 mars MO03 30 8.45 0.000 61.29 90.48 13.78 février=3à4 février MO04 31 7.78 0.000 69.57 76.19 10.22 décembre=3à4 décembre MO04 23 5.66 0.000 26.39 90.48 32.00 avril=2à3 avril MO03 72 3.98 0.000 16.13 95.24 55.11 août=4 août MO04 124 3.82 0.000 25.00 61.90 23.11 thermes=1 thermes AK_2 52 3.39 0.000 14.39 95.24 61.78 montagne=1 montagne AB_2 139 3.29 0.000 24.44 52.38 20.00 gastrono=1 gastronomie AM_2 45 3.23 0.001 13.99 95.24 63.56 vignoble=0 vignoble AN_1 143 3.14 0.001 15.38 85.71 52.00 forêt=1 forêt AC_2 117 3.01 0.001 17.44 71.43 38.22 juillet=4 juillet MO04 86 2.76 0.003 33.33 28.57 8.00 septembr=4 septembre BF_5 18 2.52 0.006 13.64 85.71 58.67 pêche=1 pêche AG_2 132 2.52 0.006 14.81 76.19 48.00 curiosit=1 curiosités naturelles AI_2 108 2.22 0.013 17.19 52.38 28.44 campagne=0 campagne AD_1 64 2.19 0.014 19.15 42.86 20.89 octobre=2 octobre BG_3 47 1.95 0.025 16.67 47.62 26.67 novembre=1 novembre MO02 60 1.87 0.031 21.43 28.57 12.44 casino=1 casino AL_2 28 1.79 0.037 16.67 42.86 24.00 septembr=3 septembre BF_4 54 1.71 0.043 14.29 57.14 37.33 mai=1 mai MO02 84 ----------------------------------------------------------------------------------------------------------------------------------

  48. ANALYSE DES CORRESPONDANCES MULTIPLESCaractérisation de la typologie (2) CLASSE 3 / 5 ---------------------------------------------------------------------------------------------------------------------------------- V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES ---------------------------------------------------------------------------------------------------------------------------------- 31.56 CLASSE 3 / 5 bb3b 71 7.64 0.000 63.41 73.24 36.44 septembr=2 septembre BF_3 82 6.40 0.000 63.64 59.15 29.33 octobre=1 octobre BG_2 66 6.22 0.000 58.02 66.20 36.00 juillet=3 juillet MO03 81 6.13 0.000 58.23 64.79 35.11 juin=2 juin MO03 79 5.60 0.000 54.76 64.79 37.33 mai=1 mai MO02 84 4.65 0.000 52.63 56.34 33.78 avril=1 avril MO02 76 4.08 0.000 66.67 28.17 13.33 décembre=2 décembre MO03 30 2.97 0.002 48.28 39.44 25.78 août=3 août MO03 58 2.89 0.002 38.85 76.06 61.78 montagne=1 montagne AB_2 139 2.77 0.003 40.17 66.20 52.00 forêt=1 forêt AC_2 117 1.97 0.025 55.56 14.08 8.00 février=2 février MO03 18 ---------------------------------------------------------------------------------------------------------------------------------- CLASSE 4 / 5 ---------------------------------------------------------------------------------------------------------------------------------- V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES ---------------------------------------------------------------------------------------------------------------------------------- 32.89 CLASSE 4 / 5 bb4b 74 10.06 0.000 97.67 56.76 19.11 juillet=2 juillet MO02 43 8.64 0.000 85.71 56.76 21.78 septembr=1 septembre BF_2 49 8.18 0.000 61.62 82.43 44.00 octobre=0 octobre BG_1 99 8.12 0.000 68.83 71.62 34.22 avril=0 avril MO01 77 8.12 0.000 65.88 75.68 37.78 mai=0 mai MO01 85 8.03 0.000 100.00 37.84 12.44 août=2 août MO02 28 6.40 0.000 50.00 86.49 56.89 mars=0 mars MO01 128 5.75 0.000 45.58 90.54 65.33 novembre=0 novembre MO01 147 5.39 0.000 60.94 52.70 28.44 juin=1 juin MO02 64 5.23 0.000 44.30 89.19 66.22 janvier=0 janvier MO01 149 4.62 0.000 47.01 74.32 52.00 curiosit=0 curiosités naturelles AI_1 117 4.40 0.000 46.90 71.62 50.22 février=0 février MO01 113 4.28 0.000 48.04 66.22 45.33 décembre=0 décembre MO01 102 3.80 0.000 46.15 64.86 46.22 monument=0 monuments AJ_1 104 3.72 0.000 37.06 98.65 87.56 casino=0 casino AL_1 197 3.40 0.000 38.73 90.54 76.89 thermes=0 thermes AK_1 173 3.10 0.001 37.78 91.89 80.00 gastrono=0 gastronomie AM_1 180 2.53 0.006 54.84 22.97 13.78 juin=0 juin MO01 31 2.39 0.008 43.02 50.00 38.22 montagne=0 montagne AB_1 86 2.38 0.009 46.55 36.49 25.78 août=3 août MO03 58 2.21 0.014 42.68 47.30 36.44 vignoble=1 vignoble AN_2 82 2.12 0.017 35.32 95.95 89.33 parc nat=0 parc naturel AE_1 201 2.06 0.020 37.34 79.73 70.22 festival=0 festivals AQ_1 158 1.70 0.045 38.89 56.76 48.00 forêt=0 forêt AC_1 108 ----------------------------------------------------------------------------------------------------------------------------------

  49. ANALYSE DES CORRESPONDANCES MULTIPLESCaractérisation de la typologie (3) CLASSE 5 / 5 ---------------------------------------------------------------------------------------------------------------------------------- V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES ---------------------------------------------------------------------------------------------------------------------------------- 6.67 CLASSE 5 / 5 bb5b 15 9.96 0.000 100.00 100.00 6.67 juillet=0à1 juillet MO01 15 9.96 0.000 100.00 100.00 6.67 août=0à1 août MO01 15 7.33 0.000 59.09 86.67 9.78 septembr=0 septembre BF_1 22 5.89 0.000 38.71 80.00 13.78 juin=0 juin MO01 31 5.03 0.000 17.44 100.00 38.22 montagne=0 montagne AB_1 86 4.58 0.000 15.15 100.00 44.00 octobre=0 octobre BG_1 99 4.38 0.000 16.47 93.33 37.78 mai=0 mai MO01 85 4.07 0.000 16.88 86.67 34.22 avril=0 avril MO01 77 3.62 0.000 11.72 100.00 56.89 mars=0 mars MO01 128 3.55 0.000 12.96 93.33 48.00 forêt=0 forêt AC_1 108 3.14 0.001 12.75 86.67 45.33 décembre=0 décembre MO01 102 3.01 0.001 10.20 100.00 65.33 novembre=0 novembre MO01 147 2.95 0.002 10.07 100.00 66.22 janvier=0 janvier MO01 149 2.88 0.002 12.90 80.00 41.33 pêche=0 pêche AG_1 93 2.75 0.003 11.50 86.67 50.22 février=0 février MO01 113 2.35 0.009 13.85 60.00 28.89 chasse=0 chasse AH_1 65 2.13 0.017 8.67 100.00 76.89 thermes=0 thermes AK_1 173 1.81 0.035 9.76 80.00 54.67 divertis=0 divertissements AU_1 123 ----------------------------------------------------------------------------------------------------------------------------------

  50. LA CLASSIFICATION • Faire des typologies • On prend en compte toutes les variables • Chaque groupe doit être le plus homogène possible • Les groupes doivent être les plus distincts possibles • Deux méthodes classiques : • Classification ascendante hiérarchique (CAH) • Classification autour de centres mobiles (CCM) • Une méthode mixte : "hybrid clustering"

More Related