570 likes | 694 Views
OUTILS STATISTIQUES ET ANALYSES DE DONNEES. Mutations des Territoires en Europe – CNRS/UMR 5045. DEA A.T.R.E. - Année 2003-2004. Lala RAZAFIMAHEFA. 1 ère partie - EXPLORATION STATISTIQUE DES DONNEES AVEC EXCEL. 1. PRESENTATION DES DONNEES 2. NATURE DES VARIABLES
E N D
OUTILS STATISTIQUESET ANALYSES DE DONNEES Mutations des Territoires en Europe – CNRS/UMR 5045 DEA A.T.R.E. - Année 2003-2004 Lala RAZAFIMAHEFA
1ère partie - EXPLORATION STATISTIQUE DES DONNEES AVEC EXCEL 1. PRESENTATION DES DONNEES 2. NATURE DES VARIABLES 2.1. variables continues ou quantitatives 2.2. variables nominales ou qualitatives 3. CODAGE DES DONNEES Exploitation des questionnaires 4. REPRESENTATION GRAPHIQUE DES DONNEES 4.1. une variable continue 4.2. deux variables continues 4.3. trois variables continues 4.4. une variable nominale 4.5. deux variables nominales 5. DISCRETISATION D'UNE VARIABLE CONTINUE 5.1. visualiser la distribution 5.2. découpage en intervalles d'amplitudes égales 5.3. découpage selon les quantiles 5.4. transformation en progression géométrique 5.5. découpage par seuils naturels 5.6. découpage standard en utilisant la moyenne et l'écart-type 5.7. transformation en distribution lognormale 6. INTENSITE DES RELATIONS ENTRE LES VARIABLES 6.1. entre deux variables continues 6.2. entre deux variables nominales 6.3. caractérisation d'une modalité par une autre modalité 6.4. entre une variable continue et une variable nominale 6.5. caractérisation d'une modalité par une variable continue
en colonnes, les variables en lignes, les individus PRÉSENTATION DES DONNÉES Sous forme de tableau...
NATURE DES VARIABLESVariables continues ou quantitatives moyenne =moyenne(B2:B11) minimum =min(B2:B11) maximum =max(B2:B11) écart-type =ecartypep(B2:B11) étendue maximum-minimum valeurs mesurables valeur moyenne, dispersion
NATURE DES VARIABLESVariables continues ou quantitatives densité99 =D2:B2 varpop9099 =(D2-C2)*100/C2 créer des variables pertinentes densité, taux, variation, évolution, indice...
NATURE DES VARIABLES Variables nominales ou qualitatives si =si(condition;option1;option2) 0 - 5 ans 5 - 10 ans 10 - 15 ans 15 - 20 ans moins de 20 ans et =et(condition1;condition2;...) ou =ou(condition1;condition2;...) concaténer =concatener(chaine1;chaine2;...) ou =val1&val2&val3&... catégories ou modalités proportions créer des variables pertinentes récapituler, affiner, croiser...
CODAGE DES DONNEES Réponses simples questionnaire 1 âge : - de 25 ans 26 - 30 ans 31 - 35 ans 36 - 40 ans + de 40 ans questionnaire 2 âge : - de 25 ans 26 - 30 ans 31 - 35 ans 36 - 40 ans + de 40 ans questionnaire 3 âge : - de 25 ans 26 - 30 ans 31 - 35 ans 36 - 40 ans + de 40 ans on ne peut cocher qu'une réponse et une seule parmi n une variable nominale à n modalités, chaque modalité correspondant à une réponse
CODAGE DES DONNEESRéponses multiples, sans ordre x x x x questionnaire 2 loisirs en week-end : cinéma discothèque sports pique-nique sortie culturelle autres questionnaire 3 loisirs en week-end : cinéma discothèque sports pique-nique sortie culturelle autres questionnaire 1 loisirs en week-end : cinéma discothèque sports pique-nique sortie culturelle autres x x x on peut cocher 0 ou plusieurs réponses parmi n, sans accorder un ordre de préférence aux réponses n variables booléennes, chaque variable correspondant à une réponse et recevant la valeur vrai si la case a été cochée, faux sinon
CODAGE DES DONNEESRéponses multiples, avec ordre 3 3 2 questionnaire 1 espace rural : agriculture sports espace de loisirs espace vert résidence autres questionnaire 3 espace rural : agriculture sports espace de loisirs espace vert résidence autres questionnaire 2 espace rural : agriculture sports espace de loisirs espace vert résidence autres 3 2 1 2 1 1 on doit cocher k réponses parmi n, en accordant un ordre de préférence aux réponses n variables continues ou nominales, la valeur de chaque variable correspondant à son ordre de préférence
REPRESENTATION GRAPHIQUE DES DONNEESUne variable continue une variable : tri courbes
REPRESENTATION GRAPHIQUE DES DONNEESDeux variables continues une variable : tri courbes deux variables : nuages de points
REPRESENTATION GRAPHIQUE DES DONNEESTrois variables continues une variable : tri courbes deux variables : nuages de points trois variables : bulles
REPRESENTATION GRAPHIQUE DES DONNEESUne variable nominale une variable : tri-à-plat histogrammes, secteurs
REPRESENTATION GRAPHIQUE DES DONNEESDeux variables nominales une variable : tri-à-plat histogrammes, secteurs • deux variables : • croisements • histogrammes 3D, radars
DISCRETISATION D'UNE VARIABLE CONTINUE :but, procédures But : créer des classes de valeurs pertinentes dans le cadre de l'analyse Procédures : 1. Visualiser la distribution 2. Choisir la méthode selon l'allure de la distribution
amplitude de l'intervalle min =C2 borne7=borne6+intervalle =E8+$C$5 Fonction matricielle Fréquence DISCRETISATION D'UNE VARIABLE CONTINUEVisualiser la distribution découper les valeurs en intervalles d'amplitudes égales calculer la fréquence des valeurs afficher l'histogramme
DISCRETISATION D'UNE VARIABLE CONTINUEChoisir la méthode selon l'allure de la distribution distribution uniforme découpage en intervalles d'amplitudes égales distribution dissymétrique découpage selon les quantiles transformation en progression géométrique transformation en distribution lognormale distribution pluri-modale découpage par seuils naturels distribution normale découpage standard en utilisant la moyenne et l'écart-type
DISCRETISATION D'UNE VARIABLE CONTINUEDécoupage en intervalles d'amplitudes égales distribution uniforme crée des classes équilibrées en effectifs
fonction centile =CENTILE(A2:A51;G4) DISCRETISATION D'UNE VARIABLE CONTINUEDécoupage selon les quantiles distribution dissymétrique quelconque crée des classes selon le découpage désiré en pourcentages
DISCRETISATION D'UNE VARIABLE CONTINUEDécoupage par seuils naturels distribution pluri-modale crée des classes qui respectent au mieux le regroupement naturel des valeurs
Fixer le nombre de classes k calculer la raison r r = 10(log max - log min)/k calculer les valeurs des bornes bi = min.ri DISCRETISATION D'UNE VARIABLE CONTINUETransformation en progression géométrique distribution très dissymétrique crée des classes équilibrées en effectifs
DISCRETISATION D'UNE VARIABLE CONTINUEDécoupage standard en utilisant la moyenne et l'écart-type distribution normale fait apparaître les valeurs extrêmes de la distribution
Découpage standard des valeurs logarithmiques Calcul des valeurs des bornes par la fonction puissance =PUISSANCE(10;D5) fonction logarithme =LOG(A2) DISCRETISATION D'UNE VARIABLE CONTINUETransformation en distribution lognormale distribution dissymétrique vers les faibles valeurs redresse les classes vers une distribution normale
=COEFFICIENT.CORRELATION(B2:B11;C2:C11) INTENSITE DES RELATIONS ENTRE LES VARIABLESentre deux variables continues corrélation
tableau croisé contenant les valeurs observées calcul des valeurs théoriques en cas d'indépendance total ligne * total colonne total général 47,20=(220*127)/592 probabilité de se tromper en affirmant que les deux var. sont liées =TEST.KHIDEUX(E3:H6;E12:H15) INTENSITE DES RELATIONS ENTRE LES VARIABLESentre deux variables nominales tableau croisé test du Khi2
probabilité de se tromper en affirmant que les 2 modalités sont liées INTENSITE DES RELATIONS ENTRE LES VARIABLEScaractérisation d'une modalité par une autre modalité loi hypergéométrique
Outils Utilitaire d'analyse... Analyse de variance: un facteur Statistique de Fisher probabilité de se tromper en affirmant que les variables sont liées INTENSITE DES RELATIONS ENTRE LES VARIABLESentre une variable continue et une variable nominale statistique de Fisher associée à une analyse de variance
tableau croisé contenant : - le tri à plat, - les moyennes, - les variances (fonction var.p) variance de la moyenne dans la classe : sk² = (n-nk)*s²/((n-1)*nk) évaluation de l'écart entre les moyennes : tk=(mk-m)/sk probabilité de se tromper en affirmant que la moyenne dans la classe est différente de la moyenne générale =1-LOI.NORMALE.STANDARD(E17) INTENSITE DES RELATIONS ENTRE LES VARIABLEScaractérisation d'une modalité par une variable continue test de comparaison de moyennes
2ème partie - ANALYSE EXPLORATOIRE MULTIDIMENSIONNELLE 1. GENERALITES 1.1. Objectifs 1.2. Les variables de mesures de l’information 1.3. Variables actives et illustratives 1.4. Caractérisation, valeur-test et probabilités 2. L’ANALYSE EN COMPOSANTES PRINCIPALES (ACP) 3. L’ANALYSE FACTORIELLE DES CORRESPONDANCES (AFC) 4. L’ANALYSE DES CORRESPONDANCES MULTIPLES (ACM) 5. LA CLASSIFICATION 5.1. Objectifs 5.2. Classification ascendante hiérarchique (CAH) 5.3. Classification autour de centres mobiles (CCM) 5.4. Classification mixte (Hybrid clustering) 5.4.1. Groupements stables 5.4.2. Consolidation 5.4.3. Processus de la classification mixte
GENERALITES : objectifs, vocabulaire • Objectifs • Se ramener à des représentations planes choisies "judicieusement", appelées "plans factoriels" • Le centre de gravité du nuage de points se situe à l'origine du plan factoriel • Les variables de mesure de l'information : vocabulaire • Inertie totale : quantité d'information totale contenue dans le nuage de points • Poids relatif : part prise par un point à l'inertie totale • Distorsion : mesure de la distance d'un point au centre de gravité du nuage • Valeur propre associée à un axe factoriel : part de l'inertie totale portée par l'axe factoriel • Cosinus carré : mesure de la qualité de représentation d'un point dans le plan factoriel Un point est d'autant plus proche du plan que son cosinus carré est grand. Un point ne peut s'interpréter sur un plan que s'il y est bien représenté. • Contribution d'un point à la construction d'un axe factoriel : elle est plus ou moins grande selon que le point étire ou non le nuage dans la direction de cet axe.
Variables actives et illustratives • Regrouper les variables par "thèmes" Mêler dans l'analyse des variables comparables et "cohérentes entre elles" • variables actives : celles qui participent à la détermination des plans factoriels • variables illustratives : ne participent pas à la détermination des plans factoriels, mais peuvent être projetées sur ces plans pour apporter des informations supplémentaires dans les caractérisations. • Caractérisation, valeur-test et probabilités • Caractérisation : analyse de l'intensité de la liaison d'une entité avec les autres variables Mise en jeu de différentes méthodes statistiques • A chaque caractérisation correspond un critère de sélection statistique (cf. 1ère partie – paragraphe 6.) • Ce critère de sélection permet de ranger les variables selon leur importance dans la caractérisation • variables actives : précision • variables illustratives : probabilité, risque • Valeur-test : mesure la distance au centre de gravité en nombre d'écarts-type d'une loi normale GENERALITES : rôle des variables, caractérisation
ANALYSE EN COMPOSANTES PRINCIPALES • Tableau de données en entrée : • en lignes, les individus • en colonnes, des variables quantitatives • donnée : valeur continue de chaque variable pour chaque individu • Résultats d'une ACP • Cercle des corrélations : permet d'interpréter les liaisons entre les variables et de donner un sens aux axes factoriels • Représentation des individus dans le plan factoriel précédemment décrit. • Application : enquête budget-temps multimédia 1991/1992 • Connaître les associations entre les temps consacrés à différentes activités • Étudier les liens entre ces familles d'activités et quelques caractéristiques des individus
ANALYSE EN COMPOSANTES PRINCIPALESLe cercle des corrélations activité professionnelle activités extérieures ou d'ouverture activités intérieures activités de temps libre ou disponible
ANALYSE EN COMPOSANTES PRINCIPALESReprésentation des individus et des modalités illustratives
ANALYSE FACTORIELLE DES CORRESPONDANCES • Tableau de données en entrée : croisement de deux variables qualitatives • en lignes, les modalités de la première variable (individus) • en colonnes, les modalités de la deuxième variable (fréquences) • donnée : effectif résultant du croisement • Résultats d'une AFC • Représentations séparées des variables et des individus afin de donner un sens aux axes • Représentation simultanée des deux nuages de points pour analyser les proximités entre les modalités. • Application : recensement de 1968 • Interpréter les différences socioéconomiques selon les régions
ANALYSE FACTORIELLE DES CORRESPONDANCESReprésentation des individus et des variables actives
ANALYSE DES CORRESPONDANCES MULTIPLES • Tableau de données en entrée : • en lignes, les individus • en colonnes, des variables qualitatives • donnée : modalité d'appartenance de l'individu pour chaque variable • Résultats d'une ACM • Représentation des variables afin de donner un sens aux axes • Représentation simultanée des individus et des variables pour mettre en évidence les proximités entre ces individus et les modalités qu'ils ont choisies • Application : Dynamique touristique dans les communes des Pyrénées- Orientales (Source : inventaire communal 1998) • Analyser l'intensité touristique et voir quelles sont les causes d'attraction touristique qui y sont liées
ANALYSE DES CORRESPONDANCES MULTIPLESTri à plat des variables actives (1) TRI-A-PLAT DES QUESTIONS ACTIVES ----------------------------+-----------------+----------------------------------------------------------------------------------- MODALITES | AVANT APUREMENT | APRES APUREMENT IDENT LIBELLE | EFF. POIDS | EFF. POIDS HISTOGRAMME DES POIDS RELATIFS ----------------------------+-----------------+----------------------------------------------------------------------------------- 24 . janvier MO01 - janvier=0 | 149 149.00 | 149 149.00 **************************************** MO02 - janvier=1 | 53 53.00 | 53 53.00 *************** MO03 - janvier=2à4 | 23 23.00 | 23 23.00 ******* ----------------------------+-----------------+----------------------------------------------------------------------------------- 25 . février MO01 - février=0 | 113 113.00 | 113 113.00 ******************************* MO02 - février=1 | 63 63.00 | 63 63.00 ***************** MO03 - février=2 | 18 18.00 | 18 18.00 ***** MO04 - février=3à4 | 31 31.00 | 31 31.00 ********* ----------------------------+-----------------+----------------------------------------------------------------------------------- 26 . mars MO01 - mars=0 | 128 128.00 | 128 128.00 *********************************** MO02 - mars=1 | 67 67.00 | 67 67.00 ****************** MO03 - mars=2à4 | 30 30.00 | 30 30.00 ********* ----------------------------+-----------------+----------------------------------------------------------------------------------- 27 . avril MO01 - avril=0 | 77 77.00 | 77 77.00 ********************* MO02 - avril=1 | 76 76.00 | 76 76.00 ********************* MO03 - avril=2à3 | 72 72.00 | 72 72.00 ******************** ----------------------------+-----------------+----------------------------------------------------------------------------------- 28 . mai MO01 - mai=0 | 85 85.00 | 85 85.00 *********************** MO02 - mai=1 | 84 84.00 | 84 84.00 *********************** MO03 - mai=2à3 | 56 56.00 | 56 56.00 *************** ----------------------------+-----------------+----------------------------------------------------------------------------------- 29 . juin MO01 - juin=0 | 31 31.00 | 31 31.00 ********* MO02 - juin=1 | 64 64.00 | 64 64.00 ****************** MO03 - juin=2 | 79 79.00 | 79 79.00 ********************** MO04 - juin=3à4 | 51 51.00 | 51 51.00 ************** ----------------------------+-----------------+-----------------------------------------------------------------------------------
ANALYSE DES CORRESPONDANCES MULTIPLESTri à plat des variables actives (2) ----------------------------+-----------------+----------------------------------------------------------------------------------- 30 . juillet MO01 - juillet=0à1 | 15 15.00 | 15 15.00 ***** MO02 - juillet=2 | 43 43.00 | 43 43.00 ************ MO03 - juillet=3 | 81 81.00 | 81 81.00 ********************** MO04 - juillet=4 | 86 86.00 | 86 86.00 *********************** ----------------------------+-----------------+----------------------------------------------------------------------------------- 31 . août MO01 - août=0à1 | 15 15.00 | 15 15.00 ***** MO02 - août=2 | 28 28.00 | 28 28.00 ******** MO03 - août=3 | 58 58.00 | 58 58.00 **************** MO04 - août=4 | 124 124.00 | 124 124.00 ********************************** ----------------------------+-----------------+----------------------------------------------------------------------------------- 32 . septembre BF_1 - septembr=0 | 22 22.00 | 22 22.00 ****** BF_2 - septembr=1 | 49 49.00 | 49 49.00 ************** BF_3 - septembr=2 | 82 82.00 | 82 82.00 ********************** BF_4 - septembr=3 | 54 54.00 | 54 54.00 *************** BF_5 - septembr=4 | 18 18.00 | 18 18.00 ***** ----------------------------+-----------------+----------------------------------------------------------------------------------- 33 . octobre BG_1 - octobre=0 | 99 99.00 | 99 99.00 *************************** BG_2 - octobre=1 | 66 66.00 | 66 66.00 ****************** BG_3 - octobre=2 | 47 47.00 | 47 47.00 ************* BG_4 - octobre=3 | 13 13.00 | 13 13.00 **** ----------------------------+-----------------+----------------------------------------------------------------------------------- 34 . novembre MO01 - novembre=0 | 147 147.00 | 147 147.00 **************************************** MO02 - novembre=1 | 60 60.00 | 60 60.00 ***************** MO03 - novembre=2à3 | 18 18.00 | 18 18.00 ***** ----------------------------+-----------------+----------------------------------------------------------------------------------- 35 . décembre MO01 - décembre=0 | 102 102.00 | 102 102.00 **************************** MO02 - décembre=1 | 70 70.00 | 70 70.00 ******************* MO03 - décembre=2 | 30 30.00 | 30 30.00 ********* MO04 - décembre=3à4 | 23 23.00 | 23 23.00 ******* ----------------------------+-----------------+-----------------------------------------------------------------------------------
ANALYSE DES CORRESPONDANCES MULTIPLES Représentation des variables actives dans le plan (1,2) ? Intensité faible Intensité forte Été non-attractif
ANALYSE DES CORRESPONDANCES MULTIPLESReprésentation des variables actives dans le plan (1,3) Arrière-saison attractive Intensité faible Intensité forte Hiver attractif
ANALYSE DES CORRESPONDANCES MULTIPLESReprésentation des variables actives dans le plan (2,3) Arrière-saison attractive Été non-attractif ? Hiver attractif
ANALYSE DES CORRESPONDANCES MULTIPLESReprésentation des variables illustratives
ANALYSE DES CORRESPONDANCES MULTIPLESReprésentation simultanée des individus et des variables actives Arrière-saison attractive Intensité faible Intensité forte Hiver attractif
ANALYSE DES CORRESPONDANCES MULTIPLESSuivie d’une classification
ANALYSE DES CORRESPONDANCES MULTIPLEStourisme PO : récapitulatif
ANALYSE DES CORRESPONDANCES MULTIPLESCaractérisation de la typologie (1) CLASSE 1 / 5 ---------------------------------------------------------------------------------------------------------------------------------- V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES ---------------------------------------------------------------------------------------------------------------------------------- 19.56 CLASSE 1 / 5 bb1b 44 10.38 0.000 74.51 86.36 22.67 juin=3à4 juin MO04 51 9.41 0.000 66.07 84.09 24.89 mai=2à3 mai MO03 56 7.60 0.000 45.35 88.64 38.22 juillet=4 juillet MO04 86 7.23 0.000 50.75 77.27 29.78 mars=1 mars MO02 67 6.98 0.000 55.56 68.18 24.00 septembr=3 septembre BF_4 54 6.38 0.000 33.87 95.45 55.11 août=4 août MO04 124 6.23 0.000 55.32 59.09 20.89 octobre=2 octobre BG_3 47 6.09 0.000 44.44 72.73 32.00 avril=2à3 avril MO03 72 5.78 0.000 46.03 65.91 28.00 février=1 février MO02 63 5.33 0.000 45.00 61.36 26.67 novembre=1 novembre MO02 60 5.26 0.000 47.17 56.82 23.56 janvier=1 janvier MO02 53 5.20 0.000 41.43 65.91 31.11 décembre=1 décembre MO02 70 4.99 0.000 84.62 25.00 5.78 octobre=3 octobre BG_4 13 3.76 0.000 28.93 79.55 53.78 monument=1 monuments AJ_2 121 3.41 0.000 66.67 18.18 5.33 congrès=1 congrès AV_2 12 3.34 0.000 55.56 22.73 8.00 novembre=2à3 novembre MO03 18 3.34 0.000 55.56 22.73 8.00 septembr=4 septembre BF_5 18 3.30 0.000 46.43 29.55 12.44 casino=1 casino AL_2 28 3.00 0.001 32.84 50.00 29.78 festival=1 festivals AQ_2 67 2.83 0.002 27.78 68.18 48.00 curiosit=1 curiosités naturelles AI_2 108 2.20 0.014 33.33 31.82 18.67 commerce=1 commerces AT_2 42 2.07 0.019 30.77 36.36 23.11 thermes=1 thermes AK_2 52 1.92 0.027 31.11 31.82 20.00 gastrono=1 gastronomie AM_2 45 1.86 0.031 28.81 38.64 26.22 mer=1 mer AA_2 59 ---------------------------------------------------------------------------------------------------------------------------------- CLASSE 2 / 5 ---------------------------------------------------------------------------------------------------------------------------------- V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES ---------------------------------------------------------------------------------------------------------------------------------- 9.33 CLASSE 2 / 5 bb2b 21 8.91 0.000 78.26 85.71 10.22 janvier=2à4 janvier MO03 23 8.56 0.000 63.33 90.48 13.33 mars=2à4 mars MO03 30 8.45 0.000 61.29 90.48 13.78 février=3à4 février MO04 31 7.78 0.000 69.57 76.19 10.22 décembre=3à4 décembre MO04 23 5.66 0.000 26.39 90.48 32.00 avril=2à3 avril MO03 72 3.98 0.000 16.13 95.24 55.11 août=4 août MO04 124 3.82 0.000 25.00 61.90 23.11 thermes=1 thermes AK_2 52 3.39 0.000 14.39 95.24 61.78 montagne=1 montagne AB_2 139 3.29 0.000 24.44 52.38 20.00 gastrono=1 gastronomie AM_2 45 3.23 0.001 13.99 95.24 63.56 vignoble=0 vignoble AN_1 143 3.14 0.001 15.38 85.71 52.00 forêt=1 forêt AC_2 117 3.01 0.001 17.44 71.43 38.22 juillet=4 juillet MO04 86 2.76 0.003 33.33 28.57 8.00 septembr=4 septembre BF_5 18 2.52 0.006 13.64 85.71 58.67 pêche=1 pêche AG_2 132 2.52 0.006 14.81 76.19 48.00 curiosit=1 curiosités naturelles AI_2 108 2.22 0.013 17.19 52.38 28.44 campagne=0 campagne AD_1 64 2.19 0.014 19.15 42.86 20.89 octobre=2 octobre BG_3 47 1.95 0.025 16.67 47.62 26.67 novembre=1 novembre MO02 60 1.87 0.031 21.43 28.57 12.44 casino=1 casino AL_2 28 1.79 0.037 16.67 42.86 24.00 septembr=3 septembre BF_4 54 1.71 0.043 14.29 57.14 37.33 mai=1 mai MO02 84 ----------------------------------------------------------------------------------------------------------------------------------
ANALYSE DES CORRESPONDANCES MULTIPLESCaractérisation de la typologie (2) CLASSE 3 / 5 ---------------------------------------------------------------------------------------------------------------------------------- V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES ---------------------------------------------------------------------------------------------------------------------------------- 31.56 CLASSE 3 / 5 bb3b 71 7.64 0.000 63.41 73.24 36.44 septembr=2 septembre BF_3 82 6.40 0.000 63.64 59.15 29.33 octobre=1 octobre BG_2 66 6.22 0.000 58.02 66.20 36.00 juillet=3 juillet MO03 81 6.13 0.000 58.23 64.79 35.11 juin=2 juin MO03 79 5.60 0.000 54.76 64.79 37.33 mai=1 mai MO02 84 4.65 0.000 52.63 56.34 33.78 avril=1 avril MO02 76 4.08 0.000 66.67 28.17 13.33 décembre=2 décembre MO03 30 2.97 0.002 48.28 39.44 25.78 août=3 août MO03 58 2.89 0.002 38.85 76.06 61.78 montagne=1 montagne AB_2 139 2.77 0.003 40.17 66.20 52.00 forêt=1 forêt AC_2 117 1.97 0.025 55.56 14.08 8.00 février=2 février MO03 18 ---------------------------------------------------------------------------------------------------------------------------------- CLASSE 4 / 5 ---------------------------------------------------------------------------------------------------------------------------------- V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES ---------------------------------------------------------------------------------------------------------------------------------- 32.89 CLASSE 4 / 5 bb4b 74 10.06 0.000 97.67 56.76 19.11 juillet=2 juillet MO02 43 8.64 0.000 85.71 56.76 21.78 septembr=1 septembre BF_2 49 8.18 0.000 61.62 82.43 44.00 octobre=0 octobre BG_1 99 8.12 0.000 68.83 71.62 34.22 avril=0 avril MO01 77 8.12 0.000 65.88 75.68 37.78 mai=0 mai MO01 85 8.03 0.000 100.00 37.84 12.44 août=2 août MO02 28 6.40 0.000 50.00 86.49 56.89 mars=0 mars MO01 128 5.75 0.000 45.58 90.54 65.33 novembre=0 novembre MO01 147 5.39 0.000 60.94 52.70 28.44 juin=1 juin MO02 64 5.23 0.000 44.30 89.19 66.22 janvier=0 janvier MO01 149 4.62 0.000 47.01 74.32 52.00 curiosit=0 curiosités naturelles AI_1 117 4.40 0.000 46.90 71.62 50.22 février=0 février MO01 113 4.28 0.000 48.04 66.22 45.33 décembre=0 décembre MO01 102 3.80 0.000 46.15 64.86 46.22 monument=0 monuments AJ_1 104 3.72 0.000 37.06 98.65 87.56 casino=0 casino AL_1 197 3.40 0.000 38.73 90.54 76.89 thermes=0 thermes AK_1 173 3.10 0.001 37.78 91.89 80.00 gastrono=0 gastronomie AM_1 180 2.53 0.006 54.84 22.97 13.78 juin=0 juin MO01 31 2.39 0.008 43.02 50.00 38.22 montagne=0 montagne AB_1 86 2.38 0.009 46.55 36.49 25.78 août=3 août MO03 58 2.21 0.014 42.68 47.30 36.44 vignoble=1 vignoble AN_2 82 2.12 0.017 35.32 95.95 89.33 parc nat=0 parc naturel AE_1 201 2.06 0.020 37.34 79.73 70.22 festival=0 festivals AQ_1 158 1.70 0.045 38.89 56.76 48.00 forêt=0 forêt AC_1 108 ----------------------------------------------------------------------------------------------------------------------------------
ANALYSE DES CORRESPONDANCES MULTIPLESCaractérisation de la typologie (3) CLASSE 5 / 5 ---------------------------------------------------------------------------------------------------------------------------------- V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES ---------------------------------------------------------------------------------------------------------------------------------- 6.67 CLASSE 5 / 5 bb5b 15 9.96 0.000 100.00 100.00 6.67 juillet=0à1 juillet MO01 15 9.96 0.000 100.00 100.00 6.67 août=0à1 août MO01 15 7.33 0.000 59.09 86.67 9.78 septembr=0 septembre BF_1 22 5.89 0.000 38.71 80.00 13.78 juin=0 juin MO01 31 5.03 0.000 17.44 100.00 38.22 montagne=0 montagne AB_1 86 4.58 0.000 15.15 100.00 44.00 octobre=0 octobre BG_1 99 4.38 0.000 16.47 93.33 37.78 mai=0 mai MO01 85 4.07 0.000 16.88 86.67 34.22 avril=0 avril MO01 77 3.62 0.000 11.72 100.00 56.89 mars=0 mars MO01 128 3.55 0.000 12.96 93.33 48.00 forêt=0 forêt AC_1 108 3.14 0.001 12.75 86.67 45.33 décembre=0 décembre MO01 102 3.01 0.001 10.20 100.00 65.33 novembre=0 novembre MO01 147 2.95 0.002 10.07 100.00 66.22 janvier=0 janvier MO01 149 2.88 0.002 12.90 80.00 41.33 pêche=0 pêche AG_1 93 2.75 0.003 11.50 86.67 50.22 février=0 février MO01 113 2.35 0.009 13.85 60.00 28.89 chasse=0 chasse AH_1 65 2.13 0.017 8.67 100.00 76.89 thermes=0 thermes AK_1 173 1.81 0.035 9.76 80.00 54.67 divertis=0 divertissements AU_1 123 ----------------------------------------------------------------------------------------------------------------------------------
LA CLASSIFICATION • Faire des typologies • On prend en compte toutes les variables • Chaque groupe doit être le plus homogène possible • Les groupes doivent être les plus distincts possibles • Deux méthodes classiques : • Classification ascendante hiérarchique (CAH) • Classification autour de centres mobiles (CCM) • Une méthode mixte : "hybrid clustering"