230 likes | 360 Views
CSI-Piemonte Consorzio Sistemi Informativi. Provincia Comune di Torino di Torino. Analisi dei cluster sui dati del « Censimento dell’Agricoltura 2000 » della Regione Piemonte. Jean Michel Bosco. Agenda. Contesto e obiettivi Organizzazione dei dati
E N D
CSI-Piemonte Consorzio Sistemi Informativi ProvinciaComune di Torino di Torino Analisi dei cluster sui dati del « Censimento dell’Agricoltura 2000 » della Regione Piemonte Jean Michel Bosco
Agenda • Contesto e obiettivi • Organizzazione dei dati • Esplorazione e trasformazione dei dati • Definizione del modello • Interpretazione dei risultati • Organizzazione e planning
Organizzazione dei dati • Definizione della granularità delle tavole SAS applicando la PROC TRANSPOSE • Scelta delle variabili valorizzate per il maggior numero di Aziende (76 variabili su 108) • Trattamento dei « missing » data base_imp2000_2 ; set datiodd.base_imp2000 ; LIV123_IMP=(SUBSTR(COD_LIV1,1,2) ||'.' || SUBSTR(COD_LIV2,1,2) ||'.' ||SUBSTR(COD_LIV3,1,2)) ; Run ; PROC TRANSPOSEDATA=base_imp2000_2 OUT=base_imp2000_3(LABEL="Transposed datiodd.base_imp2000") NAME=Source LABEL=Label ; BY z_cod_azienda ; ID LIV123_IMP ; VAR CAPACITA ; RUN ; data base_imp2000_n (keep =z_cod_azienda CAP_IMP_M3 CAP_IMP_KG CAP_IMP_M2) ; set base_imp2000_3; CAP_IMP_M3= sum(_28D01D01,_28D01D02,_28D02D03,_28D02D04,_33D03 D03,_29D04D06,_33D02D02,_33D04D04) ; CAP_IMP_KG= sum(_29D01D01,_29D01D02,_29D02D03,_29D03D04,_29D03 D05,_30D03D03) ; CAP_IMP_M2 = sum(_28D03D05,_33D01D01) ; label CAP_IMP_M3= 'volume capacita impianti'; label CAP_IMP_KG= 'peso capacita impianti'; label CAP_IMP_M2= 'spazio capacita impianti'; run ;
Esplorazione e trasformazione dei dati • Ridefinizione delle classi per le variabili nominali (ordinali) • Assegnazione di una classe (9) alle proporzioni più basse
Esplorazione e trasformazione dei dati • Transformazione logaritmica delle variabili intervallari • Esclusivamente per le variabili la cui distributizione migliora
Definizione del modello • Segmentazione non significativa con la proc Fastclus, legata alla distribuzione delle variabili • Le Reti Neurali non supervisionate restituiscono una segmetazione meglio definita • Il test dei campioni aleatori confermano i risultati ottenuti con le SOM/Kohonen
Interpretazione dei risultati Risultati SOM/KOHONEN (reti neurali non supervisionate) : segmentazione in 4 Cluster 18154 39983 35135 Orti familiari 27693 Grandi colture
Interpretazione dei risultati Comparazione dei cluster in funzione delle variabili utilizzate 4 3
Interprétation des résultats Comparazione dei cluster in funzione delle variabili utilizzate
Interpretazione dei risultati Comparazione dei cluster 3 e 4
Interpretazione dei risultati Valore Vendita in funzione della zona geografica e della superfice utilizzata : correlazione significativa per le aziende site in pianura
Interpretazione dei risultati CLUSTER CARATTERISTICHE Aziende: Grandi culture superfici destinate ai seminativi q Site in pianura e s sur les plaines q Cluster 4 : Propietari affittano parte dei terreni q 27693 azienda Il capo azienda è giovane con molte giornate di lavoro q Significativo apporto della mano d’opera familiare q Le superifici utilizzate sono le più importanti q Utilizzo dei mezzi meccanici q Capacità degli impianti in volume e spazio sopra la media q Transformano i prodotti q Vendono principalmente agli industriali q Economicamente rilevanti q Azienda de petite culture mixte (culture maraîchère) q Installé e s surtout sur les montagnes q Cluster 3 : Possèdent des superficies gratuites, mais loue nt aussi et parfois propriétair q 35135 azienda e s le dirigeant est plus vieux en moyenne avec des jours de travails moins élevés q une main d ’œ uvre familiale non significative q les superficies utilisées sont les moins importantes q la superficie « orti familia ri » et celle des bois l es plus importantes q La mo itié d’entre elles ne sont pas de la classe CEE q Ne s’adresse nt pas aux organisations associatives pour l’utilisation des moyens q mécaniques Consomme nt à peu près la moitié de son produit q Economiquement les moins importantes q
Interpretazione dei risultati CLUSTER CARATTERISTICHE Azienda de grande culture avec des terres arables (seminativio) q Installé e s sur les plaines q Cluster 4 : propriétaire s et loue nt une partie de leurs superficie q 27693 azienda le dirigeant est plus jeune en moyenne avec des jo urs de travails élevés q une main d ’œ uvre familiale significative q les superficies utilisées sont les plus importantes q utilise nt plus les moyens mécaniques q capacité en espace et en volume les plus importantes q Transforme nt plus ces produits agricoles q vend ent p lus aux industriels q Economiquement les plus importantes q Aziende: Piccole colture (colture ortofrutticole) q Site in montagna q Cluster 3 : Lavorano superfici gratuite, in parte minore le affitano o sono proprietari. q 35135 azienda Il capo azienza è in genere di età più alta della media, con poche giornate lavorative est plus q Mano d'opera familiare poco significativa q Le superfici ultizzate sono scarsamente rilevanti q Più significative le superfici destinate agli orti familiari e ai boschi q La metà delle aziende appartenenti a questo gruppo non rientrano nella classe CEE q Non si rivolgono ad organizzazioni assocciative per i mezzi tecnici q Consumano all’incirca la metà dei loro prodotti q Economicamente poco importanti q
Interpretazione dei risultati CLUSTER CARATTERISTICHE Aziende accostabili al gruppo Grandi Colture q Colture arboricole permanenti q Cluster 2 : Specilizzati in viticoltura q 18154 azienda Localizzate soprattutto in collina, e in parte in pianura q Forte capacità di trasformazione dei prodotti q Aderiscono a società cooperative q V endono buona parete dei prodotti alle organizzazioni associative, ma non ai contrattuali q Sono in prevalenza Proprietari q Azienda proche des azienda de petite culture mixte q Installé e s surtout sur les montagnes en partie q Cluster 1 : Vend ent aux consommateurs q 3 9983 azienda Majoritairement propriétaires q
CLUSTER CARATTERISTICHE Azienda proche des azienda de g rande culture q culture permanente arboricole relativement la plus importante q Cluster 2 : spécialisées dans la viticulture q 18154 azienda Installé e s sur les collines en partie q Capacité de t ransform ation des produi ts agricole s importante q Adhèrent aux sociétés coopératives et de producteurs q V end ent la totalité de ses produits aux organisations associatives, mais ne vend q pas aux contractuels Majoritairement propriétaire s q Aziende con caratteristiche simili al gruppo Orti Familiari q Localizzati soprattutto in montagna e in parte in collina q Cluster 1 : Vendono direttamente al consumatore q 3 9983 azienda Hanno terreni di Proprietà q Interpretazione dei risultati
Interpretazione dei risultati Ripartizione delle attività in funzione dei cluster Vendono di più rispetto al cluster 1
Interpretazione dei risultati Ripartizione delle attività in funzione dei cluster Il gruppo 1 resta leader, ma sefuito dal gruppo 3
Interpretazione dei risultati Ripartizione del tipo di credito per l’intera popolazione 111355 azienda su 120965 che non hanno credito (0 0 0 0) 29 azienda su 120965 hanno tutti i crediti (1 1 1 1)
Interpretazione dei risultati Ripartizione del tipo di credito per l’intera popolazione 111355 azienda sur 120965 n’ont rien comme crédit (0 0 0 0) 29 azienda sur 120965 ont eu tous les 4 Crédits (1 1 1 1)
Interpretazione dei risultati Ripartizione del tipo di credito per l’intera popolazione Test d’associazione tra 2 variabili : La coppia (1,1) contribuisce in modo più significativo alla statistica del Khi-2, le V di Cramer vicina a 0, quindi esiste un’associazione debole tra le due variabili Test d’associazione tra CL_UDE(classe economica) e i 2 tipi di credito : rifiuto di Ho, dunque associazione, Ma la correlazione di Spearman si avvicina a 0, il chè implica une associazione debole 111355 azienda sur 120965 n’ont rien comme crédit (0 0 0 0) 29 azienda sur 120965 ont eu tous les 4 Crédits (1 1 1 1)