360 likes | 567 Views
Analisi Cereali per la prima colazione. Elaborazione Dati Naturalistici 2007 Giovanni - Chiara. Oggetto 77 tipi di cereali per la prima colazione. 7 marche differenti( mfr ): American Home Food Products (A) General Mills (G) Kellog’s (K) Nabisco (N) Post (P) Quaker Oast (Q)
E N D
Analisi Cereali per la prima colazione Elaborazione Dati Naturalistici 2007 Giovanni - Chiara
Oggetto 77 tipi di cereali per la prima colazione
7 marche differenti(mfr): American Home Food Products (A) General Mills (G) Kellog’s (K) Nabisco (N) Post (P) Quaker Oast (Q) Ralston Purina (R)
Variabili • tipo: freddi (c) o caldi (h) • calorie: calorie per porzione • proteine: grammi di proteine • grassi: grammi di grassi • sodio: milligrammi di sodio • fibre: grammi di fibre dietetiche • carboidrati: grammi di carboidrati complessi • zuccheri: grammi di zuccheri • potassio: milligrammi di potassio • vitamine: vitamine e minerali - 0, 25, o 100, indicanti la tipica percentuale raccomandata dell’FDA • scaffale: scaffale d’esposizione (1, 2 o 3, contando dal pavimento) • peso: peso in once per 1 porzione • tazze: tazze per 1 porzione • valutazione : una valutazione dei cereali
Analisi descrittiva delle variabili quantitative principali • Analisi della correlazione tra le variabili quantitative. • Ci sono correlazioni inattese? • Costruzione di un modello di regressione lineare multipla avente come variabile risposta il rating e come variabili esplicative le variabili nutrizionali • Ottenere un modello ridotto appropriato • Quali sono le variabili nutrizionali che sono più adatte a spiegare il gradimento dei prodotti? • L’analisi di regressione separatamente per i cereali caldi e freddi. Si ottengono le stesse conclusioni? • Punti dell’Elaborazione dei Dati:
Nonostante si tratti di differenti produttori, i grammi di proteine, grassi, fibre, carboidrati e zuccheri si mantengono costanti nelle diverse confezioni. Al contrario la quantità (mg) di Sodio e Potassio ha un range piuttosto ampio, deducibile anche dall’analisi del minimo /massimo.
Analisi della correlazione tra le variabili quantitative • Verde = Correlazione lineare • Giallo = Correlazione diretta • Rosso = Correlazione inversa inattesa
SCATTER PLOT o diagramma di dispersione bidimensionale delle variabili con correlazione lineare
SCATTER PLOT o diagrammi di dispersione bidimensionale delle variabili con correlazione diretta
SCATTER PLOT o diagrammi di dispersione bidimensionale delle variabili con correlazione inversa e inattesa
Analisi dei valori anomali I valori anomali hanno un forte peso sulla correlazione: per passare dal modello completo a quello ridotto è stata esclusa la variabilità.
Modello di regressione lineare multipla avente come variabile risposta il rating e come variabili esplicative le variabili nutrizionali. Problema di interpolazione dei dati Stima Previsione Y= a+ bnxn
Il rating rappresenta la variabile risposta ottenuta come combinazione finita di variabili esplicative L’equazione della retta di regressione è risultata : Rating = 54,9 - 0,223 Calorie + 3,27 Proteine (g) - 1,69 Grassi (g) - 0,0545 Sodio(mg) + 3,44 Fibre (g) + 1,09 Carboidrati (g) - 0,725 Zuccheri (g) - 0,0340 Potassio (mg) - 0,0512 Vitamine [Sono stati utilizzati solo 74 visto che gli altri 3 contenevano valori mancanti.]
Solitamente per i valori di P-value ≥ 0,05 (5%) si accetta l’ipotesi che il coefficiente relativo alla variabile sia nullo, e dunque non si ha influenza sulla variabile risposta. Tutte le variabili esplicative hanno presentato un P = 0,000 P< 0,05 Tuttavia si è cercato di ottenere un modello ridotto che potesse indicare quali variabili nutrizionali fossero più influenti sul rating.. E quindi fossero più adatte a spiegare il gradimento dei prodotti!
Non tutte le variabili presentano un alto grado di correlazione con la variabile risposta Posso pensare di cercare una correlazione lineare tra variabili con indice di Pearson = -1≤-0,5 o 0,5≥1
Eliminazione valori anomali : L’equazione della retta di regressione non cambia
1)- Eliminazione variabili con coefficiente minore: Potassio e Vitamine Rating = 54,9 - 0,223 Calorie + 3,27 Proteine (g) - 1,69 Grassi (g) - 0,0545 Sodio(mg) + 3,44 Fibre (g) + 1,09 Carboidrati (g) - 0,725 Zuccheri (g) -0,0340 Potassio (mg) - 0,0512 Vitamine L’equazione diventa: Rating = 61,7 - 0,166 Calorie + 2,63 Proteine (g) - 2,84 Grassi (g) + 2,11 Fibre (g) + 0,049 Carboidrati (g) - 1,47 Zuccheri (g) Predictor Coef SE Coef T P Constant 61,697 4,027 15,32 0,000 Calorie -0,1664 0,1121 -1,48 0,142 Proteine (g) 2,6313 0,7849 3,35 0,001 Grassi (g) -2,845 1,150 -2,47 0,016 Fibre (g) 2,1133 0,3086 6,85 0,000 Carboidrati (g) 0,0486 0,5011 0,10 0,923 Zuccheri (g) -1,4739 0,4722 -3,12 0,003 2)- Eliminazione variabili con P-value > 0,05: Calorie e Carboidrati L’equazione diventa: Rating = 49,9 + 1,65 Proteine (g) - 3,83 Grassi (g) + 2,61 Fibre (g) - 1,88 Zuccheri (g)
Predictor Coef SE Coef T P Constant 49,854 2,080 23,96 0,000 Proteine (g) 1,6528 0,6974 2,37 0,021 Grassi (g) -3,8328 0,6434 -5,96 0,000 Fibre (g) 2,6061 0,2855 9,13 0,000 Zuccheri (g) -1,8795 0,1512 -12,43 0,000 3)- Eliminazione variabili con coefficiente più basso e P >0: Proteine L’equazione diventa: Rating = 53,7 - 3,35 Grassi (g) + 2,95 Fibre (g) - 2,00 Zuccheri (g) con P = 0,000 per tutte le variabili. Modello ridotto appropriato
Fibre Zuccheri Grassi Sono le variabili più adatte a descrivere il rating
L’analisi di regressione separatamente per i cereali caldi e freddi. Si ottengono le stesse conclusioni? Tipo freddo (C) Rating = 54,9 - 0,223 Calorie + 3,27 Proteine (g) - 1,69 Grassi (g)- 0,0545 Sodio (mg) + 3,44 Fibre (g) + 1,09 Carboidrati (g)- 0,725 Zuccheri (g) - 0,0340 Potassio (mg) - 0,0512 Vitamine P = 0,000 Rating = 61,5 + 1,68 Proteine (g) - 4,17 Grassi (g) + 2,22 Fibre (g) - 0,629 Carboidrati (g) - 2,08 Zuccheri (g) Carboidrati P = 0,001 Proteine P = 0,014 tutte le altre variabili P = 0,000 L’equazione di regressione è Rating = 52,6 - 3,35 Grassi (g) + 3,05 Fibre (g) - 1,92 Zuccheri (g) Tipo caldo (H) Not enough data in column. The regression equation is Rating = 84,15 - 6,853 Proteine (g) P = 0,149 Rating = 63,59 - 6,853 Grassi (g) P = 0,149 Rating = 52,84 + 0,1462 Sodio (mg) P = 0,184 Rating = 59,44 - 2,189 Fibre (g) P = 0,721 Rating = 57,68 - 0,1132 Vitamine P = 0,851 Per le variabili Carboidrati, Zuccheri e Potassio non è stato possibile determinare la retta di regressione a causa dell’insufficienza dei dati.
Almeno per i cereali freddi la situazione non cambia … Cambiano i coefficienti, ma le variabili esplicative del rating rimangono le stesse Zuccheri Fibre Grassi
.. Trovate le variabili esplicative del rating ..Quale marca di cereali dovrebbe avere più successo sul mercato?