1 / 37

Analisi Bivariata : Test Statistici

Analisi Bivariata : Test Statistici. Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5. Lavoro di gruppo. Inviare il questionario via mail a gdeppieri@liuc.it e gmagistrelli@liuc.it entro il 31/10/2014

Download Presentation

Analisi Bivariata : Test Statistici

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analisi Bivariata:Test Statistici Metodi Quantitativi per Economia, Finanza e ManagementEsercitazione n°5

  2. Lavoro di gruppo • Inviareilquestionario via mail a gdeppieri@liuc.it e gmagistrelli@liuc.itentroil 31/10/2014 • Attendere la validazione del questionario e procedereallasomministrazionedellostesso

  3. Prima di iniziare.. • Controllare se sul pc su cui state lavorando esiste già una cartella C:\corso. In tal caso eliminare tutto il contenuto. In caso contrario creare la cartella corso all’interno del disco C • Andare sul disco condiviso F nel percorso F:\corsi\Metodi_Quantitativi_EFM_1415\esercitazione5 e copiare il contenuto nella cartella C:\corso • Aprire il programma SAS (Start  All Programs  SAS  SAS 9.3) • Allocare la libreriacorso,puntando il percorso fisico C:\corso, utilizzando l’istruzione: libnamecorso'C:\corso';

  4. Metodi Quantitativi per Economia, Finanza e Management Obiettivi di questa esercitazione: 1 4 3 2 • Qualitativa e quantitativa: PROC ANOVA Teoria dei Test Statistici Due qualitative: PROC FREQ • Due quantitative:PROC CORR

  5. Scorsa lezione: Analisi Bivariata TIPO DI RELAZIONE INDAGATA INDICI DI DIPENDENZA PROCEDURA SAS TIPO DI VARIABILI • Due Variabili Qualitative • Chi Quadro,Cramer V • PROC FREQ • IndipendenzaStatistica • Due Variabili Quantitative • coeff. di correlazionelineare • PROC CORR • IndipendenzaLineare • Una Qualitative e UnaQuantitativa continua • indiceeta-quadro • PROC ANOVA • Indipendenza in media La valutazionedell’indipendenzatra due variabilibasataesclusivamentesull’osservazionedell’indice, puòdarluogo a conclusioniincerte e pocooggettive test d’ipotesi

  6. Teoria dei Test d’Ipotesi (1/6) Cos’è un test d’ipotesi? Il ricercatore fornisce ipotesi riguardo la distribuzione di una o più variabili della popolazione Obiettivo del test: decidere se accettare o rifiutare l’ipotesi statistica alla luce di un risultato campionario TEST PARAMETRICI Il ricercatore conosce la distribuzione delle variabili in analisi a meno di uno o più parametri e formula ipotesisul valore dei parametri incogniti TEST NON PARAMETRICI Il ricercatore fornisce delle ipotesi sul comportamento delle variabili, indipendentemente dalla conoscenza della loro distribuzione TEST per l’INDIPENDENZA DI DUE VARIABILI

  7. Teoria dei Test d’Ipotesi (2/6) Vengono formulate due ipotesi: • H0IPOTESI NULLA • H1 IPOTESI ALTERNATIVA (rappresenta, di fatto,l’ipotesi che il ricercatore sta cercando di dimostrare) Esempio (test d’indipendenza) H0: X e Y sono indipendenti H1: X e Y non sono indipendenti L’obiettivo è stabilire se, sulla base dei dati campionari osservati, l’ipotesi nulla è «verosimile». Viene rifiutata se il campione osservato è «improbabile» ritenendo vera quell’ipotesi.

  8. Teoria dei Test d’Ipotesi (3/6) Si possono commettere diversi tipi di errore: Le due variabilisonorealmenteindipendenti Esiste in naturaunadipendenzatra le variabili STATO DI NATURA DECISIONE H0 Vera H0 Falsa Sulla base del campionedecidochec’èindipendenza ERRORE SECONDO TIPO ( β ) Accetto No errore H 0 Rifiuto ERRORE PRIMO TIPO () H Sulla base del campionedecidochec’èdipendenza No errore 0

  9. Teoria dei Test d’Ipotesi (4/6) Si possono commettere diversi tipi di errore: ERRORE PRIMO TIPO • Rifiutareun’ipotesinullavera • Considerato un tipo di errore molto serio • La probabilitàdell’errore di primo tipoè ERRORE SECONDO TIPO • Non rifiutareun’ipotesinullafalsa • La probabilitàdell’errore di primo tipoèβ • (1 – β)èdefinito come la potenza del test (probabilitàcheun’ipotesinullafalsavengarifiutata) Livello di significatività del test

  10. Teoria dei Test d’Ipotesi (5/6) • Il ricercatorefissa a priori illivello di significatività del test (ivaloricomunisono 0.01, 0.05, 0.10) • L’obiettivo è quello di scegliereunadelle due ipotesi, in modoche la probabilità di commettere un errore del primo tipo, sulla base deidaticampionari,siabassa, o meglioinferiore al livello di significativitàscelto: • P(rifiutare H0 | H0 vera) < α • P-value («livello di significatività osservato») • Viene determinato sulla base di una statistica calcolata sui dati campionari (statistica test), che dipende dal test che si sta conducendo • Rappresenta la probabilità di commettere l’errore di primo tipo sulla base del campione • Deve essere confrontato con il valore di significatività scelto a monte

  11. Teoria dei Test d’Ipotesi (6/6) 1) Sistema di Ipotesi • Formulazioneipotesinulla e ipotesialternativa • Impostazione a priori del livello di significativitàα 2) CalcoloStatisticatest • Calcolo del valoredellastatistica test (specifica del test chesistaconducendo) sulla base deidaticampionari • Calcolo del livello di significativitàosservato 3) CalcoloP-value sullabase deidaticampionari, la probabilità di rifiutare H0 quando H0 è veraè inferioreallasogliascelta  rifiuto H0 • Se p-value < α • Se p-value ≥ α accetto H0

  12. Teoria dei Test d’Ipotesi - Esempio • Fissiamoα = 0.05 1) Sistema di Ipotesi 2) CalcoloStatisticatest 3) CalcoloP-value rifiutoH0  concludocheX e Y sonodipendenti • Se p-value < 0.05  • Se p-value ≥ 0.05  accettoH0  concludocheX e Y sonoindipendenti

  13. Test per l’indipendenza statistica Il test per la valutazione dell’indipendenza di due variabili dipende dalla natura delle variabili considerate: • Due Variabili Qualitative • PROC FREQ • Test per l’IndipendenzaStatistica • Due Variabili Quantitative • PROC CORR • Test per l’IndipendenzaLineare • Una Qualitative e UnaQuantitativa continua • PROC ANOVA • Test per l’Indipendenza in media

  14. Metodi Quantitativi per Economia, Finanza e Management Obiettivi di questa esercitazione: 1 4 3 2 • Qualitativa e quantitativa: PROC ANOVA Dipendenza tra due variabili (schema di analisi) Due qualitative: PROC FREQ • Due quantitative:PROC CORR

  15. Test per l’indipendenza statistica X e Y due variabili qualitative/quantitative discrete Ipotesi: Statistica test: Statistica Chi-Quadro Regola di decisione: Se p-value < α rigetto H0  X e Y sonostatisticamentedipendenti Se p-value ≥ α accettoH0  X e Y sonostatisticamenteindipendenti H0: X e Y sonostatisticamenteindipendenti H1: X e Y sonostatisticamentedipendenti

  16. PROC FREQ Test d’indipendenza statistica tra due variabili qualitative o quantitative discrete proc freq data= dataset; tables variabile1 * variabile2/chisq; run; • NB: tra le opzioni posso sempre inserire l’opzione missing, per considerare anche i missing nel calcolo delle frequenze: • tables variabile1 * variabile2/missing chisq;

  17. PROC FREQ – Esempio C’è indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)? procfreqdata=corso.telefonia; tablessesso * computer /chisq; run;

  18. Scorsalezione: tabella di contingenza • Femmine: • 16% computer=0 • 84% computer=1 • Maschi: • 29.41% computer=0 • 70.59% computer=1 Le distribuzionidellavariabile computer, condizionate al sesso, sono diverse (viceversaquelle del sessocondizionate al possesso del computer)  ci fa pensareallapresenza di dipendenzatra le due variabili!

  19. Scorsa lezione: Indici di connessione Come valutiamo la presenza di indipendenza a partiredagliindicicalcolati? Chi-quadro “lontano” da 0, Cramer V “vicino” a 0  Vediamocosa dice ilTest d’ipotesi

  20. Risultato del Test P-value=0.0167 Siaα =0.05: p-value < α rigetto H0  concludoche X e Y sonostatisticamentedipendenti Se avessimoscelto un livello di significativitàdiverso? …con α =0.01: p-value ≥ α accettoH0  X e Y sonostatisticamenteindipendenti A seconda del livello di significativitàfissatopossiamoraggiungereconclusionidifferenti! NB. Se considerandoivaloripiùcomuni di α (0.01, 0.05, 0.1), siottengonoconclusioni diverse, sipuò dire chesulla base del campionela presuntarelazione di dipendenza non è così forte.

  21. PROC FREQ: Esempio 2 C’è indipendenza statistica tra le variabili SESSO e MARCA? procfreqdata=corso.telefonia; tablessesso * marca /chisq; run;

  22. PROC FREQ: Esempio 2 Attenzione: molte celle con frequenze congiunte assolute molto basse (<5)test non affidabile

  23. PROC FREQ: Esempio 2 Se più del 20% delle celle ha frequenza assoluta < 5, SAS lo segnala e il test non è affidabile!

  24. Metodi Quantitativi per Economia, Finanza e Management Obiettivi di questa esercitazione: 1 4 3 2 • Qualitativa e quantitativa: PROC ANOVA Dipendenza tra due variabili (schema di analisi) Due qualitative: PROC FREQ Due quantitative:PROC CORR

  25. Test per l’indipendenza lineare X e Y due variabili quantitative Ipotesi: Statistica test: Statistica t di Student Regola di decisione: Se p-value < α rigetto H0  X e Y sonolinearmentedipendenti Se p-value ≥ α accettoH0  X e Y sonolinearmenteindipendenti H0: X e Y sonolinearementeindipendenti (ρpopolaz=0) H1: X e Y sonolinearmentedipendenti (ρpopolaz≠0)

  26. PROC CORR Test per la correlazione tra due o più variabili quantitative proc corrdata= dataset; var variabile1 variabile2 … variabilen; run;

  27. PROC CORR - Esempio Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno proccorrdata=corso.telefonia; varcell_hfisso_h; run;

  28. Scorsa Lezione: Indice di correlazione Coefficiente di correlazione lineare ρ(X,Y):presenza di relazionelinearepositiva

  29. Risultato del test P-value = 0.0004 • Siafissandoα =0.05 cheα =0.01 • p-value < α rigetto H0  X e Y sonolinearmentedipendenti • Conclusione: esiste una relazione lineare tra le due variabili, anche se non molto forte (il coefficiente di correlazione lineare non è nullo, ma ha valore non molto elevato)

  30. Metodi Quantitativi per Economia, Finanza e Management Obiettivi di questa esercitazione: 1 4 3 2 Qualitativa e quantitativa: PROC ANOVA Dipendenza tra due variabili (schema di analisi) Due qualitative: PROC FREQ Due quantitative:PROC CORR

  31. Test per l’indipendenza in media X variabile qualitativa, Y variabile quantitativa Ipotesi: Statistica test: Statistica F di Fisher Regola di decisione: Se p-value < α rigetto H0  X e Y sonodipendenti in media Se p-value ≥ α accettoH0  X e Y sonoindipendenti in media H0: X e Y sonoindipendentiin media ↔μ1 = μ2 = … = μk (le medie di Y nei gruppi sono tutte uguali tra loro) H1: X e Y sonodipendenti in media ↔le μi non sono tutte uguali (esistono almeno due medie diverse tra loro)

  32. PROC ANOVA Test d’indipendenza in media tra: Y variabile quantitativa e X variabile qualitativa PROCANOVA DATA=dataset; CLASS X; MODEL Y=X; MEANS X; RUN;

  33. PROC ANOVA - Esempio C’è relazione tra la soddisfazione del cliente (SODDISFAZIONE_GLOBALE) e l’operatore telefonico da lui scelto (OPERATORE)? PROCANOVA DATA =corso.telefonia; CLASSoperatore; MODELsoddisfazione_globale=operatore; MEANSoperatore; RUN;

  34. Scorsa lezione: considerazioni La media dellasoddisfazioneglobalesembra molto vicinatraidiversigruppi eta quadro Ancheilvalore di eta-quadro è molto vicino a 0 avvaloral’ipotesi di indipendenza in media

  35. Risultato del Test: P-value = 0.1884 Fissandoα =0.05 p-value > α accettoH0  X e Y sonoindipendenti in media

  36. Dataset Il dataset DENTI contiene dati sul consumo di dentifricio (di marca A e di marca B). Le variabili sono:

  37. Esercizi • Allocare la libreria CORSO, in modo che punti alla cartella fisica dove è contenuta la tabella SAS «DENTI_NEW» • Analizzare la relazione di indipendenza tra area geografica esesso • Analizzare la relazione di indipendenza tra le variabili consumo di dentifrici della marca A e numero di contatti pubblicitari totali • Analizzare la relazione di indipendenza tra la variabile consumo di dentifrici della marca A e area geografica e confrontarla con quella tra consumo di dentifrici della marca A e dimensione della città di residenza.

More Related