1 / 34

Test Statistici

Test Statistici. Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5. Lavoro di gruppo. Attendere la validazione del questionario e procedere alla somministrazione dello stesso Argomenti da trattare nel lavoro di gruppo: Analisi univariata Analisi bivariata

Download Presentation

Test Statistici

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Test Statistici Metodi Quantitativi per Economia, Finanza e ManagementEsercitazione n°5

  2. Lavoro di gruppo • Attenderela validazione del questionario e procedereallasomministrazionedellostesso • Argomenti da trattare nel lavoro di gruppo: • Analisi univariata • Analisi bivariata • Test statistici • Analisi fattoriale • Regressione lineare utilizzando come regressori i fattori

  3. Test per lo studio dell’associazione tra variabili • Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali ipotesi sono parametriche se riguardano il valore di uno o più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione. • Obiettivo dei test: come decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato campionario. Esistono due ipotesi: • H0l’ipotesi nulla, cioè l’ipotesi che deve essere verificata • H1l’ipotesi alternativa la quale rappresenta, di fatto,l’ipotesi che il ricercatore sta cercando di dimostrare.

  4. Si può incorrere in due tipologie di errore: Possibili Risultati Verifica di Ipotesi Stato di Natura Decisione H0 Vera H0 Falsa Errore Secondo Tipo ( β ) Non No errore (1 - ) Rifiutare a H 0 Errore Primo Tipo ( ) Rifiutare No Errore ( 1 - β ) H 0 a Test per lo studio dell’associazione tra variabili Legenda: Risultato (Probabilità)

  5. Test per lo studio dell’associazione tra variabili • Errore di Primo Tipo • Rifiutare un’ipotesi nulla vera • Considerato un tipo di errore molto serio • Chiamato livello si significatività del test • Fissato a priori dal ricercatore (i valori comuni sono 0.01, 0.05, 0.10) • Errore di Secondo Tipo • Non rifiutare un’ipotesi nulla falsa • (1 – β)è definito come la potenza del test • La probabilità dell’errore di primo tipo è La probabilità dell’errore di secondo tipo èβ Potenza = 1 – β = probabilità che un’ipotesi nulla falsa venga rifiutata

  6. H0: b1= b2 = ....=bk = 0 1) Ipotesi H1: almeno un bi≠0 2) Statistica test Statistica F Rappresenta la probabilità di commettere l’errore di prima specie. Può essere interpretato come la probabilità che H0 sia “vera” in base al valore osservato della statistica test 3) p-value Lettura di un test statistico (1) Esempio:

  7. RIFIUTO H0 Se p-value piccolo (< ) Altrimenti (>= ) ACCETTO H0 Lettura di un test statistico (2) Fissato un livello di significatività : Il p-value è il più piccolo valore di  per il quale H0 può essere rifiutata

  8. PROC FREQ - Descrizione • La PROC FREQ permette di • calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete • creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitativediscrete • calcolare indici di dipendenza relativi a tabelle di contingenza

  9. Test chi-quadro – Indipendenza statistica • Si applica alle tabelle di contingenza a due dimensioni • Per testare l’hp di indipendenza statistica tra le due variabili della tabella (ossia, la distribuzione di X non è influenzata da Y e viceversa) • Si calcola con la PROC FREQ (opzione CHISQ)

  10. PROC FREQ – Sintassi generale Calcolo dell’indice chi-quadro proc freq data= dataset option(s); tables variabile1 * variabile2/option(s); run; • OPTIONS: • noprint non mostra i risultati nella finestra di output • /missing considera anche i missing nel calcolo delle frequenze • /chisqcalcola l’indice chi-quadro e altre misure di associazione basate sul chi-quadro

  11. Esempio n°1- Test chi-quadro – Indipendenza statistica C’è indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)? procfreqdata=corso.telefonia; table sesso * computer /chisq; run;

  12. Esempio n°1- Test chi-quadro – Indipendenza statistica Le frequenze della variabile COMPUTER subordinata a SESSO: Cosa sono le frequenze subordinate? Le frequenze della variabile di SESSO subordinata a COMPUTER:

  13. Esempio n°1- Test chi-quadro – Indipendenza statistica Le frequenze subordinate (di SESSO subordinata a COMPUTER e viceversa) sono diversedenota influenza di ognuna delle due variabili sulla distribuzione dell’altra (=dipendenza statistica)

  14. Esempio n°1- Test chi-quadro – Indipendenza statistica Possiamo concludere che le due variabili sono statisticamente dipendenti? Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui: H0 : indipendenza statistica tra X e Y H1 : dipendenza statistica tra X e Y Il p-value del test chi-quadro è basso (<0.05) rifiuto l’hp nulla di indipendenza statistica  le due variabili sono statisticamente dipendenti

  15. Esempio n°2 - Test chi-quadro – Indipendenza statistica C’è indipendenza statistica tra le variabili SESSO e MARCA? procfreqdata=corso.telefonia; table sesso * marca /chisq; run;

  16. Esempio n°2 - Test chi-quadro – Indipendenza statistica Attenzione: molte celle con frequenze congiunte assolute molto bassetest non molto affidabile

  17. Esempio n°2 - Test chi-quadro – Indipendenza statistica Il p-value del test chi-quadro è alto accetto l’hp di indipendenza statistica  le due variabili sono statisticamente indipendenti

  18. Test t – Indipendenza lineare • Si applica a variabili quantitative • Per testare l’hp di indipendenza lineare tra due variabili (ossia, il coefficiente di correlazione lineare tra X e Y è nullo) • Si calcola con la PROC CORR

  19. PROC CORR - Descrizione • La PROC CORR permette di • calcolare la correlazione tra due o più variabili quantitative

  20. PROC CORR – Sintassi generale proc corr data= dataset; var variabile1 variabile2 … variabilen; run; Correlazione tra due o più variabili

  21. PROC CORR - Esempio Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno. proccorrdata=corso.telefonia; var cell_h fisso_h; run;

  22. Output PROC CORR - Esempio Coefficiente di correlazione lineare ρ(X,Y):è un indice relativo, assume valori compresi tra -1 e 1. Se ρ>0 (ρ<0) la relazione tra X e Y è lineare positiva (negativa), se ρ=0 non c’è relazione lineare.

  23. PROC CORR - Esempio • Correlazione tra la durata media delle chiamate effettuate [durata_chiamate_e] e: • durata media delle chiamate ricevute [durata_chiamate_r] • numero medio di ore di utilizzo del telefono cellulare al giorno [cell_h] • numero medio di ore di utilizzo del telefono fisso al giorno [fisso_h] proccorrdata=corso.telefonia; var durata_chiamate_e durata_chiamate_r cell_hfisso_h; run;

  24. Output PROC CORR - Esempio

  25. Esempio n°1 - Test t – Indipendenza lineare C’è indipendenza lineare tra il numero medio ore utilizzo cellulare al giorno(CELL_H ) e il numero medio ore utilizzo telefono fisso al giorno (FISSO_H)? proccorrdata=corso.telefonia; var cell_h fisso_h; run;

  26. Esempio n°1 - Test t – Indipendenza lineare Il p-value del test t è basso rifiuto l’hp di indipendenza lineare  esiste una relazione lineare tra le due variabili, anche se non molto forte (il coefficiente di correlazione lineare è non nullo ma ha valore non molto elevato)

  27. Esempio n°2 - Test t – Indipendenza lineare C’è indipendenza lineare tra il numero medio ore utilizzo telefono fisso (FISSO_H ) e il numero medio di email inviate al giorno (EMAIL_H)? proccorrdata=corso.telefonia; var fisso_h email_h; run;

  28. Esempio n°2 - Test t – Indipendenza lineare Il p-value del test t è alto accetto l’hp di indipendenza lineare  non esiste una relazione lineare tra le due variabili

  29. Test F – Indipendenza in media • test per indagare la relazione esistente tra una variabile quantitativa Y e una variabile qualitativa X, confrontando le distribuzioni di Y condizionate ai valori assunti dalla variabile X • la metodologia consiste nel verificare la significatività delle differenze tra le medie aritmetiche della variabile continua dei gruppi di osservazioni generati dalle modalità assunte dalla variabile qualitativa • (ANOVA : ANalysis Of Variance) • il confronto tra le medie avviene tramite il test F, basato sulla scomposizione della varianza • H0: μ1 = μ2 = … = μk (le medie sono tutte uguali tra loro ) • H1: le μi non sono tutte uguali (esistono almeno due medie diverse tra loro)

  30. Test F – Indipendenza in media F= VarTRA/ VarNEI Significatività del test p-value : - se il p-value del test F è basso (<α) le differenze riscontrate tra le medie sono significativerifiuto l’ipotesi nullaposso affermare l’esistenza di una relazione tra la variabile Y e la variabile X.

  31. PROC ANOVA – Sintassi generale Sia Y una variabile quantitativa e X una variabile qualitativa PROCANOVA DATA=dataset; CLASS X; MODEL Y=X; MEANS X; RUN;

  32. Esempio (1/2) C’è relazione tra la soddisfazione del cliente (SODDISFAZIONE_GLOBALE) e l’operatore telefonico da lui scelto (OPERATORE)? PROCANOVA DATA =corso.telefonia; CLASS operatore; MODEL soddisfazione_globale=operatore; MEANS operatore; RUN;

  33. Esempio (2/2) Output proc anova: Devianza Varianza Tra Nei (Entro) eta quadro Il p-value del test F è alto (>α)accetto l’hp nulla di indipendenza in media non esiste una relazione di dipendenza in media tra le due variabili

  34. Esercizi • Testare se le variabili area geografica e sesso del data set DENTI sono statisticamente indipendenti • Testare l’ipotesi di indipendenza lineare tra le variabili consumo di dentifrici della marca A e numero di contatti pubblicitari totali del data set DENTI • Testare l’ipotesi di indipendenza in media tra la variabile consumo di dentifrici della marca A e area geografica e confrontarla con quella tra consumo di dentifrici della marca A e dimensione della città di residenza.

More Related