880 likes | 1.18k Views
Introduzione alla Statistica Inferenziale Prof. G. Migliaretti. Le fasi di una analisi statistica. Concetto di Popolazione. Insieme di tutti gli ‘individui’ obiettivo dello studio Non necessariamente una popolazione è composta da un elevato numero di soggetti. Concetto di Popolazione.
E N D
Introduzione alla Statistica Inferenziale Prof. G. Migliaretti
Concetto di Popolazione Insieme di tutti gli ‘individui’ obiettivo dello studio Non necessariamente una popolazione è composta da un elevato numero di soggetti
Concetto di Popolazione Importante distinguere - Popolazione obiettivo - Popolazione di campionamento
Concetto di Popolazione Popolazione obiettivo Popolazione che si desidera studiare Popolazione di campionamento Popolazione dalla quale si estrae il campione
Concetto di Popolazione La popolazione di campionamento se non selezionata in modo adeguato, potrebbe NON rispecchiare correttamente la popolazione obiettivo
Concetto di Popolazione Esempio Popolazione ospedaliera NON rispecchia la popolazione della città dove sorge l’ospedale
Definizione di campione Campione permette di stimare quanto “avviene” nella popolazione da cui è stato tratto.
Definizione di campione Un campione deve Rispecchiare le caratteristiche fondamentali della popolazione da cui proviene Avere una numerosità adeguata allo studio
Definizione di campione SOLO un Campione adeguatamente selezionato in termini di Caratteristiche e Numerosità, permette di studiare correttamente la popolazione da cui è stato tratto.
Definizione di campione Importante ricordare che Un campione rappresentativo della Popolazione A per un determinato obiettivo, NON lo è più se l’obiettivo viene cambiato. Esempio: Relazione tra tumore del Pancreas e consumo di caffè (McMahon B. et al ‘Coffee and Cancer of the pancreas. New Engl. J. of Med. 1981; 630-633)
Metodi di Campionamento Teoria del Campionamento è molto complessa. I metodi di campionamento vanno scelti in base al tipo di indagine che si desidera effettuare. Nelle indagini di popolazione molto diffuso il metodo “a grappolo”.
Numerosità campionaria Molto rilevante da un punto di vista statistico è la definizione di Numerosità campionaria
Numerosità campionaria Il calcolo della Numerosità dipende da: Metodo Inferenziale che si intende applicare Tipo di variabile che definisce l’end-point Livelli di attendibilità dello studio posti a priori Variabilità osservata Effetto atteso
Numerosità campionaria Numerosità va definita prima dell’inizio dello studio una volta stabilito il “livello di attendibilità” che si vuole raggiungere (indicatore k dipende da errori di I e II specie) Negli studi di “coorte” (osservazionali ed sperimentali) vengono spesso registrate perdite di soggetti durante il follow-up provocando una diminuzione dell’ “attendibilità dello studio”
Randomizzazione Attribuzione casuale dei pazienti ai trattamenti in studio
Randomizzazione La randomizzazione permette di controllare quei fattori di confondimento difficilmente controllabili con altri metodi in sede di disegno o di analisi (matching, stratificazione, modelli di regressione)
Randomizzazione Metodo di randomizzazione più elementare è basato sull’utilizzo delle tavole dei numeri casuali
VARIABILI STATISTICHE1. Metodi di rilevazione 2. Tipi di variabili3. Metodi di sintesi
Importanza di s Permette divalutare quanto le misure effettuate sulla popolazione possono essere sintetizzate dal valore medio
Importanza di s Media (X^) e Deviazione standard (s) calcolati sui campioni estratti dalla popolazione possono assumere valori diversi da Media (m) e Deviazione standard (s) calcolati sulla popolazione ma ne saranno una stima
Numerosità campionaria n = 2k2*s2/d2 Dove: s2 = varianza osservata nella popolazione d2 = variazione attesa con il nuovo trattamento k2 = (Za + Zb)2 indicatore definito sulla base degli errori di I e II specie definiti a priori
Numerosità campionariaEsempio Obiettivo: Verificare l’efficacia di un trattamento A p = 0,3 proporzione di migliorati nella popolazione non trattata d= 0,25 variazione attesa dopo il trattamento Posto a = 0,05 e b = 0,1 Za = 1,96 e Zb = 1,28 n = 2k2*(p(1- p))/d2 = 2(10,5)*(0,21)/0,0625 = 70,6
Dalla Deviata Standardizzata al Test Z Z = (X – m) / s Teorema del Limite Centrale Z = (X^ – m) / (s/ n)
Fondamenti del Teorema del Limite Centrale Il Teorema del Limite Centrale permette di passare dalla distribuzione delle osservazioni (m, s) alla distribuzione delle medie campionarie (m, s/n)
Obiettivi della Statistica Inferenziale Valutare con quale probabilità differenze osservate possono essere ritenute casuali
Test di Ipotesi Metodi di Statistica Inferenziale che permettono di “decidere” quale delle due ipotesi formulate a priori è la “migliore”. Vanno definiti : H0 Ipotesi iniziale H1 Ipotesi alternativa Errore di I specie
Esempio di utilizzo dei Test di Ipotesi Dopamina e Nitroprussiato sono due farmaci utilizzati nel trattamento di soggetti che hanno sofferto di attacchi cardiaci ischemici (ostruzione delle arterie coronarie impedisce l’apporto di ossigeno ad una parte del muscolo cardiaco destinandola alla morte). Clayton Shatney et al.* hanno condotto uno studio con l’obiettivo di confrontare i due farmaci. * Effects of infusion of dopamine and nitroprusside on size of experimental myocardial infarction. Chest, 1978; 73: 850-856.
Esempio di utilizzo dei Test di Ipotesi Allo scopo hanno selezionato un campione di 83 cavie animali alle quali è stata legata l’arteria coronaria discendente anteriore sinistra (che garantisce il maggior afflusso di sangue al cuore). Lo studio è stato condotto in cieco, e le cavie sono state destinate in modo casuale ai diversi trattamenti. Dopo 6 ore dall’inizio del trattamento è stata misurata, pesandola, la quantità di muscolo cardiaco danneggiata.
Esempio di utilizzo dei Test di Ipotesi Una analisi ‘ad interim’ è stata condotta prendendo come riferimento una popolazione di cavie con malfunzionamento dell’arteria coronaria anteriore sinistra. A 6 ore dalla diagnosi, la percentuale di ventricolo danneggiata rilevata è stata: m = 16,5 s = 4,3 Con quale probabilità si può trovare nella popolazione in esame, cavie con una percentuale di ventricolo danneggiato inferiore a 14? Un gruppo di 20 cavie trattate con uno dei due farmaci in esame ha presentato una percentuale media di ventricolo danneggiata pari a 13,8. Con questa prima evidenza si può sostenere l’efficacia dei trattamenti sul gruppo di cavie in studio?
Metodi parametrici per dati indipendenti Test Z Test t-Student per dati Indipendenti Analisi della Varianza Metodi parametrici per dati appaiati Test t-Student per dati Appaiati Analisi della varianza per misure ripetute
Test Z Utilizzabile per confrontare la media calcolata su un gruppo con la media calcolata su una popolazione. Permette di verificare se un gruppo di numerosità n può essere stato estratto da una popolazione di media m e deviazione standard s. Dal test Z discendono gli altri test parametrici per il confronto di medie
Test Z Z = (X^ – m) / (s/ n) Con H0 X^=m e H1 X^ = m
Intervallo di Confidenza di una media L’Intervallo di Confidenza di una media è l’intervallo di valori entro cui, con una probabilità 1-a, cade la media vera della popolazione. In termini più statistici, una volta calcolata una media, estraendo dalla popolazione 100 campioni e calcolando su ciascuno l’intervallo di confidenza della media, troveremmo che 95 di questi dovrebbero contenere la media vera della popolazione
Intervallo di Confidenza di una media Partendo dal test Z, l’ipotesi H0 è valida quando: Za |(X^ – m)| / (s/n) da cui, nel caso il test sia a due code: Za (X^ – m) / (s/n) Za - (X^ – m) / (s/n) Quindi, ricavando dalle due formule m: X^ - Za(s/ n) m X^ + Za(s/ n)
Test t-Student per dati Indipendenti Utilizzabile nel caso di confronti tra 2 gruppi In letteratura spesso utilizzato in modo inadeguato Problema dei confronti multipli
Test t-Student per dati Indipendenti (X^1 – X ^2) t = _____________ n = n1+n2-2 [s21/n1 + s22/n2]0,5 Sotto la condizione di omoscedasticità: (X^1 – X ^2) t = _____________ dove s2p=varianza pooled [s2p(1/n1 + 1/n2)] 0,5
Condizione di Omoscedasticità Omogeneità tra le varianze nei gruppi. Valutabile mediante: Bartlett’s test Levene’s test Se vale la condizione di omoscedasticità, nel test t-Student si può utilizzare la varianza “pooled” : s2p = [s21(n1 – 1) + s22(n2 – 1)] / (n1+n2-2)
Intervallo di Confidenza della differenza di medie Analogamente a quanto presentato per ‘Intervallo di Confidenza di una media, possiamo dedurre la formula dell’Intervallo di Confidenza della differenza di medie partendo dall’ipotesi H0 del test t-Student: (X^1 – X ^2) ta _____________ n = n1+n2-2 [s21/n1 + s22/n2]0,5
Intervallo di Confidenza della differenza di medie (X^1 – X^2) – ta[s21/n1 + s22/n2]0,5 m1-m2 (X^1 – X^2) + ta[s21/n1 + s22/n2]0,5 Oppure nel caso valga la condizione di omoscedasticità: (X^1 – X^2) – tasp [1/n1 + 1/n2]0,5 m1-m2 (X^1 – X^2) + tasp [1/n1 + 1/n2]0,5
Analisi della Varianza (one way) Utilizzabile nel caso di confronti tra k gruppi • In particolare per il confronto tra 3 o più gruppi • Nel caso di un confronto tra 2 gruppi analogo al t-Student per dati indipendenti
Analisi della Varianza Fondamenti dell’Analisi della Varianza • Se i k gruppi in studio fossero estratti dalla stessa popolazione, le loro varianze sarebbero stime di s2. • Stime diverse della stessa quantità (s2) dovrebbero fornire valori simili
Analisi della Varianza Varianza stimata dalle medie campionarie Errore standard: sx = s/ n da cui s = sx *n stra = sxi * n dove sxi indica l’Errore std della distribuzione delle medie dei k gruppi in studio
Analisi della Varianza Varianza stimata come media delle varianze s2entro = (1 /k) * (S s2i) dove s2i indica la varianza dei k gruppi
Analisi della Varianza Test F (Anova one-way) s2tra F = _____________ s2entro • nd = k * (n - 1) • nn = (k - 1) [k = numero gruppi ; n = numerosità gruppi]