1 / 88

Introduzione alla Statistica Inferenziale Prof. G. Migliaretti

Introduzione alla Statistica Inferenziale Prof. G. Migliaretti. Le fasi di una analisi statistica. Concetto di Popolazione. Insieme di tutti gli ‘individui’ obiettivo dello studio Non necessariamente una popolazione è composta da un elevato numero di soggetti. Concetto di Popolazione.

Download Presentation

Introduzione alla Statistica Inferenziale Prof. G. Migliaretti

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Introduzione alla Statistica Inferenziale Prof. G. Migliaretti

  2. Le fasi di una analisi statistica

  3. Concetto di Popolazione Insieme di tutti gli ‘individui’ obiettivo dello studio Non necessariamente una popolazione è composta da un elevato numero di soggetti

  4. Concetto di Popolazione Importante distinguere - Popolazione obiettivo - Popolazione di campionamento

  5. Concetto di Popolazione Popolazione obiettivo Popolazione che si desidera studiare Popolazione di campionamento Popolazione dalla quale si estrae il campione

  6. Concetto di Popolazione La popolazione di campionamento se non selezionata in modo adeguato, potrebbe NON rispecchiare correttamente la popolazione obiettivo

  7. Concetto di Popolazione Esempio Popolazione ospedaliera NON rispecchia la popolazione della città dove sorge l’ospedale

  8. Definizione di campione Campione permette di stimare quanto “avviene” nella popolazione da cui è stato tratto.

  9. Definizione di campione Un campione deve Rispecchiare le caratteristiche fondamentali della popolazione da cui proviene Avere una numerosità adeguata allo studio

  10. Definizione di campione SOLO un Campione adeguatamente selezionato in termini di Caratteristiche e Numerosità, permette di studiare correttamente la popolazione da cui è stato tratto.

  11. Definizione di campione Importante ricordare che Un campione rappresentativo della Popolazione A per un determinato obiettivo, NON lo è più se l’obiettivo viene cambiato. Esempio: Relazione tra tumore del Pancreas e consumo di caffè (McMahon B. et al ‘Coffee and Cancer of the pancreas. New Engl. J. of Med. 1981; 630-633)

  12. Metodi di Campionamento Teoria del Campionamento è molto complessa. I metodi di campionamento vanno scelti in base al tipo di indagine che si desidera effettuare. Nelle indagini di popolazione molto diffuso il metodo “a grappolo”.

  13. Numerosità campionaria Molto rilevante da un punto di vista statistico è la definizione di Numerosità campionaria

  14. Numerosità campionaria Il calcolo della Numerosità dipende da: Metodo Inferenziale che si intende applicare Tipo di variabile che definisce l’end-point Livelli di attendibilità dello studio posti a priori Variabilità osservata Effetto atteso

  15. Numerosità campionaria Numerosità va definita prima dell’inizio dello studio una volta stabilito il “livello di attendibilità” che si vuole raggiungere (indicatore k dipende da errori di I e II specie) Negli studi di “coorte” (osservazionali ed sperimentali) vengono spesso registrate perdite di soggetti durante il follow-up provocando una diminuzione dell’ “attendibilità dello studio”

  16. Randomizzazione Attribuzione casuale dei pazienti ai trattamenti in studio

  17. Randomizzazione La randomizzazione permette di controllare quei fattori di confondimento difficilmente controllabili con altri metodi in sede di disegno o di analisi (matching, stratificazione, modelli di regressione)

  18. Randomizzazione Metodo di randomizzazione più elementare è basato sull’utilizzo delle tavole dei numeri casuali

  19. VARIABILI STATISTICHE1. Metodi di rilevazione 2. Tipi di variabili3. Metodi di sintesi

  20. Statistica descrittiva e Curve di distribuzione

  21. Importanza di s Permette divalutare quanto le misure effettuate sulla popolazione possono essere sintetizzate dal valore medio

  22. Importanza di s Media (X^) e Deviazione standard (s) calcolati sui campioni estratti dalla popolazione possono assumere valori diversi da Media (m) e Deviazione standard (s) calcolati sulla popolazione ma ne saranno una stima

  23. Potenza ed Errori di I e II specie

  24. Numerosità campionaria n = 2k2*s2/d2 Dove: s2 = varianza osservata nella popolazione d2 = variazione attesa con il nuovo trattamento k2 = (Za + Zb)2 indicatore definito sulla base degli errori di I e II specie definiti a priori

  25. Numerosità campionariaEsempio Obiettivo: Verificare l’efficacia di un trattamento A p = 0,3 proporzione di migliorati nella popolazione non trattata d= 0,25 variazione attesa dopo il trattamento Posto a = 0,05 e b = 0,1  Za = 1,96 e Zb = 1,28 n = 2k2*(p(1- p))/d2 = 2(10,5)*(0,21)/0,0625 = 70,6

  26. Dalla Deviata Standardizzata al Test Z Z = (X – m) / s  Teorema del Limite Centrale  Z = (X^ – m) / (s/ n)

  27. Fondamenti del Teorema del Limite Centrale Il Teorema del Limite Centrale permette di passare dalla distribuzione delle osservazioni (m, s) alla distribuzione delle medie campionarie (m, s/n)

  28. Statistica Inferenziale

  29. Obiettivi della Statistica Inferenziale Valutare con quale probabilità differenze osservate possono essere ritenute casuali

  30. Test di Ipotesi Metodi di Statistica Inferenziale che permettono di “decidere” quale delle due ipotesi formulate a priori è la “migliore”. Vanno definiti : H0  Ipotesi iniziale H1  Ipotesi alternativa Errore di I specie

  31. Esempio di utilizzo dei Test di Ipotesi Dopamina e Nitroprussiato sono due farmaci utilizzati nel trattamento di soggetti che hanno sofferto di attacchi cardiaci ischemici (ostruzione delle arterie coronarie impedisce l’apporto di ossigeno ad una parte del muscolo cardiaco destinandola alla morte). Clayton Shatney et al.* hanno condotto uno studio con l’obiettivo di confrontare i due farmaci. * Effects of infusion of dopamine and nitroprusside on size of experimental myocardial infarction. Chest, 1978; 73: 850-856.

  32. Esempio di utilizzo dei Test di Ipotesi Allo scopo hanno selezionato un campione di 83 cavie animali alle quali è stata legata l’arteria coronaria discendente anteriore sinistra (che garantisce il maggior afflusso di sangue al cuore). Lo studio è stato condotto in cieco, e le cavie sono state destinate in modo casuale ai diversi trattamenti. Dopo 6 ore dall’inizio del trattamento è stata misurata, pesandola, la quantità di muscolo cardiaco danneggiata.

  33. Esempio di utilizzo dei Test di Ipotesi Una analisi ‘ad interim’ è stata condotta prendendo come riferimento una popolazione di cavie con malfunzionamento dell’arteria coronaria anteriore sinistra. A 6 ore dalla diagnosi, la percentuale di ventricolo danneggiata rilevata è stata: m = 16,5 s = 4,3 Con quale probabilità si può trovare nella popolazione in esame, cavie con una percentuale di ventricolo danneggiato inferiore a 14? Un gruppo di 20 cavie trattate con uno dei due farmaci in esame ha presentato una percentuale media di ventricolo danneggiata pari a 13,8. Con questa prima evidenza si può sostenere l’efficacia dei trattamenti sul gruppo di cavie in studio?

  34. Metodi parametrici per dati indipendenti Test Z Test t-Student per dati Indipendenti Analisi della Varianza Metodi parametrici per dati appaiati Test t-Student per dati Appaiati Analisi della varianza per misure ripetute

  35. Introduzione ai metodi Parametrici Dati Indipendenti

  36. Test Z Utilizzabile per confrontare la media calcolata su un gruppo con la media calcolata su una popolazione. Permette di verificare se un gruppo di numerosità n può essere stato estratto da una popolazione di media m e deviazione standard s. Dal test Z discendono gli altri test parametrici per il confronto di medie

  37. Test Z Z = (X^ – m) / (s/ n) Con H0  X^=m e H1  X^ = m

  38. Intervallo di Confidenza di una media L’Intervallo di Confidenza di una media è l’intervallo di valori entro cui, con una probabilità 1-a, cade la media vera della popolazione. In termini più statistici, una volta calcolata una media, estraendo dalla popolazione 100 campioni e calcolando su ciascuno l’intervallo di confidenza della media, troveremmo che 95 di questi dovrebbero contenere la media vera della popolazione

  39. Intervallo di Confidenza di una media Partendo dal test Z, l’ipotesi H0 è valida quando: Za |(X^ – m)| / (s/n) da cui, nel caso il test sia a due code: Za (X^ – m) / (s/n) Za - (X^ – m) / (s/n) Quindi, ricavando dalle due formule m: X^ - Za(s/ n) m X^ + Za(s/ n)

  40. Test t-Student per dati Indipendenti Utilizzabile nel caso di confronti tra 2 gruppi In letteratura spesso utilizzato in modo inadeguato Problema dei confronti multipli

  41. Test t-Student per dati Indipendenti (X^1 – X ^2) t = _____________ n = n1+n2-2 [s21/n1 + s22/n2]0,5 Sotto la condizione di omoscedasticità: (X^1 – X ^2) t = _____________ dove s2p=varianza pooled [s2p(1/n1 + 1/n2)] 0,5

  42. Distribuzione t-Student

  43. Condizione di Omoscedasticità Omogeneità tra le varianze nei gruppi. Valutabile mediante: Bartlett’s test Levene’s test Se vale la condizione di omoscedasticità, nel test t-Student si può utilizzare la varianza “pooled” : s2p = [s21(n1 – 1) + s22(n2 – 1)] / (n1+n2-2)

  44. Intervallo di Confidenza della differenza di medie Analogamente a quanto presentato per ‘Intervallo di Confidenza di una media, possiamo dedurre la formula dell’Intervallo di Confidenza della differenza di medie partendo dall’ipotesi H0 del test t-Student: (X^1 – X ^2) ta _____________ n = n1+n2-2 [s21/n1 + s22/n2]0,5

  45. Intervallo di Confidenza della differenza di medie (X^1 – X^2) – ta[s21/n1 + s22/n2]0,5  m1-m2  (X^1 – X^2) + ta[s21/n1 + s22/n2]0,5 Oppure nel caso valga la condizione di omoscedasticità: (X^1 – X^2) – tasp [1/n1 + 1/n2]0,5  m1-m2  (X^1 – X^2) + tasp [1/n1 + 1/n2]0,5

  46. Analisi della Varianza (one way) Utilizzabile nel caso di confronti tra k gruppi • In particolare per il confronto tra 3 o più gruppi • Nel caso di un confronto tra 2 gruppi analogo al t-Student per dati indipendenti

  47. Analisi della Varianza Fondamenti dell’Analisi della Varianza • Se i k gruppi in studio fossero estratti dalla stessa popolazione, le loro varianze sarebbero stime di s2. • Stime diverse della stessa quantità (s2) dovrebbero fornire valori simili

  48. Analisi della Varianza Varianza stimata dalle medie campionarie Errore standard: sx = s/ n da cui s = sx *n stra = sxi *  n dove sxi indica l’Errore std della distribuzione delle medie dei k gruppi in studio

  49. Analisi della Varianza Varianza stimata come media delle varianze s2entro = (1 /k) * (S s2i) dove s2i indica la varianza dei k gruppi

  50. Analisi della Varianza Test F (Anova one-way) s2tra F = _____________ s2entro • nd = k * (n - 1) • nn = (k - 1) [k = numero gruppi ; n = numerosità gruppi]

More Related