370 likes | 767 Views
STATISTICA a.a. 2003-2004. DISTRIBUZIONI DI FREQUENZE RAPPRESENTAZIONE DEI DATI MISURE DI POSIZIONE: MEDIA, MEDIANA, MODA MISURE DI DISPERSIONE: DEVIANZA, VARIANZA,DEVIAZIONE STANDARD. METODO DELLE DISTRIBUZIONI DI FREQUENZE. Rappresentazione dei dati per qualsiasi tipo di misura
E N D
STATISTICAa.a. 2003-2004 • DISTRIBUZIONI DI FREQUENZE • RAPPRESENTAZIONE DEI DATI • MISURE DI POSIZIONE: MEDIA, MEDIANA, MODA • MISURE DI DISPERSIONE: DEVIANZA, VARIANZA,DEVIAZIONE STANDARD
METODO DELLE DISTRIBUZIONI DI FREQUENZE • Rappresentazione dei dati per qualsiasi tipo di misura • Serie di rettangoli • Ognuno una data osservazione • AREA proporzionale al numero di volte in cui l’osservazione viene registrata
METODO DELLE DISTRIBUZIONI DI FREQUENZE • Per dati nominali ed ordinali: • Ogni rettangolo è una classe di osservazione (Es. colore nero dei capelli) • Per dati intervallari e razionali : • Prima si determina l’intervallo di variazione (differenza fra valore più alto e più basso) • Poi lo si divide in un certo numero di intervalli uguali • Le basi dei rettangoli sono uguali • Le aree sono proporzionali alle frequenze • Quindi le altezze sono proporzionali alle frequenze.
METODO DELLE DISTRIBUZIONI DI FREQUENZE Esempio: • Distribuzione di frequenze di 1300 osservazioni di neonati : • capelli (scala nominale) • condizioni di salute (scala ordinale) • temperatura (scala intervallare) • peso (scala razionale).
RAPPRESENTAZIONE E SINTESI DEI DATI QUALITATIVI • Deve essere curata la comprensibilità, l’indicazione della fonte e la data di rilevamento. IDEOGRAMMI
RAPPRESENTAZIONE E SINTESI DEI DATI QUALITATIVI PIE DIAGRAMS
RAPPRESENTAZIONE E SINTESI DEI DATI QUALITATIVI ISTOGRAMMI A CANNE D’ORGANO
RAPPRESENTAZIONE E SINTESI DEI DATI QUALITATIVI TABELLE DI CONTINGENZA
SINTESI DEI DATI QUANTITATIVI Si effettua attraverso misure di posizione e misure di dispersione. MISURE DI POSIZIONE • media aritmetica • media geometrica • mediana • moda
SINTESI DEI DATI QUANTITATIVI La media aritmetica rappresenta il valore che ogni dato avrebbe se tutti i dati avessero lo stesso valore e se la somma dei valori dei dati rimanesse la stessa. Il valor medio si rappresenta con ed è pari alla somma dei valori di tutti i dati diviso per il numero dei dati:
SINTESI DEI DATI QUANTITATIVI o se i dati sono raccolti in distribuzioni di frequenza fi numero delle osservazioni che cadono nell’intervallino di cui xi è il valore centrale.
SINTESI DEI DATI QUANTITATIVI o usando la frequenza percentuale
PROPRIETA’ DELLA MEDIA Sommando o sottraendo un valore k da tutti i dati, la media risulta aumentata o diminuita di quel valore: Moltiplicando o dividendo tutti i dati per un valore k, la media risulta moltiplicata o divisa per quel valore:
PROPRIETA’ DELLA MEDIA Se chiamiamo scarto di un dato valore dalla media la differenza tra quel valore e la media, avremo che la somma degli scarti di tutti i valori dalla media è uguale a zero: La somma dei quadrati degli scarti dei valori dalla media è sempre minore della somma dei quadrati degli scarti dei valori da un qualsiasi altro valore v:
MEDIA GEOMETRICA Altro tipo di media è la media geometrica, ossia la radice ennesima del prodotto degli n dati: L’importanza della media geometrica emerge nel caso di grandezze che non seguono progressioni lineari ma geometriche.
MEDIA GEOMETRICA Progressione aritmetica è una serie di numeri per cui la differenza fra due numeri contigui (d, ragione) è sempre la stessa: an = d + an-1 Una progressione geometrica è una serie di numeri per cui il rapporto fra un numero e il precedente (q, ragione) è sempre uguale : an = q an-1
MEDIA GEOMETRICA Esempio. Il farmaco A e il farmaco B servono ad aumentare un certo valore fisiologico. Per ambedue i farmaci quanto più alta è la dose tanto maggiore è l’aumento del valore fisiologico: FARMACO A FARMACO B
MEDIA GEOMETRICA Per il farmaco B i migliori effetti si hanno a basse dosi, mentre ad alte dosi l’aumento è minimo. Quanti mg di A occorrono per far salire di 3.5 U il valore fisiologico ? Il rapporto dose/effetto è costante, per cui la dose da somministrare sarà la media fra 45 e 60 mg, ossia 52.5 mg.
MEDIA GEOMETRICA Per il farmaco B: vediamo che l’effetto di B varia come il logaritmo della dose, ossia gli effetti di B seguono una progressione aritmetica mentre le dosi seguono una progressione geometrica. Quindi volendo ottenere un effetto pari a 3.5 U (media fra 3 e 4 U), dovremo usare una dose pari a 46.76 mg (media geometrica fra 27 e 81 mg.
MEDIA GEOMETRICA farmaco B
MISURE DI POSIZIONE La mediana è quella misura di posizione il cui valore è inferiore al valore del 50% dei dati, e superiore al valore dell’altro 50%. Divide i dati in due metà numericamente uguali. Non è precisa come la media perché valori estremi molto grandi o molto piccoli non ne modificano il valore Il valore è determinato solo dai valori centrali. Se il numero delle osservazioni è dispari, il valore della mediana coincide con il valore del dato (n+1)/2. Se il numero delle osservazioni è pari, viene assunto come valore la media aritmetica dei valori dei dati n/2 e (n+2)/2.
MISURE DI POSIZIONE Se il campione è più numeroso (es. 3500): Vogliamo trovare il valore della 1750esima osservazione. Costruiamo una tabella che riporti frequenze e frequenze cumulative delle varie classi (somma della frequenza di una classe e delle frequenze di tutte le classi precedenti):
MISURE DI POSIZIONE Se il campione è più numeroso (es. 3500):
MISURE DI POSIZIONE La 1750esima osservazione sta nella classe 240-260. Se supponiamo le osservazioni uniformemente distribuite della classe,
MISURE DI POSIZIONE La 1750esima osservazione sta nella classe 240-260. Se supponiamo le osservazioni uniformemente distribuite nella classe, dovrà valere la seguente proporzione: (1750 – 1144) : (1827 – 1144) = (x – 240) : (260 – 240) dove x è il valore della 1750esima osservazione. Risulta x = 257.74.
MISURE DI POSIZIONE • Analogamente alla mediana si definiscono e si calcolano: • quartili • decili • percentili • 1° quartile: superiore o uguale al 25% delle osservazioni • inferiore al restante 75% • 2° quartile coincide con la mediana • 3° quartile : inferiore o uguale al 25% delle osservazioni e superiore al 75% • 1° decile: superiore o uguale al 10% e inferiore al 90% delle osservazioni • 1° percentile inferiore o uguale al 99% e superiore all’1% delle osservazioni, • ecc.
MISURE DI POSIZIONE La moda è il valore più frequente di una distribuzione. Nella distribuzione precedente l’intervallo con il maggior numero di osservazioni era 240-260. Il valore centrale dell’intervallo (media aritmetica degli estremi) viene assunto come valore della moda, in questo caso 250. La media della distribuzione sarà quindi i tre valori mediana (257.74), moda (250) e media (258.24) sono molto vicini. Questo vale solo quando la distribuzione è approssimativamente normale (v. avanti).
MISURE DI DISPERSIONE Le misure di posizione danno un’idea del valore centrale di una popolazione Le misure di dispersione danno un’idea di quanto i dati si scostano dal valore centrale. • RANGE o intervallo di variazione: differenza fra valore massimo e minimo. • Se il range è elevato la media non dà una buona indicazione. • Tuttavia se anche un solo bambino ha un’altezza molto bassa il range risulta molto grande ma la media è ancora una buona stima: il range non è una misura affidabile. • SOMMA DEGLI SCARTI dei valori della media. E’ sempre uguale a zero.
MISURE DI DISPERSIONE DEVIANZA o somma dei quadrati degli scarti dalla media. Ma la devianza è influenzata dalle dimensioni del campione (quanto più grande il campione tanto più numerosi gli scarti) E’ impossibile confrontare due campioni di dimensioni diverse attraverso la devianza. VARIANZA è la devianza divisa per il numero di osservazioni.
MISURE DI DISPERSIONE In genere la si calcola con C “termine di correzione” perché in questo modo non richiede la conoscenza della media. Ma la varianza deve misurare la variabilità dei dati: Vanno escluse tutte le costanti.
Chiamiamo GRADI DI LIBERTA’ il numero di dati significativi di un campione. Conoscendo la media e n-1 dati, l’n-esimo è ricavabile. Quindi il numero di gradi di libertà è n-1 e la formula corretta è MISURE DI DISPERSIONE Quando il campione è numeroso la variazione è minima.
MISURE DI DISPERSIONE DEVIAZIONE STANDARD è la radice quadrata della varianza: • In questo modo ds ha le stesse dimensioni fisiche delle osservazioni. • In genere si scrive la media di un campione seguita dalla suadeviazione standard, es. 14 3. • La deviazione standard della popolazione si indica con s , la varianza con s2 . • La deviazione standard del campione si indica con s , la varianza campionaria con s2 .