1.06k likes | 1.34k Views
Statistica: concetti base. CIFRE SIGNIFICATIVE. Il numero di cifre significative è il numero minore di cifre necessarie per esprimere una quantità con la precisione richiesta. Il numero di cifre significative indica la precisione dell’esperimento.
E N D
Statistica: concetti base CIFRE SIGNIFICATIVE Il numero di cifre significative è il numero minore di cifre necessarie per esprimere una quantità con la precisione richiesta Il numero di cifre significative indica la precisione dell’esperimento
In pratica come cifre significative si indicano tutte le cifre certe più la prima incerta Quattro cifre significative: 278.4; 27.84·101; 2.784·102; 2784·10-1 Cinque cifre significative: 2.7840·10-3 Quattro cifre significative: 3.604·10-3; 0.003604
3.246 + 2.311 = 5.557; 3.24 + 2.311 = 5.551 5.55 CALCOLI Addizione e sottrazione: il risultato finale non può avere più cifre significative, dopo la virgola decimale, dei dati con il minor numero di cifre significative dopo la virgola decimale: Moltiplicazione e divisione: il risultato finale non può avere più cifre significative di quante ne abbia il dato con il minor numero di cifre significative: 73.24 x 4.52 = 331.0448 331 1648 / 0.023 = 71652.17... 72·103 Logaritmi ed esponenti Il numero di cifre significative dell’argomento deve essere pari a quello della mantissa: log 236 = 2.373
Dati Codificati CODIFICA Una semplice operazione matematica che consente di semplificare i calcoli statistici Moltiplicazione/Divisione X 100 0.51, 0.52, 0.47, 0.50,… 51, 52, 47, 50, ….. Addizione / Sottrazione -1, X 100 1.08, 1.10, 1.03, 1.05 8, 10, 3, 5, …..
TIPI DI ERRORE GROSSOLANI SISTEMATICI CASUALI accuratezza precisione prossimità al valore vero dispersione dei dati ottenuti intorno al valore medio
Errori casuali e sistematici Studente Risultato Commento (ml) 10.08 10.11 A 10.09 Preciso 10.10 Inaccurato 10.12 9.88 10.14 B 10.02 Accurato 9.80 Impreciso 10.21 10.19 9.79 C 9.69 Inaccurato 10.05 Impreciso 9.78 10.04 9.98 D 10.02 Accurato 9.97 Preciso 10.04 JC Miller, JN Miller; Statistics for analytical chemistry Ellis Horwood, 1988,
REGOLE PER L’ARROTONDAMENTO • Eliminare le cifre tutte insieme • Se la prime cifra da eliminare è minore di cinque, l’ultima cifra significativa non cambia • Se la prime cifra da eliminare è maggiore di cinque, l’ultima cifra significativa si aumenta di uno • 4. Se la prima cifra da eliminare è cinque e le altre sono zeri: • se l’ultima cifra significativa è pari, questa rimane invariata • se l’ultima cifra significativa è dispari, questa viene aumentata di uno 1.5 2 12.25 12.2 103.75 103.8
ORGANIZZAZIONE E RAPPRESENTAZIONE DEI DATI Esempio: il classico lancio del dado Un insieme di 35 dati Si tratta di una VARIABILE DISCRETA: può assumere solo determinati valori
DISTRIBUZIONE DI FREQUENZA Rappresentazione dei dati Una prima classificazione dell’informazione è effettuata impiegando le distribuzioni di frequenza Rapporto fra effettivo della modalità e effettivo della serie statistica Numero di volte in cui la modalità compare in una serie statistica modalità
DISTRIBUZIONE DI FREQUENZA Rappresentazione dei dati
DISTRIBUZIONE DI FREQUENZA Rappresentazione dei dati Distribuzione della FREQUENZA CUMULATA dei punteggi ottenuti in 35 lanci di un dado
DISTRIBUZIONE DI FREQUENZA Rappresentazione dei dati In presenza di VARIABILI CONTINUE è necessario suddividere il campo di variazioni in classi Ogni classe è delimitata da LIMITI DI CLASSE che ne definiscono l’INTERVALLO Il valore assoluto della differenza dei limiti definisce l’ AMPIEZZA della classe La media aritmetica dei due limiti definisce il CENTRO della classe
DISTRIBUZIONE DI FREQUENZA Rappresentazione dei dati Esempio: determinazione di ione nitrato in acqua Un insieme di 50 dati
DISTRIBUZIONE DI FREQUENZA Rappresentazione dei dati La definizione dell’ampiezza dell’intervallo della classe deve essere scelto in modo da ottenere una rappresentazione che non abbia troppo o troppo poco dettaglio Gli intervalli delle classi devono avere tutti la stessa ampiezza La pratica porta a consigliare l’impiego di un numero di classi variabile da 5 a 25 e, indicativamente, pari alla radice quadrata del numero di dati
DISTRIBUZIONE DI FREQUENZA Rappresentazione dei dati Nell’esempio dei dati del nitratol’intervallo della serie è 0.53 – 0.46 = 0.07 Il numero di dati è 50 Il numero di classi che si potrebbero scegliere è sette Guardando però la struttura dei dati si vede che per avere intervalli di classe identici conviene suddividere la serie in otto classi
DISTRIBUZIONE DI FREQUENZA Rappresentazione dei dati Questa suddivisione porta alla seguente rappresentazione grafica
DISTRIBUZIONE DI FREQUENZA Rappresentazione dei dati Riduciamo a quattro il numero di classi, in modo da mantenere costante il valore dell’intervallo di classe
DISTRIBUZIONE DI FREQUENZA Rappresentazione dei dati Questa suddivisione porta alla seguente rappresentazione grafica
DISTRIBUZIONE DI FREQUENZA Rappresentazione dei dati Riduciamo a due sole classi
DISTRIBUZIONE DI FREQUENZA Rappresentazione dei dati
DISTRIBUZIONE DI FREQUENZA Rappresentazione dei dati La CURVA DELLE FREQUENZE CUMULATE viene costruita riportando sull’asse delle ascisse il limite inferiore della prima classe e quello superiore della prima classe e di quelle successive. L’ordinata è la frequenza cumulata
VALORI CARATTERISTICI Rappresentazione dei dati È possibile rappresentare una serie di dati in modo sintetico attraverso l’uso di indicatori di posizione La distribuzione dei dati può assumere diverse forme, riconducibili ad una forma “a campana” caratterizzate da tre parametri principali LOCALIZZAZIONE DELLA SERIE DI DATI DISPERSIONE DELLA SERIE DI DATI FORMA DELLA SERIE DI DATI
Media, Mediana e Percentili Rappresentazione dei dati Somma dei valori divisa per l’effettivo della serie MEDIA ARITMETICA
Media Media, mediana e percentili Sergio Zappoli: Sergio Zappoli: Sergio Zappoli: La media aritmetica è uno dei più usati fra i valori caratteristici di tendenza centrale La media aritmetica di una serie di dati si ottiene dividendo la somma di tutti i valori della serie per il numero dei dati della serie 2 37 1 6 11 45 5 15
Mediana Media, mediana e percentili La mediana è quel valore della variabile statistica tale per cui la metà dei valori osservati presenta un valore inferiore e l’altra metà un valore superiore La mediana, a differenza della media, è meno sensibile ai valori estremi della serie di dati e, talvolta, rappresenta meglio le condizioni “medie” di un sistema
Mediana Media, mediana e percentili Per calcolare la mediana si deve innanzitutto ordinare in senso crescente i valori osservati: 2 37 1 6 11 45 5 1 2 5 6 11 37 45
Mediana Media, mediana e percentili Se il numero di osservazioni è dispari, la mediana è il valore dell’elemento che divide la serie in due gruppi 1 2 5 6 11 37 45 Se il numero di osservazioni è pari, si individua un intervallo mediano. La mediana è la media aritmetica fra i due valori delimitanti tale intervallo 5.5 1 2 5 6 11 37
Quantili Media, mediana e percentili I quantili (o percentili) sono parametri di posizione che dividono una serie di dati in gruppi. La mediana è quel particolare quantile che divide la serie dei dati in due parti di uguale dimensione. Il quantile di ordine 0.98, o 98° percentile, divide la serie di dati in due parti: il 98% dei dati ha valore inferiore al quantile dato
Quantili Media, mediana e percentili Le procedure di calcolo dei percentili sono simili a quelle per il calcolo della mediana. Una misura più accurata del valore della mediana o dei percentile si ottiene per interpolazione.
Esempio Media, mediana e percentili Consideriamo una serie di 72 misure di SO2 (µg/m3)in atmosfera 26/07/99 31/07/99 16/08/99 Ora1 12.6 12.6 14.9 Ora2 12.6 12.6 13.8 Ora3 12.6 11.5 13.8 Ora4 11.5 12.6 11.5 Ora5 10.3 11.5 10.3 Ora6 12.6 11.5 12.6 Ora7 12.6 11.5 12.6 Ora8 14.9 11.5 12.6 Ora9 16.1 16.1 13.8 Ora10 14.9 17.2 12.6 Ora11 24.2 16.1 13.8 Ora12 20.7 13.8 13.8 26/07/99 31/07/99 16/08/99 Ora13 12.6 12.6 13.8 Ora14 12.6 13.8 11.5 Ora15 11.5 14.9 11.5 Ora16 10.3 12.6 11.5 Ora17 10.3 13.8 14.9 Ora18 10.3 11.5 14.9 Ora19 11.5 10.3 16.1 Ora20 10.3 9.1 14.9 Ora21 12.6 11.5 13.8 Ora22 14.9 12.6 11.5 Ora23 14.9 11.5 11.5 Ora24 12.6 11.5 11.5
Esempio Media, mediana e percentili Ordiniamo la serie di dati in senso crescente 9.1; 10.3; 10.3; 10.3; 10.3; 10.3; 10.3; 10.3; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 12.6; 13.8; 13.8; 13.8; 13.8; 13.8; 13.8; 13.8; 13.8; 13.8; 13.8; 14.9; 14.9; 14.9; 14.9; 14.9; 14.9; 14.9; 14.9; 14.9; 16.1; 16.1; 16.1; 16.1; 17.2; 20.7; 24.2 72 x 0,98 = 70.56 71 Senza l’applicazione dell’interpolazione il 98° percentile è 20.7
Esempio Media, mediana e percentili In realtà più la serie di dati aumenta più l’assunzione della omogeneità della distribuzione dei dati nella classe diventa realistica Il 98° percentile è un valore intermedio fra 20.7 e 17.2, calcolato in modo da tenere conto del numero dei valori delle due classi nelle quali sono divisi i dati e dell’ampiezza dell’intervallo nel quale ricade il percentile
Esempio Media, mediana e percentili L’interpolazione può essere effettuata per via grafica ingrandiamo questa zona, dove è compreso il valore del percentile Valore parametro Evento
Esempio Media, mediana e percentili 19.2 Valore parametro Evento
VALORI CARATTERISTICI DI DISPERSIONE Rappresentazione dei dati Campo o Intervallo di variazione Nell’esempio dei dati del nitrato il campo di variazione è: Nell’esempio dei dati di SO2 campo di variazione è:
Varianza 13, 13, 13, 13, 13, 13, 13 131183 10, 11, 12, 13, 14, 15, 1613 1211 8, 9, 10, 13, 16, 17, 1813 1283 Consideriamo tre serie di dati di uguale media e numero di dati e calcoliamo la somma dei quadrati dei dati La somma dei quadrati dei dati cresce con la dispersione dei dati
Varianza Una delle proprietà della media è che la sommatoria degli scarti è uguale a zero Sviluppiamo il quadrato degli scarti:
Varianza Consideriamo ora che: che ci consente la scomposizione della somma dei quadrati dei dati in due termini
Varianza Dipende dalla dispersione dei dati Dipende dalla media Vediamo cosa succede applicando la scomposizione ai nostri dati:
Varianza Per normalizzarela misura di dispersione trovata, la sommatoria dei quadrati degli scarti, ne facciamo la media, dividendo per il numero N dei dati Tale valore di dispersione si definisce VARIANZA della serie di dati e si indica con il termine s2
Deviazione standard La DEVIAZIONE STANDARD della serie di dati è data dalla radice quadrata della varianza si indica con il termine s
Coefficiente di variazione Il COEFFICIENTE DI VARIAZIONE della serie di dati è un indicatore relativo, ottenuto dal rapporto percentuale fra deviazione standard e media della serie e si indica con il termine CV
Rappresentazioni grafiche Box & Whisker Plot Box & Whisker Plot per le tre serie di dati
Rappresentazioni grafiche Box & Whisker Plot Box & Whisker Plot per i dati del nitrato
DISTRIBUZIONE DI FREQUENZA Rappresentazione dei dati Distribuzione dei risultati per la determinazione del NO3 L’insieme di queste 50 misure è detto: CAMPIONE la POPOLAZIONE è l’insieme di tutte le possibili misure
La distribuzione normale La legge di probabilità di Laplace-Gauss, si applica alle variabili statistiche le cui variazioni sono dovute all’azione concomitante di numerose sorgenti di variazione indipendenti fra loro e i cui effetti si sommano senza che nessuno di essi abbia a prevalere I parametri della distribuzione sono MEDIA me la DEVIAZIONE STANDARDs
La distribuzione normale Una forma particolarmente utile della distribuzione normale è quella nella quale viene introdotta la variabile ridottaZ Z ha media pari a zero e deviazione standard pari a uno. In questa distribuzione normale ridotta alla variabile X si sostituiscono gli scarti dalla media.
La distribuzione normale • La funzione di distribuzione permette di • determinare la probabilità di ottenere un valore della variabile aleatoria X inferiore od uguale ad un determinato limite x1 • determinare la probabilità di ottenere un valore della variabile aleatoria X superiore ad un determinato limite x1 • Calcolare la probabilità di ottenere un valore della variabile aleatoria X compresa fra i limiti x1e x2 • La probabilità cumulata dell’insieme dei valori della distribuzione di probabilità è per definizione pari a 1