170 likes | 294 Views
Repetita iuvant. Rappresentazioni grafiche var. qualitative (barre, torta) Sintesi di variabili quantitative: Min, max Media, proprietà: Internalità Baricentro Linearità Minimizzazione somma quadrati scarti i (x i – ) 2 i (x i – ) 2 per qualsiasi Media ponderata.
E N D
Repetita iuvant • Rappresentazioni grafiche var. qualitative (barre, torta) • Sintesi di variabili quantitative: • Min, max • Media, proprietà: • Internalità • Baricentro • Linearità • Minimizzazione somma quadrati scarti i (xi – )2i (xi – )2per qualsiasi • Media ponderata
Variabilità per variabili quantitative • campo di variazione: max(Xi) – min(Xi) • scarto interquartile: • quartili: • mediana → 2 parti uguali • quartili → 4 parti uguali • Q1 → valore associato all’unità ordinata che • viene dopo il primo 25% • Q2 → valore associato all’unità ordinata che • viene dopo il primo 50% (Mediana!!!)
Q3 → valore associato all’unità ordinata che • viene dopo il primo 75% • Q4 → valore associato all’unità ordinata che • viene dopo il primo 100% (Max!!!) • in pratica: • si ordinano le unità • si individuano le unità portatrici di Q1 e Q3: • Q1 = x((n+1)/4) • Q3 = x((n+1)3/4) • N.b. il quartile, come la mediana, non è la posizione • bensì la modalità associata alla posizione!
se le posizioni non sono un numero intero? • si considera la parte intera separata da quella decimale: • Es.: n = 29 → (n + 1)/4 = 30/4 = 7,5 • parte intera c1 = [(n + 1)/4] → 7 • parte decimale d1 = (n + 1)/4 – [(n + 1)/4] → 0,5 • Q1 = x(c1) + d1(x(c1+1) – x(c1)) = • = x(7) + 0,5(x(8) – x(7)) = 18
→ (n + 1)3/4 = 90/4 = 22,5 • parte intera c3 → 22 • parte decimale d3 → 0,5 • Q3 = x(c3) + d3(x(c3+1) – x(c3)) = • = x(22) + 0,5(x(23) – x(22)) = 21
u.s. 2 3 4 … … 4 8 14 … … 26 27 29 • modalità 18 18 18 … … 20 20 20 … … 21 21 21 • (posizione) (1) (2) (3) … …(14) (15) (16)… … (27) (28) (29) • scarto interquartile: Q = Q3 – Q1 osservazioni: – lo scarto interquartile individua il range del 50% della distribuzione centrata sulla mediana (il secondo quartile…) –maggiore è Q, maggiore sarà la dispersione
scarto quadratico medio σ: • scarto: (xi – μ) • medio: quadratico: i (xi – )2i (xi – )2 per qualsiasi
osservazioni: • è nella stessa unità di misura dei dati (dipende dall’ordine di grandezza) • circa il 70% dei valori osservati dovrebbe cadere nell’intervallo μ± σ • σ≥ 0 • σ = 0 → omogeneità • se si hanno le distribuzioni di frequenze lo sqm diventa:
varianza σ2: • quadrato dello sqm… • osservazioni: • non è nella stessa unità di misura dei dati bensì il suo quadrato (dipende dall’ordine di grandezza) • σ2 ≥ 0 • σ2 = 0 omogeneità • poco informativa nell’analisi monovariata • se si hanno le distribuzioni di frequenze :
qual è la variabile che presenta maggiore variabilità? σetà = 1,249 σsig =
σetà = 1,249 σsig = 0,875 ordini di grandezza differenti, unità di misura diverse, appartenenza a gruppi di numerosità differente… → confronto?
coefficiente di variazione (CV): → numero puro!
Raggruppamento in classi Esigenze di sintesi rendono oneroso e di poca rilevanza elencare tutte le modalità con rispettive frequenze modalità → intervalli di valori → classi Es.: • u.s.: paziente • variabile: età • unità di misura: anni • numerosità gruppo: 1738
classe: intervallo di valori entro il quale si distribuiscono le osservazioni • procedura (semplificata): • si determina il range: r = max – min • si sceglie il numero di classi = k • si divide il range (r* un po’ più ampio di quello calcolato) per il numero di classi → si ottiene l’ampiezza di ogni classe d • 1° classe: inf < min sup = est. inf. + d 2° classe: inf. = sup.1° + 1 sup. = est. inf. + d ecc...
min=15 • max=99 • r=84 • k=4 • r*=88 • d=r*/k=22 • 1° classe : inf = 14 → sup = 14+22=36 • 2° classe : inf = 36+1=37 → sup = 37+22=59
→ distribuzione di frequenze per le classi... • osservazioni: • è più conveniente considerare ampiezze costanti • da tale distribuzione non è possibile identificare • la reale distribuzione originaria…