1 / 63

Lezione 1

Lezione 1. Elementi di statistica descrittiva. Insegnamento: Statistica Corso di Laurea Magistrale in Matematica Facoltà di Scienze, Università di Ferrara E-mail: susanna.ragazzi@unife.it. Contenuti del corso. Cenni di statistica descrittiva : Distribuzioni di frequenza

vila
Download Presentation

Lezione 1

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Lezione 1 Elementi di statistica descrittiva Insegnamento: Statistica Corso di Laurea Magistrale in Matematica Facoltà di Scienze, Università di Ferrara E-mail: susanna.ragazzi@unife.it

  2. Contenuti del corso • Cenni di statistica descrittiva: • Distribuzioni di frequenza • Indici statistici di posizione • Indici statistici di variabilità • Calcolo delle probabilità • Teoria delle variabili aleatorie • Modelli di variabili aleatorie • Statistica inferenziale • Teoria degli stimatori • Metodi di costruzione degli stimatori • Teoria dei test • Test parametrici e non parametrici

  3. Principali Riferimenti Bibliografici • Levine, Krehbiel, Berenson (2006): Statistica, II edizione, Apogeo. • Piccolo D., (2000): Statistica, II edizione, il Mulino, Bologna.

  4. La statistica: concetti di base Definizione: la Statistica è la scienza che si occupa della trattazione dei dati rilevati su fenomeni misurabili allo scopo di • rappresentare e sintetizzare i fenomeni di interesse STATISTICA DESCRITTIVA: lo scopo è quello di introdurre i metodi di analisi dei dati, i principali tipi di grafici ed il concetto di variabile • prendere delle decisioni in merito ad ipotesi di interesse  STATISTICA INFERENZIALE Statistica: teoria e metodo per la raccolta, l’interpretazione dei dati e la scelta decisionale

  5. La statistica: concetti di base Alcune definizioni: • Popolazione: aggregati di individui non necessariamente viventi o materiali (ad es. se si effettua un certo numero di misure, l’insieme dei risultati costituisce una popolazione). Popolazioni presentano delle variazioni al loro interno origine aleatoria. • Fenomeno aleatorio: fenomeno in cui è presente in modo essenziale un elemento di casualità. • Unità statistica (soggetto): elemento di base della popolazione sul quale viene effettuata la rilevazione o la misurazione di uno o più fenomeni oggetto dell’indagine

  6. La statistica: concetti di base • Variabili (o caratteri): è il fenomeno oggetto dello studio, rilevato o misurato sulle unità statistiche. Dalla variabile oggetto di studio otteniamo un insieme di n osservazioni registrate che costituiscono i dati da analizzare. • Modalità: espressione concreta del carattere nelle unità statistiche, cioè il numero (variabili quantitative) o l’attributo (variabili qualitative). • Frequenza: numero di volte che una determinata modalità si verifica nel collettivo di riferimento. Se la frequenza è un intero non negativo si parla di frequenza assoluta; quando invece è rapportata al totale delle unità statistiche della popolazione si parla di frequenza relativa.

  7. I tipi di dati • Variabile numerica: se assume per modalità dei numeri. • Variabile numerica discreta: se l’insieme dei valori che può assumere a priori è finito o numerabile. • Variabile numerica continua: se l’insieme dei valori che può assumere a priori è l’insieme dei numeri reali o un intervallo di numeri reali. • Variabile non numerica: se assume per modalità degli attributi non numerici della più varia natura.

  8. La frequenza: definizione e motivazione La distribuzione di frequenza è una organizzazione dei dati in forma tabellare tale che ad ogni modalità di una certa variabile (quantitativa o qualitativa) si fa corrispondere la rispettiva frequenza (assoluta o relativa). DEFINIZIONE (per le variabili numeriche) Frequenza: conteggio del numero di unità statistiche che cadano in un certo intervallo di valori, detto classe. DEFINIZIONE (per le variabili categoriali) Frequenza: conteggio del numero di unità statistiche che assumono una data modalità. Lo studio della frequenza ci fornisce una fondamentale informazione sulla distribuzione della variabile di interesse: il modo in cui (ossia dove e come) i valori della variabile si distribuiscono nell’intervallo di variazione (variabili numeriche) o tra le diverse modalità (variabili categoriali).

  9. Esempio Si consideri il voto espresso in trentesimi di due studenti (A e B) in 21 esami: Raggruppiamo i voti dei due laureandi “conteggiando” la frequenza di ciascuno dei voti compresi tra 18 e 30 ed escludiamo dall’elenco delle modalità quelle non osservate nei due casi: Emerge che il profitto di A è globalmente più elevato di quello di B.

  10. Le distribuzioni di frequenza per variabili discrete Se in una popolazione composta da n elementi, una variabili X assume k modalità distinte x1,...,xk in modo tale che la modalità x1 si presenta n1 volte,....la modalità xk si presenta k volte allora possiamo rappresentare queste informazioni in forma tabellare mediante la distribuzione di frequenza:

  11. Esempio Si vuole esaminare le distribuzioni di frequenza (assolute e relative) delle famiglie della Lombardia e della Calabria in rapporto alla variabile “Numero di componenti” (Censimento 1981 della popolazione italiana – Istat 1994)

  12. Rappresentazione grafica delle distribuzioni di frequenza per variabili discrete Per variabili discrete è preferibile rappresentare la distribuzione di frequenza mediante un diagramma a barre: diagramma cartesiano in cui i valori di ascissa corrispondono ai valori delle modalità ed in ordinata le rispettive frequenze

  13. Le distribuzioni di frequenza per variabili continue Rappresentazione grafica: Istogramma di frequenza (Karl Pearson 1895) Per ogni classe si disegna un rettangolo di area ni (ovvero ni/n) – la cui base misura (xi-xi-1) e l’altezza misura hi=ni/(xi-xi-1). La quantità hi è anche detta densità di frequenza.

  14. La frequenza per variabili continue Numero di classi: da un minimo di 5 ad un massimo di 15: oppure Estremi delle classi: devono facilitare la lettura e l’interpretazione dei dati. Ampiezza delle classi: si calcolano secondo la seguente formula: NOTA BENE Elementi di soggettività nel calcolo della classi Una diversa definizioni del numero e/o degli estremi e/o dell’ampiezza delle classi genera una differente espressione della frequenza, che può essere anche sensibile se la numerosità dei dati è scarsa. Rappresentazione della frequenza: la frequenza può essere rappresentata

  15. Tabella e Istogramma di frequenzaassoluta e relativa

  16. Il poligono: un’alternativa all’istogramma di frequenza Anche nel caso del poligono l’asse orizzontale rappresenta il fenomeno oggetto dell’analisi, mentre sull’asse verticale viene indicato il numero, la percentuale o la frequenza relativa di osservazioni per ogni intervallo di raggruppamento. Il poligono si costruisce scegliendo il punto medio di ciascuna classe a rappresentare tutte le osservazioni che cadono nella classe stessa, e congiungendo poi la sequenza dei punti medi alla percentuale di osservazioni nella classe corrispondente.

  17. La funzione di ripartizione empirica Consideriamo la distribuzione delle modalità ordinate di una variabile X, rilevate sulle n unità della popolazione (non necessariamente tutte distinte) È possibile attribuire a ciascuna di esse frequenza assoluta 1 e frequenza relativa 1/n. Nella popolazione la frazione 1/n di unità statistiche presenta valori di X minori o uguali a x1, la frazione 2/n di unità statistiche presenta valori di X minori o uguali a x2.........la frazione n/n di unità statistiche (cioè tutte) presenta valori inferiori o uguali a xn. Funzione di ripartizione empirica (distribution function) := funzione che associa ad ogni valore reale x0 la frazione delle unità che sono inferiori o uguali a x0. • 0≤F(x)≤1 • F(x) è non decrescente • F(-∞)=0; F(+∞)=1; • F(x) è continua da destra

  18. Esempio Calcoliamo la funzione di ripartizione empirica di X = “numero di componenti delle famiglie residenti” in Lombardia ed in Calabria (Censimento Istat 1981)

  19. Indici statistici di sintesi Per trarre delle indicazioni adeguate quando si considerano dati quantitativi, non è sufficiente rappresentare i dati mediante tabelle ed grafici di frequenza. Una buona analisi dei dati richiede anche che le caratteristiche principali delle osservazioni siano sintetizzate con opportune misure, dette Indici Statistici, e che tali misure siano adeguatamente analizzate e interpretate. Tipi di indici: • Misure di tendenza centrale (Indici di posizione) • Misure di Variabilità (Indici di dispersione) • Misure di Forma

  20. Misure di Tendenza Centrale Nella maggior parte degli insiemi di dati, le osservazioni mostrano una tendenza a raggrupparsi attorno a un valore centrale. Obiettivo di una misura di posizione (location index) è quello di sintetizzare in un singolo valore l’intera distribuzione di frequenza per effettuare confronti nel tempo, nello spazio o tra circostanze differenti. Tale valore descrittivo è una misura di posizione o di tendenza centrale. Tipi di misure di tendenza centrale: • Media • Mediana • Moda

  21. Misure di Tendenza Centrale: la Media La media aritmetica (anche chiamata semplicemente media) è la misura di posizione più comune. Si calcola dividendo la somma dei valori osservati per il numero totale di osservazioni.

  22. Misure di Tendenza Centrale: la Media • La media è sempre compresa tra il minimo ed il massimo delle modalità della variabile • La somma degli scarti dallamedia ( ) è sempre nulla, per cui la media costituisce il “baricentro” di una distribuzione di frequenza. • Il calcolo della media si basa su tutte le osservazioni (X1, X2, X3, . . . , Xn) dell’insieme di dati, proprietà questa che non è presentata da nessun’altra misura di posizione comunemente usata. • Se una variabile X presenta media µ allora la variabile α+βX presenta media α+β µ (linearità della media) • La media aritmetica è l’unico valore che rende minimo la somma degli scarti al quadrato ( )

  23. Misure di Tendenza Centrale: la Media Commento: quando usare la Media Aritmetica Proprio perché il calcolo della media si basa su tutte le osservazioni, tale misura di posizione risulta influenzata da valori estremi. In presenza di valori estremi, la media aritmetica fornisce una rappresentazione distorta dei dati ed è pertanto opportuno in questi casi ricorrere ad altre misure di posizione. Se dal campione rimuoviamo il fondo Mentor Merger (rendimento = 10.0) che possiamo considerare come un outlier (dato anomalo), ricalcolando la media otteniamo un valore pari a 31.11.

  24. Misure di Tendenza Centrale: la Mediana La mediana (Galton 1883) è il valore centrale in un insieme di dati ordinati dal valore più piccolo al più grande (cioè in ordine non decrescente). Commento: La mediana non è influenzata dalle osservazioni estreme di un insieme di dati: nel caso di osservazioni estreme è quindi opportuno descrivere l’insieme di dati con la mediana piuttosto che con la media.

  25. Misure di Tendenza Centrale: la Mediana Per trovare la posizione occupata dal valore mediano nella serie ordinata delle osservazioni si usa l’equazione (3.2) secondo una delle due regole seguenti: REGOLA 1. Se l’ampiezza del campione è un numero dispari, la mediana coincide con il valore centrale, vale a dire con l’osservazione che occupa la posizione (n+1)/2 nella serie ordinata delle osservazioni. REGOLA 2. Se l’ampiezza del campione è un numero pari, la mediana allora coincide con la media dei valori corrispondenti alle due osservazioni centrali.

  26. Misure di Tendenza Centrale: la Mediana

  27. La moda è il valore più frequente in un insieme di dati. Misure di Tendenza Centrale: la Moda • A differenza della media, la moda non è influenzata dagli outlier. • Tuttavia tale misura di posizione viene usata solo per scopi descrittivi, poiché è caratterizzata da maggiore variabilità rispetto alle altre misure di posizione (piccole variazioni in un insieme di dati possono far variare in modo consistente la moda). • La moda può non esistere o non essere unica, se unica la distribuzione è detta unimodale, quando ci sono più mode diverse è detta bimodale o multimodale.

  28. Misure di Tendenza Centrale: la Moda NOTA: un insieme di dati può non avere moda, se nessuno valore è “più tipico”.

  29. Misure di Tendenza Centrale: i Quartili Mentre la mediana è un valore che divide a metà la serie ordinata delle osservazioni, i quartili sono misure descrittive che dividono i dati ordinati in quattro parti.

  30. Misure di Tendenza Centrale: i Quartili Tre sono le regole usate per il calcolo dei quartili. • REGOLA 1. Se il punto di posizionamento è un numero intero, si sceglie come quartile il valore dell’osservazione corrispondente. • REGOLA 2. Se il punto di posizionamento è a metà tra due numeri interi, si sceglie come quartile la media delle osservazioni corrispondenti. • REGOLA 3. Se il punto di posizionamento non è né un intero né a metà tra due numeri interi, una regola semplice consiste nell’approssimarlo per eccesso o per difetto all’intero più vicino e scegliere come quartile il valore numerico dell’osservazione corrispondente.

  31. Misure di Tendenza Centrale: i Quartili

  32. Misure di dispersione Una seconda caratteristica importante di un insieme di dati è la variabilità. La variabilità è la quantità di dispersione presente nei dati. Due insiemi di dati possono differire sia nella posizione che nella variabilità; oppure possono essere caratterizzati dalla stessa variabilità, ma da diversa misura di posizione; o ancora, possono essere dotati della stessa misura di posizione, ma differire notevolmente in termini di variabilità.

  33. Misure di dispersione Le misure più utilizzate per misurare la dispersione sono: • Intervallo di variazione (range) • Intervallo di variazione (range) Interquartile • Varianza • Scarto Quadratico Medio • Coefficiente di variazione

  34. Misure di dispersione: il Range Il range (o intervallo di variazione) è la differenza tra l’osservazione più grande e quella più piccola in un insieme di dati. NOTA: un limite del range consiste nel fatto che non tiene conto di come i dati si distribuiscono effettivamente tra il valore più piccolo e quello più grande. Per questo motivo, in presenza di osservazioni estreme, risulta una misura inadeguata della variabilità.

  35. Misure di dispersione: il Range Interquartile Il range (o intervallo) interquartile è la differenza tra il terzo e il primo quartile in un insieme di dati. NOTA: Questa misura di variabilità sintetizza la dispersione del 50% delle osservazioni che occupano le posizioni centrali, e non è pertanto influenzata da valori estremi.

  36. Misure di dispersione: la Varianza Sebbene il range sia una misura della dispersione totale e il range interquartile della dispersione centrale, nessuna di queste due misure tiene conto di come le osservazioni si distribuiscano o si concentrino intorno a una misura di tendenza centrale, come ad esempio la media. Due misure della variabilità che forniscono questo tipo di informazione sono la varianza e la sua radice quadrata, lo scarto quadratico medio. Queste misure sintetizzano la dispersione di valori osservati attorno alla loro media.

  37. Misure di dispersione: la Varianza Varianza e la sua radice quadrata, lo scarto quadratico medio, invece sintetizzano la dispersione dei valori osservati attorno alla loro media.

  38. Misure di dispersione:lo Scarto Quadratico Medio

  39. Interpretazione della Varianza e dello Scarto Quadratico Medio • La varianza e lo scarto quadratico medio misurano la dispersione “media” attorno alla media: sono ottenute “valutando’’ come le osservazioni più grandi oscillano sopra la media e come le osservazioni più piccole si distribuiscono al di sotto della media. • La varianza possiede alcune importanti proprietà matematiche; tuttavia, la sua unità di misura coincide con il quadrato dell’unità di misura dei dati dati – lire al quadrato, metri al quadrato e così via. Mentre lo scarto quadratico medio è espresso nell’unità di misura originaria dei dati – lire o metri.

  40. Interpretazione della Varianza e dello Scarto Quadratico Medio • Lo scarto quadratico medio ci aiuta a stabilire se e quanto i dati sono concentrati o dispersi intorno alla loro media. • Per quasi tutti gli insiemi di dati, la maggior parte dei valori osservati si trova nell’intervallo centrato sulla media e i cui estremi distano dalla media per 1 scarto quadratico medio.

  41. Capire la variabilità dei dati

  42. Misure di dispersione: il Coefficiente di Variazione A differenza delle altre misure di variabilità, il coefficiente di variazione è una misura relativa, espressa come una percentuale e non nell’unità di misura dei dati. Il coefficiente di variazione, indicato con CV, misura la dispersione nell’insieme di dati relativamente alla media.

  43. Misure di dispersione: il Coefficiente di Variazione NOTA: Il coefficiente di variazione è particolarmente utile quando si confrontano le variabilità di due o più insiemi di dati che sono espressi in unità di misura diverse.

  44. Misure di forma La terza caratteristica dei dati che prendiamo in considerazione è la forma della loro distribuzione, cioè il modo in cui si distribuiscono. La distribuzione dei dati può essere simmetrica o meno. Se la distribuzione dei dati non è simmetrica, si dice asimmetrica oppure obliqua. Tipi di misure di forma: • Asimmetria

  45. Forma della distribuzione:Simmetrica o Obliqua Per descrivere la forma della distribuzione è sufficiente confrontare la media con la mediana. Se queste due misure sono uguali, la distribuzione è considerata simmetrica. • media < mediana:asimmetria negativa o distribuzione obliqua a sinistra • media = mediana: simmetria • media > mediana:asimmetria positiva o distribuzione obliqua a destra

  46. Misure di sintesi descrittiveper una popolazione • Finora abbiamo preso in considerazioni diverse statistiche che sintetizzano le informazioni contenute in un campione. In particolar modo, abbiamo usato queste statistiche per descrivere le caratteristiche di posizione, di variabilità e di forma. • Supponiamo ora che l’insieme di dati che abbiamo a disposizione non sia un campione, ma una raccolta di misurazioni numeriche da una intera popolazione. • Quando si considera un’intera popolazione, le misure di sintesi descrittive corrispondenti alla media aritmetica, alla varianza e allo scarto quadratico medio sono i parametri della popolazione.

  47. Misure di sintesi descrittiveper una popolazione La media della popolazione viene indicata con il simbolo , la lettera minuscola dell’alfabeto greco mu.

  48. Misure di sintesi descrittiveper una popolazione La varianza della popolazione si indica con il simbolo 2, la lettera minuscola dell’alfabeto greco sigma elevato al quadrato (si legge “sigma quadro”) e lo scarto quadratico medio della popolazione si indica con il simbolo . NOTA: Osserviamo che le formule per il calcolo della varianza e dello scarto quadratico medio della popolazione differiscono da quelle della varianza e dello scarto quadratico medio campionari per il termine (n - 1) che compare al denominatore di S2 e S che è sostituito da N per il calcolo di 2 e .

  49. Misure di sintesi descrittiveper una popolazione Quando la distribuzione dei dati non è caratterizzata da una forte asimmetria e le osservazioni sono concentrate intorno a media e mediana, possiamo usare la cosiddetta regola empirica per esaminare la variabilità dei dati e per analizzare più approfonditamente il significato dello scarto quadratico medio. NOTA: Pertanto lo scarto quadratico medio ci aiuta a capire come le osservazioni si distribuiscono al di sotto e al di sopra della media, e a individuare e segnalare osservazioni anomale (gli outlier).

  50. Misure di sintesi descrittiveper una popolazione Tabella 3.6La dispersione dei valori intorno alla media

More Related