660 likes | 807 Views
ARCHEOLOGIA QUANTITATIVA a.a. 2006/2007. Silvano Antonelli -Ricevimento : durante il corso: Martedì ore 15.30 presso Dipartimento di Informatica, Largo Pontecorvo 2 Stanza 394 negli altri periodi: su appuntamento posta elettronica : s.antonelli@humnet.unipi.it
E N D
ARCHEOLOGIA QUANTITATIVA a.a. 2006/2007 • Silvano Antonelli • -Ricevimento : • durante il corso: • Martedì ore 15.30 • presso • Dipartimento di Informatica, Largo Pontecorvo 2 • Stanza 394 • negli altri periodi: • su appuntamento • posta elettronica : s.antonelli@humnet.unipi.it • Pagina web : (programma, esami, date appelli…) • http://www.di.unipi.it/~antonell/
Esame , Propedeuticità Modalità esame: -test scritto -orale -progetto: -facoltativo per i frequentanti -obbligatorio per i non frequentanti
Materiale Didattico • Per la formazione di base: • C.A.Carnevale Maffè, T.Carnevale Maffè, Statistica, Sintesi, Vallardi • S. Berstein, R.Bernstein , Statistica descrittiva, McGraw-Hill • I.Diamond, J.Jefferies, Introduzione alla statistica, McGraw-Hill • Per applicazioni in campo archeologico: • IS. Shennan, Quantifyng Archaeology, Edinburgh ,University Press. 1998.
Introduzione (1) Negli ultimi quaranta anni si è assistito alla sempre più crescente utilizzazione dell’informatica e delle scienze nell’ambito sociale e umanistico, introducendo, attraverso tecniche matematiche e statistiche, metodi propri delle scienze esatte.
Introduzione (2) Per quanto attiene in particolare all’Archeologia , l’informatica è intervenuta sia nei processi metodologici, sia nello sviluppo di tecniche connesse a tali processi per: • sistematizzare e ottimizzare operazioni di catalogazione e gestione dell’informazione • definire strumenti idonei ad un trattamento scientifico dei dati
I sistemi informatici che rispondono a queste esigenze sono rispettivamente quelli di tipo documentario per il trattamento descrittivo degli oggetti (Sistemi di gestione di basi di dati) e sistemi basati su tecniche matematico-statistiche. Le basi di dati richiedono una strutturazione organica e sistematica dell’informazione; i dati rispecchiano in generale caratteri di omogeneità basati su informazioni intrinseche (specifiche dell’oggetto) ed estrinseche (relazionali).
Basi di dati In Archeologia si riconoscono basi di dati di tipo: • Fattuale,inerente alla realtà, per la raccolta di elementi concernenti oggetti mobili, edifici, iscrizioni, decorazioni,etc. allo scopo di costituire inventari (assumono quindi una funzione amministrativa) • bibliografico con lo scopo di arrivare alla schedatura di diverse pubblicazioni per fornire informazioni sistematiche. Le basi di dati si limitano però a trattare i dati in maniera descrittiva, e non permettono una analisi e una interpretazione dei dati stessi.
Sistemi statistici Tenuto conto anche del fatto che i dati di scavo (geografici, stratigrafici, immobili,materiali mobili, etc.) non sono completamente omogenei, l’archeologia si è rivolta ai sistemi basati su tecniche matematico – statistiche. I primi esempi di applicazione si sono avuti negli anni ’50 in archeologia preistorica attraverso l’uso di tecniche grafiche e di statistiche descrittive. Questo approccio ha dato luogo, a partire dagli anni ’60, ad una branca di ricerca definita “Archeologia Quantitativa”, considerata da alcuni ricercatori una disciplina autonoma nell’ambito di un movimento culturale detto New Archaeology.
Origini della statistica(1) I primi rilevamenti statistici risalgono all’antichità e derivano dalla naturale esigenza umana della classificazione di tutto ciò che è presente nell’ambiente in cui vive . Alcuni esempi: • censimento (census) dei cittadini (Antica Roma) • indagini per la previsione delle piene del Nilo (Egitto) I due esempi hanno caratteristiche completamente diverse.
Origini della statistica(2) Il censimento ha infatti lo scopo di evidenziare una situazione di fatto e rientra nella logica del certo,fotografando lo stato della popolazione in quel preciso periodo, mentre il secondo rientra nella logica del probabile, gli unici approcci che rispecchiano il comportamento dell’uomo di fronte a qualunque fenomeno. La logica del probabile è il contesto nel quale si pone la statistica, che si avvale del calcolo delle probabilità per studiare i fenomeni, evidenziarne le caratteristiche e stabilire associazioni e relazioni tra fatti.
Il campo di interesse della statistica è quello dei fenomeni collettivi che richiedono, per la loro valutazione , grandi quantità di osservazioni. Le tecniche e i metodi statistici si pongono l’obiettivo di ridurre queste grandi quantità di osservazioni a pochi elementi , valori di sintesi che rappresentino la totalità e tengano conto delle variazioni delle osservazioni. Il metodo statistico facilita quindi il confronto tra valori e fenomeni e rende possibile la scoperta di regole nella apparente irregolarità.
La statistica è la scienza che studia i fenomeni collettivi mediante metodi matematici fondati sul calcolo delle probabilità. Il procedimento statistico presenta due aspetti: • Tecnico, relativamente alla raccolta, elaborazione e presentazione dei dati, anche in forma grafica; • Logico che si propone di formulare leggi, trarre deduzioni e conseguenze e mettere in evidenza le cause dei fenomeni.
E’ uso differenziare tra : statistica descrittiva: raccogliere ed elaborare dati per ricavare informazioni sintetiche e significative, secondo le esigenze del problema di interesse. statistica inferenziale o induttiva : definire metodi per passare dall’osservazione di casi particolari a leggi generali L’estensione dei risultati di un campione rappresentativo alla totalità della popolazione è detta inferenza, la cui analisi è detta Inferenza statistica.
Quando si deduce un parametro di una popolazione sulla base delle corrispondenti osservazioni (statistiche) effettuate su un campione casuale si dice che si effettua una stima che rappresenta una approssimazione statistica dei risultati di una indagine sulla intera popolazione. I risultati tratti dal campione ed estesi alla popolazione evidenziano la presenza di un trade-off (scambio-compromesso) tra costi/tempi e accuratezza della stima.
Statistica descrittiva • Studio e sintesi de fenomeni collettivi, che sono caratterizzati da risultati incerti. • Descrivere e prevedere questa variabilità • Popolazione o universo. • Unità statistiche o casi. • Caratteristiche : variabili • Modalità : valori assunti (dati)
(fonte : Mike Flechter and Gary R. Lock) 40 Punte di lancia con o senza anello (loop) per stringere la punta sulla immanicatura e spinotto, ribattino (peghole) per bloccare la punta sulla immanicatura. Caratteristiche , attributi di interesse archeologico: Tipo di materiale Luogo ritrovamento Loop: presenza/ assenza Peghole : presenza/ assenza Stato di conservazione Epoca Misure ( distanza, peso, lunghezze,…)
Terminologia Unità statistica , di rilevazione,caso: ogni singola punta Universo o popolazione : insieme di tutte le punte Variabile: ogni caratteristica che può manifestarsi in modo diverso in unità diverse Valori, modalità: diversi modi nei quali una variabile può manifestarsi.
Variabili e modalità • Materiale: bronzo ferro • Luogo di ritrovamento: sul terreno sedimento sepoltura • Loop: presente assente
Variabili e modalità • Peghole presente assente • Stato di conservazione: eccellente buono soddisfacente scarso • Periodo: A.C. • Misure: lunghezza, larghezza, cavità etc. in cm. peso in gr.
10 massima larghezza 8 massima lunghezza 9 lunghezza cavità 11 larghezza cavità interna 12 larghezza cavità esterna distanza centro-base 13
Sheda di unità statistica Numero ord. 1 Materiale ferro Contesto sepoltura Loop assente Peghole presente Condizione soddisfacente Data (a.c.) 300 Max Lung. 12,4 cm Lung cav. 3,1 cm Max Larg. 3,6 cm Cav Int. 1 cm Cav. ester. 1,7 cm dist. centro-base 6,2 Peso 167 gr
Scheda di unità statistica codificata Numero ord. 1 Materiale 2 Contesto 3 Loop 1 Peghole 2 Condizione 3 Data (a.c.) 300 Max Lung. 12,4 cm Lung cav. 3,1 cm Max Larg. 3,6 cm Cav Int. 1 cm Cav. ester. 1,7 cm dist. centro-base 6,2 Peso 167 gr Tutte le unità sono raccolte in una tabella
Scale Abbiamo considerato la misura delle caratteristiche delle variabili, o , come si dice, il livello di misura o scala. Scala nominale Implica solo nomi da assegnare alle diverse categorie,per un processo di classificazione. E’ il livello più basso di misurazione. Tipo di materiale, loop, peghole. Permette di classificare le unità: tutte le punte di ferro, etc e formare quindi nuove classi.
Scale Scala ordinale Possiamo formare classi e metterle anche in ordine, ma senza che vi sia una distanza tra le categorie o tra i singoli individui Es.: stato di conservazione Scala a intervalli Quando è possibile stabilire la distanza:è fissata una unità di misura Es. : Data ; l’ unità di misura è l’anno. Manca però il punto iniziale: lo zero assoluto (Temperatura)
Scala di rapporti (ratio) Ha le stesse proprietà della scala a intervalli In più esiste anche lo zero assoluto Pesi, distanze etc.
Variabili • Variabili quantitative (parametriche): - discrete: i valori sono numeri interi positivi - continue:i valori sono numeri positivi, negativi , decimali (reali) • Variabili qualitative, nominali (non parametriche): • Sconnesse quando non esiste alcun ordine. Es: colore dei capelli • Ordinabili: Lineari (stato di conservazione) Cicliche (mesi dell’anno)
Indici di posizione (misure di tendenza centrale) • Valori che riassumono le caratteristiche dei dati per: • Sintetizzare i dati • Facilitare il confronto tra situazioni analoghe • Medie: • Aritmetica • Geometrica • Ponderata • Mediana: valore centrale della sequenza ordinata dei dati • Moda: modalità più ricorrente
Indici di dispersione • Campo di variazione: differenza tra il valore più grande xl e il più piccolo xs • E’ poco significativo: le distribuzioni hanno lo stesso campo di variazione, ma sono molto diverse in quanto a variabilità • Varianza • Scarto quadratico medio (deviazione standard): è la radice quadrata della varianza
Terminologia e formule • Parametri della popolazione • Media aritmetica: m • deviazione standard : s = • Statistiche del campione • Media aritmetica: • deviazione standard : s =
Dati raggruppati - Frequenze • Si costruisce una partizione dei dati in classi: la frequenza (assoluta) denota il numero di elementi per ciascuna classe. Frequenze assolute, cumulate Frequenze Relative: rapporto tra frequenze assolute e il numero totale di unità statistiche in esame. • Le distribuzioni di frequenze si rappresentano mediante tabelle e graficamente.
Curva normale standardizzata • Media = mediana = 0 • Scarto = 1 • Un numero nella tavola della distribuzione normale rappresenta l' area sottesa dalla curva che si trova tra il valore medio (Z = 0) e il valore standardizzato positivo Z. L'area tra il valore 0 e un valore negativo sarà identica all'area tra il valore medio e quello positivo per la simmetria della curva. • Se z non è intero, e quindi del tipo z = a,bc si cerca a,b nella prima colonna della tabella e si prende il valore intersezione della riga selezionata e della colonna 0,0b. Es: z=1,82 area = 0,4656
Distribuzione campionaria • Popolazione di N=5 individui : 2,3,6,8,11 Media m = 6,0 varianza = 10,8 scarto s = 3,29 • Si estraggono tutti i campioni di dimensione n=2 2,3 -2,6 -2,8 -2,11- 3,6 -3,8 -3,11-6,8-6,11-8,11 Le medie dei campioni sono: 2,5-4-5-6,5-4,5-5,5-7-7-8,5-9,5 Sono dette medie campionarie. La media delle medie campionarie è: =6,0 La varianza della distribuzione delle medie campionarie è 4,05 e quindi lo scarto è: = 2,01
Distribuzione campionaria • Se si ripete il processo per i campioni di dimensione crescente si osserva che la media della distribuzione campionaria rimane la stessa, mentre lo scarto tende a diminuire. • Ad esempio per i 5 campioni di n=4 elementi si ottiene: = 6,0 = 0,82 Significato: le medie campionarie sono meno variabili dei valori reali della popolazione in quanto hanno assorbito i valori estremi che invece incidono pesantemente nella popolazione, in conclusione lo scarto quadratico medio della medie campionarie è minore di quello delle medie campionarie.
Distribuzione campionaria • Si consideri ora l’espressione: SE = Nel caso dei campioni di dimensione 2 si ha: SE = 2,32 Che approssima bene il valore 2,01 dello scarto della distribuzione campionaria delle medie. Poiché la dimensione del campione è piccola , un valore migliore si ottiene applicando la formula corretta: SE = da cui SE = 2,01 che coincide con il valore dello scarto della distribuzione campionaria delle medie.
Teorema del limite centrale • Tre diverse distribuzioni : - della popolazione - all’interno del campione - distribuzione delle media campionarie Se la prima è normale lo sono anche le altre. Nel caso della normalità si può ragionare su un campione di almeno dieci elementi In ogni caso, al crescere della dimensione del campione, la distribuzione delle medie campionarie tende ad essere normale. La dimensione minima è 30.Le relazioni fondamentali sono: = =
Significato , che abbiamo già denotato con SE, è detto errorestandard Sappiamo che nell’intervallo (media- scarto, media + scarto) cade il 68,26% dei valori. Ripetiamo le stesse considerazioni per la distribuzione campionaria. L’intervallo in esame è: ( - , + ) Il 68,26% delle medie dei campioni cadono nell’intervallo, per cui si può scrivere: - ££ + ovvero: - ££ +
Come si interpreta? • La vera media della popolazione cadrà con probabilità 0,6826 nel suddetto intervallo • - L’errore standard non descrive la variabilità della popolazione, ma descrive il grado di certezza con il quale una media campionaria stima la vera media della popolazione. • Gli estremi dell’intervallo sono detti limiti di confidenza o fiduciari • Le stesse considerazioni si ripetono per gli intervalli introdotti nella diapositiva 40. • - Le relazioni di n.48 dicono che la media aritmetica • del campione è uno stimatore corretto della media della popolazione, mentre SE è uno stimatore distorto dello scarto della popolazione.
Stime • Abbiamo valutato i parametri della popolazione a partire dai valori corrispondenti del campione: è questa la stima puntuale. • Altro aspetto è la stima per intervalli: piuttosto che chiedere quanto vale un parametro , ci domandiamo in quale intervallo cade. Esempio di stima per intervalli Campione ,estratto da popolazione normale, di dimensione n=16 con media 1,71 e scarto 0,12. Dal teorema del limite centrale sappiamo che 1,71 è una buona stima della media della popolazione. La dimensione del campione del campione è sufficientemente grande per approssimare lo scarto della popolazione con quello del campione.