1.4k likes | 1.58k Views
Preparazione e caratteristiche dei Dati per Data Mining. Fosca Giannotti f.giannotti@isti.cnr.it. Mirco Nanni nanni@isti.cnr.it. ISTI-CNR Pisa. Materiale. Lucidi delle lezioni (Slides PowerPoint): Primo autore: G. Manco Revisione: M. Nanni Versione attuale: In distribuzione
E N D
Preparazione e caratteristiche dei Dati per Data Mining Fosca Giannotti f.giannotti@isti.cnr.it Mirco Nanni nanni@isti.cnr.it ISTI-CNR Pisa
Materiale • Lucidi delle lezioni (Slides PowerPoint): • Primo autore: G. Manco Revisione: M. Nanni • Versione attuale: In distribuzione • Testi di Riferimento • J. Han, M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000. • Dorian Pyle. Data Preparation for Data Mining. Morgan Kaufmann, 1999. • D. Hand, H. Mannila, P. Smyth. Principles of Data Mining. MIT Press, 2001.
Interpretation and Evaluation Data Mining Knowledge Selection and Preprocessing p(x)=0.02 Data Consolidation Patterns & Models Prepared Data Warehouse Consolidated Data Data Sources Il Processo di KDD
I Contenuti • Data reduction • Campionamento • Riduzione di Dimensionalità • Data transformation • Normalizzazioni • aggregazione • Discretizzazione • Data Similarity • Similarity and Dissimilarity (on Single attribute) • Distance (Many attributes) • Distance on Binary data (Simple matching; Jaccard) • Distance on Document Data • Data Esploration (lumtidimensional array) • Introduzione e Concetti di Base • Motivazioni • Il punto di partenza: dati consolidati, Data Marts • Data Selection • Manipolazione di Tabelle • Information Gathering • Misurazioni • Visualizzazioni • Statistiche • Data cleaning • Trattamento di valori anomali • Identificazione di Outliers • Risoluzione di inconsistenze
Problemi tipici • Troppi dati • dati sbagliati, rumorosi • dati non rilevanti • dimensione intrattabile • mix di dati numerici/simbolici • Pochi dati • attributi mancanti • valori mancanti • dimensione insufficiente
Il Data Preprocessing è un Processo • Accesso ai Dati • Esplorazione dei Dati • Sorgenti • Quantità • Qualità • Ampliamento e arricchimento dei dati • Applicazione di tecniche specifiche
Il Data Preprocessing dipende (ma non sempre) dall’Obiettivo • Alcune operazioni sono necessarie • Studio dei dati • Pulizia dei dati • Campionamento • Altre possono essere guidate dagli obiettivi • Trasformazioni • Selezioni
Outline del Modulo • Introduzione e Concetti di Base • Data Selection
E’ sempre necessario SQL? • I moderni tools raggruppano una serie di operazioni in maniera uniforme • La metafora di interazione è visuale • Esempi che vedremo: • Clementine • Weka • SQL è più generico • Ma anche più difficile da usare
Es. due piattaforme per DM Clementine Weka
Outline del Modulo • Introduzione e Concetti di Base • Data Selection • Information Gathering
Oggetti, Proprietà,Misurazioni • Il mondo reale consiste di oggetti • Automobili, Vigili, Norme, … • Ad ogni oggetto è associabile un insieme di proprietà (features) • Colore, Cilindrata, Proprietario, … • Su ogni proprietà è possibile stabilire delle misurazioni • Colore = rosso, Cilindrata = 50cc, Proprietario = luigi, …
La Nostra Modellazione • La realtà è descritta da una tabella Proprietà (feature) Variabile Oggetti da studiare Misurazione
Tipi di misure • Misure Discrete (simboliche, categoriche,qualitative) • Nominali identificatori univoci (Cod. Fiscale) • Ordinali è definito un ordine (low < high) • Binarie due soli valori (T/F, 1/0,...) • Misure Continue • Interval-Based Scalabili di fattore costante (es.: misure in MKS e CGS) • Ratio-Scaled Scalabili linearmente (ax+b) (es.: temperature °C e °F)
Caratteristiche delle Variabili (dei data sets) • Sparsità • Mancanza di valore associato ad una variabile • Un attributo è sparso se contiene molti valori nulli • Monotonicità • Crescita continua dei valori di una variabile • Intervallo [-, ] (o simili) • Non ha senso considerare l’intero intervallo • Outliers • Valori singoli o con frequenza estremamente bassa • Possono distorcere le informazioni sui dati • Dimensionalità delle variabili • Il numero di valori che una variabile può assumere può essere estremamente alto • Tipicamente riguarda valori categorici • Dimensionalità degli oggetti • Il numero di attributi che un oggetto ha può essere estremamente alto • Es. prodotti di un market basket • Anacronismo • Una variabile può essere contingente: abbiamo i valori in una sola porzione dei dati
Bias • Un fattore esterno significativo e rilevante nei dati • Comporta problemi (espliciti o impliciti) nei dati • Molti valori della variabile Velocità in una tabella Infrazioni è alto • Il problema è sistematico • Appare con una certa persistenza • Il misuratore della velocità è tarato male • Il problema può essere trattato • Il valore è suscettibile di una distorsione, che deve essere considerata • Considera solo i valori che vanno oltre una certa tolleranza
Descrizione dei dati • Grafici • Distribuzione frequenze • Correlazione • Dispersione • Misure • Media, mediana, quartili • Varianza, deviazione standard • Forma, simmetria, curtosi
Visualizzazione dati qualitativi • Rappresentazione delle frequenze • Diagrammi a barre • Ortogrammi • Aerogrammi • Correlazione • Web diagrams • Ciclicità • Diagrammi polari
Diagrammi di Pareto • Diagammi a barre distanziate • Un assortimento di eventi presenta pochi picchi e molti elementi comuni
Ortogrammi • Ogni colonna indica la la distribuzione interna per un dato valore e la frequenza
Aerogrammi • Rappresentazioni a torta • frequenza della distribuzioni
Web • Visualizzano correlazioni tra valori simbolici
Diagrammi polari • Rappresentano fenomeni ciclici • E.g., concentrazione delle vendite nell’arco settimanale
Dati Quantitativi • Istogrammi • Poligoni • Stem and leaf • Dot Diagrams • Diagrammi quantili
Istogrammi • Rappresentazioni a barre • Evidenziano la frequenza su intervalli adiacenti • La larghezza di ogni rettangolo misura l’ampiezza degli intervalli • Quale larghezza?
Poligoni • Per la descrizione di frequenze cumulative • I punti sono uniti tramite linee
Rappresentazione “Stem & Leaf” • Simile a istogrammi • Evita la perdita di informazione • Utile per pochi dati
Dot Diagrams, Scatters Weka • Visualizza la Dispersione plot dei dat
Rappresentazioni Boxplot Max • Rappresentano • il grado di dispersione o variabilità dei dati (w.r.t. mediana e/o media) • la simmetria • la presenza di valori anomali • Le distanze tra i quartili definiscono la dispersione dei dati Terzo Quartile Mediana Primo Quartile Min
Misure descrittive dei dati • Tendenza centrale o posizione • Media aritmetica, geometrica e armonica, mediana, quartili, percentili, moda • Dispersione o variabilità • Range, scarto medio, varianza, deviazione standard • Forma della distribuzione • Simmetria (medie interquartili, momenti centrali, indice di Fisher) e curtosi (indice di Pearson, coefficiente di curtosi)
Outline del Modulo • Introduzione e Concetti di Base • Data Selection • Information Gathering • Data cleaning
Data Cleaning • Trattamento di valori anomali • Trattamento di outliers • Trattamento di tipi impropri
Valori Anomali • Valori mancanti • NULL • Valori sconosciuti • Privi di significato • Valori non validi • Con valore noto ma non significativo
Outline del Modulo • Introduzione e Concetti di Base • Data Selection • Information Gathering • Data cleaning • Data reduction
Trattamento di valori nulli • Eliminazione delle tuple • Sostituzione dei valori nulli N.B.: può influenzare la distribuzione dei dati numerici • Utilizzare media/mediana/moda • Predirre i valori mancanti utilizzando la distribuzione dei valori non nulli • Segmentare i dati e utilizzare misure statistiche (media/moda/mediana) di ogni segmento • Segmentare i dati e utilizzare le distribuzioni di probabilità all’interno dei segmenti • Costruire un modello di classificazione/regressione e utilizzare il modello per calcolare i valori nulli
Data Reduction • Riduzione del volume dei dati • Verticale: riduzione numero di tuple • Data Sampling • Clustering • Orizzontale: riduzione numero di colonne • Seleziona un sottinsieme di attributi • Crea un nuovo (e piccolo) insieme di attributi
Sampling(Riduzione verticale) • Riduce la complessità di esecuzione degli algoritmi di Mining • Problema: scegliere un sottoinsieme rappresentativo dei dati • La scelta di un campionamento casuale può essere problematica per la presenza di picchi • Alternative: Schemi adattativi • Stratified sampling: • Approssimiamo la percentuale di ogni classe (o sottopopolazione di interesse rispetto all’intero database) • Adatto a distribuzioni con picchi: ogni picco è in uno strato • Possiamo combinare le tecniche random con la stratificazione • N.B.: Il Sampling potrebbe non ridurre I tempi di risposta se i dati risiedono su disco (page at a time).
Sampling Cluster/Stratified Sample Raw Data
Riduzione Dimensionalità(Riduzione orizzontale) • Selezione di un sotto-insieme di attributi • Manuale • In seguito a analisi di significatività e/o correlazione con altri attributi • Automatico • Selezione incrementale degli attributi “migliori” • “Migliore” = rispetto a qualche misura di significatività statistica (es.: information gain).
Riduzione Dimensionalità(Riduzione orizzontale) • Creazione di nuovi attributi con i quali rappresentare le tuple • Principal components analysis (PCA) • Trova le combinazioni lineari degli attributi nei k vettori ortonormali più significativi • Proietta le vecchie tuple sui nuovi attributi • Altri metodi • Factor Analysis • Decomposizione SVD
Outline del Modulo • Introduzione e Concetti di Base • Data Selection • Information Gathering • Data cleaning • Data reduction • Data transformation
Data Transformation: Motivazioni • Dati con errori o incompleti • Dati mal distribuiti • Forte asimmetria nei dati • Molti picchi • La trasformazione dei dati può alleviare questi problemi
Obiettivi • Vogliamo definire una trasformazione T sull’attributo X: Y = T(X) tale che: • Y preserva l’informazione “rilevante” di X • Y elimina almeno uno dei problemi di X • Y è più “utile” di X
Obiettivi • Scopi principali: • stabilizzare le varianze • normalizzare le distribuzioni • linearizzare le relazioni tra variabili • Scopi secondari: • semplificare l'elaborazione di dati che presentano caratteristiche non gradite • rappresentare i dati in una scala ritenuta più adatta.
Perché normalità, linearità, ecc.? • Molte metodologie statistiche richiedono correlazioni lineari, distribuzioni normali, assenza di outliers • Molti algoritmi di Data Mining hanno la capacita` di trattare automaticamente non-linearita’ e non-normalita’ • Gli algoritmi lavorano comunque meglio se tali problemi sono trattati
Metodi • Trasformazioni esponenziali • con a,b,c,d e p valori reali • Preservano l’ordine • Preservano alcune statistiche di base • sono funzioni continue • ammettono derivate • sono specificate tramite funzioni semplici
Migliorare l’interpretabilita` • Trasformazioni lineari 1€ = 1936.27 Lit. • p=1, a= 1936.27 ,b =0 ºC= 5/9(ºF -32) • p = 1, a = 5/9, b = -160/9
Normalizzazioni • min-max normalization • z-score normalization • normalization tramite decimal scaling dove j è il più piccolo intero tale che Max(| |)<1
Stabilizzare varianze • Trasformazione logaritmica • Si applica a valori positivi • omogeneizza varianze di distribuzioni lognormali • E.g.: normalizza picchi stagionali
Trasformazione logaritmica: esempio Dati troppo dispersi!!!