1 / 140

Preparazione e caratteristiche dei Dati per Data Mining

Preparazione e caratteristiche dei Dati per Data Mining. Fosca Giannotti f.giannotti@isti.cnr.it. Mirco Nanni nanni@isti.cnr.it. ISTI-CNR Pisa. Materiale. Lucidi delle lezioni (Slides PowerPoint): Primo autore: G. Manco Revisione: M. Nanni Versione attuale: In distribuzione

qamra
Download Presentation

Preparazione e caratteristiche dei Dati per Data Mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Preparazione e caratteristiche dei Dati per Data Mining Fosca Giannotti f.giannotti@isti.cnr.it Mirco Nanni nanni@isti.cnr.it ISTI-CNR Pisa

  2. Materiale • Lucidi delle lezioni (Slides PowerPoint): • Primo autore: G. Manco Revisione: M. Nanni • Versione attuale: In distribuzione • Testi di Riferimento • J. Han, M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000. • Dorian Pyle. Data Preparation for Data Mining. Morgan Kaufmann, 1999. • D. Hand, H. Mannila, P. Smyth. Principles of Data Mining. MIT Press, 2001.

  3. Interpretation and Evaluation Data Mining Knowledge Selection and Preprocessing p(x)=0.02 Data Consolidation Patterns & Models Prepared Data Warehouse Consolidated Data Data Sources Il Processo di KDD

  4. I Contenuti • Data reduction • Campionamento • Riduzione di Dimensionalità • Data transformation • Normalizzazioni • aggregazione • Discretizzazione • Data Similarity • Similarity and Dissimilarity (on Single attribute) • Distance (Many attributes) • Distance on Binary data (Simple matching; Jaccard) • Distance on Document Data • Data Esploration (lumtidimensional array) • Introduzione e Concetti di Base • Motivazioni • Il punto di partenza: dati consolidati, Data Marts • Data Selection • Manipolazione di Tabelle • Information Gathering • Misurazioni • Visualizzazioni • Statistiche • Data cleaning • Trattamento di valori anomali • Identificazione di Outliers • Risoluzione di inconsistenze

  5. Problemi tipici • Troppi dati • dati sbagliati, rumorosi • dati non rilevanti • dimensione intrattabile • mix di dati numerici/simbolici • Pochi dati • attributi mancanti • valori mancanti • dimensione insufficiente

  6. Il Data Preprocessing è un Processo • Accesso ai Dati • Esplorazione dei Dati • Sorgenti • Quantità • Qualità • Ampliamento e arricchimento dei dati • Applicazione di tecniche specifiche

  7. Il Data Preprocessing dipende (ma non sempre) dall’Obiettivo • Alcune operazioni sono necessarie • Studio dei dati • Pulizia dei dati • Campionamento • Altre possono essere guidate dagli obiettivi • Trasformazioni • Selezioni

  8. Outline del Modulo • Introduzione e Concetti di Base • Data Selection

  9. E’ sempre necessario SQL? • I moderni tools raggruppano una serie di operazioni in maniera uniforme • La metafora di interazione è visuale • Esempi che vedremo: • Clementine • Weka • SQL è più generico • Ma anche più difficile da usare

  10. Es. due piattaforme per DM Clementine Weka

  11. Outline del Modulo • Introduzione e Concetti di Base • Data Selection • Information Gathering

  12. Oggetti, Proprietà,Misurazioni • Il mondo reale consiste di oggetti • Automobili, Vigili, Norme, … • Ad ogni oggetto è associabile un insieme di proprietà (features) • Colore, Cilindrata, Proprietario, … • Su ogni proprietà è possibile stabilire delle misurazioni • Colore = rosso, Cilindrata = 50cc, Proprietario = luigi, …

  13. La Nostra Modellazione • La realtà è descritta da una tabella Proprietà (feature) Variabile Oggetti da studiare Misurazione

  14. Tipi di misure • Misure Discrete (simboliche, categoriche,qualitative) • Nominali  identificatori univoci (Cod. Fiscale) • Ordinali  è definito un ordine (low < high) • Binarie  due soli valori (T/F, 1/0,...) • Misure Continue • Interval-Based  Scalabili di fattore costante (es.: misure in MKS e CGS) • Ratio-Scaled  Scalabili linearmente (ax+b) (es.: temperature °C e °F)

  15. Caratteristiche delle Variabili (dei data sets) • Sparsità • Mancanza di valore associato ad una variabile • Un attributo è sparso se contiene molti valori nulli • Monotonicità • Crescita continua dei valori di una variabile • Intervallo [-, ] (o simili) • Non ha senso considerare l’intero intervallo • Outliers • Valori singoli o con frequenza estremamente bassa • Possono distorcere le informazioni sui dati • Dimensionalità delle variabili • Il numero di valori che una variabile può assumere può essere estremamente alto • Tipicamente riguarda valori categorici • Dimensionalità degli oggetti • Il numero di attributi che un oggetto ha può essere estremamente alto • Es. prodotti di un market basket • Anacronismo • Una variabile può essere contingente: abbiamo i valori in una sola porzione dei dati

  16. Bias • Un fattore esterno significativo e rilevante nei dati • Comporta problemi (espliciti o impliciti) nei dati • Molti valori della variabile Velocità in una tabella Infrazioni è alto • Il problema è sistematico • Appare con una certa persistenza • Il misuratore della velocità è tarato male • Il problema può essere trattato • Il valore è suscettibile di una distorsione, che deve essere considerata • Considera solo i valori che vanno oltre una certa tolleranza

  17. Descrizione dei dati • Grafici • Distribuzione frequenze • Correlazione • Dispersione • Misure • Media, mediana, quartili • Varianza, deviazione standard • Forma, simmetria, curtosi

  18. Visualizzazione dati qualitativi • Rappresentazione delle frequenze • Diagrammi a barre • Ortogrammi • Aerogrammi • Correlazione • Web diagrams • Ciclicità • Diagrammi polari

  19. Diagrammi di Pareto • Diagammi a barre distanziate • Un assortimento di eventi presenta pochi picchi e molti elementi comuni

  20. Ortogrammi • Ogni colonna indica la la distribuzione interna per un dato valore e la frequenza

  21. Aerogrammi • Rappresentazioni a torta • frequenza della distribuzioni

  22. Web • Visualizzano correlazioni tra valori simbolici

  23. Diagrammi polari • Rappresentano fenomeni ciclici • E.g., concentrazione delle vendite nell’arco settimanale

  24. Dati Quantitativi • Istogrammi • Poligoni • Stem and leaf • Dot Diagrams • Diagrammi quantili

  25. Istogrammi • Rappresentazioni a barre • Evidenziano la frequenza su intervalli adiacenti • La larghezza di ogni rettangolo misura l’ampiezza degli intervalli • Quale larghezza?

  26. Poligoni • Per la descrizione di frequenze cumulative • I punti sono uniti tramite linee

  27. Rappresentazione “Stem & Leaf” • Simile a istogrammi • Evita la perdita di informazione • Utile per pochi dati

  28. Dot Diagrams, Scatters Weka • Visualizza la Dispersione plot dei dat

  29. Rappresentazioni Boxplot Max • Rappresentano • il grado di dispersione o variabilità dei dati (w.r.t. mediana e/o media) • la simmetria • la presenza di valori anomali • Le distanze tra i quartili definiscono la dispersione dei dati Terzo Quartile Mediana Primo Quartile Min

  30. Misure descrittive dei dati • Tendenza centrale o posizione • Media aritmetica, geometrica e armonica, mediana, quartili, percentili, moda • Dispersione o variabilità • Range, scarto medio, varianza, deviazione standard • Forma della distribuzione • Simmetria (medie interquartili, momenti centrali, indice di Fisher) e curtosi (indice di Pearson, coefficiente di curtosi)

  31. Outline del Modulo • Introduzione e Concetti di Base • Data Selection • Information Gathering • Data cleaning

  32. Data Cleaning • Trattamento di valori anomali • Trattamento di outliers • Trattamento di tipi impropri

  33. Valori Anomali • Valori mancanti • NULL • Valori sconosciuti • Privi di significato • Valori non validi • Con valore noto ma non significativo

  34. Outline del Modulo • Introduzione e Concetti di Base • Data Selection • Information Gathering • Data cleaning • Data reduction

  35. Trattamento di valori nulli • Eliminazione delle tuple • Sostituzione dei valori nulli N.B.: può influenzare la distribuzione dei dati numerici • Utilizzare media/mediana/moda • Predirre i valori mancanti utilizzando la distribuzione dei valori non nulli • Segmentare i dati e utilizzare misure statistiche (media/moda/mediana) di ogni segmento • Segmentare i dati e utilizzare le distribuzioni di probabilità all’interno dei segmenti • Costruire un modello di classificazione/regressione e utilizzare il modello per calcolare i valori nulli

  36. Data Reduction • Riduzione del volume dei dati • Verticale: riduzione numero di tuple • Data Sampling • Clustering • Orizzontale: riduzione numero di colonne • Seleziona un sottinsieme di attributi • Crea un nuovo (e piccolo) insieme di attributi

  37. Sampling(Riduzione verticale) • Riduce la complessità di esecuzione degli algoritmi di Mining • Problema: scegliere un sottoinsieme rappresentativo dei dati • La scelta di un campionamento casuale può essere problematica per la presenza di picchi • Alternative: Schemi adattativi • Stratified sampling: • Approssimiamo la percentuale di ogni classe (o sottopopolazione di interesse rispetto all’intero database) • Adatto a distribuzioni con picchi: ogni picco è in uno strato • Possiamo combinare le tecniche random con la stratificazione • N.B.: Il Sampling potrebbe non ridurre I tempi di risposta se i dati risiedono su disco (page at a time).

  38. Sampling Cluster/Stratified Sample Raw Data

  39. Riduzione Dimensionalità(Riduzione orizzontale) • Selezione di un sotto-insieme di attributi • Manuale • In seguito a analisi di significatività e/o correlazione con altri attributi • Automatico • Selezione incrementale degli attributi “migliori” • “Migliore” = rispetto a qualche misura di significatività statistica (es.: information gain).

  40. Riduzione Dimensionalità(Riduzione orizzontale) • Creazione di nuovi attributi con i quali rappresentare le tuple • Principal components analysis (PCA) • Trova le combinazioni lineari degli attributi nei k vettori ortonormali più significativi • Proietta le vecchie tuple sui nuovi attributi • Altri metodi • Factor Analysis • Decomposizione SVD

  41. Outline del Modulo • Introduzione e Concetti di Base • Data Selection • Information Gathering • Data cleaning • Data reduction • Data transformation

  42. Data Transformation: Motivazioni • Dati con errori o incompleti • Dati mal distribuiti • Forte asimmetria nei dati • Molti picchi • La trasformazione dei dati può alleviare questi problemi

  43. Obiettivi • Vogliamo definire una trasformazione T sull’attributo X: Y = T(X) tale che: • Y preserva l’informazione “rilevante” di X • Y elimina almeno uno dei problemi di X • Y è più “utile” di X

  44. Obiettivi • Scopi principali: • stabilizzare le varianze • normalizzare le distribuzioni • linearizzare le relazioni tra variabili • Scopi secondari: • semplificare l'elaborazione di dati che presentano caratteristiche non gradite • rappresentare i dati in una scala ritenuta più adatta.

  45. Perché normalità, linearità, ecc.? • Molte metodologie statistiche richiedono correlazioni lineari, distribuzioni normali, assenza di outliers • Molti algoritmi di Data Mining hanno la capacita` di trattare automaticamente non-linearita’ e non-normalita’ • Gli algoritmi lavorano comunque meglio se tali problemi sono trattati

  46. Metodi • Trasformazioni esponenziali • con a,b,c,d e p valori reali • Preservano l’ordine • Preservano alcune statistiche di base • sono funzioni continue • ammettono derivate • sono specificate tramite funzioni semplici

  47. Migliorare l’interpretabilita` • Trasformazioni lineari 1€ = 1936.27 Lit. • p=1, a= 1936.27 ,b =0 ºC= 5/9(ºF -32) • p = 1, a = 5/9, b = -160/9

  48. Normalizzazioni • min-max normalization • z-score normalization • normalization tramite decimal scaling dove j è il più piccolo intero tale che Max(| |)<1

  49. Stabilizzare varianze • Trasformazione logaritmica • Si applica a valori positivi • omogeneizza varianze di distribuzioni lognormali • E.g.: normalizza picchi stagionali

  50. Trasformazione logaritmica: esempio Dati troppo dispersi!!!

More Related