260 likes | 574 Views
p(x) = 0.02. Warehouse. Data Mining Models. Prepared Data. Consolidated Data. Knowledge. Data Sources. LSA. Interpretation and Evaluation. Data Mining & OLAP Cubes. Selection and Preprocessing. Data Consolidation. 4 lezioni OLAP 4 lezioni DM. 3 lezioni. 2 lezioni. 5 lezioni.
E N D
Lab. Sistemi Informativi Economico-Aziendali p(x) = 0.02 Warehouse Data Mining Models Prepared Data Consolidated Data Knowledge Data Sources LSA Interpretation and Evaluation Data Mining & OLAP Cubes Selection and Preprocessing Data Consolidation 4 lezioni OLAP 4 lezioni DM 3 lezioni 2 lezioni 5 lezioni
Weka: Weikato university Environment for Knowledge Analysis LSA - Laboratorio di Sistemi Informativi Economico-Aziendali Salvatore Ruggieri Dipartimento di Informatica, Università di Pisa
Lab. Sistemi Informativi Economico-Aziendali http://www.cs.weikato.ac.nz/weka • Non efficiente • Non scalabile: mantiene i dataset in memoria • Documentazione scarsa o troppo tecnica • Metafora grafica poco intuitiva La suite di algoritmi più completa! Free software: disponibili i sorgenti Scritto in Java Per scopi di ricerca Portabilità: disponibile per Windows, Linux e Mac
Lab. Sistemi Informativi Economico-Aziendali Lanciare Weka • Di default, Java permette ad un programma di occupare al max 80mb circa • Editare RunWeka.bat scrivendoci java –Xmx512m -jar weka.jar • L’opzione –Xmx512m dice a Java di permettere a Weka di occupare fino a 512Mbytes • Files in WekaPatch nel CD del corso • Da copiare nella directory di Weka
Lab. Sistemi Informativi Economico-Aziendali Lanciare weka: interfacce • Simple CLI (Call Level Interface) • accesso a oggetti e metodi del sistema mediante linea di comando • Experimenter • automazione serie di esperimenti di classificazione/regressioni variando datasets, algoritmi e parametri • Explorer • GUI “a scomparti” per operazioni di preprocessing, classificazione, clustering, regole associative • Knowledge Flow • GUI “a flussi” per operazioni di preprocessing e classificazione.
Lab. Sistemi Informativi Economico-Aziendali Knowledge Flow: layouts Task List Help Load/save layouts Knowledge Flow Layout Status Log
Lab. Sistemi Informativi Economico-Aziendali Sorgenti di dati • ARFF • Attribute-Relational File Format • CSV • Comma Separated Values • C45 • Simile ad ARFF ma con metadati su file distinto (.data e .names) • Serialized Instance • Oggetto “Tabella” serializzato su disco
Lab. Sistemi Informativi Economico-Aziendali Attribute-Relation File Format (ARFF) @relation tabella % commento @attribute nome string @attribute cognome string @attribute eta’ int @attribute professione string % commento @data Mario,Bianchi,23,Studente Luigi,Rossi,?,Operaio Anna,Verdi,50,’Dottorando di ricerca’ Rosa,Neri,20,Studente Nome della tabella Linea di commento Nome e tipo colonna Inizio dati Missing value Quoting
Lab. Sistemi Informativi Economico-Aziendali Tipi di dati • Misure Discrete (string, {v1, …, vn}) • Nominali identificatori univoci (Cod. Fiscale) • Categoriche “etichette” ripetibili (Città) • Ordinali è definito un ordine (low < high) • Binarie due soli valori (T/F, 1/0,...) • Misure Continue (int, real, numeric)
Lab. Sistemi Informativi Economico-Aziendali Configurare sorgente
Lab. Sistemi Informativi Economico-Aziendali Visualizzatori • DataVisualizers • 2D scatterplot • ScatterPlotMatrix • Matrice di 2D scatterplot • AttributeSummarizer • Distribuzione dei valori negli attributi • TextViewer • Visualizza dati/modelli in formato testuale
Lab. Sistemi Informativi Economico-Aziendali Connessione sorgente->task
Lab. Sistemi Informativi Economico-Aziendali Avvio elaborazione flusso
Lab. Sistemi Informativi Economico-Aziendali Visualizzazione risultati
Lab. Sistemi Informativi Economico-Aziendali Filtri (di preprocessing): Aggiunta e rimozione attributi • Add / AddExpression / Copy • Nuovo attributo vuoto / calcolato con una espressione / copiato da un altro attributo • Remove / RemoveType / RemoveUseless • Rimuove un attributo / di un certo tipo / con valori sempre costanti o troppo variabili
Lab. Sistemi Informativi Economico-Aziendali Filtri (di preprocessing): Trasformazioni attributi • NumericTransformation • Calcola una funzione matematica • ReplaceMissingValues • Rimpiazza NULL con moda (attributi discreti) e media (attributi continui) • Add noise • Perturba una percentuale di valori di un attributo • MergeTwoValues • Fonde due valori di un attributo in uno solo
Lab. Sistemi Informativi Economico-Aziendali Filtri (di preprocessing): Discretizzazione/normalizzazione attributi • Normalize • Max-Min normalizzazione di un attributo numerico nell’intervallo [0,1) • Standardize • Z-score normalizzazione (media = 0 e varianza = 1) • Discretize / PKDiscretize • Discretizzazione dei valori di un attributo • Equal width e Equal frequency
Lab. Sistemi Informativi Economico-Aziendali Filtri (di preprocessing): Tipologia attributi • Make indicator • Trasforma un attributi discreto in binario secondo il test: valore in {v1, …, vk} • NumericToBinary • Trasforma gli attributi continui in binari secondo il test: valore == 0 • NominalToBinary • Trasforma gli attributi discreti con K valori in K attributi binari
Lab. Sistemi Informativi Economico-Aziendali Filtri (di preprocessing): Selezione e sampling • RemoveFold • Seleziona “1 out of n” record • RemovePercentage • Seleziona una percentuale dei record • Randomize • Mescola record in modo casuale • Resample • Seleziona una percentuale dei record in modo casuale • RemoveRange • Seleziona un intervallo di record
Lab. Sistemi Informativi Economico-Aziendali Filtri (di preprocessing): • RemoveWithValue • Rimuove record con un determinato valore di un attributo
Lab. Sistemi Informativi Economico-Aziendali Filtri “supervisionati” • Attributo speciale • Detto “classe” cui il filtro fa riferimento • Per default è l’ultimo attributo • Può essere settato con il task Evaluation->ClassAssigner
Lab. Sistemi Informativi Economico-Aziendali Filtri “supervisionati” • Discretize • Discretizzazione supervisionata • Resample / SpreadSample • Sampling con controllo della distribuzione dei valori della classe • Es., campione del 30% dei clienti in cui la percentuale di “uomini” sia uguale a quella di “donne” • Discretize • Discretizzazione supervisionata • AttributeSelection • “Feature selection” automatica
Lab. Sistemi Informativi Economico-Aziendali Weka explorer
Lab. Sistemi Informativi Economico-Aziendali Clementine per differenza da Weka
Lab. Sistemi Informativi Economico-Aziendali Census • Selezionare un sottoinsieme del 30% dei dati, sul quale determinare mediante analisi dei grafici: • eventuali outliers o valori inconsistenti, • eventuali correlazioni tra coppie di attributi • confrontare questo risultato con una analisi automatica di selezione degli attributi • l’impatto sulle distribuzioni del rimpiazzamento di valori nulli • l’impatto sulle distribuzioni delle varie discretizzazioni • I risultati variano se il sottoinsieme è con distribuzione uniforme/sbilanciata della classe?