1 / 26

LSA

p(x) = 0.02. Warehouse. Data Mining Models. Prepared Data. Consolidated Data. Knowledge. Data Sources. LSA. Interpretation and Evaluation. Data Mining & OLAP Cubes. Selection and Preprocessing. Data Consolidation. 4 lezioni OLAP 4 lezioni DM. 3 lezioni. 2 lezioni. 5 lezioni.

posy
Download Presentation

LSA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Lab. Sistemi Informativi Economico-Aziendali p(x) = 0.02 Warehouse Data Mining Models Prepared Data Consolidated Data Knowledge Data Sources LSA Interpretation and Evaluation Data Mining & OLAP Cubes Selection and Preprocessing Data Consolidation 4 lezioni OLAP 4 lezioni DM 3 lezioni 2 lezioni 5 lezioni

  2. Weka: Weikato university Environment for Knowledge Analysis LSA - Laboratorio di Sistemi Informativi Economico-Aziendali Salvatore Ruggieri Dipartimento di Informatica, Università di Pisa

  3. Lab. Sistemi Informativi Economico-Aziendali http://www.cs.weikato.ac.nz/weka • Non efficiente • Non scalabile: mantiene i dataset in memoria • Documentazione scarsa o troppo tecnica • Metafora grafica poco intuitiva La suite di algoritmi più completa! Free software: disponibili i sorgenti Scritto in Java Per scopi di ricerca Portabilità: disponibile per Windows, Linux e Mac

  4. Lab. Sistemi Informativi Economico-Aziendali Lanciare Weka • Di default, Java permette ad un programma di occupare al max 80mb circa • Editare RunWeka.bat scrivendoci java –Xmx512m -jar weka.jar • L’opzione –Xmx512m dice a Java di permettere a Weka di occupare fino a 512Mbytes • Files in WekaPatch nel CD del corso • Da copiare nella directory di Weka

  5. Lab. Sistemi Informativi Economico-Aziendali Lanciare weka: interfacce • Simple CLI (Call Level Interface) • accesso a oggetti e metodi del sistema mediante linea di comando • Experimenter • automazione serie di esperimenti di classificazione/regressioni variando datasets, algoritmi e parametri • Explorer • GUI “a scomparti” per operazioni di preprocessing, classificazione, clustering, regole associative • Knowledge Flow • GUI “a flussi” per operazioni di preprocessing e classificazione.

  6. Lab. Sistemi Informativi Economico-Aziendali Knowledge Flow: layouts Task List Help Load/save layouts Knowledge Flow Layout Status Log

  7. Lab. Sistemi Informativi Economico-Aziendali Sorgenti di dati • ARFF • Attribute-Relational File Format • CSV • Comma Separated Values • C45 • Simile ad ARFF ma con metadati su file distinto (.data e .names) • Serialized Instance • Oggetto “Tabella” serializzato su disco

  8. Lab. Sistemi Informativi Economico-Aziendali Attribute-Relation File Format (ARFF) @relation tabella % commento @attribute nome string @attribute cognome string @attribute eta’ int @attribute professione string % commento @data Mario,Bianchi,23,Studente Luigi,Rossi,?,Operaio Anna,Verdi,50,’Dottorando di ricerca’ Rosa,Neri,20,Studente Nome della tabella Linea di commento Nome e tipo colonna Inizio dati Missing value Quoting

  9. Lab. Sistemi Informativi Economico-Aziendali Tipi di dati • Misure Discrete (string, {v1, …, vn}) • Nominali  identificatori univoci (Cod. Fiscale) • Categoriche  “etichette” ripetibili (Città) • Ordinali  è definito un ordine (low < high) • Binarie  due soli valori (T/F, 1/0,...) • Misure Continue (int, real, numeric)

  10. Lab. Sistemi Informativi Economico-Aziendali Configurare sorgente

  11. Lab. Sistemi Informativi Economico-Aziendali Visualizzatori • DataVisualizers • 2D scatterplot • ScatterPlotMatrix • Matrice di 2D scatterplot • AttributeSummarizer • Distribuzione dei valori negli attributi • TextViewer • Visualizza dati/modelli in formato testuale

  12. Lab. Sistemi Informativi Economico-Aziendali Connessione sorgente->task

  13. Lab. Sistemi Informativi Economico-Aziendali Avvio elaborazione flusso

  14. Lab. Sistemi Informativi Economico-Aziendali Visualizzazione risultati

  15. Lab. Sistemi Informativi Economico-Aziendali Filtri (di preprocessing): Aggiunta e rimozione attributi • Add / AddExpression / Copy • Nuovo attributo vuoto / calcolato con una espressione / copiato da un altro attributo • Remove / RemoveType / RemoveUseless • Rimuove un attributo / di un certo tipo / con valori sempre costanti o troppo variabili

  16. Lab. Sistemi Informativi Economico-Aziendali Filtri (di preprocessing): Trasformazioni attributi • NumericTransformation • Calcola una funzione matematica • ReplaceMissingValues • Rimpiazza NULL con moda (attributi discreti) e media (attributi continui) • Add noise • Perturba una percentuale di valori di un attributo • MergeTwoValues • Fonde due valori di un attributo in uno solo

  17. Lab. Sistemi Informativi Economico-Aziendali Filtri (di preprocessing): Discretizzazione/normalizzazione attributi • Normalize • Max-Min normalizzazione di un attributo numerico nell’intervallo [0,1) • Standardize • Z-score normalizzazione (media = 0 e varianza = 1) • Discretize / PKDiscretize • Discretizzazione dei valori di un attributo • Equal width e Equal frequency

  18. Lab. Sistemi Informativi Economico-Aziendali Filtri (di preprocessing): Tipologia attributi • Make indicator • Trasforma un attributi discreto in binario secondo il test: valore in {v1, …, vk} • NumericToBinary • Trasforma gli attributi continui in binari secondo il test: valore == 0 • NominalToBinary • Trasforma gli attributi discreti con K valori in K attributi binari

  19. Lab. Sistemi Informativi Economico-Aziendali Filtri (di preprocessing): Selezione e sampling • RemoveFold • Seleziona “1 out of n” record • RemovePercentage • Seleziona una percentuale dei record • Randomize • Mescola record in modo casuale • Resample • Seleziona una percentuale dei record in modo casuale • RemoveRange • Seleziona un intervallo di record

  20. Lab. Sistemi Informativi Economico-Aziendali Filtri (di preprocessing): • RemoveWithValue • Rimuove record con un determinato valore di un attributo

  21. Lab. Sistemi Informativi Economico-Aziendali Filtri “supervisionati” • Attributo speciale • Detto “classe” cui il filtro fa riferimento • Per default è l’ultimo attributo • Può essere settato con il task Evaluation->ClassAssigner

  22. Lab. Sistemi Informativi Economico-Aziendali Filtri “supervisionati” • Discretize • Discretizzazione supervisionata • Resample / SpreadSample • Sampling con controllo della distribuzione dei valori della classe • Es., campione del 30% dei clienti in cui la percentuale di “uomini” sia uguale a quella di “donne” • Discretize • Discretizzazione supervisionata • AttributeSelection • “Feature selection” automatica

  23. Lab. Sistemi Informativi Economico-Aziendali Weka explorer

  24. Lab. Sistemi Informativi Economico-Aziendali Clementine per differenza da Weka

  25. Esercitazione

  26. Lab. Sistemi Informativi Economico-Aziendali Census • Selezionare un sottoinsieme del 30% dei dati, sul quale determinare mediante analisi dei grafici: • eventuali outliers o valori inconsistenti, • eventuali correlazioni tra coppie di attributi • confrontare questo risultato con una analisi automatica di selezione degli attributi • l’impatto sulle distribuzioni del rimpiazzamento di valori nulli • l’impatto sulle distribuzioni delle varie discretizzazioni • I risultati variano se il sottoinsieme è con distribuzione uniforme/sbilanciata della classe?

More Related