1 / 36

Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni

Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni a.a. 2008-2009 Waikato Environment for Knowledge Analysis Data preprocessing e regole associative Cicolella Claudio, Minetti Elena, Triscari Dario. Argomenti. Weka Formato .arff Preprocess

michel
Download Presentation

Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni a.a. 2008-2009 Waikato Environment for Knowledge Analysis Data preprocessing e regole associative Cicolella Claudio, Minetti Elena, Triscari Dario

  2. Argomenti • Weka • Formato .arff • Preprocess • Non supervisionati • Attributi: • Discretize • Remove • ReplaceMissingValues • Normalize • Standardize • Istanze: • Resample • Supervisionati • Attributi: • Discretize • AttributeSelection • Istanze: • Resample • Associate • Apriori

  3. Argomenti • Weka • Formato .arff • Preprocess • Non supervisionati • Attributi: • Discretize • Remove • ReplaceMissingValues • Normalize • Standardize • Istanze: • Resample • Supervisionati • Attributi: • Discretize • AttributeSelection • Istanze: • Resample • Associate • Apriori

  4. Weka

  5. Weka Preprocess: permette di caricare e modificare i dati su cui eseguire le varie elaborazioni Asssociate: permette l’elaborazione e valutazione di regole di associazione Weka: preprocess e associate

  6. Weka

  7. Argomenti • Weka • Formato .arff • Preprocess • Non supervisionati • Attributi: • Discretize • Remove • ReplaceMissingValues • Normalize • Standardize • Istanze: • Resample • Supervisionati • Attributi: • Discretize • AttributeSelection • Istanze: • Resample • Associate • Apriori

  8. Formato .arff • ARFF (Attribute Relationship File Format) Sezione Header Sezione Data

  9. Argomenti • Weka • Formato .arff • Preprocess • Non supervisionati • Attributi: • Discretize • Remove • ReplaceMissingValues • Normalize • Standardize • Istanze: • Resample • Supervisionati • Attributi: • Discretize • AttributeSelection • Istanze: • Resample • Associate • Apriori

  10. Preprocess

  11. Preprocess

  12. Preprocess

  13. Filtri

  14. Filtri Supervisionati: esiste un attributo speciale, il class attribute, che viene usato per guidare le operazioni di filtraggio Non supervisionati: tratta tutti gli attributi allo stesso modo

  15. Filtri Attribute: operano su un singolo o più attributi selezionati Istanze: operano a livello di tuple prendendo in considerazione la totalità degli attributi

  16. Argomenti • Weka • Formato .arff • Preprocess • Non supervisionati • Attributi: • Discretize • Remove • ReplaceMissingValues • Normalize • Standardize • Istanze: • Resample • Supervisionati • Attributi: • Discretize • AttributeSelection • Istanze: • Resample • Associate • Apriori

  17. Filtri non supervisionati : Discretize • Questo tipo di filtro serve per convertire gli attributi numerici in etichette stringa. attributeIndices:permette di selezionare l’attributo o gli attributi da discretizzare bins: permette di scegliere il numero di bin findNumBins: ottimizza il numero di bin di uguale larghezza utilizzando il metodo leave-one-out; non è applicabile con useEqualFrequency desiredWeightOfInstancesPerInterval: larghezza dell’intervallo nella divisione in bin di uguale profondità invertSelection:se settato“true”il filtro verrà applicato a tutti i campi tranne a quello/i selezionato/i nel box attributeindices ignoreClass: se settato “true”ignora la classificazione prima di applicare il filtro makeBinary: se settato “true”rende gli attributi finali in formato binario useEqualFrequency: se settato “true”verranno formati bin di uguale frequenza invece che di uguale larghezza

  18. Filtri non supervisionati : Remove • Questo tipo di filtro serve per eliminare dal dataset un attributo con tutti i relativi valori. attributeIndices:permette di selezionare l’attributo da rimuovere invertSelection:se settato“true”il filtro verrà applicato a tutti i campi tranne a quello/i selezionato/i nel box attributeindices

  19. Filtri non supervisionati : ReplaceMissingValue • Questo tipo di filtro serve per sostituire i valori mancanti all’interno del dataset con la moda nel caso di dati categorici e con la media nel caso di dati numerici . ignoreClass: se settato “true”ignora la classificazione prima di applicare il filtro

  20. Filtri non supervisionati : Normalize • Questo tipo di filtro agisce sui range di variazione degli attributi uniformandoli a [0,1] (default) o ad altri intervalli. ignoreClass: se settato “true”ignora la classificazione prima di applicare il filtro scale: fattore di scala translation: fattore di scala

  21. Filtri non supervisionati : Standardize • Questo tipo di filtro applica un altro tipo di normalizzazione ottenendo che gli attributi numerici siano distribuiti con valor medio nullo e deviazione standard unitaria. ignoreClass: se settato “true”ignora la classificazione prima di applicare il filtro μ= valor medio statistico σ= deviazione standard

  22. Filtri non supervisionati : Resample • Questo tipo di filtro attua una riduzione verticale producendo un sottoinsieme casuale delle istanze del data set sia sostituendo i valori originale che mantenendo quelli già presenti. invertSelection: permette di invertire la selezione di istanze (solo se sampling senza replacement) NoReplacement : permette di disabilitare la sostituzione dei valori originali randomSeed: permette di scegliere il “seme” alla base della generazione dei numeri casuali sampleSizePercent: permette di scegliere la percentuale del data set originale fornita in output

  23. Argomenti • Weka • Formato .arff • Preprocess • Non supervisionati • Attributi: • Discretize • Remove • ReplaceMissingValues • Normalize • Standardize • Istanze: • Resample • Supervisionati • Attributi: • Discretize • AttributeSelection • Istanze: • Resample • Associate • Apriori

  24. Filtri supervisionati : Discretize • Questo tipo di filtro serve per convertire gli attributi numerici in etichette stringa. attributeIndices:permette di selezionare l’attributo o gli attributi da discretizzare invertSelection:se settato“true”il filtro verrà applicato a tutti i campi tranne a quello/i selezionato/i nel box attributeindices makeBinary: se settato “true”rende gli attributi finali in formato binario

  25. Filtri supervisionati : AttributeSelection • Questo tipo di filtro permette l’accesso alle funzioni di selezione di attributi così come nella sezione Select attributes. evaluator:permette di selezionare il parametro su cui effettuare la valutazione search:metodo attraverso cui effettuare la valutazione numToselect:permette di sceglierenumero di attributi da selezionare startSet:permette di selezionare un elenco di attributi da ignorare threshold:valore soglia del valutatore

  26. Filtri supervisionati : Resample • Questo tipo di filtro produce un sottoinsieme di valori casuali del data set originale con o senza replacement. In aggiunta rispetto alla versione non supervisionata, tenta di mantenere la distribuzione dell’attributo classe o di correggerne il bias. biasToUniformClass: permette di settare un valore che varia da 0 (non variando la distribuzione) a 1 (rendendo la distribuzione uniforme) invertSelection: permette di invertire la selezione di istanze (solo se sampling senza replacement) NoReplacement : permette di disabilitare la sostituzione dei valori originali randomSeed: permette di scegliere il “seme” alla base della generazione dei numeri casuali sampleSizePercent: permette di scegliere la percentuale del data set originale fornita in output

  27. Argomenti • Weka • Formato .arff • Preprocess • Non supervisionati • Attributi: • Discretize • Remove • ReplaceMissingValues • Normalize • Standardize • Istanze: • Resample • Supervisionati • Attributi: • Discretize • AttributeSelection • Istanze: • Resample • Associate • Apriori

  28. Associate Weka: preprocess e associate

  29. Associate

  30. Algoritmi per regole associative • Alcuni esempi: • Apriori: algoritmo Apriori per le regole associative • PredictiveApriori: algoritmo Apriori che trova regole di associazione ordinate per accuratezza nella predizione; questo parametro è ricavato da una combinazione di confidenza e supporto • Tertius: algoritmo a conferma guidata durante la scoperta di • regole di associazione

  31. Regole associative: Apriori Come funziona Apriori in Weka ? Apriori in Weka comincia con il supporto minimo all'estremo superiore e diminuisce il supporto di Delta ad ogni iterazione. Si arresta quando è stato generato il numero richiesto di regole, oppure è stato raggiunto l'estremo inferiore per il supporto minimo.

  32. Regole associative: Apriori classIndex: indice del class attribute; se settato a -1 l’ultimo attributo è preso come class attribute car: settato “true” vengono generate regole associative dove il class attribute è conseguente delta: permette di settare il valore delta lowerBoundMinSupport: lower bound per il supporto metricType: permette di scegliere la metrica secondo cui ordinare e selezionare i risultati

  33. Apriori: metricType • Data la regolaL => R: • confidence = Pr(L,R) / Pr(L) • lift = Pr(L,R) / Pr(L)*Pr(R) • leverage = Pr(L,R) - Pr(L)*Pr(R) • conviction = Pr(L)*Pr(not R) / Pr(L,R)

  34. Regole associative: Apriori minMetric: considera solo le regole che superano questo valore numRules: permette di selezionare il numero di regole che si vuole vengano generate outputItemSets: se settato “true”vengono mostrati gli itemset frequenti removeAllMissingCols: rimuove dal dataset le colonne con tutti i valori mancanti. upperBoundMinSupport: upper bound per il supporto minimo verbose: se abilitato esegue l’algoritmo in modalità verbose

  35. Associate

  36. Associate

More Related