Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni

Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni a.a. 2008-2009 Waikato Environment for Knowledge Analysis Data preprocessing e regole associative Cicolella Claudio, Minetti Elena, Triscari Dario

Argomenti • Weka • Formato .arff • Preprocess • Non supervisionati • Attributi: • Discretize • Remove • ReplaceMissingValues • Normalize • Standardize • Istanze: • Resample • Supervisionati • Attributi: • Discretize • AttributeSelection • Istanze: • Resample • Associate • Apriori

Weka

Weka Preprocess: permette di caricare e modificare i dati su cui eseguire le varie elaborazioni Asssociate: permette l’elaborazione e valutazione di regole di associazione Weka: preprocess e associate

Weka

Formato .arff • ARFF (Attribute Relationship File Format) Sezione Header Sezione Data

Preprocess

Filtri

Filtri Supervisionati: esiste un attributo speciale, il class attribute, che viene usato per guidare le operazioni di filtraggio Non supervisionati: tratta tutti gli attributi allo stesso modo

Filtri Attribute: operano su un singolo o più attributi selezionati Istanze: operano a livello di tuple prendendo in considerazione la totalità degli attributi

Filtri non supervisionati : Discretize • Questo tipo di filtro serve per convertire gli attributi numerici in etichette stringa. attributeIndices:permette di selezionare l’attributo o gli attributi da discretizzare bins: permette di scegliere il numero di bin findNumBins: ottimizza il numero di bin di uguale larghezza utilizzando il metodo leave-one-out; non è applicabile con useEqualFrequency desiredWeightOfInstancesPerInterval: larghezza dell’intervallo nella divisione in bin di uguale profondità invertSelection:se settato“true”il filtro verrà applicato a tutti i campi tranne a quello/i selezionato/i nel box attributeindices ignoreClass: se settato “true”ignora la classificazione prima di applicare il filtro makeBinary: se settato “true”rende gli attributi finali in formato binario useEqualFrequency: se settato “true”verranno formati bin di uguale frequenza invece che di uguale larghezza

Filtri non supervisionati : Remove • Questo tipo di filtro serve per eliminare dal dataset un attributo con tutti i relativi valori. attributeIndices:permette di selezionare l’attributo da rimuovere invertSelection:se settato“true”il filtro verrà applicato a tutti i campi tranne a quello/i selezionato/i nel box attributeindices

Filtri non supervisionati : ReplaceMissingValue • Questo tipo di filtro serve per sostituire i valori mancanti all’interno del dataset con la moda nel caso di dati categorici e con la media nel caso di dati numerici . ignoreClass: se settato “true”ignora la classificazione prima di applicare il filtro

Filtri non supervisionati : Normalize • Questo tipo di filtro agisce sui range di variazione degli attributi uniformandoli a [0,1] (default) o ad altri intervalli. ignoreClass: se settato “true”ignora la classificazione prima di applicare il filtro scale: fattore di scala translation: fattore di scala

Filtri non supervisionati : Standardize • Questo tipo di filtro applica un altro tipo di normalizzazione ottenendo che gli attributi numerici siano distribuiti con valor medio nullo e deviazione standard unitaria. ignoreClass: se settato “true”ignora la classificazione prima di applicare il filtro μ= valor medio statistico σ= deviazione standard

Filtri non supervisionati : Resample • Questo tipo di filtro attua una riduzione verticale producendo un sottoinsieme casuale delle istanze del data set sia sostituendo i valori originale che mantenendo quelli già presenti. invertSelection: permette di invertire la selezione di istanze (solo se sampling senza replacement) NoReplacement : permette di disabilitare la sostituzione dei valori originali randomSeed: permette di scegliere il “seme” alla base della generazione dei numeri casuali sampleSizePercent: permette di scegliere la percentuale del data set originale fornita in output

Filtri supervisionati : Discretize • Questo tipo di filtro serve per convertire gli attributi numerici in etichette stringa. attributeIndices:permette di selezionare l’attributo o gli attributi da discretizzare invertSelection:se settato“true”il filtro verrà applicato a tutti i campi tranne a quello/i selezionato/i nel box attributeindices makeBinary: se settato “true”rende gli attributi finali in formato binario

Filtri supervisionati : AttributeSelection • Questo tipo di filtro permette l’accesso alle funzioni di selezione di attributi così come nella sezione Select attributes. evaluator:permette di selezionare il parametro su cui effettuare la valutazione search:metodo attraverso cui effettuare la valutazione numToselect:permette di sceglierenumero di attributi da selezionare startSet:permette di selezionare un elenco di attributi da ignorare threshold:valore soglia del valutatore

Filtri supervisionati : Resample • Questo tipo di filtro produce un sottoinsieme di valori casuali del data set originale con o senza replacement. In aggiunta rispetto alla versione non supervisionata, tenta di mantenere la distribuzione dell’attributo classe o di correggerne il bias. biasToUniformClass: permette di settare un valore che varia da 0 (non variando la distribuzione) a 1 (rendendo la distribuzione uniforme) invertSelection: permette di invertire la selezione di istanze (solo se sampling senza replacement) NoReplacement : permette di disabilitare la sostituzione dei valori originali randomSeed: permette di scegliere il “seme” alla base della generazione dei numeri casuali sampleSizePercent: permette di scegliere la percentuale del data set originale fornita in output

Associate Weka: preprocess e associate

Associate

Algoritmi per regole associative • Alcuni esempi: • Apriori: algoritmo Apriori per le regole associative • PredictiveApriori: algoritmo Apriori che trova regole di associazione ordinate per accuratezza nella predizione; questo parametro è ricavato da una combinazione di confidenza e supporto • Tertius: algoritmo a conferma guidata durante la scoperta di • regole di associazione

Regole associative: Apriori Come funziona Apriori in Weka ? Apriori in Weka comincia con il supporto minimo all'estremo superiore e diminuisce il supporto di Delta ad ogni iterazione. Si arresta quando è stato generato il numero richiesto di regole, oppure è stato raggiunto l'estremo inferiore per il supporto minimo.

Regole associative: Apriori classIndex: indice del class attribute; se settato a -1 l’ultimo attributo è preso come class attribute car: settato “true” vengono generate regole associative dove il class attribute è conseguente delta: permette di settare il valore delta lowerBoundMinSupport: lower bound per il supporto metricType: permette di scegliere la metrica secondo cui ordinare e selezionare i risultati

Apriori: metricType • Data la regolaL => R: • confidence = Pr(L,R) / Pr(L) • lift = Pr(L,R) / Pr(L)*Pr(R) • leverage = Pr(L,R) - Pr(L)*Pr(R) • conviction = Pr(L)*Pr(not R) / Pr(L,R)

Regole associative: Apriori minMetric: considera solo le regole che superano questo valore numRules: permette di selezionare il numero di regole che si vuole vengano generate outputItemSets: se settato “true”vengono mostrati gli itemset frequenti removeAllMissingCols: rimuove dal dataset le colonne con tutti i valori mancanti. upperBoundMinSupport: upper bound per il supporto minimo verbose: se abilitato esegue l’algoritmo in modalità verbose

Associate

Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni

Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni

Presentation Transcript

Facolt di Ingegneria Corso di Laurea in Ingegneria Energetica

Università degli Studi di Bologna FACOLTÀ DI INGEGNERIA Corso di Laurea in Ingegneria Gestionale Ricerca Operativa

Laurea in Ingegneria Gestionale

POLITECNICO DI MILANO Facoltà di Ingegneria dei Sistemi Corso di Laurea in Ingegneria Biomedica

Laurea in Ingegneria Gestionale

Corso di Laurea in Ingegneria Gestionale

Facoltà di ingegneria Corso di laurea in ingegneria dell’informazione

Facoltà di Ingegneria Corso di Laurea in Ingegneria Biomedica

Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica

Laurea specialistica in Ingegneria Gestionale

Corso di Laurea Specialistica in Ingegneria Informatica

Laurea Specialistica in Ingegneria Elettronica

Corso di Laurea Specialistica in Ingegneria Elettronica

Facoltà di Ingegneria – Sede di Modena Corso di Laurea Specialistica in Ingegneria Informatica

Facoltà di ingegneria Corso di laurea magistrale in Ingegneria Biomedica

CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA

Corso di Laurea in Ingegneria Informatica

Università di Pisa Corso di Laurea Specialistica in Sistemi e

Seminario per il corso di Sistemi Informativi

Corso di Laurea in Ingegneria dei Modelli e dei Sistemi

Laurea in Ingegneria Gestionale

Università Politecnica delle Marche Corso di Laurea Specialistica in Ingegneria Elettronica