E N D
UNIVERSITÀ DI PISAFACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDATesi di laurea:Progettazione e sviluppo di metodi di selezione di caratteristiche per analisi di dati ad alta dimensionalità.Relatori:Prof. Francesco MarcelloniProf. Beatrice LazzeriniCandidato: Baldini PaoloANNO ACCADEMICO 2005-2006
Contesto applicativo • Data Clustering • Rappresentazione relazionale dei dati • Problemi: • Maggiore occupazione di memoria • Dimensional Curse • Soluzione: • Riduzione del numero di caratteristiche • Da evitare: • Perdita di informazioni necessarie alla corretta classificazione dei dati Algoritmo ARCA
Raggiungere l’obiettivo preposto • Possibile? • Sì perché… • Implicita ridondanza della rappresentazione relazionale • Come? • Selezione delle caratteristiche salienti (feature selection) • Implementazione di apposite tecniche • MYPCA_Fs • NP_Fs • PCA_Fs • CORR_Fs Sviluppate durante la tesi Riprese dalla letteratura
NP_Fs: Near Points Feature Selection • Superfluo considerare più dimensioni relative alla non somiglianza rispetto a campioni tra loro molto simili. • Individuazione dei campioni meno rappresentativi rimozione delle dimensioni ad essi corrispondenti • N-vettore B = [bj]: • A parità di bj, calcolato vettore S = [sj]: • Caratteristica j-esima eliminata se: Stima di “inutilità” della caratteristica j-esima all’interno del data set relazionale (numero dei campioni tra loro molto simili in base alla caratteristica in esame) { Stima della non somiglianza globale dei dati rispetto alla caratteristica j-esima
MyPCA_Fs Matrice A (ogni riga un autovettore) • Principal Component Analysis • Matrice di covarianza dei dati Autovettori Autovalori Vettore B • Autovettori pesati per i relativi autovalori • Somma delle componenti relative a ciascuna caratteristica • N-vettore B’ = B x A • b’j = misura dell’importanza della corrispondente dimensione dello spazio iniziale in termini di varianza sul data set considerato. • Selezione delle M caratteristiche con massimo valore di b’j corrispondente
PCA_Fs • Principal Component Analysis • Matrice di covarianza dei dati Matrice A (ogni colonna un autovettore) • Eliminazione delle N - q colonne di A con autovalori associati di valore minimo • 1 ≤ q ≤ N • Nuova matrice A’ Autovettori Autovalori Vettore B Preferibilmente 1 ≤ q ≤ M • Clustering delle righe di A’ con numero di prototipi i pari a M • Individuazione della riga più vicina a ciascuno degli M prototipi • Selezione delle M caratteristiche corrispondenti alle righe individuate
CORR_Fs • Matrice R di correlazione dei dati • Scelta delle M caratteristiche meno correlate fra loro come più rappresentative • Individuata coppia di caratteristiche massimamente correlate tra loro • Eliminata delle due quella per cui la somma dei coefficienti di correlazione rispetto a tutte le altre sia massima • Valore di soglia minima di correlazione • Procedimento interrotto se non vi sono elementi di R maggiori di tale soglia
Criterio di STOP adottato • Eliminazione di un numero prefissato di caratteristiche Eventuale verifica a posteriori del miglior compromesso tra dimensione dei dati e quantità di informazione residua
Valutazione dei risultati sperimentali • Validità della partizione • Coefficiente di partizione Ripreso dalla letteratura • 1/C ≤ P ≤ 1 • Misura del livello di fuzzyness
Valutazione dei risultati sperimentali (II) Sviluppato durante la tesi • Differenza dalla partizione di riferimento • Indice Ivx • Misura della distanza tra due generiche partizioni Pi e Pj • Trasposizione dei campioni in un fittizio spazio N-dimensionale • Nuova immagine dei dati dipendente dalla partizione • Distanza normalizzata tra immagini ottenute da partizioni diverse Indipendente dall’ordine dei prototipi e dal numero di dimensioni dello spazio dei campioni
Fase Sperimentale Dati reali dal database UCI Numero di dimensioni variabile da 150 (Iris) a 1473 (CMC) • Fase 1: • 5 dataset di dimensioni relativamente contenute • Dimostrazione della validità delle tesi ipotizzate • Impiego di tutti e 4 gli algoritmi di feature selection • Test dell’effettiva efficacia degli algoritmi in esame conservazione dell’informazione necessaria per una corretta classificazione dei campioni anche a seguito dell’eliminazione di un elevato numero di caratteristiche CORR_Fs MYPCA_Fs NP_Fs PCA_Fs
Fase sperimentale (II) • Fase 2: • 2 dataset ad altissima dimensionalità (dell’ordine delle migliaia di dimensioni) • Ulteriore riprova dei risultati ottenuti nella Fase 1 • Verifica dell’eliminazione della maledizione dimensionale • Impiego del solo NP_Fs Raggiungere le condizioni necessarie a far convergere ARCA anche laddove precedentemente essa lo impediva • Phonemes • dati reali dal database del progetto ELENA • 5404 caratteristiche • DS8 • dati sintetici generati per l’occasione • 15000 caratteristiche
Struttura dei test • Partizione di riferimento eseguita sul dataset completo • Eliminazione successiva di un numero crescente di caratteristiche • Confronto ogni volta con la partizione di riferimento • Grafico degli andamenti di Ivx rispetto al numero di dimensioni eliminate • Più cicli considerando numeri diversi di cluster • Controllo del coefficiente di partizione
Risultati Fase 1 • Nella quasi totalità dei casi è stato possibile identificare almeno una configurazione in cui, nonostante l’eliminazione di un sostanzioso numero di dimensioni, la classificazione restasse sostanzialmente simile all’originale Valore medio globale di Ivx: 0.0681
Risultati Fase 1 (II) • In alcuni casi la feature selection ha permesso addirittura una classificazione dei campioni più aderente all’originale ripartizione dei dati • Variazione di andamento della pendenza della curva di Ivx: da crescente a decrescente • Variazione inversa del numero di campioni classificati diversamente rispetto al dataset • overfitting
Risultati Fase 1 (III) • Sostanziale equivalenza dei metodi di feature selection • Impossibile individuarne uno universalmente migliore • Dipendenza delle prestazioni dai diversi scenari • Algoritmi tra loro più simili: MYPCA_Fs e PCA_Fs • NP_Fs = via di mezzo tra essi e CORR_Fs
Risultati Fase 2 • Conferma dei risultati ottenuti durante la Fase 1 anche quando il numero dimensioni dei dati supera il migliaio • Conferma dell’efficacia della feature selection per eliminare la maledizione dimensionale • Maggiore chiarezza dei dati • Convergenza dell’algoritmo di clustering (ARCA) • Valori più alti del coefficiente di partizione P Dataset Phonemes Dataset DS8
Conclusioni • Gli obiettivi preposti sono stati raggiunti • Riduzione del numero di caratteristiche dei dati preservando le informazioni essenziali alla classificazione • Eliminazione della maledizione dimensionale • Sono stati sviluppati due nuovi algoritmi di feature selection e se ne è verificata l’efficacia • NP_Fs • MYPCA_Fs