1 / 47

rosuda

rosuda. Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta. IVDM 2003. rosuda. ROSUDA:. Lehrtstuhl für Rechnerorientierte Statistik und Datenanalyse Dipartimento di Statistica Computazionale ed Analisi dei Dati. IVDM 2003. rosuda. IVDM by ROSUDA: Outline. I PARTE

phuoc
Download Presentation

rosuda

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003

  2. rosuda ROSUDA: Lehrtstuhl für Rechnerorientierte Statistik und Datenanalyse Dipartimento di Statistica Computazionale ed Analisi dei Dati IVDM 2003

  3. rosuda IVDM by ROSUDA: Outline I PARTE • Partiamo dai dati • Il Data Mining • I Grafici • Visualizzazione • Interattivitá • IVDM • MosaicPlot & MANET • ParallelCoordinates & CASSATT II PARTE • Software per il DM • Software per l´ IVDM • Grafici Interattivi by Rosuda • Map & MONDRIAN • Glyphs&… • Trees & KLIMT • Interattivitá nello specifico • Torniamo ai dati • Information & “Informations” • IntGraphics per “tutti” • La ricerca Rosuda • Discussione IVDM 2003

  4. rosuda What´s Data Mining? Secondary analysis of (often large) observational data sets to find unsuspected relationships and to summarize the data in a novel ways that are both understandable and useful to the data owner (D.Hand) IVDM 2003

  5. rosuda Cominciamo dai Dati: La Veritá dei Dati Veritá Evidente Dati nudi e crudi Veritá Latente es. evoluzione delInfo da estrarrefenomeno nel tempo IVDM 2003

  6. rosuda Un case-study in generale Punti da chiarire: Un pò di storia Da dove nasce l`esigenza di analizzare i dati… Tipo di Dati Descrizione dei dati e delle variabilie Fonte Ragione e tempi di raccolta dei dati IVDM 2003

  7. rosuda Chi Cosa, Dove e Quando Un Viaggio fra i dati…e l album di viaggio: Di tappa in tappa si decide una nuova direzione IVDM 2003

  8. rosuda Analisi parziale e nuovi obiettivi • Evoluzione della conoscenza in merito al fenomeno analizzato mano a mano che l’ analisi procede • Incidenza singoli fattori • Reintegrazione dell`Informazione estratta • Ripianificazione dell`analisi • Lettura e rilettura dei dati alla luce della nuova conoscenza • Rileggere il passato • Pianificare il cambiamento • informazione IVDM 2003

  9. rosuda Obiettivi del Data Mining • Analisi di dati raccolti per altre ragioni • I migliori risultati non sono necessariamente quelli di maggiore interesse • É comune trovare dati di Cattiva Qualitá - • Interpretazione difficile • Generalizzazione difficile IVDM 2003

  10. rosuda Data Mining. L´Approccio (a) Informatica Ricerca Automatica di Informazione Interessante METODI VELOCI ED EFFICIENTI PER EDA IVDM 2003

  11. rosuda Data Mining. L´Approccio (b) Statistica Ricerca di risultati di qualunque interesse DEFINIZIONE DI INTERESSE E POTENZIALITÁ DEI METODI STATISTICI PER L´ANALISI DEI DATI IVDM 2003

  12. rosuda Cosa sono i grafici? * Oggetti che rappresentano sinteticamente i dati * Valutabili con gli occhi…. IVDM 2003

  13. rosuda Cosa sono i grafici? IVDM 2003

  14. rosuda Cos è la Visualizzazione? • Non supportata da un´unica teoria formale • Collezione di utili strumenti per : • * condurre analisi • * verificare la qualitá dei dati • * identificare patterns • * suggerire strutture • principale oggetto della rappresentazione sono i Grafici IVDM 2003

  15. rosuda Cos è l´ Interattività? Becker et al. direct manipulation and instantaneous change Unwin direct manipulation of plots and plotting elements in them immediacy of place immediacy of action IVDM 2003

  16. rosuda Visual Interactive Data Mining Collezione di strumenti GRAFICI per * condurre analisi * verificare la qualitá dei dati * identificare patterns * suggerire strutture Con data sets anchemolto grandi attraverso diretta manipolazione delle rappresentazioni grafiche collocazione estemporanea di nuovi elementi IVDM 2003

  17. rosuda Interactive Visual Data Mining: Implementazione Gli oggetti grafici sono direttamente collegati ai dati tramite ID NON solo OUTPUT statici **Graphics manipulation = Data manipulation** IVDM 2003

  18. rosuda Interactive Visual Data Mining: Features Theus`s List: Highlighting Linking Querying Warnings ……..??? IVDM 2003

  19. rosuda Interactive Visual Data Mining: Issues Information Extraction Information Reintegration attraverso Graphical Data Representation e Data Manipulation IVDM 2003

  20. rosuda Interactive Visual Data Mining: dai dati agli Scatterplot... IVDM 2003

  21. rosuda …dentro gli Scatterplot IVDM 2003

  22. rosuda Bank Dataset data set, ottenuto da una Banca Tedesca, per identificare i pricipali fattori condizionanti le transazioni Dati raccolti per ragioni tecniche ca. 600,000 transazioni in 24 variabili IVDM 2003

  23. rosuda …agli Scatterplot indietro ai dati... Si cominciano avedere dei gruppi Questi Gruppi non sono individuabili da normali procedure di Clustering IVDM 2003

  24. rosuda ..poi la Regressione...

  25. rosuda …Istogrammi IVDM 2003

  26. rosuda Titanic Dataset www.amstat.org/publications/jse/v3n3/datasets.dawson.html descritto nell´articolo: The "Unusual Episode" Data Revisited Robert J. MacG. Dawson Saint Mary's University Journal of Statistics Education v.3, n.3 (1995) 2201 casi and 4 variabili: Class, Sex, Age (Giovani o Anziani) e Survival. IVDM 2003

  27. rosuda Barchart per dati Categorici.... Ogni oggetto deve poter essere interrogato In questo caso la query riguarda la sola selezione IVDM 2003

  28. rosuda Ogni pixel informativo deve essere visibile! Sottolineature in rosso indicano effettiva presenza di (pochi) casi Dalla query possiamo evincere la presenza di 6 bimbi in prima classe IVDM 2003

  29. rosuda …per esplorare l´Associazione... Non indipendenti --C´è associazione fra suvival e (age, sex, class)? --Chi avevauna probabilitá maggiore di sopravvivere? Indipendenti IVDM 2003

  30. rosuda ...Mosaic Plot e Manet IVDM 2003

  31. rosuda Cos è un MosaicPlot? Funzione applicata a tavole di contingenza ad entrata multipla, che producono output grafici f IVDM 2003

  32. rosuda Costruire un MosaicPlot K=0 K=1 K=2 P11 P21 P31 P41 P1 P1 P2 P3 P4 P12 P22 P32 P42 IVDM 2003

  33. Not indep Independent rosuda Interpretare un MosaicPlot: Interactive feature: Highlighting Editing structure(re-ordering, grouping, splitting) Linking Rotation Querying Reparametrisation Zoom IVDM 2003

  34. rosuda Mosaic Plot e c2 Che succede??? IVDM 2003

  35. rosuda Mosaic plot, c2 e Survival... La significativitá dell´Ipotesi di non indipendenza è evidente Tuttavia, c2 = 671,96 suggerirebbe di rifiutare l´ipotesi di non Independenza IVDM 2003

  36. rosuda Cosa vediamo da rappresentazioni diverse IVDM 2003

  37. rosuda Missing Are Now Equally Treated IVDM 2003

  38. rosuda E se il numero di variabili cresce? IVDM 2003

  39. rosuda Soluzione “voluminosa” ed inefficiente IVDM 2003

  40. rosuda Pensa in Parallelo! IVDM 2003

  41. rosuda Pensa in Parallelo! Parallel coordinates per… Correlazione N-dimensional clusters outliers IVDM 2003

  42. rosuda Parallel Coordinates e Cassatt Dualismo punto-linea IVDM 2003

  43. rosuda Stressing Parallel Coordinates Si possono analizzare fino a qualche centinaio di variabili! IVDM 2003

  44. rosuda Riassumendo….. I dati sono “problematici” I dati nascondono iformazione Non esiste il miglior metodo in Assoluto Visualizzazione ed Interattivitá sono strumenti innovativi, di grande utilitá ed interesse scientifico IVDM 2003

  45. rosuda Come li rappresentereste? • Number of Observations: • A few • Many • Kind of Observations: • Categorical • Continuous • Number of Variables: • One-two • A few • Many • Infinite Scatterplot Trellis Display Barchart Mosaic Plot Parallel Coordinate IVDM 2003

  46. rosuda Rosuda: analisi interattiva per ogni tipo di dati • Soluzioni Interattive differenziate ed Ottimali • Design Consistente • Buon CHI • Gamma di soluzioni tale da consentire una completa EDA • Ottimizzazione delle risorse informatiche e delle tecniche statistiche IVDM 2003

  47. rosuda No Conclusion, c´è ancora parecchio da fare! Commenti? Consigli? Domande? bibliografia: http://stats.math.uni-augsburg.de IVDM 2003

More Related