460 likes | 596 Views
rosuda. Software e Grafici Interattivi per il Visual Data Mining. IVDM 2003. rosuda. Software Commerciali per il Data Mining. AIM distribuito da AbTech AUTOCLASS distribuito da NASA
E N D
rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003
rosuda Software Commerciali per il Data Mining AIM distribuito da AbTech AUTOCLASS distribuito da NASA CLEMENZINE distribuito da SPSS Database Mining distribuito da HNC Datalogic/R distribuito da Reduct Syst Information Harvesting distribuito da Ryan Ass Intelligent Miner distribuito da IBM IXL/IDIS distribuito da IntelligWare KnowledgeSeeker distribuito da FirstMarkTechn NEXTRA distribuito da Neuron Data PC-MARS distribuito da Data Patterns RECON for Data Mining distribuito da Lockheed IVDM 2003
rosuda Software Commerciali per il Data Mining: CLEMENTINE- SPSS IVDM 2003
rosuda Software Commerciali per il Data Mining: ROSETTA IVDM 2003
rosuda Software Commerciali per il Data Mining: STATISTICA The most part of statistical software for Data Mining try to give a suitable final graphical representation of applied models IVDM 2003
rosuda Software per il Data Mining: considerazioni generali • Cosa dovrebbero fare? • Cosa fanno davvero? • Quali caratteristiche sono le piú rilevanti? • Come influisce la Visualizzazione sulla ricerca dell´Informazione? IVDM 2003
rosuda Il nostro Software per IVDM: The Rosuda`s Impressionistes IVDM 2003
rosuda Interactive Visual Data Mining: Implementazione **Graphics manipulation = Data manipulation** Interazione condiziona non solo l´aspetto esteriore del display ma la sostanza dei dati! IVDM 2003
rosuda Fisher Grains Data Set • Produzione di Grano presso i Campi Broadbalk a Rothamsted • Fisher (1924) • La matrice di dati è stata transposta, di modo che ciascun anno corrisponda ad un diverso anno • 18 time series osservate annualmente per un periodo di 76 anni IVDM 2003
rosuda PC anche dati temporali IVDM 2003
rosuda Interactive Time Series IVDM 2003
rosuda …Collegare Tempo e Luogo IVDM 2003
rosuda …PC in generale e Mappe IVDM 2003
rosuda Maps, selezione e Mondrian IVDM 2003
rosuda Cos è una mappa Dati Geografici possono essere collocati in base alla vera referenza geografica IVDM 2003
rosuda The Crime dataset and the Criminal face Collegare le Mappe agli individui Da dove viene? Che tipo di criminale é? IVDM 2003
rosuda The Crime dataset and the Criminal face • Crime-Datatet: distribuito da JMP library, SAS • 7 tipi crimini • in 50 stati USA • in un anno IVDM 2003
rosuda Glyphs, per Individui Multidimensionali IVDM 2003
rosuda Fisher Iris dataset 4 misure (sepal width, sepal length, petal width, petal length) su 50 piante appartenti a 3 specie diverse. Andrews, D. F., and Herzberg, A.M. (1985). Data. New York: Springer p5-8 IVDM 2003
rosuda Glyphs per strutture IVDM 2003
rosuda Uomo o Donna? Setosa o Versicolor? Classificazione ed Alberi... IVDM 2003
rosuda Trees, Klimt ed R • Input: • -Tab spaces ASCII file • -Output of partition routine (rpart, cart, etc..) • Output: • -Interactive graphics • -Trees IVDM 2003
rosuda Interactive Trees IVDM 2003
rosuda Interattivitá in dettaglio: basic Instruments Linking: Variables or Individuals Querying: Different levels Selection: Single or Multiple Selection Hot Selection Scaling: according to specific parameters Zooming: Zoom or Logical Zoom Rotating Sorting: Automatical, Manual IVDM 2003
rosuda Linking: Variables Individuals
rosuda Querying: Different levels In Manet variables are querable!
rosuda Selection: Single or Multiple Selection Point selection Rectanngle selection Undo Logical operation on selected items Hot Selection
rosuda Scaling: according to specific parameters
rosuda Zooming: Zoom or Logical Zoom
rosuda Sorting: Automatical, Manual
rosuda Requisiti fondamentali dell´Interattivitá Buon CHI Intuitivitá Velocitá Software intgration IVDM 2003
rosuda Diversi concetti di Interattivitá IVDM 2003
rosuda Tornare sempre ai dati!! • Deve essere sempre chiaro o “chiaribile” quali dati stanno dietro ai grafici • La “Linked-Selection” offre diverse viste dei medesimi dati • I Dati devono essere facili da importare • Il formato dei dati deve essere il piú semplice possibile • Bassi livelli di manipolazione agiscono sui dati • Alti livelli di manipolaziono influenzano solo il display IVDM 2003
rosuda Quante taglie di dataset conosci? Tiny ??? Small ??? Large ??? Very Large ??? Huge ??? IVDM 2003
rosuda Definizioni di taglia... Tiny can be written on a blackboard 102 bytes Small fits on a few printed pages 104 bytes Medium fills a floppy disk 106 bytes Large fills a tape 108 bytes Huge requires many tapes 1010 bytes IVDM 2003
rosuda Prerequisiti computazionali • Potente Memoria • Buono sfruttamento della memoria • Buoni algoritmi • Alta qualitá delle immagini • Importabilitá IVDM 2003
rosuda Prerequisiti Grafici Visualizzazioni non dipendenti dalla Taglia Buoni Algoritmi Buone Implementazioni Interactivitá Interfaccia intuitiva e chiara Analisi oggettive o soggettive??? IVDM 2003
rosuda Large dataset Exploration: The Bank Dataset Dataset finanziario ottenuto da una banca tedesca Dati raccolti per ragioni tecniche senza alcuno scopo speciale Passati agli analisti per scoprire i fattori che influenzano maggiormente le transazioni Consiste di piú di 600,000 transactions in 24 variabili (80 Mb ca.) IVDM 2003
rosuda Amount vs. Profit Le dimensioni rappresentate sono influenzate dai valori minimi e massimi rilevati Spesso si tratta di outliers IVDM 2003
rosuda Amount vs. Profit Non è effetto di uno Zoom! L´immagine è stata riparametrizzata I valori anomali sono stati tagliati IVDM 2003
rosuda Amount vs. Profit: Cluster? Non nel senso classico… Tuttavia speciali relazioni fra i dati sono identificabili e ragionevolmente giustificabili IVDM 2003
rosuda Informazioni o “Informatione” ??? L´Informazione ottenuta dai dati è molto piú che la semplice giustapposizione di singoli dettagli o la somma di singole informazioni IVDM 2003
rosuda Una schematica “Classificazione” dei dati • Number of Observations: • A few • Many • Kind of Observations: • Categorical • Continuous • Number of Variables: • One-two • A few • Many • Infinite IVDM 2003
rosuda Come li rappresentereste? • Number of Observations: • A few • Many • Kind of Observations: • Categorical • Continuous • Number of Variables: • One-two • A few • Many • Infinite Scatterplot Trellis Display Barchart Mosaic Plot Parallel Coordinate IVDM 2003
rosuda Rosuda: analisi interattiva per ogni tipo di dati • Soluzioni Interattive differenziate ed Ottimali • Design Consistente • Buon CHI • Gamma di soluzioni tale da consentire una completa EDA • Ottimizzazione delle risorse informatiche e delle tecniche statistiche IVDM 2003
rosuda No Conclusion, c´è ancora parecchio da fare! Commenti? Consigli? Domande? bibliografia http://stats.math.uni-augsburg.de IVDM 2003