1 / 46

rosuda

rosuda. Software e Grafici Interattivi per il Visual Data Mining. IVDM 2003. rosuda. Software Commerciali per il Data Mining. AIM distribuito da AbTech AUTOCLASS distribuito da NASA

elata
Download Presentation

rosuda

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003

  2. rosuda Software Commerciali per il Data Mining AIM distribuito da AbTech AUTOCLASS distribuito da NASA CLEMENZINE distribuito da SPSS Database Mining distribuito da HNC Datalogic/R distribuito da Reduct Syst Information Harvesting distribuito da Ryan Ass Intelligent Miner distribuito da IBM IXL/IDIS distribuito da IntelligWare KnowledgeSeeker distribuito da FirstMarkTechn NEXTRA distribuito da Neuron Data PC-MARS distribuito da Data Patterns RECON for Data Mining distribuito da Lockheed IVDM 2003

  3. rosuda Software Commerciali per il Data Mining: CLEMENTINE- SPSS IVDM 2003

  4. rosuda Software Commerciali per il Data Mining: ROSETTA IVDM 2003

  5. rosuda Software Commerciali per il Data Mining: STATISTICA The most part of statistical software for Data Mining try to give a suitable final graphical representation of applied models IVDM 2003

  6. rosuda Software per il Data Mining: considerazioni generali • Cosa dovrebbero fare? • Cosa fanno davvero? • Quali caratteristiche sono le piú rilevanti? • Come influisce la Visualizzazione sulla ricerca dell´Informazione? IVDM 2003

  7. rosuda Il nostro Software per IVDM: The Rosuda`s Impressionistes IVDM 2003

  8. rosuda Interactive Visual Data Mining: Implementazione **Graphics manipulation = Data manipulation** Interazione condiziona non solo l´aspetto esteriore del display ma la sostanza dei dati! IVDM 2003

  9. rosuda Fisher Grains Data Set • Produzione di Grano presso i Campi Broadbalk a Rothamsted • Fisher (1924) • La matrice di dati è stata transposta, di modo che ciascun anno corrisponda ad un diverso anno • 18 time series osservate annualmente per un periodo di 76 anni IVDM 2003

  10. rosuda PC anche dati temporali IVDM 2003

  11. rosuda Interactive Time Series IVDM 2003

  12. rosuda …Collegare Tempo e Luogo IVDM 2003

  13. rosuda …PC in generale e Mappe IVDM 2003

  14. rosuda Maps, selezione e Mondrian IVDM 2003

  15. rosuda Cos è una mappa Dati Geografici possono essere collocati in base alla vera referenza geografica IVDM 2003

  16. rosuda The Crime dataset and the Criminal face Collegare le Mappe agli individui Da dove viene? Che tipo di criminale é? IVDM 2003

  17. rosuda The Crime dataset and the Criminal face • Crime-Datatet: distribuito da JMP library, SAS • 7 tipi crimini • in 50 stati USA • in un anno IVDM 2003

  18. rosuda Glyphs, per Individui Multidimensionali IVDM 2003

  19. rosuda Fisher Iris dataset 4 misure (sepal width, sepal length, petal width, petal length) su 50 piante appartenti a 3 specie diverse. Andrews, D. F., and Herzberg, A.M. (1985). Data. New York: Springer p5-8 IVDM 2003

  20. rosuda Glyphs per strutture IVDM 2003

  21. rosuda Uomo o Donna? Setosa o Versicolor? Classificazione ed Alberi... IVDM 2003

  22. rosuda Trees, Klimt ed R • Input: • -Tab spaces ASCII file • -Output of partition routine (rpart, cart, etc..) • Output: • -Interactive graphics • -Trees IVDM 2003

  23. rosuda Interactive Trees IVDM 2003

  24. rosuda Interattivitá in dettaglio: basic Instruments Linking: Variables or Individuals Querying: Different levels Selection: Single or Multiple Selection Hot Selection Scaling: according to specific parameters Zooming: Zoom or Logical Zoom Rotating Sorting: Automatical, Manual IVDM 2003

  25. rosuda Linking: Variables Individuals

  26. rosuda Querying: Different levels In Manet variables are querable!

  27. rosuda Selection: Single or Multiple Selection Point selection Rectanngle selection Undo Logical operation on selected items Hot Selection

  28. rosuda Scaling: according to specific parameters

  29. rosuda Zooming: Zoom or Logical Zoom

  30. rosuda Sorting: Automatical, Manual

  31. rosuda Requisiti fondamentali dell´Interattivitá Buon CHI Intuitivitá Velocitá Software intgration IVDM 2003

  32. rosuda Diversi concetti di Interattivitá IVDM 2003

  33. rosuda Tornare sempre ai dati!! • Deve essere sempre chiaro o “chiaribile” quali dati stanno dietro ai grafici • La “Linked-Selection” offre diverse viste dei medesimi dati • I Dati devono essere facili da importare • Il formato dei dati deve essere il piú semplice possibile • Bassi livelli di manipolazione agiscono sui dati • Alti livelli di manipolaziono influenzano solo il display IVDM 2003

  34. rosuda Quante taglie di dataset conosci? Tiny ??? Small ??? Large ??? Very Large ??? Huge ??? IVDM 2003

  35. rosuda Definizioni di taglia... Tiny can be written on a blackboard 102 bytes Small fits on a few printed pages 104 bytes Medium fills a floppy disk 106 bytes Large fills a tape 108 bytes Huge requires many tapes 1010 bytes IVDM 2003

  36. rosuda Prerequisiti computazionali • Potente Memoria • Buono sfruttamento della memoria • Buoni algoritmi • Alta qualitá delle immagini • Importabilitá IVDM 2003

  37. rosuda Prerequisiti Grafici Visualizzazioni non dipendenti dalla Taglia Buoni Algoritmi Buone Implementazioni Interactivitá Interfaccia intuitiva e chiara Analisi oggettive o soggettive??? IVDM 2003

  38. rosuda Large dataset Exploration: The Bank Dataset Dataset finanziario ottenuto da una banca tedesca Dati raccolti per ragioni tecniche senza alcuno scopo speciale Passati agli analisti per scoprire i fattori che influenzano maggiormente le transazioni Consiste di piú di 600,000 transactions in 24 variabili (80 Mb ca.) IVDM 2003

  39. rosuda Amount vs. Profit Le dimensioni rappresentate sono influenzate dai valori minimi e massimi rilevati Spesso si tratta di outliers IVDM 2003

  40. rosuda Amount vs. Profit Non è effetto di uno Zoom! L´immagine è stata riparametrizzata I valori anomali sono stati tagliati IVDM 2003

  41. rosuda Amount vs. Profit: Cluster? Non nel senso classico… Tuttavia speciali relazioni fra i dati sono identificabili e ragionevolmente giustificabili IVDM 2003

  42. rosuda Informazioni o “Informatione” ??? L´Informazione ottenuta dai dati è molto piú che la semplice giustapposizione di singoli dettagli o la somma di singole informazioni IVDM 2003

  43. rosuda Una schematica “Classificazione” dei dati • Number of Observations: • A few • Many • Kind of Observations: • Categorical • Continuous • Number of Variables: • One-two • A few • Many • Infinite IVDM 2003

  44. rosuda Come li rappresentereste? • Number of Observations: • A few • Many • Kind of Observations: • Categorical • Continuous • Number of Variables: • One-two • A few • Many • Infinite Scatterplot Trellis Display Barchart Mosaic Plot Parallel Coordinate IVDM 2003

  45. rosuda Rosuda: analisi interattiva per ogni tipo di dati • Soluzioni Interattive differenziate ed Ottimali • Design Consistente • Buon CHI • Gamma di soluzioni tale da consentire una completa EDA • Ottimizzazione delle risorse informatiche e delle tecniche statistiche IVDM 2003

  46. rosuda No Conclusion, c´è ancora parecchio da fare! Commenti? Consigli? Domande? bibliografia http://stats.math.uni-augsburg.de IVDM 2003

More Related