330 likes | 499 Views
Data Storage System (DSS). Toolkit di importazione , archiviazione e interrogazione per dati meteorologici in formato eterogeneo. Soggetto promotore : Università di Napoli “Parthenope”, Facoltà di Scienze e Tecnologie, Corso di Laurea in Informatica. Il problema.
E N D
Data Storage System (DSS) Toolkit di importazione, archiviazione e interrogazione per dati meteorologici in formatoeterogeneo • Soggetto promotore: Università di Napoli “Parthenope”, Facoltà di Scienze e Tecnologie, Corso di Laurea in Informatica
Il problema I dati provenienti da diversi tipi di strumentazioni per la misurazione di eventi meteorologici sono memorizzati in formati eterogenei... Come fare per integrarli, analizzarli e confrontarli??? Data Storage System: il problema
Il problema (cont) Cosa vuol dire avere differenti tipi di file da analizzare e confrontare?? Prendiamo in analisi il tipo più comune: ASCII Data Storage System: il problema
Il problema (cont) • Dati in formato ASCII • È possibile avere molteplici formattazioni e per ognuna di esse possono variare: • Le regole del file: • Quali informazioni contiene? • Dove si trovano? • Quali sono le informazioni sempre presenti? • Quali quelle opzionali? • La formattazione del file: • Quali separatori sono utilizzati? • Qual è la codifica del file? (iso-????, utf8, latin8) • Le unità di misura del file: • Le unità di misura sono espresse nel SI? Data Storage System: il problema
Due file ASCII a confronto Le regole e la formattazione non corrispondono … header body header body header body … i due file non sono direttamente confrontabili!
Due file ASCII a confronto (cont) Le unità di misura non corrispondono … … i due file non sono direttamente confrontabili! Data Storage System: il problema
La soluzione ... • Per risolvere il problema è necessario rielaborare i file! È utile suddividere la soluzione del problema in due fasi fondamentali: Raggruppamento 1. Evitare duplicazioni 2. Uniformare i formati 3. Centralizzare la gestione dati e gli accessi Presentazione 1. Ottimizzare le risorse di accesso ai dati 2. Semplificare/Uniformare la visualizzazione dei dati Data Storage System: la soluzione
La soluzione ... …due fasi fondamentali: Raggruppamento • Interpretare => individuare e riconoscere • Integrare => uniformare e centralizzare • Memorizzare Presentazione • Selezionare • Salvare • Visualizzare Data Storage System: interpretazione
Interpretazione Individuare il blocco Come individuiamo le informazioni? • In un file ASCII si possono individuare porzioni di testo (blocchi). • Ogni blocco può essere riconosciuto mediante una chiave alfanumerica univoca, che corrisponde alla prima riga del blocco stesso. • Se contiene informazioni di interesse, il blocco può contenere una o più tabelle. • File ASCII di uno stesso tipo possono contenere blocchi opzionali. Data Storage System: interpretare I blocchi
Interpretazione Individuare la tabella • Le tabelle raggruppano dati che godono delle medesime proprietà. • Esse sono individuate nel testo da una posizione (riga, colonna) relativa al blocco (porzione di file) a cui appartengono. • Possono essere orientate per righe o per colonne. • Possono contenere un solo record. Data Storage System: interpretare le tabelle
Interpretazione Individuare la tabella Chiave di Blocco_0 + Tabella_0 Tabella_1 Chiave di Blocco_1 Chiave di Blocco_2 Tabella_0 Tabella_1 Tabella_2 Chiave di Blocco_3 Tabella_0 Chiave di Blocco_4 Tabella_0
Interpretazione Riconoscere i dati • Quali informazioni si possono riconoscere in un file di testo? Come riconosciamo le informazioni? Data Storage System: riconoscere i dati
Interpretazione Riconoscere i dati Un dato (completo) è una 7-upla, (x, y, z, t, v, u, n), composta da 5 valori numerici reali e 2 stringhe alfa-numeriche. All'interno di uno stesso file, è possibile trovare dati per i quali non sono specificati tutti i campi (parametri, dati) in tabella. La 7-upla (39., 9., 2.0, 2008-04-08 11:32:10, 18, °C, Temperatura) dice che il giorno 8/aprile/2008, alle 11:32:10, nel punto a latitudine 39 deg N/longitudine 9 deg E/quota 2m, la temperatura misurava 18 °C Data Storage System: riconoscere i dati
Interpretazione Riconoscere i dati Nome dello strumento Parametri Nome o tipo di riga Dati Nome o tipo di riga Unità di misura Nome o tipo di colonna Dati Nome o tipo di riga Unità di misura Dati Nome o tipo di colonna Unità di misura Dati Parametro temporale relativo
La soluzione ... … due fasi fondamentali: Raggruppamento • Interpretare => individuare e riconoscere • Integrare => uniformare e centralizzare • Memorizzare Presentazione • Selezionare • Salvare • Visualizzare Data Storage System: intergrazione
Integrazione Uniformare i dati • Uniformare le unità di misura è una delle operazioni fondamentali per ottenere dati misurati in un unico sistema di riferimento (tipicamente il SistemaInternazionale). • A seguito della conversione è possibile confrontare direttamente i dati (dello stesso tipo) provenienti da diverse strumentazioni, quindi, potenzialmente espressi con diverse unità di misura. Data Storage System: integrazione
Integrazione Centralizzare i dati • Centralizzare i dati su un unico repository permette di: - ottimizzare la gestione, la manutenzione ed il backup - applicare restrizioni e specifiche politiche di accesso In tal modo si potranno ottimizzare le risorse necessarie alla memorizzazione dei dati. Data Storage System: centralizzazione
La soluzione ... … due fasi fondamentali: Raggruppamento • Interpretare => individuare e riconoscere • Integrare => uniformare e centralizzare • Memorizzare Presentazione • Selezionare • Salvare • Visualizzare Data Storage System: memorizzazione
Integrazione Memorizzare i dati Una volta interpretati e integrati, i dati vanno memorizzati in un formato standard. Come memorizzare in maniera sicura le informazioni? Qual è la scelta ideale per il formato di memorizzazione? La scelta ideale per questo tipo di applicazioni risulta essere certamente l'impiego di un database relazionale. Data Storage System: memorizzazione
La soluzione ... … due fasi fondamentali: Raggruppamento • Interpretare => individuare e riconoscere • Integrare => uniformare e centralizzare • Memorizzare Presentazione • Selezionare • Salvare • Visualizzare Data Storage System: selezione
Selezione dei dati • Una volta centralizzati i dati, bisogna fornire strumenti per selezionare le informazioni di interesse. In questo modo si potranno ottimizzare le risorse necessarie al singolo utente, limitando il trasferimento dei dati alle sole informazioni realmente necessarie. Data Storage System: selezioni
Selezione dei dati I database relazionali consentono ad utenti autorizzati di effettuare questa operazione, ottimizzando, per quanto possibile, l’esecuzione delle richieste. Purtroppo, il linguaggio utilizzato per specificare le richieste (SQL) non sempre risulta semplice da utilizzare e, per la maggioranza degli utenti, è poco conosciuto. Come facilitare il compito? Data Storage System: selezioni
La soluzione ... …due fasi fondamentali: Raggruppamento • Interpretare => individuare e riconoscere • Integrare => uniformare e centralizzare • Memorizzare Presentazione • Selezionare • Salvare • Visualizzare Data Storage System: visualizzazione
Visualizzare • Una volta selezionati i dati è necessario visualizzarli in qualche modo, dando così la possibilità di poterli analizzare. • Come è possibile visualizzare le informazioni contenute nel database? Data Storage System: visualizzazione
Data Storage SystemIl software • Tutte le operazioni analizzate possono essere gestite tramite il toolkit di gestione dei dati DSS. • Di quali strumenti software dispone??? Il software Data Storage System
Data Storage SystemIl toolkit: • Il Toolkit Data Storage System (DSS) è composto da due parti fondamentali: • DSS – server-software OpeNDAP DRDS in grado di riceverele richieste utente e fornire i dati memorizzati nel database. Consente inoltre di costruire ed eseguire query sui dati in base alle applicazioni di interesse. • DSS_C – client-software in Java di conversione dei dati da ASCII a XML o su DataBase. Il software Data Storage System
Data Storage System • Riepilogando: • DSS_C => Interpretare e integrare • Database => Memorizzare • DSS => Selezionare e salvare • Client (IDV, Octave) => Visualizzare Come individuiamo le informazioni? Come memorizzare in maniera sicura le informazioni? Qual è la scelta ideale per il formato di memorizzazione? Come selezionare i dati? Come visualizzare le informazioni del database? Il software Data Storage System
DSS • Schema dei casi d'uso del Toolkit DSS per: • - l'amministratore, che utilizza il DSS_C per inserire dati sul database, • - l'utentefinale, che invece li utilizza. Il software Data Storage System
Data Storage SystemLa visualizzazione geo/crono-referenziata Il software Data Storage System
Data Storage SystemLa visualizzazione 2D Velocità vento (m/s) Quota (m) Il software Data Storage System
Future works…… • Griglia di sistemi (Globus Toolkit 4) • Servizi di griglia (gridFTP) • Portale per gestione decentralizzata (Vine) • Interfaccia portlet (per DSS_C) • Integrazione del DSS su Hyrax • Data warehousing