2.17k likes | 2.36k Views
Basi di dati multimediali. Basi di dati multimediali. Nuove applicazioni richiedono la rappresentazione e la gestione di dati non tradizionali: testi arbitrari immagini audio video dati tradizionali (relazionali, orientati ad oggetti). Basi di dati multimediali.
E N D
Basi di dati multimediali • Nuove applicazioni richiedono la rappresentazione e la gestione di dati non tradizionali: • testi arbitrari • immagini • audio • video • dati tradizionali (relazionali, orientati ad oggetti)
Basi di dati multimediali • Un sistema di gestione dati multimediali (MMDBMS) permette la rappresentazione e la gestione di diversi tipi di dati, potenzialmente rappresentati secondo diversi formati • Un MMDBMS deve permettere di: • rappresentare dati corrispondenti a diverse tipologie di media • interrogare dati rappresentati in formati diversi in modo uniforme • interrogare dati in formati diversi simultaneamente nel contesto della stessa query • recuperare gli oggetti dal supporto su cui risiedono, compatibilmente con il tipo di media che rappresentano
MMDBMS: aspetti da considerare • Rappresentazione • i dati sono tipicamente non strutturati • si vuole analizzare il contenuto • come è possibile rappresentare il contenuto di un documento multimediale? • Come si fa a capire che un’immagine contiene una certa persona • Query • un linguaggio di query per MMDBMS deve avere caratteristiche particolari • query processing deve analizzare il contenuto degli oggetti
MMDBMS: aspetti da considerare • Memorizzazione: • quali supporti utilizzare? (dischi, CD-ROM, nastri) • che operazioni supportare: • non solo lettura/scrittura ma anche (video/audio) • playback • rewind • fast foward • pause • Indici: • come indicizzare gli oggetti multimediali? • Analizzeremo solo i primi due aspetti
Rappresentazione • Un oggetto multimediale in genere può essere composto da diversi sotto-oggetti, ciascuno relativo ad un particolare media • le relazioni tra oggetti e sotto-oggetti possono essere modellate utilizzando un approccio orientato ad oggetti o relazionale ad oggetti • rimane il problema di come rappresentare il contenuto di un oggetto corrispondente ad un singolo media
Rappresentazione • Nelle basi di dati relazionali ad oggetti, i dati multimediali vengono memorizzati secondo due distinte modalità: • internamente al sistema come valori non strutturati in campi LOB (Large Object) • esternamente al sistema, mantendo all’interno del DBMS solo il riferimento alla posizione del file
Rappresentazione DBMS Oggetto multimediale LOB Oggetto multimediale riferimento
Rappresentazione - LOB • Facilitano la memorizzazione di dati multimediali (documenti, immagini, audio, ecc.) • Possono contenere fino a 4GB di dati (di solito i RDBMS non vanno oltre 2-32KB) • Il DBMS non associa alcuna interpretazione a questi dati
Rappresentazione - LOB • Si distinguono in: • BLOB (Binary Large Object) • CLOB (Character Large Object) • Supportati da SQL-99 • Sono fisicamente memorizzati esternamente alle tabelle ma internamente al DB (comportamento transazionale)
Rappresentazione - ORDBMS • Gli ORDBMS forniscono inoltre nuovi tipi di dato complessi che supportano: • la rappresentazione del dato multimediale • nuovi metodi & operatori • metodi per l’ottimizzazione di interrogazioni
Rappresentazione - ORDBMS • Illustra/Informix DataBlade • IBM Database Extender • Oracle Oracle Intermedia • Librerie fornite da terze parti
Rappresentazione • In entrambe le soluzioni di rappresentazione introdotte, gli oggetti sono completamente non strutturati • per poterli interrogare in modo ragionevole, è necessario sovraimporre a ciascun oggetto una rappresentazione concettuale • la rappresentazione concettuale è costituita da un insieme di dati strutturati che descrivono l’oggetto multimediale (surrogato) dal punto di vista della struttura e del contenuto semantico • ogni oggetto dello stesso tipo sarà descritto dallo stesso tipo di surrogato • il surrogato del documento non descrive pienamente il contenuto informativo del documento ma costituisce una sua sintesi • i surrogati rappresentano gli oggetti sui quali definire le tecniche di indice
Rappresentazione • Spesso il surrogato si ottiene associando a ciascun oggetto un insieme di attributi • due tipi di attributi: • descrittivi • associano informazioni descrittive (relazionali) a ciascun oggetto • vengono associati manualmente all’oggetto • content-based (anche chiamati features) • associano informazioni relative al contenuto • vengono estratti direttamente dal sistema • entrambi i tipi di attributi si possono interpretare come una sorta di metadati • i metadati associati ad un documento multimediale dipendono dal tipo di media considerato
Esempio Attributi descrittivi nome: Villa Medici località:Roma Features: forma:
Rappresentazione Generazione metadati (automatica + manuale) Oggetti multimediali Features + attributi I sistemi mettono a disposizione funzionalità per estrarre feature e per utilizzare tali feature nel contesto delle interrogazioni
Rappresentazione • Conseguenza • i documenti multimediali potranno essere confrontati solo rispetto agli attributi e alle feature • feature uguali non sempre si riferiscono ad oggetti uguali • Esempio si puo’ riferire sia ad una villa che ad un’industria
Query • Due aspetti • definizione caratteristiche linguaggio di interrogazione • query processing • è necessario stabilire: • approccio generale all’esecuzione delle query • aspetti che devono essere supportati
Generazione metadati 2 1 3 Meccanismo di interrogazione Idea di base query processing • La query viene eseguita sui metadati (attributi + features) • dai metadati si risale ai documenti originali • i documenti originali vengono restituiti all’utente Features + attributi Oggetti multimediali
Aspetti da supportare • Le query devono potere essere eseguite su diversi tipi di media contemporaneamente • devono considerare attributi e features • devono supportare query per similitudine • devono associare un valore di rilevanza ad ogni oggetto restituito • devono poter essere pesate • devono supportare query spazio-temporali
Attributi e feature • Le query interrogano gli oggetti multimediali considerando gli attributi e le feature ad essi associati • Esempio: ritrova tutte le immagini di abitazioni importanti in Liguria • assumo di avere estratto le forme dalle immagini • assumo di avere associato informazione descrittiva (luogo, tipo abitazione)
Query per similitudine • Poiché il contenuto degli oggetti viene espresso attraverso features e poiché le feature non rappresentano pienamente il contenuto semantico di un oggetto, le condizioni di selezione sugli oggetti multimediali non sempre sono certe • ciò significa che le condizioni non sono in generale condizioni di uguaglianza ma di similitudine • le condizioni in genere sono verificate in una certa misura, data dalla similitudine tra ciò che stiamo cercando e ciò che abbiamo trovato
Query per similitudine • il linguaggio deve permettere di esprimere query di questo tipo • il query processing deve essere in grado di supportare tali tipi di query • Query: determina tutte le immagini in cui appare una certa persona, presente in una specifica foto • difficilmente verranno restituite tutte le immagini che contengono questa persona • molto probabilmente verranno trovate anche immagini in cui compaiono persone che, per qualche motivo (dipende dalle feature considerate) assomigliano alla persona cercata
Ranking • Una conseguenza della necessità di eseguire query per similitudine è quello di decidere i criteri di rilevanza di un oggetto rispetto ad una interrogazione: ranking • Il ranking è un ordinamento degli oggetti restituiti da una interrogazione che riflette il grado di rilevanza dei documenti rispetto all’interrogazione • I criteri per effettuare il ranking dipendono dal media considerato • Esempio: ritrova le 5 immagini in cui più probabilmente appare una certa persona, presente in una specifica foto • in questo modo, si aumenta la certezza del risultato
Query pesate • In alcuni casi può essere utile pesare le varie condizioni nel contesto di una query • questo permette di associare un livello di importanza alla condizione nel determinare la similarità degli oggetti • Esempio: determinare le immagini che • contengono una persona (0.7) • non contengono alberi (0.3) • la similarità viene pesata
Query spazio-temporali • Necessità di interrogare relazioni spazio-temporali esistenti tra gli oggetti • relazioni spaziali: associano le feature associate ad un oggetto da un punto di vista spaziale • importante per immagini/testo • in un’immagine, relaziono le forme che compaiono rispetto alla loro posizione (vicino, lontano, a destra, a sinistra) • in un testo, relaziono il contenuto (prima, dopo) • relazioni temporali: associano le feature associate ad un oggetto da un punto di vista temporale • importante per audio/video • sequenze audio/video: prima, dopo, subito prima, subito dopo, contemporaneamente
Due approcci alla specifica delle query • Si definisce un linguaggio di query • ad esempio, si estende SQL con condizioni specifiche da applicare ad oggetti multimediali • tipico DBMS estesi alla gestione di dati multimediali • query by example: • si fornisce un oggetto di esempio e si vogliono determinare tutti gli oggetti simili • esempio: si fornisce la fotografia del viso di una persona e si vogliono ritrovare tutti i visi simili • tipico di sistemi dedicati alla gestione di un solo tipo di media
Nel seguito ... • Considereremo due media: • testo • immagini • per ciascuno illustreremo • rappresentazione del contenuto • query in alcuni sistemi
Basi di dati testuali • E’ un database in grado di memorizzare, gestire ed interrogare documenti testuali non strutturati • L’obiettivo è di minimizzare il tempo necessario per localizzare le informazioni • I risultati di una interrogazione sono ordinati in ordine decrescente di rilevanza • Un documento è rilevante se l’utente che formula l’interrogazione giudica che il documento e l’interrogazione si riferiscono entrambi allo stesso argomento
Basi di dati testuali • L’enfasi è sulla caratterizzazione dei requisiti informativi dell’utente • Ritrova tutti i documenti che contengono informazioni sulle squadre di tennis dei college americani che (1) hanno partecipato al torneo NCAA e (2) contengono informazioni sull’allenatore della squadra
Basi di dati testuali • I database di testi sfruttano tecniche sviluppate per i sistemi di Information Retrieval (IR) • L’ambito dell’IR ha prodotto negli ultimi 20 anni: • Modelli per la rappresentazione di documenti • Architetture e linguaggi • Interfacce e metodi di visualizzazione • Nonostante questo l’area dell’IR è sempre stata di interesse limitato
Basi di dati testuali • L’avvento del Web ha cambiato le cose: • È un repository universale di conoscenza • Accesso universale a costi ridotti • Nessuna autorità centrale • Il Web ha però introdotto nuove problematiche (ad es. bassa qualità di definizione e struttura delle informazioni): le tecniche di IR sono viste come una chiave per trovare le soluzioni
Basi di dati testuali • Lo scopo è di reperire tutti e soli quei documenti che interessano l’utente • Un sistema con tali caratteristiche non può però essere realizzato in pratica • Per tale motivo si valuta un sistema tanto più efficiente quanto più e’ in grado di avvicinarsi a tale requisito
Basi di dati testuali • Due criteri di valutazione: • precisione (precision) • richiamo (recall)
Valutazione di una Interrogazione Rilevanti Non restituiti Rilevanti Restituiti Non rilevanti restituiti Non rilevanti Non restituiti Documenti contenuti nel database
Richiamo • Il potere di richiamo è la percentuale di documenti rilevanti restituiti rispetto al totale di documenti rilevanti presenti nel sistema Rilevanti Restituiti Richiamo = Totale Rilevanti
Richiamo • Il potere di richiamo ideale è uguale ad uno • In generale il potere di richiamo sarà un valore inferiore ad uno perché il numero di documenti pertinenti restituiti è inferiore al numero di documenti pertinenti presenti nel sistema
Precisione • La precisione è la percentuale di documenti rilevanti sul totale dei documenti restituiti Rilevanti Restituiti Precisione = Totale Restituiti
Precisione & Richiamo • La condizione ideale è avere il 100% di precisione e richiamo • In generale, aumentando il numero di documenti restituiti si aumenta il potere di richiamo a spese della precisione
Basi di dati testuali • Due problemi principali: • Sviluppo di tecniche efficienti per la rappresentazione dei documenti all’interno del sistema • Sviluppo di tecniche per la formulazione e l’esecuzione delle interrogazioni
Modellazione Estrazione di feature Database
Modellazione • Nel caso di documenti testuali le feature sono i termini utilizzati come indici • Gli indici possono essere: • Una parola chiave o un insieme di parole chiave • Un insieme di concetti che caratterizzano il contenuto informativo del documento • sia i documenti che le interrogazioni vengono rappresentati in termini di feature
structure Full text Index terms Modellazione - determinazione termini indice Noun groups Manual indexing Docs stopwords stemming structure
Modellazione - determinazione termini indice • structure: struttura interna del documento (capitoli, sezioni, sottosezioni) • stopwords: articoli e congiunzioni • noun groups: si eliminano (o si raggruppano insieme ai sostantivi) aggettivi, avverbi, verbi • stemming: ci si riduce a radice comune (es. plurale, singolare)
Docs Index Terms doc match Ranking Information Need query Modellazione e query
Modellazione • Vedere il testo come un insieme di parole chiave è limitativo • Questo causa spesso insoddisfazione da parte dell’utente • Il problema è ulteriormente complicato dal fatto che spesso gli utenti non sono in grado di formulare interrogazioni che riflettono i loro requisiti informativi
Ranking • Uno dei problemi più critici è quello di decidere i criteri di rilevanza di un documento rispetto ad una interrogazione • Il ranking è un ordinamento dei documenti restituiti da una interrogazione che riflette il grado di rilevanza dei documenti rispetto all’interrogazione • I criteri per effettuare il ranking dipendono dal modello adottato per rappresentare i documenti (e di conseguenza anche le query)
Structured Models Non-Overlapping Lists Proximal Nodes Classic Models boolean vector probabilistic Browsing Flat Structure Guided Hypertext Modelli U s e r T a s k Retrieval: Adhoc Filtering Browsing