Basi di dati multimediali

Basi di dati multimediali

Basi di dati multimediali • Nuove applicazioni richiedono la rappresentazione e la gestione di dati non tradizionali: • testi arbitrari • immagini • audio • video • dati tradizionali (relazionali, orientati ad oggetti)

Basi di dati multimediali • Un sistema di gestione dati multimediali (MMDBMS) permette la rappresentazione e la gestione di diversi tipi di dati, potenzialmente rappresentati secondo diversi formati • Un MMDBMS deve permettere di: • rappresentare dati corrispondenti a diverse tipologie di media • interrogare dati rappresentati in formati diversi in modo uniforme • interrogare dati in formati diversi simultaneamente nel contesto della stessa query • recuperare gli oggetti dal supporto su cui risiedono, compatibilmente con il tipo di media che rappresentano

MMDBMS: aspetti da considerare • Rappresentazione • i dati sono tipicamente non strutturati • si vuole analizzare il contenuto • come è possibile rappresentare il contenuto di un documento multimediale? • Come si fa a capire che un’immagine contiene una certa persona • Query • un linguaggio di query per MMDBMS deve avere caratteristiche particolari • query processing deve analizzare il contenuto degli oggetti

MMDBMS: aspetti da considerare • Memorizzazione: • quali supporti utilizzare? (dischi, CD-ROM, nastri) • che operazioni supportare: • non solo lettura/scrittura ma anche (video/audio) • playback • rewind • fast foward • pause • Indici: • come indicizzare gli oggetti multimediali? • Analizzeremo solo i primi due aspetti

Rappresentazione • Un oggetto multimediale in genere può essere composto da diversi sotto-oggetti, ciascuno relativo ad un particolare media • le relazioni tra oggetti e sotto-oggetti possono essere modellate utilizzando un approccio orientato ad oggetti o relazionale ad oggetti • rimane il problema di come rappresentare il contenuto di un oggetto corrispondente ad un singolo media

Rappresentazione • Nelle basi di dati relazionali ad oggetti, i dati multimediali vengono memorizzati secondo due distinte modalità: • internamente al sistema come valori non strutturati in campi LOB (Large Object) • esternamente al sistema, mantendo all’interno del DBMS solo il riferimento alla posizione del file

Rappresentazione DBMS Oggetto multimediale LOB Oggetto multimediale riferimento

Rappresentazione - LOB • Facilitano la memorizzazione di dati multimediali (documenti, immagini, audio, ecc.) • Possono contenere fino a 4GB di dati (di solito i RDBMS non vanno oltre 2-32KB) • Il DBMS non associa alcuna interpretazione a questi dati

Rappresentazione - LOB • Si distinguono in: • BLOB (Binary Large Object) • CLOB (Character Large Object) • Supportati da SQL-99 • Sono fisicamente memorizzati esternamente alle tabelle ma internamente al DB (comportamento transazionale)

Rappresentazione - ORDBMS • Gli ORDBMS forniscono inoltre nuovi tipi di dato complessi che supportano: • la rappresentazione del dato multimediale • nuovi metodi & operatori • metodi per l’ottimizzazione di interrogazioni

Rappresentazione - ORDBMS • Illustra/Informix  DataBlade • IBM  Database Extender • Oracle  Oracle Intermedia • Librerie fornite da terze parti

Rappresentazione • In entrambe le soluzioni di rappresentazione introdotte, gli oggetti sono completamente non strutturati • per poterli interrogare in modo ragionevole, è necessario sovraimporre a ciascun oggetto una rappresentazione concettuale • la rappresentazione concettuale è costituita da un insieme di dati strutturati che descrivono l’oggetto multimediale (surrogato) dal punto di vista della struttura e del contenuto semantico • ogni oggetto dello stesso tipo sarà descritto dallo stesso tipo di surrogato • il surrogato del documento non descrive pienamente il contenuto informativo del documento ma costituisce una sua sintesi • i surrogati rappresentano gli oggetti sui quali definire le tecniche di indice

Rappresentazione • Spesso il surrogato si ottiene associando a ciascun oggetto un insieme di attributi • due tipi di attributi: • descrittivi • associano informazioni descrittive (relazionali) a ciascun oggetto • vengono associati manualmente all’oggetto • content-based (anche chiamati features) • associano informazioni relative al contenuto • vengono estratti direttamente dal sistema • entrambi i tipi di attributi si possono interpretare come una sorta di metadati • i metadati associati ad un documento multimediale dipendono dal tipo di media considerato

Esempio Attributi descrittivi nome: Villa Medici località:Roma Features: forma:

Rappresentazione Generazione metadati (automatica + manuale) Oggetti multimediali Features + attributi I sistemi mettono a disposizione funzionalità per estrarre feature e per utilizzare tali feature nel contesto delle interrogazioni

Rappresentazione • Conseguenza • i documenti multimediali potranno essere confrontati solo rispetto agli attributi e alle feature • feature uguali non sempre si riferiscono ad oggetti uguali • Esempio si puo’ riferire sia ad una villa che ad un’industria

Query • Due aspetti • definizione caratteristiche linguaggio di interrogazione • query processing • è necessario stabilire: • approccio generale all’esecuzione delle query • aspetti che devono essere supportati

Generazione metadati 2 1 3 Meccanismo di interrogazione Idea di base query processing • La query viene eseguita sui metadati (attributi + features) • dai metadati si risale ai documenti originali • i documenti originali vengono restituiti all’utente Features + attributi Oggetti multimediali

Aspetti da supportare • Le query devono potere essere eseguite su diversi tipi di media contemporaneamente • devono considerare attributi e features • devono supportare query per similitudine • devono associare un valore di rilevanza ad ogni oggetto restituito • devono poter essere pesate • devono supportare query spazio-temporali

Attributi e feature • Le query interrogano gli oggetti multimediali considerando gli attributi e le feature ad essi associati • Esempio: ritrova tutte le immagini di abitazioni importanti in Liguria • assumo di avere estratto le forme dalle immagini • assumo di avere associato informazione descrittiva (luogo, tipo abitazione)

Query per similitudine • Poiché il contenuto degli oggetti viene espresso attraverso features e poiché le feature non rappresentano pienamente il contenuto semantico di un oggetto, le condizioni di selezione sugli oggetti multimediali non sempre sono certe • ciò significa che le condizioni non sono in generale condizioni di uguaglianza ma di similitudine • le condizioni in genere sono verificate in una certa misura, data dalla similitudine tra ciò che stiamo cercando e ciò che abbiamo trovato

Query per similitudine • il linguaggio deve permettere di esprimere query di questo tipo • il query processing deve essere in grado di supportare tali tipi di query • Query: determina tutte le immagini in cui appare una certa persona, presente in una specifica foto • difficilmente verranno restituite tutte le immagini che contengono questa persona • molto probabilmente verranno trovate anche immagini in cui compaiono persone che, per qualche motivo (dipende dalle feature considerate) assomigliano alla persona cercata

Ranking • Una conseguenza della necessità di eseguire query per similitudine è quello di decidere i criteri di rilevanza di un oggetto rispetto ad una interrogazione: ranking • Il ranking è un ordinamento degli oggetti restituiti da una interrogazione che riflette il grado di rilevanza dei documenti rispetto all’interrogazione • I criteri per effettuare il ranking dipendono dal media considerato • Esempio: ritrova le 5 immagini in cui più probabilmente appare una certa persona, presente in una specifica foto • in questo modo, si aumenta la certezza del risultato

Query pesate • In alcuni casi può essere utile pesare le varie condizioni nel contesto di una query • questo permette di associare un livello di importanza alla condizione nel determinare la similarità degli oggetti • Esempio: determinare le immagini che • contengono una persona (0.7) • non contengono alberi (0.3) • la similarità viene pesata

Query spazio-temporali • Necessità di interrogare relazioni spazio-temporali esistenti tra gli oggetti • relazioni spaziali: associano le feature associate ad un oggetto da un punto di vista spaziale • importante per immagini/testo • in un’immagine, relaziono le forme che compaiono rispetto alla loro posizione (vicino, lontano, a destra, a sinistra) • in un testo, relaziono il contenuto (prima, dopo) • relazioni temporali: associano le feature associate ad un oggetto da un punto di vista temporale • importante per audio/video • sequenze audio/video: prima, dopo, subito prima, subito dopo, contemporaneamente

Due approcci alla specifica delle query • Si definisce un linguaggio di query • ad esempio, si estende SQL con condizioni specifiche da applicare ad oggetti multimediali • tipico DBMS estesi alla gestione di dati multimediali • query by example: • si fornisce un oggetto di esempio e si vogliono determinare tutti gli oggetti simili • esempio: si fornisce la fotografia del viso di una persona e si vogliono ritrovare tutti i visi simili • tipico di sistemi dedicati alla gestione di un solo tipo di media

Nel seguito ... • Considereremo due media: • testo • immagini • per ciascuno illustreremo • rappresentazione del contenuto • query in alcuni sistemi

Basi di dati testuali

Basi di dati testuali • E’ un database in grado di memorizzare, gestire ed interrogare documenti testuali non strutturati • L’obiettivo è di minimizzare il tempo necessario per localizzare le informazioni • I risultati di una interrogazione sono ordinati in ordine decrescente di rilevanza • Un documento è rilevante se l’utente che formula l’interrogazione giudica che il documento e l’interrogazione si riferiscono entrambi allo stesso argomento

Basi di dati testuali • L’enfasi è sulla caratterizzazione dei requisiti informativi dell’utente • Ritrova tutti i documenti che contengono informazioni sulle squadre di tennis dei college americani che (1) hanno partecipato al torneo NCAA e (2) contengono informazioni sull’allenatore della squadra

Basi di dati testuali • I database di testi sfruttano tecniche sviluppate per i sistemi di Information Retrieval (IR) • L’ambito dell’IR ha prodotto negli ultimi 20 anni: • Modelli per la rappresentazione di documenti • Architetture e linguaggi • Interfacce e metodi di visualizzazione • Nonostante questo l’area dell’IR è sempre stata di interesse limitato

Basi di dati testuali • L’avvento del Web ha cambiato le cose: • È un repository universale di conoscenza • Accesso universale a costi ridotti • Nessuna autorità centrale • Il Web ha però introdotto nuove problematiche (ad es. bassa qualità di definizione e struttura delle informazioni): le tecniche di IR sono viste come una chiave per trovare le soluzioni

Basi di dati testuali • Lo scopo è di reperire tutti e soli quei documenti che interessano l’utente • Un sistema con tali caratteristiche non può però essere realizzato in pratica • Per tale motivo si valuta un sistema tanto più efficiente quanto più e’ in grado di avvicinarsi a tale requisito

Basi di dati testuali • Due criteri di valutazione: • precisione (precision) • richiamo (recall)

Valutazione di una Interrogazione Rilevanti Non restituiti Rilevanti Restituiti Non rilevanti restituiti Non rilevanti Non restituiti Documenti contenuti nel database

Richiamo • Il potere di richiamo è la percentuale di documenti rilevanti restituiti rispetto al totale di documenti rilevanti presenti nel sistema Rilevanti Restituiti Richiamo = Totale Rilevanti

Richiamo • Il potere di richiamo ideale è uguale ad uno • In generale il potere di richiamo sarà un valore inferiore ad uno perché il numero di documenti pertinenti restituiti è inferiore al numero di documenti pertinenti presenti nel sistema

Precisione • La precisione è la percentuale di documenti rilevanti sul totale dei documenti restituiti Rilevanti Restituiti Precisione = Totale Restituiti

Precisione & Richiamo • La condizione ideale è avere il 100% di precisione e richiamo • In generale, aumentando il numero di documenti restituiti si aumenta il potere di richiamo a spese della precisione

Basi di dati testuali • Due problemi principali: • Sviluppo di tecniche efficienti per la rappresentazione dei documenti all’interno del sistema • Sviluppo di tecniche per la formulazione e l’esecuzione delle interrogazioni

Rappresentazione di documenti testuali

Modellazione Estrazione di feature Database

Modellazione • Nel caso di documenti testuali le feature sono i termini utilizzati come indici • Gli indici possono essere: • Una parola chiave o un insieme di parole chiave • Un insieme di concetti che caratterizzano il contenuto informativo del documento • sia i documenti che le interrogazioni vengono rappresentati in termini di feature

structure Full text Index terms Modellazione - determinazione termini indice Noun groups Manual indexing Docs stopwords stemming structure

Modellazione - determinazione termini indice • structure: struttura interna del documento (capitoli, sezioni, sottosezioni) • stopwords: articoli e congiunzioni • noun groups: si eliminano (o si raggruppano insieme ai sostantivi) aggettivi, avverbi, verbi • stemming: ci si riduce a radice comune (es. plurale, singolare)

Docs Index Terms doc match Ranking Information Need query Modellazione e query

Modellazione • Vedere il testo come un insieme di parole chiave è limitativo • Questo causa spesso insoddisfazione da parte dell’utente • Il problema è ulteriormente complicato dal fatto che spesso gli utenti non sono in grado di formulare interrogazioni che riflettono i loro requisiti informativi

Ranking • Uno dei problemi più critici è quello di decidere i criteri di rilevanza di un documento rispetto ad una interrogazione • Il ranking è un ordinamento dei documenti restituiti da una interrogazione che riflette il grado di rilevanza dei documenti rispetto all’interrogazione • I criteri per effettuare il ranking dipendono dal modello adottato per rappresentare i documenti (e di conseguenza anche le query)

Structured Models Non-Overlapping Lists Proximal Nodes Classic Models boolean vector probabilistic Browsing Flat Structure Guided Hypertext Modelli U s e r T a s k Retrieval: Adhoc Filtering Browsing

Basi di dati multimediali

Basi di dati multimediali

Presentation Transcript

Basi di Dati

Basi di dati

Basi di Dati

Basi di Dati

Basi di dati multimediali

Basi di dati

BASI DI DATI

BASI DI DATI

Basi di Dati

Basi di Dati

Basi di Dati

Basi di Dati

Basi di Dati

Basi di Dati

Basi di Dati

Basi di Dati

Basi di dati

Basi di Dati

Basi di Dati

Basi di dati

Basi di Dati

Basi di Dati