1 / 25

Efficient Top-k Query Evaluation on Probabilistic Data

Efficient Top-k Query Evaluation on Probabilistic Data. Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington. Presentazione di: Giacomo Aceto, Michele Dinardo, Vito La Porta Relatore: Michele Dinardo. Visione di alto livello. DBMS: risposte esatte su dati precisi

Télécharger la présentation

Efficient Top-k Query Evaluation on Probabilistic Data

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto, Michele Dinardo, Vito La Porta Relatore: Michele Dinardo

  2. Visione di alto livello • DBMS: risposte esatte su dati precisi • I dati sono spesso imprecisi • Match tra oggetti di database diversi • Dati estratti automaticamente da testi • Database probabilistici gestiscono l’imprecisione • La valutazione delle query SQL è NP-completa • Molte risposte dovute a improbabili corrispondenze • Utente interessato alle risposte di alta qualità Efficiente Top-k, ordinato per probabilità Efficient Top-k Query Evaluation on Probabilistic Data

  3. Overview • Esempio motivante e nozioni di base • Multisimulazione • Risultati sperimentali Efficient Top-k Query Evaluation on Probabilistic Data

  4. Scenario Recensioni In quali anni Anthony Hopkins è apparso in film con alta votazione? Sul web ci sono molte recensioni • Grande interesse per i dati riguardanti film (attori, registi, ecc) • Dati ben mantenuti e precisi • Ma mancano le recensioni… Quali attori di Pulp Fiction sono apparsi in due film scarsi nei cinque anni precedenti a Pulp Fiction? Come faccio a sapere a quali film si riferiscono? Alice necessita di fare estrazione e riconciliazione di dati Un database probabilistico può aiutare Alice a memorizzare e interrogare i suoi dati incerti IMDB Alice necessita di analisi di confidenza Efficient Top-k Query Evaluation on Probabilistic Data

  5. Riconciliazione di dati asin Title Recensioni di Amazon a282 12 Monkeys a845 Mokey Love asin mid p a282 m897 0.5 Tabella di match che cattura l’incertezza a282 m389 0.4 a282 m656 0.1 a845 m897 0.3 mid Title a845 m845 0.3 m897 Twelve Monkeys Dati di IMDB m389 Twelve Monkeys (1995) m656 Monk [ACG02], [CGG03] e [HS95] per score di similarità automatizzati m845 Love Story Efficient Top-k Query Evaluation on Probabilistic Data

  6. Tuple come variabili booleane • Associamo variabili booleane alle tuple Ogni istruzione SQL costruisce un’espressione di variabili booleane, secondo l’algebra relazionale probabilistica ([FR97]) Efficient Top-k Query Evaluation on Probabilistic Data

  7. Cenni alla Selezione Efficient Top-k Query Evaluation on Probabilistic Data

  8. Cenni al Prodotto Incrociato Efficient Top-k Query Evaluation on Probabilistic Data

  9. Cenni alla Proiezione Efficient Top-k Query Evaluation on Probabilistic Data

  10. Formule DNF su Tuple • Obiettivo: ottenere una formula DNF E qui entrano in gioco gli algoritmi approssimativi... Ma DNF SAT è NP-completo... Efficient Top-k Query Evaluation on Probabilistic Data

  11. Metodo Monte Carlo: intuizione Come calcolare la superficie del lago? Superficie terreno = 1000 m² X colpi di cannone N numero palle cadute sulla terra … Efficient Top-k Query Evaluation on Probabilistic Data

  12. Algoritmo di Luby-Karp [LK84] • Dopo N passi di simulazione garantisce, con alta probabilità, che: La simulazione riduce l’incertezza Incertezza sulla probabilità 0.0 1.0 Efficient Top-k Query Evaluation on Probabilistic Data

  13. Simulazione Naive • Per ogni tupla candidata, applica l’algoritmo di Luby-Karp fino a quando l’intervallo non raggiunge un’ampiezza prefissata ε (N libero). 0.0 1.0 ε 1 4 Christopher Walken ε 2 Samuel L. Jackson 3 Harvey Keitel Bruce Willis Efficient Top-k Query Evaluation on Probabilistic Data

  14. Analisi della Simulazione Naive Non è proprio il meglio che possiamo avere... Esempio: • i = 4 • k = 2 ε troppo piccolo ε troppo grande Efficient Top-k Query Evaluation on Probabilistic Data

  15. Overview • Esempio motivante e nozioni di base • Multisimulazione • Risultati sperimentali Efficient Top-k Query Evaluation on Probabilistic Data

  16. Multisimulazione • k-separazione: esiste un insieme T di k intervalli tale che nessuno di essi è annidato ad un intervallo non appartenente a T. Es.: k = 2 T Christopher Walken Samuel L. Jackson Harvey Keitel Bruce Willis Efficient Top-k Query Evaluation on Probabilistic Data

  17. Idea chiave: Regione Critica • Ad ogni passo, la regione critica è l’intervallo: Es.: k = 2 Mitico!!! ...otteniamo la k-separazione Quando la ragione critica diventa vuota... Efficient Top-k Query Evaluation on Probabilistic Data

  18. Algoritmo MS_TopK Efficient Top-k Query Evaluation on Probabilistic Data

  19. Algoritmo MS_RankK • Algoritmo ricorsivo che classifica le top-k tuple 1 Es.: k = 2 2 Efficient Top-k Query Evaluation on Probabilistic Data

  20. Overview • Esempio motivante e nozioni di base • Multisimulazione • Risultati sperimentali Efficient Top-k Query Evaluation on Probabilistic Data

  21. Dettagli sull’esperimento Amazon IMDB Recensioni Attori Film Efficient Top-k Query Evaluation on Probabilistic Data

  22. Tempo di esecuzione In quali anni Anthony Hopkins è apparso in film con alta votazione? • Il metodo naive impiega circa 20 minuti • La multisimulazione ha tempi di risposta nettamente migliori Efficient Top-k Query Evaluation on Probabilistic Data

  23. Numero Totale di Simulazioni Quali attori di Pulp Fiction sono apparsi in due film scarsi nei cinque anni precedenti a Pulp Fiction? • RankK trae benefici da valori bassi di k; • Per TopK il numero di step è indipendente da k; Efficient Top-k Query Evaluation on Probabilistic Data

  24. Conclusioni • OPT: • Algoritmo non deterministico ottimale che conosce il numero di passi da simulare • Confronto con OPT: • La multisimulazione compie al più il doppio dei passi di simulazione rispetto a OPT • Nessun algoritmo deterministico è migliore su ogni istanza • Estensione: • Algoritmo any-time per l’ordinamento Efficient Top-k Query Evaluation on Probabilistic Data

  25. E se non ci sono domande... grazie per l’attenzione Efficient Top-k Query Evaluation on Probabilistic Data

More Related