High-Performance Querying on RAW Data: Efficient Database Management and Analysis Strategies

High-Performance Queryingon RAW data Anastasia Ailamaki EPFL

create a database to run queries RAW DATA FILES LOAD INTO DB REPORT RESULTS QUERY APPLICATIONS Source: “An Overview of Business Intelligence Technology”. S. Chaudhuri, U. Dayal, V. Narasayya. CACM August 2011 data-to-query time too long data “locked” in vendor private data: no move, no copy

run queries to create a database Relational DBMS MapReduce Engine Data Virtualization and Harmonization … Enterprise Search Engine … External Data Sources Operational Databases … Reporting Server Spreadsheet invest only in interesting data

easy for you to say • No ETL • Declarative querying is king • Complex data: tables; arrays; hierarchies • large-scale vertical integration • Flexibility: multiple file formats; no static schemas; … • Efficiency!

Higgs analysis with RAW SELECT event.jet… FROM goodruns.CSV, atlas001.root WHERE csv.RunNumber == root.RunNumber AND root.EF_2mu13 == TRUE AND … join scan csv filter scan root Code Generate the Access Paths Code Generate the Query ROOT CSV Build Position and Data Caches … containing “good” run numbers RAW is 100x faster … containing physics events

High-Performance Querying on RAW Data: Efficient Database Management and Analysis Strategies

High-Performance Querying on RAW Data: Efficient Database Management and Analysis Strategies

Presentation Transcript

High Performance, Virtualized Data Center

High Performance Data Mining

High Performance Data Mining

Querying Encrypted Data

High Performance Data Mining On Multi-core systems

Raw Data

Guaranteed Performance While Querying Ever-Growing Data

Raw Data

Raw CTD data

On Querying Versions of Multiversion Data Warehouse

Raw data copy

Dimuon raw data

RAW DATA

Querying your data

StreamIt: High-Level Stream Programming on Raw

Raw Data engine

OUSD Raw Data

Raw Data Flows ...

Data Querying Website

Querying Encrypted Data

Data Querying Website

Raw data analysis