440 likes | 495 Vues
数据库技术在高能物理中的应用 马 梅 2001 年 6 月 7 日. ● 基本概念及术语 ● Objectivity/DB 简介 ● 数据库技术在高能物理中的应用 ● 结束语. 基本概念及术语. 数据库 DB ( Data Base ) 按一定组织方式存储在一起的相关数据的集合 为各种用户所共享 最小冗余度, 数据间联系密切, 有较高的数据独立性。. 数据库系统 DBS ( Data Base System ). 存储介质处理对象和管理系统的集合体,是实现有组织地、动态地存储大量相关联数据,方便多用户访问的计算机软件、硬件资源组成的计算机系统。
E N D
数据库技术在高能物理中的应用马 梅2001年6月7日 ● 基本概念及术语 ● Objectivity/DB简介 ● 数据库技术在高能物理中的应用 ● 结束语
基本概念及术语 数据库 DB(Data Base) 按一定组织方式存储在一起的相关数据的集合 为各种用户所共享 最小冗余度, 数据间联系密切, 有较高的数据独立性。
数据库系统DBS(Data Base System) • 存储介质处理对象和管理系统的集合体,是实现有组织地、动态地存储大量相关联数据,方便多用户访问的计算机软件、硬件资源组成的计算机系统。 • 广义讲,数据库系统是由数据库、计算机硬件、计算机软件和数据库管理系统四大部分组成。 • 狭义讲,数据库系统是由数据库、数据库管理系统和数据库管理员组成。
数据库管理系统DBMS(Data Base Management System) • 数据库系统的核心部分,管理数据的软件系统。 • 由三部分功能组成: 数据描述语言及其编译程序; 数据操作语言及其编译程序; 数据库管理实用程序。 • 完成对数据库的建立、查询、更新及各种数据控制。 • 基于某种数据模型,又分为层次数据库管理系统、网状数据库管理系统、关系数据库管理系统和对象数据库管理系统等。
对象关系数据库ORDB • 对象关系模型是新发展起来的一种数据模型,是关系模型和对象模型的一种融合。 • 通过增加面向对象程序设计语言的使用而实现的,很大程度上会导致与数据库管理系统软件失谐。 • 失谐原因是由于构建数据的方发与构建数据库方法不相同,程序员要写大量的程序,将程序中的数据写入数据库时要进行转换,同样将数据从数据库读出时,要写出程序所需要的数据形式。 • 其价值在于用户可以继续使用已有的系统,同时由可以并行使用面向对象系统。
面向对象模型object-oriented model • 基于对象概念的新型数据库模型,其研究起源于70年 代末80年代初。 • 目的是克服关系模型对某些数据类型的限制,关系数据库难于处理大数据量和复杂数据类型问题。 • 优势在于对系统低层控制的能力,赋予程序员具有控制数据如何被存储和操作的能力,比使用一般的SQL更有效。但增加了第三方厂商生产适于OODBMS产品的困难。 • 在OO模型中信息被存储为永久对象,而不是一个表中的行,因此可以用程序员指定的方式对数据进行操作,可以按需求保留磁盘空间。 • 不具有像SQL这样高级语言的支持 • 第一个OO模型的数据库商品软件诞生于80年代中期,到了90年代OODBMS软件才逐渐多起来。
面向对象数据库管理系统OODBMS • 建立在面向对象模型的基础之上 • 面向对象程序设计方法与数据库技术相结合的产物,用以支持非常规应用领域。 • 满足两大条件: ①支持一个面向对象数据模型内核; ②支持传统数据库的所有数据库成分,并为与面向对象数据类型内核语义一致,而作适当的语义扩充和修改。 • 向用户提供定义复杂数据结构和用户自定义数据类型的支持。提供将一个面向对象数据库转换成另一个同模式的面向对象数据库的操作。
分布式数据库distributed database • 逻辑上属于同一系统,而在物理上分布在计算机网络的不同结点上一组结构化的数据集合, • 分布式数据库强调两点: ① 数据分布性,即数据不是驻留在单一结点上,而是存储在各个网络结点上的局部数据库的集合; ② 数据间的逻辑联系,所有数据都具有将它们联系在一起的特性,网络中的每个结点都具有完成局部应用的自治处理能力,而每个结点也能参与执行至少一个通过通信系统存取多个结点上数据的全局应用。 • 建立在以局域网连接的一组工作站上,也可以建立在广域网的环境中。
分布式数据库(续一)distributed database • 分布式数据库有同构和异构之别 • 同构数据库(homogeneous database)是指每个结点上使用的相同的数据库管理系统并有相同的应用,有级别不同局部自治能力(local autonomy)。 • 异构数据库(heterogeneous database)具有很强的局部自治能力,每个节点都有自己的局部用户、数据、应用程序和数据处理能力,一个系统内可以不同的数据库管理系统组成,这种类型的分布式数据库也常联盟系统(federated system or a federation.)。由于它的可伸缩型和性价比变得越来越普及。
分布式数据库(续二)distributed database • 分布式数据库与集中式数据库主要区别在于: ① 极少强调或根本不存在任何形式的集中控制,而强调各个结点的高度自治性; ② 向用户提供数据的分布透明性,应用程序的编写就如同数据库在本地机上一样; ③ 分布式数据库允许存在数据冗余,以提高应用的局部性(应尽可能地在本地机执行),以及数据的可获得性。与研究集中式数据库技术时强调减少数据冗余不一样。
分布式数据库管理系统DDBMS (Distributed Data Base Management System) • 支持分布式数据库的建立和维护的软件系统。 • DDBMS由四个基本部分组成: ① 局部数据库管理系统,负责局部数据库的管理和维护; ② 数据通信子系统,负责各站点之间的数据通信; ③ 数据字典; ④ 分布数据管理子系统,按协议共同实现分布数据库的管理和用户应用程序的执行。
分布式数据库管理系统(续)DDBMS (Distributed Data Base Management System) • 主要功能: ① 实现应用程序对数据库的远程获取 ② 决定分布透明性的级别 ③ 支持数据库的管理和控制 ④ 管理事务的并发控制和恢复
多媒体数据库multimedia database • 由文本、图像、声频和视频等多种介质组织起来的数据库,也称为多介质数据库。 • 它与传统数据库的差异来自介质的多样性 • 把能够可以操作、管理和维护多种媒体形式数据库的软件系统称为多媒体数据库管理系统。由于文件大小以及数据类型的复杂性,多媒体数据库管理系统的开发面临很多困难。
事务transaction 数据库访问的一个不可再分割的单位,是一个应 用或一个应用的一部分。事务具有以下特征: ①一个事务要么被全部执行,要么完全不执行,当一个事务被不正常中断时,它执行的部分结果也要被取消; ②如果并发执行几个事务,其执行结果必须与以某种次序串行执行它们的结果相同; ③一个未完成事务不能在其提交前把结果暴露给其他事务。 ④一个事务提交(完成)后,事务的操作结果应永不丢失,且与后续发生的故障无关;
Objectivity/DB简介 • 关于Objectivity公司 • Objectivity/DB产品系列 • Objectivity/DB 性能 • Objectivity/DB体系结构 • ODBMS、RDBMS、ORDBMS性能比较
关于Objectivity公司 • Founded in 1988 Objectivity has emerged as the market leader in high-performance database engines for sophisticated applications. • As a founding member of ODMG Objectivity plays a leadership role in helping develop these future standards. • As a key role in the Object Management Group (OMG)
Objectivity/DB产品系列(续一) • Objectivity/DB Product Group • Objectivity/DB is the core database product . -providing database servers -a set of administrative tools. • Objectivity/FTO(Fault Tolerant Option) • Objectivity/ DRO (Data Replication Option) • Objectivity/IPLS(In-Process Lock Server) • Objectivity/OFS(Open File System) • Objectivity/DB Secure Framework
Objectivity/DB产品系列(续二) • Objectivity/C++ Product Group • Objectivity/C++ -provides a programming interface that is transparent to native C++ compilers. • Objectivity/DDL(Data Definition Language ) • Objectivity/C++ Active Schema • Objectivity/C++ STL (Standard Template Library) • Objectivity/C++ Spatial Index Framework
Objectivity/DB产品系列(续三) • Objectivity/JAVA - provides full support for Java • Objectivity/ Smalltalk - extends standard Smalltalk • - provides many classes and methods you can use when developing Smalltalk object database applications.
Objectivity/DB产品系列(续四) • Objectivity/SQL++ Product Group • Objectivity/SQL++ - full support of ANSI SQL1989 and entry level SQL 1992, partial support intermediate level SQL1992. - can embed SQL statements within a C++application. - applications can use standard SQL syntax to access and manipulate objects in Objectivity/DB database. - supports object extensions to SQL - supports stored procedures and triggers - provides an Objectivity/SQL++ ODBC Driver
Objectivity/DB性能 • is a distributed object database management system (ODBMS). • is ideal for applications that require complex data models. • supports large numbers of users • provides high-performance access to large volumes of physically distributed data. • manages data transparently to high-end applications.
Objectivity/DB性能(续一) • Its distributed database architecture provides scalability as well as performance. • supports client/server and mixed-tier application. • integrates easily with application software. • allows to directly store and manage objects through standard language interfaces, including C++、Java,、Smalltalk and SQL, using traditional programming techniques and tools.
Objectivity/DB性能(续二) • For 64-bit architectures: can access up to approximately 2 63 (or 10 19 ) bytes (10,000,000 terabytes) of data and up to 2 58 (or 10 17 ) objects. • For 32-bit machines,: can access up to 2 47 (or 10 14 ) bytes (100 terabytes) of data and up to 2 42 (or 10 13 ) objects. • Future releases of Objectivity/DB will expand the addressable space to the exabyte range.
Objectivity/DB性能(续三) • Scalable Architecture • Federation Concept • Data Replication with Autonomous Partitions • Full support for heterogeneous access • All Unix platforms (incl. Linux) and Windows/NT can transparently interoperate
数据库技术在高能物理中的应用 • CERN • SLAC • FERMI • KEK • DESY
CERN (CERN/IT/ASD ) • CERN/IT/ASD - Information Technology - DivisionApplication Software & Databases • Services provided by ASD Group 1.CERNLIB: CERN Program Library 2.PAW: Physics Analysis Workstation 3.GEANT: Detector Description and Simulation Tool 4. GEANT4:Object-Oriented Toolkit for Simulation in HEP 5.ORACLE: Central Database Support
CERN (CERN/IT/ASD续) • ASD Group Project • 1. LHC++: Libraries for HEP Computing. LHC++ proposes a high-level physics analysis environment for LHC-era experiments. It uses object technology, in particular C++. 2. RD45: A Persistent Object Manager for HEP
GEAN4 softwareCERN • Named RD44 project • a world-wide collaboration • about 100 scientists participating • more than 10 experiments in Europe, Russia, Japan, Canada and the United States. • Geant4 exploits advanced Software Engineering techniques and Object Oriented technology (OOA/OOD)
ORACLE 数据库CERN • Database technology first made an impact at CERN in 1982. • used for staff management、resource allocation and other functions • storage of calibration data by the L3 experiment first • with the LEP accelerator: • ACCIS( ACCelerator Information System) contains information about the accelerator • ABSS (Automated Beam Steering and Shaping) contains calibration data. • tapes information database • Technology Databasefor people outside CERN • The current license contract ends in 2003.
Objectivity/DBCERN • Objectivity/DB introduced by RD45 project in 1995 • with the needs of LHC. • Objectivity/DB was adopted as an evaluation of ODBMS technology. • After extensive testing it was brought into more wide spread use.
RD45 Project • Started in 1995 to find solutions to problems of LHC data management • Enormous data volumes & rates, project lifetime • Proposed solutions being adopted by current experiments • Objectivity/DB & HPSS
HEP Data Processing • “Raw” data: acquired or simulated • “Reconstructed” into tracks, energy clusters etc. • “Reduced” for statistical analysis ATLAS Detector 35 metres
Why an ODBMS? • Key requirements could not be met by language extensions, light-weight object managers • Strong requirement for consistent interface • “The ODMG language bindings are based on one fundamental principle: the programmer should perceive the binding as a single language for expressing both database and programming operations, not two separate languages with arbitrary boundaries between them.” • Use of an Objectivity/DB federation met our main requirements • Enhancements required but (apparently) sufficient flexibility in architecture to accommodate these
Why Objectivity/DB? • We looked at: • Poet, ObjectStore, Objectivity, O2 and Versant • Scalable Architecture • Federation Concept • Data Replication with Autonomous Partitions • Full support for heterogeneous access • All Unix platforms (incl. Linux) and Windows/NT can transparently interoperate • Language Bindings for C++ and Java • Efficient Implementation
The Large Hadron Collider • Lifetime: 2005-2025 (production) • ~2000 people, ~200 institutes, ~20 countries per experiment
CMS • General-purpose LHC experiment • Data rates of 100MB/second • Data volume of 1PB/year • Two test beams projects based on Objectivity successfully completed. • Database used in the complete chain:Test beam DAQ, Re-construction and Analysis
ALICE • Heavy ion experiment at LHC • Studying ultra-relativistic nuclear collisions • Relatively short running period • online 1 month/year • 1 PB/month • Extremely high data rates • 1.5GB/s
LHCb • Dedicated experiment looking for CP-violation in the B-meson system. • Lower data rates than other LHC experiments. • Total data volume around 400TB/year.
SLAC - BaBar • start taking data in 1999 • is used to store event, simulation, calibration and analysis data Expected amount 200TB/year • majority of storage managed by HPSS • Mock Data Challenge
FERMILab • Oracle Used by CDF and D0 Run II for Data Catalogs and storing of Calibration Information. MISCOMP(The Division Information Management System ) • Objectivity Used by SDSS and CMS • Public Domain Databases Used by small experiments • MS ACCESS Training classes available • MS SQL and MYSQL are in use
CERES/NA45 • Heavy ion experiment at the SPS • Study of e+e- pairs in relativistic nuclear collisions • Successful use of Objectivity/DB from a reconstruction farm (32 Meiko CS2 nodes) • Expect to write 30 TB of raw data during 30 days of data taking • Reconstructed and filtered data will be stored using the Objectivity production service.
COMPASS • to begin full data taking in 2000 • Some 300TB/year of raw data will be acquired at rates up to 35MB/s. • Analysis data to be stored on disk, requiring 3-20TB of disk space. • Some 50 concurrent users • Rely on the Objectivity production service at CERN
结束语 数据库技术的发展,使它成为现代信息技术的重要组成部分,成为现代计算机信息系统和计算机应用系统的基础和核心。在衡量一个国家的信息化的程度时,其数据库的建设规模、数据库信息量的大小和使用程度已成为重要的标志之一,同样也是衡量一个现代化研究所的重要标志,与世界高能物理接轨,不仅体现在加速器、探测器的建造上,也应体现在先进计算机技术的研究、利用和付注实施上,只有这几大要素都抓好了,才能算得上一流的高能物理研究所。