1 / 47

开源仓储软件的研究应用进展及发展趋势

开源仓储软件的研究应用进展及发展趋势. 曾婷 董丽 邹荣 姜爱蓉 清华大学图书馆 2010-12-10 北京. 提纲. 开源仓储软件简介 主要开源仓储软件的研究应用进展 清华大学的实践 开源仓储软件的发展趋势. 开源仓储软件简介. 仓储软件主要被用于构建数字仓储,提供数字对象的管理和服务 包括: Fedora 、 DSpace 、 Eprints 、 DAITSS 、 aDORe 等 应用场景:保存仓储、机构仓储、学科仓储、数字图书馆、内容管理系统、学术出版等 已经有较长的发展历史,得到广泛应用. 开源仓储软件简介.

wei
Télécharger la présentation

开源仓储软件的研究应用进展及发展趋势

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 开源仓储软件的研究应用进展及发展趋势 曾婷 董丽 邹荣 姜爱蓉 清华大学图书馆 2010-12-10 北京

  2. 提纲 • 开源仓储软件简介 • 主要开源仓储软件的研究应用进展 • 清华大学的实践 • 开源仓储软件的发展趋势

  3. 开源仓储软件简介 • 仓储软件主要被用于构建数字仓储,提供数字对象的管理和服务 • 包括:Fedora、DSpace、Eprints、DAITSS、aDORe等 • 应用场景:保存仓储、机构仓储、学科仓储、数字图书馆、内容管理系统、学术出版等 • 已经有较长的发展历史,得到广泛应用

  4. 开源仓储软件简介 • Fedora(灵活可扩展的数字对象仓储架构) • 美国康奈尔大学和弗吉尼亚大学在2003年推出; • DSpace • 美国MIT大学图书馆和惠普实验室在2002年推出; • Eprints • 英国南安普敦大学在2000年推出; • DAITSS • 美国佛罗里达图书馆自动化中心开发; • aDORe • 美国洛斯阿拉莫斯(Los Alamos)国家实验室开发;

  5. 主要开源仓储软件的研究应用进展 • 主要开源仓储软件的研究应用进展 • Fedora • DSpace • Eprints • 不同仓储之间的互操作问题

  6. 主要开源仓储软件的研究应用进展-Fedora • 在2003年5月发布1.0版本,最新的为3.4.1,之间历经20多个版本,进展迅速; • 具有灵活、可扩展的、模块化的架构; • 支持数字资产的长期保存,可通过数字对象及内容文件重构整个仓储; • 主要是一个工具包,而不是一个完整的应用

  7. Fedora服务框架

  8. Fedora的数字对象模型 • 在版本3以后有较大的改变 • 改进之处 • 老版本中“传播器”静态绑定带来的问题 • 新版本引入内容模型架构( Content Model Architecture ,CMA) • 数字对象与内容模型关联,动态绑定 • CMA设计为一种框架,用来开发和部署内容模型驱动的仓储体系结构 • CMA的设计参考了软件工程中 • 面向对象编程 • 设计模式 • 模型驱动的架构

  9. 基本的内容模型架构关系 • 4种类型的Fedora数字对象:数据对象、服务定义对象、服务部署对象、内容模型对象。

  10. Fedora的研究应用进展 • 英国的赫尔大学,美国的斯坦福大学和弗吉尼亚大学与Fedora Commons合作的Hydra项目 • 假设1:没有一个系统能够满足一个机构的所有需要,但是持久的方案需要具有一种共同的仓储架构 • 三个大学具有多个独特的仓储应用需求(机构库,数据保存,开放获取论文,ETD,数字化工作流系统……) • 可共享的基本功能(存放,管理,搜索,浏览,发送) • 解决:端到端,灵活可扩展,工作流驱动的应用工具包

  11. Fedora的研究应用进展 • 由德国马普学会和FIZ-Karlsruhe合作的eSciDoc项目 • 致力于构建服务于多学科研究机构的一种数字科研平台,涵盖虚拟科研环境的整个工作流,内嵌了许多现有工具和软件包 • 包括: • 一套通用的基本服务集合,即eSciDoc基础架构(Fedora被封装/隐藏在其中) • 在该架构上面搭建的各种应用(如可应用于构建机构库的PubMan)

  12. eSciDoc(一个通用的架构+特定的应用/服务+与已有工具的集成)支持整个研究过程eSciDoc(一个通用的架构+特定的应用/服务+与已有工具的集成)支持整个研究过程

  13. Fedora的研究应用进展 • 葡萄牙国家档案馆发起的RODA(Repository of Authentic Digital Objects)项目 • 面向长期保存 • 基于OAIS模型和Fedora搭建的面向服务的数字仓储 • 在保存规划功能方面集成了Minho大学的CRiB(Conversion and Recommendation of Digital Objects Formats)项目相关成果 • CRiB作为RODA的一个组件

  14. RODA面向服务的架构

  15. Fedora在康奈尔大学的应用 • The number, size, and variety of digital assets to be stored will continue to increase over the coming years so a flexible and extensible solution is required…… • 用Fedora来构建保存仓储 • 多个Fedora实例形成分布式仓储,构成一个本地仓储联盟 • 38台服务器,60T的数据

  16. 主要开源仓储软件的研究应用进展-DSpace • 在2002年12月发布1.0版,最新的为1.6.2 • 在2007年,通过对用户团体的调研发现 (1)主要的障碍在于混合本地化定制和新版本 (2)最需要的功能 • 模块性 • 更加容易定制的用户界面 • 对于复杂对象和版本的支持

  17. 下一代DSpace体系结构的要求 • DSpace应该具有一个解耦,稳定且独立于应用的核心 • 尽管可用于各种应用,对于普通应用情况DSpace将保持有用的可以直接使用的功能 • 版本的升级和本地化功能的兼容 • 以开放的格式导出数据以便重用和长期保存 • 将不断演变,以适应需求

  18. DSpace • DSpace体系结构审核组在2007年发布了关于下一代DSpace体系结构的推荐说明 • 信息模型 • 插件/扩展框架 • 用户界面 • 事件机制 • 工作流…… • 部分架构上的变化已经在现有版本中体现出来 • DSpace 2.x的事件机制已经应用在1.5中 • Spring框架和Cocoon升级(XMLUI)包括进1.5.2中 • 服务已经包括进DSpace 1.6中

  19. DSpace数据模型

  20. DSpace系统架构

  21. 主要开源仓储软件的研究应用进展-Eprints • 在2000年发布1.0版,最新的为3.2.4 • 在英国应用比较广泛 • 在2007年推出的3.0版本中有较大的变化 • 插件机制 • 灵活的工作流 • 历史记录 • 即将推出的3.3版本中EPrints Bazaar • 长期保存方面的工作 • 针对Eprints的数字保存Suite • JISC资助的Preserv和Preserv2项目,KeepIt项目

  22. 不同仓储之间的互操作问题 • 数字仓储相关互操作协议 • OAI-PMH • OAI-ORE(Open Archives Initiative Object Reuse and Exchange) • 开放档案先导计划之对象重用和交换协议 • 复合数字对象的收割和处理 • SWORD (Simple Web-service Offering Repository Deposit ) • 资源提交API

  23. 不同仓储之间的互操作问题 • 若干项目/组织对这个问题进行探讨 • JISC资助的Repository Bridge项目 • LC资助的AIHT项目 • LC资助的ECHO DEPository项目 • IMLS资助的TIPR项目 • NSF资助的Pathways项目 • OR 2008会议期间的快速原型开发项目竞赛 • DuraSpace的一个奋斗目标

  24. 清华大学的实践 • Fedora系统的应用 • 中文数学数字图书馆系统平台 • 中国机械史数字图书馆系统平台 • Dspace系统的应用 • 外购电子资源的长期保存与服务平台 • 清华大学机构知识库

  25. Fedora系统的应用 • 中文数学数字图书馆系统平台 • 始于2004年 • 得到清华大学基础研究基金,国家自然科学基金数学天元基金,EMANI国际合作项目等多个项目的支持 • 中国机械史数字图书馆系统平台 • 始于2005年 • 得到清华大学985二期数字图书馆建设项目支持

  26. Fedora系统的应用 • 中文数学数字图书馆系统平台 • 收集中文数学类方面的古代、近代、现代研究资料的数字图书馆 • 采用了数字对象技术,基于Fedora系统提供了将各种类型的资源统一集成和发布的功能 • 包含的数字对象有: • 数学古籍与建模电子书: 164个 • 词典条目: 1275个 • 目录信息: 13363个 • 期刊: 54种 • 期刊论文: 36965篇

  27. Fedora系统的应用 • 中国机械史数字图书馆系统平台 • 采用了数字对象技术,基于Fedora系统提供了将各种类型的资源统一集成和发布的功能 • 包含的数字对象有: • 机械技术典籍40余种 • 古代机械资料卡片12554条 • 抄本3929件 • 刘仙洲研究专题 • 古代重大发明和机械原理的重建模型图片和动画演示

  28. Fedora系统的应用 • 扩展开发 • 提出并实现虚拟馆藏管理和服务 • 设计并实现了基于保存元数据框架的资源著录保存系统 • 设计并实现了多种格式资源的元数据转换器 • 改进了中文资源检索服务 • 增加互操作支持模块 • 应用到版本1.2.1,2.0,计划升级到3.x

  29. Fedora系统的应用

  30. Fedora系统的应用

  31. DSpace系统的应用 • 外购电子资源的长期保存与服务平台 • 对外购的符合版权规定的电子资源,一方面提供资源的长期保存功能,另一方面在规定的范围内提供校内师生的检索访问服务。 • 已建成的IEEE DSpace保存服务系统,集成了200多万篇文献。 • 即将建成AIP电子期刊保存和服务系统。

  32. DSpace系统的应用 • 扩展应用开发 • 设计并实现多种格式资源的解析器,转换器 • 逐级优化资源导入模块,以适应大批量数据加载的性能需求 • 基于XML的界面升级和定制 • 版本从1.0,1.1,1.2,1.3,1.4,1.5,1.6逐步升级,保持升级过程中数据和系统迁移的完整性和稳定性

  33. DSpace系统的应用

  34. DSpace系统的应用

  35. DSpace系统的应用 • 清华大学机构知识库 • 我校OAPS数据库的建设 • 内容:本科生优秀毕业论文、大学生研究训练报告等 • 开发:分级权限控制机制的探索 • OAPS门户网站的建设 • 分布建设各学校的OAPS仓储 • 集中元数据提供检索服务 • 收割各家的元数据,进行解析处理后导入系统

  36. DSpace系统的应用 • 从2007年底开始探索我校机构知识库的建设模式 • 部分院系有一些特殊要求 • 大平台+若干分布式的数字仓储(比如OAPS)? • 机构知识库与相关系统的关系 • 2009年正式启动我校机构库大平台的建设 • 2010年初协助清华深圳研究生院机构库的建设 • 2011年,部分院系仓储的建设

  37. 清华大学机构库的整体架构

  38. DSpace系统的应用 • 主要的工作 • 提供中文/英文两种界面 • 增强数据管理功能,尤其是增加一些批量数据管理功能,方便管理员的工作 • 完善用户管理功能,与我校的认证服务集成,实现根据用户身份的自动授权 • 提供根据不同资料类型快速定制提交界面的功能 • 对于不同来源/格式数据的预处理,批量导入 • 完善使用统计功能 • 开发清华大学作者文章版权信息查询系统 • 开发清华大学作者名规范系统……

  39. DSpace系统的应用 • 主要思路 • 本地化的定制和扩展开发是必要的 • 本地化开发不影响DSpace主流版本的升级 • 在不同DSpace版本中能够复用本地化工作 • 因此,本地化工作需要与主流版本松耦合…… • DSpace的插件机制 • DSpace的事件机制

  40. 清华大学的实践总结 • 对于机构知识库这样的典型应用来说, Dspace作为一个完整的开源仓储软件,可以满足我们的需要 • 在数据规模变大的情况下,Dspace性能仍然存在问题 • 基于开源仓储软件的本地化工作要遵循推荐的开发模式来进行

  41. 发展趋势 • 支持复杂对象和版本的数据模型 • 遵循OAIS信息模型 • 模块化 • 易用性,middleware • 开放和清晰的开发接口 • 搜索(Lucene,Solr,……) • 以数据为中心 • 永久的数据,短暂的系统 • 仓储软件 基于存储数据的若干服务

  42. 发展趋势 • Fedora作为多个应用的核心 • 不同仓储软件,各取所长 • Fedora,保存仓储 • Dspace,机构仓储…… • 多个分布式仓储形成联盟 • 可伸缩性 • 性能问题 • DuraCloud,DuraSpace的云计算管理层服务 • 提供云存储及计算服务

  43. 欢迎各位专家和同仁指正 谢谢!

More Related