Download
slide1 n.
Skip this Video
Loading SlideShow in 5 Seconds..
IT 服务管理的实践与总结 PowerPoint Presentation
Download Presentation
IT 服务管理的实践与总结

IT 服务管理的实践与总结

190 Views Download Presentation
Download Presentation

IT 服务管理的实践与总结

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. IT服务管理的实践与总结 光大银行IT服务管理建设的回顾与发展

  2. 内容提要 • 背景介绍 • IT建设背景、ITSM项目背景、运行资源背景 • 初步建设 • 项目启动、项目实施、收益与问题 • 持续完善 • 工具挖潜、流程落实、人员转变、制度配套 • 当前状态 • ITSM基础、人员专业分工、流程的细化、ITSM成本问题

  3. 背景介绍 IT建设背景、ITSM项目背景、运行资源背景

  4. 背景介绍 • IT生产系统背景 • 2000年-4套,开始集中建设 • 2005年-35套 初步形成规模,带来运行管理压力 • 2008年-150套 ITSM建设的急迫性 • ITSM项目背景 • 2003年开始登记整理故障记录等 • 2004年开始ITSM理论接触 • 2005年6月启动(一次故障启动) • 运行资源背景 • 2005年前操作员、系统管理员,被动式管理 • 2006年开始,人员细分,主动式管理(投产审批及标准)

  5. 初步建设 项目启动、项目实施、收益与问题

  6. IT系统的快速发展与变化 • 初期目标: • IT运行信息控制(CMDB):以运行维护为导向,配置内容:服务器、网络端口、操作信息、文档、帐户、备份介质、监控体系…..; • 完备监控体系的建设:统筹考虑监控工具、人员、制度及流程,充分利用监控环节的各类信息; • 事件处理的初步控制:对事件进行分类、登记、跟踪,并做事后分析与评估,促进优化监控、系统管理等工作(无细化的处理流程) ; • 变更的管理:对各类变更事件首先以CMDB为核心进行评估与控制,为后续阶段的质量管理等奠定基础; • 操作环节的控制:对56套生产系统的每日300个操作任务进行自动化控制与调度; • 按需建设: • 按照当时的需要,只针对配置、事件、控制与监控进行建设,解决当前矛盾; • ITIL的其它部分在初期不加以实施,但做总体考虑(如:SLA); • 实施的计划要充分考虑各类成本以及自身资源(如:人员的内部培养、外部聘用、专业服务购买)

  7. IT系统的快速发展与变化 • 简洁实用 • 对于各类流程根据实际情况先简单实现,不按照ITIL模型照搬;(如:事故处理流程,人员矩阵式配置) • 人员角色采取有重点逐步过渡的方式;(如:一线监控人员) • 各类制度是推动ITSM建设的关键,保证制度具有可操作性,具备:人员角色、职责、流程、考核等关键要素;(如:作业调度使用管理规定) • 责任到人、考虑与待遇配合,有专人负责流程并提出修改意见;(如:运行主管、交接班管理) • 持续演变 • 事件、变更与配置等是一个循序渐进的过程,分阶段由简单到复杂;(一期项目做,二期可能还需要做) • 人员、制度、流程与工具都要根据情况不断调整;(如:监控的四个流程{自检、调整、判断、分析}及一个报告{重点、隐患、解决})

  8. 企业IT基础部件 主机等硬件 存储设备 各类系统软件 各类应用软件 各类通讯线路 各类文档流程 各类配置参数 IT服务管理建设的初步目标-日常运维有效管理 日常运维有效管理的目标 保障IT系统的稳定与效率 从容应对各类紧急事件 合理的IT系统架构设计 日常运维管理的核心内容 全面的监控体系 • IT基础环境监控 • 应用系统检查 • 系统性能管理 • 总体运行情况分析 流程控制 • 工作流程控制 • 操作流程控制 CMDB、事件、配置、变更

  9. CMDB 配置管理 从项目开始的理想设计到实际应用的逐渐过度

  10. CMDB初期的理想化

  11. CMDB的实用化 • 以系统运行为主导、考虑IT审计等需要; • 每类CI都要考虑相关的责任人; • CI之间的关系更重要; • 每类CI都对应一定的流程

  12. 既是软件的架构也是监控信息 CMDB的实用化

  13. 监控体系的建设

  14. 系统监控在运行管理中的功能 • 运行管理架构的建设 • 建立IT运行的预警机制:提高故障主动发现的比率 • 建立系统的评估机制:基于数据对系统性能、容量评估 • 建立IT运行质量控制机制:问题的预先解决、质量把关 • 是IT服务管理体系的基础 • 奠定数据基础:真实的运行数据 • 奠定控制基础:事故发现、定位、处理的基础 • 奠定知识基础:监控消息的“消化”,形成知识库(专业服务) • 奠定人员基础:监控环节不仅仅是一类人员的工作 • 奠定流程基础:是各类流程的起点,也是监视环节 Page 14

  15. 监控在ITSM中的功能 • 以OVO为基础的监控工具体系 质量控制 安装配置标准 测试的标准 检查的标准 控制的标准 • OVSD: • 控制故障解决; • 控制监控部署; • 控制监控策略; • 控制故障判断; OVO服务器 故障工单 各 类 报 警 消 息 LOGLOGIC 对SYSLOG日志的搜集 过滤、报警 SNMP转发 OVO的各类AGENT 各类设备的SNMP 应用自定义的服务 检查流程 ECC、ISEE 加密机 专用设备

  16. OVSD与OVO的配合(日常工作流程) 与IT服务管理中其他功能的关系 • 与事故处理的关系 • 对于事故的发现与定位,主要依靠监控体系,同时对于没有在监控体系发现与定位的事故,必须认真评估,查找原因后不断修补监控体系,提高OVSD中故障主动发现的比例; • 与变更管理的关系 • 在变更过程中必须考虑监控和检查手段; • 在发现监控体系漏洞后必须通过变更环节协调CMDB中CI修改; • 与配置管理的关系 • 在配置管理数据库(CMDB)建立应用系统监控信息,针对任何投产的应用系统,能够明确其构成结构及对应监控手段,建立完整的应用架构档案(可考虑SN的展现); • 与系统开发的关系 • 在应用开发阶段,逐步按照《应用系统投产文档建立规范》完善架构设计、容灾、容错、性能等环节,并最终产生移交文档;(质量控制) • 将移交文档在监控、配置管理等环节实施;

  17. 监控系统有效运行流程_(新系统投产) 《开发人员》 建立应用可 用检查清单 在OVO中部署各节点及层面的 监控模板,设置特定阀值 按照: 1)IT基础环境; 2)应用可用检查; 两个项目形成投产 监控档案 1)通过OVSD 变更流程登记; 2)变更OVSD 问题库协调一线 监控人员; 3)统一报警到 OVO平台; 《系统管理员》 建立应用IT 基础环境 检查清单 实施应用可用的: 1)特定检查; 2)服务检查; 《监控管理员》 依照以往经验 建立应用可用 基础检查清单 《一线监控人员》 监控OVO 对:1)IT基础环境严重报警; 2)应用可用严重报警; 发起事故工单 协调责任人处理 按授权启动应急流程

  18. 监控系统有效运行流程_ (持续维护) 《一线监控人员》 监控OVO 对: 1)IT基础环境 严重报警; 2)应用可用 严重报警; 发起事故工单 协调责任人 处理 按授权 启动应急流程 用户投诉 OVO监控平台 按管理规定 监控并发起 报警 OVSD平台 检查: 1)所有事故来源为监控体系的有效性; 2)未被监控体系发现的事故,确认监控检查方式; 《开发人员》 建立应用可 用检查清单 《系统管理员》 建立应用IT 基础环境 检查清单 《监控管理员》 依照以往经验 建立应用可用 基础检查清单

  19. 事故管理

  20. ITSM建设初期目标_事故处理 事故的分类,由值班人员统一跟踪

  21. ITSM建设初期目标_事故处理 事故来源的详细定义,统计分析的基础

  22. ITSM建设初期目标_事故处理 提高故障主动发现的比率

  23. 变更管理

  24. ITSM建设初期目标_变更管理 CMDB是变更的基础,变更与监控协调一致

  25. ITSM建设初期目标_操作的控制 操作的变更首先在CMDB实现

  26. ITSM建设初期目标_操作的控制 作业调度的实现

  27. 作业执行情况的监控 ITSM建设初期目标_操作的控制

  28. IT服务管理建设的收获与问题 • 流程控制、全面监控、主动管理 • 人员转化、流程制度、工具支持

  29. IT服务管理建设的收获_初期建设思路 • 理论产生的背景 • IT系统故障的危害巨大; • 有效维护IT系统超出了纯粹的技术范畴; • 基于技术的复杂管理体系; • 理论的意义 • 总体描述了管理的范畴,细化各个环节; • 科学的划分了各个管理控制层次; • 利用理论指导的思路 • 首先:统计分析企业自身各类IT事故、事件,找出最近、威胁最大的问题; • 其次:分析企业已有的IT参与人员、制度及流程; • 再次:参照企业对IT部门的责权利定义; • 最后:制定IT服务管理的基础建设方案;

  30. IT服务管理建设的收获 过渡到完善的IT服务管理架构是一个渐变的过程,借鉴理论,结合实际,在IT系统日常运营管理工作中,首先努力做好以下三个方面的工作,为后续ITSM建设打下坚实的基础

  31. IT服务管理建设的收获-主动系统管理 • 涵盖范围 • 应用系统日常变更、配置、事故处理策略与流程; • 应用系统各类检查与应急处理流程; • 应用系统的持续优化; • 应用系统规范的细化以及与开发环节的衔接; • 针对系统运行的各类统计分析报表; • 参与人员角色划分 • 运行主管、监控管理员、系统管理员、变更管理员、项目开发人员 • 关键问题 • 能够控制各类CI之间的关联关系; • 能否有效的实施各类流程及管理制度; • 主要职责 • 保证日常变更的完整与准确(与监控,处理流程的关系) • 依据运行中的各类事件和要求,调整应用系统规范,做到预先控制 • 控制对关键配置信息的更改与维护

  32. IT服务管理建设的收获-主动系统管理 CMDB 纳入范围、专人管理 数据库 主机、服务器 网络 存储 厂商服务 操作流程 应用 文档 组织人员 帐户

  33. IT服务管理建设的收获-主动系统管理 通过分析抓住重点,消除故障根源

  34. IT服务管理建设的收获-全面的监控体系 • 涵盖范围 • 生产系统的IT标准组件监控(OS/DB/MW/硬件/网络); • 关键应用进程及其日志,应用与外部的关联,应用特定配置、特殊设备; • 应用批作业的特定监控(批处理状态检查等); • 参与人员角色划分 • 监控人员、运行主管、监控管理员、系统管理员、变更管理员、应用开发人员 • 监控的不同部分 • 监控广泛概念的IT标准工业组件(IT基础环境监控); • 可灵活自定义系统主动检查流程(特定应用监控); • 深入分析与优化能力(性能分析); • 主要职责 • 通过监控体系主动发现事故,通过分析报告发掘隐患; • 通过{自检、调整、判断、分析}四个流程保证监控系统的不断自我完善; • 通过监控系统的积累,逐步建立知识库 ;

  35. IT服务管理建设的收获-全面的监控体系 全面监控体系的概况 此部分主要是针对应用系统的特定配置、维护操作、应用的关联、专用设备等进行监控,是一个灵活修改、主动检查的体系,主动发现应用系统故障的60-70% 此部分主要监控构成应用系统的标准IT组件,针对标准的协议、资源、服务、日志等进行监控,考虑各应用系统的不同特点,定义不同的监控模板,被动大范围的监控各类事件发生,同时搜集系统运行性能数据,这类故障约占系统故障的30-40% 应用前端 应用 外部 连接 应用 维护 流程 (批作 业等) 主动检查流程 应用服务进程、专用设备 中间件 OVO IT组件标准监控 数据库 专业诊断工具及性能管理 操作系统 主机 网络 存储

  36. IT服务管理建设的收获-人员的流程化 监控/问题:确认监控漏洞、修订标准 二线解决:系统管理员总负责,首先定位问题,其次解决 事件发生:多渠道 一线登记:分类,发起呼叫,跟踪 三线支持:项目组,系统工程师,厂商

  37. IT服务管理建设存在的问题-人员转化 • 人员分工的细化与流程整体的协调; • ITSM人员角色与目前IT部门人员所属部门的协调; • 人员角色的责权利与企业人力资源部门的协调; • 各层次人员的持续培训问题; • 发挥各层面人员主动性的问题;

  38. IT服务管理建设存在的问题-流程制度 • 流程修改的成本控制; • 流程与管理制度的配套; • 流程制定过程中各层面人员的参与; • 流程的实现问题(没有好的控制手段就难以深化、落实); • 流程与部门分工的协调;

  39. IT服务管理建设存在的问题-工具支持 • 对CMDB的修改的有效控制(变更的可操作性); • 对CMDB的展现问题(在评估中发挥作用); • 对CMDB中数据的报表展现(无法利用CMDB数据生成各类管理报表);

  40. IT服务管理持续建设 流程驱动、范围扩展、标准建设 质量管理、全面考虑、框架建立 项目之后的持续改进

  41. IT服务管理持续建设(目前以流程控制主) • 流程驱动 • 完善已有流程(事故、变更、投产等),实现真正控制; • 流程涉及的范围逐步扩展(运行、开发、商务); • 流程既要满足IT安全运行的要求也要考虑IT审计要求; • 系统运行架构的建立,实现人员间协同配合,有效利用专业资源; • 工具配置 • 充分利用已有工具; • 基于前期经验引入新工具; • 标准建设 • 推进《应用系统投产标准》、《系统安装标准》等建设,做到预先解决,防止隐患进入生产环节;

  42. 在IT管理平台实现流程控制_质量控制的流程 开 发 体 系 测试阶段 系统实现 立项阶段 需求设计 投产评估 投入运行 • 代码性能; • 压力性能; • 承载性能; • 破坏测试; • 。。。。。 • 操作控制; • 监控评估; • 备份协议; • SLM实施; • 安装检查; • 监控调整; • 性能评估; • 故障管理; • 运行分析; • 专业服务; • IT架构控制 • 数据设计 • 容灾设计 • 资源评估 • 安全设计 • 审计考评 运行项目管理(移交、投产标准) 运行管理、监控、评估 运 行 体 系

  43. # 文档代码 文档名称 内容说明 优先程度 1 SFS 应用系统服务说明(Service & Function Summary) -中英文名称: -功能概述: -服务时间说明、交易峰值预测: -用户类型、数量、访问方式: 2 ASA 应用系统软件架构(Application Software Architecture) 客户端、表示层、应用层、数据层、通讯层等各层、各类软件功能及软件产品说明 3 HBC 设备及灾备配置(Hardware & Backup Configuration) 软件架构各层次对照的硬件配置、容灾方式及硬件配置 4 AIC 应用软件安装配置说明(Application Software Installation& Configuration) 软件架构各层次的应用软件名称、安装方法、配置说明 5 SIC 系统软件安装配置说明(System Software Installation& Configuration) 操作系统、数据库、中间件及其他产品软件的安装、配置说明 6 FSL 文件系统清单(File System List) 软件架构各层次文件系统清单、空间大小、余量要求 7 BPG 批处理指南(Batch Process Guide) 批处理内容、时间、条件说明、操作方法 8 HBA 历史数据/文件备份及清理协议(Historical Data/File Backup & Remove Agreement) 数据库、文件系统、应用程序、报表、日志等备份、清理要求和方法 9 APM 应用进程管理手册(Application Process Management Manual) 软件架构各层次服务进程的清单、功能、停起方法、监控手段 10 AUL 应用/数据库用户清单(Application/Database User List) 应用和数据库用户名称、功能、权限和口令变动说明 11 UQA 常见问题及处理(Usual Question & Answer) 在IT管理平台实现流程控制_流程控制的标准

  44. 在IT管理平台实现流程控制_流程控制的制度 制度的集中登记与控制

  45. 在IT管理平台实现流程控制_流程控制的实现 • 标准、制度、人员是流程的基础; • 以工具等手段加以控制,实现流程的落实; • 流程过程中涉及的标准、资料、配置等是动态的,如何有效协调是关键; • 复杂流程具有计划性,事先计划、设计,然后由系统自动调度执行,以达到协调多种角色人员完成复杂工作; • 流程的执行过程历史必须清晰记录,满足监管与IT审计要求;

  46. 当前状态 ITSM基础、人员专业分工、流程的细化、ITSM成本问题

  47. ITSM的基础情况 • 基础工具平台:监控、ITSM、性能 • 人员角色基础:由初期状态实例化的ITIL • 制度基础: • 管理流程基础:各类控制表格 • 报表基础:各类ITSM相关报表

  48. 人员分工的细化 • 工具、人员、流程交替促进

  49. ITSM流程细化的实施 • 根据人员角色及控制的变化细化流程 • 以细化的流程控制推动人员工作专业化 • 流程与CMDB的紧密结合 • CMDB在各类决策中发挥真正作用

  50. IT审批管理场景_投产审批流程 以工具实现投产审批流程的控制,并配属角色、设计界面 根据IT实际环境及自身人员分工,设计投产安装检查清单,做为审批流程的设计依据 在实际投产审批工作中,工具自动按流程控制实施过程