1 / 31

新一代大数据分析平台建设思路

新一代大数据分析平台建设思路. 2013-01. 内容提要. 大数据给中国联通的业务支撑运营模式带来的影响. 大数据分析环境强力支撑日益繁复的业务分析需求. Greenplum 为中国联通提供全面的大数据分析解决方案. 移动互联网发展对传统通讯业务运营的挑战. 传统运营商盈利模式受到挑战. 市场环境. 终端复杂性. 业务与产品. 市场日渐饱和,用户增长缓慢 语音业务增长乏力,数据业务应用激增 激烈的市场竞争以及政策的改变正在让运营商的利润率越来越低. 智能终端、智能手机、桌面视频和通信软件都能为运营商增加新的业务提供能力,但同时也增加了复杂性以及运营和支撑成本.

Télécharger la présentation

新一代大数据分析平台建设思路

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 新一代大数据分析平台建设思路 2013-01

  2. 内容提要 大数据给中国联通的业务支撑运营模式带来的影响 大数据分析环境强力支撑日益繁复的业务分析需求 Greenplum为中国联通提供全面的大数据分析解决方案

  3. 移动互联网发展对传统通讯业务运营的挑战 传统运营商盈利模式受到挑战 市场环境 终端复杂性 业务与产品 • 市场日渐饱和,用户增长缓慢 • 语音业务增长乏力,数据业务应用激增 • 激烈的市场竞争以及政策的改变正在让运营商的利润率越来越低 • 智能终端、智能手机、桌面视频和通信软件都能为运营商增加新的业务提供能力,但同时也增加了复杂性以及运营和支撑成本 • 更多产品选择意味着更多的细分市场并能针对性服务,但也会让用户眼花缭乱,用户感知降低。 • 为细分客户提供不同优先级的服务 应用多样性 数据量爆炸式增长 • 数据量爆炸式增长 • 大数据量消费终端的出现拉动流量,但单位收入下降,并对网络基本业务产生影响。 • 数据业务从“杀手级应用”朝着“网络杀手”转变。 • 网络和终端的开放平台引入了新的应用模式以及更多合作伙伴,扩大了用户的选择,但在这种开放平台的前提下,谁能主导用户关系?

  4. 技术挑战–大数据的存储、处理与挖掘分析 1 支持种类繁多的互联网业务 2 面向大量外部商户的营销数据服务 3 每日PB级数据的实时性挖掘分析 4 复杂的网络数据整合、质量控制、标准化 GreenPlum凝聚全球智慧,在不断整合优秀解决方案与沉淀总结成功案例的同时,坚持技术创新,不懈探索移动互联时代的通信运营商数据分析的最佳实践。 5 海量的、结构庞杂的数据存储、计算、搜索

  5. 大数据改变商业模式 • 通过构建基于云计算的营销分析系统,可以在第一时间了解营销状况,例如:实时BI、秒级营销 • 可以在第一时间分析企业的海量数据,使决策敏捷高效,把我们历史数据变成我们的数据资产 • 通过应用云计算和虚拟化技术,可以实现绿色云化数据中心,从根本上解决系统宕机故障问题 • 基于云计算和虚拟化技术、X86工业标准和大规模并行处理无共享架构的数据仓库技术已经成为近几年的市场主流

  6. 新的数据类型:非结构化数据源 例如: 电子文档、电子邮件 Web日志、点击流文件 社交网络关系 系统日志文件 移动互联网数据 图像、视频 新的分析: 高于SQL实现,使用MapReduce发现潜在模式 例如: 模式或路径匹配分析 社交网络分析 图形分析 文本分析 新的BI业务支撑能力:传统BI和数据科学家的融合 迭代分析(数据探索和调查分析) 数据科学家/专业数据分析人员/分析开发人员/计量分析师Quants 非结构化数据存储、管理和分析新的数据类型 + 新的分析=新的BI业务支撑能力

  7. 数据库一直都是作为数据分析的选择 SQL是高层次的,且易于重复使用 适用于任何数据库结构 纯SQL可以用在大容量的数据 已有许多上百TB级或PT级数据仓库 如何用数据库分析大数据?

  8. ...但我们失去了什么? • 可重复使用的功能 • 数据模型:模式,统计,局部优化 • 通用算法:joins, grouping, sorting • 为什么我们不能有 • 可轻易重复使用的 • 易用的 • 能处理大容量的数据的分析平台?

  9. 内容提要 大数据给中国联通的业务支撑运营模式带来的影响 大数据分析环境强力支撑日益繁复的业务分析需求 Greenplum为中国联通提供全面的大数据分析解决方案

  10. 场景举例:业务与网络数据融合能带来什么价值?场景举例:业务与网络数据融合能带来什么价值? 提升后端数据的前端应用价值 提升OSS域数据的深度分析能力 • 让后端的网络域数据走向前端,体现网络数据的市场、营销、服务价值 • 让海量的网络域数据产生直接收益 • 使网络维护、分析系统释放更大能量,带来更多价值 • 改善当前网络数据的分析方式比较简单的现状,对网络数据进行深入的数据挖掘、建模、智能分析 O+B 价值 提升对各重点专题的支持能力 统一数据模型,激发更多应用 • 对当前重点、前沿的分析专题进行强有力支撑。如终端、三网融合、重点数据业务、移动互联网业务、2/3G切换等专题的深入分析 • 实现O域内外数据的全关联,构建统一数据模型。首先统一网络数据模型,然后实现前后端数据的关联融合。在此统一的数据模型下,激发更多的特色分析应用

  11. 数据业务 分析 融合分析 TDR Generation TDR Generation 数据业务 数据集市 集中式 企业数据仓库 内容 分析 融合分析 SUR Generation SUR Generation 内容 数据集市 语音业务 分析 融合分析 CDR Generation CDR Generation 语音业务 数据集市 数据层面的全融合:优势弥补,形成综合分析合力 用户 网络 Before After 资费 业务 告警 商务 终端 网管 信令 BSS

  12. Greenplum 统一分析云计算平台 Bl Analyst Data Engineer Data Analyst LOB User Data Scientist Greenplum Chorus - Analytic Productivity Layer 3rd Party/Partner Tools & Services DATA SCIENCE TEAM Data Access & Query Layer Greenplum Database Greenplum Hadoop Data Platform Admin Private/Hybrid Cloud Infrastructure or Appliance

  13. 淘宝创新的集中化、双中心数据仓库体系架构供中国联通参考淘宝创新的集中化、双中心数据仓库体系架构供中国联通参考 企业数据中心 风控系统 会员营销 客户服务 资金管理 财务分析 客户信用 数据收集分发中心 数据源 OLTP 系统 数据仓库主库 定时任务计算 120台 资金/财务等 Data mart/模型计算平台 KPI报表与业务报告 业务指标仪表盘监控 运营与营销数据分析 综合数据查询 挖掘分析报告 用户访问行为跟踪 竞争情报 服务 会员营销 Data mart/计算平台 数据 分发 • 信用/CTU • Data mart/计算平台 交易系统 CDC 抽取 财务系统 数据仓库备库 查询 120台 CDC 数据 分发 销售系统 CDC 商业智能 信息门户 CDC … 账户系统 数据历史库/挖掘 60台 CDC 数据 分发 客服系统 挖掘工具集 CDC 日志挖掘服务器 H+1,20台 打点 日志收集 服务器 20台 网站访问 日志/行为模型计算 准实时,4台 • 线上即时作弊判断 • 线上即时个性化营销 服务 数据仓库工具与管理平台/调度系统)管理 元数据(Meta Data)管理

  14. 淘宝创新的集中化、双中心数据仓库体系架构供中国联通参考淘宝创新的集中化、双中心数据仓库体系架构供中国联通参考 性能指标 • 目前支付宝账户数量:6.5亿 • 数据库数据增量:500G/天,每年数据量增加2倍以上 • 数据加载频度:大多数H+1(每小时加载),网站访问D+1(每天加载) • 应用刷新频率: • 每小时更新一次数据。 • 3小时完成月结 • 7小时完成年节 • 贷款审批 • 每年处理170万笔贷款,平均每笔7000元 • 10万元以下贷款,30分钟以内完成 • 10万元以上,需要人工进行审核和调查 云计算Hadoop与关系数据库混搭 • 双中心集中式的数据仓库系统 • 创新引入Hadoop云计算架构进行混合型数据仓库环境设计 • 敏捷分析云环境强力支持日益复杂繁重的业务分析需求

  15. 参考点1:双中心集中式的数据仓库系统 数据收集分发中心 数据源 OLTP 系统 交易系统 资金/财务等 Data mart/模型计算平台 数据仓库主库 定时任务计算 120台 会员营销 Data mart/计算平台 财务系统 CDC 抽取 • 信用/CTU • Data mart/计算平台 数据 分发 销售系统 CDC … CDC 账户系统 CDC 数据仓库备库 查询 120台 客服系统 数据 分发 CDC 网站访问

  16. 参考点2:创新引入Hadoop云计算架构进行混合型数据仓库环境设计参考点2:创新引入Hadoop云计算架构进行混合型数据仓库环境设计 数据历史库/挖掘 60台 挖掘工具集 日志挖掘服务器 H+1,20台

  17. 总部/省/地市 经分用户 知识工作者 数据 传播区 敏捷分析沙盒 生产数据仓库 应用数据 View MD View 省/地市 个性化用户 汇总数据 外部用户 基础数据 缓冲数据 CRM/BOSS Web数据 HDFS 参考点3:敏捷分析私有云环境强力支持日益复杂繁重的业务分析需求

  18. 敏捷分析的特点与好处 业务用户 IT用户 • 自助 • 提供自助服务方式,快速创建分析环境 • 多用户高自主性,即用分析资源 • 满足一线人员的个性化分析需要 • 充分支持现有熟悉的BI和统计工具 • 高效 • 缩短与IT部门协调过程,加快切入市场时间 • 能够“快速试错”,易于尝试出新想法思路 • 灵活 • 业务人员可按需自配置分析空间 • 允许业务用户上载特定数据 • 直接与核心数据关联,让业务人员能够结合真实数据,实践敏捷分析 • 简单 • 简化应用和数据的提供和过程 • 由数据仓库引入原型,提高敏捷和可利用性 • 可控 • 安全可控的分析环境管理 • 利用混合负载管理减少用户用途间相互影响 • 在统一平台上进行管理 • 进行预定义好的空间大小与保留周期,有效规划企业资源容量 • 节约 • 充分利用云计算的特点:虚拟化、弹性,有效提高资源利用率 • 降低使用直接和间接的成本 • 避免低效的外部物理数据集市

  19. 内容提要 大数据给中国联通的业务支撑运营模式带来的影响 大数据分析环境强力支撑日益繁复的业务分析需求 Greenplum为中国联通提供全面的大数据分析解决方案

  20. Greenplum提供完整的大数据分析解决方案 Data Sources Alerts Reports Hadoop Mobile Dashboards Spreadsheets Data Visualization Documents Map- Reduce Map-Reduce Ecosystem* Statistics HDFS Mobile Genetic Algorithms Data Quality Machine Documents BU 2 BU 1 NoSQL Stores Data Mining Multimedia BU 3 BI as a Service SQL Stores Enterprise Data Warehouse KeyValues Other NoSql Web/Social OLAP MDM LOB data Data Marts ERP Operations Research ETL Neural Nets CRM Federated Data Warehouse POS Traditional data Integration Structureddata sources Traditional data warehousing Big data analytics ramifications *Hadoop Ecosystem includes: Hive, Pig, Mahout, HBase, ZooKeeper, Oozie, Sqoop, Avro

  21. Greenplum的动态在线扩容,满足弹性扩容需要 • 数据自动在所有节点上重新分布 • 容量和性能在扩展后线性增长 步骤1:新节点扩容到 MPP集群 步骤2:数据在所有节点上重分布 Master 联网 seg1 seg2 seg3 seg4 seg5 seg6

  22. EDW/BI系统云计算架构 利用虚拟化的方法提高设备综合利用率,以规模化降低硬件投资成本和运维成本 利用集中化建设的方法节省硬、软件平台、工具和应用开发和运维的投入,缩短上线时间 灵活采用SaaS、PaaS和IaaS建设方法,保持模型和应用的标准化与灵活性兼顾,达到既能集中建设也能满足分公司个性化需求的目的 云计算BI 应用基于统一数据标准和交互标准集中管理和统一开发,并实现应用共享 SaaS 应用软件层 运营管理 个性应用 全网应用 共性应用 故障管理 平台层 PaaS 提供集成的开发运维环境,由分公司和开发商参与开发 挖掘工具 工作流引擎 ETL工具 性能管理 规则引擎 数据库软件 …… 配置管理 在数据层兼顾标准的模型和个性化的模型,加强模型管理,数据以同步和服务的方式对外提供使用 数据层 DaaS 安全管理 标准模型 个性化模型 基础设施层 数据质量管理 IaaS 提供虚拟化的硬件资源,操作系统 虚拟化 主机 PC 存储 网络及安全

  23. 某省通讯公司经分系统现状和面临主要问题 系统规模随着企业的不断发展在不断扩大,支撑数据越来越多,具有的分析能力也越来越深化,系统定位发生了非常大的变化,已从单纯的决策分析支持转变成重要的一线生产系统。 现状 主要问题 当前传统技术和方案(小型机)的扩容,已无法使运算能力线性增长。 数据仓库架构

  24. 某省通讯公司云经分试点项目 为解决经分系统面临的问题、更好的发挥数据支撑作用。某通讯公司经过相关部门和合作厂商长期研究,决定开始进行云经分相关试点工作,同时也可以总结经验,为集团和兄弟公司作出贡献。

  25. 云经分试点项目的应用功能规划方案 试点移植应用的选取主要考虑在原经分占资源较多、分析时间较长、不影响正常生产的应用。主要包括:客户洞察(CI)、校园用户分析、竞争对手分析和集团成员分析等。 经分元数据管理 经分数据质量管理 试点移植应用专题 客户洞察(CI) 校园用户分析 竞争对手分析 集团成员分析 …… 交往圈识别 区域识别 …… 私有云仓库 消费汇总 行为汇总 …… 原经分 数据仓库 个体信息 消费情况 …… ETL 数据源 10086 CRM BOSS VGOP ……

  26. 云数据仓库平台试点方案 1.选择的必备条件 2.方案测试验证 3.云数据仓库平台方案 • 加载效率:目前生产库每天通话详单加载时间50分钟,云计算方案加载时间10分钟,性能提升5倍; • 查询效率:云计算方案查询统计时间性能提升5倍以上; • 压缩测试:云计算方案在线压缩测试比可达5-10倍; • 高可用测试:模拟单节点失效,测试系统可用性; 由26台低成本中高端 PC server(2C12核 64G内存); 本地磁盘:每台16块450G; ETL主机利旧;10G高速网络。

  27. 应用性能优势 性能优势: • 完成试点应用移植后,应用在云平台生产环境上运行的性能提升明显。比原经分总体性能提升2~5倍。 取办理产品变更业务后得到的平均数据 取办理产品变更业务后得到的平均数据 取办理产品变更业务后得到的平均数据

  28. 成本优势 • 总体成本优势 • 本试点方案采用云仓库软件+X86架构,成本优势明显。 • 构建云,可节约50%的硬件投资。经分系统每年硬件(小型机、存储)投资约在1000-2000万,割接到云后,每年只需投资200-300万,年节约投资1000万以上,还不含电力、机柜位置等节省。

  29. 生产环境 • 为总部侧提供数据采集,整合,存储,发布服务 Greenplum在联通数据总部数据中心的部署架构 验证环境 • 为BSS侧生产原型数据提供完整的稽核验证服务

  30. 依赖Greenplum强大的并行和扩展能力、先进的混合负载管理功能和完善的高可用性解决方案,Greenplum完全支持中国联通IT架构的演进,并完全满足今后相关应用的部署,能够在获得最低总体拥有成本的同时,向所有用户提供最好的性能。依赖Greenplum强大的并行和扩展能力、先进的混合负载管理功能和完善的高可用性解决方案,Greenplum完全支持中国联通IT架构的演进,并完全满足今后相关应用的部署,能够在获得最低总体拥有成本的同时,向所有用户提供最好的性能。 Greenplum将一如继往地将中国联通作为重要的合作伙伴,竭力提供更高性价比的产品和更先进的方案及服务,全力提升中国联通对Greenplum的满意度。 Greenplum对中国联通的承诺

More Related