380 likes | 940 Vues
电力大数据. 张沛 2013 年 12 月. 目录. 1. 大数据概念及关键技术. 3. 4. 2. 结论. 电网公司数据现状. 电力大数据应用场景. 大数据定义. 对大数据的概念业界已基本达成共识,但目前还未形成统一的定义 。. 麦肯锡认为“ 大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合 ”;. 维基百科认为“ 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集 ”;.
E N D
电力大数据 张沛 2013年12月
目录 1 大数据概念及关键技术 3 4 2 结论 电网公司数据现状 电力大数据应用场景
大数据定义 对大数据的概念业界已基本达成共识,但目前还未形成统一的定义。 麦肯锡认为“大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合”; 维基百科认为“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集”; Gartner认为“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”。
大数据发展历程 • 2013年3月中国电机工程学会发布了《中国电力大数据发展白皮书》; • 2012年7月 中国工信部发布的《“十二五”国家战略性新兴产业发展规划》 • 2012年7月联合国发布政务白皮书《大数据促发展:挑战和机遇》 • 2012年3月奥巴马政府发布了《大数据研究和发展倡议》 • 2012年1月达沃斯论坛发布了《大数据,大影响》报告 • 2011年5月麦肯锡全球研究院发布题为《大数据:创新、竞争和生产力的下一个新领域》的报告。 • 从2009年开始全球互联网企业都意识到“大数据”时代的来临。
大数据关键技术 技术介绍 关键技术 • 计算机程序利用语言知识对真实世界中的语言成分信息进行的提取、处理、推理和判断; • 图像处理与识别技术可以实现对图像、视频数据进行特征检索和运动跟踪。 • 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 应用层 自然语言处理 图像识别 数据挖掘 • 是一种分布式计算框架,将复杂处理过程分解为Map和Reduce过程,提高并发处理能力; • 对具有时效性的流式数据进行的计算,计算的结果在数据出现之后立即得出,主要用于处理具有时效性的海量流式数据 并行数据处理(M/R) 计算层 流式计算 流数据总线 • 是一个分布式、可靠、和高可用的海量流数据获取汇集技术,用于收集流数据,同时对数据进行简单处理,并发送到各种数据接受方; • 在关系数据库和非关系型数据库间相互传输数据,从而实现数据结构之间的相互转化 • PiG Latin语言的编译器把类SQL的数据分析请求转换为经过优化处理的MapReduce运算 • 基于Hadoop提供一个数据仓库工具,可以将非结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能 整合层 大数据连接器 PIG HIVE 列数据库 • 采用了以数据列为单位进行存储的模型,该存储模型非常有利于对数据库进行高效的压缩 • 一种NoSQL(非关系型数据库)模型,其数据按照键值对的形式进行组织、索引和存储。 • 将数据放在内存中直接操作的数据库。相对于磁盘,内存的数据读写速度要高出几个数量级有效整合分布式环境下的存储资源,提供统一存储服务管理。 • 通过网络使用每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备以实现数据的分散存储。 存储层 键值数据库 内存数据库 HDFS
各行业大数据应用情况 • IT • 针对多个业务系统进行的日志关联故障/预警分析 • 网络安全 • 金融服务 • 欺诈检测 • 风险管理 • 全方位客户分析 • 零售 • 市场细分 • 客户情绪分析 • 精准实时营销 • 交通运输 • 天气和交通状况对物流和燃油消耗量的影响 健康与生命科学 • 政府管理 • 实时全方位监管 • 态势感知 • 流行病早期预警 • ICU患者监控 • 远程健康监控 • 电信 • CDR处理 • 客户流失预测 • 套餐推广优化 • 设备监控
大数据技术成熟度 根据Gartner的技术研究报告,目前大数据已经处于期望膨胀的巅峰期,在这个时期各行各业的信息化领导者们都开始着手相关技术在自身发展中的应用研究,后续随着相关研究和项目的不断深入,对大数据技术的一些不切实际的泡沫期望将被挤压破灭, 大数据技术逐步走向成熟期。 当前大数据发展阶段 7
目录 1 大数据概念及关键技术 3 4 2 结论 电网公司数据现状 电力大数据应用场景
电力企业步入大数据时代 Ref: Addressing the Big Data Concern in the Utilities Sector by Brian Bohan, Vitria Technology, and Bret Farrar and Mark Luigs, Sendero Business Services 电力行业的信息时代正处于关键转折点,随智能变电站系统、现场移动检修系统、测控一体化系统、GIS系统、智能表计等建设,以往数据类型较为单一、增长较为缓慢的情况将发生转变,逐渐步入到由复杂及异构数据源广泛存在和驱动的时代。
电力大数据的定义与特征 电力大数据应用是以进一步支撑业务发展与创新为目标,利用大数据存储、整合、计算、应用四类核心技术,驱动业务应用和技术平台的升级与改造,扩展对业务数据采集的容纳能力,填补在非结构化数据分析与利用、海量数据挖掘等领域的空白,提升在信息资源价值挖掘的整体水平,促进业务管理向着更精细、更协同、更敏捷、更高效的方向发展。 电力大数据是指通过传感器、智能设备、视频监控设备、音频通信设备、移动终端等各种数据采集渠道收集到的,海量的,结构化、半结构化、非结构化的业务数据集合。 特征(4V) 电力大数据 数据量 (Volume) TBPB以上 多样性 (Variety) 结构化、半结构化、非结构化、 速度 (Velocity) 持续实时产生数据,要求即时处理 价值 (Value) 业务趋势预测 和数据价值挖掘
国内电力公司数据存储现状 随着智能电网、三集五大两中心业务建设推进,产生了大量的数据。目前主要通过关系型数据来存储、计算。 • 规划:GB级电网规划信息数据和计划类数据; • 建设:每月约100GB结构化、300GB非结构化建设管理数据; • 运行:每个网省每年约7亿条/6TB电网电压、电流等电网运行数据; • 检修:生产设备状态数据量大,视频数据尤其巨大,达到PB级 • 营销:每年新增约90TB营销用电采集数据; • 客服中心:3TB客户档案及交易数据,日增4GB客服音频数据; • 运监中心:运监接入明细数据后,网省结构化、非结构化、空间地理信息达到TB级。 目前业务数据主要采用关系数据库,如ORACLE、达梦、金仓进行存储,不能满足智能电网条件下大量传感器对数据I/O吞吐量的要求。 采用分布式存储架构 提升点 • 适应数据量由TB级向PB级发展 • 实现数据高性能读写、存储和高可扩展性 当前解决方案 现状
国内电力公司数据类型现状 从数据类型上看,除传统的结构化数据外,还产生了系统日志、表计等半结构化数据和视频监测、客服音频等非结构化数据,对于这些非结构化数据,多数保存在本地系统中,且不能被检索分析,缺乏对其进行数据管理的手段。 • 需要采用自然语言识别、视频分析等技术实现对非结构化数据向结构化数据的转换,实现对多类型数据的全景分析。 提升点 当前解决方案 应用系统结构化数据 客服中心音频非结构化数据 • 目前对半结构化、音频、视频、图像数据大多采用文件存储,未实现对文档、音频及视频等非结构化文件的检索,以及对混合数据类型的分析挖掘 视频监测非结构化数据 系统日志半结构化数据 现状
国内电力公司数据分析速度现状 从数据处理速度上看,目前分析功能和辅助决策功能大体上能满足业务需要,但随着数据量的不断增加,一些分析性能问题也逐渐显现。 提升方向 业务现状 目前方案 采集及分析 用电信息 需要采用分布式存储及并行计算技术提高数据入库及分析速度; 采用队列对数据进行缓存,分批写入数据;采用离线分析模式,后台存储过程离线运行。 目前只能每天入库一次;对用电信息数据分析只能实现按天统计。 需要采用分布式存储,流式计算等技术对设备状态及视频流式监测数据进行分析。 对设备只能判断当前状态信息,无法实现大范围、长周期设备状态分析及统计 生产管理 在关系数据库中对设备信息采用基础数据加规则匹配模式进行数据分析。
国内电力公司数据价值挖掘现状 从数据价值挖掘上看,对数据利用的手段还主要停留在基于报表的统计分析,缺乏对数据进行挖掘和探索的高级分析手段,制约了从数字化向智能化的发展。 提供多样化统计分析和数据挖掘手段,增强关联度和预测性分析,发现公司数据潜藏价值,服务公司战略决策、业务应用、管理模式创新 提升点 当前解决方案 数据价值挖掘主要体现在以Cognos,BIEE,BO等报表工具为主的统计分析,对数据挖掘、趋势预测等高级分析还欠缺应用 数据利用手段: 数据主要停留在对结构化数据进行指标的统计分析阶段,对单业务的分析较好,对跨业务的分析较弱,对数据挖掘和探索方面还停留在浅层学习阶段,数据资产价值体现上整体停留在粗放型阶段 现状
目录 1 大数据概念及关键技术 3 4 2 结论 电网公司数据现状 电力大数据应用场景
电力行业案例分析:法国电力公司基于大数据的用电采集应用电力行业案例分析:法国电力公司基于大数据的用电采集应用 解决方案: 项目背景: 法国电力公司的研发部门成立了Big Data项目组,借助大数据技术研究海量数据的处理架构。 目前全法国已经安装3500万智能电表,智能电表采集的主要是个体家庭的用电负荷数据。以每个电表每10分钟抄表一次计算,3500万智能电表每年产生1.8万亿次抄表记录和600TB压缩前数据,电表产生的数据量将在5-10年内达到PB级。 负荷曲线数据高速处理 用户用电趋势预测 实时电价 分布式可再生能源并网 电网调度局部优化 应用层 BI和即时分析工具 数据挖掘工具 项目产生的效益: 计算层 • 形成能够支撑在规定延迟内的复杂、并行处理能力;可以在不同尺度上进行处理,某些应用实现了实时处理; • 实现电网调度等高级应用(电网状态监测,电网自动愈合);对电网调度进行局部优化; • 用电需求侧管理,实现了实时电价; • 实现了电网的可再生能源的接入; 分布式文件系统和分布式数据库 数据 管理层 结构化数据收集 时序数据收集 智能电表数据 电网运行、合同、气象等数据 数据层
电力行业案例分析:丹麦维斯塔斯基于大数据的数据实时处理平台电力行业案例分析:丹麦维斯塔斯基于大数据的数据实时处理平台 项目背景: 该企业拥有43000个风力发电机,安装到65个国家,共计2万多员工。风力发电机的位置选择直接关系到发电能力和投资回报。安装位置要考虑诸多的因素,温度,风向,风力,湿度等,该公司拥有的数据,通过现有的方案无法及时处理。 已安装的风力发电机及其他收集到的环境信息,遍及全世界,过去十年的数据,数据量惊人,共计2.6PB气象数据 解决方案: 采用大数据平台解决了海量数据分析与处理问题,优化风力涡轮机配置方案,从而实现最高效的能量输出。 高效能量输出 气象报告 精确安装定位 潮汐相位 应用层 计算层 BigInsights 流计算 集成管理接口 Symphony M/R 存储栈 • 项目效果 • 对天气建模以优化风力发电机的放置,最大限度提高发电量并延长设备使用寿命。 • 将确定风力发电机的位置所需的时间从几周缩短为几小时。 • 纳入 2.5 PB 的结构化和半结构化信息流。 预计数据量将增长到 6 PB。 数据 管理层 GPFS-FPO(分层存储、多站复制) 信息集成与管理 数据层 环境监测数据 发电机位置信息
数据现状与业务需求 应用场景与价值提升 电力大数据在规划领域应用分析 • 由于大规划数据较少,数据种类不复杂,对实时性要求不高,目前还不具备大数据应用条件。未来5年,随着配网规划业务的覆盖面进一步扩大,将逐渐积累TB级数据,对于数据的收集、存储和分析处理将提出更高的要求。 • 中长期负荷预测:基于海量用采数据、GIS数据、规划区域面积、人口、国民经济、占地面积、用地类型、容积率等历史数据和预测情况,采用数据挖掘等大数据技术,实现空间负荷预测。作为规划设计的依据,提升决策的准确性和有效性。 • 规划平台是一级部署多级应用系统。 • 目前,规划数据主要以结构化数据为主,主要是电网信息数据和计划类数据等,数据量为GB级;非结构化数据包含少量的图片,数据量为MB级。 • 设计平台数据收集频率为1年2次;管理平台统计报表一般是按月统计,计划是1年1次,对实时性要求不高。 • 未来5年,随着规划覆盖范围进一步扩大,需要综合利用相关历史事实数据,充分利用大数据技术进行相关性分析,为大规划提供智能辅助决策。
数据现状与业务需求 应用场景与价值提升 电力大数据在建设领域应用分析 • 基建系统目前采用二级部署方式,系统数据包含结构化和非结构化数据,结构化数据主要是建设管理数据,全网每月产生约100GB,非结构化数据主要包括文本和图片,每月增量约300G,保存在非结构化数据平台,非结构化数据平台无法被其它工程建设方直接访问进行数据的上传下载操作,在一定程度上影响了工程管理效率。 • 由于基建系统目前还处于内部整合阶段,暂时不具备成熟的大数据应用条件。 • 现场图片智能对比分析和预警。 • 利用分布式存储技术,搭建低成本、高扩展性的存储系统,提高基建系统对现场图片的存储能力,使得各工程建设方可以将工程施工信息直接上传并驻留在基建系统内,加快了系统对施工现场问题的响应速度,提高了管理效率。采用并行计算和模式识别等大数据技术,将海量的历史现场照片数据与当前现场照片数据进行批量比对分析,发现施工现场在质量与安全等方面的异常情况,并最终实现对工程建设的自动监控和预警。
数据现状与业务需求 应用场景与价值提升 电力大数据在检修领域应用分析 • 生产管理系统是二级部署系统,已经在20个网省部署应用。 • 主要包含设备的台账、两票、试验、在线监测、家族缺陷、不良工况等数据,数据种类多,数量大,达到PB级。 • 目前根据设备评价导则进行评分,根据评分制定检修策略。但设备在线监测的数据价值远未被挖掘出来,需要数据进行深度分析,进行设备状态综合评价。 设备状态检修是运检一体化生产管理业务的核心,随着生产管理系统数据的积累,迫切需要大数据技术对检修业务进行提升。 设备状态评价及预测,支持检修策略优化 利用图像处理和模式识别技术,自动对在线监控的视频数据进行分析,识别设备缺陷,实现智能报警。利用大数据中数据挖掘技术,对设备台帐、运行、监视等各种数据进行关联分析,找到导致设备故障的关键因素。通过专家库、决策树等技术,构建设备健康状态综合评价模型,和设备寿命的预测模型,最终实现设备风险评估,优化检修策略。
数据现状与业务需求 应用场景与价值提升 电力大数据在运行领域应用分析 • 运行目前主要由电网D5000平台整合之前多个子系统组合而成,D5000调度平台由实时监控与预警(EMS)、调度计划(OPS)、安全校核(SCS)和调度管理(OMS)四大应用系统组成。 • SCADA采集了大量的电压、电流、开关状态等电网数据。同时,随着PMU的部署,调度也采集了大量的相角数据。每个网省每年约产生7亿条/6T数据。 • 新能源发电能力预测 • 利用大数据的机器学习、模式识别技术,对海量的气象数据进行模拟分析,和计算预测(预测风场实时风速、光伏发电站太阳能辐射照度等气象信息),结合风机及光伏发电出力曲线及历史发电信息,提升调度对新能源发电的预测能力。 • 级联式停电模式的研究 • 利用大数据的数据挖掘技术,对SCADA采集的数据,保护故障录波数据,报警系统的数据,PMU数据,GPS的时间数据,气象数据(如台风、雷击等)进行关联分析,找到根源故障,进行故障预测,避免级联式停电。
数据现状与业务需求 应用场景与价值提升 电力大数据在营销领域应用分析 • 营销业务相关的信息化系统主要有营销业务系统,用电信息采集系统、辅助决策系统等。 • 数据类型以结构化数据为主,包含营销领域设备数据、用电客户档案数据、电能计量数据等。同时有供电合同、用户身份证明等纸质资料扫描件等非结构化数据。 • 目前,仅用电采集系统一项,各网省公司平均累计数据已达5TB左右,全网总计约135T,每年整体新增数据量约90TB。 • 随着用户规模扩大,系统数据量将继续持续增加,对系统的数据存储、分析处理和统计计算能力提出更高的要求。 • 实现用电信息采集高效存储和分析计算 • 利用大数据分布式存储技术,提升用采存储能力,实现用户用电信息的实时快速采集入库, 利用大数据流计算和并行计算技术,实时统计各类电能参数,保证精准的自动化费用核算。 用户用电行为分析,支持有序用电及反窃电业务 • 利用数据挖掘、模式识别、机器学习等大数据技术对客户历史用电信息进行分析,识别异常用电行为,防止偷电、窃电行为。结合客户档案信息,利用大数据分类和聚类技术,帮助建立客户信用等级模型,发掘造成电费回收困难和欠费风险因素。有效获取能提高电费回收水平,避免新欠电费生成的有效措施,提升营销经营管理水平。
数据现状与业务需求 应用场景与价值提升 电力大数据在客服中心应用分析 • 95598核心业务系统分为智能互动网站、业务支持系统和基础支撑平台三个独立系统。 • 结构化数据包括档案数据类、交易数据类和GIS数据,目前是500G,日增200M,预计全网数据有3TB;非结构化数据包括音频类数据,目前日增4GB,预计全网数据年增7TB。 服务质量实时监控 采用流处理和模式识别等技术,对通话过程中双方的语音、语义、语速等信息进行实时识别和分析,当发现有异常信息出现时,管理人员可以接入通话。这样实现了对客服过程的实时质检,最大程度保障通话服务质量。 座席答案智能推送 利用大数据语音识别技术,通过对当前通话的语音进行实时分析,找到关键词,帮助客服人员迅速找到答案和并及时推送给客服人员,提高服务效率和质量。
数据现状与业务需求 应用场景与价值提升 电力大数据在运监中心应用分析 • 运监系统主要由5个模块构成:业务监控、运营分析、协调控制、综合管理、大屏可视化。 • 运监数据分为结构化、非结构化数据和空间地理数据,接入明细数据后,一般网省结构化数据量将达到300余GB,非结构化数据将达到500多GB,空间地理信息数据将达到300多GB,数据量最终达到TB级别。 • 迫切需要实现在线监测、在线分析和在线计算工作台;需要有综合数据模型库和算法库支撑业务分析需要;需要能对海量异构数据进行在线数据质检。 在线监测分析 • 利用流式计算、可视化和并行处理等大数据技术实现对公司经营管理24小时即时在线监测分析,实现对规划、建设、运行、检修、营销、人资、财务、物资等业务全方位监测分析,需要构建全面监测、运营分析、协调控制、综合管理等一体化的运营监测工作台系统,及时发现公司运营过程中的异动和问题并自动预警。 • 跨业务多专业关联分析 • 为了满足运监跨业务和多专业分析和挖掘需要,在大数据环境下,迫切需要构建多种业务模型和分析挖掘算法,形成大数据模型库和算法库,利用聚类和模式识别技术,实现运营监测多业务关联分析,如对营销和财务收支情况建模进行关联分析等。
电力大数据应用成熟度评价模型 应用评价 应用评价维度 从五个成熟度维度对五大两中心业务进行评估,得出检修、营销、客服中心、运监中心综合评分较高: 注:评分:1代表在该维度上不成熟;5代表在该维度上完全成熟,2-4介于之间。
目录 1 概念特征及关键技术 3 4 2 结论 电网公司数据现状 电力大数据应用场景
结论 • 电力企业已进入大数据时代。电力大数据是指由各种数据采集渠道收集到的,海量的,结构化、半结构化、非结构化的业务数据的集合。从数据量、多样性、速度和价值方面具有大数据的特征。 • 电力大数据核心技术涉及数据存储、整合、计算、应用四个层次。大数据技术将推动电力公司信息技术平台的升级与改造,扩展对数据的容纳和处理能力,填补在非结构化数据分析与利用、海量数据挖掘等领域的空白,提升在数据资源价值挖掘的整体水平。 • 电力大数据是电力公司的重要资产,将为电力行业带来显著的价值和电力公司的核心竞争力。驱动电力公司由定性分析向定量分析转变, 促进业务管理向着更精细、更协同、更敏捷、更高效的方向发展。 • 电力大数据目前处于前期研究阶段,需要电力企业、生产厂商、学术组织、研究机构共同合作,致力大数据关键技术及在电力行业的应用研究和开发。
谢谢! 张沛 18601049287 QQ:2512692577