水利枢纽电站数据容灾系统分析研究
——以清远水利枢纽电站为例

2020-06-04 09:10罗智鹏
广东水利水电 2020年5期
关键词:灾备容灾数据备份

罗智鹏

(清远粤华电力有限公司,广东 清远 511500)

1 概述

随着信息化、智能化的快速发展和普及应用,越来越多行业通过实施或升级信息化、智能化项目以适应社会发展的需求,在生产过程中收集关键数据,对企业不断完善信息系统集成化、智能化、大数据提供基础,具有重要的经济效益。信息化和智能化在水利枢纽的应用也越来越广泛,特别是近些年,国家大力发展水上交通,清洁能源等,以降低环境污染,但对信息化和数据安全提出了新的要求(《水利工程运行管理监督检查办法》(试行)内容中涉及自动化系统缺陷分类标准的要求)[1]。因此,水利枢纽的生产数据和信息的自动化和智能化对安全分析、效率分析等成为关键,不仅有利于提高水利枢纽的电站、船闸、水库调度管理水平,而且还能提高水资源的利用和经济效益[2]。同时,生产数据对于水利枢纽电站极为重要,其在日积月累发展过程中形成的大数据,可对电站经营发展模式和挖潜改造等提供可靠依据。生产数据一旦丢失,可能产生较大的影响和损失,甚至会使电站、船闸等调度系统无法正常工作,存在安全隐患。为了确保水利枢纽信息化系统的正常稳定运行,以清远水利枢纽电站和船闸数据容灾方式为研究对象,分析枢纽电站及船闸信息自动化数据的集成、传输、存储以及不同容灾方式应用下复原点目标(Recovery Point Objective,RPO)和复原时间目标(Recovery Time Objective,RTO)的性能[3](如图1所示)。为清远水利枢纽后续电站信息系统升级改造,提高生产数据的安全性、连续性和完整性,达到较好的容灾效果。

图1 故障节点发生前后的数据转输示意

2 数据容灾方式

从数据容灾的性质来看,有狭隘的数据容灾和广义的数据容灾。狭隘的数据容灾仅是对DBMS(数据库系统)或者DB(数据库)进行完全备份或者差异性备份,应用上分为冷备份和热备份,在数据库崩溃或者数据丢失的情况下,可以实现恢复。广义的数据容灾,是指整个应用系统的备份,包括平台和数据库系统及数据。数据容灾有单纯数据备份、平台+数据备份、云备份+平台等。无论哪种容灾,其根本和基础是数据备份。

2.1 数据备份

数据备份是整个系统运作的最后一道防线,其目的是为了系统宕机或者数据库崩溃时能够快速地恢复数据,使系统恢复正常状态。一般常用的是同机备份、异机备份(包括同城、异地备份)。

按照信息安全技术的相关规范要求[4],同机(本地)备份,信息安全等级属于第1级。这一级容灾备份,实际是上面所指的数据备份,容灾恢复能力最弱,只在本地进行数据备份,并且被备份的数据磁带只在本地保存,没有送往异地。这种容灾方案中,最常用的设备就是数据光盘存储或者移动存储设备(较早期主要是磁盘或磁带机)。磁带存储主要适用于存储数据容量较小的中小型企业,除了选择磁带机外,还可选择磁带库、光盘塔、光盘库等存储设备进行本地备份存储。

异机(异地)备份,信息安全等级属于第2级,该备份是把本地系统的关键数据备份,然后送到异地或者异机保存。系统或者数据库崩溃后,按数据恢复程序恢复系统和数据。这种容灾方案也是采用上述存储设备进行异地或者异机取出备份数据恢复数据库。

这两种方式都属于冷备份,是早期容灾的保护措施,但恢复程度很低,且备份内容不完全,容易造成一部分实时数据丢失。同时,本地同机或者异机备份在发生自然灾害时或者火灾等不可控的情况下,数据将造成巨大的损失。异地备份可以避免该情况,一般存储到专门的机构或者银行等。目前主流的模式主要是双机或者多机热备,系统及数据库架构完全一致,但可多线程同时触发,异地可通过DNS等方式做到无缝切换。在建立容灾备份系统时会涉及到多种技术,如:系统上配置ROSE热备系统、负载均衡系统;远程存储技术,如:SAN或NAS技术、远程镜像技术、4G / 5G无线传输存储、虚拟存储、基于IP的SAN的互连技术、快照技术等。

2.2 平台+数据备份

该模式主要是实现整机备份,包括整个系统平台和数据库完整备份。包括完整的一台服务器或者工作站+数据中心(数据库集)。该模式与上述数据容灾储存方式基本一致,但主要应用方式是热备份。结合了系统平台,容灾性能相对比单数据存储容灾的方式更强,属于应用级容灾备份[5]。系统架构逻辑是在异地建立一个热备份点,通过网络进行数据备份,即通过网络以同步或异步方式,把主站点的数据备份到备份站点。备份站点在伺服时只备份数据,不处理业务。当发生灾难时,备份站点从伺服模式激活为主服务,接替原主站点的业务,从而维护业务运行的连续性。另外一种方式,不设置主从应答服务,整套系统互为对方的备份系统。这两个数据中心系统分别在相隔较远的地方建立,都处于工作状态,并进行相互数据备份,可以按地域进行划分或者通过负载均衡无缝对接。当某个数据中心发生灾难时,另一个数据中心接替其工作任务。通常在这两个系统中的光纤设备连接中还提供冗余通道,以备工作通道出现故障时及时接管工作。

2.3 云数据+平台备份

随着大数据应用和云服务技术成熟和发展,借助云数据进行容灾已成为一种趋势,应用推广非常多。在云平台服务和云数据环境下架设企业的系统平台(如图2所示),主要包括生产设备信息收集(应用)前端、互联网或者高速通信专线、析取器及数据资源池(数据中心)等。基本做到异地、异机、全天候数据无缝存储和备份。但由于数据量较大,特别是对外服务的端口和重点信息交换业务,数据以每天数GB的量递增,而全数据存储的时间过长,RTO恢复时间也是非常长,不利于系统中崩溃前后数据衔接和恢复,也就是数据备份的能力较差,数据丢失的可能性较大。因此,平台和云数据差异备份是一种很好的解决方案,设置特定的系统自动执行时间(Auto Time,AT),让数据库自动执行差异备份,并上传至云库内。该模式前提是保证通信链路是畅通的。

图2 云数据+平台备份结构示意

3 云容灾系统架构

从上述数据备份发展到云应用平台+数据的容灾系统,是信息发展的必然过程,特别是“互联网+”的应用,云系统的普及,促进容灾系统的发展。虽容灾模式不断地更新,但需依托整个云应用系统的技术,完全可以不在本地架设太多的硬件设备,服务端架设在云平台上,企业或者供应链不会因为服务器端的崩塌而终止服务,影响业务的持续性。云平台服务主要包括SaaS(软件即服务)、PaaS(平台即服务)、IaaS(基础设施即服务)等,通过网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等实现相关系统处理和容灾,并通过处理复杂的数据分析、汇总和计算,以便整合和分析海量的跨地域、跨领域的数据[6]。通过信息互联互通、部门相互协同的模式,使系统具有一定的智慧性和协调性,属于真正意义上的无缝灾备系统。云灾备架构主要有数据副本管理(Copy Data Management ,CDM)、虚拟容灾(virsual Recovery)、一体机等中间模块化技术,主流产品有阿里云、移动云、华为云灾备等。

3.1 基于CDM容灾模式

CDM与连续数据保护(Continuous Data Protection,CDP)有点类似,但思路却完全不一样,前者侧重利用数据,后者侧重保护数据。从大数据意义上分析,CDM更具有发展前景。基于CDM的容灾模式,是在虚拟环境下的一种一体化灾备,能提供平台、数据、文件的全面备份能力。同时,基于数据中心虚拟化平台构建容灾系统,支持备份数据集的直接使用功能,支持报表统计、数据分析、容灾演练等综合应用场景,进一步发挥灾备系统的应用能力。包括多个数据库集的同时实现实时备份、挂载恢复能力和负载均衡。

3.2 基于VR整机容灾模式

VR整机容灾模式主要有阵列复制技术和整机复制技术,整机复制技术使用更为广泛,特别是在多个生产作业中心或者多个子公司系统关联时,每个点都建立1套主机服务和1套VR服务,类似镜像技术,将数据形成快照镜像储存云系统数据库中,在出现单点应用故障或者数据故障时,可在短时间内恢复。

3.3 基于一体机容灾模式

一体机容灾模式,是将整个应用服务、数据关联、数据库、日志等,可实时存储和备份数据,完全是一套可应用的企业级应用服务,利用心跳机制,监测主备服务的应用情况,当出现应用服务中断,则自动启动接管服务,前端使用时基本是没有延时和差异。

4 容灾系统的性能比较

不同的容灾系统,应用方式和管理方式也有差异,性能上也有一定的差距和要求。容灾系统最重要的两个指标RPO和RTO,包括系统的组成和集成方式、带宽要求、系统架构、数据差异性、投入及维护成本等。通过研究对比,不同灾备方式,性能区别较大(见表1)。

表1 不同数据(平台)备份方式的性能对比

4.1 常规数据容灾

数据容灾包括数据的冷备份(本机、异机)和云数据存储备份,这种组成结构是最简单,集成度不高,也最容易实现,但RPO和RTO基本以小时计算,数据恢复及时性得不到保证,一般是对数据重要程度不敏感或者对恢复时间要求不紧张的应用场景。常规数据容灾是早期企业或者重要行业的一种数据管理措施。

4.2 云容灾系统架构

云容灾包括CDM(CDP)、VR整机容灾、一体机容灾。具有云容灾的应用系统,依托的就是云服务供应商的硬件设备、软件设施和平台服务设施,企业可以不需自建灾备机房,开源的平台也可由企业自行开发,数据和应用系统备份至云端(如图3所示)。

图3 云灾备架构示意

按照PRO和RTO的要求,灾备可每小时备份,也可每天备份一次,一些大型的企业或者对实时响应和数据故障快速重续运行要求高的服务,云灾备架构基本是零碎化备份管理,多线程、联机备份。其性能要求也非常高,无论从数据库管理系统、操作系统或者应用文件均能备份云端,对病毒侵袭和逻辑灾难等防御较好,通过CDP进行数据实时传输。因此,RPO和RTO基本可以实现生产本地数据丢失RPO<1 s, 数据就绪时间RTO<5 min;云端与生产系统差异RPO<24 h,云端数据就绪时间RTO<10 min,区域灾难事故时在云端实现数据回切及应急使用或检索,RTO<10 min,RPO<24 h。可以在短时间内恢复系统的使用。

4.3 不同灾备系统的投入

常规数据备份,多数使用同机备份或异机备份(移动存储),费用一般较低,万元以内可以解决,一般企业可采用磁盘阵列RAID10或RAID5也能满足常规生产数据备份[7]。

云灾备系统,按照不同的灾备方式和存储容量、传输模式有所不同,一般按照月或者年来收费,数据容灾系统的费用受云服务平台和数据容量的大小影响,不同的应用平台和数据容量费用有一定差异,但整体投入相比常规数据备份费用高,一般大型企业或者重要单位可采用云灾备方式。

5 数据容灾的应用

结合清远水利枢纽电站和船闸信息自动化系统的使用情况,电站自动化系统使用的是采用常规数据库冷备份,船闸信息自动化系统是采用一体机云灾备+本地双热备运行(如图4所示)。

图4 清远水利枢纽船闸信息系统集成平台架构示意

电站曾在线路甩负荷的情况下,因线路侧未跳闸,电站4台机组同时甩负荷,高频切机保厂用电功能失败,造成全厂失电事故。该事故导致电站自动化信息系统不间断电源保护动作,信息服务器供电中断,包括APP服务端、巡检系统、电站信息系统停止服务,数据中断。恢复送电后,服务器能正常启动,但数据库及应用平台因组态软件启动驱动丢失而无法重续运行。电站上位机监盘服务脱机,机组需要现地手动开机和监盘,严重影响设备的安全稳定运行。同时,在恢复信息化设备期间造成一定的弃水,恢复时间约5 h。

船闸信息化调度系统曾遭黑客攻击,发生数据文件被锁,本地服务被迫终止,因云灾备系统无法与本地服务器通信(即“心跳机制”作用),云灾备接管服务,船闸数据完全同步,船民可正常报闸,中控室可进行远程调度,仅有3艘船只登记出现数据重复并挂起处理,其余调度数据正常,RPO≈2 s和RTO≈5 min。因此,未造成严重的影响。

通过上述两种信息集成系统失效的情景,不同的灾备方式恢复效果相差甚远。由此可见,船闸运用的云灾备系统恢复使用效率及安全性、完整性、时效性远优于常规数据备份模式。

6 结语

通过对清远水利枢纽电站和船闸两种不同的灾备系统和方式的性能对比、影响程度分析,船闸的灾备系统更为完善,恢复数据的完整性和续服能力也非常迅速和便捷,但费用相对于常规数据备份高,系统管理、技术支撑能力、维护要求更为严格[8]。结合清远水利枢纽电站的信息化系统实际应用情况,可采用云灾备架构的VR整机容灾模式,通过限制数据规模,减少投入成本,仅在电站信息化设备发生故障时,通过差异化数据接管服务,从而快速使系统投入运行,通过云平台来远程操作电站机组设备和保障数据的同步性,恢复本地后即可切换本地操作,减少生产数据丢失的风险。研究结果可为清远水利枢纽电站信息系统改造和提升灾备能力提供参考。对同类型电站信息自动化技术改造和提升灾备能力具有一定的参考意义。

猜你喜欢
灾备容灾数据备份
泉州高速公路收费系统远程数据备份研究
海洋数据备份平台的设计和实现
程控交换机的数据备份与恢复技术分析
基于铁路主数据中心建设的灾备管理系统框架研究
No.4 IDC:2019年上半年数据备份与恢复市场同比增长10.0%
高速公路收费中心容灾备份系统建设方案分析
关于建筑企业容灾备份系统方案的探讨
轨道交通清分系统灾备升级方案研究
基于数据容灾技术在企业信息系统中的应用研究
深蓝云海“云灾备”正式上线