打造稳定可靠的采编平台

2012-01-25 08:40黄向东
中国传媒科技 2012年11期
关键词:可用性交换机服务器

文|黄向东

打造稳定可靠的采编平台

文|黄向东

一张报纸的出版发行过程,网络和计算机等设备在其中占有相当重要的份额。从新闻的采编过程到版面的制作过程直到将版面传输到各地印刷点,都与网络和计算机设备密不可分。总结以往经验和教训,网络和计算机等设备的可用性都将直接影响报纸出版的时间。尤其是网络交换设备、服务器、存储设备在整个印刷出版的生产过程中至关重要,任何一点故障足以引发系统整体崩溃。通常这类故障发生时,可以通过技术手段解决使系统回复正常状态,但有时故障发生时恰好在报纸出版前的紧张阶段,这时排除系统故障的时间就不很从容。多年以来,技术人员为解决这类能够引发系统崩溃的单点故障作出巨大的努力,利用每次升级改造的机会不断完善采编系统平台的可用性,使之逐步消除故障隐患。

光明日报社的原有的采编平台初建于1994年,于2004年报社搬迁时重建到现在已工作8年,存在速度慢、故障隐患多、版本老旧等诸多问题。随着信息技术在媒体的广泛应用,信息系统设备迅速扩张,硬件设备不断增加,机房空间、能源、空调等配套资源愈现短缺。随着报社向全媒体复合出版的转型,对信息系统的依赖程度越来越高,原有的信息系统必须进行架构整合及优化。2011年本报决定对采编系统进行整体改造升级,包括升级软件、更换所有硬件设备、建立移动传稿机制。在这次升级改造过程中,我们对原有系统的薄弱环节进行深入分析研究,在有限资金条件下,利用新技术解决了我们认为会引发系统崩溃的所有单点设备。为此,我们在这次改造过程中引进了云计算的概念,并引进了一些设备的最新技术综合解决上述问题。

虚拟技术在服务器中的应用

服务器在采编系统中的作用和重要性不言而喻,改造前所有服务器单独使用,每台服务器基本上执行一个应用程序。机房内用于采编平台的服务器有十几台,作为备份的服务器接近半数,大量资源闲置浪费。2004年曾经安装双机热备软件,由于当时技术不过关,该软件经常引发服务器不能正常工作,只能放弃这种方式,改为服务器冷备份。这种配置方法在一定程度上提供了解决服务器故障的方法,但是由于在采编平台的服务器较多,故障概率相应增加,对整个系统仍然构成严重威胁。

云计算的一个重要理念是将计算机中多余的资源为其它应用提供服务。根据这一理论本次更换设备过程中,按照报社全媒体新闻生产系统的规划,并通过论证我们选择了 VMware 的虚拟化和云计算技术来实现报社私有云。Vmware的虚拟化软件是当前成熟可靠且历经市场检验的、可以持续发展的虚拟化/云计算技术。具体做法是:首先我们在机房设置了两台高配置物理服务器,应用Vmware vSphere虚拟化软件将两台物理服务器设置成两台虚拟服务器主机(ESXI),每台虚拟服务器主机(ESXI)可设置多台虚拟服务器,分别运行操作系统和采编平台的中的一个应用程序。通过这样配置的建成报社内部私有云,近期效果非常明显,能够防止服务器出现故障时不会造成整个系统崩溃,极大提高系统可用性。

根据VMware HA群集功能的一个重要特性,在一个包括两个或者两个以上ESX主机的群集中,每一台VMware ESX服务器配有一个HA代理,持续不断地检测集群中其他主机的心跳信号。假如某台ESX主机在连续三个时间间隔后都还没有发出心跳信号,那么该主机就被默认为发生了故障或者与网络的连接出现了问题。在这种情况下,原本在该主机上运行的虚拟机就会自动被转移到群集中的其他主机上。反之,如果一台主机无法接收到来自群集的其他主机的心跳信号,那么该主机便会启动一个内部进程来检测自己跟群集中其他主机的连接是否出现了问题。如果真的出现了问题,那么就会中断在这台主机上所有正在运行的虚拟机,并启动预先设定好的备用主机。对于一次VMware HA故障转移,客户端操作系统认为只是一次因硬件的崩溃而进行的重启,并不会觉察到是一次有序的关机。因此,这样的修复并不会改变操作系统的状态。此外,虚拟机中任何正在进行的业务也不会丢失。所以,VMware HA的故障转移对于客户来说可以算是完全透明的,几乎不会出现任何停机的危险。

当服务器正常工作时借助Vmware vSphere的DRS功能可以起到负载均衡的作用。DRS可以根据CPU的工作状态,自动将负载比较重的EXSI中的虚拟服务器转移到另一台EXSI。

采用虚拟技术后由于两台物理服务器可以运行多个应用程序尚未出现瓶颈效应,节省了一定数量服务器,机房能源消耗下降,符合节能要求。

从长远效果看,借助Vmware vSphere的其它功能可以解决有关服务器的更多的问题并明显提高技术人员对服务器的管理水平。例如借助Vmware DRS功能可以将一个物理服务器置于维护模式下时,Vmware DRS将自动把所有虚拟机迁移到其他物理服务器上,从而实现零停机的服务器维护。当服务器负载过重,可以利用Vmware Vmotion的功能在不宕机的情况下增加物理服务器的数量。

光明日报是中共中央机关报之一,是由中宣部直接领导的全国性的新闻媒体,是广大人民群众在生产和生活过程中了解和贯彻中央精神的重要来源。在当前多种媒体并发的信息化高速发展的时代,该报的内容和出版发行的时效性直接关系到该报的生命力。对于报社的技术工作人员来说,保障报纸的正常出报发行相对于报纸发行的时效性有直接的影响因素。

应用新技术保证数据存储安全

为保障报纸的正常发行,对数据存储系统有严格的要求,其理想状态必须保证有2份数据实时在线,发生故障时,数据恢复时间为0。为防止因故障数据丢失,以前有磁带机后备、利用RAID技术、镜像后备等方法。这些方法基本能保证数据不丢失,但在采编平台应用时有数据恢复时间的问题。磁带机数据恢复时间以小时计,根本不能使用。RAID技术、镜像后备等方式在维修或更换硬盘需要修改IP地址、宕机、重新启动时间。本次更换设备采用了NETAPP存储系统独特的MetroCluster技术。MetroCluster 是一个独特的解决方案,能够将基于阵列的群集与同步镜像相结合,从而提供持续可用性和零数据损失。作为自成一体的“自包含”解决方案,MetroCluster 能够

Science前沿以透明形式从故障中恢复,从而可以始终保证任务关键型应用程序不间断。这还将消除重复的更改管理活动,以降低人为错误和高管理开销的风险。从所附简图可以看出,采用MetroCluster技术后两组磁盘不仅仅完成同步镜像,并且通过心跳线构成相互检测体系,当系统发现有一组磁盘出现故障时,另一组可接管全部业务,无需人为操作即可恢复数据。此项技术对于技术人员获益明显:

1. 不间断升级可最大限度减少计划停机时间

2. 自动化的站点故障转移可缩短计划外停机时间

3. 借助 VMware HA和FT,在虚拟化环境中实现端到端的持续可用性。

网络交换设备的防故障措施

网络交换设备在采编平台中的重要性举足轻重。其发生故障对采编系统也是灾难性的。根据以往经验,这次设备更换采用双核心交换机,每台核心交换机采用双引擎、双电源。从主机房连接到每个电信井采用双路光纤按照链路冗余方式设置。这样就可以极大减小交换机设备出故障时对系统的影响。

对于报社的另一个重要网络,互联网接入网在本次设备更换中也有重大改变。报社从1995年建立采编平台以来,为确保内网安全,始终采取内外网物理隔离方式。随着信息化的高速发展,社内编辑记者对互联网的依靠程度越来越高。为防止互联网网络出现故障而影响工作,外网交换机也采取了双核心交换机。在配置上也采取了双引擎、双电源以及两对光纤按照链路冗余方式接入各电信井。在报社范围内布置了无线交换机。极大方便了采编人员的上网需求。

考虑到记者在外采访时的发稿需求,建立了移动传稿系统,为使稿件直接进入采编内网并自动分配各部门稿库,传统的物理隔离将被打破,出于安全考虑,在互联网与采编内网间加入防火墙、防病毒网关、防入侵检测网关等安全设施,并根据人民日报经验,设置网闸。

光明日报社通过本次技术改造,利用虚拟技术、Metrocluster技术、网络核心双备份技术以及其它一些安全方面新技术成功建成报社内部私有云,全面提升采编系统可用性。新老系统于6月23日成功切换,此后将进一步考验新系统的综合性能;并发现存在的新问题。我们将针对新发现的问题进行改进。

10.19483/j.cnki.11-4653/n.2012.11.016

光明日报社技术处)

修炼|趋势

猜你喜欢
可用性交换机服务器
基于辐射传输模型的GOCI晨昏时段数据的可用性分析
服务器组功能的使用
机构知识库网站可用性评价指标的计量学分析
通信控制服务器(CCS)维护终端的设计与实现
PowerTCP Server Tool
更换汇聚交换机遇到的问题
基于地铁交换机电源设计思考
医疗器械的可用性工程浅析
缔造工业级的强悍——评测三旺通信IPS7110-2GC-8PoE工业交换机
计算机网络安全服务器入侵与防御