运营商桌面云化可靠性优化策略研究

2011-07-27 10:12HeJinWuShengboDingDingBeijingTelecomPlanningDesigningInstituteCoLtdBeijing00048ChinaBeijingUniversityofPostsandTelecommunicationsBeijing00876China
邮电设计技术 2011年8期
关键词:桌面数据中心可靠性

He Jin,Wu Shengbo,Ding Ding(.Beijing Telecom Planning&Designing Institute Co.,Ltd.,Beijing 00048,China;.Beijing University of Posts and Telecommunications,Beijing 00876,China)

1 运营商桌面计算环境面临的挑战

随着科技的日新月异,电子终端及互联网已成为人们生活、工作、娱乐不可或缺的工具,但同时终端的差异性、复杂性、安全性、可用性也给企业管理带来了巨大挑战。

对于运营商而言,目前在用终端以管理知识型与生产任务型2类为主。其中管理知识型终端以办公、代维终端为主,拥有个性化桌面环境,应用丰富,有外网访问需求。目前这类终端已实现入域管理,支持统一安全防护、统一补丁升级、统一访问权限,满足可管可控的要求,硬件配置普遍能满足个性化桌面要求。但对于应用单一、专业性强,无个性化应用需求,以营业厅、客服中心为代表的生产任务型终端的管理则面临很大的挑战。管理方面:终端管理不可达,无法监控各终端运行状态,无法形成完整的终端资产管理;安全方面:终端存在各种安全隐患,包括信息泄露、病毒及恶意软件攻击;运维方面:终端维护复杂、成本高,需逐一进行设备、系统及应用的安装、调试,软硬件频繁升级;能耗环保方面:终端能耗大、噪声大,无法满足节能减排、绿色环保要求。

2 桌面云方案概述

桌面云解决方案正是为解决运营商终端管理的种种困扰而产生的。桌面云实际上为一种云计算IaaS,它将数据中心的计算能力以虚拟桌面的形式交付给用户,即将传统模式下用户侧的操作系统、应用程序和用户数据解耦后转移到数据中心进行运行和保存。用户侧终端仅需保留基本的通信与图像处理能力,用户鉴权认证后即可通过优化的网络协议访问数据中心云端服务器和应用程序以获得与传统模式无差异的服务体验。方案整体架构如图1所示。

桌面云是一种以服务器为中心的计算模式,借鉴了传统的瘦客户机管理方法,主要提供2项服务:一是在数据中心对用户的所有桌面环境或部分应用进行统一管理;二是当用户使用虚拟桌面及应用时,与使用正常的PC终端没有任何体验上的缺失。有效兼顾了对用户桌面的“控制”和“自由”。桌面云是对个人电脑的虚拟化,而不是简单的主机时代的回归。

通过桌面云的引入,可有效“分离”企业IT系统用户的物理终端和逻辑桌面 (含应用程序和用户数据),便于集中部署与工作相关的逻辑桌面环境,达到统一管控、安全可靠、绿色环保、降低TCO、改善使用与维护体验等目的。

3 桌面云定位

对于营业厅类的生产任务型场景,桌面云引入之后,业务的受理模式发生了根本的改变。传统模式下,业务的受理为用户终端与后台CRM等业务系统的交互过程。桌面云化之后,用户终端与后台业务系统之间增加一个桌面云层。所有用户请求均需通过桌面云平台方能到达后台业务系统。

传统模式下,终端管理者并不关注用户终端的高可靠性,营业厅中单终端故障并不会中断整个业务受理过程。此模式下,业务连续性主要取决于后台业务系统的可靠性,只有后台业务系统发生故障宕机才会造成大范围业务瘫痪。但在桌面云模式下,用户操作系统、应用程序、数据均已移到数据中心,相应终端的故障责任同步集中。从用户体验看,传统模式下终端故障责任归属于终端所有者。云化后,桌面是作为一种服务提供给用户,受传统观念影响,用户自然地认为服务中断责任应归属于服务提供者。同时,对于一种应用服务,用户很难接受它与传统终端同一级别的故障率。更重要的是,在新的架构中,桌面云平台是用户访问后台业务系统的必经路径。一旦桌面云平台因故障宕机,相当于切断了用户与后台业务系统间的交互通道,这等同于后台业务系统宕机,同样会造成大规模业务中断。因此,不能将桌面云当做简单的应用系统,它的可靠性级别甚至应等同于后台业务系统,但同时桌面云采用了虚拟化、云计算等创新技术,传统业务系统可靠性保障策略并不足以支撑相应新增需求,本文正是在这种背景下,试图建立一套适用于保障应用了虚拟化等云技术的创新类系统业务连续性的高可靠性策略。

4 桌面云可靠性优化策略

桌面云的可靠性是指在虚拟资源管理和调度的过程中,资源执行任务的能力所表现出来的持久性和稳定性,主要包括资源的可用性、资源完成任务的时限性、资源的连续稳定性。对于桌面云主要考虑从数据、系统、业务3个方面提高它的可靠性。

数据的高可用包括业务数据及系统数据 (系统软件、应用软件、配置等)。数据保存在共享存储上,它的高可用策略相对比较成熟。不同数据的可用性需求存在差异,因此将桌面云涉及到的数据划分为3个级别,即相关配置数据,操作系统、应用程序的镜像文件与用户个性化profile数据,用户个人数据,针对不同级别数据采用不同级别的RAID技术。

图1 桌面云整体架构

系统的高可用指没有直接影响整体架构问题的单点故障,包括虚机层面和物理机层面。平台门户等管理服务器负责桌面云用户的接入与虚拟资源的调度,是整个系统的核心,因此它的可靠性要求最高,采用Cluster结构,即2台或多台主机共用同一部分资源,当1台主机发生故障,另外几台或1台主机接替该主机的工作,这部分资源对用户是透明的。对于桌面资源采用虚拟桌面资源池的方式提升它们的可用性。根据虚拟化基础架构服务器的硬件资源配置计算虚拟桌面支撑能力,按照N+n配置,实现冗余,一旦某一台在线宿主服务器发生故障或需离线维护,则将其上承载的虚拟桌面迁移至其他节点上。同时在虚拟机层面,系统自动将虚拟机的元数据备份至共享存储,并通过domain 0实时监控虚拟机运转情况,一旦确定某个虚拟机发生故障,可将虚拟机的活动内存和精确的执行状态通过高速网络迅速传输至集群内另一节点并新建虚拟机以恢复用户服务状态。系统的高可用方案和数据高可用方案密切相关,数据的高可用是它的基础。图2示出的是虚拟机动态迁移。

图2 虚拟机动态迁移

业务的高可用主要目标是保证业务的连续性,它是一种预防性机制,以数据中心为关注核心,确保相关关键职能在任何环境下都能持续发挥作用。因桌面云数据中心接近后台业务系统可靠性的定位,需通过容灾备份提升其可靠性。采用双中心对关键业务进行容灾,在每个数据中心按40%关键业务容量配置,对于营业厅桌面采用主备用+负荷的方式,分别部署在数据中心1和数据中心2,即每个数据中心既包括关键业务的主用桌面,又包括备用桌面,当用户桌面一个数据中心故障时,另外一个数据中心的备用桌面将承载失效业务。统一的管理节点负责数据中心的选择,从而使得用户可以接入到不同数据中心桌面;管理节点将根据数据中心的运行状态以及用户所在的地址位置执行选择策略,从而实现用户接入桌面的自动负载均衡和容灾切换。具体过程如下:用户接入终端上设定默认的桌面业务入口域名地址,管理节点负责该地址的域名解析,正常情况下该地址将被解析至该用户主用数据中心入口地址,使得用户访问请求路由至其主用桌面;当检测到主用站点故障后,对于用户的后续DNS请求,将被解析为用户备用桌面所在的入口地址,用户即可以使用备用数据中心桌面继续承载业务;在故障恢复后管理节点重新将DNS请求解析为主用站点地址,从而恢复用户对于原主用桌面的使用。

5 资源可靠性评价模型及相应资源调度策略

5.1 资源可靠性评价模型

上述优化策略目标为尽可能提升桌面云服务的可靠性,但可靠性提升的代价是更高的资源耗费,实际应用中更多的是寻找可靠性与资源耗费的一个平衡点。因此,本文建立了一个资源可靠性评价模型,试图借助此模型实现基于可靠性的资源分级,以便为不同需求用户提供差异化服务。

资源包含静态与动态两大类属性。其中静态属性指资源池每个计算节点固有的计算能力、存储能力、通信能力等。动态属性指资源在调度过程中的动态特征,主要指资源的固有能力在调度过程中展现出来的波动变化规律。按照属性性质,将其分为刚性参数与弹性参数两类。刚性参数是用户明确要求必须满足的需求,在桌面云中主要包含数据可靠性级别、系统可靠性级别、业务可靠性级别3个参数。弹性参数主要指优化调度、提升用户体验等相关的参数,在桌面云中主要包括操作响应时限与衡量计算节点本身的故障历史情况两个参数。

资源可靠性模型由五元组Availability表示,Availability=(D、S、B、T、H)。其中 D 表示数据可靠性级别,在营业厅场景中,包含普通营业员、VIP营业员、营业厅厅长3类用户角色,其中厅长的数据可靠性要求最高,普通营业员相对较低,因此D的取值包括0、1、2,分别对应 RAID0、RAID1、RAID2 3 个级别;S 表示系统可靠性级别,按资源池的冗余程度划分为3个级别,即分别对应N+1、N+2、N+3;B表示业务可靠性,按是否提供容灾服务划分为2个级别。以上3个参数为刚性参数,即资源调度时分配给用户虚拟资源的参数必须与用户的需求相匹配。同一资源池中这3个参数相同。

T表示用户操作响应时限,忙时Ts1≤15 s,非忙时Ts0≤3 s。T的取值由当前节点响应时延与标准时延差值确定。针对一个资源池内各个计算节点的操作响应时限 Ti=(T1,T2,···,Tn,Ts1,Ts0), 可以取到的最大值为Ti,max,最小值为 Ti,min,当前值为 Ti,cur,则归一化可表示为

则用户操作响应时限为

H表示计算节点本身故障的历史情况,由当前计算节点的故障次数决定。但显然历史故障与计算节点自身可靠性情况相关程度越来越差,同时计算节点可靠程度与故障性质密切相关。因此Hm取值由故障Fi、故障发生时间TFi、故障性质共同决定。

其中μ表示不同故障性质对应的权值,按故障影响范围进行赋值,即故障仅影响单个用户时,μ=1;故障影响一个计算资源池内大部分用户时,μ=4;故障影响一个数据中心接入的大部分用户时,μ=10。针对一个资源池内各个计算节点的故障历史情况Hm=(H1,H2,···,Hn)取值,则归一化可表示为

资源可靠性评价模型由刚性参数组成的三元组A=(D、S、B)与由弹性参数组成的向量 B=(TN,HN)构成。

5.2 基于资源可靠性评价模型的资源调度策略

资源调度的目的是将合适的资源交付给用户,是一个根据用户需求将资源池中相匹配的虚拟资源分配给用户的过程。在桌面云体系下,根据用户角色定义不同可靠性需求,即根据用户身份对三元组A=(D、S、B)与向量 B=(TN,HN)进行赋值。

整个资源调度过程由资源请求、资源探测、资源调用3个步骤构成。用户注册到管理节点,即将自己的角色及资源可靠性需求交付给管理节点,完成资源请求过程。管理节点接收到用户请求之后,对现有资源进行探测,根据上文的资源可靠性评价模型得到各个计算节点资源可靠性标识,完成资源探测。之后进入资源调用阶段:首先根据用户的刚性需求,为用户定位资源池范围,即根据三元组A=(D、S、B)的值找到匹配用户需求的资源池。之后根据用户的弹性需求,定位用户需求的最佳适配资源,并交付给用户。上文中分别用向量Bres与向量Buser来代表用户需求与资源可靠性,即分别成为它们的特征向量。如果两者的特征向量相似,则资源可靠性与用户需求相匹配,通过余弦定理找到与用户需求特征向量夹角最小的资源特征向量,即余弦值越大,两特征向量夹角越小,即资源匹配程度越好。

6 结束语

桌面云是桌面计算环境的一次深度变革,尤其对运营商这种终端规模庞大的企业而言意义重大。通过桌面云实现对终端的集中统一管理,有效提升对营业厅等生产任务类需强管控终端的管理水平,但随着终端的集中,终端可靠性要求同步增加。本文提出一种针对桌面虚拟资源可靠性的评价模型,并基于此模型实现了一种面向最优可靠性适配的资源调度算法,有效提升了虚拟桌面服务的可靠性,促进传统终端加速向桌面云过渡。

[1]孟江涛,卢显良.虚拟机监控器Xen的可靠性优化 [J].计算机应用,2010(9).

[2]欧攀.基于资源可靠性的网格资源调度研究[D].重庆:西南大学,2007.

[3]兰雨晴,申骞,刘铭.云计算环境中在线迁移技术研究[J].电信科学,2010,26(9).

[4]肖斐.虚拟化云计算中资源管理的研究与实现[D].西安:西安电子科技大学,2010.

[5]董耀祖.基于x86架构的系统虚拟机技术与应用[D].上海:上海交通大学,2006.

猜你喜欢
桌面数据中心可靠性
基于AK-IS法的航空齿轮泵滑动轴承可靠性分析
关于间接蒸发冷机组在数据中心中应用的节能分析
某重卡线束磨损失效分析与可靠性提升
讨论如何提高建筑电气设计的可靠性和经济性
浅析数据中心空调节能发展趋势
医疗器械可靠性研究现状与发展趋势
桌面装忙
2017第十届中国数据中心大会榜单
用好Windows 10虚拟桌面
当灰尘厚厚地落满了桌面