信息技术服务管理体系建设实践

2015-12-16 08:31康羿亓伟朱丹
油气与新能源 2015年3期
关键词:运维管理体系流程

康羿 亓伟 朱丹

(中国石油天然气股份有限公司规划总院)

随着信息技术的不断发展,越来越多的企业需要依靠信息技术来支撑业务运行,信息技术的发展促进了企业业务运作模式的转变。现代业务环境下的信息系统已不仅仅是企业的技术支撑,信息化已由“技术驱动”向“业务驱动”转变,信息部门的角色逐步从单纯的信息技术提供者向信息服务者转换,职能的转变,客观上也要求信息管理模式向信息技术服务管理模式进行转变。随着信息技术的逐渐深入,建成并投用了大量的软硬件系统,系统的复杂度及重要性对系统的连续稳定运行提出了更高、更为严格的要求,这促使企业需要采取有效的措施来规范信息技术服务的管理。

多年来,某单位承担着多个大型生产信息系统的运行维护工作,每天处理的事件数多达800件。许多生产系统直接面向社会用户,一旦系统发生故障,不仅会带来巨大的经济损失,还将造成不良的社会影响。信息系统运维的压力和难度日益增大,因此,需要科学的理念、规范的管理和先进的技术平台来支撑信息系统的运行。依据《IT服务管理国际标准体系:ISO/IEC 20000》,参照 GB/T 24405.1—2009《信息技术 服务管理 第1部分:规范》,该单位建立了一套完善的信息技术服务管理体系。

1 体系建立

ISO/IEC 20000是基于BS15000《IT服务管理英国国家标准》英标体系与ITIL(信息技术基础架构库)最佳实践进行构建的。ISO/IEC 20000作为第一个关于IT(信息技术)服务管理体系要求的国际标准,遵循“以客户为中心,以流程为导向”的核心理念,帮助企业有效地识别与管理IT服务管理的关键过程,保证在满足客户与业务需求的同时,依照公认的 PDCA(戴明质量环)方法论,持续改进企业的IT服务业务。

该单位严格遵照 ISO/IEC 20000标准体系的要求,遵循科学、实用、简洁、有效的原则,根据业务实际情况,经过需求调研、差距分析、文件编制、体系培训、体系试运行、体系推广等阶段,建立完成了一套符合该单位业务实际情况的信息技术服务管理体系,包括一级质量手册1册、二级程序文件19册、三级操作文件 24册,并明确了安全稳定、管理规范、技术先进、服务高效的管理方针。

ISO/IEC 20000体系规定了13个标准流程,参照这些流程形成信息技术服务管理体系。

1.1 事件管理流程

事件管理流程是应用频率最高的流程,任何来自用户的请求和咨询均被记录并跟踪解决。事件流程的核心是在规定的时间范围内快速解决事件,使系统恢复正常服务,通知用户并关闭事件记录。

2014年,该单位登记受理事件138 000个,事件平均解决时间为 5.58h,平均周事件解决率为99.23%。

1.2 问题管理流程

问题管理流程主要活动包括分析事件、找出问题、分派问题、确定根本原因、找出解决方案、回顾及关闭。

2014年,共登记受理241个问题,通过对问题的分析与处理,找到问题的根本原因并予以解决,从而杜绝相同事件的重复发生。

1.3 变更管理流程

变更管理流程目的是确保以受控的方式评估、批准、实施和评审所有的变更。确保使用标准化的方法和流程有效、及时地处理所有变更,以提高服务品质,避免由变更引发故障,或最大限度减少对服务质量的负面影响。

2014年,共登记受理1 746个变更,所有变更均有效执行并关闭。

1.4 发布管理流程

发布管理流程的目的是确保对信息系统进行的软件改动是可跟踪的、安全的,而且已安装的版本都是正确的,并且经过授权和测试。将所有软件的主、副本保存在“最终软件库”中,确保信息系统以受控的方式进行发布,以保证系统的安全性和稳定性。

1.5 配置管理流程

配置管理流程的目的是通过规范的流程来管理信息技术资源,维护组件信息的准确性和有效性。配置管理可以标识并维护整个服务、系统或产品的所选组件,同时,还控制组件的变更,确保所选组件以受控的方式发布到生产环境。

2014年,共计新增登记配置项1 956条。各运维项目分别于每年的5月和10月进行一次配置项检查工作,以验证配置管理数据库中配置项信息的准确性。

1.6 服务级别管理流程

服务级别管理流程的目的是确保在平衡业务需求和成本的前提下,维持和逐步提高信息技术服务质量,包括为顾客服务要求所进行的定义、协商、监测、改进服务内容的一系列管理活动。

每年各运维项目编写服务计划,制定全年运维工作计划及各项服务目标值,并通过服务策划会的形式对计划和目标值进行评审。

1.7 连续性和可用性管理流程

连续性和可用性管理流程的目的是确保在业务遇到中断时,在协议的时间内,对业务需要的信息技术服务进行恢复。同时,识别与可用性相关的所有缺陷,优化信息技术基础设施的可用性,减少与可用性相关故障发生的时间和频率,以降低对服务的影响。

每年各运维项目均编写《应急预案》、《演练方案》、《可用性分析报告》,对连续性和可用性进行分析。同时,各项目每年组织2次应急演练,以提高项目应急处置能力。

1.8 服务报告管理流程

通过服务报告管理流程定期向顾客提交服务报告,包括周报和年报,向顾客通报运维服务质量。

1.9 信息技术服务财务管理

信息技术服务财务管理的目的是确保控制和管理信息技术服务成本,为信息技术服务和所涉及的信息技术资产和资源制定预算,识别、记录并解释服务成本支出,进行成本收益分析,为管理层提供辅助决策,以及从财务角度评价信息技术服务活动和价值。

各运维项目于每年的年初在服务计划中做预算计划,并于年底在服务报告中对全年预算执行情况进行统计和分析。

1.10 能力管理程序

能力管理程序的目的是确保了解业务需求,了解信息技术资源的使用状况,优化现有信息技术基础设施的性能,预测新服务所需能力。

各运维项目每年均编写《能力计划》,对项目所需资源进行分析,在确保现有服务不受影响的情况下,组织、合理配置资源,以满足当前和未来的业务需要。

1.11 信息安全管理程序

信息安全管理程序的目的是确保识别服务过程中存在的风险,使用标准的方法和步骤有效控制风险,满足服务级别协议、合同、相关法规的信息安全要求,在服务活动中有效地管理信息安全。

各运维项目每年均要进行项目风险评估和资产赋值,并完成风险分析报告的编写。

1.12 业务关系管理程序

业务关系管理程序的目的是确保掌握顾客对信息技术服务的需求及潜在的改进需求,及时发现服务中出现的问题和偏差,掌握顾客满意度及其变化趋势,以便采取相应对策,逐步提升服务质量。

根据体系要求,各运维项目每年进行用户满意度问卷调查。2014年,各项目平均用户满意度达到了99.3%。

1.13 供应商管理程序

供应商管理程序的目的是确保信息技术服务供应商提供的服务内容和水平足以支撑向顾客承诺的服务目标,实施对信息技术服务供应商全生命周期的管理,包括选择、签约、控制和提升。

按体系要求,各运维项目于每年的5月份和10月份分别进行顾客满意度调查工作,以确保供应商按合同要求提供相关服务。

2 体系运行

信息技术服务管理体系各运维项目严格遵照体系要求,有效落实体系流程,强化管理职责。通过体系的有效运行,较好地支持了各项运维工作的顺利开展,在规范运维工作、提升管理水平方面发挥了较大作用,有效保障了各运维系统的连续稳定运行。

2.1 积极开展内外审活动

体系运行中,每年度均组织开展内审和管理评审,对运维工作进行自我检查,对检查中存在的问题进行举一反三的跟踪整改,推进运维工作和体系的持续改进。另外,该单位已于2011年获得了外部专业机构的信息技术服务管理体系认证,这标志着该单位信息化服务管理水平已初步与国际先进的IT服务管理水平接轨。

2.2 建立电子化平台

引入了符合 ISO/IEC 20000标准的信息系统运维电子化平台工具辅助体系运行,该平台以集中监控系统为基础,知识管理为支撑,服务流程系统为主线,将运维工作中涉及的人、事、物串接起来,形成完整的闭环管理。根据信息技术服务管理体系运维的实际情况,借助平台制定了统一的运维流程的目标、活动、数据、角色、考核和报表。

监控系统的建设,实现了网络中断、丢包等重大故障及时发现,应用系统重要告警通过短信通知的方式及时通知运维人员,并遵循体系流程及时登记、上报、跟踪、处理。监控系统的有效应用,为快速排障赢得了时间,减少了故障损失,极大地提高了运维工作的主动性,变被动运维为主动运维。

服务流程系统设计的核心是“运维服务”。整个系统流程设计从服务目录的梳理入手,与客户之间建立规范的服务级别协议,所有事件、服务请求和变更的处理均严格遵循服务级别协议进行记录。服务流程系统主要包含服务台、事件管理、变更管理、问题管理、发布管理及配置管理等功能。

知识管理也是提升运维工作质量、提高运维人员能力素质的重要组成部分。通过完善技术沟通渠道,让运维技术人员有一个全方位的交流平台。另外,对于运维人员的一些技术经验、工作体会,以及实际工作中遇到问题的解决方案,均可以归档到知识库,便于阅览及交流。为了保障知识库存档的信息是有价值的,专门设定了知识管理员的角色,对运维人员所录入的知识进行审批,以保证知识的有效性。

2.3 加强体系宣贯

体系宣贯培训工作是体系运行的重点工作之一。自体系发布之后,已进行了多层次的体系培训,体系培训已覆盖信息化业务所有员工,使员工充分了解了信息技术服务管理的相关规定和理念,进而形成良好的企业文化。

2.4 完善体系考核制度

一个体系的健康运行,完善考核机制是必不可少的,相关质量考核办法的编制较好地促进了体系执行的自觉性。对体系执行的重要环节制定了多维度的量化考核,更好地促进各信息化业务部门运维工作及体系的持续改进。

目前,所有运维项目均纳入ISO/IEC 20000信息技术服务管理体系进行管理。依据已建立的完善的度量标准,对一段时间内的事件、变更、问题处理数、事件解决率、平均解决时间等指标进行详细的量化统计,有助于服务的持续改进与管理层决策。

3 实施效果

通过信息技术服务管理体系的成功实施,有效提升了人、流程、技术3方面的能力成熟度。从运行情况来看,信息技术服务管理体系总体运行平稳,在规范运维工作、提升运维服务质量、提高用户满意度、提升核心竞争力等方面发挥了积极的作用,取得了良好的效果。

一是,规范运维工作。帮助各信息化业务部门识别和管理了IT服务的关键过程,基本实现了服务运营的输入和生产流程的标准化,并提供了可度量的工作指标,从而在一定程度上保证以可接受的成本提供质量稳定的IT服务,并保证业务的连续性。

二是,提高了系统的连续性及可用性。根据体系要求及自身业务特点,各运维项目制定了有针对性的应急演练方案和详细的操作步骤,并严格按照《应急预案》和《演练方案》执行。通过针对不同故障场景进行模拟和真实演练,保证了服务连续性策略和计划完成、更新的准确程度,验证了应急管理组织机构的协调能力和人员的协同操作能力,验证了技术流程整体上的可行性和可操作性,验证了预案和演练方案的完整性、有效性和兼容性,使应急组人员进一步熟悉相关的策略、流程和方法,提高了紧急响应和恢复的综合执行能力,有效地提高了IT服务的可用性、可靠性和安全性,保障了运维系统的安全稳定运行。

三是,提升运维服务质量。通过信息技术服务管理体系的有效实施,使IT部门由被动解决系统问题,到主动提供高质量的服务进行转变。根据体系要求,各运维项目梳理形成了本项目信息化业务的服务目录,明确了能够提供的 IT服务以及质量属性,并与委托方签署了正式的服务级别协议,根据服务级别协议,与委托方明确服务目标、服务质量等内容,服务级别协议作为运维工作的工作指引,指导运维工作稳步开展。

四是,事件解决效率持续提升。通过体系对人、流程、技术3个维度的有效控制和支持,保证提供有效的IT服务,满足了客户对IT服务的质量要求。2012年至2014年,事件运行情况对比见表1。

表1 2012年至2014年事件运行情况对比

由表 1可以看出,事件解决时间从 2012年的16.74h缩减至2014年的5.58h,平均每周事件解决率由2012年的92.75%提升至2014年的99.23%。可以看到,各运维项目在日常工作中不断总结经验并加强事件变更的回顾分析,及时从事件单中发现问题并加以总结,找出故障根本原因及解决方案,形成知识不断积累,规范事件处理方案,从而有效提升了运维效率。

五是,提升核心竞争力。建立了一整套行之有效的持续改进和内审机制,梳理了信息技术服务管理制度,完善了现有IT服务结构和资源配置,使各项IT资源的运用符合单位业务战略。将现有管理体系和业务流程整合,规范了工作流程,降低了由人员变动导致的风险,提高了IT部门相关人员之间的沟通效率及专业素质,从整体上提升了单位的综合竞争力。

[1] 博恩.IT服务管理 基于ITIL的全球最佳实践[M].章斌,译.北京: 清华大学出版社,2006.

[2] 侯维栋.ISO 20000认证与实践[M].北京: 清华大学出版社,2012.

[3] 中国国家标准化管理委员会.GB/T 24405.1—2009信息技术 服务管理 第 1部分: 规范[S].北京: 中国标准出版社,2009.

猜你喜欢
运维管理体系流程
对质量管理体系不符合项整改的理解与实施
吃水果有套“清洗流程”
基于KPI的绩效管理体系应用研究
当代经济管理体系中的会计与统计分析
控制系统价格管理体系探索与实践
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
违反流程 致命误判
杂乱无章的光伏运维 百亿市场如何成长
四川省高考志愿填报流程简图