ISO20000落地中的运维管理

2011-11-09 06:42张丹东孟坛魁李铮
中国教育网络 2011年9期
关键词:网络设备报表运维

张丹东 孟坛魁 李铮

(中国人民大学网络与教育技术中心)

ISO20000落地中的运维管理

张丹东 孟坛魁 李铮

(中国人民大学网络与教育技术中心)

通过实施ISO20000标准和认证过程,在实践中发现标准还需要一套适合高校实际情况的运维监测系统配合实施,快速准确地展现设备运行的全面情况,针对各类情况和故障及时报警,并提供全面有效的资产管理信息和统计报表,辅助标准的实施,才能更好地体现实施标准的效果。

IT服务的基础是IT基础设施的运维,ISO20000管理体系的实施,大大促进了中国人民大学网络与教育技术中心管理工作的标准化、规范化、专业化。同时中心领导层也看到了标准的不足,需要建立一套完整统一的运维监控系统来配套,才能充分发挥管理体系的作用。

机房动力环境、综合布线、网络设备、服务器、ISP链路、各种应用、数据库的实时监测,随时提供统计数据和标准的报表,实时报警,成为达成服务承诺的关键。只有早预警、早发现、早处理,才能保证并提高服务的质量。所以,一套功能全面并符合高校实际情况的运维监测系统就成为了高校信息化的必需品。

中国人民大学网络与教育技术中心在实施ISO20000标准的过程中,同步实施了运维管理平台的建设。由于无法找到满足上述所有需求的软件成品,学校与某公司协商达成了自行开发的一致意见,经过一年多的开发,目前初步上线,实现了一些基础功能,后续还需要不断完善。

设计思想

早期的设计思想是做网络中心的信息化系统,包括监控功能、资产管理、报修和用户服务、内部办公、各类报表、合同管理等,是一个大而全的系统。

在实践中,由于进度无法跟上中心实施认证的计划,后期做了调整,从监控功能做起,扩展到资产管理,包括报警和报表内容,以这两项功能为主,完善后再考虑进一步的需求。系统主要设计思想是配合中心选定的ITIL工具软件使用,作为技术、技术管理工作的信息化平台,完善ISO20000标准没有严格要求的部分功能,充分发挥标准化后的管理效能,使之有效落实到具体的设备和管理内容上。

图1 运维监测系统结构

功能设计

1. 网络监测(类似网络天气图、网管系统、拓扑图)、报警

(1)需要监控所有网络设备。

(2)有类似prtg的图形显示、数据表统计和显示功能。

(3)有类似weathermap网络天气图功能,将全网拓扑图与流量监控结合,并能够分区域监控。

(4)提供更加有效的局部实时监控功能。

(5)预定阈值报警,例如流量超过75%、CPU负载超过50%等,提供故障分析和决策依据。

2. 机房环境监控、报警

(1)通过传感器网络,记录并显示温度、湿度、电力等相关信息。

(2)通过预设阈值自动报警,方式为即时通讯工具、手机短信、事件日志。

(3)针对特殊设备,监测空调、UPS等运行参数等,提供决策参考。

3. 服务器监控

(1)需要监控所有服务器。

(2)有集成的图形显示、数据表统计和显示功能。

(3)预定阈值报警,例如内存超过75%、CPU负载超过90%、硬盘容量使用超过80%等,提供决策依据。

4. 数据库监控

(1)建立对所有使用的数据库的监测。

(2)对重要参数采用图形方式显示,便于观察。

(3)预定阈值报警,提供决策依据。

5. 应用监控

(1)逐步建立对各种应用的监测,如Web发布软件等。

(2)对重要参数采用图形方式显示,便于观察。

(3)预定阈值报警,提供决策依据。

6. 自动登录处理

(1)结合类似Xmanager工具的功能,替代登录所有设备,定期修改密码。

(2)必要时,可以自动或手动关闭网络端口。

(3)考虑能够自动配置acl等网络特殊管理功能(需要厂商支持)。

(4)实现空调的远程控制,设定温度,开关等。

(5)终极目标是全权管理全部设备,至少是登录全部设备。

(6)记录所有操作。

7. 数据统计、分析、预警

(1)固定报表。

(2)定义报表。

(3)设备寿命、性能预警以及人员工作预警。

8. 公告(包括报警自动公告)

特殊系统报警自动发布相关公告,例如停电、设备当机、服务中断等。

9. 系统日志

(1)记录人员登录情况以及修改配置、添加内容信息情况等等。

(2)软件系统自己的日志。

10. 文件归档

(1)定期归档文件,减少系统压力。

(2)提供过期归档数据的查询和展示。

(3)方便管理和查询(索引、搜索)。

11. 备份输出

(1)系统的定期备份。

(2)数据输出,方便迁移或灾难恢复等用途目前功能。

目前,学校完成了网络设备的监控功能,配置好网络设备的SNMP设置后,能够定期循环读取SNMP信息。系统可以手动添加或者指定网络设备IP地址段后自动搜索网络设备进行设备的添加,能够分区进行管理,可以显示各区域的所有楼宇以及每个楼宇的设备,方便添加设备和进行管理,并能分区域自动生成拓扑图。通过设备的描述信息,进行设备厂商、型号的配置后,能够自动识别设备的厂商和类型。

以中心目前实际监测为例,中国人民大学目前读取的设备描述信息总计75种,经过配置厂商和设备型号后,统计报表显示共有八个厂商的32种型号的设备,并显示每个厂商的设备总数,每种型号的总数,全网合计971台,清晰地显示了所有在线设备的总体情况。

系统提供了一个按照位置(楼宇)分类的监视界面,在一个网页中显示了所有的设备,并提供了三种不同状态的显示图标(正常、一般报警、严重报警)以及统计数量显示,方便管理者查看网络设备运行状况,或者在故障时查看,迅速判断故障的影响范围和具体位置。

系统提供了报警功能,分为一般报警和严重报警,并显示报警时间和数量,并有分类报表显示,方便管理人员了解网络在一段时间内的运行情况。

系统提供了基础设置界面,可以对扫描的参数进行配置,对厂商、型号信息进行配置,对报警信息进行配置。

总之,目前是实现对网络设备的检测功能,以及初步的统计、报表、报警功能,已经在实践中发挥作用。

正在进行的开发工作

正在进行优化工作,完善已有的功能,例如,在监视界面上显示报警的具体类型,而不仅仅是报警级别,方便管理人员了解情况。拓扑图是星形显示,不是很理想,不如weathermap软件的显示效果好,需要改进。自动根据IP地址识别位置,人民大学的网络设备地址是按照区域规划的,IP地址与具体的物理位置有着明确的对应关系,可以进行自动识别。

功能拓展工作。拓展监测对象,逐步增加服务器、数据库、应用系统、动力环境的监控功能;增加资产管理功能,与高校的资产管理系统衔接,完成后能够显示设备的采购时间、合同号、供应商、保修期间、采购价格等信息,这样报表统计就可以显示在线设备总资产、分年度采购的设备数量和价格,结合使用年限规定后,可以展示未来更新计划,极大地方便预算的制定工作,也能够通过报表更好地显示中心整体的设备信息情况。

系统特色

很多年来中国高校缺乏一套实用的网络运维管理平台。这个平台的开发中,结合中国人民大学的实际以及适当考虑中国高校的通用性,努力做出一个适合中国高校使用的网络运维管理平台。

这个基于中国人民大学实际需求开发的平台,能够在进行基础配置后,自动识别设备的厂商和型号,自动判断设备安装位置,根据MAC地址和资产管理编码的关联关系,自动显示设备的在线状态;形成设备信息统计报表(厂商、型号)、在线资产总量、分年度资产购买量、预计报废情况、设备软件版本报表等统计报表;自动故障报警、阈值报警,全面监控学校所有在线设备的运行情况;自动备份各种设备配置,统一远程登录管理全网设备;大大方便了日常的维护管理工作。

在软件设计上,对角色管理做了一些探索,不同角色登录后显示不同的界面,界面因此更加简洁实用,个体可以编入多个角色组,登录后显示所有个体加入的角色群,点击角色名后,切换角色,灵活方便。支持LDAP,与数字校园统一用户,实名制管理。

长远计划,还是要回到最初的设计规划,将ITIL的运维管理功能纳入系统,把目前中心根据ISO20000标准实施的十三个标准流程以及自行添加的自有流程在平台中实现,形成一套完整的系统,把所有的功能都集中到这个平台上来,为提高高校网络中心的管理水平和服务水平提供一个良好的软件工具。

[1] 基于ISMS和ITIL的监控系统运维管理分析刘鹏信息网络安全 2010/12

[2] 信息化校园应用的运维监控保障研究李淑娟实验技术与管理 2008/08

猜你喜欢
网络设备报表运维
网络设备的安装与调试课程思政整体设计
一种基于C# 的网络设备自动化登录工具的研制
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
配电线路的运维管理探讨
镇长看报表
地铁通信网络设备的维护
月度报表
月度报表