基于EFK的航空气象处理模块的日志管理

2021-12-27 09:35张小发
科学与生活 2021年22期
关键词:日志排查运维

张小发

摘要:航空气象处理模块实时引接处理多种航空气象探测数据,构建四维的气象监控模型保障飞行安全,运行过程中产生的大量且分散日志信息,给服务器存储、售后运维等带来较大的挑战,基于EFK的航空气象处理模块的日志管理通过实时监控服务器、数据库、网络、应用程序等各环节的运行状况运用信息采集、传输、存储方法实现日志信息的集中统一管理,同时其提供的数据分析功能,极大的提高了故障排查的效率,保障气象处理模块的长期稳定。

关键字:EFK;航空气象;日志信息;故障排查;售后运维

1 引言

ELK是Elasticsearch、Logstash、Kibana的简称,这三者是核心套件,但并非全部,通过搜集、过滤、传输、储存对系统日志、应用日志、安全日志等进行集中管理和准实时搜索、分析,帮助运维人员进行线上业务的准实时监控、业务异常原因定位、系统故障排查、研发问题跟踪、业务趋势分析、安全合规审计, 同时Elasticsearch提供多种API供用户扩展开发,以满足其不同需求,EFK是由ELK演化而来,在ELK基础上增加了FileBeat等日志采集工具,这些工具具有侵入低,无需修改程序目前任何代码和配置,拥有更高的性能。

航空气象的主要任务是研究气象要素和天气现象对航空技术装备和飞行活动的影响,组织以预报为主的有效的气象保障,保证飞行安全和顺利完成飞行任务,随着信息化的发展,航空气象信息与空管业务系统的深度融合成为航空事业的发展趋势,航空气象处理模块采用层次化、组件化的软件体系结构具备长期稳定接收、处理、分析、输出多种类型气象数据的能力,旨在应用信息化的手段对气候志、实况类、预报类的航空气象数据进行深度挖掘为空管业务系统提供辅助决策支持,提升气象服务水平。由于航空气象数据种类繁多(如自观数据、多普勒雷达数据、机场警报等等)、处理模块体系结构复杂,航空气象处理模块运行过程中产生大量且分散的日志信息,给售后运维带来较大的挑战,如服务器日志存储暴涨、故障排查效率低、业务异常定位难等,极大的影响了航空气象数据在空管业务系统中的深度应用。

综合EFK的技术特点及航空气象处理模块的日志管理情况,基于EFK的航空气象处理模块的日志管理提供的多维度集中的日志管理方案能更好的改善当前的状况。

2 正文

本文将结合EFK技术从日志信息的采集、传输、存储、分析等方面讨论航空气象处理模块日志的管理方法及过程,监控系统运行、排查系统故障、保障系统稳定可靠的运行,下图为总体设计思路的结构图:

2.1日志采集

在航空气象处理模块的各个应用服务器上部署多种日志采集工具,实时收集需要的关键日志信息并实现转发功能。

2.1.1应用程序日志

通过在气象转发服务器、气象数据处理分析服务器、气象数据分发服务器上部署FileBeat等轻量级的日志采集工具,以不影响服务器正常运行的极小性能消耗来完成对应用程序的定时日志监控、采集和转发。同时,FileBeat可以依据自定义的规则自动对采集到的日志信息进行一定的过滤、提取、合并、归类等工作保证收集到的气象数据处理日志易于后期存储维护与统计分析。

2.1.2数据库日志

在独立的服务器上部署Logstash工具,监控数据库中数据的变化情况筛选需要统计分析的气象数据,形成日志并转发,如定时抽取多普勒雷达数据处理后在数据库中插入的处理时间、多普勒数据观察时间、数据入库时间、文件名称等信息。

2.1.3服务器日志

Metricbeat工具作为EFK体系中的一员,可以定期采集服务器的CPU利用率、内存使用情况、磁盘空间大小、磁盘读取速率等系统信息并转发,本文将在部署FileBeat工具的服务器上同步部署Metricbeat,定期实现气象服务器运行情况的信息收集工作。

由于气象服务器上日志信息被定时监控和转发,应用程序之类的本地日志信息可以定期清理只保留近期内的少部分数据,可以较大的缓解磁盘空间的压力,当然,日志采集的工具很多,還有如Packetbeat(网络流量数据收集)、Auditbeat(轻量型审计日志采集器)等等可以依据提供全方位的气象数据日志管理工作。

2.2日志传输

航空气象处理模块结构复杂、处理的气象数据种类繁多,实时产生的大量分散的气象日志可能会导致集中收集传输程序的瞬间崩溃丢失气象日志信息从而影响统计分析结果,本文通过增加Redis、Kafka等集群服务器作为临时缓存,实时稳定的接收来自气象服务器转发的各类气象日志信息。

Logstash定时从临时缓存中获取日志信息进行更高维度的日志数据的筛选转换并转发,如归纳从气象服务器的主备集群转发过来的机场警报日志,合并ERROR、WARN等级的日志等。

2.3日志存储

Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎,EFK体系以Elasticsearch作为日志长期存储的工具,可以保证航空气象数据的日志信息长期稳定的保存,本文通过应用其分布式存储的特点在独立的多台服务器上部署该工具,进一步提高气象日志存储的稳定性,存储的气象日志信息按照类型、类别、等级等创建索引类别,如气象数据转发服务器转发自观数据的日志,其索引可以命名为log-application-weather-forward-awos-info。

鉴于Elasticsearch的高扩展性,可以在不改变航空气象处理服务器设备环境、不影响航空气象处理服务器的正常运行的条件下增加日志保存的历史周期,极大的提升了日志存储的便捷性,当然应依据实际业务需求设置滞留时长,配置过期日志的自动清理功能,避免无意义数据造成的硬件资源浪费。

2.4日志分析

Kibana是一个开源分析和可视化平台,索引匹配、记录检索规则可以方便的整合分析多套数据源并提供多种直观的界面形式显示方式供用户选择,如表格、直方图、曲线图、饼图等,可以高效的检查监视气象处理模块运行过程的各个环节,由于Kibana消耗的资源相对较少可以与日志存储的Elasticsearch一起部署或独立服务器部署。

2.4.1数据流向分析

检查气象数据的流向、分析各个环节的处理状况,如创建*awos*类型的索引按照时间倒序排序以表格形式显示,可以方便的查看每条自观数据从数据转发、数据处理、数据存储到数据分发各个环节的处理情况。

2.4.2数据统计分析

按照小时、天、月等时间单位统计气象数据的总量,分析数据的频率,如多普勒雷达数据为每6分钟一张、每小时为10张的图形化数据,考虑到数据转发过程中的延时不等现象,以小时为横轴、总量为纵轴的直方图会维持在10上下(注:正常为9至11的区间)浮动。

2.4.3服务器分析

Kibana可以以曲线图的形式实时展示各时刻气象处理服务器的CPU、内存、磁盘等的利用率,对异常波动可以结合数据流向分析、数据统计分析等功能排查具体原因。

2.4.4错误日志排查

通过关键字如“ERROR”、“FAILED”、“THROW”等的检索或按照日志逐行检查的方法筛选错误日志,分析错误日志信息的具体内容,可以快速定位产生的服务器、应用程序、处理的文件及执行的代码行等。

EFK体系也可以提供网络分析、审计日志分析等多方面的其他技术分析手段,维护开发人员在无需要登录到各台运行服务器逐个检查服务器健康状况、日期记录情况下通过EFK的分析技术即可以总体掌握气象处理模块的运行状况,也可以详细定位出现具体问题的环节。

3 结语

基于EFK的航空气象处理模块的日志管理从日志采集、日志传输、日志存储、日志分析四个方面探讨了EFK体系在数据种类繁多、服务器结构复杂的系統中的应用,通过日志的集中统一管理减轻服务器实时产生的大量日志数据的存储压力,采用EFK存储技术可以在不改变服务器运行状态下延长日志的保存周期,利用EFK分析技术可以快速掌握气象处理模块的总体运行状况并精细化的定位到故障的具体环节,极大的提高了故障排查的效率,减轻了售后运维的压力,保障气象处理模块的长期稳定。

参考文献

[1]李峰、王占伟、何金池等,漫谈ELK在大数据运维中的应用,2016.2.

[2]Clinton Gormley,Elasticsearch权威指南,2016.

[3]刘璧怡,郭美思,吴楠.日志管理方法:中国,201410409927.[P].2014.10.

[4]山珊,简析航空气象技术在空中交通管理中的应用[J].中国科技博览,2015,(5):106.

猜你喜欢
日志排查运维
高效管理日志文件用命令行就可以
读扶贫日志
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
雅皮的心情日志
雅皮的心情日志
如何排查并改错
抚松农发行开展贷款风险排查
用电安全知多少
蛟河农发行组织全体员工进行非法集资风险排查活动