自然环境试验数据资源质量控制管理机制研究

2024-03-08 11:16张志豪王竟成舒畅周彩元
环境技术 2024年1期
关键词:试验站环境因素试验

张志豪,王竟成,舒畅,周彩元

(西南技术工程研究所,重庆 400039)

前言

高质量数据是数字化发展的源头活水,数据的多源融合也会催生大量智能应用,为装备数字化智能化建设发展赋能增效[1-3]。随着我国大数据战略的实施,数字化进程的不断推动,数字资源的整合、控制管理、保护利用等问题也随之出现[4,5]。

目前,自然环境试验得到的各类环境因素数据及各型装备产品环境效应数据的积累管理中,数据种类繁多、类型复杂,数据信息的不完整、不一致和不规范,会给数据的管理、分析、共享带来很大困难,也会严重影响数据产品开发及推广应用服务[6-10]。自然环境试验与观测可为提高装备环境适应性提供重要数据支撑,针对环境因素数据和环境效应数据的采集积累,开展自然环境试验数据积累与质量控制管理机制研究具有重要意义[11-14]。

在数字化飞速发展的时代背景下,如何进行自然环境试验数据的积累与质量控制管理,解决环境因素与环境效应数据的采集、积累、入库管理、质量控制及安全监控等关键技术问题,为自然环境试验数据挖掘、算法突破、数据产品开发等奠定坚实基础,目前为止依旧是自然环境试验大数据发展中必须夯实稳固的难点及关键性基础[15,16]。

本研究从自然环境试验与观测系统出发,分析了数据积累的多样与多层级为数据质量控制带来的挑战,阐明了自然环境试验质量控制管理机制,全面剖析了数据质量控制管理中出现的问题及采取的科学合理解决方式,以期构建相对完备的自然环境试验数据资源池、建设完善的数据治理体系,成为自然环境试验数据资源池持续扩充中数据时效性、准确性、一致性、完整性的牢固保障,逐步提高数据价值密度,为数字化转型夯基固基。

1 自然环境试验数据积累

1.1 大气、海水自然环境因素数据观测与积累

我国自然环境试验站网现有11 个大气试验站/场和3 个海水试验站,覆盖了我国寒冷区、寒温I 区、寒温II 区、暖温区、亚湿热区、湿热区、海洋性气候区、南海岛礁、黄海海滨、东海海滨和南海海滨各类气候区,分属高源、高寒、戈壁、热带雨林、海洋性、南海岛礁等气候环境。图1 所示为我国气候区分布图。

图1 我国气候区分布图

由于不同试验站/场的气候特征存在差异,观测的环境因素类型也有所侧重。大气试验站监测的环境因素包括大气温度、相对湿度、风向风速、太阳辐射、日照时数、气压、风向风速、降水、天气现象大气环境因素,以及海盐粒子、二氧化硫、氨、硫化氢、氯化氢、二氧化氮、氧含量、雨水组分、大气降尘等大气污染物因素。海水试验站监测15 项环境因素,包括大气温度、相对湿度、风向风速、太阳辐射、日照时数、气压、风向风速、降水等大气环境因素,以及海水温度、盐度、溶解氧、pH 值和电导率等海水环境因素。

1.2 自然环境效应数据观测与积累

自然环境效应数据的观测与积累通常分为“材料-元器件-部组件-分系统-整机”不同层级,各层级材料数量呈“金字塔”式分布,如图2 所示可知。

图2 各层级材料数量分布图

自然环境效应数据以基础材料数据为主要布局,数据最多位于金字塔体积最大也是最低的层级;元器件、部组件及分系统分别位于第四、第三及第二层级;整机层级位于金字塔最顶端,该层级产品数量相比其他较少。自然环境效应数据观测与积累做到低层级产品环境效应数量优先保证,高层级产品适当控制。

2 数据采集传输

自然环境因素数据与自然环境效应数据的采集过程中,各试验站/场严格按照GJB 8894.1-2017《自然环境因素测定方法 第1 部分:大气环境因素》、《国防科技工业自然环境试验站网 自然环境因素采集与监检测方法规程》及GJB 8893-2017《军用装备自然环境试验方法》等标准和规程,确保数据的连续性、可靠性和准确性,观测与试验人员都进行专业技术培训,持证上岗,所有数据均需进行校对、复核、审查[17-19]。试验数据和环境数据全部经规范化处理后,完成自然环境数据内部共享及完整传输。

3 数据入库

环境因素数据与环境效应数据原始数据来源多样、数据格式类型和计量单位不统一、数据噪音大、数据完备性差,尤其需要重视入库管理。原始数据在入库存储前,要开展数据质量控制与数据的规范化研究,包括数据缺测检查、格式检查、界限值检查、一致性检查。

清洗后的数据要按照数据分类及编码等标准对数据进行标识,按照标准格式要求进行汇聚整编和入库存储,确保入库数据准确性与完整性。建立多维主题数据库对基础数据分门别类组织。针对入库数据,从数据基本信息、数据主要内容、编码规则审校等方面对相关数据进行校对。

4 自然环境试验数据质量管控

4.1 自然环境因素数据质量管控

自然环境因素数据质量管控中要对比研究同一数据积累点不同环境因素之间的内在关联和历史数据长期变化趋势,从环境因素逻辑性、相关性、完整性和连续性等审核采集的环境因素数据,具体审核评价流程如图3所示。

图3 自然环境因素数据质量审核评价流程

首先,在环境因素数据质量审核评价中对数据的格式进行审查,查看格式是否做到规范化处理;在对数据进行缺测检查,发现缺测数据需通过特殊标识进行标记处理;环境因素界限值检查包括气候极值检查和台站极值检查,是通过从历史数据中挑出各月最大值和最小值,确定极值数据的上下界限值,查找异常数据;逻辑性检查主要包括时间一致性和内部一致性检查,其中,时间一致性检查是指与环境因素时间变化规律性是否相符的检查,通过试验站历年环境因素变化规律判断异常数据;内部一致性检查是判断气象要素之间是否符合规律,通过同一时刻不同要素之间和同一时刻相同要素不同参数之间的一致性检查判断异常数据;综合判断检查主要是通过结合相关历史背景资料,依靠专业技术人员的经验对单项检验的结果进行综合的检查判断,最终确定数据的可信度。最后,对正常数据进行入库存储处理。

4.1.1 数据库系统管控

在自然环境因素数据入库中,通过规定和限制数据库中存储在表的列或自定义数据类型中的值,对数据类型、有效数字位数、数据重复等进行规约,统一数据库规则,保证数据完整性和一致性,对不满足质量要求的数据不予以入库。对经过审核的环境因素数据,将不同类型、不同要素的环境因素按照各参数的量纲作一致性处理,并对不同来源的数据进行归类整理,整理原则如下:

1)位数:整理后的数据必须保持原有数据应有的信息,不能随意抛弃观测值和原始数据的位数,不能用平均值代替各次观测值;

2)格式:大气环境因素数据参照GB/T 24516.1-2009 中的月报表、年报表格式处理,海水环境因素数据参照GJB 8894.2-2017 中的月报表、年报表格式处理。

自然环境因素数据监测全流程标准化管理主要从监测人员培训、设备检定校准、监测方法规范等三方面进行标准规范化管理,从设备、人员、方法等全方面确保监测数据的准确性、可靠性等。

4.1.2 其他管理控制方式

在充分保障自然环境因素数据质量受以上管控机制作用的同时,还需要采用以下措施充分保证环境因素数据质量。

1)加强人工审核

一是对采集的原始数据进行出站前的三级审核制,即采用编制、校核、审核的方式对数据的准确性进行最初审核,从源头提高数据的准确率,二是对各试验站提交上来的数据,必须经过专业技术人员的二次审核,尤其是对缺失或异常数据的审核,以此进一步提高入库数据准确率。

2)针对对缺失值处理方法

替换法:采用相邻年份对应的历史数据来替换修补缺失年份的数据;

近邻查补法:通过已有数据项进行对比,采用邻近监测点监测的同种因素数据,替换对应缺失数据缺失时间点位的数据;

趋势法:缺失数据监测点对应邻近监测点的数据已知,利用邻近监测点的数据变化趋势,即相邻时间点的数据的差值叠加到缺失数据时间点位前的数据上,依次修补后续缺失数据。

3)加强环境因素观测设备及传感器的检定校准

设备的检定校准是设备检测数据准确性的重要保证。项目在开展过程中需要对站网各试验站点的设备及传感器按照要求定期检定或校准,以确保数据监测的准确性。

4)确保监检测方法标准性

环境因素的监检测和数据采集均按照国防军工自然环境试验站网发布的《自然环境因素采集及监测规程》进行,确保站网监测数据获取方法的一致性。环境因素观测点的观测场所、监测点的位置设置、样品的采集和保存情况等均符合《国防科技工业自然环境试验站网规程-自然环境因素采集与临检测方法》规定的要求。

5)加强环境因素专业技术人员的培训

对站网各试验站点环境因素观测与分析人员定期开展培训,统一各试验站操作人员的操作规范,确保所有专业技术人员按照规定的要求采集并分析获取环境因素数据。

4.2 自然环境效应数据质量管控

环境效应数据是典型的多源异构数据,涉及数据、文本、图像等类型,质量控制需要先明确数据特点、数据类型与记录形式。

自然环境效应数据质量管控中,不同测量对象,其数据记录形式各有特点,针对不同数据特点采用不同质量管理控制方式。其中,数值型数据需要对具体的数据单位、经验取值范围、测量精度要求以及实际测量值进行规范化要求和记录。图片需要对格式、像素、反映的形貌部位(如全貌或局部)等进行统一的要求和记录。数据的记录方式直接决定数据的属性和特点,需要在充分调研材料、结构、环境、腐蚀以及腐蚀研究相关技术等方面具体的数据指标,各指标的通用计量单位,研究领域的取值区间,精度指标的具体要求以及实际记录形式的基础上,逐条给出每一项数据记录指标的详细规范性要求。对某些数值或文本均可进行记录或标注的情况,需要在规范中明确需要采取的标注形式。对于可以采取简化记录的方式,在规范中要明确简化标注的形式以及简化标注所代表的确定意义,以防止记录混乱,引起数据处理过程中耗费大量精力进行数据格式的统一。

自然环境效应数据类型及记录形式也存在不同。按照数据类型和各类型数据的实际特点设计数据采集记录表的格式,对于任意一个表格中未明确填写格式的部分,要求在尊重习惯的基础上按照国家有关标准格式进行填写。按照项目研究和数据收集的特点,需制定性能参数测试数据、外观检查数据和失效信息的分类采集表等表单。其中,性能参数测试数据采集主要包括基本性能数据采集表,该表应包括性能参数测试数据、技术要求和测试时间等内容;外观检查数据应包括涂层、标志、壳体等数据采集表,表单应包括涂层是否剥落、标志是否清晰、是否腐蚀断裂、壳体是否腐蚀等内容;失效信息采集表应包括失效样品编号、失效时间、失效模式和失效机理等内容。

异常数据是指由于测试环境等的突然变化而产生的不符合或偏离常规属性的数据[20]。环境效应数据在产生、存储过程中不可避免会出现数据异常的情况,对于异常数据需要甄别、判定并修正,对其进行严格质量控制。在自然环境试验中异常数据往往表现在数据序列中和平行测试数据中。因此,首先需要研究数据序列中异常数据的判定方法和平行数据中异常数据的判定方法。对于异常数据的判断首先要基于对数据属性的深刻认识,明确数据在给定环境下的取值范围或取值规律。最后,基于已形成的规律或认识去判断数据是否符合既定规律,若不符合即判定为异常数据。

异常数据的判定主要采取物理判别法和统计判别法两种方法。物理判别法是根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成的数据偏离正常的程度,在数据录入过程中随时判断,随时剔除。统计判别法是通过给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常数据。自然环境试验与观测异常数据一般采用Q 检验法、格鲁布斯(Grubbs)检验法、t 检验法等判定方法。另外,GB 4883-2008《数据的统计处理和解释 正态样本离群值的判定和处理》也提供了一种偏度—峰度检验法。除特殊情况外,对异常值剔除水平一般采用1 %或更下,而不宜采用大于5 %的值的一般规则。由于异常数据通常是具备特定属性的数据,通过合理的分析处理加以修正,异常数据有可能会成为正常数据。因此,在数据录人时,可以保留异常数据,以备后续拓展研究使用。研究分析文献资料中异常数据的修正方法,如平均值法、空穴值法、模型预测法等,结合环境效应数据的特点,研究各种方法的误差,进而确定适用于不同类别环境效应数据的异常数据修正方法。

5 数据安全

数据安全管理是数据管理的红线,贯穿数据产生到应用全过程。主要注意以下五个方面:第一,数据管理必须严格执行国家关于信息管理的有关安全保密规定要求,采取有效的管控手段和技术措施;第二,根据涉密等级、任务分工和人员类别,设置用户使用调阅权限;第三,综合运用先进的技术手段加强数据全流程管理,全过程安全监控;第四逐步建立健全应急处置和容灾备份机制,健全防篡改、防攻击、防病毒等安全防护体系;第五,用于存储和处理数据的设备,必须明确标识涉密等级和管理使用权限,严禁不按密级和权限使用。

6 数据综合监控

数据监控贯穿数据从产生到应用的全过程,主要包括数据存储监控、安全监控、用户访问监控、共享监控。其目的是为了及时发现数据管理各个环节过程中的问题,及时反馈到数据各阶段的管理方,及时通告数据产品审查小组和业务小组,从而尽快落实解决方案。

7 结论与展望

本文针对自然环境试验数据资源质量管控的技术瓶颈,开展了自然环境试验数据积累与质量控制管理机制研究,给出了数据质量控制流程、控制要素和控制体系框架,从技术层面分析了构建数据质量控制系统的关键要素和技术要点,为实现自然环境试验数据资源池持续扩充中,数据资源的规范审核及推进数据质量控制管理提供基础技术支持。

在数字化的时代背景下,数据质量不仅是当下数字化建设的关键,更是对自然环境试验数据资源这一“源头活水”的纯净与价值的保障。自然环境试验与观测数据的持续扩充、自然环境试验大数据的发展也将为提高装备环境适应性提供更强有力的支撑。

猜你喜欢
试验站环境因素试验
陕北生态桑综合试验站赴山西调研
浙江大学农业试验站简介
论庭院花卉种植的环境因素
CS95
庆安灌溉试验站
C-NCAP 2016年第八号试验发布
可靠性工程之环境因素分析与控制*
试验
多穗柯扦插繁殖试验
庆安灌溉试验站