基于XML的自动化异构系统数据一致性校验方法

2021-07-11 08:16韩圣亚朱韶松
电子设计工程 2021年13期
关键词:异构校验文档

韩圣亚,严 莉,刘 荫,徐 浩,朱韶松

(国网山东省电力公司信息通信公司,山东济南 250001)

当前互联网和大数据技术正朝着纵深方向发展,分布于不同网络空间的异构数据源具有典型的分布性和异构性特征[1]。数据的异构性容易导致原始数据在提取、分析、集成和融合过程中的复杂度和难度[2-3]。异构数据处理系统可以有效减少多源异构数据库之间的差异性[4-5]。异构数据处理的一致性程度,是评价异构数据自动化系统性能的主要指标之一,而且数据融合处理完毕后必须对数据集做一致性检验[6-8]。

汇总现有针对多源异构数据一致性校验的方法,文献[9]提出通过数据库模拟转换的方式来同步源数据,但该方法对异构数据的规模和复杂程度都有要求,无法处理过于复杂的数据集;文献[10]利用HTML 语言工具实现对异构数据的复制和校验,但该方法的适用场景较少,灵活性不足,且对于通信网络的健壮性要求较高。针对上述问题,文中提出基于XML(可扩展标记语言)语言的数据一致性校验方法。XML 是一种标准化、结构化的通用计算机语言,有效弥补了传统HTML 语言的漏洞和不足,且该语言在结构化设计、兼容性、可拓展性等方面具有较大的优化空间,能够更好地对异构数据进行标准化处理,满足不同用户的具体使用需求。

1 XML语言的映射关系及数据转换

XML 语言具有良好的软件伸缩性、灵活性和可拓展性,对于现有的Web 应用而言,不仅能够实现数据的兼容和共享,还可以集成不同结构的异构数据库,拓展数据库的应用方向和应用场景[11]。XML 工具对传统的HTML 语言功能进行了深度完善,更便于比对异构数据库,提取关键信息。XML工具的最大优势在于针对异构数据深度交换和标准化,并能够参与关系型数据库之间映射关系的转换。XML 工具的映射关系采用基于模型的驱动方式,如图1 所示。

图1 XML语言与异构数据库的关系转换

其中,一种对应关系转换方式是从关系数据库的具体模式中识别出映射的具体类型,再基于关系模式重构与其对应的有向图;另一种映射关系为根据XML 文档结构,提取具体的文档和示例[12]。基于XML 语言转换的异构数据库表包含可参照、可引用的主键列,首先构建多源异构数据库表的主键约束关系,再建立外键约束和表的索引约束,确定出两者之间映射关系的主体框架结构,完成异构数据库的结构映射与XML 文档关系映射的融合处理。

在XML 文档模式与异构关系型数据库之间的关系转换前后,需要保持数据表信息的一致,XML 文档在结构设计上比HTML 更为复杂。因此在功能设计和应用范围上,为保持XML 文档信息的完整性和一致性,模型转换中仅允许定义单个主元素,并以该元素作为异构数据网络的一个子节点。利用XML工具文档与异构性数据库之间的映射关系,可以实现对异构数据格式的转换,这是最终异构数据一次性校验的关键环节,异构数据转换的主要步骤如下:

Step1:将XML 文档中的主元素和子元素形成元素集合,元素集合可以准确地描述XML 文档的结构和类型。

Step2:确定出不同数据库表之间的映射关系、节点关系及网络拓扑结构,并明确数据类型映射与阈值约束映射之间的关系。

Step3:依据映射关系集合生成与异构数据库对应的XML 格式语言,并按照关系模型找出与异构数据库表同步变化的主键、外键、索引等工具。

Step4:按照最终的映射结果将数值转换过的XML 语句插入数据库中。只有经过映射关系调整和数值转换后,自动化异构系统在数据结构、数据类型及检验标准上才具有一定的可比性。

2 基于XML 语言的异构数据一致性校验

XML 语言及多元异构数据库文档,均具有良好的数据库兼容性,且内部允许运行国际上通用的IEC61850 标准。语义模式是一种较为完善的计算机高级指令集,利用语义指令集构造以XML语言为基础的模型及自动化异构系统,以便于在计算机语义层面上相互操作[13]。IEC61850 标准是国际上通用的映射标准,利用该标准构建的XML 语言模型,可以实现在语义空间范围内的数据交互、数据传输及共享。

使用XML 语言工具包解析相应的文本模型,再遍历异构数据库中的各个数据表,比较数据类别、数据关系及属性之间的关系性。对异构数据的一致性校验包括对副本数据的一致性校验,核对单表数据的一致性校验,分析等效数据集与原数据集的符合程度。等效数据集是在数据复制、传输过程中形成,随着时间的推移而产生,因此,数据的复制与拷贝时间指标,也是评价一次性校验的重要指标之一。首先构建数据一致性校验函数f如式(1)所示。

其中,A表示精准率,计算公式为a为一致性的数据记录,b为不一致性的数据记录;B是召回率指标,计算公式为c为未检测出不一致的记录数。根据公式(1)及其指标计算公式得出数据一致性校验的测量函数f′:

其中,fi表示第i次测量得到的校验值,ti表示该次校验所耗费的时间,h表示测量的总次数。使用fi指标分别对副本数据、单表数据做一致性校验,异构数据的一致性检验主要关注数据的内容。对于异构数据的副本而言一致性的校验项目主要包括校验实体、元素、及函数等,利用统计特征识别出满足条件的特定值,使用测量函数校验数据是否一致[14]。异构数据库测量工作的前提是完成一致性的校验,如果校验完毕并获取检测结果,即可以利用测量函数配置数据库副本数据,并分块计算数据的差异数值;如果测量后发现异构数据库中的A指标值与B指标值过低,表明该异构数据库的数据一致性较差,使用XML 语义值判断数据库表的一致性,使验证总体效率得到本质地改善。

对于单数据表而言,以XML 语言和判断函数为基础,使用XML 程序语句可直接实现对内容复制前后的数据库表进行对照和判断[15-16]。获取单表检查的结果后,再计算f′的函数值,判断数据库表的一致性程度,异构数据库副本校验与数据库表的校验流程如图2 所示。

图2 异构数据的一致性校验流程

在异构数据校验中,使用统一化的URI 标识符对整体的资源框架进行描述。在执行查询指令中,利用XML 直接编辑查询语句,按照模型中匹配的查询结果,完成对语义的检索和一致性校验。

3 实验与仿真

3.1 实验环境搭建

异构源数据节点采用分布式方式部署,通过200 M 的局域网连接,节点数据之间的异构性主要从软件的层面体现,涉及到的网络集群环境设置如表1所示。

表1 集群环境设置

在操作系统和数据库关系中都能够显示出数据库的异构性,实验用的操作系统选择Windows10,实验用的数据库类型、数据表数量、记录数量等信息如表2 所示。

表2 数据环境设置

3.2 数据的一致性校验

在200 ms、100 ms 和0 ms 的网络延迟下,分析不同规模的异构集群数据一致性恢复耗时,数据的统计结果如图3 所示(为了使实验结果更为直观,引入了文献[9]和文献[10]参与对比)。

图3 不同网络延迟条件下的数据一致性恢复耗时对比

当通信网络不存在数据延迟时可以观测出,随着数据规模的增加,3 种不同算法的数据一致性恢复耗时均有所增加,但3 种算法的效率差距较小;当网络延迟增加到100 ms时,受到网络延迟的影响数据一致性恢复的耗时有所增长,但文中提出的基于XML 工具的耗时要明显低于文献[9]和文献[10]提出的方法;当网络延迟进一步增加到200 ms 时,基于XML 语言的数据一致性校验方法的效率优势更为明显。

数据库中全部的数据记录总数为50 000 条,随机将全部数据记录分为10 组,通过网络在线传输,验证一次性校验的稳定性情况,选取数据波动的均值指标μ和方差指标σ2作为评价标准(μ和σ2的取值越低表明数据校验的一致性越稳定),统计结果如表3 所示。

表3 数据的一致性校验均值指标效果对比(μ)

表4 数据的一致性校验方差指标效果对比(σ2)

统计结果显示,无论是数据一次性校验的均值指标还是方差指标,相对于两种传统的校验方法,基于XML 工具的数据一次性校验方法的指标值都更低,具有相对优势。最后在0~200 ms 的网络延迟范围内,分析不同的一致性校验方法在读写性能上的差异,网络延迟设定为0 ms、50 ms、100 ms、150 ms 和200 ms,读取数据的吞吐率指标值变化如图4 所示。

图4 异构数据读取的吞吐率指标差异

当网络延迟较低的条件下,3 种一致性校验方法的数据读取吞吐率相差较小;随着网络延迟的提升,两种传统校验方法的数据读取吞吐率衰减过快,会严重影响到数据的一致性校验。在不同网络延迟条件下数据写入的吞吐率变化情况如图5 所示。

图5 异构数据写入的吞吐率指标差异

与数据读取时的吞吐率变化不同,当网络延迟为0 ms 的条件下,基于XML 供给的一致性校验方法并没有出现性能上的衰减,表明该一致性校验方法具有更强的数据复制与转换性能。

4 结束语

数据资源作为最重要的社会资源之一,在社会经济生活中发挥出越来越重要的作用。大数据不仅表现为总量上的海量性,还表现为结构上的复杂性,数据一致性检验也成为数据集成和融合的关键环节之一。文中基于XML 语言对异构性数据库进行一致性检验,仿真结果表明提出方法数据一致性校验效果更好,数据读写的能力更强。

猜你喜欢
异构校验文档
浅谈Matlab与Word文档的应用接口
试论同课异构之“同”与“异”
有人一声不吭向你扔了个文档
炉温均匀性校验在铸锻企业的应用
异构醇醚在超浓缩洗衣液中的应用探索
基于RI码计算的Word复制文档鉴别
overlay SDN实现异构兼容的关键技术
LTE异构网技术与组网研究
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
大型电动机高阻抗差动保护稳定校验研究