基于人工智能技术的分布式数据库重复记录自动检测系统设计①

2024-02-26 03:31王彩霞
关键词:分布式公式数据库

王彩霞, 陶 健

(安徽商贸职业技术学院信息与人工智能学院,安徽 芜湖 241002)

0 引 言

随着消费水平以及经济水平的不断发展,并发访问量以及数据信息量增长迅速,数据库中重复数据的出现越来越多。唐运乐等通过对分布式数据库进行动态聚类,进行相应的数据库查询处理[1];史艳丽等通过前台端管理以及查询借阅信息的查询界面设计,帮助用户对书籍数据进行查询[2]。上述方式均为考虑在查询过程当中重复信息的影响,查询结果当中包含的重复信息容易对用户判断造成干扰。

在分布式数据库当中,通过集合代数对数据库中的信息进行处理,并通过非关系数据库二次转换相应的数据信息,能够有效的避免数据信息重复,更好的进行自动检测。设计系统的样本数据以存储系统作为基础,对文本信息当中的关键词特征做出提供,通过Shingle算法对查询结果的精确率以及召回率进行验证[3,4]。经过实际实验仿真验证,设计算法在进行分布式数据库重复记录的自动检测时,查询速度更快,查询准确率更高。

1 数据信息整合

在分布式数据库中,对不同样本的多种数据进行整合,能够更好提高输送路径与信息对应的匹配精度,避免数据重复,保证查询结果的精确性[5]。对大量数据进行整合时,首先对数据库中的字符串以及初始数据进行特征提取,得到相应的特征权重,而后通过信息积累分布对信息数据进行整合。

对于函数Y(t),设关于函数的结合为Y(n),Wf为对应的传输结束的频率。在多层分布中,需要进行整合的数据集可以表示为公式(1)。

公式(1)中,尺度函数用S0表示,高频时段对应的数据差值用Sk表示,分布式数据当中,初始的数据集用d[k]表示。

初始数据方程可以表述公式(2)。

公式(2)中,在分布式数据库内具有较低识别率的数据集通过devey表示,进行数据整合的数据信息通过gppet表示,数据信息需要集成时对应的约束条件通过mgyn表示,分布式信息库内对应的关联性数据通过dghk表示,主要的特征向量通过ffil表示。

分布式数据库中,重点信息方程的构建可以表述为公式(3)。

公式(3)中,分布式数据库中数据矩阵重复度最高时,将其表示为dgjo以及drjo,信息元素不同时对应的存储模块表示为kert,数据查询时的容错率通过eety表示,数据采样时对应位置的确定参数用vfip表示,分布式数据库对应的信息量规模用mkk表示。

数据信息对应的权衡函数可以表示为公式(4)。

公式(4)中,数据关联信息通过dgik表示,数据库当中特殊范数通过Rqwe表示,联合系数对应的分散值通过sdfg表示,时空分布状态以及相应的数据属性通过fegh表示。

数据库中,异构数据对应的累计分布函数可以表示为公式(5)。

公式(5)中,数据参数对应的近似值用δfh表示,属性系数对应权重向量空间用rrhj表示,整合过程中,异构数据产生的周期误差用wdgj表示,数据源采样的周期用∂ser表示。

结合公式(5),依据数据源对应主成分的分布规律,对数据信息进行二次整合,得到公式(6)。

公式(6)中,数据库信息源对应主成分变化规律通过ssfgh表示。至此对数据库当中不完整、重复的数据信息进行整合,以避免检索到重复记录。

2 目标函数构建

通过分段数据库当中的数据信息,以辨别不同分段数据的属性,对数据特征做出区分,从而对存储数据的结构特征做出区分。当特征一致时,那么两个数据判定为重复数据,做出进一步的数据信息整合。存储数据对应的样本集合用X表示,数据对应的数据属性用n表示,数据属性对应的特征用e表示,那么数据特征组成集合{ω1,ω2,…,ωi}。分布式数据库当中,数据集合需要查询的样本集合表示为Q,通过聚类参量模型对数据库特征做出判定,表述为公式(7)-公式(9)。

Si=Sb+Sω

(9)

公式(7)-公式(9)中,聚类参量模型为Sω,数据库存储的样本数据对应的序列值表示为p(ωi),集合维数表示为u=E(x),交叉数据通过μi表示,交叉数据对应的维度表示为T。

通过模糊聚类的方式对样本进行整合,得到的存储对应向量空间为f(x,y),对于(p+q)阶矩阵的计算可以通过公式(10)。

公式(10)中,数据分类之后用(x,y)表示,对特征分解的信息进行自适应融合,对聚类中心位置的自动化查询通过公式(11)完成。

公式(12)中,对信息流进行自动化查询时得到的特征数据用xi表示。

3 自动化查询

对目标语言词法进行分析是文本信息处理的重要一步。词法分析的速度以及准确性相互之间有一定的关联关系,为避免过分保证分词准确导致分析速度变慢或者分析速度过快导致分词不准确的情况发生,在分词系统中,自动化算法的载体采用ICTCLAS,对准确度以及速度做出进一步的平衡,对于词库的查询量级可以达到百万级,同时CPU占用率相对较低。

分布式数据进行自动化查询的具体步骤如图1。

图1 自动化查询流程示意图

图1中,灰狼位置的权重计算通过GOW完成。对适应度进行排序时,通过降序排序,并进行最优解的选择,而后进行迭代。

4 实验仿真以及结果分析

4.1 实验仿真设计

实验仿真设计中,通过ICTCLAS3.0对分词系统ICTCLAS进行相应的信息下载,将数据信息在Java中进行存储,保证能够进行关键词磁性的识别以及快速划分。出纳量函数选择hash函数。

实验数据的选择上,选择包括银行、理财、社会保障、养老以及学校五个方面的数据信息。不同方面的数据库选择随机数据的数据量为500组。对关键词的属性依据动词、名词以及形容词的词性做出分类,同时在数据库中添加无关联的数据信息5000条,以模拟实际情况。实验对比上通过RDF图数据查询以及公众平台查询作为对比。

4.2 精确度以及召回率比较

实验设计方式与RDF图数据查询以及公众平台查询精确率的对比如图2。

图2 精确率对比结果

图2中,公众平台查询的方式对应的精确率在80%左右,RDF图数据查询的方式精确度在82%左右,设计算法的精确率在93%左右,相比之下,设计算法的精确度最高。

设计算法与其他两种算法的召回率对比如图3。

图3 召回率对比结果

图3中,公众平台查询方式对应召回率在82%左右,RDF图数据查询的方式召回率在73%左右,设计算法的召回率在93%左右,相比之下设计算法对于不同数据类型的召回率均能保持在90%往上,具备更好的适用性。

4.3 用户满意度比较

对用户满意度的结果比较能够对不同方式的查询结果进行直观比较,当查询得到的重复数据较少时,能够得到较高的用户满意度,反之用户满意度越低。三种方式查询所得用户满意度比较结果如图4。

图4 用户满意度比较结果

图4中,设计算法所得的用户满意度在不同类型数据中均高于其他两种算法。其中理财以及社会保障两种类型的数据查询结果相对较低,主要由于在理财以及社会保障这两种类型的数据当中,关于名词解释的数据信息出现频繁,出现了较多的重复数据,因此三种算法得到的用户满意度均比较低。设计算法与其他算法相比在各种类型数据信息中都能保持最高的用户满意度,是由于通过逆文档频率能够字长重复内容以及关键词词性做出更好的筛选。

4.4 F1值结果比较

三种算法进行检测时F1值的曲线对比结果如图5所示。

图5 F1值曲线结果对比

图5中,随着样本数据的不断增加,F1值曲线会出现相应的波动。但是相比较而言,设计算法能够始终保持在85往上的水平,均高于其他两种算法。这就表明设计算法对重复记录的查询效果更好,数据查询质量更高。

4.5 查询耗时比较

进行重复记录的数据查询时,查询请求量与查询时间成正比,三种方式对数据查询的平均耗时结果比较如图6。

图6 平均耗时结果比较

图6中,在样本数据不断增加的过程中,数据查询的平均耗时也在不断波动变化。设计算法与其他两种算法相比,总体上均能保持在较低水平。同时设计算法的波动幅度较低,较少出现骤减或者激增,稳定性更好。

5 结 语

改进的分布式数据库重复记录自动检测系统主要结合模糊聚类以及灰狼算法对自动化查询进行结果寻优,以解决面对数据库中的海量数据信息查询重复数据信息较多,稳定性差等问题。通过样本对应的数据特征,进行数据信息对应存储模型的构建,从而减少对应的计算时间。通过灰狼算法、Shingle算法以及逆文档频率进行针对分布式数据库重复记录自动检测系统的设计。经过实际算例验证,从精确度、召回率、用户满意度、F1值以及查询的平均耗时等五个方面进行对比,证明的改进算法在分布式数据库中数据信息量较大,重复信息较多时,能够在更快时间内进行更加准确的重复记录自动化查询,满足用户需求。

猜你喜欢
分布式公式数据库
组合数与组合数公式
排列数与排列数公式
等差数列前2n-1及2n项和公式与应用
例说:二倍角公式的巧用
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
数据库
数据库
数据库
数据库