基于流量行为特征的网络异常稳定识别仿真

2023-09-20 10:36任立胜陈红红包永红
计算机仿真 2023年8期
关键词:网络流量准确率向量

任立胜,陈红红,包永红

(内蒙古农业大学计算机技术与信息管理系,内蒙古 呼和浩特 010018)

1 引言

随着科学技术的快速发展与网络规模的不断扩大,网络异常事件也变得越来越频繁。为了创造性能与安全相互平衡[1]的运行环境,人们对网络异常行为的识别技术提出了更高的要求,不仅要求识别技术的精度高,还要求其具备优良的准确性。其中的关键就是对网络异常行为识别技术做出升级和优化[2]。通过上述分析可知网络异常行为识别方法成为目前亟需解决的问题和人们研究的热点。

王泽伟[3]等人在先验知识的基础上构建基于时空融合的双层卷积神经网络模型,然后将网络流量的连续光流帧作为模型的输入向量,最后将模型迁徙学习算法投入到模型中加快迭代次数,完成网络异常行为的识别。该方法没有剔除网络行为流量中的噪声,导致方法的异常识别准确率较低。李伟[4]等人首先将深度学习算法与半监督模式融合,得到关于网络流量的双极残差,并以此构建出双极残差神经网络模型,然后将该模型作为网络异常行为识别的核心模型,在模型中标记出网络流量的特征,最后采用扰动混合算法生成具有差异性的分类器,并将特征输入到分类器中,通过加权增量学习算法实现流量的状态分类,完成网络异常行为的识别。该方法没有在训练模型中引入核函数,导致方法的训练精度低、进而导致网络异常行为识别精度低。袁丽欣[5]等人首先提取网络流量的内容、属性、分布情况作为三大特征向量,然后将特征向量输入到XGBoots分类器中完成向量的随机选择,最后在分类器的基础上构建GBM分类模型实现网络流量的类型分类,完成网络异常行为的识别。该方法没有消除网络流量中存在的噪声数据,导致方法的异常行为识别准确率较低。

为了解决上述方法中存在的问题,提出基于流量行为特征的网络异常行为识别方法。

2 网络流量预处理

2.1 网络流量降噪

为了避免网络流量中的噪声对异常行为识别过程产生干扰,首先采用提升小波变换法剔除网络流量中的噪声[6]。提升小变换法的流程如图1所示。

图1 提升小波变换降噪法流程

具体步骤如下:

1)利用提升小波变换法处理网络中的流量时,根据小波变换的奇偶互相关性[7]可以将网络流量序列分裂成奇数序列与偶数序列,公式如下所示:

split(Ri)=[pi-1,qi-1]

(1)

式中,split表示分裂函数;Ri表示第i个流量序列;p表示偶数序列;q表示奇数序列。

2)在网络流量的奇数序列与偶数序列之间,必然存在一定的关联性,因此可以利用奇数序列来预测和控制偶数序列。此时需要引入预测因子,公式如下所示:

ei-1=qi-1-Q(pi-1)

(2)

式中,e表示预测值与实际值之间的相对误差;Q表示引入的预测因子。

3)近似系数作为网络流量中的低频组成部位,可以通过引入更新因子[8]来获取近似系数。然后重复实行步骤1)与步骤2),可以获得网络流量的多级分解。分解公式如下所示:

Ri=V(ei-1)+pi-1

(3)

式中,V表示引入的更新因子。

4)将完成多级分解后的网络流量重新融合,通过该融合过程实现噪声的剔除,完成网络流量的降噪处理,公式如下所示:

(4)

式中,merge表示融合函数。

2.2 网络流量行为特征提取

针对降噪后的网络流量,采用矢量量化技术与主题模型算法提取其中的行为特征[9,10],具体步骤如下:

1)将降噪后的网络流量划分成若干簇(以量化失真作为终止划分的依据条件),然后将簇的中心点作为新的簇头不断划分,直到相邻两次的划分结果量化失真率小于基本阈值。公式如下所示:

(5)

式中,a表示网络流量样本集合;aj表示第j个网络流量样本;D表示簇间样本点的距离;α表示量化失真程度;l表示迭代次数;m表示划分总次数;n表示样本点的总数量。

2)在划分好的簇中,一般存在两个平行不相交的序列,分别用I和P表示。则每一个(I,P)对应着一个网络流量行为特征项,然后将矢量量化算法引入到行为特征项中,可以得到网络流量的特征量序列。公式如下所示:

(6)

3)基于矢量量化技术与主题模型的特征提取方法,将网络流量的特征量序列输入到主题模型中,从中提取出流量的行为特征。主题模型的表达方式如下所示:

(7)

式中,β表示条件概率;u表示概率分布;v表示潜在参数;s表示特征量序列中的词汇组合;Dirichlet表示狄利克雷函数;χ表示均匀分布的控制参数。

4)主题模型的运算是在不同主题的概率分布程度上实现的,为此引入吉布斯抽样法[11]计算出网络流量隐含主题的分布概率,完成网络流量行为特征的提取,公式如下所示:

u(β,v,s)=u(β|χ)∏u(s|v,D)

(8)

3 网络异常行为识别实现

将提取的流量行为特征输入到支持向量机中,通过向量机的二分类结果实现网络异常行为的识别,原理如图2所示。

图2 支持向量机的二分类原理

具体步骤如下:

作为不同属性的构成矢量,所提取的流量行为特征具有不同维度的分布取值范围。首先采用归一化算法使不同维度的流量行为特征值映射[12]到同一维度中,得到具有相同量纲的流量行为特征,公式如下所示:

(9)

式中,b′表示特征值集合中的归一化值;b表示特征集合中的任意特征;maxb表示集合中该类特征的最大值;minb表示集合中该类特征的最小值。

利用支持向量机对网络流量行为特征分类过程中,将提取的流量行为特征的每一个字节作为输入向量,将一个循环周期作为迭代计算的完整流程,可用如下公式表示:

z={T,ID,b1,b2,…}

(10)

式中,z表示支持向量机的输入向量;T表示循环周期;ID表示网络中的消息。

将网络中的流量状态标签自定义为k∈[-1,1],其中,1代表流量正常行为;-1表示流量异常行为。在支持向量机中投入非线性约束条件,公式如下所示:

(11)

式中,φ表示松弛系数;ε、g均表示分类超平面参数。

由于网络流量行为特征中的参数具有非线性性质,因此需要引入核函数[13]将流量行为特征重新映射到新的空间。本文中核函数选取的是径向基函数,公式如下所示:

(12)

式中,H表示核函数(径向基函数);φ表示映射方式。

在核函数的基础上,计算出支持向量机在分类超平面中的对偶分裂形式[14],公式如下所示:

(13)

式中,s.t.表示约束性质;E表示最佳参数。

最佳参数值可以通过训练样本集中的网格搜索得到,而在支持向量机模型中由超平面唯一的解(ε*,z*)决定,公式如下所示:

(14)

得到最佳参数值后,输出支持向量机的分类结果x,将结果为1的网络流量视为正常行为;结果为-1的网络流量视为异常行为,完成网络异常行为的识别[15]。分类结果的公式如下所示:

x=sign[∑bkH(b)+g]

(15)

4 实验与分析

为了验证所提方法的整体有效性,需要对其进行如下测试。自主开发并搭建模拟实验台,为各个方法的网络异常行为识别测试提供硬件基础与软件条件。其中各个硬件系统参数如下:CPU型号i5-12400F、内存128GB、处理内核12(8+4)、Windows10主显示器、实验平台MatlabR2015a。

为了保证实验的公正性与主观性,测试分别在三组数据集中完成。其中MAWILAB数据集是由网络流量数据与其对应的标签文档生成的、ISP数据集是来自于2021年某物流公司采集的流量数据、ISCX数据集是由固定规则的系统生成。这些数据集中的异常样本是由网络特定领域下的标准来定义的,实验数据集的具体参数如表1所示。

表1 不同的实验数据集参数

将识别精度(AUC-ROC)、识别准确率(AUC-PR)作为评价指标,对所提方法、文献[3]方法和文献[4]方法进行对比测试。

1)AUC-ROC

AUC-ROC是表示各个方法在网络异常行为识别结果中,真阳率与假阳率之间的变动曲线与坐标轴所包围的面积。其值越高,表明方法的识别精度越高;其值越低,表明方法的识别精度越低。

分别采用上述三种方法识别三组实验数据集,对比不同方法的AUC-ROC数值,测试结果分别如图3(a)、图3(b)、图3(c)所示。

图3 AUC-ROC测试结果

分析图3可知,无论针对哪组数据集的异常行为识别,所提方法的AUC-ROC数值均高于文献[3]方法和文献[4]方法的AUC-ROC数值,说明针对网络异常行为的识别,所提方法的识别精度高于文献[3]方法和文献[4]方法的识别精度。这是因为所提方法在异常行为识别之前,首先采用提升小波变换法剔除网络流量中的噪声,避免识别过程受到的噪声干扰,以此降低噪声对识别效果的影响。

2)AUC-PR

AUC-PR是指各个方法在网络异常行为识别结果中,准确率与召回率之间的曲线与坐标轴之间的面积,是评价各个方法对异常样本的识别能力,其值越高,表明方法的识别准确率越高;其值越低,表明方法的识别准确率越低。

进一步采用上述三种方法识别三组实验数据集,对比不同方法的AUC-PR数值,测试结果分别如图4(a)、图4(b)、图4(c)所示。

由图4可知,针对网络异常行为的识别,无论在哪组数据集测试中,所提方法的AUC-PR数值均高于文献[3]方法与文献[4]方法的AUC-PR数值,说明所提方法的异常行为识别准确率高于文献[3]方法与文献[4]方法的识别准确率。且该方法的AUC-PR数值比较稳定,没有出现明显波动,而文献[3]方法与文献[4]方法的AUC-PR数值上下波动较大,说明所提方法的准确率稳定性强于文献[3]方法与文献[4]方法的稳定性。

所提方法在对网络异常行为识别过程中,采用了提升小波变换法剔除了网络流量中的噪声,预处理后的网络流量消除了自身的冗余数据,进而在识别过程中不受噪声数据的影响,在一定程度上提高了方法的异常行为识别准确率。

5 结束语

目前网络异常行为识别方法存在识别精度低、识别准确率低等问题。为此提出基于流量行为特征的网络异常行为识别方法。采用提升小波变换法剔除了网络流量中的噪声,然后采用矢量量化技术与主题模型算法提取其中的特征,最后将特征输入到支持向量机模型中实现分类,完成网络异常行为的识别。提高了识别精度和识别准确率的同时,在一定程度上为网络识别技术奠定了基础。虽然所提方法具有一定的有效性,但是由于网络中的恶意行为类型随着攻击技术的发展逐渐增多,因此,接下来将进一步研究面向更多恶意行为识别的方法,以提升所提方法的应用范围与应用效果。

猜你喜欢
网络流量准确率向量
基于多元高斯分布的网络流量异常识别方法
向量的分解
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
基于神经网络的P2P流量识别方法
2015—2017 年宁夏各天气预报参考产品质量检验分析
聚焦“向量与三角”创新题
高速公路车牌识别标识站准确率验证法
AVB网络流量整形帧模型端到端延迟计算
向量垂直在解析几何中的应用