基于IHS_LSSVR的网络安全态势预测方法

2014-08-03 15:23肖振久孙丽娜

计算机工程与应用 2014年23期

关键词：搜索算法态势网络安全

陈虹，王飞，肖振久，2，孙丽娜

1.辽宁工程技术大学软件学院，辽宁葫芦岛 125105

2.中国传媒大学计算机学院，北京 100024

基于IHS_LSSVR的网络安全态势预测方法

陈虹1，王飞1，肖振久1，2，孙丽娜1

1.辽宁工程技术大学软件学院，辽宁葫芦岛 125105

2.中国传媒大学计算机学院，北京 100024

1 引言

随着互联网络的迅速发展，网络安全问题变得越来越严重，网络安全主动防御策略也成为当前网络安全领域的研究热点之一[1]。文献[2]中Songmei Zhang等提出一种基于信息融合的网络安全态势分析框架，力图重现网络遭受攻击的过程，文献[3]中Rongrong Xi等提出一种综合网络安全态势感知系统，从多个角度实现了网络安全态势的可视化。但文献[1-2]都没能实现网络安全态势预测。

文献[4]中孟锦等提出基于HHGA-RBF神经网络的网络安全态势预测模型；文献[5]中尤马彦等提出基于Elman神经网络的网络安全态势预测方法；文献[6]中王晋东等提出使用马尔可夫链结合灰色理论构造预测模型，文献[7]中韦勇等提出利用ARMA模型对网络安全态势值进行预测分析。但这些方法都存在着不足之处：文献[4-5]采用的神经网络方法具有结构难以确定和易陷入局部最优的缺点；文献[6]中提出的数学模型在实际应用中难以建立，而且需要大量复杂数学推理过程；文献[7]中提出的方法需要较多的人工操作，步骤颇为复杂。

最小二乘支持向量机[8]是经典支持向量机[9]的改进和发展，采用等式约束代替不等式约束，求解过程变成解一组等式方程，求解速度明显加快，但其参数选择目前仍然是依靠经验和试算。和声算法[10]是新近提出的一种全局优化算法，本文对其进行了改进，并将改进后的和声搜索算法用于优化选取最小二乘支持向量机的参数，提出一种IHS_LSSVR算法。最后尝试将该算法应用到网络安全态势预测中，同时与已有模型进行对比，仿真实验表明该方法更具优越性。

2 LSSVR回归算法

设给定数据样本为{(x1，y1)，(x2，y2)，…，(xn，yn)}，其中xi∈Rm表示输入向量，yi∈R表示输出值，n表示数据样本数目。回归预测函数表示如下：

其中，w表示LSSVR超平面的权重向量，b表示偏置量。

与SVR不同，LSSVR回归预测即是求解如下的最小化问题：

其中，r表示惩罚因子，εi为松弛因子。

引入拉格朗日乘子αi，构造如下拉格朗日函数：

其中，Iv=[1，…，1]T，I为n×n的单位矩阵，y=[y1，y2，…，yn]，α =[α1，α2，…，αn]，Ω 为方阵，它第 i行 j列的元素为Ωi，j=K(xi，xj)，K(xi，xj) 为满足 Mercer条件的核函数。本文使用高斯核函数为：

解上述线性方程组（4）可求得回归函数 f(x)的表达式为：

3 改进的和声搜索算法

3.1 和声搜索算法（HS）

HS算法首先随机产生HMS（Harmony Memory Size，HMS）个初始解（和声）放入和声记忆库（Harmony Memory，HM）中，根据相应规则产生新解，然后判断新解是否优于HM内的最差解，若是则替换之，否则保持当前HM不变。上述过程不断重复，直至满足终止条件为止。

HS算法过程如下：

步骤1HM的初始化，包括以下两部分：

（1）初始化算法参数，包括和声记忆库大小HMS，和声记忆库考虑概率HMCR，和声微调概率PAR，微调幅度BW和算法迭代次数NI。

（2）初始化和声记忆库，为了使初始和声库HS具有一定的均匀分布性，初始和声矢量 X1，X2，…，XHMS在定义域内按照 Xi，j=LBj+r×(UBj-LBj)均匀地产生，其中Xi，j为 Xi的第 j维决定变量，r为[0，1]之间的均匀随机数；UBj和LBj分别为决策变量的上界和下界。

步骤2生成新的和声。基于考虑概率、微调概率和随机选择3个规则产生新的和声矢量。过程描述如下：

步骤3更新和声记忆库。令 f(x)表示目标函数，f(x)值越小表示性能越好。如果 f(Xnew)＜f(Xworst)，则Xwors=Xnew，并将HM按照 f(x)的优劣重新排序；否则，保持HM不变。

步骤4判断是否满足终止条件，若是则算法结束，否则转到步骤2继续执行。

3.2 改进和声搜索算法（IHS）

通过对3.1节分析可知，和声记忆库考虑概率HMCR、和声微调概率PAR和微调幅度BW是和声搜索算法的3个关键控制参数。根据文献[11]，HMCR值大有利于算法局部收缩，值小有利于群体多样性，本文取HMCR值为0.95；PAR值大有利于算法在和声记忆库中调整搜索区域，值小有利于算法增强局部搜索能力；BW值大有利于算法跳出局部最优，值小有利于算法在局部区域精细搜索。在基本HS算法中，PAR和BW值在整个迭代过程中是固定不变的，这严重影响了算法的性能。为了在整个解空间进行有效搜索，并尽可能将搜索重点集中于性能较高的区域，从而提高算法效率，本文采用动态变化的PAR和BW，即PAR值由小到大变化，BW值由大到小变化。

3.2.1 设置PAR变化方式

在HS算法搜索初期，采用较小的PAR值有利于算法快速搜寻较好区域；在HS算法搜索后期，采用较大的PAR值有利于算法跳出局部极值。因此，首先确定PAR值的变化范围，然后采用从小到大的变化方式。PAR值按式（7）动态变化，如图1所示。

其中，PARmax和PARmin分别为PAR的上界和下界，iter和NI分别为当前和最大迭代次数。

图1 PAR值的正弦变化

起始时PAR为最小值，随着迭代次数的增加，PAR值按正弦曲线逐渐增大，当迭代次数iter趋近于NI时，PAR趋近于最大值。

3.2.2 设置BW变化方式

在HS算法搜索初期，采用较大的BW值有利于算法在大范围内探测；在HS算法搜索后期，采用较小的BW值有利于算法在小范围内精细搜索。因此，首先确定BW的变化范围，然后采用从大到小的变化方式。BW 值按式（8）动态变化，如图2所示。

其中，BWmax和BWmin分别为BW 的上界和下界，iter和NI分别为当前和最大迭代次数。

图2 BW值的线性变化

起始时BW为最大值，随着迭代次数的增加，BW值按线性方式逐渐减小，当迭代次数iter趋近于NI时，BW趋近于最小值。

4 IHS_LSSVR预测算法

通过第2章中对LSSVR的分析可知，需要确定的参数为惩罚因子r和高斯核函数的半径σ。对于如何获得LSSVR参数的最佳值，目前还没有统一的方法。谢屹鹏等[12]提出用遗传算法（GA）优选LSSVR参数的方法，这种方法需要人为确定变异因子、交叉因子和选择因子三个参数。为了使LSSVR获得更好的泛化性能和预测精度，本文使用改进的HS算法对LSSVR算法的参数对(r，σ)进行优化选择，提出一种IHS_LSSVR算法。在IHS_LSSVR算法中，每一个和声代表LSSVR的一个参数对(r，σ)，和声所对应的目标函数值反映了该组参数下的算法性能，本文选取均方根误差（RMSE）作为目标函数，其具体形式如下：

其中，n是训练样本的个数；yi是实际值；是预测值；fRMSE是相应的目标函数值。

IHS_LSSVR算法步骤如下：

步骤1初始化算法参数，随机生成并初始化和声库，其中每个和声代表一组参数(r，σ)。

步骤2基于考虑概率、微调概率和随机选择3个规则产生新的和声，其中PAR和BW 的值按式（7）和式（8）进行动态地变化。

步骤3根据式（6）和式（9）更新和声记忆库，若新解优于HM内的最差解，则替换之，并将HM内各个解向量重新排序，否则保持当前HM不变。

步骤4判断是否满足终止条件或达到预定的迭代次数NI，若是则转到步骤5，否则转到步骤2继续执行。

步骤5输出和声库HM的最优解向量，按照式（6）构造最优的回归预测模型。

5 仿真实验

5.1 实验数据及其相关处理

本文实验数据采用Honeynet组织收集的黑客攻击数据[13]。Honeynet组织维护一个包含8个IP地址的局域网络，连续收集记录了从2000年4月至2001年2月针对该局域网络的所有攻击信息。由于Honeynet采取隐匿方式连接到互联网上，使用防火墙和NIDS按照时序关系记录每一个网络行为信息，对外不提供任何服务，且没有诱使黑客进行攻击，采集到的安全数据大幅减少虚警率和漏报率，能够真正反映出黑客的攻击行为模式，所以采用Honeynet数据进行网络安全态势分析是合适的。

采用文献[14]提出的网络安全态势评估方法来计算2000年7月5日到2000年12月3日的网络安全态势值。这期间的记录数据相对完整，共得到126个网络安全态势值。为了避免原始数据跨度大对预测模型训练造成不良影响，将所获得的样本数据集归一化到区间（0，1）。归一化公式如下所示：

其中xi与 x分别为归一化前后的网络安全态势值；xmax与xmin分别为归一化前所有网络安全态势值中最大值和最小值；n为网络安全态势值个数。归一化后的网络安全态势值如图3所示。

图3 规格化后的网络安全态势值

5.2 实验预测分析

由于网络安全态势值都是一维的时间序列值，需要重构这些值才能得到符合条件的样本集。重构就是确定输入维数和输出维数的过程，本文设定输入维数为7，输入维数为1。对归一化后的样本数据集进行重构，可以构造119个样本对，选取前105个样本对作为训练集，后14个样本对作为测试集。

由文献[15]可知，r的大致范围是[1，108]，σ的大致范围是[0.01，2.0]，这样可以避免在初始化参数时盲目取值。本文所有实验的环境为：Windows XP操作系统，matlab7.0平台，Core CPU主频2 000 Hz，RAM为2 048 MB。经过反复实验，所得最优解为：r=83，σ=2.21。

利用所得最优参数建立网络安全态势预测模型，对测试集数据进行实验。为了验证本文算法有更好的预测精度，采用已有网络安全态势预测方法（文献[3]的HHGA-RBFNN预测方法，文献[4]的Elman预测方法）进行相同的实验，得到如图4所示的对比结果。

从图4中可以看出IHS_LSSVR模型的预测结果要优于其他两种方法，下面采用定量分析方法作进一步的对比。

本文采用均方根误差（RMSE）和平均相对误差（MAPE）两项性能指标来评判预测模型的性能。MSE和MAPE值越小，对应模型预测性能越好。这三种模型的性能对比如表1所示。

图4Elman、HHGA-RBFNN、IHS_LSSVR态势预测值

表1 三种模型的性能对比

从表1中可以看出，IHS_LSSVR预测模型的RMSE和MAPE值均小于其他两种模型的RMSE和MAPE值，表明IHS_LSSVR模型的预测性能优于其他两种模型。

6 结束语

对网络安全态势进行预测是主动防御黑客攻击的一种有效手段，有助于网络管理人员把握未来网络安全态势的发展趋势，从而提前采取相应的网络安全措施。本文提出一种基于IHS_LSSVR的网络安全态势预测方法，将LSSVR嵌入到IHS算法的目标函数计算过程中，利用IHS算法的全局搜索能力来优化选取LSSVR的参数，在一定程度上提升了LSSVR的学习能力和泛化能力。仿真实验结果表明，该方法对于预测未来的网络安全态势值具有较好的效果。

[1]席荣荣，云晓春，金舒原，等.网络安全态势感知研究综述[J].计算机应用，2012，32（1）：1-4.

[2]Zhang Songmei，Yao Shan，Ye Xin’en，et al.A network security situation analysis framework based on information fusion[C]//2011 6th IEEE Joint International Information Technology and Artificial Intelligence Conference（ITAIC），2011：326-332.

[3]Xi Rongrong，Jin Shuyuan，Yun Xiaochun，et al.CNSSA：a comprehensive network security situation awareness system[C]//Proceedings of 2011 IEEE 10th International Conference，2011：482-487.

[4]孟锦，马驰，何加浪，等.基于HHGA-RBF神经网络的网络安全态势预测模型[J].计算机科学，2011，38（7）：71-75.

[5]尤马彦，凌捷，郝彦军.基于Elman神经网络的网络安全态势预测方法[J].计算机科学，2012，39（6）：61-76.

[6]王晋东，沈柳青，王坤，等.网络安全态势预测及其在智能防护中的应用[J].计算机应用，2010，30（6）：1480-1488.

[7]韦勇，连一峰，冯国登.基于信息融合的网络安全态势评估模型[J].计算机研究与发展，2009，46（3）：353-362.

[8]Suykens J A K，Vandewalle J.Least squares support vector machine classifiers[J].Neural Processing Letters，1999，3：293-300.

[9]Wu C H，Wei C C，Su D C，et al.Travel time prediction with support vector regression[C]//Proceedings of IEEE Intelligent Transportation Conference，2003：1438-1442.

[10]Geem Z W，Kim J H，Loganathan G V.A new heuristic optimization algorithm：harmony search[J].Simulation，2001，76（2）：60-68.

[11]Omran M G H，Mahdavi M.Global-best harmony search[J]. Applied Mathematics and Computation，2008，198（2）：643-656.

[12]谢屹鹏，汪西莉.基于GA-LSSVR的渭河水质参数遥感反演研究[J].遥感技术与应用，2010，25（2）：257-262.

[13]Honeynet Project.Know your enemy：statistics[EB/OL]. [2012-10-11].http：//old.honeynet.org/papers/stats.

[14]陈秀真，郑庆华，管晓宏，等.层次化网络安全威胁态势量化评估方法[J].软件学报，2006，17（4）：885-897.

[15]Ustun B，Melssen W J.Determination of optimal support vector regression parameters by genetic algorithms and simplex optimization[J].Analytical Chimica Acta，2005，544（1/2）：292-305.

CHEN Hong1,WANG Fei1,XIAO Zhenjiu1，2,SUN Lina1

1.School of Software,Liaoning Technical University,Huludao,Liaoning 125105,China
2.School of Computer,Communication University of China,Beijing 100024,China

To address the situation prediction problem in the network security situation awareness,this paper presents a prediction method of network security situation based on the algorithm of IHS_LSSVR.An improved Harmony Search（IHS）algorithm is proposed since the principle of the Harmony Search（HS）algorithm is studied.This method embeds the Least Squares Support Vector machine for Regression（LSSVR）in the process of the objective function calculation of the improved harmony search algorithm,and takes advantage of the global searching ability of the IHS algorithm to optimize the parameters of the LSSVR.To some extent,this enhances the learning ability and generalization ability of the LSSVR.Simulation experiments show that this method has better prediction affection in comparison with other existing prediction methods.

Harmony Search algorithm（HS）;Least Squares Support Vector machine for Regression（LSSVR）;parameters optimization;network security situation prediction

针对网络安全态势感知中的态势预测问题，提出一种基于IHS_LSSVR的网络安全态势预测方法。对和声搜索算法（HS）的原理进行了研究，在该基础上提出一种改进的和声搜索算法（IHS）。将最小二乘支持向量回归机（L-SSVR）嵌入到改进的和声搜索算法（IHS）的目标函数计算过程中，利用IHS算法的全局搜索能力来优化选取LSSV-R的参数，在一定程度上提升了LSSVR的学习能力和泛化能力。仿真实验表明，通过与已有的其他预测方法作对比，该方法具有更好的预测效果。

和声搜索算法；最小二乘支持向量回归机；参数优化；网络安全态势预测

TP393.08；TP18

10.3778/j.issn.1002-8331.1302-0172

CHEN Hong,WANG Fei,XIAO Zhenjiu,et al.Method of network security situation prediction based on IHS_LSSVR. Computer Engineering and Applications,2014,50（23）：91-94.

国家自然科学基金（No.61103199）。

陈虹（1967—），女，副教授，研究领域为网络安全；王飞（1988—），通讯作者，男，硕士研究生，研究领域为网络安全；肖振久（1968—），男，副教授，研究领域为网络与信息安全；孙丽娜（1982—），女，博士研究生，讲师，研究领域为信息安全和可信计算。E-mail：china_wangfei@163.com

2013-02-26

2013-04-24

1002-8331（2014）23-0091-04

CNKI网络优先出版：2013-05-03,http://www.cnki.net/kcms/detail/11.2127.TP.20130503.1707.009.html