基于DS 证据理论的多源网络安全数据融合模型

2024-04-02 03:42黄智勇林仁明朱举异李嘉坤
现代电子技术 2024年7期
关键词:警报态势框架

黄智勇,林仁明,刘 宏,朱举异,李嘉坤

(1.电子科技大学信息与软件工程学院,四川成都 610054;2.四川省市场监督管理局信息中心,四川成都 610017)

0 引 言

市场监管领域中业务平台每天经过的流量大、涉及的域名多,在网络安全的防护过程中日志系统和警报系统每天都会产生大量的数据,难以分析和预处理。同时,当今网络活动相当复杂,无论是单个入侵检测系统工作,还是多个入侵检测系统配合都容易出现误报、漏报和重复报警的问题,对于市场监管系统复杂的网络情况,难以快速准确地识别网络安全风险。为减轻市场监管领域网络安全防控压力,本文提出一种基于异构日志和警报源的安全数据融合算法,利用DS(Dempster-Shafer)证据理论对攻击数据进行关联和融合,快速获取系统最关键的安全态势信息,辅助市场监管网络安全态势决策。

1 相关研究

1.1 网络安全态势预测

由于目前的网络环境复杂,网络安全形势非常严峻,并随着各个企业与部门对网络安全的关注程度不断提升,对于网络安全态势预测的相关研究越来越多,也有许多研究已经构建了相应的网络安全态势预测模型。文献[1-2]首次将情景意识应用于网络安全中,将多源异构网络传感器数据进行数据融合之后再用于网络安全态势分析的技术中是十分重要的,这也引发了互联网安全领域的一场革命。

在构建网络安全态势感知框架的研究中,文献[3]提出一种具有多层次架构的网络安全态势感知框架,对该框架中的数据进行分类,针对每一个类分别分配对应的处理引擎,识别特定因素、特定类别的数据。文献[4]针对网络中的原始数据量超载导致的响应速度慢,以及网络中数据尤其是文本情感数据缺乏上下文联系并不和网络上视图保持统一的问题,提出一种分布式数据流处理方法,通过分布式处理减少数据处理的时间,同时将原始数据转换为通用格式的规范化数据来保证分布式框架的通用性。针对态势感知中的感知结果可视化方面,文献[5]提出一种态势可视化工具,能够可视化不同级别上的流量活动,并且发现不同的原始数据量可能会导致态势数据关系和模式的不同,从而为态势感知提供不同的分析能力。文献[6]提出在同一系统中,不同角色的人希望了解不同业务下的网络安全状态,针对不同网络安全配置文件,将有关网络节点的信息与由此产生的业务影响相关联,从而明确网络的哪一部分是角色希望感知的网络安全状态。文献[7]提出一种网络安全态势模型,该模型对态势感知中的功能属性进行研究,最后预测或模拟可能的场景等。

1.2 多源数据融合理论

多源数据融合理论及其应用在网络安全态势评估中是重要并且关键的,由于网络安全态势评估正确与否对于数据的要求比较高,所以多源数据融合后得到的融合结果是否准确直接与网络安全态势评估结果的正确性成正比,同时多源数据融合结果是否合理也直接影响网络安全态势评估结果的合理性。网络安全态势评估中的数据融合一般指的是针对不同来源、不同时间但是具有一定相关性的安全态势数据的融合,目的是解决以往使用单一数据源对网络安全进行态势评估导致的不准确与不合理的问题。数据融合的概念自1967 年由Dempster 提出以来,随着计算机技术的发展与广泛应用,尤其是在大数据、机器学习等极其需要数据的技术出现之后,数据融合技术也变得越发重要,尤其是在多传感器领域。多传感器信息融合技术通过选择合适的信息处理算法来处理从多个传感器获得的独立观测数据。传统的多传感器融合方法有卡尔曼滤波[8]、统计方法[9]、贝叶斯推理[10]、经验推理[11]、模板法等[12-13]。但是实际应用中,由于恶劣天气、传感器故障、能量供应不足、通信故障等内部和外部影响,从多传感器系统获得的数据可能不完整或不准确。在网络安全态势中应用数据融合也是如此,自文献[1-2]将数据融合模型应用于入侵检测系统和威胁感知之后,诞生了许多与此相关方面的研究,比如文献[14]改进了数据融合的方法,使其能在复杂环境下保证IDS 系统的目标检测能力与跟踪警报的能力。文献[15]在前人的研究基础上构建了一个以多源数据融合为基础的一种入侵检测系统框架。

国内对于数据融合以及数据融合在网络安全领域如何应用的研究起步比较晚,并且以高校和研究机构为主,在应用方面仍然缺乏相关的研究。文献[16]通过对网络中节点主机对外的服务信息、网络的访问信息和系统漏洞数据等多种数据进行分析和评估,并在对这些多源数据进行融合的基础上,对目标网络中实际的安全状况进行评价与分析。文献[17]主要使用D-S 证据理论对多源数据进行了可信可靠的融合分析,通过在DS证据理论中使用相似系数考察证据之间的相似性,减小冲突证据对于数据融合带来的影响而导致的数据融合结果的准确性降低的问题。文献[18]通过引入卡尔曼滤波结合数据融合框架来过滤数据,同时采用迭代的方法进行每轮融合,提高了融合的实时性。文献[19]注意到DS 证据理论中证据相互冲突的问题,提出在DS 证据理论进行数据融合时将证据的相对距离和证据的不确定性作为参数,减弱证据之间的冲突性,能够提高冲突证据之间融合的可行性。

2 基于DS 证据理论的数据融合模型

2.1 DS 证据理论

DS 证据理论基础严谨,组合规则简单,被广泛应用于决策、目标识别等信息融合领域。DS 证据理论在某种程度上是概率论和贝叶斯推理的推广。基于证据的累积,其可以使多传感器系统在不需要先验信息和条件概率的情况下提供有效、准确的信息融合结果,所以与传统的概率论相比,具有更严密的逻辑性,预测结果也有更高的鲁棒性,且其所需要的先验数据比概率推理理论中更直观、更容易获得,满足比贝叶斯概率理论更弱的条件,即不必满足概率可加性。同时,DS 证据理论是一种将同一证据体中的多个证据组合为一个抽象证据的方法。该方法能够整合大量特定证据的信息,能够处理缺乏先验信息的不确定性和不精确性问题,建模灵活有效。因此,对于网络安全态势这样一个模糊评估问题,采用DS 证据推理完成不确定性表达是非常合适并且准确的。

2.2 DS 理论框架

DS 证据理论首先定义了自己的识别框架,即针对一个具体的概率问题,假设所能认识到的所有可能的结果:

用集合表示,其中R在概率论中被称为样本空间也即此处的识别框架,定义R的幂集为:

而此时有一个函数m能将识别框架中的所有可能结果映射为[0,1]中的一个值,即满足:

则称函数m为此识别框架下的基本概率分配函数,即BPA,又称mass 函数或证据函数,其中经函数m运算的非零值子集又称为焦元。

在确定识别框架和基本概率分配之后,就需要用Dempster 合成规则来进行证据的合成,通过D-S 证据理论合成公式,可以把n个独立的证据组合起来得到证据的结果。

1)两个mass 函数的Dempster 组合规则

对于∀A⊆Θ,设m1、m2为同一识别框架Θ上的两个不同证据的基本概率分配函数,对它们的正交和m=m1⊕m2可确定为:

式中K为归一化常数。

式中,K为归一化常数,如果K= 0,则正交和m也是一个基本概率分配函数,否则,则不存在正交和m,即没有可能存在概率函数,也就是m1和m2矛盾。

2)n个mass 函数的Dempster 组合规则

对于∀A⊆Θ,设m1,m2,…,mn为同一识别框架Θ上的有限个不同证据的基本概率分配函数,对它们的正交和m=m1⊕m2⊕,…,⊕mn可确定为:

其中:

由式(6)可以看出,如果两个合成对象不是完全冲突的话,任意两个函数的正交和都是可计算、成立的,且合成规则的数学性质满足结合律和交换律,所以无论合成顺序如何,多个证据的合成结果都是一定的,然后再选取恰当的决策方法就可以得到基于基本DS 证据理论的数据融合结果。

2.3 基于DS 证据理论的网络安全数据融合模型

本文模型的目标是实现对于多网络传感器监测到的流量数据以及给出的报警数据进行数据融合。由于在同一个时段针对同一个攻击,不同厂家的网络传感器可能会给出不同的报警数据,此时就会导致针对一个行为得到的数据具有差异性,同时对于报警数据,应该主要关注攻击来源、攻击方式、攻击的危害性和资产组别相关的信息,对于其他的信息比如攻击维度、地理信息以及其他需要人员处理的信息不应进行关注。考虑到本文模型的目标是在不损失数据意义的基础上尽可能地减少冗余数据以为安全态势感知提供数据级基础,该模型应该主要包含数据预处理模块、DS 识别框架、BPA置信函数分配模块与证据决策模块。

多源数据融合流程图如图1 所示。

图1 多源数据融合流程图

2.3.1 数据预处理环节

当网络环境中攻击事件发生的时候会引起多个传感器产生多个警报日志,虽然这些警报日志引起的报警类型可能不一样,但是如果这些警报日志具有共同的特征比如说IP 地址,或者在一段时间内出现的次数非常频繁,就可以将这些警报认定为一次攻击,如果在一段时间内只有很少的一些警报,就不能判别这是否是一次攻击。所以在数据预处理阶段,应对所需要的属性进行选择,去除掉无用的属性信息,只保留跟网络攻击相关的信息。

对于不同的数据源,比如说系统日志,多个不同层级的流量传感器以及防火墙等应该根据不同的需求进行数据过滤,并建立相应的规则库。在市场监管领域中关注的是一段时间内网络中发生的攻击类型以及影响的资产组。所以在经过数据预处理后应该保留的关键信息类型和部分数据如表1 所示。

表1 关键信息留存表

2.3.2 确定基本识别框架

在市场监管领域网络安全态势中主要关注的是攻击类型的准确性,本文的识别框架Θ即为多传感器以及安全软件等能够检测到的所有攻击,在实际的数据集中,根据关注点的不同,对于流量传感器来说主要包含攻击利用和恶意软件两类攻击。在攻击利用中主要包含弱口令、配置不当、信息泄露以及其他攻击利用四种攻击;而在恶意软件中主要包含远控木马和流氓推广两种攻击,对于一些抓包分析工具如PCAP 日志就主要包含具体的攻击比如端口扫描、SYN 洪泛、拒绝服务、XSS 跨站脚本攻击等。针对不同的信息格式,考虑分别建立对应的识别框架,即对于流量传感器来说所有的可能结果:

而对于PCAP 来说,可能结果就为:

其识别框架为:

两者完全不同,得到的结果也不同。根据市场监管的数据来源,得到对应于不同信息的部分识别框架如表2 所示。在确定识别框架之后,需要对每一种类别进行基本概率分配。

表2 部分来源识别框架表

2.3.3 基本概率分配函数

由于市场监管领域中网络安全数据十分复杂,存在可能误报的情况,所以不能直接根据统计然后归一化的方法进行基本概率分配,而应该采用动态的方法进行基本可信度分配。比如针对一个具体的攻击,如果某个传感器在一个周期内对于判断弱口令攻击的正确率高,那么就应该在下一个周期中的数据融合同样对弱口令攻击的判断具有较高的信任度。

所以本文对基本可信度分配采用建立动态的递推公式,方法如下:

式中:JT表示在第T个周期判断此类警报的信任度;JT-1表示该传感器上一个周期计算出的此类警报的信任度;为所有传感器在第T个周期获取到的此类警报的总数;UT-1表示在上一个周期的判断中得到的警报正误判断的比率,UT-1= 0 表示报警正确率>50%,UT-1= 1表示误报率>50%,是由前一轮周期融合结果与实际情况相比较确定的;Ni表示第i个传感器在第T个周期获取到的此类警报的总数;N0为常数,用于控制收敛速度。

于是可以通过式(11)计算出不同设备在同一个周期中对不同的攻击类别判断能力的信任度。此公式的计算结果体现了同一类设备对于不同攻击类别警报正确告警的能力。通过证据理论的合成计算能够综合评估在某一段时间周期内网络中主要出现的入侵行为。

在经过计算之后得到第T个周期针对流量传感器部分识别框架的部分警报的基本BPA 概率分配,如表3所示。其中r1为弱口令,r2为XSS,r3为网络蠕虫,r4为代码执行,r5为远控木马。从运算得到的结果发现,其实各个传感器对于具体的攻击手段的判别能力都还是比较低下的,其中出现很多误报和不能够判清报警的具体种类的情况,所以此时更需要对其进行数据融合,综合评判在一段时间内得到的信息进行攻击的类型判断。

表3 BPA 概率分配结果

运用Dempster 融合规则进行数据融合,对于多个具有相同识别框架的数据源中的数据进行合成,运用式(12):

对其进行合成,合成得到的结果如表4 所示。

由于在识别框架下的命题都是互斥的,所以置信函数和似然函数都等于合成后的信度函数分配。于是可直接利用合成后的信度值进行网络安全情况分析。由表4 可知,在周期T中对于攻击r5远控木马给出的警报是最可信的,即在周期T中最有可能出现的攻击为r5远控木马攻击,由此就可以分析每个周期可能出现的攻击情况。

2.3.4 相似性分析

由于攻击者攻击的维度不同,可能同时对市场监管系统进行着多方位的攻击,并且不同数据源之间的识别框架并不冲突,所以针对具有不同识别框架的数据来源得到的网络安全情况进行分析,需要进行攻击的相似性分析。

要考虑两条报警的相似度,首先要考虑的是这两条报警的共有属性,包括时间信息、攻击源地址、目标地址、攻击类型等。对每一种属性需要定义一个相似度函数来判别属性之间是否具有相似性,如果属性具有相似性,则可以从多方位为报警信息的正确性提供支撑(网络攻击在一段时间内被多个设备检测到,则可以证明该攻击是目前网络中正在发生的)。

1)攻击源地址与目标地址相似度计算

对于攻击源IP 地址与攻击目标IP 地址的相似度计算,本文考虑对于源IP 地址或目标IP 的某一个子网,如果在一定时间内存在大量的源IP 地址属于同一个子网或者目标IP 地址属于同一个子网的情况下,都定义为相似的攻击。

设有两个IP 地址A和B,如果有:

则判定A与B属于同一网段,即具有相似性,其中Mask表示子网掩码,“&”表示与运算。

2)时间相似性判断

由于时间具有连续性,所以可以直接使用欧氏距离度量时间属性的相似度,在市场监管网络安全数据中,警报的时间向量主要为(年,月,日,时,分,秒),可以假设两条警报的时间向量分别为a= (ay,am,ad,ah,am,as)和b= (by,bm,bd,bh,bm,bs),则两条警报的时间相似度可以定义为:

式中wi,i∈(y,m,d,h,m,s)为每一项对应的权重值,在大多数情况下两条警报的数据都只会在分钟和秒数上有差异,所以可以将wi,i∈(y,m,d,h)四项都设置为0,如果出现跨长时间段的攻击再添加对应的权重值。在确定每项属性的相似度之后需要进行综合相似度的评判。

在进行相似性分析后得到最终融合后的部分数据,如表5 所示。

表5 融合后得到的数据列表

3 融合数据有效性分析

本文实验中,在一段时间内共采集了来自4 个流量传感器的网络安全数据,并且根据该段时间不同传感器给出的不同警报进行了统计,得到如图2所示的统计图。

图2 多源数据警报数量统计图

将从流量传感器采集数据的这一段时间一共划分为3 个周期,将每一个周期内得到的网络安全警报数据进行数据融合操作,然后得到对应的融合概率,再得到对每个警报的可信度,每一个周期得到的可信度合成结果如图3 所示。

图3 各周期可信度合成结果

由图3 的数据融合结果可以得到以下结论:

1)命题为“远控木马”的可信度明显要大于其他命题,显然在周期T1中“远控木马”的警报数量也是最多的,因此可以判断,网络中存在同一攻击者正在进行有关“远控木马”的入侵行为。

2)命题“代码执行”的可信度相对较大,但只根据某种攻击事件所对应的可信度来判断所遭受到的攻击,有时候可能是不准确的,虽然“代码执行”的可信度大,攻击者可能同时也在进行“代码执行”的相关攻击,但也有可能是误报。所以在具体评判网络环境正在遭受怎样的攻击时,需要考虑多方面的因素来共同判断。

3)命题“弱口令”的可信度相对较小,但是“弱口令”的警报数量却是相对较多的,但是由于上一个周期的误报较多,导致这一个周期对于“弱口令”的警报的可信度相对较小。

4)命题“XSS”攻击和“网络蠕虫”的可信度非常小,这是因为其警报的相对数量非常少,并且提供证据的数据源相对单一,所以对于网络中有攻击者正在进行“XSS”攻击和“网络蠕虫”的入侵行为的信任度就会很小,由结果可以推断当前网络中大概率正在遭受“远控木马”攻击。

据统计可知,在目前的大多数系统中,对于大部分网络入侵检测系统,其反馈的报警信息中仅有10%是有用的,剩余的报警信息中大部分都是误报、漏报。所以,在报警信息大量都是漏报和误报的情况下,网络入侵检测系统包含的信息将给网络和管理员带来如下困扰:

1)网络管理员很难从大量的报警信息中发现真实的入侵事件;

2)容易引起网络的入侵和信息泄漏;

3)网络传输负载变大的同时使日志存储系统空间占满,导致真实的入侵事件无法进行审计。

本文提出的方法在进行BPA 分配时考虑了误报与漏报的情况,同时实验也是在真实数据下运行得到的结果,所以本文提出的方法能够对误报和漏报具有一定的解决能力。

4 结 论

本文通过研究DS 证据理论,提出了基于DS 证据理论的多源数据融合方法,验证了多源日志安全信息融合系统模型中通过数据预处理、融合框架构建、BPA 分配、证据融合过程对多源日志融合分析的有效性;运用融合系统模型对目前网络安全态势的简单评估验证了融合模型在具有误报、漏报的不良影响下能够减少无效报警并保证数据的有效性。

实验结果表明:本文方法可有效降低数据库中多源日志记录的冗余度;同时通过事件关联和相似性判别对具有高相似度、相对准确的判定警报进行聚合,在数据预处理的基础上更大程度地降低了警报日志的处理数量。

注:本文通讯作者为朱举异。

猜你喜欢
警报态势框架
基于北斗三号的人防警报控制系统及应用
框架
广义框架的不相交性
2019年12月与11月相比汽车产销延续了增长态势
汇市延续小幅震荡态势
假期终结者
我国天然气供需呈现紧平衡态势
是谁的责任?
拉响夏日警报定格无痕迹美肌
WTO框架下