基于模糊C均值的数据流入侵检测算法

2012-07-13 03:06王春霞侯艳丽
电子设计工程 2012年4期
关键词:子类数据流聚类

王春霞,侯艳丽

(商丘师范学院 计算机与信息技术学院,河南 商丘 476000)

随着Internet的快速发展,越来越多的信息通过网络来传输和存储,网络安全显得越来越重要。目前常见的网络安全技术主要有加密、数字签名、身份认证、访问控制、防火墙技术和入侵检测技术等。

入侵检测作为模式识别的分支,其主要任务是通过监视系统或网络流量、系统审计记录等来发现与识别对系统和网络的入侵企图和入侵行为[1]。将数据挖掘技术应用于入侵检测以提高系统性能,已成为入侵检测技术研究和发展的重要趋势,当前的挖掘方法,通常建立在对整个数据集进行等同学习的基础上,而实际的检测数据是连续到达、快速更新的,基于数据集难以真实反映当前网络数据的行为特征,所以需要面向入侵检测的数据流进行数据挖掘。聚类作为无监督模式识别的一个组成部分,可作为一种数据压缩技术用于大型数据库,它不需要任何先验知识的特性,适合面向大量数据的入侵检测需求。因此,基于聚类的入侵检测得到广泛研究,文中基于模糊C均值聚类提出了一种的数据流入侵检测算法。

1 相关工作

近年来,利用聚类技术进行数据流入侵检测的研究有许多,如OH-S等人利用聚类技术建立用户的正常行为规则[2],俞研等人利用K均值聚类算法进行数据流的异常入侵检测[3],李建国等人利用高效的混合聚类算法进行数据流的异常检测[4],周刚等人利用聚类技术和小波技术进行DDos的入侵流分析[5],这些方法在一定程度上可以有效的检测数据流入侵,但它们都是将待处理数据严格划分到某个类中,而实际上的数据在性态和类属方面存在不确定性,更适合进行模糊聚类。但模糊聚类存在下不足之处:1)需要多次迭代,无法直接运用到大数据集特别是数据流中;2)需事先确定聚类数目,为此,文中提出一种基于加权模糊聚类的数据流入侵检测算法,该算法首先利用增量聚类得到概要信息和类数,在此基础上定义新的加权模糊特征并对其模糊聚类。

2 基于模糊聚类的入侵检测算法

2.1 系统模型

当前的入侵检测算法通常是在整个数据集上进行计算的,由于网络数据的海量和快速到达等特性,使得现有入侵检测算法易受系统资源的限制,效率不高同时,网络数据的行为特征随时间不断的变化,对当前入侵行为的检测往往更加依赖于近期的网络数据作出判断,而基于整个数据集进行入侵检测,收历史数据的影响,不利用准确的检测入侵行为。因为,文中采用了一种两阶段的入侵检测模型。图1给出了系统模型的示意图,它由概要信息生成模块和入侵检测两大模块组成。文中利用文献[6]提出的方法来提取类的概要信息,然后利用模糊聚类算法对数据流入侵检测进行分析。

图1 基于数据流聚类分析的入侵检测模型Fig.1 Intrusion detection model of data stream based on clustering analysis

2.2 生成概要信息模块

在概要信息生成模块中,通过对不断到达的网络数据流进行单次扫描聚类,生成了描述原始网络数据流的概要信息[6]。事实上,用户对于最近的数据更感兴趣。因此,只需要对少量的近期数据进行细节分析,而对大量的历史数据,仅给出一个概要。在存储概要信息时,采用文献[5]中提出的基于时间窗口模型的金字塔时间框架的结构。这样,只需要一个较小的数据窗口,就可以存储概要信息,大大减少了系统对内存的需求。

概要信息用聚类得到的子聚类及其特征值CF来表示。CF定义为描述包含 d维数据集的{…Xi,Xi+1,Xi+2}的聚类信息的(2d+2)元组,即设给定一个子类中的 d维数据集,则有聚类特征矢量 CF=(S,D,n,t),其中,n为子类中数据的数量,t为该特征矢量的存储时刻。

设x为数据点ot的属性值,y为子类Ci中心的属性值,则数据点ot至子类Ci中心的距离为:

2.3 入侵检测模块

文中算法首先对顺序到达的数据流做增量聚类,生成m个簇,当接受到检测请求时,统计c个簇中包含记录条数大于阈值θ的聚类数目c,把该值作为模糊C均值聚类的簇数,将c簇的代表信息作为模糊聚类的初始簇特征CF1,将m个簇作为m条虚拟记录,根据最大隶属度原则,人工标记各个簇类型。

1)置t=1,根据公式(1)计算n条虚拟记录到CF1中每个初始簇特征的距离,并由公式(2)得到每条记录属于每个簇的隶属度矩阵 U(t)。

2)根据 U(t)利用公式(3)计算每个簇的质心 V(k)。

3)若‖Jm(U(k),V(k)-Jm(U(k-1),V(k-1))‖≤ε(ε 为事先设定的迭代误差阈值),算法停止;否则,t=t+1,转公式(2)。

3 实验及分析

文中采用的实验数据是基于KDD CUP’99数据集[7]作为实验数据集,此数据集包含了500万条网络连接记录,每条网络连接记录有7个分类属性和34个数值属性。数据集包含4种主要的攻击类型:DoS:拒绝服务攻击;Probe:扫描与探测行为;R2L:对远程主机的未授权访问;U2R:对超级用户权限的未授权的访问。

表1给出了对KDD CUP’99数据集整体的检测结果。从表中可以看出,对DoS攻击、R2L和U2R攻击,文中算法和文献[4]算法的误报率相差不大,但检测率明显优于文献[4]算法。而对于Probe攻击,两种算法的检测率相差不大,但文中算法误报率稍微低于文献[4]算法。

表1 入侵检测结果Tab.1 Experimental result of intrusion detection

4 结束语

文中提出一种基于模糊聚类的两阶段数据流入侵检测算法,首先采用增量聚类算法对数据流中的记录进行聚类,以对数据流的分布特征进行准确描述,然后用模糊 C均值算法对代表信息进行聚类,检测不同阶段的入侵行为。模糊聚类通过多次迭代,能更准确地反映数据特性,簇数由增量聚类的结果决定。实验证实该算法可以有效检测数据流入侵。

[1]正军,李建华.入侵检测技术[M].北京:清华大学出版社,2004.

[2]Oh S,Kang J,Byun Y.Intrusion detection based on clustering a data stream[C]//Proc.of the 3rd ACIS int’l Conf.on software engineering research,management and applicatioin.Mount pleasant,2005:220-227.

[3]俞研,郭山清,黄皓.基于数据流的异常入侵检测[J].计算机科学,2007,34(5):66-71.

YU Yan,GUO Shan-qing,HUANG Hao.Anomaly intrusion detection based on data stream[J].Computer Science,2007,34(5):66-71.

[4]李建国,胡学钢.高效的混合聚类算法及其在异常检测中的应用[J].计算机应用, 2010, 30(7):75-78.

LI Jian-guo,HU Xue-gang.Efficient mixed clustering algorithm and its application in anomaly detection[J].Computer Application,2010,30(7):75-78.

[5]周刚,刘渊,陈晓光.基于小波的DDos入侵流分析[J].计算机工程,2008,34(15):156-158.

ZHOU Gang,LIU Yuan,CHEN Xiao-guang.Analysis of DDos traffic based on wavelet[J].Computer Engineering,2008,34(15):156-158.

[6]Aggarwal C C,HAN Jia-wei,WANG Jian-yong,et al.A framework for clustering evolving data streams[C]//Proc.of the 29th Int’l Conf.on Very Large Data Bases,2003:81-92.

[7]KDD99.KDD99 Cup Dataset[EB/OL]. (1999-06-05.)http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html.

猜你喜欢
子类数据流聚类
卷入Hohlov算子的某解析双单叶函数子类的系数估计
汽车维修数据流基础(上)
汽车维修数据流基础(下)
基于K-means聚类的车-地无线通信场强研究
Java类的继承
基于高斯混合聚类的阵列干涉SAR三维成像
面向对象的多版本传感器观测服务模式匹配方法
基于Spark平台的K-means聚类算法改进及并行化实现
基于数据流聚类的多目标跟踪算法
一种层次初始的聚类个数自适应的聚类方法研究