基于抽样和哈希技术的长流测量安全算法研究

2017-09-30 23:52田原

网络空间安全 2017年9期

关键词：哈希

田原

摘要：在互联网中理解网络行为最高效的途径即是对网络数据流量进行安全检测与分析，它是对已有互联网的组建、规范化和改造的依据，同时也是对Internet进行安全检测的重要环节。为了解决网络中的资源和高速IP流量之间的冲突问题，需要对网络流进行多种方式的安全处理与算法研究。

论文首先提出了改进的数据抽样技术并综合论述了现阶段基于抽样技术的数据测量算法的研究，同时通过对重要数据参数的重新设置和分析，并结合使用多种数据取样的方法，探讨改进的数据空间映射技术，与现阶段的各种取样方式，在测量网络长流算法中的综合应用[1]。

关键词：报文抽样；哈希；网络测量；IP流

Abstract： Way in the Internet to understand network behavior is the most efficient and the detection and analysis of network data flow. It is the basis for the formation ，standardization and transformation of the existing internet. In the meantime， it is also an important part of Internet security testing. In order to solve the problem of conflict between network resources and high speed IP flow. Study on the safe handling and algorithm to perform a variety of modes of network flow.

This paper proposes an improved sampling data base and discusses the current research sampling algorithm based on measurement data. At the same time by resetting the data on important parameters analysis and combined with the method of using a variety of data sampling ，the discussion of data space mapping technique and comprehensive application of various sampling methods at the stage in the measurement of network flows in algorithm.

Key words： packet sampling； hash； internet measurement； ip flow

1 引言

当今，互联网的数据流量特征分析已经发生了非常显著的变化，同时互联网也产生了多元发展的方向，通过对网络流量安全的分析，试图完整地检测和监控数据长流的行为，目前已经存在很多问题。NSF的设计还存在一些弊端，缺少设定对于监测不同流量之间的网络性能问题和安全问题的考虑。与此同时，互联网服务供应商也没有重点整理和分析网络的数据，所以造成了现在对流量的测量和分析网络行为及网络行为变化的测度数据[1]缺失。

2 网络测量技术的发展

在互联网中对于网络数据长流的测量安全方法主要有两种[2]。主动测量是将数据探测分组注入互联网中检测，然后接受产生的流量直接测量互联网中数据的属性。但同时主动测量也存在自身的问题，它会对被测网络IP长流的产生一些阻碍，因此主动数据测量的研究需要认真分析对网络实际传输流量的总体影响。被动测量指在网互联网中的关键节点设置数据收集器，进行通过数据分析、收取数据流特征，并获得关键性的数据。这种方式的过程取决于被测网络中由已经存在的数据样本来决定，它的特点是数据被检测的时，不影响被测量网络的流量，但是也存在着一定的缺点，即产生数据存储、数据监测及错误率等问题[3，4]。

2.1 主动测量

这种测量方法比较容易实现，数据的测量可以通过在一定的条件下而产生，采用主动测量方法时，它不会依赖外部测量设备去同时检测网络数据的访问时间。而这种测量是基于RTT的数据流量测量，它不支持对单路数据流量延迟的测量。还有其他测量方法是通过使用全球定位系统接收器来同步主机的数据。但是这些系统对于获得额外的网络数据流量安全信息的分析方法非常有限，因此不被普遍使用。

2.2 被动测量

这种测量方法需要在网络中的一个数据节点收集流量信息，例如使用多层交换机采集网络数据被动地监测通过被测量网络链路的流量[5]。同时互联网中的被监测流量安全性存在不稳定、数据突发等特点是可以完全被监测结果抵消的，所以有些数据长流的监测采用这种测量方法是比较困难的，会有一定的数据损失错误率产生。

3 长流测量技术

3.1 报文抽样技术

在采用这种技术过程中，根据数据取样使用的方式不同，在实际应用中可以将数据取样方法划分为不同的类型，例如策略不同的数据抽样和触发方式不同的數据抽样[6]。在基于不同方式的数据抽样类型中，有时采用的时间触发不如报文触发方式，结合以上分析，本文只考虑基于策略不同的数据取样分析，其中数据系统取样方式本文阐述的是常用周期取样。

3.2 改进的分层抽样及参数配置

分层数据抽取技术是通过有效的数据分组与操作原理相结合，通过技术划分出行为状态比较相似的层，以改变参数值之间的差异量的变化。而这些相似的层则是依据事先已经定义的数据参数特征，将样本分成若干个互不交叉、互不重复的独立存储空间，所有的取样数据由这些相似层的独立空间样本组成，这些数据则依据独立的空间做出参数估计。只要避免多余的数据分配方式就会比简单数据随机抽样和周期抽样获得更好的测量性能和安全性[7]。endprint

数据分层采样技术通过对数据链路上的报文分析出一定的数据分组，借助于网络中数据链路接口[2]处装置一个测量数据集成系统，将抽样数据测量结果处理成网络流量信息反馈给测量数据集成系统。

3.3 CBF报文过滤技术

报文过滤技术采用对链路上的数据进行随机采样，一个数据被抽取后，为其定义专属的数据标识。同时建立这个IP数据流的数据累加器，之后无论这个数据流的报文是否被采样，其余的每一个数据都会被处理，同时累加器随之更新，直到测量过程结束，最后输出大于额定值的数据流即为IP长流。本文借助其基本思想并对其哈希过程进行改进，提出使用CBF技术用于判断是否对报文进行抽样并对其所属流标示即FSample—CBF方法。

首先对链路上的数据按照预先定义的速率进行周期采样。当一个数据标识的采样数据被抽取时，使用映射进行运算，将其映射到存储空间的相应位置，每次映射的相應的累加器加数一次。在累加器更新过程中，我们采用更新机制，即仅更新K个累加器中最小的一个，以减少错误肯定率[1]。由于同一个流的所有报文都要被映射到同一存储空间，因此如果数据流被抽取到的报文数超过阈值，那么每个相应存储空间的累加器也会都超过这个阈值，标识这个长流的同时，在内存中定义这个数据流的一个选项来记录信息。

随后其所属的报文被抽取到时直接对内存的流标示项作用。在存在可容忍流长度测量误差的条件下，这种方法可以准确地识别长流，有效地减少存储空间和提高处理速度，同时也保证了数据的安全性。

4 结束语

综上所述，通过对现代互联网中网络数据的深入分析发现，网络数据通信在很大程度上仍具有明显的突发性，会产生一定范围内的差错。采用数据取样提取技术与映射技术结合的数据测量方式，同时根据这种流量分析技术的优缺点，提出使用多种测量技术相结合的方法，可以实现数据长流的识别，实现对网络数据流量安全的检测，并规范互联网的组建和改造，同时也拥有了对Internet进行检测的重要依据。

参考文献

[1] Duffield.N.G，and Grossglauser.M. Trajectory Sampling for Direct Traffic Observation[J]. IEEE/ACM Trans on Networking，June 2001；9（3）：280～292.

[2] 程光，龚俭.大规模高速网络流量测量研究[J].计算机工程与应用，2002.

[3] Claffy.K，Sean Mcreary. Internet measurement and data analysis： passive and active measurement[R].1999.

[4] 刘卫江，龚俭，丁伟.流测量算法综述[J].计算机工程与应用，2005.

[5] K.Dhandere，Hyang-AH Kim，Tim Jia-Yu Pan. The Application and Effect of Sampling Methods on Collecting Network Traffic Statistics[Z].2001.

[6] Duffield.N.G，and Grossglauser.M. Trajectory Sampling with Unreliable Reporting[C]. IEEE Infocom 2004， HongKong：2004.

[7] Duffield.N.G，Lund.C，Thorup.M. Estimating Flow Distributions from Sampled Flow Statistics[C]. ACM SIGCOMM 2003，Karlsruhe，Germany：Aug 2003.endprint