基于决策树算法的云数据情报侦查研究

2021-05-14 09:09薛亚龙刘梓泞
山东警察学院学报 2021年6期
关键词:侦查人员决策树情报

薛亚龙,刘梓泞

(1.宁夏警官职业学院现代侦查技战法研究中心,宁夏 银川 750021) (2.宁夏警官职业学院成人教育培训处,宁夏 银川 750021)

云数据情报源呈现出数据拓扑分布复杂性、数据结构异构性以及数据记录时间戳差异性等特征属性,造成数据挖掘关联聚类密度低、数据迭代运算次数多、数据情报价值需求识别匹配率低等情报侦查问题,易使案件发生情报侦查错误或者陷入情报侦查僵局。可见,选择科学高效的数据挖掘算法已成为实现云数据情报侦查应然价值的核心考量。[1]决策树算法正是根据不同特征样本数据的出现概率,在构建决策树基础上进行挖掘分析的一种分类决策算法。一方面,决策树算法能够帮助侦查人员快速地进行云数据情报侦查平台设计和流程模型构建;另一方面,能够对云数据情报侦查进行精确的循证预测,进而提升对云数据情报源挖掘分析的高效性和准确性。鉴于此,引入决策树算法的云数据情报侦查研究范式,不仅是将决策树算法广泛应用于社会各行业、各领域的必然要求,而且是云数据情报侦查方法自身变革和转型的实然需求。

一、决策树算法云数据情报侦查的内涵与属性

决策树算法云数据情报侦查最为显著的特征是将决策树算法与云数据情报侦查进行融合,这也是其与传统云数据情报侦查的本质区别。尤其在多源数据驱动创新时代,决策树算法作为一种典型的分类与回归机器学习方法,通过制定分类与回归规则、构建决策树算法模型,对不同数据节点和数据连边的属性或特征进行挖掘与分析,并采取决策树剪枝或修剪等决策树挖掘算法,实现自上而下的递归算法挖掘。[2]所以,决策树算法云数据情报侦查的应用过程,不仅包含了情报价值预设、情报控制传递、情报挖掘应用等特殊价值需求,还包括了制定分类与回归规则、构建决策树算法模型以及决策树剪枝或修剪算法等运算价值优势。因此,在多源数据驱动创新时代应该赋予决策树算法云数据情报侦查新的内涵与属性。

(一)决策树算法云数据情报侦查的内涵

决策树算法主要依据对不同类别属性的数据进行挖掘、分析所构建的关联推理规则,采取决策树构造、决策树剪枝等运算挖掘方法,实现对其进行数据解释的应然划分效果。其与自然界中树的结构属性存在相同或相似的现象,即都是从树的根节点出发,途经各个子节点而使其被发散或划分到不同的叶子节点,进而使叶子节点与节点分类能够形成互相映射的节点集合。[3]同时,该节点集合中的子集又从根节点出发经过各子节点对不同结构属性的数据节点进行裂变挖掘与分析。在决策树算法的挖掘、分析过程中,往往会受到各种冗余节点、重复节点、离群节点等异常节点的制约或影响,造成节点拟合等偏离决策树算法预测效果的现象。[4]一般而言,主要采取后剪枝和预剪枝等算法降低节点拟合现象的出现概率。笔者认为,结合决策树算法的运算价值优势和云数据情报侦查的特殊价值需求,决策树算法云数据情报侦查的内涵为:侦查人员依据不同云数据情报源的类别形态和结构属性,构建与其具有正向同配属性关系的树状决策模型,利用不同决策树算法挖掘、分析云数据情报源与数据犯罪情势之间隐藏的各种关联性数理关系,实现决策树算法循证引导云数据情报侦查预测或决策的一种新型数据情报侦查方法。

(二)决策树算法云数据情报侦查的属性

二是数据压缩属性。传统数据情报侦查主要通过数据清洗、数据归约、数据集成等数据处理技术完成对各种数据的压缩,往往不同数据被压缩在同一内存中进行运算,造成数据仓库中数据节点的路径、连边等难以被高效地挖掘和利用,严重制约和影响数据情报侦查的高效性。[6]然而,在决策树算法云数据情报侦查应用过程中,每一分区的云数据属性就表示某一类关联聚类稠密向量数据。侦查人员可利用决策树算法的RLE编码对各云数据进行压缩,并且采用云数据熵属性方式对其进行排序,促使被压缩后的云数据不需要再进行转换和融合就能够被使用。决策树算法云数据情报侦查的数据压缩性价值主要体现在两个方面:一方面,当不同类别形态和结构属性的云数据被反复运算、挖掘时,由于被压缩而全面减少了所需数据仓库构建的场景空间区域;另一方面,利用决策树算法对云数据进行压缩,可以促使每个云数据的分类标签和数据熵的属性阈值之间互相映射的关系较为明确,进而提升了对云数据进行关联聚类的精确度。决策树算法云数据情报侦查的数据压缩性不仅能够增强云数据挖掘分析互相映射的正向同配属性关系,而且能够提升云数据情报挖掘、分析索引的准确度和精确度。

三是连续离散属性。侦查人员在对云数据中不同数据节点和数据连边进行挖掘与分析时,主要依据数据增益值比对其进行数据节点的分数据子集划分,进而有效减少或避免在数据节点分裂过程中选择偏向于数据熵属性较多的分区的问题,使决策树算法云数据情报侦查具有突出的连续离散属性。侦查人员依据连续离散属性在确定数据节点的边界点之后,并不是立即根据不同数据节点的边界点来运算和挖掘数据熵的增益值比,而是先需对各个数据节点边界点的相邻区间展开识别和判断。当边界点相邻区间的判定结果符合预设的情报价值需求时,侦查人员就可以从数据节点之间的边界点区间到数据节点集合之间的边界点区间进行连续的识别与判定,直到所有数据节点或数据节点集合的边界点区间被挖掘结束为止,然后才对数据熵的增益值比进行离散化的挖掘和获取。[7]决策树算法云数据情报侦查的连续离散属性不仅有利于提升对不同类型数据节点中边界点挖掘的分类精确度,而且有利于提高对数据节点进行关联聚类频繁项目集合构建的准确度,从而有效降低或减少云数据情报侦查的不确定性和误判率。

二、决策树算法云数据情报侦查的流程模型构建

结合决策树算法的运算价值优势和云数据情报侦查的特殊价值需求,为了全面提高决策树算法云数据情报侦查的高效性和精确性,笔者认为,可将决策树算法云数据情报侦查的流程模型构建为云数据预处理、递归创建单个决策树、实例与特征选择策略、构建适应函数、算法合并多个决策树等5个模块。

(一)云数据预处理流程模块

在对云数据展开决策树算法挖掘之前,侦查人员需要对已获取和汇集的各种云数据进行预处理,主要包括补充缺失数据、处理离群数据、数据清洗集成、数据分词聚类等,目的是提高云数据的数据仓库构建质量和技术应用标准。具体如下:

首先是补充缺失数据。侦查人员在搜集云数据的过程中有时会遇到部分半结构型数据、异构型数据等数据缺失的现象,在分析和确定所缺失云数据的类别形态或结构属性之后,则需要采取线上线下的定向爬取、搜集技术将其补全。其次是处理离群数据。侦查人员在对数据仓库中的云数据进行运算、挖掘时难免会遇到部分冗余数据、重复数据、异常数据等离群数据,而这些离群数据往往与关联数理关系挖掘、数据聚类频繁项目子集构建以及数据节点相似度系数阈值预设等存在偏差,不符合涉嫌犯罪情势生存与态势发展的趋势变化规律,往往会造成情报侦查错误或陷入情报侦查僵局。因此,侦查人员需采取数据定向检索、数据词云关联挖掘等技术方法及时发现和处理相关的离群数据,消除或降低离群数据的反向异配属性关联影响。再次是数据清洗集成。侦查人员所搜集或获取的云数据不仅有结构型数据、半结构型数据、非结构型数据以及异构型数据等,还有文本型数据、数值型数据、符号型数据以及图片型数据等,造成云数据的类别形态或结构数据标准格式不统一。[8]所以,侦查人员需要及时采取停用数据词等技术方法对这些标准格式不统一的云数据进行数据清洗集成,进而提高数据仓库构建的效率和质量。最后是数据分词聚类。数据分词聚类主要是将所获取的云数据按照数据节点连续的序列规则重新进行聚类构建合成的过程[9],其目的是帮助侦查人员快速提高构建数据聚类频繁项目子集的高效性。

(二)递归创建单个决策树流程模块

(三)实例与特征选择策略流程模块

生:(B组1)抢着大声:但是,危难时刻的羚羊群的纪律性比溃败中的军队的纪律要好得多。简直是训练有素,在危难中保持着集体性的沉着,而老羚羊在那样危机时刻能有这样从容的应对太不可思议了,就是让我觉得假,好像是作者为教育我们故意这样写的。(全部同学议论纷纷,班上一片哗然)

(四)构建适应度函数流程模块

(五)算法合并多个决策树流程模块

在构建适应度函数流程的条件引领下,侦查人员还需要通过利用交叉变异运算将不同决策树算法融合为多个决策树。以C4.5算法、ID3算法为例,ID3算法主要是将云数据的训练样本集经过数据迭代算法处理之后划分为多个数据样本子集,且每个数据样本子集代表不同的数据频繁项目聚类集合;而C4.5算法不仅在ID3算法的基础上对半结构型数据、异构型数据等特殊类别形态的云数据挖掘与分析得更加客观和准确,还能够对已创建的单个决策树及时实现剪枝、分割的技术处理,促使对决策树算法云数据情报侦查的预测和决策分类更加精确。因此,侦查人员应该及时、快速地融合C4.5算法和ID3算法,并使用交叉变异的决策树算法将不同的单个决策树进行融合,确保多个混合、复杂的决策树能够实现算法挖掘、分析的互相协作,最终形成决策树算法云数据情报侦查特有的算法流程模型。侦查人员在利用算法合并多个决策树流程模块构建过程中,不但要增强多个不同决策树算法之间的协作、融合能力,而且要遵循对云数据与涉嫌数据犯罪情势之间各种潜在关联数理关系的挖掘、分析规则,从而实现决策树算法云数据情报侦查流程模型构建的高效性和协同性。

三、决策树算法云数据情报侦查的评价指标体系

在决策树算法云数据情报侦查的应用过程中,决策树算法的选择、云数据情报源的汇集、云数据的挖掘、情报侦查的价值需求等都对其质量有着直接的制约和影响。同时,决策树算法云数据情报侦查的应用效果还具有突出的延迟性,造成其质量难以用数据指标进行量化和衡量等定量分析。只有对决策树算法云数据情报侦查的评价指标体系进行定性范式的选择和构建,才能够全面提高决策树算法云数据情报侦查应用的高效性和优质性。鉴于此,笔者认为,决策树算法云数据情报侦查的评价指标体系应该包含云数据情报源、情报侦查价值需求、云数据挖掘与分析、情报侦查成本投入、情报成果实施反馈等五个方面。

(一)云数据情报源评价指标

云数据情报源评价指标是决策树算法云数据情报侦查评价指标体系的首要构成要素之一,主要包括云数据情报源的准确性、科学性、全面性和数量性等。第一,云数据情报源的准确性。云数据情报源的准确性是判断决策树算法云数据情报侦查预测和决策是否科学、有效的最主要依据,如果云数据情报源的准确性存在瑕疵或错误,那么就会导致出现情报侦查错误甚至陷入情报侦查僵局。所以,在获取和汇集云数据情报源的过程中,侦查人员应该采取数据清洗、数据归约、数据集成等预处理技术方法,使其能够去伪存真,从而获取到各种真实、客观的云数据情报源。第二,云数据情报源的科学性。云数据情报源的科学性是指已获取、汇集的云数据情报源是否客观准确和真实有效。侦查人员要对涉案数据犯罪情势中各种云数据情报源的产生与发展、演变与转换、交叉与融合等进行战略性科学规划,防止过于扩大或缩小以及盲目性等。[12]所以,为了增强云数据情报源的科学性,侦查人员应该对涉案云数据情报源的搜集和获取进行科学、合理的布局与安排,进而提高决策树算法云数据情报侦查应用的准确性和精确性。第三,云数据情报源的全面性和数量性。一方面是云数据情报源的全面性。云数据情报源的全面性主要指纵向要深和横向要广两个方面。只有对云数据情报源进行全面挖掘与分析,才能够促使决策树算法云数据情报侦查的预测和决策更加符合情报侦查的价值需求,也更加有利于云数据情报侦查情势的发展和修正。显然,云数据情报源的全面性越强,决策树算法云数据情报侦查的实然效果就更加接近于应然价值。另一方面是云数据情报源的数量性。云数据情报源的数量不但决定了决策树算法云数据情报侦查应用的价值层次,而且制约和影响了决策树算法云数据情报侦查的评价指标系数。云数据情报源涉及的类别形态、结构属性、关联聚类频繁项目子集等越广泛、越海量,就越能够帮助侦查人员挖掘和获取到与涉案数据犯罪情势具有关联性的更深层次的各种数理关系。

(二)情报侦查价值需求评价指标

情报侦查价值需求评价指标主要包括情报侦查价值需求的适用性、可理解性、相关性以及保密性等。首先是情报侦查价值需求的适用性。情报侦查价值需求的适用性主要指情报侦查价值需求的客观实际性和切实合理可行性,以满足决策树算法云数据情报侦查应用的实然需求。情报侦查价值需求预设越客观、合理、可行,就越能够被应用于不同的决策树算法云数据情报侦查场景,说明该情报侦查价值需求的适用性就越强。其次是情报侦查价值需求的可理解性。情报侦查价值需求的可理解性主要指情报价值需求的预设阈值及其实现的规范化客观条件。这不仅是决策树算法云数据情报侦查应用质量评价指标的重要体现,还是实现其应然价值的必然要求。就有利于云数据情报侦查情势的发展角度而言,情报侦查价值需求的内容越简洁、数据越丰富、形式越多样,就表明对其理解越充分、越深刻,进而有助于增强决策树算法云数据情报侦查价值需求预设的科学性和精确性。再次是情报侦查价值需求的相关性。情报侦查价值需求的相关性是指情报侦查价值需求与实现决策树算法云数据情报侦查应然价值之间的相关程度系数。情报侦查价值需求的相关性越高,说明实现决策树算法云数据情报侦查应然价值的程度就越高。最后是情报侦查价值需求的保密性。情报侦查价值需求的保密性与决策树算法云数据情报侦查的应用价值属于正向同配属性关系。情报侦查价值需求的保密性越强,说明决策树算法云数据情报侦查应用的潜在价值就越大;反之,其应用的潜在价值就越小。

(三)云数据挖掘与分析评价指标

云数据挖掘与分析不仅是实现决策树算法云数据情报侦查应然价值的基础和前提,还是其应用准确性的重要支撑。从预防和打击数据犯罪情势生存与态势发展的趋势变化规律而言,云数据挖掘与分析主要是指侦查人员利用不同决策树算法对与涉案数据犯罪情势之间存在的潜在隐藏的各种关联数理关系所进行的运算挖掘与关联分析。为了提升决策树算法云数据情报侦查应用的价值效果,可以将云数据挖掘与分析的评价指标具体分为以下三个方面:第一是决策树算法的选择。决策树算法是一种基于分类集成的数据挖掘算法,主要依据不同类别属性的数据节点裂变规则而采取相应的决策树构造、决策树剪枝等运算挖掘分析方法。所以,侦查人员应该依据数据节点裂变规则的差异性和不同决策树算法的运算价值优势而选取、确定与其相适应或相符合的决策树算法,进而提升决策树算法云数据情报侦查应用的精确性。第二是数据节点的系数阈值。数据节点既是多源数据构成的最基本数据元素,也是构建云数据聚类频繁项目子集的重要组成部分。就数据节点被挖掘的情报价值而言,数据节点系数主要包括数据节点的数据距离、数据路径以及数据连边等系数阈值。[13]数据节点系数阈值的差异性会直接制约或影响数据节点相似度系数和共同邻居系数的规则构建,尤其对构建犯罪行为与非犯罪行为的关联聚类规则具有直接的决定性作用,从而与云数据挖掘与分析的精确程度有着重要的正向同配属性关系。第三是关联规则的构建。关联规则不仅是不同云数据之间进行转换和融合的衔接连边,还是运算和挖掘与涉案数据犯罪情势具有潜在关联的数理关系的重要依据,更是实现决策树算法云数据情报侦查价值需求的决定性支撑和保障。因此,侦查人员应该依据决策树算法的价值优势和涉案数据犯罪情势的发展态势,选择和构建有利于实现决策树算法云数据情报侦查价值需求的关联规则,进而确保其对涉案不同云数据进行挖掘与分析的客观性。

(四)情报侦查成本投入评价指标

情报侦查成本既包括侦查人员、侦查实物、侦查财力等硬成本,又包括情报侦查思维、云数据挖掘途径、关联聚类规则构建、云数据仓库构建、决策树算法平台设计与建模等软成本。任何云数据情报源的获取、运算、挖掘以及研判、应用都离不开情报侦查成本的投入。就决策树算法云数据情报侦查评价指标体系的应然价值而言,情报侦查的成本投入与决策树算法云数据情报侦查的实然效果属于反向异配属性关系。因此,侦查人员应该根据云数据情报源的获取范围、云数据仓库构建模型、决策树算法的价值优势以及云数据挖掘关联聚类规则构建等关键性因素,确定和投入最少的情报侦查成本,从而实现最大的情报侦查效益。

(五)情报成果实施反馈评价指标

任何有价值的云数据情报源都需要经过侦查人员利用决策树算法进行运算、挖掘之后才能够成为决策树算法云数据情报侦查应用的支撑和依据。为了检验决策树算法云数据情报侦查应然价值与实然效果之间的差异性,就必然需要对经过挖掘、应用的情报成果实施检验、修正等反馈评价。依据决策树算法云数据情报侦查的价值需求实现效果,笔者认为,情报成果实施反馈评价指标主要包括以下两个方面:一个方面是云数据情报挖掘与分析价值的收益率。侦查人员获取的情报侦查价值效益不但与云数据情报挖掘、分析具有直接的关联关系,而且与决策树算法的选择、平台设计、模型构建等具有间接的关联关系。可见,在情报成果实施反馈评价过程中,侦查人员应该首先识别和确定哪些情报侦查的价值效益是由云数据情报挖掘与分析所产生的,进而帮助其计算和形成云数据情报挖掘与分析价值的收益率。另一方面是情报应用反馈的满意度。情报应用反馈的满意度是指云数据情报能够为侦查人员执行决策树算法云数据情报侦查应用提供情报支持的满意度,侦查人员应该及时对情报结果应用进行检验、评估和修正。如果情报成果应用符合实现决策树算法云数据情报侦查的应然价值,那么就说明其满意度高;反之,说明其应用结果发生偏差,甚至出现南辕北辙的现象,需要侦查人员对其进行及时修正或重新阈值云数据挖掘与分析的关联聚类规则、犯罪行为与非犯罪行为的规则模型构建等。

四、决策树算法云数据情报侦查的应用方法探讨

在探讨决策树算法云数据情报侦查应用方法的过程中,不仅需要考虑决策树算法云数据情报侦查的内涵与属性、评价指标体系以及流程模型构建等,还需要考虑选择不同决策树构造、决策树剪枝、决策树叶子节点以及决策树增益值等相关运算价值优势。因此,在多源数据驱动创新时代,应该赋予决策树算法云数据情报侦查新的应用方法。一方面,这是实现决策树算法云数据情报侦查应然价值的必然要求;另一方面,这是预防和打击涉嫌数据犯罪情势生存与态势发展变化的实然应对选择,从而提高决策树算法云数据情报侦查应用的准确性和精确性。

(一)AHP权重决策树算法

AHP权重决策树算法主要是将数据挖掘、分析的复杂问题分解为简单问题,通过专家对不同数据迭代运算之间的关系进行决策树的结构性评估和打分,据此分析和构建各种两两相关的数据挖掘矩阵,并经过系列运算后获得最佳决策方案的权向量。[14]依据情报决策指令和侦查人员群决策理论的价值需求,可以将AHP权重决策树算法具体分为以下具体步骤:

(二)AdaBoost密度峰值决策树算法

AdaBoost密度峰值决策树算法是一种按顺序进行数据迭代运算的分类器集合挖掘分析技术,每次运算形成一个数据分类器,直到完成预设所有的数据分类器为止。[15]在使用AdaBoost密度峰值决策树算法过程中,每次所得的偏差或错误数据样本权重阈值都会在后续的数据分类器中得到不断的检验和修正,促使最终能够挖掘和获得具有互补属性的强数据分类器,从而提高对不同云数据挖掘与分析应用的稳定性和客观性。[16]结合AdaBoost密度峰值决策树算法的突出价值优势和云数据情报侦查的发展趋势,笔者认为,可以将其具体应用分为以下步骤:

(三)数据节点相似度决策树算法

数据节点相似度决策树算法是一种以数据节点间的最高数据连边关联匹配作为两个决策树间的相似度,然后构建不同决策树之间的相似度矩阵,从而对各种决策树的数据节点进行随机运算和挖掘分析的一种决策树算法。[17]在决策树算法云数据情报侦查应用过程中,决策树的数量越多就意味着不同决策树算法的选择性越丰富。虽然这能够提高决策树算法云数据情报侦查的分类精确度,但是过多的决策树数量必然会增加决策树算法的数据收敛速度和运算耗时,更会降低决策树算法云数据情报侦查的运算挖掘性能。因此,通过利用数据节点相似度的决策树算法不仅能够增强不同决策树之间的正向同配关联属性,还能够有效提升决策树算法云数据情报侦查应用的高效性。

(四)聚类加权随机森林决策树算法

聚类加权随机森林决策树算法主要是通过对数据采取随机森林的子分类器进行聚类,每个子分类器的分类精度都以Kappa系数为衡量标准,然后寻找和选择出每一类中最高Kappa系数的决策树作为该类进行决策树算法挖掘与分析的代表,重新构建新的数据随机森林,并再次利用Kappa系数对被选择代表的决策树进行加权处理的一种典型决策树算法。[19]依据聚类加权随机森林决策树算法的运算价值优势和基本原理,笔者认为,可以将其具体应用分为以下步骤:

首先,重新组合原始训练云数据。侦查人员需随机选取80%的原始训练云数据作为决策树算法挖掘与分析的训练数据,并构建聚类加权随机森林决策树算法的平台设计和流程模型,而剩余20%的原始训练云数据作为对聚类加权随机森林决策树算法挖掘应用的评估和检验的备用。其次,构建聚类加权随机森林决策树算法模型。预设云数据采取决策树算法的决策树数量为M,然后将被选取的80%的云数据直接生成不同的决策树数据节点,再进一步挖掘、分析不同决策树中数据节点的属性、坐标、分裂阈值,并依此构建聚类加权随机森林决策树的算法模型。再次,构建决策树间的相似度矩阵。侦查人员以不同决策树中任何随机的数据节点相似度为基础,创建不同数据节点之间的代价矩阵Sim_node,并运算和挖掘其数据节点之间匹配系数最高的聚类组合,然后即可构建决策树间的相似度矩阵Sim_tree。从次,构建决策树特征向量聚类。根据已构建决策树间的相似度矩阵Sim_tree,侦查人员分别再构建决策树间的度矩阵D、相邻矩阵W以及拉普拉斯矩阵L,然后计算和获取拉普拉斯矩阵D-1/2×L×D-1/2的最小特征阈值K。同时,以最小特征阈值K为标准计算决策树间的特征向量F,构建其特征向量区域空间,再利用K-means聚类算法对其进行聚类构建。最后,对决策树进行加权处理和修正。一方面,对决策树进行加权处理。侦查人员利用原始训练云数据重新组合剩余的20%云数据对决策树特征向量的聚类进行检查和验证,获取不同决策树的Kappa系数,并以系数最高的决策树为标准重新构建新的聚类加权随机森林决策树算法模型,对新构建的每棵决策树均进行加权处理。另一方面,对决策树加权修正。就聚类加权随机森林决策树算法的主要原理过程而言,其对涉案云数据不同决策树的加权处理结果即为决策树算法云数据情报侦查运算、挖掘、分析结果,只要将该结果具体应用到决策树算法云数据情报侦查的应用之中即可。为了进一步提升聚类加权随机森林决策树算法挖掘与分析的准确性和精确性,侦查人员还需要对其加权处理结果及时进行检验和修正,主要是将其与情报价值需求预设、评价指标体系以及流程模型构建等互相验证,促使决策树算法云数据情报侦查的实然效果更加科学和客观。聚类加权随机森林决策树算法的运用,不仅能够及时优化对不同决策树中数据节点的聚类效果,还能够阻碍随机决策树对云数据分类精度的挖掘分析,从而提高决策树算法云数据情报侦查的高效性。

(五)CART分类回归决策树算法

CART分类回归决策树算法是一种二分递归分割决策树算法,该算法的主要原理在于对数据决策树的分支节点处进行布尔测试。若判断条件为真则划归左分支,条件为假则划归右分支,最终形成一棵二叉决策树。[20]依据决策树算法云数据情报侦查的流程模型构建,CART分类回归决策树算法应用的具体步骤为:首先,训练云数据的升序处理。侦查人员所汇集的云数据既包括结构型数据、半结构型数据、非结构型数据以及异构型数据等,又包括数值型数据、文本型数据、符号型数据以及图片型数据等。这些不同的云数据在类别形态和结构属性等方面存在差异,使其被存储在数据仓库的数据子集都处于多维状态,往往给决策树算法云数据情报侦查的应用增加巨大的复杂性和难度性。所以,在CART分类回归决策树算法运用过程中,首先需要侦查人员按照各种云数据的维度属性对其进行升序排序的数据处理,促使不同云数据均呈现出连续数据的存储状态。其次,对连续云数据进行离散分割。为了获取对云数据运算和挖掘分析结果的精确性,侦查人员可采取将N个云数据样本进行N-1种离散分割的技术方法。例如,侦查人员可以将连续两个不同云数据样本的平均值作为离散分割的分割点。如果重新选取的云数据样本阈值小于该分割点的阈值,那么其就属于决策树的数据左节点;反之,则属于决策树的数据右节点。再次,计算最大数据增益值。根据决策树算法中决策树的根节点、父节点以及子节点等不同的构建结构,侦查人员需先按照连续云数据的离散分割标准对数据父节点进行分割划分。若数据父节点A被离散分割为决策树的数据左节点,那么其最大的数据增益值就为Ginix(A)=PlGinil+PrGinir;反之,则最大的数据增益值为△Gini=Gini(A)-Ginix(A)。最后,停止划分和获取挖掘结果。在运算挖掘不同数据节点的最大数据增益值过程中,如果被挖掘数据节点A的Gini系数阈值都为0,那么即可停止对其进行最大数据增益值的运算挖掘,而已获取的最大数据增益值即为CART分类回归决策树算法的挖掘分析结果;反之,则需要侦查人员返回到对连续云数据的离散分割阶段,直到被挖掘数据节点A的Gini系数阈值都为0为止。运用CART分类回归决策树算法进行挖掘,不仅能够有效避免出现挖掘过于拟合的决策树剪枝现象,还能够快速选择和制定不同的数据节点剪枝策略,从而提高决策树算法云数据情报侦查挖掘应用的递归分割性能。

(六)KM1R-HRF决策树算法

KM1R-HRF决策树算法是一种基于K-means算法和One-R分层随机森林算法进行互相融合的决策树算法,是主要依据K-means算法和One-R分层随机森林算法挖掘、分析的不同价值优势,取长补短而能够进行随机优化的一种具有代表性的决策树算法。[21]依据KM1R-HRF决策树算法的运算原理和价值优势,可以将其在决策树算法云数据情报侦查中的应用具体分为以下两个方面:

一个方面是K-means算法流程阶段。首先,侦查人员需要对NSL-KDD训练云数据子集的每个类别形态分别采取K-means算法的数据频繁项目聚类挖掘分析,重新构建新的训练云数据子集。其次,将新构建的训练云数据子集划分为Group1和Group2两部分。其中,Group1包括DoS和Probe,而Group2包括Normal、R2L、U2R等。再次,在Group1的训练云数据子集上构建RF2,同时在Group2的训练云数据子集上构建RF3。最后,将Group2的训练云数据子集又分为U2R和Other两类,并在Other上继续构建RF4。另一个方面是One-R分层随机森林算法流程阶段。第一步,将经过K-means算法流程阶段所挖掘和获取的各种云数据样本子集采取随机不放回的数据取样,并且将其子集个数K的阈值设为K=15。第二步,将K中的每个云数据训练子集都采取One-R分层的决策树特征进行对标和判断,再按照对标后的差异性重新进行降序处理,并将降序后云数据样本子集K的特征表示为F={F1,F2,F3,…,F41}。第三步,构建决策树的RF模型。从第二步中选取前20个降序后的云数据样本子集,即F={F1,F2,F3,…,F20},根据K=log241的特征对标结果可得K=6。因此,侦查人员需要在F20中随机选取6个数据对标特征而构建单棵决策树,总共需构建15棵决策树的规模。第四步,依据构建决策树RF模型的规模,侦查人员需要对已构建的15棵决策树分别进行检验和修正。如果被检验和修正的15棵决策树均正确无误,那么其就可作为决策树算法云数据情报侦查应用的依据使用;反之,则需要从One-R分层随机森林算法流程阶段重新开始挖掘、分析,直到所有的训练云数据子集被运算、挖掘、分析结束为止,或所获结果均不符合决策树算法云数据情报侦查的情报价值预设需求。就KM1R-HRF决策树算法挖掘、分析过程而言,其不但充分发挥了K-means算法和One-R分层随机森林算法互相融合的算法价值优势,而且压缩了对训练云数据子集进行挖掘、分析的时空成本,从而提升了决策树算法云数据情报侦查应用的分类性能。

综上所述,基于决策树算法的云数据情报侦查是多源数据驱动创新时代的一种新型数据情报侦查方法,主要包括AHP权重决策树算法、AdaBoost密度峰值决策树算法、数据节点相似度决策树算法、聚类加权随机森林决策树算法以及CART分类回归决策树算法、KM1R-HRF决策树算法,且不同的决策树算法云数据情报侦查方法都有着不同的运算价值优势。基于此,应引入基于决策树算法的云数据情报侦查研究范式。应以决策树算法云数据情报侦查的内涵与属性为研究逻辑起点,构建决策树算法云数据情报侦查的流程模型,提出决策树算法云数据情报侦查的评价指标体系,探讨决策树算法云数据情报侦查的应用方法。这不仅能够有效降低云数据情报侦查的不确定性和误判率,还能够及时优化和拓展云数据情报侦查的集群并行情报挖掘路径,提升云数据情报侦查应用的准确性和精确性,从而实现决策树算法云数据情报侦查的应然价值效果。

猜你喜欢
侦查人员决策树情报
情报
情报
情报
侦查人员出庭问题实证研究
决策树和随机森林方法在管理决策中的应用
侦查人员出庭作证问题研究
浅谈反贪人员提高出庭作证能力建议
侦查人员出庭作证的困境及完善策略
基于决策树的出租车乘客出行目的识别
基于模糊关联规则和决策树的图像自动标注