多采样近似粒集成学习

2024-03-24 03:10侯贤宇陈玉明吴克寿

南京大学学报(自然科学版) 2024年1期

侯贤宇,陈玉明,吴克寿

（厦门理工学院计算机与信息工程学院，厦门，361024）

人类在遇到复杂任务时，会将问题分割成多个子问题，利用强大的记忆与相似对比能力来处理复杂任务［1］.随着问题复杂程度的上升，单一的分类系统已经无法满足用户对分类精度的要求，因此，近年来集成学习成为一个热门的研究领域［2］.集成学习的构建可以分为两类.第一类是通过平行方法构建，各个基学习器之间是平行的，如Bagging 算法、随机森林（Random Forest）算法［3］.第二类是通过顺序化方法构建，基学习器是顺序构建的，代表算法有Boosting 算法［4］.

粒计算是一个新兴的多学科交叉理论，该理论认为粒计算是模糊集、粗糙集理论的合集［5-6］.粒子是构建粒计算模型的最基本元素，以样本的特征间的相似性、距离等度量方式作为粒化的依据，进而构造各种粒子.近年来，粒计算逐渐成为热门研究领域.在该领域中，如何构建粒结构与粒模型一直是一个重要的问题［7-10］.

粒计算的一个主要特征是将输入模式在更高的抽象等级上进行重构［11-12］.因此，粒计算可以获得更多的深层信息.据此，结合粒计算理论的分类模型也成为另一个研究热点，多种基于度量尺度的粒化方法被提出.胡清华等［13］提出一种基于邻域关系所定义的邻域粒化方式，实现了实数空间中的粒度计算.该方法定义在实数空间上的非空有限集合U={x1，x2，…，xn}中，任一样本xi的邻域δ为：

其中，δ(xi)被称为邻域信息粒子，Δ 为邻域判别函数.基于该式构建一个邻域关系矩阵M(N)=(rij)(n×n).其中若xj∈δ(xi)，则rij=1，否则为0.使用邻域粒化构建模型的方式被应用在多个决策模型上，并取得优秀的效果.同样地，Chen et al［7］提出一种基于单原子特征的模糊粒化，结合卷积运算优化权重获得很好的分类性能.基于特征上的度量方法如欧式距离、曼哈顿距离和Cos 相似度等方式，在单特征下构建条件粒子，多特征下构建条件粒向量［7，14］.模糊粒化拓展了样本的相似属性.最终与KNN（K Nearest Neighbors）等算法相比，在多个数据集下获得高约2%的分类效果.

但是上述工作仍存在一些缺点.全局式的邻域粒化会在构建粒子阶段产生单调且难以处理的数据，使得模型在计算阶段占用过多的资源［15］.并且在极小邻域与极大邻域范围内，模型的性能表现往往较差［15-16］.而模糊粒化是一种局部粒化方法，其计算效率会比邻域粒化更低.但是，其基于单特征下相似度构建粒子的方式，使得样本基于特征分布的差异化降低，进而丢失掉某些全局特征［7，14，17］.并且其粒子的空间效率也是基于参考样本决定的（随着参考样本数量的提高而提高）.针对这些缺点，本文提出一种基于近似解的粒化方法.该方法通过采样技术对样本集做多次全局采样.在全局采样的结果下，求解全局样本的近似解粒子.并在构建粒子的过程中引入并行式的近似基模型输出多个近似解粒子，多个近似解粒子以粒向量的形式输入最终决策器.这一方法既限制了在粒化过程中产生的数据量，还集成了多个近似基模型的决策能力，提高了模型的分类能力.与多种粒化方式相比［7，14，17-18］，多采样近似粒化的空间效率相对较低.多采样近似粒集成模型的创新如下：

（1）结合粒计算和集成模型的特点，进一步提升模型的鲁棒性；

（2）并行的近似粒化过程，提高粒子的空间效率；

（3）基于全局采样的近似解粒子，使得粒化过程有着更高的灵活性.

1 相关工作

1.1 粒表示粒的表示方法是粒计算的重要研究内容，其涉及数据在决策模型中做计算的数据结构与方法.基于不同结构的粒子，需要采取不同的计算方式.如陈玉明等［18］提出一种计算二元邻域粒子的距离度量方法，使得二元粒子的距离可以通过具体数值表示.根据Chen et al［19-20］中粒的计算方法，本文对近似粒的表示做了类似描述.

定义1MAG=(U，F，V，S，A)为一个多采样近似粒系统，其中U是样本的集合，F是特征或属性的集合，V则是近似粒子的组合，如V=∪f∈FVf，Vf表示在特征f下的粒子值，任意的a∈F都决定了一个函数映射关系表示从原始数据中采样的样本序列集合，A={a|a∈A}表示与s∈S对应的近似基学习器的集合.

定义2MAG=(U，F，V，S，A)为一个多采样近似粒系统，对于任一采样子集us，s∈S和其对应的近似基学习器as∈A.样本集U对近似基学习器as的近似解集为：

其中，n为样本数量.v(as，i)，i∈n表示第i个样本在近似器as中得到的近似解.

定义3MAG=(U，F，V，S，A)为一个多采样近似粒系统，其中近似基学习器集A={a1，a2，…，am}，则样本集U基于近似基学习器集A构建的近似解集为：

V={V1,V2,…,Vm}(3)

其中，由式（2）可知，Vi，i∈m宽度为n.记gi，j={vi，j|vi，j∈V，i∈n，j∈m}，则gi，j表示样本xi∈X在第j个近似器上的解粒子.类似地，样本xi∈X在近似器上的解粒向量可以被定义为：

1.2 全局重要性采样采样方法一直被广泛应用于机器学习与深度学习领域.不管是对数值数据的采样还是对图像数据的采样，其采样目的都是用少于原始数据量的采样数据去近似获得原始的数据分布，以此来进行更快的计算并挖掘出更深层的数据信息.在该领域中，基于蒙特卡洛思想的重要性采样（Importance Sampling）一直是一个研究热点［21-24］.重要性采样的主要优点是采样出的子集精准度较高且方差较低.

Chen et al［21］定义了一种基于节点数据的重要性方法.一个节点数据由节点本身的特征数据和节点之间的边数据表示，因此可以通过边数据构建节点在整张图上的重要性或采样概率.具体每个传播层的近似式如下：

在面对多列数据时，p(x)计算主要经过三个步骤：（1）对数据以列的形式做正态化转换，即x′=NormalTrans(x)；（2）按行计算均值，即xˉ=mean(x′) ；（3）按列对均值做softmax归一化，得重要性概率p(x).基于概率p(x)，可对原始数据集做重要性采样.

2 多采样近似粒集成模型

2.1 多采样近似粒化多采样近似粒化定义了一个多次采样、近似求解和信息粒化的顺序过程.下面依次详细介绍该顺序过程.

广泛使用的集成学习算法如AdaBoost，在初始阶段对样本集U中的样本赋予相同权重［26-28］.在每次基于上次样本权重的决策完成后，提高该次决策错误的子集uf的权重.通过迭代式的训练，最终获得较好的决策结果.这样的训练方式尽管是有效的，但实际上由于其构建模型的过程是串行的，因此其效率较低.基于上述定义，根据样本的重要性概率p(x)，对样本集U进行M={1，2，…，m}次有放回采样.由于重要性采样分布的q(v)∝1，因此其采样出的子集us为原样本集U的近似子集，即采样出的近似子序列为S={s1，s2，…，sm}，相应的近似子集为US={us1，us2，…，usm}.易知，usi∈U，i∈m.同时，usi∩usj≢∅，i，j∈m.

基于多次采样的近似子集us∈US可以构建近似基模型as∈AS.由于每个近似子集us之间满足usi∩usj≢∅，i，j∈m，因此它们是互相独立的.故可以并行地去对每个近似子集us构建近似基模型as.与Boost 和Random Forest 等以同类弱分类器作为基础的方式不同，对于多采样近似粒集成模型来说，其每个近似基模型as的构建方法是多变的.既可以选择相同的基模型去构建一个强化版的分类模型，也可以集成多种不同的基模型，进而融合多种基模型的优势.该构建方法赋予粒子多种解性质，保证了后续粒化步骤的灵活性，可以构建出一系列近似求解器AS={a1，a2，…，am}.

基于构建出的近似基学习器集AS，将所有的样本作为近似基学习器的输入，获得数据的近似解集V={V1，V2，…，Vm}.将近似解集V粒化为近似解粒向量Gxi，i∈n.这一步粒化过程是十分重要的，因为它涉及到将多个互不相关的基近似的解集以粒子性质组合为内部相关的粒向量集.该表达方法使得以粒向量的形式融合多个互不相关的解粒子，进而对这些粒向量进行运算.

图1 展示了多采样近似粒化的详细过程，可以看出近似子集US的构建是基于重要性概率PIS和样本集U的，因此被采样的样本并不是正态分布化的数据.而对于正态分布化的数据则忽略p(x)计算的步骤（1）即可.同时为了防止采样出的数据重复，对采样出的序列集si∈S做集合性处理，即每个序列集中的元素是非重复的.在近似子集US、近似基模型AS和近似解集V三个模块间有虚线将对应的子模块相连，表明在这些关联的子模块中，它们有着一一对应的关系.例如近似解集中的子模块V1是由近似基模型中的as1产生.图中的样本集除了产生重要性概率PIS和近似子集US之外，还与近似基模型AS产生关联.这是因为近似解集V本质上是一种全局解集，而不是基于采样子集得出的近似子解集.最后，在粒化过程中对近似解集V进行堆叠处理，构建粒向量.可见构建粒向量G的个数是n，这是因为在堆叠过程中，对互不相关的近似解集V按样本关系做了对应.此时，需要处理的数据个数由近似解集V的个数m变为样本的个数n.

图1 多采样近似粒化Fig.1 Multi-sampling approximate granulation

多采样近似粒化传播式如下所示：

其中，式（7）表示对样本U进行M次重要性采样的过程.式（8）表示基于多次采样的结果US构建近似求解模型集A的过程.式（9）表示基于近似解集A与样本集U的粒化过程.可以看出，该粒化过程的每一步的输出都作为下一步的输入，因此该粒化过程是一个顺序过程.

2.2 模型结构多采样近似粒集成模型主要分为基模型构建阶段、近似解信息粒化阶段和最终决策阶段.前两阶段是多采样近似粒化的简化表示，最后阶段是对粒向量的决策过程.这三个阶段有两个阶段涉及模型的结构.多采样近似粒集成模型的结构如图2 所示.

图2 多采样近似粒集成模型Fig.2 Granular ensemble model based on multi-sampling approximate granulation

在基模型构建阶段，通过使用近似子集US构建相应的近似基模型AS.每个近似基模型as∈A的构建方法是多变的.这样的多变性体现在近似基模型选取时既可以使用同类基模型，又可以使用不同类的基模型.这是因为在使用同类基模型的时候，每个基模型输入的近似子集是不同的（通过采样大小进行控制），使得每个近似解集都是不同近似分布下的解，因此模型获得更深层的空间信息.同样地，也可以使用异类的基模型.多种不同的基模型结合会使得模型获得多个基模型的优点，有着更高的鲁棒性.第二个涉及模型结构的阶段是最终决策阶段，该过程使用最终决策器对解粒向量做最终决策.最终决策器的选择则是整个模型最终分类效果的关键，在该步中会根据具体面对的情况（数据集）选择不同的分类模型.同时，由于解粒向量G是由m个近似解集中对应的近似解堆叠得到，其维度往往是高维的.在输入最终决策器前，会使用拼接或均值池化技术将堆叠的高维粒向量脱粒为粒子形式（一维数据）.

2.3 算法及其复杂度分析本节对涉及的构建多采样近似粒集成模型的算法进行介绍，算法1使用循环表示近似基模型与全局近似解的构建流程.实际上，由于其每个近似基模型与其输入的近似子集是一一对应的关系，不同关系之间是不相关的，因此近似基模型的构造是并行的，则构造近似基模型集的时间复杂度可以用时间效率最复杂的近似基模型表达，即max(O(A)).同样地，整个模型是顺序结构，故其时间复杂度为O(max(O(A))+O(FD)).由于在数据处理部分没有涉及循环或者迭代处理，因此该部分的计算效率被忽略不计.在整个模型的计算过程中，涉及样本集U的有三个模块，分别是计算样本重要性概率P、计算近似子集US和计算全局近似解V.这三个模块是顺序结构，其空间效率分别为O(n)，smeanO(n)（假设采样子集的大小平均为smean）和O(n).最终决策模型的输入为粒向量G，该粒向量由n个m维的粒子组成，故其空间效率为O(nm).考虑到在实际计算中，近似基模型的数量m远小于样本数量n，因此整个模型的空间效率为O(n)的有限倍数.

3 实验分析

本章采用10 个Kaggle 与UCI 数据集进行实验，数据集具体信息如表1 所示.为了测试算法的有效性，对模型设计三种实验.首先对比多种采样方式对模型的影响.其次对比了多采样近似粒化和多种粒化方法，证明多采样近似粒化的有效性.最后与多个经典的集成算法做了详细比较.本章所有实验结果都是基于十折交叉验证得出，并保留四位小数.

表1 数据集的具体属性Table 1 The specific attributes of the dataset

3.1 采样方法的对比该节对比多种采样方式对构建近似基模型的影响，具体对比方法有随机采样、聚类采样和重要性采样.随机采样是以随机数的方式对样本进行选取，每个样本被选中的概率是相等的，即1/n，该方法可以看作是重要性采样的特殊情况.聚类采样则是以样本的簇作为采样基础，按簇的大小对簇内样本进行采样，在本实验中构建簇的算法为k-means.三种算法的优缺点如表2 所示，其可视化结果如图3 所示.所有数据集的方差对比结果如表3 所示，表中黑体字表示结果最优.

表2 三种采样方法对比Table 2 Comparison of three sampling methods

表3 采样方法的方差对比Table 3 Comparison of the variance of sampling methods

图3 采样分布对比Fig.3 Comparison of sampling distribution

首先，为了分析采样方法对构建近似基模型的影响，该节比较了三种采样方法的可视化结果.可视化实验在diabetes 和Wine Quality 数据集上进行，并设定采样比例系数.采样比例系数是一个经验化的超参数，其值的设置根据模型与其处理的数据大小而定.图3 展示了diabetes 和Wine Quality 在采样比例（Sampling Portion，SP）为0.2 时的分布对比.图中从左到右依次为原始分布、聚类采样分布、重要性采样分布和随机采样分布.其中子图标题var表示该采样下数据的方差.右侧的色带表示图中样本点的重要性概率.

根据表3 和图3 可以看出，随机采样并不能降低采样分布的方差，并且在waveform 数据集上的方差比原始分布更高.邻域采样方法只能在有限程度上降低样本分布的方差.而重要性采样在采样过程中会着重考虑重要性更高的样本，这些样本对样本分布的影响最大，因此有着最低的方差.重要性采样与其他两种采样方法对比来看，方差平均低0.0066 和0.0059.

图4 展示了在raisin 数据集上，基于不同SP的重要性采样的分布对比.由图可知，随着SP的提高，重要性采样的方差会有不同程度的上升.但是，即使采样了80%的原始数据，在该数据集上，重要性采样的方差依然比原始分布和其他采样方法低.其在高SP下的表现更稳定.因此，重要性采样方法的鲁棒性更好.

图4 不同采样比例的对比Fig 4 Comparison of different sampling ratios

由于这三种方法的采样结果都带有一定的随机性，因此在精准度（Accuracy，Acc）的比较上，分别获取10 次运行结果，并以图表展示其可视化结果 .对数据分别进行三次采样，SP=[0.2，0.2，0.2]，对应的近似基模型A=[线性核SVM，k近邻分类器，GaussianNB]，最终决策模型FD 为rbf 核SVM.其中，近似基模型的输出为软数据，对应样本属于某一类的概率值.

图5 比较了在diabetes，breast cancer 和raisin数据集中，三种采样方法在十次交叉验证后的结果.图中横轴为采样轮数，前10 次为重要性采样，11 至20 次为随机采样，21 至30 次为聚类采样.其中有色点表示采样结果，即每次采样的精准度.IS 指包围的红圈部分为重要性采样（Important Sampling），RS 指包围的篮圈部分为随机采样（Random Sampling），CS 指包围的绿圈部分为聚类采样（Cluster Sampling）.由图可知，红圈面积与蓝圈和绿圈相比明显较小，表明在十次交叉验证中，重要性采样方法的结果波动性较小，相反随机采样与聚类采样则稳定性较差.同样地，红圈的相对位置要高于蓝圈与绿圈，这表明重要性采样的分类结果平均来看要优于其他两种采样方法.

图5 三个数据集的十次分类结果对比Fig.5 Comparison of ten classification results under three datasets

表4 展示了三种采样方法在数据集上的十次分类结果，分别对比了十次分类结果的最大值、最小值和平均值，表中黑体字表示结果最优.可以看出，重要性采样除blood，Shill Bidding 和yeast数据集外，其最大精准度是最高的.同时，在所有数据集上，重要性采样的最小精准度也是最高的.平均来看，除了在blood 与Shill Bidding 数据集上三种采样算法的表现相似，重要性采样的分类精准度比其他两种采样方法分别高约0.0060和0.0050.这一现象说明与随机采样与聚类采样相比，重要性采样产生的近似分布是更有效的，同时，基于重要性采样构建的近似模型也有着更高的鲁棒性.

表4 三种采样方法的分类结果对比Table 4 Comparison of the classification results of the three sampling methods

3.2 粒化方法该节将多采样近似粒化与三种粒化方法做对比，具体的对比方法有邻域粒化［17，20］、条件粒化［19］与模糊粒化［9］.该三种粒化方法都是基于粒的判别式去构造粒子.条件粒化与模糊粒化都是局部粒化方式，这两种方法会先在样本集中选取参考样本，进而用判别式对样本集与参考样本做单特征下的比较.

模糊粒化的判别式如下所示：

其中，n为样本个数，m为样本维度，reference为参考样本集.直觉上，每个模糊粒子就是由样本x与参考样本集reference在某个特征下差值的绝对值定义的.

相似地，条件粒化则是在模糊粒化的基础上做了一些更改.条件粒化的判别式如下所示：

条件粒化的判别式定义了在某个特征下，样本x与参考样本集的相似度.相反，模糊粒化的判别式则定义了样本x与参考样本集的不相似程度.

与前两种局部粒化方式不同的是，邻域粒化是一种全局粒化方式，该方法在样本集内部进行交叉比较.其第一步是先通过式（10）计算全局的不相似程度，第二步则是根据邻域判别式将粒子做二值化处理.邻域粒化的判别式如下所示：

其中，σ为邻域参数.

基于上述三种粒化方法，在该节构建粒随机森林，并与多采样近似粒化作详细对比.模糊粒化与条件粒化的参考样本个数为5，邻域粒化的邻域参数为0.3，随机森林（RF）基于Gini 系数构建并且基预测器个数为50.多采样近似粒化的SP=[0.4，0.4，0.4]，对应的近似基模型A=[线性核SVM，k近邻分类器，GaussianNB]，对比结果如表5 所示，表中黑体字表示结果最优.其中RF 表示原始数据，RF_Fuzzy 表示模糊粒化，RF_Condition 表示条件粒化，RF_Neighbor 表示邻域粒化，RF_SAG 表示多采样近似粒化.分类结果以均值±方差的形式表示.由表5 可知，多采样近似粒化在大部分数据集上表现更好.其中在mobile，blood，waveform 数据集上优势更明显，平均分别高于其他算法约0.045，0.015，0.015.同样地，在diabetes 数据集上，模糊粒化获得最优表现，其分类精准度达到0.7721，分别比其他粒化方法高0.0156，0.0065，0.0221.在Shill Bidding数据集上，邻域粒化获得最优表现，其分类精准度达到0.9984，相应的多采样近似粒化只有0.9847.最后，在yeast 数据集上条件粒化的分类精准度最高，达到0.6150.同时，多采样近似粒化也获得相似的分类效果，分类精准度为0.6135.平均来看，基于多采样近似粒化的随机森林的分类精准度最高，与其他四种算法相比分别多约0.0113，0.0087，0.0097，0.0089.同时，多采样近似粒化的平均方差也是最低的，只有0.0006.表明与其他粒化方法相比，多采样近似粒化有着更高的泛用性，同时能够降低精度分数的方差，提高了模型的鲁棒性.

表5 多种粒化方法在数据集上的对比结果Table 5 The comparative results of various granulation methods on the dataset

3.3 综合比较该节详细对比了多采样近似粒集成学习与其他先进的集成算法的分类效果，具体对比的算法有Random Forests（RF）［3］，Ada-Boost，HistGradientBoosting（HGB）［29］和 XGBoost［30-31］.其中，随机森林RF 的树基于熵构建，基预测器个数为100；AdaBoost 的预测器类别为决策树，学习率为1.0，构建算法为SAMME.R，基预测器个数为50；HGB 的损失函数为交叉熵损失，学习率为1.0，最大迭代次数为100 次；XGBoost 的特征SP为0.7，目标函数为softmax，学习率为0.3，基预测器个数为100.对于MSAGEL（多采样近似学习）的参数设置如下：SP=[0.4，0.6，0.4]，对应的近似模型A=[线性核SVM，决策树DT，GaussianNB]，最终决策模型为线性核SVM，结果如表6 所示，表中黑体字表示结果最优.

表6 多种集成方法在数据集上的对比结果Table 6 The comparative results of various ensemble methods on the dataset

由表6 可知，MSAGEL 算法在所有数据集上都获得了较大提升.其中在Wine Quality 和yeast数据上，MSAGEL 分别获得0.8405 和0.7876 的准确度，比其他四种集成学习算法的准确度高0.15～0.3.在diabetes，raisin 和Debrecen 数据集上，MSAGEL 比其他四种集成学习算法的准确度高0.1～0.2.总体来看，AdaBoost 算法不够稳定，在yeast 数据集上无法获得足够正确的划分结果，并且总体的平均准确分数也是五种算法中最低的.与AdaBoost 算法相比，RF，HGB 和XGBoost算法表现则相对一致，它们的平均分数分别高出AdaBoost 约0.0286，0.0337 和0.0577.与其他四种算法相比，MSAGEL 的平均分数高出较为明显.MSAGEL 平均高于其他算法约0.114，0.1594，0.1110 和0.0920.除了分类精准度的优势外，MSAGEL 在方差比较上也有明显优势，比其他算法分别低0.0023，0.0019，0.0023 和0.0003.表明MSAGEL 在十折交叉验证的过程中表现更稳定.在这些数据集中，Wine Quality 和yeast 都是多类不平衡数据集.如在yeast 数据集内，类别为CYT 的样本有463 个，而类别为ERL的样本只有五个，这种类别的极度不平衡性，导致其他四种算法的弱表现.由于MSAGEL 是一种基于采样的近似模型，其基近似模型的构建可以在一定程度上避免数据的不平衡性所带来的缺陷，因此获得了远高于其他四种算法的分类效果.上述数据体现了MSAGEL 强大的鲁棒性与适用性.

为了详细比较各项指标，选择XGBoost 算法作为多指标的对照算法.两种算法在F1、Acc和召回率三个评价指标和所有数据集上进行详细比较，结果如表7 所示，表中黑体字表示结果最优.

表7 MSAGEL 和XGBoost 在数据集上的多指标对比结果Table 7 The multi-metric comparison results of MSAGEL and XGBoost on the datasets

由表7 可知，MSAGEL 算法评价指标的得分在大部分数据集上明显高于XGBoost.该现象在Wine Quality 和yeast 数据集上尤为明显，分项指标分别平均高约0.25 和0.21.而在面对这两个不平衡数据集时，XGBoost 由于并没有考虑不平衡性，其只能对类别规模较大的样本做正确分类，因此其各项分数平均只有约0.37 和0.53.同时在diabetes，blood，raisin 和Debrecen 数据集上，MSAGEL 则获得0.1～0.15 的指标优势.而在breast cancer 和Shill Bidding 数据集上，两种算法的表现相似，MSAGEL 的评价分数比XGBoost高约0.06.这说明MSAGEL 的泛化性和鲁棒性都要优于XGBoost.

4 总结

本文提出一种全新的粒化方法，该粒化方法基于采样的思想，同时引入近似理论与重要性采样技术，构建近似粒向量.与随机采样和聚类采样方法相比，重要性采样方差更低，计算花费较低.这些特点使得重要性采样的分布与原始分布相似.与其他先进的粒化方法相比，该方法摒弃了根据具体判别式构造粒子的方式，其依据数据的近似分布构建多个分布下的近似粒子的方法赋予粒化过程更高的灵活性.根据分析，近似粒化的空间复杂度仅为O()nm，这一规模远低于邻域粒化的O()nn.同时，在以RF 为基础模型的粒化方法比较上，多采样近似粒化在大部分数据集上获得最优效果.最后，基于近似粒向量的构建过程，本文提出一种多采样近似粒集成学习模型并详细对比该模型与其他先进的集成学习算法.结果表明，多采样近似粒集成学习有着强大的泛化性与鲁棒性.未来工作包括以下三个方面：（1）探索近似模型间的权重关系对最终决策的影响；（2）结合Boosting 思想构建多采样近似Boosting；（3）探索近似模型对不平衡数据的性能.