基于特征选择的决策树方法在磷酸铝AlPO4-5定向合成中的应用

2011-12-11 09:29霍卫峰李激扬于吉红徐如人
物理化学学报 2011年9期
关键词:决策树分子筛磷酸

霍卫峰 高 娜 颜 岩 李激扬 于吉红 徐如人

(吉林大学无机合成与制备化学国家重点实验室,长春130012)

基于特征选择的决策树方法在磷酸铝AlPO4-5定向合成中的应用

霍卫峰 高 娜 颜 岩 李激扬*于吉红 徐如人

(吉林大学无机合成与制备化学国家重点实验室,长春130012)

分子筛类开放骨架材料的合成与结构关系研究对实现这类材料的定向合成起着至关重要的作用.本文在建立开放骨架磷酸铝合成反应数据库的基础上,提出了利用基于特征选择的决策树(C5.0)方法,考察了不同反应条件(即各反应特征参数)对磷酸铝分子筛AlPO4-5生成的影响.基于决策树模型,利用8个反应特征参数,可以有效预测磷酸铝分子筛AlPO4-5的生成,准确率达到88.18%,接收者操作特性(ROC)曲线下面积(AUC)达到90%.研究结果表明,在众多的反应特征参数中,有机模板剂的几何尺寸参数,特别是模板剂的次长距离,是影响AlPO4-5分子筛合成的重要因素.

磷酸铝;定向合成;数据挖掘;决策树;特征选择

1 引言

以分子筛为代表的无机微孔材料在催化、吸附、离子交换、分离、主客体化学等领域有着极为广泛的应用.1-5磷酸铝系列分子筛是二十世纪八十年代开发的一类具有中性骨架的微孔材料,迄今已知的磷酸铝分子筛结构已有60余种.AlPO4-5分子筛(结构代码AFI)6为其中的典型代表,其无机骨架是由AlO4和PO4四面体通过共享氧原子严格交替形成,该类分子筛的主孔道由十二元环组成,孔径为0.73 nm,与芳香化合物分子大小相当,在吸附和催化领域中具有重要应用.

无机微孔材料的定向合成是目前国际材料领域与分子工程学研究的重要前沿方向.然而,由于无机微孔晶体化合物的合成化学十分复杂,其晶化动力学受多种条件控制,如反应原料、凝胶组成、反应的pH值、有机模板剂、溶剂、晶化温度和晶化时间等.至今,人们对其生成机理还没有明确的认识,这就使这些材料的定向合成极具挑战性.目前,国际上对于无机微孔晶体材料的设计与定向合成的研究还处于探索阶段.深入研究水热合成反应条件与产物结构之间的关系和规律对定向合成具有特定结构的微孔化合物至关重要.

近年来,数据挖掘领域的研究相当活跃,无论在理论上,还是在实用技术上都取得了喜人的成果.数据挖掘是从数据集中抽取和精化新的模式或知识,7,8挖掘数据中的隐藏信息.数据挖掘目前的热点技术有查询工具、统计技术、可视化、聚类、决策树、关联规则、神经元网络和遗传算法等.数据挖掘在化学领域中的应用主要集中在检索和处理原始数据,9-11分子的描述符参数化,12-14统计方法分析,15-17专家系统,18-20数据挖掘各种方法的应用21-24等方面.开放骨架结构磷酸铝具有丰富的结构化学,便于收集数据和系统分析.为了运用数据挖掘方法深入研究磷酸铝化合物反应过程中各种反应条件、有机模板剂和溶剂对最终产物结构的影响,我们研究小组在国际上率先建立了磷酸铝合成反应数据库(http://zeobank.jlu.edu.cn/),该数据库包含大量的开放骨架磷酸铝的合成反应数据.在磷酸铝合成数据库建立的基础上,利用初始的反应条件,用支持向量机方法预测了具有6和12元环孔道磷酸铝分子筛的生成,预测准确率达到82%.24本文主要介绍决策树结合特征选择方法在AlPO4-5磷酸铝分子筛定向合成中的应用.

2 方法

在数据挖掘中,特征选择是一个重要的步骤.特征选择的主要目的是要从候选的输入特征集合中找到一个合适的子集,使分类模型获得较高的分类准确性.F-Score方法25是一种简单的特征选择方法,它通过计算每个特征的F-Score来判断该特征对最终结果的重要性.然后使用由F-Score方法选择的输入特征子集,利用决策树方法建立决策树模型,并可以从中得到一些可供参考的规则.我们通过计算模型的分类准确率和其接收者操作特性(ROC)26曲线下面积(AUC)26值来评估模型的性能.

2.1 F-Score

F-Score是一种衡量特征集在两类(正样本和负样本)之间辨别力的方法,该方法适用于数值型数据.可以通过此方法实现最有效特征的选择,其具体内容如下:

2.2 决策树

决策树是用二叉树形图来表示处理逻辑的一种工具,它提供了一种展示IF-THEN规则的方法.构造决策树采用分而治之的方法,根据训练集从根节点开始逐个节点构造整棵树.主要过程包括:令根节点处的训练数据集为T(也称根节点覆盖了训练集T),根据T来决定是否向下产生分枝以及分枝数量,然后把T划分到各个分枝连接的子节点上,这样重复进行,直到整棵树不再产生任何分枝为止,就完成了整棵决策树的构造.27决策树擅长处理非数值型数据,常见的决策树算法有CART,28SPRINT,29RainForest,30ID3,31C4.5,27C5.032等.C5.0比C4.5在内存使用及精度方面有所提高.C5.0在精度方面主要的改进缘于采用助推(boosting)方法.在构造决策树时,用到信息论中熵的概念来选择要检验的特征:

式中,Info(Tʹ)称为集合Tʹ的平均信息量或信息熵,xi表示Tʹ中标记为ci类别的样例个数,频率xi/|Tʹ|是对随机样例类别为ci的概率的估计.决策树结构如图1所示.

2.3 性能评估方法

评估分类模型性能的指标有:分类准确率、AUC、敏感度和特异度.描述规则的指标有:置信度和支持度.

其中,TP和TN是被正确分类的正样本和负样本的个数,FP和FN是被错误分类的正样本和负样本的个数.敏感度越高,正样本被正确识别的机率越高.特异度越高,负样本被正确识别的比例越高.ROC曲线26是一种基于TP和FP的方法,提供了一种兼顾敏感度和特异度的权衡,比单独的分类准确率更好一些.AUC面积越大,表明该模型在敏感度和特异度上的均衡越佳.关于规则,我们用置信度和支持度这两种方法来描述一条规则.假定有一条规则R在数据库D中.含有规则R条件的样本有N条,同时含有规则R条件和结论的样本有n条.则置信度= n/N,支持度=n/|D|,|D|为数据库D中的样本个数.

2.4 数 据

2.4.1 数据编码与特征选取

图1 决策树结构示意图Fig.1 Diagram of structure of decision tree

在磷酸铝合成反应数据库中,每条合成数据详细记录着合成某种磷酸铝化合物的具体反应条件(反应特征),如反应原料、凝胶的组成、配比、溶剂和模板剂的种类、反应前后的pH值、晶化温度、晶化时间及产物结构信息(产物特征)等.数据编码主要是对合成反应数据中非数字的反应特征和产物特征,如溶剂和模板剂的种类和性质、产物结构等进行参数化处理.为了详细研究磷酸铝化合物反应过程中各种反应条件、有机模板剂和溶剂对最终产物结构的影响,我们选取了26个反应特征参数(见表1)进行测试.

表1 26个输入反应特征参数的描述Table 1 Description of 26 input synthetic features

图2 数据挖掘过程示意图Fig.2 Diagram of the data mining procedure

2.4.2 数据选取

从磷酸铝合成反应数据库中选择数据1389条用于测试反应产物是否为AlPO4-5,其中反应生成物为AlPO4-5的数据282条(正样本,占总样本20.3%),反应生成物不是AlPO4-5的数据1107条(负样本,占总样本79.7%).

3 结果与讨论

我们采用软件See5试用版32来进行本文中的实验.但是试用版See5一次只能处理不超过400条记录;另一方面,在所有样本中正负两类样本的分布非常不平衡.基于这些原因,我们采用向下随机采样方法设计了训练集和测试集的产生方法(图2).向上和向下随机采样方法是数据挖掘处理样本不平衡问题时常用的方法,对于决策树算法而言,向下随机采样方法比向上随机采样方法更容易得到好的结果.33另外,采用十重交叉验证方法及See5默认的参数设置.

每次建模如图2所示,分别得到训练集和测试集.因为每次提取的训练集不同,会导致不同的树模型的生成.因此对每个特征子集进行10次建模,计算测试分类准确率.然后为每个特征子集选取分类准确率最高的模型作为其代表.利用ROC方法,从26个模型中选择AUC最大的作为最终模型,并提取规则进行分析.

由于选取的反应特征较多,我们首先利用F-Score方法对各反应特征的重要性进行了排序,26个反应特征按F-Score高低顺序依次排列如下: F11、F16、F18、F15、F9、F12、F4、F17、F22、F24、F26、F20、F8、F23、F13、F3、F25、F5、F7、F2、F6、F21、F14、F19、F10、F1(图3).从图3可以看出,参数F11、F16和F18这三个特征参数的得分明显高于其他特征参数,而F19、F10和F1的得分接近于零.这一结果表明,特征F11(T1_Distance2,即模板剂空间尺寸的次长距离)、F16(T1_CN,即模板剂分子中碳与氮原子个数比)和F18(T1_Charge_Density2,即氮原子个数/范德华体积)是决定最终产物类别的重要因素,其中F11是最关键的因素.我们采用SVM方法建立预测产物结构的过程中也得到了相同的结论.24对产物有较大影响的三个因素中,F11是有机模板剂分子的几何参数,F16与F18是电性质参数.而F19 (T1_Sanderson,即模板剂分子的Sanderson电负性)、F10(T1_Distance1,即模板剂分子空间尺寸的最长距离)和F1(Sol1_S,即反应使用溶剂摩尔量)对最终是否生成AlPO4-5的影响相对较小.综合来看,模板剂对最终是否生成AlPO4-5的作用要大于溶剂.

图3 26个特征的F-Score列表Fig.3 List of F-Scores of 26 features

表2 基于F-Score选定的26个特征子集Table 2 The 26 feature subsets based on F-Score

根据F-Score排序表,按高低顺序逐个将特征加入到建模的输入特征集合中(表2),建立26个工作模型.

图4 26个代表模型的ROC曲线Fig.4 ROC curves of 26 models

针对每个特征子集,都建立10个模型,选择测试准确率最高的作为该特征子集的代表模型.最终为这26个特征子集确立了26个代表模型.通过ROC方法从这26个模型中选取AUC最大的模型,作为最终的分类模型.各模型的ROC曲线如图4所示.其中,第19个模型的AUC(90%)最大,即该模型为26个模型中兼顾特异度和敏感度最好的模型(图5).

图5 #19决策树模型Fig.5 The#19 decision tree model

表3 根据模型#19所得到的2条规则Table 3 Two rules for the formation ofAlPO4-5 extracted from the model#19

图6 AlPO4-5分子筛结构图Fig.6 Structure of zeoliteAlPO4-5

该模型的准确率、敏感度、特异度分别为: 88.18%、92.96%、86.96%.

由该决策树模型可以看出,模板剂空间尺寸的次长距离F11(T1_Distance2)是决定反应产物是否生成AlPO4-5的关键因素.其次,模板剂的电荷密度(T1_Charge_Density2和T1_Charge_Density1),模板剂分子的碳氮比(T1_CN)和模板剂可自由旋转的单键数(T1_Flexibility)对AlPO4-5的生成也具有重要作用.这也进一步说明,有机模板剂是影响AlPO4-5生成的重要因素,只有具有合适的空间尺寸和电荷的有机模板剂才能导致磷酸铝AlPO4-5的生成.

众所周知,有机模板剂的几何特征对于磷酸铝骨架的形状及其孔道大小有着极其重要的作用.AlPO4-5骨架结构中有6元环和12元环两种孔道结构(图6),在12元环的孔道中,有机模板剂分子的最长距离往往是沿着孔道的走向,而次长距离就成为决定孔径尺寸大小的重要因素.计算得到的结果与经验知识相一致.

从该树模型提取得生成AlPO4-5的一些较好的规则如表3所示.按规则在全部数据集中的置信度高低排列.

在全部数据集中,满足第一条规则的记录共44条,全部不生成AlPO4-5,置信度为1.0.这44条记录共使用19种模板剂,均不是合成AlPO4-5常用的模板剂.满足第二条规则的记录共177条,其中有130条生成AlPO4-5,置信度为0.7345.这177条记录共使用10种模板剂.其中,常用来合成AlPO4-5的有机模板剂有三乙胺(triethylamine),三乙醇胺(triethanolamine)和三乙基氢氧化铵(triethylammonium hydroxide)等.这些结果也与实际经验大致吻合.

4 结论

采用了决策树C5.0算法及F-Score特征选择方法建立模型来预测影响磷酸铝分子筛AlPO4-5生成的重要合成因素,并设计了训练集和测试集的产生方法来解决样本分布不均衡的问题,最终得到了较高预测准确度(88.18%)的模型,且该模型的AUC达到了90%.研究结果表明,有机模板剂是影响AlPO4-5分子筛生成的重要因素,在众多的模板剂参数中,有机模板剂的几何次长距离是影响分类最重要的因素.该研究也表明数据挖掘技术能够分析和建立合成条件与产物结构间的关系,将为磷酸铝无机微孔晶体的定向设计合成提供重要的基础.

(1) Smit,B.;Maesen,T.L.M.Nature 2008,451,671.

(2) Chen,X.;Yang,H.;Gu,Z.Y.;Shao,Z.Z.J.Appl.Polym.Sci. 2001,79,1144.

(3) Rakoczy,R.A.;Traa,Y.Microporous Mesoporous Mat.2003, 60,69.

(4) Chang,C.F.;Chang,C.Y.;Chen K.H.;Tsai,W.T.;Shie,J.L.; Chen,Y.H.J.Colloid Interface Sci.2004,277(1),29.

(5) Shi,X.E.;Zhai,S.R.;Dai,L.Y.;Shan,Y.K.;He,M.Y.;Wei, W.;Wu,D.;Sun,Y.H.Acta Phys.-Chim.Sin.2004,20(3), 265.[师希娥,翟尚儒,戴立益,单永奎,何鸣元,魏 伟,吴 东,孙予罕.物理化学学报,2004,20(3),265.]

(6)Wilson,S.T.;Lok,B.M.;Messina,C.A.;Cannan,T.R.; Flanigen,E.M.J.Am.Chem.Soc.1982,104,1146.

(7) Witten,I.H.;Frank,E.Data Mining:Practical Machine Learning Tools and Techniques with Java Implementations; Morgan Kaufmann:San Francisco,2000;p xix.

(8)Han,J.W.;Kamber,M.Data Mining:Concepts and Techniques;Morgan Kaufmann:San Francisco,2001;p 7.

(9) Fletcher,D.A.;McMeeking,R.F.;Parkin,D.J.Chem.Inf. Comput.Sci.1996,36(4),746.

(10) Perola,E.;Xu,K.;Kollmeyer,T.M.;Kaufmann,S.H.; Prendergast,F.G.;.Pang,Y.P.J.Med.Chem.2000,43(3),401.

(11) Goto,S.;Nishioka,T.;Kanehisa,M.Bioinformatics 1998,14, 591.

(12) Sandberg,M.;Eriksson,L.;Jonsson,J.;Sjöström M.;Wold,S. J.Med.Chem.1998,41(14),2481.

(13) Karelson,M.;Lobanov,V.S.;Katritzky,A.R.Chem.Rev.1996, 96(3),1027.

(14)Karelson,M.Molecular Descriptors in QSAR/QSPR;John Wiley&Sons Ltd.:New York,2000.

(15) Bennett,C.A.;Franklin,N.L.Statistical Analysis in Chemistry and the Chemical Industry;John Wiley&Sons Ltd.:New York,1954.

(16)Allen,F.H.Acta Cryst.B 2002,58,380.

(17)Kraeft,W.D.;Kremp,D.;Ebeling,W.;Ropke,G.Quantum Statistics of Charged Particle Systems;Akademie-Verlag: Berlin,1986.

(18) Edwards,G.;Compton,P.;Malor,R.;Srinivasan,A.;Lazarus, L.Pathology 1993,25(1),27.

(19)Rich,S.H.;Venkatasubramanian,V.Comput.Chem.Eng.1987, 11(2),111.

(20) Barratt,M.D.;Basketter,D.A.;Chamberlain,M.;Admans,G. D.;Langowski,J.J.Toxicol.in Vitro 1994,8(5),1053.

(21) King,R.D.;Srinivasan,A.;Dehaspe,L.J.Comput.-Aided Mol. Des.2001,15(2),173.

(22) Zhang,J.H.;Wang,X.J.Acta Phys.-Chim.Sin.2010,26(1), 188. [张家虎,王秀军.物理化学学报,2010,26(1),188.]

(23) Corma,A.;Diaz-Cabanas,M.J.;Jorda,J.L.;Martinez,C.; Moliner,M.Nature 2006,443,842.

(24) Li,J.Y.;Qi,M.;Kong J.;Wang,J.Z.;Yan,Y.;Huo,W.F.;Yu,J. H.;Xu,R.R.;Xu,Y.Microporous Mesoporous Mat.2010, 129,251.

(25) Chen,Y.W.;Lin,C.J.Combining SVMs with various feature selection strategies,2005.http://www.csie.ntu.edu.tw/~cjlin/ papers/features.pdf(accessed Oct 20,2009).

(26) Hanley,J.A.;McNeil,B.J.Radiology 1982,143,29.

(27) Quinlan,J.R.C4.5:Programs for Machine Learning;Morgan Kaufmann:San Francisco,1993.

(28) Breiman,L.;Friedman,J.H.;Olshen,R.A.;Stone,C.J. Classification and Regression Trees;Wadsworth:Belmont, 1984.

(29)Shafer,J.C.;Agrawal,R.;Mehta,M.SPRINT:AScalable Parallel Classifier for Data mining.In Very Large Data Bases, Proceedings of 22nd International Conference on Very Large Data Bases,Bombay,India,September,1996;Vijayaraman,T. M.,Buchmann,A.P.,Mohan,C.,Sarda,N.L.,Eds.;Morgan Kaufmann:San Francisco,1996;pp 544-555.

(30) Gehrke,J.;Ramakrishnan,R.;Ganti,V.Data Min.Knowl.Disc. 2000,4(2/3),127.

(31) Quinlan,J.R.Mach.Learn.1986,1,81.

(32) Quinlan,J.R.Data Mining Tools See5 and C5.0.http://www. rulequest.com/see5-info.html(accessed Nov 30,2007).

(33) Hoste,V.Optimization Issues in Machine Learning of Coreference Resolution.Ph.D.Dissertation,University of Antwerp,Belgium,2005.

April 26,2011;Revised:June 9,2011;Published on Web:June 24,2011.

Decision Trees Combined with Feature Selection for the Rational Synthesis of Aluminophosphate AlPO4-5

HUO Wei-Feng GAO Na YAN Yan LI Ji-Yang*YU Ji-Hong XU Ru-Ren
(State Key Laboratory of Inorganic Synthesis and Preparative Chemistry,Jilin University,Changchun 130012,P.R.China)

The relationship between the synthetic features and the types of final product is critical for the rational synthesis of zeolite-type open-framework materials.In this paper,an AlPO4-5 prediction system based on C5.0 combined with a feature selection is proposed on the basis of the establishment of a database of AlPO syntheses.26 synthetic parameters associated with gel composition,an organic amine template and a solvent were used as input to predict the formation of AlPO4-5.The effects of different synthetic parameters on the formation of AlPO4-5 were also studied.The performance of the method was evaluated using classification accuracy and a receiver operating characteristic(ROC)curve.The results show that the highest area under the ROC curve(90%)and the classification accuracy(88.18%)was obtained for the decision tree model that contains eight input features and some useful rules with high confidence degrees were extracted from the model.Among the various synthetic parameters the geometric size of the organic template,particularly the second longest distance of the template plays an important role in the formation of AlPO4-5.

Aluminophosphate;Rational synthesis;Data mining;Decision tree;Feature selection

∗Corresponding author.Email:lijiyang@jlu.edu.cn;Tel:+86-431-85168614.

The project was supported by the National Natural Science Foundation of China(20871051).

国家自然科学基金(20871051)资助项目

O641;O639

猜你喜欢
决策树分子筛磷酸
5种沸石分子筛的吸附脱碳对比实验
分子筛结构设计研究现状及展望
国际磷酸—铵市场再次走跌
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
上半年磷酸二铵市场波澜不惊
2018年下半年 国内磷酸一铵市场走势简析
磷酸二铵:“钱景”如何
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用