基于近红外光谱和SPA算法的棉花叶面积指数定量分析

2018-04-13 00:46张树艳王有武白铁成石鲁珍
江苏农业科学 2018年6期
关键词:冠层叶面积波长

张树艳, 王有武, 白铁成, 张 晓, 石鲁珍

(1.塔里木大学信息工程学院,新疆阿拉尔 843300; 2.塔里木大学植物科学学院,新疆阿拉尔 843300;3.中国农业科学院农业信息研究所新疆南疆农业信息化研究中心,新疆阿拉尔 843300)

棉花是关系国计民生的重要物资,是仅次于粮食的第二大农作物,其产值占我国经济作物的50%以上,在国民经济发展中具有重要地位。新疆以其优越的光热资源条件成为我国最主要的棉花产区,棉花种植面积、单位面积产量和总产量一直居全国首位[1-2]。叶面积指数(leaf area index,简称LAI)很好地反映了冠层结构是否合理、营养生长与生殖生长是否协调及其生育进程等信息,与生物量和作物产量密切相关,是群体特征的重要指标[3-4]。因此,棉花不同生育时期LAI的精确估测,对了解棉花长势、提高新疆棉花生产管理水平及遥感估产有着重要意义。

目前,利用高光谱获取LAI已经成为精准农业研究的热点问题之一[5-6]。植被冠层叶片特别是宽叶片在近红外光谱(简称NIR)区域的高反射率和透射率可引起强烈的多重反射,NIR光谱区(700~2 500 nm)主要是由含氢基团的倍频和组频吸收峰组成,吸收强度弱,灵敏度相对较低,吸收带较宽且重叠严重,近红外光谱通常包含数以千计的波长变量,光谱信息存在多重相关性等,如果采用全光谱数据建模,由于光谱含有大量冗余数据,必然会增加建模的工作量。因此,为了削弱以至于消除各种非目标因素对近红外光谱的影响,提高物系性质参数对光谱的分辨率和灵敏度,在利用光谱建立校正模型前,通常需对其进行波长选择[7],剔除不含有用信息的波长。另外,选择有较好代表性的校正集样本,可以提高预测模型的预测能力。

鉴于此,本研究以南疆棉花为研究对象,采用近红外光谱仪获得棉花冠层光谱,通过基于X-Y距离的样本集划分(sample set partitioning based on joint x-y distance,简称SPXY)法划分校正集样本和验证集样本,然后使用连续投影算法剔除光谱冗余信息,优选出棉花近红外特征波长,结合最小二乘法实现LAI的建模,比较连续投影算法和最小二乘法(简称SPA-PLS)模型和PLS模型的预测精度和稳定性,以期为棉花叶面积指数的精确估测提供一种新的思路和方法。

1 材料与方法

1.1 试验地概况

本试验设于新疆阿拉尔市十团六连棉花试验区,地理坐标为81°13′E,40°34′N,为典型的大陆性干旱荒漠气候,年均相对湿度为51%,太阳辐射总量为年均6 100 MJ/m2左右,生长季太阳辐射量为1 300 MJ/m2左右,年均日照时数为2 800~3 000 h,云雾天气较少,扬尘、浮尘、沙暴等天气较多。

1.2 试验设计

本试验于2015年实施,棉花品种为新陆中67号,小区面积为300 m2,种植密度为24万株/hm2,行距为40 cm+20 cm宽窄行,按当地高产栽培模式管理。选择晴朗无风沙天气,分别于棉花的蕾期(6月22日)、初花期(7月3日和7月9日)、盛花期(7月15日)、初铃期(7月30日)、盛铃期(8月9日和8月24日)和吐絮期(9月10日)进行数据采集,每次测定时间选择在当天12:00—15:00(北京时间)。本试验区选取长势不同的10个采样点采样,共采集80个样本,试验区采集的数据包括冠层光谱和LAI。

1.3 测定指标及方法

1.3.1冠层测量采用美国赛默飞世尔公司生产的Antaris II FT-NIR型光谱仪采集棉花冠层光谱,测量范围为4 000~10 000 cm,扫描次数设置为32次,分辨率设置为8 cm,采样点数为1 557点,使用的检测器为InGaAs。在每个采样点采集5株棉花,立即摘叶,将叶片装入牛皮纸袋,标号封口,带回实验室进行近红外光谱测量。将近红外光谱仪开机预热约30 min,用近红外光谱仪对棉花叶片进行扫描,获取近红外光谱图像,使用EVNI软件处理得到不同采样点棉花叶片的光谱反射值[8]。

1.3.2棉花叶面积指数的获取棉花冠层LAI的测量与光谱采集同步进行。每次测完冠层反射率光谱,将其不重叠地铺放在画有坐标网格的白色背景的纸上,用500万像素的数码相机拍照,相机取景以刚好框住所有叶片为宜,要求叶片上光线均匀,无阴影,同一采样点叶片重复拍摄3次,记录照片编号与采样点号。使用LA-S植物图像分析软件得到图片上的叶片面积,最后汇总计算得出不同采样点的棉花总叶面积[9]。LAI的计算方法如下:

1.4 校正集和验证集样本选择

为了减小过拟合现象,使模型的预测能力增强,选择的校正集样本要具有较好的代表性。SPXY方法是由Galvão等在KS法的基础上提出的[10],试验证明能够有效地用于NIR定量模型的建立。SPXY在计算样品间距离时,将x变量和y变量同时考虑在内,标准化的xy的距离公式[11]为

式中:dx(p,q)为以棉花冠层光谱为参数计算出的样本间的距离;dy(p,q)为以棉花LAI为参数计算出的样本间的距离。

采用SPXY方法将80个样本划分为60个校正集和20个验证集,分别用以建立LAI预测模型和验证所建模型的准确性。

1.5 SPA提取有效波长

连续投影算法(successive projections algorithm,简称SPA)最早由Bregman于1965年提出[12],是一种使矢量空间共线性最小化的前向变量选择算法,本研究用于剔除光谱冗余信息。设光谱矩阵为Xn×p,其中n为样本容量,p为全谱波长数,要选出m个最优波长,选择步骤[13]如下:

步骤1:第1次迭代之前(n=1),将训练集光谱矩阵X的第k列赋值给xk(1),k∈(1,2,…,p);

步骤2:令S为所有未被选入的波长变量的集合,S={k,1≤k≤p,p[k(1),k(2),…,k(n)]};

步骤3:计算剩余列向量xk与当前所选向量的投影;

步骤4:记下投影值范数最大的波长的位置k(n+1)=arg[mac(‖xk(n+1)‖)],n∈S;

步骤5:令n=n+1,若n

步骤6:分别使用各子集中的变量建立多元线性回归(简称MLR)模型,选出均方根误差(简称RMSE)最小的子集,然后进行逐步回归建模,在尽量不损失预测准确度的前提下,得到1个变量数较少的集合。该集合中的波长变量即为所选有效波长。

1.6 模型评价

校正模型性能评价参数[14]:相关系数(r)、建模均方根误差(简称RMSPCV)和预测均方根误差(简称RMSEP)。一个好的模型通常具有高的r值,低的RMSPCV和RMSEP。计算公式如下:

(1)

(2)

(3)

式中:m为校正集的总样品数;n为验证集的总样品数;zi为第i样品的测量值;yi为预测模型第i样品的预测值;yi,av为预测模型所有样品的平均值。r越接近1,回归(或预测)结果越好;RMSPCV越小,说明该模型的预测能力越高;RMSEP越小,则表示模型对外部样品的预测能力越高;同一批次样本,RMSPCV和RMSEP越小,说明模型的精度越高,两者值越接近说明模型稳定性越好。

2 结果与分析

2.1 光谱反射率特征

棉花各生育时期的冠层光谱如图1所示,在近红外波段,光谱反射率主要是受细胞结构的影响,在910 nm处反射率急剧升高,在940 nm波段附近出现反射率的峰值,直到 1 300 nm 的近红外反射率都维持较高水平,在950~1 300 nm处反射率、透射、吸收稳定,超过1 300 nm,随波长的增加,吸收增加,反射减小,在1 450 nm处呈现吸收波谷,短波红外光谱区(1 300~2 600 nm)主要受叶片水分的影响,反射率升高。

2.2 各生育时期LAI的变化

棉花LAI统计特征如下:样本数80个,LAI平均值2.99,LAI中位数4.08,LAI标准差0.79,LAI最小值1.64,LAI最大值4.29。图2为不同品种的棉花叶面积指数LAI在整个生育期内的变化曲线,苗期由于棉花未封垄,棉花冠层光谱受到土壤背景光谱的影响较大,所以叶面积的测定从蕾期开始。从蕾期到初花期,由于棉花枝叶数量的急剧增加,叶片面积不断增长,致使LAI不断升高,LAI升高的速率从盛蕾期到花期再到盛花期较快,各品种的棉花LAI在铃期都达到了最大值。进入盛铃期后期,棉花叶片的光合作用已开始逐渐减弱,养分不断转移输送到棉铃上,植株下部的棉叶逐渐枯黄干落,LAI在吐絮后急剧减小。

2.3 棉花叶面积指数建模

2.3.1PLS模型原始光谱包含背景信息和除样品外的噪声信息,分别采用均值中心化、归一化、平滑去噪、一阶求导、多元散射校正(简称MSC)5种不同方法对光谱进行预处理。使用原光谱和预处理光谱分别对棉花LAI进行PLS模型建模,建模精度和预测能力如表1所示。可以看出,采用一阶求导光谱建立的PLS模型,其相关系数r最高,为0.801 23,RMSPCV和RMSEP最小,分别为0.425 33和0.501 22,因此采用一阶求导预处理效果最佳。一阶导数光谱可以消除基线和其他背景干扰,分辨重叠峰,得到比原光谱更高的分辨率和更清晰的光谱轮廓变化[15],后面在连续投影算法基础上建立SPA-PLS模型也以一阶求导光谱为基础进行,图3为经一阶求导处理后的光谱。

表1 5种预处理方法建立PLS模型结果综合比较

2.3.2SPA-PLS模型本研究的光谱波长区间为900~1 700 nm,该区间含有大量冗长信息,故采用SPA方法在全光谱区间内提取有效波长。包含变量数的范围为1~12个,根据均方根误差确定选定的最终变量数,图4-a为棉花近红外光谱中选用不同变量数的交互验证预测均方根RMSE,当RMSE取最小值0.248 68时,对应的变量数是8个。用SPA算法对ROI区域的平均光谱进行筛选,结果如图4-b所示,从全波段中提取出的8个特征波长分别为 904.830 02、1 754.28、936.030 03、932.900 02、911.06、1 172.61、907.950 01、942.289 98 nm。考虑到传感器边缘的光谱不能使用,故将边缘光谱剔除,留下5个有效特征波长(分别为936.030 03、932.900 02、911.06、1 172.61、942.289 98 nm) 作为叶面积指数的优选波长组合进行最小二乘法建模,SPA算法选取的波长建立的SPA-PLS模型如图5所示。

3 讨论

经过SPA提取的波长建立的SPA-PLS模型与采用全谱建立的PLS模型结果进行对比,结果如表2所示,比较建模精度和预测能力可知,RMSEP由0.501 22降低到0.294 70,RMSPCV由0.425 33降低到0.294 20,r由0.801 23提高到 0.928 27。试验结果表明,棉花的近红外光谱的谱峰重叠严重,冗余信息多,在全谱区包含大量与叶面积指数无关的信息,将全光谱的所有信息参与建模,使用SPA法剔除大量无用和冗余信息,从全光谱中优选出5个有效特征波长建立SPA-PLS模型,使用的变量数仅占全波段的0.32%,然而RMSPCV和RMSEP却更小更接近,模型对外部样品的预测能力和模型稳定性也都得到了很大的提高,因此SPA-PLS模型的准确度和精度均优于PLS模型。

4 结论

本研究运用近红外光谱仪获取棉花冠层光谱,通过一阶求导方法进行光谱预处理,分辨率和光谱轮廓比原光谱更高更清晰。采用SPA算法对SPXY法划分获得的60个棉花样本进行棉花LAI校正模型的建立及预测试验可以看出,校正样本集的选择和特征波段的选取都会影响模型的预测精度和稳定度。对全光谱使用SPA方法选取的有效特征波长基本上都分布在930、1 100 nm附近,建立的SPA-PLS模型效果明显好于使用全光谱建立的PLS模型。因此,利用SPA可以有效降低光谱矩阵的维数,不仅减小了参与建模的数据规模,而且降低了模型的计算量。

表2 5种预处理方法建立SPA-PLS模型结果综合比较

参考文献:

[1]黄乐珊,李红,孙泽昭. 棉花产业在新疆区域经济中的地位[J]. 新疆农业科学,2006(6):38-41.

[2]杨忠娜,唐继军,喻晓玲. 新疆棉花产业对国民经济的影响及对策研究[J]. 农业现代化研究,2013,34(3):298-302.

[3]刘轲,周清波,吴文斌,等. 基于多光谱与高光谱遥感数据的冬小麦叶面积指数反演比较[J]. 农业工程学报,2016,32(3):155-162.

[4]谢巧云,黄文江,梁栋,等. 最小二乘支持向量机方法对冬小麦叶面积指数反演的普适性研究[J]. 光谱学与光谱分析,2014,34(2):489-493.

[5]Tang H,Brolly M,Zhao F,et al. Deriving and validating Leaf Area Index(LAI) at multiple spatial scales through lidar remote sensing:a case study in Sierra National Forest[J]. Remote Sensing of Environment,2014,143(5):131-141.

[6]姚付启,蔡焕杰,王海江,等. 基于平稳小波变换的冬小麦覆盖度高光谱监测[J]. 农业机械学报,2012,43(3):173-180.

[7]高洪智,卢启鹏,丁海泉,等. 基于连续投影算法的土壤总氮近红外特征波长的选取[J]. 光谱学与光谱分析,2009,29(11):2951-2954.

[8]张怀志,曹卫星,周治国,等. 棉花适宜叶面积指数的动态知识模型[J]. 棉花学报,2013,03(09):151-154.

[9]柏军华. 基于LAI的棉花产量近地遥感模型研究[D]. 石河子:石河子大学,2005:67-80.

[10]Kennard R W. Stone L A.computer aided design of experiments[J]. Technometrics,1969,11(1):137-148.

[11]展晓日,朱向荣,史新元. SPXY样本划分法及蒙特卡罗交叉验证结合近红外光谱用于橘叶中橙皮苷的含量测定[J]. 光谱学与光谱分析,2009,29(4):964-968.

[12]Brègman L M. Finding the common point of convex sets by the method of successive projections[J]. Akademiia. Nauk SSSR Doklady,1965,162(3):487.

[13]Galvão R H,Araújo M U,Fragoso W D,et al. Chemometrics and intelligent laboratory systems[Z]. 2008:83.

[14]刘姣娣,曹卫彬,马蓉. 棉花叶面积指数的遥感估算模型研究[J]. 中国农业科学,2014,12(25):4301-4306.

[15]陆婉珍,袁洪福,徐广通,等. 现代近红外光谱分析技术[M]. 北京:中国石化出版社,2000.

猜你喜欢
冠层叶面积波长
HPLC-PDA双波长法同时测定四季草片中没食子酸和槲皮苷的含量
基于低空遥感的果树冠层信息提取方法研究
基于激光雷达的树形靶标冠层叶面积探测模型研究
作物叶面积测量的研究进展
安徽省淮南森林冠层辐射传输过程的特征
马奶子葡萄叶面积评估模型的建立
双波长激光治疗慢性牙周炎的疗效观察
施氮水平对冬小麦冠层氨挥发的影响
日本研发出可完全覆盖可见光波长的LED光源
苎麻叶面积测定方法比较研究