关键词:
过拟合
约束随机森林
贝叶斯优化
日光诱导叶绿素荧光
小麦条锈病
模型精度
摘要:
为了改善小样本数据的过拟合问题,提高小麦条锈病遥感监测模型的泛化能力和预测精度,以2018年河北省中国农业科学院实验站获取的冠层日光诱导叶绿素荧光(Solar-Induced Chlorophyll Fluorescence,SIF)为数据源,利用代价复杂性剪枝(Cost-Complexity Pruning,CCP)算法对随机森林回归(Random Forest Regression,RFR)方法进行剪枝约束,并结合贝叶斯优化(Bayesian Optimiazation,BO)算法对随机森林回归进行超参数选取,构建了基于约束随机森林回归(Constrained Random Forest,CO-RFR)算法小麦条锈病严重度预测模型,并将其与分类回归树(Classification And Regression Tree,CART)算法、传统RFR算法以及多元线性回归(Multiple Linear Regression,MLR)方法构建的小麦条锈病遥感监测模型精度进行比较。结果表明:(1)CORFR模型的估测精度最高,更适合于小样本数据下的小麦条锈病遥感监测。其中,在验证数据集中CO-RFR模型预测病情严重度(Severity Level,SL)和实测SL间的平均RMSE比RFR、CART和MLR模型分别减少了43%、50%和40%,平均R2分别提高了56%、47%和40%。(2)增加约束条件能够有效改善模型的过拟合现象,提高模型的泛化能力。其中,RFR模型训练集预测SL值和实测SL值间的平均RMSE较验证集减少了62%,表明模型训练集精度远高于验证集,模型出现过拟合,而CO-RFR模型训练集预测SL值和实测SL值间的平均RMSE较验证集减少了8%,表明模型拟合效果较好,过拟合现象得到明显改善。该研究对提高小样本数据下的小麦条锈病病情严重度的遥感预测精度具有重要意义,同时亦为其它作物的胁迫监测提供了应用参考。