关键词:
浑浊水体
纯谱判别
模式识别
水色遥感
太湖
摘要:
水体光谱与水色参数密切相关,基于水体光谱可以反演估计水色参数的浓度。叶绿素a(Chla)浓度是富营养化湖泊水体水质监测的一个重要参数,通过遥感数据反演水体Chla浓度是水质监测的重要手段。浑浊水体光学特性复杂多变,受调查区域和时间的限制,建立反演模型的光谱与后来水体监测获取的光谱之间往往存在较大差异,进而影响了反演模型的监测应用。本质上,水面之上测量的水体光谱是水体中各组分光谱的综合,属于混合光谱。基于此观点,有学者将图像光谱解混法应用到了水体光谱解混,然后进行Chla浓度的反演估计,这些研究通过算法估计或人为指定的方式确定水体光谱的端元。本文引入“纯谱”的概念,试图通过特定的判别方式寻找水体中的“纯谱”,为光谱解混中端元光谱的选择提供参考。如果没有特别说明,论文中的“纯谱”特指浑浊水体中浮游藻类控制水体(非湖泊水华)的光谱,用于Chla浓度遥感反演。具体而言,纯谱指Chla浓度远高于无机悬浮物(ISS)浓度的水体的光谱,其中,浮游藻类占绝对主导地位,ISS和有色可溶性有机物(CDOM)的光学特性对光谱的贡献可以忽略。论文是在国家自然科学基金项目“面向二类水体叶绿素a浓度遥感反演的光谱纯化研究”下开展的研究。太湖是典型的浑浊水体,论文基于2010-2017年14期太湖水体的野外实测数据和室内实验数据进行纯谱的判别。以2017年之前的数据作为建模集,2017年的数据作为测试集。根据纯谱的定义,将建模集和测试集的光谱分为三类(纯谱、混合谱Ⅰ和混合谱Ⅱ)。通过分析纯谱的光谱特性,提取了 21个特征,使用特征选择方法确定了最佳的特征。在此基础上,采用多种判别方法对建模集光谱进行纯谱判别,对比分析判别结果的差异和稳定性,确定了最佳的判别方法,并用测试集进行了验证。主要研究内容和结论如下:(1)纯谱的特征在水体中,由于藻类主导,与Chla相关的纯谱在光谱曲线的440nm、550nm、625nm、675nm及700nm附近的峰谷特征明显,呈现出双峰或三峰,纯谱的整体遥感反射率值较低,均不高于3%。通过计算机规则和已有研究成果进行特征选择,表明已有研究成果确定的特征更具有参考价值。提取了 21个光谱特征,选择后确定使用的特征为:550-700nm连线的斜率(Slope(550-700))、675nm附近反射谷的数值(R(675))、675nm附近的反射谷谷底至700nm附近的反射峰峰顶连线的距离(Dpv(675-700))、625nm附近反射谷的数值(R(625))。(2)浑浊水体中纯谱的判别以4个特征作为输入,采用分类学习器(包括分类与回归决策树(CART)、反向传播神经网络(BP)、支持向量机(SVM)、袋装决策树(BT)、加权K近邻(WKNN)等)和模糊模式识别方法(FPR)进行纯谱判别。结果表明,CART的纯谱查准率为100%,查全率为88%,会产生漏判;BP的纯谱查准率为100%,查全率为75%,会产生漏判,且对训练样本的依赖性高,多次重复试验才能得到较好的训练模型;SVM的判别精度最差,纯谱查准率为80%,查全率为50%,会产生漏判和错判;FPR的纯谱查准率和查全率均为100%,但对特征阈值的设定依赖性高,且对输入特征的顺序敏感;BT和WKNN的纯谱查准率和查全率也均为100%。舍弃精度最差的SVM判别,通过投票综合其他方法的标识作为最终的判别结果,得到的结果与定义的纯谱保持一致。(3)纯谱判别方法的稳定性通过光谱加噪模拟噪声的影响,分析判别方法的稳定性。统计表明,在4个特征波段上的野外重复测量反射率的均值μ为2.72×10-2,标准差σ为4.13×10-4,建模集中的纯谱叠加2倍标准差的高斯白噪声,将加噪后的数据作为输入进行计算。结果表明,FPR和BT抗噪性最强,其余方法的抗噪声从高到低依次为:CART、WKNN、BP。采用随机森林算法对4个特征进行重要性评价,表明R(625)的重要性较低,以其余3个特征作为输入,重新建立模型,结果表明输入特征的减少没有对CART、BT和WKNN产生影响,但BP和FPR的结果产生了变化。综合来看,FPR、BT和WKNN表现出更好的性能,可以认为是较佳的纯谱判别方法。以2017年的数据作为测试集对FPR、BT和WKNN模型进行验证。FPR模型的纯谱查准率和查全率均为100%,验证精度与模型精度一致。BT和WKNN模型具有相同的纯谱查准率和查全率,为100%和67%,会产生纯谱漏判,观察二者对另外两类光谱的判别精度,查全率均为100%,查准率也保持在96%以上,故仍认为BT和WKNN模型具有较高的验证精度。论文的结果表明,可以应用模式识别方法进行太湖水体的纯谱判别,判别结果具有较好的精度和稳定性。论文的方法和结果可为水体光谱解混过程中端元光谱的选取提供参考,进而服务于光谱去噪、纯化和浑浊水体的叶绿素