关键词:
噪声鉴别C均值聚类
近红外光谱
无损检测
线性判别分析
摘要:
近红外光谱检测技术可以通过探测近红外区域的光谱特征,反映所测样品内部有机物化学成分和结构信息。在分析物质成分时,近红外光谱通常会涉及到大量的波长数据,因此其维数往往比较高。同时,光谱会出现重叠和冗余等现象,会影响模型的性能。提出一种噪声鉴别C均值聚类(NDCM)算法。NDCM将一种快速广义噪声聚类(FGNC)和模糊线性判别分析(FLDA)相结合,可实现模糊聚类过程中进行数据鉴别信息的提取和数据空间维度的压缩,以达到更高的聚类准确率。对滁菊花茶近红外光谱数据进行模糊C均值聚类(FCM)得到的模糊隶属度和聚类中心作为噪声鉴别C均值聚类(NDCM)的初始模糊隶属度和初始聚类中心,使NDCM具有聚类速度快,准确率高等优点。FCM算法对光谱噪声数据敏感,而NDCM算法在处理含噪声的光谱数据时能够表现出较好的性能。该研究选取特级滁菊、一级滁菊、二级滁菊三种品质等级的滁菊花茶作为实验样本,共计240个样本。实验使用便携式近红外光谱仪(NIR-M-F1-C)采集滁菊花茶的近红外光谱数据。用Savitzky-Golay滤波和多元散射校正(MSC)对滁菊花茶近红外光谱进行预处理,以减少光谱中掺杂的噪声和重叠信息。通过主成分分析(PCA)对采集到的400维光谱数据进行维度压缩降至6维。该研究使用线性判别分析(LDA)提取滁菊花茶光谱数据中的鉴别信息,并将数据空间维度进一步转换为2维。分别用FCM,FGNC和NDCM三种算法对处理后的数据进行聚类分析,以实现对滁菊花茶的准确分类。实验结果显示:当权重指数m=2.5时,FCM,FGNC,NDCM的聚类准确率分别为92.42%,98.48%,100%。NDCM聚类时间略长于FGNC。FCM算法需要进行27次迭代才能收敛,而FGNC算法和NDCM算法分别只需要13次和10次迭代就能达到收敛。采用近红外光谱技术结合MSC、Savitzky-Golay滤波、PCA、LDA和NDCM算法,建立了一种精准鉴别滁菊花茶品质等级的聚类模型。