关键词:
肺肿瘤
激光诱导击穿光谱技术
机器学习
反向传播神经网络
摘要:
肺癌是我国乃至全世界发病率和死亡率较高的恶性肿瘤之一,其早发现、早诊断、早治疗可以显著提高肺癌患者的预后,有效降低死亡率。本文采用激光诱导击穿光谱技术(laser-induced breakdown spectroscopy,LIBS)结合机器学习算法用于诊断和鉴别裸鼠肺肿瘤和肌肉组织。实验过程使用波长532 nm、能量40 mJ的激光器对200个裸鼠切片样本(100个肺肿瘤、100个肌肉组织)进行光谱差异性探究,并采用适合数据特征的机器学习算法,用于肺肿瘤和肌肉组织的分类诊断。通过样本的光谱波峰特征选取16条强元素谱线作为机器学习算法的特征向量,比较K-最近邻(k-nearest neighbor,KNN)、支持向量机(support vector machine,SVM)、反向传播神经网络(back propagation neural network,BPNN)算法的分类精度,并选出最优分类算法;然后基于变量重要性排序,采用随机森林(random forest,RF)算法,选取高于可变重要性平均值的变量作为最优分类算法新的特征向量。通过五折交叉验证,指标包括准确率、灵敏度、特异性、受试者工作ROC曲线(receiver operating curve)以及曲线下面积AUC值(area under curve)来对模型进行评价。结果表明:(1)对比LIBS光谱图发现肺肿瘤组织和正常肌肉组织光谱种类相似,均包含有金属元素、非金属元素和分子键的特征信息。(2)在KNN、SVM、BPNN 3种算法的比较中,BPNN模型为最优分类器,其准确率、灵敏度、特异性分别达到91.67%、97.1%、84.6%,AUC值为0.924。(3)RF重要性选择后的变量由16个减少到了7个,解决了高维数据特征冗余的问题。(4)将RF算法与BPNN分类器结合后,RF-BPNN的分类准确率、灵敏度、特异性分别提高到了96.7%、100%、94.1%,AUC值为0.964。