关键词:
浸润性肺腺癌
机器学习
生物标志物
风险评估模型
列线图
摘要:
目的 确定肺腺癌(lung adenocarcinoma,LUAD)预后生物学标志物,并据此建立LUAD预后的预测模型。方法 从UCSC数据库获取癌症基因组图谱(TCGA)LUAD基因表达量和临床病理数据,把纳入的数据进行综合生物信息学分析,包括差异表达基因(differentially expressed genes,DEGs)筛选、基因本体(GO)功能富集分析、京都基因与基因组百科全书(KEGG)分析和基因集富集分析(GSEA)。采用Cox分析和最小绝对值收缩和选择算子(least absolute shrinkage and selection operator,LASSO)回归分析构建基因组的风险评估预测模型,并采用列线图预测患者1年、2年、3年、5年和10年生存率。绘制Kaplan-Meier生存曲线、受试者工作特征(receiver operating characteristic,ROC)曲线和时间依赖性ROC曲线评价模型的预测能力。在验证组中校验模型。结果 浸润性LUAD患者不同级别病理亚型间DEGs富集分析结果显示,280个DEGs主要参与细胞色素P450相关物质代谢、自然杀伤细胞介导的免疫反应、抗原的呈递和酶活性调节等生物学过程,与肿瘤的发生、发展密切相关。构建5个基因(MELTF、MAGEA1、FGF19、DKK4、C14ORF105)组成的风险预测模型,Cox分析和LASSO回归显示,模型的ROC曲线下面积(area under the curve,AUC)值为0.675,时间依赖性ROC曲线1年、3年、5年AUC值分别为0.893、0.713、0.632,表明该预测风险模型具有良好的敏感性和特异性。在验证组中,校准曲线和一致性指数(C指数)也表明构建的列线图预测性能较好。结论 5个基因组成的预测模型可作为LUAD患者生存率实用和可靠的预测工具,这可能有助于制定个体化治疗的临床决策,为患者预后预测提供一种新方法。