关键词:
机器学习
新型冠状病毒感染
森林图
人工智能
极端梯度提升(XGBoost)
预后
预测模型
摘要:
目的探讨影响新型冠状病毒感染(novel coronavirus pneumonia;别名corona virus disease 2019,COVID-19)重症病人预后的危险因素,建立预测模型并进行验证,进而准确地评估COVID-19重症病人的不良预后。方法收集2022年11月1日至2023年7月1日沧州市中心医院收治的526例COVID-19重症病人的临床指标与结局(院内28 d内死亡或存活)。用于R软件“caret”包,将526例病人按7∶3的比例拆分为两组:训练集(n=369)用于模型训练,测试集(n=157)用于模型验证。利用极端梯度提升(XGBoost)、随机森林(RF)2种机器学习算法构建病人临床结局的预测模型,应用SHAP进行XGBoost模型可解释性分析,分别得出影响病人预后的变量。将RF和XGBoost得出的变量取交集得到差异有统计学意义的变量,进而构建决策树模型。最后,在训练集和测试集上利用受试者操作特征曲线(ROC曲线)、曲线下面积(AUC)评估所决策树模型的预测性能。结果通过XGBoost模型得到与院内死亡相关的变量15个,随机森林模型得到与院内死亡相关的变量23个,两种模型取交集得到13个与院内死亡相关性最强的重要变量(白细胞介素-6、N端脑钠肽前体、白蛋白、超敏肌钙蛋白I、淋巴细胞、血乳酸、α-羟丁氨酸、肌酸激酶同工酶、动脉血氧分压、年龄、尿素氮、血红蛋白、乳酸脱氢酶)。用这13个重要变量构建决策树模型,得出2个与病人死亡最相关的变量(白细胞介素-6、淋巴细胞),死亡组病人的白细胞介素-6为155.48(42.81,691.3)ng/L,显著高于存活组15.38(10.51,31.11)ng/L(Z=37387.50,P<0.001)。死亡组病人的淋巴细胞为5.4(3.3,12.6)%,显著低于存活组13.5(8.62,22.28)%(Z=10584.50,P<0.001)。在训练集上的决策树模型预测COVID-19重症病人死亡的AUC为0.86,在测试集上的AUC为0.84。结论基于XGBoost和随机森林这2种机器学习方法构建的决策树模型能够更准确地评估COVID-19重症病人的不良预后。