关键词:
心血管代谢性共病
LASSO回归
随机森林算法
合成少数样本过采样方法
摘要:
目的 基于LASSO回归和随机森林算法分析心血管代谢性共病(cardiometabolic multimorbidity,CMM)的危险因素,为临床决策提供依据。方法 基于中国健康与养老追踪调查(China health and retirement longitudinal study,CHARLS)2011―2020年随访14 358名≥45岁人群的数据,通过LASSO回归和随机森林的特征重要性评估进行变量筛选后,将研究对象按8∶2的比例随机分为训练集和测试集,利用合成少数样本过采样方法(synthetic minority over-sampling technique,SMOTE)将训练集调整为平衡数据集,应用随机森林算法构建疾病预测模型,应用网格搜索和5折交叉验证优化预测模型。采用敏感性分析保证模型的稳健性。结果 该预测模型的准确率达到99.46%,召回率达到69.03%,F1得分为0.82,平均曲线下面积为0.93,敏感性分析显示,模型具有良好稳健性。性别、年龄、腰围、职业、教育程度、空腹血糖、不良行为生活方式、基线自报疾病、风速、使用不清洁能源等可作为CMM的发病预测因素(均P<0.05)。结论 本研究成功构建了CMM的预测模型,发现多种危险因素与CMM发生相关,为临床医生在CMM高危群体中实施早期干预提供科学依据。