关键词:
胆总管结石病
胰胆管造影术
内窥镜逆行
机器学习
预测模型
摘要:
目的鉴于胆总管结石患者治疗决策的复杂性,本研究利用自动化机器学习算法,开发一款能够预测胆总管结石患者自发排石的预测模型及应用程序,从而减少非必要内镜逆行胰胆管造影(ERCP)。方法回顾性收集2022年1月—2024年6月通过影像学手段明确诊断胆总管结石后拟行ERCP取石的患者数据,数据来自常熟市第一人民医院(数据集1)和常熟市中医院(数据集2),共835例。数据集1用于机器学习模型训练、内部验证和开发应用程序,数据集2用于外部测试。纳入22个潜在预测变量,用于构建和内部验证LASSO回归模型及自动化机器学习模型。通过受试者操作特征曲线下面积(AUC)、敏感度、特异度、准确率等评估模型性能,选取最佳模型。使用特征重要性图、力图和SHAP图对模型进行解释。利用Python Dash库和最佳模型构建Web应用程序,在数据集2上进行外部测试。使用Kolmogorov-Smirnov检验确定数据是否符合正态分布;对于不符合正态分布的连续变量,使用Mann-Whitney U检验进行2组间比较;分类变量通过χ^(2)检验或Fisher精确检验来分析组间差异。结果纳入835例患者中,152例(18.20%)出现自发排石。在训练集(n=588)和验证集(n=171)中,LASSO模型的AUC分别为0.875、0.864,重要性排名前5的预测因素为单发胆总管结石、胆总管不扩张、胆总管结石直径、血清ALP降低和GGT降低。通过自动化机器学习构建了55个模型,其中梯度提升机(GBM)表现最佳,其AUC为0.891,95%CI为0.859~0.927,优于极端随机树(XRT)、深度学习(DL)、广义线性模型(GLM)和分布式随机森林(DRF)模型。在测试集(n=76)中,GBM模型的预测准确率、敏感度和特异度分别为0.855、0.846和0.857。变量重要性分析显示,单发胆总管结石、胆总管不扩张、胆总管结石直径<8 mm、血清ALP降低和GGT降低这5个因素对预测自发排石具有重要影响。基于GBM模型的SHAP图分析显示,当患者出现单发胆总管结石、胆总管不扩张、胆总管结石直径<8 mm、血清ALP及GGT降低时,出现自发性排石的概率明显增加。结论基于自动化机器学习算法构建的GBM模型及应用程序,在预测胆总管结石患者自发排石方面展现出良好的预测性能和使用便捷性。该应用程序能够帮助避免非必要的ERCP,从而降低手术风险和医保支出。