关键词:
预测模型
缺失填补
随机森林
贝叶斯网络
摘要:
目的评估并改进缺失数据处理方法,提升二分类结局预测模型性能。方法模拟数据缺失场景,通过预测模型的ROC AUC及均方根误差(RMSE)共同评估直接剔除、均值填补、随机森林填补、多重填补对预测模型性能的影响,并将贝叶斯网络引入随机森林填补算法,利用变量间相关性进行填补方法的优化。结果不同缺失占比下,通过AUC及RMSE均可得出贝叶斯网络优化随机森林填补算法效果最佳。此外,在缺失占比为10%~20%时,各种填补方法对预测模型的性能提升效果大体相同;当缺失占比为30%~40%时,相较于均值填补,除贝叶斯网络优化随机森林填补算法外,随机森林填补更好,其效果略优于多重填补;当缺失占比接近50%时,即使模型性能依旧较好,但填补数据逐渐偏离真实数据特征,模型的可用性下降。结论贝叶斯网络优化随机森林填补算法总体效果较好,当随机缺失占比30%~40%时可优先考虑。