关键词:
PM_(2.5)
缺失值重构
日周期性
集成机器学习
空气污染
时空插值
时空异质性
摘要:
完整的PM_(2.5)时空数据集是实现大气污染防治的关键。然而,实时获取的PM_(2.5)数据集容易受机器故障、人为失误、大气等因素影响普遍存在缺失。针对现有缺失值重构方法未能充分顾及PM_(2.5)日周期性及其与影响因子之间的复杂关系等问题,本文提出了一种顾及日周期性的PM_(2.5)站点缺失值重构方法(Daily Periodicity-Based Spatial-Temporal Interpolation,DP-STF)。DP-STF首先以日观测数据为处理单元基于时空相关性对缺失位置筛选最优时空邻域,然后利用P-BSHADE(Point Estimation Model of Biased Sentinel Hospital-based Area Disease Estimation)顾及时空异质性以迭代方式对缺失数据进行时空初始估计,最后利用Stacking集成机器学习拟合PM_(2.5)与其影响因子的复杂时空非线性关系,并用于缺失PM_(2.5)数据估计。以京津冀2020年小时尺度PM_(2.5)站点数据为研究对象,利用DP-STF方法对缺失数据重构并与7种经典方法对比。实验结果表明:相比传统方法,DP-STF精度最优,其平均RMSE、MAE至少降低了39.83%、40.12%,R^(2)至少提高了5.56%。此外,DP-STF还能够有效捕捉PM_(2.5)极值,极大提升了在时空非平稳区的预测精度。