关键词:
机器学习
孤立森林
异常值检测
养殖尾水
水质预测
摘要:
为解决水质软测量过程中数据失真问题,研究采用孤立森林(isolation forest,IF)算法对水质传感器在线监测数据进行异常值处理,使用递归特征消除(recursive feature elimination,RFE)优化模型变量选择,采用XGBoost算法构建水质预测模型,用于预测经处理后养殖鱼塘尾水出水化学需氧量(COD_(Cr))、总氮(TN)和总磷(TP)。试验表明,XGBoost算法构建的生物净化池COD_(Cr)、TN和TP水质预测模型具有良好的预测性能,各模型决定系数(R^(2))分别达到了0.837、0.804和0.878,平均绝对误差(mean absolute error,MAE)分别为0.679、0.087和0.036,均方根误差(root mean square error,RMSE)分别为0.700、0.105和0.044。同时,使用IF算法对采集到的数据进行异常值识别与剔除后,模型的R^(2)提升至0.875、0.866和0.926,MAE降低至0.658、0.077和0.028,RMSE降低至0.681、0.099和0.035。研究对于发展水质智能软测量技术具有重要的指导价值。