关键词:
特征选择
流特征
稳定性
集成学习
极限学习机
摘要:
特征选择是数据挖掘预处理阶段中的重要组成部分,旨在从原始数据集中选择出最相关的特征子集。传统的特征选择方法假设数据集是静态不变的。然而,在实际应用中,数据可能是动态生成并被处理的。为此,针对特征以流的方式逐个生成的在线流特征选择方法应运而生。目前,大多数研究者所提出的在线流特征选择方法主要关注可扩展性、高准确性和低时间开销,而忽视了算法的稳定性。稳定的特征选择结果才能有效增强用户对算法的可信度,使其具备实用价值。针对在线特征选择算法的稳定性问题,基于多层次集成学习策略,提出了一种新的流特征在线稳定选择算法框架(Multi-level Ensemble Learning Stream Feature Selection,MESFS)。具体来说,在数据集层面采用极限学习机(Extreme Learning Machine, ELM)对样本进行分组和映射来提高算法的准确性;在特征选择层面通过多次迭代和自适应调整阈值的策略对特征进行权重计算和选择,以减少特征选择结果的波动性和随机性。选取4种传统静态特征选择算法和5种先进的在线流特征选择算法,在UCI、ARFF以及NIPS等12个公开数据集上进行了大量实验对比,结果表明所提出的方法可以在训练数据扰动下取得优秀的预测精度和稳定性平衡。