关键词:
属性约简
粗糙超立方体
二进制灰狼算法
并行计算
Spark框架
摘要:
随着数据量的爆炸式增长,传统属性约简算法在处理海量数据时效率低下,评价指标单一且容易陷入局部最优,导致属性子集质量不高.为解决这些问题,本文设计一种适用于大数据场景的高效属性约简算法.首先,本文引入了粗糙超立方体方法的3个评价指标用于量化属性之间的关系,对所有待选属性进行综合评估,通过综合考虑这些评价指标得到更为紧凑、更具辨别力的属性子集.其次,本文针对传统启发式搜索策略效率低、容易陷入局部最优的缺点,对二进制灰狼算法进行改进,引入信息素矩阵来引导搜索过程,从而增强算法的搜索能力.信息素矩阵能够提供属性子集的全局信息,帮助算法更好地搜索解空间,从而避免陷入局部最优解.实验表明,本文算法可有效扩展到大规模数据集,在不同数据集的分类任务下取得了显著的性能提升,展现出较强的适应性.