关键词:
不平衡数据
类别不平衡学习
集成算法
权重采样
随机数据块
摘要:
在大量的真实问题中,数据集往往是类别不平衡的,很可能会削弱学习算法的性能。为了处理不平衡数据集,业界提出了各种类别不平衡学习算法,其中包括不少集成算法。然而,这些集成算法主要考虑在样本层面进行集成而忽视了特征层面,且常规的随机采样算法未能重点关注边界区域,此区域通常是分类困难样本。鉴于此,提出一种名为BRPE的集成采样算法进行优化。首先,对特征集进行采样;其次,以多数类样本距离少数类样本的最近距离作为权重对多数类样本进行下采样,得到一个平衡的随机数据块并将其作为训练子集;再次,在训练子集上训练一个基学习器;最后,将所有基学习器的输出组合成预测结果。在10个合成数据集和8个真实数据集上均进行了详细实验。结果表明,相比其他4种不平衡集成分类算法,BRPE能够取得更高的F1和AUC值。