摘要:
【目的】针对不平衡数据分类问题,当前集成算法领域已探索出结合代价敏感与重采样技术的混合策略,作为一类有效的解决方案。然而,既有的这些混合策略在执行过采样步骤及评估误分类代价时,往往未能充分考虑样本在类内的多样性及其类间边界的复杂性,这在一定程度上削弱了分类的准确度。为此,本文提出了一种创新的分类算法—DPCCSBoost,该算法融合了密度峰值聚类与代价敏感学习的精髓,旨在通过更精细地识别与利用数据特性,来提升在不平衡数据集上的分类性能。【方法】首先,针对密度峰值聚类算法(density peaks clustering DPC)存在最佳截断距离取值差异过大以及类簇中心失真、进而导致过采样时过拟合等问题,提出相对K近邻局部密度的概念,对DPC算法进行改进,优化了类簇密度对类簇核心位置的调控。其次,运用优化的密度峰值聚类技术处理少数类别数据,自动识别最优子簇数目,进一步依据相对K近邻的局部密度赋予各子簇权重,依此计算每个子簇的过采样量,从而为少数类合成新样本。最后,针对现有集成分类算法中误分类代价仅考虑样本的类间差异,而忽略同类样本内部之间差异的问题,对误分类代价重新定义,避免了局部中心点误分类代价计算失真,再将代价矩阵引入到样本权重更新,给出了改进后的集成分类器。【结果】实验表明,与现有的AdaBoost、AdaCost、USCBoost、RUSBoost、SMOTEBoost和PCBoost算法相比,DPCCSBoost算法在针对10个KEEL数据集的测试中,其综合性能指标F值、G值及AUC值均实现了显著优化,最高增幅分别达到15.72%、13.00%与28.19%,具有更优的分类效果。【结论】由此可见,该算法能有效提升不平衡数据的分类性能,提高分类精确度,为不平衡数据分类任务带来更为可靠和高效的解决方案。