关键词:
人工智能
非平衡数据
邻近加权合成过采样技术
过采样方法
k近邻分类器
神经网络
摘要:
针对邻近加权合成过采样技术(proximity weighted synthetic oversampling technique,ProWSyn)在合成样例时未删除噪声样例,且当平滑因子在[0,1]区间取值时,权重比例难以覆盖整个搜索空间的缺陷,提出一种改进的邻近加权合成过采样技术(improved proximity weighted synthetic oversampling technique,IProWSyn).改变权重的计算策略,引入底数为(0,1]的普通指数函数,通过动态改变底数令权重覆盖更大范围的搜索空间,进而找到更优的权重.将IProWSyn、ASN-SMOTE和ProWSyn应用在非平衡数据集ada、ecoli1、glass1、haberman、Pima和yeast1上,再使用k近邻(k-nearest neighbors,kNN)分类器和神经网络分类器检验方法的有效性.实验结果表明,在多数数据集上IProWSyn的F1、几何平均值(geometric mean,G-mean)和曲线下面积(area under curve,AUC)指标性能都高于其他过采样方法.IProWSyn过采样技术在这些数据集的综合分类效果更好,有更好的泛化表现.