关键词:
数据挖掘
增强
增强数据
过采样
欠采样
分类
摘要:
在数据挖掘中,数据不平衡是世界上普遍存在的问题。然而,对不平衡数据进行分类的问题在不同部门中不时增加。为了克服一些标准的不平衡数据技术无法准确平衡多数类和少数类的挑战,用于不平衡数据分类的基于增强的合成采样(ABS)被提出了。ABS方法连接特征并增加现有样本的样本数量以生成合成数据。本文的主要研究贡献为:(1)本论文通过建模将输入数据与训练好的特征串联起来,确定输入数据中特征之间的关系,得到训练样本特征作为权重。为了将输入数据与训练好的特征进行拼接,并找出特征之间的关系,本文提出了一种基于增强的合成采样方法,通过拼接各种特征,使特征表征每个数据样本。首先,本文将输入数据集作为标签和特征插入,对模型进行训练,得到训练样本特征作为输出。其次,本文将训练特征和输入数据集连接起来。最后,本文得到训练样本特征作为输出结果。主要目标是创建与各种特征的关系并增强特征以提高算法的性能。(2)本论文使用样本替换方法,从训练样本特征中随机选择样本特征值,放大合成数据的多样性,生成临时合成数据。首先,本文取样本值,随机样本一个是第一个特征的值。其次,这项工作实现了采样过程,以获取临时合成数据值的下一个样本特征值,直到样本特征值。最后,本文生成临时合成数据。本论文使用具有替换方法的样本生成临时样本数据。目的是增加数据的多样性。(3)本论文通过建模将临时采样数据与少数数据连接起来,创建模拟实际观察特征之间关系的合成数据,以预测最终合成数据的特征。本论文使用模型将少数数据与临时数据连接起来,以预测合成数据。当特征分类器和临时人工数据集可用时,最后阶段涉及使用连接的少数数据和连接的临时合成样本数据作为输入数据来估计最终合成数据集的特征。目标是使合成数据再现具有真实观察的特征关系。(4)此外,ABSBoost是所提出的方法和提升技术的混合体。在不平衡问题方面,混合对比了两种最先进的基于集成的方法的性能。通过集成训练方法解决类不平衡问题很普遍,本文将提出的ABS与boosting方法相结合,创建了一种称为ABSBoost的方法。执行ABS是为了在分类器训练的每次迭代中增加少数样本,因此每个弱学习器都在一个合理平衡的子集上进行训练。本论文将ABSBoost与最先进的基于集成的方法进行比较,包括RUSBoost和Under Bagging。与之前的研究相比,这项研究显示了所提出的方法和AUC的平均值(曲线下面积)在实验时能生成良好数据样本的能力。根据实验结果,所提出的方法优于现有方法。因此,实验结果表明,所提出的ABS方法和ABSBoost在给定数据集上是有效的。