关键词:
数据挖掘
数据结构
分类算法
强跳跃显露模式
不平衡数据集
摘要:
强跳跃显露模式(Strong Jumping Emerging Pattern,SJEP)是近年来提出的一种具有良好区分能力的区分模式,基于SJEP的分类算法能取得较高的分类准确度,因此SJEP逐渐成为分类算法中一个重要的研究方向。由于目前SJEP的挖掘算法大部分都是基于树结构的,因此造成挖掘算法在时间和空间上消耗较大的问题;同时,在不平衡数据集的领域,SJEP无法表现出在普通数据集中展现出的良好的区分能力,特别是在正类的分类中。因此,本文针对SJEP的挖掘及分类算法进行了相关研究,主要工作如下:针对基于树结构的SJEP挖掘算法存在的时间和空间消耗较大的问题,设计了一种新的数据结构——NSJEP-list,并基于该结构,提出一种新的SJEP挖掘算法一—PPSJEP。该算法首先遍历数据集构建一颗PPSJEP-树,然后构造满足条件的1-项集的NSJEP-lists以代替PPSJEP-树,最后,通过对1-项集的NSJEP-lists的交叉迭代得到更长项集的NSJEP-lists,从而挖掘出所有的强跳跃显露模式。实验表明,基于NSJEP-list的挖掘算法可以有效地过滤掉冗余的JEP,并且,挖掘效率较传统的基于树结构的SJEP挖掘算法更高。在不平衡数据集中,由于从正类样本中挖掘出的模式不仅数量少,而且所对应的支持度也较负类偏小,这使得在分类过程中对正类的分类十分不利。针对这一问题,提出一种扩展的SJEP模式(extend-SJEP),该模式在正类中可以挖掘到一些额外的具有良好区分能力的模式;基于上述模式,提出一种改进的基于SJEP的分类算法,该算法通过对大类和小类分别赋予不同的权值,来降低传统的基于SJEP的分类算法中分类结果过度倾向于大类的问题。实验表明,这种扩展的SJEP模式和改进后的分类算法在类不平衡的情况下都表现出更优的区分能力,特别是在对少数类的分类中。