关键词:
聚类
密度峰值
k近邻图
相对路径距离
两级分配策略
摘要:
密度峰值聚类(density peaks clustering, DPC)算法简单高效,能够识别任意形状簇,但在处理簇间密度差异大的数据集时,不能准确识别出簇中心.同时,其分配策略可能会导致连续的分配错误.为解决上述问题,提出一种基于k近邻图的密度峰值聚类(kNNG-DPC)算法.首先,算法利用k近邻思想构造k近邻全局图和局部图,并在此基础上提出新的局部密度和相对路径距离,从而保证簇中心选取的正确性;然后,制定一种两级分配策略,对不同密度大小的数据点采用不同的分配策略,以避免出现连续的分配错误.在10个合成数据集和8个真实数据集上,将kNNG-DPC算法与6种优秀的聚类算法进行对比.实验结果表明, kNNG-DPC算法的聚类表现优于对比算法,能获得更好的聚类结果.