关键词:
多视图聚类
子空间聚类
图学习
低秩张量
抗噪性
摘要:
智能设备的广泛使用和互联网的普及产生了大量高维度、高复杂度、多来源的数据。如何从这些较为复杂的数据中提取有用的信息成为一个重要的问题。多视图聚类是一种集成多个数据视图的聚类方法,旨在利用多源数据的丰富性和多样性来提高聚类的准确性。而张量作为高阶的矩阵,在表示复杂数据方面具有天然优势。基于张量的多视图聚类的关键思想是利用张量分解技术,将高维张量分解为低秩张量表示,从而实现数据的降维和特征提取。通过对低秩张量的分解和重构,可以有效地捕获不同视图之间的相关性和交互信息,从而更准确地刻画数据的内在结构和聚类模式。与传统的单视图聚类方法相比,基于张量的多视图聚类可以整合来自不同数据源或不同特征空间的信息。然而,当前张量多视图聚类仍然存在一些问题,限制了其性能的发挥。针对当前张量多视图聚类算法存在的问题,本文分别从图学习方向和子空间学习方向,使用张量分解作为基础技术,从高阶信息获取、非线性结构提取、源空间流形结构保持、抗噪性范数等角度提出改进模型和优化策略。具体研究内容如下:
(1)当前的大部分图学习多视图聚类方法存在以下问题:在表示样本间相似性时,普遍采用欧式距离,无法提取非线性流形结构;使用硬聚类方法,把每个数据点视为完全隶属于一个簇,不利于处理复杂分布数据;忽视视图间的高阶信息。针对以上问题,本文提出了一种低秩张量约束的图模糊多视图学习方法(Low-rank Tensor Regularized Graph Fuzzy Learning for Multi-view Data Processing,LRTGFL),该方法使用Jensen-Shannon散度来表示样本间的相似性;此外,该方法在聚类中引入模糊化方法,使其成为一种软聚类方法;另外,该方法使用基于张量奇异值分解的张量核范数保持相似张量的低秩性,提取高阶的结构信息。在此基础上,本文使用交替方向乘子法(Alternating Direction Method of Multiplires,ADMM)优化所提出的模型。在八个公开数据集上的大量实验证实了该方法的优越性能。
(2)当前的大部分子空间多视图聚类方法存在以下问题:忽视了局部的流形结构信息;忽视了不同视图间的一致性;以及忽视了高阶信息,或者使用基于张量奇异值分解的张量核范数,这种范数忽视了不同奇异值之间贡献度差异。针对以上问题,本文提出了一种具有图和一致性约束的非凸低秩张量逼近的多视图子空间学习方法(Nonconvex Low-rank Tensor Approximation with Graph and Consistent Regularization for Multi-view Subspace Learning,NLRTGC),该方法使用一种非凸张量核范数,即基于不同奇异值之间的贡献度差异,对于不同的奇异值分配不同的权重;此外使用图正则保留来自源空间的流形结构信息;并通过一种自适应方法,最小化不同视图表达矩阵间的距离,对一致性较强的视图赋予较大的权重,从而增强视图间一致性。本文使用交替方向乘子法优化该模型。在多个数据集上进行的大量实验,证实了该方法具有一定的抗噪性和较优的聚类性能。
(3)第二部分的算法虽然解决了张量多视图聚类中的一些问题,提升了聚类性能,但是还有两点问题没有得到解决。首先,虽然常用的l2,1范数增强了聚类的抗噪性,但它仍然容易受到高强度噪声的影响。其次,当前大部分多视图聚类方法忽视了数据点之间的几何流形结构,或者只能提取数据点之间的二元关系。因此,为了解决这些问题,并增强高强度噪声条件下和真实条件下的聚类性能,本文提出了一种具有抗噪性的基于超图嵌入和非凸低秩张量逼近的多视图子空间聚类方法(Error-robust Multi-view Subspace Clustering with Nonconvex Low-rank Tensor Approximation and Hyper-Laplacian Graph Embedding,EMSC-NLTHG)。具体而言,该方法引入了柯西损失函数来降低对较大噪声和异常值的敏感性。基于柯西函数,本文开发了柯西伪范数来表示聚类中的重构误差,增强抗噪性。此外,该方法将超图嵌入到每个视图的表达矩阵上,挖掘数据中的复杂多元关系,更好地保持局部几何流形结构。最后,此方法采用一种非凸张量核范数,基于不同奇异值之间的贡献度差异,对于不同的奇异值分配不同的权重。本文使用交替方向乘子法优化此模型。在八个数据集上进行的大量实验,证实了该方法在高强度噪声情况下的良好抗噪性以及在真实数据集中优越的聚类性能。