关键词:
不完全多视图聚类
图学习
低秩张量
缺失视图推断
张量子空间学习
摘要:
网络时代和信息采集技术的快速发展产生了海量的多视图数据集。如何对多视图数据集进行有效的聚类分析是当前研究的热点。现有的多视图聚类算法通常假设样本在各个视图下均是完整的。然而,在实际应用中,由于设备限制或其他不可控因素,视图中的特定样本可能存在缺失。为应对不完全多视图数据的场景,近年来涌现出许多不完全多视图聚类算法,但仍存在一些亟待解决的问题。例如,数据采集过程中往往会采集到一定的噪声,这不可避免地影响后续的聚类性能。其次,部分方法只能处理两个视图且具有配对样本的情况,导致模型的泛化能力较差。此外,现有方法大都未考虑视图间及样本间存在的高阶相关性,无法得到最佳的聚类结果。针对上述问题,本文提出了三个通用的不完全多视图聚类框架,主要研究内容概括如下:
(1)本文提出了一个通用的不完全多视图聚类的广义高阶框架。该模型首先利用鲁棒主成分分析学习每个视图的鲁棒表示。为了探索视图之间的高阶关系,将特定于视图的谱嵌入叠加到具有低秩约束的三阶张量中。通过在全局范围内扩散来自每个视图的高质量可用数据的互补信息,该框架能够减轻数据噪声的不利影响,并揭示潜在的共同簇结构。本文提出了一种有效的迭代优化策略来求解该模型。在七个数据集上的实验结果表明,该模型在不同的缺失多视图聚类场景下均能取得优异的性能。该工作为不完全多视图聚类提供了一个通用框架,既缓解了噪声的影响又探究了视图间的高阶相关性。
(2)本文提出了一个基于鲁棒高阶图学习的不完全多视图聚类模型。该模型首先采用鲁棒主成分分析从原始可用数据中获取鲁棒表示,然后将该表示用于局部流形学习。随后,模型将从局部相似性图生成的特定视图的基本分块表示进行对齐,并优化完整的相似性图学习以探索全局相似性结构。为捕获视图之间的高阶关系,模型将所有完整的相似图堆叠成具有低秩约束的三阶张量。因此,该模型可以同时探索局部和全局相似结构,并挖掘高阶视图间的相关性。本文还开发了一种有效的迭代优化策略来求解该方法。在六个基准数据集上的实验结果验证了模型的有效性。
(3)本文提出了一种基于鲁棒张量子空间学习的不完全多视图聚类模型。该模型首先通过矩阵分解恢复视图中的缺失样本,并利用恢复的信息进行潜在表示学习。随后,将从所有视图获得的潜在表示组织成一个三阶张量,并利用张量线性表示捕获样本的内在关系。此外,为了捕获视图间的高阶相关性,本方法进一步在低秩样本系数张量上施加张量核范数。与传统的向量空间学习相比,鲁棒的张量子空间学习可以探究每个视图内以及跨视图间的样本相关性。因此,该模型能够同时处理缺失样本并利用其内在相关性,从而提高了恢复数据的表示能力和质量。在八个数据集上的实验结果表明,该模型优于其他竞争方法。