关键词:
多视图子空间聚类
子空间表示
张量表征学习
低秩表示
交替方向乘子法
摘要:
随着互联网和传感器技术的发展,多媒体数据已经由单一特征描述演变成多种特征描述的多视图数据。例如,人脸图像在小区安防应用中被自然图像和红外图像同步描述;现场图像、视频直播画面和文字报告被用来详细地报道新闻事件。由于多视图数据的流行和标签信息获取困难,多视图聚类被广泛应用于无监督知识发掘中以发现数据底层相关性从而提升多媒体数据的应用潜力与前景。多视图数据包含了视图间的异构特性和潜在的关联性,因此如何获取多个视图间的互补和共识信息是多视图聚类的核心问题。近年来,基于图论的多视图聚类因其理论保证和性能表现成为多视图聚类的主流方法之一。最具代表性的是基于低秩表征学习的多视图子空间聚类方法,它通过低秩约束学习自表示系数,然后采用绝对对称化算子获取相似度矩阵,最终将其输入谱聚类算法中得到聚类结果。在实际应用中,相似度矩阵直接决定了聚类的性能。然而,相似度矩阵的质量受多视图数据中复杂噪声、非线性结构和高维等因素的影响。针对以上问题本文探索了低秩张量表征学习方法以获取视图的高阶相关性,从损失函数和正则项设置两个方面围绕如何提升模型的噪声鲁棒性,如何保留视图的局部结构信息以及如何提升模型的聚类效率三个问题进行研究。本文的主要贡献如下:(1)围绕如何提升模型的噪声鲁棒性,本文从马尔科夫链和熵度量的角度设置损失函数,分别提出了误差鲁棒的低秩张量近似多视图子空间聚类方法(Error-robust Low-rank Tensor Approximation for Multi-view Subspace Clustering,ELRTA)和加权误差熵与低秩张量学习多视图子空间聚类方法(Weighted Error Entropy and Low-rank Tensor Learning for Multi-view Subspace Clustering,WETMSC)。ELRTA首先通过马尔科夫链与谱聚类的联系计算转移概率矩阵,然后构造转移概率张量并将其分解为具有张量核范数约束的干净张量和误差张量。此外,ELRTA通过组稀疏范数对误差张量进行噪声编码,以清楚地表征和处理多种类型的噪声。不同于ELRTA仅简单地假设噪声服从独立同分布(independent and identically distributed,i.i.d.),WETMSC假设噪声服从独立分段同分布(independent and piecewise identically distributed,i.p.i.d.)并采用加权误差熵表征潜在的复杂噪声。WETMSC从视图维度将所有自表示矩阵构造为自表示张量,并通过张量核范数约束保留视图间的高阶相关性。优化模型ELRTA和WETMSC的求解由交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)实现。真实数据集上的对比实验结果表明ELRTA和WETMSC与先进的聚类方法相比很大程度上克服了弱鲁棒性问题。(2)围绕如何保留视图的局部结构信息,本文从超图和非凸优化的角度设置正则项,提出了超拉普拉斯正则的非凸低秩张量表示多视图子空间聚类方法(Hyper-Laplacian Regularized Nonconvex Low-rank Tensor Representation for Multi-view Subspace Clustering,HNLR)。不同于利用拉普拉斯正则度量局部样本成对相关性的方法,HNLR构建超图并利用超拉普拉斯正则度量局部多个样本间的相关性,以捕获每个视图的高阶局部几何结构。此外,考虑到核范数带来的有偏估计问题,HNLR利用非凸拉普拉斯函数代替核范数以提高模型对视图的全局低秩结构的近似性能。本文设计了一种有效的交替迭代策略求解HNLR模型。真实数据集上的实验结果验证了HNLR的聚类优势,尤其是面对具有非线性结构的多视图数据时,HNLR的聚类优势更加明显。(3)围绕如何提升模型的聚类效率,本文从非凸优化和张量分解的角度设置正则项,提出了双核张量Schatten-p范数最小化多视图子空间聚类方法(Bi-Nuclear Tensor Schatten-p Norm Minimization for Multi-view Subspace Clustering,BTMSC)。BTMSC通过非凸Schatten-p范数及其等价分解形式学习低维的低秩表示张量,以高效探索视图间的高阶相关性及全局结构信息。具体地,BTMSC将自表示矩阵张量化并利用非凸Schatten-p范数的等价分解形式将其分解为两个小维度张量,使得自表示张量的非凸低秩约束被分解为两个核范数之和。最后,本文设计了一种高效的交替迭代策略求解BTMSC模型。真实数据集上的广泛实验验证了BTMSC相较于先进聚类