关键词:
特征提取
非负张量环分解
图约束
鲁棒性
摘要:
随着社会科技的进步信息时代的来临,我们日常生活中产生了越来越多大规模且高维度的数据。这些数据往往具有物理意义,呈现出非负性,我们称为非负张量数据。非负张量数据中有许多有价值的非负信息,因此对非负张量数据进行特征提取是分析与挖掘潜在信息的必要手段。在特征提取领域中,非负张量分解是一种进行特征提取的有效方法,它可以直接对张量数据进行表征,所以被研究人员广泛的使用。但是对于经典的非负张量分解算法来说很难去学习到高维张量数据中的流形结构信息,以至于提取到的特征无法保持数据的流形结构信息,影响到特征提取的性能。另外在现实世界中,数据被噪声污染也是一种常见的现象,噪声会严重地影响传统非负张量分解算法提取特征的判别性。因此,如何有效的处理被污染的非负张量数据,学习高维张量数据中的流形结构信息,是一个棘手的问题。本文在非负张量环分解(Nonnegative Tensor Ring Decomposition,NTR)的基础上进行研究,提出图约束鲁棒非负张量环分解。NTR分解算法具有良好的数据表征能力,可以在一定程度上保留非负张量数据的结构,并且可以较大限度的避免“维度灾难”,但NTR分解算法无法学习高维张量数据中的流形结构信息。考虑到保留数据流形结构能够增强提取特征的判别性,本文联合流形学习技术和NTR分解算法,这样可以使提取到的特征保持数据的流形结构信息,提高整个算法模型特征提取的性能。考虑到现实数据容易受到噪声污染,我们用范数来拟合模型,并由此建立了鲁棒的联合优化函数。基于乘数更新方法,本文对目标函数进行了优化,并将该算法称为图约束非负鲁棒张量环分解算法,文中称为L2,1-GNTR分解算法。各项实验表明,L2,1-GNTR算法能很好的提取出高维数据的低维特征,在受污染的数据集中有较强的鲁棒性,并且具有较好的收敛性和参数不敏感性,有较强的实用性。L2,1-GNTR算法虽然可以很好地提取出高维数据的低维特征,但是其构造的近邻图仍然需要人为选取超参数,有时无法准确的学习高维张量数据中的流形结构信息,这在一定程度上限制了算法的性能和实用性。为了解决这个问题,本文利用多图概念分解替换单图约束,并建立目标函数。该方法使用多个图的线性组合来构造正则化器,在不引入附加参数的情况下,可以自适应的确定各个图的权重,以更好地探索数据的流形结构信息。基于乘数更新方法,本文对目标函数进行了优化,并将该算法称为基于多图的鲁棒非负张量环分解,文中称为L2,1-MGNTR分解算法。各项实验表明,L2,1-MGNTR算法在特征提取的有效性和鲁棒性上均优于L2,1-GNTR算法。本文提出的图约束非负鲁棒张量环分解算法可以有效的对有噪声污染的非负张量数据进行特征提取,为有噪声污染的非负张量数据特征提取困难的问题提供了解决方案,具有较强的实用意义。