关键词:
矩阵补全
总行差
截断核范数
奇异噪声
张量补全
摘要:
随着科学技术的飞速发展,大数据已成为这个时代的标签。海量数据爆炸式产生,数据规模及维数不断增加。图像、视频等高维数据在产生、传输、存储过程中,不可避免的出现部分数据缺失、损坏等问题,这给进一步的数据分析与处理带来影响,因此,如何将部分缺失的数据补全,降低数据损坏的影响一直是一个热点问题。为解决这类问题,数据补全技术不断发展,并被广泛应用于图像处理、视频恢复、推荐系统等领域。常见的数据补全方法有矩阵补全和张量补全,在该领域,有大量学者研究出成熟且高效的方法。但在实际应用中,传统的补全方法在面对奇异噪声时,往往会出现不够鲁棒的情况。为进一步提升模型的恢复性能,本文主要工作如下:
1、在矩阵补全模型的建立中,我们发现缺失矩阵的振荡程度往往比原始矩阵要高,而以往的核范数最小化模型都力求更准确地描述秩函数,忽略了缺失矩阵本身的振荡对补全过程的影响,这使得在面对被奇异噪声损坏的矩阵时,算法往往会出现鲁棒性不足的状况。为了控制缺失矩阵的振荡,降低数据缺失部分对补全过程的影响,本文提出了一种基于总行差(Total Row Difference,TRD)的鲁棒性矩阵补全方法,该方法采用截断核范数作为秩函数的近似,用行差绝对值的和,即总行差来约束缺失矩阵的振荡,我们将这种基于TRD的截断核范数正则化(Truncated Nuclear Norm regularization,TNNR)矩阵补全方法称为TNNR-TRD。该模型通过最小化目标中的总行差值,控制矩阵补全过程中的振荡,减少缺失部分的影响。在此基础上,我们设计了一个两步迭代算法框架,并应用交替方向乘子优化算法求解模型。实验表明,该算法性能稳定,恢复效果较好,且能够改善传统TNNR模型对截断秩参数的高敏感性。
2、张量作为向量、矩阵向高阶的推广,可以很好的保留多维数据的结构信息。现有的低秩矩阵补全方法大多以二维方式处理输入数据,在补全具有高维结构的缺失张量数据时往往会丢失部分结构信息。为更好的利用张量数据所包含的丰富潜在信息,提升补全算法的恢复效果,张量补全技术应运而生并不断发展。然而,现存的张量补全方法,忽略了缺失张量本身的振荡对补全过程的影响,因此,本文将总行差的概念推广至张量,并提出一种鲁棒的张量补全方法,该方法使用张量截断核范数(Tensor Truncated Nuclear Norm,T-TNN)作为秩函数的近似,用行差绝对值的和,即总行差来约束缺失数据的振荡,我们将这种张量补全方法称为T-TRD。在算法的求解过程中,本文设计的描述张量振荡的算子避免了对张量求逆的步骤。实验表明,该算法性能稳定,能够得到更好的恢复效果。