关键词:
T-SVD
低管秩逼近
频繁方向
块Krylov迭代
随机计数嵌入
摘要:
在当前人工智能和大数据时代,数据量呈爆炸性增长.因此,越来越多的大规模数据需要处理.张量以其能够挖掘数据内部结构信息的优点,在机器学习、模式识别、信号处理和数据挖掘等领域得到了广泛应用.对于大规模张量数据,我们经常需要分析其关键信息和重要组成部分.由于数据量庞大,直接分析和处理这些数据成本太高,而张量低秩逼近能在够保留数据特征的前提下,显著降低数据处理的难度和成本.因此,张量低秩逼近已成为数据分析的重要工具,其目的是用具有低秩结构的张量近似所给定张量.本文主要研究三阶张量的低秩逼近及其应用.
众所周知,对于一个给定的矩阵,我们可以通过截断SVD(Singular Value Decomoposition)的方法逼近原始矩阵.与矩阵情形不同,张量秩的定义不唯一,它依赖于其不同的分解方式.常见的张量秩有CP(CANDECOMP/PARAFAC)秩、Tucker秩、TT(Tensor Train)秩、环秩和管秩等.相应的,三阶张量的最佳低秩逼近可由截断的T-SVD(Tensor-Singular Value Decomoposition)而得到,但在处理较大规模张量时计算代价高.为了降低计算成本,可借鉴矩阵素描技术的思想.矩阵素描技术的核心是通过保留矩阵的主要特征,用较小规模矩阵来近似原始矩阵,其可被用于矩阵低秩逼近以减小计算成本.同样,对于张量,可以采用张量素描技术实现低秩逼近,以提高计算效率.
在第三章中,基于一般酉变换下张量-张量积(T-积)的定义,提出了一种基于块Krylov迭代的三阶张量低管秩逼近的近似算法.该算法利用了块Krylov迭代技术和随机计数嵌入矩阵,在提高计算效率的同时,保证了算法精度处于较高水平.与其他几种常见算法相比,彩色图片实验结果表明,我们所提出的算法具有峰值性噪比(Peak Signal to Noise Ratio,PSNR)值高而运算时间短的特点.这表明我们所提出的算法能以较少的计算成本获得较好的逼近效果.人工合成数据实验也体现出我们算法的精度优势.
为了更高效地处理大规模流数据,在第四章中,基于第三章所提算法,进一步结合快速FD算法,我们提出一种基于块Krylov迭代和快速FD算法的三阶张量低管秩逼近算法.该算法首先利用所得的块Krylov迭代算法,对原始张量进行素描,得到规模远小于原始张量的素描张量.进一步,结合了快速FD算法,对素描张量进行低秩逼近.该过程中,需对素描张量进行T-SVD.由于其规模非常小,所需计算成本非常低.因此,算法的计算速度得到大大提高.彩色图片、灰度视频以及较大规模人工合成数据的实验表明,我们提出的方法在不显著降低精度的情况下,有效提高了运行速度.