关键词:
非线性广义主成分分析
张量
低阶情形
高阶情形
形变反向传播
摘要:
随着通信技术的不断升级,数字化转型的不断深入,经济社会产生的数据总量不断攀升,数据类型也日益丰富,高阶张量越来越频繁地出现在人们的视野中.在这样的时代背景下,数据压缩在统计研究领域受到广泛关注.在对国内外使用较多的数据压缩方法进行总结后,发现目前使用较多的数据压缩方法或是受限于模型的线性假设,或是不可显式表达,亦或是模型可解释性较弱.为了克服这些问题,本文在线性主成分分析方法的基础上,提出一种可显式表达且可解释的非线性数据压缩方法—非线性广义主成分分析方法(NGPCA).由于高阶张量的空间结构更为复杂,低阶张量的线性代数运算已不再适用,因此,本文兼顾低阶与高阶情形,分别介绍了低阶非线性广义主成分分析方法(LO-NGPCA)及高阶非线性广义主成分分析方法(HO-NGPCA).具体包括以下两部分工作:一、针对于低阶张量,本文设计了LO-NGPCA方法,并以二阶数据为例,对方法进行了说明.该方法在主成分分析方法的基础上,引入激活函数对投影后数据进行映射;同时,该方法可以从网络模型角度获得直观解释,它通过在特定位置引入形变子层以改变压缩方向,最终实现对二阶张量两个维度的同时压缩;此外,本文设计了该模型的“低阶形变反向传播算法”(LO-DBP),进而对参数进行估计.最后,数值实验基于ORL数据库的公开数据集,其结果表明:算法具有收敛性且在同等或更为苛刻的压缩条件下,LO-NGPCA方法的压缩性能优于线性主成分分析类方法,包括主成分分析、二维主成分分析及广义主成分分析.二、针对于高阶张量,考虑到本文所设计的方法不会再随着阶数的增长而发生本质的变化,故以三阶张量为例对HO-NGPCA方法进行说明.本文在介绍高阶张量相关运算的基础上,根据所选取的压缩方向集的差异,分别介绍了深度为1及深度为的HO-NGPCA方法.不仅阐明了两种不同深度的HO-NGPCA方法的内在联系,还构建了对应的网络模型对方法予以直观解释,并基于“高阶形变反向传播算法”(HO-DBP)进行参数估计.最后,通过数值实验,分别说明了HO-DBP算法的收敛性及HO-NGPCA方法在压缩性能方面的优越性.