关键词:
张量计算
交通类多元时间序列数据补齐
截断规范多元分解
网络压缩
张量规范多元分解
张量秩
张量乘积
摘要:
新兴人工智能行业迅速发展,产生及所需的数据量也越来越庞大,这些数据往往分布在高维特征空间。数据在获取和应用的过程中常面临缺失或冗余的情况,这对于数据的分析带来困难。当前的解决技术通常将高维空间中的数据降维转化成向量或者矩阵的结构进行处理,但这种转化过程中会破坏原始数据所固有的结构特性,丧失维度之间的相互关系。针对高维空间的数据存在缺失或冗余的问题,本文基于张量计算的方法对时间序列数据缺失及网络模型压缩问题展开研究。具体地,本文的研究主题以及所改进的点如下:(1)针对多元时间序列数据经常遭受数据丢失的问题,本文提出了一个低秩双向自回归稀疏化张量补齐(Low-Rank Bi-Directional Autore-gressive Tensor Completion,LBIATC)。该方法 包含两个额外正则项,第一个正则项为双向局部时间正则项,该正则项通过添加两个可学习变量模拟局部时间相关性,即:第一个变量表示当前时刻的缺失值与过去局部时间段内的观测值之间的线性关系,而另一个变量表示当前时刻的缺失值与未来局部时间段内的观测值之间的线性关系。第二个正则项为稀疏正则项,该正则项通过采用离散余弦变换将原始张量数据映射至频域,并对该频域下的数据施加了l1范数,从而达到约束时间序列内在稀疏性的效果。实验结果表明,本文所提的LBIATC的缺失值填补性能在大部分时间序列数据集上均优于目前最先进的缺失值补齐方法。(2)针对传统基于张量分解的模型压缩算法需要进行过多次训练的问题,本文提出了一种基于张量规范多元(Canonical Polyadic,CP)分解表示的快速张量CP分解层压缩算法。区别于传统基于张量分解的模型压缩算法,该方法不需要预训练一个初始大型网络,而仅需一次低成本训练即可压缩全连接层中的权重矩阵、卷积层中的卷积核以及胶囊网络中的向量全连接层权重。快速张量CP分解层可以直接更新CP分解格式下的因子,而无需对每个要分解的权重都执行一次昂贵的张量分解操作,从而避免了多次训练。实验结果表明,本文所提的快速CP分解层不仅可以在保证模型性能精度损失在2%以内的前提下可将模型的参数量压缩达60倍,甚至还可以提高卷积神经网络在部分数据集上的分类准确度。(3)针对传统基于张量分解的模型压缩算法存在的大量张量秩选择问题,本文提出了无需进行张量秩选择的张量乘积(Tensor Product,TP)层压缩算法。该算法将张量-矩阵乘积(tensor-matrix product)和张量-向量乘积(tensor-vector product)用于替换原始矩阵乘法,张量矩阵积和张量外积用于代替元素乘积运算,而张量外积用于替换卷积运算。与其他传统压缩算法相比,TP层压缩算法仅需在资源受限的小设备上直接训练一次,而无需在大型设备上进行预训练。与此同时,它作为一种新型层结构可以与多种卷积神经网络以及胶囊网络相结合。实验结果表明,与张量分解算法相比,本文所提的TP层可以在不进行微调和张量秩选择的前提下,既保证精度损失在3%以内,也将模型参数量压缩达40倍。