关键词:
张量分解
高维数据补全
链接预测
半张量积
核方法
摘要:
随着科技水平的不断发展,数据采集技术越来越成熟,应用领域中所获取的数据维度也越来越高。因此,人们提出利用具有高维结构的张量,将采集到的信息直接进行表示,从而能更好的表达数据信息。张量这种数据形式深受重视,经过多年发展,有了许多基于张量的数据处理技术,比如张量补全、张量分类等,而张量分解作为张量数据分析的一个重要方法,在各个技术中都有应用。本文主要讨论张量补全,即根据部分已知数据对完整数据进行恢复。具体研究工作如下:(1)本文在半张量积可以降低参数量的基础上,结合知识图谱各部分的物理含义,对打分函数的各个中间值进行维度重构,提出了一个不仅空间复杂度较低而且可保证预测准确度的知识图谱补全模型STuckER。由于常用知识图谱都不完整,而知识图谱又可以用二元张量进行表示,因此,提出了基于张量分解的知识图谱补全模型。但该类模型的缺点是参数量巨大,因此,本文考虑借助半张量积去替代传统的张量模式n乘法,打破相乘元素对应维度相等这一严格约束,使得分解模型中的参数量得以压缩。但分析本文提出的两个中间模型TuckER-SF、TuckER-SC发现,直接利用半张量积去改进模型虽然能够使参数量减小,但代价却是模型预测性能的降低。因此,本文进一步对模型结构进行了改进,将每次n模式半张量积从同一嵌入中所得信息重新排列在同一维度,使模型信息能够更紧密的结合在一起,从而使模型在参数量减小为原来1/2的同时,还能保证补全准确度不变。本文将最终提出的模型命名为STuckER,并在四个标准知识图谱数据集中进行了实验,实验结果证明了本文所提方法的有效性和准确性。(2)本文发现核方法对张量数据进行预处理获得的投影,相对于原始数据可以具有更好的低秩特性,从而提出一个核张量补全算法,可以处理一些高秩多维数据的补全,并命名为KF-HRTC。该方法关键之处在于核方法的使用,利用核方法将高秩数据投影到多项特征空间中,使其在投影空间中呈现低秩特性,并在投影空间中使用低秩补全方法,从而实现高秩数据的补全任务。同时,由于本文所提方法是基于张量的,因此能够有效的避免矩阵方法中多维信息的丢失,从而达到更优的补全效果。本文利用高秩语音、图像数据进行对比实验,结果显示KF-HRTC算法在不同采样率下的RSE值较对比方法都有所提升,在有些数据集中的提升能达到0.25左右,充分证明了该算法的有效性。