关键词:
张量低秩表示
癌症多组学数据
变换张量奇异值分解
图学习
非线性变换
摘要:
近年来,随着癌症发病率与死亡率不断上升,研究人员致力于探寻癌症之间,癌症与基因之间的关系,并希望找到治疗和预防癌症的有效方法。人类基因组计划的实施产生了海量的基因测序数据,这些数据中蕴含着丰富的遗传信息,为研究人员在基因层面深入理解和揭示癌症病因提供了新的思路。然而,癌症多组学数据往往具有多类型、高维度、小样本的特点,如何提取其中的关键信息以研究癌症与基因的关系是一个充满挑战的课题。尽管传统的基于矩阵分解的低秩表示方法已经广泛应用于许多领域,但它们在处理多视图数据时,需要将多视图数据压缩为矩阵形式,这一过程往往会破坏数据的固有空间结构,从而不能有效地挖掘数据中的多视图信息。而张量作为向量和矩阵的高阶推广,是建模多维数据的强大工具,其有助于更好地捕获高维数据的内在结构,有效弥补矩阵的不足。尽管基于张量的低秩表示方法可以保证在数据结构不被破坏的情况下探索高维空间和低秩空间的相似性,并且通过分离稀疏噪声使得主要信息得到保存,但在低秩张量恢复方面存在一定局限性。因此,本文从四个不同的角度提出了针对性的优化张量低秩结构的方法,旨在改善其挖掘数据信息的能力,以实现癌症样本的有效聚类以及发现新的关键特征基因。具体的研究内容如下:
(1)针对基于张量奇异值分解(t-SVD)的方法不能恢复低管秩张量的问题,提出了基于变换t-SVD的张量鲁棒主成分分析模型(TTTD)。具体来说,使用酉变换矩阵替代t-SVD中的离散傅里叶变换矩阵,这有利于获得一个更好的变换张量的低秩表示,进而更精准地恢复底层低秩张量。同时,采用L2,1范数学习稀疏项,其所产生的行稀疏约束能够有效检测原始张量中的噪声和异常值,减少数据冗余,提升低秩结构信息提取的精确度。将TTTD应用于癌症多组学数据集中进行样本聚类和特征选择实验,结果表明,TTTD能够实现有效聚类,同时发现新的癌症基因关联。
(2)针对多组学数据中先验知识利用不足以及低管秩张量恢复受限的问题,提出了基于空间-管约束的低变换管秩张量模型(LTTRT)。在该方法中,使用基于变换t-SVD的变换张量核范数来刻画张量的全局低秩性,相较于传统的张量核范数,变换张量核范数可以通过适当的酉变换得到更低的管秩。此外,还引入了加权全变分正则化策略,通过在不同维度上施加差异化的权重来约束低秩项,这一策略能够深入探索测序数据在空间和管维度上的丰富信息,进一步挖掘其潜在的低秩结构,并在一定程度上消除混合噪声的干扰。为验证LTTRT的有效性,将其应用于多种类型的癌症多组学数据集,实验结果表明,LTTRT能够实现对不同类型的癌症样本的精确划分。
(3)针对传统的张量模型忽视统一张量空间与特定视图空间的信息的问题,提出了基于改进的低秩表示和图学习的多视图张量模型(MFLRG)。在统一的张量空间中,提出了变换加权张量Schatten p范数,其不仅在酉变换域中实现,而且明确地考虑了奇异值所携带的显著差异信息,使得模型挖掘嵌入在张量空间中的全局结构信息的同时获得较低管秩张量。在视图特定空间中,采用图正则化来获取多个样本之间的局部几何结构,捕捉特定的视图空间信息,以保证全面观测到组学数据的互补性和一致性特征。实验结果表明,MFLRG可以通过同时学习癌症多组学数据的全局和局部特征来提升模型性能。
(4)针对基于线性变换的张量核范数的模型在探索张量的低秩结构时,往往忽视了数据固有的非线性特征这一问题,本文提出了基于非线性变换诱导的张量核范数(NTTNN)和重加权稀疏结构的多视图张量模型(NTRSS)。具体而言,NTTNN结合了线性半正交变换和逐元素非线性变换,有效捕捉了高维多视图数据的非线性特征,并增强底层张量的低秩近似。此外,采用重加权的L1算法在学习稀疏结构知识和恢复稀疏信号方面的效果更加显著。在癌症多组学数据集中的实验充分证明了 NTRSS方法在提取非线性特征和学习稀疏先验知识方面的有效性。
本文将所提出的四种不同模型应用于癌症多组学数据集,并进行了详尽的实验验证。实验结果充分展示了不同算法在处理复杂癌症多组学数据时的有效性,这为癌症的识别、诊断和治疗提供了可靠的理论支持,为推动精准医疗和全民健康事业的发展具有重要意义。