关键词:
恶性肿瘤
非编码RNA
竞争性内源RNA
协同互作
协同竞争
摘要:
恶性肿瘤严重威胁人类生命和健康,根据恶性肿瘤的细胞类型,它主要分为癌症和肉瘤两种类型。与正常细胞相比,恶性肿瘤细胞内基因结构和功能都发生了改变,并且其发生和发展通常不符合孟德尔遗传定律。此外,恶性肿瘤还具有多基因协同性、疾病异质性和个体特异性等特点。大部分恶性肿瘤本质上属于多基因遗传易感性疾病,其发病机制是多基因协同调控的结果。因此,从基因分子水平角度研究恶性肿瘤基因调控模式、生物过程、信号通路和病理过程成为揭示恶性肿瘤发病机理的重要突破口。在人类基因组内,大约98%转录本属于非编码RNA(non-coding RNA,nc RNA)。它们通常不编码蛋白质,而是作为调控因子调节基因表达水平。调控因子nc RNA为探究恶性肿瘤的发生发展提供新视野以及为包括恶性肿瘤在内的人类复杂疾病诊断和防治提供理论依据和新技术。然而,nc RNA参与恶性肿瘤调控机制,及其作为恶性肿瘤生物标志物的研究仍处于初级阶段。在恶性肿瘤关联的异构数据源驱动下,本文重点以乳腺癌、白血病以及泛癌(Pan-Cancer)为研究对象,开展了nc RNA协同调控模式(包括协同互作和协同竞争两种模式)识别的生物信息学新方法和新技术研究。同时,开发了一套基于多重基因表达谱和mi RNA靶标信息的nc RNA协同竞争模式识别与分析R软件包,并应用于恶性肿瘤数据分析,为探究恶性肿瘤nc RNA协同竞争模式提供实用工具。本文主要研究内容和贡献如下:(1)在群细胞水平,提出了mi RNA协同互作(mi RNA synergism,mi Rsyn)方法用于识别乳腺癌关联的mi RNA协同互作模式。mi Rsyn整合群细胞转录组数据和先验mi RNA靶标信息,并且基于因果推理模型估计mi RNAs对靶基因m RNAs产生的因果效应,进而推断mi RNA协同互作模式。在协同互作网络层面,mi Rsyn识别的mi RNA协同互作网络不是无标度而是小世界网络,并且与19个乳腺癌关联的生物过程、信号通路和疾病过程密切相关。另外,71.08%的mi RNA-mi RNA协同互作对呈现相似表达模式,并且46.53%序列水平下的mi RNA-mi RNA协同互作对在表达水平并不协同互作。在协同互作模块层面,总共识别了361个mi RNA协同互作模块,其中72个mi RNA协同互作模块与乳腺癌疾病显著关联。比较研究发现,mi Rsyn(模拟多基因敲除实验)比其他方法(如mir SRN,模拟单基因敲除实验)更适合研究mi RNA协同互作模式。(2)在单细胞水平,提出了细胞特异性mi RNA调控(Cell-Specific mi RNA regulation,CSmi R)方法用于识别白血病单细胞mi RNA协同互作模式。CSmi R整合单细胞转录组数据和先验mi RNA靶标信息来识别单细胞mi RNA协同互作模式。应用于小规模白血病单细胞转录组数据时,CSmi R总共研究了19个K562细胞的mi RNA协同互作模式。在mi RNA-mi RNA协同互作对、枢纽mi RNAs和mi RNA协同互作模块三个方面,任何K562细胞之间的相似度都小于90%。另外,特异性mi RNA-mi RNA协同互作对百分比(38.91%)、枢纽mi RNAs百分比(21.88%)、mi RNA协同互作模块百分比(64.35%)都高于保守性mi RNA-mi RNA协同互作对百分比(14.41%)、枢纽mi RNAs百分比(14.58%)、mi RNA协同互作模块百分比(0%)。通过构建细胞相似度矩阵,CSmi R为单细胞聚类分析提供了新策略,为理解细胞串扰提供了新思路。网络拓扑和功能分析发现,19个单细胞mi RNA协同互作网络都不是无标度网络而是小世界网络,并且单细胞mi RNA协同互作网络和模块可能参与白血病发生和发展。(3)提出了协同竞争(Synergistic competition,Scomp)方法,用于识别泛癌关联的nc RNA协同竞争网络。Scomp基于nc RNA协同竞争假说,整合多重基因表达数据和先验竞争性内源RNA网络数据来识别nc RNA协同竞争网络。网络拓扑和功能分析表明,Scomp识别的nc RNA协同竞争网络是无标度和小世界网络,并且显著富集于许多恶性肿瘤疾病、癌症特征和癌症表型。此外,nc RNA协同竞争网络内的13个枢纽nc RNAs与恶性肿瘤疾病密切关联,并且对32种恶性肿瘤类型的分类效果优于基准水平。功能分析发现,nc RNA协同竞争网络内蕴含的3个网络模块都是功能模块,并且其中2个网络模块为潜在泛癌生物标志物。多标签分类分析显示,所有网络模块对32种恶性肿瘤类型的分类效果都优于基准水平。最后,一致性结果表明,Scomp识别的nc RNA协同竞争网络具有鲁棒性。(4)提出了lnc