关键词:
非同义单核苷酸多态性
ProtTrans
图神经网络
卷积神经网络
深度学习
摘要:
在遗传与变异的研究中,非同义单核苷酸多态性(nsSNP)是一个重要的研究方向,目前已发现由非同义单核苷酸多态性引起的疾病有6 000多种,因此,准确预测非单核苷酸多态性对更好地了解其功能机制和疾病治疗具有重要意义。针对该问题,文中提出了一种名为SGNN的模型,旨在通过图神经网络与卷积神经网络的方法,实现高性能地完成nsSNP预测任务。在SGNN模型中,通过样本长度归一化处理,截取出适当长度的残基环境,以减少冗余信息,降低噪声干扰;随后,通过ProtTrans模型提取出样本残基环境的PT特征,并将属于同种蛋白质且具有相同突变位点的样本构成的集合使用图数据建模的方法转化为图结构数据;在模型训练的过程中,通过GraphSAGE算法更新图并使用节点分类的方法结合卷积神经网络完成样本致病性预测。实验中选择MMP数据集和PredictSNP数据集作为基准数据集,并与已有的最新的方法进行对比。其中,SGNN在MMP数据集上准确率(ACC)为85.2%,在PredictSNP数据集上ACC为83.3%,相较于最新的方法分别提升了3.2百分点和3.6百分点。实验结果表明,在nsSNP预测任务中,SGNN具有更好的预测性能。