由于生物学数据的大量产出,传统生物学数据分析方式难以应对逐渐复杂庞大的生物序列数据。
生物学领域利用测序、质谱等分析方法获取有关数据,经过清洗、标注后,可通过深度学习模型进行预测分析,利用深度学习分析数据的一般框架如下图所示。
而本文就将从核酸与蛋白质领域对深度学习在生物信息技术中的应用研究现在的状况进行分析。
在核酸领域的研究中,多是面向DNA和RNA测序结果的研究。DNA是组成基因的主要组成单位,而RNA是由DNA转录而来,这些序列都包含许多重要的生物信息。
然而,利用传统生物学实验的方式,一定要通过合成其对应蛋白质并检测其功能来推测原始DNA的作用,这使得基因分析与研究往往过分冗长且要消耗巨大的人力物力。
DNA序列本身数据量也较为庞大且复杂。以人类全染色体组中的DNA数据为例,最多的有将近50万条数据,最少的也有11万条数据数据中包含编码区与非编码区等功能区域,如果对这些区域进一步细分,将会产生更具体的DNA数据,如内含子区域、外显子区域等。
RNA序列信息尽管相对DNA数据量较少,但数据量也相当可观。以ELAVL1蛋白质结合位点来说,就有约25万条数据。
基于此,利用以数据驱动的深度学习模型分析预测基因序列的功能作用慢慢的变成为研究热点,也取得很多重要的研究成果。下表展示了部分公开数据集:
它利用16个滤波器的卷积层,在DNA或者RNA序列上以步长为1、大小为24的窗口进行滑动扫描的方式来进行特征分析。
在识别RNA蛋白质结合位点方面,用了不同生物的RNA蛋白质结合位点数据来进行预测,也进行了将体外数据训练模型应用于体内数据预测的实验,DeepBind在2种实验中都得到了较好的结果。
DeepBind也可用于分析基因变异的影响,并通过突变图谱实现可视化,在实验中,DeepBind能够预测启动子中是否发生了可能致病的单核苷酸变异。DeepBind模型的出现,提供了利用神经网络分析DNA、RNA与蛋白质结合位点的新思路。
该方法创新性地将图像识别技术与基因突变分析结合起来,取得了良好的效果。该模型示意图如下图所示:
在DeepVariant模型中,将测序结果与标准基因组作为对比,对比后的结果以红绿蓝图像保留该模型为这种图像上3个通道的值重新做了定义,即红色通道为DNA的序列中的碱基,绿色通道为测序结果质量,蓝色通道为其他相关特征值。
这些结果被分为三大类:与参考相同、杂合型、纯合变异,这一些数据组成训练集与测试集,利用CNN做多元化的分析预测。
这样做的好处是巧妙地将对基因序列突变问题分析转变为对图像的分类操作,并且同时综合了碱基、测序质量值等指标,由于是将该问题转化为了图像的分类问题,所以能利用图像领域中成熟的神经网络模型进行训练,如Inception v3网络模型等。在与传统的变异检测的新方法比较中,DeepVariant在Fj得分、召回率上都取得了良好的表现。
核酸领域另一个不可忽视的研究方向就是对DNA剪切位点的研究DNA剪切位点是DNA打开双螺旋进行转录的初始位置,也是基因编辑的重要编辑位点。
当基因突变发生时,人体的DNA剪切位点相对于标准基因组的位置会发生改变甚至不表达。因此,快速查找出DNA中的剪切位点对于生物学核酸领域研究具有十分重要的意义。
在该模型中,考虑转录部分对检测查找剪切位点影响的同时将不参与转录的非编码区中的边翼序列也添加进训练集,从而将非编码区域对于编码区影响的关系特征也添加进模型之中。
但是,目前这种非编码区的序列只考虑其存在的长度并不考虑其中具体的碱基序列,根据编码区两侧边翼序列的总体长度,将模型分成了4类,即SpliceAl-80nt、SpliceAl-400nt、SpliceAI-2k和SpliceAl-10k。
在具体的模型实现中,SpliceAl参考了残差网络模型,设计了残差模块,由于数据维度高、体量大,放弃了传统池化层,利用空洞卷积扩大感受野。
该评价标准是指特定某个指标的预测值与其对应真实值相同的数据量占该指标总体预测数据总量的百分比。
目前,在利用深度学习分析核酸序列的研究中,多是运用类比图片的方式,将DNA、RNA中4种不同的碱基对应卷积中的4种信道,再利用一维卷积做多元化的分析,不同的研究不同之处在于分析预测的目标不同。
在这些研究中,DeepVariant有效地将图像分析方式与DNA分析进行了结合,打开了对于核酸序列分析的新思路。
深度学习也逐渐应用到了蛋白质的研究中。蛋白质的有关数据包括肽段质谱图、蛋白质有机高分子等数据集,而蛋白质有机高分子数据集又包含蛋白质互作网络数据集、蛋白质结构数据集(protein data bank, PDB)以及蛋白质对接基准数据集等。
以PDB和UniProt为例,PDB中包含15万多个蛋白质结构数据,而UnitProt包含了约17万个蛋白质结构数据。
肽段的定量与定性分析是蛋白质组学中一项重要的研究内容,而这些分析又与其本身的质谱特征提取和理化性质密不可分,常见的分析方法为液相色谱分析,主要观测肽段色谱的保留时间,该保留时间一般是由其理化性质决定的。
这往往需要对其理化性质进行进一步研究,因此出现了很多推算其保留时间的算法,例如LUDE、GPTime等。
但是,这一些方法往往误差较大,对实际的推算造成了一定困难,鉴于这种情况,Ma等提出了一种名为DeepRT的模型,该模型基于CNN和RNN,从肽序列中自动学习特征,无须使用手工特征或设计规则。
特征学习后,使用主成分分析(principal component analysis,PCA)办法来进行降维,然后,使用3种常规的机器学习办法来进行建模。
该项研究使用2个已发布的数据集来评估DeepRT的性能,并且证明DeepRT的性能大大优于目前已知的几种常规方法。
Zohora等提出的Deeplso由2个单独的基于深度学习的模块组成,可通过多层神经元来学习高维数据本身的多个表示形式,并适用于新获取的数据,该模型预测肽段的特征列表与基准数据集中对比实验结果达到了97.43%的高质量标识相匹配成功率。
这些研究表明新颖的深度学习工具对蛋白质鉴定和定量方面的研究起到了一定的推进作用。
2020年,Alphafold在对蛋白质折叠的问题上取得了良好的效果。蛋白质作为维持生命所必需的生物大分子,其特有的空间结构往往会决定了它的功能特性。
例如,抗体蛋白通常为Y型,便于锁定病毒和细菌。但是,蛋白质的空间结构是极为复杂的,解析氨基酸残基形成的长链通过折叠形成的蛋白质结构,成为了一项重要的研究内容。
Alphafold通过利用CNN,对氨基酸之间的距离以及其化学键的角度进行学习,给出一个推荐结构,再利用梯度下降算法调整优化整个结构预测结果。
该方法利用深度学习方法,快速缩短了确定蛋白质结构的时间,在蛋白质研究方面具有重大的应用价值。
随着图卷积的迅猛发展,利用图卷积分析蛋白质的相关研究也逐渐增多,ProteinGCN是一种基于图卷积方法对蛋白质空间结构做多元化的分析的模型,模型示意图如下图所示,该模型能够在最新水平的蛋白质模型中实现较高的预测精度。
此外,与之前提出的3D卷积网络相比,ProteinGCN中的自由参数数量少了1~2个数量级,不仅在蛋白质的空间结构上,而且在对蛋白质界面的分析中也会应用到图卷积。
蛋白质界面预测在药物发现和设计中有重要的应用。Fout等利用图卷积分析了蛋白质的三级结构,并将得到的信息用于分析界面残基之中,该方法显著优于常用预测手段。
在蛋白质的有关研究中,主要是利用CNN对蛋白质有关数据进行分析,以Alphafold为代表取得不错的效果。
根据数据类型的不同,采用的CNN也略有不同.对于质谱图等图像分析,多采用二维CNN,而对于蛋白质序列的分析多采用一维CNN。
新兴的GCN多用于研究蛋白质结构信息,随技术的逐渐成熟,蛋白质未来发展将会逐渐向图卷积方向靠拢。