CN113257338A

CN113257338A - 一种基于残基接触图信息博弈机制的蛋白质结构预测方法

Info

Publication number: CN113257338A
Application number: CN202110440653.1A
Authority: CN
Inventors: 张贵军; 侯铭桦; 魏源; 彭春祥; 杨涛; 郭赛赛; 周晓根
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-08-13

Abstract

一种基于残基接触图信息博弈机制的蛋白质结构预测方法，首先，通过根据CASP比赛Jaccard指标选择的RaptorX、ResPRE、NeBcon、DeepMetaPSICOV四个蛋白质残基接触服务器，获取多张残基接触图从而构建多个能量函数；其次，利用Rosetta第一、第二阶段对种群初始化，然后通过对目标构象进行变异、交叉生成新的测试构象；最后，根据四个残基接触图构建的能量函数，设计基于Pareto的多目标优化算法来对构象进行更新，从而引导算法采样得到结构更接近天然态的构象。本发明提供一种基于残基接触图信息博弈机制的蛋白质结构预测方法。

Description

一种基于残基接触图信息博弈机制的蛋白质结构预测方法

技术领域

本发明涉及生物信息学、计算智能领域，尤其涉及的是一种基于残基接触图信息博弈机制的蛋白质结构预测方法。

背景技术

生命健康是全球未来产业发展的前沿方向，是提升人民健康水平、增强百姓获得感的基础领域。而一切生命过程和种族的繁衍活动都与蛋白质的合成、分解和变化密切相关。蛋白质的三维结构决定其特殊的生物学功能，是生命活动的物质基础。蛋白质的错误折叠有可能导致不能正确行使其功能。比如，在老年痴呆患者的脑中，存在大量由错误折叠蛋白质形成的杂乱的蛋白质簇。因此，要想实现生命健康领域的突破，更深层次地理解生命现象和生命过程以实现靶向药物研发，其先决条件就是获取蛋白质的三维结构。

目前，利用传统的生物湿实验的方法，包括X射线晶体衍射、核磁共振和低温冷冻电镜，虽然能够测定蛋白质三维结构，但对材料、仪器和人员要求高并且极其耗时。因此，利用计算技术，对序列进行结构建模，探索蛋白质结构预测成为迫切需求。

蛋白质结构预测作为生物信息学领域的重大研究问题，目前领域内主要有两块，一个是根据生物分子的理化知识来构建能量函数模型，从早些年的CASP比赛开始一直引领着潮流，到现在也是占据着举足轻重的地位。其代表就是华盛顿大学Baker实验室的Rosetta，密西根大学张阳实验室的I-TASSER。作为结构预测工具，Rosetta算法能够对多种生物分子系统进行预测、设计和分析，包括蛋白质，RNA，DNA，肽，小分子以及非规范或衍生氨基酸。I-TASSER是一种用于蛋白质结构和功能预测方法。它通过多线程方法LOMETS、蛋白质功能数据库BioLiP等预测靶标的功能。理化模型方法取得丰硕成果的同时，也显露出了其表达精确性不足，特征不完善等缺点。而另一块，主要是基于深度学习来预测contact、distance等信息从而构建知识模型。在前几天出来的CASP14结果中，Google提出的AlphaFold在人工组排名第一，且远超第二，腾讯，tfold首次参赛也在contact组也取得了排名第一的好成绩。

从CASP比赛接触预测方面的结果来看，虽然目前contact预测精度越来越高，但依旧存在着错误信息；而由Jaccard距离图可知不同的预测服务器所捕获的信息集合是不同的。此外，虽然目前深度学习方法在蛋白质结构预测领域尤其是残基接触预测取得了巨大进步，但是在蛋白质结构折叠时，对于多份不同的残基接触信息，往往会采用简单的加权叠加进行整合，从而导致一部分预测到的残基接触信息的丢失，预测精度也难免会受到影响。另一方面，通过计算技术进行蛋白结构预测通常采用单个能量函数进行评估，采样能力受限，其最终获得蛋白构象的能量也许最优但并不一定是最优构象，也就是说能量低的构象不一定是最接近天然态构象的。

因此，现有的蛋白质结构预测方法数据接收效率和构象选择评价上存在不足，需要改进。

发明内容：

为了克服现有的蛋白质结构预测方法数据接收效率低、预测精度较低的不足，本发明基于RaptorX、ResPRE、NeBcon、DeepMetaPSICOV四个蛋白质残基接触服务器和Rosetta平台，由多张残基接触图构建多个能量函数，并采用多目标优化方法来指导构象空间优化，提出一种基于残基接触图信息博弈机制的蛋白质结构预测方法。

本发明解决其技术问题所采用的技术方案是：

一种基于残基接触图信息博弈机制的蛋白质结构预测方法，所述方法包括以下步骤：

1)给定目标蛋白的序列信息；

2)根据给定的目标蛋白的序列信息，利用如下四个ContactMap预测服务器：

RaptorX(http://raptorx.uchicago.edu/ContactMap/)；

ResPRE(https://zhanglab.ccmb.med.umich.edu/ResPRE/)；

NeBcon(https://zhanglab.ccmb.med.umich.edu/NeBcon/)；

DeepMetaPSICOV(http://bioinf.cs.ucl.ac.uk/psipred/)；

获取四个残基接触信息文件，再进行数据处理之后生成四个contacMap文件分别为ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV；

3)根据ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV四个contactMap文件分别构建能量函数Energy RaptorX(C_n)、Energy ResPRE(C_n)、Energy NeBcon(C_n)、Energy PSICOV(C_n)，公式如下：

其中，

分别表示残基接触图ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV中第k个残基对(i,j)接触的置信度，

表示第k个残基对(i,j)之间的真实距离，d_con为阈值8，即两个残基接触的最大距离,

分别表示构象C_n的残基对(i,j)在四个能量函数EnergyRaptorX(C_n)、Energy ResPRE(C_n)、Energy NeBcon(C_n)、EnergyPSICOV(C_n)中的接触得分；

4)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)获取片段库文件，其中包括3片段库文件和9片段库文件；

5)设置参数：种群大小NP，交叉因子CR，迭代次数G，置初始迭代代数g＝0；

6)种群初始化：随机片段组装生成NP个初始构象C_n，n＝{1,2，…,NP}；

7)将构象C_n代入四个能量函数Energy RaptorX(C_n)、Energy ResPRE(C_n)、EnergyNeBcon(C_n)、Energy PSICOV(C_n)中，求得能量值

构建为一个能量数组

8)根据能量数组

构建第一构象池，过程如下：

8.1)设置初始构象数N＝0；

8.2)遍历种群，将每一个构象C_n的能量数组

与其他所有构象进行比较，如果没有一个构象的四个能量值均优于当前构象C_n，即

使得

其中C_m为除当前构象C_n外任一构象，则记该解为Pareto有效解；

8.3)将Pareto有效解的构象放入第一构象池，记录当前构象数为N，并将其余构象清除；

9)循环：g＝g+1，如果g＞G则跳转到步骤14)；

10)将第一构象池中的构象个体C_n,n∈{1,2,3,…,N}看作目标构象个体

执行以下操作生成变异构象

过程如下：

10.1)在1到N范围内随机生成正整数n1,n2,n3，且n1≠n2≠n3≠n；

10.2)在构象C_n1位置上随机选取一个9片段替换构象C_n3的相同位置所对应的片段，再从构象C_n2位置上随机的选取一个与构象C_n1选取位置不相同的9片段替换构象C_n3的相同位置所对应的片段，然后用对构象C_n3进行3片段组装生成变异构象个体

11)对变异构象

n∈{1,2,3,…,N}执行交叉操作生成测试构象

过程如下：

11.1)生成随机数rand1，其中rand1∈(0,1)；

11.2)若随机数rand1≤CR，则从目标构象

中随机选择一个3片段替换到变异构象

的相应位置,否则变异构象

不变；

11.3)将生成的测试构象

放入第二构象池；

12)将第二构象池中测试构象

代入四个能量函数Energy RaptorX(C_n)、EnergyResPRE(C_n)、Energy NeBcon(C_n)、Energy PSICOV(C_n)中，求得能量值

构建为一个能量数组

13)遍历第二构象池，保留全种群Pareto有效解的构象

过程如下：

13.1)第二构象池内部构象互相比较，保留Pareto有效解的构象

记录构象数为N_TBA；

13.2)将第二构象池内的构象

m∈{1,2,3,…,N_TBA}与第一构象池内的构象

n∈{1,2,3,…,N}进行比较：

13.2.1)如果

使得

则删去第二构象池中的构象

13.2.2)如果

使得

且必定

使得

则用构象

替换第一构象池中的构象

并删去第二构象池中的构象

13.2.3)如果对于任何一个存在于第一构象池中的构象

均存在k∈[1,2,3,4]使得

则将该构象

保留在第二构象池中；

13.2.4)更新N_TBA，记录当前第二构象池中的构象数；

14)对第一构象池的构象

和第二构象池的构象

进行选择操作，过程如下：

14.1)如果第一构象池和第二构象池的构象数目之和大于设定的种群数量，即N+N_TBA≥NP，则继续步骤14.2)，否则将第二构象池中的构象放入第一构象池，清空第二构象池并跳转至步骤9)；

14.2)引入构象相似度指标RMSD，通过计算两个构象池中每个构象与其余所有构象之间的RMSD值，计算公式如(5)，其中

为构象C_i内部原子空间中(x,y,z)坐标，

为任一其余构象C_j内部原子空间中(x,y,z)坐标；

14.3)根据RMSD值判断构象相似度，选取多样性最丰富的NP个构象放入第一构象池，清空第二构象池并转到步骤9)；

15)输出结果。

本发明的技术构思为：首先，通过RaptorX、ResPRE、NeBcon、DeepMetaPSICOV四个蛋白质残基接触服务器，获取多张残基接触图从而构建多个能量函数；其次，利用Rosetta第一、第二阶段对种群初始化，然后通过对目标构象进行变异、交叉生成新的测试构象；最后，根据四个残基接触图构建的能量函数，设计基于Pareto的多目标优化算法来对构象进行更新，从而引导算法采样得到结构更接近天然态的构象。本发明提供一种基于残基接触图信息博弈机制的蛋白质结构预测方法。

本发明的有益效果为：首先，通过不同服务器预测获取得到的残基接触信息，增加了接触信息来源多样性，降低了单一接触图可能导致的信息缺失、错漏对结构预测的影响；其次，结合多目标优化算法设计了基于残基接触信息博弈机制的构象选择方法，避免因传统能量模型不精确而导致构象引导错误。

附图说明

图1是四张预测的残基接触图经过处理后的信息。

图2是基于残基接触图信息博弈机制的蛋白质结构预测方法对蛋白质1ELW采样得到的构象分布图。

图3是基于残基接触图信息博弈机制的蛋白质结构预测方法对1ELW蛋白结构预测得到的三维结构。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于多残基接触图协同约束的蛋白质结构预测方法，所述方法包括以下步骤：

1)给定目标蛋白的序列信息；

RaptorX(http://raptorx.uchicago.edu/ContactMap/)；

ResPRE(https://zhanglab.ccmb.med.umich.edu/ResPRE/)；

NeBcon(https://zhanglab.ccmb.med.umich.edu/NeBcon/)；

DeepMetaPSICOV(http://bioinf.cs.ucl.ac.uk/psipred/)；

3)根据ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV四个contactMap文件分别构建能量函数EnergyRaptorX(C_n)、EnergyResPRE(C_n)、EnergyNeBcon(C_n)、EnergyPSICOV(C_n)，公式如下：

其中，

分别表示构象C_n的残基对(i,j)在四个能量函数Energy RaptorX(C_n)、Energy ResPRE(C_n)、Energy NeBcon(C_n)、EnergyPSICOV(C_n)中的接触得分；

构建为一个能量数组

8)根据能量数组

构建第一构象池，过程如下：

8.1)设置初始构象数N＝0；

8.2)遍历种群，将每一个构象C_n的能量数组

使得

9)循环：g＝g+1，如果g＞G则跳转到步骤14)；

执行以下操作生成变异构象

过程如下：

10.1)在1到N范围内随机生成正整数n1,n2,n3，且n1≠n2≠n3≠n；

11)对变异构象

n∈{1,2,3,…,N}执行交叉操作生成测试构象

过程如下：

11.1)生成随机数rand1，其中rand1∈(0,1)；

11.2)若随机数rand1≤CR，则从目标构象

中随机选择一个3片段替换到变异构象

的相应位置,否则变异构象

不变；

11.3)将生成的测试构象

放入第二构象池；

12)将第二构象池中测试构象

构建为一个能量数组

13)遍历第二构象池，保留全种群Pareto有效解的构象

过程如下：

13.1)第二构象池内部构象互相比较，保留Pareto有效解的构象

记录构象数为N_TBA；

13.2)将第二构象池内的构象

m∈{1,2,3,…,N_TBA}与第一构象池内的构象

n∈{1,2,3,…,N}进行比较：

13.2.1)如果

使得

则删去第二构象池中的构象

13.2.2)如果

使得

且必定

使得

则用构象

替换第一构象池中的构象

并删去第二构象池中的构象

13.2.3)如果对于任何一个存在于第一构象池中的构象

均存在k∈[1,2,3,4]使得

则将该构象

保留在第二构象池中；

13.2.4)更新N_TBA，记录当前第二构象池中的构象数；

14)对第一构象池的构象

和第二构象池的构象

进行选择操作，过程如下：

为构象C_i内部原子空间中(x,y,z)坐标，

为任一其余构象C_j内部原子空间中(x,y,z)坐标；

15)输出结果。

以序列长度为117的蛋白质1ELW为实施案例，一种基于残基接触图信息博弈机制的蛋白质结构预测方法，包括以下步骤：

1)给定目标蛋白的序列信息；

RaptorX(http://raptorx.uchicago.edu/ContactMap/)；

ResPRE(https://zhanglab.ccmb.med.umich.edu/ResPRE/)；

NeBcon(https://zhanglab.ccmb.med.umich.edu/NeBcon/)；

DeepMetaPSICOV(http://bioinf.cs.ucl.ac.uk/psipred/)；

其中，

5)设置参数：种群大小NP＝200，交叉因子CR＝0.5，迭代次数G＝500，置初始迭代代数g＝0；

构建为一个能量数组

8)根据能量数组

构建第一构象池，过程如下：

8.1)设置初始构象数N＝0；

8.2)遍历种群，将每一个构象C_n的能量数组

使得

9)循环：g＝g+1，如果g＞G则跳转到步骤14)；

执行以下操作生成变异构象

过程如下：

10.1)在1到N范围内随机生成正整数n1,n2,n3，且n1≠n2≠n3≠n；

11)对变异构象

n∈{1,2,3,…,N}执行交叉操作生成测试构象

过程如下：

11.1)生成随机数rand1，其中rand1∈(0,1)；

11.2)若随机数rand1≤CR，则从目标构象

中随机选择一个3片段替换到变异构象

的相应位置,否则变异构象

不变；

11.3)将生成的测试构象

放入第二构象池；

12)将第二构象池中测试构象

代入四个能量函数EnergyRaptorX(C_n)、EnergyResPRE(C_n)、EnergyNeBcon(C_n)、EnergyPSICOV(C_n)中，求得能量值

构建为一个能量数组

13)遍历第二构象池，保留全种群Pareto有效解的构象

过程如下：

13.1)第二构象池内部构象互相比较，保留Pareto有效解的构象

记录构象数为N_TBA；

13.2)将第二构象池内的构象

m∈{1,2,3,…,N_TBA}与第一构象池内的构象

n∈{1,2,3,…,N}进行比较：

13.2.1)如果

使得

则删去第二构象池中的构象

13.2.2)如果

使得

且必定

使得

则用构象

替换第一构象池中的构象

并删去第二构象池中的构象

13.2.3)如果对于任何一个存在于第一构象池中的构象

均存在k∈[1,2,3,4]使得

则将该构象

保留在第二构象池中；

13.2.4)更新N_TBA，记录当前第二构象池中的构象数；

14)对第一构象池的构象

和第二构象池的构象

进行选择操作，过程如下：

为构象C_i内部原子空间中(x,y,z)坐标，

为任一其余构象C_j内部原子空间中(x,y,z)坐标；

15)输出结果。

以序列长度为117的蛋白质1ELW为实例，运用以上方法得到了该蛋白质的近天然态构象，运行500代所得到的结构与天然态结构之间的平均均方根偏差为2.34，最小均方根偏差为1.65，预测得到的三维结构如图3所示。

以上阐述的是本发明给出的一个实例展现出来的结果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种基于残基接触图信息博弈机制的蛋白质结构预测方法，其特征在于：所述方法包括以下步骤：

1)给定目标蛋白的序列信息；

2)根据给定的目标蛋白的序列信息，利用如下四个ContactMap预测服务器：RaptorX、ResPRE、NeBcon和DeepMetaPSICOV；获取四个残基接触信息文件，再进行数据处理之后生成四个contacMap文件分别命名为ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV；