Nothing Special   »   [go: up one dir, main page]

CN113257338A - 一种基于残基接触图信息博弈机制的蛋白质结构预测方法 - Google Patents

一种基于残基接触图信息博弈机制的蛋白质结构预测方法 Download PDF

Info

Publication number
CN113257338A
CN113257338A CN202110440653.1A CN202110440653A CN113257338A CN 113257338 A CN113257338 A CN 113257338A CN 202110440653 A CN202110440653 A CN 202110440653A CN 113257338 A CN113257338 A CN 113257338A
Authority
CN
China
Prior art keywords
conformation
pool
conformations
energy
conformational
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110440653.1A
Other languages
English (en)
Inventor
张贵军
侯铭桦
魏源
彭春祥
杨涛
郭赛赛
周晓根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110440653.1A priority Critical patent/CN113257338A/zh
Publication of CN113257338A publication Critical patent/CN113257338A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于残基接触图信息博弈机制的蛋白质结构预测方法,首先,通过根据CASP比赛Jaccard指标选择的RaptorX、ResPRE、NeBcon、DeepMetaPSICOV四个蛋白质残基接触服务器,获取多张残基接触图从而构建多个能量函数;其次,利用Rosetta第一、第二阶段对种群初始化,然后通过对目标构象进行变异、交叉生成新的测试构象;最后,根据四个残基接触图构建的能量函数,设计基于Pareto的多目标优化算法来对构象进行更新,从而引导算法采样得到结构更接近天然态的构象。本发明提供一种基于残基接触图信息博弈机制的蛋白质结构预测方法。

Description

一种基于残基接触图信息博弈机制的蛋白质结构预测方法
技术领域
本发明涉及生物信息学、计算智能领域,尤其涉及的是一种基于残基接触图信息博弈机制的蛋白质结构预测方法。
背景技术
生命健康是全球未来产业发展的前沿方向,是提升人民健康水平、增强百姓获得感的基础领域。而一切生命过程和种族的繁衍活动都与蛋白质的合成、分解和变化密切相关。蛋白质的三维结构决定其特殊的生物学功能,是生命活动的物质基础。蛋白质的错误折叠有可能导致不能正确行使其功能。比如,在老年痴呆患者的脑中,存在大量由错误折叠蛋白质形成的杂乱的蛋白质簇。因此,要想实现生命健康领域的突破,更深层次地理解生命现象和生命过程以实现靶向药物研发,其先决条件就是获取蛋白质的三维结构。
目前,利用传统的生物湿实验的方法,包括X射线晶体衍射、核磁共振和低温冷冻电镜,虽然能够测定蛋白质三维结构,但对材料、仪器和人员要求高并且极其耗时。因此,利用计算技术,对序列进行结构建模,探索蛋白质结构预测成为迫切需求。
蛋白质结构预测作为生物信息学领域的重大研究问题,目前领域内主要有两块,一个是根据生物分子的理化知识来构建能量函数模型,从早些年的CASP比赛开始一直引领着潮流,到现在也是占据着举足轻重的地位。其代表就是华盛顿大学Baker实验室的Rosetta,密西根大学张阳实验室的I-TASSER。作为结构预测工具,Rosetta算法能够对多种生物分子系统进行预测、设计和分析,包括蛋白质,RNA,DNA,肽,小分子以及非规范或衍生氨基酸。I-TASSER是一种用于蛋白质结构和功能预测方法。它通过多线程方法LOMETS、蛋白质功能数据库BioLiP等预测靶标的功能。理化模型方法取得丰硕成果的同时,也显露出了其表达精确性不足,特征不完善等缺点。而另一块,主要是基于深度学习来预测contact、distance等信息从而构建知识模型。在前几天出来的CASP14结果中,Google提出的AlphaFold在人工组排名第一,且远超第二,腾讯,tfold首次参赛也在contact组也取得了排名第一的好成绩。
从CASP比赛接触预测方面的结果来看,虽然目前contact预测精度越来越高,但依旧存在着错误信息;而由Jaccard距离图可知不同的预测服务器所捕获的信息集合是不同的。此外,虽然目前深度学习方法在蛋白质结构预测领域尤其是残基接触预测取得了巨大进步,但是在蛋白质结构折叠时,对于多份不同的残基接触信息,往往会采用简单的加权叠加进行整合,从而导致一部分预测到的残基接触信息的丢失,预测精度也难免会受到影响。另一方面,通过计算技术进行蛋白结构预测通常采用单个能量函数进行评估,采样能力受限,其最终获得蛋白构象的能量也许最优但并不一定是最优构象,也就是说能量低的构象不一定是最接近天然态构象的。
因此,现有的蛋白质结构预测方法数据接收效率和构象选择评价上存在不足,需要改进。
发明内容:
为了克服现有的蛋白质结构预测方法数据接收效率低、预测精度较低的不足,本发明基于RaptorX、ResPRE、NeBcon、DeepMetaPSICOV四个蛋白质残基接触服务器和Rosetta平台,由多张残基接触图构建多个能量函数,并采用多目标优化方法来指导构象空间优化,提出一种基于残基接触图信息博弈机制的蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于残基接触图信息博弈机制的蛋白质结构预测方法,所述方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据给定的目标蛋白的序列信息,利用如下四个ContactMap预测服务器:
RaptorX(http://raptorx.uchicago.edu/ContactMap/);
ResPRE(https://zhanglab.ccmb.med.umich.edu/ResPRE/);
NeBcon(https://zhanglab.ccmb.med.umich.edu/NeBcon/);
DeepMetaPSICOV(http://bioinf.cs.ucl.ac.uk/psipred/);
获取四个残基接触信息文件,再进行数据处理之后生成四个contacMap文件分别为ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV;
3)根据ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV四个contactMap文件分别构建能量函数Energy RaptorX(Cn)、Energy ResPRE(Cn)、Energy NeBcon(Cn)、Energy PSICOV(Cn),公式如下:
Figure BDA0003035148580000031
Figure BDA0003035148580000032
Figure BDA0003035148580000033
Figure BDA0003035148580000034
Figure BDA0003035148580000035
Figure BDA0003035148580000036
Figure BDA0003035148580000037
Figure BDA0003035148580000038
其中,
Figure BDA0003035148580000039
分别表示残基接触图ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV中第k个残基对(i,j)接触的置信度,
Figure BDA00030351485800000310
表示第k个残基对(i,j)之间的真实距离,dcon为阈值8,即两个残基接触的最大距离,
Figure BDA00030351485800000311
Figure BDA00030351485800000312
分别表示构象Cn的残基对(i,j)在四个能量函数EnergyRaptorX(Cn)、Energy ResPRE(Cn)、Energy NeBcon(Cn)、EnergyPSICOV(Cn)中的接触得分;
4)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)获取片段库文件,其中包括3片段库文件和9片段库文件;
5)设置参数:种群大小NP,交叉因子CR,迭代次数G,置初始迭代代数g=0;
6)种群初始化:随机片段组装生成NP个初始构象Cn,n={1,2,…,NP};
7)将构象Cn代入四个能量函数Energy RaptorX(Cn)、Energy ResPRE(Cn)、EnergyNeBcon(Cn)、Energy PSICOV(Cn)中,求得能量值
Figure BDA0003035148580000041
构建为一个能量数组
Figure BDA0003035148580000042
8)根据能量数组
Figure BDA0003035148580000043
构建第一构象池,过程如下:
8.1)设置初始构象数N=0;
8.2)遍历种群,将每一个构象Cn的能量数组
Figure BDA0003035148580000044
与其他所有构象进行比较,如果没有一个构象的四个能量值均优于当前构象Cn,即
Figure BDA0003035148580000045
使得
Figure BDA0003035148580000046
其中Cm为除当前构象Cn外任一构象,则记该解为Pareto有效解;
8.3)将Pareto有效解的构象放入第一构象池,记录当前构象数为N,并将其余构象清除;
9)循环:g=g+1,如果g>G则跳转到步骤14);
10)将第一构象池中的构象个体Cn,n∈{1,2,3,…,N}看作目标构象个体
Figure BDA0003035148580000047
执行以下操作生成变异构象
Figure BDA0003035148580000048
过程如下:
10.1)在1到N范围内随机生成正整数n1,n2,n3,且n1≠n2≠n3≠n;
10.2)在构象Cn1位置上随机选取一个9片段替换构象Cn3的相同位置所对应的片段,再从构象Cn2位置上随机的选取一个与构象Cn1选取位置不相同的9片段替换构象Cn3的相同位置所对应的片段,然后用对构象Cn3进行3片段组装生成变异构象个体
Figure BDA0003035148580000049
11)对变异构象
Figure BDA00030351485800000410
n∈{1,2,3,…,N}执行交叉操作生成测试构象
Figure BDA00030351485800000411
过程如下:
11.1)生成随机数rand1,其中rand1∈(0,1);
11.2)若随机数rand1≤CR,则从目标构象
Figure BDA00030351485800000412
中随机选择一个3片段替换到变异构象
Figure BDA00030351485800000413
的相应位置,否则变异构象
Figure BDA00030351485800000414
不变;
11.3)将生成的测试构象
Figure BDA0003035148580000051
放入第二构象池;
12)将第二构象池中测试构象
Figure BDA0003035148580000052
代入四个能量函数Energy RaptorX(Cn)、EnergyResPRE(Cn)、Energy NeBcon(Cn)、Energy PSICOV(Cn)中,求得能量值
Figure BDA0003035148580000053
Figure BDA0003035148580000054
构建为一个能量数组
Figure BDA0003035148580000055
13)遍历第二构象池,保留全种群Pareto有效解的构象
Figure BDA0003035148580000056
过程如下:
13.1)第二构象池内部构象互相比较,保留Pareto有效解的构象
Figure BDA0003035148580000057
记录构象数为NTBA
13.2)将第二构象池内的构象
Figure BDA0003035148580000058
m∈{1,2,3,…,NTBA}与第一构象池内的构象
Figure BDA0003035148580000059
n∈{1,2,3,…,N}进行比较:
13.2.1)如果
Figure BDA00030351485800000510
使得
Figure BDA00030351485800000511
则删去第二构象池中的构象
Figure BDA00030351485800000512
13.2.2)如果
Figure BDA00030351485800000513
使得
Figure BDA00030351485800000514
且必定
Figure BDA00030351485800000515
使得
Figure BDA00030351485800000516
则用构象
Figure BDA00030351485800000517
替换第一构象池中的构象
Figure BDA00030351485800000518
并删去第二构象池中的构象
Figure BDA00030351485800000519
13.2.3)如果对于任何一个存在于第一构象池中的构象
Figure BDA00030351485800000520
均存在k∈[1,2,3,4]使得
Figure BDA00030351485800000521
则将该构象
Figure BDA00030351485800000522
保留在第二构象池中;
13.2.4)更新NTBA,记录当前第二构象池中的构象数;
14)对第一构象池的构象
Figure BDA00030351485800000523
和第二构象池的构象
Figure BDA00030351485800000524
进行选择操作,过程如下:
14.1)如果第一构象池和第二构象池的构象数目之和大于设定的种群数量,即N+NTBA≥NP,则继续步骤14.2),否则将第二构象池中的构象放入第一构象池,清空第二构象池并跳转至步骤9);
14.2)引入构象相似度指标RMSD,通过计算两个构象池中每个构象与其余所有构象之间的RMSD值,计算公式如(5),其中
Figure BDA00030351485800000525
为构象Ci内部原子空间中(x,y,z)坐标,
Figure BDA00030351485800000526
为任一其余构象Cj内部原子空间中(x,y,z)坐标;
Figure BDA0003035148580000061
14.3)根据RMSD值判断构象相似度,选取多样性最丰富的NP个构象放入第一构象池,清空第二构象池并转到步骤9);
15)输出结果。
本发明的技术构思为:首先,通过RaptorX、ResPRE、NeBcon、DeepMetaPSICOV四个蛋白质残基接触服务器,获取多张残基接触图从而构建多个能量函数;其次,利用Rosetta第一、第二阶段对种群初始化,然后通过对目标构象进行变异、交叉生成新的测试构象;最后,根据四个残基接触图构建的能量函数,设计基于Pareto的多目标优化算法来对构象进行更新,从而引导算法采样得到结构更接近天然态的构象。本发明提供一种基于残基接触图信息博弈机制的蛋白质结构预测方法。
本发明的有益效果为:首先,通过不同服务器预测获取得到的残基接触信息,增加了接触信息来源多样性,降低了单一接触图可能导致的信息缺失、错漏对结构预测的影响;其次,结合多目标优化算法设计了基于残基接触信息博弈机制的构象选择方法,避免因传统能量模型不精确而导致构象引导错误。
附图说明
图1是四张预测的残基接触图经过处理后的信息。
图2是基于残基接触图信息博弈机制的蛋白质结构预测方法对蛋白质1ELW采样得到的构象分布图。
图3是基于残基接触图信息博弈机制的蛋白质结构预测方法对1ELW蛋白结构预测得到的三维结构。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于多残基接触图协同约束的蛋白质结构预测方法,所述方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据给定的目标蛋白的序列信息,利用如下四个ContactMap预测服务器:
RaptorX(http://raptorx.uchicago.edu/ContactMap/);
ResPRE(https://zhanglab.ccmb.med.umich.edu/ResPRE/);
NeBcon(https://zhanglab.ccmb.med.umich.edu/NeBcon/);
DeepMetaPSICOV(http://bioinf.cs.ucl.ac.uk/psipred/);
获取四个残基接触信息文件,再进行数据处理之后生成四个contacMap文件分别为ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV;
3)根据ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV四个contactMap文件分别构建能量函数EnergyRaptorX(Cn)、EnergyResPRE(Cn)、EnergyNeBcon(Cn)、EnergyPSICOV(Cn),公式如下:
Figure BDA0003035148580000071
Figure BDA0003035148580000072
Figure BDA0003035148580000073
Figure BDA0003035148580000074
Figure BDA0003035148580000075
Figure BDA0003035148580000076
Figure BDA0003035148580000077
Figure BDA0003035148580000078
其中,
Figure BDA0003035148580000079
分别表示残基接触图ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV中第k个残基对(i,j)接触的置信度,
Figure BDA0003035148580000081
表示第k个残基对(i,j)之间的真实距离,dcon为阈值8,即两个残基接触的最大距离,
Figure BDA0003035148580000082
Figure BDA0003035148580000083
分别表示构象Cn的残基对(i,j)在四个能量函数Energy RaptorX(Cn)、Energy ResPRE(Cn)、Energy NeBcon(Cn)、EnergyPSICOV(Cn)中的接触得分;
4)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)获取片段库文件,其中包括3片段库文件和9片段库文件;
5)设置参数:种群大小NP,交叉因子CR,迭代次数G,置初始迭代代数g=0;
6)种群初始化:随机片段组装生成NP个初始构象Cn,n={1,2,…,NP};
7)将构象Cn代入四个能量函数Energy RaptorX(Cn)、Energy ResPRE(Cn)、EnergyNeBcon(Cn)、Energy PSICOV(Cn)中,求得能量值
Figure BDA0003035148580000084
构建为一个能量数组
Figure BDA0003035148580000085
8)根据能量数组
Figure BDA0003035148580000086
构建第一构象池,过程如下:
8.1)设置初始构象数N=0;
8.2)遍历种群,将每一个构象Cn的能量数组
Figure BDA0003035148580000087
与其他所有构象进行比较,如果没有一个构象的四个能量值均优于当前构象Cn,即
Figure BDA0003035148580000088
使得
Figure BDA0003035148580000089
其中Cm为除当前构象Cn外任一构象,则记该解为Pareto有效解;
8.3)将Pareto有效解的构象放入第一构象池,记录当前构象数为N,并将其余构象清除;
9)循环:g=g+1,如果g>G则跳转到步骤14);
10)将第一构象池中的构象个体Cn,n∈{1,2,3,…,N}看作目标构象个体
Figure BDA00030351485800000810
执行以下操作生成变异构象
Figure BDA00030351485800000811
过程如下:
10.1)在1到N范围内随机生成正整数n1,n2,n3,且n1≠n2≠n3≠n;
10.2)在构象Cn1位置上随机选取一个9片段替换构象Cn3的相同位置所对应的片段,再从构象Cn2位置上随机的选取一个与构象Cn1选取位置不相同的9片段替换构象Cn3的相同位置所对应的片段,然后用对构象Cn3进行3片段组装生成变异构象个体
Figure BDA0003035148580000091
11)对变异构象
Figure BDA0003035148580000092
n∈{1,2,3,…,N}执行交叉操作生成测试构象
Figure BDA0003035148580000093
过程如下:
11.1)生成随机数rand1,其中rand1∈(0,1);
11.2)若随机数rand1≤CR,则从目标构象
Figure BDA0003035148580000094
中随机选择一个3片段替换到变异构象
Figure BDA0003035148580000095
的相应位置,否则变异构象
Figure BDA0003035148580000096
不变;
11.3)将生成的测试构象
Figure BDA0003035148580000097
放入第二构象池;
12)将第二构象池中测试构象
Figure BDA0003035148580000098
代入四个能量函数Energy RaptorX(Cn)、EnergyResPRE(Cn)、Energy NeBcon(Cn)、Energy PSICOV(Cn)中,求得能量值
Figure BDA0003035148580000099
Figure BDA00030351485800000910
构建为一个能量数组
Figure BDA00030351485800000911
13)遍历第二构象池,保留全种群Pareto有效解的构象
Figure BDA00030351485800000912
过程如下:
13.1)第二构象池内部构象互相比较,保留Pareto有效解的构象
Figure BDA00030351485800000913
记录构象数为NTBA
13.2)将第二构象池内的构象
Figure BDA00030351485800000914
m∈{1,2,3,…,NTBA}与第一构象池内的构象
Figure BDA00030351485800000915
n∈{1,2,3,…,N}进行比较:
13.2.1)如果
Figure BDA00030351485800000916
使得
Figure BDA00030351485800000917
则删去第二构象池中的构象
Figure BDA00030351485800000918
13.2.2)如果
Figure BDA00030351485800000919
使得
Figure BDA00030351485800000920
且必定
Figure BDA00030351485800000921
使得
Figure BDA00030351485800000922
则用构象
Figure BDA00030351485800000923
替换第一构象池中的构象
Figure BDA00030351485800000924
并删去第二构象池中的构象
Figure BDA00030351485800000925
13.2.3)如果对于任何一个存在于第一构象池中的构象
Figure BDA00030351485800000926
均存在k∈[1,2,3,4]使得
Figure BDA00030351485800000927
则将该构象
Figure BDA00030351485800000928
保留在第二构象池中;
13.2.4)更新NTBA,记录当前第二构象池中的构象数;
14)对第一构象池的构象
Figure BDA00030351485800000929
和第二构象池的构象
Figure BDA00030351485800000930
进行选择操作,过程如下:
14.1)如果第一构象池和第二构象池的构象数目之和大于设定的种群数量,即N+NTBA≥NP,则继续步骤14.2),否则将第二构象池中的构象放入第一构象池,清空第二构象池并跳转至步骤9);
14.2)引入构象相似度指标RMSD,通过计算两个构象池中每个构象与其余所有构象之间的RMSD值,计算公式如(5),其中
Figure BDA0003035148580000101
为构象Ci内部原子空间中(x,y,z)坐标,
Figure BDA0003035148580000102
为任一其余构象Cj内部原子空间中(x,y,z)坐标;
Figure BDA0003035148580000103
14.3)根据RMSD值判断构象相似度,选取多样性最丰富的NP个构象放入第一构象池,清空第二构象池并转到步骤9);
15)输出结果。
以序列长度为117的蛋白质1ELW为实施案例,一种基于残基接触图信息博弈机制的蛋白质结构预测方法,包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据给定的目标蛋白的序列信息,利用如下四个ContactMap预测服务器:
RaptorX(http://raptorx.uchicago.edu/ContactMap/);
ResPRE(https://zhanglab.ccmb.med.umich.edu/ResPRE/);
NeBcon(https://zhanglab.ccmb.med.umich.edu/NeBcon/);
DeepMetaPSICOV(http://bioinf.cs.ucl.ac.uk/psipred/);
获取四个残基接触信息文件,再进行数据处理之后生成四个contacMap文件分别为ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV;
3)根据ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV四个contactMap文件分别构建能量函数EnergyRaptorX(Cn)、EnergyResPRE(Cn)、EnergyNeBcon(Cn)、EnergyPSICOV(Cn),公式如下:
Figure BDA0003035148580000104
Figure BDA0003035148580000105
Figure BDA0003035148580000111
Figure BDA0003035148580000112
Figure BDA0003035148580000113
Figure BDA0003035148580000114
Figure BDA0003035148580000115
Figure BDA0003035148580000116
其中,
Figure BDA0003035148580000117
分别表示残基接触图ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV中第k个残基对(i,j)接触的置信度,
Figure BDA0003035148580000118
表示第k个残基对(i,j)之间的真实距离,dcon为阈值8,即两个残基接触的最大距离,
Figure BDA0003035148580000119
Figure BDA00030351485800001110
分别表示构象Cn的残基对(i,j)在四个能量函数Energy RaptorX(Cn)、Energy ResPRE(Cn)、Energy NeBcon(Cn)、EnergyPSICOV(Cn)中的接触得分;
4)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)获取片段库文件,其中包括3片段库文件和9片段库文件;
5)设置参数:种群大小NP=200,交叉因子CR=0.5,迭代次数G=500,置初始迭代代数g=0;
6)种群初始化:随机片段组装生成NP个初始构象Cn,n={1,2,…,NP};
7)将构象Cn代入四个能量函数Energy RaptorX(Cn)、Energy ResPRE(Cn)、EnergyNeBcon(Cn)、Energy PSICOV(Cn)中,求得能量值
Figure BDA00030351485800001111
构建为一个能量数组
Figure BDA0003035148580000121
8)根据能量数组
Figure BDA0003035148580000122
构建第一构象池,过程如下:
8.1)设置初始构象数N=0;
8.2)遍历种群,将每一个构象Cn的能量数组
Figure BDA0003035148580000123
与其他所有构象进行比较,如果没有一个构象的四个能量值均优于当前构象Cn,即
Figure BDA00030351485800001218
使得
Figure BDA0003035148580000124
其中Cm为除当前构象Cn外任一构象,则记该解为Pareto有效解;
8.3)将Pareto有效解的构象放入第一构象池,记录当前构象数为N,并将其余构象清除;
9)循环:g=g+1,如果g>G则跳转到步骤14);
10)将第一构象池中的构象个体Cn,n∈{1,2,3,…,N}看作目标构象个体
Figure BDA0003035148580000125
执行以下操作生成变异构象
Figure BDA0003035148580000126
过程如下:
10.1)在1到N范围内随机生成正整数n1,n2,n3,且n1≠n2≠n3≠n;
10.2)在构象Cn1位置上随机选取一个9片段替换构象Cn3的相同位置所对应的片段,再从构象Cn2位置上随机的选取一个与构象Cn1选取位置不相同的9片段替换构象Cn3的相同位置所对应的片段,然后用对构象Cn3进行3片段组装生成变异构象个体
Figure BDA0003035148580000127
11)对变异构象
Figure BDA0003035148580000128
n∈{1,2,3,…,N}执行交叉操作生成测试构象
Figure BDA0003035148580000129
过程如下:
11.1)生成随机数rand1,其中rand1∈(0,1);
11.2)若随机数rand1≤CR,则从目标构象
Figure BDA00030351485800001210
中随机选择一个3片段替换到变异构象
Figure BDA00030351485800001211
的相应位置,否则变异构象
Figure BDA00030351485800001212
不变;
11.3)将生成的测试构象
Figure BDA00030351485800001213
放入第二构象池;
12)将第二构象池中测试构象
Figure BDA00030351485800001214
代入四个能量函数EnergyRaptorX(Cn)、EnergyResPRE(Cn)、EnergyNeBcon(Cn)、EnergyPSICOV(Cn)中,求得能量值
Figure BDA00030351485800001215
Figure BDA00030351485800001216
构建为一个能量数组
Figure BDA00030351485800001217
13)遍历第二构象池,保留全种群Pareto有效解的构象
Figure BDA0003035148580000131
过程如下:
13.1)第二构象池内部构象互相比较,保留Pareto有效解的构象
Figure BDA0003035148580000132
记录构象数为NTBA
13.2)将第二构象池内的构象
Figure BDA0003035148580000133
m∈{1,2,3,…,NTBA}与第一构象池内的构象
Figure BDA0003035148580000134
n∈{1,2,3,…,N}进行比较:
13.2.1)如果
Figure BDA0003035148580000135
使得
Figure BDA0003035148580000136
则删去第二构象池中的构象
Figure BDA0003035148580000137
13.2.2)如果
Figure BDA0003035148580000138
使得
Figure BDA0003035148580000139
且必定
Figure BDA00030351485800001310
使得
Figure BDA00030351485800001311
则用构象
Figure BDA00030351485800001312
替换第一构象池中的构象
Figure BDA00030351485800001313
并删去第二构象池中的构象
Figure BDA00030351485800001314
13.2.3)如果对于任何一个存在于第一构象池中的构象
Figure BDA00030351485800001315
均存在k∈[1,2,3,4]使得
Figure BDA00030351485800001316
则将该构象
Figure BDA00030351485800001317
保留在第二构象池中;
13.2.4)更新NTBA,记录当前第二构象池中的构象数;
14)对第一构象池的构象
Figure BDA00030351485800001318
和第二构象池的构象
Figure BDA00030351485800001319
进行选择操作,过程如下:
14.1)如果第一构象池和第二构象池的构象数目之和大于设定的种群数量,即N+NTBA≥NP,则继续步骤14.2),否则将第二构象池中的构象放入第一构象池,清空第二构象池并跳转至步骤9);
14.2)引入构象相似度指标RMSD,通过计算两个构象池中每个构象与其余所有构象之间的RMSD值,计算公式如(5),其中
Figure BDA00030351485800001320
为构象Ci内部原子空间中(x,y,z)坐标,
Figure BDA00030351485800001321
为任一其余构象Cj内部原子空间中(x,y,z)坐标;
Figure BDA00030351485800001322
14.3)根据RMSD值判断构象相似度,选取多样性最丰富的NP个构象放入第一构象池,清空第二构象池并转到步骤9);
15)输出结果。
以序列长度为117的蛋白质1ELW为实例,运用以上方法得到了该蛋白质的近天然态构象,运行500代所得到的结构与天然态结构之间的平均均方根偏差为2.34,最小均方根偏差为1.65,预测得到的三维结构如图3所示。
以上阐述的是本发明给出的一个实例展现出来的结果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种基于残基接触图信息博弈机制的蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据给定的目标蛋白的序列信息,利用如下四个ContactMap预测服务器:RaptorX、ResPRE、NeBcon和DeepMetaPSICOV;获取四个残基接触信息文件,再进行数据处理之后生成四个contacMap文件分别命名为ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV;
3)根据ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV四个contactMap文件分别构建能量函数EnergyRaptorX(Cn)、EnergyResPRE(Cn)、EnergyNeBcon(Cn)、EnergyPSICOV(Cn),公式如下:
Figure FDA0003035148570000011
Figure FDA0003035148570000012
Figure FDA0003035148570000013
Figure FDA0003035148570000014
Figure FDA0003035148570000015
Figure FDA0003035148570000016
Figure FDA0003035148570000017
Figure FDA0003035148570000021
其中,
Figure FDA0003035148570000022
分别表示残基接触图ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV中第k个残基对(i,j)接触的置信度,
Figure FDA0003035148570000023
表示第k个残基对(i,j)之间的真实距离,dcon为阈值8,即两个残基接触的最大距离,
Figure FDA0003035148570000024
Figure FDA0003035148570000025
分别表示构象Cn的残基对(i,j)在四个能量函数EnergyRaptorX(Cn)、EnergyResPRE(Cn)、EnergyNeBcon(Cn)、EnergyPSICOV(Cn)中的接触得分;
4)根据目标蛋白序列从ROBETTA服务器获取片段库文件,其中包括3片段库文件和9片段库文件;
5)设置参数:种群大小NP,交叉因子CR,迭代次数G,置初始迭代代数g=0;
6)种群初始化:随机片段组装生成NP个初始构象Cn,n={1,2,…,NP};
7)将构象Cn代入四个能量函数EnergyRaptorX(Cn)、EnergyResPRE(Cn)、EnergyNeBcon(Cn)、EnergyPSICOV(Cn)中,求得能量值
Figure FDA0003035148570000026
构建为一个能量数组
Figure FDA0003035148570000027
8)根据能量数组
Figure FDA0003035148570000028
构建第一构象池,过程如下:
8.1)设置初始构象数N=0;
8.2)遍历种群,将每一个构象Cn的能量数组
Figure FDA0003035148570000029
与其他所有构象进行比较,如果没有一个构象的四个能量值均优于当前构象Cn,即
Figure FDA00030351485700000210
使得
Figure FDA00030351485700000211
其中Cm为除当前构象Cn外任一构象,则记该解为Pareto有效解;
8.3)将Pareto有效解的构象放入第一构象池,记录当前构象数为N,并将其余构象清除;
9)循环:g=g+1,如果g>G则跳转到步骤14);
10)将第一构象池中的构象个体Cn,n∈{1,2,3,…,N}看作目标构象个体
Figure FDA0003035148570000031
执行以下操作生成变异构象
Figure FDA0003035148570000032
过程如下:
6.1)在1到N范围内随机生成正整数n1,n2,n3,且n1≠n2≠n3≠n;
6.2)在构象Cn1位置上随机选取一个9片段替换构象Cn3的相同位置所对应的片段,再从构象Cn2位置上随机的选取一个与构象Cn1选取位置不相同的9片段替换构象Cn3的相同位置所对应的片段,然后用对构象Cn3进行3片段组装生成变异构象个体
Figure FDA0003035148570000033
11)对变异构象
Figure FDA0003035148570000034
执行交叉操作生成测试构象
Figure FDA0003035148570000035
过程如下:
11.1)生成随机数rand1,其中rand1∈(0,1);
11.2)若随机数rand1≤CR,则从目标构象
Figure FDA0003035148570000036
中随机选择一个3片段替换到变异构象
Figure FDA0003035148570000037
的相应位置,否则变异构象
Figure FDA0003035148570000038
不变;
11.3)将生成的测试构象
Figure FDA0003035148570000039
放入第二构象池;
12)将第二构象池中测试构象
Figure FDA00030351485700000310
代入四个能量函数EnergyRaptorX(Cn)、EnergyResPRE(Cn)、EnergyNeBcon(Cn)、EnergyPSICOV(Cn)中,求得能量值
Figure FDA00030351485700000311
Figure FDA00030351485700000312
构建为一个能量数组
Figure FDA00030351485700000313
13)遍历第二构象池,保留全种群Pareto有效解的构象
Figure FDA00030351485700000314
过程如下:
13.1)第二构象池内部构象互相比较,保留Pareto有效解的构象
Figure FDA00030351485700000315
记录构象数为NTBA
13.2)将第二构象池内的构象
Figure FDA00030351485700000316
与第一构象池内的构象
Figure FDA00030351485700000317
进行比较:
13.2.1)如果
Figure FDA00030351485700000318
使得
Figure FDA00030351485700000319
则删去第二构象池中的构象
Figure FDA00030351485700000320
13.2.2)如果
Figure FDA00030351485700000321
使得
Figure FDA00030351485700000322
且必定
Figure FDA00030351485700000323
使得
Figure FDA00030351485700000324
则用构象
Figure FDA00030351485700000325
替换第一构象池中的构象
Figure FDA00030351485700000326
并删去第二构象池中的构象
Figure FDA0003035148570000041
13.2.3)如果对于任何一个存在于第一构象池中的构象
Figure FDA0003035148570000042
均存在k∈[1,2,3,4]使得
Figure FDA0003035148570000043
则将该构象
Figure FDA0003035148570000044
保留在第二构象池中;
13.2.4)更新NTBA,记录当前第二构象池中的构象数;
14)对第一构象池的构象
Figure FDA0003035148570000045
和第二构象池的构象
Figure FDA0003035148570000046
进行选择操作,过程如下:
8.1)如果第一构象池和第二构象池的构象数目之和大于设定的种群数量,即N+NTBA≥NP,则继续步骤14.2),否则将第二构象池中的构象放入第一构象池,清空第二构象池并跳转至步骤9);
8.2)引入构象相似度指标RMSD,通过计算两个构象池中每个构象与其余所有构象之间的RMSD值,计算公式如(5),其中
Figure FDA0003035148570000047
为构象Ci内部原子空间中(x,y,z)坐标,
Figure FDA0003035148570000048
为任一其余构象Cj内部原子空间中(x,y,z)坐标;
Figure FDA0003035148570000049
8.3)根据RMSD值判断构象相似度,选取多样性最丰富的NP个构象放入第一构象池,清空第二构象池并转到步骤9);
15)输出结果。
CN202110440653.1A 2021-04-23 2021-04-23 一种基于残基接触图信息博弈机制的蛋白质结构预测方法 Withdrawn CN113257338A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110440653.1A CN113257338A (zh) 2021-04-23 2021-04-23 一种基于残基接触图信息博弈机制的蛋白质结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110440653.1A CN113257338A (zh) 2021-04-23 2021-04-23 一种基于残基接触图信息博弈机制的蛋白质结构预测方法

Publications (1)

Publication Number Publication Date
CN113257338A true CN113257338A (zh) 2021-08-13

Family

ID=77221402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110440653.1A Withdrawn CN113257338A (zh) 2021-04-23 2021-04-23 一种基于残基接触图信息博弈机制的蛋白质结构预测方法

Country Status (1)

Country Link
CN (1) CN113257338A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114121146A (zh) * 2021-11-29 2022-03-01 山东建筑大学 一种基于并行和蒙特卡罗策略的rna三级结构预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114121146A (zh) * 2021-11-29 2022-03-01 山东建筑大学 一种基于并行和蒙特卡罗策略的rna三级结构预测方法
CN114121146B (zh) * 2021-11-29 2023-10-03 山东建筑大学 一种基于并行和蒙特卡罗策略的rna三级结构预测方法

Similar Documents

Publication Publication Date Title
CN109524058B (zh) 一种基于差分进化的蛋白质二聚体结构预测方法
CN108846256B (zh) 一种基于残基接触信息的群体蛋白质结构预测方法
CN114093515A (zh) 一种基于肠道菌群预测模型集成学习的年龄预测方法
CN109727637B (zh) 基于混合蛙跳算法识别关键蛋白质的方法
CN113257338A (zh) 一种基于残基接触图信息博弈机制的蛋白质结构预测方法
CN109101785B (zh) 一种基于二级结构相似性选择策略的蛋白质结构预测方法
CN109086565B (zh) 一种基于残基间接触约束的蛋白质结构预测方法
CN112085245B (zh) 一种基于深度残差神经网络的蛋白质残基接触预测方法
Zhang et al. Two-stage distance feature-based optimization algorithm for de novo protein structure prediction
Souza et al. Detecting clustered independent rare variant associations using genetic algorithms
CN109378034B (zh) 一种基于距离分布估计的蛋白质预测方法
CN110729023B (zh) 一种基于二级结构元素接触辅助的蛋白质结构预测方法
CN110444249B (zh) 一种基于计算的预测荧光蛋白质的方法
CN110610742B (zh) 一种基于蛋白质互作网络的功能模块检测方法
CN109448785B (zh) 一种使用拉氏图增强Loop区域结构的蛋白质结构预测方法
Qiu et al. Exploiting protein language model sequence representations for repeat detection
CN109243526B (zh) 一种基于特定片段交叉的蛋白质结构预测方法
CN109390035B (zh) 一种基于局部结构比对的蛋白质构象空间优化方法
CN112085246B (zh) 一种基于残基对距离约束的蛋白质结构预测方法
CN112967751A (zh) 一种基于进化搜索的蛋白质构象空间优化方法
Liu et al. Bayesian methods in biological sequence analysis
Zeng et al. Interpretable improving prediction performance of general protein language model by domain-adaptive pretraining on DNA-binding protein
CN111815036B (zh) 一种基于多残基接触图协同约束的蛋白质结构预测方法
CN110189794A (zh) 一种残基接触引导loop扰动的群体蛋白质结构预测方法
CN118538328B (zh) 二面角能量预测模型的训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210813

WW01 Invention patent application withdrawn after publication