Nothing Special   »   [go: up one dir, main page]

CN110148437B - 一种残基接触辅助策略自适应的蛋白质结构预测方法 - Google Patents

一种残基接触辅助策略自适应的蛋白质结构预测方法 Download PDF

Info

Publication number
CN110148437B
CN110148437B CN201910302620.3A CN201910302620A CN110148437B CN 110148437 B CN110148437 B CN 110148437B CN 201910302620 A CN201910302620 A CN 201910302620A CN 110148437 B CN110148437 B CN 110148437B
Authority
CN
China
Prior art keywords
conformation
residue
contact
strategy
population
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910302620.3A
Other languages
English (en)
Other versions
CN110148437A (zh
Inventor
彭春祥
张贵军
刘俊
赵凯龙
周晓根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910302620.3A priority Critical patent/CN110148437B/zh
Publication of CN110148437A publication Critical patent/CN110148437A/zh
Application granted granted Critical
Publication of CN110148437B publication Critical patent/CN110148437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Physiology (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种残基接触辅助策略自适应的蛋白质结构预测方法,在进化算法框架下,首先,建立四种不同的自适应变异策略,算法前期四种变异策略都等概率被选择,当算法经历一段学习周期LP后,算法采取自适应的变异策略对构象进行变异,并且对生成的变异构象进行一次片段组装,生成变异构象;其次对变异构象进行交叉操作;最后用残基接触能量CI辅助Rosetta能量函数score3对构象进行选择;迭代上述过程直至满足条件后输出结果。本发明提供一种采样效率高、预测精度高的残基接触辅助策略自适应的蛋白质结构预测方法。

Description

一种残基接触辅助策略自适应的蛋白质结构预测方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种残基接触辅助策略自适应的蛋白质结构预测方法。
背景技术
蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此,要了解蛋白质的功能,就必须获得其三维空间结构。
测定蛋白质三维结构的实验方法主要包括X射线晶体衍射和多维核磁共振(NMR)。X射线晶体衍射是目前测定蛋白质结构最有效的方法,所达到的精度是其它方法所不能比拟的,主要缺点是蛋白质晶体难以培养且晶体结构测定的周期较长;NMR方法可以直接测定蛋白质在溶液中的构象,但是对样品的需要量大、纯度要求高,目前只能测定小分子蛋白质。实验测定结构方法存在的主要问题在于两个方面:一方面,对于现代药物设计的主要靶标—膜蛋白而言,极难获得其结构;另外,实验测定过程费时费钱费力,代价不菲,比如,使用NMR方法测定一个蛋白质结构通常需要15万美元以及半年的时间。所以蛋白质三级结构预测是生物信息学的一个重要任务。
目前,蛋白质结构预测方法大致可以分为两类,基于模板的方法和从头预测方法。其中,从头预测方法直接基于蛋白质物理或知识能量模型,利用优化算法在构象空间搜索全局最低能量构象解。构象空间优化(或称采样)方法是目前制约蛋白质结构从头预测精度最关键的因素之一。优化算法应用于从头预测采样过程必须首先解决以下三个方面的问题:(1)能量模型的复杂性。蛋白质能量模型考虑分子体系成键作用以及范德华力、静电、氢键、疏水等非成键作用,致使其形成的能量曲面极其粗糙,局部极小解数量随着序列长度的增加呈指数增长;能量模型的漏斗特性也必然会产生局部高能量障碍,导致算法极易陷入局部解。(2)能量模型高维特性。就目前而言,从头预测方法只能应对尺寸较小(<150残基)的目标蛋白,一般不超过100。对尺寸超过150残基以上的目标蛋白,现有优化方法均无能为力。这也就进一步说明了随着尺寸规模的增加,必然造成维数灾问题,完成如此浩瀚的构象搜索过程所涉及的计算量是目前最先进的计算机也难以承受的。(3)能量模型的不精确性。对于蛋白质这类复杂的生物大分子,除了考虑各种物理成键和知识推理的作用之外,还要考虑它与周围溶剂分子的相互作用,目前还无法给出精确的物理描述。考虑到计算代价问题,近十年来研究者陆续提出了一些列基于物理的力场简化模型(AMBER,CHARMM等)、基于知识的力场简化模型(Rosetta,QUARK等)。然而,我们还远远无法构建起能引导目标序列朝正确方向折叠的足够精确力场,导致数学上的最优解并不一定对应于目标蛋白的天然态结构;此外,模型的不精确性也必然会导致无法对算法性能进行客观地分析,从而阻碍了高性能算法在蛋白质结构从头预测领域中的应用。
随着氨基酸序列的增长,蛋白质分子体系自由度也增大,利用传统群体算法采样获得大规模蛋白质构象空间的全局最优解成为一项挑战性的工作;其次,粗粒度模型虽然减小了构象搜索空间,但是也导致了相互作用力之间的信息丢失,从而直接影响预测精度。
因此,现有的蛋白质结构预测方法采样效率和预测精度方面存在不足,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法对蛋白质构象空间采样效率低、预测精度较低的不足,本发明在基本差分进化算法框架下,引入自适应变异策略来指导构象空间搜索,同时结合残基接触信息作为辅助评价指标选择构象,提出一种采样效率高、预测精度高的残基接触辅助策略自适应的蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种残基接触辅助策略自适应的蛋白质结构预测方法,所述预测方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)根据目标蛋白序列,利用RaptorX-Contact服务器(http://raptorx.uchicago.edu/ContactMap/)预测得到目标蛋白的残基-残基接触置信度,记为CSi,j,其中,i≠j,i和j均属于{1,2,3,4…,rsd},CSi,j表示RaptorX-Contact服务器得到的第i个残基和第j个残基接触的置信度,rsd为氨基酸序列长度;
4)设置参数:种群大小NP,算法的最大迭代代数G,交叉因子CR,温度因子β,学习周期LP,第一种变异策略被选择的概率
Figure GDA0002719633740000031
第二种变异策略被选择的概率
Figure GDA0002719633740000032
第三种变异策略被选择的概率
Figure GDA0002719633740000033
第四种变异策略被选择的概率
Figure GDA0002719633740000034
g表示当前的代数,策略数量k,第g代第k种策略成功次数
Figure GDA0002719633740000035
k={1,2,3,4},置迭代代数g=0;
5)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
6)对种群中的每个个体Ci进行如下操作:
6.1)将Ci设为目标个体
Figure GDA0002719633740000036
生成随机数pSelect,其中pSelect∈(0,1);
6.2)若
Figure GDA0002719633740000037
则从种群中随机选出三个互不相同的个体Ca1、Cb1和Cc1
Figure GDA0002719633740000038
分别从Cb1、Cc1中随机选择一个位置不同的9片段,分别替换Ca1对应位置的片段生成变异构象Cmutant,并把k置为1;
6.3)若
Figure GDA0002719633740000039
则先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出两个互不相同的个体Ca2、Cb2
Figure GDA00027196337400000310
分别从Ca2、Cb2
Figure GDA00027196337400000311
中随机选择一个位置不同的3片段,分别替换Cbest对应位置的片段生成变异构象Cmutant,并把k置为2;
6.4)若
Figure GDA00027196337400000312
则从种群中随机选出四个互不相同的个体Ca3、Cb3、Cc3和Cd3
Figure GDA00027196337400000313
分别从Cb3、Cc3、Cd3中随机选择一个位置不同的3片段,分别替换Ca3对应位置的片段生成变异构象Cmutant,并把k置为3;
6.5)若
Figure GDA00027196337400000314
则从种群中随机选出两个互不相同的个体Ca4和Cb4
Figure GDA00027196337400000315
分别从Ca4、Cb4中随机选择一个位置不同的3片段,分别替换
Figure GDA00027196337400000317
对应的位置片段生成变异构象Cmutant,并把k置为4;
6.6)对Cmutant进行一次片段组装生成新构象Cmutant′;
6.7)生成随机数pCR,其中pCR∈(0,1),若pCR<CR,则从
Figure GDA00027196337400000316
中随机选择一个9片段,替换到Cmutant′对应的位置的片段生成测试构象Ctrial,否则直接把Cmutant′记为Ctrial
6.8)如果
Figure GDA0002719633740000041
则Ctrial被拒绝,否则根据公式(1)、(2)计算残基接触能量CI(Ctrial)和
Figure GDA0002719633740000042
Figure GDA0002719633740000043
Figure GDA0002719633740000044
其中,score3为Rosetta能量函数,i和j是预测残基接触信息中第n对残基对应的残基号,di,j为构象C中残基i和j的之间的Cα原子距离,CI(C)表示构象C的残基接触总能量,ctn为预测的残基-残基接触信息中残基对的数量,CIn为根据公式(1)计算得到构象C中第n对残基i和j的残基接触能量;
如果
Figure GDA0002719633740000045
则Ctrial替换
Figure GDA0002719633740000046
否则按照概率
Figure GDA0002719633740000047
以蒙特卡洛准则接收构象,若接收构象,则
Figure GDA0002719633740000048
7)当g>LP时,根据公式(3)更新变异策略选择的概率
Figure GDA0002719633740000049
k={1,2,3,4},c是一个很小的常数:
Figure GDA00027196337400000410
8)g=g+1,迭代运行步骤6)~8),至g>G为止;
9)输出构象score3能量与残基接触能量之和最低的构象为最终结果。
本发明的技术构思为:在进化算法框架下,首先,建立四种不同的自适应变异策略,算法前期四种变异策略都等概率被选择,当算法经历一段学习周期后,算法采取自适应的变异策略对构象进行变异,并且对生成的变异构象进行一次片段组装,生成变异构象;其次对变异构象进行交叉操作;最后用Rosetta能量函数score3、残基接触能量CI、蒙特卡洛玻尔兹曼接收准则对构象进行选择,结合残基接触信息的自适应变异策略蛋白质结构预测方法不仅可以增强种群的多样性,而且能够缓解能量函数不精确的问题,提高采样效率。
本发明的有益效果为:根据自适应变异策略选用不同的变异策略指导构象变异,不仅能够提高种群的多样性,而且符合种群进化的规律,增强进化算法全局探索和局部增强的能力,提高收敛速度;使用残基接触信息辅助能量函数对构象选择,缓解了能量函数不精确导致的预测误差的问题,进而提高预测精度。
附图说明
图1是一种残基接触辅助策略自适应的蛋白质结构预测方法对蛋白质256b采样得到的构象分布图。
图2是一种残基接触辅助策略自适应的蛋白质结构预测方法对蛋白质256b采样时的构象更新示意图。
图3是一种残基接触辅助策略自适应的蛋白质结构预测方法对蛋白质256b结构预测得到的三维结构。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种残基接触辅助策略自适应的蛋白质结构预测方法,所述预测方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)根据目标蛋白序列,利用RaptorX-Contact服务器(http://raptorx.uchicago.edu/ContactMap/)预测得到目标蛋白的残基-残基接触置信度,记为CSi,j,其中,i≠j,i和j均属于{1,2,3,4…,rsd},CSi,j表示RaptorX-Contact服务器得到的第i个残基和第j个残基接触的置信度,rsd为氨基酸序列长度;
4)设置参数:种群大小NP,算法的最大迭代代数G,交叉因子CR,温度因子β,学习周期LP,第一种变异策略被选择的概率
Figure GDA0002719633740000051
第二种变异策略被选择的概率
Figure GDA0002719633740000052
第三种变异策略被选择的概率
Figure GDA0002719633740000053
第四种变异策略被选择的概率
Figure GDA0002719633740000054
g表示当前的代数,策略数量k,第g代第k种策略成功次数
Figure GDA0002719633740000055
k={1,2,3,4},置迭代代数g=0;
5)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
6)对种群中的每个个体Ci进行如下操作:
6.1)将Ci设为目标个体
Figure GDA0002719633740000061
生成随机数pSelect,其中pSelect∈(0,1);
6.2)若
Figure GDA0002719633740000062
则从种群中随机选出三个互不相同的个体Ca1、Cb1和Cc1
Figure GDA0002719633740000063
分别从Cb1、Cc1中随机选择一个位置不同的9片段,分别替换Ca1对应位置的片段生成变异构象Cmutant,并把k置为1;
6.3)若
Figure GDA0002719633740000064
则先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出两个互不相同的个体Ca2、Cb2
Figure GDA0002719633740000065
分别从Ca2、Cb2
Figure GDA0002719633740000066
中随机选择一个位置不同的3片段,分别替换Cbest对应位置的片段生成变异构象Cmutant,并把k置为2;
6.4)若
Figure GDA0002719633740000067
则从种群中随机选出四个互不相同的个体Ca3、Cb3、Cc3和Cd3
Figure GDA0002719633740000068
分别从Cb3、Cc3、Cd3中随机选择一个位置不同的3片段,分别替换Ca3对应位置的片段生成变异构象Cmutant,并把k置为3;
6.5)若
Figure GDA0002719633740000069
则从种群中随机选出两个互不相同的个体Ca4和Cb4
Figure GDA00027196337400000610
分别从Ca4、Cb4中随机选择一个位置不同的3片段,分别替换
Figure GDA00027196337400000611
对应的位置片段生成变异构象Cmutant,并把k置为4;
6.6)对Cmutant进行一次片段组装生成新构象Cmutant′;
6.7)生成随机数pCR,其中pCR∈(0,1),若pCR<CR,则从
Figure GDA00027196337400000615
中随机选择一个9片段,替换到Cmutant′对应的位置的片段生成测试构象Ctrial,否则直接把Cmutant′记为Ctrial
6.8)如果
Figure GDA00027196337400000612
则Ctrial被拒绝,否则根据公式(1)、(2)计算残基接触能量CI(Ctrial)和
Figure GDA00027196337400000613
Figure GDA00027196337400000614
Figure GDA0002719633740000071
其中,score3为Rosetta能量函数,i和j是预测残基接触信息中第n对残基对应的残基号,di,j为构象C中残基i和j的之间的Cα原子距离,CI(C)表示构象C的残基接触总能量,ctn为预测的残基-残基接触信息中残基对的数量,CIn为根据公式(1)计算得到构象C中第n对残基i和j的残基接触能量;
如果
Figure GDA0002719633740000072
则Ctrial替换
Figure GDA0002719633740000073
否则按照概率
Figure GDA0002719633740000074
以蒙特卡洛准则接收构象,若接收构象,则
Figure GDA0002719633740000075
7)当g>LP时,根据公式(3)更新变异策略选择的概率
Figure GDA0002719633740000076
k={1,2,3,4},c是一个很小的常数:
Figure GDA0002719633740000077
8)g=g+1,迭代运行步骤6)~8),至g>G为止;
9)输出构象score3能量与残基接触能量之和最低的构象为最终结果。
本实施例以序列长度为106的α蛋白256b为实例,一种残基接触辅助策略自适应的蛋白质结构预测方法,包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)根据目标蛋白序列,利用RaptorX-Contact服务器(http://raptorx.uchicago.edu/ContactMap/)预测得到目标蛋白的残基-残基接触置信度,记为CSi,j,其中,i≠j,i和j均属于{1,2,3,4…,rsd},CSi,j表示RaptorX-Contact服务器得到的第i个残基和第j个残基接触的置信度,rsd为氨基酸序列长度;
4)设置参数:种群大小NP=200,算法的最大迭代代数G=3000,交叉因子CR=0.5,温度因子β=2,学习周期LP=1000,第一种变异策略被选择的概率
Figure GDA0002719633740000081
第二种变异策略被选择的概率
Figure GDA0002719633740000082
第三种变异策略被选择的概率
Figure GDA0002719633740000083
第四种变异策略被选择的概率
Figure GDA0002719633740000084
g表示当前的代数,策略数量k,第g代第k种策略成功次数
Figure GDA0002719633740000085
k={1,2,3,4},置迭代代数g=0;
5)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
6)对种群中的每个个体Ci进行如下操作:
6.1)将Ci设为目标个体
Figure GDA0002719633740000086
生成随机数pSelect,其中pSelect∈(0,1);
6.2)若
Figure GDA0002719633740000087
则从种群中随机选出三个互不相同的个体Ca1、Cb1和Cc1
Figure GDA0002719633740000088
分别从Cb1、Cc1中随机选择一个位置不同的9片段,分别替换Ca1对应位置的片段生成变异构象Cmutant,并把k置为1;
6.3)若
Figure GDA0002719633740000089
则先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出两个互不相同的个体Ca2、Cb2
Figure GDA00027196337400000810
分别从Ca2、Cb2
Figure GDA00027196337400000811
中随机选择一个位置不同的3片段,分别替换Cbest对应位置的片段生成变异构象Cmutant,并把k置为2;
6.4)若
Figure GDA00027196337400000812
则从种群中随机选出四个互不相同的个体Ca3、Cb3、Cc3和Cd3
Figure GDA00027196337400000813
分别从Cb3、Cc3、Cd3中随机选择一个位置不同的3片段,分别替换Ca3对应位置的片段生成变异构象Cmutant,并把k置为3;
6.5)若
Figure GDA00027196337400000814
则从种群中随机选出两个互不相同的个体Ca4和Cb4
Figure GDA00027196337400000815
分别从Ca4、Cb4中随机选择一个位置不同的3片段,分别替换
Figure GDA00027196337400000816
对应的位置片段生成变异构象Cmutant,并把k置为4;
6.6)对Cmutant进行一次片段组装生成新构象Cmutant′;
6.7)生成随机数pCR,其中pCR∈(0,1),若pCR<CR,则从
Figure GDA00027196337400000817
中随机选择一个9片段,替换到Cmutant′对应的位置的片段生成测试构象Ctrial,否则直接把Cmutant′记为Ctrial
6.8)如果
Figure GDA0002719633740000091
则Ctrial被拒绝,否则根据公式(1)、(2)计算残基接触能量CI(Ctrial)和
Figure GDA0002719633740000092
Figure GDA0002719633740000093
Figure GDA0002719633740000094
其中,score3为Rosetta能量函数,i和j是预测残基接触信息中第n对残基对应的残基号,di,j为构象C中残基i和j的之间的Cα原子距离,CI(C)表示构象C的残基接触总能量,ctn为预测的残基-残基接触信息中残基对的数量,CIn为根据公式(1)计算得到构象C中第n对残基i和j的残基接触能量;
如果
Figure GDA0002719633740000095
则Ctrial替换
Figure GDA0002719633740000096
否则按照概率
Figure GDA0002719633740000097
以蒙特卡洛准则接收构象,若接收构象,则
Figure GDA0002719633740000098
7)当g>LP时,根据公式(5)更新变异策略选择的概率
Figure GDA0002719633740000099
k={1,2,3,4},c是一个很小的常数:
Figure GDA00027196337400000910
8)g=g+1,迭代运行步骤6)~8),至g>G为止;
9)输出构象score3能量与残基接触能量之和最低的构象为最终结果。
以序列长度为106的α蛋白256b为实施例,运用以上方法得到了该蛋白质的近天然态构象,运行3000代所得到的结构与天然态结构之间的平均均方根偏差为
Figure GDA00027196337400000911
最小均方根偏差为
Figure GDA00027196337400000912
预测得到的三维结构如图3所示。
以上阐述的是本发明给出的一个实例展现出来的结果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种残基接触辅助策略自适应的蛋白质结构预测方法,其特征在于,所述方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)根据目标蛋白序列,利用RaptorX-Contact服务器预测得到目标蛋白的残基-残基接触置信度,记为CSi,j,其中,i≠j,i和j均属于{1,2,3,4…,rsd},CSi,j表示RaptorX-Contact服务器得到的第i个残基和第j个残基接触的置信度,rsd为氨基酸序列长度;
4)设置参数:种群大小NP,算法的最大迭代代数G,交叉因子CR,温度因子β,学习周期LP,第一种变异策略被选择的概率
Figure FDA0002719633730000011
第二种变异策略被选择的概率
Figure FDA0002719633730000012
第三种变异策略被选择的概率
Figure FDA0002719633730000013
第四种变异策略被选择的概率
Figure FDA0002719633730000014
g表示当前的代数,策略数量k,第g代第k种策略成功次数
Figure FDA0002719633730000015
置迭代代数g=0;
5)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
6)对种群中的每个个体Ci进行如下操作:
6.1)将Ci设为目标个体
Figure FDA0002719633730000016
生成随机数pSelect,其中pSelect∈(0,1);
6.2)若
Figure FDA0002719633730000017
则从种群中随机选出三个互不相同的个体Ca1、Cb1和Cc1
Figure FDA0002719633730000018
分别从Cb1、Cc1中随机选择一个位置不同的9片段,分别替换Ca1对应位置的片段生成变异构象Cmutant,并把k置为1;
6.3)若
Figure FDA0002719633730000019
则先从种群中选择一个能量最低的个体Cbest,再从种群中随机选出两个互不相同的个体Ca2、Cb2
Figure FDA00027196337300000110
分别从Ca2、Cb2
Figure FDA00027196337300000111
中随机选择一个位置不同的3片段,分别替换Cbest对应位置的片段生成变异构象Cmutant,并把k置为2;
6.4)若
Figure FDA00027196337300000112
则从种群中随机选出四个互不相同的个体Ca3、Cb3、Cc3和Cd3
Figure FDA00027196337300000113
分别从Cb3、Cc3、Cd3中随机选择一个位置不同的3片段,分别替换Ca3对应位置的片段生成变异构象Cmutant,并把k置为3;
6.5)若
Figure FDA0002719633730000021
则从种群中随机选出两个互不相同的个体Ca4和Cb4
Figure FDA0002719633730000022
分别从Ca4、Cb4中随机选择一个位置不同的3片段,分别替换
Figure FDA0002719633730000023
对应的位置片段生成变异构象Cmutant,并把k置为4;
6.6)对Cmutant进行一次片段组装生成新构象Cmutant′;
6.7)生成随机数pCR,其中pCR∈(0,1),若pCR<CR,则从
Figure FDA0002719633730000024
中随机选择一个9片段,替换到Cmutant′对应的位置的片段生成测试构象Ctrial,否则直接把Cmutant′记为Ctrial
6.8)如果
Figure FDA0002719633730000025
则Ctrial被拒绝,否则根据公式(1)、(2)计算残基接触能量CI(Ctrial)和
Figure FDA0002719633730000026
Figure FDA0002719633730000027
Figure FDA0002719633730000028
其中,score3为Rosetta能量函数,i和j是预测残基接触信息中第n对残基对应的残基号,di,j为构象C中残基i和j的之间的Cα原子距离,CI(C)表示构象C的残基接触总能量,ctn为预测的残基-残基接触信息中残基对的数量,CIn为根据公式(1)计算得到构象C中第n对残基i和j的残基接触能量;
如果
Figure FDA0002719633730000029
则Ctrial替换
Figure FDA00027196337300000210
否则按照概率
Figure FDA00027196337300000211
以蒙特卡洛准则接收构象,若接收构象,则
Figure FDA00027196337300000212
7)当g>LP时,根据公式(3)更新变异策略选择的概率
Figure FDA00027196337300000213
c是一个很小的常数:
Figure FDA00027196337300000214
8)g=g+1,迭代运行步骤6)~8),至g>G为止;
9)输出构象score3能量与残基接触能量之和最低的构象为最终结果。
CN201910302620.3A 2019-04-16 2019-04-16 一种残基接触辅助策略自适应的蛋白质结构预测方法 Active CN110148437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910302620.3A CN110148437B (zh) 2019-04-16 2019-04-16 一种残基接触辅助策略自适应的蛋白质结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910302620.3A CN110148437B (zh) 2019-04-16 2019-04-16 一种残基接触辅助策略自适应的蛋白质结构预测方法

Publications (2)

Publication Number Publication Date
CN110148437A CN110148437A (zh) 2019-08-20
CN110148437B true CN110148437B (zh) 2021-01-01

Family

ID=67588958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910302620.3A Active CN110148437B (zh) 2019-04-16 2019-04-16 一种残基接触辅助策略自适应的蛋白质结构预测方法

Country Status (1)

Country Link
CN (1) CN110148437B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110729023B (zh) * 2019-08-29 2021-04-06 浙江工业大学 一种基于二级结构元素接触辅助的蛋白质结构预测方法
CN111161791B (zh) * 2019-11-28 2021-06-18 浙江工业大学 一种实验数据辅助的自适应策略蛋白质结构预测方法
CN111180004B (zh) * 2019-11-29 2021-08-03 浙江工业大学 一种多元接触信息的子种群策略蛋白质结构预测方法
CN111180005B (zh) * 2019-11-29 2021-08-03 浙江工业大学 一种基于小生境重采样的多模态蛋白质结构预测方法
CN111815036B (zh) * 2020-06-23 2022-04-08 浙江工业大学 一种基于多残基接触图协同约束的蛋白质结构预测方法
CN112085244B (zh) * 2020-07-21 2024-06-18 浙江工业大学 一种基于残基接触图的多目标优化蛋白质结构预测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050130224A1 (en) * 2002-05-31 2005-06-16 Celestar Lexico- Sciences, Inc. Interaction predicting device
BRPI1003646A2 (pt) * 2010-09-08 2013-01-08 Embrapa Pesquisa Agropecuaria identificaÇço de alvos terapÊuticos para desenho computacional de drogas contra bactÉrias dotadas da proteÍna pilt
CN108846256B (zh) * 2018-06-07 2021-06-18 浙江工业大学 一种基于残基接触信息的群体蛋白质结构预测方法
CN109033744B (zh) * 2018-06-19 2021-08-03 浙江工业大学 一种基于残基距离和接触信息的蛋白质结构预测方法
CN109509510B (zh) * 2018-07-12 2021-06-18 浙江工业大学 一种基于多种群系综变异策略的蛋白质结构预测方法
CN109346126B (zh) * 2018-08-29 2020-10-30 浙江工业大学 一种下界估计策略自适应蛋白质结构预测方法
CN109300506B (zh) * 2018-08-29 2021-05-18 浙江工业大学 一种基于特定距离约束的蛋白质结构预测方法

Also Published As

Publication number Publication date
CN110148437A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN110148437B (zh) 一种残基接触辅助策略自适应的蛋白质结构预测方法
Jumper et al. Highly accurate protein structure prediction with AlphaFold
CN107609342B (zh) 一种基于二级结构空间距离约束的蛋白质构象搜索方法
CN108846256B (zh) 一种基于残基接触信息的群体蛋白质结构预测方法
CN109033744B (zh) 一种基于残基距离和接触信息的蛋白质结构预测方法
Moffat et al. Design in the DARK: learning deep generative models for De Novo protein design
CN109524058B (zh) 一种基于差分进化的蛋白质二聚体结构预测方法
CN109872770B (zh) 一种结合排挤度评价的多变异策略蛋白质结构预测方法
CN106055920A (zh) 一种基于阶段性多策略副本交换的蛋白质结构预测方法
Feng et al. Accurate de novo prediction of RNA 3D structure with transformer network
CN109101785B (zh) 一种基于二级结构相似性选择策略的蛋白质结构预测方法
CN109360597B (zh) 一种基于全局和局部策略协作的群体蛋白质结构预测方法
CN109346128B (zh) 一种基于残基信息动态选择策略的蛋白质结构预测方法
CN108920894B (zh) 一种基于简约抽象凸估计的蛋白质构象空间优化方法
Mukherjee et al. Advances in the field of RNA 3D structure prediction and modeling, with purely theoretical approaches, and with the use of experimental data
CN109411013B (zh) 一种基于个体特定变异策略的群体蛋白质结构预测方法
CN109461470B (zh) 一种蛋白质结构预测能量函数权重优化方法
CN109461471B (zh) 一种基于锦标赛机制的自适应蛋白质结构预测方法
CN109326321B (zh) 一种基于抽象凸估计的k-近邻蛋白质结构预测方法
CN109448786B (zh) 一种下界估计动态策略蛋白质结构预测方法
CN109300504B (zh) 一种基于多变异精英选择的蛋白质结构预测方法
CN109326320B (zh) 一种系综构象选择策略自适应的蛋白质结构预测方法
Liu et al. GraphCPLMQA: Assessing protein model quality based on deep graph coupled networks using protein language model
CN109147867B (zh) 一种基于动态片段长度的群体蛋白质结构预测方法
KUMAR et al. Bioinformatics Tools to Study Homology Modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant