Nothing Special   »   [go: up one dir, main page]

CN111815036B - 一种基于多残基接触图协同约束的蛋白质结构预测方法 - Google Patents

一种基于多残基接触图协同约束的蛋白质结构预测方法 Download PDF

Info

Publication number
CN111815036B
CN111815036B CN202010578257.0A CN202010578257A CN111815036B CN 111815036 B CN111815036 B CN 111815036B CN 202010578257 A CN202010578257 A CN 202010578257A CN 111815036 B CN111815036 B CN 111815036B
Authority
CN
China
Prior art keywords
conformation
fragment
protein
server
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010578257.0A
Other languages
English (en)
Other versions
CN111815036A (zh
Inventor
张贵军
彭春祥
刘俊
周晓根
夏瑜豪
赵凯龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Zhaoji Biotechnology Co ltd
Shenzhen Xinrui Gene Technology Co ltd
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010578257.0A priority Critical patent/CN111815036B/zh
Publication of CN111815036A publication Critical patent/CN111815036A/zh
Application granted granted Critical
Publication of CN111815036B publication Critical patent/CN111815036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

一种基于多残基接触图协同约束的蛋白质结构预测方法,基于Rosetta的框架,首先利用Rosetta第一、第二阶段对种群初始化,然后通过对目标构象进行变异、交叉生成新的测试构象;其次,根据四个contact服务器预测得到的残基接触图,设计基于残基接触图的余弦相似度指标来辅助Rosetta能量函数score3对构象进行更新,从而引导算法采样得到能量更低且结构更紧凑的构象。本发明提供一种预测精度较高的基于多残基接触图协同约束的蛋白质结构预测方法。

Description

一种基于多残基接触图协同约束的蛋白质结构预测方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于多残基接触图协同约束的蛋白质结构预测方法。
背景技术
蛋白质结构预测是结构生物信息学的主要研究内容,也是分子生物学中心法则尚未解决的一个重大基础性科学研究课题。2018年12月初,在墨西哥坎昆举行的全球蛋白质结构预测竞赛(CASP13)中,谷歌旗下DeepMind团队研发的AlphaFold获得总分第一名。AlphaFold使得蛋白质结构预测这一前沿性基础研究问题从科学的殿堂进入民众的视野,成为目前的一个“热议”方向,注定其会成为结构生物信息学发展历程中的一个重要里程碑;该工作同时也表明了计算机技术、信息技术与生命科学领域的深度交叉融合,将会有效地驱动和加速科学新发现。
蛋白质结构预测的重要性源于目前实验测定方法存在的局限性。X射线晶体衍射是目前测定蛋白质结构最有效的方法,所能达到的精度是其它方法所不能比拟的,主要缺点是蛋白质晶体难以培养且晶体结构测定的周期较长;多维核磁共振(NMR)方法可以直接测定蛋白质在溶液中的构象,但是对样品的需要量大、纯度要求高,目前只能测定小分子蛋白质。对于药物靶标—膜蛋白而言,现有实验测定技术极难获得其三维结构;
蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此,了解蛋白质的三维结构(天然态结构)是了解蛋白质的生物功能的关键。蛋白质三维结构可以通过核磁共振和X光晶体衍射等实验方法得到,然而这些实验测定方法不仅耗时而且极其昂贵,对于某些不易结晶的蛋白质来说不适用。因此,根据的Anfinsen的热力学假说(具有最低能量的构象被认为是天然态结构),很多计算算法被提出用于蛋白质结构预测。
在理论探索和应用需求的双重推动下,根据Anfinsen法则,利用计算机预测蛋白质结构技术在20世纪末得到了蓬勃发展。1994年美国马里兰大学的科学家Moult发起的CASP竞赛是一个世界性的蛋白质结构预测评比活动,客观地反映了当前蛋白质结构预测领域发展的最新技术水平,被誉为蛋白质结构预测的奥林匹克竞赛。该比赛旨在吸引计算机科学、生物物理学等不同领域的专家参与到蛋白质三维结构预测这一极具挑战性的生物信息学问题中来,共同评估发展现状和讨论未来的趋势。
通过计算技术进行蛋白结构预测通常用一个很复杂的能量函数来评估,其能量函数曲面通常具有成千上万的自由度和大量的局部最优解,构象搜索空间极大。为了进行构象空间搜索,从头预测方法通常首先根据基于知识的粗粒度能量模型获得构象空间的全局最小解,然后对其对应的构象进行精修,从而得到预测结构。因此,从头预测方法需要解决两个问题:1.建立合适的能量函数来评价构象的合理性;2.提出有效的构象空间搜索方法来搜索全局最优解。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白质结构对应的能量值。第二个因素本质上属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速搜索,得到与某一全局最小能量对应的构象。
差分进化算法(DE)由于其结构简单,易于实现,鲁棒性强和收敛速度快等优点已被成功应用于蛋白结构预测。然而,随着氨基酸序列的增长,蛋白质分子体系自由度也增大,利用传统群体算法采样获得大规模蛋白质构象空间的全局最优解成为一项挑战性的工作;其次,粗粒度模型虽然减小了构象搜索空间,但是也导致了相互作用力之间的信息丢失,从而直接影响预测精度。
因此,现有的蛋白质结构预测方法采样效率和预测精度方面存在不足,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法采样效率低、预测精度较低的不足,本发明基于Rosetta,引入多张残基接触图来指导构象空间优化,提出一种采用效率高、预测精度高的基于多残基接触图协同约束的蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于多残基接触图协同约束的蛋白质结构预测方法,所述方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)根据目标蛋白序列,利用RaptorX-Contact服务器(http://raptorx.uchicago.edu/ContactMap/)、ResPRE服务器(https://zhanglab.ccmb.med.umich.edu/ResPRE/)、DeepMetaPSICOV服务器(http://bioinf.cs.ucl.ac.uk/psipred/)、NeBcon服务器(https://zhanglab.ccmb.med.umich.edu/NeBcon/)得到四张contactmap,分别为contactRaptorX、contactResPRE、contactDeepMetaPSICOV和contactNeBcon;
4)设置参数:种群大小NP,算法的迭代次数G,交叉因子CR,置迭代代数g=0;
5)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
6)将种群中的构象个体Ci,i∈{1,2,3,…,NP}看作目标构象个体
Figure BDA0002552088390000031
执行以下操作生成变异构象
Figure BDA0002552088390000032
6.1)在1到NP范围内随机生成正整数n1,n2,n3,且n1≠n2≠n3≠i;
6.2)在构象Cn1位置上随机选取一个9片段替换构象Cn3的相同位置所对应的片段,再从构象Cn2位置上随机的选取一个与构象Cn1选取位置不相同的9片段替换偶像Cn3的相同位置所对应的片段,然后用对构象Cn3进行3片段组装生成变异构象个体
Figure BDA0002552088390000033
7)对变异构象
Figure BDA0002552088390000034
i∈{1,2,3,…,NP}执行交叉操作生成测试构象
Figure BDA0002552088390000035
7.1)生成随机数rand1,其中rand1∈(0,1);
7.2)若随机数rand1≤CR,则从目标构象
Figure BDA0002552088390000036
中随机选择一个3片段替换到变异构象
Figure BDA0002552088390000037
的相应位置,否则变异构象
Figure BDA0002552088390000038
不变;
8)对每个目标构象
Figure BDA0002552088390000039
和测试构象
Figure BDA00025520883900000310
进行选择操作;
8.1)用Rosetta score3能量函数分别计算
Figure BDA00025520883900000311
Figure BDA00025520883900000312
的能量:
Figure BDA00025520883900000313
Figure BDA00025520883900000314
8.2)若
Figure BDA00025520883900000315
则构象
Figure BDA00025520883900000316
被拒绝,否则继续执行步骤8.3);
8.3)首先,把
Figure BDA00025520883900000317
Figure BDA00025520883900000318
的L×L二维contactmap转化为长度为L×L的一维向量
Figure BDA00025520883900000319
Figure BDA00025520883900000320
把contactRaptorX、contactResPRE、contactDeepMetaPSICOV和contactNeBcon转化为4个长度为L×L的一维向量
Figure BDA00025520883900000321
Figure BDA0002552088390000041
Figure BDA0002552088390000042
其中L为蛋白质序列的长度;然后分别计算
Figure BDA0002552088390000043
Figure BDA0002552088390000044
Figure BDA0002552088390000045
余弦相似度并求和得到
Figure BDA0002552088390000046
Figure BDA0002552088390000047
计算方法如下:
Figure BDA0002552088390000048
Figure BDA0002552088390000049
8.4)若
Figure BDA00025520883900000410
则构象
Figure BDA00025520883900000411
替换构象
Figure BDA00025520883900000412
且转到步骤9);
9)g=g+1,迭代运行步骤6)~8),至g>G为止;
10)输出结果。
本发明的技术构思为:基于Rosetta的框架,首先利用Rosetta第一、第二阶段对种群初始化,然后通过对目标构象进行变异、交叉生成新的测试构象;其次,根据四个contact服务器预测得到的残基接触图,设计基于残基接触图的余弦相似度指标来辅助Rosetta能量函数score3对构象进行更新,从而引导算法采样得到能量更低且结构更紧凑的构象。本发明提供一种基于多残基接触图协同约束的蛋白质结构预测方法。
本发明的有益效果为:首先,通过结合不同服务器预测的残基接触图信息,缓解了单一残基接触图所存在的召回率、精确度不足的问题;其次,设计了基于残基接触图的余弦相似度指标辅助Rosetta能量函数score3对构象进行更新,从而引导算法采样得到能量更低且结构更紧凑的构象。
附图说明
图1是四张预测的残基接触图。
图2是基于多残基接触图协同约束的蛋白质结构预测方法对蛋白质1TEN采样得到的构象分布图。
图3是基于多残基接触图协同约束的蛋白质结构预测方法对1TEN蛋白结构预测得到的三维结构。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于多残基接触图协同约束的蛋白质结构预测方法,所述方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)根据目标蛋白序列,利用RaptorX-Contact服务器(http://raptorx.uchicago.edu/ContactMap/)、ResPRE服务器(https://zhanglab.ccmb.med.umich.edu/ResPRE/)、DeepMetaPSICOV服务器(http://bioinf.cs.ucl.ac.uk/psipred/)、NeBcon服务器(https://zhanglab.ccmb.med.umich.edu/NeBcon/)得到四张contactmap,分别为contactRaptorX、contactResPRE、contactDeepMetaPSICOV和contactNeBcon;
4)设置参数:种群大小NP,算法的迭代次数G,交叉因子CR,置迭代代数g=0;
5)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
6)将种群中的构象个体Ci,i∈{1,2,3,…,NP}看作目标构象个体
Figure BDA0002552088390000051
执行以下操作生成变异构象
Figure BDA0002552088390000052
6.1)在1到NP范围内随机生成正整数n1,n2,n3,且n1≠n2≠n3≠i;
6.2)在构象Cn1位置上随机选取一个9片段替换构象Cn3的相同位置所对应的片段,再从构象Cn2位置上随机的选取一个与构象Cn1选取位置不相同的9片段替换偶像Cn3的相同位置所对应的片段,然后用对构象Cn3进行3片段组装生成变异构象个体
Figure BDA0002552088390000053
7)对变异构象
Figure BDA0002552088390000054
i∈{1,2,3,…,NP}执行交叉操作生成测试构象
Figure BDA0002552088390000055
7.1)生成随机数rand1,其中rand1∈(0,1);
7.2)若随机数rand1≤CR,则从目标构象
Figure BDA0002552088390000056
中随机选择一个3片段替换到变异构象
Figure BDA0002552088390000057
的相应位置,否则变异构象
Figure BDA0002552088390000058
不变;
8)对每个目标构象
Figure BDA0002552088390000059
和测试构象
Figure BDA00025520883900000510
进行选择操作;
8.1)用Rosetta score3能量函数分别计算
Figure BDA00025520883900000511
Figure BDA00025520883900000512
的能量:
Figure BDA00025520883900000513
Figure BDA00025520883900000514
8.2)若
Figure BDA00025520883900000515
则构象
Figure BDA00025520883900000516
被拒绝,否则继续执行步骤8.3);
8.3)首先,把
Figure BDA00025520883900000517
Figure BDA00025520883900000518
的L×L二维contactmap转化为长度为L×L的一维向量
Figure BDA00025520883900000519
Figure BDA00025520883900000520
把contactRaptorX、contactResPRE、contactDeepMetaPSICOV和contactNeBcon转化为4个长度为L×L的一维向量
Figure BDA0002552088390000061
Figure BDA0002552088390000062
Figure BDA0002552088390000063
其中L为蛋白质序列的长度;然后分别计算
Figure BDA0002552088390000064
Figure BDA0002552088390000065
Figure BDA0002552088390000066
余弦相似度并求和得到
Figure BDA0002552088390000067
Figure BDA0002552088390000068
计算方法如下:
Figure BDA0002552088390000069
Figure BDA00025520883900000610
8.4)若
Figure BDA00025520883900000611
则构象
Figure BDA00025520883900000612
替换构象
Figure BDA00025520883900000613
且转到步骤9);
9)g=g+1,迭代运行步骤6)~8),至g>G为止;
10)输出结果。
以序列长度为87的蛋白质1TEN为实施例,一种基于多残基接触图协同约束的蛋白质结构预测方法,其中包含以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)根据目标蛋白序列,利用RaptorX-Contact服务器(http://raptorx.uchicago.edu/ContactMap/)、ResPRE服务器(https://zhanglab.ccmb.med.umich.edu/ResPRE/)、DeepMetaPSICOV服务器(http://bioinf.cs.ucl.ac.uk/psipred/)、NeBcon服务器(https://zhanglab.ccmb.med.umich.edu/NeBcon/)得到四张contactmap,分别为contactRaptorX、contactResPRE、contactDeepMetaPSICOV和contactNeBcon;
4)设置参数:种群大小NP=100,算法的迭代次数G=300,交叉因子CR=0.5,置迭代代数g=0;
5)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
6)将种群中的构象个体Ci,i∈{1,2,3,…,NP}看作目标构象个体
Figure BDA00025520883900000614
执行以下操作生成变异构象
Figure BDA00025520883900000615
6.1)在1到NP范围内随机生成正整数n1,n2,n3,且n1≠n2≠n3≠i;
6.2)在构象Cn1位置上随机选取一个9片段替换构象Cn3的相同位置所对应的片段,再从构象Cn2位置上随机的选取一个与构象Cn1选取位置不相同的9片段替换偶像Cn3的相同位置所对应的片段,然后用对构象Cn3进行3片段组装生成变异构象个体
Figure BDA0002552088390000071
7)对变异构象
Figure BDA0002552088390000072
i∈{1,2,3,…,NP}执行交叉操作生成测试构象
Figure BDA0002552088390000073
7.1)生成随机数rand1,其中rand1∈(0,1);
7.2)若随机数rand1≤CR,则从目标构象
Figure BDA0002552088390000074
中随机选择一个3片段替换到变异构象
Figure BDA0002552088390000075
的相应位置,否则变异构象
Figure BDA0002552088390000076
不变;
8)对每个目标构象
Figure BDA0002552088390000077
和测试构象
Figure BDA0002552088390000078
进行选择操作;
8.1)用Rosetta score3能量函数分别计算
Figure BDA0002552088390000079
Figure BDA00025520883900000710
的能量:
Figure BDA00025520883900000711
Figure BDA00025520883900000712
8.2)若
Figure BDA00025520883900000713
则构象
Figure BDA00025520883900000714
被拒绝,否则继续执行步骤8.3);
8.3)首先,把
Figure BDA00025520883900000715
Figure BDA00025520883900000716
的L×L二维contactmap转化为长度为L×L的一维向量
Figure BDA00025520883900000717
Figure BDA00025520883900000718
把contactRaptorX、contactResPRE、contactDeepMetaPSICOV和contactNeBcon转化为4个长度为L×L的一维向量
Figure BDA00025520883900000719
Figure BDA00025520883900000720
Figure BDA00025520883900000721
其中L为蛋白质序列的长度;然后分别计算
Figure BDA00025520883900000722
Figure BDA00025520883900000723
Figure BDA00025520883900000724
余弦相似度并求和得到
Figure BDA00025520883900000725
Figure BDA00025520883900000726
计算方法如下:
Figure BDA00025520883900000727
Figure BDA00025520883900000728
8.4)若
Figure BDA00025520883900000729
则构象
Figure BDA00025520883900000730
替换构象
Figure BDA00025520883900000731
且转到步骤9);
9)g=g+1,迭代运行步骤6)~8),至g>G为止;
10)输出结果。
以序列长度为87的蛋白质1TEN为实施例,运用以上方法得到了该蛋白质的近天然态构象,运行300代所得到的结构与天然态结构之间的平均均方根偏差为2.86,最小均方根偏差为2.01,预测得到的三维结构如图3所示。
以上阐述的是本发明给出的一个实例展现出来的结果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种基于多残基接触图协同约束的蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)根据目标蛋白序列,利用RaptorX-Contact服务器、ResPRE服务器、DeepMetaPSICOV服务器、NeBcon服务器得到四张contactmap,分别为contactRaptorX、contactResPRE、contactDeepMetaPSICOV和contactNeBcon;
4)设置参数:种群大小NP,算法的迭代次数G,交叉因子CR,置迭代代数g=0;
5)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP};
6)将种群中的构象个体Ci,i∈{1,2,3,…,NP}看作目标构象个体
Figure FDA0003430541950000011
对每个
Figure FDA0003430541950000012
执行以下操作生成变异构象
Figure FDA0003430541950000013
6.1)在1到NP范围内随机生成正整数n1,n2,n3,且n1≠n2≠n3≠i;
6.2)在构象Cn1位置上随机选取一个9片段替换构象Cn3的相同位置所对应的片段,再从构象Cn2位置上随机的选取一个与构象Cn1选取位置不相同的9片段替换构象Cn3的相同位置所对应的片段,然后对构象Cn3进行3片段组装生成变异构象个体
Figure FDA0003430541950000014
7)对变异构象
Figure FDA0003430541950000015
i∈{1,2,3,…,NP}执行交叉操作生成测试构象
Figure FDA0003430541950000016
7.1)生成随机数rand1,其中rand1∈(0,1);
7.2)若随机数rand1≤CR,则从目标构象
Figure FDA0003430541950000017
中随机选择一个3片段替换到变异构象
Figure FDA0003430541950000018
的相应位置,否则变异构象
Figure FDA0003430541950000019
不变;
8)对每个目标构象
Figure FDA00034305419500000110
和测试构象
Figure FDA00034305419500000111
进行选择操作;
8.1)用Rosetta score3能量函数分别计算
Figure FDA00034305419500000112
Figure FDA00034305419500000113
的能量:
Figure FDA00034305419500000114
Figure FDA00034305419500000115
8.2)若
Figure FDA00034305419500000116
则构象
Figure FDA00034305419500000117
被拒绝,否则继续执行步骤8.3);
8.3)首先,把
Figure FDA0003430541950000021
Figure FDA0003430541950000022
的L×L二维contactmap分别转化为长度为L×L的一维向量
Figure FDA0003430541950000023
Figure FDA0003430541950000024
把contactRaptorX、contactResPRE、contactDeepMetaPSICOV和contactNeBcon转化为4个长度为L×L的一维向量
Figure FDA0003430541950000025
Figure FDA0003430541950000026
Figure FDA0003430541950000027
其中L为蛋白质序列的长度;然后分别计算
Figure FDA0003430541950000028
Figure FDA0003430541950000029
Figure FDA00034305419500000210
余弦相似度并求和得到
Figure FDA00034305419500000211
Figure FDA00034305419500000212
计算方法如下:
Figure FDA00034305419500000213
Figure FDA00034305419500000214
8.4)若
Figure FDA00034305419500000215
则构象
Figure FDA00034305419500000216
替换构象
Figure FDA00034305419500000217
且转到步骤9);
9)g=g+1,迭代运行步骤6)~8),至g>G为止;
10)输出结果。
CN202010578257.0A 2020-06-23 2020-06-23 一种基于多残基接触图协同约束的蛋白质结构预测方法 Active CN111815036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010578257.0A CN111815036B (zh) 2020-06-23 2020-06-23 一种基于多残基接触图协同约束的蛋白质结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010578257.0A CN111815036B (zh) 2020-06-23 2020-06-23 一种基于多残基接触图协同约束的蛋白质结构预测方法

Publications (2)

Publication Number Publication Date
CN111815036A CN111815036A (zh) 2020-10-23
CN111815036B true CN111815036B (zh) 2022-04-08

Family

ID=72845425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010578257.0A Active CN111815036B (zh) 2020-06-23 2020-06-23 一种基于多残基接触图协同约束的蛋白质结构预测方法

Country Status (1)

Country Link
CN (1) CN111815036B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846256A (zh) * 2018-06-07 2018-11-20 浙江工业大学 一种基于残基接触信息的群体蛋白质结构预测方法
CN109086565A (zh) * 2018-07-12 2018-12-25 浙江工业大学 一种基于残基间接触约束的蛋白质结构预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109346128B (zh) * 2018-08-01 2021-06-18 浙江工业大学 一种基于残基信息动态选择策略的蛋白质结构预测方法
CN110148437B (zh) * 2019-04-16 2021-01-01 浙江工业大学 一种残基接触辅助策略自适应的蛋白质结构预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846256A (zh) * 2018-06-07 2018-11-20 浙江工业大学 一种基于残基接触信息的群体蛋白质结构预测方法
CN109086565A (zh) * 2018-07-12 2018-12-25 浙江工业大学 一种基于残基间接触约束的蛋白质结构预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"De novo Protein Structure Prediction by Coupling Contact with Distance Profile";Chun-Xiang Peng;《TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》;20190731;全文 *
"一种阶段性策略自适应差分进化算法";倪洪杰 等;《计算机科学》;20190630;第46卷(第6A期);全文 *

Also Published As

Publication number Publication date
CN111815036A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN108846256B (zh) 一种基于残基接触信息的群体蛋白质结构预测方法
CN109524058B (zh) 一种基于差分进化的蛋白质二聚体结构预测方法
CN110148437B (zh) 一种残基接触辅助策略自适应的蛋白质结构预测方法
CN115458039B (zh) 基于机器学习的单序列蛋白结构预测的方法和系统
CN109215732B (zh) 一种基于残基接触信息自学习的蛋白质结构预测方法
CN109360599B (zh) 一种基于残基接触信息交叉策略的蛋白质结构预测方法
CN109872770B (zh) 一种结合排挤度评价的多变异策略蛋白质结构预测方法
CN111815036B (zh) 一种基于多残基接触图协同约束的蛋白质结构预测方法
CN109360597B (zh) 一种基于全局和局部策略协作的群体蛋白质结构预测方法
CN111180004B (zh) 一种多元接触信息的子种群策略蛋白质结构预测方法
Hong et al. fastmsa: Accelerating multiple sequence alignment with dense retrieval on protein language
CN109509510B (zh) 一种基于多种群系综变异策略的蛋白质结构预测方法
CN108920894B (zh) 一种基于简约抽象凸估计的蛋白质构象空间优化方法
CN109147867B (zh) 一种基于动态片段长度的群体蛋白质结构预测方法
CN109326321B (zh) 一种基于抽象凸估计的k-近邻蛋白质结构预测方法
CN110706741B (zh) 一种基于序列小生境的多模态蛋白质结构预测方法
CN109243526B (zh) 一种基于特定片段交叉的蛋白质结构预测方法
CN109448786B (zh) 一种下界估计动态策略蛋白质结构预测方法
CN109461471B (zh) 一种基于锦标赛机制的自适应蛋白质结构预测方法
CN109461470B (zh) 一种蛋白质结构预测能量函数权重优化方法
CN113257338A (zh) 一种基于残基接触图信息博弈机制的蛋白质结构预测方法
CN109300503B (zh) 一种全局和局部下界估计协同的群体蛋白质结构预测方法
CN112085246B (zh) 一种基于残基对距离约束的蛋白质结构预测方法
CN111161791B (zh) 一种实验数据辅助的自适应策略蛋白质结构预测方法
CN112967751A (zh) 一种基于进化搜索的蛋白质构象空间优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231219

Address after: 518054, D1101, Building 4, Software Industry Base, No. 19, 17, and 18 Haitian 1st Road, Binhai Community, Yuehai Street, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Xinrui Gene Technology Co.,Ltd.

Address before: 510075 No. n2248, floor 3, Xingguang Yingjing, No. 117, Shuiyin Road, Yuexiu District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU ZHAOJI BIOTECHNOLOGY CO.,LTD.

Effective date of registration: 20231219

Address after: 510075 No. n2248, floor 3, Xingguang Yingjing, No. 117, Shuiyin Road, Yuexiu District, Guangzhou City, Guangdong Province

Patentee after: GUANGZHOU ZHAOJI BIOTECHNOLOGY CO.,LTD.

Address before: 310014 No. 18 Chao Wang Road, Xiacheng District, Zhejiang, Hangzhou

Patentee before: JIANG University OF TECHNOLOGY

TR01 Transfer of patent right