CN113257338A - 一种基于残基接触图信息博弈机制的蛋白质结构预测方法 - Google Patents
一种基于残基接触图信息博弈机制的蛋白质结构预测方法 Download PDFInfo
- Publication number
- CN113257338A CN113257338A CN202110440653.1A CN202110440653A CN113257338A CN 113257338 A CN113257338 A CN 113257338A CN 202110440653 A CN202110440653 A CN 202110440653A CN 113257338 A CN113257338 A CN 113257338A
- Authority
- CN
- China
- Prior art keywords
- conformation
- pool
- conformations
- energy
- conformational
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000000455 protein structure prediction Methods 0.000 title claims abstract description 17
- 230000007246 mechanism Effects 0.000 title claims abstract description 13
- 238000010586 diagram Methods 0.000 title abstract description 7
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 33
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 33
- 230000006870 function Effects 0.000 claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 239000012634 fragment Substances 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 18
- 230000008859 change Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 238000005457 optimization Methods 0.000 abstract description 5
- 101000859758 Homo sapiens Cartilage-associated protein Proteins 0.000 abstract description 3
- 101000916686 Homo sapiens Cytohesin-interacting protein Proteins 0.000 abstract description 3
- 101000726740 Homo sapiens Homeobox protein cut-like 1 Proteins 0.000 abstract description 3
- 101000761460 Homo sapiens Protein CASP Proteins 0.000 abstract description 3
- 101000761459 Mesocricetus auratus Calcium-dependent serine proteinase Proteins 0.000 abstract description 3
- 102100024933 Protein CASP Human genes 0.000 abstract description 3
- 238000005070 sampling Methods 0.000 abstract description 3
- 230000036541 health Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 102100024931 Caspase-14 Human genes 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 208000001613 Gambling Diseases 0.000 description 1
- 101000761467 Homo sapiens Caspase-14 Proteins 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 206010039966 Senile dementia Diseases 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000386 microscopy Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 230000001850 reproductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000002424 x-ray crystallography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
Landscapes
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于残基接触图信息博弈机制的蛋白质结构预测方法,首先,通过根据CASP比赛Jaccard指标选择的RaptorX、ResPRE、NeBcon、DeepMetaPSICOV四个蛋白质残基接触服务器,获取多张残基接触图从而构建多个能量函数;其次,利用Rosetta第一、第二阶段对种群初始化,然后通过对目标构象进行变异、交叉生成新的测试构象;最后,根据四个残基接触图构建的能量函数,设计基于Pareto的多目标优化算法来对构象进行更新,从而引导算法采样得到结构更接近天然态的构象。本发明提供一种基于残基接触图信息博弈机制的蛋白质结构预测方法。
Description
技术领域
本发明涉及生物信息学、计算智能领域,尤其涉及的是一种基于残基接触图信息博弈机制的蛋白质结构预测方法。
背景技术
生命健康是全球未来产业发展的前沿方向,是提升人民健康水平、增强百姓获得感的基础领域。而一切生命过程和种族的繁衍活动都与蛋白质的合成、分解和变化密切相关。蛋白质的三维结构决定其特殊的生物学功能,是生命活动的物质基础。蛋白质的错误折叠有可能导致不能正确行使其功能。比如,在老年痴呆患者的脑中,存在大量由错误折叠蛋白质形成的杂乱的蛋白质簇。因此,要想实现生命健康领域的突破,更深层次地理解生命现象和生命过程以实现靶向药物研发,其先决条件就是获取蛋白质的三维结构。
目前,利用传统的生物湿实验的方法,包括X射线晶体衍射、核磁共振和低温冷冻电镜,虽然能够测定蛋白质三维结构,但对材料、仪器和人员要求高并且极其耗时。因此,利用计算技术,对序列进行结构建模,探索蛋白质结构预测成为迫切需求。
蛋白质结构预测作为生物信息学领域的重大研究问题,目前领域内主要有两块,一个是根据生物分子的理化知识来构建能量函数模型,从早些年的CASP比赛开始一直引领着潮流,到现在也是占据着举足轻重的地位。其代表就是华盛顿大学Baker实验室的Rosetta,密西根大学张阳实验室的I-TASSER。作为结构预测工具,Rosetta算法能够对多种生物分子系统进行预测、设计和分析,包括蛋白质,RNA,DNA,肽,小分子以及非规范或衍生氨基酸。I-TASSER是一种用于蛋白质结构和功能预测方法。它通过多线程方法LOMETS、蛋白质功能数据库BioLiP等预测靶标的功能。理化模型方法取得丰硕成果的同时,也显露出了其表达精确性不足,特征不完善等缺点。而另一块,主要是基于深度学习来预测contact、distance等信息从而构建知识模型。在前几天出来的CASP14结果中,Google提出的AlphaFold在人工组排名第一,且远超第二,腾讯,tfold首次参赛也在contact组也取得了排名第一的好成绩。
从CASP比赛接触预测方面的结果来看,虽然目前contact预测精度越来越高,但依旧存在着错误信息;而由Jaccard距离图可知不同的预测服务器所捕获的信息集合是不同的。此外,虽然目前深度学习方法在蛋白质结构预测领域尤其是残基接触预测取得了巨大进步,但是在蛋白质结构折叠时,对于多份不同的残基接触信息,往往会采用简单的加权叠加进行整合,从而导致一部分预测到的残基接触信息的丢失,预测精度也难免会受到影响。另一方面,通过计算技术进行蛋白结构预测通常采用单个能量函数进行评估,采样能力受限,其最终获得蛋白构象的能量也许最优但并不一定是最优构象,也就是说能量低的构象不一定是最接近天然态构象的。
因此,现有的蛋白质结构预测方法数据接收效率和构象选择评价上存在不足,需要改进。
发明内容:
为了克服现有的蛋白质结构预测方法数据接收效率低、预测精度较低的不足,本发明基于RaptorX、ResPRE、NeBcon、DeepMetaPSICOV四个蛋白质残基接触服务器和Rosetta平台,由多张残基接触图构建多个能量函数,并采用多目标优化方法来指导构象空间优化,提出一种基于残基接触图信息博弈机制的蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于残基接触图信息博弈机制的蛋白质结构预测方法,所述方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据给定的目标蛋白的序列信息,利用如下四个ContactMap预测服务器:
RaptorX(http://raptorx.uchicago.edu/ContactMap/);
ResPRE(https://zhanglab.ccmb.med.umich.edu/ResPRE/);
NeBcon(https://zhanglab.ccmb.med.umich.edu/NeBcon/);
DeepMetaPSICOV(http://bioinf.cs.ucl.ac.uk/psipred/);
获取四个残基接触信息文件,再进行数据处理之后生成四个contacMap文件分别为ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV;
3)根据ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV四个contactMap文件分别构建能量函数Energy RaptorX(Cn)、Energy ResPRE(Cn)、Energy NeBcon(Cn)、Energy PSICOV(Cn),公式如下:
其中,分别表示残基接触图ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV中第k个残基对(i,j)接触的置信度,表示第k个残基对(i,j)之间的真实距离,dcon为阈值8,即两个残基接触的最大距离, 分别表示构象Cn的残基对(i,j)在四个能量函数EnergyRaptorX(Cn)、Energy ResPRE(Cn)、Energy NeBcon(Cn)、EnergyPSICOV(Cn)中的接触得分;
4)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)获取片段库文件,其中包括3片段库文件和9片段库文件;
5)设置参数:种群大小NP,交叉因子CR,迭代次数G,置初始迭代代数g=0;
6)种群初始化:随机片段组装生成NP个初始构象Cn,n={1,2,…,NP};
7)将构象Cn代入四个能量函数Energy RaptorX(Cn)、Energy ResPRE(Cn)、EnergyNeBcon(Cn)、Energy PSICOV(Cn)中,求得能量值构建为一个能量数组
8.1)设置初始构象数N=0;
8.3)将Pareto有效解的构象放入第一构象池,记录当前构象数为N,并将其余构象清除;
9)循环:g=g+1,如果g>G则跳转到步骤14);
10.1)在1到N范围内随机生成正整数n1,n2,n3,且n1≠n2≠n3≠n;
10.2)在构象Cn1位置上随机选取一个9片段替换构象Cn3的相同位置所对应的片段,再从构象Cn2位置上随机的选取一个与构象Cn1选取位置不相同的9片段替换构象Cn3的相同位置所对应的片段,然后用对构象Cn3进行3片段组装生成变异构象个体
11.1)生成随机数rand1,其中rand1∈(0,1);
12)将第二构象池中测试构象代入四个能量函数Energy RaptorX(Cn)、EnergyResPRE(Cn)、Energy NeBcon(Cn)、Energy PSICOV(Cn)中,求得能量值 构建为一个能量数组
13.2.4)更新NTBA,记录当前第二构象池中的构象数;
14.1)如果第一构象池和第二构象池的构象数目之和大于设定的种群数量,即N+NTBA≥NP,则继续步骤14.2),否则将第二构象池中的构象放入第一构象池,清空第二构象池并跳转至步骤9);
14.2)引入构象相似度指标RMSD,通过计算两个构象池中每个构象与其余所有构象之间的RMSD值,计算公式如(5),其中为构象Ci内部原子空间中(x,y,z)坐标,为任一其余构象Cj内部原子空间中(x,y,z)坐标;
14.3)根据RMSD值判断构象相似度,选取多样性最丰富的NP个构象放入第一构象池,清空第二构象池并转到步骤9);
15)输出结果。
本发明的技术构思为:首先,通过RaptorX、ResPRE、NeBcon、DeepMetaPSICOV四个蛋白质残基接触服务器,获取多张残基接触图从而构建多个能量函数;其次,利用Rosetta第一、第二阶段对种群初始化,然后通过对目标构象进行变异、交叉生成新的测试构象;最后,根据四个残基接触图构建的能量函数,设计基于Pareto的多目标优化算法来对构象进行更新,从而引导算法采样得到结构更接近天然态的构象。本发明提供一种基于残基接触图信息博弈机制的蛋白质结构预测方法。
本发明的有益效果为:首先,通过不同服务器预测获取得到的残基接触信息,增加了接触信息来源多样性,降低了单一接触图可能导致的信息缺失、错漏对结构预测的影响;其次,结合多目标优化算法设计了基于残基接触信息博弈机制的构象选择方法,避免因传统能量模型不精确而导致构象引导错误。
附图说明
图1是四张预测的残基接触图经过处理后的信息。
图2是基于残基接触图信息博弈机制的蛋白质结构预测方法对蛋白质1ELW采样得到的构象分布图。
图3是基于残基接触图信息博弈机制的蛋白质结构预测方法对1ELW蛋白结构预测得到的三维结构。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于多残基接触图协同约束的蛋白质结构预测方法,所述方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据给定的目标蛋白的序列信息,利用如下四个ContactMap预测服务器:
RaptorX(http://raptorx.uchicago.edu/ContactMap/);
ResPRE(https://zhanglab.ccmb.med.umich.edu/ResPRE/);
NeBcon(https://zhanglab.ccmb.med.umich.edu/NeBcon/);
DeepMetaPSICOV(http://bioinf.cs.ucl.ac.uk/psipred/);
获取四个残基接触信息文件,再进行数据处理之后生成四个contacMap文件分别为ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV;
3)根据ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV四个contactMap文件分别构建能量函数EnergyRaptorX(Cn)、EnergyResPRE(Cn)、EnergyNeBcon(Cn)、EnergyPSICOV(Cn),公式如下:
其中,分别表示残基接触图ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV中第k个残基对(i,j)接触的置信度,表示第k个残基对(i,j)之间的真实距离,dcon为阈值8,即两个残基接触的最大距离, 分别表示构象Cn的残基对(i,j)在四个能量函数Energy RaptorX(Cn)、Energy ResPRE(Cn)、Energy NeBcon(Cn)、EnergyPSICOV(Cn)中的接触得分;
4)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)获取片段库文件,其中包括3片段库文件和9片段库文件;
5)设置参数:种群大小NP,交叉因子CR,迭代次数G,置初始迭代代数g=0;
6)种群初始化:随机片段组装生成NP个初始构象Cn,n={1,2,…,NP};
7)将构象Cn代入四个能量函数Energy RaptorX(Cn)、Energy ResPRE(Cn)、EnergyNeBcon(Cn)、Energy PSICOV(Cn)中,求得能量值构建为一个能量数组
8.1)设置初始构象数N=0;
8.3)将Pareto有效解的构象放入第一构象池,记录当前构象数为N,并将其余构象清除;
9)循环:g=g+1,如果g>G则跳转到步骤14);
10.1)在1到N范围内随机生成正整数n1,n2,n3,且n1≠n2≠n3≠n;
10.2)在构象Cn1位置上随机选取一个9片段替换构象Cn3的相同位置所对应的片段,再从构象Cn2位置上随机的选取一个与构象Cn1选取位置不相同的9片段替换构象Cn3的相同位置所对应的片段,然后用对构象Cn3进行3片段组装生成变异构象个体
11.1)生成随机数rand1,其中rand1∈(0,1);
12)将第二构象池中测试构象代入四个能量函数Energy RaptorX(Cn)、EnergyResPRE(Cn)、Energy NeBcon(Cn)、Energy PSICOV(Cn)中,求得能量值 构建为一个能量数组
13.2.4)更新NTBA,记录当前第二构象池中的构象数;
14.1)如果第一构象池和第二构象池的构象数目之和大于设定的种群数量,即N+NTBA≥NP,则继续步骤14.2),否则将第二构象池中的构象放入第一构象池,清空第二构象池并跳转至步骤9);
14.2)引入构象相似度指标RMSD,通过计算两个构象池中每个构象与其余所有构象之间的RMSD值,计算公式如(5),其中为构象Ci内部原子空间中(x,y,z)坐标,为任一其余构象Cj内部原子空间中(x,y,z)坐标;
14.3)根据RMSD值判断构象相似度,选取多样性最丰富的NP个构象放入第一构象池,清空第二构象池并转到步骤9);
15)输出结果。
以序列长度为117的蛋白质1ELW为实施案例,一种基于残基接触图信息博弈机制的蛋白质结构预测方法,包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据给定的目标蛋白的序列信息,利用如下四个ContactMap预测服务器:
RaptorX(http://raptorx.uchicago.edu/ContactMap/);
ResPRE(https://zhanglab.ccmb.med.umich.edu/ResPRE/);
NeBcon(https://zhanglab.ccmb.med.umich.edu/NeBcon/);
DeepMetaPSICOV(http://bioinf.cs.ucl.ac.uk/psipred/);
获取四个残基接触信息文件,再进行数据处理之后生成四个contacMap文件分别为ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV;
3)根据ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV四个contactMap文件分别构建能量函数EnergyRaptorX(Cn)、EnergyResPRE(Cn)、EnergyNeBcon(Cn)、EnergyPSICOV(Cn),公式如下:
其中,分别表示残基接触图ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV中第k个残基对(i,j)接触的置信度,表示第k个残基对(i,j)之间的真实距离,dcon为阈值8,即两个残基接触的最大距离, 分别表示构象Cn的残基对(i,j)在四个能量函数Energy RaptorX(Cn)、Energy ResPRE(Cn)、Energy NeBcon(Cn)、EnergyPSICOV(Cn)中的接触得分;
4)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)获取片段库文件,其中包括3片段库文件和9片段库文件;
5)设置参数:种群大小NP=200,交叉因子CR=0.5,迭代次数G=500,置初始迭代代数g=0;
6)种群初始化:随机片段组装生成NP个初始构象Cn,n={1,2,…,NP};
7)将构象Cn代入四个能量函数Energy RaptorX(Cn)、Energy ResPRE(Cn)、EnergyNeBcon(Cn)、Energy PSICOV(Cn)中,求得能量值构建为一个能量数组
8.1)设置初始构象数N=0;
8.3)将Pareto有效解的构象放入第一构象池,记录当前构象数为N,并将其余构象清除;
9)循环:g=g+1,如果g>G则跳转到步骤14);
10.1)在1到N范围内随机生成正整数n1,n2,n3,且n1≠n2≠n3≠n;
10.2)在构象Cn1位置上随机选取一个9片段替换构象Cn3的相同位置所对应的片段,再从构象Cn2位置上随机的选取一个与构象Cn1选取位置不相同的9片段替换构象Cn3的相同位置所对应的片段,然后用对构象Cn3进行3片段组装生成变异构象个体
11.1)生成随机数rand1,其中rand1∈(0,1);
12)将第二构象池中测试构象代入四个能量函数EnergyRaptorX(Cn)、EnergyResPRE(Cn)、EnergyNeBcon(Cn)、EnergyPSICOV(Cn)中,求得能量值 构建为一个能量数组
13.2.4)更新NTBA,记录当前第二构象池中的构象数;
14.1)如果第一构象池和第二构象池的构象数目之和大于设定的种群数量,即N+NTBA≥NP,则继续步骤14.2),否则将第二构象池中的构象放入第一构象池,清空第二构象池并跳转至步骤9);
14.2)引入构象相似度指标RMSD,通过计算两个构象池中每个构象与其余所有构象之间的RMSD值,计算公式如(5),其中为构象Ci内部原子空间中(x,y,z)坐标,为任一其余构象Cj内部原子空间中(x,y,z)坐标;
14.3)根据RMSD值判断构象相似度,选取多样性最丰富的NP个构象放入第一构象池,清空第二构象池并转到步骤9);
15)输出结果。
以序列长度为117的蛋白质1ELW为实例,运用以上方法得到了该蛋白质的近天然态构象,运行500代所得到的结构与天然态结构之间的平均均方根偏差为2.34,最小均方根偏差为1.65,预测得到的三维结构如图3所示。
以上阐述的是本发明给出的一个实例展现出来的结果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。
Claims (1)
1.一种基于残基接触图信息博弈机制的蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据给定的目标蛋白的序列信息,利用如下四个ContactMap预测服务器:RaptorX、ResPRE、NeBcon和DeepMetaPSICOV;获取四个残基接触信息文件,再进行数据处理之后生成四个contacMap文件分别命名为ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV;
3)根据ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV四个contactMap文件分别构建能量函数EnergyRaptorX(Cn)、EnergyResPRE(Cn)、EnergyNeBcon(Cn)、EnergyPSICOV(Cn),公式如下:
其中,分别表示残基接触图ContactMapRaptorX、ContactMapResPRE、ContactMapNeBcon和ContactMapDeepMetaPSICOV中第k个残基对(i,j)接触的置信度,表示第k个残基对(i,j)之间的真实距离,dcon为阈值8,即两个残基接触的最大距离, 分别表示构象Cn的残基对(i,j)在四个能量函数EnergyRaptorX(Cn)、EnergyResPRE(Cn)、EnergyNeBcon(Cn)、EnergyPSICOV(Cn)中的接触得分;
4)根据目标蛋白序列从ROBETTA服务器获取片段库文件,其中包括3片段库文件和9片段库文件;
5)设置参数:种群大小NP,交叉因子CR,迭代次数G,置初始迭代代数g=0;
6)种群初始化:随机片段组装生成NP个初始构象Cn,n={1,2,…,NP};
8.1)设置初始构象数N=0;
8.3)将Pareto有效解的构象放入第一构象池,记录当前构象数为N,并将其余构象清除;
9)循环:g=g+1,如果g>G则跳转到步骤14);
6.1)在1到N范围内随机生成正整数n1,n2,n3,且n1≠n2≠n3≠n;
6.2)在构象Cn1位置上随机选取一个9片段替换构象Cn3的相同位置所对应的片段,再从构象Cn2位置上随机的选取一个与构象Cn1选取位置不相同的9片段替换构象Cn3的相同位置所对应的片段,然后用对构象Cn3进行3片段组装生成变异构象个体
11.1)生成随机数rand1,其中rand1∈(0,1);
12)将第二构象池中测试构象代入四个能量函数EnergyRaptorX(Cn)、EnergyResPRE(Cn)、EnergyNeBcon(Cn)、EnergyPSICOV(Cn)中,求得能量值 构建为一个能量数组
13.2.4)更新NTBA,记录当前第二构象池中的构象数;
8.1)如果第一构象池和第二构象池的构象数目之和大于设定的种群数量,即N+NTBA≥NP,则继续步骤14.2),否则将第二构象池中的构象放入第一构象池,清空第二构象池并跳转至步骤9);
8.2)引入构象相似度指标RMSD,通过计算两个构象池中每个构象与其余所有构象之间的RMSD值,计算公式如(5),其中为构象Ci内部原子空间中(x,y,z)坐标,为任一其余构象Cj内部原子空间中(x,y,z)坐标;
8.3)根据RMSD值判断构象相似度,选取多样性最丰富的NP个构象放入第一构象池,清空第二构象池并转到步骤9);
15)输出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110440653.1A CN113257338A (zh) | 2021-04-23 | 2021-04-23 | 一种基于残基接触图信息博弈机制的蛋白质结构预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110440653.1A CN113257338A (zh) | 2021-04-23 | 2021-04-23 | 一种基于残基接触图信息博弈机制的蛋白质结构预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113257338A true CN113257338A (zh) | 2021-08-13 |
Family
ID=77221402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110440653.1A Withdrawn CN113257338A (zh) | 2021-04-23 | 2021-04-23 | 一种基于残基接触图信息博弈机制的蛋白质结构预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113257338A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114121146A (zh) * | 2021-11-29 | 2022-03-01 | 山东建筑大学 | 一种基于并行和蒙特卡罗策略的rna三级结构预测方法 |
-
2021
- 2021-04-23 CN CN202110440653.1A patent/CN113257338A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114121146A (zh) * | 2021-11-29 | 2022-03-01 | 山东建筑大学 | 一种基于并行和蒙特卡罗策略的rna三级结构预测方法 |
CN114121146B (zh) * | 2021-11-29 | 2023-10-03 | 山东建筑大学 | 一种基于并行和蒙特卡罗策略的rna三级结构预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109524058B (zh) | 一种基于差分进化的蛋白质二聚体结构预测方法 | |
CN108846256B (zh) | 一种基于残基接触信息的群体蛋白质结构预测方法 | |
CN114093515A (zh) | 一种基于肠道菌群预测模型集成学习的年龄预测方法 | |
CN109727637B (zh) | 基于混合蛙跳算法识别关键蛋白质的方法 | |
CN113257338A (zh) | 一种基于残基接触图信息博弈机制的蛋白质结构预测方法 | |
CN109101785B (zh) | 一种基于二级结构相似性选择策略的蛋白质结构预测方法 | |
CN109086565B (zh) | 一种基于残基间接触约束的蛋白质结构预测方法 | |
CN112085245B (zh) | 一种基于深度残差神经网络的蛋白质残基接触预测方法 | |
Zhang et al. | Two-stage distance feature-based optimization algorithm for de novo protein structure prediction | |
Souza et al. | Detecting clustered independent rare variant associations using genetic algorithms | |
CN109378034B (zh) | 一种基于距离分布估计的蛋白质预测方法 | |
CN110729023B (zh) | 一种基于二级结构元素接触辅助的蛋白质结构预测方法 | |
CN110444249B (zh) | 一种基于计算的预测荧光蛋白质的方法 | |
CN110610742B (zh) | 一种基于蛋白质互作网络的功能模块检测方法 | |
CN109448785B (zh) | 一种使用拉氏图增强Loop区域结构的蛋白质结构预测方法 | |
Qiu et al. | Exploiting protein language model sequence representations for repeat detection | |
CN109243526B (zh) | 一种基于特定片段交叉的蛋白质结构预测方法 | |
CN109390035B (zh) | 一种基于局部结构比对的蛋白质构象空间优化方法 | |
CN112085246B (zh) | 一种基于残基对距离约束的蛋白质结构预测方法 | |
CN112967751A (zh) | 一种基于进化搜索的蛋白质构象空间优化方法 | |
Liu et al. | Bayesian methods in biological sequence analysis | |
Zeng et al. | Interpretable improving prediction performance of general protein language model by domain-adaptive pretraining on DNA-binding protein | |
CN111815036B (zh) | 一种基于多残基接触图协同约束的蛋白质结构预测方法 | |
CN110189794A (zh) | 一种残基接触引导loop扰动的群体蛋白质结构预测方法 | |
CN118538328B (zh) | 二面角能量预测模型的训练方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210813 |
|
WW01 | Invention patent application withdrawn after publication |