CN105219765A

CN105219765A - 利用蛋白质序列构建基因组的方法和装置

Info

Publication number: CN105219765A
Application number: CN201510755855.XA
Authority: CN
Inventors: 李炯棠; 朱柏翰; 薛尉
Original assignee: China Aquatic Scientific Research Institute
Current assignee: China Aquatic Scientific Research Institute
Priority date: 2015-11-09
Filing date: 2015-11-09
Publication date: 2016-01-06

Abstract

本发明提供了一种利用蛋白质序列构建基因组的方法和装置。具体地，本发明提供了基于蛋白序列拼接基因组的方法，包括筛选片段化蛋白序列、比对区域在蛋白序列上的排序及筛选、基于最多连接证据的基因组序列拼接筛选、形成新的基因组序列等步骤。本发明含有最多连接证据的拼接即为最可靠拼接的统计思想，以及利用包含同源蛋白在内的蛋白质序列拼接基因组的方法。根据本发明的利用蛋白质数据装配基因组的方法，能够利用公开的蛋白序列，以提升基因组的完整性。蛋白序列数据既可以是基因组序列对应物种的蛋白序列，也可以是近缘物种的蛋白序列。这些序列来自于公共数据库，也可以是使用者实验产生的数据。本发明还提供了实现上述方法的装置。

Description

利用蛋白质序列构建基因组的方法和装置

技术领域

本发明涉及遗传学和生物信息学领域，尤其是涉及基因组的构建方法和装置。

背景技术

物种的全基因组装配目前主要依赖于鸟枪法策略。在构建多个插入片段长度不一的文库后，先利用插入片段短的文库组装基因组，逐步利用插入片段更长的文库组装基因组，使得基因组长度逐步增长。但是采用鸟枪法策略构建的基因组无法完整覆盖全部的基因。

蛋白生物合成包括转录和翻译两个生物学过程。首先，转录过程以连续性基因组为模板进行转录，去除内含子后形成成熟的信使RNA。然后，翻译过程根据遗传密码的中心法则，将成熟的信使RNA中“碱基的排列顺序”(核苷酸序列)解码，并生成对应的特定蛋白序列。如果基因组不完整，则一条蛋白序列将被分成2个或者更多比对区域，分散在多个基因组序列上。利用这些区域及其在蛋白序列的位置，能够重新将对应的基因组序列串联起来，形成更长的基因组序列。那么原来散在的蛋白序列将能完整地覆盖。因此，开发利用蛋白质数据组装基因组序列的方法及装置具有可行性。而且开发该方法及装置将能提高基因完整性。

为对本发明做出清楚的说明，首先针对本说明书中使用的技术术语如下进行定义。

比对区域，在本说明书中是指蛋白序列与基因组序列相似或者一致的区域。由于基因组装配尚不完整，所以，一条蛋白序列可能被分割成多个比对区域，这些比对区域分别位于多个基因组序列上。

蛋白序列的长度，是指蛋白质所有氨基酸数。

比对区域的长度，是指比对区域上的蛋白氨基酸数。

比对区域的相对位置：是指比对区域相对于整条蛋白序列的位置。

比对区域的绝对位置：是指比对区域相对于基因组序列的位置。

比对区域之间的间隔：是指前后两个比对区域(i和j)在对应的基因组序列(A和B)的距离差，等于(基因组序列A的长度-比对区域i在A序列的位置+比对区域j在B序列的位置)。

序列覆盖度：等于比对区域长度与蛋白序列长度的比值。

基因组序列拼接：两个或者多个基因组序列按照比对区域在蛋白序列中的位置，先后顺序而成。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出了一种基于蛋白序列拼接基因组的方法和装置，本发明采用的是含有最多连接证据的拼接即为最可靠拼接的统计思想。

根据本发明的一个方面，提供了一种基于蛋白序列拼接基因组的方法，包括如下步骤：

(1)筛选片段化蛋白序列

将蛋白序列与基因组序列进行比对，获得比对区域在所述蛋白序列上的相对位置，以及在所述基因组序列上的绝对位置，

去除序列覆盖度过高的蛋白序列和仅比对到一条基因组序列的蛋白序列，使得筛选后的蛋白序列能比对到多条基因组序列并且每个比对区域都不能完全覆盖整条蛋白，得到片段化的蛋白序列；

(2)比对区域在蛋白序列上的排序及筛选

按照所述片段化的蛋白序列对应的比对区域在蛋白序列上的所述相对位置，从小到大将其比对区域对应的基因组序列依次排列，

计算前后相连的两个比对区域之间的间隔，保留间隔小于200Kb的比对区域拼接和其对应的基因组序列拼接，

将所述基因组序列拼接所对应的所述片段化的蛋白序列作为所述基因组序列拼接的连接证据；

(3)基于最多连接证据的基因组序列拼接筛选

以所述基因组序列拼接中、后续连接新的基因组片段的序列为起点序列，以所述基因组序列拼接中、之前连接新的基因组片段的序列为终止序列，

将后续连接新的基因组片断、但是之前没有连接新的基因组片断的基因组序列作为起始点，将之前有连接新的基因组片断、但是后续没有连接新的基因组片断的基因组序列作为终结点，将之前既有连接新的基因组片断、后续又有连接新的基因组片断的基因组序列作为中间点，

保留有最多所述连接证据的所述起点序列和所述终止序列；

(4)形成新的基因组序列

针对步骤(3)中最终保留的序列，每个只能作为起始点的基因组片段，分别将其作为起始点，选择后续的中间点，为这个中间点进一步选择新的中间点，直至找到终结点为止，

根据上述各基因组序列连接的前后顺序将各基因组片段串联组装成更长的基因组片段。

具体来说，例如，将蛋白序列(假定为a，....z)比对到基因组上。获得比对区域在蛋白序列上的相对位置，以及在基因组序列(假定为A，...Z)上的绝对位置。按照本发明步骤(1)提供的筛选原则，过滤后的蛋白序列为片段化的蛋白序列，特征为，蛋白能比对到多条基因组序列，而且每个比对区域都不能完整覆盖整条蛋白。这些筛选后保留下来的蛋白，可能作为之后基因组序列拼接的连接证据。

接下来，针对保留下来的蛋白及其比对区域，按照各比对区域在蛋白序列上的相对位置从小到大，排列其对应的基因组序列。例如假定a蛋白为保留后的片段化序列，比对区间为1、2、3和4，分别对应基因组序列A、B、C和D。如果上述4个比对区域在蛋白上的相对位置由小到大为4、2、1和3，那么对应的基因组序列顺序为D、B、A和C。

由于蛋白序列可能错误比对到基因组序列上，从而导致两个前后相连的比对区间之间的间隔过大。如果前后相连的两个比对区域的间隔小于200kb，这两个比对区域拼接认为是可靠的，对应的基因组序列也保留。对于上述4个比对区域，那么将产生3种连接：4-＞2，2-＞1，和1-＞3。对应的基因组拼接为D-＞B，B-＞A和A-＞C。假定4-＞2、2-＞1、和1-＞3中，2-＞1的间隔超过200kb，那么2-＞1之间的顺序可能是错误的，根据本发明，仅保留4-＞2和1-＞3，以及对应的基因组序列拼接D-＞B和A-＞C也保留下来。那么蛋白序列a将作为基因组序列拼接D-＞B和A-＞C的连接证据。

第三步，根据本发明，每个基因组序列在序列拼接中有两种属性：起点序列和终止序列。例如，两条基因组序列的拼接D-＞B中，D为起点序列，而B为终止序列。对于每个基因组序列，作为起点序列，可能有多种基因组序列拼接。根据本发明，仅保留有最多连接证据的基因组拼接。例如，对于基因组序列D，作为起点序列，可能有多种拼接方式，例如D-＞B、D-＞K，和D-＞M。每种拼接方式的蛋白连接证据为5、3和2，将保留D-＞B。同理，对于每个基因组序列，作为终止序列，也采取同上的操作步骤。例如，对于基因组序列D，作为终点序列，可能有多种拼接方式，例如P-＞D、T-＞D，和S-＞D。每种拼接方式的蛋白连接证据为5、3和2，将保留P-＞D。

最后，将保留后的基因组拼接串联起，形成新的基因组序列。针对上一步中每个只能作为起始点的基因组片段，分别将其作为起始点，从保留的基因组拼接中，选择后续的中间点；为这个中间点进一步选择新的中间点，直至找到终结点为止。根据上述各基因组序列连接的前后顺序将各基因组片段连接组装成更长的基因组片段。例如，保留下的基因组拼接D-＞B和P-＞D。串联后形成的基因组顺序为P-＞D-＞B。

根据本发明的实施方式之一，蛋白序列来源包括：(i)该物种已发表或者已公开的蛋白质序列；(ii)同源物种的蛋白序列；(iii)对于没有蛋白质数据库的物种，利用公开的转录组数据预测蛋白序列。

根据本发明的另一实施方式，蛋白序列来源于公共数据库，譬如NCBI、Uniprot或者Ensembl数据库，或者来源于转录组测序翻译后得到的蛋白序列。

根据本发明，优选地，步骤(1)中蛋白序列与基因组进行比对时采用的比对软件为BLAT序列比对软件，参数为-q＝prot和-t＝dnax。

优选地，步骤(1)中序列覆盖度过高是指序列覆盖度高于90％。去除序列覆盖度高于90％的蛋白，保留序列覆盖度低于90％的蛋白，即要求每个比对区域的蛋白序列覆盖度低于90％。该步骤保留的蛋白是本发明实施的数据来源。

本发明在筛选可靠的基因组拼接中，使用的是最多连接证据筛选原则。本发明有益的技术效果在于：

(1)能有效提高基因组序列长度和完整性；

(2)能将片段化的蛋白序列连接在一起，提高蛋白序列在基因组上的完整性。

根据本发明的另一方面，还提供了实现上述方法的装置，包括如下部分：

(1)片段化蛋白序列筛选单元：用于将蛋白序列与基因组序列进行比对，获得比对区域在所述蛋白序列上的相对位置，以及在所述基因组序列上的绝对位置；去除序列覆盖度过高的蛋白序列和仅比对到一条基因组序列的蛋白序列，使得筛选后的蛋白序列能比对到多条基因组序列并且每个比对区域都不能完全覆盖整条蛋白，得到片段化的蛋白序列。

(2)比对区域在蛋白序列上的排序及筛选单元：所述比对区域在蛋白序列上的排序及筛选单元与所述片段化蛋白序列筛选单元相连；用于按照所述片段化的蛋白序列对应的比对区域在蛋白序列上的所述相对位置，从小到大将其比对区域对应的基因组序列依次排列；计算前后相连的两个比对区域之间的间隔，保留间隔小于200kb的比对区域拼接和其对应的基因组序列拼接；将所述基因组序列拼接所对应的所述片段化的蛋白序列作为所述基因组序列拼接的连接证据。

(3)基因组序列拼接筛选单元：所述基因组序列拼接筛选单元与所述比对区域在蛋白序列上的排序及筛选单元相连，所述基因组序列拼接筛选单元采用的是最多连接证据筛选原则；用于以所述基因组序列拼接中、后续连接新的基因组片段的序列为起点序列，以所述基因组序列拼接中、之前连接新的基因组片段的序列为终止序列；将后续连接新的基因组片断、但是之前没有连接新的基因组片断的基因组序列作为起始点，将之前有连接新的基因组片断、但是后续没有连接新的基因组片断的基因组序列作为终结点，将之前既有连接新的基因组片断、后续又有连接新的基因组片断的基因组序列作为中间点；保留有最多所述连接证据的所述起点序列和所述终止序列。

(4)新的基因组序列形成单元：所述新的基因组序列形成单元与所述基因组序列拼接筛选单元相连接；用于针对步骤(3)中最终保留的序列，每个只能作为起始点的基因组片段，分别将其作为起始点，选择后续的中间点，为这个中间点进一步选择新的中间点，直至找到终结点为止；根据上述各基因组序列连接的前后顺序将各基因组片段串联组装成更长的基因组片段。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

具体实施方式

下面详细描述本发明的实施例，描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

实施例1

利用斑马鱼的EnsemblGenomeBrower蛋白质序列组装斑马鱼的基因组序列。

材料：从美国生物技术信息中心(NCBI，NationalCenterforBiotechonlogyInformation，http：//www.ncbi.nlm.nih.gov/)网站下载37298条FASTA格式的斑马鱼基因组序列，这些基因组序列的平均长度为143274bp。从EnsemblGenomeBrower(www.ensembl.org)网站下载43153条斑马鱼的蛋白质数据。

(1)筛选片段化的蛋白序列

步骤01：从美国加州大学圣克鲁斯分校(http：//hgdownload.cse.ucsc.edu/admin/exe/)下载BLAT(BlAST-likealignmenttool)程序，选择单机版模式，以各蛋白质数据作为查询序列，以基因组片段作为匹配序列，参数为-q＝prot和-t＝dnax，其他参数为默认，将43153条蛋白质读段与37298条基因组片段进行比对。结果显示有43118条蛋白质能比对到基因组片段上。

步骤02：计算比对区域的序列覆盖度，保留序列覆盖度小于90％的蛋白。

步骤03：对于步骤02中保留下来的蛋白，去除仅比对到1个基因组片段的蛋白，保留比对到2个以上基因组序列的蛋白及其比对区域。经过此步骤后，保留了13858个比对区域。

(2)比对区域在蛋白序列上的排序及筛选

步骤04：对于步骤03中保留下来的比对区域，在同一蛋白上，按照各比对区段的相对位置从小到大依次排列。

步骤05：计算同一蛋白序列中的每一个比对区域与后续连接的比对区域的距离，如果距离小于等于200kb，则保留这两个比对区域。否则去除这两个比对区域。

步骤06：将经步骤05所保留下来的每一区域连接作为对应的基因组拼接的连接证据。

(3)基于最多连接证据的基因组拼接筛选

步骤07：为步骤06中保留下来的每个基因组序列，按照本发明所提供的方法步骤，分别为其选择连接证据最多的起点序列和终止序列。本步骤结束后产生了5998个可靠的基因组序列拼接关系。

将这些基因组序列按照本发明提供的方法分为(i)起始点、(ii)终结点和(iii)中间点三类。

(4)将保留后的基因组拼接串联起，形成新的基因组序列

步骤08：针对步骤07中属于(i)类的每个基因组序列，分别将其作为起始点，从(ii)类和(iii)类的基因组序列中，寻找可拼接的基因组序列，形成基因组序列连接；将该搜寻到的基因组序列连接作为新的起始点，进一步如上所述那样寻找可连接的基因组序列，直至没有可连接的基因组序列为止。根据上述各基因组序列连接的前后顺序拼接组装成更长的基因组序列，从而完成基因组组装过程。本步骤结束后产生3428个新的基因组序列。

结果：组装后的斑马鱼基因组序列为31304条，较原来减少了16.07％；平均长度为169286bp，增长了18.16％。

实施例2

利用线虫的蛋白序列来组装线虫的基因组序列

从EnsemblGenomeBrower网站下载30250条线虫的蛋白质序列和3267条基因组序列。

按照实施例1中的步骤01-步骤08进行线虫基因组组装。

结果：预先装配前的线虫基因组序列平均长度为36490个碱基。使用蛋白序列组装后，线虫基因组序列的平均长度为43454bp，增加19.1％，数量减少至2557条。

实施例3

利用人的蛋白来组装人基因组序列

从UniProtKB数据库的SwissProt子库下载141032条FASTA格式的人蛋白质序列。从美国生物技术信息中心(NCBI，http：//www.ncbi.nlm.nih.gov/)网站下载27416条FASTA格式的人基因组序列

接下来，按照实施例1中的步骤01-步骤08拼接人的基因组序列。

结果：预先装配前的人的基因组序列平均长度为142356bp，共27416条。使用本方法组装后，基因组序列平均长度为173197bp，增加了21.7％，序列数量减少至20905条。

上述实施例中是以斑马鱼、线虫和人基因组为例进行说明。当然，本发明的原理和方法还可以用于其他生物的基因组序列组装。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的构思和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于蛋白序列拼接基因组的方法，包括如下步骤：

(1)筛选片段化蛋白序列

(2)比对区域在蛋白序列上的排序及筛选

(3)基于最多连接证据的基因组序列拼接筛选

保留有最多所述连接证据的所述起点序列和所述终止序列；

(4)形成新的基因组序列

2.如权利要求1所述方法，其中所述蛋白序列来源包括：(i)该物种已发表或者已公开的蛋白质序列；(ii)同源物种的蛋白序列；(iii)对于没有蛋白质数据库的物种，利用公开的转录组数据预测蛋白序列。

3.如权利要求1所述方法，其中所述蛋白序列来源于公共数据库，或者来源于转录组测序翻译后得到的蛋白序列。

4.如权利要求1所述方法，其中步骤(1)中蛋白序列与基因组进行比对时采用的比对软件为BLAT序列比对软件，参数为-q＝prot和-t＝dnax。

5.如权利要求1所述方法，其中步骤(1)中序列覆盖度过高是指序列覆盖度高于90％。

6.一种基于蛋白序列拼接基因组的装置，其特征在于，包括：

(1)片段化蛋白序列筛选单元

用于将蛋白序列与基因组序列进行比对，获得比对区域在所述蛋白序列上的相对位置，以及在所述基因组序列上的绝对位置，

(2)比对区域在蛋白序列上的排序及筛选单元

所述比对区域在蛋白序列上的排序及筛选单元与所述片段化蛋白序列筛选单元相连，

用于按照所述片段化的蛋白序列对应的比对区域在蛋白序列上的所述相对位置，从小到大将其比对区域对应的基因组序列依次排列，

(3)基因组序列拼接筛选单元

所述基因组序列拼接筛选单元与所述比对区域在蛋白序列上的排序及筛选单元相连，所述基因组序列拼接筛选单元采用的是最多连接证据筛选原则，

用于以所述基因组序列拼接中、后续连接新的基因组片段的序列为起点序列，以所述基因组序列拼接中、之前连接新的基因组片段的序列为终止序列，

保留有最多所述连接证据的所述起点序列和所述终止序列；

(4)新的基因组序列形成单元

所述新的基因组序列形成单元与所述基因组序列拼接筛选单元相连接，

用于针对步骤(3)中最终保留的序列，每个只能作为起始点的基因组片段，分别将其作为起始点，选择后续的中间点，为这个中间点进一步选择新的中间点，直至找到终结点为止，

7.如权利要求6所述装置，其中所述蛋白序列来源包括：(i)该物种已发表或者已公开的蛋白质序列；(ii)同源物种的蛋白序列；(iii)对于没有蛋白质数据库的物种，利用公开的转录组数据预测蛋白序列。

8.如权利要求6所述装置，其中所述蛋白序列来源于公共数据库，，或者来源于转录组测序翻译后得到的蛋白序列。

9.如权利要求6所述装置，其中所述片段化蛋白序列筛选单元中蛋白序列与基因组进行比对时采用的比对软件为BLAT序列比对软件，参数为-q＝prot和-t＝dnax。

10.如权利要求6所述装置，其中所述片段化蛋白序列筛选单元中序列覆盖度过高是指序列覆盖度高于90％。