CN106980776B - 一种物种间基因家族亲缘关系计算方法 - Google Patents
一种物种间基因家族亲缘关系计算方法 Download PDFInfo
- Publication number
- CN106980776B CN106980776B CN201710229007.4A CN201710229007A CN106980776B CN 106980776 B CN106980776 B CN 106980776B CN 201710229007 A CN201710229007 A CN 201710229007A CN 106980776 B CN106980776 B CN 106980776B
- Authority
- CN
- China
- Prior art keywords
- species
- gene
- gene family
- cotton
- genes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 217
- 238000004364 calculation method Methods 0.000 title abstract description 10
- 238000011835 investigation Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims description 32
- 238000002864 sequence alignment Methods 0.000 claims description 9
- 230000002068 genetic effect Effects 0.000 claims description 6
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 3
- 238000002888 pairwise sequence alignment Methods 0.000 claims 2
- 241000894007 species Species 0.000 abstract description 105
- 238000011161 development Methods 0.000 abstract description 14
- 241000196324 Embryophyta Species 0.000 abstract description 12
- 230000000877 morphologic effect Effects 0.000 abstract description 10
- 238000012216 screening Methods 0.000 abstract description 4
- 239000013558 reference substance Substances 0.000 abstract description 3
- 244000299507 Gossypium hirsutum Species 0.000 description 104
- 235000009429 Gossypium barbadense Nutrition 0.000 description 75
- 229920000742 Cotton Polymers 0.000 description 66
- 101150034116 NBS gene Proteins 0.000 description 57
- 240000001814 Gossypium arboreum Species 0.000 description 46
- 235000018322 upland cotton Nutrition 0.000 description 39
- 240000000047 Gossypium barbadense Species 0.000 description 36
- 244000299461 Theobroma cacao Species 0.000 description 25
- 235000009470 Theobroma cacao Nutrition 0.000 description 25
- 208000035240 Disease Resistance Diseases 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 201000010099 disease Diseases 0.000 description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 9
- 238000011160 research Methods 0.000 description 8
- 241000082085 Verticillium <Phyllachorales> Species 0.000 description 7
- 150000001413 amino acids Chemical class 0.000 description 7
- QGZKDVFQNNGYKY-UHFFFAOYSA-N Ammonia Chemical compound N QGZKDVFQNNGYKY-UHFFFAOYSA-N 0.000 description 4
- 238000009396 hybridization Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 244000052769 pathogen Species 0.000 description 3
- 230000001717 pathogenic effect Effects 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 229910021529 ammonia Inorganic materials 0.000 description 2
- 238000012268 genome sequencing Methods 0.000 description 2
- 101150084750 1 gene Proteins 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 150000007523 nucleic acids Chemical group 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种物种间基因家族亲缘关系计算方法,包括确定一个基因家族为指定基因家族,计算两个考察物种谁与参考物的指定基因家族亲缘关系更近,计算方法为将参考物种指定基因家族的基因分别与两个考察物种指定基因家族的基因进行两两序列比对,分别获取多个阈值条件下的考察物种的参考物种非冗余基因数量,确定相同阈值条件下考察物种间的参考物种非冗余基因数量的差值的绝对值最大且参考物种非冗余基因数量较多所对应的考察物种为与参考物种指定基因家族亲缘关系更近,可认为该考察物种与参考物种具有更相似的相应形态发育特征,而应用于优势物种或目的物种的筛选,还可反映不同物种间基因家族的进化关系。
Description
技术领域
本发明涉及生物信息学领域,具体涉及物种间基因家族亲缘关系计算方法。
背景技术
物种进化关系或亲缘关系研究是生物信息学领域的重要研究内容之一,研究物种进化的重要方法是对物种间重要的直系同源基因或保守基因进行氨基酸或核酸序列比对,根据序列的变化情况来推测基因间的进化关系或亲缘关系,进而推测物种间的进化关系或亲缘关系。
基因家族是具有相同结构域序列(一段保守的氨基酸序列)的多个基因的集合,物种中有的基因家族甚至包含上百或上千个基因,属于一个大家族。同一基因家族的基因由于具有相同的结构域,因此往往具有相似的生物学功能。当然,基因之间序列相似性越高,基因的功能越相近。然而,目前的进化研究中,不管是单个或少量的直系同源基因或保守基因,还是一个基因家族内的基因的进化分析,往往都是通过序列比对后构建进化树展示“单个”基因之间的进化关系或亲缘关系。各个物种是一个独立的整体,物种之间均具有某一相同的基因家族是常见的,而把物种内的某一基因家族看做一个整体,不同物种同一基因家族间的进化研究或关系研究还未见报道。一个物种任一形态发育特征往往不是单个基因的作用,通常是基因家族或不同基因家族之间共同作用的结果,因此对物种间单个或少量直系同源基因或保守基因的进化分析或关系分析不如对基因家族之间的进化分析或关系分析能更真实反映物种进化关系及物种间形态发育特征异同。由于同一基因家族的基因往往具有相似的功能,那么物种间同一基因家族相似性水平越高则表明该物种间同一基因家族亲缘关系越近,则相应的基因功能表现水平或物种形态发育特征具有更近的相似性,可应用于推断基因功能表现水平及相应形态发育特征的物种筛选。比如,NBS基因家族为熟知的植物抗病相关基因家族,假设已知A物种具有很强的抗病性,又假设有未知物种B、C、D,要想了解B、C、D中哪一个物种具有更强的抗病性,那么,通过本发明不同物种间基因家族亲缘关系计算方法,就可以从B、C、D中筛选出与A具有最近的NBS基因家族亲缘关系的具有较强抗病性的物种,避免了繁琐的、长时间的、大规模的、高花费的生物技术实验的筛选,节约人力物力,可以极大促进物种育种筛选效率,较快获得优秀品种、目的品种。随着基因组测序技术的进步,越来越多的物种的全基因组被测序,那么获得更多物种的完整的基因家族成为可能,则通过本发明基因家族亲缘关系计算方法,可以更快筛选到具有特定形态发育特征的和具有特定应用价值的物种。另外,对于异源杂交物种可反映其与2个亲本物种的某基因家族的遗传进化关系,对于近缘物种可反映近缘物种间某基因家族的进化关系。
发明内容
为了发现不同物种同一基因家族间的进化关系或亲缘关系,并了解物种间某一基因家族的功能表现水平,提高特定形态发育特征的物种筛选,提出了本发明一种物种间基因家族亲缘关系计算方法。
一种物种间基因家族亲缘关系计算方法,包括:
确定一个待分析的基因家族作为指定基因家族,通常一个基因家族所包含的基因均具有相同的结构域,结构域为一段比较保守的氨基酸序列;
选择参考物种,获取其所述指定基因家族所包含的基因作为参考基因,指定基因家族的基因的获取可以通过将物种的基因序列提交给一些在线网站或软件去分析所包含的结构域,如果包含指定基因家族的结构域,则该基因属于指定基因家族,在线网站如NCBI的结构域分析工具(https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi)、EMBL-EBI的Pfam搜索工具(http://pfam.xfam.org/search)等,软件如EMBL-EBI提供的本地HMMER安装程序等;
确定第一考察物种,获取其所述指定基因家族所包含的基因作为第一考察基因,获取方法见上述参考物种指定基因家族基因的获取;
确定第二考察物种,获取其所述指定基因家族所包含的基因作为第二考察基因,获取方法见上述参考物种指定基因家族基因的获取;
将参考基因与第一考察基因进行两两序列比对,从该序列比对结果中获取大于阈值条件的参考物种的非冗余基因数量作为第一考察物种的参考物种非冗余基因数量,所述阈值条件为匹配序列长度和匹配序列相似性值的组合,所述大于阈值条件为大于匹配序列长度且大于匹配序列相似性值,所述阈值条件的数量大于等于2个。序列比对可以使用ClustalX、ClustalW或者Blast软件进行,序列比对的结果通常包含两两序列间的匹配序列长度和匹配序列相似性值或匹配序列距离值,匹配序列相似性值与匹配序列距离值的关系为它们的和等于1,当比对结果数据量大时可以通过Perl程序编程获取参考物种非冗余基因数量,非冗余基因指不重复的基因;
将参考基因与第二考察基因进行两两序列比对,从该序列比对结果中获取大于所述阈值条件的参考物种的非冗余基因数量作为第二考察物种的参考物种非冗余基因数量;
计算相同阈值条件时第一考察物种的参考物种非冗余基因数量与第二考察物种的参考物种非冗余基因数量的差值,确定差值的绝对值最大且参考物种非冗余基因个数较大的考察物种为与参考物种指定基因家族的亲缘关系更近。
优选地,参考物种和考察物种均已被全基因组测序,全基因组测序后得到的基因家族的基因信息更完整的,则后续分析的结果更可靠。
优选地,所述序列为氨基酸序列。
优选地,所述阈值条件中的匹配序列长度为所述指定基因家族的结构域序列长度的三分之二,匹配序列长度阈值设置太小会降低后续分析结果的可信度,而通常结构域序列长度的三分之二可以认为该结构域比较完整。
优选地,所述阈值条件中的匹配序列相似性值为至少30%以上,通常序列相似性达30%可以认为两条序列可能具有相似的功能。
优选地,所述匹配序列相似性值为至少30%以上包括30%,40%,50%,60%,70%,80%和90%。
优选地,所述阈值条件的数量大于等于2个为7个阈值条件,所述7个阈值条件的匹配序列相似性值分别为30%,40%,50%,60%,70%,80%和90%,匹配序列长度均为所述指定基因家族的结构域序列长度的三分之二。
优选地,所述非冗余基因数量为非冗余基因的个数或非冗余基因的个数占参考物种的指定基因家族基因总数的比例。
当然考察物种可以大于2个,通过本发明的方法可以从所有考察物种中获得与参考物种指定基因家族亲缘关系最近的物种,如先从任意两个考察物种中计算出与参考物种指定基因家族亲缘关系更近的考察物种,然后计算此考察物种与另一考察物种谁与参考物种指定基因家族亲缘关系更近,以此类推,获得与参考物种指定基因家族亲缘关系最近的考察物种。
与不同物种间或同种物种内单个基因之间的亲缘关系或进化关系相比,不同物种同一基因家族之间的亲缘关系具有更重要的应用价值,前者仅仅表现基因之间的亲缘关系或进化关系,后者可以应用于对不同物种中同一基因家族的功能表现水平的比较和了解,由此了解或预测物种间该基因家族对应的形态发育特征的程度,从而更快更准更高效地筛选优势物种或目的物种。另外,对于异源杂交物种可反应其与2个亲本物种的某基因家族的遗传进化关系,对于近缘物种可反映近缘物种间某基因家族的进化关系。
附图说明
图1为本发明物种间基因家族亲缘关系计算方法优选实施例流程示意图。
具体实施方式
下面将结合实施例来详细说明本发明,这些实施例仅起说明性作用,并不局限于本发明的应用范围。本发明不限于下述实施方式或实施例,凡不违背本发明精神所做出的修改及变形,均应包括在本发明范围之内。
实验例1:海岛棉、陆地棉与雷蒙德氏棉间NBS基因家族的亲缘关系计算
1.材料来源:陆地棉和雷蒙德氏棉的基因组数据来自于中国农业科学院棉花研究所(http://cgp.genomics.org.cn/),分别包含76,943和40,976个基因;海岛棉的基因组数据来自于华中农业大学(http://cotton.cropdb.org/),包含109,918个基因。
2.方法与步骤
第一,将海岛棉、陆地棉与雷蒙德氏棉基因组数据中的全部基因的蛋白序列(也是氨基酸序列)提交EMBL-EBI的Pfam搜索工具(http://pfam.xfam.org/search)预测每一条基因所包含的结构域信息。
第二,由于NBS基因家族为包含NB-ARC结构域(结构域编号或Pfam编号为PF00931)的基因,于是通过Perl程序编程分别从第一步中获取海岛棉、陆地棉与雷蒙德氏棉基因中结构域信息包含PF00931或NB-ARC的基因,即为NBS基因家族成员,获取的海岛棉、陆地棉与雷蒙德氏棉的NBS基因家族分别包含682、588和365个NBS基因。
第三,设置7个阈值条件,阈值条件的匹配序列相似性值分别为90%、80%、70%、60%、50%、40%和30%,阈值条件的匹配序列长度均为200(由于NBS基因家族的NB-ARC结构域大约有300个氨基酸,设定两两序列比对的匹配序列长度阈值为结构域的三分之二,即200)。
第四,将雷蒙德氏棉(参考物种)的NBS基因与海岛棉(第一考察物种)的NBS基因使用ClustalX软件进行两两序列比对,生成的nj文件包含两两序列间的匹配序列长度和匹配序列距离值,匹配序列相似性值即为1减去匹配序列距离值的得数,再通过Perl程序编程分别获取大于第三步所述的7个阈值条件的雷蒙德氏棉的非冗余基因数量,并叫做海岛棉的雷蒙德氏棉非冗余基因数量,由于第三步所述阈值条件为7个,因此获得相应的7个海岛棉的雷蒙德氏棉非冗余基因数量,结果如表1所示,从相似性90%至30%,海岛棉的雷蒙德氏棉非冗余基因个数分别为216、310、339、345、348、350和352,占雷蒙德氏棉NBS基因总数的比例分别为59%、85%、93%、95%、95%、96%和96%。
第五,将雷蒙德氏棉(参考物种)的NBS基因与陆地棉(第二考察物种)的NBS基因进行两两序列比对,并获取陆地棉的雷蒙德氏棉非冗余基因个数,比对方法和获取方法与第四步所述的方法相同,获得相应的7个陆地棉的雷蒙德氏棉非冗余基因数量,结果如表1所示,从相似性90%至30%,陆地棉的雷蒙德氏棉非冗余基因个数分别为189、259、280、284、293、296和315,占雷蒙德氏棉NBS基因总数的比例分别为52%、71%、77%、78%、80%、81%和86%。
第六,计算相同阈值条件时海岛棉和陆地棉间的雷蒙德氏棉非冗余基因数量的差值,如表1所示,差值最大的是相似性大于60%条件下海岛棉比陆地棉的雷蒙德氏棉非冗余基因个数多61个(所占比例多17%),并且,在各阈值条件下海岛棉的雷蒙德氏棉非冗余基因数量均比陆地棉的多,从比例的差值看均比较大,表明海岛棉的NBS基因家族与雷蒙德氏棉的NBS基因家族的亲缘关系更近。
表1不同阈值条件下海岛棉与陆地棉的雷蒙德氏棉非冗余基因的数量
由于NBS基因为抗病相关基因,而黄萎病是影响棉花产量最严重的植物疾病,可称得上是棉花的“癌症”。事实上,研究表明,雷蒙德氏棉和海岛棉均具有较强的抗棉花黄萎病的能力,而陆地棉却易受黄萎病菌的侵染,本发明方法的分析结果显示海岛棉的NBS基因家族与雷蒙德氏棉的NBS基因家族的亲缘关系更近,表明海岛棉与雷蒙德氏棉具有更相近的NBS基因家族对应的形态发育特征,即抗病水平,与棉花抗病现实情况一致。另外,由于海岛棉和陆地棉均为雷蒙德氏棉和亚洲棉间异源杂交形成的新物种,根据本发明的结果表明,雷蒙德氏棉将更多的NBS基因家族基因遗传给了海岛棉,推测海岛棉的抗病能力与雷蒙德氏棉更相近,与棉花抗病的现实情况一致。可见,不同物种间同一基因家族的进化关系或亲缘关系跟基因家族功能表现水平和物种相应形态发育特征水平具有密切的关系,表明本发明方法具有较高的应用可信度。
实验例2:海岛棉、陆地棉与亚洲棉间NBS基因家族的亲缘关系计算
1材料来源:陆地棉和亚洲棉的基因组数据来自于中国农业科学院棉花研究所(http://cgp.genomics.org.cn/),分别包含76,943和40,134个基因;海岛棉的基因组数据来自于华中农业大学(http://cotton.cropdb.org/),包含109,918个基因。
2方法与步骤
第一,将海岛棉、陆地棉与亚洲棉基因组数据中的全部基因的蛋白序列(也是氨基酸序列)提交EMBL-EBI的Pfam搜索工具(http://pfam.xfam.org/search)预测每一条基因所包含的结构域信息。
第二,由于NBS基因家族为包含NB-ARC结构域(结构域编号或Pfam编号为PF00931)的基因,于是通过Perl程序编程分别从第一步中获取海岛棉、陆地棉与亚洲棉基因中结构域信息包含PF00931或NB-ARC的基因,即为NBS基因家族成员,获取的海岛棉、陆地棉与亚洲棉的NBS基因家族分别包含682、588和246个NBS基因。
第三,设置7个阈值条件,阈值条件的匹配序列相似性值分别为90%、80%、70%、60%、50%、40%和30%,阈值条件的匹配序列长度均为200(由于NBS基因家族的NB-ARC结构域大约有300个氨基酸,设定两两序列比对的匹配序列长度阈值为结构域的三分之二,即200)。
第四,将亚洲棉(参考物种)的NBS基因与海岛棉(第一考察物种)的NBS基因使用ClustalX软件进行两两序列比对,生成的nj文件包含两两序列间的匹配序列长度和匹配序列距离值,匹配序列相似性值即为1减去匹配序列距离值的得数,再通过Perl程序编程分别获取大于第三步所述的7个阈值条件的亚洲棉的非冗余基因数量,并叫做海岛棉的亚洲棉非冗余基因数量,由于第三步所述阈值条件为7个,因此获得相应的7个海岛棉的亚洲棉非冗余基因数量,结果如表2所示,从相似性90%至30%,海岛棉的亚洲棉非冗余基因个数分别为115、185、212、219、222、225和226,占亚洲棉NBS基因总数的比例分别为47%、75%、86%、89%、90%、91%和92%。
第五,将亚洲棉(参考物种)的NBS基因与陆地棉(第二考察物种)的NBS基因进行两两序列比对,并获取陆地棉的亚洲棉非冗余基因个数,比对方法和获取方法与第四步所述的方法相同,获得相应7个陆地棉的亚洲棉非冗余基因数量,结果如表2所示,从相似性90%至30%,陆地棉的亚洲棉非冗余基因个数分别为140、202、211、214、219、221和225,占亚洲棉NBS基因总数的比例分别为57%、82%、86%、87%、89%、90%和91%。
第六,计算相同阈值条件时海岛棉和陆地棉间的亚洲棉非冗余基因数量的差值,如表2所示,差值最大的是相似性大于90%条件下陆地棉比海岛棉的亚洲棉非冗余基因个数多25个(所占比例多10%),次之为相似性大于80%条件下陆地棉比海岛棉的亚洲棉非冗余基因个数多17个(所占比例多7%),虽然在剩余的阈值条件下海岛棉的亚洲棉非冗余基因数量均比陆地棉的多,但差值相当小,没有显著性,因此确定以差值最大且亚洲棉非冗余基因数量较大的陆地棉为与亚洲棉的NBS基因家族的亲缘关系更近。
表2不同阈值条件下海岛棉与陆地棉的亚洲棉非冗余基因的数量
由于NBS基因为抗病相关基因,事实上,研究表明,亚洲棉和陆地棉均易受黄萎病菌的侵染,而海岛棉却能够免疫,本发明方法的分析结果显示陆地棉的NBS基因家族与亚洲棉的NBS基因家族的亲缘关系更近,表明陆地棉与亚洲棉具有更相近的NBS基因家族对应的形态发育特征,即抗病水平,与棉花抗病现实情况一致。另外,由于海岛棉和陆地棉均为雷蒙德氏棉和亚洲棉间异源杂交形成的新物种,根据本发明的结果表明,亚洲棉将更多的NBS基因家族基因遗传给了陆地棉,推测陆地棉的抗病能力与亚洲棉更相近,与棉花抗病的现实情况一致。同样表明,不同物种间同一基因家族的进化关系或亲缘关系跟基因家族功能表现水平和物种相应形态发育特征水平具有密切的关系,表明本发明方法具有较高的应用可信度。
实验例3:可可、雷蒙德氏棉与亚洲棉间NBS基因家族的亲缘关系计算
1材料来源:雷蒙德氏棉和亚洲棉的基因组数据来自于中国农业科学院棉花研究所(http://cgp.genomics.org.cn/),分别包含40,976和40,134个基因;可可的基因组数据来自于可可基因组中心(http://cocoagendb.cirad.fr./),包含46,143个基因。
2方法与步骤
第一,将可可、雷蒙德氏棉与亚洲棉基因组数据中的全部基因的蛋白序列(也是氨基酸序列)提交EMBL-EBI的Pfam搜索工具(http://pfam.xfam.org/search)预测每一条基因所包含的结构域信息。
第二,由于NBS基因家族为包含NB-ARC结构域(结构域编号或Pfam编号为PF00931)的基因,于是通过Perl程序编程分别从第一步中获取可可、雷蒙德氏棉与亚洲棉基因中结构域信息包含PF00931或NB-ARC的基因,即为NBS基因家族成员,获取的海岛棉、陆地棉与亚洲棉的NBS基因家族分别包含298、365和246个NBS基因。
第三,设置7个阈值条件,阈值条件的匹配序列相似性值分别为90%、80%、70%、60%、50%、40%和30%,阈值条件的匹配序列长度均为200(由于NBS基因家族的NB-ARC结构域大约有300个氨基酸,设定两两序列比对的匹配序列长度阈值为结构域的三分之二,即200)。
第四,将可可(参考物种)的NBS基因与雷蒙德氏棉(第一考察物种)的NBS基因使用ClustalX软件进行两两序列比对,生成的nj文件包含两两序列间的匹配序列长度和匹配序列距离值,匹配序列相似性值即为1减去匹配序列距离值的得数,再通过Perl程序编程分别获取大于第三步所述的7个阈值条件的可可的非冗余基因数量,并叫做雷蒙德氏棉的可可非冗余基因数量,由于第三步所述阈值条件为7个,因此获得相应的7个雷蒙德氏棉的可可非冗余基因数量,结果如表3所示,从相似性90%至30%,雷蒙德氏棉的可可非冗余基因个数分别为0、13、38、51、224、259和279,占可可NBS基因总数的比例分别为0%、4%、13%、17%、75%、87%和94%。
第五,将可可(参考物种)的NBS基因与亚洲棉(第二考察物种)的NBS基因进行两两序列比对,并获取亚洲棉的可可非冗余基因个数,比对方法和获取方法与第四步所述的方法相同,获得相应7个亚洲棉的可可非冗余基因数量,结果如表3所示,从相似性90%至30%,亚洲棉的可可非冗余基因个数分别为0、10、30、110、221、257和281,占可可NBS基因总数的比例分别为0%、3%、10%、37%、75%、86%和94%。
第六,计算相同阈值条件时雷蒙德氏棉和亚洲棉间的可可非冗余基因数量的差值,如表3所示,差值最大的是相似性大于60%条件下亚洲棉比雷蒙德氏棉的可可非冗余基因个数多59个(所占比例多20%),虽然在剩余的阈值条件下雷蒙德氏棉的可可非冗余基因数量均比亚洲棉的多,但差值相当小,没有显著性,因此确定以差值最大且可可非冗余基因数量较大的陆地棉为与可可的NBS基因家族的亲缘关系更近。
表3不同阈值条件下雷蒙德氏棉与亚洲棉的可可非冗余基因的数量
由于NBS基因为抗病相关基因,事实上,研究表明,亚洲棉和可可均易受黄萎病菌的侵染,而雷蒙德氏棉却能够免疫,本发明方法的分析结果显示可可的NBS基因家族与亚洲棉的NBS基因家族的亲缘关系更近,表明可可与亚洲棉具有更相近的NBS基因家族对应的形态发育特征,即抗病水平,与棉花抗病现实情况一致。另外,由于可可是雷蒙德氏棉与亚洲棉的近缘物种,本发明方法得到的亚洲棉与可可的NBS基因家族亲缘关系更近,推测:雷蒙德氏棉和亚洲棉的共同祖先应为易受黄萎病菌侵染,雷蒙德氏棉为与亚洲棉分离后通过NBS基因家族的快速进化获得了抗黄萎病的能力,雷蒙德氏棉的NBS基因比可可和亚洲棉的多很多,可能是与亚洲棉分离后NBS基因的复制扩大了家族成员改变了抗病能力,然而NBS基因数量更多的陆地棉的抗病能力并没有由于数量的增多而增强,说明雷蒙德氏棉的NBS基因家族的进化和复制不是随机的,而是为了适应环境生存具有较强抗病能力的那些NBS基因发生了复制,从而增强了抗病能力。因此,本发明方法可以应用于基因家族的进化研究和相关功能基因的筛选。本实验例同样表明,不同物种间同一基因家族的进化关系或亲缘关系跟基因家族功能表现水平和物种相应形态发育特征水平具有密切的关系,表明本发明方法具有较高的应用可信度。
Claims (8)
1.一种物种间基因家族亲缘关系计算方法,其特征在于:
确定一个待分析的基因家族作为指定基因家族;
选择参考物种,获取其所述指定基因家族所包含的基因作为参考基因;
确定第一考察物种,获取其所述指定基因家族所包含的基因作为第一考察基因;
确定第二考察物种,获取其所述指定基因家族所包含的基因作为第二考察基因;
将参考基因与第一考察基因进行两两序列比对,从该序列比对结果中获取大于阈值条件的参考物种的非冗余基因数量作为第一考察物种的参考物种非冗余基因数量,所述阈值条件为匹配序列长度和匹配序列相似性值的组合,所述大于阈值条件为大于匹配序列长度且大于匹配序列相似性值,所述阈值条件的数量大于等于2个;
将参考基因与第二考察基因进行两两序列比对,从该序列比对结果中获取大于所述阈值条件的参考物种的非冗余基因数量作为第二考察物种的参考物种非冗余基因数量;
计算相同阈值条件时第一考察物种的参考物种非冗余基因数量与第二考察物种的参考物种非冗余基因数量的差值,确定差值的绝对值最大且参考物种非冗余基因数量较大的考察物种为与参考物种指定基因家族的亲缘关系更近。
2.如权利要求1所述的物种间基因家族亲缘关系计算方法,其特征在于,参考物种和考察物种均已被全基因组测序。
3.如权利要求1所述的物种间基因家族亲缘关系计算方法,其特征在于,所述序列为氨基酸序列。
4.如权利要求1所述的物种间基因家族亲缘关系计算方法,其特征在于,所述阈值条件中的匹配序列长度为所述指定基因家族的结构域序列长度的三分之二。
5.如权利要求1所述的物种间基因家族亲缘关系计算方法,其特征在于,所述阈值条件中的匹配序列相似性值为至少30%以上。
6.如权利要求5所述的物种间基因家族亲缘关系计算方法,其特征在于,所述匹配序列相似性值为至少30%以上包括30%,40%,50%,60%,70%,80%和90%。
7.如权利要求1所述的物种间基因家族亲缘关系计算方法,其特征在于,所述阈值条件的数量大于等于2个为7个阈值条件,所述7个阈值条件的匹配序列相似性值分别为30%,40%,50%,60%,70%,80%和90%,匹配序列长度均为所述指定基因家族的结构域序列长度的三分之二。
8.如权利要求1所述的物种间基因家族亲缘关系计算方法,其特征在于,所述非冗余基因数量为非冗余基因的个数或非冗余基因的个数占参考物种的指定基因家族基因总数的比例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710229007.4A CN106980776B (zh) | 2017-04-10 | 2017-04-10 | 一种物种间基因家族亲缘关系计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710229007.4A CN106980776B (zh) | 2017-04-10 | 2017-04-10 | 一种物种间基因家族亲缘关系计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106980776A CN106980776A (zh) | 2017-07-25 |
CN106980776B true CN106980776B (zh) | 2019-05-24 |
Family
ID=59343719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710229007.4A Active CN106980776B (zh) | 2017-04-10 | 2017-04-10 | 一种物种间基因家族亲缘关系计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106980776B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111445954B (zh) * | 2020-04-01 | 2023-09-01 | 广州基迪奥生物科技有限公司 | 一种多基因家族鉴定及进化分析的方法 |
CN113628684A (zh) * | 2021-08-06 | 2021-11-09 | 苏州鸿晓生物科技有限公司 | 样品细菌物种检测方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104450898A (zh) * | 2014-11-26 | 2015-03-25 | 江苏出入境检验检疫局动植物与食品检测中心 | 一种毒蛾属昆虫的物种鉴别方法 |
CN104546938A (zh) * | 2014-09-30 | 2015-04-29 | 深圳华大基因科技有限公司 | 极巨巨单胞菌在治疗或预防类风湿性关节炎或其相关疾病中的应用 |
CN104603283A (zh) * | 2012-08-01 | 2015-05-06 | 深圳华大基因研究院 | 确定异常状态相关生物标志物的方法及系统 |
CN105063761A (zh) * | 2015-09-02 | 2015-11-18 | 云南大学 | 一种用dna条形码鉴别捕食线虫丝孢菌节丛孢属的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2163637A1 (en) * | 2007-03-23 | 2010-03-17 | BASF Plant Science GmbH | Transgenic plants with increased stress tolerance and yield |
-
2017
- 2017-04-10 CN CN201710229007.4A patent/CN106980776B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104603283A (zh) * | 2012-08-01 | 2015-05-06 | 深圳华大基因研究院 | 确定异常状态相关生物标志物的方法及系统 |
CN104546938A (zh) * | 2014-09-30 | 2015-04-29 | 深圳华大基因科技有限公司 | 极巨巨单胞菌在治疗或预防类风湿性关节炎或其相关疾病中的应用 |
CN104450898A (zh) * | 2014-11-26 | 2015-03-25 | 江苏出入境检验检疫局动植物与食品检测中心 | 一种毒蛾属昆虫的物种鉴别方法 |
CN105063761A (zh) * | 2015-09-02 | 2015-11-18 | 云南大学 | 一种用dna条形码鉴别捕食线虫丝孢菌节丛孢属的方法 |
Non-Patent Citations (1)
Title |
---|
Towards a taxonomic coherence between average nucleotide identity and 16S rRNA gene sequence similarity for species demarcation of prokaryotes;Mincheol Kim etc.;《International Journal of Systematic and Evolutionary Microbiology》;20141231;第346-351页 |
Also Published As
Publication number | Publication date |
---|---|
CN106980776A (zh) | 2017-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jo et al. | Peach RNA viromes in six different peach cultivars | |
Jones et al. | Viral diagnostics in plants using next generation sequencing: computational analysis in practice | |
Marzano et al. | Novel mycoviruses discovered from metatranscriptomics survey of soybean phyllosphere phytobiomes | |
Claverie et al. | From spatial metagenomics to molecular characterization of plant viruses: a geminivirus case study | |
Singh et al. | Emergence and spread of new races of wheat stem rust fungus: continued threat to food security and prospects of genetic control | |
Tanweer et al. | Current advance methods for the identification of blast resistance genes in rice | |
Liu et al. | Evaluating genetic diversity and constructing core collections of Chinese Lentinula edodes cultivars using ISSR and SRAP markers | |
Zhang et al. | Genome-wide identification and evolutionary analysis of NBS-LRR genes from Dioscorea rotundata | |
Sidharthan et al. | Robust virome profiling and whole genome reconstruction of viruses and viroids enabled by use of available mRNA and sRNA-Seq datasets in grapevine (Vitis vinifera L.) | |
Chang et al. | Genome-wide association and genomic prediction identifies associated loci and predicts the sensitivity of Tobacco ringspot virus in soybean plant introductions | |
Śliwka et al. | Influence of genetic background and plant age on expression of the potato late blight resistance gene Rpi‐phu1 during incompatible interactions with Phytophthora infestans | |
Ibaba et al. | High-throughput sequencing application in the diagnosis and discovery of plant-infecting viruses in Africa, a decade later | |
Che et al. | Genome-wide association study for soybean mosaic virus SC3 resistance in soybean | |
CN106980776B (zh) | 一种物种间基因家族亲缘关系计算方法 | |
AlMomin et al. | Draft genome sequence of the silver pomfret fish, Pampus argenteus | |
Rabadán et al. | Long-term monitoring of aphid-transmitted viruses in melon and zucchini crops: genetic diversity and population structure of cucurbit aphid-borne yellows virus and watermelon mosaic virus | |
Lefebvre et al. | Host plant resistance to pests and pathogens, the genetic leverage in integrated pest and disease management | |
Zhou et al. | Genome sequence resource of Coniella vitis, a fungal pathogen causing grape white rot disease | |
Mavrič Pleško et al. | Raspberry bushy dwarf virus in Slovenia-geographic distribution, genetic diversity and population structure | |
Karavina et al. | High-throughput sequencing of virus-infected Cucurbita pepo samples revealed the presence of Zucchini shoestring virus in Zimbabwe | |
Adillah Tan et al. | GpaXI tar l originating from Solanum tarijense is a major resistance locus to Globodera pallida and is localised on chromosome 11 of potato | |
Orfanidou et al. | Capsicum chlorosis virus: a new viral pathogen of pepper in Greece | |
Wu et al. | A high-quality genome resource of Botrytis fragariae, a new and rapidly spreading fungal pathogen causing strawberry gray mold in the United States | |
Malathi et al. | The Applications of Genomics and Transcriptomics Approaches for Biotic Stress Tolerance in Crops | |
Reddy et al. | Virome analyses by next-generation sequencing (NGS) in chilli (Capsicum anuum L.) presented with diverse symptoms phenotype revealed the association of seven plant viruses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |