CN116083423B

CN116083423B - 一种靶向富集核酸的探针

Info

Publication number: CN116083423B
Application number: CN202211020586.9A
Authority: CN
Inventors: 汪彪; 余丽萍; 吴强
Original assignee: Naonda Nanjing Biological Technology Co ltd
Current assignee: Naonda Nanjing Biological Technology Co ltd
Priority date: 2022-05-16
Filing date: 2022-08-24
Publication date: 2024-04-30
Anticipated expiration: 2042-08-24
Also published as: CN116083423A; EP4299758A4; EP4299758A1; WO2023221307A1; CN115011594A; CN115011594B

Abstract

本发明涉及一种靶向富集核酸的探针，本发明提供了一种新型的杂交捕获探针，用于靶核酸序列的富集。其原理是探针序列分为三个区段：中间区段为靶序列结合区段；一条探针的5’端区段可与另一条探针的3’端区段互补配对，3’端区段可与另一条探针的5’端区段互补配对。这一新型探针可与靶序列更稳固地结合，相比于传统的杂交捕获探针，对于低起始量或小靶标区域(panel)下的杂交捕获靶向富集有着更优的效果。

Description

一种靶向富集核酸的探针

技术领域

本发明涉及一种探针，特别是一种应用于靶向富集核酸的探针及其应用和设计方法。

背景技术

核酸序列是生命信息的载体，而高通量测序技术已成为生物和医学领域的核心技术之一。高通量测序产生大量的数据，其中并非全部都是研究或者检测的目标序列。虽然测序成本已经大幅降低，但是由于全基因组测序数据量较高，成本仍然居高不下，解决这一问题的方案就是将全基因组测序变为靶向富集技术，靶标区域富集的NGS测序技术会忽略基因组中不感兴趣区域的信息，并将基因组中靶区域的信号放大，可以节约测序成本和测序时间。

靶向富集根据富集原理不同主要分为多重PCR扩增和靶向捕获。后者是基于探针的液相杂交捕获技术，是目前的主流，具有探针设计难度低、探针容错性高等优点。液相杂交捕获技术是在溶液中生物素标记的探针与靶区域特异性结合，通过链霉亲和素磁珠，对探针捕获到的目的片段进行富集。在这一过程中带有生物素标记的探针，以及杂交捕获的液相反应条件均对这一系统捕获效率产生较大影响，对于大的靶标区域，杂交捕获效率较高，比如全外显子靶标区域(Panel，又称捕获区域)，中靶率在80％以上；但是对于一些小的靶标区域(Panel)，中靶率较低，比如10kb以下的小靶标区域，中靶率甚至会低于10％。

探针序列长度的选择有多方面的考虑：首先，探针长度应保证其在特定的杂交体系中，不同的序列碱基组成下，杂交退火温度适宜，与靶序列的结合能力以及特异性最优；其次，应保证探针和靶序列的序列之间在存在一定程度错配的情况下，杂交退火温度下降不明显；最后，越长的探针合成难度越大，合成质量越难保证。目前，基于以上考虑，探针序列长度通常为40-120nt，主流的探针长度为120nt，且带有修饰(如生物素)，其修饰基团则可与相应的亲和介质结合以完成对靶序列的“捕获”。探针的形式包括单链DNA、双链DNA、单链RNA、双链RNA等。

目前二代测序技术是应用最多的高通量测序技术，双向150bp是较为主流的测序读取模式。测序文库的平均插入片段长度也多为100-400bp之间。过长的插入片段其中间部分无法被读取，且过长的片段对测序流程中的多个PCR扩增步骤也提出了挑战。另外，对于FFPE、细胞外游离核酸等原始长度已经比较短的样本来说，也无法制备插入片段更长的文库。那么，一个文库分子在进行杂交捕获的过程中，通常只能结合1-2个探针，这也意味着探针脱落的概率增加，靶序列的回收率降低。例如，一个长度为120bp靶序列，最多只能完整结合一条探针，即使可以结合两条探针，这两条探针也只能是部分结合。为了增加探针的结合能力和结合概率，可将探针缩短，并增加探针数目，或采取叠瓦式的设计策略，即探针互相重叠设置，使得不同的靶序列片段均有更高的几率可以与探针有更为完整的结合。然而，即使是互相重叠的探针也不可能同时完整的结合在同一个靶片段之上(图4A)。

对于经过了PCR扩增的测序文库来说，每个靶片段均存在多个拷贝，因此较低的回收率下也可以保证绝大部分原始的靶片段都有被捕获到的拷贝。并且杂交捕获技术通常靶向5kb以上的区域，而固有的非特异捕获可通过多种手段进行压缩，中靶率(靶序列在所有捕获到的序列中所占的比例)有一定保障。但是对于插入片段长度较短，或是未经PCR扩增的测序文库，以及靶标区域占总和区域的比例过低的应用需求来说，目前主流的探针以及杂交捕获体系无法提供令人满意的回收效率及中靶率。

除此之外，液相杂交捕获流程非常耗时，从核酸样本到捕获文库的获取需要2-4天的时间；同时杂交捕获涉及的试剂种类较多、操作流程异常的繁琐，对于操作人员的技术要求较高，中途任何一个环节出现问题，均会影响捕获文库的表现。这些环节成为制约液相杂交捕获发展的关键技术瓶颈。

液相杂交捕获技术对于癌症肿瘤突变基因检测、拷贝数变异、甲基化状态分析的应用较为广泛，目前市面上有多款产品应用到基因检测和临床的应用研究，但是随着肿瘤早筛以及MRD热度的上升，对液相杂交捕获技术提出更高的要求。例如针对实体瘤MRD检测技术，首先针对原发肿瘤组织进行测序以鉴定患者特异性基因组变异图谱，然后设计靶标区域进行个性ctDNA检测分析。这就要求杂交捕获系统对小靶标区域的兼容性、操作便捷性、实验流程简并性、自动化程度等方面提出更高要求。

因此，开发出一种回收效率及中靶率较高的探针，以及一套捕获效率高、均一、稳定且操作简便、涉及试剂种类少、耗时短的液相杂交捕获系统，是解决当前市场痛点的出口。

发明内容

本发明提供了一种用于核酸捕获富集的探针，以及该探针组成的探针池的设计方法。

本发明提供了一种用于核酸捕获富集的探针，其特征在于，上述探针包括：(1)与另一探针互补配对的探针结合序列，以及(2)与核酸靶序列互补配对的靶特异性序列。

优选地，上述探针结合序列包括第一探针结合序列和第二探针结合序列。

更优选地，上述探针的5’端具有与另一探针的3’端互补配对的第一探针结合序列，并且上述探针的3’端具有与另一探针的5’端部互补配对的第二探针结合序列。

优选地，上述探针结合序列的长度为8-30nt。

优选地，上述靶特异性序列的长度为20-80nt。

更优选地，上述探针5’端与另一探针互补配对的第一探针结合序列长度为8-30nt，上述探针3’端与另一探针互补配对的第二探针结合序列长度为8-30nt。

优选地，上述探针的3’端或5’端带有生物标记物。

更优选地，其特征在于，上述生物标记物为生物素。

优选地，其特征在于，上述探针与核酸靶序列之间的退火温度大于探针与探针之间的退火温度。

本发明提供一种用于核酸捕获富集的探针池设计方法，其特征在于，包括以下步骤：

a)输入初始序列信息和设计参数，输出探针序列信息，其中，上述初始序列信息包括(1)总和序列信息，为捕获前文库中可能包含的序列；(2)靶序列信息，为待捕获的序列、需要避开的序列信息，即综合序列中的重复序列等低特异性序列；

上述设计参数包括探针与靶序列结合的退火温度范围和序列长度范围，以及探针与探针间结合序列的长度范围；

b)从总和序列的正链及互补链序列中截取长度为k的所有子序列，并统计每种子序列出现的次数；

c)选择探针与探针间互补配对的探针结合序列，其中，上述探针结合序列长度为k，其退火温度小于探针与靶序列结合的退火温度，且其在总和序列中出现的次数较少，优选地，出现次数小于平均值5％；

d)选择探针与核酸靶序列结合的靶特异性序列，其中，选择第i个上述靶序列，i的初始值等于1；接着从选择的上述靶序列，其第n个碱基开始选取探针与核酸靶序列结合的靶特异性序列，n的初始值等于1；

f)在上述靶特异性序列的5’端加上探针结合序列，3’端加上探针结合序列的反向互补序列；

g)输出所有的探针序列。

优选地，上述探针与核酸靶序列结合的靶特异性序列，如果未落入需要避开的序列区间，则放入探针池，并间隔m1个碱基尝试获得下一个靶特异性序列；如果落入需要避开的序列区间，则不放入探针池，并间隔m2个碱基再次尝试获得靶特异性序列；

其中，上述数字m1值大于或等于上述探针与靶特异性序列的长度；上述的数字m2值小于或等于上述探针与靶特异性序列长度范围的最小值。

优选地，选择探针与核酸靶序列结合的靶特异性序列，其步骤包括：当n小于第i个靶序列的长度时，选择下一个靶特异性序列；当n大于或等于第i个靶序列的长度时，选择第i个靶特异性序列。当第i个靶序列的靶特异性序列选择结束后，对第i+1个靶序列进行上述靶特异性序列选择，直到所有靶序列均完成靶特异性序列选择。

本发明还提供上述的探针于检测DNA片段中的低频突变检测、染色体拷贝数变异分析、插入/缺失、微卫星不稳定性或融合基因变异的应用。

本发明还提供上述的探针于靶向mNGS测序或检测病原体流行病学的应用。

与现有技术相比，本发明的探针，有益效果在于，与常规探针相比，本发明的探针与靶片段结合更牢固，可以通过较短的靶特异结合序列增加靶片段可以结合的探针个数。本发明的探针更适合于短片段文库的捕获；更适合于小靶标区域的捕获；更适合于PCR-free文库的捕获；更有利于杂交捕获流程的缩短。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成本发明的不当限定。在附图中：

图1为本发明探针的结构示意图，探针主要由4个部分组成：与靶基因互补的P-Cap区、3’端的P-L区以及5’端的P-R区，其中探针的5’端有生物素(Biotin)标记，P-L和P-R有一段序列互补。

图2为常规杂交捕获系统与本发明杂交捕获系统流程的比较图。

图3为不同类型样本的实验方案。

图4为常规120nt探针(A)、现有技术使用的短探针(B)，以及本发明探针(C)与靶片段结合的结构示意图，其中T代表样本核酸的靶片段，P代表探针。

图5为常规120nt探针、现有技术使用的短探针、本发明探针杂交捕获文库NGS的实验结果。

图6为常规120nt探针与本发明探针用于PCR-free文库的捕获效果。

图7为本发明探针浓度测试结果。

图8为本发明探针杂交温度测试结果。

图9为本发明探针杂交时间测试结果。

具体实施方式

以下结合附图与具体实施例对本发明做进一步的描述，本发明的保护内容不局限于以下实施例。还应该理解，本发明实施例中使用的术语是为了描述特定的具体实施方案，而不是为了限制本发明的保护范围，并不是唯一性限定。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求及其任何等同物为本发明的保护范围。

本文中使用的所有技术和科学术语具有被本发明所属领域技术人员普遍理解的相同含义。在其他情况下，本文使用的某些术语会在说明书中阐明其含义。下列实施例中未注明具体条件的实验方法，均为本领域技术人员的普遍知识和公知常识。本申请中的实施例及实施例中的特征可以相互组合。

通过以下详细说明结合附图可以进一步理解本发明的特点和优点。所提供的实施例仅是对本发明方法的说明，而不以任何方式限制本发明揭示的其余内容。

本发明提供了一套用于核酸捕获的探针，探针分别针对靶区域的正义链以及负义链设计，正义链探针以及负义链探针均采用无重叠的排列方式，探针3’端或5’端有生物素修饰，该生物素能够与链酶亲和素磁珠结合。

探针主要由三部分组成，中间区段为靶序列结合区段，5’和3’区段为稳定性增强区段，一条探针的5’端区段可与另一条探针的3’端区段互补配对，3’端区段可与另一条探针的5’端区段互补配对。其中，探针之间互补配对的片段分别是P-L片段以及P-R片段，P-L片段长度为8-30nt，P-R片段长度为8-30nt，P-L与P-R两个片段之间存在8-30nt的互补配对的区域，L的3’端或R的5’端有生物素修饰，能够与磁珠上的链酶亲和素结合；探针与靶区域互补配对的片段为P-Cap片段，P-Cap长度在20-80nt之间(图1)。

探针设计方法如下：

根据待检基因的位置设计探针，若针对突变、插入或缺失突变，选取覆盖相应片段的区域设计探针；若针对融合基因设计探针，选取融合基因断点两侧的基因设计探针；

若需要捕获正义链，探针会针对正义链设计捕获探针；

若需要捕获反义链，探针会针对反义链设计捕获探针；

通过软件分析，剔除危险探针，危险探针会导致整个杂交捕获系统严重脱靶，导致中靶率降低，靶区域捕获效率偏低，覆盖均一性变差。

本发明还提供了一种探针池的设计方法，方法如下：

1.设计工具输入初始序列信息和设计参数，生成探针序列信息。

2.初始序列信息：包括总和序列信息，即富集前文库中可能包含的序列信息，以及靶标序列信息，即需要从总和序列信息中富集到的序列信息。

3.设计参数：包括探针与靶标序列结合的退火温度范围，此温度与杂交反应溶液的组成以及反应的设定温度有关,还包括探针与靶标结合区的序列长度范围。

4.设计工具的工作流程，包括：

(1)对总和序列信息的预处理。对总和序列信息的预处理包括总和序列不同区段特异性的评估,以及统计总和序列正链及互补链中长度为k的所有序列组合的出现次数，且其中k小于探针与靶序列结合区的序列长度范围的最小值。

(2)探针与探针结合区序列的选择。所述的探针与探针

结合区序列，其特点包括：

(2.1)长度为k；

(2.2)退火温度小于探针与靶标序列结合的退火温度；

(2.3)上述(1)中的出现次数统计结果，其在总和序列中次数较少，或出现次数小于平均值5％。

(3)探针与靶标序列结合区的选择。选择过程包括：

(3.1)选择第i个靶标序列，i的初始值等于1；从选择的该靶标序列的第n个碱基开始选取探针与靶标结合区序列，n的初始值等于1。其中，探针与靶标结合区序列的退火温度满足上述第3点，且序列长度满足上述第3点的范围。其中，探针与靶标结合区序列，其总和序列不同区段特异性的评估，如果评估为高特异性(即未落入需要避开的序列区间)，则放入探针池，且n加上一个数字m1，间隔m1个碱基尝试获得下一个靶特异性序列；如果评估为低特异性(即落入需要避开的序列区间)，则不放入探针池，n加上一个数字m2，间隔m2个碱基再次尝试获得靶特异性序列。

优选地，上述数字m1，其值大于或等于上述放入探针池的探针与靶标结合区序列长度；上述数字m2，其值小于或等于上述的探针与靶标结合区的序列长度范围的最小值。

(3.2)当n小于第i个靶标序列的长度时，选择下一个探针与靶标结合区序列。

(3.3)当n大于或等于第i个靶标序列的长度时，完成第i个靶标序列的探针与靶标结合区序列选择。

(3.4)当第i个靶标序列的探针与靶标结合区序列选择结束后，对第i+1个靶标序列进行上述的探针与靶标结合区序列选择，直到所有靶标序列均完成探针与靶标结合区序列选择。

(4)对探针池中的探针与靶标结合区序列，对其5’端加上探针与探针结合区序列，对其3’端加上探针与探针结合区序列的反向互补序列。

(5)输出所有探针序列。

本发明还提供了一套从核酸样本到靶向文库构建的系统(参见图2)，具体流程如下：

所述核酸样本包括DNA样本或RNA样本，DNA样本包括血浆游离DNA(cfDNA)、基因组DNA(gDNA)、FFPE样本、病毒或细菌基因组样本等；RNA样本包括新鲜组织样本、FFPE样本、病毒或细菌基因组样本等。

针对cfDNA样本，无需打断，可以直接进行建库；

针对完整基因组样本需要进行物理打断，将基因组DNA打断至200-250bp左右；

针对RNA样本，需要进行反转录、一链以及二链合成；

片段化之后的样本进行末端修复、接头连接以及连接产物纯化，纯化后的产物直接进行杂交捕获，杂交捕获方案与使用的接头相关，使用全长UDI接头模块，可以进行多文库混合杂交，杂交产物使用Primer Mix对混和杂交捕获的文库进行PCR扩增；若使用截短型分子标签接头模块，只能进行单个样本的杂交，含分子标签接头模块可以对样本进行低频突变检测，通过一致性序列分析过滤掉杂交模糊以及PCR扩增引入的背景噪音。此处同时兼容Illumina以及MGI测序平台的接头模块，构建适用于不同测序平台的DNA文库。

接头连接产物无需真空浓缩，直接配置杂交捕获反应体系，也可以带着上一步的纯化磁珠直接进行杂交捕获；

杂交体系使用本项目设计的特异性探针，可以进行快速杂交，杂交时间为1-2小时，捕获时间20分钟，缩短了杂交捕获的时间，PCR扩增对杂交捕获文库进行富集，此步PCR扩增扩增方案与使用的接头模块相关，使用分子标签接头模块时，搭配含Barcode序列的引物进行PCR扩增，若使用全长接头模块，搭配Primer Mix对靶向富集的DNA文库进行扩增(参见图3)。

本系统所选择的杂交捕获时间为1小时到16小时，最优的捕获时间为1小时。

本系统所选择的杂交不捕获温度为59-61℃，最优捕获温度为60℃左右，温度选择与探针长度、靶区域GC含量以及杂交捕获时间相关。

本系统杂交捕获文库构建，即从样本到捕获文库获取共需要6小时，相比传统的2天到4天，简化操作步骤的同时，大大缩短了全流程操作时间。

本发明还提供了杂交捕获试剂组分及其使用方法，具体内容如下：

接头连接产物使用2倍Beads纯化，且纯化产物使用试剂盒配置的Beads WashBuffer，Beads Wash Buffer为4mL乙腈加入1mL H₂O。

杂交捕获反应体系使用的试剂详见表1。

表1

杂交系统共涉及3种洗脱缓冲液，分别是洗脱缓冲液I、洗脱缓冲液II以及洗脱缓冲液III，三种洗脱缓冲液配方参见表2。

表2

本发明探针与常规120nt探针、短探针的结构示意图见图4。以下实施例1-3将针对本发明的探针与现有技术常用的探针进行效果比较，并将本发明的探针以NC探针代称。

实施例1：常规120碱基探针与短探针的杂交捕获效果比较

本实施例中，捕获前文库为人血浆游离DNA文库，来源于人基因组DNA的断裂和向血液循环系统的释放，即总和序列为全部的人基因组序列。设定的靶序列位于表3中所示的区间，包含与肿瘤相关的一系列高频体细胞突变位点。

表3.靶序列在hg19版本人基因组上所处的位置

该靶序列总长度仅为1.2kb，若以常规的120nt探针覆盖，需要44条探针，44条常规120nt探针如表4所示。本实验以Hybrid Capture Reagents进行杂交捕获，得到的捕获文库在Illumina Novaseq6000上测序。测序数据中，平均99.9％的序列可以比对到人参考基因组上，其中平均11.7％位于靶标区域，120nt探针的中靶率过低无法满足要求(图5)。

表4.表3中覆盖靶标区域的常规120nt探针

血浆游离DNA片段长度分布最集中的区间是在160bp左右，故而不一定有探针能完整地与之结合，探针与靶序列结合的整体不够稳固。再加上靶标区域占整个基因组的比例非常小，仅约1/2500000，故中靶率偏低的结果也是可以预期的。

为了提高每个片段与探针结合的概率，采用短探针来进行捕获。本实施例欲利用4条较短的探针长度(即探针长度不超过40nt)与每个160bp待富集片段进行结合。探针的目标退火温度设为65℃。探针长度较短则退火温度受序列碱基组成的影响较大，因此，探针池的设计方法与常规的120nt探针不同，需要在一定范围内调整探针长度，使其退火温度接近目标值。按照本发明提供的探针池设计方法的部分步骤(跳过第4点中的(1)(2)(4)步骤)进行探针池设计，总和序列为人类参考基因组hg19，靶标序列为如表3所示的靶标区域序列，输入探针长度范围参数35-40nt，探针退火温度65℃，m1设为40，m2设为5。得到的短探针如表5所示，长度约40nt，共97条。捕获文库NGS数据分析后，显示平均99.9％的序列可以比对到人参考基因组上，其中平均23.4％位于靶标区域(图5)。虽然中靶率有了较为明显的提升，但仍然低于常规的杂交捕获50％的中靶率要求。显见即使直接缩短探针并在重叠探针增加探针密度进行捕获，中靶率仍无法达到50％的基本要求。

表5.表3中覆盖靶标区域的短探针

实施例2：常规120nt探针与NC探针的杂交捕获效果比较

本实施例中，展示了NC探针与常规120nt探针捕获人血浆游离DNA文库与实施例1中相同靶标区域的捕获结果比较。

NC探针在表5所示短探针序列的基础上增加了探针相互结合的序列。根据本发明提供的探针池设计方法，总和序列为人类参考基因组hg19，靶标序列为如表3所示的靶标区域序列，探针长度范围设定为35-40nt，探针退火温度设定为65℃。探针相互结合区序列长度设为8，即k＝8。8个碱基的所有可能的序列组合共有65536个，在人类参考基因组hg19中均有出现，平均出现次数为88419次，从出现次数较低的序列中，选取的探针相互结合序列为CGTCGGTC，其互补序列为GACCGACG，出现次数为2078次。此序列作为探针互相结合序列加到表5中探针的两侧。

NC探针序列如表6所示，其与表5相比，在探针的靶特异性序列两端增加了探针结合序列，当一个片段结合大于一条探针时，探针之间可以通过探针结合序列的互补配对增加探针结合的牢固性。

表6.表3中覆盖靶标区域的NC探针

结果如图5所示，NC探针捕获文库NGS数据显示，99.9％的序列可以比对到人类参考基因组上，其中位于靶标区域的比例平均为56.0％，达到了常规的杂交捕获中靶率要求。

实施例3：NC探针用于PCR-free文库的靶向捕获

PCR-free文库是指连接了NGS接头，但是没有经过PCR扩增的文库，其保留了原始的序列信息，且尚未引入PCR偏好。直接以PCR-free文库进行杂交捕获面临着杂交投入量少，捕获得率无法保证的困难。经过了PCR扩增的文库，每个原始片段都有多个拷贝，因此有多个被探针结合并捕获到的机会。而PCR-free文库中的任何一个片段如果没有被探针捕获到，则无法进入后续步骤，造成信息损失。并且，PCR后的文库片段，每一条单链均生成了对应的互补链，因此探针只需要一个方向的设计，就可以捕获到来自原始片段两条链的信息。而PCR-free文库中，一个片段的正向负向两条链都是单一存在，如果只以其中一个方向的探针进行捕获，则互补链也会丢失。因此在本实施例中，增加了另一条链的探针。常规120nt的另一条链探针如表7所示，NC探针的另一条链探针如表8所示。

如图6所示，30ng血浆游离DNA PCR-free文库经表4和表7中的常规120nt探针捕获后，NGS结果显示，平均中靶率仅为5.6％，正链平均去重后覆盖深度为356.1x，负链平均去重后深度为329.9x。而经表6和表8中所示的NC探针捕获后，NGS结果显示，平均中靶率达到48.7％，正链去重后平均深度为980.2x，负链去重后平均深度为1020.5x。可见，对于PCR-free文库，NC探针的回收率及中靶率都有大幅提升。

表7.表3中覆盖靶标区域的常规120nt探针的互补链探针

表8.表3中覆盖靶标区域的NC探针的互补链探针

测试本发明NC探针的基础效果后，实施例4-8进一步测试基于本发明NC探针的杂交捕获系统及相关参数。

实施例4：最佳NC探针浓度测试

不同浓度的NC探针对靶基因的捕获效率差异未知，通过设置不同浓度梯度探针的实验，寻找最佳探针浓度。具体实验方案参见下表9，按照本发明的探针设计思路，设计4.5kb的靶标区域，使用Promega标准品male(G1471 Promega-male)，将样本打断至200-250bp左右。

具体实验流程除各实验组探针浓度不同外，其他变量一致，结果数据参见图7。

表9

实验分组	探针浓度
		Lib 1	2fmol
Lib 2	2fmol
		Lib 3	4fmol
Lib 4	4fmol
		Lib 5	6fmol
Lib 6	6fmol
		Lib 7	10fmol
Lib 8	10fmol

从Consensus depth结果分析来看，DS211或者SS信息与NC探针浓度呈正比，NC探针浓度较低时捕获到的有效文库信息较少，NC探针浓度越高，捕获到的有效文库信息越丰富，但是NC探针浓度太高会导致体系中含有过量的冗余NC探针，导致中靶率降低。本系统采用的最优NC探针浓度在6-10fmol之间，更优的选择为6fmol的NC探针。

实施例5：最佳杂交捕获温度测试

本系统使用的是NC探针，需要根据探针结构选择杂交捕获温度，为了确定最佳温度条件，进行了一系列测试，具体实验方案参见下表10，按照本发明的NC探针设计思路，设计4.5kb的靶标区域，使用Promega标准品male(G1471 Promega-male)，将样本打断至200-250bp左右。

具体实验流程除各实验组杂交捕获温度不同外，其他变量一致，结果数据参见图8。

表10

实验分组	杂交捕获温度
		Lib 1	57℃
Lib 2	60℃
		Lib 3	63℃

从建库效率以及Consensus depth结果分析来看，DS211或者SS含量受杂交捕获温度影响，60℃的杂交捕获温度表现优于其他两个温度条件，且60℃的捕获效率以及中靶率表现均高于其他杂交捕获温度。

为了确保60℃为最佳杂交条件，且该系统不会对杂交温度过于敏感，接着测试了更为接近的杂交条件，比较59℃、60℃以及61℃的杂交条件下文库捕获效率差异(见表11)，各实验组除杂交捕获温度不同外，其他变量一致，结果数据参见图8。

表11

从以上数据分析，杂交温度从59℃到61℃均表现出较优的捕获效率，本系统采用60℃做为最终杂交捕获条件。

实施例6：缩短杂交捕获时间

传统杂交捕获系统采用的杂交时间为16小时，本发明所采用的杂交时间可以由16小时缩短为1小时，并且缩短杂交时间并不会影响探针对DNA样本的捕获效率。

使用本系统的杂交捕获条件进行实验，具体实验方案参见下表12，按照本发明的NC探针设计思路，先设计50kb的靶标区域，使用GW-OGTM800标准品，将样本打断至200-250bp左右。

实验流程如下：

gDNA打断至200bp左右(Covaris超声打断仪)，进行末端修复、接头连接，接着利用等体积的Beads纯化核酸；该具体纯化流程如下：

1.提前将SP Beads取出涡旋混匀，室温平衡30分钟后使用；

2.向接头连接产物中加入80μLSP Beads，混合均匀，25℃孵育5–10分钟；

3.将PCR管瞬时离心后放置于磁力架上5-10分钟至液体完全澄清，使用移液器吸取移弃上清；

4.加入200μL BW Buffer洗涤1次，静置2分钟，吸弃上清；

5.往反应体系中加入杂交反应液。

杂交体系中含有6fmol的探针、1×Hyb Buffer、1×Enhance、1ug Human Cot-1、100pmmol的Blocker，将配置的杂交反应系统放置在温控仪反应，杂交反应条件如下：95℃变性2分钟、60℃杂交1小时或16小时。

杂交反应结束后，将上清转移到新的PCR管中，向PCR反应管中加入10μL M270Beads进行杂交捕获，60℃捕获20分钟。

捕获20分钟结束后，使用洗脱缓冲液I、洗脱缓冲液II以及洗脱缓冲液III各洗涤1次。

洗涤结束后，向M270Beads中加入PCR反应体系，PCR反应体系主要包括2×HiFiPCR Master Mix、5μL Index Primer Mix以及20μL TE；在PCR温控仪上启动PCR扩增程序，反应结束后，使用1倍体积磁珠进行纯化，纯化产物在平台测序。

测试结果数据参见图9。

表12

实验分组	建库及杂交捕获试剂盒	杂交时间
			Lib 1	EASY Hybrid Capture System	16小时
Lib 2	EASY Hybrid Capture System	16小时
			Lib 3	EASY Hybrid Capture System	1小时
Lib 4	EASY Hybrid Capture System	1小时

从Consensus depth结果分析来看，DS211或者SS信息与杂交时间呈正比，杂交1小时已经捕获到90％以上的有效文库捕获，最终选择1小时杂交时间，控制整个实验流程在1天完成。

实施例7：小靶标区域NC探针PCR-free模式捕获与常规探针常规捕获流程的比较

为了比较对于小靶标区域，优化后的NC探针PCR-free模式与传统探针非PCR-free模式下的捕获表现，按照下表13的分组方式开展实验，其中组1采用传统方式构建靶向捕获文库，传统方式的杂交捕获系统搭配120nt的探针；组2使用本发明NC探针的系统构建PCR-free靶向捕获文库，针对同一区域设计捕获探针，探针覆盖基因组外显子区域，靶标区域大小为4kb左右。

表13

其中组1的具体实施流程参考简易杂交捕获试剂盒的商品说明书；而组2的具体实验流程参见实施例6，杂交时间固定为1小时。

本实施例的数据表现参见表14，组1和组2覆盖平均率的接近100％，然而组2的中靶率为59％，比组1的11.73％还高，显见本发明NC探针的系统可以有效提升中靶率。

表14.小靶标区域捕获效率高于传统杂交捕获

实施例8：对融合基因检测效率高于传统杂交捕获

融合基因是由于基因组重排造成两个基因的部分片段相接而产生的。可通过对重排断点两侧的区域进行捕获测序来检测和分析融合基因。由于跨断点的重排片段只有部分是原来的序列，对于常规探针来说，会出现只有部分区段可以结合的问题。而NC探针同样可以通过更多的探针结合可能性来提高融合基因的检测能力。

按照下面表15的分组方式开展实验，其中组1采用传统方式构建靶向捕获文库，传统方式的杂交捕获系统搭配120nt的探针，设计覆盖ROS1内含子33的探针，检测CD74-ROS1融合；组2使用本发明构建靶向捕获文库，针对同一区域设计捕获探针，靶标区域为1kb左右。其中组1的具体实施流程参考简易杂交捕获试剂盒的商品说明书。

表15

样本为泛肿瘤800gDNA标准品(GW-OGTM800)，该标准品包含多个经过数字PCR验证的突变位点，CD74-ROS1 Fusion就是其中之一，该位点理论突变频率为6％。

组2的具体实验流程参见实施例6，结果数据参见下表16。

表16.融合基因检测效果高于传统杂交捕获

融合位点常位于重复区域内，重复区域内的探针设计是捕获难题，而本系统使用NC探针，对于融合基因的检测表现出一定的优势。本实验的GW-OGTM800标准品包含一组CD74-ROS1融合基因，数字PCR验证其突变频率为5％；组1、组2使用覆盖相同区域的探针进行杂交捕获，传统方法检测到融合基因频率在1.1％左右，而优化后的本发明系统检测到融合基因频率在5.8％。

以上所述仅为本发明的优选实施例，并不用于限制本发明。本发明提及的所有文献都在本申请中全文引用作为参考。此外应理解，在阅读了本发明的上述讲授内容之后，凡在本发明的精神和原则之内，本领域技术人员可以对本发明作各种改动或修改，这些等价形式的修改同样落于本申请权利要求书所限定的范围。

Claims

1.一种用于核酸捕获富集的探针池，包括两个或更多个探针，其中每个所述探针由以下序列构成：

1) 与核酸靶序列互补配对的靶特异性序列；以及

2) 位于所述靶特异性序列5’端的第一探针结合序列和位于所述靶特异性序列3’端的第二探针结合序列，

其中所述探针5’端的第一探针结合序列与另一探针3’端的第二探针结合序列互补配对，并且所述探针3’端的第二探针结合序列与另一探针5’端的第一探针结合序列互补配对；

所述第一探针结合序列的长度为8 - 30nt，所述第二探针结合序列的长度为8-30 nt；

所述靶特异性序列的长度为20-80nt。

2.根据权利要求1所述的探针池，其特征在于，所述探针的3’端或5’端带有生物标记物。

3.根据权利要求2所述的探针池，其特征在于，所述生物标记物为生物素。

4.根据权利要求1所述的探针池，其特征在于，所述探针与所述核酸靶序列之间的退火温度大于所述第一探针结合序列与所述第二探针结合序列之间的退火温度。

5.一种权利要求1-4任一项所述的探针池的设计方法，其特征在于，包括以下步骤：

a) 输入初始序列信息和设计参数，输出探针序列信息，其中，所述初始序列信息包括(1)总和序列信息，为捕获前文库中包含的序列；(2)靶序列信息，为待捕获的序列；

所述设计参数包括探针与靶序列结合的退火温度范围和序列长度范围，以及探针与探针间结合序列的长度范围；

b) 从总和序列的正链及互补链序列中截取长度为k的所有子序列，并统计每种子序列出现的次数；

c) 选择探针与探针间互补配对的探针结合序列，其中，所述探针结合序列长度为k，其退火温度小于探针与靶序列结合的退火温度，且在总和序列中出现的次数少于5％平均值；

d) 选择探针与核酸靶序列结合的靶特异性序列，其中，选择第i个所述靶序列，i的初始值等于1；接着从选择的所述靶序列，其第n个碱基开始选取探针与核酸靶序列结合的靶特异性序列，n的初始值等于1；

e) 在所述靶特异性序列的5’端加上探针结合序列，3’端加上探针结合序列的反向互补序列；

f) 输出所有的探针序列。

6.根据权利要求5所述的设计方法，其特征在于，步骤d)中，所述探针与核酸靶序列结合的靶特异性序列，如果未落入需要避开的序列区间，则放入探针池，并间隔m1个碱基尝试获得下一个靶特异性序列；如果落入需要避开的序列区间，则不放入探针池，并间隔m2个碱基再次尝试获得靶特异性序列；

其中，m1数值大于或等于放入探针池的靶特异性序列的长度； m2数值小于或等于放入探针池的靶特异性序列长度范围的最小值。

7. 根据权利要求6所述的设计方法，其特征在于，选择探针与核酸靶序列结合的靶特异性序列，其步骤包括：当n小于第i个靶序列的长度时，选择下一个靶特异性序列；当n大于或等于第i个靶序列的长度时，选择第i个靶特异性序列，当第i个靶序列的靶特异性序列选择结束后，对第i +1个靶序列进行上述靶特异性序列选择，直到所有靶序列均完成靶特异性序列选择。

8.权利要求1-4中任一项所述的探针池用于检测DNA片段中的低频突变、染色体拷贝数变异分析、插入/缺失、微卫星不稳定性或融合基因变异的应用。

9.权利要求1-4中任一项所述的探针池用于靶向mNGS测序的应用。