CN111954720A

CN111954720A - 用于分析核酸的方法和组合物

Info

Publication number: CN111954720A
Application number: CN201980018064.5A
Authority: CN
Inventors: K·M·哈金斯金凯德; J·D·卡普; 克里斯多佛·J·特罗尔
Original assignee: Clarette Bioscience Co ltd
Current assignee: Clarette Bioscience Co ltd
Priority date: 2018-01-12
Filing date: 2019-01-11
Publication date: 2020-11-17
Also published as: US11584929B2; JP2023072089A; WO2019140201A1; US20210054366A1; US20230392141A1; EP3737774A1; JP7542672B2; JP2021511309A; AU2019207900A1; CA3087001A1; JP7296969B2

Abstract

本技术部分涉及用于分析核酸的方法和组合物。在一些方面，本技术涉及用于制备核酸文库的方法和组合物。在一些方面，本技术涉及用于分析核酸片段的末端的方法和组合物。

Description

用于分析核酸的方法和组合物

相关专利申请

本专利申请要求于2018年1月12日提交的、名称为“用于分析核酸的方法和组合物(METHODS AND COMPOSITIONS FOR ANALYZING NUCLEIC ACID)”、发明人名为KellyM.HARKINS KINCAID等且由代理人案号CBS-2001-PV指定的美国临时专利申请号62/617,055的权益。本专利申请还要求于2018年1月17日提交的、名称为“用于分析核酸的方法和组合物”、发明人名为Kelly M.HARKINS KINCAID等且由代理人案号CBS-2001-PV2指定的美国临时专利申请号62/618,382的权益。本专利申请还要求于2018年11月20日提交的、名称为“用于分析核酸的方法和组合物”、发明人名为Kelly M.HARKINS KINCAID等且由代理人案号CBS-2001-PV3指定的美国临时专利申请号62/769,787的权益。上述申请的全部内容以引用方式并入本文，包括所有文本、表和附图。

技术领域

背景技术

活生物体(例如，动物、植物和微生物)的遗传信息和其他形式的复制遗传信息(例如，病毒)被编码在核酸(即脱氧核糖核酸(DNA)或核糖核酸(RNA))中。遗传信息是表示化学核酸或假定核酸的一级结构的一连串核苷酸或经修饰核苷酸。

多种高通量测序平台被用于分析核酸。Illumina平台例如涉及接头连接的DNA片段的克隆扩增。另一平台是基于纳米孔的测序，其依赖于核酸分子或单个核苷酸通过小通道的转变。用于某些测序平台的文库制备经常包括DNA的片段化、片段末端的修饰和接头的连接，并且可包括核酸片段的扩增(例如，PCR扩增)。

用于特定类型的核酸分析的适当测序平台的选择需要详细理解可用的技术，包括误差源、误差率以及测序的速度和成本。虽然测序成本已降低，但文库制备的通量和成本可能是限制因素。文库制备的一个方面包括修饰核酸片段的末端，使得它们适于特定的测序平台。核酸末端可含有有用的信息。因此，修饰核酸末端(例如，用于文库制备)同时保留核酸末端中所含信息的方法将可用于处理和分析核酸。

发明内容

在一些方面提供了用于产生核酸文库的方法，其包括将包含靶核酸的核酸组合物和多个寡核苷酸种类组合，其中a)所述靶核酸的一些或全部包含突出端；b)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含两条链，以及第一末端处的突出端和第二末端处的两条非互补链；其中所述突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度；c)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列；并且d)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述多个寡核苷酸种类组合，由此形成杂交产物。

在一些方面提供了用于产生核酸文库的方法，其包括a)将包含靶核酸的核酸组合物和多个寡核苷酸种类组合，其中i)所述多个寡核苷酸种类中的每种寡核苷酸都包含能够形成具有单链环的发夹结构的一条链，其中所述环包含一个或多个核糖核酸(RNA)核苷酸，ii)所述靶核酸的一些或全部包含突出端，iii)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含能够与靶核酸突出端杂交的突出端，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，iv)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列，并且v)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述多个寡核苷酸种类组合，由此形成杂交产物；以及b)在切割条件下使所述杂交产物与一种或多种切割剂接触，所述切割剂能够在所述RNA核苷酸处切割所述发夹环内的所述杂交产物，由此形成切割的杂交产物。

在一些方面还提供了包含多个寡核苷酸种类的组合物，其中a)所述多个寡核苷酸种类中的每种寡核苷酸都包含能够形成具有单链环的发夹结构的一条链，其中所述环包含一个或多个核糖核酸(RNA)核苷酸；b)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含能够与靶核酸中的突出端杂交的突出端，其中每个寡核苷酸种类都具有唯一的突出端序列和长度；并且c)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列。

在一些方面提供了用于修饰核酸末端的方法，其包括a)将包含靶核酸的核酸组合物和多个寡核苷酸种类组合，其中i)所述多个寡核苷酸种类中的每种寡核苷酸都包含一个或多个能够在切割条件下被切割的切割位点，ii)所述靶核酸的一些或全部包含突出端，iii)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含两条链以及第一突出端和第二突出端，其中每个突出端都能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，iv)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述第一寡核苷酸突出端和所述第二寡核苷酸突出端的一个或多个特征具有特异性的至少两个寡核苷酸突出端识别序列，并且v)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述多个寡核苷酸种类组合，由此形成杂交产物；b)在切割条件下使所述杂交产物与一种或多种切割剂接触，所述切割剂能够在所述一个或多个切割位点处切割所述杂交产物，由此形成切割的杂交产物；以及c)使所述切割的杂交产物与链置换聚合酶接触，由此形成平端核酸片段。

在一些方面还提供了包含多个寡核苷酸种类的组合物，其中a)所述多个寡核苷酸种类中的每个寡核苷酸包含一个或多个能够在切割条件下被切割的切割位点；b)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含两条链以及第一突出端和第二突出端，其中每个突出端都能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度；并且c)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述第一寡核苷酸突出端和所述第二寡核苷酸突出端的一个或多个特征具有特异性的至少两个寡核苷酸突出端识别序列。

在一些方面提供了用于修饰核酸末端的方法，其包括a)将包含靶核酸的核酸组合物和多个寡核苷酸种类组合，其中i)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含两条链，以及第一末端处的突出端和第二末端处的一个或多个修饰的核苷酸，其中所述突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，ii)所述靶核酸的一些或全部包含突出端，iii)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列，并且iv)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述多个寡核苷酸种类组合，由此形成杂交产物；以及b)使所述杂交产物与链置换聚合酶接触，由此形成平端核酸片段。

在一些方面还提供了包含多个寡核苷酸种类的组合物，其中a)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含两条链，以及第一末端处的突出端和第二末端处的一个或多个修饰的核苷酸，其中所述突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度；并且b)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列。

在一些方面提供了用于修饰核酸末端的方法，其包括a)将包含靶核酸的核酸组合物和多个寡核苷酸种类组合，其中i)所述多个寡核苷酸种类中的寡核苷酸包含两条链和第一末端处的突出端，其中所述第一末端突出端包含回文序列；ii)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含第二末端处的突出端，其中所述第二末端突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的第二末端突出端序列和长度，iii)所述靶核酸的一些或全部包含突出端，iv)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述第二末端突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列，v)所述多个寡核苷酸种类中的每种寡核苷酸都包含一个或多个修饰的核苷酸，并且vi)在第一末端突出端与其他第一末端突出端杂交并且第二末端突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述多个寡核苷酸种类组合，由此形成环状杂交产物；b)使所述杂交产物与外切核酸酶接触，由此生成经外切核酸酶处理的杂交产物；c)剪切所述经外切核酸酶处理的杂交产物，由此生成经剪切的经外切核酸酶处理的杂交产物；以及d)将包含寡核苷酸种类中的序列的片段与不包含寡核苷酸种类中的序列的片段分离，由此生成经分离的、经剪切的、经外切核酸酶处理的杂交产物。

在一些方面还提供了包含多个寡核苷酸种类的组合物，其中a)所述多个寡核苷酸种类中的寡核苷酸包含两条链和第一末端处的突出端，其中所述第一末端突出端包含回文序列；b)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含第二末端处的突出端，其中所述第二末端突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的第二末端突出端序列和长度；c)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述第二末端突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列；并且d)所述多个寡核苷酸种类中的每种寡核苷酸都包含一个或多个修饰的核苷酸。

在一些方面提供了用于修饰核酸末端的方法，其包括a)将包含靶核酸的核酸组合物和多个寡核苷酸种类组合，其中i)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含(1)两条链以及第一末端处的突出端和第二末端处的两条非互补链，或(2)能够形成具有单链环和突出端的发夹结构的一条链；其中所述突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，ii)所述靶核酸的一些或全部包含突出端，iii)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列，并且iv)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述多个寡核苷酸种类组合，由此形成杂交产物；以及b)使所述杂交产物与链置换聚合酶接触，由此形成平端核酸片段。

在一些方面还提供了包含多个寡核苷酸种类的组合物，其中a)所述个种寡核苷酸种类中的一些或全部寡核苷酸包含i)两条链以及第一末端处的突出端和第二末端处的两条非互补链，或ii)能够形成具有单链环和突出端的发夹结构的一条链；其中所述突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度；并且b)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列。

在一些方面提供了用于修饰核酸末端的方法，其包括将包含靶核酸的核酸组合物和多个寡核苷酸种类组合，其中a)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含至少一个包含RNA核苷酸的突出端，其中所述突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，b)所述靶核酸的一些或全部包含突出端，c)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列，并且d)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述多个寡核苷酸种类组合，由此形成杂交产物。

在一些方面还提供了包含多个寡核苷酸种类的组合物，其中a)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含至少一个包含RNA核苷酸的突出端，其中所述突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度；并且b)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列。

在一些方面提供了用于产生核酸文库的方法，其包括a)将包含靶核酸的核酸组合物和第一寡核苷酸种类库组合，其中i)所述靶核酸的一些或全部包含突出端，ii)所述第一寡核苷酸种类库中的一些或全部寡核苷酸包含能够与靶核酸突出端杂交的突出端，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，iii)所述第一寡核苷酸种类库中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列，iv)所述第一寡核苷酸种类库中的每种寡核苷酸都包含第一引物结合结构域，并且v)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述第一寡核苷酸种类库组合，由此形成第一组组合产物；b)切割所述第一组组合产物，由此形成切割的产物；以及c)将所述切割的产物和第二寡核苷酸种类库组合，其中i)所述第二寡核苷酸种类库中的每种寡核苷酸都包含第一末端和第二末端，ii)所述第二寡核苷酸种类库中的每种寡核苷酸都包含第二引物结合结构域，其中所述第一引物结合结构域和所述第二引物结合结构域不同，并且iii)在所述第二寡核苷酸种类库中的所述寡核苷酸在第一末端处与所述切割产物的至少一个末端附接的条件下，将所述切割的产物和所述第二寡核苷酸种类库组合，由此形成第二组组合产物。

在一些方面还提供了组合物，其包含a)第一寡核苷酸种类库，其中i)所述第一寡核苷酸种类库中的一些或全部寡核苷酸包含能够与靶核酸突出端杂交的突出端，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，ii)所述第一寡核苷酸种类库中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列，并且iii)所述第一寡核苷酸种类库中的每种寡核苷酸都包含第一引物结合结构域；以及b)第二寡核苷酸种类库，其中i)所述第二寡核苷酸种类库中的每种寡核苷酸都包含第一末端和第二末端，并且ii)所述第二寡核苷酸种类库中的每种寡核苷酸都包含第二引物结合结构域，其中所述第一引物结合结构域和所述第二引物结合结构域不同。

在一些方面提供了用于产生核酸文库的方法，其包括a)将包含靶核酸的核酸组合物和第一寡核苷酸种类库组合，其中i)所述靶核酸的一些或全部包含突出端，ii)所述第一寡核苷酸种类库中的一些或全部寡核苷酸包含在第一末端处能够与靶核酸突出端杂交的突出端，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，iii)所述第一寡核苷酸种类库中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列，iv)所述第一寡核苷酸种类库中的每种寡核苷酸都包含第一引物结合结构域，并且v)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述第一寡核苷酸种类库组合，由此形成第一组组合产物；b)切割所述第一组组合产物，由此形成切割的产物；以及c)将所述切割产物和第二寡核苷酸种类库组合，其中i)所述第二寡核苷酸种类库中的每种寡核苷酸都包含第一链和第二链，其中所述第一链比所述第二链短，并且其中所述第一链和所述第二链在所述寡核苷酸的第一末端处互补，并且所述第二链在所述寡核苷酸的第二末端处包含单链，ii)所述第二寡核苷酸种类库中的每种寡核苷酸都包含对于所述第二寡核苷酸种类库具有特异性的寡核苷酸识别序列，iii)所述第二寡核苷酸种类库中的每种寡核苷酸都在所述第二链上包含第二引物结合结构域，其中所述第一引物结合结构域和所述第二引物结合结构域不同，并且iv)在所述第二寡核苷酸种类库中的寡核苷酸与所述切割产物的至少一个末端附接的条件下，将所述切割产物和所述第二寡核苷酸种类库组合，由此形成第二组组合产物。

在一些方面还提供了组合物，其包含a)第一寡核苷酸种类库，其中i)所述第一寡核苷酸种类库中的一些或全部寡核苷酸包含能够与靶核酸突出端杂交的突出端，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，ii)所述第一寡核苷酸种类库中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列，并且iii)所述第一寡核苷酸种类库中的每种寡核苷酸都包含第一引物结合结构域；和b)第二寡核苷酸种类库，其中i)所述第二寡核苷酸种类库中的每种寡核苷酸都包含第一链和第二链，其中所述第一链比所述第二链短，并且其中所述第一链和所述第二链在所述寡核苷酸的第一末端处互补，并且所述第二链在所述寡核苷酸的第二末端处包含单链，ii)所述第一寡核苷酸种类库中的每种寡核苷酸都包含对于所述第二寡核苷酸种类库具有特异性的寡核苷酸识别序列，并且iii)所述第二寡核苷酸种类库中的每种寡核苷酸都在所述第二链上包含第二引物结合结构域，其中所述第一引物结合结构域和所述第二引物结合结构域不同。

在一些方面提供了用于产生核酸文库的方法，其包括a)在将靶核酸去磷酸化的条件下，使包含靶核酸的核酸组合物与包含磷酸酶活性的试剂接触，由此生成去磷酸化的靶核酸，其中所述靶核酸的一些或全部包含突出端；以及b)将所述去磷酸化的靶核酸和多个寡核苷酸种类组合，其中i)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含能够与靶核酸突出端杂交的突出端，其中每个寡核苷酸种类都具有唯一的突出端序列和长度；ii)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列；并且iii)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物与所述多个寡核苷酸种类组合，由此形成杂交产物。

在一些方面提供了用于分析核酸的方法，其包括a)将包含靶核酸的核酸组合物和多个寡核苷酸种类组合，其中i)所述靶核酸的一些或全部包含突出端；ii)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含能够与靶核酸突出端杂交的突出端，其中每个寡核苷酸种类都具有唯一的突出端序列和长度；iii)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列；并且iv)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述多个寡核苷酸种类组合，由此形成杂交产物；b)通过测序过程对所述杂交产物或其扩增产物进行测序，由此生成序列读段(read)，其中所述序列读段包含正向序列读段和反向序列读段；以及c)分析与指示所述反向序列读段存在突出端的突出端识别序列相关的突出端信息，由此生成分析，并从所述分析中省略与指示所述正向序列读段存在突出端的突出端识别序列相关的突出端信息。

在一些方面提供了用于测定核酸群体的方法，其包括测定样品中核酸群体的核酸突出端，由此生成所述群体的突出端谱；以及基于所述突出端谱，确定所述样品的特征。

还提供了在一些实施方案中进行本文所述的某些方法或某些方法的部分的系统、机器和计算机程序产品。

在以下描述、实施例、权利要求和附图中进一步描述了某些实施方案。

附图说明

附图示出了本技术的某些实施方案，且不具有限制性。为了清楚和易于说明，附图不是按比例绘制的，并且在一些情况下，多个方面可被夸大或放大显示，以便于理解特定实施方案。

图1A到图1C显示发夹接头构型的示例。图1A显示合并Illumina引发位点(P5和P7)的测序接头的茎-环结构，其具有用于胸腺嘧啶-腺嘌呤(TA)连接的单一3'突出胸腺嘧啶(T)和磷酸化的5'末端。图1B显示未磷酸化的接头，但包括指示存在的突出端(OV)的类型和长度的唯一末端标识符(UEI)。图1C显示进一步包包含唯一分子标识符(UMI)的接头。硫代磷酸酯键存在于寡聚物(oligo)/接头两个末端上的最后两个碱基之间，以防止核酸酶活性的回噬(chew back)。*，硫代磷酸酯键。G，鸟嘌呤(RNA碱基)。T，胸腺嘧啶。UEI，唯一末端标识符。UMI，唯一分子标识符。OV，突出端。P，磷酸酯。P5，Illumina P5接头序列。P7，IlluminaP7接头序列。

图2A显示具有短插入物(顶部)或长插入物(底部)的接头的示例。在左上方显示具有5'突出端的短插入物接头的示例，并且在右上方显示具有3'突出端的短插入物接头的示例。OV，突出端。UEI，唯一末端标识符。A，腺嘌呤。U，尿嘧啶或脱氧尿苷。图2B显示使用具有3'突出端的短插入物接头的示例性工作流程。第一步骤包括将DNA模板磷酸化。如这里所示，示例性模板在顶链和底链上具有3'突出端。下一步骤包括将3'突出的UEI接头连接到磷酸化模板。在如所示出的连接产物中存在切口。进一步的步骤包括在脱氧尿苷处酶促切割UEI接头DNA链。进一步的步骤包括使用链置换聚合酶在切口处补平以形成完整的双链分子。可消除保持完整或补平的未连接或残余的UEI接头。A，腺嘌呤。U，尿嘧啶或脱氧尿苷。P，磷酸酯。

图3显示来自原始DNA提取物(未经大小选择)以及经由双重SPRI选择而尺寸选择为高分子量(HMW)片段和低分子量(LMW)片段的经作图文库分子长度。分图A显示indiv1(个体1)所有DNA、纯化方式1的结果。分图B显示indiv1所有DNA、纯化方式2的结果。分图C显示indiv1HMW级分的结果。分图D显示indiv1LMW级分的结果。分图E显示indiv2LMW级分的结果。分图F显示indiv2HMW级分的结果。

图4显示唯一末端标识符(UEI，“条形码”)不存在于末端上(0)、存在于一个末端上(1)或正确地存在于两个末端上(2)的末端配对且作图的读段。分图A显示indiv1所有DNA、纯化方式1的结果。分图B显示indiv1所有DNA、纯化方式2的结果。分图C显示indiv1HMW级分的结果。分图D显示indiv1LMW级分的结果。分图E显示indiv2LMW级分的结果。分图F显示indiv2HMW级分的结果。

图5显示在不同位置具有阻断剂的唯一末端标识符(UEI)接头的示例。

图6显示示例性工作流程，其包括将阻断的唯一末端标识符(UEI)接头连接到磷酸化模板，在切口处补平，以及产生平端和双链分子。P，磷酸酯。UEI，唯一末端标识符。Iso-dC，异脱氧胞嘧啶。

图7A到图7C显示tapestation结果(即Agilent Tapestation 4200)，其描绘在以下三种条件下在测序文库中无细胞DNA片段的大小分布：无磷酸酶处理(图7A)、磷酸酶处理无细胞的DNA模板(图7B)，以及磷酸酶处理模板和文库接头(图7C)。接头-二聚体人工产物预期在约120bp处。预期一种核小体在280-290bp处达到峰值，对于另外的核小体，增量为约170bp。图7A到图7C表明在磷酸酶处理后的改善，其通过接头二聚体的减少和无细胞的DNA相关峰的相对增加所阐明。

图8A显示具有一个5'回文突出端和不同长度的5'和3'随机突出端的示例性接头组。图8B显示与具有天然5'和3'突出端的长dsDNA片段(高分子量(HMW)DNA模板)连接的突出接头组。图8B中的图解说明从上到下描绘了“配偶(mate)对”DNA制备的步骤3(连接)、步骤5(剪切)和步骤6(分离生物素化片段)之后的实施例。UEI，唯一末端标识符。OV，突出端。

图9A显示在第一阶段使用链置换聚合酶以及在第二阶段使用测序仪特异性序列(例如，测序接头)附接唯一末端标识符(UEI)序列的示例性方法。分图A显示由唯一末端标识符(UEI)序列(以灰色显示)和随机序列(以黑色显示)构成的Y接头(左)和发夹接头(右)。在一些情况下，Y接头是发夹接头的切割形式。分图B显示发夹接头与靶核酸的连接，该连接产物可被切割。在切割后，连接产物与Y接头连接产物相同。分图C显示在切口处用链置换聚合酶产生完全互补的双链平端片段的补平步骤。分图D显示准备用于任何所选测序文库制备(第二阶段)的核酸片段。X，可切割位点。UEI，唯一末端标识符。OV，突出端。P，磷酸酯。

图9B显示用于将Y接头或发夹接头附接到天然核酸片段末端的示例性方法。分图A显示由突出端、唯一末端标识符(UEI)序列(以灰色显示)和引发序列(引发序列1(例如，Illumina P5引发序列)和引发序列2(例如，Illumina P7引发序列)；引发区域以黑色显示)构成的Y接头(左)和发夹接头(右)。分图B显示接头与靶核酸的连接。由于接头未被磷酸化，因此连接仅发生在模板的5'末端，留下切口。分图C显示，在5'接头链被磷酸化并连接衔接子的3'末端后，切口被修复。在切口修复后，可在切割位点处切割(顶部)发夹接头连接产物。在切割后，连接产物与Y接头连接产物(底部)相同。该方法生成准备用于任何所选测序文库制备(第二阶段)和/或所选测序仪的双链核酸片段，这可能取决于所用的引发序列。OV，突出端。P，磷酸酯。P1，引发序列1。P2，引发序列2。

图10A到图10C显示使用在突出端(“RNA突出端”)中具有RNA碱基的寡核苷酸接头将唯一末端标识符(UEI)序列附接到天然DNA模板的示例性方法。图10A显示具有RNA突出端的寡核苷酸接头的示例性构型。黑色区域表示有或无测序仪特异性接头序列(例如，P5、P7)的非互补碱基或阻断碱基。图10B和图10C显示RNA突出端末端与磷酸化的DNA模板连接、产生DNA-RNA双链体的示例性方法。切口可通过连接酶或链置换补平修复，这取决于寡核苷酸接头的构型。可消化具有双链RNA(dsRNA)的接头二聚体。X，可切割位点。UEI，唯一末端标识符。OV，突出端。P，磷酸酯。

图11显示用于将寡核苷酸接头附接到高分子量(HMW)DNA的方法。

图12显示用于将寡核苷酸接头附接到高分子量(HMW)DNA的方法。

图13显示寡核苷酸接头设计。

图14显示用于将寡核苷酸接头附接到高分子量(HMW)DNA的方法。

图15显示灵敏度实验的结果。突出端序列仅在它们发生在反向读段上时才被考虑。分图A：在100％机械剪切的DNA的两个重复文库中，除以每个文库的突出端总数的突出端计数。值是跨两个文库的平均值；误差棒显示最大值和最小值。分图B：在100％经MluCI消化的DNA的两个重复文库中，除以每个文库的突出端总数的突出端计数。值是跨两个文库的平均值；误差棒显示最大值和最小值。分图C：随MluCI浓度增加的MluCI靶序列丰度。随着MluCI消化的DNA的百分比增加(x轴)，其靶序列(AATT)在5′突出端序列中的频率也增加(y轴)。在可获得重复文库的情况下，误差棒显示最小值和最大值。分图D：甚至在1％MluCI消化的DNA中也可鉴别出MluCI靶序列。分数是单个突出端序列的计数除以每个文库所有此类计数的总和。相对于1％MluCI消化的DNA的两个重复文库内的平均计数(y轴)，显示仅机械剪切的DNA的两个重复文库内的平均计数(x轴)。使用机械剪切的DNA中的计数作为预期值，计算1％MluCI消化的DNA中每个计数的误差百分比。显示所有如下序列，对于这些序列，四舍五入到千分位的该值落在或高于分布的第99.9百分位数。靶序列(AATT)具有最高的误差百分比(6.2％；第99.9百分位数；p<0.001)。

图16显示由微球菌核酸酶(限制性内切核酸酶MluCl)产生的突出端的谱和碱基组成。结果是两个独立文库的平均值；突出端丰度图上的误差棒显示最大值和最小值。用于文库的输入DNA是从GM12878细胞提取的人基因组DNA。

图17显示血液收集管对人cfDNA长度和对照寡聚物的突出端谱的作用。所预期的和观察到的对照寡聚物突出端长度之间的差证实，RTT中的突出端长度到4小时时丧失，而在YTT中到24小时时丧失。显示了与预期长度差-1(回噬一个碱基)到-5(分布的第99百分位数)的频率。PBS，磷酸盐缓冲盐水pH 7.4(对照)。RTT，红色顶管(血清)。PTT，紫色顶管(EDTA钾)。YTT，黄色顶管(柠檬酸盐)。对照，无掺料或提取的对照寡聚物。

图18显示突出端确定的准确度。仅来自反向读段的UEI数据相对于仅来自正向读段的UEI。当仅考虑反向读段上的非平头UEI时，突出端确定中的准确度最高。X轴：连接到正确对照寡聚物的正确末端的UEI的百分比，排除反向读段上的非平头UEI。Y轴：相同值，但排除正向读段上的非平头UEI。

图19显示所提出的缺口和瓣(flap)的示意图。文库制备方案在两个单独的反应中完成连接。黑圈表示第1次连接，其中磷酸酯存在于模板的5'末端上。接头缺少磷酸酯，因此需要第2次连接事件(白圈)以将磷酸酯添加到接头的5'末端，从而允许完全形成双链文库分子。P5接头处于正向读段处，P7接头处于反向读段处。观察到以下情况：1)两条原始链中仅一条过量，以及2)P5UEI比P7UEI更不准确。这些观察结果一起揭示了在连接期间可能由突出端的缺口和瓣引起的几种失败模式的存在。如所描绘的，考虑到具有一个平端和一个突出端的模板，在接头连接期间的几种失败模式可引起两条链中的一条链丢失。顶图显示5'突出端的长度中错配引起缺口的误差模式。底图显示3'突出端的长度中错配引起瓣的误差模式。在这两种情况下，这些误差迫使在第1次连接(黑色)期间形成“不正确的”共价键，从而抑制第2次连接(白色)。这导致仅一条链转化而另一条链丢失。此外，在这些情况下，P5UEI将报告错误的突出端长度，但P7UEI将是正确的。当它们是平头或突出端时，观察到P7UEI高得多的准确度；为此，在某些分析期间使用P7UEI。尽管不太可能，但如果确实出现3'突出端处的缺口或5'突出端处的瓣，则两条链都不会转化到文库中。

图20显示从存在于使用本文所述突出端接头生成的每个文库中的DNA突出端的测序数据生成的热图。使用沃德层次聚类(Ward's hierarchical clustering)方法生成热图。每列表示来自癌症供体(黑色条)或健康供体(无条)的单个无细胞的DNA文库。每行表示长度为1到6个核苷酸的唯一突出端(5'或3')；含有至少一个CG二核苷酸或CpG的行(突出端)以灰色条指示。在热图矩阵内，颜色越深，该突出端在文库中所占的比例(对数标度)越大。较浅的颜色指示该突出端的耗减。图底部上的比例；N＝50，未报告癌症；N＝21，癌症。

图21显示用于某些模型中的变量。

图22显示用于癌症样品相对于健康样品的逻辑回归分类器。

图23显示癌症样品相对于健康样品的分类报告和接受者操作特征(ROC)。

图24显示胃肠(GI)癌样品相对于健康样品的模型概要。

图25显示胃肠(GI)癌样品相对于其他样品(包括健康样品和其他癌症样品)的模型概要。

具体实施方式

本文提供了可用于分析核酸的方法和组合物。本文还提供了可用于产生核酸文库的方法和组合物。本文还提供了可用于分析核酸片段的末端的方法和组合物。在某些方面，所述方法包括组合样品核酸和寡核苷酸。在一些实施方案中，一种或多种寡核苷酸包括能够与样品核酸中的突出端杂交的突出端。在一些实施方案中，一种或多种寡核苷酸包括平端，所述平端能够连接到样品核酸中的平端。在一些实施方案中，寡核苷酸各自包括至少一个寡核苷酸突出端识别序列。寡核苷酸可包含不同长度和不同序列的突出端，并且突出端识别序列可特异于相应突出端的长度(并且可特异于突出端的其他特征)。在一些实施方案中，寡核苷酸包含切割位点。在一些实施方案中，寡核苷酸能够形成发夹结构。在一些实施方案中，寡核苷酸包含两条链，具有第一末端处的突出端和第二末端处的两条非互补链。在一些实施方案中，在寡核苷酸中的突出端与样品核酸中具有相应长度和互补序列的突出端杂交的条件下，将样品核酸和寡核苷酸组合，由此形成杂交产物。在一些实施方案中，杂交产物包括环化的核酸片段。在一些实施方案中，方法包括生成平端核酸片段。此类杂交产物和/或平端核酸片段可用于例如产生核酸文库和/或进一步分析或处理。

核酸末端

本文提供了用于分析核酸的方法和组合物。方法可包括修饰和/或分析核酸末端。核酸末端是指核酸片段的终端。通常，线性核酸片段含有两个终端(即，开始和结束)。此类终端经常被称为5'末端和3'末端。非线性片段可含有多于两个的终端(例如，分叉片段可含有3个或更多个终端)。对于双链片段，核酸末端可含有突出端或者可以是平端的(即，不含突出端)。术语突出端或突出端区域通常是指核酸末端处的单链部分。例如，核酸片段可包括包含一个或多个配对核苷酸(碱基)的双链或“双链体”区域以及包含一个或多个未配对核苷酸(碱基)的单链或“突出端”区域。通常，突出端是指核酸分子末端处的单链区，而不是指侧翼为双链区的单链区。突出端可以是5'突出端或3'突出端。5'突出端通常是指核酸分子末端处的单链区，其根据3'到5'方向上的常规核酸方向性读取，开始于双链体部分结束和单链部分开始的接合部，并且结束于突出端的终端(游离末端)。3'突出端通常是指核酸分子末端处的单链区，其根据5'到3'方向上的常规核酸方向性读取，开始于双链体部分结束和单链部分开始的接合部，并且结束于突出端的终端(游离末端)。

靶核酸可包含一个突出端(例如，在核酸片段的末端)并且可包含两个突出端(例如，在核酸片段的两个末端)。靶核酸可包含两个突出端、一个突出端和一个平端、两个平端或这些的组合。靶核酸可包含两个3'突出端、两个5'突出端、一个3'突出端和一个5'突出端、一个3'突出端和一个平端、一个5'突出端和一个平端、两个平端或这些的组合。在一些实施方案中，靶核酸中的突出端是天然突出端。在一些实施方案中，靶核酸末端是天然平端。天然突出端和天然平端通常是指在将样品组合物与本文所述的寡核苷酸组合之前尚未被修饰(例如，尚未被补平、尚未被切割或消化(例如，通过内切核酸酶或外切核酸酶)、尚未被添加或加入)的突出端和平端。经常，天然突出端和天然平端通常是指在将样品组合物与本文所述的寡核苷酸组合之前尚未被离体修饰(例如，尚未被离体补平、尚未被离体切割或消化(例如，通过内切核酸酶或外切核酸酶)、尚未被离体添加或加入)的突出端和平端。在某些情况下，天然突出端和天然平端通常是指在从受试者或来源收集后尚未被修饰(例如，在从受试者或来源收集后尚未被补平，在从受试者或来源收集后尚未被切割或消化(例如，通过内切核酸酶或外切核酸酶)，在从受试者或来源收集后尚未被添加或加入)的突出端和平端。天然突出端和天然平端通常不包括通过使分离的样品与切割剂(例如，内切核酸酶、外切核酸酶、限制酶)和/或聚合酶接触而产生的突出端/末端。天然突出端和天然平端通常不包括通过机械剪切(例如，超声波处理(例如，Covaries的Adaptive Focused Acoustics^TM(AFA)方法))产生的突出端/末端。天然突出端和天然平端通常不包括通过使分离的样品与外切核酸酶(例如，DNAse)接触而产生的突出端/末端。天然突出端和天然平端通常不包括通过扩增(例如，聚合酶链式反应)产生的突出端/末端。天然突出端和天然平端通常不包括附接到固体支持物、缀合到另一分子或克隆到载体中的突出端/末端。在一些实施方案中，天然突出端和天然平端可经受去磷酸化，并且可被称为去磷酸化的天然突出端和去磷酸化的天然平端。在一些实施方案中，天然突出端和天然平端可经受磷酸化，并且可被称为磷酸化的天然突出端和磷酸化的天然平端。

寡核苷酸

在一些实施方案中，将核酸(例如，来自样品的核酸；靶核酸)与寡核苷酸组合。寡核苷酸通常是指与靶核酸不同的核酸(例如，DNA、RNA)聚合物，并且可被称为寡聚物、接头、寡核苷酸接头和寡聚物接头。寡核苷酸的长度可能较短(例如，小于50bp，小于40bp，小于30bp，小于20bp，小于10bp，小于5bp)，并且有时，但并非总是，短于靶核酸。寡核苷酸可人工合成。在一些实施方案中，将核酸(例如，来自样品的核酸；靶核酸)与多个寡核苷酸种类或寡核苷酸种类库组合。寡核苷酸种类库可被称为寡核苷酸种类组，并且可包含多个不同的寡核苷酸种类。本文的方法和组合物可包括多于一个寡核苷酸种类库(例如，第一寡核苷酸种类库和第二寡核苷酸种类库)。在此类情况下，第一库中的寡核苷酸可共有共同特征，并且第二库中的寡核苷酸可共有不同的共同特征。库中的共同特征可包括特定结构域和/或特定修饰。在一些实施方案中，库中的共同特征包括共同的引物结合结构域。

一寡核苷酸种类通常含有相对于其他寡核苷酸种类而言唯一的特征。例如，寡核苷酸种类可含有唯一的突出端特征。唯一的突出端特征可包括唯一的突出端长度、唯一的突出端序列、或唯一的突出端序列和突出端长度的组合。例如，相对于具有给定突出端长度的其他寡核苷酸种类，一寡核苷酸种类可含有针对特定突出端长度的唯一序列。在一些情况下，相对于具有给定突出端长度和类型的其他寡核苷酸种类，一寡核苷酸种类含有针对特定突出端长度和类型(例如，5'或3')的唯一序列。

寡核苷酸可包含一个突出端(例如，在寡核苷酸的一个末端)并且可包含两个突出端(例如，在寡核苷酸的两个末端)。在一些实施方案中，寡核苷酸包含两个突出端、一个突出端和一个平端、两个平端或这些的组合。在一些实施方案中，寡核苷酸包含两个3'突出端、两个5'突出端、一个3'突出端和一个5'突出端、一个3'突出端和一个平端、一个5'突出端和一个平端、两个平端或这些的组合。在一些实施方案中，寡核苷酸包含两条链，具有第一末端处的突出端或平端和第二末端处的两条非互补链。对于本文所述的发夹结构寡核苷酸，此类寡核苷酸(例如，在未切割状态下)通常包含一个突出端(例如，5'突出端或3'突出端)，并且在某些情况下，不包含突出端(即，平端)。通常，寡核苷酸突出端能够与靶核酸突出端杂交。寡核苷酸突出端可包含与靶核酸突出端中的区域互补的区域。在一些实施方案中，寡核苷酸突出端的整个长度能够与靶核酸突出端的整个长度杂交。因此，整个寡核苷酸突出端可与整个核酸突出端互补。

经常，“互补”或“互补性”是指如本文所述的序列互补性，并且“非互补”或“非互补性”是指如本文所述的序列非互补性。在某些方面，“互补”或“互补性”可指结构互补性(例如，突出端互补性)。例如，具有5',8碱基对突出端的靶核酸可与具有5',8碱基对突出端的寡核苷酸具有结构互补性。结构互补性可包括非特异性碱基配对。在某些实施方案中，寡核苷酸突出端包含能够与靶核酸中的碱基非特异性碱基配对的一个或多个核苷酸。例如，具有5',8碱基对突出端的靶核酸可与具有5',8碱基对突出端的寡核苷酸具有结构互补性，其中所述寡核苷酸突出端包含可与靶核酸突出端中的相应位置处的所有或一些可能的碱基非特异性配对的一个或多个核苷酸。在某些实施方案中，寡核苷酸突出端包含全部能够与靶核酸中的碱基非特异性碱基配对的核苷酸。能够进行非特异性碱基配对的核苷酸可被称为可替代上述四种典型碱基中的任何一种的“通用碱基”(例如，硝基吲哚、5-硝基吲哚、3-硝基吡咯、肌苷、脱氧肌苷、2-脱氧肌苷)，或者可替代四种典型碱基中的两种或三种(但不是全部)的“简并/摆动碱基”(例如，非天然碱基P和K)。在某些实施方案中，寡核苷酸突出端包含一个或多个通用碱基。在某些实施方案中，寡核苷酸突出端由通用碱基组成。

在一些实施方案中，多个寡核苷酸种类或寡核苷酸种类库中的每种寡核苷酸都包含对于寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列。寡核苷酸突出端识别序列可被称为突出端识别序列、识别序列、寡核苷酸突出端识别多核苷酸、突出端识别多核苷酸、识别多核苷酸、条形码、可变突出端条形码、唯一末端标识符(UEI)、末端标识符或标识符。突出端识别序列唯一地识别存在于其各自的寡核苷酸中的突出端，并且可唯一地识别存在于靶核酸中与寡核苷酸突出端特异性杂交的每种类型的突出端(例如，长度、5'或3'，和/或等等)。在某些实施方案中，突出端识别序列可唯一地识别存在于靶核酸中与寡核苷酸突出端特异性杂交的每种类型的天然突出端(例如，长度、5'或3'等等)。经常，特异于与不同长度的突出端杂交的寡核苷酸突出端的突出端的识别序列彼此不同，并且是唯一的。通常，与i)与不同长度的突出端杂交的寡核苷酸突出端；以及ii)不同类型(即3'、5')的寡核苷酸突出端具有特异性的突出端识别序列彼此不同，并且是唯一的。通常，在具有不同长度突出端的多个寡核苷酸种类或寡核苷酸种类库中，没有两个突出端识别序列特异于寡核苷酸突出端的长度。换句话说，对于给定长度的寡核苷酸突出端具有特异性的给定突出端识别序列(或序列集)将仅存在于具有此类给定长度的突出端的寡核苷酸中。具有不同突出端长度的寡核苷酸将包括不同的突出端识别序列(或序列组)。在一些实施方案中，对于所有具有特定长度突出端的寡核苷酸种类，存在一个突出端识别序列。在一些实施方案中，对于所有具有特定长度的突出端的寡核苷酸种类，存在两个突出端识别序列，使得一个突出端识别序列特异于5'突出端的给定长度并且另一突出端识别序列特异于3'突出端的给定长度。在一些实施方案中，对于具有特定长度的突出端的所有寡核苷酸种类，存在一个或两个突出端识别序列，而无关突出端的序列。在一些实施方案中，对于具有特定长度的突出端的寡核苷酸种类，存在突出端识别序列的亚组，其中所述亚组中的不同突出端识别序列特异于所述寡核苷酸中的不同突出端序列(例如，除了特异于突出端的长度和类型(即，5'或3')之外)。在一些实施方案中，突出端识别序列特异于无突出端(即，平端寡核苷酸)。

通常，突出端识别序列通过突出端识别序列的核苷酸序列提供关于相应寡核苷酸突出端的长度和/或类型的信息。突出端识别序列的核苷酸序列可通过测序过程测序，并且包含在用于寡核苷酸-靶序列的序列读段中。因此，在某些实施方案中，突出端识别序列不生成超出其核苷酸序列的读段的另外信号。例如，突出端识别序列可不需要标记(例如，通过荧光标记物)，缀合(例如，与固体支持物、抗体缀合)，或与携带标记物或与固体支持物、抗体等等缀合的多核苷酸杂交，以生成信号。

在一些实施方案中，寡核苷酸包含除突出端和突出端识别序列之外的一个或多个部分或结构域。可包含此类另外部分，例如，以促进利用或进一步处理杂交产物或其衍生物的一种或多种下游应用，诸如核酸扩增、测序(例如，高通量测序)或两者。在某些实施方案中，另外部分包括一个或多个核酸结合结构域，诸如例如，引物结合结构域(也被称为引发序列)，和/或测序接头或测序接头的一种或多种组分(例如，本文所述的一种或多种组分)。在一些实施方案中，寡核苷酸包含唯一分子标识符(UMI)。UMI通常用于估计唯一起始分子(例如，扩增前的起始分子)的数目，并且在某些情况下，用于评价连接反应的灵敏度。

在一些实施方案中，寡核苷酸包含一个或多个引物结合结构域。引物结合结构域是引物(例如，扩增引物)可与之退火的多核苷酸。引物结合结构域通常包含与引物(例如，扩增引物)的核苷酸序列互补或基本互补的核苷酸序列。在一些实施方案中，不同的寡核苷酸种类库可包含具有引物结合结构域的寡核苷酸，其中每个库都具有其自身的引物结合结构域。例如，库A中的寡核苷酸可包含引物结合结构域A，并且库B中的寡核苷酸可包含引物结合结构域B，其中引物结合结构域A和引物结合结构域B不同。引物结合结构域A和引物结合结构域B可基于它们的核苷酸序列不同而被视为不同。引物结合结构域A和引物结合结构域B可基于以下特征而被视为不同：引物A与引物结合结构域A退火且不与引物结合结构域B退火，并且引物B与引物结合结构域B退火且不与引物结合结构域A退火。

在一些实施方案中，寡核苷酸包含与靶核酸突出端杂交的一个突出端或包含平端，以及含有不与靶核酸突出端杂交的序列的另一突出端。不与靶核酸突出端杂交的此类序列可含有通常在靶核酸中没有的序列。不与靶核酸突出端杂交的此类序列可还含有可与其自身杂交的序列。例如，序列可包括回文序列。含有具有回文序列的突出端的寡核苷酸可通过例如突出端杂交的方式与靶核酸的每个末端杂交，然后通过回文序列杂交的方式彼此杂交，形成环状杂交产物。

在一些实施方案中，寡核苷酸突出端包含任何适合类型的核苷酸(例如，DNA核苷酸、RNA核苷酸、修饰的核苷酸、天然核苷酸)，其示例在本文中提供。在一些实施方案中，寡核苷酸突出端包含一个或多个DNA核苷酸。在一些实施方案中，寡核苷酸突出端由DNA核苷酸组成。在一些实施方案中，寡核苷酸突出端包含一个或多个RNA核苷酸。在一些实施方案中，寡核苷酸突出端由RNA核苷酸组成。包含RNA核苷酸或由其组成的寡核苷酸突出端例如可与包含DNA核苷酸或由其组成的靶核酸突出端杂交，由此形成RNA-DNA双链体。在这种情况下，可使用RNA连接酶(例如，T4RNA连接酶2、

连接酶)用于连接。在某些实施方案中，未连接的寡二聚体产物(例如，含有RNA-RNA双链体)可通过消化RNA-RNA双链体(例如，使用RNAse，诸如例如，RNAse III)来去除。

Y寡核苷酸

在一些实施方案中，寡核苷酸包含两条链，具有第一末端处的突出端和第二末端处的两条非互补链。此类寡核苷酸可被称为Y寡核苷酸、Y接头、Y形寡核苷酸、Y形接头等等。在一些实施方案中，寡核苷酸(例如，Y接头)包含两条链，具有第一个末端处的平端或突出端和第二末端处的两条非互补链。

具有Y形结构的寡核苷酸通常包含双链双链体区、一个末端处的两个单链“臂”和另一个末端处的平端或突出端。

Y寡核苷酸可包含多个多核苷酸。在一些实施方案中，Y寡核苷酸包含第一多核苷酸和第二多核苷酸。在一些实施方案中，(第一链的)第一多核苷酸与(第二链的)第二多核苷酸互补。在一些实施方案中，(第一链的)第一多核苷酸的一部分与(第二链的)第二多核苷酸的一部分互补。在一些实施方案中，第一多核苷酸包含与第二多核苷酸中的第一区互补的第一区，并且第一多核苷酸包含不与第二多核苷酸中的第二区互补的第二区。互补区经常形成Y寡核苷酸的双链体区，并且非互补区经常形成Y寡核苷酸的臂或其部分。第一多核苷酸和第二多核苷酸可包含本文所述接头的组分，诸如例如，扩增引发位点和/或特异性测序接头(例如，P5、P7接头)。在一些实施方案中，第一核苷酸和第二多核苷酸不包含本文所述的接头的某些组分，诸如例如，扩增引发位点和特异性测序接头(例如，P5、P7接头)。

在一些实施方案中，Y寡核苷酸包含突出端(例如，5'突出端、3'突出端)。Y寡核苷酸的突出端通常定位于双链双链体部分附近，并且定位于非互补链(或“臂”)部分的相对末端。Y寡核苷酸的突出端通常与靶核酸中的突出端互补。Y寡核苷酸还可包含突出端识别序列。在一些实施方案中，Y寡核苷酸包含与非互补链(或“臂”)部分相对的平端。在一些实施方案中，多个Y寡核苷酸种类或Y寡核苷酸种类库包含以下的混合物：1)包含突出端的寡核苷酸；和2)包含平端的寡核苷酸。

发夹

在一些实施方案中，寡核苷酸包含能够形成具有单链环的发夹结构的一条链。在一些实施方案中，寡核苷酸由能够形成具有单链环的发夹结构的一条链组成。具有发夹结构的寡核苷酸通常包含双链“茎”区和单链“环”区。在一些实施方案中，寡核苷酸包含能够采用发夹结构的一条链(即，一条连续链)。在一些实施方案中，寡核苷酸基本上由能够采用发夹结构的一条链(即，一条连续链)组成。基本上由一条链组成意指寡核苷酸不包含不是连续链的一部分的任何另外的核酸链(例如，与寡核苷酸杂交)。因此，“基本上由……组成”这里是指寡核苷酸中的链的数目，并且寡核苷酸可包括对链的数目不重要的其他特征(例如，可包括可检测标记物，可包括其他区域)。包含能够形成发夹结构的一条链或基本上由其组成的寡核苷酸在本文中可被称为发夹、发夹寡核苷酸或发夹接头。

发夹寡核苷酸可在一条链内包含多个多核苷酸。在一些实施方案中，发夹接头包含第一多核苷酸和第二多核苷酸。在一些实施方案中，第一多核苷酸与第二多核苷酸互补。在一些实施方案中，第一多核苷酸的一部分与第二多核苷酸的一部分互补。在一些实施方案中，第一多核苷酸包含与第二多核苷酸中的第一区互补的第一区，并且第一多核苷酸包含不与第二多核苷酸中的第二区互补的第二区。所述互补区经常形成发夹接头的茎，并且非互补区经常形成发夹接头的环或其部分。第一多核苷酸和第二多核苷酸可包含本文所述接头的组分，诸如例如，扩增引发位点和特异性测序接头(例如，P5、P7接头)。在一些实施方案中，第一核苷酸和第二多核苷酸不包含本文所述的接头的某些组分，诸如例如，扩增引发位点和特异性测序接头(例如，P5、P7接头)。

发夹寡核苷酸可包含一个或多个能够在切割条件下被切割的切割位点。在一些实施方案中，切割位点定位于第一核苷酸和第二多核苷酸之间。在切割位点处的切割经常从发夹寡核苷酸生成两条单独的链。在一些实施方案中，在切割位点处的切割生成具有两条未配对链的部分双链的寡核苷酸，其形成“Y”结构。切割位点可包括任何适合的切割位点，诸如例如本文所述的切割位点。在一些实施方案中，切割位点包含RNA核苷酸，并且可例如使用RNAse切割。在一些实施方案中，切割位点包含尿嘧啶和/或脱氧尿苷，并且可例如使用DNA糖基化酶、内切核酸酶、RNAse等等以及它们的组合进行切割。在一些实施方案中，切割位点不包含尿嘧啶和/或脱氧尿苷。在一些实施方案中，本文的方法包括在将发夹寡核苷酸与靶核酸组合之后，使一个或多个切割位点暴露于切割条件，由此切割所述寡核苷酸。

在一些实施方案中，发夹寡核苷酸包含突出端(例如，5'突出端、3'突出端)。发夹寡核苷酸的突出端通常定位于双链茎部分附近和环部分的相对末端。发夹寡核苷酸的突出端通常与靶核酸中的突出端互补。发夹寡核苷酸还可包含突出端识别序列。在一些实施方案中，发夹寡核苷酸在5'到3'取向上包含：第一突出端识别序列、第一多核苷酸、一个或多个切割位点、第二多核苷酸、与第一突出端识别序列互补的第二突出端识别序列和突出端。在一些实施方案中，发夹寡核苷酸在5'到3'取向上包含：突出端、第一突出端识别序列、第一多核苷酸、一个或多个切割位点、第二多核苷酸和与第一突出端识别序列互补的突出端识别序列。在一些实施方案中，多个发夹寡核苷酸种类或发夹寡核苷酸种类库包含以下的混合物：1)寡核苷酸，其在5'到3'取向上包含：第一突出端识别序列、第一多核苷酸、一个或多个切割位点、第二多核苷酸、与第一突出端识别序列互补的第二突出端识别序列和突出端；和2)寡核苷酸，其在5'到3'取向上包含：突出端、第一突出端识别序列、第一多核苷酸、一个或多个切割位点、第二多核苷酸和与第一突出端识别序列互补的突出端识别序列。在以上的某些实施方案中，第一核苷酸和第二多核苷酸在5'到3'取向上排序如下：第一多核苷酸的第一部分、第一多核苷酸的第二部分、切割位点、第二多核苷酸的第二部分和第二多核苷酸的第一部分，其中每个多核苷酸的第一部分是互补的，并且每个多核苷酸的第二部分不是互补的。在一些实施方案中，多个发夹寡核苷酸种类或发夹寡核苷酸种类库包含以下的混合物：1)包含突出端的寡核苷酸；和2)包含平端的寡核苷酸。

修饰的核苷酸

在一些实施方案中，寡核苷酸种类包含一个或多个修饰的核苷酸。修饰的核苷酸可被称为修饰的碱基，并且可包括例如与结合对的成员缀合的核苷酸、阻断的核苷酸、非天然核苷酸、核苷酸类似物、肽核酸(PNA)核苷酸、吗啉代核苷酸、锁核酸(LNA)核苷酸、桥连核酸(BNA)核苷酸、二醇核酸(GNA)核苷酸、苏糖核酸(TNA)核苷酸等等以及它们的组合。在一些实施方案中，寡核苷酸种类在寡核苷酸的双链体区域内，在突出端区域内，在一个末端处或在两个末端处包含一个或多个修饰的核苷酸。在一些实施方案中，寡核苷酸种类包含一个或多个未配对的修饰核苷酸。在一些实施方案中，寡核苷酸种类在寡核苷酸的一个末端处包含一个或多个未配对的修饰核苷酸。在一些实施方案中，寡核苷酸种类在与靶核酸杂交的末端相对的寡核苷酸末端(例如，包含寡核苷酸突出端的末端)处包含一个或多个未配对的修饰核苷酸。修饰的核苷酸可存在于具有3'终端的链的末端处，或存在于具有5'终端的链的末端处。

在一些实施方案中，寡核苷酸种类包含一个或多个阻断的核苷酸。例如，寡核苷酸种类可包含一个或多个能够阻断与靶核酸中的核苷酸杂交的修饰的核苷酸。在一些情况下，一个或多个修饰的核苷酸能够阻断与靶核酸中的核苷酸的连接。在一些实施方案中，寡核苷酸种类包含一个或多个不能结合天然核苷酸的修饰的核苷酸。在一些实施方案中，一个或多个修饰的核苷酸包含异脱氧碱基、二脱氧碱基、反向二脱氧碱基、间隔物和氨基连接物中的一种或多种。

在一些实施方案中，一个或多个修饰的核苷酸包含异脱氧碱基。在一些实施方案中，一个或多个修饰的核苷酸包含异脱氧鸟嘌呤(iso-dG)。在一些实施方案中，一个或多个修饰的核苷酸包含异脱氧胞嘧啶(iso-dC)。iso-dC和iso-dG分别是胞嘧啶和鸟嘌呤的化学变体。iso-dC可与iso-dG氢键结合，但不与未修饰的鸟嘌呤(天然鸟嘌呤)氢键结合。Iso-dG可与Iso-dC碱基配对，但不与未修饰的胞嘧啶(天然胞嘧啶)碱基配对。含有iso-dC的寡核苷酸可被设计成使得其与含有iso-dG的互补寡聚物杂交，但不能与任何天然存在的核酸序列杂交。

在一些实施方案中，一个或多个修饰的核苷酸包含二脱氧碱基。在一些实施方案中，一个或多个修饰的核苷酸包含二脱氧胞嘧啶。在一些实施方案中，一个或多个修饰的核苷酸包含反向二脱氧碱基。在一些实施方案中，一个或多个修饰的核苷酸包含反向二脱氧胸腺嘧啶。例如，定位于序列5'末端的反向二脱氧胸腺嘧啶可防止不想要的5'连接。

在一些实施方案中，一个或多个修饰的核苷酸包含间隔物。在一些实施方案中，一个或多个修饰的核苷酸包含C3间隔物。C3间隔物亚磷酰胺可并入寡核苷酸内部或5'末端。可将多个C3间隔物添加到寡核苷酸的任一末端以引入长的亲水性间隔臂(例如，用于附接荧光团或其他侧基)。其他间隔物包括例如光可切割的(PC)间隔物、己二醇、间隔物9、间隔物18、1',2'-二脱氧核糖(dSpacer)等等。

在一些实施方案中，修饰的核苷酸包含结合对的成员。结合对可包括例如抗体/抗原、抗体/抗体、抗体/抗体片段、抗体/抗体受体、抗体/蛋白质A或蛋白质G、半抗原/抗半抗原、生物素/抗生物素蛋白、生物素/抗生蛋白链菌素、叶酸/叶酸结合蛋白质、维生素B12/内因子、化学反应基团/互补化学反应基团、地高辛配基部分/抗地高辛配基抗体、荧光素部分/抗荧光素抗体、类固醇/类固醇结合蛋白质、操纵子/阻遏物、核酸酶/核苷酸、凝集素/多糖、活性化合物/活性化合物受体、激素/激素受体、酶/底物、寡核苷酸或多核苷酸/其相应的补体等等或它们的组合。在一些实施方案中，修饰的核苷酸包含生物素。

在一些实施方案中，修饰的核苷酸包含结合对的第一成员(例如，生物素)；以及与固体支持物或基底缀合的结合对的第二个成员(例如，抗生蛋白链菌素)。固体支持物或基底可以是结合对的成员可直接或间接附接的任何物理上可分离的固体，包括但不限于由微阵列和孔提供的表面，以及粒子，诸如珠粒(例如，顺磁珠粒、磁珠、微珠、纳米珠粒)、微粒和纳米粒子。固体支持物还可包括例如芯片、柱、光纤、擦拭物(wipe)、过滤器(例如，平面过滤器)、一个或多个毛细管、玻璃和改性或官能化的玻璃(例如，可控孔玻璃(CPG))、石英、云母、重氮化膜(纸或尼龙)、聚甲醛、纤维素、乙酸纤维素、纸、陶瓷、金属、类金属、半导体材料、量子点、涂覆的珠粒或粒子、其他色谱材料、磁性粒子；塑料(包括丙烯酸类、聚苯乙烯、苯乙烯或其他材料的共聚物、聚丁烯、聚氨酯、TEFLON^TM、聚乙烯、聚丙烯、聚酰胺、聚酯、聚偏二氟乙烯(PVDF)等等)、多糖、尼龙或硝酸纤维素、树脂、硅石或基于硅石的材料(包括硅、硅胶和改性硅、

)、碳、金属(例如，钢、金、银、铝、硅和铜)、无机玻璃、导电聚合物(包括诸如聚吡咯和聚吲哚的聚合物)；微米结构化表面或纳米结构化表面，诸如核酸瓦片阵列、纳米管、纳米线或纳米微粒装饰的表面；或多孔表面或凝胶，诸如甲基丙烯酸酯、丙烯酰胺、糖聚合物、纤维素、硅酸盐或其他纤维状或链状聚合物。在一些实施方案中，固体支持物或基底可使用具有任何数目的材料的钝化或化学衍生化的涂层来涂覆，所述材料包括聚合物，诸如右旋糖酐、丙烯酰胺、明胶或琼脂糖。珠粒和/或粒子可以是游离的或彼此结合(例如，烧结)。在一些实施方案中，固体支持物可以是粒子的集合。在一些实施方案中，粒子可包括硅石，并且硅石可包括二氧化硅。在一些实施方案中，硅石可以是多孔的，并且在某些实施方案中，硅石可以是非多孔的。在一些实施方案中，粒子进一步包含赋予粒子顺磁性质的试剂。在某些实施方案中，所述试剂包括金属，并且在某些实施方案中，所述试剂是金属氧化物(例如，铁或铁氧化物，其中铁氧化物含有Fe2+和Fe3+的混合物)。结合对的成员可通过共价键或非共价相互作用连接到固体支持物，并且可直接或间接(例如，通过中介试剂(agent)，诸如间隔分子或生物素)连接到固体支持物。

磷酸化和去磷酸化

在一些实施方案中，本文的方法包括在将靶核酸去磷酸化的条件下，使靶核酸组合物与包含磷酸酶活性的试剂接触，由此生成去磷酸化的靶核酸组合物。在一些实施方案中，本文的方法包括在将寡核苷酸去磷酸化的条件下，使寡核苷酸与包含磷酸酶活性的试剂接触，由此生成多个去磷酸化的寡核苷酸种类或去磷酸化的寡核苷酸种类库。

通常，靶核酸和/或寡核苷酸在组合步骤之前(即，在杂交之前)被去磷酸化。靶核酸可被去磷酸化，然后在组合步骤之前(即，在杂交之前)被磷酸化。寡核苷酸可被去磷酸化，然后在组合步骤之前(即，在杂交之前)被磷酸化。寡核苷酸可被去磷酸化，然后在组合步骤之前(即，在杂交之前)不被磷酸化。用于进行核酸去磷酸化的试剂和试剂盒是已知的和可获得的。例如，可用磷酸酶(即，使用水将磷酸单酯切割成磷酸根离子和醇的酶)处理靶核酸和/或寡核苷酸。

在一些实施方案中，本文的方法包括在将5'磷酸酯添加到靶核酸的5'末端的条件下，使靶核酸组合物与包含磷酰基转移活性的试剂接触。在一些实施方案中，本文的方法包括在将5'磷酸酯添加到靶核酸的5'末端的条件下，使去磷酸化的靶核酸与包含磷酰基转移活性的试剂接触。在一些实施方案中，本文的方法包括在将5'磷酸酯添加到寡核苷酸种类的5'末端的条件下，使寡核苷酸与包含磷酰基转移活性的试剂接触。在一些实施方案中，本文的方法包括在将5'磷酸酯添加到寡核苷酸种类的5'末端的条件下，使去磷酸化的寡核苷酸与包含磷酰基转移活性的试剂接触。通常，靶核酸和/或寡核苷酸在组合步骤之前(即，在杂交之前)被磷酸化。可通过多种技术进行核酸的5'磷酸化。例如，可用多核苷酸激酶(PNK)(例如，T4PNK)处理靶核酸和/或寡核苷酸，所述多核苷酸激酶催化Pi从ATP的γ位置向多核苷酸(双链和单链的DNA和RNA)和核苷3′-一磷酸的5'-羟基末端的转移和交换。适合的反应条件包括，例如，在37℃下，将核酸与PNK在1X PNK反应缓冲液(例如，70mM Tris-HCl，10mMMgCl₂，5mM DTT，pH 7.6，25℃)中培育30分钟；以及在37℃下，将核酸与PNK在T4DNA连接酶缓冲液(例如，50mM Tris-HCl，10mM MgCl₂，1mM ATP，10mM DTT，pH 7.5，25℃)中培育30分钟。任选地，在磷酸化反应后，可将PNK热灭活，例如，在65℃热灭活20分钟。在一些实施方案中，方法不包括通过将来自核酸样品的核酸的5'末端磷酸化来产生5'磷酸化的核酸。在某些情况下，核酸样品包含具有天然磷酸化的5'末端的核酸。在一些实施方案中，方法不包括通过将寡核苷酸的5'末端磷酸化来产生5'磷酸化的寡核苷酸。

杂交和连接

核酸片段可与寡核苷酸组合，由此生成组合产物。将核酸片段与寡核苷酸组合可包括突出端杂交、连接(例如，杂交产物的连接)和平端连接中的一种或多种。组合产物可包括在核酸片段的一个末端或两个末端处连接到(例如，杂交到和/或连接到)寡核苷酸的核酸片段。在一些实施方案中，靶核酸可与寡核苷酸组合，由此生成组合产物。在一些实施方案中，来自切割步骤的产物(即，切割产物)可与寡核苷酸组合，由此生成组合产物。本文的某些方法包括生成组合产物组(例如，第一组组合产物和第二组组合产物)。在一些实施方案中，第一组组合产物包括连接到(例如，杂交到和/或连接到)来自第一寡核苷酸库的寡核苷酸的靶核酸。在一些实施方案中，第二组组合产物包括连接到(例如，杂交到和/或连接到)来自第二寡核苷酸库的寡核苷酸的切割产物。

靶核酸可在杂交条件下与寡核苷酸组合，由此生成杂交产物。组合步骤期间的条件是寡核苷酸(例如，寡核苷酸突出端)与具有突出端或突出端区域的靶核酸特异性杂交的那些条件，关于寡核苷酸突出端，所述突出端或突出端区域在序列上互补并且具有相应的长度。在一些实施方案中，相应的长度通常是指相同的长度(即，寡核苷酸突出端和靶核酸突出端中相同的碱基数)。特异性杂交可受诸如以下的因素影响：寡核苷酸突出端和靶核酸突出端之间的互补性程度、其长度和杂交发生的温度，所述温度可通过突出端的解链温度(Tm)来获知。解链温度通常是指一半寡核苷酸突出端/靶核酸突出端保持杂交并且一半寡核苷酸突出端/靶核酸突出端解离成单链的温度。双链体的Tm可使用下式以实验方式来确定或预测：Tm＝81.5+16.6(log₁₀[Na+])+0.41(分数G+C)-(60/N)，其中N是链长并且[Na+]小于1M。

在一些实施方案中，本文的方法包括使杂交产物暴露于靶核酸的末端与其所杂交的寡核苷酸种类的末端接合的条件。接合可通过允许靶核酸与其所杂交的寡核苷酸共价附接的任何适合的方法来实现。当靶核酸的一个末端与其所杂交的寡核苷酸的一个末端接合时，通常进行两个附接事件：1)靶核酸中一条链的3'末端与寡核苷酸中一条链的5'末端，以及2)靶核酸中另一条链的5'末端与寡核苷酸中另一条链的3'末端。当靶核酸的两个末端各自与其所杂交的寡核苷酸接合时，通常进行四个附接事件：1)靶核酸中一条链的3'末端与寡核苷酸中一条链的5'末端，2)靶核酸中另一条链的5'末端与寡核苷酸中另一条链的3'末端；以及3)和4)：对于与另一寡核苷酸附接的靶核酸的相对末端，与(1)和(2)相同。

在一些实施方案中，本文的方法包括在靶核酸的末端与靶核酸所杂交的寡核苷酸种类的末端共价连接的条件下，使杂交产物与包含连接酶活性的试剂接触。连接酶活性可包括例如平端连接酶活性、切口密封连接酶活性、粘性末端连接酶活性、环化连接酶活性、粘着末端连接酶活性、DNA连接酶活性和RNA连接酶活性。连接酶活性可包括在连接反应中将靶核酸的5'末端连接到与其所杂交的寡核苷酸的3'末端。用于进行连接反应的适合的试剂(例如，连接酶)和试剂盒是已知的和可获得的。例如，可使用可从New England Biolabs(Ipswich,MA)获得的瞬间粘性末端连接酶主混合物(Instant Sticky-end Ligase MasterMix)。可使用的连接酶包括例如T4DNA连接酶、T7DNA连接酶、大肠杆菌DNA连接酶、Electro

RNA连接酶、T4RNA连接酶2、

连接酶等等，以及它们的组合。

在一些实施方案中，使杂交产物与包含第一连接酶活性的第一试剂以及包含不同于第一连接酶活性的第二连接酶活性的第二试剂接触。例如，第一连接酶活性和第二连接酶活性可独立地选自平端连接酶活性、切口密封连接酶活性、粘性末端连接酶活性、环化连接酶活性和粘着末端连接酶活性。在一些实施方案中，某些寡核苷酸没有突出端。此类寡核苷酸可以是平端的，并且可接合(例如，连接)到靶核酸的一个或多个平端。

在一些实施方案中，本文的方法包括经由生物相容性附接物将靶核酸接合到寡核苷酸。方法可包括例如点击化学或加标签，其包括可用于接合生物分子的生物相容性反应。在一些实施方案中，每个寡核苷酸的末端包含第一化学反应性部分，并且每个靶核酸的末端包含第二化学反应性部分。在此类实施方案中，第一化学反应性部分通常能够与第二化学反应性部分反应，并且在寡核苷酸和与寡核苷酸杂交的靶核酸之间形成共价键。在一些实施方案中，本文的方法包括在第二化学反应部分被并入每个靶核酸的末端的条件下，使靶核酸与一种或多种化学试剂接触。在一些实施方案中，本文的方法包括使杂交产物暴露于其中第一化学反应性部分与第二化学反应性部分反应的条件，在寡核苷酸和与寡核苷酸杂交的靶核酸之间形成共价键。在一些实施方案中，第一化学反应性部分能够与第二化学反应性部分反应，以在寡核苷酸和与寡核苷酸杂交的靶核酸之间形成1,2,3-三唑。在一些实施方案中，第一化学反应性部分能够在包含铜的条件下与第二化学反应性部分反应。第一和第二化学反应性部分可包括任何适合的配对。例如，第一化学反应性部分可选自含叠氮化物的部分和5-辛二炔基脱氧尿嘧啶，并且第二化学反应性部分可独立地选自含叠氮化物部分、己炔基和5-辛二炔基脱氧尿嘧啶。在一些实施方案中，含叠氮化物部分为N-羟基琥珀酰亚胺(NHS)酯-叠氮化物。

切割

在一些实施方案中，在本文所述的方法之前、期间或之后切割或剪切本文的寡核苷酸和/或杂交产物(例如，与靶核酸杂交的本文的寡核苷酸)。在一些实施方案中，在切割位点处切割或剪切本文的寡核苷酸和/或杂交产物。在一些实施方案中，在发夹环内的切割位点处切割或剪切本文的寡核苷酸和/或杂交产物。在一些实施方案中，本文的寡核苷酸和/或杂交产物在寡核苷酸中(例如，在寡核苷酸的双链体区内)的内部位置的切割位点处被切割或剪切。在一些实施方案中，在本文所述的方法之前、期间或之后切割或剪切环状杂交产物。在一些实施方案中，在本文所述的方法之前、期间或之后切割或剪切核酸，诸如例如，细胞核酸和/或大片段(例如，长度大于500个碱基对)。大片段可被称为高分子量(HMW)核酸或HMW DNA。HMW核酸片段可包括大于约500bp、约600bp、约700bp、约800bp、约900bp、约1000bp、约2000bp、约3000bp、约4000bp、约5000bp、约10,000bp或更高的片段。术语“剪切”或“切割”通常是指可将核酸分子切断成两个(或更多个)更小的核酸分子的程序或条件。此类剪切或切割可以是序列特异性的、碱基特异性的或非特异性的，并且可通过多种方法、试剂或条件(包括例如化学的、酶促的和物理的(例如，物理片段化))中的任一种来实现。剪切或切割的核酸可具有约5到约10,000个碱基对、约100到约1,000个碱基对、约100到约500个碱基对、或约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000或9000个碱基对的标称长度、平均长度或均值长度。

剪切或切割的核酸可通过适合的方法生成，所述方法的非限制性示例包括物理方法(例如，剪切，例如，声波处理、超声波处理、弗氏压碎(French press)、热、UV辐照等等)、酶促过程(例如，酶促切割剂(例如，适合的核酸酶、适合的限制酶))、化学方法(例如，烷基化、DMS、哌啶、酸水解、碱水解、热等等或它们的组合)、紫外(UV)光(例如，在光可切割位点(例如，包含光可切割的间隔物)处)等等或它们的组合。所得核酸片段的平均长度、均值长度或标称长度可通过选择适当的片段生成方法来控制。

术语“切割剂”通常是指可在一个或多个特异性或非特异性位点切割核酸的试剂，有时是指化学品或酶。特异性切割剂经常根据特定核苷酸序列在特定位点特异性切割，所述位点可被称为切割位点。切割剂可包括酶促切割剂、化学切割剂和光(例如，紫外(UV)光)。

酶促切割剂的示例包括但不限于内切核酸酶；脱氧核糖核酸酶(DNase；例如，DNase I、II)；核糖核酸酶(RNase；例如，RNase A、RNase E、RNase F、RNase H、RNase III、RNase L、RNase P、RNase PhyM、RNase T1、RNase T2、RNase U2和RNase V)；内切核酸酶VIII；CLEAVASE酶；TAQ DNA聚合酶；大肠杆菌DNA聚合酶I；真核结构特异性内切核酸酶；鼠FEN-1内切核酸酶；切刻酶；I型、II型或III型限制性内切核酸酶(即限制酶)，诸如Acc I、AciI、Afl III、Alu I、Alw44I、Apa I、Asn I、Ava I、Ava II、BamH I、Ban II、Bcl I、Bgl I、Bgl II、Bln I、Bsm I、BssH II、BstE II、BstUI、Cfo I、CIa I、Dde I、Dpn I、Dra I、EcIXI、EcoR I、EcoR I、EcoR II、EcoR V、Hae II、Hae II、HhaI、Hind II、Hind III、Hpa I、HpaII、Kpn I、Ksp I、MaeII、McrBC、Mlu I、MIuN I、Msp I、Nci I、Nco I、Nde I、Nde II、Nhe I、Not I、Nru I、Nsi I、Pst I、Pvu I、Pvu II、Rsa I、Sac I、Sal I、Sau3A I、Sca I、ScrF I、Sfi I、Sma I、Spe I、Sph I、Ssp I、Stu I、Sty I、Swa I、Taq I、Xba I、Xho I；糖基化酶(例如，尿嘧啶-DNA糖基化酶(UDG)、3-甲基腺嘌呤DNA糖基化酶、3-甲基腺嘌呤DNA糖基化酶II、嘧啶水合物-DNA糖基化酶、FaPy-DNA糖基化酶、胸腺嘧啶错配-DNA糖基化酶(例如，次黄嘌呤-DNA糖基化酶、尿嘧啶DNA糖基化酶(UDG)、5-羟甲基尿嘧啶DNA糖基化酶(HmUDG)、5-羟甲基胞嘧啶DNA糖基化酶或1,N6-亚乙烯基腺嘌呤DNA糖基化酶)；外切核酸酶(例如，外切核酸酶I、外切核酸酶II、外切核酸酶III、外切核酸酶IV、外切核酸酶V、外切核酸酶VI、外切核酸酶VII、外切核酸酶VIII)；5'到3'外切核酸酶(例如，外切核酸酶II)；3'到5'外切核酸酶(例如，外切核酸酶I)；聚(A)-特异性3'到5'外切核酸酶；核酶；脱氧核酶；等等以及它们的组合。

在一些实施方案中，切割位点(例如，寡核苷酸的双链体部分内的切割位点)包含选自尿嘧啶和脱氧尿苷的核苷酸。在一些实施方案中，切割剂包括内切核酸酶。在一些实施方案中，切割剂包括DNA糖基化酶。在一些实施方案中，切割剂包括内切核酸酶和DNA糖基化酶。在一些实施方案中，切割剂包括尿嘧啶DNA糖基化酶(UDG)和内切核酸酶VIII的混合物。

在一些实施方案中，切割位点包括限制酶识别位点。在一些实施方案中，切割剂包括限制酶。在一些实施方案中，切割位点包括稀有切点(rare-cutter)限制酶识别位点(例如，NotI识别序列)。在一些实施方案中，切割剂包括稀有切点酶(例如，稀有切点限制酶)。稀有切点酶通常是指具有在基因组(例如，人基因组)中仅稀有地存在的识别序列的限制酶。一个示例是NotI，它在5'-GCGGCCGC-3'序列的第一个GC之后切割。具有七个和八个碱基对识别序列的限制酶经常被认为是稀有切点酶。

用于选择用于在特定位点切割DNA的限制酶的切割方法和程序是本领域技术人员众所周知的。例如，许多限制酶供应商提供了关于被特定限制酶切割的DNA序列的条件和类型的信息，包括New England BioLabs、Pro-Mega Biochems、Boehringer-Mannheim等等。酶经常在将使得能够以约95％-100％的效率，优选以约98％-100％的效率切割DNA的条件下使用。

在一些实施方案中，切割位点包含一个或多个核糖核酸(RNA)核苷酸。在一些实施方案中，切割位点包含含有一个或多个RNA核苷酸的单链部分。在一些实施方案中，单链部分侧翼为双链体部分。在一些实施方案中，单链部分是发夹环。在一些实施方案中，切割位点包含一个RNA核苷酸。在一些实施方案中，切割位点包含两个RNA核苷酸。在一些实施方案中，切割位点包含三个RNA核苷酸。在一些实施方案中，切割位点包含四个RNA核苷酸。在一些实施方案中，切割位点包含五个RNA核苷酸。在一些实施方案中，切割位点包含多于五个RNA核苷酸。在一些实施方案中，切割位点包含一个或多个选自腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和尿嘧啶(U)的RNA核苷酸。在一些实施方案中，切割位点包含一个或多个选自腺嘌呤(A)、胞嘧啶(C)和鸟嘌呤(G)的RNA核苷酸。在一些实施方案中，切割位点不包含尿嘧啶(U)。在一些实施方案中，切割位点包含一个或多个包含鸟嘌呤(G)的RNA核苷酸。在一些实施方案中，切割位点包含一个或多个由鸟嘌呤(G)组成的RNA核苷酸。在一些实施方案中，切割位点包含一个或多个包含胞嘧啶(C)的RNA核苷酸。在一些实施方案中，切割位点包含一个或多个由胞嘧啶(C)组成的RNA核苷酸。在一些实施方案中，切割位点包含一个或多个包含腺嘌呤(A)的RNA核苷酸。在一些实施方案中，切割位点包含一个或多个由腺嘌呤(A)组成的RNA核苷酸。在一些实施方案中，切割位点包含一个或多个由腺嘌呤(A)、胞嘧啶(C)和鸟嘌呤(G)组成的RNA核苷酸。在一些实施方案中，切割位点包含一个或多个由腺嘌呤(A)和胞嘧啶(C)组成的RNA核苷酸。在一些实施方案中，切割位点包含一个或多个由腺嘌呤(A)和鸟嘌呤(G)组成的RNA核苷酸。在一些实施方案中，切割位点包含一个或多个由胞嘧啶(C)和鸟嘌呤(G)组成的RNA核苷酸。在一些实施方案中，切割剂包括核糖核酸酶(RNAse)。在一些实施方案中，RNAse是内切核糖核酸酶。RNAse可选自RNAse A、RNAse E、RNAse F、RNAse H、RNAseIII、RNAse L、RNAse P、RNAse PhyM、RNAse T1、RNAse T2、RNAse U2和RNAse V中的一个或多个。

在一些实施方案中，切割位点包含光可切割的间隔物或光可切割的修饰。光可切割的修饰可含有例如可被特定波长(例如，300-350nm)的紫外(UV)光切割的光不稳定性官能团。示例性的光可切割的间隔物(可从Integrated DNA Technologies获得；产品号1707)是仅在暴露于适当光谱范围内的UV光时才能被切割的10原子连接臂。包含光可切割间隔物的寡核苷酸可具有可用于随后的连接酶反应的5'磷酸酯基团。光可切割的间隔物可置于DNA碱基之间或寡取物和末端修饰(例如，荧光团)之间。在此类实施方案中，紫外(UV)光可被认为是切割剂。

在一些实施方案中，切割位点包含二醇。例如，切割位点可包含以5'到5'连接并入的邻二醇。包含二醇的切割位点可例如使用高碘酸盐化学切割。在一些实施方案中，切割位点包括平端限制酶识别位点。包括平端限制酶识别位点的切割位点可被平端限制酶切割。

切口密封和补平

在一些实施方案中，本文的方法包括进行切口密封反应(例如，使用DNA连接酶或其他适合的酶，以及在某些情况下，适于5'磷酸化核酸的激酶(例如，多核苷酸激酶(PNK))。在一些实施方案中，本文的方法包括进行补平反应。例如，当寡核苷酸以双链体存在时，一些或所有双链体可在与核酸杂交的末端相对的双链体末端处包括突出端。当存在此类双链体突出端时，在组合之后，本文的方法可进一步包括补平由所述双链体形成的突出端。在一些实施方案中，进行补平反应以生成平端杂交产物。可使用任何用于进行补平反应的适合试剂。适于进行补平反应的聚合酶包括例如DNA聚合酶I、大(克列诺(Klenow))片段、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)(Bst)DNA聚合酶等等。在一些实施方案中，使用链置换聚合酶(例如，Bst DNA聚合酶)。

外切核酸酶处理

在一些实施方案中，用外切核酸酶处理核酸(例如，杂交产物；环化的杂交产物)。外切核酸酶是通过水解反应从多核苷酸链的末端一次一个地切割核苷酸而起作用的酶，所述水解反应破坏3'或5'末端处的磷酸二酯键。外切核酸酶包括例如DNAse、RNAse(例如，RNAseH)、5'到3'外切核酸酶(例如，外切核酸酶II)、3'到5'外切核酸酶(例如，外切核酸酶I)和聚(A)特异性的3'到5'外切核酸酶。在一些实施方案中，用外切核酸酶处理杂交产物以去除污染核酸，诸如例如，单链寡核苷酸或核酸片段。在一些实施方案中，用外切核酸酶处理环化的杂交产物以去除任何非环化的杂交产物、非杂交的寡核苷酸、非杂交的靶核酸、寡核苷酸二聚体等等以及它们的组合。

第二寡核苷酸库

本文所述的某些方法包括将靶核酸与第一寡核苷酸库(例如，包含能够与如本文所述的靶核酸突出端杂交的突出端的寡核苷酸)组合，切割组合产物以生成切割产物，以及将切割产物与第二寡核苷酸库组合。第二库中的寡核苷酸可包含本文针对寡核苷酸所述的任何特征。然而，第二库中的寡核苷酸通常不包含与靶核酸中的天然突出端互补的突出端，并且通常不包含突出端识别序列。

在一些实施方案中，本文的方法包括将来自第二库的寡核苷酸与切割的靶核酸片段(切割产物)的至少一个末端附接(例如，退火、杂交、连接)。通常，来自第二库的寡核苷酸在切割末端与切割的靶核酸片段附接，并且不与天然末端附接。在一些实施方案中，在与来自第二库的寡核苷酸组合之前，切割的靶核酸片段经历末端修复，包括平端修复、3'到5'外切核酸酶处理、5'补平、A加尾和5'磷酸化中的一种或多种。在一些实施方案中，本文的方法包括将一个或多个未配对的核苷酸(例如，A尾)添加到切割产物的一个或两个末端(即在一个或多个切割末端处)。在一些实施方案中，来自第二库的寡核苷酸包含与添加到切割产物的一个或多个核苷酸互补的一个或多个核苷酸(例如，在第一末端处)。在一些实施方案中，来自第二库的寡核苷酸的末端(例如，第一末端)能够共价连接到所述寡核苷酸所附接至的切割产物的末端。在一些实施方案中，寡核苷酸链的3'末端能够共价连接到所述寡核苷酸所附接至的切割产物中的链的5'末端(例如，磷酸化的5'末端)。

来自第二库的寡核苷酸可包含引物结合结构域。来自第二库的寡核苷酸上的引物结合结构域可不同于来自第一库的寡核苷酸上的引物结合结构域。所述引物结合结构域可包含任何适合的引物结合序列。在一些实施方案中，引物结合结构域包含P5引物结合序列。在一些实施方案中，引物结合结构域包含P7引物结合序列。

来自第二库的寡核苷酸可包含平端(例如，在第一末端处)，或可在第一末端处包含短(例如，1bp、2bp、3bp)突出端。例如，来自第二库的寡核苷酸可在第一末端处包含单个T、A、C、G或U突出端。在一些实施方案中，来自第二库的寡核苷酸包含单个T突出端。通常，突出端(例如，T突出端)位于第一末端处的链的3'末端上。

来自第二库的寡核苷酸可包含硫代磷酸酯骨架修饰(例如，链上最后两个核苷酸之间的硫代磷酸酯键)。在一些实施方案中，来自第二库的寡核苷酸在链上在突出端(例如，3'T突出端)之前包含硫代磷酸酯骨架修饰。来自第二库的寡核苷酸可包含一个或多个修饰的核苷酸，诸如例如，本文所述的任何修饰的核苷酸。在一些实施方案中，来自第二库的寡核苷酸包含阻断的核苷酸。来自第二库的寡核苷酸可被磷酸化。来自第二库的寡核苷酸可在第一末端处被磷酸化。通常，来自第二库的寡核苷酸在第一末端处的链的5'末端被磷酸化。

本文所述的某些方法包括使用截短的寡核苷酸。在一些实施方案中，第二寡核苷酸库包含截短的寡核苷酸。截短的寡核苷酸在本文中可被称为特化寡核苷酸、特化接头(例如，特化P5接头)、短寡核苷酸、短接头(例如，短P5接头)以及它们的变化形式。截短的寡核苷酸通常包含两条核酸链(即，第一链和第二链)，其中一条链比另一条链短。在一些实施方案中，第一链比第二链短。在一些实施方案中，第一链和第二链在寡核苷酸的一个末端(例如，第一末端)处互补，并且第二链在寡核苷酸的另一末端(例如，第二末端)处包含单链。截短的寡核苷酸可被设计成使得长链的互补物足够长以保持退火，但太短以致于不能扩增(例如，在索引PCR期间)。截短的寡核苷酸可包含本文针对寡核苷酸所述的任何特征。然而，截短的寡核苷酸通常不包含与靶核酸中的天然突出端互补的突出端，并且通常不包含突出端识别序列。

截短的寡核苷酸可包含特异于截短的寡核苷酸的寡核苷酸识别序列(例如，条形码)。寡核苷酸识别序列可用于识别与截短的寡核苷酸连接的核酸片段末端。在一些情况下，寡核苷酸识别序列可用于区分连接到截短的寡核苷酸的核酸片段末端与连接到非截短的寡核苷酸(例如，本文所述的突出端寡核苷酸)的核酸片段末端。在一些情况下，寡核苷酸识别序列可用于识别非天然核酸片段末端(例如，通过剪切生成的核酸片段末端)。在一些实施方案中，截短的寡核苷酸包含长度为约5bp到约10bp的寡核苷酸识别序列。例如，截短的寡核苷酸可包含长度为约5bp、6bp、7bp、8bp、9bp或10bp的寡核苷酸识别序列。在一些实施方案中，截短的寡核苷酸包含长度为8bp的寡核苷酸识别序列。

截短的寡核苷酸可包含引物结合结构域。通常，引物结合结构域位于较长的链(例如，第二链)上。引物结合结构域可包含任何适合的引物结合序列。在一些实施方案中，引物结合结构域包含P5引物结合序列。在一些实施方案中，引物结合结构域包含P7引物结合序列。通常，较短的链(例如，第一链)不包含引物结合结构域。

截短的寡核苷酸可包含平端(例如，在第一末端处)，或可在第一末端处包含短(例如，1bp、2bp、3bp)突出端。例如，截短的寡核苷酸可在第一末端处包含单个T、A、C、G或U突出端。在一些实施方案中，截短的寡核苷酸包含单个T突出端。通常，突出端(例如，T突出端)位于第二链的3'末端上。

截短的寡核苷酸可包含硫代磷酸酯骨架修饰(例如，链上最后两个核苷酸之间的硫代磷酸酯键)。在一些实施方案中，截短的寡核苷酸在第二链上包含硫代磷酸酯骨架修饰。在一些实施方案中，截短的寡核苷酸在第二链上在突出端(例如，3'T突出端)之前包含硫代磷酸酯骨架修饰。

截短的寡核苷酸可包含一个或多个修饰的核苷酸，诸如例如本文所述的任何修饰的核苷酸。在一些实施方案中，截短的寡核苷酸包括阻断的核苷酸(例如，包含C3间隔物的核苷酸)。在一些实施方案中，截短的寡核苷酸在第二链上包含阻断的核苷酸。通常，阻断的核苷酸位于第二链的5'末端上。截短的寡核苷酸可被磷酸化。截短的寡核苷酸可在第一末端处被磷酸化。通常，截短的寡核苷酸在第一链的5'末端处被磷酸化。

样品

本文提供了用于处理和/或分析核酸的方法和组合物。可从由受试者(例如，测试受试者)获得的样品分离用于本文所述的方法和组合物中的核酸或核酸混合物。受试者可以是任何活的或非活的生物体，包括但不限于人、非人动物、植物、细菌、真菌、原生生物或病原体。可选择任何人或非人动物，并且可包括例如哺乳动物、爬行动物、鸟类、两栖动物、鱼类、有蹄动物、反刍动物、牛科动物(例如，牛)、马科动物(例如，马)、山羊类(caprine)和绵羊类(ovine)(例如，绵羊、山羊)、猪类(例如，猪)、骆驼科动物(例如，骆驼、美洲驼、羊驼)、猴、猿(例如，大猩猩、黑猩猩)、熊科动物(例如，熊)、家禽、狗、猫、小鼠、大鼠、鱼类、海豚、鲸和鲨鱼。受试者可以是雄性或雌性(例如，妇女、孕妇)。受试者可以是任何年龄(例如，胚胎、胎儿、婴儿、儿童、成人)。受试者可以是癌症患者、怀疑患有癌症的患者、缓解中的患者、具有癌症家族史的患者和/或获得癌症筛选的受试者。受试者可以是患有感染或感染性疾病或被病原体(例如，细菌、病毒、真菌、原生动物等等)感染的患者，怀疑患有感染或感染性疾病或被病原体感染的患者，从感染、感染性疾病或病原体感染中恢复的患者，具有感染、感染性疾病、病原体感染史的患者，和/或获得感染性疾病或病原体筛选的受试者。受试者可以是移植物接受者。受试者可以是经历微生物群系分析的患者。在一些实施方案中，测试受试者是雌性。在一些实施方案中，测试受试者是女性。在一些实施方案中，测试受试者是雄性。在一些实施方案中，测试受试者是人类男性。

可从任何类型的适合的生物样本或样品(例如，测试样品)分离或获得核酸样品。可从单个细胞、多个细胞(例如，培养的细胞)、细胞培养基、条件培养基、组织、器官或生物体(例如，细菌、酵母等等)分离或获得核酸样品。在一些实施方案中，从动物(例如，动物受试者)的细胞、组织、器官等等分离或获得核酸样品。在一些实施方案中，从诸如以下的来源分离或获得核酸样品：细菌、酵母、昆虫(例如，果蝇)、哺乳动物、两栖动物(例如，蛙(例如，非洲爪蟾))、病毒、植物或任何其他哺乳动物或非哺乳动物核酸样品来源。

可从现存的生物体或动物分离或获得核酸样品。在一些情况下，可从灭绝的(或“古老的”)生物体或动物(例如，灭绝的哺乳动物；来自人属的灭绝的哺乳动物)分离或获得核酸样品。在一些情况下，核酸样品可作为法医分析的一部分获得。在一些情况下，核酸样品可作为诊断分析的一部分获得。

样品或测试样品可以是从受试者或其部分(例如，人受试者、怀孕雌性、癌症患者、患有感染或感染性疾病的患者、移植物接受者、胎儿、肿瘤、受感染的器官或组织、移植的器官或组织、微生物群系)分离或获得的任何样本。样品有时来自怀有处于任何妊娠阶段(例如，人受试者的首三月、中三月或后三月)的胎儿的怀孕雌性受试者，并且有时来自出生后的受试者。样品有时来自怀有所有染色体均为整倍体的胎儿的怀孕受试者，并且有时来自怀有具有染色体非整倍性(例如，一、三(即三体性(例如，T21、T18、T13))或四拷贝染色体)或其他遗传变异的胎儿的怀孕受试者。样本的非限制性示例包括来自受试者的流体或组织，包括但不限于血液或血液产品(例如血清、血浆等等)、脐带血、绒膜绒毛、羊水、脑脊液、脊髓液、灌洗液(例如支气管肺泡、胃、腹膜、导管、耳、关节镜)、活检样品(例如，来自植入前胚胎；癌症活检)、腹腔穿刺样品(celocentesis sample)、细胞(血细胞、胎盘细胞、胚胎细胞或胎儿细胞、胎儿有核细胞或胎儿细胞残留物、正常细胞、异常细胞(例如，癌细胞))或其部分(例如，线粒体、细胞核、提取物等等)、雌性生殖道洗涤物、尿液、排泄物、痰、唾液、鼻粘液、前列腺液、灌洗物、精液、淋巴液、胆汁、眼泪、汗液、母乳、乳汁(breast fluid)等等或它们的组合。在一些实施方案中，生物样品是来自受试者的子宫颈拭子。从中提取核酸的流体或组织样品可以是非细胞的(例如，无细胞的)。在一些实施方案中，流体或组织样品可含有细胞成分或细胞残留物。在一些实施方案中，在样品中可包含胎儿细胞或癌细胞。

样品可以是液体样品。液体样品可包含细胞外核酸(例如，循环的无细胞的DNA)。液体样品的非限制性示例包括血液或血液产品(例如，血清、血浆等等)、尿液、活检样品(例如，用于检测癌症的液体活检样本)、上述液体样品等等或它们的组合。在某些实施方案中，样品是液体活检样本，其通常是指针对疾病(例如，癌症)的存在、不存在、进展或缓解对来自受试者的液体样品的评估。液体活检样本可与固体活检样本(例如，肿瘤活检样本)结合使用或作为其替代使用。在某些情况下，在液体活检样本中分析细胞外核酸。

在一些实施方案中，生物样品可以是血液、血浆或血清。术语“血液”包括如常规所定义的全血、血液产品或任何血液级分，例如血清、血浆、血沉棕黄层等等。血液或其级分经常包含核小体。核小体包含核酸，并且有时是无细胞的的或细胞内的。血液还包含血沉棕黄层。有时通过利用Ficoll梯度分离血沉棕黄层。血沉棕黄层可包含白细胞(例如，白血球、T细胞、B细胞、血小板等等)。血浆是指由用抗凝剂处理的血液的离心产生的全血的级分。血清是指在血液样品凝固后残留的水样流体部分。经常根据医院或诊所通常遵循的标准方案来收集流体或组织样品。对于血液，经常收集适当量的外周血(例如，3到40毫升、5到50毫升)并且可根据制备之前或之后的标准程序加以储存。

可使用例如全血、血清或血浆进行对受试者血液中发现的核酸的分析。例如，可使用例如全血、血清或血浆进行对母体血液中发现的胎儿DNA的分析。例如，可使用例如全血、血清或血浆进行对患者血液中发现的肿瘤或癌症DNA的分析。例如，可使用例如全血、血清或血浆进行对患者血液中发现的病原体DNA的分析。例如，可使用例如全血、血清或血浆进行对移植物接受者的血液中发现的移植物DNA的分析。从由受试者(例如，母体受试者；患者；癌症患者)获得的血液制备血清或血浆的方法是已知的。例如，可将受试者的血液(例如，孕妇的血液；患者的血液；癌症患者的血液)置于含有EDTA的管或专业化商业产品(诸如Vacutainer SST(Becton Dickinson,Franklin Lakes,N.J.))中以防止血液凝固，然后可通过离心从全血获得血浆。在血液凝固后，可在离心或不离心的情况下获得血清。如果使用离心，则通常(但非排他地)以适当的速度(例如，1,500-3,000×g)进行离心。血浆或血清在转移到用于核酸提取的新管之前可进行另外的离心步骤。除了全血的无细胞部分，还可从富集血沉棕黄层部分的细胞级分中回收核酸，所述血沉棕黄层部分可在离心来自受试者的全血样品并去除血浆后获得。

样品可以是肿瘤核酸样品(即，从肿瘤分离的核酸样品)。术语“肿瘤”通常是指赘生性细胞生长和增殖(无论恶性或良性)，并且可包括癌前期和癌性的细胞和组织。术语“癌症”和“癌性”通常是指哺乳动物中通常以不受调控的细胞生长/增殖为特征的生理状况。癌症的示例包括但不限于癌、淋巴瘤、母细胞瘤、肉瘤、白血病、鳞状细胞癌、小细胞肺癌、非小细胞肺癌、肺腺癌、肺鳞状细胞癌、腹膜癌、肝细胞癌、胃肠癌、胰腺癌、成胶质细胞瘤、宫颈癌、卵巢癌、肝癌、膀胱癌、肝细胞瘤、乳腺癌、结肠癌、结直肠癌、子宫内膜或子宫癌、唾液腺癌、肾癌、肝癌、前列腺癌、外阴癌、甲状腺癌、肝癌、各种类型的头颈癌等等。

样品可以是异源的。例如，样品可包括多于一种的细胞类型和/或一个或多个核酸种类。在一些情况下，样品可包括(i)胎儿细胞和母体细胞，(ii)癌细胞和非癌细胞，和/或(iii)病原细胞和宿主细胞。在一些情况下，样品可包括(i)癌核酸和非癌核酸，(ii)病原体和宿主的核酸，(iii)胎儿来源和母体来源的核酸，和/或更一般地，(iv)突变和野生型的核酸。在一些情况下，样品可包括少数核酸种类和多数核酸种类，如下文所进一步详细描述的。在一些情况下，样品可包括来自单个受试者的细胞和/或核酸，或者可包括来自多个受试者的细胞和/或核酸。

核酸

本文提供了用于处理和/或分析核酸的方法和组合物。术语核酸、核酸分子、核酸片段、靶核酸、核酸模板、模板核酸、核酸靶标、靶核酸、多核苷酸、多核苷酸片段、靶多核苷酸、多核苷酸靶标等等在本公开中可互换使用。所述术语是指来自诸如以下的任何组成的核酸：DNA(例如，互补DNA(cDNA；由任何目标RNA或DNA合成)、基因组DNA(gDNA)、基因组DNA片段、线粒体DNA(mtDNA)、重组DNA(例如，质粒DNA)等等)、RNA(例如，信使RNA(mRNA)、短抑制性RNA(siRNA)、核糖体RNA(rRNA)、转移RNA(tRNA)、微小RNA、反式作用的小干扰RNA(ta-siRNA)、天然小干扰RNA(nat-siRNA)、小核仁RNA(snoRNA)、小核RNA(snRNA)、长非编码RNA(lncRNA)、非编码RNA(ncRNA)、转移信使RNA(tmRNA)、前体信使RNA(前mRNA)、小卡哈尔体特异性RNA(small Cajal body-specific RNA)(scaRNA)、piwi相互作用RNA(piRNA)、内切核糖核酸酶制备的siRNA(esiRNA)、小时序RNA(stRNA)、信号识别RNA、端粒RNA、由胎儿或胎盘高度表达的RNA等等)，和/或DNA或RNA类似物(例如，含有碱基类似物、糖类似物和/或非天然骨架等等)、RNA/DNA杂交体和聚酰胺核酸(PNA)，其全部可以呈单链或双链形式，并且除非另有限制，否则可涵盖天然核苷酸的已知类似物，所述类似物可以以与天然存在的核苷酸相似的方式发挥功能。在某些实施方案中，核酸可以是，或可来自质粒、噬菌体、病毒、细菌、自主复制序列(ARS)、线粒体、着丝粒、人工染色体、染色体或能够在体外或在宿主细胞、细胞、细胞的细胞核或细胞质中复制或被复制的其他核酸。在一些实施方案中，模板核酸可来自单一染色体(例如，核酸样品可来自从二倍体生物体获得的样品的一条染色体)。除非特别限制，否则所述术语涵盖含有天然核苷酸的已知类似物的核酸，所述类似物具有与参考核酸相似的结合性质，并且以与天然存在的核苷酸相似的方式被代谢。除非另外指明，否则特定的核酸序列还隐含地涵盖其保守修饰的变体(例如，简并密码子取代)、等位基因、直向同源物、单核苷酸多态性(SNP)和互补序列以及明确指出的序列。具体地，简并密码子取代可通过生成一个或多个所选的(或所有)密码子的第三位被混合碱基和/或脱氧肌苷残基取代的序列来实现。术语核酸与基因座、基因、cDNA和由基因编码的mRNA可互换使用。该术语还可包括单链(“有义”或“反义”、“正”链或“负”链、“正向”阅读框或“反向”阅读框)多核苷酸和双链多核苷酸，作为从核苷酸类似物合成的RNA或DNA的等同物、衍生物、变体和类似物。术语“基因”是指参与产生多肽链的DNA区段；并且通常包含在参与基因产物的转录/翻译和转录/翻译的调控的编码区之前和之后的区域(前导区和尾随区)，以及在单个编码区(外显子)之间的间插序列(内含子)。核苷酸或碱基通常是指核酸的嘌呤和嘧啶分子单位(例如，腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C))。对于RNA，用尿嘧啶替代碱基胸腺嘧啶。可将核酸长度或大小表示为碱基的数目。

靶核酸可以是所关注的任何核酸。核酸可以是由脱氧核糖核苷酸(即，DNA碱基)、核糖核苷酸(即，RNA碱基)或其组合构成的任何长度的聚合物，例如，10个碱基或更长、20个碱基或更长、50个碱基或更长、100个碱基或更长、200个碱基或更长、300个碱基或更长、400个碱基或更长、500个碱基或更长、1000个碱基或更长、2000个碱基或更长、3000个碱基或更长、4000个碱基或更长、5000个碱基或更长。在某些方面，核酸是由脱氧核糖核苷酸(即，DNA碱基)、核糖核苷酸(即，RNA碱基)或其组合构成的聚合物，例如，10个碱基或更少、20个碱基或更少、50个碱基或更少、100个碱基或更少、200个碱基或更少、300个碱基或更少、400个碱基或更少、500个碱基或更少、1000个碱基或更少、2000个碱基或更少、3000个碱基或更少、4000个碱基或更少、或5000个碱基或更少。

核酸可以是单链或双链的。例如，单链DNA可通过加热或用碱处理使双链DNA变性而生成。在某些实施方案中，核酸是D-环结构，其通过寡核苷酸或DNA样分子如肽核酸(PNA)对双链体DNA分子的链侵入而形成。可通过添加大肠杆菌RecA蛋白质和/或通过改变盐浓度，例如，使用本领域已知的方法来促进D环的形成。

核酸(例如，核酸靶标、寡核苷酸、突出端)在本文中可描被述为与另一核酸互补或具有互补区。如本文所用，术语“互补”或“互补性”是指通过非共价键与核酸(例如，靶标)的区域碱基配对的核苷酸序列。在规范的沃森-克里克碱基配对(Watson-Crick basepairing)中，在DNA中，腺嘌呤(A)与胸腺嘧啶(T)形成碱基对，并且鸟嘌呤(G)与胞嘧啶(C)配对。在RNA中，胸腺嘧啶被尿嘧啶(U)替代。因此，A与T互补，并且G与C互补。在RNA中，A与U互补，反之亦然。通常，“互补”或“互补性”是指至少部分互补的核苷酸序列。这些术语还可涵盖完全互补的双链体，使得一条链中的每个核苷酸与另一条链中相应位置的每个核苷酸互补。

在某些情况下，核苷酸序列可与靶标部分互补，其中并非所有核苷酸都与靶核酸中所有相应位置的每个核苷酸互补。例如，寡核苷酸突出端可与靶核酸突出端完全(即100％)互补，或寡核苷酸突出端可共有一定程度(不够完全(例如，70％、75％、85％、90％、95％、99％))的互补性。

在一些实施方案中，分析核酸混合物中的核酸。核酸混合物可包含两个或更多个核酸种类，所述核酸种类具有相同或不同的核苷酸序列、不同长度、不同来源(例如，基因组来源、胎儿来源相对于母体来源、细胞或组织来源、癌症来源相对于非癌症来源、肿瘤来源相对于非肿瘤来源、宿主相对于病原体、宿主相对于移植物、宿主相对于微生物群系、样品来源、受试者来源等等)、不同突出端长度、不同突出端类型(例如，5'突出端、3'突出端、无突出端)或它们的组合。为本文所述方法提供的核酸可含有来自一个样品或来自两个或更多个样品(例如，来自1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14个或更多个、15个或更多个、16个或更多个、17个或更多个、18个或更多个、19个或更多个、或20个或更多个样品)的核酸。

在一些实施方案中，靶核酸包括降解的DNA。降解的DNA可被称为低质量DNA或高度降解的DNA。降解的DNA可以是高度片段化的，并且可包含损坏，诸如经受错编损伤和/或分子间交联的碱基类似物和无碱基位点。例如，由胞嘧啶残基的脱氨基产生的测序误差可能存在于从降解DNA获得的某些序列中(例如，C错编为T以及G错编为A)。

可通过本领域已知的方法，从一种或多种来源(例如，生物样品、血液、细胞、血清、血浆、血沉棕黄层、尿液、淋巴液、皮肤、土壤等等)获得核酸。任何适合的方法均可用于从生物样品(例如，从血液或血液产品)分离、提取和/或纯化DNA，所述方法的非限制性示例包括DNA制备方法(例如，由Sambrook和Russell，分子克隆：实验室手册(Molecular Cloning：ALaboratory Manual)，第3版，2001描述)，各种市售的试剂或试剂盒，诸如

和

(例如，

循环核酸试剂盒、

DNA小型试剂盒或

DNA血液小型试剂盒)核酸分离/纯化试剂盒(Qiagen公司(Germantown,Md))；GenomicPrep^TM血液DNA分离试剂盒(Promega,Madison,Wis.)；GFX^TM基因组血液DNA纯化试剂盒(Amersham,Piscataway,N.J.)；

核酸分离/纯化试剂盒(LifeTechnologies公司(Carlsbad,CA))；

和

核酸分离/纯化试剂盒(Clontech Laboratories公司(Mountain View,CA))；等等或它们的组合。在某些方面，从固定的生物样品(例如，福尔马林固定、石蜡包埋(FFPE)的组织)分离核酸。可使用市售试剂盒-诸如

DNA/RNA FFPE试剂盒(Qiagen公司(Germantown,Md))、用于FFPE的

总核酸分离试剂盒(Life Technologies公司(Carlsbad,CA))和

FFPE试剂盒(Clontech Laboratories公司(Mountain View,CA))分离来自FFPE组织的基因组DNA。

在一些实施方案中，使用细胞裂解程序从细胞提取核酸。细胞裂解程序和试剂是本领域已知的，并且通常可通过化学(例如，洗涤剂、低渗溶液、酶促程序等等，或它们的组合)、物理(例如，弗氏压碎、声波处理等等)或电解裂解方法来进行。可利用任何适合的裂解程序。例如，化学方法通常采用裂解剂来破坏细胞并从细胞中提取核酸，之后用离液盐处理。还可使用物理方法，诸如冷冻/解冻，之后进行研磨，使用细胞压机等等。在一些情况下，可利用高盐和/或碱裂解程序。在一些情况下，裂解程序可包括利用EDTA/蛋白酶K的裂解步骤、利用大量盐(例如，盐酸胍(GuHCl)、乙酸钠)和异丙醇的结合缓冲液步骤，以及将该溶液中的DNA结合到基于硅石的柱上。在一些情况下，裂解方案包括Dabney等，Proceedings ofthe National Academy of Sciences 110,第39期(2013):15758-15763中所述的某些程序。

在某些实施方案中，核酸可包括细胞外核酸。如本文所用的术语“细胞外核酸”可以是指从基本上没有细胞的来源分离的核酸，并且还被称为“无细胞的”核酸(无细胞的DNA、无细胞的RNA或两者)、“循环的无细胞的核酸”(例如，CCF片段、ccf DNA)和/或“无细胞的循环核酸”。细胞外核酸可存在于血液(例如，来自人受试者的血液)中并从血液(例如，从人受试者的血液)获得。细胞外核酸经常不包括可检测的细胞，并且可含有细胞成分或细胞残留物。用于细胞外核酸的无细胞来源的非限制性示例是血液、血浆、血清和尿液。在某些方面，从选自以下的体液样品获得无细胞的核酸：全血、血浆、血清、羊水、唾液、尿液、胸腔积液、支气管灌洗液、支气管抽吸物、母乳、初乳、泪液、精液、腹膜液、胸腔积液和粪便。如本文所用，术语“获得无细胞的循环样品核酸”包括直接获得样品(例如，收集样品，例如，测试样品)或从已收集样品的另一人获得样品。细胞外核酸可以是细胞分泌和/或核酸释放(例如，DNA释放)的产物。例如，细胞外核酸可以是任何形式的细胞死亡的产物。在一些情况下，细胞外核酸是任何形式的I型或II型细胞死亡的产物，所述死亡包括有丝分裂性细胞死亡、胀亡、毒性细胞死亡、缺血性细胞死亡等等以及它们的组合。不受限于理论，细胞外核酸可以是细胞凋亡和细胞破裂(cell breakdown)的产物，这为经常具有一系列跨谱(例如，“梯”)长度的细胞外核酸提供了基础。在一些情况下，细胞外核酸是细胞坏死、坏死性细胞凋亡、细胞胀亡、细胞侵入性死亡(entosis)、细胞焦亡(pyrotosis)等等以及它们的组合的产物。在一些实施方案中，来自测试受试者的样品核酸是循环的无细胞的核酸。在一些实施方案中，循环的无细胞的核酸来自测试受试者的血浆或血清。在一些方面，无细胞的核酸被降解。在一些实施方案中，无细胞的核酸包括无细胞的胎儿核酸(例如，无细胞的胎儿DNA)。在某些方面，无细胞的核酸包括循环癌核酸(例如，癌DNA)。在某些方面，无细胞的核酸包括循环肿瘤核酸(例如，肿瘤DNA)。在一些实施方案中，无细胞的核酸包括感染原核酸(例如，病原体DNA)。在一些实施方案中，无细胞的核酸包括来自移植物的核酸(例如，DNA)。在一些实施方案中，无细胞的核酸包括来自微生物群系(例如，肠道微生物群系、血液微生物群系、口腔微生物群系、脊髓液微生物群系、粪便微生物群系)的核酸(例如，DNA)。

细胞外核酸可包括不同的核酸种类，因此在某些实施方案中在本文中称为“异源的”。例如，来自患有肿瘤或癌症的人的血清或血浆可包含来自肿瘤细胞或癌细胞(例如，瘤形成)的核酸和来自非肿瘤细胞或非癌细胞的核酸。在另一示例中，来自怀孕雌性的血清或血浆可包含母体核酸和胎儿核酸。在另一示例中，来自患有感染或感染性疾病的患者的血清或血浆可包含宿主核酸和感染原或病原体核酸。在另一示例中，来自已接受移植物的受试者的样品可包括宿主核酸和来自供体器官或组织的核酸。在一些情况下，癌核酸、肿瘤核酸、胎儿核酸、病原体核酸或移植物核酸有时是总核酸的约5％到约50％(例如，总核酸的约4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、21％、22％、23％、24％、25％、26％、27％、28％、29％、30％、31％、32％、33％、34％、35％、36％、37％、38％、39％、40％、41％、42％、43％、44％、45％、46％、47％、48或49％是癌核酸、肿瘤核酸、胎儿核酸、病原体核酸、移植物核酸或微生物群系核酸)。在另一示例中，异源核酸可包括来自两个或更多个受试者的核酸(例如，来自犯罪现场的样品)。

至少两个不同的核酸种类可以不同的量存在于细胞外核酸中，并且有时被称为少数种类和多数种类。在某些情况下，少数种类的核酸来自受影响的细胞类型(例如，癌细胞、消耗性细胞(wasting cell)、受免疫系统攻击的细胞)。在某些实施方案中，确定少数核酸种类的遗传变异或遗传改变(例如，拷贝数改变、拷贝数变异、单核苷酸改变、单核苷酸变异、染色体改变和/或易位)。在某些实施方案中，确定多数核酸种类的遗传变异或遗传改变。通常，不打算在任何方面严格地定义术语“少数”或“多数”。在一个方面，例如，被视为“少数”的核酸可具有样品中总核酸的至少约0.1％到样品中总核酸的小于50％的丰度。在一些实施方案中，少数核酸可具有样品中总核酸的至少约1％到样品中总核酸的约40％的丰度。在一些实施方案中，少数核酸可具有样品中总核酸的至少约2％到样品中总核酸的约30％的丰度。在一些实施方案中，少数核酸可具有样品中总核酸的至少约3％到样品中总核酸的约25％的丰度。例如，少数核酸可具有样品中总核酸的约1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、21％、22％、23％、24％、25％、26％、27％、28％、29％或30％的丰度。在一些情况下，少数种类的细胞外核酸有时为总核酸的约1％到约40％(例如，约1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、21％、22％、23％、24％、25％、26％、27％、28％、29％、30％、31％、32％、33％、34％、35％、36％、37％、38％、39％或40％的核酸是少数种类核酸)。在一些实施方案中，少数核酸是细胞外DNA。在一些实施方案中，少数核酸是来自凋亡组织的细胞外DNA。在一些实施方案中，少数核酸是来自其中一些细胞经历凋亡的组织的细胞外DNA。在一些实施方案中，少数核酸是来自坏死组织的细胞外DNA。在一些实施方案中，少数核酸是来自其中一些细胞经历坏死的组织的细胞外DNA。在某些情况下，坏死可以是指细胞死亡后的死后过程。在一些实施方案中，少数核酸是来自受细胞增殖性病症(例如，癌症)影响的组织的细胞外DNA。在一些实施方案中，少数核酸是来自肿瘤细胞的细胞外DNA。在一些实施方案中，少数核酸是细胞外胎儿DNA。在一些实施方案中，少数核酸是来自病原体的细胞外DNA。在一些实施方案中，少数核酸是来自移植物的细胞外DNA。在一些实施方案中，少数核酸是来自微生物群系的细胞外DNA。

在另一方面，被视为“多数”的核酸例如可具有样品中总核酸的大于50％到样品中总核酸的约99.9％的丰度。在一些实施方案中，多数核酸可具有样品中总核酸的至少约60％到样品中总核酸的约99％的丰度。在一些实施方案中，多数核酸可具有样品中总核酸的至少约70％到样品中总核酸的约98％的丰度。在一些实施方案中，多数核酸可具有样品中总核酸的至少约75％到样品中总核酸的约97％的丰度。例如，多数核酸可具有样品中总核酸的至少约70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的丰度。在一些实施方案中，多数核酸是细胞外DNA。在一些实施方案中，多数核酸是细胞外母体DNA。在一些实施方案中，多数核酸是来自健康组织的DNA。在一些实施方案中，多数核酸是来自非肿瘤细胞的DNA。在一些实施方案中，多数核酸是来自宿主细胞的DNA。

在一些实施方案中，少数种类的细胞外核酸的长度为约500个碱基对或更短(例如，约80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的少数种类核酸的长度为约500个碱基对或更短)。在一些实施方案中，少数种类的细胞外核酸的长度为约300个碱基对或更短(例如，约80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的少数种类核酸的长度为约300个碱基对或更短)。在一些实施方案中，少数种类的细胞外核酸的长度为约250个碱基对或更短(例如，约80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的少数种类核酸的长度为约250个碱基对或更短)。在一些实施方案中，少数种类的细胞外核酸的长度为约200个碱基对或更短(例如，约80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的少数种类核酸的长度为约200个碱基对或更短)。在一些实施方案中，少数种类的细胞外核酸的长度为约150个碱基对或更短(例如，约80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的少数种类核酸的长度为约150个碱基对或更短)。在一些实施方案中，少数种类的细胞外核酸的长度为约100个碱基对或更短(例如，约80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的少数种类核酸的长度为约100个碱基对或更短)。在一些实施方案中，少数种类的细胞外核酸的长度为约50个碱基对或更短(例如，约80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的少数种类核酸的长度为约50个碱基对或更短)。

提供核酸用于在处理或不处理含有核酸的样品的情况下进行本文所述的方法。在一些实施方案中，提供核酸用于在处理含有核酸的样品后进行本文所述的方法。例如，可从样品提取、分离、纯化、部分纯化或扩增核酸。如本文所用的术语“分离”是指从其原有环境(例如，如果天然存在的话，则指天然环境，或如果外源表达的话，则指宿主细胞)移出且因此通过人为干预(例如，“通过人手”)而从其原有环境改变的核酸。如本文所用的术语“分离的核酸”可以是指从受试者(例如，人受试者)移出的核酸。分离的核酸可具有比存在于源样品中的组分的量更少的非核酸组分(例如，蛋白质、脂质)。包含分离的核酸的组合物可以是约50％到大于99％不含非核酸组分。包含分离的核酸的组合物可以是约90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或大于99％不含非核酸组分。如本文所用的术语“纯化”可以是指所提供的核酸，其所含的非核酸组分(例如，蛋白质、脂质、碳水化合物)少于对该核酸进行纯化之前存在的非核酸组分的量。包含纯化核酸的组合物可以是约80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或大于99％不含其他非核酸组分。如本文所用的术语“纯化”可以是指所提供的核酸，其所含的核酸种类少于该核酸所来源的样品源中的核酸种类。包含纯化核酸的组合物可以是约90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或大于99％不含其他核酸种类。例如，可从包含母体核酸和胎儿核酸的混合物纯化胎儿核酸。在某些示例中，可从包含不同长度的核酸片段的混合物纯化或部分纯化核酸的小片段(例如，30到500bp片段)。在某些示例中，可从包含较大核酸片段的较大核小体复合物的混合物纯化包含较小核酸片段的核小体。在某些示例中，可从包含较小核酸片段的核小体纯化包含较大核酸片段的较大核小体复合物。在某些示例中，可从包含胎儿核酸片段和母体核酸片段两者的混合物纯化或部分纯化小片段的胎儿核酸(例如，30到500bp片段)。在某些示例中，可从包含母体核酸的较大片段的较大核小体复合物的混合物纯化包含胎儿核酸的较小片段的核小体。在某些示例中，可从包含癌细胞核酸和非癌细胞核酸的混合物纯化癌细胞核酸。在某些示例中，可从包含非癌核酸的较大片段的较大核小体复合物的混合物纯化包含癌细胞核酸的小片段的核小体。在一些实施方案中，提供核酸用于在不预先处理含有核酸的样品的情况下进行本文所述的方法。例如，可在不预先提取、纯化、部分纯化和/或扩增的情况下直接从样品分析核酸。

可在扩增条件下扩增核酸。如本文所用的术语“扩增的”或“扩增”或“扩增条件”是指使样品中的靶核酸经受线性地或指数地生成扩增子核酸的过程，所述扩增子核酸具有与靶核酸或其部分相同或基本上相同的核苷酸序列。在某些实施方案中，术语“扩增的”或“扩增”或“扩增条件”是指包括聚合酶链式反应(PCR)的方法。在某些情况下，扩增产物可含有比核酸模板序列的经扩增核苷酸区多一个或多个的核苷酸(例如，除了与核酸模板基因分子互补的核苷酸之外，引物还可含有“额外的”核苷酸，诸如转录起始序列，产生含有“额外的”核苷酸或不与核酸模板基因分子的扩增核苷酸区对应的核苷酸的扩增产物)。

在提供用于本文所述方法的核酸之前，还可使核酸暴露于修饰核酸中某些核苷酸的过程。例如，基于其中核苷酸的甲基化状态选择性修饰核酸的方法可应用于核酸。另外，诸如高温、紫外辐射、x辐射的条件可诱导核酸分子序列的变化。核酸可以可用于进行序列分析的任何合适的形式提供。

在一些实施方案中，靶核酸在与本文的寡核苷酸组合之前在长度上未经修饰。在该背景下，“未经修饰”意指从样品分离靶核酸，然后将其与寡核苷酸组合，而不修饰靶核酸的长度。例如，靶核酸不被缩短(例如，它们不与限制酶或核酸酶或减少长度的物理条件(例如，剪切条件、切割条件)接触)并且其在长度上不增加一个或多个核苷酸(例如，末端不在突出端处补平；没有核苷酸被添加到末端)。向靶核酸的一个末端或两个末端添加磷酸酯基或化学反应性基团通常不被视为修饰核酸的长度。

在一些实施方案中，靶核酸的天然末端在与本文的寡核苷酸组合之前在长度上未经修饰。在该背景下，“未经修饰”意指从样品分离靶核酸，然后将其与寡核苷酸组合，而不修饰靶核酸的天然末端的长度。例如，靶核酸不被缩短(例如，它们不与限制酶或核酸酶或减少长度的物理条件(例如，剪切条件、切割条件)接触以生成非天然末端)并且其在长度上不增加一个或多个核苷酸(例如，末端不在突出端处补平；没有核苷酸被添加到天然末端)。向靶核酸的一个或两个天然末端添加磷酸酯基或化学反应性基团通常不被视为修饰核酸的长度。

在一些实施方案中，靶核酸在与本文的寡核苷酸组合之前不与切割剂(例如，内切核酸酶、外切核酸酶、限制酶)和/或聚合酶接触。在一些实施方案中，靶核酸在与本文的寡核苷酸组合之前不经受机械剪切(例如，超声波处理(例如，Covaris的自适应聚焦声波^TM(Adaptive Focused Acoustics^TM)(AFA)方法))。在一些实施方案中，靶核酸在与本文的寡核苷酸组合之前不与外切核酸酶(例如，DNAse)接触。在一些实施方案中，靶核酸在与本文的寡核苷酸组合之前不被扩增。在一些实施方案中，靶核酸在与本文的寡核苷酸组合之前不附接到固体支持物。在一些实施方案中，靶核酸在与本文的寡核苷酸组合之前不与另一分子缀合。在一些实施方案中，靶核酸在与本文的寡核苷酸组合之前不被克隆到载体中。在一些实施方案中，靶核酸在与本文的寡核苷酸组合之前可进行去磷酸化。在一些实施方案中，靶核酸可在与本文的寡核苷酸组合之前可进行磷酸化。

在一些实施方案中，将靶核酸与本文的寡核苷酸组合包括分离靶核酸、以及将分离的靶核酸与本文的寡核苷酸组合。在一些实施方案中，将靶核酸与本文的寡核苷酸组合包括分离靶核酸、将分离的靶核酸磷酸化、以及将磷酸化的靶核酸与本文的寡核苷酸组合。在一些实施方案中，将靶核酸与本文的寡核苷酸组合包括分离靶核酸、将寡核苷酸去磷酸化、以及将分离的靶核酸与本文的去磷酸化的寡核苷酸组合。在一些实施方案中，将靶核酸与本文的寡核苷酸组合包括分离靶核酸、将分离的靶核酸去磷酸化、将去磷酸化的靶核酸磷酸化、以及将磷酸化的靶核酸与本文的寡核苷酸组合。在一些实施方案中，将靶核酸与本文的寡核苷酸组合包括分离靶核酸、将分离的靶核酸去磷酸化、将去磷酸化的靶核酸磷酸化、将寡核苷酸去磷酸化、以及将磷酸化的靶核酸与本文的去磷酸化的寡核苷酸组合。

在一些实施方案中，将靶核酸与本文的寡核苷酸组合由分离靶核酸、以及将分离的靶核酸与本文的寡核苷酸组合组成。在一些实施方案中，将靶核酸与本文的寡核苷酸组合由分离靶核酸、将分离的靶核酸磷酸化、以及将磷酸化的靶核酸与本文的寡核苷酸组合组成。在一些实施方案中，将靶核酸与本文的寡核苷酸组合由以下组成：分离靶核酸、将寡核苷酸去磷酸化、以及将分离的靶核酸与本文的去磷酸化的寡核苷酸组合。在一些实施方案中，将靶核酸与本文的寡核苷酸组合由以下组成：分离靶核酸、将分离的靶核酸去磷酸化、将去磷酸化的靶核酸磷酸化、以及将磷酸化的靶核酸与本文的寡核苷酸组合。在一些实施方案中，将靶核酸与本文的寡核苷酸组合由以下组成：分离靶核酸、将分离的靶核酸去磷酸化、将去磷酸化的靶核酸磷酸化、将寡核苷酸去磷酸化、以及将磷酸化的靶核酸与本文的去磷酸化的寡核苷酸组合。

富集核酸

在一些实施方案中，使核酸(例如，细胞外核酸)富集或相对富集核酸亚群或种类。核酸亚群可包括例如胎儿核酸、母体核酸、癌核酸、肿瘤核酸、患者核酸、宿主核酸、病原体核酸、移植物核酸、微生物群系核酸、包含特定长度或长度范围的片段的核酸、或来自特定基因组区域(例如，单一染色体、染色体组和/或某些染色体区域)的核酸。此类富集的样品可与本文提供的方法结合使用。因此，在某些实施方案中，本技术的方法包括富集样品中的核酸亚群的附加步骤。在某些实施方案中，从样品选择性地(部分、基本上、几乎完全或完全)去除来自正常组织(例如，非癌细胞、宿主细胞)的核酸。在某些实施方案中，从样品选择性地(部分、基本上、几乎完全或完全)去除母体核酸。在某些实施方案中，富集特定低拷贝数种类核酸(例如，癌核酸、肿瘤核酸、胎儿核酸、病原体核酸、移植物核酸、微生物群系核酸)可改善定量灵敏度。用于使样品富集特定种类的核酸的方法描述于例如美国专利号6,927,028、国际专利申请公开号WO2007/140417、国际专利申请公开号WO2007/147063、国际专利申请公开号WO2009/032779、国际专利申请公开号WO2009/032781、国际专利申请公开号WO2010/033639、国际专利申请公开号WO2011/034631、国际专利申请公开号WO2006/056480和国际专利申请公开号WO2011/143659中，这些专利的全部内容均以引用方式并入本文，包括所有文本、表格、等式和附图。

在一些实施方案中，使核酸富集某些靶片段种类和/或参考片段种类。在某些实施方案中，使用一种或多种下述基于长度的分离方法，使核酸富集特定核酸片段长度或片段长度范围。在某些实施方案中，使用一种或多种本文所述和/或本领域已知的基于序列的分离方法，使核酸富集来自选定基因组区域(例如，染色体)的片段。

用于富集样品中的核酸亚群的方法的非限制性示例包括利用核酸种类之间的表观遗传差异的方法(例如，美国专利申请公开号2010/0105049中所述的基于甲基化的胎儿核酸富集方法，该公开以引用方式并入本文)；限制性内切核酸酶增强的多态性序列方法(例如，诸如美国专利申请公开号2009/0317818中所述的方法，该公开以引用方式并入本文)；选择性酶促降解方法；大规模平行信号测序(massively parallel signaturesequencing，MPSS)方法；基于扩增(例如，PCR)的方法(例如，基因座特异性扩增方法、多重SNP等位基因PCR方法；通用扩增方法)；拉下(pull-down)方法(例如，生物素化超聚体(ultramer)拉下方法)；基于延伸和连接的方法(例如，分子倒置探针(MIP)延伸和连接)；以及它们的组合。

在一些实施方案中，使用一种或多种本文所述的基于序列的分离方法使核酸富集来自选定基因组区域(例如，染色体)的片段。基于序列的分离通常基于存在于目标片段(例如，靶片段和/或参考片段)中并且基本上不存在于样品的其他片段中或存在其他片段中非实质量(例如，5％或更少)的核苷酸序列。在一些实施方案中，基于序列的分离可生成分离的靶片段和/或分离的参考片段。分离的靶片段和/或分离的参考片段经常与核酸样品中的剩余片段分离开。在某些实施方案中，将分离的靶片段和分离的参考片段也彼此分离开(例如，在单独的测定隔室中分离)。在某些实施方案中，将分离的靶片段和分离的参照片段一起分离(例如，在相同的测定隔室中分离)。在一些实施方案中，未结合的片段可被有差别地去除或降解或消化。

在一些实施方案中，使用选择性核酸捕获方法将靶片段和/或参考片段与核酸样品分离开。市售核酸捕获系统包括例如Nimblegen序列捕获系统(Roche NimbleGen,Madison,WI)；Illumina BEADARRAY平台(Illumina,San Diego,CA)；Affymetrix GENECHIP平台(Affymetrix,Santa Clara,CA)；Agilent SureSelect靶标富集系统(AgilentTechnologies,Santa Clara,CA)；以及相关平台。此类方法通常涉及捕获寡核苷酸与靶片段或参考片段的部分或全部核苷酸序列的杂交，并且可包括使用固相(例如，固相阵列)和/或基于溶液的平台。捕获寡核苷酸(有时称为“诱饵”)可被选择或设计成使得它们优先与来自所选基因组区域或基因座的核酸片段、或核酸靶标中的特定序列杂交。在某些实施方案中，基于杂交的方法(例如，使用寡核苷酸阵列)可用于富集含有某些核酸序列的片段。因此，在一些实施方案中，核酸样品任选地通过使用与例如样品核酸中的所选序列互补的捕获寡核苷酸来捕获片段的亚组来富集。在某些情况下，扩增捕获的片段。例如，可使用与接头寡核苷酸互补的引物扩增含有接头的捕获片段，以形成扩增片段的集合，根据接头序列加以索引。在一些实施方案中，通过使用与含有目标区域或其部分的片段中的序列互补的寡核苷酸(例如，PCR引物)扩增一个或多个目标区域，使核酸富集来自选定基因组区域(例如，染色体、基因)的片段。

在一些实施方案中，使用一种或多种基于长度的分离方法使核酸富集特定核酸片段长度、长度范围或低于或超过特定阈值或截止值的长度。核酸片段长度通常是指片段中的核苷酸数目。核酸片段长度有时还被称为核酸片段大小。在一些实施方案中，进行基于长度的分离方法而不测量单个片段的长度。在一些实施方案中，基于长度的分离方法与用于确定单个片段的长度的方法结合进行。在一些实施方案中，基于长度的分离是指大小分级分离程序，其中可分离(例如，保留)和/或分析经分级分离库的全部或部分。大小分级分离程序是本领域已知的(例如，在阵列上分离、通过分子筛分离、通过凝胶电泳分离、通过柱色谱(例如，大小排阻柱)分离和基于微流体学的方法)。在某些情况下，基于长度的分离方法可包括例如选择性序列加标签方法、片段环化、化学处理(例如，甲醛、聚乙二醇(PEG)沉淀)、质谱和/或大小特异性核酸扩增。

在一些方面，方法包括富集靶核酸的种类。例如，本文的方法可包括富集具有特定突出端特征(例如，长度、类型(5'、3')、序列)的靶核酸的种类。可根据特定的突出端识别序列来实现对具有特定突出端特征的靶核酸种类的富集。例如，与本文所述的寡核苷酸复合的某些靶核酸可根据特定突出端识别序列(例如，根据该序列，或根据突出端识别序列的另一特征(例如，修饰))与靶核酸的其余部分分离。在一些实施方案中，方法包括将复合物(与本文的寡核苷酸接合的靶核酸)与特异性杂交到特定突出端识别序列的一种或多种结合剂缔合，由此生成富集的复合物。对于术语“特异性杂交”，特异性的或特异性通常是指一个分子与另一分子(例如，多核苷酸链与互补链)的结合或杂交。即，特异性的或特异性是指两个分子之间的识别、接触和稳定复合物的形成实质高于这两个分子中的任一个与其他分子的识别、接触或复合物形成。术语杂交通常是指在两个分子之间形成稳定的复合物。

在一些方面，与特定突出端识别序列互补的多核苷酸包含结合对的成员。在一些方面，特定突出端识别序列中的一个或多个核苷酸(例如，一个或多个修饰的核苷酸)包含结合对的成员。结合对可包括例如抗体/抗原、抗体/抗体、抗体/抗体片段、抗体/抗体受体、抗体/蛋白质A或蛋白质G、半抗原/抗半抗原、生物素/抗生物素蛋白、生物素/抗生蛋白链菌素、叶酸/叶酸结合蛋白质、维生素B12/内因子、化学反应基团/互补化学反应基团、地高辛配基部分/抗地高辛配基抗体、荧光素部分/抗荧光素抗体、类固醇/类固醇结合蛋白质、操纵子/阻遏物、核酸酶/核苷酸、凝集素/多糖、活性化合物/活性化合物受体、激素/激素受体、酶/底物、寡核苷酸或多核苷酸/其相应的补体等等或它们的组合。

在一些实施方案中，与特定突出端识别序列特异性杂交的一种或多种结合剂可附接到固体支持物(例如，珠粒或本文所述或本领域已知的任何适合的固体支持物)。随后可根据用于分离生物分子的任何适合方法(例如，拉下测定、使用固体支持物等等)来实现对具有特定种类的突出端的靶核酸的富集。

基于长度的分离

在一些实施方案中，本文的方法包括根据片段长度分离靶核酸。例如，可使用一种或多种基于长度的分离方法使靶核酸富集特定核酸片段长度、长度范围或低于或超过特定阈值或截止值的长度。核酸片段长度通常是指片段中的核苷酸数目。核酸片段长度还可被称为核酸片段大小。在一些实施方案中，进行基于长度的分离方法而不测量单个片段的长度。在一些实施方案中，基于长度的分离方法与用于确定单个片段的长度的方法结合进行。在一些实施方案中，基于长度的分离是指大小分级分离程序，其中可分离(例如，保留)和/或分析经分级分离库的全部或部分。大小分级分离程序是本领域已知的(例如，在阵列上分离、通过分子筛分离、通过凝胶电泳分离、通过柱色谱(例如，大小排阻柱)分离和基于微流体学的方法)。在一些实施方案中，基于长度的分离方法可包括例如片段环化、化学处理(例如，甲醛、聚乙二醇(PEG))、质谱和/或大小特异性核酸扩增。在一些实施方案中，使用固相可逆固定(SPRI)珠粒进行基于长度的分离。

在一些实施方案中，从样品分离一定长度、长度范围或低于或超过特定阈值或截止值的长度的核酸片段。在一些实施方案中，将具有低于特定阈值或截止值(例如，500bp、400bp、300bp、200bp、150bp、100bp)的长度的片段称为“短”片段，并且将具有高于特定阈值或截止值(例如，500bp、600bp、700bp、800bp、900bp、1000bp)的长度的片段称为“长”片段、大片段和/或高分子量(HMW)片段。在一些实施方案中，保留一定长度、长度范围或低于或超过特定阈值或截止值的长度的片段用于分析，而不保留不同长度或长度范围或高于或低于所述阈值或截止值的长度的片段用于分析。在一些实施方案中，保留小于约500bp的片段。在一些实施方案中，保留小于约400bp的片段。在一些实施方案中，保留小于约300bp的片段。在一些实施方案中，保留小于约200bp的片段。在一些实施方案中，保留小于约150bp的片段。例如，保留小于约190bp、180bp、170bp、160bp、150bp、140bp、130bp、120bp、110bp或100bp的片段。在一些实施方案中，保留约100bp到约200bp的片段。例如，保留约190bp、180bp、170bp、160bp、150bp、140bp、130bp、120bp或110bp的片段。在一些实施方案中，保留约100bp到约200bp范围内的片段。例如，保留约110bp到约190bp、130bp到约180bp、140bp到约170bp、140bp到约150bp、150bp到约160bp、或145bp到约155bp范围内的片段。

在一些实施方案中，将具有小于约1000bp的片段长度的靶核酸与本文所述的多个寡核苷酸种类或寡核苷酸种类库组合。在一些实施方案中，将具有小于约500bp的片段长度的靶核酸与本文所述的多个寡核苷酸种类或寡核苷酸种类库组合。在一些实施方案中，将具有小于约400bp的片段长度的靶核酸与本文所述的多个寡核苷酸种类或寡核苷酸种类库组合。在一些实施方案中，将具有小于约300bp的片段长度的靶核酸与本文所述的多个寡核苷酸种类或寡核苷酸种类库组合。在一些实施方案中，将具有小于约200bp的片段长度的靶核酸与本文所述的多个寡核苷酸种类或寡核苷酸种类库组合。在一些实施方案中，将具有小于约100bp的片段长度的靶核酸与本文所述的多个寡核苷酸种类或寡核苷酸种类库组合。

在一些实施方案中，将具有约100bp或更长的片段长度的靶核酸与本文所述的多个寡核苷酸种类或寡核苷酸种类库组合。在一些实施方案中，将具有约200bp或更长的片段长度的靶核酸与本文所述的多个寡核苷酸种类或寡核苷酸种类库组合。在一些实施方案中，将具有约300bp或更长的片段长度的靶核酸与本文所述的多个寡核苷酸种类或寡核苷酸种类库组合。在一些实施方案中，将具有约400bp或更长的片段长度的靶核酸与本文所述的多个寡核苷酸种类或寡核苷酸种类库组合。在一些实施方案中，将具有约500bp或更长的片段长度的靶核酸与本文所述的多个寡核苷酸种类或寡核苷酸种类库组合。在一些实施方案中，将具有约1000bp或更长的片段长度的靶核酸与本文所述的多个寡核苷酸种类或寡核苷酸种类库组合。

在一些实施方案中，将具有任何片段长度或片段长度的任何组合的靶核酸与本文所述的多个寡核苷酸种类或寡核苷酸种类库组合。例如，可将具有小于500bp的片段长度和500bp或更长的片段长度的靶核酸与本文所述的多个寡核苷酸种类或寡核苷酸种类库组合。

例如，可与本文所述方法一起使用的某些基于长度的分离方法采用选择性序列加标签方法。在此类方法中，片段大小种类(例如，短片段)核酸在包括长核酸和短核酸的样品中被选择性加标签。此类方法通常涉及使用一组嵌套引物进行核酸扩增反应，所述嵌套引物包括内部引物和外部引物。在一些实施方案中，可将一个或两个内部引物加标签，由此将标签引入到靶扩增产物上。外部引物通常不与携带(内部)靶序列的短片段退火。内部引物可与短片段退火，并且生成携带标签和靶序列的扩增产物。通常，通过多种机制的组合来抑制长片段的加标签，所述机制包括例如通过外部引物的预先退火和延伸来阻断内部引物的延伸。可通过多种方法中的任一种来实现对加标签片段的富集，所述方法包括例如单链核酸的外切核酸酶消化以及使用对至少一种标签特异的扩增引物扩增加标签片段。

可与本文所述方法一起使用的另一种基于长度的分离方法涉及使核酸样品经受聚乙二醇(PEG)沉淀。方法的示例包括在国际专利申请公开号WO2007/140417和WO2010/115016中所述的那些。该方法通常需要在足以基本上使大核酸沉淀而基本上不使小(例如，少于300个核苷酸)核酸沉淀的条件下，在一种或多种单价盐存在下，使核酸样品与PEG接触。

可与本文所述方法一起使用的另一种基于长度的富集方法涉及通过连接环化，例如使用环化连接酶(circligase)。短核酸片段通常可以比长片段更高的效率被环化。非环化序列可与环化序列分离，并且富集的短片段可用于进一步分析。

核酸文库

本文的方法可包括制备核酸文库和/或修饰核酸文库的核酸。在一些实施方案中，修饰核酸片段的末端，使得所述片段或其扩增产物可并入核酸文库中。通常，核酸文库是指为特定过程制备、组装和/或修饰的多个多核苷酸分子(例如，核酸样品)，所述过程的非限制性示例包括固定在固相(例如，固体支持物、流动池、珠粒)上、富集、扩增、克隆、检测和/或用于核酸测序。在某些实施方案中，在测序过程之前或期间制备核酸文库。可通过如本领域已知的适合方法制备核酸文库(例如，测序文库)。可通过靶向或非靶向制备方法制备核酸文库。

在一些实施方案中，核酸文库被修饰以包含被配置用于将核酸固定到固体支持物的化学部分(例如，官能团)。在一些实施方案中，核酸文库被修饰以包含被配置用于将文库固定到固体支持物的生物分子(例如，官能团)和/或结合对成员，所述生物分子和/或结合对成员的非限制性示例包括甲状腺素结合球蛋白、类固醇结合蛋白质、抗体、抗原、半抗原、酶、凝集素、核酸、阻遏物、蛋白质A、蛋白质G、抗生物素蛋白、抗生蛋白链菌素、生物素、补体组分C1q、核酸结合蛋白质、受体、碳水化合物、寡核苷酸、多核苷酸、互补核酸序列等等以及它们的组合。特异性结合对的一些示例包括但不限于：抗生物素蛋白部分和生物素部分；抗原表位和抗体或其免疫反应性片段；抗体和半抗原；地高辛配基部分和抗地高辛配基抗体；荧光素部分和抗荧光素抗体；操纵子和阻遏物；核酸酶和核苷酸；凝集素和多糖；类固醇和类固醇结合蛋白质；活性化合物和活性化合物受体；激素和激素受体；酶和底物；免疫球蛋白和蛋白质A；寡核苷酸或多核苷酸和其相应的互补物；诸如此类或它们的组合。

在一些实施方案中，核酸文库被修饰以包含已知组成的一种或多种多核苷酸，所述核苷酸的非限制性示例包括标识符(例如，标签、索引标签)、捕获序列、标记物、接头、限制酶位点、启动子、增强子、复制起点、茎环、互补序列(例如，引物结合位点、退火位点)、适合的整合位点(例如，转座子、病毒整合位点)、修饰的核苷酸、本文所述的突出端识别序列(即，唯一末端标识符(UEI))、本文所述的唯一分子标识符(UMI)、本文所述的回文序列等等或它们的组合。可在适合的位置，例如在5′末端、3′末端上或在核酸序列内，添加已知序列的多核苷酸。已知序列的多核苷酸可以是相同或不同的序列。在一些实施方案中，已知序列的多核苷酸被配置成与固定在表面(例如，流动池中的表面)上的一种或多种寡核苷酸杂交。例如，包含5′已知序列的核酸分子可与第一多个寡核苷酸杂交，而3′已知序列可与第二多个寡核苷酸杂交。在一些实施方案中，核酸文库可包含染色体特异性标签、捕获序列、标记物和/或接头(例如，本文所述的寡核苷酸接头)。在一些实施方案中，核酸文库包含一种或多种可检测标记物。在一些实施方案中，可将一种或多种可检测标记物在5′末端、3′末端和/或文库中核酸内的任何核苷酸位置处并入核酸文库中。在一些实施方案中，核酸文库包含杂交的寡核苷酸。在某些实施方案中，杂交的寡核苷酸是标记的探针。在一些实施方案中，核酸文库在固定于固相上之前包含杂交的寡核苷酸探针。

在一些实施方案中，已知序列的多核苷酸包括通用序列。通用序列是整合到两个或多个核酸分子或两个或更多个核酸分子亚组中的特定核苷酸序列，其中通用序列对于其所整合到其中的所有分子或分子亚组是相同的。通用序列经常被设计成使用与通用序列互补的单一通用引物与多个不同序列杂交和/或扩增多个不同序列。在一些实施方案中，使用两个(例如，一对)或更多个通用序列和/或通用引物。通用引物经常包含通用序列。在一些实施方案中，接头(例如，通用接头)包含通用序列。在一些实施方案中，使用一个或多个通用序列来捕获、鉴别和/或检测多个核酸种类或亚组。

在制备核酸文库的某些实施方案中(例如，在通过合成程序的某些测序中)，核酸被进行大小选择和/或片段化为数百个碱基对或更短的长度(例如，在用于文库生成的制备中)。在一些实施方案中，在不进行片段化的情况下(例如，当使用无细胞的DNA时)进行文库制备。

在某些实施方案中，使用基于连接的文库制备方法(例如，ILLUMINA TRUSEQ,Illumina,San Diego CA)。基于连接的文库制备方法经常利用接头(例如，甲基化接头)设计，该设计可在初始连接步骤并入索引序列(例如，样品索引序列，以鉴别核酸序列的样品来源)，并且经常可用于制备用于单读段测序、末端配对测序和多重测序的样品。例如，核酸(例如，片段化的核酸或无细胞的DNA)可通过补平反应、外切核酸酶反应或其组合进行末端修复。在一些实施方案中，然后，可使所得的平端修复的核酸延伸单个核苷酸，所述核苷酸与接头/引物的3'末端上的单个核苷酸突出端互补。任何核苷酸均可用于延伸/突出端核苷酸。在一些实施方案中，省略末端修复，并且将接头寡核苷酸(例如，本文所述的寡核苷酸)直接连接到核酸(例如，片段化的核酸或无细胞的DNA)的天然末端。

在一些实施方案中，核酸文库制备包括连接接头寡核苷酸(例如，至样品核酸，至样品核酸片段，至模板核酸，至靶核酸)，诸如本文所述的接头寡核苷酸。接头寡核苷酸经常与流动池锚定物互补，并且有时用于将核酸文库固定到固体支持物，诸如例如流动池的内部表面。在一些实施方案中，接头寡核苷酸包含标识符、一个或多个测序引物杂交位点(例如，与通用测序引物、单末端测序引物、配对末端测序引物、多重测序引物等等互补的序列)或它们的组合(例如，接头/测序、接头/标识符/测序)。在一些实施方案中，接头寡核苷酸包含以下中的一种或多种：引物退火多核苷酸(在本文中还被称为引发序列或引物结合结构域)(例如，用于与流动池附接的寡核苷酸和/或游离扩增引物退火)、索引多核苷酸(例如，用于追踪来自不同样品的核酸的样品索引序列；还被称为样品ID)、突出端识别序列(在本文中还被称为唯一末端标识符(UEI))条形码多核苷酸(例如，用于追踪在测序之前扩增的样品核酸的个别分子的单一分子条形码(SMB)；还被称为分子条形码或唯一分子标识符(UMI))。在一些实施方案中，接头寡核苷酸的引物退火组分(或引发序列或引物结合结构域)包含一个或多个通用序列(例如，与一个或多个通用扩增引物互补的序列)。在一些实施方案中，索引多核苷酸(例如，样品索引；样品ID)是接头寡核苷酸的组分。在一些实施方案中，索引多核苷酸(例如，样品索引；样品ID)是通用扩增引物序列的组分。

在一些实施方案中，当与扩增引物(例如，通用扩增引物)组合使用时，接头寡核苷酸被设计成生成文库构建体，所述文库构建体包含以下中的一种或多种：通用序列、分子条形码、样品ID序列、间隔物序列和样品核酸序列。在一些实施方案中，当与通用扩增引物组合使用时，接头寡核苷酸被设计成生成文库构建体，所述文库构建体包含以下中的一种或多种的有序组合：通用序列、分子条形码、样品ID序列、间隔物序列和样品核酸序列。例如，文库构建体可包含第一通用序列，之后是第二通用序列，之后是第一分子条形码，之后是间隔物序列，之后是模板序列(例如，样品核酸序列)，之后是间隔物序列，之后是第二分子条形码，之后是第三通用序列，之后是样品ID，之后是第四通用序列。在一些实施方案中，当与扩增引物(例如，通用扩增引物)组合使用时，接头寡核苷酸被设计成生成用于每条模板分子(例如，样品核酸分子)链的文库构建体。在一些实施方案中，接头寡核苷酸是双链体接头寡核苷酸。

标识符可以是并入或附接到核酸(例如，多核苷酸)的适合的可检测标记物，其允许检测和/或鉴别包含所述标识符的核酸。在一些实施方案中，在测序方法期间(例如，通过聚合酶)将标识符并入核酸中或附接到核酸。标识符的非限制性示例包括核酸标签、核酸索引或条形码、放射性标记物(例如，同位素)、金属标记物、荧光标记物、化学发光标记物、发磷光标记物、荧光团猝灭剂、染料、蛋白质(例如，酶、抗体或其部分、连接物、结合对的成员)等等或它们的组合。在一些实施方案中，标识符(例如，核酸索引或条形码)是核苷酸或核苷酸类似物的唯一的、已知的和/或可识别的序列。在一些实施方案中，标识符是六个或更多个连续核苷酸。可利用具有各种不同激发谱和发射谱的大量荧光团。任何适合类型和/或数目的荧光团均可用作标识符。在一些实施方案中，在本文所述的方法(例如，核酸检测和/或测序方法)中利用1种或更多种、2种或更多种、3种或更多种、4种或更多种、5种或更多种、6种或更多种、7种或更多种、8种或更多种、9种或更多种、10种或更多种、20种或更多种、30种或更多种或50种或更多种不同的标识符。在一些实施方案中，将一种或两种类型的标识符(例如，荧光标记物)与文库中的每个核酸连接。标识符的检测和/或定量可通过适合的方法、设备或机器进行，所述方法、设备或机器的非限制性示例包括流式细胞术、定量聚合酶链式反应(qPCR)、凝胶电泳、发光计、荧光计、分光光度计、适合的基因芯片或微阵列分析、蛋白质印迹、质谱、色谱、细胞荧光分析、荧光显微镜术、适合的荧光或数字成像方法、共焦激光扫描显微镜术、激光扫描细胞计量术、亲和色谱、手动分批模式分离、电场悬浮、适合的核酸测序方法和/或核酸测序设备等等以及它们的组合。

在一些实施方案中，在扩增条件下扩增(例如，通过基于PCR的方法扩增)核酸文库或其部分。在一些实施方案中，测序方法包括核酸文库的扩增。核酸文库可在固定于固体支持物(例如，流动池中的固体支持物)上之前或之后被扩增。核酸扩增包括通过产生所存在(例如，在核酸文库中)的核酸模板和/或其互补物的一个或多个拷贝来扩增或增加所述核酸模板和/或其互补物的数目的过程。可通过适当的方法进行扩增。可通过热循环法或通过等温扩增法扩增核酸文库。在一些实施方案中，使用滚环扩增方法。在一些实施方案中，扩增在固定有核酸文库或其部分的固体支持物(例如，在流动池内)上进行。在某些测序方法中，将核酸文库添加到流动池中，并且通过在适合的条件下与锚定物杂交而固定。这种类型的核酸扩增经常被称为固相扩增。在固相扩增的一些实施方案中，通过从固定化引物起始的延伸来合成全部或部分的扩增产物。除了至少一种扩增寡核苷酸(例如，引物)被固定在固体支持物上之外，固相扩增反应类似于标准的溶液相扩增。在一些实施方案中，扩增修饰的核酸(例如，通过添加接头而修饰的核酸)。

在一些实施方案中，固相扩增包括核酸扩增反应，所述核酸扩增反应仅包括一种固定到表面的寡核苷酸引物。在某些实施方案中，固相扩增包括多个不同的固定化寡核苷酸引物种类。在一些实施方案中，固相扩增可包括核酸扩增反应，所述核酸扩增反应包括固定在固体表面上的一种寡核苷酸引物以及于溶液中的第二种不同的寡核苷酸引物。可使用多种不同种类的固定化引物或基于溶液的引物。固相核酸扩增反应的非限制性示例包括界面扩增、桥式扩增、乳液PCR、WildFire扩增(例如，美国专利申请公开号2013/0012399)等等或它们的组合。

核酸测序

在一些实施方案中，对核酸(例如，核酸片段、样品核酸、无细胞的核酸)测序。在一些实施方案中，通过测序过程对与本文提供的寡核苷酸杂交的核酸靶标(“杂交产物”)进行测序。在一些实施方案中，通过扩增过程扩增杂交产物，并且通过测序过程对扩增产物进行测序。在一些实施方案中，测序过程生成序列读段(或测序读段)。在一些实施方案中，本文的方法包括基于序列读段确定靶核酸的突出端的序列。在一些实施方案中，本文的方法包括基于序列读段确定突出端识别序列或唯一末端标识符(UEI)的序列。在一些实施方案中，本文的方法包括基于序列读段确定元件的序列，所述元件包括突出端识别序列或唯一末端标识符(UEI)和靶核酸的突出端。在一些实施方案中，本文的方法包括基于序列读段确定元件的序列，所述元件由突出端识别序列或唯一末端标识符(UEI)和靶核酸的突出端组成。在一些实施方案中，本文的方法包括根据序列读段确定靶核酸的突出端的长度。

对于某些测序平台(例如，末端配对测序)，生成序列读段可包括生成正向序列读段和生成反向序列读段。例如，使用某些末端配对测序平台的测序从两个方向对每个核酸片段进行测序，通常每个核酸片段产生两个读段，第一读段处于正向取向(正向读段)并且第二读段处于反向互补取向(反向读段)。对于某些平台，从测序接头内的特定引物(例如，Illumina接头，P5引物)生成正向读段，并且从测序接头内的不同引物(例如，Illumina接头，P7引物)生成反向读段。

在一些实施方案中，本文的方法包括分析(例如，定量、处理)序列读段的亚组。在一些实施方案中，本文的方法包括分析(例如，定量、处理)序列读段的亚组以及从分析中省略序列读段的另一亚组。在一些实施方案中，本文的方法包括分析或处理序列读段亚组的突出端信息。在一些实施方案中，本文的方法包括分析(例如，定量、处理)反向序列读段。在一些实施方案中，本文的方法包括分析或处理反向序列读段的突出端信息。在一些实施方案中，本文的方法包括分析或处理与反向序列读段的突出端识别序列相关的突出端信息。在一些实施方案中，本文的方法包括分析(例如，定量、处理)P7序列读段。在一些实施方案中，本文的方法包括分析(例如，定量、处理)从P7序列读段生成的突出端信息。在一些实施方案中，本文的方法包括分析(例如，定量、处理)与从P7序列读段生成的突出端识别序列相关的突出端信息。

在一些实施方案中，本文的方法包括从分析中省略正向序列读段。在一些实施方案中，本文的方法包括从分析中省略从正向序列读段生成的突出端信息。在一些实施方案中，本文的方法包括从分析中省略与从正向序列读段生成的突出端识别序列相关的突出端信息。在一些实施方案中，本文的方法包括从分析中省略P5序列读段。在一些实施方案中，本文的方法包括从分析中省略从P5序列读段生成的突出端信息。在一些实施方案中，本文的方法包括从分析中省略与从P5序列读段生成的突出端识别序列相关的突出端信息。

在一些实施方案中，不完全排除作为整体的正向读段。例如，可忽略正向读段的突出端识别序列，因此从突出端分析中排除从正向读段突出端识别序列推断的突出端；并仅分析来自反向读段的突出端。在此类情况下，可在分析中包括正向读段的其他方面，例如，以推断片段长度，确定GC含量，鉴别单核苷酸变体或鉴别平端。

在一些实施方案中，本文的方法包括分析或处理与指示反向序列读段没有突出端(即，平端)的突出端识别序列相关的突出端信息。在一些实施方案中，本文的方法包括分析或处理与指示正向序列读段没有突出端(即，平端)的突出端识别序列相关的突出端信息。在一些实施方案中，本文的方法包括分析或处理与指示正向序列读段和反向序列读段没有突出端(即，平端)的突出端识别序列相关的突出端信息。因此，在一些实施方案中，在突出端识别序列指示没有突出端(即，平端)的情况下，不从分析中省略关于平端的信息。

在一些实施方案中，本文的方法包括分析或处理与指示正向序列读和反向序列读段没有突出端(即，平端)的突出端识别序列相关的突出端信息，分析或处理与指示反向序列读段存在突出端的突出端识别序列相关的突出端信息，以及从分析中省略与指示正向序列读段存在突出端的突出端识别序列相关的突出端信息。因此，核酸末端(例如，天然核酸末端)的分析可包括分析由正向序列读段和反向序列读段两者生成的核酸末端平端信息，以及仅由反向读段生成的核酸突出端信息。

可使用任何适合的测序平台对核酸进行测序，所述测序平台包括Sanger测序平台、高通量或大规模平行测序(下一代测序(NGS))平台等等，诸如例如，由

提供的测序平台(例如，HiSeq^TM、MiSeq^TM和/或Genome Analyzer^TM测序系统)；Oxford Nanopore^TMTechnologies(例如，MinION测序系统)、Ion Torrent^TM(例如，Ion PGM^TM和/或Ion Proton^TM测序系统)；Pacific Biosciences(例如，PACBIO RS II测序系统)；Life Technologies^TM(例如，SOLiD测序系统)；Roche(例如，454GS FLX+和/或GS Junior测序系统)；或任何其他适合的测序平台。在一些实施方案中，测序过程是高度多重的测序过程。在某些情况下，获得完整或基本上完整的序列，并且有时获得部分序列。核酸测序通常产生序列读段的集合。如本文所用，“读段”(例如，“读段”、“序列读段”)是通过本文所述的或本领域已知的任何测序过程产生的短核苷酸序列。读段可从核酸片段的一个末端生成(单末端读段)，并且有时从核酸片段的两个末端生成(例如，末端配对读段、双末端读段)。在一些实施方案中，测序过程生成短测序读段或“短读段”。在一些实施方案中，短读段的标称长度、平均长度、均值长度或绝对长度有时为约10个连续核苷酸到约250个或更多个连续核苷酸。在一些实施方案中，短读段的标称长度、平均长度、均值长度或绝对长度有时为约50个连续核苷酸到约150个或更多个连续核苷酸。

序列读段的长度经常与所用的特定测序技术相关。例如，高通量方法提供大小可从数十到数百碱基对(bp)变化的序列读段。例如，纳米孔测序可提供大小可从数十到数百到数千碱基对变化的序列读段。在一些实施方案中，序列读段具有约15bp到约900bp长的均值长度、中值长度、平均长度或绝对长度。在某些实施方案中，序列读段具有约1000bp或更大的均值长度、中值长度、平均长度或绝对长度。在一些实施方案中，序列读段具有约1500bp、2000bp、2500bp、3000bp、3500bp、4000bp、4500bp或5000bp或更长的均值长度、中值长度、平均长度或绝对长度。在一些实施方案中，序列读段具有约100bp到约200bp的均值长度、中值长度、平均长度或绝对长度。

在一些实施方案中，单末端读段的标称长度、平均长度、均值长度或绝对长度有时为约10个连续核苷酸到约250个或更多个连续核苷酸、约15个连续核苷酸到约200个或更多个连续核苷酸、约15个连续核苷酸到约150个或更多个连续核苷酸、约15个连续核苷酸到约125个或更多个连续核苷酸、约15个连续核苷酸到约100个或更多个连续核苷酸、约15个连续核苷酸到约75个或更多个连续核苷酸、约15个连续核苷酸到约60个或更多个连续核苷酸、15个连续核苷酸到约50个或更多个连续核苷酸、约15个连续核苷酸到约40个或更多个连续核苷酸，并且有时为约15个连续核苷酸或约36个或更多个连续核苷酸。在某些实施方案中，单末端读段的标称长度、平均长度、均值长度或绝对长度为约20到约30个碱基、或约24到约28个碱基的长度。在某些实施方案中，单末端读段的标称长度、平均长度、均值长度或绝对长度为约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、21个、22个、23个、24个、25个、26个、27个、28个或约29个碱基或更长的长度。在某些实施方案中，单末端读段的标称长度、平均长度、均值长度或绝对长度为约20到约200个碱基、约100到约200个碱基、或约140到约160个碱基的长度。在某些实施方案中，单末端读段的标称长度、平均长度、均值长度或绝对长度为约30个、40个、50个、60个、70个、80个、90个、100个、110个、120个、130个、140个、150个、160个、170个、180个、190个或约200个碱基或更长的长度。在某些实施方案中，末端配对读段的标称长度、平均长度、均值长度或绝对长度有时为约10个连续核苷酸到约25个连续核苷酸或更多(例如，长度为约10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个或25个核苷酸或更多)、约15个连续核苷酸到约20个连续核苷酸或更多，并且有时为约17个连续核苷酸或约18个连续核苷酸。在某些实施方案中，末端配对读段的标称长度、平均长度、均值长度或绝对长度有时为约25个连续核苷酸到约400个连续核苷酸或更长(例如，长度为约25个、30个、40个、50个、60个、70个、80个、90个、100个、110个、120个、130个、140个、150个、160个、170个、180个、190个、200个、210个、220个、230个、240个、250个、260个、270个、280个、290个、300个、310个、320个、330个、340个、350个、360个、370个、380个、390个或400个核苷酸或更长)、约50个连续核苷酸到约350个连续核苷酸或更多、约100个连续核苷酸到约325个连续核苷酸、约150个连续核苷酸到约325个连续核苷酸、约200个连续核苷酸到约325个连续核苷酸、约275个连续核苷酸到约310个连续核苷酸、约100个连续核苷酸到约200个连续核苷酸、约100个连续核苷酸到约175个连续核苷酸、约125个连续核苷酸到约175个连续核苷酸，并且有时为约140个连续核苷酸到约160个连续核苷酸。在某些实施方案中，末端配对读段的标称长度、平均长度、均值长度或绝对长度为约150个连续核苷酸，并且有时为150个连续核苷酸。

读段通常是物理核酸中的核苷酸序列的表示。例如，在含有序列的ATGC描述的读段中，在物理核酸中，“A”表示腺嘌呤核苷酸，“T”表示胸腺嘧啶核苷酸，“G”表示鸟嘌呤核苷酸并且“C”表示胞嘧啶核苷酸。从来自受试者的样品获得的序列读段可以是来自少数核酸和多数核酸的混合物的读段。例如，从癌症患者的血液获得的序列读段可以是来自癌核酸和非癌核酸的混合物的读段。在另一示例中，从怀孕雌性的血液获得的序列读段可以是来自胎儿核酸和母体核酸的混合物的读段。在另一示例中，从患有感染或感染性疾病的患者的血液获得的序列读段可以是来自宿主核酸和病原体核酸的混合物的读段。在另一示例中，从移植物接受者的血液获得的序列读段可以是来自宿主核酸和移植物核酸的混合物的读段。在另一示例中，从样品获得的序列读段可以是来自核酸混合物的读段，所述核酸来自总体包括受试者中的微生物群系(例如，肠道微生物群系、血液微生物群系、口腔微生物群系、脊髓液微生物群系、粪便微生物群系)的微生物。在另一示例中，从样品获得的序列读段可以是来自获自微生物核酸和获自宿主受试者核酸的混合物的读段，所述微生物总体包括微生物群系(例如，肠道微生物群系、血液微生物群系、口腔微生物群系、脊髓液微生物群系、粪便微生物群系)。相对短的读段的混合物可通过本文所述的方法转化为存在于受试者中的基因组核酸的表示和/或存在于肿瘤、胎儿、病原体、移植物或微生物群系中的基因组核酸的表示。

在某些实施方案中，从受试者“获得”样品的核酸序列读段和/或从一个或多个参考人“获得”生物样本的核酸序列读段可涉及直接对核酸测序以获得序列信息。在一些实施方案中，“获得”可涉及接收由另一人直接从核酸获得的序列信息。

在一些实施方案中，在测序之前或期间(例如，非特异性地，例如，通过基于PCR的方法)富集和/或扩增样品中的一些或所有核酸。在某些实施方案中，在测序之前或期间富集和/或扩增样品中的特定核酸种类或亚组。在一些实施方案中，对预选的核酸库的种类或亚组进行随机测序。在一些实施方案中，在测序之前或期间不富集和/或不扩增样品中的核酸。

在一些实施方案中，对代表性分数的基因组进行测序并且有时将其称为“覆盖度”或“倍数覆盖度”。例如，1倍覆盖度指示基因组的大约100％的核苷酸序列由读段表示。在一些情况下，倍数覆盖度被称为“测序深度”(并且与测序深度成正比)。在一些实施方案中，“倍数覆盖度”是指将先前测序运行作为参考的相对术语。例如，第二次测序运行可具有比第一次测序运行低2倍的覆盖度。在一些实施方案中，以冗余度对基因组进行测序，其中基因组的给定区域可被两个或更多个读段或重叠读段覆盖(例如，大于1的“倍数覆盖度”，例如，2倍覆盖度)。在一些实施方案中，以约0.01倍到约100倍覆盖度、约0.1倍到20倍覆盖度、或约0.1倍到约1倍覆盖度(例如，约0.015倍、0.02倍、0.03倍、0.04倍、0.05倍、0.06倍、0.07倍、0.08倍、0.09倍、0.1倍、0.2倍、0.3倍、0.4倍、0.5倍、0.6倍、0.7倍、0.8倍、0.9倍、1倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、15倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍或更大的覆盖度)对基因组(例如，全基因组)进行测序。在一些实施方案中，对基因组的特定部分(例如，来自靶向方法的基因组部分)进行测序，并且倍数覆盖度值通常是指所测序的特定基因组部分的分数(即，倍数覆盖度值不是指全基因组)。在一些情况下，以1000倍或更高的覆盖度对特定基因组部分进行测序。例如，可以2000倍、5,000倍、10,000倍、20,000倍、30,000倍、40,000倍或50,000倍覆盖度对特定基因组部分进行测序。在一些实施方案中，以约1,000倍到约100,000倍覆盖度测序。在一些实施方案中，以约10,000倍到约70,000倍覆盖度测序。在一些实施方案中，以约20,000倍到约60,000倍覆盖度测序。在一些实施方案中，以约30,000倍到约50,000倍覆盖度测序。

在一些实施方案中，对来自一个个体的一个核酸样品进行测序。在某些实施方案中，对来自两个或更多个样品中的每一个样品的核酸进行测序，其中样品来自一个个体或来自不同个体。在某些实施方案中，汇集来自两个或更多个生物样品的核酸样品，其中每个生物样品来自一个个体或两个或更多个个体，并且对该汇集物进行测序。在后一些实施方案中，经常通过一个或多个唯一标识符来鉴别来自每个生物样品的核酸样品。

在一些实施方案中，测序方法利用允许在测序过程中多重化(multiplexing)序列反应的标识符。唯一标识符的数目越大，用于检测的样品和/或染色体的数目越大，所述数目例如可在测序期间被多重化。可使用任何适合数量(例如，4个、8个、12个、24个、48个、96个或更多个)的唯一标识符来进行测序过程。

测序过程有时利用固相，并且有时固相包括流动池，在所述流动池上可附接来自文库的核酸，并且试剂可流动并与附接的核酸接触。流动池有时包括流动池泳道，并且标识符的使用可便于分析每个泳道中的多个样品。流动池经常是固体支持物，其可被配置成保持和/或允许试剂溶液在结合的分析物上有序地通过。流动池常常是平面形状的、光学透明的，通常为毫米或亚毫米量级，并且经常具有发生分析物/试剂相互作用的通道或泳道。在一些实施方案中，在给定流动池泳道中分析的样品的数目取决于在文库制备和/或探针设计期间所利用的唯一标识符的数目。使用12个标识符的多重化例如允许在8泳道流动池中同时分析96个样品(例如，等于96孔微孔板中的孔的数量)。类似地，使用48个标识符的多重化例如允许在8泳道流动池中同时分析384个样品(例如，等于384孔微孔板中的孔的数目)。市售多重测序试剂盒的非限制性示例包括Illumina的多重化样品制备寡核苷酸试剂盒和多重化测序引物以及PhiX对照试剂盒(例如，Illumina的目录号分别为PE-400-1001和PE-400-1002)。

可使用任何适合的对核酸进行测序方法，其非限制性示例包括Maxim&Gilbert、链终止法、合成法测序(sequencing by synthesis)、连接法测序(sequencing byligation)、通过质谱测序、基于显微镜术的技术等等或它们的组合。在一些实施方案中，第一代技术，诸如例如，桑格测序法(Sanger sequencing method)，包括自动化桑格测序法，包括微流体桑格测序，可用于本文所提供的方法中。在一些实施方案中，可使用包括使用核酸成像技术(例如，透射电子显微镜术(TEM)和原子力显微镜术(AFM))的测序技术。在一些实施方案中，使用高通量测序方法。高通量测序方法通常涉及有时在流动池内以大规模平行方式测序的克隆扩增的DNA模板或单个DNA分子。能够以大规模平行方式对DNA进行测序的下一代(例如，第2代和第3代)测序技术可用于本文所述的方法，并且在本文中统称为“大规模平行测序”(MPS)。在一些实施方案中，MPS测序过程利用靶向方法，其中对特定的目标染色体、基因或区域进行测序。在某些实施方案中，使用非靶向方法，其中对样品中的大多数或所有核酸进行随机测序、扩增和/或捕获。

在一些实施方案中，使用靶向富集、扩增和/或测序方法。靶向方法经常分离、选择和/或富集样品中的核酸亚组，用于通过使用序列特异性寡核苷酸进一步处理。在一些实施方案中，利用序列特异性寡核苷酸文库来靶向样品中的一组或多组核酸(例如，与其杂交)。序列特异性寡核苷酸和/或引物经常对存在于一个或多个目标染色体、基因、外显子、内含子和/或调控区中的特定序列(例如，唯一核酸序列)具有选择性。任何适合的方法或方法的组合均可用于一个或多个靶核酸亚组的富集、扩增和/或测序。在一些实施方案中，通过使用一种或多种序列特异性锚定物捕获到固相(例如，流动池、珠粒)来分离和/或富集靶向序列。在一些实施方案中，通过基于聚合酶的方法(例如，基于PCR的方法，通过任何适合的基于聚合酶的延伸)，使用序列特异性引物和/或引物组来富集和/或扩增靶向序列。序列特异性锚定物经常可用作序列特异性引物。

MPS测序有时利用合成法测序和某些成像过程。可用于本文所述方法中的核酸测序技术是合成法测序和基于可逆终止子的测序(例如，Illumina的基因组分析仪；基因组分析仪II；HISEQ 2000；HISEQ 2500(Illumina,San Diego CA))。利用这种技术，可平行地对数百万核酸(例如，DNA)片段进行测序。在这类测序技术的一个示例中，使用含有光学透明载片的流动池，所述载片具有8个单个的泳道，在所述泳道的表面上结合有寡核苷酸锚定物(例如，接头引物)。

合成法测序通常通过以模板指导的方式向引物或预先存在的核酸链迭代添加(例如，通过共价添加)核苷酸来进行。检测核苷酸的每次迭代添加，并且重复该过程多次，直到获得核酸链的序列。所获得的序列的长度部分地取决于所进行的添加和检测步骤的数目。在合成法测序的一些实施方案中，在一轮核苷酸添加中添加和检测一个、二个、三个或更多个相同类型(例如，A、G、C或T)的核苷酸。可通过任何适合的方法(例如，酶促或化学)添加核苷酸。例如，在一些实施方案中，聚合酶或连接酶以模板指导的方式将核苷酸添加到引物或预先存在的核酸链。在合成法测序的一些实施方案中，使用不同类型的核苷酸、核苷酸类似物和/或标识符。在一些实施方案中，使用可逆终止子和/或可去除的(例如，可切割的)标识符。在一些实施方案中，使用荧光标记的核苷酸和/或核苷酸类似物。在某些实施方案中，合成法测序包括切割(例如，标识符的切割和去除)和/或洗涤步骤。在一些实施方案中，通过本文所述或本领域已知的适合方法检测一个或多个核苷酸的添加，所述方法的非限制性示例包括任何适合的成像设备、适合的相机、数字相机、基于CCD(电荷耦合器件)的成像设备(例如，CCD相机)、基于CMOS(互补金属氧化物硅)的成像设备(例如，CMOS相机)、光电二极管(例如，光电倍增管)、电子显微镜术、场效应晶体管(例如，DNA场效应晶体管)、ISFET离子传感器(例如，CHEMFET传感器)等等或它们的组合。

可使用用于进行本文所述方法的任何适合的MPS方法、系统或技术平台来获得核酸序列读段。MPS平台的非限制性示例包括Illumina/Solex/HiSeq(例如，Illumina的基因组分析仪；基因组分析仪II；HISEQ 2000；HISEQ)、SOLiD、Roche/454、PACBIO和/或SMRT、Helicos真单分子测序、基于离子激流和离子半导体的测序(例如，如由Life Technologies所开发)、基于WildFire，5500、5500xl W和/或5500xl W基因分析仪的技术(例如，如由LifeTechnologies所开发和销售，美国专利申请公开号2013/0012399)；聚合酶克隆测序(Polony sequencing)、焦磷酸测序、大规模平行信号测序(MPSS)、RNA聚合酶(RNAP)测序、LaserGen系统和方法、基于纳米孔的平台、化学敏感场效应晶体管(CHEMFET)阵列、基于电子显微镜术的测序(例如，如由ZS Genetics,Halcyon Molecular所开发)、纳米球测序等等或它们的组合。可用于进行本文方法的其他测序方法包括数字PCR、杂交测序、纳米孔测序、染色体特异性测序(例如，使用DANSR(所选区域的数字分析)技术。

在一些实施方案中，对核酸进行测序，并且在对测序的核酸进行分析之前或与之结合地处理测序产物(例如，序列读段的集合)。例如，序列读段可根据以下中的一种或多种来处理：比对、作图、过滤、计数、归一化、加权、生成谱等等以及它们的组合。可以任何顺序进行某些处理步骤，并且可重复某些处理步骤。

作图读段

可对序列读段进行作图，并且将作图到指定核酸区域(例如，染色体或其部分)的读段的数目称为计数。在某些实施方案中，可对包含突出端序列信息的序列读段作图，并且将包含突出端序列信息的读段的数目作图到指定的核酸区域。可使用任何适合的作图方法(例如，过程、算法、程序、软件、模块等等或它们的组合)。作图过程的某些方面在下文中描述。

对核苷酸序列读段(即，来自物理基因组位置未知的片段的序列信息)进行作图可以多种方式进行，并且经常包括将所获得的序列读段与参考基因组中的匹配序列比对。在此类比对中，通常将序列读段与参考序列比对，并且将比对的那些指定为“作图的”、“作图的序列读段”或“作图的读段”。在某些实施方案中，作图的序列读段被称为“命中(hit)”或“计数”。在一些实施方案中，根据各种参数将作图的序列读段分组在一起，并且分配给特定的基因组部分，这将在下文进一步详细讨论。

术语“比对(aligned/alignment/aligning)”通常是指可被鉴别为匹配(例如，100％同一性)或部分匹配的两个或更多个核酸序列。比对可手动进行或通过计算机(例如，软件、程序、模块或算法)进行，所述计算机进行的非限制性示例包括作为Illumina基因组学分析包(Illumina Genomics Analysis pipeline)的一部分发布的核苷酸数据高效局部比对(Efficient Local Alignment of Nucleotide Data)(ELAND)计算机程序。序列读段的比对可以是100％序列匹配。在一些情况下，比对小于100％序列匹配(即，非完全匹配、部分匹配、部分比对)。在一些实施方案中，比对为约99％、98％、97％、96％、95％、94％、93％、92％、91％、90％、89％、88％、87％、86％、85％、84％、83％、82％、81％、80％、79％、78％、77％、76％或75％匹配。在一些实施方案中，比对包含错配。在一些实施方案中，比对包含1个、2个、3个、4个或5个错配。可使用任一条链(例如，有义链或反义链)对两个或更多个序列进行比对。在某些实施方案中，将核酸序列与另一核酸序列的反向互补物进行比对。

可使用各种计算方法将每个序列读段作图到一部分。可用于比对序列的计算机算法的非限制性示例包括但不限于BLAST、BLITZ、FASTA、BOWTIE 1、BOWTIE 2、ELAND、MAQ、PROBEMATCH、SOAP、BWA或SEQMAP、或其变化形式或其组合。在一些实施方案中，可将序列读段与参考基因组中的序列进行比对。在一些实施方案中，序列读段可在本领域已知的核酸数据库中发现和/或与序列比对，所述核酸数据库包括例如GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室)和DDBJ(日本DNA数据库)。BLAST或类似工具可用于对照序列数据库搜索所识别的序列。然后，例如，搜索命中可用于将所识别的序列分类成适当的部分(下文所述)。

在一些实施方案中，读段可唯一地或非唯一地作图到参考基因组中的部分。如果读段与参考基因组中的单一序列比对，则认为其是“唯一作图的”。如果读段与参考基因组中的两个或更多个序列比对，则认为其是“非唯一作图的”。在一些实施方案中，从进一步分析(例如定量)中消除非唯一作图的读段。在某些实施方案中，可允许小程度的错配(0-1)来解释可存在于参考基因组和被作图的来自个体样品的读段之间的单核苷酸多态性。在一些实施方案中，对于作图到参考序列的读段不允许错配度。

如本文所用，术语“参考基因组”可以是指任何生物体或病毒的任何特定的已知的、测序的或表征的基因组，无论是部分的还是完整的，其可用于参考来自受试者的鉴别的序列。例如，用于人受试者以及许多其他生物体的参考基因组可在万维网URLncbi.nlm.nih.gov的国家生物技术信息中心(National Center for BiotechnologyInformation)处找到。“基因组”是指在核酸序列中表达的生物体或病毒的完整遗传信息。如本文所用，参考序列或参考基因组经常是来自一位个体或多位个体的装配或部分装配的基因组序列。在一些实施方案中，参考基因组是来自一个或多个人类个体的装配的或部分装配的基因组序列。在一些实施方案中，参考基因组包含分配给染色体的序列。

在某些实施方案中，针对基因组区域(例如，部分、基因组部分)评估可作图性。可作图性是对核苷酸序列读段与参考基因组的一部分进行明确比对的能力，通常最多达指定数目的错配，包括例如0个、1个、2个或更多个错配。对于给定的基因组区域，可使用预设读段长度的滑动窗方法并对所得到的读段水平可作图性值进行平均来估计预期的可作图性。包含唯一核苷酸序列的延伸段(stretch)的基因组区域有时具有高可作图性值。

对于末端配对测序，可通过使用适合的作图和/或比对程序将读段作图到参考基因组，所述程序的非限制性示例包括BWA(Li H.和Durbin R.(2009)Bioinformatics 25,1754–60)、Novoalign[Novocraft(2010)]、Bowtie(Langmead B等，(2009)Genome Biol.10:R25)、SOAP2(Li R等，(2009)Bioinformatics 25,1966–67)、BFAST(Homer N等，(2009)PLoSONE 4,e7767)、GASSST(Rizk,G.和Lavenier,D.(2010)Bioinformatics 26,2534–2540)和MPscan(Rivals E.等(2009)Lecture Notes in Computer Science 5724,246–260)等等。可使用适合的短读段比对程序对末端配对读段进行作图和/或比对。短读段比对程序的非限制性示例包括BarraCUDA、BFAST、BLASTN、BLAT、Bowtie、BWA、CASHX、CUDA-EC、CUSHAW、CUSHAW2、drFAST、ELAND、ERNE、GNUMAP、GEM、GensearchNGS、GMAP、Geneious Assembler、iSAAC、LAST、MAQ、mrFAST、mrsFAST、MOSAIK、MPscan、Novoalign、NovoalignCS、Novocraft、NextGENe、Omixon、PALMapper、Partek、PASS、PerM、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RTG、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3、SOCS、SSAHA、SSAHA2、Stampy、SToRM、Subread、Subjunc、Taipan、UGENE、VelociMapper、TimeLogic、XpressAlign、ZOOM等等或其组合。根据参考基因组，末端配对读段经常被作图到同一多核苷酸片段的相对末端。在一些实施方案中，对读段配偶独立地作图。在一些实施方案中，在作图过程中考虑来自两个序列读段(即，来自每个末端)的信息。参考基因组经常用于确定和/或推断定位于末端配对读段配偶之间的核酸序列。如本文所用的术语“不一致的读段对”是指包含一对读段配偶的末端配对读段，其中一个或两个读段配偶不能明确地作图到参考基因组的部分由连续核苷酸区段限定的相同区域。在一些实施方案中，不一致的读段对是作图到参考基因组的非预期位置的末端配对读段配偶。参考基因组的非预期位置的非限制性示例包括(i)两个不同的染色体，(ii)由超过预定片段大小(例如，超过300bp、超过500bp、超过1000bp、超过5000bp或超过10,000bp)分开的位置，(iii)与参考序列不一致的取向(例如，相反的取向)，诸如此类或它们的组合。在一些实施方案中，根据样品中模板多核苷酸片段的长度(例如，平均长度、预定片段大小)或预期长度来鉴别不一致的读段配偶。例如，作图到以超过样品中多核苷酸片段的平均长度或预期长度分开的位置的读段配偶有时被鉴别为不一致的读段对。有时通过取读段之一的反向互补物并使用参考序列的相同链比较两个读段的比对来确定以相反取向作图的读段对。可通过本领域已知的或本文所述的任何适合的方法和/或算法(例如，SVDetect、Lumpy、BreakDancer、BreakDancerMax、CREST、DELLY等等或它们的组合)来鉴别不一致的读段对。

序列读段定量

可对基于所选特征或变量被作图或划分的序列读段进行定量以确定被作图到一个或多个部分(例如，参考基因组的部分)的读段的量或数目。在一些实施方案中，可对基于所选特征或变量被作图或划分的包含突出端信息的序列读段进行定量，以确定被作图到一个或多个部分的包含突出端信息的读段的量或数目。在某些实施方案中，被作图到部分或区段的序列读段的数量被称为计数或读段密度。

计数经常与基因组部分相关。在一些实施方案中，从被作图到一部分(即，与所述部分相关)的一些或所有序列读段确定计数。在某些实施方案中，从被作图到一组部分(例如，区段或区域中的部分)的一些或所有序列读段确定计数。

计数可通过适当的方法、操作或数学过程来确定。计数有时是被作图到以下的所有序列读段的直和：对应于区段的基因组部分或一组基因组部分，对应于基因组的亚区(例如，拷贝数变异区、拷贝数改变区、拷贝数重复区、拷贝数缺失区、微重复区、微缺失区、染色体区、常染色体区、性染色体区)的一组部分和/或有时是对应于基因组的一组部分。读段定量有时是比率，并且有时是对区域a中的部分的定量与对区域b中的部分的定量的比率。区域a有时是一个部分、区段区、拷贝数变异区、拷贝数改变区、拷贝数重复区、拷贝数缺失区、微重复区、微缺失区、染色体区、常染色体区和/或性染色体区。区域b有时独立地是一个部分、区段区、拷贝数变异区、拷贝数改变区、拷贝数重复区、拷贝数缺失区、微重复区、微缺失区、染色体区、常染色体区、性染色体区、包括所有常染色体的区域、包括性染色体的区域和/或包括所有染色体的区域。

在一些实施方案中，计数来源于原始序列读段和/或过滤的序列读段。在某些实施方案中，计数是被作图到基因组部分或基因组部分的组(例如，区域中的多个基因组部分)的序列读段的平均值、均值或总和。在一些实施方案中，将计数与不确定性值相关联。有时调整计数。可根据与基因组部分或部分的组相关的序列读段调整计数，所述序列读段已被加权、去除、过滤、归一化、调整、取平均值、作为均值导出、作为中值导出、相加或它们的组合。

序列读段定量有时是读段密度。可确定和/或生成基因组的一个或多个区段的读段密度。在某些情况下，可确定和/或生成一个或多个染色体的读段密度。在一些实施方案中，读段密度包括被作图到参考基因组的区段或部分的序列读段的计数的定量量度。可通过适合的方法来确定读段密度。在一些实施方案中，通过适合的分布和/或适合的分布函数来确定读段密度。分布函数的非限制性示例包括概率函数、概率分布函数、概率密度函数(PDF)、核密度函数(核密度估计)、累积分布函数、概率质量函数、离散概率分布、绝对连续的单变量分布等等、任何适合的分布或它们的组合。读段密度可以是从适合的概率密度函数导出的密度估计。密度估计是基于观测数据对基础概率密度函数的估计值的构建。在一些实施方案中，读段密度包括密度估计(例如，概率密度估计、核密度估计)。可根据包括生成基因组的一个或多个部分中的每一个的密度估计的过程来生成读段密度，其中每个部分均包括序列读段的计数。可对被作图到部分或区段的归一化和/或加权计数生成读段密度。在一些情况下，被作图到部分或区段的每个读段均可有助于读段密度，即等于从本文所述的归一化过程获得的其权重的值(例如，计数)。在一些实施方案中，调整一个或多个部分或区段的读段密度。可通过适合的方法调整读段密度。例如，可对一个或多个部分的读段密度进行加权和/或归一化。

针对给定部分或区段定量的读段可来自一个来源或不同来源。在一个示例中，可从来自患有癌症或怀疑患有癌症的受试者的核酸获得读段。在这种情况下，作图到一个或多个部分的读段经常是代表健康细胞(即，非癌细胞)和癌细胞(例如，肿瘤细胞)两者的读段。在某些实施方案中，作图到一部分的一些读段来自癌细胞核酸，并且作图到同一部分的一些读段来自非癌细胞核酸。在另一示例中，可从来自怀有胎儿的怀孕雌性的核酸样品获得读段。在此类情况下，作图到一个或多个部分的读段经常是代表胎儿和胎儿母亲(例如，怀孕的雌性受试者)两者的读段。在某些实施方案中，作图到一部分的一些读段来自胎儿基因组，并且作图到同一部分的一些读段来自母体基因组。

测定

本公开的技术可用于进行多种测定。在一些情况下，可针对样品核酸中存在的一些、许多或所有突出端来测定样品。该信息可用于生成样品的总体突出端谱，指示存在的突出端的数目或频率。在一些情况下，可针对样品中存在的一组一个或多个特定突出端来测定样品。在一些情况下，可针对样品中存在的突出端的一个或多个特征来测定样品。在一些情况下，可针对平端片段(例如，在一侧为平端或在两侧均为平端的靶核酸(例如，DNA))来测定样品。

可通过分析和/或定量样品中存在的突出端的某些特征来生成样品的突出端谱。在某些情况下，谱可另外或选择性地包括靶/模板核酸本身的特征(例如，具有或不具有突出端信息)。在某些情况下，突出端谱排除了靶/模板核酸的特征。因此，在某些实施方案中，突出端谱由突出端特征组成。可使用任何适合的定量方法、聚类方法、统计算法、分类器或模型对突出端/模板特征分析或定量，包括但不限于回归(例如，逻辑回归、线性回归、多变量回归、最小二乘回归)、层次聚类(例如，沃德层次聚类)、监督学习算法(例如，支持向量机(SVM))、多变量模型(例如，主成分析(PCA))、线性判别分析、二次判别分析、装袋(bagging)、神经网络、支持向量机模型、随机森林、分类树模型、K最近邻等等，和/或任何适合的数学和/或统计操作。

可被分析或定量的突出端/模板特征包括但不限于二核苷酸计数(例如，突出端或读段中特定二核苷酸的存在/不存在(例如，样品中具有特定二核苷酸的突出端的数目、样品中具有特定二核苷酸的模板+突出端的数目、或样品中具有特定二核苷酸的模板-突出端的数目)和/或突出端或读段内特定二核苷酸的实例的计数)；三核苷酸计数(例如，突出端或读段中特定三核苷酸的存在/不存在(例如，样品中具有特定三核苷酸的突出端的数目、样品中具有特定三核苷酸的模板+突出端的数目、或样品中具有特定三核苷酸的模板-突出端的数目)和/或突出端或读段内特定三核苷酸的实例的计数)；四核苷酸计数(例如，突出端或读段中特定四核苷酸的存在/不存在(例如，样品中具有特定四核苷酸的突出端的数目、样品中具有特定四核苷酸的模板+突出端的数目、或样品中具有特定四核苷酸的模板-突出端的数目)和/或突出端或读段内特定四核苷酸的实例的计数)；二核苷酸百分比(例如，样品中具有特定二核苷酸的突出端的百分比、样品中具有特定二核苷酸的模板+突出端的百分比、或样品中具有特定二核苷酸的模板-突出端的百分比；通过突出端长度归一化的突出端中二核苷酸的数目；属于该特定突出端的二核苷酸的比例；在所有突出端之间进行比较，而不论长度)；三核苷酸百分比(例如，样品中具有特定三核苷酸的突出端的百分比、样品中具有特定三核苷酸的模板+突出端的百分比、或样品中具有特定三核苷酸的模板-突出端的百分比；通过突出端长度归一化的突出端中三核苷酸的数目；属于该特定突出端的三核苷酸的比例；在所有突出端之间进行比较，而不论长度)；四核苷酸百分比(例如，样品中具有特定四核苷酸的突出端的百分比、样品中具有特定四核苷酸的模板+突出端的百分比、或样品中具有特定四核苷酸的模板-突出端的百分比；通过突出端长度归一化的突出端中四核苷酸的数目；属于该特定突出端的四核苷酸的比例；在所有突出端之间进行比较，而不论长度)；模板的全长；长度类别(例如，对于cfDNA：亚核小体、单核小体、多核小体)；突出端长度(例如，1个碱基、2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基或更长)；突出端类型(例如，5'突出端、3'突出端、平头)；GC含量(例如，突出端GC含量、模板+突出端GC含量或模板-突出端GC含量)；突出端百分比(例如，突出端序列/总突出端的log2百分比)；突出端计数(例如，特定突出端序列的计数)；长度百分比(例如，突出端的长度/模板的全长)；突出端中的二核苷酸计数相对于模板分子的完整序列；突出端中的三核苷酸计数相对于模板分子的完整序列；突出端中的四核苷酸计数相对于模板分子的完整序列；布尔变量(Boolean variable)，其可包括突出端是否与特定区域(例如，编码区、CpG岛、转录因子结合位点(例如，CCCTC结合因子(CTCF)结合位点)、DNAse超敏感位点、表示开放染色质的序列(例如，ATAC-seq峰)；启动子区、增强子区、超甲基化区、其他目标区域等等)重叠，是否包含在所述特定区域中，和/或是否在所述特定区域中开始或结束；基因组坐标；具有给定突出端类型和长度的分子的均值片段长度或分布；具有给定突出端序列的分子的均值片段长度或分布；文库之间的Δ(例如，变量之间数据相关性的鉴别(例如，检测X特征和Y特征之间的相关性，诸如片段长度分布的均值相对于X变量(例如，具有给定突出端序列的片段的均值长度或分布相对于其X，其中X＝以上任何特征/变量)的相关性))；等等以及它们的组合。示例性二核苷酸包括AA、AT、AC、AG、TT、TA、TC、TG、CC、CG、CA、CT、GG、GA、GC和GT。三核苷酸包括4³种可能的核苷酸组合，并且四核苷酸包括4⁴种可能的核苷酸组合。在一些实施方案中，分析样品中突出端中二核苷酸的存在。在一些实施方案中，分析样品中突出端中CG二核苷酸的存在。在一些实施方案中，分析样品中突出端中GG二核苷酸的存在。在一些实施方案中，分析样品中突出端中GC二核苷酸的存在。

突出端谱(包括总体突出端谱)、突出端小组(panel)和突出端特征可指示样品或从其获取样品的来源(例如，生物体)的各种特征。这些特征可包括但不限于核酸酶活性和/或含量、拓扑异构酶活性和/或含量、疾病(例如，癌症类型、癌症分期、感染、器官疾病或衰竭、神经变性疾病、缺血、中风、心血管疾病)、细胞死亡(例如，全身性细胞死亡率增加或降低、特定器官或细胞类型中细胞死亡率增加或降低、增加或降低的某些模式的细胞死亡率(例如，凋亡、自噬、坏死、有丝分裂灾变、失巢凋亡、角化、兴奋毒性、铁死亡(ferroptosis)、沃勒变性(Wallerian degeneration)、活化诱导的细胞死亡(AICD)、缺血性细胞死亡、细胞胀亡、免疫原性细胞死亡或凋亡、细胞焦亡(pyroptosis))、凋亡失调或其他细胞死亡模式)、微生物群系谱(例如，肠道微生物群系、血液微生物群系、口腔微生物群系、皮肤微生物群系、环境微生物群系(诸如土壤微生物群系、水微生物群系))以及辐射暴露类型和/或量(例如，紫外(A和B)、电离辐射(例如，宇宙射线、α粒子、β粒子、γ射线、X射线)、中子辐射)。在一些实施方案中，突出端谱(包括总体突出端谱)、突出端小组和突出端特征指示癌症。在一些实施方案中，突出端谱(包括总体突出端谱)、突出端小组和突出端特征指示胃肠癌。

突出端谱(包括总体突出端谱)、突出端小组和突出端特征可指示核酸酶(例如，DNase)活性，诸如内源核酸酶活性。核酸酶(例如，DNase)活性可指示本文所讨论的样品或来源的各种特征，包括但不限于癌症。在一些情况下，可测定样品中天然存在的核酸的突出端。在一些情况下，可将核酸(例如，合成的核酸)引入样品中，其中然后它们可被样品中存在的核酸酶作用。使用已知的核酸群体可产生突出端谱，将其与来自不同样品的那些进行比较。在已知核酸上产生的不同突出端可提供样品的核酸酶谱的信息。可在体外测定组织特异性核酸酶活性。例如，可培养来自不同器官、组织或细胞类型的细胞系，并且可诱导细胞死亡，之后测定突出端谱。还可测定特定酶(例如，核酸酶)或酶组的突出端谱。特定的酶或酶组可用于消化核酸群体，并且可测定所得的突出端谱。例如，可确定CRISPR/Cas系统蛋白质或其他核酸引导的核酸酶以确定它们产生的末端(例如，平端、1bp交错末端、其他突出端)的类型。在一些应用中，突出端谱测定可用于监测旨在改变DNAse活性的活性的特定治疗和靶向疗法(例如，维生素C和维生素K3；用于抗癌疗法中的拓扑异构酶抑制剂；诸如此类)的功效。

在一些情况下，可抑制受试者或样品中的核酸酶以保持特定的突出端谱。例如，细胞过程可产生一个突出端谱(例如，来自裂解、细胞死亡和/或死后细胞内过程)，而细胞外部(例如，在诸如血液的体液中)存在的核酸酶可进一步改变细胞的第一突出端谱。核酸酶，诸如细胞外部的那些，可被抑制或失活(例如，暂时地)以保持初始突出端谱用于测定。核酸酶活性可在样品收集之前被抑制(例如，用肌动蛋白)。在一个示例中，测定两个突出端群体，即来自患病细胞的突出端群体(D)和来自健康细胞的突出端群体(H)；在DNA从细胞释放后，血液中的核酸酶可进一步改变突出端，产生经修饰的突出端群体D'和H'；抑制存在于血液中的核酸酶(例如，DNase)可允许测定未经修饰或较少修饰的突出端群体(例如，D和H，或将会观察到比在无抑制的情况下更接近D和H)。还可抑制影响突出端谱的其他酶。例如，拓扑异构酶切除可切割核酸，产生特定的突出端谱。可引入拓扑异构酶抑制剂以保持这些突出端(例如，通过防止再连接)，从而允许测定这些谱。

可通过多种技术测定突出端谱。可通过核酸测序(包括如本文所公开的)来测定突出端。可通过结合或杂交来测定突出端。例如，突出端可结合到与特定突出端特异性杂交的结合剂。结合剂可定位于诸如阵列或珠粒的基底上。可检测结合事件(例如，荧光或其他光信号、电信号)并且可确定突出端谱。在测定之前，或作为测定的一部分，可富集特定种类的核酸(例如，具有特定突出端或具有来自突出端小组的一个或多个突出端的那些核酸)，包括本文所公开的核酸。

分类和其用途

本文所述的方法可提供指示上述样品或来源的一个或多个特征的结果。本文所述的方法有时提供指示测试样品的表型和/或医学状况的存在或不存在的结果(例如，提供确定医学状况的存在或不存在和/或表型的结果)。结果经常是分类过程的一部分，并且分类(例如，样品或来源的一个或多个特征的分类；和/或测试样品的基因型、表型、遗传变异和/或医学状况的存在或不存在)有时基于和/或包括结果。结果和/或分类有时基于和/或包括对于测试样品的数据处理结果(例如，统计值)，该结果有助于确定样品或来源的一个或多个特征和/或分类过程中基因型、表型、遗传变异、遗传改变和/或医学状况的存在或不存在。结果和/或分类有时包括或基于确定样品或来源的一个或多个特征和/或基因型、表型、遗传变异、遗传改变和/或医学状况的存在或不存在的评分，或基于样品或来源的一个或多个特征和/或基因型、表型、遗传变异、遗传改变和/或医学状况的存在或不存在的讯号(call)。在某些实施方案中，结果和/或分类包括预测和/或确定样品或来源的一个或多个特征和/或分类过程中基因型、表型、遗传变异、遗传改变和/或医学状况的存在或不存在的结论。

可提供结果和/或分类的任何适合的表达。结果和/或分类有时基于和/或包括在一个或多个概率考虑的背景下使用本文所述的处理方法生成的一个或多个数值。可利用的值的非限制性示例包括灵敏度、特异性、标准偏差、中值绝对偏差(MAD)、确定性的量度、置信度的量度、确定性的量度或置信度的量度(对于测试样品获得的值在值的特定范围之内或之外)、不确定性的量度、不确定性的量度(对于测试样品获得的值在值的特定范围之内或之外)、变异系数(CV)、置信水平、置信区间(例如，约95％置信区间)、标准评分(例如，z评分)、χ值、Φ值、t检验结果、p值、倍性值、拟合的少数种类分数、面积比、中值水平等等或它们的组合。在一些实施方案中，结果和/或分类包括突出端谱、读段密度、读段密度谱和/或图(例如，谱图)。在某些实施方案中，一起分析多个值，有时在针对此类值的谱(例如，z评分谱、p值谱、χ值谱、Φ值谱、t检测结果、值谱等等或其组合)中进行一起分析。概率的考虑可有助于确定样品或来源的一个或多个特征和/或受试者是否处于具有基因型、表型、遗传变异和/或医学状况的风险，或是否具有基因型、表型、遗传变异和/或医学状况，并且确定上述情况的结果和/或分类有时包括此类考虑。

在某些实施方案中，结果和/或分类基于和/或包括预测和/或确定测试样品的基因型、表型、遗传变异和/或医学状况的存在或不存在的风险或概率的结论。结论有时基于从本文所述的数据分析方法确定的值(例如，指示概率、确定性和/或不确定性的统计值(例如，标准偏差、中值绝对偏差(MAD)、确定性的量度、置信度的量度、确定性的量度或置信度的量度(对于测试样品获得的值在值的特定范围之内或之外)、不确定性的量度、不确定性的量度(对于测试样品获得的值在值的特定范围之内或之外)、变异系数(CV)、置信水平、置信区间(例如，约95％置信区间)、标准评分(例如，z评分)、χ值、Φ值、t检验结果、p值、灵敏度、特异性等等或它们的组合)。结果和/或分类有时在关于特定测试样品的实验室测试报告中表示为与基因型、表型、遗传变异和/或医学状况的存在或不存在相关联的概率(例如，比值比、p值)、可能性或风险因素。测试样品的结果和/或分类有时关于特定的基因型、表型、遗传变异和/或医学状况被提供为“阳性”或“阴性”。例如，在确定存在基因型、表型、遗传变异和/或医学状况的特定测试样品的实验室测试报告中，结果和/或分类有时被指定为“阳性”，而在确定不存在基因型、表型、遗传变异和/或医学状况的特定测试样品的实验室测试报告中，结果和/或分类有时被指定为“阴性”。结果和/或分类有时被确定，并且有时包括用于数据处理中的假设。

通常在分类过程中生成四种类型的分类：真阳性、假阳性、真阴性和假阴性。如本文所用的术语“真阳性”是指存在对于测试样品正确确定的基因型、表型、遗传变异或医学状况。如本文所用的术语“假阳性”是指存在对于测试样品不正确确定的基因型、表型、遗传变异或医学状况。如本文所用的术语“真阴性”是指不存在对于测试样品正确确定的基因型、表型、遗传变异或医学状况。如本文所用的术语“假阴性”是指不存在对于测试样品不正确确定的基因型、表型、遗传变异或医学状况。可基于这些出现的比率来计算分类过程的性能的两个度量：(i)灵敏度值，其通常是被正确鉴别为阳性的预测阳性的分数；和(ii)特异性值，其通常是被正确鉴别为阴性的预测阴性的分数。

在某些实施方案中，为分类过程生成的实验室测试报告包括测试性能的量度(例如，灵敏度和/或特异性)和/或置信度的量度(例如，置信水平、置信区间)。有时从在对测试样品进行实验室测试之前进行的临床验证研究获得测试性能和/或置信度的量度。在某些实施方案中，将灵敏度、特异性和/或置信度中的一个或多个表示为百分比。在一些实施方案中，对于灵敏度、特异性或置信水平中的每一个独立表示的百分比大于约90％(例如，约90％、91％、92％、93％、94％、95％、96％、97％、98％或99％，或大于99％(例如，约99.5％或更大、约99.9％或更大、约99.95％或更大、约99.99％或更大))。表示特定置信水平(例如，约90％到约99.9％(例如，约95％)的置信水平)的置信区间可被表示为值的范围，并且有时对于特定置信水平被表示为灵敏度和/或特异性的范围。在一些实施方案中，变异系数(CV)被表示为百分比，并且有时该百分比为约10％或更小(例如，约10％、9％、8％、7％、6％、5％、4％、3％、2％或1％，或小于1％(例如，约0.5％或更小、约0.1％或更小、约0.05％或更小、约0.01％或更小))。在某些实施方案中，概率(例如，特定结果和/或分类不归因于偶然性)被表示为标准评分(例如，z评分)、p值或t检验的结果。在一些实施方案中，可使用本文所述的一个或多个数据处理操作来生成关于结果和/或分类的测量方差、置信水平、置信区间、灵敏度、特异性等等(例如，统称为置信参数)。

关于测试样品的结果和/或分类经常由健康护理专业人员或其他有资质的个体(例如，医师或助手)订购，并且经常被提供给他们，他们将结果和/或分类传输给从其获得测试样品的受试者。在某些实施方案中，使用适合的视觉介质(例如，机器的外围设备或部件，例如，打印机或显示器)来提供结果和/或分类。分类和/或结果经常以报告的形式提供给健康护理专业人员或有资质的个体。报告通常包括结果和/或分类的显示(例如，值，样品或来源的一个或多个特征，或基因型、表型、遗传变异和/或医学状况的存在或不存在的评估或概率)，有时包括相关的置信参数，并且有时包括用于生成结果和/或分类的测试的性能的量度。报告有时包括对后续程序(例如，确认结果或分类的程序)的推荐。报告有时包括染色体或其部分的视觉表示(例如，染色体模式图或染色体核型图)，并且有时显示针对测试样品鉴别的染色体的重复区和/或缺失区的可视化(例如，整个染色体的对染色体缺失或重复的可视化；显示缺失区或重复区的整个染色体的可视化；重复或缺失的染色体的一部分的可视化；在染色体的一部分缺失的情况下残留的染色体的一部分的可视化)。

报告可以适合的格式显示，以便于由健康专业人员或其他有资质的个体确定基因型、表型、遗传变异和/或医学状况的存在或不存在。适用于生成报告的格式的非限制性示例包括数字数据、图形、2D图形、3D图形和4D图形、图片(例如，jpg、位图(例如，bmp)、pdf、tiff、gif、raw、png等等或适合的格式)、统计图表、图表、表格、条形图、饼形图、示意图(diagram)、流程图、散点图、地图、直方图、密度图、函数图、线路图、框图、气泡图、星座图、等值线图、统计地图、蜘蛛图、维恩图(Venn diagram)、列线图等等，或上述的组合。

报告可由计算机和/或通过人工数据录入来生成，并且可使用适合的电子介质(例如，经由因特网，经由计算机，经由传真，从一个网络位置到相同或不同物理站点处的另一位置)或通过发送或接收数据的另一方法(例如，邮件服务、快递服务等等)来传输和传达。用于传输报告的通信介质的非限制性示例包括听觉文件、计算机可读文件(例如，PDF文件)、纸质文件、实验室文件、医疗记录文件或在前一段中所述的任何其他介质。在某些实施方案中，实验室文件或医疗记录文件可以呈有形形式或电子形式(例如，计算机可读形式)。在生成和传输报告之后，可通过经由适合的通信介质获得包括结果和/或分类的书面和/或图形表示来接收报告，该报告在经审阅后允许健康护理专业人员或其他有资质的个体做出关于样品或来源的一个或多个特征、或测试样品的基因型、表型、遗传变异和/或医学状况的存在或不存在的确定。

结果和/或分类可由实验室提供并从实验室获得(例如，从实验室文件获得)。实验室文件可由实验室生成，所述实验室进行一个或多个测试以确定样品或来源的一个或多个特征和/或测试样品的基因型、表型、遗传变异和/或医学状况的存在或不存在。实验室人员(例如，实验室管理者)可分析构成结果和/或分类基础的与测试样品相关的信息(例如，测试概况、参考概况、测试值、参考值、偏差水平、患者信息)。对于涉及基因型、表型、遗传变异和/或医学状况的存在或不存在的接近的或有问题的讯号，实验室人员可使用来自测试受试者的相同(例如，相同样品的等分试样)或不同测试样品重新运行相同的程序。实验室可与从实验室文件评估基因型、表型、遗传变异和/或医学状况的存在或不存在的人员处于相同位置或不同位置(例如，在另一国家)。例如，实验室文件可在一个位置生成并被传输到另一位置，在该位置，由健康护理专业人员或其他有资质的个体评估其中的测试样品的信息，并且任选地，传输到从其获得测试样品的受试者。实验室有时生成和/或传输实验室报告，该实验室报告包含对测试样品的基因组不稳定性、基因型、表型、遗传变异和/或医学状况的存在或不存在的分类。生成实验室测试报告的实验室有时是认证的实验室，并且有时是根据临床实验室改进修正案(Clinical Laboratory Improvement Amendments)(CLIA)认证的实验室。

结果和/或分类有时是受试者诊断的组成部分，并且有时结果和/或分类作为提供对测试样品的诊断的一部分被利用和/或评估。例如，健康护理专业人员或其他有资质的个体可分析结果和/或分类，并且基于或部分基于结果和/或分类来提供诊断。在一些实施方案中，医学状况、疾病、综合征或异常的确定、检测或诊断包括使用确定基因型、表型、遗传变异和/或医学状况的存在或不存在的结果和/或分类。因此，本文提供了用于诊断测试样品的基因型、表型、遗传变异和/或医学状况的存在或不存在的方法，所述方法根据通过本文所述的方法生成的结果或分类，并且任选地根据生成和传输包括对于测试样品的基因型、表型、遗传变异和/或医学状况的存在或不存在的分类的实验室报告。

机器、软件和接口

本文所述的某些过程和方法(例如，选择读段亚组，生成突出端谱，处理突出端数据，处理突出端定量，基于突出端数据或突出端谱确定样品的一个或多个特征)经常不能在没有计算机、微处理器、软件、模块或其他机器的情况下进行。本文所述的方法可以是计算机实现的方法，并且方法的一个或多个部分有时由一个或多个处理器(例如，微处理器)、计算机、系统、设备或机器(例如，微处理器控制的机器)来执行。

适合使用的计算机、系统、设备、机器和计算机程序产品经常包括计算机可读存储介质，或者与计算机可读存储介质结合使用。计算机可读存储介质的非限制性示例包括存储器、硬盘、CD-ROM、闪存装置等等。计算机可读存储介质通常是计算机硬件，并且经常是非暂态计算机可读存储介质。计算机可读存储介质不是计算机可读传输介质，后者是传输信号本身。

本文提供了其上存储有可执行程序的计算机可读存储介质，其中所述程序指示微处理器执行本文所述的方法。还提供了其上存储有可执行程序模块的计算机可读存储介质，其中所述程序模块指示微处理器执行本文所述方法的一部分。本文还提供了包括其上存储有可执行程序的计算机可读存储介质的系统、机器、设备和计算机程序产品，其中所述程序指示微处理器执行本文所述的方法。还提供了包括其上存储有可执行程序模块的计算机可读存储介质的系统、机器和设备，其中所述程序模块指示微处理器执行本文所述方法的一部分。

还提供了计算机程序产品。计算机程序产品经常包括计算机可用介质，该计算机可用介质包括在其中体现的计算机可读程序代码，该计算机可读程序代码适于被执行以实现本文所述的方法或方法的一部分。计算机可用介质和可读程序代码不是传输介质(即，传输信号本身)。计算机可读程序代码经常适于由处理器、计算机、系统、设备或机器执行。

在一些实施方案中，本文所述的方法(例如，(例如，选择读段亚组，生成突出端谱，处理突出端数据，处理突出端定量，基于突出端数据或突出端谱确定样品的一个或多个特征)是通过自动化方法进行的。在一些实施方案中，本文所述的方法的一个或多个步骤由微处理器和/或计算机执行，和/或结合存储器执行。在一些实施方案中，自动化方法以执行本文所述的方法的软件、模块、微处理器、外围设备和/或包括诸如此类的机器来体现。如本文所用，软件是指计算机可读程序指令，当其由微处理器执行时，执行如本文所述的计算机操作。

机器、软件和接口可用于进行本文所述的方法。使用机器、软件和接口，用户可输入、请求、询问或确定关于使用特定信息、程序或过程(例如，处理突出端数据、处理突出端定量和/或提供结果)的选项，其可涉及例如实现统计分析算法、统计显著性算法、统计算法、迭代步骤、验证算法和图形表示。在一些实施方案中，数据集可由用户作为输入信息输入，用户可通过适合的硬件介质(例如，闪存驱动器)下载一个或多个数据集，和/或用户可将数据集从一个系统发送到另一系统用于后续处理和/或提供结果(例如，将序列读段数据从测序仪发送到计算机系统用于突出端序列处理；将处理的突出端数据发送到计算机系统用于进一步处理和/或产生结果和/或报告)。

系统通常包括一个或多个机器。每个机器包括一个或多个存储器、一个或多个微处理器和指令。在系统包括两个或更多个机器的情况下，一些或所有机器可定位于相同位置，一些或所有机器可定位于不同位置，所有机器可定位于一个位置和/或所有机器可定位于不同位置。

在系统包括两个或更多个机器的情况下，一些或所有机器可定位于与用户相同的位置，一些或所有机器可定位于与用户不同的位置，所有机器可定位于与用户相同的位置，和/或所有机器可定位于与用户不同的一个或多个位置。

系统有时包括计算机器和测序设备或测序机器，其中测序设备或测序机器被配置成接收物理核酸并生成序列读段，并且计算设备被配置成处理来自测序设备或测序机器的读段。计算机器有时被配置成从序列读段确定结果(例如，样品的特征)。

用户可例如向软件发出询问，然后软件可经由因特网访问获取数据集，并且在某些实施方案中，可提示可编程微处理器基于给定参数获取适合的数据集。可编程微处理器还可提示用户选择由微处理器基于给定参数选择的一个或多个数据集选项。可编程微处理器可提示用户选择由微处理器基于经由因特网找到的信息、其他内部或外部信息等等选择的一个或多个数据集选项。可选择选项以用于选择一种或多种数据特征选择、一种或多种统计算法、一种或多种统计分析算法、一种或多种统计显著性算法、迭代步骤、一种或多种验证算法，以及方法、机器、设备、计算机程序或其上存储有可执行程序的非暂态计算机可读存储介质的一种或多种图形表示。

本文所提出的系统可包括计算机系统的一般部件，诸如例如网络服务器、便携系统、台式系统、手持系统、个人数字助理、计算亭(computing kiosk)等等。计算机系统可包括一个或多个输入装置，诸如键盘、触摸屏、鼠标、语音识别装置或允许用户将数据输入到系统中的其他装置。系统可进一步包括一个或多个输出端，包括但不限于显示屏(例如，CRT或LCD)、扬声器、传真机、打印机(例如，激光打印机、喷墨打印机、击打式打印机、黑白打印机或彩色打印机)或可用于提供信息(例如，结果和/或报告)的视觉、听觉和/或硬拷贝输出的其他输出端。

在系统中，输入部件和输出部件可连接到中央处理单元，该中央处理单元除其他部件之外还可包括用于执行程序指令的微处理器和用于存储程序代码和数据的存储器。在一些实施方案中，过程可被实现为定位于单个地理站点中的单个用户系统。在某些实施方案中，过程可被实现为多用户系统。在多用户实现方式的情况下，多个中央处理单元可借助于网络连接。网络可以是本地的，涵盖建筑物的一部分中的单个部门、整个建筑物，跨越多个建筑物，跨越一个区域，跨越整个国家或者是世界范围的。网络可以是私人的，由提供商拥有和控制，或者可被实现为基于因特网的服务，其中用户访问网页以输入和检索信息。因此，在某些实施方案中，系统包括一个或多个机器，所述机器相对于用户可以是本地的或远程的。用户可访问一个位置或多个位置的多于一个机器，并且可串行和/或并行地映射和/或处理数据。因此，可利用适当的配置和控制来使用多个机器映射和/或处理数据，诸如在本地网络、远程网络和/或“云”计算平台中。

在一些实施方案中，系统可包括通信接口。通信接口允许在计算机系统和一个或多个外部装置之间传送软件和数据。通信接口的非限制性示例包括调制解调器、网络接口(诸如以太网卡)、通信端口、PCMCIA插槽和卡等等。经由通信接口传送的软件和数据通常呈信号的形式，其可以是电子信号、电磁信号、光信号和/或能够由通信接口接收的其他信号。信号经常经由信道提供给通信接口。信道经常承载信号，并且可使用电线或电缆、光纤、电话线、手机链接、RF链接和/或其他通信信道来实现。因此，在一个示例中，通信接口可用于接收可由信号检测模块检测的信号信息。

数据可通过适合的装置和/或方法输入，包括但不限于手动输入装置或直接数据录入装置(DDE)。手动装置的非限制性示例包括键盘、概念键盘、触敏屏幕、光笔、鼠标、跟踪球、操纵杆、图形输入板、扫描仪、数码相机、视频数字化仪和语音识别装置。DDE的非限制性示例包括条形码阅读器、磁条码、智能卡、磁墨水字符识别、光学字符识别、光学标记识别和周转文件。

在一些实施方案中，来自测序设备或机器的输出可用作可经由输入装置输入的数据。在某些实施方案中，突出端信息(例如，突出端特征，诸如长度、类型、序列)可充当可经由输入装置输入的数据。在某些实施方案中，作图的序列读段可充当可经由输入装置输入的数据。在某些实施方案中，核酸片段大小(例如，长度)可充当可经由输入装置输入的数据。在某些实施方案中，来自核酸捕获过程的输出(例如，基因组区来源数据)可充当可经由输入装置输入的数据。在某些实施方案中，核酸片段大小(例如，长度)和来自核酸捕获过程的输出(例如，基因组区来源数据)的组合可充当可经由输入装置输入的数据。在某些实施方案中，通过计算机中的方法生成模拟数据，并且所述模拟数据充当可经由输入装置输入的数据。术语“计算机中的(in silico)”是指使用计算机进行的研究和实验。计算机中的方法包括但不限于根据本文所述的方法对序列读段作图以及处理作图的序列读段。

系统可包括可用于执行本文所述的过程或过程的一部分的软件，并且软件可包括可用于执行此类过程的一个或多个模块(例如，测序模块、逻辑处理模块、数据显示组织模块)。术语“软件”是指计算机可读程序指令，当其由计算机执行时，执行计算机操作。可由一个或多个微处理器执行的指令有时被提供为可执行代码，当其被执行时，可使一个或多个微处理器实现本文所述的方法。本文所述的模块可作为软件存在，并且体现在软件中的指令(例如，过程、例程、子例程)可由微处理器实现或执行。例如，模块(例如，软件模块)可以是执行特定过程或任务的程序的一部分。术语“模块”是指可用于较大的机器或软件系统中的自给(self-contained)功能单元。模块可包括用于执行该模块的功能的指令集。模块可转换数据和/或信息。数据和/或信息可以呈适合的形式。例如，数据和/或信息可以是数字的或模拟的。在某些实施方案中，数据和/或信息有时可以是包、字节、字符或位。在一些实施方案中，数据和/或信息可以是任何收集的、组装的或可用的数据或信息。数据和/或信息的非限制性示例包括适合的媒体、图片、视频、声音(例如，频率、听得到的或听不到的)、数字、常数、值、对象、时间、函数、指令、地图、参考物、序列、读段、作图的读段、水平、范围、阈值、信号、显示、表示或它们的转换。模块可接受或接收数据和/或信息，将数据和/或信息转换成第二形式，并且将第二形式提供或传送到机器、外围设备、部件或另一模块。在某些实施方案中，微处理器可执行模块中的指令。在一些实施方案中，需要一个或多个微处理器来执行模块或模块组中的指令。模块可向另一模块、机器或源提供数据和/或信息，并且可从另一模块、机器或源接收数据和/或信息。

计算机程序产品有时被体现在有形计算机可读介质上，并且有时被有形地体现在非暂态计算机可读介质上。模块有时存储在计算机可读介质(例如，磁盘、驱动器)上或存储器(例如，随机存取存储器)中。能够实现来自模块的指令的模块和微处理器可定位于机器中或不同的机器中。能够实现用于模块的指令的模块和/或微处理器可定位于与用户相同的位置(例如，本地网络)或与用户不同的位置(例如，远程网络、云系统)。在结合两个或更多个模块进行方法的实施方案中，模块可定位于相同的机器中，一个或多个模块可定位于相同物理位置中的不同机器中，并且一个或多个模块可定位于不同物理位置中的不同机器中。

在一些实施方案中，机器包括用于执行模块中的指令的至少一个微处理器。序列读段定量(例如，计数)和/或突出端数据有时由执行被配置成进行本文所述的方法的指令的微处理器访问。由微处理器访问的序列读段定量和/或突出端数据可在系统的存储器内，并且计数和/或突出端数据可在它们被获得之后被访问并放置到系统的存储器中。在一些实施方案中，机器包括微处理器(例如，一个或多个微处理器)，该微处理器可执行和/或实现来自模块的一个或多个指令(例如，过程、例程和/或子例程)。在一些实施方案中，机器包括多个微处理器，诸如协调并且并行工作的微处理器。在一些实施方案中，利用一个或多个外部微处理器(例如，内部网络或外部网络、服务器、存储装置和/或存储网络(例如，云))操作机器。在一些实施方案中，机器包括模块(例如，一个或多个模块)。包括模块的机器经常能够从其他模块接收数据和/或信息中的一个或多个，以及将数据和/或信息中的一个或多个传送到其他模块。

在某些实施方案中，机器包括外围设备和/或部件。在某些实施方案中，机器可包括一个或多个外围设备或部件，所述外围设备或部件可向其他模块、外围设备和/或部件传送数据和/或信息，以及从其他模块、外围设备和/或部件传送数据和/或信息。在某些实施方案中，机器与提供数据和/或信息的外围设备和/或部件交互。在某些实施方案中，外围设备和部件辅助机器执行功能或直接与模块交互。外围设备和/或部件的非限制性示例包括适合的计算机外围设备、I/O或存储方法或装置，包括但不限于扫描仪、打印机、显示器(例如，监视器、LED、LCT或CRT)、相机、麦克风、平板(pad)(例如，ipad、平板电脑)、触摸屏、智能电话、移动电话、USB I/O装置、USB大容量存储装置、键盘、计算机鼠标、数字笔、调制解调器、硬盘驱动器、跳跃驱动器(jump drive)、闪存驱动器、微处理器、服务器、CD、DVD、图形卡、专用I/O装置(例如，测序仪、光电池、光电倍增管、光学阅读器、传感器等)、一个或多个流动池、流体处理部件、网络接口控制器、ROM、RAM、无线传送方法和装置(蓝牙、WiFi等等)、万维网(www)、因特网、计算机和/或另一模块。

软件经常提供于包含记录在计算机可读介质上的程序指令的程序产品上，所述计算机可读介质包括但不限于磁性介质，包括软盘、硬盘和磁带；以及光学介质，包括CD-ROM盘、DVD盘、磁光盘、闪存装置(例如，闪存驱动器)、RAM、软盘等等，以及可在其上记录程序指令的其他此类介质。在在线实现中，由组织维护的服务器和网站可被配置成向远程用户提供软件下载，或者远程用户可访问由组织维护的远程系统以远程访问软件。软件可获得或接收输入信息。软件可包括专门获得或接收数据的模块(例如，接收序列读段数据和/或作图的读段数据的数据接收模块)，并且可包括专门处理数据的模块(例如，处理接收的数据的处理模块(例如，过滤器、归一化、提供结果和/或报告)。术语“获得”和“接收”输入信息是指通过计算机通信装置，从本地或远程站点、人工数据录入或任何其他接收数据的方法接收数据(例如，序列读段、作图的读段)。输入信息可在接收该输入信息的相同位置生成，或者其可在不同的位置生成并传输到接收位置。在一些实施方案中，在处理输入信息之前对其进行修改(例如，将其置于适于处理的格式中(例如，制表))。

在某些实施方案中，软件可包括一种或多种算法。算法可用于根据有限指令序列来处理数据和/或提供结果或报告。算法经常是用于完成任务的定义指令的列表。从初始状态开始，指令可描述通过所定义的一系列连续状态进行、最终终止于最终结束状态的计算。从一种状态到下一种状态的转变不一定是确定性的(例如，一些算法并入了随机性)。作为示例而非限制，算法可以是搜索算法、排序算法(sorting algorithm)、合并算法、数值算法、图解算法、字符串算法、建模算法、计算几何学算法(computational genometricalgorithm)、组合算法、机器学习算法、密码学算法、数据压缩算法、分析算法等等。算法可包括一种算法或组合工作的两种或更多种算法。算法可具有任何适合的复杂性类和/或参数化复杂性。算法可用于计算和/或数据处理，并且在一些实施方案中，可用于确定性或概率性/预测性的途径。算法可通过使用适合的编程语言在计算环境中实现，编程语言的非限制性示例是C、C++、Java、Perl、Python、Fortran等等。在一些实施方案中，算法可被配置或修改以包括误差容限、统计分析、统计显著性和/或与其他信息或数据集的比较(例如，当使用神经网络或聚类算法时适用)。

在某些实施方案中，可实现若干算法以用于软件中。在一些实施方案中，可用原始数据训练这些算法。对于每个新的原始数据样品，训练的算法可产生代表性的处理数据集或结果。与被处理的父数据集相比，被处理的数据集有时具有降低的复杂性。在一些实施方案中，基于被处理的集合，可基于灵敏度和特异性来评估被训练的算法的性能。在某些实施方案中，可鉴别和利用具有最高灵敏度和/或特异性的算法。

在某些实施方案中，被模拟的数据(或模拟数据)可例如通过训练算法或测试算法来辅助数据处理。在一些实施方案中，模拟数据包括不同组序列读段的假设的各种取样。模拟数据可基于从真实人群中所预期的，或者可被偏移以测试算法和/或分配正确的分类。模拟数据在本文中还被称为“虚拟”数据。在某些实施方案中，可由计算机程序进行模拟。使用模拟数据集的一个可能步骤是评价鉴别结果的置信度，例如，随机取样匹配或最佳地表示原始数据的程度。一种方式是计算概率值(p值)，其估计具有比所选样品更好的评分的随机样品的概率。在一些实施方案中，可评估经验模型，其中假设至少一个样品匹配参考样品(具有或不具有分辨的变化)。在一些实施方案中，可使用诸如泊松分布的另一分布来定义概率分布。

在某些实施方案中，系统可包括一个或多个微处理器。微处理器可连接到通信总线。计算机系统可包括主存储器，经常是随机存取存储器(RAM)，并且还可包括辅助存储器。在一些实施方案中，存储器包括非暂态计算机可读存储介质。辅助存储器可包括例如硬盘驱动器和/或可移动存储驱动器(表示软盘驱动器、磁带驱动器、光盘驱动器、存储卡等等)。可移动存储驱动器经常从可移动存储单元读取和/或向可移动存储单元写入。可移动存储单元的非限制性示例包括软盘、磁带、光盘等等，其可由例如可移动存储驱动器读取和向其写入。可移动存储单元可包括其中存储有计算机软件和/或数据的计算机可用存储介质。

微处理器可实现系统中的软件。在一些实施方案中，微处理器可被编程为自动执行用户可执行的本文所述的任务。因此，微处理器或由此类微处理器进行的算法可能需要很少乃至不需要来自用户的监督或输入(例如，软件可被编程以自动地实现功能)。在一些实施方案中，过程的复杂性如此之大，以致于单个人或一组人不能在足够短的时间范围内执行该过程以确定样品的一个或多个特征。

在一些实施方案中，辅助存储器可包括用于允许计算机程序或其他指令被加载到计算机系统中的其他类似装置。例如，系统可包括可移动存储单元和接口装置。此类系统的非限制性示例包括程序盒式存储器和盒式存储器接口(诸如在视频游戏装置中所发现的)、可移动存储器芯片(诸如EPROM或PROM)和相关的插槽，以及允许软件和数据从可移动存储单元传送到计算机系统的其他可移动存储单元和接口。

在某些实施方案中，本文提供了包括一个或多个微处理器和存储器的系统、机器和设备，所述存储器包含可由所述一个或多个微处理器执行的指令，并且可由所述一个或多个微处理器执行的指令被配置成生成样品中核酸群体的核酸突出端的突出端谱，并且基于所述突出端谱，确定所述样品的一个或多个特征。

在某些实施方案中，本文提供了包括一个或多个微处理器和存储器的系统、机器和设备，所述存储器包含可由所述一个或多个微处理器执行的指令，并且可由所述一个或多个微处理器执行的指令被配置成分析与指示反向序列读段存在突出端的突出端识别序列相关的突出端信息，由此生成分析，并从所述分析中省略与指示正向序列读段存在突出端的突出端识别序列相关的突出端信息。

在某些实施方案中，本文提供了包括一个或多个微处理器和存储器的机器，所述存储器包含可由所述一个或多个微处理器执行的指令，并且所述存储器包含样品中核酸群体的核酸突出端的突出端数据，并且可由所述一个或多个微处理器执行的指令被配置成生成核酸突出端的突出端谱，并且基于所述突出端谱，确定所述样品的一个或多个特征。

在某些实施方案中，本文提供了包括一个或多个微处理器和存储器的机器，所述存储器包含可由所述一个或多个微处理器执行的指令并且所述存储器包含由测序过程生成的正向序列读段和反向序列读段，并且可由所述一个或多个微处理器执行的指令被配置成分析与指示反向序列读段存在突出端的突出端识别序列相关的突出端信息，由此生成分析，并从所述分析中省略与指示正向序列读段存在突出端的突出端识别序列相关的突出端信息。

在某些实施方案中，本文提供了其上存储有可执行程序的非暂态计算机可读存储介质，其中所述程序指示微处理器执行以下过程：(a)访问样品中核酸群体的核酸突出端的突出端数据，以及(b)生成核酸突出端的突出端谱，以及(c)基于所述突出端谱，确定所述样品的一个或多个特征。

在某些实施方案中，本文提供了其上存储有可执行程序的非暂态计算机可读存储介质，其中所述程序指示微处理器执行以下过程：(a)访问通过测序过程生成的正向序列读段和反向序列读段，以及(b)分析与指示反向序列读段存在突出端的突出端识别序列相关的突出端信息，由此生成分析，并从所述分析中省略与指示正向序列读段存在突出端的突出端识别序列相关的突出端信息。

试剂盒

在某些实施方案中提供了试剂盒。试剂盒可包含可用于进行本文所述的任何方法的本文所述的任何组分和组合物(例如，寡核苷酸、寡核苷酸组分/区域、靶核酸、酶)，其处于任何合适的组合。试剂盒可进一步包含任何试剂、缓冲液或可用于进行本文所述的任何方法的其他组分。例如，试剂盒可包含以下中的一种或多种：多个寡核苷酸种类或寡核苷酸种类库、适于5'磷酸化核酸样品的核酸的激酶(例如，多核苷酸激酶(PNK))、DNA连接酶、切割剂、适于进行补平和/或链置换反应的酶(例如，聚合酶)以及它们的任何组合。

试剂盒的组分可存在于单独的容器中，或者多种组分可存在于单一容器中。适合的容器包括单管(例如，小瓶)、板(例如，96孔板、384孔板等等)的一个或多个孔等等。

试剂盒还可包括用于进行本文所述的一种或多种方法的说明和/或本文所述的一种或多种组分的描述。例如，试剂盒可包括用于使用本文所述的组合物来修饰核酸片段的末端和/或产生核酸文库的说明。说明和/或描述可以呈打刷形式，并且可包含在试剂盒插页(insert)中。在一些实施方案中，说明和/或描述被提供为存在于适合的计算机可读存储介质(例如，便携式闪存驱动器、DVD、CD-ROM、软盘等等)上的电子存储数据文件。试剂盒还可包括提供此类说明或描述的因特网位置的书面描述。

实施例

以下所述的实施例说明某些实施方案，且并不限制本技术。

实施例1：RNAse可切割的发夹接头

降解的DNA分子(例如，古DNA)的一种破坏形式是胞嘧啶(C)脱氨基为尿嘧啶。在环中含有脱氧尿苷的发夹结构形式的DNA测序接头需要使用尿嘧啶-DNA-糖基化酶和内切核酸酶来切割单链。使用这些酶的一个潜在后果是在目标DNA片段内的受损位点处切割，使得片段不能进行文库转化。某些类似于古DNA的底物(诸如例如，循环的无细胞的DNA)可在从体内释放和清除的过程期间积累受损碱基。这可能限制含有脱氧尿苷的测序接头用于循环的无细胞的DNA文库制备的用途。在文库制备期间，在发夹环内具有RNA碱基的发夹接头的使用结合RNAse的使用可避免此类针对DNA文库制备的挑战。在文库制备期间使用RNAse还可用于在测序前减少某些污染物。示例性的发夹接头构型示于图1A、图1B和图1C中。

方法

通过将模板DNA与具有茎环结构的DNA/RNA接头连接来制备测序文库，其中双链茎由Illumina测序接头通用的若干DNA碱基的互补性产生，并且单链环含有P5和P7(正向和反向)引物位点的唯一的非互补DNA碱基。三个鸟嘌呤RNA碱基位于环内，其充当用于T1RNAse的切割位点。在切割后，形成可直接扩增和测序的双链DNA分子。

使用在末端修复期间进行A加尾的市售Illumina文库制备试剂盒进行比较。在本实施例中测试的RNAse可切割的发夹接头被设计成具有单个T突出端以容纳A加尾模板并且具有5'磷酸酯。

通过复制标准Illumina文库的制备，并用RNAse可切割的发夹接头替代商业试剂盒的尿嘧啶接头，评价了RNAse可切割的发夹接头的性能。使用四种来源的DNA作为模板：1)从血浆分离的无细胞的DNA，2)从尿液分离的无细胞的DNA，3)福尔马林固定石蜡包埋(FFPE)人样品，和4)从30kya野牛骨分离的DNA。如手册中所述进行文库制备，并且使用v2纳米流动池或v3试剂盒在MiSeq上进行末端配对测序。

结果

表1中的结果显示，RNAse可切割的发夹接头表现得与市售尿嘧啶接头一样好，对于来自尿液的无细胞DNA和片段化的FFPE样品观察到了最大收益。在以下八个实验的六个中，RNAse可切割的发夹接头显示稍低的重复率。

实施例2：唯一末端标识符(UEI)和唯一分子标识符(UMI)

诸如DNA释放、各种形式的细胞死亡和死后细胞过程的事件的特征在于不同的形态学特征和分子途径。在双链断裂后的DNA终端发现的信号可反映DNA降解的唯一模式，并且可提供关于致病过程和潜在病理过程的信息。为了研究这一点，将RNAse可切割接头设计成捕获当存在于天然DNA终端时的单链突出端(参见例如图1B)。

通过连接含有至少以下两个部分的合成DNA来生成此类接头：1)长度为N的5'或3'单链突出端，和2)与所述突出端相邻的唯一末端标识符(UEI)。UEI是传达突出端(如果有)的类型和长度的双链条形码。通常，UEI和UEI接头不被磷酸化以避免杂交和二聚体的形成。在一些情况下，UEI和UEI接头被磷酸化。

在这种发夹设计的某些迭代以及其他接头的设计中，唯一分子标识符(UMI)也包括在与UEI相邻处或接头结构内的其他地方(参见例如图1C)。UMI用于与UEI不同的目的，原因在于它们允许估计唯一起始分子的数目并且评价连接反应的灵敏度。

实施例3：具有用于对DNA末端加标签的唯一末端标识符(UEI)的双侧寡聚物

唯一末端标识符(UEI)也可用于对DNA末端加标签。为了提供用于其他测序平台或下游分析的灵活选择，UEI可作为独立的连接组分(即，没有测序仪特异性接头序列)发挥功能。该过程编码突出DNA的天然末端或保持其完整，以用于转化为任何文库类型或用于任何分析。此类连接的产物可以是双链平端分子。

一种设计描绘于图2A中，其允许UEI的任一侧与相应的DNA突出端连接。该寡聚物(其可被称为双侧UEI寡聚物)在正向链和反向链上具有内部尿嘧啶(或脱氧尿苷)，其用作用于尿嘧啶特异性切除试剂(USER)酶(即尿嘧啶DNA糖基化酶(UDG)和DNA糖基化酶-裂解酶内切核酸酶VIII的混合物)的切割位点。某些寡聚物设计包括UEI之间的二到十二个随机碱基，具有一个或两个尿嘧啶。图2A显示示例性寡核苷酸，并且示例性工作流程示于图2B中。简单地说，在连接后，酶混合剂在两条链上切割尿嘧啶，分离任何未连接的材料或相邻的连接产物。在切割后，模板DNA分子保留有在两侧连接的UEI。进行补平以修复分子中残留的切口。在补平后，留下双链平端分子，准备用于文库制备。

为了测试以上寡聚物设计的性能，将双侧UEI寡聚物连接(20×寡核苷酸:模板比)到从来自两个个体的血浆分离的5ng无细胞的DNA。经常，观察到从血浆分离的无细胞的DNA片段大小的两个级分。为了解决这个问题，将DNA提取物分级分离，以将大于500bp的片段(“高”)与小于500bp的片段(“低”)分离。如上文所述进行文库制备，将模板磷酸化，连接双侧UEI寡聚物，切割尿嘧啶，并进行补平。然后使用用于Illumina的NEB Ultra II文库制备试剂盒对所得DNA产物进行文库制备。使用MiSeq v2纳米流动池进行末端配对测序(2×150)。

结果

与其他设计相比，该方法生成更多的接头二聚体，这降低了测序输出。生成30,000到150,000个读段/文库。可作图到人基因组的DNA是预期大小分布的无细胞的DNA，约167bp，或环绕核小体的DNA的长度(参见图3和图4)。来自“高”级分提取物(APN 307和APN310)的极少读段短到足以合并，并且远高于一个核小体的大小(图3，分图C和分图F)。“高”级分文库对于任何视觉展示来说数据过少(图4，分图C和分图F)。文库的“低”或“全部”(即，未大小分级分离的)部分生成文库；然而，大多数预期大小的DNA片段只连接到一个双侧UEI寡聚物或不连接到双侧UEI寡核苷酸(图4，分图A、分图B、分图D、分图E)。

在某些情况下，每个模板DNA分子接受两个UEI寡核苷酸是有利的。经常，仅具有一个连接的UEI寡聚物或没有连接的UEI寡聚物的分子仍将在下游被转化为标准的文库分子。出于表征DNA的天然末端的目的，没有UEI寡核苷酸的片段是无用的，并且具有一个UEI寡聚物的片段是不理想的。为了解决这一挑战，在补平步骤期间将生物素化的dNTP并入链中。通过仅固定那些已经成功补平(即，成功连接)的模板片段，没有UEI寡聚物连接事件的DNA分子被排除在下游处理之外。该方法适用于在测序制备之前，制备具有UEI寡取物(即，双侧UEI寡取物)的DNA片段的任何设计。

实施例4：具有用于对DNA末端加标签的唯一末端标识符(UEI)的阻断单侧寡聚物

不同于使用促进UEI寡聚物的任一末端上的连接的设计，而是将单个阻断的修饰碱基置于UEI寡聚物的3'末端上以确保在特定方向上的连接。如图5中所示的一种设计阻断UEI寡聚物的3'末端，使得它们被迫单向连接。选择异脱氧碱基作为阻断物。异脱氧-G和异脱氧-C具有不同于天然碱基的氢键结合模式。因此，它们不能与任何天然碱键合。通常，isoG仅可与isoC配对。通过仅使用这两个修饰碱基中的一个(isoG或isoC)，在UEI寡聚物的“不正确”末端上不应发生连接或杂交，迫使连接事件的取向正确。

由于只有模板DNA被磷酸化(且寡聚物未被磷酸化)，因此连接后正链和反链两者上的分子中都保留有切口。用链置换聚合酶补平完成双链分子，并且去除具有修饰碱基的UEI寡聚物的链(参见图6)。

实施例5：合成DNA和生物DNA的去磷酸化

以上某些实施例中所述的文库制备省略了常规的末端修复步骤，该步骤通常回噬3'突出端并补平5'突出端，并且制备用于A加尾或平端连接的模板。上述方法典型地不包括使用核酸酶或聚合酶来制备模板DNA，而是在连接前用T4PNK将模板磷酸化。

在某些情况下，对寡聚物(包括接头和对照)和/或模板DNA进行预处理以去除凹陷的或其他形式的所有3'和5'终端磷酸酯。将磷酸酶rSAP(1单位/1pmol DNA)用于预处理。

图7A、图7B和图7C中的Tapestation数据证实用rSAP处理无细胞的DNA模板(图7B)和无细胞的DNA和接头(图7C)后文库生成的改善。rSAP处理后的改善被认为是接头二聚体峰的减少和DNA尺寸峰的增加。图7A显示几乎排他地由接头二聚体组成的文库，当不用rSAP处理模板时几乎完全丧失DNA。

当合成的50bp双链对照寡聚物在第一步骤之前用T4PNK去磷酸化时，也观察到显著的改善。这表明即使在从商业机构购买未磷酸化的寡聚物或接头时，一些DNA终端也不适用于进行末端修饰(包括用T4PNK进行磷酸化)，因此在连接期间表现差。

实施例6：配偶对文库

在文库制备之前，典型地机械或酶促剪切比用于文库转化的推荐片段长度更长的基因组或其他DNA。在剪切后，以末端修复步骤开始常规的文库制备。剪切和末端修复均阻止接近天然DNA终端，并因此阻止观察天然DNA终端。

无细胞的DNA片段的一部分可大于用于生成可用测序数据的理想片段(例如，高于500bp到700bp)。含有大片段的无细胞DNA的高分子量(HMW)部分可能是在非凋亡细胞死亡或坏死后释放的结果，并且此类片段的末端可提供有用信息的来源。用于保留和表征来自HMW DNA的长DNA片段的天然末端并成功地将所保持的末端转化为测序文库的一种设计是配偶对文库的修饰或DNA片段的环化。

配偶对修饰首先包括将长(例如，>500bp)的5'磷酸化DNA片段与生物素化的双链(ds)寡核苷酸库连接。每个ds寡聚物均被设计为在一侧包含长回文单链突出端(可作为5'突出端或3'突出端放置；在图8A中显示为5'突出端)，并且在另一侧包含5'或3'单链突出端的所有组合，所述突出端由变化到最高长度为N的随机序列构成，其之前是鉴别所述突出端的长度和类型(5'或3')的唯一序列，所述唯一序列被称为唯一末端标识符(UEI)。图8A中图解说明了具有不同的5'和3'突出端长度的寡核苷酸的几个示例。长回文序列通常在人基因组中未发现或预测到，在经常与人微生物群系相关的细菌中也通常观察不到。针对发夹结构形成所估计的高ΔG值表明，自身二聚体而不是发夹将如所期望的那样优先形成，从而促进环化。dsDNA模板上存在的天然3’和5’突出端(如果有的话)将连接到寡核苷酸组的可用突出末端。天然平头dsDNA模板可连接到组中的平端寡核苷酸。由互补寡核苷酸的长回文序列产生的自身二聚体允许在连接酶存在下环化长片段。在一些情况下，多核苷酸激酶与连接酶一起使用或在连接酶之前使用，以修复切口并完成双链。在一些情况下，用5'磷酸酯制备寡核苷酸。

在将寡核苷酸和模板DNA连接并环化后，外切核酸酶去除任何非环化的DNA或过量的寡核苷酸。然后剪切(例如，使用超声发生器(Covaris)或通过酶促片段化)环化的DNA以生成适于短读段高通量测序仪的分子。通常，通过将与生物素化寡核苷酸连接的所有DNA片段固定在抗生蛋白链菌素包被的珠粒上，仅捕获目标DNA末端。这些步骤减少了从不源自天然末端的高分子量(HMW)DNA碎片生成文库分子。在DNA提取后对低分子量(LMW)核酸和高分子量(HMW)核酸进行分级分离之后，用于长DNA片段的环化策略可与用于较短DNA片段的方法(如上述那些)配对。由这两种策略产生的数据集可进行生物信息学合并或单独分析以用于比较目的，从而探索天然DNA末端如何根据总DNA片段长度而不同。

配偶对或环化方法通常如下进行：1)用磷酸酶预处理模板DNA；2)使模板DNA磷酸化；3)将突出的UEI寡核苷酸库连接到模板；如果需要，修复切口；4)用外切核酸酶处理；5)剪切；6)将生物素化片段固定在珠粒上；7)开始所选的文库制备。

对于上述方法，如果特定的突出末端模式对于生物学(例如人内源性或组织特异性核酸酶功能)、生物医学(例如病理或治疗诱导的细胞死亡、肿瘤形成)或法医(例如生物学相对于埋葬学降解)发现是重要的，则具有嵌入UEI序列的突出寡聚物/接头可用作被靶向富集策略，使用或不使用生物素。

实施例7：额外的接头的示例

图9A和图9B(分图A)中显示额外的接头示例。图9A显示在第一阶段使用链置换聚合酶附接唯一末端标识符(UEI)序列，以及在第二阶段附接测序仪特异性序列(例如，测序接头)的示例性方法。因此，图9A的分图A中所示的接头不含有测序仪特异性接头序列(例如，P5、P7)。图9A的分图A显示由唯一末端标识符(UEI)序列(以灰色显示)和随机序列(以黑色显示)构成的Y接头(左)和发夹接头(右)。在一些情况下，Y接头是发夹接头的切割形式。发夹接头包含切割位点(“X”)，所述切割位点可包含一个或多个如实施例1中所述的RNA核苷酸。图9A的分图B显示接头与靶核酸的连接。可在切割位点处切割发夹接头连接产物。在切割后，连接产物与Y接头连接产物相同。图9A的分图C显示在切口处用链置换聚合酶产生完全互补的双链平端片段的补平步骤。图9A的分图D显示准备用于任何所选测序文库制备(第二阶段)的核酸片段。

图9B显示用于将Y接头或发夹接头附接到天然核酸片段末端的示例性方法。分图A显示由突出端、唯一末端标识符(UEI)序列(以灰色显示)和引发序列(引发序列1(例如，Illumina P5引发序列)和引发序列2(例如，Illumina P7引发序列)；引发区域以黑色显示)构成的Y接头(左)和发夹接头(右)。分图B显示接头与靶核酸的连接。由于接头未被磷酸化，因此连接仅发生在模板的5'末端，留下切口。分图C显示，在5'接头链被磷酸化并连接接头的3'末端后，切口被修复。在切口修复后，可在切割位点处切割发夹接头连接产物。在切割后，连接产物与Y接头连接产物相同。该方法生成准备用于任何所选测序文库制备(第二阶段)和/或所选测序仪的双链核酸片段，这可能取决于所用的引发序列。

实施例8：片段大小选择

不是在文库制备后使用珠粒、凝胶切除或自动化方法例如Pippen Prep机器进行大小选择，而是在DNA提取物上进行大小分级分离，在一些情况下，控制将被转化为文库分子的DNA的大小。对于分级分离有某些实际的和生物学的动机。实际上，分级分离减少了对于使用某些测序平台(例如，Illumina平台)的有效测序来说太长的片段的存在。在生物学上，分级分离使可能是不同生物学过程的产物的片段被分离并保留。无细胞的DNA(cfDNA)片段长度通常约为一个、两个或数个核小体，约170bp、约340bp、约510bp的大小，并且所述片段通常被认为是细胞凋亡的产物。在某些情况下，较大的片段包括基因组DNA(gDNA)污染物。较大的片段还可包括cfDNA片段(例如，大于核小体的片段，例如，处于不同分解阶段的片段，或来源于除凋亡以外的过程(例如，坏死)的片段)。

使用固相可逆固定(SPRI)珠粒进行分级分离，以分离和保留短和长DNA片段，其分别定义为<500bp和>500bp。在不同的PEG-8000(18％、20％和38％)和NaCl(0.5M、1M、2M)浓度的溶液中制备羧化珠粒。将DNA提取物与溶液一起培育，并使用磁性粒子分离器收集珠粒。取决于期望效果，丢弃或保留上清液。在用乙醇洗涤珠粒后，DNA从珠粒释放到中性pH的洗脱缓冲液中，例如水、10mM Tris-HCl、TE缓冲液或具有TWEEN-20的TE(TET)。

将被固定在溶液中SPRI珠粒上的DNA片段的长度取决于PEG的浓度，其转化为珠粒与DNA的比率。通常，该比率越低，捕获在珠粒上的DNA片段将越长，导致保留在上清液中的DNA越短。为了保留来自上清液的短片段，使用更高的珠粒与DNA的比率。在一个实施例中，对血浆DNA提取物进行双重尺寸选择，并将每种DNA提取物与0.4-0.5x比率的SPRI珠粒溶液(最终18％PEG,1M NaCl)于室温下温育15分钟(即20μl DNA，8μl珠粒)。在15分钟后，收集上清液并放在一边。用80％乙醇将珠粒洗涤两次，并且在15μl TET缓冲液中洗脱。该级分通常不包括短DNA片段。

将2x比率的SPRI珠粒添加到上清液中。如上文所述进行温育、洗涤和洗脱。在洗脱后，该级分通常含有短DNA片段。然后将短片段用于各种Illumina突出文库制备方法中，所述方法中的一些在上文的某些实施例中描述。

实施例9：具有RNA突出端的寡核苷酸接头

本实施例描述了一种方法，该方法使用RNA碱基作为用于寡核苷酸接头中的单链突出端的基底。具有RNA突出端的接头可被构造用于以多种构型制备文库，例如，Y、发夹、双链体、具有阻断修饰的双链体(参见例如，图10A)。与本文所述的所有其他迭代相似，将指示突出端长度和突出端类型(例如，5'突出端或3'突出端)的唯一末端标识符(UEI)并入寡核苷酸的双链体部分中。在一些情况下，在UEI-接头中包含Illumina特异性接头序列(例如，P5、P7)。在一些情况下，在UEI-接头中不包含Illumina特异性接头序列(例如，P5、P7)。

某些连接酶或连接酶的组合，诸如T4RNA连接酶2或

连接酶，在某些条件下，当DNA与RNA模板退火时，可将RNA与DNA连接。通过产生具有RNA碱基的单链突出端的接头，与天然DNA模板的杂交将产生可连接的RNA-DNA双链体。

为了解决寡核苷酸接头形成二聚体的潜在问题(例如，通过突出端杂交形成RNA-RNA双链体)，使用靶向双链RNA(dsRNA)结构的核糖核酸酶(RNAse)进行接头二聚体的消化。RNAse III是靶向dsRNA结构的示例性RNAse。大多数核糖核酸酶需要长底物以良好地发挥功能。然而，较短的dsRNA接头二聚体通过消化或切割被消除，只要接头设计(例如，底物的最小长度和允许的前导序列)的5'末端('前导序列')满足特定核糖核酸酶(例如，RNAseIII)的规范要求。

示例性工作流程包括以下组成部分：1)将DNA模板去磷酸化；2)将DNA模板磷酸化；3)使模板与多个(完全或部分，取决于设计)双链DNA接头寡核苷酸种类杂交，所述双链DNA接头寡核苷酸种类各自具有UEI和具有长度为1到N的随机RNA碱基的单链突出端；还包括钝接头(无突出端)；4)与连接酶中的一种或组合连接；5)如果需要，切割发夹结构；6)取决于接头构型，使用链置换聚合酶在切口处完成双链分子-切口密封或补平；7)SPRI纯化以基于大小去除接头二聚体，去除过量的接头和低于100bp的二聚体；在某些情况下还使用酶促消化；8)如果需要，继续Illumina准备。

实施例10：用于高分子量(HMW)DNA的寡核苷酸接头

本实施例描述了利用短读段下一代测序(NGS；例如，高通量测序)从高分子量(HMW)DNA收集突出端信息的寡核苷酸接头和方法。

上述实施例中所述的某些寡核苷酸接头和方法可用于获得长度小于500bp的双链DNA(dsDNA)的突出端长度和取向的信息(例如，使用短读NGS测序仪)。上述某些策略依赖于将条形码化的Y(或发夹)寡核苷酸接头库连接到dsDNA上，所述寡核苷酸接头在5'终端或3'终端处含有随机单链N聚体。在下一代测序后，存在于每种类型的接头上的唯一条形码传达存在于每个DNA分子上的突出端(如果有的话)的正确长度和取向。在某些方案中，由于所涉及的分子生物学的具体情况，一种计算方法从测序数据(例如，使用Illumina平台获得的测序数据)的读段2开始使用条形码。

通常，在上述方法中，dsDNA末端未改变。使用短读段测序仪通常需要在测序前将高分子量(HMW)DNA(例如，长度大于500bp的DNA)剪切为较小的片段大小。HMW DNA的剪切通常导致天然末端丢失。下面提供了寡核苷酸接头和方法，用于在短读段测序仪上对任何大小的DNA(无论是裸露的还是结合到染色质的)进行测序，同时保留关于原始DNA分子的突出端的信息。此类接头和方法可用于用以分析天然大于约500bp的DNA的突出端信息的高通量方法，所述DNA例如包括但不限于来自福尔马林固定的石蜡包埋组织的DNA(FFPE DNA)、被体内和/或体外内源方式(UV、甲基化、庞大加合物等)损伤的DNA和来自细胞培养提取物的DNA。其他用途可包括在体外或体内的细胞培养中探询医学设计的DNA损伤和化学治疗剂；替代当前TUNEL测定；筛选新型核酸酶；等等。

第一种方法示于图11中。其天然片段长度的DNA分子经历部分测序文库制备，其中将具有突出端长度信息的非磷酸化简并条形码化第一接头(例如，P7接头)连接到磷酸化基因组DNA(gDNA)。可使用任何适合的修饰对第一接头(例如，P7接头)进行修饰，以阻止接头二聚体的出现并防止接头链接(参见例如图12)。

在进行适当的固相可逆固定(SPRI)清理以去除未连接的接头后，连接的接头经历磷酸化和切口修复，如上文某些实施例中所述。如果使用部分第一接头(例如，P7接头)策略，则补平接头(例如，使用Bst DNA聚合酶)。在进行适当的SPRI清理以去除接头二聚体后，使用机械或酶促方法将DNA剪切到适当的测序长度以用于短读段测序仪。然后使用适合的末端修复和A加尾技术对DNA分子进行末端修复和A加尾。在A加尾后，将在正确末端上具有5'磷酸化修饰且在其他游离末端上具有连接阻断修饰的被修饰的第二接头(例如，修饰的P5接头)与剩余的DNA片段连接。

然后使用根据第一接头和第二接头(例如，P5/P7扩增策略)设计的引物对文库进行PCR扩增。该策略确保对天然DNA突出端的富集，因为在最终库中仅具有修饰的第一接头(例如，P7接头)的分子被扩增。仅在第一接头(例如，P7接头)上修饰的这种策略还确保了对待依照测定中的具体情况在Illumina测序仪的读段2上读取的正确连接事件的富集。

第二种方法示于图14中。可对裸DNA或染色质结合DNA进行该捕获高分子量DNA分子末端的方法。首先，将突出的Y接头库连接到游离dsDNA末端。可阻断所述突出的Y接头(例如，使用C3间隔物；阻断的修饰在图14中以X指示)。然后剪切DNA(在染色质结合DNA的情况下，在剪切前用蛋白酶K处理DNA)。在将DNA片段化为适于测序的大小后，通过进行末端修复步骤(具有或不具有A加尾)并将特化接头(例如，特化P5接头；在图14中称为特殊的短P5*)连接到新的游离末端来完成文库，以便富集正确形成的分子。短于适于剪切的DNA的DNA仍将制备文库分子，但在两侧都具有正常的(即，非特化的)接头和相应的条形码。切割的产物可经历进行平端修复和A加尾的末端修复过程。对于该步骤，可使用市售的酶混合物。此类酶混合物可包括进行5′磷酸化的多核苷酸激酶、进行5′补平的聚合酶(例如，T4聚合酶)、具有3′到5′外切核酸酶的酶(例如，T4聚合酶)和进行A加尾的聚合酶(例如，Taq聚合酶)。

特化接头(例如，特化P5接头)被设计成使得长链(例如，P5)的互补物足够长以保持退火，但太短以致于在索引PCR期间不能扩增，因此仅有一条链将恰当地形成并复制。如果来自突出端的信息在P7侧，则考虑该信息。因此，该链被富集。特化接头(例如，特化P5接头)具有唯一的8bp条形码以识别曾经是HMW的分子。特化接头可被阻断(在图14中以X指示)，从而将错误方向上的相互作用降到最低。在某些情况下，将特化接头磷酸化并且用C3间隔物阻断。两条链中的一条可具有T突出端之前的硫代磷酸酯骨架修饰(参见图14；硫代磷酸酯骨架修饰在特化P5接头库中以星号“*”指示)。

示例性的特化P5接头包括以下核苷酸序列：

5′/5Phos/GGGTAGCAAGATCGGAA/3SpC3/3′

5’/5SpC3/ACACTCTTTCCCTACACGACGCTCTTCCGATCTTGCTACCC＊T 3′

进行该方法的初步测试，并且结果表明该方法成功地捕获了高分子量DNA分子的末端。

实施例11：表征片段化DNA的天然终端的NGS文库制备方法

在本实施例中，描述了基于连接的下一代测序(NGS)文库方法，其提供了关于片段DNA终端的天然状态的综合信息。通过省略标准DNA末端修复步骤，使用该方法生成的文库可使用定制的测序接头来编码每个分子终端处的断裂类型。这种文库制备方法的最终结果是提供全基因组核苷酸分辨率DNA片段化的高通量NGS测定法。用于生成Illumina相容性双链DNA(dsDNA)测序文库的该方法将唯一标识符引入测序接头中，所述唯一标识符编码存在于每个原始模板分子上的单链突出端(如果有的话)的类型(3'、5'或平端)和长度，以及每个DNA片段上的剩余突出端(如果存在的话)的长度和序列。使用1)具有已知单链突出端的对照寡聚物群体；和2)来自特异性限制酶的DNA消化产物来证实该方法的准确度。还描述了通过常用的机械和酶促剪切方法，使用Diagenode Bioruptor、NEB片段化酶(Fragmentase)、DNaseI和微球菌核酸酶产生的dsDNA片段的天然终端的分布。最后，使用该方法，证明用于收集人血液的常用程序在它们保护循环的无细胞的DNA片段免于被血液中存在的核酸酶降解的能力方面不同。

材料和方法

核酸模板的获取和制备

使用随机序列生成器以50％GC含量设计合成的对照寡聚物(表2)；去除匹配公共数据库中任何已知的生物体的序列。每个对照分子(n＝12)是具有一个平端和一个长度为1到6个核苷酸的随机序列的3′或5′单链突出端的唯一50bp双链DNA序列。由于每个对照都是唯一序列，因此它充当指示寡聚物结构的自身条形码。使用标准脱盐纯化合成寡聚物，并且通过集成DNA技术(Integrated DNA Technologies)(IDT)进行双链化；所有随机核苷酸均被“手动混合”以减少合成偏差。将对照寡聚物以等摩尔比汇集在一起。在接头连接之前，在20μl反应中，使用快速虾碱性磷酸酶(New England Biolabs)将最高达1pmol汇集的对照寡聚物去磷酸化，在37℃温育30分钟，之后在65℃热灭活10分钟。然后，通过使热灭活的20μl虾碱性磷酸酶反应达到40μl，使用补充有ATP的T4多核苷酸激酶(New England Biolabs)，将对照寡聚物5'磷酸化。在37℃进行30分钟磷酸化反应，之后在65℃进行30分钟热灭活步骤。然后寡聚物准备用于接头连接。通过将原始输入pmol除以40μL来计算寡聚物浓度。

NA12878gDNA购自卡瑞尔医学研究所(Coriell Institute for MedicalResearch)，以若干种方式被制备用于接头连接。机械剪切：使用Bioruptor Pico(Diagenode)和制造商说明书将NA12878剪切为350bp的平均长度。然后依照制造商说明书，使用不含Pippen Prep染料的2％凝胶(Sage Sciences)从200-600bp中对剪切的DNA进行大小选择。限制酶消化：在37℃使用10单位的MluCI(New England Biolabs)将1μg NA12878在50μl反应中消化1小时。依照制造商说明书，使用2x AMPURE珠粒(Beckman Coulter)纯化消化的DNA。在纯化后，使用不含Pippen Prep染料的2％凝胶(Sage Sciences)和制造商说明书，从200-600bp中对DNA进行大小选择。酶促剪切：在37℃用

dsDNA片段

将1μg NA12878在20μl反应中消化25分钟，并且用0.1mM EDTA终止。然后将反应物达到50μL并且如上文加以纯化。DNase I：在37℃使用0.01单位的DNase I(New EnglandBiolabs)将1μg的NA12878在50μl反应中消化10分钟，并且用0.1mM EDTA终止；如上纯化DNA。微球菌核酸酶：在37℃使用2单位的微球菌核酸酶(New England Biolabs)将1μg的NA12878在50μl反应中消化5分钟，并且用0.1mM EDTA终止；如上纯化DNA。

所有NA12878反应：在使用任何以上方法制备NA12878gDNA后，通过使用与上文针对对照寡聚物所详述的相同方案进行去磷酸化，之后进行5'磷酸化，对所述NA12878gDNA进行末端制备以用于接头连接。

对于人血浆和无细胞的DNA制备，从斯坦福血液中心(Stanford Blood Center,Palo Alto,CA)获得来自去识别的(deidentified)供体的全血用于体外研究用途。将血液抽取到若干管型(表3)中的一种中。通过在4℃将血液收集管以1800g旋转10分钟从全血中提取血浆。在不干扰细胞层的情况下，将上清液以2ml等分试样在无菌条件下转移到微量离心管中，并在4℃以16000g再次离心10分钟以去除细胞碎片，并且以1ml等分试样储存在-80℃。依照制造商的方案，使用循环的无细胞的DNA试剂盒(Qiagen)从1ml血浆中提取cfDNA。使用QUANT-IT高灵敏度dsDNA测定试剂盒和Qubit荧光计(ThermoFisher)测量纯化的cfDNA的双链DNA(dsDNA)浓度。使用Agilent TapeStation 4200以及相关的D1000和D5000高灵敏度产品分析纯化的cfDNA的大小分布。通过使用与上文针对对照寡聚物所详述的相同方案进行去磷酸化，之后进行5'磷酸化，对无细胞的DNA进行末端制备以用于接头连接。

对于对照加标实验，每个供体在五个血液收集管中获得大约40ml全血(表3)。将来自每个管的血液分成三个等分试样。为了准确评价血液核酸酶对突出端谱的作用，在无菌条件下添加对照寡聚物库(每ml全血总共1pmol)。在血清管的情况下，由于从抽血时开始凝固，因此在实验开始时分离凝块，并且在血清制备之前将对照寡聚物库添加到1ml上清液中。将血浆-寡聚物混合物温育0小时、4小时或24小时。在每个时间点之后，立即依照上述方案进行血浆提取和cfDNA制备。将水和1×PBS pH 7.4用作阴性对照，替代对照寡聚物；类似于全血等分试样进行DNA提取。根据输入的血浆体积，按比例缩放珠粒结合缓冲液、蛋白酶K和磁珠的体积。如上文所述进行掺加对照的cfDNA的DNA末端制备，之后进行文库制备。

接头连接和测序文库制备

每个接头都含有Illumina测序仪特异性引发位点和唯一末端标识符(UEI)-指示原始分子中存在的突出端(如果有的话)的长度和特性(5′或3′)的条形码序列(表4)。使用标准脱盐纯化合成接头，并且通过集成DNA技术(IDT)进行双链化。出于本研究的目的，13个接头组包括具有3′突出端(长度为1-6nt)的六个接头、具有5′突出端(长度为1-6nt)的六个接头和单个平头接头(即，无突出端)。接头未被磷酸化，因此阻碍形成二聚体。以等摩尔比汇集所有13个双链化接头，并且使用以下20μL反应通过末端去磷酸化而制备用于连接：1pmol汇集的接头，10单位的快速虾碱性磷酸酶(New England Biolabs)，1×Cutsmart缓冲液，在37℃温育30分钟，之后在65℃热灭活10分钟。在单个QIAQUICK核苷酸去除柱(Qiagen)上组合多重去磷酸化反应，并且根据制造商说明书加以纯化。使用DNA浓度(qubit荧光定量)和已知长度计算接头摩尔浓度。然后接头准备用于连接。

接头连接包括初始连接步骤，之后是索引PCR之前的后续切口修复连接步骤。在具有800单位的T4DNA连接酶(New England Biolabs)的60μl连接反应中，将0.05pmol底物DNA(对照/NA12878/cfDNA)与1pmol接头组合，并且在20℃温育1小时，之后对于对照寡聚物进行2×AMPURE清洁，或者对于NA12878或cfDNA进行1.2×AMPURE清洁。在DNA纯化后，用20单位的T4多核苷酸激酶(New England Biolabs)和1×T4DNA连接酶缓冲液在48.8μl反应中将DNA磷酸化并且在37℃温育。在30分钟后，将480单位的T4DNA连接酶添加到反应中并且使温度降到20℃且保持15分钟。在切口修复后，进行2×AMPURE珠粒清洁，并且在20μl的低TE(10mM Tris pH 8,0.1mM EDTA)中洗脱。

对于索引PCR，在50μl反应中，将10μl纯化的接头连接的DNA与1×Kapa HiFiHotStart ReadyMix(Roche)以及0.4mM最终浓度的IS4和0.4mM最终浓度的索引引物2组合，并且使用以下热循环条件进行扩增：在98℃进行3分钟的初始变性，之后在以下条件下对对照/NA12878进行15个循环或对cfDNA进行18个循环：98℃持续20秒、68℃持续30秒、72℃持续30秒，并且最后在72℃进行1分钟的延伸步骤。在索引PCR之后，用1.5×AMPURE清洁(用于对照寡聚物)或用1.2×AMPURE清洁(用于NA12878/cfDNA)来纯化DNA。对于每个测序DNA文库，使用片段长度分布和dsDNA浓度(Agilent Tapestation 4200和Qubit荧光定量单元)计算最终摩尔浓度估计值。然后汇集样品并将其在Illumina MISEQ台式测序仪(依照制造商说明书)上运行2×150bp循环，至每个样品大约100,000个读段对的深度。

信息分析

当模板分子短于正向读段和反向读段加上单个7-nt条形码的的长度总和时，对UEI-条形码化读段对进行作图造成生物信息学挑战。存在这种挑战是因为每个读段均可延伸穿过其配偶的条形码序列，并且可能超出而进入Illumina接头序列中。在预期短模板分子的研究中，诸如在古DNA领域，一种方法是同时去除接头序列和合并读段。该过程包括基于序列相似性将正向读段和反向读段折叠(collapsing)为单个序列，同时使用SEQPREP(github.com/jstjohn/SeqPrep)修整匹配已知Illumina接头序列的读段的末端。然而，当UEI存在时，这些合并的读段在两个末端均可具有7-nt UEI，其中之一将被反向互补。

为了简化作图，以UEI序列的存在为条件进行接头修整和读段合并。对于每个读段，检查在每对中正向读段和反向读段两者上已知UEI的存在。允许UEI含有最多达一个“N”碱基，但不允许其他碱基错配。如果两个读段都具有已知的UEI序列，则通过针对每个序列的配偶UEI的反向互补物搜索每个序列来检查读段是否合并。如果两个读段都不满足该准则，则两个读段都不改变地输出，因为如果读段延伸通过其配偶的UEI序列，则它仅可包括接头序列。如果两个读段都含有它们的配偶的反向互补的UEI序列，并且遇到配偶的UEI的位置匹配，则两个读段在它们的配偶的UEI相遇的位置处截短。如果位置不匹配，则将两个读段都丢弃。

并非将所有合并读段对存储为折叠序列，而是将它们保持为截短的读段对，使得配偶的UEI序列不会干扰作图到参考基因组。为了其中预期相对短的序列的对照寡聚物实验，还存储了使用以上标准合并的读段对的折叠序列。对于此类序列，允许合并区域内的碱基含有至多一个错配(在错配位置处所选择的碱基是具有较高质量的碱基，或者在碱基质量相当的情况下是随机碱基)。

为了降低Illumina测序对照DNA-phiX由于索引错误分配而污染测序数据的风险，首先使用bwa mem以默认参数将所有原始数据与phiX基因组比对。提取未作图的读段(samtools fastq-f 12)并且将其用于下游分析。

由于发现当在正向(P5)读段而不是反向(P7)读段上遇到时，突出的接头可靠度更低，因此分析忽略了以突出的接头开始的正向读段。在正向读段和反向读段上都允许平端接头。在所有情况下，仅当计算结果时应用该过滤步骤(当处理、合并和比对时包括所有读段，但不允许正向读段上的突出接头影响结果)。

使用了利用“唯一末端识别-UEI”条形码识别突出端的代码。该算法包括以下特征：

1.包含指示突出端或平端的类型和长度的UEI条形码序列的列表的数据结构；

2.取每个读段的前7个碱基(7＝条形码的长度)；

3.查看这些是否匹配已知的条形码；

4.如果有一个N，则查看将其转换为碱基是否使其匹配已知条形码；

5.如果其匹配条形码，则通过从读段中获取由条形码指示的碱基的数目来查找条形码的突出端；以及

6.除非条形码是平的，否则忽略正向读段。

对照寡聚物实验

对照寡聚物是合成的双链DNA的短(50bp)序列，其一个末端被合成为具有单链突出端且其另一末端意图是平的。当处理时，除了在对照寡核苷酸链接在一起的情况下，期望使用以上标准合并所有恰当形成的序列。定义了两种评估对照寡聚物实验的方式，一种是测量灵敏度，且另一种是测量特异性。

为了测量灵敏度，计算使用接头正确鉴别的正当(非链接)对照寡核苷酸末端的百分比。首先，考虑使用上述标准合并的所有读段。当在合并读段对时遇到错配碱基时，选择具有较高质量评分的碱基；如果质量评分是相当的，则随机选择碱基。接着，构建包含所有对照寡聚物序列和它们的反向互补物的参考序列，所述对照寡聚物序列和它们的反向互补物由长度等于最长对照寡聚物突出端的“N”碱基的延伸(run)分开。为了确定每个合并读段的对照寡核苷酸类型，使用Edlib C++序列比对文库将合并读段与该参照序列比对，允许在比对中在读段开始和结束处有空位并且允许最多达一个碱基错配，使“N”匹配任何碱基而没有罚分。如果最佳比对落在单一对照寡聚物序列的坐标内(非嵌合比对)，则选择该对照寡聚物作为正确序列。如果用于正确突出端的条形码与寡聚物的突出端末端连接并且用于平端接头的条形码与相对末端连接，则认为对照寡聚物是正确的。

为了测量特异性，计算连接到具有匹配突出端的对照寡聚物正确末端的UEI序列的百分比。在这种情况下，没有评估对照寡聚物是否形成链，由此评估任何可用于连接的DNA末端。对于每个末端配对读段(如上文所述截短，但不合并)，将UEI之后的序列与含有所有对照寡聚物序列的参考序列比对，所述对照寡聚物序列由等于最长突出端长度的“N”碱基延伸分开。如果比对是非嵌合的(在单一对照寡聚物序列的坐标内)，则使用允许最多达一个错配并且“N”匹配任何碱基的最佳比对来确定正确的对照寡聚物序列。然后将特异性定义为读段的百分比，对于该读段，在读段开始时的UEI后跟随在正确取向上的正确类型的对照寡核苷酸末端。

就确定突出端序列的核苷酸组成来说，UEI序列末端和对照寡聚物序列开始之间的所有碱基均被认为是真正的突出端序列。当评估突出端序列的碱基组成时，需要将所有接头连接到正确类型的对照寡聚物。

人DNA

如果需要，将过滤后残留的末端配对读段截短，并且与从UCSC基因组浏览器下载的hg19人参考基因组比对。对于比对，使用具有默认参数的bwa aln和bwa样品，跳过读段开始处的UEI序列(-B参数)。然后使用Samtols rmdup去除重复的读段。仅当处于最低作图质量为20(samtools view–c–f66–q20)的恰当配对时，才将读段计数为作图的，限制酶实验的情况除外，在该实验中，由于链接片段引起嵌合比对的可能性而去除对恰当配对(samtoolsview–c–f64–q20)的要求。

为了对作图的读段中的UEI类型进行计数，使用HTSLib的BAM解析器扫描BAM文件，并且从BC标签获得UEI序列。通过从每个读段的开始取等于UEI所示突出端长度的多个碱基来获得突出端序列。

一些测序文库含有掺有对照寡聚物的人DNA。为了分析这些文库，首先处理所有测序读段，就如同文库仅含有人DNA一样。然后，通过选择未作图的读段和作图质量小于10的读段(使用可将条形码重新附加到所提取的读段序列的定制技术，不同于Samtoolsfastq)，从与人参考基因组的比对提取非人序列。然后以与其他对照寡聚物文库相同的方式处理这些主要为对照寡聚物的读段。

结果

文库构建

该实施例中的方法依照文库制备工作流程测定片段化和降解的dsDNA终端。用于该方法的每个接头均包括三个部分：基于P5/P7Illumina的测序和索引引发位点、7个碱基对(bp)的唯一末端标识符(UEI；编码终端类型的条形码)和平端或单链突出端，所述突出端与基底突出端(当存在时)杂交和连接。用等比例的长度为N(这里最长达6个核苷酸(nt))的随机序列合成突出端。包含过量接头以确保每种模板dsDNA类型都能接近相容的接头。以这种方式，在竞争性反应中引入接头，其提供足够的相容序列以与所有可能的粘性末端模板分子杂交。然而，接头的突出端产生了自我杂交和连接的潜力，因此未被磷酸化以防止接头二聚体的形成。

在该方法的初期步骤期间，用多核苷酸激酶处理模板DNA，以使5′终端磷酸化。除了磷酸化之外，模板DNA终端没有改变。接着，进行两步连接。首先，将5'磷酸化的模板DNA连接到未磷酸化的含UEI的接头库中。该第一连接仅发生在两条模板链的正向(P5)接头末端处。接着，进行纯化以去除过量的未连接的接头。最后，将接头的5′末端磷酸化并且进行第二次连接-这次是在反向(P7)接头末端-以完成dsDNA文库分子。然后，使用通用P5引物和唯一索引的P7引物对完全形成的分子进行索引和扩增。在Illumina测序仪上进行末端配对测序后，使用UEI通过突出端的类型、长度和序列对序列读段进行分类。

评估DNA终端识别的准确度

准确度

为了确定本实施例中所述的测定的准确度，构建12个合成双链对照寡聚物的库，每个双链对照寡聚物都具有已知长度和类型(3'或5')的单链突出端。每个对照寡聚物都含有唯一的和可鉴别的50bp核心和共同结构：在一侧上的平头终端，和在另一侧上的特定长度(1到6nt)的5′或3′突出端。在测序文库后，使用反向读段(P7)上的UEI，通过比较由接头UEI所指示的突出端与dsDNA对照模板上工程化的突出端正确匹配的频率，对测定的准确度进行定量。分析限于反向读段，因为反向接头上存在的UEI在预测正确突出端方面比当包括两个接头上均存在的UEI时或当仅包括正向接头时更准确(图18)。在图19中提供了解释该现象的模型。

使用对照寡聚物库以两种方式测量该实施例中测定的特异性。首先，数据集限于正确形成的文库分子(即，具有在真正对照寡聚物序列的编辑距离1内的序列的单体对照寡聚物)并且计算捕获正确的突出端类型和长度的频率。对于每个对照寡聚物，最常观察到的接头UEI是所有测试的突出端类型(3'和5')和长度(1到6nt)中的正确接头。然而，观察到一小部分文库分子，其UEI不对应于这些对照寡聚物的已知突出端长度或类型。每种突出端类型和长度的总体UEI准确度为84.94％+/-0.72％(95％C.I.)。接着，通过对观察到每个UEI接头连接到每种类型的合成寡聚物上的次数计数来测量每个UEI的特异性。对于所有3′UEI和平头UEI，最常见的连接事件是正确的连接事件。对于除5′1-nt突出端之外的所有5′UEI，最常见的连接事件是正确的连接事件。然而，作为整体来看，5′突出端具有比3′突出端低的准确度。误差最常发生在距离正确长度的±1-nt处，特别是在5′1-nt、5′3-nt和5′5-nt对照中。

碱基组成

为了确定连接的准确度或效率是否受突出端的碱基组成影响，使用序列数据和UEI数据来确定每个回收的单链突出端的核苷酸序列。由于文库的架构，存在于5′突出端中的碱基来源于插入模板分子，在这种情况下，所述插入模板分子为对照寡聚物，而3'突出端来源于接头本身的DNA突出端。除了5′1-nt突出端(其中观察到过量的胞嘧啶)之外，对于每种突出端类型和长度均观察到核苷酸的均匀分布。为了评价这种胞嘧啶偏差(cytosinebias)是否为寡聚物合成过程的产物，用合成的对照寡聚物制备标准的末端修复文库(NEBUltra II)。末端修复步骤经由聚合酶活性去除3′突出端和补平的5′突出端，从而允许对合成DNA 5′突出端的碱基组成进行表征。在对照寡聚物的标准末端修复文库中，观察到5′1-nt胞嘧啶的升高的读段计数。因此，这一观察结果可能来源于定制寡核苷酸合成的偏差，而不是连接期间引入的偏差。

灵敏度

为了评价本文的接头检测外源DNA分子背景中特定终端类型存在的能力，进行了一系列稀释，其中将具有单一已知突出端序列的DNA混合到多样突出端库中。通过声波处理(Diagenode Bioruptor)和NA12878基因组DNA(gDNA)的大小选择来产生不同终端的库。通过用限制性内切核酸酶MluCI(其产生序列AATT的5′4-nt突出端)消化NA12878gDNA，之后进行大小选择，产生具有单个已知突出端的DNA。

首先，对由声波处理的模板以及由MluCI消化的模板DNA生成的文库进行测序，以对两个样品中的终端进行表征。经声波处理的样品的突出端长度分布(图15，分图A)显示，DNA的声波处理剪切产生非随机谱，其特征在于平头终端的普遍性，之后是在5′终端和3′终端两者上都出现的1到4-nt突出端，其中3′1-nt和3′2-nt突出端过量。如针对MluCI所预期的，MluCI消化的DNA的长度分布显示压倒性过量的5′4-nt突出端(图15，分图B)。

为了进行稀释系列，将限定量的MluCI消化的DNA与声波处理的DNA样品混合，然后从汇集的混合物生成文库。该库含有1％到最高50％MluCI消化的DNA。计算每个文库中归因于5′AATT突出端的序列读段的百分比(图15，分图C；表5)。总之，在文库池中的已知MluCI部分和在所测序的数据内观察到为具有正确的AATT突出端的正确5′4核苷酸突出端的部分之间存在一致性。具有更高分数的MluCI消化的DNA(100％-10％)的文库显示少于预期的5′AATT突出端，这可能归因于过多的相容性粘性模板末端，而更低稀释的文库生成了对已知MluCI分数的更准确的估计。

接着，为了估计5′AATT信号在多大浓度下丢失，将含有滴定量的经MluCI消化的DNA的声波处理文库与不含掺加的5′AATT突出端的对照声波处理文库进行比较。即使在系列中的最低稀释度(1％MluCI)下，在所有其他突出端之上也检测到5′AATT突出端的出现，p<0.001(图15，分图D)。这一观察结果表明，当与适当的对照文库比较时，本实施例中的测定足够灵敏以发现构成文库的小于1％的突出端基序。对通过声波处理剪切并且通过MluCI消化的DNA末端的精确基因组定位作图分别显示突出端的随机分布和过多的预期5′4-nt突出端。

常见DNA剪切机制的突出端谱

高分子量DNA的片段化或剪切通常是产生短读段(例如Illumina)测序文库的必要步骤。剪切DNA的常用手段包括声波处理和酶促消化。为了探索经由声波处理的机械剪切是使NGS文库的质量有偏差，还是以其他方式影响NGS文库的质量，若干研究已对剪切方法的结果进行了比较，包括使用基于克隆的方法来检查通过DNA声波处理产生的终端的一种方法，以及分析标准末端修复的NGS文库中的5′突出端以发现通过DNA声波处理的非随机剪切的证据的另一种方法。为了探索酶促剪切的结果，若干研究已使用基于分子、微阵列和测序的方法来描述DNaseI的消化偏好以及微球菌核酸酶的切割偏好，但分辨率低。由于使用本文所述接头生成的文库可以无偏高通量方式评估所有游离DNA末端的微结构，因此使用本实施例中所述的测定来表征通过声波处理和酶促剪切两者片段化的裸NA12878基因组DNA的DNA末端谱(表6)。

声波处理

为了更详细地探询通过声波处理产生的突出端，如上文所述，检查由利用Diagenode Bioruptor剪切的文库生成的数据(参见灵敏度部分)。经声波处理的样品的突出端长度和序列基序分布显示，DNA的声波处理产生平端的较高普遍性，之后是在5′末端和3′末端两者上都出现的1到4-nt突出端，但优选3′1-nt和3′2-nt突出端。Bioruptor-声波处理的DNA的碱基组成谱显示平衡的光谱，除了在形成1-nt突出端时之外。1-nt DSB的出现最常留下单个胞嘧啶突出端，这是先前在5′1-nt突出端上观察到的现象。

酶促剪切

为了探询通过酶促剪切产生的突出端，使用三种内切核酸酶双链片段化酶(NewEngland Biolabs,NEB)、DNaseI和微球菌核酸酶(MNase))生成文库。NEB产品双链片段化酶是两种专门设计用于NGS DNA片段化的酶的混合剂。当与声波处理相比时，来自双链片段化酶消化的样品的突出端长度分布产生更多的具有突出端的分子和更少的平端分子。基于文库重复之间观察到的突出端长度的变化，双链片段化酶还产生了比Bioruptor更随机的剪切谱。本研究中使用的接头仅扩展到6-nt。含有6-nt突出端的分子的绝对数目表明双链片段化酶产生长于6-nt的突出端。双链片段化酶突出端的基序分布显示在5′突出端和3′突出端的生成之间的均匀分布。双链片段化酶突出端的碱基组成与Bioruptor的碱基组成相似，但在长度为2-nt到6-nt的突出端中具有更多的胞嘧啶。

接着，探询由内切核酸酶DNaseI和微球菌核酸酶(MNase)产生的突出端。用于DNaseI消化的裸DNA的突出端长度图显示3′2-nt突出端以及5′2-nt到4-nt突出端的普遍性。在后者中，3个或更多个核苷酸的突出端富含GC。基于突出端长度分布图中6-nt突出端的相对丰度，DNaseI可能产生长度大于6-nt的突出端。DNaseI消化的DNA的突出端碱基组成谱显示，随着突出端长度的增加，5′突出端中对胞嘧啶的偏好降低，以及对3′1-nt胸腺嘧啶的轻微偏好。DNaseI切割位点上游的核苷酸的碱基组成显示在5′突出端的-1位置处的A/T位点切割DNA的偏好。

MNase消化的DNA的突出端长度图(图16，顶部分图)显示MNase对于平头DNA终端的产生具有强偏好(突出端数据的39.5％)，更长的突出端变得越来越不可能。当产生突出端时，MNase显示对富含A/T的5′突出端(不包括1-nt突出端)的总体偏好(图16，底部分图)。MNase切割位点上游的核苷酸的碱基组成显示，尽管由MNase产生的实际3′突出端不如5'突出端那样富含A/T，但3′突出端的-1位置压倒性地富含A/T。

这些结果显示，本实施例中所述的方法能够再现先前研究的结果，这些研究表征了各种DNA剪切方法的偏好和偏差。这些结果还强调了在新型核酸酶的表征中利用该方法的潜在益处。

回收由全血中体内核酸酶活性生成的末端

最近，循环的无细胞的DNA(cfDNA)谱型分析已在非侵入性产前测试和癌症诊断中的应用方面获得相当大的关注。从血浆中获得高质量DNA以血液收集本身开始。血液凝固或凝结是与核酸酶活性增加相关的过程，并且血液收集管(BCT)的类型可影响cfDNA提取物的量和质量。这里，通过构建从各种掺有已知对照寡聚物(如上文所述)的BCT提取的cfDNA文库，测定常见BCT如何维持cfDNA完整性。包括含有常用抗凝剂的BCT(表3)，并且包括无抗凝剂的对照管(红色顶管；RTT)。

在如上文所述提取血浆(或血清)并且分离cfDNA之前，将对照寡聚物掺入四种管型的每一种中。在寡核苷酸掺入后0小时、4小时和24小时提取对照寡核苷酸和cfDNA的混合物，并且使用本文所述的接头将其转化到文库中。在装有抑制核酸酶活性和细胞裂解的添加剂的

BCT(SBCT)中，人cfDNA片段长度谱或丰度不随时间变化。相反，在24小时时，YTT(抗凝剂-柠檬酸盐)和PTT(抗凝剂-EDTA钾)中出现多核小体片段，使人联想到凋亡的细胞gDNA。在RTT中，早在0小时即可见多核小体片段，表明在血液凝固期间可能引发与核酸内切酶和核酸外切酶的释放相关的凋亡过程。

对cfDNA提取之前含有对照寡聚物的全血的温育允许对由于在血液抽取后仍保持活性的核酸酶引起的已知DNA末端的损失或变化的量进行定量。在SBCT、PTT或阴性对照中没有观察到对照DNA末端谱的显著损失或变化(图17)。在不含有任何已知核酸酶抑制剂的YTT中，观察到3′和5′突出端谱两者的变化。这些变化表明存在一种或多种活性循环外切核酸酶(图17)。到24小时时，对照寡聚物的3′突出端信号在YTT中显著减弱，表明3′到5′外切核酸酶可能比5′到3′外切核酸酶具有更大的进行性(processive)。在RTT中，在4小时内观察到3′突出端计数的完全损失，以及通过在此前平端分子上生成新的突出端所鉴别的真正平端的耗减。到24小时时，对照寡聚物在RTT中不再可见，如在高度活性核酸酶环境中所预期的。总之，这些观察结果显示，本实施例中所述的方法辨别cfDNA突出端模式中的变化，并可用于研究血液中循环核酸酶的作用。

实施例12：突出端测序数据集的分析

可探询(例如，使用生物信息学分析)样品中的核酸群体的核酸突出端以生成包含突出端的一个或多个特征的突出端谱(例如，定量某些突出端类型(例如，5'、3'、平端)、定量某些突出端长度、定量某些突出端序列特征，等等)。在某些情况下，可考虑模板分子的特征。基于突出端谱和/或某些模板特征，可确定样品的一个或多个特征。

表7中提供可用于确定样品的一个或多个特征的示例性特征变量(例如，突出端特征；模板特征)。

*示例性二核苷酸包括AA、AT、AC、AG、TT、TA、TC、TG、CC、CG、CA、CT、GG、GA、GC、GT；4³种可能的三核苷酸组合；4⁴种可能的四核苷酸组合

**X＝任一上述特征

下文描述突出端数据和与样品特征的关系的某些生物信息学分析的示例。

突出端数据的热图

针对来自患有癌症的供体(“癌症供体”)和健康供体的无细胞DNA，使用本文所述的Y形突出端接头(参见例如，图9B中所示的Y形接头和方法)生成文库。使用沃德层次聚类方法，从存在于每个文库中的DNA突出端的测序数据生成热图(图20)。图20中所示热图的每列表示来自癌症供体(黑条)或健康供体(无条)的单个无细胞的DNA文库。图20中所示热图的每行表示长度为1到6个核苷酸的唯一突出端(5'或3')；含有至少一个CG二核苷酸或CpG的行(突出端)以灰色条指示。在图20中所示的热图矩阵内，颜色越深，该突出端在文库中所占的比例(对数标度)越大。较浅的颜色指示该突出端的耗减。

如图20中所示，大部分含CpG的突出端向树的一端聚簇，遍布少数较小的簇。观察到了癌症供体的一个主要簇(图20，左上起第二个进化枝)，其中大部分(13个中的12个)患有GI癌症。这些样品显示较低百分比的具有含CG的突出端的文库(耗减)，而健康供体倾向于具有较高百分比的具有含CG的突出端的文库(富集)。因此，关于含CG的突出端，在癌症的无细胞DNA文库的某些簇中观察到耗减模式。

使用突出端序列数据的机器学习方法

进行逻辑回归和监督式学习算法(支持向量机(SVM))，用变量(包括CG计数、突出端长度、全分子长度和如图21中所示的其他变量)对癌症样品和健康样品进行分类。SVM和逻辑回归两者均具有75％的准确度，具有高于75％的精确度和召回率(精确度-模型将样品标记为真阳性的能力；召回率-模型发现所有阳性样品的能力)。

在图21中提供了用于模型中的变量。在递归特征消除后，在重复使用不同子集创建模型的过程后，所有变量均被认为是最佳表现的特征-使用越来越小的特征集对这些进行递归。

逻辑回归分类器(癌症相对于健康-混淆矩阵)

逻辑回归分类器对测试集的预测准确度为75％，在真阳性、假阳性、真阴性和假阴性之间有更好的分割-790+823个正确预测和308+230个不正确预测(图22)。

SVM分类器(癌症相对于健康-分类报告和ROC)

模型具有73％的将样品标记为真阳性的能力(精确度)，并且模型具有78％的发现所有阳性样品的能力(召回率)。最终模型将数据分割为30％测试集和70％训练集。f1评分是精确度和召回率之间的调和均值，并且支持度是从测试集中考虑的样品数目。分类的准确度是75％。

GI癌症相对于健康-模型总结

如果突出端含有CG二核苷酸序列，则患者患癌症的几率增加120％。如果突出端含有GG二核苷酸序列，则患者患癌症的几率增加105％，并且如果突出端包含有GC二核苷酸序列，则患者患癌症的几率增加50％。在最终模型中，给定截止值0.05，所有特征变量都具有显著的P值，P＞|z|。

GI癌症相对于其他(包括健康和其他癌症)-模型总结

如果突出端含有CG二核苷酸序列，则患者患癌症的几率增加94％。在最终模型中，给定截止值0.05，所有特征变量都具有显著的P值，P＞|z|。

示例性分类器

癌症相对于健康

In[1]：

import pandas as pd

import numpy as np

from sklearn import preprocessing

import matplotlib.pyplot as plt

from sklearn.linear_model import LogisticRegression

from sklearn.model_selection import train_test_split

import dask.dataframe as dd

In[2]：

dt＝pd.read_csv(′APN_cpg_out.csv′，sep＝′，′，header＝None，dtype＝{0：str，1：str，2：int，3：str，4：str，5：int，6：int，7：object，8：int，9：str，10：str，11：float})

dt.columns＝[′barcode′，′overhang_type′，′overnang_length′，′overhang_seq′，′aligned_seq′，′start′，′end′，′aligned_len′，′full_len′，′chr′，′lib_name′，′cpg_island′]

In[3]：

In[4]：

dt[′overhang_count′]＝dt.groupby(′overhang_seq′)[′overhang_seq′].transform(′count′)

dt.loc[dt.overhang_type＝＝″5″′，′otype′]＝1

dt.loc[dt.overhang_type＝＝″3″′，′otype′]＝0

dt.loc[dt.overhang_type＝＝″BL″，′otype′]＝0

dt.loc[dt.full_len＜120，′len_cat′]＝0

dt.loc[120＜＝dt.full_len，′len_cat′]＝1

In[5]：

dt[′AA_count_oh′]＝dt[′overhang_seq′].str.count(′AA′)

dt[′AC_count_oh′]＝dt[′overhang_seq′].str.count(′AC′)

dt[′AT_count_oh′]＝dt[′overhang_seq′].str.count(′AT′)

dt[′AG_count_oh′]＝dt[′overhang_seq′].str.count(′AG′)

dt[′CA_count_oh′]＝dt[′overhang_seq′].str.count(′CA′)

dt[′CC_count_oh′]＝dt[′overhang_seq′].str.count(′CC′)

dt[′CT_count_oh′]＝dt[′overhang_seq′].str.count(′CT′)

dt[′CG_count_oh′]＝dt[′overhang_seq′].str.count(′CG′)

dt[′TA_count_oh′]＝dt[′overhang_seq′].str.count(′TA′)

dt[′TC_count_oh′]＝dt[′overhang_seq′].str.count(′TC′)

dt[′TT_count_oh′]＝dt[′overhang_seq′].str.count(′TT′)

dt[′TG_count_oh′]＝dt[′overhang_seq′].str.count(′TG′)

dt[′GA_count_oh′]＝dt[′overhang_seq′].str.count(′GA′)

dt[′GC_count_oh′]＝dt[′overhang_seq′].str.count(′GC′)

dt[′GT_count_oh′]＝dt[′overhang_seq′].str.count(′GT′)

dt[′GG_count_oh′]＝dt[′overhang_seq′].str.count(′GG′)

In[9]：

dt[′y′]＝pd.to_numeric(dt[′y′])

In[10]：

data＝dt.groupby(′overhang_seq′).mean()

data.loc[(data[′y′]＞＝0.5)，′y′]＝1

data.loc[(data[′y′]＜0.5)，′y′]＝0

In[13]：

data[′perc_len′]＝np.log2(data[′overhang_length′]/data[′full_len′])

data[′AA_perc′]＝(data[′AA_count_oh′]/data[′overhang_length′])＊100

data[′AC_perc′]＝(data[′AC_count_oh′]/data[′overhang_length′])＊100

data[′AT_perc′]＝(data[′AT_count_oh′]/data[′overhang_length′])＊100

data[′AG_perc′]＝(data[′AG_count_oh′]/data[′overhang_length′])＊100

data[′CA_perc′]＝(data[′CA_count_oh′]/data[′overhang_length′])＊100

data[′CC_perc′]＝(data[′CC_count_oh′]/data[′overhang_length′])＊100

data[′CT_perc′]＝(data[′CT_count_oh′]/data[′overhang_length′])＊100

data[′CG_perc′]＝(data[′CG_count_oh′]/data[′overhang_length′])＊100

data[′TA_perc′]＝(data[′TA_count_oh′]/data[′overhang_length′])＊100

data[′TC_perc′]＝(data[′TC_count_oh′]/data[′overhang_length′])＊100

data[′TT_perc′]＝(data[′TT_count_oh′]/data[′overhang_length′])＊100

data[′TG_perc′]＝(data[′TG_count_oh′]/data[′overhang_length′])＊100

data[′GA_perc′]＝(data[′GA_count_oh′]/data[′overhang_length′])＊100

data[′GC_perc′]＝(data[′GC_count_oh′]/data[′overhang_length′])＊100

data[′GT_perc′]＝(data[′GT_count_oh′]/data[′overhang_length′])＊100

data[′GG_perc′]＝(data[′GG_count_oh′]/data[′overhang_length′])＊100

data[′overhang_perc′]＝np.log2(data[′overhang_count′]/len(data.columns))

data.head()

In[14]：

data.fillna(0，inplace＝True)

np.any(np.isnan(data))

In[16]：

len(list(data.keys()))

In[17]：

X＝data.loc[：，data.columns！＝′y′]

y＝data.loc[：，data.columns＝＝′y′]

In[18]：

from imblearn.over_sampling import SMOTE

os＝SMOTE(random_state＝0)

X_train，X_test，y_train，y_test＝train_test_split(X，y，test_size＝0.3，random_state＝0)

columns＝X_train.columns

In[19]：

os_data_X，os_data_y＝os.fit_sample(X_train，y_train.values.ravel())

os_data_X＝pd.DataFrame(data＝os_data_X，columns＝columns)

os_data_y＝pd.DataFrame(data＝os_data_y，columns＝[′y′])

In[20]：

data_final_vars＝dt.columns.values.tolist()

y＝[′y′]

X＝[i for i in data_final_vars if i not in y]

In[21]：

logreg＝LogisticRegression()

In[22]：

from sklearn.feature_selection import RFE

rfe＝RFE(logreg，56)

rfe＝rfe.fit(os_data_X，os_data_y.values.ravel())

print(rfe.support_)

print(rfe.ranking_)

In[32]：

cols＝[′overhang_length′，

′start′，

′end′，

′full_len′，

′overhang_count′，

′AT_count_oh′，

′TA_count_oh′，

′TG_count_oh′，

′GT_count_oh′，

′AC_count_al′，

′AT_count_al′，

′AG_count_al′，

′CA_count_al′，

′CC_count_al′，

′CT_count_al′，

′CG_count_al′，

′TA_count_al′，

′TC_count_al′，

′TT_count_al′，

′GA_count_al′，

′GC_count_al′，

′perc_len′，

′AG_perc′，

′TA_perc′，

′TG_perc′，

′GA_perc′，

′GC_perc′，

′GT_perc′，

′overhang_perc′]

X＝os_data_X[cols]

y＝os_data_y[′y′]

logit_model＝sm.Logit(y，X)

result＝logit_model.fit()

print(result.summary2())

In[33]：

from sklearn.linear_model import LogisticRegression

from skleam import metrics

logreg＝LogisticRegression()

logreg.fit(X_train，y_train)

In[34]：

y_pred＝logreg.predict(X_test)

print(′Accuracy of logistic regression classifier on test set：{：.2f}′.format(logreg.score(X_test，y_test)))

In[35]：

import seaborn as sn

from sklearn.metrics import confusion_matrix

confusion_matrix＝confusion_matrix(y_test，y_pred)

print(confusion_matrix)

plt.figure(figsize＝(10，7))

sn.heatmap(confusion_matrix，annot＝True)

In[36]：

from sklearn.metrics import classification_report

print(classification_report(y_test，y_pred))

In[37]：

from sklearn.metrics import roc_auc_score

from sklearn.metrics import roc_curve

logit_roc_auc＝roc_auc_score(y_test，logreg.predict(X_test))

fpr，tpr，thresholds＝roc_curve(y_test，logreg.predict_proba(X_test)[：，1])

plt.figure()

plt.plot(fpr，tpr，label＝′Logistic Regression(area＝％0.2f)′％logit_roc_auc)

plt.plot([0，1]，[0，1]，′r--′)

plt.xlim([0.0，1.0])

plt.ylim([0.0，1.05])

plt.xlabel(′False Positive Rate′)

plt.ylabel(′True Positive Rate′)

plt.title(′Receiver operating characteristic′)

plt.legend(loc＝″lower right″)

plt.savefig(′Log_ROC′)

plt.show()

实施例13：实施方案的实施例

以下所述的实施例说明某些实施方案，且并不限制本技术。

A1.一种用于产生核酸文库的方法，其包括：

(a)将包含靶核酸的核酸组合物与多个寡核苷酸种类组合，其中：

(i)所述多个寡核苷酸种类中的每种寡核苷酸都包含能够形成具有单链环的发夹结构的一条链，其中所述环包含一个或多个核糖核酸(RNA)核苷酸，

(ii)所述靶核酸的一些或全部包含突出端，

(iii)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含能够与靶核酸突出端杂交的突出端，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，

(iv)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列，并且

(v)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述多个寡核苷酸种类组合，由此形成杂交产物；以及

(b)在切割条件下使所述杂交产物与一种或多种切割剂接触，所述切割剂能够在所述RNA核苷酸处在所述发夹环内切割所述杂交产物，由此形成切割的杂交产物。

A2.根据实施方案A1所述的方法，其中所述多个寡核苷酸种类中的每种寡核苷酸均由能够形成具有单链环的发夹结构的一条链组成。

A3.根据实施方案A1或A2所述的方法，其中所述环包含两个RNA核苷酸。

A4.根据实施方案A1或A2所述的方法，其中所述环包含三个RNA核苷酸。

A5.根据实施方案A1或A2所述的方法，其中所述环包含四个RNA核苷酸。

A6.根据实施方案A1到A5中任一项所述的方法，其中所述环包含一个或多个选自腺嘌呤(A)、胞嘧啶(C)和鸟嘌呤(G)的核糖核酸(RNA)核苷酸。

A7.根据实施方案A1到A6中任一项所述的方法，其中所述RNA核苷酸包含鸟嘌呤(G)。

A8.根据实施方案A1到A6中任一项所述的方法，其中所述RNA核苷酸由鸟嘌呤(G)组成。

A9.根据实施方案A1到A6中任一项所述的方法，其中所述RNA核苷酸包含胞嘧啶(C)。

A10.根据实施方案A1到A6中任一项所述的方法，其中所述RNA核苷酸由胞嘧啶(C)组成。

A11.根据实施方案A1到A6中任一项所述的方法，其中所述RNA核苷酸包含腺嘌呤(A)。

A12.根据实施方案A1到A6中任一项所述的方法，其中所述RNA核苷酸由腺嘌呤(A)组成。

A13.根据实施方案A1到A6中任一项所述的方法，其中所述RNA核苷酸由腺嘌呤(A)、胞嘧啶(C)和鸟嘌呤(G)组成。

A14.根据实施方案A1到A6中任一项所述的方法，其中所述RNA核苷酸由腺嘌呤(A)和胞嘧啶(C)组成。

A15.根据实施方案A1到A6中任一项所述的方法，其中所述RNA核苷酸由腺嘌呤(A)和鸟嘌呤(G)组成。

A16.根据实施方案A1到A6中任一项所述的方法，其中所述RNA核苷酸由胞嘧啶(C)和鸟嘌呤(G)组成。

A17.根据实施方案A1到A16中任一项所述的方法，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸。

A18.根据实施方案A1到A17中任一项所述的方法，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸、具有3'突出端的寡核苷酸和不具有突出端的寡核苷酸。

A19.根据实施方案A1到A18中任一项所述的方法，其中包含突出端的寡核苷酸包含单链环、双链体部分和单链突出端。

A20.根据实施方案A1到A19中任一项所述的方法，其中所述寡核苷酸突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

A21.根据实施方案A1到A20中任一项所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含对于特定突出端长度具有不同序列的寡核苷酸突出端。

A22.根据实施方案A21所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度的所有可能的突出端序列组合。

A23.根据实施方案A22所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对每个突出端长度的所有可能的突出端序列组合。

A24.根据实施方案A21、A22或A23所述的方法，其中所述寡核苷酸突出端序列是随机的。

A25.根据实施方案A1到A18中任一项所述的方法，其中不包含突出端的寡核苷酸包含单链环和双链体部分。

A26.根据实施方案A1到A25中任一项所述的方法，其中寡核苷酸的末端能够共价连接到所述寡核苷酸在所述杂交产物中所杂交的靶核酸的末端。

A27.根据实施方案A26所述的方法，其中寡核苷酸链的3'末端能够共价连接到所述寡核苷酸在所述杂交产物中所杂交的所述靶核酸中的链的5'末端。

A28.根据实施方案A1到A27中任一项所述的方法，其中所述杂交产物包含双链体区和至少一个单链环。

A29.根据实施方案A1到A28中任一项所述的方法，其中所述杂交产物包含双链体区和每个末端处的单链环。

A30.根据实施方案A28或A29所述的方法，其中所述一种或多种切割剂能够在所述RNA核苷酸处在所述发夹环内切割所述杂交产物，并且不能不能所述双链体区内切割所述杂交产物。

A31.根据实施方案A1到A30中任一项所述的方法，其中所述一种或多种切割剂包括核糖核酸酶(RNAse)。

A32.根据实施方案A31所述的方法，其中所述RNAse是内切核糖核酸酶。

A33.根据实施方案A31或A32所述的方法，其中所述RNAse选自RNAse A、RNAse E、RNAse F、RNAse H、RNAse III、RNAse L、RNAse P、RNAse PhyM、RNAse T1、RNAse T2、RNAseU2和RNAse V中的一个或多个。

A34.根据实施方案A1到A33中任一项所述的方法，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度。

A35.根据实施方案A1到A34中任一项所述的方法，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度并且对于所述寡核苷酸突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

A36.根据实施方案A1到A35中任一项所述的方法，其中所述靶核酸中的一些不包含突出端。

A37.根据实施方案A1到A36中任一项所述的方法，其中寡核苷酸种类不包含突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

A38.根据实施方案A1到A37中任一项所述的方法，其中包含突出端的靶核酸包含双链体区和单链突出端。

A39.根据实施方案A1到A38中任一项所述的方法，其中包含突出端的每个靶核酸在一个末端处包含突出端或在两个末端处包含突出端。

A40.根据实施方案A1到A39中任一项所述的方法，其中每个包含突出端的靶核酸的一个末端或两个末端独立地包含5'突出端或3'突出端。

A41.根据实施方案A1到A40中任一项所述的方法，其中所述靶核酸包括脱氧核糖核酸(DNA)片段。

A42.根据实施方案A41所述的方法，其中从细胞获得所述DNA片段。

A43.根据实施方案A41或A42所述的方法，其中所述DNA片段包括基因组DNA片段。

A44.根据实施方案A1到A40中任一项所述的方法，其中所述靶核酸包括核糖核酸(RNA)片段。

A45.根据实施方案A44所述的方法，其中从细胞获得所述RNA片段。

A46.根据实施方案A1到A45中任一项所述的方法，其中所述靶核酸包括无细胞的核酸片段。

A47.根据实施方案A1到A46中任一项所述的方法，其中所述靶核酸包括循环的无细胞的核酸片段。

A48.根据实施方案A1到A47中任一项所述的方法，其中靶核酸中的所述突出端是天然突出端。

A49.根据实施方案A1到A48中任一项所述的方法，其中靶核酸中的所述突出端是非修饰的突出端。

A50.根据实施方案A1到A49中任一项所述的方法，其中在与所述多个寡核苷酸种类组合之前，不修饰所述靶核酸的长度。

A51.根据实施方案A1到A50中任一项所述的方法，其包括在(a)之前，通过基本上由以下组成的方法制备所述核酸组合物：从样品分离核酸，由此生成所述核酸组合物。

A52.根据实施方案A1到A51中任一项所述的方法，其包括使所述杂交产物暴露于以下条件，在所述条件下，所述靶核酸的末端与其所杂交的所述寡核苷酸的末端接合。

A53.根据实施方案A52所述的方法，其包括在靶核酸的末端共价连接到所述靶核酸所杂交的所述寡核苷酸的末端的条件下，使所述杂交产物与包含连接酶活性的试剂接触。

A54.根据实施方案A1到A53中任一项所述的方法，其包括在(a)之前，在将靶核酸去磷酸化的条件下，使所述靶核酸组合物与包含磷酸酶活性的试剂接触，由此生成去磷酸化的靶核酸组合物。

A55.根据实施方案A54所述的方法，其包括在(a)之前，在将5'磷酸酯添加到靶核酸的5'末端的条件下，使所述去磷酸化的靶核酸组合物与包含磷酰基转移活性的试剂接触。

A56.根据实施方案A1到A55中任一项所述的方法，其包括在(a)之前，在将所述寡核苷酸去磷酸化的条件下，使所述多个寡核苷酸种类与包含磷酸酶活性的试剂接触，由此生成多个去磷酸化的寡核苷酸种类。

A57.根据实施方案A56所述的方法，其包括在(a)之前，在将5'磷酸酯添加到寡核苷酸种类的5'末端的条件下，使所述去磷酸化的寡核苷酸种类与包含磷酰基转移活性的试剂接触。

A58.根据实施方案A1到A57中任一项所述的方法，其中从来自受试者的样品获得所述靶核酸。

A59.根据实施方案A58所述的方法，其中所述受试者是人。

A60.根据实施方案A1到A59中任一项所述的方法，其包括在(a)之前，根据片段长度分离所述靶核酸。

A61.根据实施方案A60所述的方法，其中将具有小于约500bp的片段长度的靶核酸与所述多个寡核苷酸种类组合。

A62.根据实施方案A60所述的方法，其中将具有约500bp或更长的片段长度的靶核酸与所述多个寡核苷酸种类组合。

A63.根据实施方案A1到A62中任一项所述的方法，其中所述寡核苷酸突出端包含DNA核苷酸。

A64.根据实施方案A1到A62中任一项所述的方法，其中所述寡核苷酸突出端由DNA核苷酸组成。

A65.根据实施方案A1到A62中任一项所述的方法，其中所述寡核苷酸突出端包含RNA核苷酸。

A66.根据实施方案A1到A62中任一项所述的方法，其中所述寡核苷酸突出端由RNA核苷酸组成。

A67.根据实施方案A65或A66所述的方法，其包括在靶核酸的末端共价连接到所述靶核酸所杂交的所述寡核苷酸的末端的条件下，使所述杂交产物与包含RNA连接酶活性的试剂接触。

A68.根据实施方案A65到A67中任一项所述的方法，其包括在消化双链RNA双链体的条件下，使所述杂交产物与包含RNAse活性的试剂接触。

B1.一种包含多个寡核苷酸种类的组合物，其中：

(a)所述多个寡核苷酸种类中的每种寡核苷酸都包含能够形成具有单链环的发夹结构的一条链，其中所述环包含一个或多个核糖核酸(RNA)核苷酸；

(b)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含能够与靶核酸中的突出端杂交的突出端，其中每个寡核苷酸种类都具有唯一的突出端序列和长度；并且

(c)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列。

B2.根据实施方案B1所述的组合物，其中所述多个寡核苷酸种类中的每种寡核苷酸均由能够形成具有单链环的发夹结构的一条链组成。

B3.根据实施方案B1或B2所述的组合物，其中所述环包含两个RNA核苷酸。

B4.根据实施方案B1或B2所述的组合物，其中所述环包含三个RNA核苷酸。

B5.根据实施方案B1或B2所述的组合物，其中所述环包含四个RNA核苷酸。

B6.根据实施方案B1到B5中任一项所述的组合物，其中所述环包含一个或多个选自腺嘌呤(A)、胞嘧啶(C)和鸟嘌呤(G)的核糖核酸(RNA)核苷酸。

B7.根据实施方案B1到B6中任一项所述的组合物，其中所述RNA核苷酸包含鸟嘌呤(G)。

B8.根据实施方案B1到B6中任一项所述的组合物，其中所述RNA核苷酸由鸟嘌呤(G)组成。

B9.根据实施方案B1到B6中任一项所述的组合物，其中所述RNA核苷酸包含胞嘧啶(C)。

B10.根据实施方案B1到B6中任一项所述的组合物，其中所述RNA核苷酸由胞嘧啶(C)组成。

B11.根据实施方案B1到B6中任一项所述的组合物，其中所述RNA核苷酸包含腺嘌呤(A)。

B12.根据实施方案B1到B6中任一项所述的组合物，其中所述RNA核苷酸由腺嘌呤(A)组成。

B13.根据实施方案B1到B6中任一项所述的组合物，其中所述RNA核苷酸由腺嘌呤(A)、胞嘧啶(C)和鸟嘌呤(G)组成。

B14.根据实施方案B1到B6中任一项所述的组合物，其中所述RNA核苷酸由腺嘌呤(A)和胞嘧啶(C)组成。

B15.根据实施方案B1到B6中任一项所述的组合物，其中所述RNA核苷酸由腺嘌呤(A)和鸟嘌呤(G)组成。

B16.根据实施方案B1到B6中任一项所述的组合物，其中所述RNA核苷酸由胞嘧啶(C)和鸟嘌呤(G)组成。

B17.根据实施方案B1到B16中任一项所述的组合物，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸。

B18.根据实施方案B1到B17中任一项所述的组合物，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸、具有3'突出端的寡核苷酸和不具有突出端的寡核苷酸。

B19.根据实施方案B1到B18中任一项所述的组合物，其中所述包含突出端的寡核苷酸包含单链环、双链体部分和单链突出端。

B20.根据实施方案B1到B19中任一项所述的组合物，其中所述寡核苷酸突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

B21.根据实施方案B1到B20中任一项所述的组合物，其中所述多个寡核苷酸种类中的所述寡核苷酸包含寡核苷酸突出端，所述寡核苷酸突出端具有针对特定突出端长度的不同序列。

B22.根据实施方案B21所述的组合物，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度的所有可能的突出端序列组合。

B23.根据实施方案B22所述的组合物，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对每个突出端长度的所有可能的突出端序列组合。

B24.根据实施方案B21、B22或B23所述的组合物，其中所述寡核苷酸突出端序列是随机的。

B25.根据实施方案B1到B18中任一项所述的组合物，其中不包含突出端的寡核苷酸包含单链环和双链体部分。

B26.根据实施方案B1到B25中任一项所述的组合物，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度。

B27.根据实施方案B1到B26中任一项所述的组合物，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度并且对于所述寡核苷酸突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

B28.根据实施方案B1到B27中任一项所述的组合物，其中寡核苷酸种类不包含突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

B29.根据实施方案B1到B28中任一项所述的组合物，其中所述寡核苷酸突出端包含DNA核苷酸。

B30.根据实施方案B1到B28中任一项所述的组合物，其中所述寡核苷酸突出端由DNA核苷酸组成。

B31.根据实施方案B1到B28中任一项所述的组合物，其中所述寡核苷酸突出端包含RNA核苷酸。

B32.根据实施方案B1到B28中任一项所述的组合物，其中所述寡核苷酸突出端由RNA核苷酸组成。

C1.一种用于修饰核酸末端的方法，其包括：

(a)将包含靶核酸的核酸组合物和多个寡核苷酸种类组合，其中：

(i)所述多个寡核苷酸种类中的每种寡核苷酸均包含一个或多个能够在切割条件下被切割的切割位点，

(ii)所述靶核酸的一些或全部包含突出端，

(iii)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含两条链以及第一突出端和第二突出端，其中每个突出端都能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，

(iv)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述第一寡核苷酸突出端和所述第二寡核苷酸突出端的一个或多个特征具有特异性的至少两个寡核苷酸突出端识别序列，并且

(v)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述多个寡核苷酸种类组合，由此形成杂交产物；

(b)在切割条件下使所述杂交产物与一种或多种切割剂接触，所述切割剂能够在所述一个或多个切割位点处切割所述杂交产物，由此形成切割的杂交产物；以及

(c)使所述切割的杂交产物与链置换聚合酶接触，由此形成平端核酸片段。

C2.根据实施方案C1所述的方法，其中(c)包括使所述切割的杂交产物与链置换聚合酶和修饰的核苷酸接触，由此形成包含一个或多个修饰的核苷酸的平端核酸片段。

C3.根据实施方案C2所述的方法，其中所述一个或多个修饰的核苷酸包括与结合对的成员缀合的核苷酸。

C4.根据实施方案C2所述的方法，其中所述一个或多个修饰的核苷酸包括与生物素缀合的核苷酸。

C5.根据实施方案C1到C4中任一项所述的方法，其中所述一个或多个切割位点包含选自尿嘧啶和脱氧尿苷的核苷酸。

C6.根据实施方案C1到C5中任一项所述的方法，其中所述一种或多种切割剂包括内切核酸酶。

C7.根据实施方案C1到C5中任一项所述的方法，其中所述一种或多种切割剂包括DNA糖苷酶。

C8.根据实施方案C1到C7中任一项所述的方法，其中所述一种或多种切割剂包括内切核酸酶和DNA糖苷酶。

C9.根据实施方案C8所述的方法，其中所述一种或多种切割剂包括尿嘧啶DNA糖苷酶(UDG)和内切核酸酶VIII的混合物。

C10.根据实施方案C1到C4中任一项所述的方法，其中所述一个或多个切割位点包括限制酶识别位点。

C11.根据实施方案C10所述的方法，其中所述一种或多种切割剂包括限制酶。

C12.根据实施方案C10所述的方法，其中所述一种或多种切割剂包括稀有切点限制酶。

C13.保留。

C14.保留。

C15.根据实施方案C1到C4中任一项所述的方法，其中所述一个或多个切割位点包含一个或多个RNA核苷酸。

C16.根据实施方案C1到C4中任一项所述的方法，其中所述一个或多个切割位点包含含有一个或多个RNA核苷酸的单链部分。

C17.根据实施方案C15或C16所述的方法，其中所述一种或多种切割剂包括核糖核酸酶(RNAse)。

C18.根据实施方案C17所述的方法，其中所述RNAse是内切核糖核酸酶。

C19.根据实施方案C17或C18所述的方法，其中所述RNAse选自RNAse A、RNAse E、RNAse F、RNAse H、RNAse III、RNAse L、RNAse P、RNAse PhyM、RNAse T1、RNAse T2、RNAseU2和RNAse V中的一个或多个。

C20.根据实施方案C1到C4中任一项所述的方法，其中所述一个或多个切割位点包含光可切割间隔物。

C21.根据实施方案C20所述的方法，其中所述一种或多种切割剂包括紫外(UV)光。

C22.根据实施方案C1到C21中任一项所述的方法，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸。

C23.根据实施方案C1到C22中任一项所述的方法，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸、具有3'突出端的寡核苷酸和不具有突出端的寡核苷酸。

C24.根据实施方案C1到C23中任一项所述的方法，其中所述包含突出端的寡核苷酸包含双链体部分和每个末端上的单链突出端。

C25.根据实施方案C1到C24中任一项所述的方法，其中所述包含突出端的寡核苷酸包含双链体部分和每个末端上的单链突出端；其中第一末端上的所述单链突出端与第二末端上的所述突出端长度相同并且序列相同。

C26.根据实施方案C1到C25中任一项所述的方法，其中所述寡核苷酸突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

C27.根据实施方案C1到C26中任一项所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度具有不同序列的寡核苷酸突出端。

C28.根据实施方案C27所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度的所有可能的突出端序列组合。

C29.根据实施方案C28所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对每个突出端长度的所有可能的突出端序列组合。

C30.根据实施方案C27、C28或C29所述的方法，其中所述寡核苷酸突出端序列是随机的。

C31.根据实施方案C1到C30中任一项所述的方法，其中所述不包含突出端的寡核苷酸包含双平端双链体部分。

C32.根据实施方案C1到C31中任一项所述的方法，其中寡核苷酸的末端能够共价连接到所述寡核苷酸在所述杂交产物中所杂交的靶核酸的末端。

C33.根据实施方案C32所述的方法，其中寡核苷酸链的3'末端能够共价连接到所述寡核苷酸在所述杂交产物中所杂交的所述靶核酸中的链的5'末端。

C34.根据实施方案C1到C33中任一项所述的方法，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度。

C35.根据实施方案C1到C34中任一项所述的方法，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度并且对于所述寡核苷酸突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

C36.根据实施方案C1到C35中任一项所述的方法，其中所述靶核酸中的一些不包含突出端。

C37.根据实施方案C1到C36中任一项所述的方法，其中寡核苷酸种类不包含突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

C38.根据实施方案C1到C37中任一项所述的方法，其中所述包含突出端的靶核酸包含双链体区和单链突出端。

C39.根据实施方案C1到C38中任一项所述的方法，其中包含突出端的每个靶核酸在一个末端处包含突出端或在两个末端处包含突出端。

C40.根据实施方案C1到C39中任一项所述的方法，其中每个包含突出端的靶核酸的一个末端或两个末端独立地包含5'突出端或3'突出端。

C41.根据实施方案C1到C40中任一项所述的方法，其中所述靶核酸包括脱氧核糖核酸(DNA)片段。

C42.根据实施方案C41所述的方法，其中从细胞获得所述DNA片段。

C43.根据实施方案C41或C42所述的方法，其中所述DNA片段包括基因组DNA片段。

C44.根据实施方案C1到C40中任一项所述的方法，其中所述靶核酸包括核糖核酸(RNA)片段。

C45.根据实施方案C44所述的方法，其中从细胞获得所述RNA片段。

C46.根据实施方案C1到C45中任一项所述的方法，其中所述靶核酸包括无细胞的核酸片段。

C47.根据实施方案C1到C46中任一项所述的方法，其中所述靶核酸包括循环的无细胞的核酸片段。

C48.根据实施方案C1到C47中任一项所述的方法，其中靶核酸中的突出端是天然突出端。

C49.根据实施方案C1到C48中任一项所述的方法，其中靶核酸中的突出端是非修饰的突出端。

C50.根据实施方案C1到C49中任一项所述的方法，其中在与所述多个寡核苷酸种类组合之前，不修饰所述靶核酸的长度。

C51.根据实施方案C1到C50中任一项所述的方法，其包括在(a)之前，通过基本上由以下组成的方法制备所述核酸组合物：从样品分离核酸，由此生成所述核酸组合物。

C52.根据实施方案C1到C51中任一项所述的方法，其包括使所述杂交产物暴露于所述靶核酸的末端与其所杂交的所述寡核苷酸的末端接合的条件。

C53.根据实施方案C52所述的方法，其包括在靶核酸的末端共价连接到所述靶核酸所杂交的所述寡核苷酸的末端的条件下，使所述杂交产物与包含连接酶活性的试剂接触。

C54.根据实施方案C1到C53中任一项所述的方法，其包括在(a)之前，在将靶核酸去磷酸化的条件下，使所述靶核酸组合物与包含磷酸酶活性的试剂接触，由此生成去磷酸化的靶核酸组合物。

C55.根据实施方案C54所述的方法，其包括在(a)之前，在将5'磷酸酯添加到靶核酸的5'末端的条件下，使所述去磷酸化的靶核酸组合物与包含磷酰基转移活性的试剂接触。

C56.根据实施方案C1到C55中任一项所述的方法，其包括在(a)之前，在将所述寡核苷酸去磷酸化的条件下，使所述多个寡核苷酸种类与包含磷酸酶活性的试剂接触，由此生成多个去磷酸化的寡核苷酸种类。

C57.根据实施方案C56所述的方法，其包括在(a)之前，在将5'磷酸酯添加到寡核苷酸种类的5'末端的条件下，使所述去磷酸化的寡核苷酸种类与包含磷酰基转移活性的试剂接触。

C58.根据实施方案C1到C57中任一项所述的方法，其中从来自受试者的样品获得所述靶核酸。

C59.根据实施方案C58所述的方法，其中所述受试者是人。

C60.根据实施方案C1到C59中任一项所述的方法，其包括在(a)之前，根据片段长度分离所述靶核酸。

C61.根据实施方案C60所述的方法，其中将具有小于约500bp的片段长度的靶核酸与所述多个寡核苷酸种类组合。

C62.根据实施方案C60所述的方法，其中将具有约500bp或更长的片段长度的靶核酸与所述多个寡核苷酸种类组合。

C63.根据实施方案C1到C62中任一项所述的方法，其中所述寡核苷酸突出端包含DNA核苷酸。

C64.根据实施方案C1到C62中任一项所述的方法，其中所述寡核苷酸突出端由DNA核苷酸组成。

C65.根据实施方案C1到C62中任一项所述的方法，其中所述寡核苷酸突出端包含RNA核苷酸。

C66.根据实施方案C1到C62中任一项所述的方法，其中所述寡核苷酸突出端由RNA核苷酸组成。

C67.根据实施方案C65或C66所述的方法，其包括在靶核酸的末端共价连接到所述靶核酸所杂交的所述寡核苷酸的末端的条件下，使所述杂交产物与包含RNA连接酶活性的试剂接触。

C68.根据实施方案C65到C67中任一项所述的方法，其包括在消化双链RNA双链体的条件下，使所述杂交产物与包含RNAse活性的试剂接触。

D1.一种包含多个寡核苷酸种类的组合物，其中：

(a)所述多个寡核苷酸种类中的每种寡核苷酸均包含一个或多个能够在切割条件下被切割的切割位点；

(b)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含两条链以及第一突出端和第二突出端，其中每个突出端都能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度；并且

(c)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于第一寡核苷酸突出端和第二寡核苷酸突出端的一个或多个特征具有特异性的至少两个寡核苷酸突出端识别序列。

D2.根据实施方案D1所述的组合物，其中所述一个或多个切割位点包含选自尿嘧啶和脱氧尿苷的核苷酸。

D3.根据实施方案D1所述的组合物，其中所述一个或多个切割位点包含限制酶识别位点。

D4.根据实施方案D1所述的组合物，其中所述一个或多个切割位点包含一个或多个RNA核苷酸。

D5.根据实施方案D4所述的组合物，其中所述一个或多个切割位点包含含有一个或多个RNA核苷酸的单链部分。

D6.根据实施方案D1所述的组合物，其中所述一个或多个切割位点包含光可切割间隔物。

D7.根据实施方案D1到D6中任一项所述的组合物，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸。

D8.根据实施方案D1到D7中任一项所述的组合物，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸、具有3'突出端的寡核苷酸和不具有突出端的寡核苷酸。

D9.根据实施方案D1到D8中任一项所述的组合物，其中所述包含突出端的寡核苷酸包含双链体部分和每个末端上的单链突出端。

D10.根据实施方案D1到D9中任一项所述的组合物，其中所述包含突出端的寡核苷酸包含双链体部分和每个末端上的单链突出端；其中第一末端上的所述单链突出端与第二末端上的所述突出端长度相同并且序列相同。

D11.根据实施方案D1到D10中任一项所述的组合物，其中所述寡核苷酸突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

D12.根据实施方案D1到D11中任一项所述的组合物，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度具有不同序列的寡核苷酸突出端。

D13.根据实施方案D12所述的组合物，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度的所有可能的突出端序列组合。

D14.根据实施方案D13所述的组合物，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对每个突出端长度的所有可能的突出端序列组合。

D15.根据实施方案D12、D13或D14所述的组合物，其中所述寡核苷酸突出端序列是随机的。

D16.根据实施方案D1到D15中任一项所述的组合物，其中所述不包含突出端的寡核苷酸包含双平端双链体部分。

D17.根据实施方案D1到D16中任一项所述的组合物，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度。

D18.根据实施方案D1到D17中任一项所述的组合物，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度并且对于所述寡核苷酸突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

D19.根据实施方案D1到D18中任一项所述的组合物，其中寡核苷酸种类不包含突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

D20.根据实施方案D1到D19中任一项所述的组合物，其中所述寡核苷酸突出端包含DNA核苷酸。

D21.根据实施方案D1到D19中任一项所述的组合物，其中所述寡核苷酸突出端由DNA核苷酸组成。

D22.根据实施方案D1到D19中任一项所述的组合物，其中所述寡核苷酸突出端包含RNA核苷酸。

D23.根据实施方案D1到D19中任一项所述的组合物，其中所述寡核苷酸突出端由RNA核苷酸组成。

E1.一种用于修饰核酸末端的方法，其包括：

(i)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含两条链，以及第一末端处的突出端和第二末端处的一个或多个修饰的核苷酸，其中所述突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，

(ii)所述靶核酸的一些或全部包含突出端，

(iii)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列，并且

(iv)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述多个寡核苷酸种类组合，由此形成杂交产物；以及

(b)使所述杂交产物与链置换聚合酶接触，从而形成平端核酸片段。

E2.根据实施方案E1所述的方法，其中具有第二末端处的一个或多个修饰的核苷酸的所述寡核苷酸在第二末端处包含未配对的修饰的核苷酸。

E3.根据实施方案E1或E2所述的方法，其中具有第二末端处的一个或多个修饰的核苷酸的所述寡核苷酸在具有3'终端的所述链的末端处包含所述一个或多个修饰的核苷酸。

E4.根据实施方案E1或E2所述的方法，其中具有第二末端处的一个或多个修饰的核苷酸的所述寡核苷酸在具有5'终端的所述链的末端处包含所述一个或多个修饰的核苷酸。

E5.根据实施方案E1到E4中任一项所述的方法，其中所述一个或多个修饰的核苷酸能够阻断与靶核酸中的核苷酸的杂交。

E6.根据实施方案E1到E5中任一项所述的方法，其中所述一个或多个修饰的核苷酸能够阻断与靶核酸中的核苷酸的连接。

E7.根据实施方案E1到E6中任一项所述的方法，其中所述一个或多个修饰的核苷酸包含不能结合天然核苷酸的修饰的核苷酸。

E8.根据实施方案E1到E7中任一项所述的方法，其中所述一个或多个修饰的核苷酸包括选自异脱氧碱基、二脱氧碱基、反向二脱氧碱基、间隔物和氨基连接物的一个或多个修饰的核苷酸。

E9.根据实施方案E1到E8中任一项所述的方法，其中所述一个或多个修饰的核苷酸包含异脱氧碱基。

E10.根据实施方案E9所述的方法，其中所述一个或多个修饰的核苷酸包含异脱氧鸟嘌呤(iso-dG)。

E11.根据实施方案E10所述的方法，其中所述一个或多个修饰的核苷酸包含异脱氧胞嘧啶(iso-dC)。

E12.根据实施方案E1到E8中任一项所述的方法，其中所述一个或多个修饰的核苷酸包含二脱氧碱基。

E13.根据实施方案E12所述的方法，其中所述一个或多个修饰的核苷酸包含二脱氧胞嘧啶。

E14.根据实施方案E1到E8中任一项所述的方法，其中所述一个或多个修饰的核苷酸包含反向二脱氧碱基。

E15.根据实施方案E14所述的方法，其中所述一个或多个修饰的核苷酸包含反向二脱氧胸腺嘧啶。

E16.根据实施方案E1到E8中任一项所述的方法，其中所述一个或多个修饰的核苷酸包含间隔物。

E17.根据实施方案E16所述的方法，其中所述一个或多个修饰的核苷酸包含C3间隔物。

E18.根据实施方案E1到E17中任一项所述的方法，其中(b)中形成的所述平端核酸片段不包含修饰的核苷酸。

E19.根据实施方案E1到E18中任一项所述的方法，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸。

E20.根据实施方案E1到E19中任一项所述的方法，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸、具有3'突出端的寡核苷酸和不具有突出端的寡核苷酸。

E21.根据实施方案E1到E20中任一项所述的方法，其中所述包含突出端的寡核苷酸包含双链体部分、所述第一末端处的突出端和所述第二末端处的至少一个未配对的修饰的核苷酸。

E22.根据实施方案E1到E21中任一项所述的方法，其中所述寡核苷酸突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

E23.根据实施方案E1到E22中任一项所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含对于特定突出端长度具有不同序列的寡核苷酸突出端。

E24.根据实施方案E23所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度的所有可能的突出端序列组合。

E25.根据实施方案E24所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对每个突出端长度的所有可能的突出端序列组合。

E26.根据实施方案E23、E24或E25所述的方法，其中所述寡核苷酸突出端序列是随机的。

E27.根据实施方案E1到E26中任一项所述的方法，其中所述不包含突出端的寡核苷酸包含双链体部分，所述双链体部分具有第一个末端处的平端和第二末端处的至少一个未配对的修饰的核苷酸。

E28.根据实施方案E1到E27中任一项所述的方法，其中寡核苷酸的末端能够共价连接到所述寡核苷酸在所述杂交产物中所杂交的靶核酸的末端。

E29.根据实施方案E28所述的方法，其中寡核苷酸链的3'末端能够共价连接到所述寡核苷酸在所述杂交产物中所杂交的所述靶核酸中的链的5'末端。

E30.根据实施方案E1到E29中任一项所述的方法，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度。

E31.根据实施方案E1到E30中任一项所述的方法，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度并且对于所述寡核苷酸突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

E32.根据实施方案E1到E31中任一项所述的方法，其中所述靶核酸中的一些不包含突出端。

E33.根据实施方案E1到E32中任一项所述的方法，其中寡核苷酸种类不包含突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

E34.根据实施方案E1到E33中任一项所述的方法，其中所述包含突出端的靶核酸包含双链体区和单链突出端。

E35.根据实施方案E1到E34中任一项所述的方法，其中包含突出端的每个靶核酸包含一个末端处的突出端或两个末端处的突出端。

E36.根据实施方案E1到E35中任一项所述的方法，其中每个包含突出端的靶核酸的一个末端或两个末端独立地包含5'突出端或3'突出端。

E37.根据实施方案E1到E36中任一项所述的方法，其中所述靶核酸包括脱氧核糖核酸(DNA)片段。

E38.根据实施方案E37所述的方法，其中从细胞获得所述DNA片段。

E39.根据实施方案E37或E38所述的方法，其中所述DNA片段包括基因组DNA片段。

E40.根据实施方案E1到E36中任一项所述的方法，其中所述靶核酸包括核糖核酸(RNA)片段。

E41.根据实施方案E40所述的方法，其中从细胞获得所述RNA片段。

E42.根据实施方案E1到E41中任一项所述的方法，其中所述靶核酸包括无细胞的核酸片段。

E43.根据实施方案E1到E42中任一项所述的方法，其中所述靶核酸包括循环的无细胞的核酸片段。

E44.根据实施方案E1到E43中任一项所述的方法，其中靶核酸中的所述突出端是天然突出端。

E45.根据实施方案E1到E44中任一项所述的方法，其中靶核酸中的所述突出端是未修饰的突出端。

E46.根据实施方案E1到E45中任一项所述的方法，其中在与所述多个寡核苷酸种类组合之前，不修饰所述靶核酸的长度。

E47.根据实施方案E1到E46中任一项所述的方法，其包括在(a)之前，通过基本上由以下组成的方法制备所述核酸组合物：从样品分离核酸，由此生成所述核酸组合物。

E48.根据实施方案E1到E47中任一项所述的方法，其包括使所述杂交产物暴露于所述靶核酸的末端与其所杂交的所述寡核苷酸的末端接合的条件。

E49.根据实施方案E48所述的方法，其包括在靶核酸的末端共价连接到所述靶核酸所杂交的所述寡核苷酸的末端的条件下，使所述杂交产物与包含连接酶活性的试剂接触。

E50.根据实施方案E1到E49中任一项所述的方法，其包括在(a)之前，在将靶核酸去磷酸化的条件下，使所述靶核酸组合物与包含磷酸酶活性的试剂接触，由此生成去磷酸化的靶核酸组合物。

E51.根据实施方案E50所述的方法，其包括在(a)之前，在将5'磷酸酯添加到靶核酸的5'末端的条件下，使所述去磷酸化的靶核酸组合物与包含磷酰基转移活性的试剂接触。

E52.根据实施方案E1到E51中任一项所述的方法，其包括在(a)之前，在将所述寡核苷酸去磷酸化的条件下，使所述多个寡核苷酸种类与包含磷酸酶活性的试剂接触，由此生成多个去磷酸化的寡核苷酸种类。

E53.根据实施方案E52所述的方法，其包括在(a)之前，在将5'磷酸酯添加到寡核苷酸种类的5'末端的条件下，使所述去磷酸化的寡核苷酸种类与包含磷酰基转移活性的试剂接触。

E54.根据实施方案E1到E53中任一项所述的方法，其中从来自受试者的样品获得所述靶核酸。

E55.根据实施方案E54所述的方法，其中所述受试者是人。

E56.根据实施方案E1到E55中任一项所述的方法，其包括在(a)之前，根据片段长度分离所述靶核酸。

E57.根据实施方案E56所述的方法，其中将具有小于约500bp的片段长度的靶核酸与所述多个寡核苷酸种类组合。

E58.根据实施方案E56所述的方法，其中将具有约500bp或更长的片段长度的靶核酸与所述多个寡核苷酸种类组合。

E59.根据实施方案E1到E58中任一项所述的方法，其中所述寡核苷酸突出端包含DNA核苷酸。

E60.根据实施方案E1到E58中任一项所述的方法，其中所述寡核苷酸突出端由DNA核苷酸组成。

E61.根据实施方案E1到E58中任一项所述的方法，其中所述寡核苷酸突出端包含RNA核苷酸。

E62.根据实施方案E1到E58中任一项所述的方法，其中所述寡核苷酸突出端由RNA核苷酸组成。

E63.根据实施方案E61或E62所述的方法，其包括在靶核酸的末端共价连接到所述靶核酸所杂交的所述寡核苷酸的末端的条件下，使所述杂交产物与包含RNA连接酶活性的试剂接触。

E64.根据实施方案E61到E63中任一项所述的方法，其包括在消化双链RNA双链体的条件下，使所述杂交产物与包含RNAse活性的试剂接触。

F1.一种包含多个寡核苷酸种类的组合物，其中：

(a)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含两条链，以及第一末端处的突出端和第二末端处的一个或多个修饰的核苷酸，其中所述突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度；并且

(b)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列。

F2.根据实施方案F1所述的组合物，其中具有第二末端处的一个或多个修饰的核苷酸的所述寡核苷酸在所述第二末端处包含未配对的修饰的核苷酸。

F3.根据实施方案F1或F2所述的组合物，其中具有第二末端处的一个或多个修饰的核苷酸的所述寡核苷酸在具有3'终端的所述链的末端处包含所述一个或多个修饰的核苷酸。

F4.根据实施方案F1或F2所述的组合物，其中具有第二末端处的一个或多个修饰的核苷酸的所述寡核苷酸在具有5'终端的所述链的末端处具有所述一个或多个修饰的核苷酸。

F5.根据实施方案F1到F4中任一项所述的组合物，其中所述一个或多个修饰的核苷酸能够阻断与靶核酸中的核苷酸的杂交。

F6.根据实施方案F1到F5中任一项所述的组合物，其中所述一个或多个修饰的核苷酸能够阻断与靶核酸中的核苷酸的连接。

F7.根据实施方案F1到F6中任一项所述的组合物，其中所述一个或多个修饰的核苷酸包含不能结合天然核苷酸的修饰的核苷酸。

F8.根据实施方案F1到F7中任一项所述的组合物，其中所述一个或多个修饰的核苷酸包括选自异脱氧碱基、二脱氧碱基、反向二脱氧碱基、间隔物和氨基连接物的一个或多个修饰的核苷酸。

F9.根据实施方案F1到F8中任一项所述的组合物，其中所述一个或多个修饰的核苷酸包含异脱氧碱基。

F10.根据实施方案F9所述的组合物，其中所述一个或多个修饰的核苷酸包含异脱氧鸟嘌呤(iso-dG)。

F11.根据实施方案F9所述的组合物，其中所述一个或多个修饰的核苷酸包含异脱氧胞嘧啶(iso-dC)。

F12.根据实施方案F1到F8中任一项所述的组合物，其中所述一个或多个修饰的核苷酸包含二脱氧碱基。

F13.根据实施方案F12所述的组合物，其中所述一个或多个修饰的核苷酸包含二脱氧胞嘧啶。

F14.根据实施方案F1到F8中任一项所述的组合物，其中所述一个或多个修饰的核苷酸包含反向二脱氧碱基。

F15.根据实施方案F14所述的组合物，其中所述一个或多个修饰的核苷酸包含反向二脱氧胸腺嘧啶。

F16.根据实施方案F1到F8中任一项所述的组合物，其中所述一个或多个修饰的核苷酸包含间隔物。

F17.根据实施方案F16所述的组合物，其中所述一个或多个修饰的核苷酸包含C3间隔物。

F18.根据实施方案F1到F17中任一项所述的组合物，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸。

F19.根据实施方案F1到F18中任一项所述的组合物，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸、具有3'突出端的寡核苷酸和不具有突出端的寡核苷酸。

F20.根据实施方案F1到F19中任一项所述的组合物，其中所述包含突出端的寡核苷酸包含双链体部分、所述第一末端处的突出端和所述第二末端处的至少一个未配对的修饰的核苷酸。

F21.根据实施方案F1到F20中任一项所述的组合物，其中所述寡核苷酸突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

F22.根据实施方案F1到F21中任一项所述的组合物，其中所述多个寡核苷酸种类中的所述寡核苷酸包含对于特定突出端长度具有不同序列的寡核苷酸突出端。

F23.根据实施方案F22所述的组合物，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度的所有可能的突出端序列组合。

F24.根据实施方案F23所述的组合物，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对每个突出端长度的所有可能的突出端序列组合。

F25.根据实施方案F22、F23或F24所述的组合物，其中所述寡核苷酸突出端序列是随机的。

F26.根据实施方案F1到F25中任一项所述的组合物，其中所述不包含突出端的寡核苷酸包含双链体部分，所述双链体部分具有第一个末端处的平端和第二末端处的至少一个未配对的修饰的核苷酸。

F27.根据实施方案F1到F26中任一项所述的组合物，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度。

F28.根据实施方案F1到F27中任一项所述的组合物，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度并且对于所述寡核苷酸突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

F29.根据实施方案F1到F28中任一项所述的组合物，其中寡核苷酸种类不包含突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

F30.根据实施方案F1到F29中任一项所述的组合物，其中所述寡核苷酸突出端包含DNA核苷酸。

F31.根据实施方案F1到F29中任一项所述的组合物，其中所述寡核苷酸突出端由DNA核苷酸组成。

F32.根据实施方案F1到F29中任一项所述的组合物，其中所述寡核苷酸突出端包含RNA核苷酸。

F33.根据实施方案F1到F29中任一项所述的组合物，其中所述寡核苷酸突出端由RNA核苷酸组成。

G1.一种用于修饰核酸末端的方法，其包括：

(i)所述多个寡核苷酸种类中的寡核苷酸包含两条链和第一末端处的突出端，其中所述第一末端突出端包含回文序列；

(ii)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含第二末端处的突出端，其中所述第二末端突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的第二末端突出端序列和长度，

(iii)所述靶核酸的一些或全部包含突出端，

(iv)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述第二末端突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列，

(v)所述多个寡核苷酸种类中的每种寡核苷酸都包含一个或多个修饰的核苷酸，并且

(vi)在第一末端突出端与其他第一末端突出端杂交并且第二末端突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述多个寡核苷酸种类组合，由此形成环状杂交产物；

(b)使所述杂交产物与外切核酸酶接触，由此生成经外切核酸酶处理的杂交产物；

(c)剪切所述经外切核酸酶处理的杂交产物，由此生成经剪切的经外切核酸酶处理的杂交产物；以及

(d)将包含寡核苷酸种类中的序列的片段与不包含寡核苷酸种类中的序列的片段分离，由此生成经分离的、经剪切的、经外切核酸酶处理的杂交产物。

G2.根据实施方案G1所述的方法，其中所述一个或多个修饰的核苷酸包括与结合对的第一成员缀合的核苷酸。

G3.根据实施方案G1或G2所述的方法，其中所述一个或多个修饰的核苷酸包括与生物素缀合的核苷酸。

G4.根据实施方案G1到G3中任一项所述的方法，其中所述第一末端突出端包含所述一个或多个修饰的核苷酸。

G5.根据实施方案G1到G4中任一项所述的方法，其中(d)中的所述分离包括使所述经剪切的经外切核酸酶处理的杂交产物与结合对的第二成员接触。

G6.根据实施方案G5所述的方法，其中结合对的所述第二成员是与固体支持物缀合的抗生蛋白链菌素。

G7.根据实施方案G1到G6中任一项所述的方法，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸以及其组合。

G8.根据实施方案G1到G7中任一项所述的方法，其中一个或多个寡核苷酸种类具有第一末端处的5'突出端。

G9.根据实施方案G1到G8中任一项所述的方法，其中一个或多个寡核苷酸种类具有第一末端处的3'突出端。

G10.根据实施方案G1到G9中任一项所述的方法，其中一个或多个寡核苷酸种类具有第二末端处的5'突出端。

G11.根据实施方案G1到G10中任一项所述的方法，其中一个或多个寡核苷酸种类具有第二末端处的3'突出端。

G12.根据实施方案G1到G11中任一项所述的方法，其中一个或多个寡核苷酸种类在第二末端处不具有突出端。

G13.根据实施方案G1到G12中任一项所述的方法，其中所述多个寡核苷酸种类包括独立地具有第一末端5'突出端或第一末端3'突出端；以及第二末端5'突出端、第二末端3'突出端或不包含突出端的第二末端的寡核苷酸。

G14.根据实施方案G1到G13中任一项所述的方法，其中所述第二末端突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

G15.根据实施方案G1到G14中任一项所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含对于特定突出端长度具有不同序列的第二末端突出端。

G16.根据实施方案G15所述的方法，其中所述多个寡核苷酸种类中的所述第二末端突出端包含针对特定突出端长度的所有可能的突出端序列组合。

G17.根据实施方案G16所述的方法，其中所述多个寡核苷酸种类中的所述第二末端突出端包含针对每个突出端长度的所有可能的突出端序列组合。

G18.根据实施方案G15、G16或G17所述的方法，其中所述第二末端突出端序列是随机的。

G19.根据实施方案G1到G18中任一项所述的方法，其中寡核苷酸的末端能够共价连接到所述寡核苷酸在所述杂交产物中所杂交的靶核酸的末端。

G20.根据实施方案G1到G19中任一项所述的方法，其中第一末端突出端的末端能够共价连接到寡核苷酸种类的末端，所述寡核苷酸种类包括所述第一末端突出端在所述杂交产物中所杂交的第一末端。

G21.根据实施方案G20所述的方法，其中寡核苷酸链的3'末端能够共价连接到所述寡核苷酸在所述杂交产物中所杂交的所述靶核酸中的链的5'末端。

G22.根据实施方案G1到G21中任一项所述的方法，其中所述寡核苷酸突出端识别序列特异于所述第二末端突出端的长度。

G23.根据实施方案G1到G22中任一项所述的方法，其中所述寡核苷酸突出端识别序列特异于所述第二末端突出端的长度并且对于所述第二末端突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

G24.根据实施方案G1到G23中任一项所述的方法，其中所述靶核酸中的一些不包含突出端。

G25.根据实施方案G1到G24中任一项所述的方法，其中寡核苷酸种类不包含第二末端突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

G26.根据实施方案G1到G25中任一项所述的方法，其中所述包含突出端的靶核酸包含双链体区和单链突出端。

G27.根据实施方案G1到G26中任一项所述的方法，其中包含突出端的每个靶核酸包含一个末端处的突出端或两个末端处的突出端。

G28.根据实施方案G1到G27中任一项所述的方法，其中每个包含突出端的靶核酸的一个末端或两个末端独立地包含5'突出端或3'突出端。

G29.根据实施方案G1到G28中任一项所述的方法，其中所述靶核酸包括脱氧核糖核酸(DNA)片段。

G30.根据实施方案G29所述的方法，其中从细胞获得所述DNA片段。

G31.根据实施方案G29或G30所述的方法，其中所述DNA片段包括基因组DNA片段。

G32.根据实施方案G1到G28中任一项所述的方法，其中所述靶核酸包括核糖核酸(RNA)片段。

G33.根据实施方案G32所述的方法，其中从细胞获得所述RNA片段。

G34.根据实施方案G1到G33中任一项所述的方法，其中所述靶核酸包括无细胞的核酸片段。

G35.根据实施方案G1到G34中任一项所述的方法，其中所述靶核酸包括循环的无细胞的核酸片段。

G36.根据实施方案G1到G35中任一项所述的方法，其中靶核酸中的所述突出端是天然突出端。

G37.根据实施方案G1到G36中任一项所述的方法，其中靶核酸中的所述突出端是未修饰的突出端。

G38.根据实施方案G1到G37中任一项所述的方法，其中在与所述多个寡核苷酸种类组合之前，不修饰所述靶核酸的长度。

G39.根据实施方案G1到G38中任一项所述的方法，其包括在(a)之前，通过基本上由以下组成的方法制备所述核酸组合物：从样品分离核酸，由此生成所述核酸组合物。

G40.根据实施方案G1到G39中任一项所述的方法，其包括使所述杂交产物暴露于所述靶核酸的末端与其所杂交的所述寡核苷酸的末端接合的条件。

G41.根据实施方案G40所述的方法，其包括在靶核酸的末端共价连接到所述靶核酸所杂交的所述寡核苷酸的末端的条件下，使所述杂交产物与包含连接酶活性的试剂接触。

G42.根据实施方案G1到G41中任一项所述的方法，其包括在(a)之前，在将靶核酸去磷酸化的条件下，使所述靶核酸组合物与包含磷酸酶活性的试剂接触，由此生成去磷酸化的靶核酸组合物。

G43.根据实施方案G42所述的方法，其包括在(a)之前，在将5'磷酸酯添加到靶核酸的5'末端的条件下，使所述去磷酸化的靶核酸组合物与包含磷酰基转移活性的试剂接触。

G44.根据实施方案G1到G43中任一项所述的方法，其包括在(a)之前，在将所述寡核苷酸去磷酸化的条件下，使所述多个寡核苷酸种类与包含磷酸酶活性的试剂接触，由此生成多个去磷酸化的寡核苷酸种类。

G45.根据实施方案G44所述的方法，其包括在(a)之前，在将5'磷酸酯添加到寡核苷酸种类的5'末端的条件下，使所述去磷酸化的寡核苷酸种类与包含磷酰基转移活性的试剂接触。

G46.根据实施方案G1到G45中任一项所述的方法，其中从来自受试者的样品获得所述靶核酸。

G47.根据实施方案G46所述的方法，其中所述受试者是人。

G48.根据实施方案G1到G47中任一项所述的方法，其包括在(a)之前，根据片段长度分离所述靶核酸。

G49.根据实施方案G48所述的方法，其中将具有小于约500bp的片段长度的靶核酸与所述多个寡核苷酸种类组合。

G50.根据实施方案G48所述的方法，其中将具有约500bp或更长的片段长度的靶核酸与所述多个寡核苷酸种类组合。

G51.根据实施方案G1到G50中任一项所述的方法，其中所述第二末端突出端包含DNA核苷酸。

G52.根据实施方案G1到G50中任一项所述的方法，其中所述第二末端突出端由DNA核苷酸组成。

G53.根据实施方案G1到G50中任一项所述的方法，其中所述第二末端突出端包含RNA核苷酸。

G54.根据实施方案G1到G50中任一项所述的方法，其中所述第二末端突出端由RNA核苷酸组成。

G55.根据实施方案G53或G54所述的方法，其包括在靶核酸的末端共价连接到所述靶核酸所杂交的所述寡核苷酸的末端的条件下，使所述杂交产物与包含RNA连接酶活性的试剂接触。

G56.根据实施方案G53到G55中任一项所述的方法，其包括在消化双链RNA双链体的条件下，使所述杂交产物与包含RNAse活性的试剂接触。

H1.一种包含多个寡核苷酸种类的组合物，其中：

(a)所述多个寡核苷酸种类中的寡核苷酸包含两条链和第一末端处的突出端，其中所述第一末端突出端包含回文序列；

(b)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含第二末端处的突出端，其中所述第二末端突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的第二末端突出端序列和长度；

(c)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述第二末端突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列；并且

(d)所述多个寡核苷酸种类中的每种寡核苷酸都包含一个或多个修饰的核苷酸。

H2.根据实施方案H1所述的组合物，其中所述一个或多个修饰的核苷酸包括与结合对的第一成员缀合的核苷酸。

H3.根据实施方案H1或H2所述的组合物，其中所述一个或多个修饰的核苷酸包括与生物素缀合的核苷酸。

H4.根据实施方案H1到H3中任一项所述的组合物，其中所述第一末端突出端包含所述一个或多个修饰的核苷酸。

H5.根据实施方案H1到H4中任一项所述的组合物，其中(d)中的所述分离包括使所述经剪切的经外切核酸酶处理的杂交产物与结合对的第二成员接触。

H6.根据实施方案H5所述的组合物，其中结合对的所述第二成员是与固体支持物缀合的抗生蛋白链菌素。

H7.根据实施方案H1到H6中任一项所述的组合物，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸以及其组合。

H8.根据实施方案H1到H7中任一项所述的组合物，其中一个或多个寡核苷酸种类具有第一末端处的5'突出端。

H9.根据实施方案H1到H8中任一项所述的组合物，其中一个或多个寡核苷酸种类具有第一末端处的3'突出端。

H10.根据实施方案H1到H9中任一项所述的组合物，其中一个或多个寡核苷酸种类具有第二末端处的5'突出端。

H11.根据实施方案H1到H10中任一项所述的组合物，其中一个或多个寡核苷酸种类具有第二末端处的3'突出端。

H12.根据实施方案H1到H11中任一项所述的组合物，其中一个或多个寡核苷酸种类在第二末端处不具有突出端。

H13.根据实施方案H1到H12中任一项所述的组合物，其中所述多个寡核苷酸种类包括独立地具有第一末端5'突出端或第一末端3'突出端；以及第二末端5'突出端、第二末端3'突出端或不包含突出端的第二末端的寡核苷酸。

H14.根据实施方案H1到H13中任一项所述的组合物，其中所述第二末端突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

H15.根据实施方案H1到H14中任一项所述的组合物，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度具有不同序列的第二末端突出端。

H16.根据实施方案H15所述的组合物，其中所述多个寡核苷酸种类中的所述第二末端突出端包含针对特定突出端长度的所有可能的突出端序列组合。

H17.根据实施方案H16所述的组合物，其中所述多个寡核苷酸种类中的所述第二末端突出端包含针对每个突出端长度的所有可能的突出端序列组合。

H18.根据实施方案H15、H16或H17所述的组合物，其中所述第二末端突出端序列是随机的。

H19.根据实施方案H1到H18中任一项所述的组合物，其中所述寡核苷酸突出端识别序列特异于所述第二末端突出端的长度。

H20.根据实施方案H1到H19中任一项所述的组合物，其中所述寡核苷酸突出端识别序列特异于所述第二末端突出端的长度并且对于所述第二末端突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

H21.根据实施方案H1到H20中任一项所述的组合物，其中寡核苷酸种类不包含第二末端突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

H22.根据实施方案H1到H21中任一项所述的组合物，其中所述第二末端突出端包含DNA核苷酸。

H23.根据实施方案H1到H21中任一项所述的组合物，其中所述第二末端突出端由DNA核苷酸组成。

H24.根据实施方案H1到H21中任一项所述的组合物，其中所述第二末端突出端包含RNA核苷酸。

H25.根据实施方案H1到H21中任一项所述的组合物，其中所述第二末端突出端由RNA核苷酸组成。

I1.一种用于修饰核酸末端的方法，其包括：

(i)所述多种寡核苷酸中的一些或全部寡核苷酸包含(1)两条链以及第一末端处的突出端和第二末端处的两条非互补链，或(2)能够形成具有单链环和突出端的发夹结构的一条链；其中所述突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，

(ii)所述靶核酸的一些或全部包含突出端，

(b)使所述杂交产物与链置换聚合酶接触，由此形成平端核酸片段。

I2.根据实施方案I1所述的方法，其中所述多个寡核苷酸种类中的每种寡核苷酸均由能够形成具有单链环的发夹结构的一条链组成。

I3.根据实施方案I1或I2所述的方法，其中所述单链环包含切割位点。

I4.根据实施方案I3所述的方法，其中所述切割位点包含一个或多个RNA核苷酸。

I5.根据实施方案I4所述的方法，其中所述环包含两个RNA核苷酸。

I6.根据实施方案I4所述的方法，其中所述环包含三个RNA核苷酸。

I7.根据实施方案I4所述的方法，其中所述环包含四个RNA核苷酸。

I8.根据实施方案I4到I7中任一项所述的方法，其中所述环包含一个或多个选自腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和尿嘧啶(U)的核糖核酸(RNA)核苷酸。

I9.根据实施方案I4到I8中任一项所述的方法，其中所述RNA核苷酸包含鸟嘌呤(G)。

I10.根据实施方案I4到I8中任一项所述的方法，其中所述RNA核苷酸由鸟嘌呤(G)组成。

I11.根据实施方案I4到I8中任一项所述的方法，其中所述RNA核苷酸包含胞嘧啶(C)。

I12.根据实施方案I4到I8中任一项所述的方法，其中所述RNA核苷酸由胞嘧啶(C)组成。

I13.根据实施方案I4到I8中任一项所述的方法，其中所述RNA核苷酸包含腺嘌呤(A)。

I14.根据实施方案I4到I8中任一项所述的方法，其中所述RNA核苷酸由腺嘌呤(A)组成。

I15.根据实施方案I4到I8中任一项所述的方法，其中所述RNA核苷酸由腺嘌呤(A)、胞嘧啶(C)和鸟嘌呤(G)组成。

I16.根据实施方案I4到I8中任一项所述的方法，其中所述RNA核苷酸由腺嘌呤(A)和胞嘧啶(C)组成。

I17.根据实施方案I4到I8中任一项所述的方法，其中所述RNA核苷酸由腺嘌呤(A)和鸟嘌呤(G)组成。

I18.根据实施方案I4到I8中任一项所述的方法，其中所述RNA核苷酸由胞嘧啶(C)和鸟嘌呤(G)组成。

I19.根据实施方案I1到I18中任一项所述的方法，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸。

I20.根据实施方案I1到I19中任一项所述的方法，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸、具有3'突出端的寡核苷酸和不具有突出端的寡核苷酸。

I21.根据实施方案I1到I20中任一项所述的方法，其中所述包含突出端的寡核苷酸包含单链环、双链体部分和单链突出端。

I22.根据实施方案I1到I20中任一项所述的方法，其中所述包含突出端的寡核苷酸包含第一末端处的突出端、双链体部分和第二末端处的两条非互补链。

I23.根据实施方案I1到I22中任一项所述的方法，其中所述寡核苷酸突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

I24.根据实施方案I1到I23中任一项所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度具有不同序列的寡核苷酸突出端。

I25.根据实施方案I24所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度的所有可能的突出端序列组合。

I26.根据实施方案I25所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对每个突出端长度的所有可能的突出端序列组合。

I27.根据实施方案I24、I25或I26所述的方法，其中所述寡核苷酸突出端序列是随机的。

I28.根据实施方案I1到I27中任一项所述的方法，其中所述不包含突出端的寡核苷酸包含单链环和双链体部分。

I29.根据实施方案I1到I27中任一项所述的方法，其中所述不包含突出端的寡核苷酸包含平端第一末端、双链体部分和第二末端处的两条非互补链。

I30.根据实施方案I1到I29中任一项所述的方法，其中寡核苷酸的末端能够共价连接到所述寡核苷酸在所述杂交产物中所杂交的靶核酸的末端。

I31.根据实施方案I30所述的方法，其中寡核苷酸链的3'末端能够共价连接到所述寡核苷酸在所述杂交产物中所杂交的所述靶核酸中的链的5'末端。

I32.根据实施方案I1到I31中任一项所述的方法，其中所述杂交产物包含双链体区和至少一个单链环。

I33.根据实施方案I1到I32中任一项所述的方法，其中所述杂交产物包含双链体区和每个末端处的单链环。

I34.根据实施方案I1到I31中任一项所述的方法，其中所述杂交产物包含双链体区和至少一个包含两条非互补链的末端。

I35.根据实施方案I1到I31和I134中任一项所述的方法，其中所述杂交产物包含双链体区和每个末端处的两条非互补链。

I36.根据实施方案I3到I35中任一项所述的方法，其包括在切割条件下使所述杂交产物与一种或多种切割剂接触，所述切割剂能够在所述切割位点处在所述发夹环内切割所述杂交产物，由此形成切割的杂交产物。

I37.根据实施方案I4到I36中任一项所述的方法，其包括在切割条件下使所述杂交产物与一种或多种切割剂接触，所述切割剂能够在所述RNA核苷酸处在所述发夹环内切割所述杂交产物，由此形成切割的杂交产物。

I38.根据实施方案I37所述的方法，其中所述一种或多种切割剂能够在所述RNA核苷酸处在所述发夹环内切割所述杂交产物，并且不能在所述双链体区内切割所述杂交产物。

I39.根据实施方案I36到I38中任一项所述的方法，其中所述一种或多种切割剂包括核糖核酸酶(RNAse)。

I40.根据实施方案I39所述的方法，其中所述RNAse是内切核糖核酸酶。

I41.根据实施方案I39或I40所述的方法，其中所述RNAse选自RNAse A、RNAse E、RNAse F、RNAse H、RNAse III、RNAse L、RNAse P、RNAse PhyM、RNAse T1、RNAse T2、RNAseU2和RNAse V中的一个或多个。

I42.根据实施方案I1到I41中任一项所述的方法，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度。

I43.根据实施方案I1到I42中任一项所述的方法，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度并且对于所述寡核苷酸突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

I44.根据实施方案I1到I43中任一项所述的方法，其中所述靶核酸中的一些不包含突出端。

I45.根据实施方案I1到I44中任一项所述的方法，其中寡核苷酸种类不包含突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

I46.根据实施方案I1到I45中任一项所述的方法，其中所述包含突出端的靶核酸包含双链体区和单链突出端。

I47.根据实施方案I1到I46中任一项所述的方法，其中包含突出端的每个靶核酸包含一个末端处的突出端或两个末端处的突出端。

I48.根据实施方案I1到I47中任一项所述的方法，其中每个包含突出端的靶核酸的一个末端或两个末端独立地包含5'突出端或3'突出端。

I49.根据实施方案I1到I48中任一项所述的方法，其中所述靶核酸包括脱氧核糖核酸(DNA)片段。

I50.根据实施方案I49所述的方法，其中从细胞获得所述DNA片段。

I51.根据实施方案I49或I50所述的方法，其中所述DNA片段包括基因组DNA片段。

I52.根据实施方案I1到I48中任一项所述的方法，其中所述靶核酸包括核糖核酸(RNA)片段。

I53.根据实施方案I52所述的方法，其中从细胞获得所述RNA片段。

I54.根据实施方案I1到I53中任一项所述的方法，其中所述靶核酸包括无细胞的核酸片段。

I55.根据实施方案I1到I54中任一项所述的方法，其中所述靶核酸包括循环的无细胞的核酸片段。

I56.根据实施方案I1到I55中任一项所述的方法，其中靶核酸中的所述突出端是天然突出端。

I57.根据实施方案I1到I56中任一项所述的方法，其中靶核酸中的所述突出端是未修饰的突出端。

I58.根据实施方案I1到I57中任一项所述的方法，其中在与所述多个寡核苷酸种类组合之前不修饰靶核酸的长度。

I59.根据实施方案I1到I58中任一项所述的方法，其包括在(a)之前，通过基本上由以下组成的方法制备所述核酸组合物：从样品分离核酸，由此生成所述核酸组合物。

I60.根据实施方案I1到I59中任一项所述的方法，其包括使所述杂交产物暴露于所述靶核酸的末端与其所杂交的所述寡核苷酸的末端接合的条件。

I61.根据实施方案I60所述的方法，其包括在靶核酸的末端共价连接到所述靶核酸所杂交的所述寡核苷酸的末端的条件下，使所述杂交产物与包含连接酶活性的试剂接触。

I62.根据实施方案I1到I61中任一项所述的方法，其包括在(a)之前，在将靶核酸去磷酸化的条件下，使所述靶核酸组合物与包含磷酸酶活性的试剂接触，由此生成去磷酸化的靶核酸组合物。

I63.根据实施方案I62所述的方法，其包括在(a)之前，在将5'磷酸酯添加到靶核酸的5'末端的条件下，使所述去磷酸化的靶核酸组合物与包含磷酰基转移活性的试剂接触。

I64.根据实施方案I1到I63中任一项所述的方法，其包括在(a)之前，在将所述寡核苷酸去磷酸化的条件下，使所述多个寡核苷酸种类与包含磷酸酶活性的试剂接触，由此生成多个去磷酸化的寡核苷酸种类。

I65.根据实施方案I64所述的方法，其包括在(a)之前，在将5'磷酸酯添加到寡核苷酸种类的5'末端的条件下，使所述去磷酸化的寡核苷酸种类与包含磷酰基转移活性的试剂接触。

I66.根据实施方案I1到I65中任一项所述的方法，其中从来自受试者的样品获得所述靶核酸。

I67.根据实施方案I66所述的方法，其中所述受试者是人。

I68.根据实施方案I1到I67中任一项所述的方法，其包括在(a)之前，根据片段长度分离所述靶核酸。

I69.根据实施方案I68所述的方法，其中将具有小于约500bp的片段长度的靶核酸与所述多个寡核苷酸种类组合。

I70.根据实施方案I68所述的方法，其中将具有约500bp或更长的片段长度的靶核酸与所述多个寡核苷酸种类组合。

I71.根据实施方案I1到I70中任一项所述的方法，其中所述寡核苷酸突出端包含DNA核苷酸。

I72.根据实施方案I1到I70中任一项所述的方法，其中所述寡核苷酸突出端由DNA核苷酸组成。

I73.根据实施方案I1到I70中任一项所述的方法，其中所述寡核苷酸突出端包含RNA核苷酸。

I74.根据实施方案I1到I70中任一项所述的方法，其中所述寡核苷酸突出端由RNA核苷酸组成。

I75.根据实施方案I73或I74所述的方法，其包括在靶核酸的末端共价连接到所述靶核酸所杂交的所述寡核苷酸的末端的条件下，使所述杂交产物与包含RNA连接酶活性的试剂接触。

I76.根据实施方案I73到I75中任一项所述的方法，其包括在消化双链RNA双链体的条件下，使所述杂交产物与包含RNAse活性的试剂接触。

J1.一种包含多个寡核苷酸种类的组合物，其中：

(a)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含(i)两条链以及第一末端处的突出端和第二末端处的两条非互补链，或(ii)能够形成具有单链环和突出端的发夹结构的一条链；其中所述突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度；并且

J2.根据实施方案J1所述的组合物，其中所述多个寡核苷酸种类中的每种寡核苷酸均由能够形成具有单链环的发夹结构的一条链组成。

J3.根据实施方案J1或J2所述的组合物，其中所述单链环包含切割位点。

J4.根据实施方案J3所述的组合物，其中所述切割位点包含一个或多个RNA核苷酸。

J5.根据实施方案J4所述的组合物，其中所述环包含两个RNA核苷酸。

J6.根据实施方案J4所述的组合物，其中所述环包含三个RNA核苷酸。

J7.根据实施方案J4所述的组合物，其中所述环包含四个RNA核苷酸。

J8.根据实施方案J4到J7中任一项所述的组合物，其中所述环包含一个或多个选自腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和尿嘧啶(U)的核糖核酸(RNA)核苷酸。

J9.根据实施方案J4到J8中任一项所述的组合物，其中所述RNA核苷酸包含鸟嘌呤(G)。

J10.根据实施方案J4到J8中任一项所述的组合物，其中所述RNA核苷酸由鸟嘌呤(G)组成。

J11.根据实施方案J4到J8中任一项所述的组合物，其中所述RNA核苷酸包含胞嘧啶(C)。

J12.根据实施方案J4到J8中任一项所述的组合物，其中所述RNA核苷酸由胞嘧啶(C)组成。

J13.根据实施方案J4到J8中任一项所述的组合物，其中所述RNA核苷酸包含腺嘌呤(A)。

J14.根据实施方案J4到J8中任一项所述的组合物，其中所述RNA核苷酸由腺嘌呤(A)组成。

J15.根据实施方案J4到J8中任一项所述的组合物，其中所述RNA核苷酸由腺嘌呤(A)、胞嘧啶(C)和鸟嘌呤(G)组成。

J16.根据实施方案J4到J8中任一项所述的组合物，其中所述RNA核苷酸由腺嘌呤(A)和胞嘧啶(C)组成。

J17.根据实施方案J4到J8中任一项所述的组合物，其中所述RNA核苷酸由腺嘌呤(A)和鸟嘌呤(G)组成。

J18.根据实施方案J4到J8中任一项所述的组合物，其中所述RNA核苷酸由胞嘧啶(C)和鸟嘌呤(G)组成。

J19.根据实施方案J1到J18中任一项所述的组合物，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸。

J20.根据实施方案J1到J19中任一项所述的组合物，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸、具有3'突出端的寡核苷酸和不具有突出端的寡核苷酸。

J21.根据实施方案J1到J20中任一项所述的组合物，其中所述包含突出端的寡核苷酸包含单链环、双链体部分和单链突出端。

J22.根据实施方案J1到J21中任一项所述的组合物，其中所述包含突出端的寡核苷酸包含第一末端处的突出端、双链体部分和第二末端处的两条非互补链。

J23.根据实施方案J1到J22中任一项所述的组合物，其中所述寡核苷酸突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

J24.根据实施方案J1到J23中任一项所述的组合物，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度具有不同序列的寡核苷酸突出端。

J25.根据实施方案J24所述的组合物，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度的所有可能的突出端序列组合。

J26.根据实施方案J25所述的组合物，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对每个突出端长度的所有可能的突出端序列组合。

J27.根据实施方案J24、J25或J26所述的组合物，其中所述寡核苷酸突出端序列是随机的。

J28.根据实施方案J1到J27中任一项所述的组合物，其中所述不包含突出端的寡核苷酸包含单链环和双链体部分。

J29.根据实施方案J1到J27中任一项所述的组合物，其中所述不包含突出端的寡核苷酸包含平端第一末端、双链体部分和第二末端处的两条非互补链。

J30.根据实施方案J1到J29中任一项所述的组合物，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度。

J31.根据实施方案J1到J30中任一项所述的组合物，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度并且对于所述寡核苷酸突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

J32.根据实施方案J1到J31中任一项所述的组合物，其中寡核苷酸种类不包含突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

J33.根据实施方案J1到J32中任一项所述的组合物，其中所述寡核苷酸突出端包含DNA核苷酸。

J34.根据实施方案J1到J32中任一项所述的组合物，其中所述寡核苷酸突出端由DNA核苷酸组成。

J35.根据实施方案J1到J32中任一项所述的组合物，其中所述寡核苷酸突出端包含RNA核苷酸。

J36.根据实施方案J1到J32中任一项所述的组合物，其中所述寡核苷酸突出端由RNA核苷酸组成。

K1.一种试剂盒，其包含：

根据实施方案B1到B32中任一项所述的组合物；以及

关于使用所述组合物产生核酸文库的说明。

K2.根据实施方案K1所述的试剂盒，其进一步包含含有磷酸酶活性的试剂。

K3.根据实施方案K1或K2所述的试剂盒，其进一步包含含有磷酰基转移活性的试剂。

K4.根据实施方案K1到K3中任一项所述的试剂盒，其进一步包含含有连接酶活性的试剂。

K5.根据实施方案K1到K4中任一项所述的试剂盒，其进一步包含一种或多种切割剂。

K6.根据实施方案K5所述的试剂盒，其中所述一种或多种切割剂包括核糖核酸酶(RNAse)。

K7.根据实施方案K6所述的试剂盒，其中所述RNAse是内切核糖核酸酶。

L1.一种试剂盒，其包含：

根据实施方案D1到D23中任一项所述的组合物；以及

关于使用所述组合物修饰核酸末端的说明。

L2.根据实施方案L1所述的试剂盒，其进一步包括含有磷酸酶活性的试剂。

L3.根据实施方案L1或L2所述的试剂盒，其进一步包含含有磷酰基转移活性的试剂。

L4.根据实施方案L1到L3中任一项所述的试剂盒，其进一步包含含有连接酶活性的试剂。

L5.根据实施方案L1到L4中任一项所述的试剂盒，其进一步包含一种或多种切割剂。

L6.根据实施方案L1到L5中任一项所述的试剂盒，其中所述一种或多种切割剂包括内切核酸酶。

L7.根据实施方案L1到L5中任一项所述的试剂盒，其中所述一种或多种切割剂包括DNA糖苷酶。

L8.根据实施方案L1到L7中任一项所述的试剂盒，其中所述一种或多种切割剂包括内切核酸酶和DNA糖苷酶。

L9.根据实施方案L8所述的试剂盒，其中所述一种或多种切割剂包括尿嘧啶DNA糖苷酶(UDG)和内切核酸酶VIII的混合物。

L10.根据实施方案L1到L9中任一项所述的试剂盒，其进一步包含链置换聚合酶。

L11.根据实施方案L1到L10中任一项所述的试剂盒，其进一步包含修饰的核苷酸。

L12.根据实施方案L11所述的试剂盒，其中所述修饰的核苷酸包含与结合对的第一成员缀合的核苷酸。

L13.根据实施方案L11或L12所述的试剂盒，其中所述修饰的核苷酸包含与生物素缀合的核苷酸。

L14.根据实施方案L12或L13所述的试剂盒，其进一步包含与固体支持物缀合的结合对的第二成员。

L15.根据实施方案L14所述的试剂盒，其中结合对的所述第二成员是抗生蛋白链菌素。

M1.一种试剂盒，其包含：

根据实施方案F1到F33中任一项所述的组合物；以及

关于使用所述组合物修饰核酸末端的说明。

M2.根据实施方案M1所述的试剂盒，其进一步包含含有磷酸酶活性的试剂。

M3.根据实施方案M1或M2所述的试剂盒，其进一步包含含有磷酰基转移活性的试剂。

M4.根据实施方案M1到M3中任一项所述的试剂盒，其进一步包含含有连接酶活性的试剂。

M5.根据实施方案M1到M4中任一项所述的试剂盒，其进一步包含链置换聚合酶。

N1.一种试剂盒，其包含：

根据实施方案H1到H25中任一项所述的组合物；以及

关于使用所述组合物修饰核酸末端的说明。

N2.根据实施方案N1所述的试剂盒，其进一步包含含有磷酸酶活性的试剂。

N3.根据实施方案N1或N2所述的试剂盒，其进一步包含含有磷酰基转移活性的试剂。

N4.根据实施方案N1到N3中任一项所述的试剂盒，其进一步包含含有连接酶活性的试剂。

N5.根据实施方案N1到N4中任一项所述的试剂盒，其进一步包含外切核酸酶。

N6.根据实施方案N1到N5中任一项所述的试剂盒，其进一步包含剪切剂。

N7.根据实施方案N1到N6中任一项所述的试剂盒，其进一步包含与固体支持物缀合的结合对的成员。

N8.根据实施方案N7所述的试剂盒，结合对的所述成员是抗生蛋白链菌素。

O1.一种试剂盒，其包含：

根据实施方案J1到J36中任一项所述的组合物；以及

关于使用所述组合物修饰核酸末端的说明。

O2.根据实施方案O1所述的试剂盒，其进一步包含含有磷酸酶活性的试剂。

O3.根据实施方案O1或O2所述的试剂盒，其进一步包含含有磷酰基转移活性的试剂。

O4.根据实施方案O1到O3中任一项所述的试剂盒，其进一步包含含有连接酶活性的试剂。

O5.根据实施方案O1到O4中任一项所述的试剂盒，其进一步包含链置换聚合酶。

O6.根据实施方案O1到O5中任一项所述的试剂盒，其进一步包含一种或多种切割剂。

O7.根据实施方案O6所述的试剂盒，其中所述一种或多种切割剂包括核糖核酸酶(RNAse)。

O8.根据实施方案O7所述的试剂盒，其中所述RNAse是内切核糖核酸酶。

P1.一种测定核酸群体的方法，其包括：

测定样品中核酸群体的核酸突出端，由此生成所述群体的突出端谱；以及

基于所述突出端谱，确定所述样品的一个或多个特征。

P2.根据实施方案P1所述的方法，其中所述测定包括使寡核苷酸与所述核酸群体接触。

P2.1根据实施方案P2所述的方法，其中所述寡核苷酸中的一些或全部包含能够与核酸突出端杂交的突出端，其中每个寡核苷酸种类都具有唯一的突出端序列和长度。

P3.根据实施方案P2或P2.1所述的方法，其中所述寡核苷酸包含突出端识别序列。

P3.1根据实施方案P3所述的方法，其中每个突出端识别序列对于所述寡核苷酸突出端的一个或多个特征具有特异性。

P3.2根据实施方案P2到P3.1中任一项所述的方法，其中所述寡核苷酸中的一些或全部包含两条链，以及第一个末端处的突出端和第二末端处的两条非互补链。

P3.3.根据实施方案P2到P3.1中任一项所述的方法，其中所述寡核苷酸中的一些或全部包含能够形成具有单链环和突出端的发夹结构的一条链。

P4.根据实施方案P1到P3.3中任一项所述的方法，其中所述样品的所述一个或多个特征包括疾病状态。

P5.根据实施方案P4所述的方法，其中所述疾病状态包括癌症类型或癌症阶段。

P5.1根据实施方案P5所述的方法，其中所述癌症类型是胃肠癌。

P6.根据实施方案P4所述的方法，其中所述疾病状态包括细胞死亡率或细胞死亡模式的改变。

P7.根据实施方案P6所述的方法，其中所述改变与特定细胞类型或器官类型相关。

P8.根据实施方案P1到P3.3中任一项所述的方法，其中所述样品的所述一个或多个特征包括微生物群系谱。

P9.根据实施方案P1到P3.3中任一项所述的方法，其中所述样品的所述一个或多个特征包括辐射暴露。

P10.根据实施方案P1到P3.3中任一项所述的方法，其中所述样品的所述一个或多个特征包括核酸酶活性。

P11.根据实施方案P10所述的方法，其中所述核酸酶活性包括核酸引导的核酸酶活性。

P12.根据实施方案P11所述的方法，其中所述核酸引导的核酸酶活性包括CRISPR/Cas系统蛋白质活性。

P13.根据实施方案P1到P3.3中任一项所述的方法，其中所述样品的所述一个或多个特征包括拓扑异构酶活性。

P14.根据实施方案P1到P13中任一项所述的方法，其进一步包括在所述测定之前抑制酶活性。

P15.根据实施方案P14所述的方法，其中所述酶活性包括核酸酶活性。

P16.根据实施方案P1到P15中任一项所述的方法，其中所述测定包括杂交，由此生成杂交产物。

P17.根据实施方案P1到P16中任一项所述的方法，其中所述测定包括通过测序过程对所述杂交产物或其扩增产物进行测序，由此生成序列读段。

P18.根据实施方案P17所述的方法，其中所述序列读段包含正向序列读段和反向序列读段。

P19.根据实施方案P18所述的方法，其包括对所述序列读段进行定量，由此生成序列读段定量，其中对所述反向序列读段进行定量，并且从所述定量中排除所述正向序列读段。

P20.根据实施方案P18或P19所述的方法，其中根据所述反向序列读段生成所述突出端谱。

P21.根据实施方案P18所述的方法，其包括分析与指示所述反向序列读段存在突出端的突出端识别序列相关的突出端信息，由此生成分析。

P22.根据实施方案P21所述的方法，其包括从所述分析中省略与指示所述正向序列读段存在突出端的突出端识别序列相关的突出端信息。

P23.根据实施方案P21或P22所述的方法，其包括分析与指示所述正向序列读段和所述反向序列读段无突出端的突出端识别序列相关的突出端信息。

P24.根据实施方案P1到P23中任一项所述的方法，其中所述突出端谱包含一个或多个突出端特征。

P25.根据实施方案P24所述的方法，其中所述一个或多个突出端特征选自以下中的一个或多个：突出端长度、突出端类型、二核苷酸计数、三核苷酸计数、四核苷酸计数、二核苷酸百分比、三核苷酸百分比、四核苷酸百分比、GC含量、突出端百分比、突出端计数、突出端长度百分比和基因组坐标。

P26.根据实施方案P24所述的方法，其中所述一个或多个突出端特征包括特定二核苷酸的存在。

P27.根据实施方案P26所述的方法，其中所述一个或多个突出端特征包括CG二核苷酸的存在。

P28.根据实施方案P1到P27中任一项所述的方法，其进一步包括比较所述突出端谱与参考突出端谱。

P29.根据实施方案P1到P27中任一项所述的方法，其进一步包括比较所述突出端谱与第二样品的第二突出端谱，其中所述第二样品在不同时间点来自与所述样品相同的来源。

P30.根据实施方案P1到P29中任一项所述的方法，其中由微处理器执行一个或多个步骤。

P31.根据实施方案P1到P29中任一项所述的方法，其包括根据实施方案A1到A68、C1到C68、E1到E64、G1到G56、I1到I76、Q1到Q42、T1到T58和W1到W59中任一项所述的一个或多个特征。

Q1.一种用于修饰核酸末端的方法，其包括：

将包含靶核酸的核酸组合物和多个寡核苷酸种类组合，其中：

(a)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含至少一个包含RNA核苷酸的突出端，其中所述突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，

(b)所述靶核酸的一些或全部包含突出端，

(c)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列，并且

(d)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述多个寡核苷酸种类组合，由此形成杂交产物。

Q2.根据实施方案Q1所述的方法，其中所述寡核苷酸突出端由RNA核苷酸组成。

Q3.根据实施方案Q1或Q2所述的方法，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸。

Q4.根据实施方案Q1到Q3中任一项所述的方法，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸、具有3'突出端的寡核苷酸和不具有突出端的寡核苷酸。

Q5.根据实施方案Q1到Q4中任一项所述的方法，其中所述寡核苷酸突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

Q6.根据实施方案Q1到Q5中任一项所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度具有不同序列的寡核苷酸突出端。

Q7.根据实施方案Q6所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度的所有可能的突出端序列组合。

Q8.根据实施方案Q7所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对每个突出端长度的所有可能的突出端序列组合。

Q9.根据实施方案Q6、Q7或Q8所述的方法，其中所述寡核苷酸突出端序列是随机的。

Q10.根据实施方案Q1到Q9中任一项所述的方法，其中寡核苷酸的末端能够共价连接到所述寡核苷酸在所述杂交产物中所杂交的靶核酸的末端。

Q11.根据实施方案Q10所述的方法，其中寡核苷酸链的3'末端能够共价连接到所述寡核苷酸在所述杂交产物中所杂交的所述靶核酸中的链的5'末端。

Q12.根据实施方案Q1到Q11中任一项所述的方法，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度。

Q13.根据实施方案Q1到Q12中任一项所述的方法，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度并且对于所述寡核苷酸突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

Q14.根据实施方案Q1到Q13中任一项所述的方法，其中所述靶核酸中的一些不包含突出端。

Q15.根据实施方案Q1到Q14中任一项所述的方法，其中寡核苷酸种类不包含突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

Q16.根据实施方案Q1到Q15中任一项所述的方法，其中所述包含突出端的靶核酸包含双链体区和单链突出端。

Q17.根据实施方案Q1到Q16中任一项所述的方法，其中包含突出端的各靶核酸在一个末端包含突出端或在两个末端包含突出端。

Q18.根据实施方案Q1到Q17中任一项所述的方法，其中每个包含突出端的靶核酸的一个末端或两个末端独立地包含5'突出端或3'突出端。

Q19.根据实施方案Q1到Q18中任一项所述的方法，其中所述靶核酸包括脱氧核糖核酸(DNA)片段。

Q20.根据实施方案Q19所述的方法，其中从细胞获得所述DNA片段。

Q21.根据实施方案Q19或Q20所述的方法，其中所述DNA片段包括基因组DNA片段。

Q22.根据实施方案Q1到Q18中任一项所述的方法，其中所述靶核酸包括核糖核酸(RNA)片段。

Q23.根据实施方案Q22所述的方法，其中从细胞获得所述RNA片段。

Q24.根据实施方案Q1到Q23中任一项所述的方法，其中所述靶核酸包括无细胞的核酸片段。

Q25.根据实施方案Q1到Q24中任一项所述的方法，其中所述靶核酸包括循环的无细胞的核酸片段。

Q26.根据实施方案Q1到Q25中任一项所述的方法，其中靶核酸中的所述突出端是天然突出端。

Q27.根据实施方案Q1到Q26中任一项所述的方法，其中靶核酸中的所述突出端是未修饰的突出端。

Q28.根据实施方案Q1到Q27中任一项所述的方法，其中在与多个寡核苷酸种类组合之前不修饰靶核酸的长度。

Q29.根据实施方案Q1到Q28中任一项所述的方法，其包括在(a)之前，通过基本上由以下组成的方法制备所述核酸组合物：从样品分离核酸，由此生成所述核酸组合物。

Q30.根据实施方案Q1到Q29中任一项所述的方法，其包括使所述杂交产物暴露于所述靶核酸的末端与其所杂交的所述寡核苷酸的末端接合的条件。

Q31.根据实施方案Q30所述的方法，其包括在靶核酸的末端共价连接到所述靶核酸所杂交的所述寡核苷酸的末端的条件下，使所述杂交产物与包含连接酶活性的试剂接触。

Q32.根据实施方案Q30所述的方法，其包括在靶核酸的末端共价连接到所述靶核酸所杂交的所述寡核苷酸的末端的条件下，使所述杂交产物与包含RNA连接酶活性的试剂接触。

Q33.根据实施方案Q1到Q32中任一项所述的方法，其包括在组合之前，在将靶核酸去磷酸化的条件下，使所述靶核酸组合物与包含磷酸酶活性的试剂接触，由此生成去磷酸化的靶核酸组合物。

Q34.根据实施方案Q33所述的方法，其包括在组合之前，在将5'磷酸酯添加到靶核酸的5'末端的条件下，使所述去磷酸化的靶核酸组合物与包含磷酰基转移活性的试剂接触。

Q35.根据实施方案Q1到Q34中任一项所述的方法，其包括在组合之前，在将所述寡核苷酸去磷酸化的条件下，使所述多个寡核苷酸种类与包含磷酸酶活性的试剂接触，由此生成多个去磷酸化的寡核苷酸种类。

Q36.根据实施方案Q35所述的方法，其包括在组合之前，在将5'磷酸酯添加到寡核苷酸种类的5'末端的条件下，使所述去磷酸化的寡核苷酸种类与包含磷酰基转移活性的试剂接触。

Q37.根据实施方案Q1到Q36中任一项所述的方法，其中从来自受试者的样品获得所述靶核酸。

Q38.根据实施方案Q37所述的方法，其中所述受试者是人。

Q39.根据实施方案Q1到Q38中任一项所述的方法，其包括在组合之前，根据片段长度分离所述靶核酸。

Q40.根据实施方案Q39所述的方法，其中将具有小于约500bp的片段长度的靶核酸与所述多个寡核苷酸种类组合。

Q41.根据实施方案Q39所述的方法，其中将具有约500bp或更长的片段长度的靶核酸与所述多个寡核苷酸种类组合。

Q42.根据实施方案Q1到Q41中任一项所述的方法，其包括在消化双链RNA双链体的条件下，使所述杂交产物与包含RNAse活性的试剂接触。

R1.一种包含多个寡核苷酸种类的组合物，其中：

(a)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含至少一个包含RNA核苷酸的突出端，其中所述突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度；并且

R2.根据实施方案R1所述的组合物，其中所述寡核苷酸突出端由RNA核苷酸组成。

R3.根据实施方案R1或R2所述的组合物，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸。

R4.根据实施方案R1到R3中任一项所述的组合物，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸、具有3'突出端的寡核苷酸和不具有突出端的寡核苷酸。

R5.根据实施方案R1到R4中任一项所述的组合物，其中所述寡核苷酸突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

R6.根据实施方案R1到R5中任一项所述的组合物，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度具有不同序列的寡核苷酸突出端。

R7.根据实施方案R6所述的组合物，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度的所有可能的突出端序列组合。

R8.根据实施方案R7所述的组合物，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对每个突出端长度的所有可能的突出端序列组合。

R9.根据实施方案R6、R7或R8所述的组合物，其中所述寡核苷酸突出端序列是随机的。

R10.根据实施方案R1到R9中任一项所述的组合物，其中所述寡核苷酸突出端识别序列对所述寡核苷酸突出端的长度是特异性的。

R11.根据实施方案R1到R10中任一项所述的组合物，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度并且对于所述寡核苷酸突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

R12.根据实施方案R1到R11中任一项所述的组合物，其中寡核苷酸种类不包含突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

S1.一种试剂盒，其包含：

根据实施方案R1到R12中任一项所述的组合物；以及

关于使用所述组合物修饰核酸末端的说明。

S2.根据实施方案S1所述的试剂盒，其进一步包含含有磷酸酶活性的试剂。

S3.根据实施方案S1或S2所述的试剂盒，其进一步包含含有磷酰基转移活性的试剂。

S4.根据实施方案S1到S3中任一项所述的试剂盒，其进一步包括含有连接酶活性的试剂。

S5.根据实施方案S1到S4中任一项所述的试剂盒，其进一步包含含有RNA连接酶活性的试剂。

S6.根据实施方案S1到S5中任一项所述的试剂盒，其进一步包含链置换聚合酶。

S7.根据实施方案S1到S6中任一项所述的试剂盒，其进一步包含一种或多种切割剂。

S8.根据实施方案S7所述的试剂盒，其中所述一种或多种切割剂包括核糖核酸酶(RNAse)。

S9.根据实施方案S8所述的试剂盒，其中所述RNAse是内切核糖核酸酶。

S10.根据实施方案S8或S9所述的试剂盒，其中所述RNAse是RNAse III.

T1.一种用于产生核酸文库的方法，其包括：

a)将包含靶核酸的核酸组合物和第一寡核苷酸种类库组合，其中：

i)所述靶核酸的一些或全部包含突出端，

ii)所述第一寡核苷酸种类库中的一些或全部寡核苷酸包含能够与靶核酸突出端杂交的突出端，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，

iii)所述第一寡核苷酸种类库中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列，

iv)所述第一寡核苷酸种类库中的每种寡核苷酸都包含第一引物结合结构域，并且

v)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述第一寡核苷酸种类库组合，由此形成第一组组合产物；

b)切割所述第一组组合产物，由此形成切割的产物；以及

c)将所述切割的产物和第二寡核苷酸种类库组合，其中：

i)所述第二寡核苷酸种类库中的每种寡核苷酸都包含第一末端和第二末端，

ii)所述第二寡核苷酸种类库中的每种寡核苷酸都包含第二引物结合结构域，其中所述第一引物结合结构域和所述第二引物结合结构域不同，并且

iii)在所述第二寡核苷酸种类库中的所述寡核苷酸在第一末端处与所述切割的产物的至少一个末端附接的条件下，将所述切割的产物和所述第二寡核苷酸种类库组合，由此形成第二组组合产物。

T1.1根据实施方案T1所述的方法，其进一步包括：

d)在扩增条件下，使所述第二组组合产物与两个或更多个扩增引物种类接触，其中第一引物种类包含与所述第一引物结合结构域互补的核苷酸序列，并且第二引物结合结构域包含与所述第二引物结合结构域互补的核苷酸序列，由此生成扩增产物。

T2.根据实施方案T1或T1.1所述的方法，其中所述靶核酸包括大于500bp的核酸片段。

T3.根据实施方案T1或T1.1所述的方法，其中所述靶核酸包括大于1000bp的核酸片段。

T4.根据实施方案T1到T3中任一项所述的方法，其中(b)包括在切割条件下使所述第一组组合产物与能够切割所述组合产物的一种或多种切割剂接触。

T5.根据实施方案T1到T3中任一项所述的方法，其中(b)包括机械剪切。

T6.根据实施方案T1到T5中任一项所述的方法，其中所述第一寡核苷酸种类库中的一些或全部寡核苷酸包含一个或多个修饰的核苷酸。

T7.根据实施方案T6所述的方法，其中所述一个或多个修饰的核苷酸能够阻断与所述库中的其他寡核苷酸的附接。

T8.根据实施方案T1到T7中任一项所述的方法，其中所述第二寡核苷酸种类库中的一些或全部寡核苷酸在所述第二末端处包含一个或多个修饰的核苷酸。

T9.根据实施方案T8所述的方法，其中所述一个或多个修饰的核苷酸能够阻断所述寡核苷酸的所述第二末端与所述切割的产物的附接。

T10.根据实施方案T1到T9中任一项所述的方法，其进一步包括通过测序过程对所述扩增产物进行测序。

T11.根据实施方案T10所述的方法，其中所述测序过程生成短序列读段。

T12.根据实施方案T1到T11中任一项所述的方法，其中所述第一寡核苷酸种类库包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸。

T13.根据实施方案T1到T12中任一项所述的方法，其中所述第一寡核苷酸种类库包括具有5'突出端的寡核苷酸、具有3'突出端的寡核苷酸和不具有突出端的寡核苷酸。

T14.根据实施方案T12或T13所述的方法，其中所述包含突出端的寡核苷酸包含双链体部分和单链突出端。

T15.根据实施方案T12到T14中任一项所述的方法，其中所述寡核苷酸突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

T16.根据实施方案T1到T15中任一项所述的方法，其中所述第一寡核苷酸种类库中的所述寡核苷酸包含针对特定突出端长度具有不同序列的寡核苷酸突出端。

T17.根据实施方案T16所述的方法，其中所述第一寡核苷酸种类库中的所述寡核苷酸包含针对特定突出端长度的所有可能的突出端序列组合。

T18.根据实施方案T17所述的方法，其中所述第一寡核苷酸种类库中的所述寡核苷酸包含针对每个突出端长度的所有可能的突出端序列组合。

T19.根据实施方案T16、T17或T18所述的方法，其中所述寡核苷酸突出端序列是随机的。

T20.根据实施方案T1到T19中任一项所述的方法，其中所述第一寡核苷酸种类库中的寡核苷酸的末端能够共价连接到所述寡核苷酸在所述第一组组合产物中所杂交的靶核酸的末端。

T21.根据实施方案T20所述的方法，其中所述第一寡核苷酸种类库中的寡核苷酸链的3'末端能够共价连接到所述寡核苷酸在所述第一组组合产物中所杂交的所述靶核酸中的链的5'末端。

T22.根据实施方案T1到T21中任一项所述的方法，其包括在(b)之后修复所述切割的产物的末端。

T23.根据实施方案T1到T22中任一项所述的方法，其包括在(b)之后将一个或多个未配对的核苷酸添加到所述切割的产物的末端。

T24.根据实施方案T23所述的方法，其中所述第二寡核苷酸种类库中的所述寡核苷酸包含在所述第一末端处的一个或多个核苷酸，所述一个或多个核苷酸与添加到所述切割的产物的所述一个或多个核苷酸互补。

T25.根据实施方案T24所述的方法，其中所述第二寡核苷酸种类库中的所述寡核苷酸在所述第一末端处与所述切割的产物的至少一个末端杂交。

T26.根据实施方案T1到T25中任一项所述的方法，其中所述第二寡核苷酸种类库中的寡核苷酸的末端能够共价连接到所述寡核苷酸在所述第二组组合产物中所附接的切割产物的末端。

T27.根据实施方案T26所述的方法，其中所述第二寡核苷酸种类库中的寡核苷酸链的3'末端能够共价连接到所述寡核苷酸在所述第二组组合产物中所附接的所述切割的产物中的链的5'末端。

T28.根据实施方案T1到T27中任一项所述的方法，其中所述第二寡核苷酸种类库中的所述寡核苷酸不包含能够与天然靶核酸突出端杂交的突出端。

T28.1根据实施方案T1到T28中任一项所述的方法，其中所述第二寡核苷酸种类库中的所述寡核苷酸不包含寡核苷酸突出端识别序列。

T29.根据实施方案T1到T28.1中任一项所述的方法，其中所述第一寡核苷酸种类库中每种寡核苷酸上的所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度。

T30.根据实施方案T1到T29中任一项所述的方法，其中所述第一寡核苷酸种类库中每种寡核苷酸上的所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度并且对于所述寡核苷酸突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

T31.根据实施方案T1到T30中任一项所述的方法，其中所述靶核酸中的一些不包含突出端。

T32.根据实施方案T1到T31中任一项所述的方法，其中所述第一寡核苷酸种类库中的寡核苷酸种类不包含突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

T33.根据实施方案T1到T32中任一项所述的方法，其中所述包含突出端的靶核酸包含双链体区和单链突出端。

T34.根据实施方案T1到T33中任一项所述的方法，其中包含突出端的各靶核酸在一个末端包含突出端或在两个末端包含突出端。

T35.根据实施方案T1到T34中任一项所述的方法，其中每个包含突出端的靶核酸的一个末端或两个末端独立地包含5'突出端或3'突出端。

T36.根据实施方案T1到T35中任一项所述的方法，其中所述靶核酸包括脱氧核糖核酸(DNA)片段。

T37.根据实施方案T36所述的方法，其中从细胞获得所述DNA片段。

T38.根据实施方案T36或T37所述的方法，其中所述DNA片段包括基因组DNA片段。

T39.根据实施方案T1到T35中任一项所述的方法，其中所述靶核酸包括核糖核酸(RNA)片段。

T40.根据实施方案T39所述的方法，其中从细胞获得所述RNA片段。

T41.根据实施方案T1到T40中任一项所述的方法，其中所述靶核酸包括无细胞的核酸片段。

T42.根据实施方案T1到T41中任一项所述的方法，其中所述靶核酸包括循环的无细胞的核酸片段。

T43.根据实施方案T1到T42中任一项所述的方法，其中靶核酸中的所述突出端是天然突出端。

T44.根据实施方案T1到T43中任一项所述的方法，其中靶核酸中的所述突出端是未修饰的突出端。

T45.根据实施方案T1到T44中任一项所述的方法，其中在与所述多个寡核苷酸种类组合之前不修饰靶核酸的长度。

T46.根据实施方案T1到T45中任一项所述的方法，其包括在(a)之前，通过基本上由以下组成的方法制备所述核酸组合物：从样品分离核酸，由此生成所述核酸组合物。

T47.根据实施方案T1到T46中任一项所述的方法，其包括使所述第一组组合产物暴露于所述靶核酸的末端与其所杂交的所述寡核苷酸的末端接合的条件。

T48.根据实施方案T47所述的方法，其包括在靶核酸的末端共价连接到所述靶核酸所杂交的所述寡核苷酸的末端的条件下，使所述第一组组合产物与包含连接酶活性的试剂接触。

T49.根据实施方案T1到T48中任一项所述的方法，其包括使所述第二组组合产物暴露于所述切割的产物的末端与其所附接的所述寡核苷酸的末端接合的条件。

T50.根据实施方案T49所述的方法，其包括在切割产物的末端共价连接到所述靶核酸所附接的所述寡核苷酸的末端的条件下，使所述第二组组合产物与包含连接酶活性的试剂接触。

T51.根据实施方案T1到T50中任一项所述的方法，其包括在(a)之前，在将靶核酸去磷酸化的条件下，使所述靶核酸组合物与包含磷酸酶活性的试剂接触，由此生成去磷酸化的靶核酸组合物。

T52.根据实施方案T51所述的方法，其包括在(a)之前，在将5'磷酸酯添加到靶核酸的5'末端的条件下，使所述去磷酸化的靶核酸组合物与包含磷酰基转移活性的试剂接触。

T53.根据实施方案T1到T52中任一项所述的方法，其包括在(a)之前，在将所述寡核苷酸去磷酸化的条件下，使所述第一寡核苷酸种类库与包含磷酸酶活性的试剂接触，由此生成第一去磷酸化的寡核苷酸种类库。

T54.根据实施方案T1到T53中任一项所述的方法，其包括在(c)之前，在将5'磷酸酯在所述第一末端处添加到寡核苷酸种类的5'末端的条件下，使所述第二寡核苷酸种类库与包含磷酰基转移活性的试剂接触。

T55.根据实施方案T1到T54中任一项所述的方法，其中从来自受试者的样品获得所述靶核酸。

T56.根据实施方案T55所述的方法，其中所述受试者是人。

T57.根据实施方案T1到T56中任一项所述的方法，其包括在(a)之前，根据片段长度分离所述靶核酸。

T58.根据实施方案T1到T56中任一项所述的方法，其中在(a)之前没有按长度分离所述靶核酸。

U1.一种组合物，其包含：

a)第一寡核苷酸种类库，其中：

i)所述第一寡核苷酸种类库中的一些或全部寡核苷酸包含能够与靶核酸突出端杂交的突出端，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，

ii)所述第一寡核苷酸种类库中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列，并且

iii)所述第一寡核苷酸种类库中的每种寡核苷酸都包含第一引物结合结构域；以及

b)第二寡核苷酸种类库，其中：

i)所述第二寡核苷酸种类库中的每种寡核苷酸都包含第一末端和第二末端，并且

ii)所述第二寡核苷酸种类库中的每种寡核苷酸都包含第二引物结合结构域，其中所述第一引物结合结构域和所述第二引物结合结构域不同。

U2.根据实施方案U1所述的组合物，其中所述第一寡核苷酸种类库中的一些或全部寡核苷酸包含一个或多个修饰的核苷酸。

U3.根据实施方案U2所述的组合物，其中所述一个或多个修饰的核苷酸能够阻断与所述库中的其他寡核苷酸的附接。

U4.根据实施方案U1到U3中任一项所述的组合物，其中所述第二寡核苷酸种类库中的一些或全部寡核苷酸包含所述第二末端处的一个或多个修饰的核苷酸。

U5.根据实施方案U4所述的组合物，其中所述一个或多个修饰的核苷酸能够阻断所述寡核苷酸的所述第二末端与切割的靶核酸的附接。

U6.根据实施方案U1到U5中任一项所述的组合物，其中所述第一寡核苷酸种类库包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸。

U7.根据实施方案U1到U6中任一项所述的组合物，其中所述第一寡核苷酸种类库包括具有5'突出端的寡核苷酸、具有3'突出端的寡核苷酸和不具有突出端的寡核苷酸。

U8.根据实施方案T12或T13所述的组合物，其中所述包含突出端的寡核苷酸包含双链体部分和单链突出端。

U9.根据实施方案U6到U8中任一项所述的组合物，其中所述寡核苷酸突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

U10.根据实施方案U1到U9中任一项所述的组合物，其中所述第一寡核苷酸种类库中的所述寡核苷酸包含对于特定突出端长度具有不同序列的寡核苷酸突出端。

U11.根据实施方案U10所述的组合物，其中所述第一寡核苷酸种类库中的所述寡核苷酸包含针对特定突出端长度的所有可能的突出端序列组合。

U12.根据实施方案U11所述的组合物，其中所述第一寡核苷酸种类库中的所述寡核苷酸包含针对每个突出端长度的所有可能的突出端序列组合。

U13.根据实施方案U10、U11或U12所述的组合物，其中所述寡核苷酸突出端序列是随机的。

U14.根据实施方案U1到U13中任一项所述的组合物，其中所述第二寡核苷酸种类库中的所述寡核苷酸包含所述第一末端处的一个或多个未配对的核苷酸。

U15.根据实施方案U1到U14中任一项所述的组合物，其中所述第二寡核苷酸种类库中的所述寡核苷酸不包含能够与天然靶核酸突出端杂交的突出端。

U15.1根据实施方案U1到U15中任一项所述的组合物，其中所述第二寡核苷酸种类库中的所述寡核苷酸不包含寡核苷酸突出端识别序列。

U16.根据实施方案U1到U15.1中任一项所述的组合物，其中所述第一寡核苷酸种类库中每种寡核苷酸上的所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度。

U17.根据实施方案U1到U16中任一项所述的组合物，其中所述第一寡核苷酸种类库中每种寡核苷酸上的所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度并且对于所述寡核苷酸突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

U18.根据实施方案U1到U17中任一项所述的组合物，其中所述第一寡核苷酸种类库中的寡核苷酸种类不包含突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

V1.一种试剂盒，其包含：

根据实施方案U1到U18中任一项所述的组合物；以及

关于使用所述组合物产生核酸文库的说明。

V2.根据实施方案V1所述的试剂盒，其进一步包含含有磷酸酶活性的试剂。

V3.根据实施方案V1或V2所述的试剂盒，其进一步包含含有磷酰基转移活性的试剂。

V4.根据实施方案V1到V3中任一项所述的试剂盒，其进一步包含含有连接酶活性的试剂。

V5.根据实施方案V1到V4中任一项所述的试剂盒，其进一步包含含有切割活性的试剂。

V6.根据实施方案V1到V5中任一项所述的试剂盒，其进一步包含含有聚合酶活性的试剂。

V7.根据实施方案V1到V6中任一项所述的试剂盒，其进一步包含第一扩增引物种类和第二扩增引物种类，其中所述第一引物种类包含与所述第一引物结合结构域互补的核苷酸序列，并且所述第二引物种类包含与所述第二引物结合结构域互补的核苷酸序列。

V8.根据实施方案V1到V7中任一项所述的试剂盒，其进一步包含用于进行核酸扩增的一种或多种试剂。

W1.一种用于产生核酸文库的方法，其包括：

a)将包含靶核酸的核酸组合物与第一寡核苷酸种类库组合，其中：

i)所述靶核酸的一些或全部包含突出端，

ii)所述第一寡核苷酸种类库中的一些或全部寡核苷酸包含在第一末端处能够与靶核酸突出端杂交的突出端，其中每个寡核苷酸种类都具有唯一的突出端序列和长度，

v)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物与所述第一寡核苷酸种类库组合，由此形成第一组组合产物；

b)切割所述第一组组合产物，由此形成切割的产物；以及

c)将所述切割的产物与第二寡核苷酸种类库组合，其中：

i)所述第二寡核苷酸种类库中的每种寡核苷酸都包含第一链和第二链，其中所述第一链比所述第二链短，并且其中所述第一链和所述第二链在所述寡核苷酸的第一末端处互补，并且所述第二链包含在所述寡核苷酸的第二末端处的单链，

ii)所述第二寡核苷酸种类库中的每种寡核苷酸都包含对于所述第二寡核苷酸种类库具有特异性的寡核苷酸识别序列，

iii)所述第二寡核苷酸种类库中的每种寡核苷酸都在所述第二链上包含第二引物结合结构域，其中所述第一引物结合结构域和所述第二引物结合结构域不同，并且

iv)在所述第二寡核苷酸种类库中的寡核苷酸与所述切割的产物的至少一个末端附接的条件下，将所述切割的产物和所述第二寡核苷酸种类库组合，由此形成第二组组合产物。

W1.1根据实施方案W1所述的方法，其进一步包括：

d)在扩增条件下，使所述第二组组合产物与两个或更多个扩增引物种类接触，其中第一引物种类包含与所述第一引物结合结构域互补的核苷酸序列，并且第二引物种类包含与所述第二引物结合结构域互补的核苷酸序列，由此生成扩增产物。

W2.根据实施方案W1或W1.1所述的方法，其中所述靶核酸包括大于500bp的核酸片段。

W3.根据实施方案W1或W1.1所述的方法，其中所述靶核酸包括大于1000bp的核酸片段。

W4.根据实施方案W1到W3中任一项所述的方法，其中(b)包括在切割条件下使所述第一组组合产物与能够切割所述组合产物的一种或多种切割剂接触。

W5.根据实施方案W1到W3中任一项所述的方法，其中(b)包括机械剪切。

W6.根据实施方案W1到W5中任一项所述的方法，其中所述第一寡核苷酸种类库中的一些或全部寡核苷酸在第二末端处包含一个或多个修饰的核苷酸。

W7.根据实施方案W6所述的方法，其中所述一个或多个修饰的核苷酸能够阻断所述寡核苷酸的所述第二末端与靶核酸的附接。

W8.根据实施方案W1到W7中任一项所述的方法，其中所述第二寡核苷酸种类库中的一些或全部寡核苷酸在所述第二末端处包含一个或多个修饰的核苷酸。

W9.根据实施方案W8所述的方法，其中所述一个或多个修饰的核苷酸能够阻断所述寡核苷酸的所述第二末端与所述切割的产物的附接。

W10.根据实施方案W1到W9中任一项所述的方法，其进一步包括通过测序过程对所述扩增产物进行测序。

W11.根据实施方案W10所述的方法，其中所述测序过程生成短序列读段。

W12.根据实施方案W1到W11中任一项所述的方法，其中所述第一寡核苷酸种类库包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸。

W13.根据实施方案W1到W12中任一项所述的方法，其中所述第一寡核苷酸种类库包括具有5'突出端的寡核苷酸、具有3'突出端的寡核苷酸和不具有突出端的寡核苷酸。

W14.根据实施方案W12或W13所述的方法，其中所述包含突出端的寡核苷酸包含双链体部分和单链突出端。

W15.根据实施方案W12到W14中任一项所述的方法，其中所述包含突出端的寡核苷酸包含(1)两条链以及第一末端处的突出端和第二末端处的两条非互补链，或(2)能够形成具有单链环和突出端的发夹结构的一条链。

W16.根据实施方案W12到W15中任一项所述的方法，其中所述寡核苷酸突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

W17.根据实施方案W1到W16中任一项所述的方法，其中所述第一寡核苷酸种类库中的所述寡核苷酸包含针对特定突出端长度具有不同序列的寡核苷酸突出端。

W18.根据实施方案W17所述的方法，其中所述第一寡核苷酸种类库中的所述寡核苷酸包含针对特定突出端长度的所有可能的突出端序列组合。

W19.根据实施方案W18所述的方法，其中所述第一寡核苷酸种类库中的所述寡核苷酸包含针对每个突出端长度的所有可能的突出端序列组合。

W20.根据实施方案W17、W18或W19所述的方法，其中所述寡核苷酸突出端序列是随机的。

W21.根据实施方案W1到W20中任一项所述的方法，其中所述第一寡核苷酸种类库中的寡核苷酸的末端能够共价连接到所述寡核苷酸在所述第一组组合产物中所杂交的靶核酸的末端。

W22.根据实施方案W21所述的方法，其中所述第一寡核苷酸种类库中寡核苷酸链的3'末端能够共价连接到所述寡核苷酸在所述第一组组合产物中所杂交的所述靶核酸中的链的5'末端。

W23.根据实施方案W1到W22中任一项所述的方法，其包括在(b)之后修复所述切割的产物的所述末端。

W24.根据实施方案W1到W23中任一项所述的方法，其包括在(b)之后将一个或多个未配对的核苷酸添加到所述切割的产物的所述末端。

W25.根据实施方案W24所述的方法，其中所述第二寡核苷酸种类库中的所述寡核苷酸在所述第一末端处包含一个或多个核苷酸，所述一个或多个核苷酸与添加到所述切割的产物的所述一个或多个核苷酸互补。

W26.根据实施方案W25所述的方法，其中所述第二寡核苷酸种类库中的所述寡核苷酸在所述第一末端处与所述切割的产物的至少一个末端杂交。

W27.根据实施方案W1到W26中任一项所述的方法，其中所述第二寡核苷酸种类库中寡核苷酸的末端能够共价连接到所述寡核苷酸在所述第二组组合产物中所附接的切割产物的末端。

W28.根据实施方案W27所述的方法，其中所述第二寡核苷酸种类库中寡核苷酸链的3'末端能够共价连接到所述寡核苷酸在所述第二组组合产物中所附接的所述切割的产物中的链的5'末端。

W29.根据实施方案W1到W28中任一项所述的方法，其中所述第二寡核苷酸种类库中的所述寡核苷酸不包含能够与天然靶核酸突出端杂交的突出端。

W29.1根据实施方案W1到W29中任一项所述的方法，其中所述第二寡核苷酸种类库中的所述寡核苷酸不包含寡核苷酸突出端识别序列。

W30.根据实施方案W1到W29.1中任一项所述的方法，其中所述第一寡核苷酸种类库中每种寡核苷酸上的所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度。

W31.根据实施方案W1到W30中任一项所述的方法，其中所述第一寡核苷酸种类库中每种寡核苷酸上的所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度并且对于所述寡核苷酸突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

W32.根据实施方案W1到W31中任一项所述的方法，其中所述靶核酸中的一些不包含突出端。

W33.根据实施方案W1到W32中任一项所述的方法，其中所述第一寡核苷酸种类库中的寡核苷酸种类不包含突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

W34.根据实施方案W1到W33中任一项所述的方法，其中所述包含突出端的靶核酸包含双链体区和单链突出端。

W35.根据实施方案W1到W34中任一项所述的方法，其中包含突出端的各靶核酸在一个末端包含突出端或在两个末端包含突出端。

W36.根据实施方案W1到W35中任一项所述的方法，其中每个包含突出端的靶核酸的一个末端或两个末端独立地包含5'突出端或3'突出端。

W37.根据实施方案W1到W36中任一项所述的方法，其中所述靶核酸包括脱氧核糖核酸(DNA)片段。

W38.根据实施方案W37所述的方法，其中从细胞获得所述DNA片段。

W39.根据实施方案W37或W38所述的方法，其中所述DNA片段包括基因组DNA片段。

W40.根据实施方案W1到W36中任一项所述的方法，其中所述靶核酸包括核糖核酸(RNA)片段。

W41.根据实施方案W40所述的方法，其中从细胞获得所述RNA片段。

W42.根据实施方案W1到W41中任一项所述的方法，其中所述靶核酸包括无细胞的核酸片段。

W43.根据实施方案W1到W42中任一项所述的方法，其中所述靶核酸包括循环的无细胞的核酸片段。

W44.根据实施方案W1到W43中任一项所述的方法，其中靶核酸中的所述突出端是天然突出端。

W45.根据实施方案W1到W44中任一项所述的方法，其中靶核酸中的所述突出端是未修饰的突出端。

W46.根据实施方案W1到W45中任一项所述的方法，其中在与多个寡核苷酸种类组合之前不修饰靶核酸的长度。

W47.根据实施方案W1到W46中任一项所述的方法，其包括在(a)之前，通过基本上由以下组成的方法制备所述核酸组合物：从样品分离核酸，由此生成所述核酸组合物。

W48.根据实施方案W1到W47中任一项所述的方法，其包括使所述第一组组合产物暴露于所述靶核酸的末端与其所杂交的所述寡核苷酸的末端接合的条件。

W49.根据实施方案W48所述的方法，其包括在靶核酸的末端共价连接到所述靶核酸所杂交的所述寡核苷酸的末端的条件下，使所述第一组组合产物与包含连接酶活性的试剂接触。

W50.根据实施方案W1到W49中任一项所述的方法，其包括使所述第二组组合产物暴露于所述切割的产物的末端与其所附接的所述寡核苷酸的末端接合的条件。

W51.根据实施方案W50所述的方法，其包括在切割产物的末端共价连接到所述靶核酸所附接的所述寡核苷酸的末端的条件下，使所述第二组组合产物与包含连接酶活性的试剂接触。

W52.根据实施方案W1到W51中任一项所述的方法，其包括在(a)之前，在将靶核酸去磷酸化的条件下，使所述靶核酸组合物与包含磷酸酶活性的试剂接触，由此生成去磷酸化的靶核酸组合物。

W53.根据实施方案W52所述的方法，其包括在(a)之前，在将5'磷酸酯添加到靶核酸的5'末端的条件下，使所述去磷酸化的靶核酸组合物与包含磷酰基转移活性的试剂接触。

W54.根据实施方案W1到W53中任一项所述的方法，其包括在(a)之前，在将所述寡核苷酸去磷酸化的条件下，使所述第一寡核苷酸种类库与包含磷酸酶活性的试剂接触，由此生成第一去磷酸化的寡核苷酸种类库。

W55.根据实施方案W1到W54中任一项所述的方法，其包括在(c)之前，在将5'磷酸酯添加到所述第一链的5'末端的条件下，使所述第二寡核苷酸种类库与包含磷酰基转移活性的试剂接触。

W56.根据实施方案W1到W55中任一项所述的方法，其中从来自受试者的样品获得所述靶核酸。

W57.根据实施方案W56所述的方法，其中所述受试者是人。

W58.根据实施方案W1到W57中任一项所述的方法，其包括在(a)之前，根据片段长度分离所述靶核酸。

W59.根据实施方案W1到W57中任一项所述的方法，其中在(a)之前没有按长度分离所述靶核酸。

X1.一种组合物，其包含：

a)第一寡核苷酸种类库，其中：

b)第二寡核苷酸种类库，其中：

i)所述第二寡核苷酸种类库中的每种寡核苷酸都包含第一链和第二链，其中所述第一链比所述第二链短，并且其中所述第一链和所述第二链在所述寡核苷酸的第一末端处互补，并且所述第二链包含所述寡核苷酸的第二末端处的单链，

ii)所述第一寡核苷酸种类库中的每种寡核苷酸都包含对于所述第二寡核苷酸种类库具有特异性的寡核苷酸识别序列，并且

(iii)所述第二寡核苷酸种类库中的每种寡核苷酸都在所述第二链上包含第二引物结合结构域，其中所述第一引物结合结构域和所述第二引物结合结构域不同。

X2.根据实施方案X1所述的组合物，其中所述第一寡核苷酸种类库中的一些或全部寡核苷酸在第二末端处包含一个或多个修饰的核苷酸。

X3.根据实施方案X2所述的组合物，其中所述一个或多个修饰的核苷酸能够阻断所述寡核苷酸的所述第二末端与靶核酸的附接。

X4.根据实施方案X1到X3中任一项所述的组合物，其中所述第二寡核苷酸种类库中的一些或全部寡核苷酸在所述第二末端处包含一个或多个修饰的核苷酸。

X5.根据实施方案X4所述的组合物，其中所述一个或多个修饰的核苷酸能够阻断所述寡核苷酸的所述第二末端与切割的靶核酸的附接。

X6.根据实施方案X1到X5中任一项所述的组合物，其中所述第一寡核苷酸种类库包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸。

X7.根据实施方案X1到X6中任一项所述的组合物，其中所述第一寡核苷酸种类库包括具有5'突出端的寡核苷酸、具有3'突出端的寡核苷酸和不具有突出端的寡核苷酸。

X8.根据实施方案X6或X7所述的组合物，其中所述包含突出端的寡核苷酸包含双链体部分和单链突出端。

X9.根据实施方案X6到X8中任一项所述的组合物，其中所述包含突出端的寡核苷酸包含(1)两条链以及第一末端处的突出端和第二末端处的两条非互补链，或(2)能够形成具有单链环和突出端的发夹结构的一条链。

X10.根据实施方案X6到X9中任一项所述的组合物，其中所述寡核苷酸突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

X11.根据实施方案X1到X10中任一项所述的组合物，其中所述第一寡核苷酸种类库中的所述寡核苷酸包含针对特定突出端长度具有不同序列的寡核苷酸突出端。

X12.根据实施方案X11所述的组合物，其中所述第一寡核苷酸种类库中的所述寡核苷酸包含针对特定突出端长度的所有可能的突出端序列组合。

X13.根据实施方案X12所述的组合物，其中所述第一寡核苷酸种类库中的所述寡核苷酸包含针对每个突出端长度的所有可能的突出端序列组合。

X14.根据实施方案X11、X12或X13所述的组合物，其中所述寡核苷酸突出端序列是随机的。

X15.根据实施方案X1到X14中任一项所述的组合物，其中所述第二寡核苷酸种类库中的所述寡核苷酸在所述第一末端处包含一个或多个未配对的核苷酸。

X16.根据实施方案X1到X15中任一项所述的组合物，其中所述第二寡核苷酸种类库中的所述寡核苷酸不包含能够与天然靶核酸突出端杂交的突出端。

X16.1根据实施方案X1到X16中任一项所述的组合物，其中所述第二寡核苷酸种类库中的所述寡核苷酸不包含寡核苷酸突出端识别序列。

X17.根据实施方案X1到X16.1中任一项所述的组合物，其中所述第一寡核苷酸种类库中每种寡核苷酸上的所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度。

X18.根据实施方案X1到X17中任一项所述的组合物，其中所述第一寡核苷酸种类库中每种寡核苷酸上的所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度并且对于所述寡核苷酸突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

X19.根据实施方案X1到X18中任一项所述的组合物，其中所述第一寡核苷酸种类库中的寡核苷酸种类不包含突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

Y1.一种试剂盒，其包含：

根据实施方案X1到X19中任一项所述的组合物；以及

关于使用所述组合物产生核酸文库的说明。

Y2.根据实施方案Y1所述的试剂盒，其进一步包含含有磷酸酶活性的试剂。

Y3.根据实施方案Y1或Y2所述的试剂盒，其进一步包含含有磷酰基转移活性的试剂。

Y4.根据实施方案Y1到Y3中任一项所述的试剂盒，其进一步包含含有连接酶活性的试剂。

Y5.根据实施方案Y1到Y4中任一项所述的试剂盒，其进一步包含含有切割活性的试剂。

Y6.根据实施方案Y1到Y5中任一项所述的试剂盒，其进一步包含含有聚合酶活性的试剂。

Y7.根据实施方案Y1到Y6中任一项所述的试剂盒，其进一步包含第一扩增引物种类和第二扩增引物种类，其中所述第一引物种类包含与所述第一引物结合结构域互补的核苷酸序列，并且所述第二引物种类包含与所述第二引物结合结构域互补的核苷酸序列。

Y8.根据实施方案Y1到Y7中任一项所述的试剂盒，其进一步包含用于进行核酸扩增的一种或多种试剂。

Z1.一种用于产生核酸文库的方法，其包括：

a)在将靶核酸去磷酸化的条件下，使包含靶核酸的核酸组合物与包含磷酸酶活性的试剂接触，由此生成去磷酸化的靶核酸，其中所述靶核酸的一些或全部包含突出端；以及

b)将所述去磷酸化的靶核酸与多个寡核苷酸种类组合，其中：

i)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含能够与靶核酸突出端杂交的突出端，其中每个寡核苷酸种类都具有唯一的突出端序列和长度；

ii)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列；并且

iii)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述多个寡核苷酸种类组合，由此形成杂交产物。

Z2.根据实施方案Z1所述的方法，其包括在(b)之前，在将5'磷酸酯添加到靶核酸的5'末端的条件下，使所述去磷酸化的靶核酸与包含磷酰基转移活性的试剂接触。

Z3.根据实施方案Z1或Z2所述的方法，其包括在(b)之前，在将所述寡核苷酸去磷酸化的条件下，使所述多个寡核苷酸种类与包含磷酸酶活性的试剂接触，由此生成多个去磷酸化的寡核苷酸种类。

Z4.根据实施方案Z1到Z3中任一项所述的方法，其中所述多个寡核苷酸种类中的一些或全部寡核苷酸包含两条链，以及第一末端处的所述突出端和第二末端处的两条非互补链。

Z5.根据实施方案Z1到Z3中任一项所述的方法，其中所述多个寡核苷酸种类中的一些或全部寡核苷酸包含能够形成具有单链环和突出端的发夹结构的一条链。

Z6.根据实施方案Z1到Z5中任一项所述的方法，其包括通过测序过程对所述杂交产物或其扩增产物进行测序，由此生成序列读段，其中所述序列读段包含正向序列读段和反向序列读段。

Z7.根据实施方案Z6所述的方法，其包括对所述序列读段进行定量，由此生成序列读段定量，其中对所述反向序列读段进行定量，并且从所述定量中排除所述正向序列读段。

Z8.根据实施方案Z6所述的方法，其包括分析与指示所述反向序列读段存在突出端的突出端识别序列相关的突出端信息，由此生成分析。

Z9.根据实施方案Z8所述的方法，其包括从所述分析中省略与指示所述正向序列读段存在突出端的突出端识别序列相关的突出端信息。

Z10.根据实施方案Z8或Z9所述的方法，其包括分析与指示所述正向序列读段和所述反向序列读段没有突出端的突出端识别序列相关的突出端信息。

Z11.根据实施方案Z1到Z10中任一项所述的方法，其包括根据实施方案A1到A68、C1到C68、E1到E64、G1到G56、I1到I76、Q1到Q42、T1到T58和W1到W59中任一项所述的一个或多个特征。

A’1.一种用于分析核酸的方法，其包括：

a)将包含靶核酸的核酸组合物和多个寡核苷酸种类组合，其中：

i)所述靶核酸的一些或全部包含突出端；

ii)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含能够与靶核酸突出端杂交的突出端，其中每个寡核苷酸种类都具有唯一的突出端序列和长度；

iii)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列；并且

iv)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述多个寡核苷酸种类组合，由此形成杂交产物；

b)通过测序过程对所述杂交产物或其扩增产物进行测序，由此生成序列读段，其中所述序列读段包含正向序列读段和反向序列读段；以及

c)分析与指示所述反向序列读段存在突出端的突出端识别序列相关的突出端信息，由此生成分析，并从所述分析中省略与指示所述正向序列读段存在突出端的突出端识别序列相关的突出端信息。

A’2.根据实施方案A’1所述的方法，其中(c)包括分析与指示所述正向序列读段和所述反向序列读段没有突出端的突出端识别序列相关的突出端信息。

A’3.根据实施方案A'1或A'2所述的方法，其中所述多个寡核苷酸种类中的一些或全部寡核苷酸包含两条链，以及第一末端处的所述突出端和第二末端处的两条非互补链。

A’4.根据实施方案A'1或A'2所述的方法，其中所述多个寡核苷酸种类中的一些或全部寡核苷酸包含能够形成具有单链环和突出端的发夹结构的一条链。

A’5.根据实施方案A’1到A’4中任一项所述的方法，其包括在(a)之前，在将靶核酸去磷酸化的条件下，使所述靶核酸与包含磷酸酶活性的试剂接触，由此生成去磷酸化的靶核酸。

A’6.根据实施方案A’5所述的方法，其包括在将5'磷酸酯添加到靶核酸的5'末端的条件下，使所述去磷酸化的靶核酸与包含磷酰基转移活性的试剂接触。

A’7.根据实施方案A’1到A’6中任一项所述的方法，其包括在(a)之前，在将所述寡核苷酸去磷酸化的条件下，使所述多个寡核苷酸种类与包含磷酸酶活性的试剂接触，由此生成多个去磷酸化的寡核苷酸种类。

A’8.根据实施方案A'1到A'7中任一项所述的方法，其中使用微处理器进行(c)。

A’9.根据实施方案A’1到A’8中任一项所述的方法，其包括根据实施方案A1到A68、C1到C68、E1到E64、G1到G56、I1到I76、Q1到Q42、T1到T58和W1到W59中任一项所述的一个或多个特征。

本文引用的每个专利、专利申请、公开和文献的全部内容在此以引用方式并入。以上专利、专利申请、公开和文件的引用不是承认任何前述内容是相关的现有技术，它也不构成对这些出版物或文献的内容或日期的任何承认。他们的引用并非指示搜索相关公开。所有关于文件的日期或内容的声明都是基于可获得的信息，而并非对它们的准确性或正确性的承认。

可在不脱离所述技术的基本方面的情况下对上文进行修改。尽管已参考一个或多个具体实施方案详细描述了所述技术，但本领域普通技术人员将认识到可对本申请中具体公开的实施方案作出改变，但这些修改和改进在所述技术的范围和精神内。

本文说明性地描述的技术适当地可在不存在本文未具体公开的任何要素的情况下实施。因此，例如，在本文中的每种情况下，术语“包括”、“基本上由...组成”和“由...组成”中的任一个均可用其他两个术语中的任一个替代。已采用的术语和表达被用作描述而非限制的术语，并且使用此类术语和表达并不排除所显示和描述的特征或其部分的任何等同物，并且在所要求保护的技术的范围内进行各种修改是可能的。除非上下文中明显描述一个所述要素或超过一个所述要素，否则术语“一(a或an)”可指其修饰的一个或多个要素(例如，“一试剂”可意指一种或多种试剂)。如本文所用的术语“约”是指基础参数的10％内(即，加或减10％)的值，并且在值串的开头使用术语“约”修饰每个值(即，“约1、2和3”是指约1、约2和约3)。例如，“约100克”的重量可包括90克到110克的重量。此外，当本文描述值的列表(例如，约50％、60％、70％、80％、85％或86％)时，该列表包括其所有中间值和分数值(例如，54％、85.4％)。因此，应当理解，尽管已通过代表性实施方案和任选特征具体地公开了本技术，但本领域技术人员可采用本文所公开的构思的修改和变更，并且认为此类修改和变更在本技术的范围内。

本技术的某些实施方案陈述在所附的权利要求中。

Claims

1.一种用于产生核酸文库的方法，其包括：

将包含靶核酸的核酸组合物与多个寡核苷酸种类组合，其中：

a)所述靶核酸的一些或全部包含突出端；

b)所述多个寡核苷酸种类中的一些或全部寡核苷酸包含两条链，以及第一末端处的突出端和第二末端处的两条非互补链；其中所述突出端能够与靶核酸突出端杂交，其中每个寡核苷酸种类都具有唯一的突出端序列和长度；

c)所述多个寡核苷酸种类中的每种寡核苷酸都包含对于所述寡核苷酸突出端的一个或多个特征具有特异性的寡核苷酸突出端识别序列；并且

d)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，将所述核酸组合物和所述多个寡核苷酸种类组合，由此形成杂交产物。

2.根据权利要求1所述的方法，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸。

3.根据权利要求1或2所述的方法，其中所述多个寡核苷酸种类包括具有5'突出端的寡核苷酸、具有3'突出端的寡核苷酸和不具有突出端的寡核苷酸。

4.根据权利要求1到3中任一项所述的方法，其中包含突出端的寡核苷酸包含第一末端处的突出端、双链体部分和第二末端处的两条非互补链。

5.根据权利要求1到4中任一项所述的方法，其中所述寡核苷酸突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

6.根据权利要求1到5中任一项所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度具有不同序列的寡核苷酸突出端。

7.根据权利要求6所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对特定突出端长度的所有可能的突出端序列组合。

8.根据权利要求7所述的方法，其中所述多个寡核苷酸种类中的所述寡核苷酸包含针对每个突出端长度的所有可能的突出端序列组合。

9.根据权利要求6、7或8的方法，其中所述寡核苷酸突出端序列是随机的。

10.根据权利要求1到9中任一项所述的方法，其中不包含突出端的寡核苷酸包含平端第一末端、双链体部分和第二末端处的两条非互补链。

11.根据权利要求1到10中任一项所述的方法，其中寡核苷酸的末端能够共价连接到所述寡核苷酸在所述杂交产物中所杂交的靶核酸的末端。

12.根据权利要求11所述的方法，其中寡核苷酸链的3'末端能够共价连接到所述寡核苷酸在所述杂交产物中所杂交的所述靶核酸中的链的5'末端。

13.根据权利要求1到12中任一项所述的方法，其中所述杂交产物包含双链体区和至少一个包含两条非互补链的末端。

14.根据权利要求1到13中任一项所述的方法，其中所述杂交产物包含双链体区和每个末端处的两条非互补链。

15.根据权利要求1到14中任一项所述的方法，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度。

16.根据权利要求1到15中任一项所述的方法，其中所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度并且对于所述寡核苷酸突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

17.根据权利要求1到16中任一项所述的方法，其中所述靶核酸中的一些不包含突出端。

18.根据权利要求1到17中任一项所述的方法，其中寡核苷酸种类不包含突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

19.根据权利要求1到18中任一项所述的方法，其中包含突出端的靶核酸包含双链体区和单链突出端。

20.根据权利要求1到19中任一项所述的方法，其中包含突出端的各靶核酸在一个末端包含突出端或在两个末端包含突出端。

21.根据权利要求1到20中任一项所述的方法，其中每个包含突出端的靶核酸的一个末端或两个末端独立地包含5'突出端或3'突出端。

22.根据权利要求1到21中任一项所述的方法，其中所述靶核酸包括无细胞的核酸片段。

23.根据权利要求1到22中任一项所述的方法，其中所述靶核酸包括循环的无细胞的核酸片段。

24.根据权利要求1到23中任一项所述的方法，其中所述靶核酸中的所述突出端是天然突出端。

25.根据权利要求1到24任一项所述的方法，其中所述靶核酸中的所述突出端是未修饰的突出端。

26.根据权利要求1到25中任一项所述的方法，其中在与所述多个寡核苷酸种类组合之前不修饰所述靶核酸的长度。

27.根据权利要求1到26中任一项所述的方法，其包括使所述杂交产物暴露于所述靶核酸的末端与其所杂交的寡核苷酸的末端接合的条件。

28.根据权利要求27所述的方法，其包括在靶核酸的末端共价连接到所述靶核酸所杂交的寡核苷酸的末端的条件下，使所述杂交产物与包含连接酶活性的试剂接触。

29.根据权利要求28所述的方法，其包括在靶核酸的5’末端共价连接到所述靶核酸所杂交的寡核苷酸的3’末端的条件下，使所述杂交产物与包含连接酶活性的试剂接触，由此形成连接产物。

30.根据权利要求29所述的方法，其包括在靶核酸的3’末端共价连接到所述靶核酸所杂交的寡核苷酸的5’末端的条件下，使所述连接产物与包含切口密封连接酶活性的试剂接触，由此形成切口密封的连接产物。

31.根据权利要求29所述的方法，其包括使所述连接产物与链置换聚合酶接触，由此形成平端核酸片段。

32.根据权利要求1到31中任一项所述的方法，其包括在包含靶核酸的核酸组合物与多个寡核苷酸种类组合之前，在将靶核酸去磷酸化的条件下，使所述靶核酸与包含磷酸酶活性的试剂接触，由此生成去磷酸化的靶核酸。

33.根据权利要求32所述的方法，其包括在将5'磷酸酯添加到靶核酸的5'末端的条件下，使去磷酸化的靶核酸与包含磷酰基转移活性的试剂接触。

34.根据权利要求1到33中任一项所述的方法，其包括在包含靶核酸的核酸组合物与多个寡核苷酸种类组合之前，在将所述寡核苷酸去磷酸化的条件下，使所述多个寡核苷酸种类与包含磷酸酶活性的试剂接触，由此生成多个去磷酸化的寡核苷酸种类。

35.根据权利要求1到34中任一项所述的方法，其中在所述寡核苷酸种类的所述第二末端处的所述两条非互补链中的至少一条包含引物结合结构域。

36.根据权利要求1到35中任一项所述的方法，其中在所述寡核苷酸种类的所述第二末端处的所述两条非互补链中的每一条均包含引物结合结构域。

37.根据权利要求36所述的方法，其中所述非互补链中的一条包含第一引物结合结构域，并且另一非互补链包含第二引物结合结构域，其中所述第一引物结合结构域和所述第二引物结合结构域不同。

38.根据权利要求1到37中任一项所述的方法，其包括通过测序过程对所述杂交产物或其扩增产物进行测序，由此生成序列读段，其中所述序列读段包含正向序列读段和反向序列读段。

39.根据权利要求38所述的方法，其包括分析与指示所述反向序列读段存在突出端的突出端识别序列相关的突出端信息，由此生成分析，并从所述分析中省略与指示所述正向序列读段存在突出端的突出端识别序列相关的突出端信息。

40.根据权利要求1到39中任一项所述的方法，其中从来自受试者的样品获得所述靶核酸。

41.根据权利要求40所述的方法，其中所述受试者是人。

42.一种用于产生核酸文库的方法，其包括：

i)所述靶核酸的一些或全部包含突出端，

v)在寡核苷酸突出端与具有相应长度的靶核酸突出端杂交的条件下，使所述核酸组合物与所述第一寡核苷酸种类库组合，由此形成第一组组合产物；

b)切割所述第一组组合产物，由此形成切割的产物；以及

c)将所述切割的产物与第二寡核苷酸种类库组合，其中：

i)所述第二寡核苷酸种类库中的每种寡核苷酸都包含第一链和第二链，其中所述第一链比所述第二链短，并且其中所述第一链和所述第二链在所述寡核苷酸的第一末端处互补，并且所述第二链在所述寡核苷酸的第二末端处包含单链，

iv)在所述第二寡核苷酸种类库中的寡核苷酸与所述切割的产物的至少一个末端附接的条件下，使所述切割的产物与所述第二寡核苷酸种类库组合，由此形成第二组组合产物。

43.根据权利要求42所述的方法，其进一步包括：

44.根据权利要求42或43所述的方法，其中所述靶核酸包括大于500bp的核酸片段。

45.根据权利要求42或43所述的方法，其中所述靶核酸包括大于1000bp的核酸片段。

46.根据权利要求42到45中任一项所述的方法，其中(b)包括在切割条件下使所述第一组组合产物与能够切割所述组合产物的一种或多种切割剂接触。

47.根据权利要求42到45中任一项所述的方法，其中(b)包括机械剪切。

48.根据权利要求42到47中任一项所述的方法，其中所述第一寡核苷酸种类库中的一些或全部寡核苷酸在第二末端处包含一个或多个修饰的核苷酸。

49.根据权利要求48所述的方法，其中所述一个或多个修饰的核苷酸能够阻断所述寡核苷酸的所述第二末端与靶核酸的附接。

50.根据权利要求42到49中任一项所述的方法，其中所述第二寡核苷酸种类库中的一些或全部寡核苷酸在所述第二末端包含一个或多个修饰的核苷酸。

51.根据权利要求50所述的方法，其中所述一个或多个修饰的核苷酸能够阻断所述寡核苷酸的所述第二末端与所述切割的产物的附接。

52.根据权利要求43到51中任一项所述的方法，其进一步包括通过测序过程对所述扩增产物进行测序。

53.根据权利要求52所述的方法，其中所述测序过程生成短序列读段。

54.根据权利要求42到53中任一项所述的方法，其中所述第一寡核苷酸种类库包括具有5'突出端的寡核苷酸和具有3'突出端的寡核苷酸。

55.根据权利要求42到54中任一项所述的方法，其中所述第一寡核苷酸种类库包括具有5'突出端的寡核苷酸、具有3'突出端的寡核苷酸和不具有突出端的寡核苷酸。

56.根据权利要求54或55所述的方法，其中包含突出端的寡核苷酸包含双链体部分和单链突出端。

57.根据权利要求54到56中任一项所述的方法，其中包含突出端的寡核苷酸包含(1)两条链以及第一末端处的突出端和第二末端处的两条非互补链，或(2)能够形成具有单链环和突出端的发夹结构的一条链。

58.根据权利要求54到57中任一项所述的方法，其中所述寡核苷酸突出端包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

59.根据权利要求42到58中任一项所述的方法，其中所述第一寡核苷酸种类库中的所述寡核苷酸包含针对特定突出端长度具有不同序列的寡核苷酸突出端。

60.根据权利要求59所述的方法，其中所述第一寡核苷酸种类库中的所述寡核苷酸包含针对特定突出端长度的所有可能的突出端序列组合。

61.根据权利要求60所述的方法，其中所述第一寡核苷酸种类库中的所述寡核苷酸包含针对每个突出端长度的所有可能的突出端序列组合。

62.根据权利要求59、60或61所述的方法，其中所述寡核苷酸突出端序列是随机的。

63.根据权利要求42到62中任一项所述的方法，其中所述第一寡核苷酸种类库中寡核苷酸的末端能够共价连接到所述寡核苷酸在所述第一组组合产物中所杂交的靶核酸的末端。

64.根据权利要求63所述的方法，其中所述第一寡核苷酸种类库中的寡核苷酸链的3'末端能够共价连接到所述寡核苷酸在所述第一组组合产物中所杂交的所述靶核酸中的链的5'末端。

65.根据权利要求42到64中任一项所述的方法，其包括在(b)之后修复所述切割的产物的末端。

66.根据权利要求42到65中任一项所述的方法，其包括在(b)之后将一个或多个未配对的核苷酸添加到所述切割的产物的末端。

67.根据权利要求66所述的方法，其中所述第二寡核苷酸种类库中的所述寡核苷酸在所述第一末端处包含一个或多个核苷酸，所述一个或多个核苷酸与添加到所述切割的产物的一个或多个核苷酸互补。

68.根据权利要求67所述的方法，其中所述第二寡核苷酸种类库中的所述寡核苷酸在所述第一末端处与所述切割的产物的至少一个末端杂交。

69.根据权利要求42到68中任一项所述的方法，其中所述第二寡核苷酸种类库中的寡核苷酸的末端能够共价连接到所述寡核苷酸在所述第二组组合产物中所附接的切割产物的末端。

70.根据权利要求69所述的方法，其中所述第二寡核苷酸种类库中的寡核苷酸链的3'末端能够共价连接到所述寡核苷酸在所述第二组组合产物中所附接的所述切割的产物中的链的5'末端。

71.根据权利要求42到70中任一项所述的方法，其中所述第二寡核苷酸种类库中的所述寡核苷酸不包含能够与天然靶核酸突出端杂交的突出端。

72.根据权利要求42到71中任一项所述的方法，其中所述第二寡核苷酸种类库中的所述寡核苷酸不包含寡核苷酸突出端识别序列。

73.根据权利要求42到72中任一项所述的方法，其中所述第一寡核苷酸种类库中的每种寡核苷酸上的所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度。

74.根据权利要求42到73中任一项所述的方法，其中所述第一寡核苷酸种类库中每种寡核苷酸上的所述寡核苷酸突出端识别序列特异于所述寡核苷酸突出端的长度并且对于所述寡核苷酸突出端的一个或多个特征具有特异性，所述一个或多个特征选自(i)5'突出端、(ii)3'突出端、(iii)特定序列、(iv)(i)和(iii)的组合、或(v)(ii)和(iii)的组合。

75.根据权利要求42到74中任一项所述的方法，其中所述靶核酸中的一些不包含突出端。

76.根据权利要求42到75中任一项所述的方法，其中所述第一寡核苷酸种类库中的寡核苷酸种类不包含突出端，并且包含特异于不具有突出端的寡核苷酸突出端识别序列。

77.根据权利要求42到76中任一项所述的方法，其中包含突出端的靶核酸包含双链体区和单链突出端。

78.根据权利要求42到77中任一项所述的方法，其中每个包含突出端的靶核酸在一个末端包含突出端或在两个末端包含突出端。

79.根据权利要求42到78中任一项所述的方法，其中每个包含突出端的靶核酸的一个末端或两个末端独立地包含5'突出端或3'突出端。

80.根据权利要求42到79中任一项所述的方法，其中所述靶核酸包括脱氧核糖核酸(DNA)片段。

81.根据权利要求80所述的方法，其中从细胞获得所述DNA片段。

82.根据权利要求80或81所述的方法，其中所述DNA片段包括基因组DNA片段。

83.根据权利要求42到82中任一项所述的方法，其中所述靶核酸包括无细胞的核酸片段。

84.根据权利要求42到83中任一项所述的方法，其中所述靶核酸包括循环的无细胞的核酸片段。

85.根据权利要求42到84中任一项所述的方法，其中靶核酸中的突出端是天然突出端。

86.根据权利要求42到85任一项所述的方法，其中靶核酸中的突出端是未修饰的突出端。

87.根据权利要求42到86中任一项所述的方法，其中在与所述多个寡核苷酸种类组合之前不修饰所述靶核酸的长度。

88.根据权利要求42到87中任一项所述的方法，其包括使所述第一组组合产物暴露于所述靶核酸的末端与其所杂交的所述寡核苷酸的末端接合的条件。

89.根据权利要求88所述的方法，其包括在靶核酸的末端共价连接到所述靶核酸所杂交的所述寡核苷酸的末端的条件下，使所述第一组组合产物与包含连接酶活性的试剂接触。

90.根据权利要求42到89中任一项所述的方法，其包括使所述第二组组合产物暴露于所述切割的产物的末端与其所附接的所述寡核苷酸的末端接合的条件。

91.根据权利要求90所述的方法，其包括在切割产物的末端共价连接到所述靶核酸所附接的所述寡核苷酸的末端的条件下，使所述第二组组合产物与包含连接酶活性的试剂接触。

92.根据权利要求42到91中任一项所述的方法，其包括在(a)之前，在将靶核酸去磷酸化的条件下，使所述靶核酸组合物与包含磷酸酶活性的试剂接触，由此生成去磷酸化的靶核酸组合物。

93.根据权利要求92所述的方法，其包括在(a)之前，在将5'磷酸酯添加到靶核酸的5'末端的条件下，使所述去磷酸化的靶核酸组合物与包含磷酰基转移活性的试剂接触。

94.根据权利要求42到93中任一项所述的方法，其包括在(a)之前，在将所述寡核苷酸去磷酸化的条件下，使所述第一寡核苷酸种类库与包含磷酸酶活性的试剂接触，由此生成第一去磷酸化的寡核苷酸种类库。

95.根据权利要求42到94中任一项所述的方法，其包括在(c)之前，在将5'磷酸酯添加到所述第一链的5'末端的条件下，使所述第二寡核苷酸种类库与包含磷酰基转移活性的试剂接触。

96.根据权利要求42到95中任一项所述的方法，其中从来自受试者的样品获得所述靶核酸。

97.根据权利要求96所述的方法，其中所述受试者是人。

98.根据权利要求42到97中任一项所述的方法，其包括在(a)之前，根据片段长度分离所述靶核酸。

99.根据权利要求42到97中任一项所述的方法，其中在(a)之前没有按长度分离所述靶核酸。