CN105358714A

CN105358714A - 从含有少量靶标dna的样品富集dna测序文库

Info

Publication number: CN105358714A
Application number: CN201480038300.7A
Authority: CN
Inventors: C·D·巴斯塔曼特; M·L·卡彭特; J·D·布恩罗斯特罗; W·J·格林利夫
Original assignee: Leland Stanford Junior University
Current assignee: Leland Stanford Junior University
Priority date: 2013-05-04
Filing date: 2014-05-02
Publication date: 2016-02-24
Anticipated expiration: 2034-05-02
Also published as: US10981137B2; EP2992114B1; EP2992114A1; WO2014182574A1; US20200139335A1; DK2992114T3; US10576446B2; EP2992114A4; CN105358714B; US20150360194A1

Abstract

本文提供了用于在溶液中捕获DNA分子的方法。该方法可以包括：从包含内源性DNA和环境DNA的样品提取DNA以产生提取的DNA；将通用衔接子连接至所提取的DNA；在溶液中将所提取的DNA与亲和标记的RNA探针杂交，所述亲和标记的RNA探针由以下步骤产生：在亲和标记的核糖核苷酸的存在下，体外转录已被连接至RNA启动子衔接子的片段化的参考基因组DNA的文库；在与衔接子互补的RNA寡核苷酸的存在下，将产物与系到基底的捕获剂结合，从而将杂交的DNA分子捕获在基底上；洗涤基底以去除任何未结合的DNA分子；以及释放所捕获的DNA分子。还提供了用于执行该方法的试剂盒。

Description

从含有少量靶标DNA的样品富集DNA测序文库

政府支持

本发明是受政府支持在美国国立卫生研究院(NIH)授予的基金号HG005715和HG003220的下完成的。政府具有本发明的某些权利。

交叉参考

本申请要求2013年5月4日提交的美国临时申请系列号61/819,564的权益，该申请通过引用整体并入本文。

发明背景

由于成本原因，在最古老的样本中残留的极低水平的内源性DNA已妨碍了许多目标样品的鸟枪法测序。例如，源自骨和牙的古DNA(aDNA)文库常常含有<1％的内源性DNA，这意味着环境DNA占去了大部分的测序能力。因此，与对低内源性DNA样品进行测序有关的大部分成本没有提供人基因组数据。其结果是，许多古DNA样品被认为不适合进行测序，因为与所需的资源相比数据产率低。因此，本领域存在在低内源性DNA样品中提高内源性DNA产率的需要，并且特别地存在当对低内源性DNA样品进行测序时提高待测序的内源性DNA的百分比的需要。

DNA提取的最近发展已提供了成本较低的下一代测序技术，使得古遗传学领域已从专注于PCR扩增的线粒体DNA和Y染色体标志物转换至全基因组的鸟枪法测序。但是，由于在总样品材料中内源性DNA的低百分比，当对低内源性DNA样品进行测序时，鸟枪法测序可能得到低于期望的结果。

相反，利用常染色体DNA序列对于种群遗传分析可以是优越的，因为它提供来自两个谱系(即母系和父系)的信息。因此，本领域存在提供常染色体DNA测序技术用于古DNA分析以获得针对种群遗传分析的改善的分辨率的特定需要。例如，单个古基因组(包括尼安德特人、丹尼索瓦人、古爱斯基摩人、提洛尔冰人和澳大利亚土著人)的全基因组测序已转变了我们对人类迁徙的理解并且揭示了之前未知的古代种群之间的混合。然而，大多数这些样本的防腐水平是罕见的：在洞穴中发现的尼安德特人和丹尼索瓦人的骨分别含有～1-5％和70％的内源性DNA，而古爱斯基摩人和澳大利亚土著人的基因组则获取自毛发样本，其通常含有较低水平的污染但在大多数考古环境下是无法获得的。

与此相反，源自来自温带环境的骨和牙的测序文库通常含有<1％的内源性DNA。虽然具有1-2％的内源性DNA的样品在充分测序的情况下仍然能够产生足够的信息用于种群遗传分析，但具有较少DNA的样本的测序所需的量是昂贵的，并因此对于许多研究者是无法承担的。古DNA研究者已开始通过使用靶向捕获以仅富集mtDNA或单个染色体来解决这一问题。但是，由于古DNA的高度片段化的性质，理想的富集技术会尽可能提取足够多的内源性基因组以便不会丢掉任何潜在提供信息的序列。在法医学中存在类似的问题。

发明概述

本文提供了用于在溶液中捕获DNA分子的方法。在某些实施方案中，该方法包括：a)从包含内源性DNA和环境DNA的样品提取DNA以产生提取的DNA，其中所提取的DNA包含比内源性DNA更多的环境DNA；b)将通用衔接子连接至所提取的DNA；c)在溶液中将所提取的DNA与亲和标记的RNA探针杂交，所述亲和标记的RNA探针由以下步骤产生：在亲和标记的核糖核苷酸的存在下，体外转录包含已被连接至RNA启动子衔接子的片段化的参考基因组DNA的文库；d)在与所述衔接子互补的RNA寡核苷酸的存在下，将步骤c)的产物与针对亲和标记的被系到基底的捕获剂结合，从而将杂交的DNA分子捕获在所述基底上；e)洗涤所述基底以去除任何未结合的DNA分子；以及f)释放所捕获的DNA分子。还提供了用于执行该方法的试剂盒。

本教导内容的这些和其它特征示于本文中。

附图简述

本领域技术人员将理解的是，下文所描绘的附图仅用于举例说明的目的。附图不旨在以任何方式限制本教导内容的范围。

图1示意性说明了全基因组溶液中捕获方法。为了产生RNA“诱饵”文库，通过含有T7RNA聚合酶启动子的衔接子(绿色盒)建立人基因组文库。该文库通过T7RNA聚合酶和生物素-16-UTP(星形符号)进行体外转录，从而建立生物素化的诱饵文库。同时，通过标准索引Illumina衔接子(紫色盒)制备古DNA文库(aDNA“池”)。这些aDNA文库通常含有<1％的内源性DNA，其余为环境来源的。在杂交过程中，在封闭衔接子的RNA寡核苷酸(蓝色折线)(其与索引Illumina衔接子互补并因而阻止aDNA文库中衔接子之间的非特异性杂交)的存在下合并诱饵和池。杂交之后，用链霉抗生物素蛋白包被的磁珠拉下生物素化的诱饵和结合的aDNA，并洗掉任何未结合的DNA。最后，将DNA洗脱并扩增用于测序。

图2显示了样品M4和NA40的增加的测序的结果。(A)使用增加的测序量的M4(青铜器时代毛发)捕获前(蓝色)和捕获后(红色)文库的独特片段的产率。使用增加的测序量的独特读数量的富集倍数以绿色进行作图，其值在第二y轴上。(B)使用增加的测序量的NA40(秘鲁人的骨)捕获前(蓝色)和捕获后(红色)文库的独特片段的产率。使用增加的测序量的独特读数量的富集倍数以绿色进行作图，其值在第二y轴上。(C)维恩图显示基于1.23×10⁷个读数的测序，在NA40捕获前和捕获后文库之间的重叠。(D)分别基于1.86×10⁷和1.23×10⁷个读数的测序的M4和NA40文库的覆盖度图。显示的是1号染色体的随机10兆碱基区段。覆盖度以跨该区域的1kb窗口进行计算。(E)NA40捕获前和捕获后文库的插入片段大小分布。(F)NA40捕获前和捕获后文库的读数的百分比GC含量。

图3显示基于各自1×10⁶个读数的测序的捕获前和捕获后样品的主成分分析的结果。在千人基因组参考小组和每个古代个体之间重叠的SNP的主成分分析，其中(E)和(F)中还包括美洲土著人个体。主成分仅用现代个体进行计算，然后将古代个体投射到图上。显示的是(A)V2(保加利亚人的牙)捕获前和(B)捕获后；(C)M4(青铜器时代的毛发)捕获前和(D)捕获后；以及(E)NA40(秘鲁人的骨)捕获前和(F)捕获后。种群图例：ASW，美国西南部的非洲血统的美洲人；AYM，来自秘鲁的安第斯山脉的艾马拉人；CEU，具有北欧和西欧血统的犹他居民(CEPH)；CHB，中国北京的中国汉族人；CHS，南方的中国汉族人；CLM，来自哥伦比亚麦德林的哥伦比亚人；FIN，芬兰的芬兰人；GBR，英格兰和苏格兰的英国人；IBS，西班牙的伊比亚人群；JPT，日本东京的日本人；KAR来自巴西亚马逊的Karitiana人；LWK，肯尼亚韦布耶的卢希亚人；MAY，来自墨西哥的玛雅人；MXL，来自美国洛杉矶的墨西哥祖先；PUR，来自波多黎各的波多黎各人；TSI，意大利的托斯卡尼人；YRI，尼日利亚伊巴丹的约鲁巴人。

图4显示的是获取自不同测序实验的数据。

定义

除非本文另有定义，否则本文所用的所有技术和科学术语都具有与本发明所属领域的普通技术人员通常所理解的相同含义。虽然类似于或等同于本文所述的方法和材料的任何方法和材料可用于实践或测试本发明，但将描述优选的方法和材料。

本文提及的所有专利和出版物，包括这样的专利和出版物内公开的所有序列，以引用方式明确并入。

数值范围包括定义该范围的数值。除非另外指明，否则核酸均以5’至3’方向从左向右书写；氨基酸序列均以氨基至羧基方向从左向右书写。

本文提供的标题不限制本发明的各方面或实施方案。因此，紧接下文定义的术语通过参考整个本说明书而更全面地定义。

除非另有定义，否则本文所用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同含义。Singleton等人,DICTIONARYOFMICROBIOLOGYANDMOLECULARBIOLOGY，第2版，JohnWileyandSons,NewYork(1994)以及Hale&Markham，THEHARPERCOLLINSDICTIONARYOFBIOLOGY,HarperPerennial,N.Y.(1991)为技术人员提供了本文所用的许多术语的一般含义。另外，为了清楚起见和方便参考，下文将定义某些术语。

本文使用的术语“样品”涉及包含一种或多种目标分析物的材料或材料的混合物，其通常但非必需地为液体形式。

本文使用的术语“核酸样品”表示含有核酸的样品。本文使用的核酸样品可以是复杂样品，因为它们包含多种不同的含有序列的分子。来自哺乳动物(例如小鼠或人)的基因组DNA是复杂样品的类型。复杂样品可具有多于10⁴、10⁵、10⁶或10⁷个不同的核酸分子。DNA靶标可源于任何来源，诸如基因组DNA或人工DNA构建体。含有核酸(例如由组织培养细胞或组织的样品制备的基因组DNA)的任何样品可用于本文。核酸样品可以由任何合适的来源(包括牙、骨、毛发或骨骼等的样品)制备。

术语“核苷酸”旨在包括那些不仅含有已知的嘌呤和嘧啶碱基还含有其它经修饰的杂环碱基的部分。这样的修饰包括甲基化嘌呤或嘧啶、酰化嘌呤或嘧啶、烷基化核糖或其它杂环化合物。此外，术语“核苷酸”包括那些含有半抗原或荧光标记并且可不仅含有常规的核糖和脱氧核糖还含有其它糖的部分。修饰的核苷或核苷酸还在糖部分上包含修饰，例如，其中一个或多个羟基被卤素原子或脂族基团取代，或被官能化为醚、胺等。

术语“核酸”和“多核苷酸”在本文可互换使用以描述包含核苷酸(例如脱氧核糖核苷酸或核糖核苷酸)并可通过酶法或合成方法产生(例如，如美国专利号5,948,902以及其中引用的参考文献中所述的PNA)的任何长度的聚合物，例如，大于约2个碱基，大于约10个碱基，大于约100个碱基，大于约500个碱基，大于1000个碱基，多达约10,000个或更多个碱基的聚合物，其可以与天然存在的核酸以与两个天然存在的核酸相似的序列特异性方式杂交，例如可以参与沃森-克里克碱基配对相互作用。天然存在的核苷酸包括鸟嘌呤、胞嘧啶、腺嘌呤和胸腺嘧啶(分别为G、C、A和T)。DNA和RNA分别具有脱氧核糖和核糖主链，而PNA的主链包括通过肽键连接的重复的N-(2-氨基乙基)-甘氨酸单元。在PNA中，各种嘌呤和嘧啶碱基由亚甲基羰基键连接至主链。锁核酸(LNA)(常常被称为不可接近的RNA)是经修饰的RNA核苷酸。LNA核苷酸的核糖部分由连接2’氧和4’碳的额外的桥修饰。该桥将核糖“锁”在3’-内型(北)构象中，其通常被发现于A型双链体中。当需要时，LNA核苷酸可以与寡核苷酸中的DNA或RNA残基混合。术语“非结构化核酸”或“UNA”是含有以降低的稳定性彼此结合的非天然核苷酸的核酸。例如，非结构化核酸可以含有G’残基和C’残基，其中这些残基分别对应于G和C的非天然存在的形式(即类似物)，其以降低的稳定性彼此碱基配对，但保留与天然存在的C和G残基碱基配对的能力。非结构化核酸描述于US20050233340中，其因UNA的公开内容而通过引用并入本文。ZNA(即拉链核酸)也包括在此定义中。

本文使用的术语“寡核苷酸”表示长度为约2至200个核苷酸、多至500个核苷酸的单链核苷酸多聚体。寡核苷酸可以是合成的或可以通过酶法制备，并在一些实施方案中为30至150个核苷酸长。寡核苷酸可包含核糖核苷酸单体(即，可以是寡核糖核苷酸)和/或脱氧核糖核苷酸单体。寡核苷酸可以例如为10至20、21至30、31至40、41至50、51至60、61至70、71至80、80至100、100至150或150至200个核苷酸长。

术语“杂交”是指核酸链通过本领域已知的碱基配对与互补链结合的过程。如果两个序列在中等至高严格杂交和洗涤条件下彼此特异性杂交，则将核酸视为“选择性杂交”至参考核酸序列。中等和高严格杂交条件是已知的(参见例如Ausubel等人，ShortProtocolsinMolecularBiology，第3版，Wiley&Sons1995和Sambrook等人,MolecularCloning:ALaboratoryManual，第3版，2001ColdSpringHarbor,N.Y.)。高严格条件的一个实例包括在约42℃下在50％甲酰胺、5XSSC、5XDenhardt溶液、0.5％SDS和100μg/ml变性的载体DNA中杂交，然后在室温下在2XSSC和0.5％SDS中洗涤两次，再在42℃下在0.1XSSC和0.5％SDS中洗涤两次。

本文使用的术语“双链体”或“双链的”描述碱基配对即杂交到一起的两个互补多核苷酸。

本文使用的术语“扩增”是指使用靶标核酸作为模板生成靶标核酸的一个或更多个拷贝。

术语“确定”、“测量”、“评价”、“评估”、“测定”和“分析”在本文可互换使用以指代任何形式的测量，并包括测定某一要素是否存在。这些术语包括定量和/或定性测定。评估可以是相对的或绝对的。“评估...的存在”包括测定存在的某物的量，以及测定其是存在还是不存在。

术语“使用”具有其常规含义，并因此意指采用(例如投入使用)方法或组合物以实现目的。例如，如果使用程序以生成文件，则执行程序以制作文件，该文件通常为该程序的输出。在另一个实例中，如果使用计算机文件，则通常访问、读取该文件，并将该文件中存储的信息用于实现目的。相似地，如果使用独特的标识符例如条形码，则通常读取该独特的标识符以识别例如与该独特的标识符相关的物体或文件。

本文使用的术语“T_m”是指寡核苷酸双链体的解链温度，在该温度下，双链体的一半保持杂交，并且双链体的一半解离成单链。寡核苷酸双链体的T_m可以通过实验测定或使用下式预测：T_m＝81.5+16.6(log₁₀[Na⁺])+0.41(G+C分数)–(60/N)，其中N为链长度，并且[Na⁺]小于1M。参见Sambrook和Russell(2001；MolecularCloning:ALaboratoryManual，第3版，ColdSpringHarborPress,ColdSpringHarborN.Y.，第10章)。还存在预测寡核苷酸双链体T_m的其它公式，一个公式对于给定的条件或一组条件可以是或多或少地合适的。

关于基因组，术语“划分(partitioning)”是指基因组的一部分与基因组的其余部分分离以产生与基因组的其余部分分离的产物。术语“划分”涵盖富集。

本文使用的术语“基因组区域”是指基因组的区域，例如动物或植物基因组诸如人、猴、大鼠、鱼或昆虫或植物的基因组的区域。在某些情况下，在本文所述的方法中使用的寡核苷酸可使用参考基因组区域(即，已知核苷酸序列的基因组区域，例如，其序列保存在例如NCBI的Genbank数据库或其它数据库中的染色体区域)来设计。

本文使用的术语“基因组序列”是指出现在基因组中的序列。由于RNA由基因组转录，因此，该术语涵盖存在于生物体的核基因组中的序列，以及存在于由这样的基因组转录的RNA(例如mRNA)的cDNA拷贝中的序列。

本文使用的术语“基因组片段”是指基因组的区域，例如动物或植物基因组，诸如人、猴、大鼠、鱼或昆虫或植物的基因组的区域。基因组片段可以是整个染色体或染色体的片段。基因组片段可以是衔接子连接的(在此情况下，其具有连接至片段一个或两个末端、或连接至至少分子的5’末端的衔接子)，或可以不是衔接子连接的。

在某些情况下，用于本文所述的方法的寡核苷酸可使用参考基因组区域(即，已知核苷酸序列的基因组区域，例如，其序列保存在例如NCBI的Genbank数据库或其它数据库中的染色体区域)来设计。这样的寡核苷酸可用在使用含有测试基因组的样品的测定法中，其中该测试基因组含有针对该寡核苷酸的结合位点。

本文使用的术语“生物素部分”是指包含生物素或生物素类似物诸如脱硫生物素、氧代生物素、2-亚氨基生物素、二氨基生物素、生物素亚砜、生物胞素等的亲和剂。生物素部分以至少10^-8M的亲和力与链霉抗生物素蛋白结合。生物素亲和剂还可包含接头，例如-LC-生物素、-LC-LC-生物素、-SLC-生物素或-PEG_n-生物素，其中n为3-12。

本文使用的术语“连接”是指第一DNA分子的5’末端上的末端核苷酸与第二DNA分子的3’末端上的末端核苷酸的酶催化结合。转座酶可以催化连接。

“多个”包含至少2个成员。在某些情况下，“多个”可具有至少10个、至少100个、至少100个、至少10,000个、至少100,000个、至少10⁶个、至少10⁷个、至少10⁸或至少10⁹个或更多个成员。

如果两个核酸为“互补的”，则该核酸之一的每个碱基与另一核酸中的对应核苷酸碱基配对。两个核酸无需完美互补以彼此杂交。

本文使用的术语“分离”是指两种元件的物理分离(例如，通过尺寸或亲和力等)，以及使一种元件降解而留下另一个完整无损。

在细胞中，DNA通常以双链的形式存在，并因此具有核酸的两条互补链，在本文中被称为“上”链和“下”链。在某些情况下，染色体区域的互补链可以被称为“正”链和“负”链、“第一”链和“第二”链、“编码”链和“非编码”链、“沃森”链与“克里克”链、或“有义”链和“反义”链。将链分配为上链或下链是任意的，并且不暗示任何特定的方向、功能或结构。第一链和第二链是不同的分子，直到它们变成共价连接为止。为了便于描述，其中上链和下链已共价连接的双链核酸的“上”链和“下”链将仍被描述为“上”链和“下”链。换句话说，为了本公开内容的目的，双链DNA的上链和下链不需要是单独的分子。几个示例性哺乳动物染色体区域(例如，BAC、装配体、染色体等)的第一链的核苷酸序列是已知的，并可见于例如NCBI的Genbank数据库中。

本文使用的术语“上链”是指核酸的任一链而不是核酸的两条链。当寡核苷酸或引物“仅与上链”结合或退火时，它仅与一条链结合而不与另一条链结合。本文使用的术语“下链”是指与“上链”互补的链。当寡核苷酸“仅与一条链”结合或退火时，它仅与一条链例如第一链或第二链结合，而不与另一条链结合。如果寡核苷酸与双链DNA的两条链结合或退火，则该寡核苷酸可以具有两个区域，第一区域与双链DNA的上链杂交，以及第二区域与双链DNA的下链杂交。

术语“双链DNA分子”是指其中上链和下链没有共价连接的双链DNA分子以及其中上链和下链共价连接的双链DNA分子。双链DNA的上链和下链通过沃森-克里克相互作用彼此碱基配对。

本文使用的术语“变性”是指通过将双链体置于合适的变性条件中来分离核酸双链体的碱基对的至少一部分。变性条件是本领域公知的。在一个实施方案中，为了变性核酸双链体，可将双链体暴露于在双链体的T_m以上的温度，从而从双链体的一条链释放另一条链。在某些实施方案中，核酸可以通过将其暴露于至少90℃温度进行合适的时间量(例如，至少30秒，多至30分钟)进行变性。在某些实施方案中，完全变性条件可以用于完全分离双链体的碱基对。在其它实施方案中，部分变性条件(例如使用比完全变性条件低的温度)可以用于分离双链体的某些部分的碱基对(例如富含A-T碱基对的区域可以分离而富含G-C碱基对的区域可以保持配对)。还可以化学变性核酸(例如，使用尿素或NaOH)。

本文使用的术语“基因分型”是指核酸序列的任何类型的分析，并且包括测序、多态性(SNP)分析以及鉴定重排的分析。

本文使用的术语“测序”是指通过其获得多核苷酸的至少10个连续核苷酸的身份(例如，至少20个、至少50个、至少100个或至少200个或更多个连续核苷酸的身份)的方法。

术语“下一代测序”是指目前由Illumina、LifeTechnologies和Roche等采用的所谓的并行合成测序或连接测序平台。下一代测序法还可包括纳米孔测序法或基于电子检测的方法，诸如由LifeTechnologies商业化的离子激流技术。

术语“内源性DNA”是指存在于样品(例如，牙、骨、毛发或骨骼的样品)中的当样品是活体的一部分时与样品天然关联的DNA。

术语“环境DNA”是指存在于样品(例如，牙、骨、毛发或骨骼的样品)中的当样品是活体的一部分时不与样品天然关联的DNA。环境DNA可以来自各种来源，包括但不限于污染样品的微生物。在某些情况下，污染性DNA可以是来自随时间生长在样品上或样品中的微生物的基因组DNA。在其它情况下，样品可以是已置于含有显著量的污染性DNA的环境(例如土壤或粪便)中的。

术语“参考基因组DNA”是指来自目标物种的基因组DNA。目标物种可以是原核的或真核的(包括动物(例如哺乳动物)、植物和细菌)物种。选择参考基因组DNA以使得其在高严格条件下与内源性DNA而不是环境DNA杂交。

术语“衔接子”是指可与双链DNA分子的两条链连接的核酸。在一个实施方案中，衔接子可以是发夹衔接子(即，与其自身碱基配对以形成具有双链的茎和环的一种分子，其中该分子的3’端和5’端分别与双链DNA分子的5’端和3’端连接)。在另一个实施方案中，衔接子可以是Y衔接子。在另一个实施方案中，衔接子可以本身由彼此碱基配对的两个不同的寡核苷酸分子组成。将显而易见的是，衔接子的可连接末端可以被设计成与由限制性酶切割形成的悬垂(overhang)相容，或者它可以具有平末端或5’T悬垂。术语“衔接子”是指双链的以及单链的分子。衔接子可以是DNA或RNA，或者这两者的混合物。含有RNA的衔接子可以通过RNA酶处理或碱水解切割。衔接子可以为15至100个碱基，例如50至70个碱基，尽管还考虑到此范围之外的衔接子。

本文使用的术语“衔接子连接的”是指已连接至衔接子的核酸。衔接子可以连接至核酸分子的5’末端和/或3’末端。

术语“通用衔接子”是指连接至所研究的核酸分子的两个末端的衔接子。在某些实施方案中，通用衔接子可以是Y衔接子。已在两个末端连接至Y衔接子的核酸分子的扩增得到不对称标记的核酸，即具有含有一种标记序列的5’端和含有另一种标记序列的3’端的核酸。

术语“Y衔接子”是指这样的衔接子，其含有：双链区域和其中寡核苷酸不互补的单链区域。双链区域的末端连接至靶标分子，诸如基因组DNA的双链片段。已连接至Y衔接子的衔接子标记的双链DNA的每条链是不对称标记的，因为它在一端具有Y衔接子的一条链的序列而在另一端具有Y衔接子的另一条链的序列。

术语“RNA启动子衔接子”是指含有用于噬菌体RNA聚合酶(例如来自噬菌体T3、T7、SP6等的RNA聚合酶)的启动子的衔接子。

术语“亲和标记”和“捕获剂”是指这样的部分，其能够：a)特异性地、非共价地彼此结合，或者b)选择性地彼此反应以形成共价键。适当的特异性地、非共价地彼此结合的亲和标记和捕获剂的配对的实例有许多并且包括但不限于：链霉抗生物素蛋白/抗生物素蛋白，地高辛/抗地高辛抗体，荧光素/抗荧光素抗体，尽管还已知许多其它的。选择性地彼此反应以形成共价键的化学选择性反应基团的实例有许多并包括：胺和活性酯(诸如NHS酯，硫醇和马来酰亚胺或碘乙酰胺)，以及能够通过点击化学(Clickchemistry)彼此反应的基团，例如叠氮和炔基团。含有能够用于本文的亲和标记的核糖核苷酸可商购自许多来源。

术语“生物素化的核糖核苷酸”是指连接至生物素部分的核糖核苷酸三磷酸(例如ATP、GTP、CTP和UTP)。Bio-16-UTP(生物素-16-尿苷-5’-三磷酸)是生物素化的核糖核苷酸的实例，其能够代替UTP用于由T3、T7或SP6RNA聚合酶催化的体外转录反应。

其它术语定义可出现在整个说明书中。

示例性实施方案的详述

方法的一个实例示于图1中。在某些实施方案中，方法可以通过从包含内源性DNA和环境DNA的样品中提取DNA开始，以产生提取的DNA。在这些实施方案中，所提取的DNA可以包含比内源性DNA更多的环境DNA(至少2倍、至少5倍、至少10倍、至少50倍或至少100倍、至少500倍或至少1,000倍)。用于从各种样品(例如临床、法医、考古学和环境样品)提取DNA的方法是本领域公知的。这些样品中的DNA可以是高度片段化的，例如片段化至10bp至5kb例如20bp至200bp范围内的平均大小(参见，例如Sawyer等人,PLoSONE7:e34131)。在特定的实施方案中，样品可以是来自古代来源(例如，死于至少10年前、至少100年前的来源或死于至少1,000年前的来源，诸如在坟墓位置发现的硬组织、木乃伊等)的硬组织诸如骨、毛发、指甲、趾甲或牙的样品。从这样的组织提取DNA的方法是已知的(参见，例如Higgins等人(SciJustice201353:433-41)、Knapp等人(Ann.Anat.2012194:3-6)、Amory等人(ForensicSci.Int.2007166:218-29)和Benoit等人(Med.Sci.Law.201353:100-6)以及Rohland(MethodsMol.Biol.2012840:21-8))。从法医样品(例如来自犯罪现场的样品)提取DNA的方法是公知的。

从样品提取DNA之后，将DNA连接至通用衔接子，所述通用衔接子为连接至包含在所提取的DNA样品中的DNA片段的两端的衔接子。在某些情况下，通用衔接子可以是Y衔接子，其实例描述于下文。在特定的情况下，可以通过使用聚合酶磨平所提取的DNA的末端并随后经由平末端连接来连接衔接子而完成连接。在其它实施方案中，可以使用Taq聚合酶来磨平末端，所述聚合酶添加另外的3’A(从而产生3’A悬垂)，并且可以使用具有5’T悬垂的衔接子完成连接。将显而易见的是，衔接子可以因含有鉴定与其连接的样品的分子条形码(这允许样品在测序之前进行合并)而是“索引的”。备选地或另外地，衔接子可以含有随机条形码或类似物。这样的衔接子可以被连接至片段并且对应于特定区域的基本上每一片段用不同的序列进行标记。这允许鉴定PCR重复并允许分子进行计数。

在衔接子连接之后，可以任选地例如通过PCR扩增样品。在这些实施方案中，可以使用一种或多种与所添加的衔接子(或它们的互补物)杂交的引物扩增样品中的衔接子连接的核酸。在其中添加Y衔接子的实施方案中，可以通过PCR使用以下两种引物扩增衔接子连接的核酸：与衔接子的上链的单链区域杂交的第一引物，以及与衔接子的下链的单链区域的互补物杂交的第二引物。在衔接子已被添加至样品中的核酸并且衔接子连接的核酸已被任选地扩增之后，衔接子连接的核酸可以在溶液中在高严格条件下与亲和标记的RNA探针进行杂交，所述亲和标记的RNA探针通过以下步骤产生：在亲和标记的核糖核苷酸的存在下，体外转录已被连接至RNA启动子衔接子(例如T7启动子)的参考基因组样品的文库。参考样品可来自与内源性DNA的来源相似或相同的物种，即足够相似以至于它们的DNA将在高严格条件(例如在至少42℃、至少50℃或至少60℃的温度下进行至少24hr)下杂交。在某些实施方案中，可以通过苯酚乳液重缔合(PERT)(Miller等人,NucleicAcidsRes.199523:2339–2340)或振荡苯酚乳液重缔合(osPERT)(Bruzel等人Genomics.200687:286-9)以使序列快速重缔合来完成杂交。

例如，参考样品可以是已被片段化至期望大小的(例如人)基因组DNA，所述期望大小为例如100bp至10kb例如100bp至500bp范围内的平均大小，尽管还预期了这些范围之外的大小。可以通过使用物理学方法(例如超声处理、喷雾法或剪切)、化学方法、酶学方法(例如使用稀有切割的限制酶)或使用转座元件将基因组片段化来制备这样的片段。片段化之后，可以使用常规方法将片段连接至RNA聚合酶启动子。如果使用转座子，还可以在切割过程中将RNA聚合酶启动子添加至片段。已连接至RNA启动子的片段可随后被体外转录成亲和标记的RNA探针。在某些情况下，参考样品可以被加工以选择或去除特定序列。例如，在使用之前，参考样品可以被加工以去除重复序列，例如微卫星序列、LINE和/或SINE等。

在溶液中杂交之后，在基底(例如固体支持物或小珠)上捕获杂交的DNA分子。在这些实施方案中，杂交的产物结合至包含针对亲和标记的捕获剂的基底，并且亲和标记结合至捕获剂。可以在与通用衔接子的一条或多条链互补或具有相同序列的一种或多种RNA寡核苷酸的存在下完成该步骤。在某些情况下，这些RNA寡核苷酸可本身使用体外转录制备，例如通过将两个寡核苷酸退火在一起以产生包含转录区域上游的双链RNA启动子的双链体，其中转录区域可以被转录以产生RNA寡核苷酸。在这些实施方案中，RNA寡核苷酸可以与通用衔接子的连续序列的至少50％(例如至少60％、至少70％或更多)互补或具有相同的序列。

在捕获之后，洗涤基底以去除任何未结合的DNA分子，以及可释放所捕获的DNA分子。在一些实施方案中，通过用NaOH处理支持物来释放所捕获的DNA分子，NaOH切割体外转录的RNA分子，从而释放DNA分子。此步骤可以通过用RNA酶H、RNA酶A处理或通过将基底加热至足以使所附着的双链体变性的温度来执行。

在释放所捕获的DNA分子之后，它们可以任选地被扩增(例如使用与所添加的衔接子序列或它们的互补物杂交的引物)和测序。在某些实施方案中，所释放的DNA可以使用与在以下中的使用相容的引物来扩增：例如Illumina可逆终止法、Roche焦磷酸测序法(454)、LifeTechnologies连接测序法(SOLiD平台)或LifeTechnologies离子激流平台。这样的方法的实例描述于以下文献中：Margulies等人(Nature2005437:376–80)；Ronaghi等人(AnalyticalBiochemistry1996242:84–9)；Shendure等人(Science2005309:1728-32)；Imelfort等人(BriefBioinform.200910:609-18)；Fox等人(MethodsMolBiol.2009；553:79-108)；Appleby等人(MethodsMolBiol.2009；513:19-39)和Morozova等人(Genomics.200892:255-64)，其通过引用并入关于方法的一般性描述和方法的具体步骤，包括每一步的所有起始产物、试剂和最终产物。

在另一个实施方案中，可以使用纳米孔测序法(例如Soni等人ClinChem200753:1996-2001中所描述的或OxfordNanoporeTechnologies所描述的)对所释放的DNA进行测序。纳米孔测序法是单分子测序技术，其中DNA的单个分子在其通过纳米孔时被直接测序。纳米孔是直径为1纳米数量级的小孔。将纳米孔浸入导电流体并且对其施加电势(电压)导致因离子传导通过纳米孔而产生的微电流。流动的电流量对纳米孔的尺寸和形状敏感。随着DNA分子通过纳米孔，DNA分子上的每个核苷酸以不同的程度阻塞纳米孔，从而以不同的程度改变通过纳米孔的电流的量级。因此，随着DNA分子通过纳米孔在电流中的此改变代表了DNA序列的读数。纳米孔测序技术被公开于美国专利号5,795,782、6,015,714、6,627,067、7,238,485和7,258,838以及美国专利申请号2006003171和20090029477中。

所分离的片段可以直接测序，或在一些实施方案中，所释放的片段可以被扩增(例如通过PCR)以产生被测序的扩增产物。在某些实施方案中，扩增产物可以含有与在以下中的使用相容的序列：例如如上所述的Illumina可逆终止法、Roche焦磷酸测序法(454)、LifeTechnologies连接测序法(SOLiD平台)或LifeTechnologies离子激流平台。

在某些实施方案中，所测序的样品可以包含来自多个样品的核酸库，其中样品中的核酸具有分子条形码以指示它们的来源。在一些实施方案中，进行分析的核酸可以源自单个来源(例如，单个有机体、病毒、组织、细胞、受试者等)，而在其它实施方案中，核酸样品可以是提取自多个来源的核酸库(例如，来自多个有机体、病毒、组织、细胞、受试者等的核酸库)，其中“多个”意指两个或更多个。因此，在某些实施方案中，核酸样品可以含有来自2个或更多个来源、3个或更多个来源、5个或更多个来源、10个或更多个来源、50个或更多个来源、100个或更多个来源、500个或更多个来源、1000个或更多个来源、5000个或更多个来源、多至且包括约10,000个或更多个来源的核酸。分子条形码可以允许来自不同来源的序列在它们被分析之后进行区分。

上文描述的方法可以用于从各种不同的样品分离内源性DNA，对所述内源性DNA可以进行基因分型(例如测序)以研究从其获得样品的个体。例如，方法可以用于分离代表个体基因组的至少10％、至少30％、至少50％或至少70％或更多的片段，并且所述片段可以被测序和任选地与参考样品的基因组进行比较。

在一些情况下，上文描述的方法可以用于法医样品的分析，例如以通过DNA分析鉴定人。本文使用的“法医”是证据(例如在犯罪现场或事故现场发现的、随后被用于法庭的证据)的研究。“法医科学”是用于回答法律体系(特别是刑事或民事司法体系)的目标问题的任何科学，其提供用于法庭(例如刑事调查和审判)使用的公正的科学证据。例如，法医科学是多学科科目，其主要借鉴化学和生物学，但也借鉴例如物理学、地质学、心理学和社会科学。人法医学的一个方面(法医DNA分型)的目标是确定从法医样品(例如来自犯罪现场的证据或来自个体的DNA样品)获取的DNA的身份或基因型。这样的DNA证据的典型来源包括毛发、骨、牙和体液诸如唾液、精液和血。常常存在快速鉴定大量人、人遗骸和/或生物学样品的需要。例如，这样的遗骸或样品可能与战争相关人员伤亡、空难和恐怖主义行动有关。

试剂盒

本公开内容还提供了含有用于实施本发明的上述方法的试剂的试剂盒。本发明的试剂盒含有至少：a)通用衔接子(其可以包含5’T悬垂)；c)包含已连接至RNA启动子衔接子的片段化的人基因组DNA的文库，或由该文库制得的亲和标记的转录本的文库；d)与通用衔接子的序列互补或与其具有相同序列的RNA寡核苷酸，或用于通过体外转录制备所述RNA寡核苷酸的DNA寡核苷酸。如果试剂盒不含有亲和标记的转录本的文库，则试剂盒可以含有：e)从RNA启动子引发RNA合成的DNA依赖性RNA聚合酶；f)包含亲和标记的核糖核苷酸(例如生物素-UTP)的核糖核苷酸混合物；以及g)包含针对亲和标记的捕获剂的基底(例如小珠)。

试剂盒可以任选地含有其它成分，例如：连接酶、聚合酶(例如DNA聚合酶诸如Taq聚合酶和RNA聚合酶诸如T7RNA聚合酶)、核苷酸、缓冲剂、杂交试剂例如用于执行PERT或osPERT的试剂等。根据所期望的，试剂盒的各种成分可以存在于单独的容器中或者某些相容的成分可以预先组合在单个容器中。

除了上述成分之外，本发明的试剂盒还可以包括用于使用试剂盒的成分实施本发明的方法的说明书，即用于样品分析的说明书。用于实施本发明的方法的说明书一般被记录在合适的记录介质上。例如，说明书可以被打印在诸如纸张或塑料等的基材上。如此，说明书可以存在于试剂盒中作为包装说明书，存在于试剂盒或其成分的容器的标签中(即，与包装或分包装关联)等。在其它实施方案中，说明书作为存在于合适的计算机可读存储介质(例如CD-ROM、软盘等)上的电子存储数据文件存在。在其它实施方案中，实际的说明书不存在于试剂盒中，而是提供了用于从远程来源(例如通过网络)获得说明书的工具。该实施方案的实例是包括网址的试剂盒，其中可以在该网址查看说明书和/或从该网址下载说明书。与说明书一样，用于获得说明书的此工具被记录在合适的基材上。

实施例

通过以下实施例可以进一步理解本教导内容的各方面，实施例不应被视为以任何方式限制本教导内容的范围。

在本研究中，我们使用我们称之为全基因组溶液中捕获(WISC)的方法作为增加aDNA测序文库中内源性DNA的比例的无偏工具。为了尽可能多地靶向剩余的内源性DNA，我们用含有T7RNA聚合酶启动子的衔接子从现代参考个体建立了人基因组DNA“诱饵”文库(参见“材料与方法”部分)。然后，我们用生物素化的UTP对这些文库执行体外转录，产生覆盖整个人基因组的RNA诱饵。将诱饵杂交至溶液中的aDNA文库并用链霉抗生物素蛋白包被的磁珠拉下。随后洗涤掉未结合的、主要是非人的DNA，并且将所捕获的内源性人DNA洗脱并扩增用于测序。图1显示了WISC过程的示意性概述，其包括建立RNA诱饵文库。通过使用由RNA制得的封闭衔接子的寡核苷酸和诱饵，我们能够在PCR扩增之前通过RNA酶处理去除任何残留的诱饵和封闭剂。

材料和方法

古代样本

在本研究中使用的四颗保加利亚人的牙是从四处不同的挖掘地获得的。

样品P192-1被发现于保加利亚的斯维伦格勒附近的圣所坑位置，其在2004年和2006年之间被挖掘。基于在坑中发现的陶器，发现该坑与色雷斯人文化有关并且追溯至早期铁器时代(800－500BC)。在挖掘过程中总共探索了67个祭祀坑，其包括含有人骨架或骨架的部分的16个坑。来自成年男性的上部智齿被用于DNA分析。

样品T2G2被发现于保加利亚Stambolovo的村庄附近的色雷斯人古墓(古坟)。追溯至早期铁器时代(850–700BC)的两个小古墓在2008年被挖掘。来自在陶罐(dolium)内土葬的儿童(约12岁)的犬齿被用于DNA分析。

样品V2被发现于保加利亚Vratitsa的村庄附近的追溯至晚期青铜器时代(1500–1100BC)的平墓地。九个土葬坟墓在2003年和2004年之间被挖掘。来自男性少年(16－17岁)的臼齿被用于DNA分析。

样品K8被发现于保加利亚Krushare附近的追溯至铁器时代(450-400BC)的YakimovaMogila古墓。含有丰富陪葬品的贵族土葬坟墓在2008年被挖掘。

来自一个个体(可能为男性)的臼齿被用于DNA分析。

其它样本如下。

样品M4是获自丹麦的Borum青铜器时代坟墓的古代毛发样品。该坟墓包含橡木棺材中的三个个体，一般地被称为“女人”、“年轻人”和“老人”。M4样品来自后者。该位置在1871－1875年被挖掘并且棺材追溯至约1350BC。

样品NA39－50获取自追溯至1000和1500AD之间的pre-ColumbianChachapoyan和Chachapoya-Inca遗骸。它们回收自秘鲁东北部的LagunadelosCondores位置。

骨样品被用于DNA分析。

DNA提取和aDNA文库制备

所有的DNA提取和初始文库制备步骤(在扩增之前)在丹麦哥本哈根的考古遗传学中心(CentreforGeoGenetics)的专用清洁实验室通过制定的防止污染的程序来进行，包括在文库制备过程中使用索引衔接子和引物。

在延长的时期内并由许多不同的研究者进行实验室工作，这是确切的方案在样品之间稍微不同的原因。

保加利亚人样品：

用10％的漂白液擦拭每颗牙的表面，然后用UV照射20min。然后，切除牙根的部分并对牙的内部进行钻取以产生大约200mg的粉末。用先前描述的基于氧化硅的提取方法分离DNA。

根据制造商的说明，用NextEndPrepEnzymeMix(NewEnglandBiolabs)对纯化的DNA进行末端修复和dA加尾。接着，通过将25μl末端修复/dA加尾反应物与1μlPE衔接子(5μM)和1μlQuickT4DNA连接酶(NEB)混合来进行与IlluminaPE衔接子(Illumina)的连接。混合物在25℃孵育10min，然后根据制造商的说明，用QIAGENMinElute离心柱(QIAGEN)进行纯化。最后，通过将5μlDNA文库模板与5μl10×PCR缓冲液、2μlMgCl2(50mM)、2μlBSA(20mg/ml)、0.4μldNTP(25mM)、1μl各引物(10μM，inPE+多重索引)和0.2μlPlatinumTaq高保真聚合酶(Invitrogen/LifeTechnologies)混合来PCR扩增文库。PCR条件如下：94℃/5min；94℃/30s、60℃/20s、68℃/20s的25个循环；72℃/7min。用QiaQuick离心柱(QIAGEN)纯化所得到的文库并洗脱在30μlEB缓冲液中。

秘鲁人骨样品：

通过先前描述的基于氧化硅的提取方法从七个骨样品分离DNA。

除了用MinElute氧化硅柱纯化(QIAGEN)代替SPRI小珠纯化之外，根据制造商的说明，用NEBNextDNALibraryPrepMasterMixSetfor454(NEB)将DNA进一步转换成具有20μl的各DNA提取物的索引Illumina文库。将Illumina多重平末端衔接子在25μl的终体积、1.0μM的终浓度下用于连接。在孵育20min后通过冷冻样品灭活Bst聚合酶填充反应。在文库制备之后进行两步PCR扩增。纯化的文库的扩增通过使用PlatinumTaq高保真DNA聚合酶(Invitrogen)利用10×高保真PCR缓冲液、50mM硫酸镁、0.2mMdNTP、0.5μM多重PCR引物1.0、0.1μM多重PCR引物2.0、0.5μMPCR引物索引、3％DMSO、0.02U/μlPlatinumTaq高保真聚合酶、5μl模板和加水至25μl终体积的最终混合物来完成。针对各文库完成三个PCR反应，其PCR条件如下：94℃下的活化步骤3min，之后是94℃下30s、60℃下20s、68℃下20s的14个循环，最后在72℃延伸7min。每个文库的所有的三个反应用QIAGENMinElute柱纯化并合并成一个单个反应。以与之前相同的条件进行第二PCR但进行22个循环。随后用来自三个之前反应的所纯化的库中的10μl进行每个文库的一个反应。将文库在2％琼脂糖凝胶上进行电泳，并根据制造商的说明，用QIAGEN凝胶提取试剂盒纯化凝胶。

丹麦人毛发样品：

用酚-氯仿结合之前所述的来自QIAGEN的MinElute柱从70mg毛发提取DNA。

当被固定在氧化硅滤器上时，将DNA依次用AW1/AW2洗涤缓冲液(QIAGEN血和组织试剂盒)、Salton缓冲液(MPBiomedicals)和PE缓冲液(QIAGEN)进行纯化，随后在60μlEB缓冲液(QIAGEN)中进行洗脱。然后，用NEBNextDNASamplePrepMasterMixSet2(E6070)和Illumina特异性衔接子将20μlDNA提取物构建至平末端NGS文库中。根据制造商的说明制备文库，其中进行下文概括的少量修饰。由于古DNA的片段化性质，略去初始喷雾步骤。在25μl反应中用20μlDNA提取物进行末端修复。这在12℃下孵育20min并在37℃下孵育15min，用QIAGENMinElute离心柱以PN缓冲液纯化并洗脱在15μl中。末端修复之后，在25μl反应中将Illumina特异性衔接子连接至经末端修复的DNA。反应在20℃孵育15min并在QIAGENMinElute柱上以PB缓冲液进行纯化，随后在20μlEB缓冲液中进行洗脱。在25μl的终体积中进行衔接子填充反应并在37℃孵育20min，随后在80℃孵育20min以灭活Bst酶。然后，在混合有5μl10×PCR缓冲液、2μlMgSO4(50mM)、2μlBSA(20mg/ml)、0.4μldNTP(25mM)、1μl的各引物(10μM，inPE正向引物+多重索引的反向引物)和0.2μlPlatinumTaq高保真DNA聚合酶(Invitrogen)的50μlPCR反应中，扩增和索引整个DNA文库(25μl)。如下进行热循环：95℃下5min，之后是94℃下30s、60℃下20s和68℃下20s的25个循环，最后是在68℃下7min的延伸步骤。然后在QIAGENMinElute柱上用PB缓冲液纯化所扩增的文库，随后洗脱在30μlEB中。

RNA诱饵文库的制备

用T7衔接子建立人基因组DNA文库：

在CovarisS2仪器上使用下述条件剪切五微克人DNA(HapMap个体NA21732，马塞族人男性)：10％占空比下8min，强度5，200循环/脉冲，频率扫描。根据制造商的方案，通过KAPA文库制备试剂盒(KAPA)将所得到的片段化的DNA(～150–200bp的平均大小，范围100–500)进行末端修复和dA加尾。还用该试剂盒执行连接，但是用的是自定义的衔接子。通过将12.5μl的各200μM寡核苷酸储液与5μl的10×缓冲液2(NEB)和20μlH₂O混合来使T7衔接子寡核苷酸1和2(5′-GATCTTAAGGCTAGAGTACTAATACGACTCACTATAGGG*T-3′(SEQIDNO:1)和5′-P-CCCTATAGTGAGTCGTATTAGTACTCTAGCCTTAAGATC-3′(SEQIDNO:2))退火。将该混合物加热至95℃进行5min，然后置于工作台上冷却至室温进行约1hr。

再次根据文库制备试剂盒说明(KAPA)，将一微升的该T7衔接子储液用于连接反应。然后在2％琼脂糖凝胶上根据大小选择文库，以去除未连接的衔接子并选择长度为～200–300bp的片段(插入片段～120–220bp)。在用QIAquick凝胶提取试剂盒(QIAGEN)进行凝胶提取之后，使用下述成分在四个单独的反应中PCR扩增文库：25μl2×HiFiHotStartReadyMix(KAPA)、20μlH₂O、5μlPCR引物(5′-GATCTTAAGGCTAGAGTACTAATACGACTCACTATAGGG*T-3′，与上文的T7寡核苷酸1相同，10μM储液)和5μl纯化的连接混合物。循环条件如下：98℃/1min，98℃/15s；60℃/15s、72℃/30s的10个循环；72℃/5min。合并反应并用AMPureXP珠(BeckmanCoulter)进行纯化，洗脱在25μlH₂O中。

诱饵文库的体外转录：

为了将诱饵文库转录为生物素化的RNA，我们组合了以下体外转录反应混合物：5μl扩增的文库(～500ng)、15.2μlH2O、10μl5×NASBA缓冲液(185mMTris-HCl[pH8.5],93mMMgCl2,185mMKCl,46％DMSO)、2.5μl0.1MDTT、0.5μl10mg/mlBSA、12.5μl10mMNTP混合物(10mMATP,10mMCTP,10mMGTP,6.5mMUTP,3.5mM生物素-16-UTP)、1.5μlT7RNA聚合酶(20U/μl,Roche)、0.3μl焦磷酸酶(0.1U/μl,NEB)和2.5μlSUPERase-InRNA酶抑制剂(20U/μl,LifeTechnologies)。反应在37℃下孵育过夜，在37℃用1μlTURBODNA酶(2U/μl,LifeTechnologies)处理15min，然后根据制造商的说明使用RNeasyMini试剂盒(QIAGEN)进行纯化，在相同的30μlH₂O中洗脱两次。单个反应产生～50μg的RNA。通过在5％TBE/尿素凝胶上电泳～100ng并用溴化乙锭染色来核对RNA的大小。对于长期储存，加入1.5μlSUPERase-In，并将RNA储存于-80℃。

封闭衔接子的RNA寡核苷酸的制备

用于测试富集方案的所有aDNA文库含有索引的多重衔接子(参见上文的“DNA提取和文库制备”部分)。为了封闭这些序列并防止捕获过程中的非特异性结合，我们生成了封闭衔接子的RNA寡核苷酸，其可以被大量制备并且在捕获完成时易于通过RNA酶处理去除。如上文所述使以下寡核苷酸进行退火：T7通用启动子(5′-AGTACTAATACGACTCACTATAGG-3′(SEQIDNO:3))+多重-封闭-P5(5′-AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATTCCTATAGTGAGTCGTATTAGTACT-3′(SEQIDNO:4))或多重-封闭-P7(5′-AGATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNATCTCGTATGCCGTCTTCTGCTTGCCTATAGTGAGTCGTATTAGTACT-3′(SEQIDNO:5))，后者在索引序列的位置含有随机核苷酸，这允许相同的封闭衔接子的寡核苷酸用于所有的文库。

对于这些双链寡核苷酸溶液的每一种，根据制造商的说明，用T7高产率RNA合成试剂盒(NEB)将700ng进行体外转录。在用1μl的TURBODNA酶处理(37℃/15min)之后，根据制造商的说明使用RNeasyMini试剂盒纯化RNA，除了在方案的步骤2加入675μl乙醇(而不是250μl)以确保保留小RNA。将RNA洗脱在30μlH₂O中，向其加入1.5μlSUPERase-In，随后储存于-80℃。

DNA捕获

杂交

对于古DNA“池”(RNA诱饵将杂交于的混合物)，在200μlPCR中将27μl的各aDNA文库(取决于文库，81–550ng)与2.5μl人Cot-1DNA(1mg/ml,LifeTechnologies)和2.5μl鲑精DNA(10mg/ml,LifeTechnologies)混合。在单独的1.5ml管中将RNA诱饵和封闭衔接子的寡核苷酸如下混合：对于每个捕获，1μl(500ng)生物素化的RNA诱饵文库、3μlSUPERase-In、2μlP5多重封闭RNA(100μM储液，见上文)和2μlP7多重封闭RNA(100μM储液，见上文)。DNA池在热循环仪中加热至95℃进行5min，接着在65℃下进行5min。当DNA已在65℃下进行2.5min时，将RNA诱饵混合物在加热块中加热至65℃进行2.5min。在DNA池已在65℃下进行5min之后，加入26μl预热的杂交缓冲液(10×SSPE,10×Denhardt’s,10mMEDTA,0.2％SDS和0.01％Tween20)，随后加入8μlRNA诱饵/封闭混合物，以产生66μl的总反应物。吹吸混合反应物，随后在65℃孵育～66hr。

拉下实验

对于每个捕获反应，将50μl的DynabeadsMyOne链霉抗生物素蛋白C1小珠(LifeTechnologies)与200μl小珠洗涤缓冲液(1MNaCl,10mMTris-HCl[pH7.5],1mMEDTA和0.01％Tween20)混合，涡旋30s，然后在磁板上分离2min，随后去除上清液。此洗涤步骤重复两次，并且在最后一次洗涤之后，将小珠重悬于134μl小珠洗涤液/样品中。接着，将134μl的小珠溶液添加至66μlDNA/RNA杂交混合物，将溶液涡旋10s，并将混合物在室温孵育30min，偶尔涡旋。然后，将混合物置于磁体上以分离小珠并去除上清液。在165μl低严格缓冲液(1×SSC/0.1％SDS/0.01％Tween20)中于室温孵育小珠15min，之后在165μl预热的高严格缓冲液(0.1×SSC/0.1％SDS/0.01％Tween20)中于65℃洗涤三次，每次10min。在50μl0.1MNaOH中将经杂交体选择的DNA在室温洗脱10min，然后通过加入50μl1MTris-HCl(pH7.5)进行中和。最后，用1.8×AMPureXP小珠浓缩DNA，洗脱于30μlH₂O中。

扩增

通过将30μl经捕获的DNA与50μl2×NEBNextMasterMix、0.5μl的各引物(引物P5,5′-AATGATACGGCGACCACCGA-3′(SEQIDNO:6)和P7,5′-CAAGCAGAAGACGGCATACGA-3′(SEQIDNO:7)的200μM储液)、0.5μlRNA酶A(7,000U/ml,QIAGEN)和18.5μlH₂O混合来对经捕获的池进行PCR扩增。循环条件如下：98℃/30s；98℃/10s、60℃/30s、72℃/30s的15–20个循环；72℃/2min。用1.8×(180μl)AMPureXP小珠纯化反应物，并洗脱在30μlH₂O中。

文库合并和多重测序

将经捕获的文库以等摩尔的量(通过在AgilentBioanalyzer2100上的分析来确定)合并，并在MiSeq(捕获后保加利亚人文库，2×150bp读数)或HiSeq(捕获前保加利亚人文库(2×90bp读数)和所有其它文库(2×101bp读数))上进行测序。对于捕获后文库，加标10％PhiX(具有平衡的核苷酸表现度的病毒基因组)以补偿文库的低复杂性，所述低复杂性可引起测序运行过程中串扰矩阵计算、聚类识别和定相的问题。

映射和数据分析

在映射之前，用程序SeqPrep使用默认设置(包括30nt的长度截断值)合并配对末端读数并修剪衔接子。使用禁用播种(seeding)(-l1000)的BWAv.0.5将合并的读数和经修剪的未合并的读数单独映射至人参考基因组(UCSCGenomeBrowserhg19)。随后用samtools(v.0.1.18)从组合的bam文件去除重复，并就映射质量≥30来过滤读数。

对于捕获后文库，我们注意到在多个文库中存在少量具有完全相同的长度和映射坐标(主要映射至mtDNA)的片段。由于我们在测序之前针对每个文库单独地进行了捕获和扩增，因而对于该观察的最简约解释是，文库的高克隆性导致测序仪上混合的聚类和索引序列的一些不当分配，尽管如上所述进行了PhiX的加标。多重文库的此现象在之前已有报道，并且很可能由于高水平的克隆性而加重。

为了校正这个问题，使用内部bash脚本和BEDTools从生物信息学上去除任何潜在的交叉污染片段(被定义为在超过一个文库中具有相同的长度和映射坐标的那些)。

对于下采样实验，将初始fastq文件减小至所期望的读数数量，然后如上所述对读数进行映射。用BEDTools评估捕获前和捕获后文库之间的重叠。使用IntegrativeGenomicsViewer建立覆盖度图。用mapDamage2.0.30生成DNA损伤表。

与基因组重复区域的重叠通过使用BEDTools与hg19(UCSCGenomeBrowser)的RepeatMasker表进行交叉来测定。对于mtDNA单倍群分配，使用上文针对全基因组所述的相同流水线将所有修剪的和合并的读数单独地比对至修订的剑桥参考序列(rCRS)。用MitoBamAnnotator鉴定突变，并用mthapv.0.19a基于PhyloTreeBuild来分配单倍群。使用之前公布的用于鸟枪法测序数据的核型分析工具来进行性别鉴定。

变体识别和主成分分析

对于变体识别，将位置与来自千人基因组计划1期数据集(v.3)的SNP重叠，在古代样品中就碱基质量≥30进行过滤并从千人基因组去除相关个体。对于美洲土著人的PCA，来自十个另外个体(玛雅人个体HGDP00854,HGDP00855,HGDP00856,HGDP00857,HGDP00860,HGDP00868,HGDP00877；Karitiana个体HGDP00998和BI16；以及埃马拉人个体TA6)的低覆盖度测序的基因组也包括在交叉中。由于在古代样品中的低覆盖度，大多数位置由0或1个读数覆盖；对于由超过一个读数覆盖的位置，对随机读数进行抽样，并使该位置成为纯合的。对于PCA分析，就最小等位基因频率≥5％过滤SNP并使用smartpca构建PCA。仅用现代样品计算主成分，然后将古代个体投射到PCA上。PCA图使用Rv.2.14.2产生。

结果

在源自非冷冻保存的样本的12个人aDNA文库上测试WISC：四个来自保加利亚的铁器和青铜器时代人的牙、七个来自秘鲁的前哥伦比亚时期人木乃伊和一个来自丹麦的青铜器时代人的毛发样品。在专用清洁实验室中提取DNA并建立文库(参见“材料与方法”部分)。在捕获之前的鸟枪法测序表明所有文库含有低水平的内源性DNA(平均1.2％，范围0.04％–6.2％；参见图4)。为了允许进行直接比较，将捕获前和捕获后文库中的读数数量调整至相等，随后通过从各自的原始fastq文件提取前n个读数进行映射(图4)。在毛发和骨文库的情况下，为了便于与牙文库进行比较，显示了1×10⁶个读数的结果。在映射之前，当可能时合并配对末端读数，从合并的和未合并的读数修剪任何剩余的衔接子序列，并弃去仅含有衔接子序列的读数(即衔接子二聚体)。如图4中所示，全基因组捕获降低了在此步骤中弃去的读数数量，从而减少了由这些不提供信息的序列所占据的测序能力，这些不提供信息的序列是aDNA测序文库中常见的污染物。

在捕获之后，对于以MAPQ≥30映射至人基因组的读数数量观察到范围为6倍至159倍的富集，从而导致捕获后映射的1.6％–59.2％的读数。对于独特的片段，我们观察到2倍至13倍的富集(图4)；然而，独特读数的分数随着测序的不同量而变化，并且还对原始文库的复杂性水平敏感(图2A和2B)。富集水平与捕获前文库中存在的内源性DNA的量负相关——一般而言，捕获之前的量越高，富集的程度越低(例如样品P192-1和NA42；参见图4)。之前在临床样品的病原体DNA的富集中已经观察到了这种现象。

在所有情况下独特读数的数量增加；然而，即使在测序1×10⁶个读数之后，仍已观察到捕获后文库中的大多数独特分子，如由这些文库中的高水平的克隆性(66％–96％)所证实的。我们一般捕获了在捕获前文库中观察到的大部分内源性片段(15％–90％)(图4)。该数字还随着额外的测序而增加(参见图2C和下文的讨论)。我们仅观察到落在基因组的已知重复区域中的片段百分比的略微增加(图4)，平均增加为从捕获前的36％至捕获后的39％。与样品中起始DNA的量不存在明显的相关性。因此，至少对于含有非常低水平的内源性DNA的文库，重复序列的偏倚富集似乎没有成为问题。在捕获后文库中，未映射的部分与捕获前文库具有类似的环境(主要是细菌的)序列组成(数据未显示)。

重要地，对于历来依赖于从古代样品鉴定mtDNA单倍群的aDNA研究，对于12个捕获后文库中的5个利用1×10⁶个读数实现了mtDNA的>1×覆盖度(图4)。对于这五个样品，我们能够尝试识别mtDNA单倍群。与千人基因组计划参考小组的交叉证实捕获将独特SNP的数量提高了2到14倍(图4)，从而提高了涉及这些个体的主成分分析图的分辨率(参见下文的“讨论”部分)。我们没有观察到因使用马赛人男性个体(NA21732)用于捕获探针而引起的X染色体捕获的任何偏倚：映射至X染色体的读数比例在捕获之前和捕获之后大致保持相同(表S2)。此外，对于在八个被测序至更高水平的捕获前和捕获后文库(0–6个SNP/样品)之间改变等位基因的总共17个SNP，只有十个SNP在捕获之后从与NA21732不匹配改变为与NA21732匹配(表S3)。因此，至少对于现代人，在种群水平上探针和靶标之间的差异似乎没有在捕获后文库中产生显著的等位基因偏倚。然而，可能的是，如果获得足够高的覆盖度，则对于插入缺失或拷贝数变体可能见到更显著的效应。

为了确定采用增加量的测序所发现的新的独特片段的数量，我们将毛发和骨文库测序至更高的覆盖度(通过多重IlluminaHiSeq测序的～8-18×10⁶个读数)。图2A和2B显示了文库NA40(秘鲁人骨)和M4(丹麦人毛发)的增加水平的测序的结果，其一般代表了我们对于其余六个文库所见的模式(参见图S1)。对于NA40，尽管来自捕获前文库的独特片段的产率以线性方式增加，但来自捕获后文库的产率随着初始测序快速增加并在大约4×10⁶个读数之后开始达到稳定期(图2A)。类似地，存在独特片段的快速初始增加至对于捕获前和捕获后M4文库所测序的大约5×10⁶个读数；随后此增加随着测序至18.7×10⁶个读数而缓慢下来(图2B)。来自其余六个文库的结果示于图S1中。这些图还证实随着捕获前文库开始被更穷尽地取样，独特读数的富集倍数随着增加量的测序而降低(图2A、2B和S1)。因此，WISC允许我们获得捕获后文库中存在的绝大多数的独特读数，即使测序水平较低，例如在IlluminaMiSeq上的单个运行所能够获得的那些。

使用更高水平的测序来测量捕获前文库中内源性分子捕获的效率。如图2C所示，对于文库NA40，捕获前文库中77％(53,524)的独特片段在具有所测序的12,285,216个读数的捕获后文库中也被测序到；注意此分数是所测序的1×10⁶个读数的42％(图4)。此外，在捕获之后用相同量的测序对另外的136,978个独特片段进行了测序(图2C)。这些片段通常平均分布在基因组上；图2D显示了文库M4和NA40在1号染色体的随机10Mb区域上的覆盖度图。捕获后文库中的片段大小倾向于稍微更大(图2E)，可能是因为杂交和洗涤步骤的严格性(其可被降低但我们预计会导致更低水平的富集)和在纯化过程中的一定损失，从而导致更长片段的优先保留。由于aDNA与现代污染物相比是高度片段化的，我们测试了总体DNA损伤模式(在片段末端C至T和G至A转换的增加，这诊断古DNA)是否随着捕获之后片段大小的改变而改变。我们观察到在捕获前和捕获后文库中总体DNA损伤模式保持相似(表S4)，无论是作为整体的文库还是当它们通过大小(<70bp和>70bp)进行划分时。文库V2、K8和M4的模式不是古DNA所典型的，可能是由于有利的保存条件、捕获前的样品污染、或这两者(表S4)。最后，如之前对于溶液中外显子组捕获所观察到的，捕获后文库中的读数的GC含量稍微下降(图2F)。

对来自古代样品的DNA进行测序的最终目标通常是鉴定用于种群遗传学分析的信息变异。我们使用通过与千人基因组参考小组交叉所鉴定的SNP(参见图4和上文的讨论内容)来进行主成分分析(PCA)。仅将最小等位基因频率≥5％的SNP用于此分析。图3显示了样品V2(保加利亚人)、M4(丹麦人的毛发)和NA40(秘鲁人木乃伊)的捕获前和捕获后PCA。如所预期的，两个欧洲人样品在捕获之前(图3A和3C)和捕获之后(图3B和3D)的PCA上均落入欧洲人集群。然而，捕获之后SNP数量的增加使得每个古代样品的次大陆归属的分辨率改善(图3B和3D)。仅使用千人基因组中的欧洲种群的PCA进一步解析了捕获之后这些样品中的一些的安置(图S3)。对于秘鲁人木乃伊，我们还在PCA中包括了来自中美洲和南美洲的10个土著美洲个体(图3E和图3F)。有趣的是，所有的木乃伊均落在土著美洲种群(KAR、MAY、AYM)和东亚种群(JPT、CHS、CHB)之间，如对于非混合的土著美洲个体所预期的(图3E、3F和S2)。这些木乃伊属于前哥伦比亚时期的Chachapoya文化，其据某些报道是不寻常地白皮肤的，表明前哥伦比亚欧洲混合的可能性。然而，根据我们的初步结果，这些个体似乎已具有美洲土著人的血统。

已开发了全基因组溶液中捕获方法(WISC)，其可用于高度富集aDNA测序文库的内源性内含物，从而降低对文库中的绝大多数独特片段取样所需的测序的量。用于aDNA文库的靶向富集的之前方法仅关注基因组的子集(例如线粒体基因组、单个染色体或SNP的子集)。尽管这些方法已产生了有用的信息同时降低了测序成本，但它们均涉及丢弃大量潜在提供信息的序列，其常常来自已含有减少表现度的基因组的样品。排除初始文库成本(其对于所有的方法是相同的)和测序，执行WISC的成本大致为$50/样品，主要是由于用于捕获的链霉抗生物素蛋白包被的小珠的成本。相反，通过市售试剂盒的溶液中外显子组捕获为大致$1,000/样品，并且我们计算了之前报道的21号染色体捕获方法，其具有大致为$5,000的初始成本(购买用于产生RNA探针的九个1×10⁶特征DNA阵列)，加上用于实际捕获实验的～$50/样品的成本。最后，如果期望以阵列合成拼接整个基因组的探针(即与21号染色体捕获类似的方法，但针对的是整个基因组)，我们计算这将花费～$300,000–$400,000来购买必要的阵列。与对捕获前文库测序相比，所有这些方法会很大程度上降低测序成本，但是，如上所述的，这样做的话几种方法会丢弃潜在提供信息的序列。

如同从类似的样本建立的许多aDNA文库，我们的测试文库不含有足够覆盖整个基因组的内源性DNA，使得不可能识别这些样品的基因型；实际上，>99.9％的位置由0或1的读数覆盖。DNA损伤(特别是C至T和G至A转换)的存在使得从这些样品鉴定SNP变得更加复杂。因此，为了更可靠地鉴定SNP，我们将我们的数据集与来自千人基因组参考小组的一系列已知的SNP进行交叉。损坏的SNP将被发现于与来自参考数据集的SNP完全相同的位置并具有匹配的等位基因的可能性非常低，因此我们能够利用所鉴定的SNP来进行提供信息的种群遗传学分析而无需过滤出数据中的较大子集(图3)。

应当注意的是，参考小组(优选具有全基因组序列数据(尽管这不是必须的))对于具有低水平基因组覆盖度的不良保存的样本的此类分析是必需的。然而，由于WISC降低了每个文库所需的测序所需的量，故可以分析来自相同种群的多个个体，这是对于聚焦于古代种群的时空分布的研究的关键考虑因素。

如图4中所示，对于文库中的五个获得了mtDNA的>1×覆盖度。该数字低于经由捕获单独靶向mtDNA时所实现的典型富集，但是这不是出人意料的，因为靶向了更广泛范围的序列。在捕获来自古代玉米的细胞核和细胞器DNA中观察到类似的现象。对于这些样品可以尝试识别mtDNA单倍群。两个保加利亚人铁器时代个体(P192-1和T2G5)分别落入单倍群U3b和HV(16311)。单倍群U3在黑海周边(包括保加利亚)和近东的国家中特别常见，HV也以低频率发现于欧洲并且在近东达到峰值。

三个秘鲁人木乃伊落入单倍群B2、M(D的祖先)和D1，其均源自始祖美洲土著人谱系并且先前在来自秘鲁的前哥伦比亚时期和现代种群中被观察到。在这些实验中，起始文库的复杂性程度限制了捕获产率，并且通过改善的aDNA提取和文库制备方法可以潜在地提高捕获产率。

最后，由于没有必要设计用于此方法的阵列(即经测序的基因组是不需要的)，WISC还可用于通过由现存的亲缘物种的基因组建立诱饵来从灭绝物种的样本捕获DNA。物种之间的序列差异对捕获效率的作用仍有待确定，但是靶向黑猩猩的探针已被成功用于捕获人和大猩猩的序列。

此外，WISC可应用于其它环境中，诸如富集法医、宏基因组和博物馆样本中的DNA。

本领域技术人员还将认识到的是，尽管本发明已在上文中基于优选的实施方案进行了描述，但它并不局限于此。上文描述的发明的各种特征和方面可以单独或联合使用。此外，尽管本发明已在特定环境中进行实施的上下文进行了描述并且被描述用于特定的应用(例如古DNA分析)，但本领域技术人员将认识到的是，其可用性并不局限于此，并且本发明可以有利地用于任意量的其中期望降低测序读数以获得期望量的独特靶向的DNA片段的环境和实践中。因此，以下所示的权利要求书应当基于本文所公开的本发明的全部范围和精神进行理解。

Claims

1.用于在溶液中捕获DNA分子的方法，其包括：

a)从包含内源性DNA和环境DNA的样品提取DNA以产生提取的DNA，其中所提取的DNA包含比内源性DNA更多的环境DNA；

b)将通用衔接子连接至所提取的DNA；

c)在溶液中将所提取的DNA与亲和标记的RNA探针杂交，所述亲和标记的RNA探针由以下步骤产生：在亲和标记的核糖核苷酸的存在下，体外转录已被连接至RNA启动子衔接子的片段化的参考基因组DNA的文库；

d)在与所述通用衔接子的一条链或多条链互补或与所述通用衔接子的一条链或多条链具有相同序列的RNA寡核苷酸的存在下，将步骤c)的产物与系到基底的捕获剂结合，从而将杂交的DNA分子捕获在所述基底上；

e)洗涤所述基底以去除任何未结合的DNA分子；以及

f)释放所捕获的DNA分子。

2.权利要求1的方法，其中所述样品是牙、骨、指甲、趾甲或毛发的样品。

3.前述任一项权利要求的方法，其中所述样品是临床、法医、考古学或环境样品。

4.前述任一项权利要求的方法，其中所述样品中的DNA是高度片段化的。

5.前述任一项权利要求的方法，其中片段化的人基因组DNA包含选定的序列。

6.前述任一项权利要求的方法，其中所述片段化的人基因组DNA富含非重复性序列。

7.前述任一项权利要求的方法，其中所提取的DNA包含的环境DNA为内源性DNA的至少10倍。

8.前述任一项权利要求的方法，其还包括在步骤f)之后扩增所捕获的DNA分子。

9.前述任一项权利要求的方法，其还包括在步骤f)之后对所捕获的DNA分子测序。

10.前述任一项权利要求的方法，其中杂交步骤c)通过PERT或osPERT完成。

11.前述任一项权利要求的方法，其中所述RNA启动子是T7启动子。

12.前述任一项权利要求的方法，其中所述基底包括磁珠。

13.前述任一项权利要求的方法，其中所述通用衔接子具有15至100个碱基的长度并被连接至所提取的DNA中DNA分子的两端。

14.前述任一项权利要求的方法，其中亲和标记是生物素部分并且所述捕获剂是链霉抗生物素蛋白或抗生物素蛋白。

15.前述任一项权利要求的方法，其中所述RNA寡核苷酸与所述通用衔接子的至少50％的序列互补。

16.用于在溶液中捕获DNA分子的试剂盒，其包含：

a)通用衔接子；

b)连接酶；

c)包含已被连接至RNA启动子衔接子的片段化的参考基因组DNA的文库，或由该文库制得的亲和标记的转录本的文库；

d)与所述通用衔接子的一条链或多条链互补或与所述通用衔接子的一条链或多条链具有相同序列的RNA寡核苷酸，或用于通过体外转录制备所述RNA寡核苷酸的DNA寡核苷酸对；

其中所述试剂盒任选地含有：

e)从所述RNA启动子引发RNA合成的DNA依赖性RNA聚合酶；

f)包含亲和标记的核苷酸的核糖核苷酸混合物；以及

g)包含针对亲和标记的捕获剂的基底。

17.权利要求16的试剂盒，其还包含用于执行权利要求1的方法的说明书。

18.权利要求16或17的试剂盒，其中所述通用衔接子包含5’T悬垂。

19.权利要求16至18任一项的试剂盒，其还包含用于磨平末端和任选地添加3’A悬垂的聚合酶。

20.权利要求16至19任一项的试剂盒，其还包含用于执行PERT或osPERT的试剂。