Nothing Special   »   [go: up one dir, main page]

CN101910410A - 通过间隔进行高通量核酸测序 - Google Patents

通过间隔进行高通量核酸测序 Download PDF

Info

Publication number
CN101910410A
CN101910410A CN2008801224267A CN200880122426A CN101910410A CN 101910410 A CN101910410 A CN 101910410A CN 2008801224267 A CN2008801224267 A CN 2008801224267A CN 200880122426 A CN200880122426 A CN 200880122426A CN 101910410 A CN101910410 A CN 101910410A
Authority
CN
China
Prior art keywords
probe
subchain
nuclear base
nucleic acid
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2008801224267A
Other languages
English (en)
Inventor
马克·斯达马蒂奥斯·可可里斯
罗伯特·N·麦克卢尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Roche Diagnostics Seattle Inc
Original Assignee
Stratos Genomics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stratos Genomics Inc filed Critical Stratos Genomics Inc
Publication of CN101910410A publication Critical patent/CN101910410A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了核酸测序方法和相关装置、产品和试剂盒。对靶核酸进行测序的方法包括提供通过模板指导的合成产生的子链,该子链包括在对应于靶核酸的全部或一部分的连续核苷酸序列的序列中偶联的多个亚单位,其中单个亚单位包括探针和报道构建体。该亚单位编码其报道构建体中的序列信息,该序列信息少于靶核酸相应部分的序列信息。减少的信息允许对检测系统的分辨率要求降低并允许可解析报道基团的大小增加。

Description

通过间隔进行高通量核酸测序
引用的相关申请
本申请要求按照35U.S.C.119(e)享受2007年10月23日提交的美国临时专利申请60/981,91号6和2007年10月25日提交的美国临时专利申请61/000,305号的权益;这两个申请在此通过引用并入。
发明领域
本发明一般涉及核酸测序,以及与其相关的方法和产品。
发明背景
核酸序列编码有生命的物体发挥功能和繁殖所需的信息,其实质上是生命的蓝图。因此测定这类序列是用于理论科研(生物体如何和在何种地方生存)以及应用科学(诸如药物开发)的工具。在医学上,测序工具可用于各种疾病的诊断及开发治疗方法,所述疾病包括癌症、心脏病、自身免疫病、多发性硬化或肥胖症。在工业上,测序可用于设计改进的酶方法或合成生物。在生物学上,这类工具可用于例如研究生态系统的健康状况,因此具有广泛应用。
个体的独特DNA序列提供了关于他们对某些疾病易感性的重要信息。所述序列向患者提供进行早期检测的筛选和接受预防性治疗的机会。此外,只要给出患者的个体蓝图,临床医生将能够进行个性化治疗以将药物效果最大化,并将不良药物反应的风险降至最低。同样,测定致病生物的蓝图可以产生传染性疾病的新疗法和更有效的病原体监测。全基因组DNA测序将为现代医学提供基础。
DNA测序是测定指定DNA多聚体的化学成分顺序的方法。这些化学成分称为核苷酸,在DNA中以4种常见形式存在:脱氧腺苷(A)、脱氧鸟苷(G)、脱氧胞苷(C)和脱氧胸苷(T)。二倍体人基因组的测序需要测定大约60亿个核苷酸的连续顺序。
目前,大部分DNA测序是使用Frederick Sanger开发的链终止方法进行的。这种技术,称为Sanger测序,使用DNA合成的序列特异性终止和荧光修饰的核苷酸报道底物来产生序列信息。这种方法通过使用改良的聚合酶链式反应对高达1000个碱基的靶核酸链或读长(read length)测序。在这种改良的反应中,测序在选择的碱基类型(A、C、G或T)处被随机打断,通过毛细管凝胶电泳确定打断的序列的长度。该长度然后确定何种碱基类型位于该长度上。产生许多重叠的读长,利用数据处理叠加它们的序列以确定数据最可靠的拟合。这种产生序列读长的方法是非常费力和昂贵的,现在已被效率更高的新方法所取代。
Sanger方法被用于提供人类基因组计划的大部分序列数据,所述人类基因组计划产生了人类基因组的第一个完整序列。该计划耗时超过10年、花费几乎30亿美元才得以完成。考虑到这些显著的通量和成本限制,显然DNA测序技术需要显著提高,以便实现科学界所提出的规定目标。所以,远远超过Sanger测序法的通量和每碱基成本限制的大量第二代技术,获得测序市场越来越多的份额。但是,这些“通过合成测序”的方法不能实现市场诸如用于个性化药物的全基因组测序所需的通量、成本和质量指标。
例如,454Life Sciences制造了能够在7.5小时内处理1亿个碱基的装置(例如,Genome Sequencer),其平均读长为200个核苷酸。他们的方法使用聚合酶链式反应(“PCR”)的改变以在珠子表面产生靶核酸的均质集落,长度达到数百碱基。这种方法被称为乳液PCR(emulsion PCR)。然后将成千上万个这类珠子排列在“picotiter板”上。然后将所述平板准备好用于另外的测序,每种核碱基类型被连续从平板上洗涤。含有掺入碱基的靶的珠子产生焦磷酸副产物,其可用于催化光产生反应,随后这可以通过相机检测到。
Illumina Inc.具有类似的方法,其使用可逆的终止核苷酸和荧光标记物来进行核酸测序。Illumina的1G Analyzer(1G分析仪)的平均读长低于40个核苷酸。不是使用乳液PCR来扩增序列靶标,Illumina使用在阵列表面扩增PCR集落的方法。454和Illumina方法均使用复杂的聚合酶扩增来增加信号强度,在速率受限序列延伸循环期间进行碱基测量,并且由于掺入错误降低了与读长成比例的测量信噪比从而限制了读长。
Applied Biosystems使用可逆的终止连接而不是通过合成测序(sequencing-by-synthesis)来读取DNA。与454的Genome Sequencer一样,该技术使用基于珠子的乳液PCR来扩增样品。因为大多数珠子不携带PCR产品,研究人员随后使用富集步骤来选择包被有DNA的珠子。将包被生物素的珠子分散并固定在覆盖链霉抗生物素的玻璃载片阵列上。固定的珠子然后经过8-mer探针杂交(每个标记4种不同的荧光染料)、连接、和切割(在第5个和第6个碱基之间产生用于下一轮的位点)的过程。每个探针使用2个碱基的编码系统在第4和5位,检测2个碱基,该2个碱基的编码系统由相机记录。类似于Illumina的方法,Applied Biosystems的SOLiD平台的平均读长低于40个核苷酸。
通过直接测量DNA的单个分子避免聚合酶扩增的时间和费用的其他方法,正在研发。Visigen Biotechnologies,Inc.正在测量荧光标记的碱基,这些碱基通过以下方式测序:将第二荧光团掺入改造的DNA聚合酶并使用Forster Resonance Energy Transfer(FRET)用于核苷酸鉴定。这种技术面临以下挑战:通过小于1纳米和将具有非常大的统计变化的聚合酶掺入作用分离碱基信号。
LingVitae正在开发的方法是对插入固定的质粒载体的cDNA进行测序。这种方法使用IIS型限制性内切酶切割靶核酸并将寡聚体连接入靶标。通常,限制酶所产生的位于5′或3′末端突出端的一个或两个核苷酸决定连接混合物中的何种寡聚体文库将添加到靶的粘性切割末端。每个寡聚体包含唯一鉴定其取代的核苷酸的“信号”序列。然后重复切割和连接过程。然后利用对各种寡聚体特异的标签对新分子进行测序。该过程的产物被称为“设计多聚体(Design Polymer)”,总是由比其取代的更长的核酸组成(例如,二核苷酸靶序列被多至100个碱基对的“扩大的”多核苷酸序列取代)。这种方法的优点是,如果需要,可以扩增双链产物链。缺点是该方法必须循环,并且如果同时进行多个限制性切割,模板的连续性将丢失。
Kless的美国专利号7,060,440描述一种涉及通过聚合酶的聚合掺入寡聚体的测序方法。Sanger方法的改良,其利用末端终止的寡聚体作为底物,被用于通过凝胶电泳或毛细管层析构建测序序列梯(sequencingladders)。尽管通过末端连接的寡聚体偶联是公知的,在模板指导的方法中使用聚合酶偶联寡聚体具有新的优点。
聚合技术预期将提高效率,因为通过遗传改造和生物勘探(bioprospecting)提供了改造的聚合酶(和连接酶),并且通过聚合酶修饰清除核酸外切酶活性的方法是已知的。例如,Williams的公开的美国专利申请2007/0048748描述了使用突变的聚合酶掺入染料标记的及其他修饰的核苷酸。这些聚合酶的底物还包括γ-磷酸盐标记的核苷酸。使用嵌合和突变的聚合酶观察到掺入速率加快和错误率降低。
此外,学术和工业化团队付出了大量努力利用非合成法测序天然DNA。例如,Agilent Technologies,Inc.与大学合作者开发出单分子测量方法,其将DNA穿过纳米孔(nanopore)并在其经过的时候进行测量。与Visigen和LingVitae一样,这种方法必须克服以下难题:有效并准确获得按照亚纳米大小分离的单个核碱基(individual nucleobase)的不同信号,以及开发出类似尺寸的可再现孔大小。这样的话,因为链中核苷酸的尺寸小(中心-与-中心约4埃)及其中相应信噪比和信号分辨率的限制,在高通量过程中,仍然需要实现通过检测其组成部分对DNA进行直接测序。DNA的固有二级结构使直接检测进一步复杂化,所述二级结构并不易于延伸成完美的线性多聚体。
尽管在DNA测序领域已经取得显著进步,但该领域仍然需要新的和改进的方法。本发明满足了这些需要并提供了其他相关优点。
发明概述
概括来说,本发明公开了方法及相应装置、产品和试剂盒,它们克服了现有高通量核酸测序技术存在的空间分辨率挑战。这通过以下方式实现:只将DNA靶标的核酸信息的亚组编码到替代多聚体(子链(daughterstrand))上,该替代多聚体在可检测的元件之间产生间隔,因此比其亲本DNA更容易“读取”。这种测序技术在本文中还被称为“通过间隔测序(sequencing-by-spacing)”或“SSP”,并提供了作为标记的DNA替代物(″S-多聚体″)的子链,随后可以测量所述子链,从而间接确定DNA序列。S-多聚体通过DNA靶标的模板依赖性复制产生,其中多个探针构建体被连续连接。这类构建体被称作“S-mers”或“间隔寡聚体(spacer oligomers)”,并具有至少一个鉴定核碱基信息的报道构建体。通过设计,只有一部分碱基信息被编码,以降低报道构建体的密度,从而简化检测要求。
在一个实施方案中,提供对靶核酸测序的方法,包括提供由模板指导的合成产生的子链(S-多聚体)。这条子链包括在对应于靶核酸的全部或一部分的连续核苷酸序列的序列中偶联的多个亚单位(S-mers)。单个亚单位(individual subunits)包括带有X个核碱基残基(X是大于1的正整数)的探针和编码探针的Y个核碱基残基(Y是小于X的正整数)的报道构建体。然后检测该报道构建体以确定子链每X个核碱基中的Y个核碱基。
因为Y小于X,所以只有一部分核碱基被检测。例如,仅仅为了解释,当X是4而Y是1时,检测报道构建体以确定子链每4个核碱基中的1个核碱基。因为子链包括在对应于靶核酸的全部或一部分的连续核苷酸序列的序列中偶联的多个亚单位,对靶核酸每4个核碱基中的1个进行测序。在许多例子中,靶核酸中“每X个中的Y个”核碱基(例如,每4个或每4(4th)个中的1个,核碱基)的检测,足以用于测序目的。可选的,和如果需要,可以使用利用多种(例如,文库)探针构建体的靶核酸的模板依赖性复制来产生用于检测的额外子链,从而按照类似的方式鉴定剩余的交错靶核碱基。
核碱基残基数目X的范围可以为2-20(包括在内),编码碱基的数目Y至少为1,其范围通常为1-10。通常,X是2、4、5或6,Y是1或2。在下文用于说明的代表性实施方案中(如附图中),X通常显示为4,Y为1;但是,本领域技术人员应当意识到,可以类似地使用X和Y的其他值。探针的核碱基残基可以是,例如,腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)或胸腺嘧啶(T),或下文更详细讨论的其他杂环(heterocyclice)碱基部分,包括通用碱基。可以通过许多方法实现子链的模板指导的合成,包括涉及一种或更多种酶促连接、聚合酶反应和/或化学连接的技术。如上所述,子链包括多个亚单位,其亚单位的数目可以变化很大,例如,大于30,或大于1000。
可以通过各种技术中的任何技术实现子链的检测。例如,报道构建体可以通过以下方式检测:将子链穿过纳米孔,利用电子束探测,通过扫描隧道显微镜术(STM),和/或透射电子显微镜术(TEM)。报道构建体的性质主要依据所用的检测方法。可以通过共价键将报道构建体与探针的至少一个核碱基残基相连。可选地,或除此之外,报道构建体可以是探针的至少一个核碱基残基的组分。此外,当检测报道构建体时,子链可以与靶核酸形成双链体,或在检测点,子链可以从靶核酸中分离。
子链包括在对应于靶核酸的全部或一部分的连续核苷酸序列的序列中偶联的多个亚单位,并可以用下列结构表示:
Figure BPA00001162358200061
其中P代表带有X个核碱基残基的探针;C代表编码探针的Y个核碱基残基的报道构建体;和i代表链m个亚单位中的第i个亚单位。子链可以包括任意数目的亚单位,其可以是,例如,大于10,大于100,或大于1000。此外,当报道构建体C如上所示与探针P通过键连接时,报道构建体可以是探针自身的组分,将报道构建体描绘为单独连接的部分,仅出于说明的目的。
当子链与靶核酸形成双链体时,其可以用下列结构表示:
Figure BPA00001162358200062
其中P代表带有X个核碱基残基的探针;P′代表与P互补的模板链中X个核苷酸残基的连续核苷酸序列;C代表编码探针的Y个核碱基残基的报道构建体;和i代表链m个亚单位中的第i个亚单位。
子链可以通过模板指导的合成由具有下列结构的多个构建体(S-mers)形成:
其中R1和R2代表用于子链模板合成的相同或不同的末端基团;P代表带有X个核碱基残基的探针;和C代表编码探针的Y个核碱基残基的报道构建体。R1和R2代表适合于该目的的任何数目的基团,这在下文有更详细的阐述。在可选的实施方案中,在子链的模板指导的合成后,将报道构建体添加到子链,多个构建体具有与上述相同的结构,但缺乏报道构建体。
在另一实施方案中,公开一种试剂盒,其包括用于通过模板指导的合成形成子链的多个构建体(即,带有合适的R1/R2末端基团的S-mers),并且可以任选地包括使用该试剂盒形成子链的合适说明书。试剂盒(其还可以被称作构建体的“文库”)中构建体的数目将取决于X的值,以及作为核碱基残基使用的通用碱基的数目。例如,构建体的这类试剂盒或文库可以含有唯一的成员编号,例如,从10到65000,从50到5000,或从200到1200。
根据附图和后面的详细说明,本发明的这些和其他方面将是显而易见的。为此,本文列出了各种参考文献,其更加详细的描述了一些步骤、化合物和/或组合物,因此将这些文献在此通过引用全文并入。
附图简要说明
在附图中,相同的参考号标明类似的元件。附图中元件的大小和相对位置不是必须按比例描绘,一些元件被任意放大和放置以提高附图的清晰度。此外,所绘元件的具体形状并非意图表达有关具体元件实际形状的任何信息,其被选择只是为了在附图中便于识别。
图1A显示核碱基间的受限分离,所述核碱基必须得到解析以便确定核酸靶标中的核苷酸序列。图1B是典型的S-mer,图1C用示意图显示S-mers如何降低分辨率要求。
图2A-2E用示意图显示可用于本发明的数种典型的S-mer结构。
图3A和3B显示利用渐进性连接由靶核酸合成S-多聚体的简化步骤的示意图。图3C是显示读取S-多聚体的纳米孔型装置的简单模型。
图4显示模拟信号如何被解码成对应于S-多聚体中编码的遗传序列信息的数字信息。
图5A显示带有20个碱基5′突出端的部分双链模板以证明底物的持续连接,而图5B-5G是连接产物的凝胶。
图6A显示S-mers的结构组分,图6B和6C分别显示双链和非双链S-多聚体的亚单位。
图7显示使用聚合酶由靶核酸合成S-多聚体的简化步骤。
图8显示脱氧腺苷(A)、脱氧胞苷(C)、脱氧鸟苷(G)和脱氧胸苷(T)的结构。
图9A和9B显示用功能团衍生的核苷酸。
图10A和10B显示掺入衍生的核碱基的探针。
图11A到11B显示PEG多聚体亚单位和PEG作为聚合栓(polymerictether)的用途。
图12A和12B显示聚赖氨酸多聚体亚单位和聚赖氨酸作为报道支架的用途,图12C显示束缚的树状聚体(tethered dendrimer)作为报道支架的用途。
图13显示常规的纳米孔检测方法。
图14显示横向电极纳米孔检测方法。
图15显示通过电子显微镜术的检测。
图16显示使用原子力显微镜术的检测。
图17显示与靶模板形成双链体的一部分S-多聚体,S-多聚体由编码单碱基的四聚体S-mers合成。
图18显示通过靶核酸的连续滚环复制的S-多聚体合成。
发明的详细描述
在下面的说明中,阐述了一些具体细节,以便提供各种实施方案的彻底理解。但是,本领域技术人员应当理解,没有这些细节也可以实施本发明。在其他例子中,没有显示或详细描述公知的结构,以避免不必要的对实施方案的模糊说明。除非上下文另有要求,说明书及随后的权利要求自始至终,单词“包括(comprise)”及其变化,诸如,“包括(comprises)”和“包括(comprising)”被解释为开放、包括在内的含义,即“包括,但不限于”。此外,本文提供的标题只是为了方便,不解释所要求发明的范围或含义。
本说明书中提到“一个实施方案(one embodiment)”或“实施方案(an embodiment)”时,表示连同实施方案所述的具体特征、结构或特性包括于至少一个实施方案中。因此,在整个说明书不同地方出现的短语“在一个实施方案中(in one embodiment)”或“在实施方案中(in anembodiment)”不是必须全部涉及相同的实施方案。此外,具体的特征、结构或特性可以按照任意合适的方式在一个或更多个实施方案中组合。此外,如在本说明书和所附权利要求中所用的,单数形式“a”、“an”和“the”包括复数含义,除非上下文另外明确规定。还应指出,术语“或”通常以包括“和/或”的意义使用,除非上下文另有清楚的规定。
如本文所用的,除非上下文另外规定,下列术语具有下文指定的的含义。
“核碱基”是诸如腺嘌呤鸟嘌呤、胞嘧啶、胸腺嘧啶、尿嘧啶、肌苷、黄嘌呤、次黄嘌呤等的杂环碱基,或其杂环衍生物、类似物或互变异构体。核碱基可以是天然存在的或合成的。核碱基的非限制性实例是腺嘌呤、鸟嘌呤、胸腺嘧啶、胞嘧啶、尿嘧啶、黄嘌呤、次黄嘌呤、8-氮杂嘌呤、第8位用甲基或溴取代的嘌呤、9-氧代-N6-甲基腺嘌呤、2-氨基腺嘌呤、7-去氮黄嘌呤、7-去氮鸟嘌呤、7-去氮腺嘌呤、N4-桥亚乙基胞嘧啶(N4-ethanocytosine)、2,6-二氨基嘌呤、N6-桥亚乙基-2,6-二氨基嘌呤、5-甲基胞嘧啶、5-(C3-C6)-炔基胞嘧啶、5-氟尿嘧啶、5-溴尿嘧啶、硫尿嘧啶、假异胞嘧啶、2-羟基-5-甲基-4-三唑吡啶、异胞嘧啶、异鸟嘌呤、肌苷、7,8-二甲基咯嗪、6-二氢胸腺嘧啶、5,6-二氢尿嘧啶、4-甲基-吲哚、桥亚乙基腺嘌呤,以及在下列文献中描述的非天然存在的核碱基:美国专利5,432,272和6,150,510号和PCT申请WO 92/002258、WO93/10820、WO 94/22892和WO 94/24144,以及Fasman(“PracticalHandbook of Biochemistry and Molecular Biology(生物化学和分子生物学实践手册)”,pp.385-394,1989,CRC Press,Boca Raton,LA),这些文献均在此通过引用全文并入。
“核碱基残基”包括核苷酸、核苷、其片段,以及具有结合互补核苷酸的性质的相关分子。脱氧核苷酸和核糖核苷酸,以及它们的各种类似物,预期属于该定义的范围内。核碱基残基可以是寡聚体和探针的成员。在本文中“核碱基”和“核碱基残基”互换使用,通常是同义的,除非上下文另外规定。
“多核苷酸”,也称为核酸,是核苷酸的共价连接是系列核苷酸,其中一个核苷酸戊糖的3′位通过磷酸二酯基团与下一核苷酸的5′位相连。DNA(脱氧核糖核酸)和RNA(核糖核酸)是生物学上存在的多核苷酸,其中核苷酸残基按照特定的序列通过磷酸二酯键相连。本文所用的术语“多核苷酸”或“寡核苷酸”包括具有线性核苷酸主链的任何多聚体化合物。寡核苷酸通常是更短的链式多核苷酸。
“互补”泛指特定的核苷酸双链化以形成规范的Watson-Crick碱基配对,这是本领域技术人员已知的。但是,本文所涉及的互补还包括核苷酸类似物的碱基配对,所述核苷酸类似物其包括但不限于,2′-脱氧肌苷和5-硝基吲哚-2′-脱氧核糖核苷,它们能够与A、T、G或C核苷酸和增强双链体的热稳定性的锁核酸进行通用碱基配对。本领域技术人员应当意识到杂交严紧性是杂交所形成的双链体中匹配或错配程度的决定因素。
“核酸”是多核苷酸或寡核苷酸。核酸分子可以是脱氧核糖核酸(DNA)、核糖核酸(RNA)或两者的组合。如果是针对测序的话,核酸通常称为“靶核酸”或“靶序列”。核酸可以是靶向测序的分子的混合物或库。
“探针”是短链核碱基残基,通常涉及两个或更多个连续核碱基残基,其通常是单链的并与核酸的靶序列互补。如“S-mers”所体现的,探针的长度范围可以是2到超过20个,通常是长度为2到20个核碱基残基。探针可以包括采取任意组合的修饰的核碱基残基和修饰的核碱基内键。探针的主链可以通过大量共价键类型中的任意一种连接到一起,包括但不限于,酯、磷酸二酯、磷酰胺、膦酸酯、硫代磷酸酯、硫代磷酸酯、酰胺键及其任意组合。探针还可以具有5′和3′末端键,其包括但不限于,下列基团:单磷酸、三磷酸、羟基、氢、酯、乙醚、乙二醇、胺、酰胺和硫酯。
“选择性杂交”涉及特异性的互补结合。可以包含一个或更多个通用碱基的多核苷酸、寡核苷酸和探针,在使非特异性结合降到最低的杂交和清洗条件下,与靶核酸链选择性杂交。如本领域所知,高严紧性条件可用于实现利于完美匹配的选择性杂交条件。可以改变杂交条件,如盐浓度、温度、去污剂、PEG、和GC中和剂诸如甜菜碱,以增加杂交的严紧性,即,要求沿着双链核酸的连续链对C与G碱基配对和A与T或U碱基配对的精确匹配。
“模板指导的合成”、“模板指导的组装”、“模板指导的杂交”、“模板指导的结合”和任意其他模板指导的方法,是指借由探针选择性结合互补靶核酸并掺入新生子链的方法。“模板指导的聚合”和“模板指导的连接”是模板指导合成的具体例子,借此所获子链分别被聚合或连接。
“子链”由模板指导的方法产生,并且通常与作为其合成来源的靶单链核酸互补。S-多聚体是其靶核酸的子链。
“连续的”是指序列延续而没有核碱基的中断或缺失。模板链核苷酸的连续序列据称与子链的连续序列互补。
“底物”是对靶模板具有结合特异性的探针。底物通常与报道构建体结合形成S-mers。形成子链(称为S-多聚体)的S-mers底物也是子链的底物。
“S-mers”是用于子链(S-多聚体)的模板指导合成的反应物,并且通常以文库的形式提供。S-mers包含与靶模板互补结合的探针底物和一个或更多个报道构建体。报道构建体编码一些底物碱基信息。S-mers以适合本发明的各种形式提供。在一个实施方案中,在S-多聚体被合成后,S-mers具有与报道分子连接的报道构建体。带有5′-单磷酸和3′OH修饰的S-mer探针与用于S-多聚体合成的基于酶促连接的方法相容。带有5′和3′接头修饰的S-mer探针与用于S-多聚体合成的基于化学连接的方法相容。带有5′-三磷酸和3′-OH的S-mer探针与酶促聚合相容。
“亚单位基元”或“基元”是指多聚体主链的重复亚单位,该亚单位具有重复亚单位的总形式特性,并且还具有编码遗传信息的种类特异性元件。按照每个基元中结合核碱基元件的基本互补序列的可能组合的数目,互补核碱基残基的基元在S-mers的文库中表示。如果核碱基结合元件是4个(例如,A、C、G和T),4个元件组合的可能基元的数目是4X,其中X是基元中核碱基残基的数目。但是,基于简并配对碱基、基于通用碱基、基于核糖核碱基残基或其他组核碱基残基中尿嘧啶对胸苷的取代的其他基元,可以产生更大或更小的载有基元的S-mers的文库。多个基元可以具有相同的报道构建体。一般来说,S-mer与单报道构建体连接,通常该报道构建体编码S-mer探针中的1个碱基。多个基元可以具有相同的编码碱基。
“初级主链(primary backbone)”是指子链(S-多聚体)的底物的连续或分段主链。通常遇到的初级主链是天然多核苷酸的核糖基5′-3′磷酸二酯主链。但是,子链的初级主链可以含有核碱基的类似物和寡聚体的类似物,它们不通过磷酸二酯键连结或不通过磷酸二酯键与其他主链键的混合物连结,所述其他主链键包括,但不限于下列键:硫代磷酸酯、硫代磷酸酯、膦酸酯、氨基磷酸酯和肽核酸“PNA”主链键,其包括膦酰基-PNA、丝氨酸-PNA、羟脯氨酸-PNA及其组合。当子链采用其双链体形式(即,双链子链),并且底物在亚单位之间不是共价键合时,底物仍然是连续的并形成子链的初级主链。
“S-多聚体”或“S-多聚体产物”是通过S-mers的模板指导的组装合成的合成分子构建体。S-多聚体被设计为具有沿着纵向的报道分子的序列,该序列沿着靶模板按照规则间隔的区间鉴定碱基亚组。S-多聚体报道分子中序列信息的线性密度低于靶模板的线性密度,因为它只提供一个亚组。这意味着报道分子可以更大,可以以更大的空间分离,当测量报道分子时,这提高了信噪比。S-多聚体具有相连的核碱基残基的主链。
“部分(moiety)”是某物可以被划分为两个或更多个部分中的一个,诸如,例如,探针的不同部分。
“栓(tether)”是指通常具有线性尺寸并在两个相对末端中的每一个带有末端部分的多聚体或分子构建体。栓任选地包括将探针连接于S-mer的报道构建体。一个以上的栓可以将报道构建体固定于探针。
“肽核酸”或“PNA”是核酸类似物,其具有适于与核酸杂交的核碱基残基,但带有包括氨基酸或其衍生物或类似物的主链。
“膦酰基-肽核酸”或“pPNA”是肽核酸,其中主链包括氨基酸类似物,如N-(2-羟乙基)膦酰基甘氨酸或N-(2-氨乙基)膦酰基甘氨酸,且核碱基单位之间的键通过膦酰酯或膦酰胺键。
“丝氨酸核酸”或“SerNA”是主链包括丝氨酸残基的肽核酸。这类残基通过酰胺或酯键连接。
“羟脯氨酸核酸”或“HypNA”是主链包括4-羟脯氨酸残基的肽核酸。这类残基通过酰胺或酯键连接。
“报道元件”是由相关“报道分子检测特征”组成的信号元件、分子络合物、化合物,分子或原子。其他报道元件包括但不限于,FRET共振供体或受体、染料、量子斑点、珠子、树状聚体、高转化荧光团、磁颗粒、电子散射体(例如,硼)、质量(mass)、金珠、核磁共振、可电离的基团、极性基团、疏水基团。其他报道元件是荧光标记物,诸如但不限于,溴化乙锭、SYBR Green、德克萨斯红、吖啶橙、芘、4-硝基-1,8-萘酰亚胺(naphthalimide)、TOTO-1、YOYO-1、花菁3(Cy3)、花菁5(Cy5)、藻红蛋白、藻青蛋白、别藻蓝蛋白、FITC、若丹明、5(6)-羧基荧光素、荧光蛋白、DOXYL(N-烃氧基-4,4-二甲基噁唑烷)、PROXYL(N-烃氧基-2,2,5,5-四甲基吡咯烷)、TEMPO(N-烃氧基-2,2,6,6-四甲基哌啶)、二硝基苯基、吖啶、香豆素、Cy3和Cy5(Biological Detection Systems,Inc.)、赤藓红、香豆酸、伞形酮、得克萨斯红若丹明、四甲基若丹明、Rox、7-硝基苯并-1-氧杂-1-二唑(NBD)、恶唑、噻唑、芘、荧光素或镧化合物;还有放射性同位素(诸如33p、3H、14C、35S、125I、32p或131I)、乙锭(ethidium)、铕、钌和钐或其他放射性同位素;或质量标签(mass tags),诸如,例如,在C5位修饰的嘧啶或N7位修饰的嘌呤,其中质量修饰基团可以是,例如,卤素,乙醚或聚醚,烷基,酯或聚酯,或具有常规型XR,其中X是连接基团和R是质量修饰基团,化学发光标记物,自旋标记物,酶(诸如过氧化物酶、碱性磷酸酯酶、β-半乳糖苷酶和氧化酶),抗体片段,和亲和配体(诸如寡聚体、半抗原和适体)。
“报道分子”由一个或更多个报道元件组成。报道分子包括大家所熟悉的“标签”和“标记物”。S-mer的探针可以被认为是报道分子。报道分子用于编码靶核酸的遗传信息。
“报道构建体”包括一个或更多个可以产生可检测信号的报道分子,其中可检测信号通常含有序列信息。这些信号信息被称为“报道分子密码(reporter code)”,随后被解码为遗传序列数据。报道构建体还可以包括栓或其他结构组分,包括多聚体、移植共聚物、嵌段共聚物、亲和配体、寡聚体、半抗原、适体、树状聚体、连接基团或亲和结合基团(例如,生物素)。这些包括,但不限于:聚乙二醇(polyethylene glycol),聚乙二醇(polyglycol),聚吡啶,聚异腈,聚异氰酸酯,聚(三芳甲基)异丁烯酸酯,聚醛,聚吡咯啉(polypyrrolinones),聚脲,聚乙二醇磷酸二酯,聚丙烯酸酯,聚甲基丙烯酸酯,聚丙烯酰胺,聚乙烯酯,聚苯乙烯,聚酰胺,聚氨基甲酸酯,聚碳酸酯,聚丁酸酯,聚丁二烯,聚丁内酯,聚吡咯烷酮,聚乙烯膦酸酯,聚乙酰胺,多糖,聚透明质酸酯,聚酰胺,聚酰亚胺,聚酯,聚乙烯,聚丙烯,聚苯乙烯,聚碳酸酯,聚对苯二甲酸酯,聚硅烷,聚氨基甲酸酯,聚醚,聚氨基酸,聚甘氨酸,聚脯氨酸,N取代的聚赖氨酸,多肽,侧链N取代的肽,聚N取代的甘氨酸,拟肽,侧链-羧基取代的肽,同源肽(homopeptides),寡核苷酸,核糖核酸寡核苷酸,脱氧核酸寡核苷酸,经修饰以防止Watson-Crick碱基配对的寡核苷酸,寡核苷酸类似物,聚胞苷酸,聚腺苷酸,聚尿苷酸,聚胸苷,聚磷酸酯,多核苷酸,多核糖核苷酸,聚乙二醇-磷酸二酯,肽多核苷酸类似物,苏氨酰基(threosyl)多核苷酸类似物,乙二醇-多核苷酸类似物,吗啉代-多核苷酸类似物,锁核苷酸寡聚体类似物,多肽类似物,分枝的聚合物,梳形聚合物,星形聚合物,树状聚合物,随机梯度和嵌段共聚物,阴离子聚合物,阳离子聚合物,形成聚合物的茎-环,刚性片段和柔性片段。一些情况下对报道构建体的改变具有独特的键,该键用于在产生S-多聚体后连接报道分子。
称为“信号”的“报道分子检测特征”描述用于直接或间接将报道分子的遗传序列信息传递到测量设备的所有可能的可测量或可检测元件、特性或特征。这些包括但不限于,荧光、多波长荧光、发射光谱、荧光猝灭、FRET、发射、吸光度、反射比、染料发射、量子斑点发射、珠子成像、分子络合物成像、磁化率、电子散射、离子团、核磁共振、分子络合物尺寸、分子络合物阻抗、分子电荷、诱导偶极、阻抗、分子量、量子态、荷电容量、磁自旋状态、诱导型极性、核衰变、共振,或互补性。
“报道分子密码”是来自报道构建体的测量信号的遗传信息。将报道分子密码解码以提供序列特异性的遗传信息数据。
“持续”是指底物偶联过程,其通常是连续的并定向进行。尽管不受理论束缚,但如果没有间断地逐渐向新生子链中添加底物,连接酶和聚合酶例如均显示持续的特性。如果净效应是新生子链的持续生长,则不认为杂交和连接或杂交和聚合的步骤是独立的步骤。一些但不是所有引物依赖性的步骤是持续的。
“混杂的”是指底物偶联过程,其立即从模板上多个位点开始、不是引物依赖性的,且表明链延伸平行(同时)从一个以上原点开始。
“单探针延伸”是指循环的逐步过程,在该过程中,逐一添加探针底物。通常通过使用可逆的保护基团,限制偶联反应在任意一步中进行超过单个底物的延伸。
“对应于”或“相应”在本文中用于表示探针、寡核苷酸、寡核苷酸类似物或子链的连续单链序列,其与靶核酸序列的全部或一部分互补并因此“对应于”靶核酸序列的全部或一部分。可以说探针的互补序列对应于其靶标。通常,探针的互补序列和靶标的互补序列都是单独连续的序列。
“连接酶”是通常用于连接3′-OH 5′-单磷酸核苷酸、探针、寡聚体及它们类似物的酶。连接酶包括,但不限于,NAD+依赖性连接酶,包括tRNA连接酶,Taq DNA连接酶,丝状栖热菌(Thermus filiformis)DNA连接酶,大肠杆菌DNA连接酶,Tth DNA连接酶,水生栖热菌(Thermnusscotoductus)DNA连接酶,热稳定连接酶,Ampligase热稳定DNA连接酶,VanC型连接酶,9°N DNA连接酶,Tsp DNA连接酶,和通过生物勘探发现的新连接酶。连接酶还包括但不限于,ATP-依赖性连接酶,包括T4RNA连接酶,T4DNA连接酶,T7DNA连接酶,Pfu DNA连接酶,DNA连接酶I,DNA连接酶III,DNA连接酶IV,和通过生物勘探发现的新连接酶。这些连接酶包括野生型、突变同种型和遗传改造的变体。
“聚合酶”是通常用于连接3′-OH 5′-三磷酸核苷酸、探针、寡聚体及它们类似物的酶。聚合酶包括但不限于,DNA依赖性DNA聚合酶、DNA依赖性RNA聚合酶、RNA依赖性DNA聚合酶、RNA依赖性RNA聚合酶、T7DNA聚合酶、T3DNA聚合酶、T4DNA聚合酶、T7RNA聚合酶、T3RNA聚合酶、SP6RNA聚合酶、DNA聚合酶I、克列诺片段、Thermophilus aquaticus DNA聚合酶、Tth DNA聚合酶、
Figure BPA00001162358200151
DNA聚合酶(New England Biolabs)、Deep
Figure BPA00001162358200152
DNA聚合酶(New EnglandBiolabs)、Bst DNA聚合酶大片段、Stoeffel片段、9°N DNA聚合酶、9°NDNA聚合酶、Pfu DNA聚合酶、Tfl DNA聚合酶、Tth DNA聚合酶、RepliPHI Phi29聚合酶、Tli DNA聚合酶、真核DNA聚合酶β、端粒末端转移酶、TherminatorTM聚合酶(New England Biolabs)、KOD HiFiTM DNA聚合酶(Novagen)、KOD1DNA聚合酶、Q-beta复制酶、末端转移酶、AMV逆转录酶、M-MLV逆转录酶、Phi6逆转录酶、HIV-1逆转录酶、通过生物勘探发现的新聚合酶,以及在US 2007/0048748、US 6329178、US6602695和US 6395524(引入作为参考)中引用的聚合酶。这些聚合酶包括野生型、突变同种型和遗传改造的变体。
“编码”或“解析(parse)”是涉及将一种形式转变成另一形式的动词,表示将靶模板碱基序列的遗传信息转换为报道分子的排列。
“固相支持物”是具有连接分子、化合物、细胞或其他实体的表面的固体材料。固相支持物的表面可以是平的或不平的。固相支持物可以是多孔或无孔的。固相支持物可以是芯片或阵列,它们包括表面,并且可以包括玻璃、硅、尼龙、多聚体、塑料、陶瓷或金属。固相支持物还可以是膜,诸如尼龙,硝酸纤维素,或聚合膜,或平板或皿,它们可以由玻璃、陶瓷、金属或塑料诸如例如聚苯乙烯、聚丙烯、聚碳酸酯或异质同晶聚合物组成。固相支持物还可以是任意形状的珠子、树脂或颗粒。这类颗粒或珠子可以由任意合适的材料组成,诸如玻璃或陶瓷,和/或一种或更多种多聚体,诸如,例如,尼龙、聚四氟乙烯、TEFLONTM、聚苯乙烯、聚丙烯酰胺、琼脂糖(sepaharose)、琼脂糖、纤维素、纤维素衍生物或葡聚糖,和/或可以包括金属,尤其是顺磁性金属,诸如铁。
“可逆地阻断”或“终止物(terminator)”是指当与第二化学基团上的部分结合时阻止该第二化学基团进入具体化学反应的化学基团。各种保护基是合成有机和生物有机化学中已知的,它们适合于特定的化学基团并适合于特定的化学过程相容,表示它们在这些过程期间将保护特定基团,随后被去除或修饰(参见,例如,Metzker et al.Nucleic Acids Res.,22(20):4259,1994)。
“接头”是连接两个分子或部分,并在两个分子或基团间提供间隔,使它们能够按照预期的方式发挥作用的分子或部分。例如,接头可以包括二胺烃链,其通过一个末端的反应基与寡核苷酸类似物分子共价结合,并通过另一末端的反应基与固相支持物(诸如,例如,珠子表面)结合。可以利用本领域已知的的偶联试剂实现接头与目的核碱基和S-mers的偶联(参见,例如,Efimov et al.,Nucleic Acids Res.27:4416-4426,1999)。衍生和偶联有机分子的方法是有机和生物有机化学领域公知的。接头也可以是可切割的或可逆的。
如上所述,本发明公开了方法和相应装置、产品和试剂盒,它们克服了现有高通量核酸测序技术存在的空间分辨率挑战,使通量和准确性增加。这通过以下方式实现:只将DNA靶标的核酸信息的亚组编码到替代多聚体(子链)上,该替代多聚体在可检测元件之间产生间隔,因此比其亲本DNA更易“读取”。这种测序技术在本文中还被称为“通过间隔测序”或“SSP”,并提供作为标记的DNA替代物(“S-多聚体”)的子链,然后对其进行测量以间接确定DNA序列。S-多聚体通过DNA靶标的模板依赖性复制产生,其中多个探针构建体被连续连接。这种构建体被称作间隔寡聚体(“S-mers”),并具有至少一个鉴定核碱基信息的报道构建体。通过设计,只有一部分碱基信息被编码以降低报道构建体的密度,从而简化检测要求。
如图1A所示,天然双链核酸具有极其紧凑的线性数据密度;双螺旋(100)每条链的连续堆积碱基(102)之间中心与中心分离约3.4
Figure BPA00001162358200171
因此很难以任何准确性或速度直接成像或测序。当双链形式变性形成单链多核苷酸(103,104)时,所获碱基与碱基的分离距离是相似的,但因为二级结构的结构域导致问题变得复杂。
图1C显示子链或S-多聚体(105),在此显示为称为S-mers(106,107)的短探针构建体的连接。图1B显示S-多聚体形成前的S-mer(108)(即,子链形成前的构建体)。在图中显示其由与报道构建体(110)偶联的4碱基探针(111、112、113、114)构建。两个探针末端基团R1和R2用于S-多聚体的组装步骤。S-多聚体是与待测序的核酸靶标互补的合成子链。将与模板核酸互补的碱基掺入S-多聚体,但在这个实例中,每个探针只有一个碱基被相关报道构建体鉴定。报道构建体(此处图示为省略号、三角形和矩形表示)可以使用通过探针(此处用圆图示的4个核碱基表示)长度提供的线性间隔避免与相邻探针的报道构建体重叠。S-多聚体是通过模板核酸链的模板依赖性复制产生的子链。这种子链具有由这些探针形成的连续线性主链,从而形成报道构建体的连续序列,其编码模板核酸中每4个碱基的碱基序列。如果需要,完整的模板序列可以通过合成另外的S-多聚体来确定,其中模板上S-多聚体的组装起点适当迁移(例如,1、2和3个碱基的迁移)。这种方法将在下面做更详细的解释,但应当注意到每探针4个核碱基的选择以及图1B和1C所示报道构建体的细节只是为了说明目的,不应被认为限制本发明。
S-多聚体中相邻探针间的分离距离“D”取决于探针中碱基的数量和多聚体的伸展程度。如图1C所示,对于4碱基探针的D是约15埃。S-mers包括探针和报道构建体,所述报道构建体将一部分探针的核酸信息编码成一些可测量的特征。S-mers是构建块(building blocks),从该构建块(building block),由其制备S-多聚体。长4、10或20个碱基的S-mer探针将分别使报道构建体的可用空间增加到约15、35和70埃。随着分离距离的增加,测量或“解析”连续报道构建体的方法变得更容易,因为报道构建体可以更大,因此检测分辨率要求得以降低。
再参阅图1A,天然DNA通过半保守复制的方法复制;每个新的DNA分子是模板链(103)和天然子链(104)的“双链体”。通过保留碱基对序列中固有遗传信息的“模板指导的合成”方法,序列信息从模板传递到天然子链。天然子链依次变成下一代天然子链的模板,诸如此类。S-多聚体通过模板指导的合成的类似方法形成,这可以是酶促或化学偶联方法。但是,与天然DNA不同,S-多聚体只需要带有报道构建体所携带的碱基信息的碱基以高保真复制。剩余碱基可以是简并的、修饰的、通用的或经历一些错配,只要它们继续维持碱基的正确间隔并且不对模板指导的复制方法产生有害抑制。
图2A-2E表示典型的S-mers(201、202、203、204、205)。这些是作为S-多聚体(子链)合成来源的构建块。此处显示的S-mers具有个两功能组分;即,探针部分(210)和“报道构建体”成员(220)。这些S-mers可以用R基团(如R1和R2所示)进行末端修饰例如,适于和连接酶一起使用的5′-单磷酸、3′-OH,或适于和聚合酶一起使用5′-三磷酸、3′-OH。其他R基团可用于各种实验方案中。
如下所述,连接酶依赖性方法可以用于由靶核酸的模板链合成S-多聚体。例如,探针的4个核碱基残基通常与模板核酸4个核苷酸的连续序列互补。因此当其序列互补时,将每个探针设计为能与模板杂交。通过提供许多这类探针序列的文库,可以形成模板的连续互补复制物。这种子链被称为“S-多聚体”。S-多聚体可以具有双链或单链形式。
图2A所示的S-mer(201)具有带有单个栓附件(225)的报道构建体(220)(用省略号表示)。对于图2B的S-mer(202),报道构建体(220)具有与探针的2个栓附件(226、227)。共同形成“报道构建体”的报道元件的组合将产生在检测时具有序列信息的独特数字报道分子密码。报道构建体可以使用,例如,树状聚体、多聚体、分枝多聚体或其组合作为连接报道分子的支架。这些报道元件包括但不限于,荧光团、FRET标签、珠子、配体、适体、肽、半抗原、寡聚体、多核苷酸、树状聚体、茎-环结构、亲和标记、质量标签等。
图2C的S-mer显示报道构建体(220)中编码的两个碱基(A和G)的序列信息。每个S-mer中编码2个碱基的这种选择有利于检测后重建序列,因为其信息将如何与其他序列数据重叠。图2D的S-mer(204)阐明两种观点:即,S-mers可以更长,以便为解析连续的报道构建体提供更多的线性空间,和探针的序列信息(以星号(*)表示)可以采用在测序方案中更易检测的改良形式编码在S-mer中。因为序列数据是物理上更易解析的,星号(*)代表有利的编码遗传信息的任何形式。无论是什么形式,S-mer的元件(*)都可以是可直接检测的报道分子,或可以是在组装后标记步骤中添加报道分子的前体。在一些情况下,遗传信息可以编码于S-mer自身的分子性质中,例如多态(multi-state)质量标签。在其他情况下,遗传信息由FRET供体/受体对的一个或更多个荧光团或纳米分子条型码或配体或配体组合编码,或采用本领域获得的一些其他标记技术编码。如图2E所示,在一些实施方案中,报道构建体是探针自身。在这个实例中,4碱基探针的一个碱基编码于探针的结构中。对于4个编码的碱基中的每一个,存在一类简并探针,它们共享鉴定其编码的碱基的独特特征。报道构建体的各种实施方案将在下文进行更详细地描述。
可以看出如果S-mer的每个底物都含有X个核碱基,则代表X个核碱基所有可能的连续组合的文库将含有4X个探针(当从A、T、C或G中选择核碱基时)。如果使用其他碱基,包括通用碱基,可能需要更少或更多的组合。将这些探针底物文库设计为每个S-mer含有:(1)与待测序的核酸的可能的靶序列中任一个互补的探针,和(2)编码靶序列所选部分特性(identity)的独特报道构建体,特定的探针(或核碱基)与所选互补。例如,含有3个核碱基、只使用A、CT和G的探针文库将具有64个独特成员。如果使用这些探针的S-mers编码探针5′末端的碱基,则64个探针中的16个将编码碱基类型的每一种。
典型S-多聚体的合成如图3A和3B所示。在这种情况下,合成法被描述为在游离溶液中以引物依赖性的持续连接杂交。
如图3A所示,首先制备靶DNA。许多公知的分子生物学方案,诸如用于将使DNA形成片段并连接末端接头的方案,可适用于测序方法,并在本文中用于制备测序用靶DNA(301)。在这里我们以本领域技术人员熟知的广义术语说明,即,设计与测序引物一起使用的使片段末端补齐和接头(310,320)平末端连接的方法。这些作用显示于图3A的步骤I中。在步骤II和III中,将靶核酸(301)变性,并和与接头互补的合适引物(330)退火。数种选择性引发方法可以适用,包括双链发夹引物,基于探针的引发,简并通用引物或随机引发。这些引发方法中的许多是公知的,并被实施。
在图3B中,将引发的模板链(340)(来自图3A,步骤III)与S-mers(360)的文库和连接酶(L)接触。在步骤IV中,改变条件以有利于杂交,然后是在引物-模板双链体的游离3′-OH处的连接。通常,杂交和连接在高于探针底物熔解温度的温度下进行,以减少非特异性的副反应。可选地,在步骤V中,连接酶解离,且在步骤VI和VII中,可知杂交和连接的循环过程通过将S-mers(370,380)连续添加到引物末端导致延伸。尽管引发可以在单链模板的两端从接头发生,但是新生S-多聚体子链的生长在本文中显示为从单引物开始,这只是为了简单起见。子链的延伸在步骤VI和VII中显示,步骤VI和VII是连续重复的(递增地,无中断的)。这些反应在游离溶液中发生,一直进行到已经合成足够量的产物。在步骤VIII中,完成的S-多聚体(390)的形成据显示与模板链(340)形成双链体。图3B的步骤IX显示双链体变性产生非双链形式的S-多聚体(390)。这个步骤是可选的,取决于是双链体还是单链S-多聚体在整个检测步骤中产生更好的结果。
用于该方法的连接酶的选择包括,但不限于,NAD+依赖性连接酶,包括tRNA连接酶,Taq DNA连接酶,丝状栖热菌DNA连接酶,大肠杆菌DNA连接酶,Tth DNA连接酶,水生栖热菌DNA连接酶,热稳定连接酶,Ampligase热稳定DNA连接酶,VanC型连接酶,9°N DNA连接酶,Tsp DNA连接酶,和通过生物勘探发现的新连接酶。连接酶还包括但不限于,ATP依赖性连接酶、包括T4RNA连接酶、T4DNA连接酶、T7DNA连接酶、Pfu DNA连接酶、DNA连接酶I、DNA连接酶III、DNA连接酶IV,和通过生物勘探发现的新连接酶。这些连接酶包括野生型、突变同种型和遗传改造的变体。
长度相对长的核苷酸序列可以采用这种方式有效复制,以形成S-多聚体。可以看出,利用该技术能够实现连续的读长,其代表沿着长模板链片段对碱基信息的规律取样。本领域技术人员清楚的知道,上亿个这些单分子SSP反应可以在单个管中、在高效的分批过程中同时完成。随后,可以对这些综合体的鸟枪产物进行测序。
基本方法的改进,诸如清洗步骤和严紧性条件的改变在有经验的分子生物学家的技能范围内对该方法的变形包括,例如,靶链的固定和解析,延伸和其他技术以减少S-多聚体合成期间的二级结构,合成后标记、末端功能化以及对连结底物的连接酶的替代将在随后的材料部分描述。
进行S-多聚体的合成,以促进核酸的检测和测序,这可应用于各种类型的核酸。该方法以较低的线密度(相对于天然核酸的较小的核苷酸与核苷酸距离)编码序列信息,和任选地还增加检测中的信噪比(相对于从天然核苷酸观察到的几乎不能区别的、低强度信号)。因此,沿着S-多聚体主链掺入的报道构建体的信号,可以使用各种检测方法进行检测和解码,包括本领域公知的检测方法(例如,基于FRET的显微镜检术、原子力显微镜检术,或电子显微镜术)以及通过方法诸如平行纳米孔阵列传感器的方法,或方法的组合。基于最佳信噪比、通量、成本以及类似因素,选择检测技术。
图3C描述对S-多聚体使用纳米孔检测技术的示意图。薄膜(394)中的纳米孔(392)显示分离两个槽(reservoir),它们均装满了含水电解质溶液(通常是1摩尔KCl)。将放置于每个槽中的电极间施加电势,电流流过纳米孔。S-多聚体产物(396)(显示为非双链形式)沿纵向具有负电荷密度。它被拉入纳米孔,并通过电泳和/或电渗力穿过纳米孔。纳米孔电流受位于纳米孔通道内S-多聚体的任何部分调节。在该图解中,对于特定的碱基类型,通过使用带有不同分子大小和电荷分布的分子结构编码每个报道构建体。当每个报道构建体穿过纳米孔时,其分子特征按时间和波幅改变电流,从而可以通过电流测量确定编码的碱基特性(base identity)。通过捕获该模拟电流信号并对其进行数字处理,可以确定连续报道构建体中编码的序列信息。应当注意到在这种检测方法中,可以平行测量许多纳米孔通道,以增加通量。纳米孔技术的发展已经证明能够通过使用溶血素的生物孔测量单链RNA,这不能区别单个碱基,但可以区别50个碱基同聚体(Butler,T.Z.et al.,“Determination of RNA Orientation duringTranslocation through a Biological Nanopore,”Biophys.J.90(1):190-199,2006)。已经利用固态孔检测单链和双链DNA(Fologea,D et al.,“DetectingSingle Stranded DNA with a Solid State Nanopore,”Nano Letters 5(10):1905-1909,2005;StorTm,A.J.et al.,“Translocation of double-strand DNAthrough a silicon oxide nanopore,”PhysicalReview.E.Statistical,Nonlinear,and Soft Matter Physics 71(5Pt 1):051903,2005),但未连续区分单个碱基。其他相关的纳米孔测序技术已被公开(Fologea,D.et al.,“Electricalcharacterization of protein molecules by a solid-state nanopore,”AppliedPhysics Letters 91(5):053901-3,2007;Fologea,D.et al.,“DNAconformation and base number simultaneously determined in a nanopore,”Electrophoresis 28(18):3186-3192,2007;Tabard-Cossa,V.et al.,“NoiseAnalysis and reduction in solid-state nanopores,”Nanotechnology 18(30):305505,2007;Smeets,R.et al.,“Salt Dependence of Ion Transport and DNATranslocation through Solid-State Nanopores,”Nano Letters 6(1):89-95,2006;Soni,G.V.et al.,“Progress toward Ultrafast DNA Sequencing UsingSolid-State Nanopores,”Clin Chem 53(11):1996-2001,2007;Bezrukov,S.M.et al.,“Counting polymers moving through a single ion channel,”Nature370(6487):279-281,1994)。
图4显示如何使用纳米孔电流信号区分不同的报道构建体并沿着S-多聚体确定每四个碱基的碱基特性。在这种情况下,每个报道构建体类型将基线电流信号阻断到不同的水平,每个水平对应于不同的碱基。算法连续按时间将电流水平翻译成碱基特性,以产生序列A,C,G,T,T,A,G,T。这是沿着S-多聚体的每四个碱基的序列,通过与DNA靶模板互补碱基配对,可以推断出模板每四个碱基的相应序列是T,G,C,A,A,T,C,A。
将图4所示的报道构建体设计为产生不同的纳米孔电流阻断信号。可以设计报道构建体的其他类型,用于广泛的高通量和精确的检测技术,诸如FRET、酶促发光和电子束散射,电子束吸收等。此外因为有限的分辨率,这类技术有可能不用于对天然核酸进行测序。通过S-多聚体的预纯化批次以去除不完全或短的反应产物,可以减少测序检测过程中的低效率。用于对合成的S-多聚体进行末端修饰的方法可用于纯化以及作为促进S-多聚体呈递于检测器的方式。此外,读数过程不受对加帽(capping)、脱帽(uncapping)、核苷酸延伸、标记或其他并行的加工方法的限制的约束。
图5A描述了以20个碱基的5′突出端设计的部分双链模板证明游离溶液中底物的持续连接和引物起始的模板指导的连接。图5B是凝胶照片,显示使用图5A所述的引物-模板形式的底物连接。对于这个实例,在存在引物和T4DNA连接酶的条件下,将序列5′磷酸CA 3′的二核苷酸低聚底物与模板杂交。然后将未形成双链体的末端突出端(如果有的话)进行核酸酶消化,在20%丙烯酰胺凝胶上分离连接产物。连接产生含有明确连接的亚单位的产物多聚体。如带型所示,连接酶阳性反应在泳道1、3、5、7和9中运行,所述泳道含有逐渐更长的模板(分别为4、8、12、16和20个碱基),所述连接酶阳性反应证明2mer底物的连续连接(核酸外切酶保护的双链体的长度增加)。泳道2、4、6、8和10是不含有连接酶的阴性对照,其显示未连接的产物的完全核酸外切酶消化。
图5C是显示底物的模板指导的连接的第二凝胶。对与延伸引物形成双链体的4个逐渐更长的阳性对照模板(分别为4、8、12和16个模板碱基)进行测定。此外,在存在引物和T4DNA连接酶的条件下,将序列5′磷酸CA 3′的二核苷酸低聚底物与模板杂交。然后将未形成双链体的末端突出端(如果有的话)进行核酸酶消化,在20%丙烯酰胺凝胶上分离连接产物。观察到低聚底物(也是2mers)在泳道1、2、3和4但不在泳道5和6中与模板连接,泳道5和6中模板链含有与5′(磷酸)CA 3′二核苷酸的错配(泳道5模板-5′CGCG 3′;泳道6模板-5′GGGG 3′)。
图5D所示的凝胶结果显示双(氨基修饰的)四核苷酸探针的多模板指导的连接。脂肪族氨基修饰剂具有图9A或9B所述的键和组成。对于这个实例,在存在引物和T4DNA连接酶的条件下,将序列5’(磷酸)C(氨基)A(氨基)CA3’的四核苷酸低聚底物与一系列逐渐更长的互补模板(与延伸引物形成双链体)杂交。然后将未形成双链体的末端突出端(如果有的话)进行核酸酶消化,在20%丙烯酰胺凝胶上分离连接产物。连接产生含有明确连接的亚单位的产物多聚体。泳道1和2代表16mer和20mer大小的对照。泳道3、4、5、6、7、8和9显示逐渐更长的互补模板(分别为4、6、8、12、16、18和20个模板碱基)的连接产物。观察到更长的模板反应(泳道6-9)的多个四聚体连接。泳道10显示由于模板-探针错配(模板-5’CGCG 3’)导致的基本上完全的连接酶抑制。
图5E所示的凝胶结果显示双(氨基修饰的)六核苷酸探针的多模板指导的连接。脂肪族氨基修饰剂具有图9A或9B所述的键和组成。对于这个实例,在存在引物和T4DNA连接酶的条件下,将序列5’(磷酸)CA(氨基)A(氨基)ACA 3’的六核苷酸低聚底物与一系列逐渐更长的互补模板杂交(与延伸引物形成双链体)。然后将未形成双链体的末端突出端(如果有的话)进行核酸酶消化,在20%丙烯酰胺凝胶上分离连接产物。连接产生含有明确连接的亚单位的产物多聚体。泳道1和2代表16mer和20mer大小的对照。泳道3、4、5、6、7、8和9显示逐渐更长的互补模板(分别为4、6、8、12、16、18和20个模板碱基)的连接产物。观察到更长的模板反应(泳道5-9)的多个六聚体连接。泳道10显示由于模板-探针错配(模板-5’CGCGCG 3’)导致的几乎完全的连接酶抑制。
图5F所示的凝胶结果显示双(氨基修饰的)六核苷酸探针的多模板指导的连接。脂肪族氨基修饰剂具有图9A或9B所述的键和组成。对于该实例,将模板固定到磁珠上,并与hex-标记的延伸引物形成双链体。在存在T4DNA连接酶的条件下,将序列5’(磷酸)C A(氨基)C(氨基)ACA3’的六核苷酸低聚底物与一系列逐渐更长的互补模板杂交,从而连接并从双链引物延伸。然后将连接产物从其模板变性,并在20%丙烯酰胺凝胶上分离。连接产生含有明确连接的亚单位的产物多聚体。泳道1-4的连接产物是在长度为18、36、68和100个碱基的模板上产生的。4条泳道中每个泳道的序列梯的上部梯级对应于3、6、12和17个六聚体的连接添加。这些上部的梯级是相对较强的条带,表明更长的连接产物是可能的。
图5G所示的凝胶结果显示四核苷酸探针的多模板指导的连接,所述四核苷酸探针用每个末端连接于两条修饰的探针核苷酸的PEG3500进行修饰。探针前体是双2,3(氨基)四核苷酸,5′(磷酸)CA(氨基)C(氨基)A 3′。脂肪族氨基修饰剂具有图9A或9B所述的键和组成,然后被转变为4-甲酰基苯甲酸酯(4FB)。双(氨基)PEG3500转变为双(HyNic)PEG3500,(HyNic偶联试剂盒购自Solulink,CA)。在稀释条件下,将双功能PEG3500与双2,3(4FB)四核苷酸反应形成环化PEG环。与先前的实例一样,将模板固定于磁珠,并与hex-标记的延伸引物形成双链体。在这个实例中,模板的长度20个碱基。在存在T4DNA连接酶的条件下,PEG环化的四核苷酸探针与互补模板杂交,从而连接并从双链引物延伸。然后将连接产物从其模板分离,并在20%丙烯酰胺凝胶上分离。连接产生含有4个PEG-修饰的探针的产物多聚体。这表明,可以将载有高达3500道尔顿质量的双修饰的探针逐步连接到模板。图6A显示S-mer(也称为构建体)的组成说明,其中P代表探针,C代表报道构建体,R1和R2代表探针每个末端的连接基团。如上所述,探针和报道构建体可以是不同的部分,或探针自身也具有作为报道构建体发挥功能的特性。
R1和R2可以是相同或不同的,它们单独地是羟基、氢、三磷酸、单磷酸或胺,或是酯、乙醚、乙二醇、酰胺或硫酯。末端基团R1和R2根据使用S-mer的合成方案进行配置。例如,R1=5′-磷酸和R2=3′-OH适用于连接方案,而R1=5′-三磷酸和R2=3′-OH适用于聚合酶方案。任选地,R2可以配置有可逆的阻断基团,用于循环添加单个底物。可选地,R1和R2可配置有用于化学偶联的接头末端基团,或未配置有只用于杂交方案的接头基团。R1和R2可以由通用类型的XR组成,其中X是连接基团,R是功能基团。
S-mers是S-多聚体的反应前体,通常由探针成员和报道构建体组成。探针是寡聚体底物,通常由多个核碱基残基组成。通过产生每探针两到二十个核碱基残基、通常每探针2-10个和通常2、3、4、5或6个核碱基残基的组合型文库,产生可用作S-mer合成的反应物的探针多聚体文库。
S-mer探针用于S-多聚体的模板依赖性组装。基元具有种类特异性变异。子链的每个特定亚单位通过模板指导的方法选自基元文库,且其探针结合于模板链上互补核苷酸的相应序列。采用这种方法,探针核碱基残基的序列形成靶模板链的连续、互补拷贝。
图6B显示双链S-多聚体的第i个亚单位,其中i表示m个亚单位的链,其中i=1、2...到m,其中m>10,通常m>30,和通常m>100或m>1000。掺入后该亚单位包括S-mer,用P和C部分以及部分靶模板表示,该部分靶模板用P′表示,S-mer探针与其具有互补匹配。图6C显示通过变性分离模板靶标后,单链S-多聚体的亚单位。如上所述,如果直接测量双链体(图6B),变性是任选的。
图6B和6C中的括号表示多聚体产物的亚单位,其中每个亚单位是具有种类特异性探针成员的亚单位基元,此外其中所述亚单位基元的所述探针成员P与模板链部分P′的相应连续核苷酸序列依次互补,并形成S-多聚体的初级主链。报道构建体将编码P内核苷酸序列的一部分(和通过互补性P′的一部分)。使用该编码的信息确定探针长度内某些位置的一个或更多个碱基。
在一些实施方案中,S-多聚体组装后,S-mers具有供报道构建体连接或完成的键。多种键种类可以连接种类特异性报道分子以保留碱基信息,或碱基信息可以由键的数目编码并由报道分子密度确定。接头基团可以选自广泛的商品化供应的合适的化学物质(Pierce,Thermo FisherScientific,USA)并适用于该目的。常见的接头化学物质包括,例如,带有胺的NHS-酯,带有巯基的马来酰亚胺,带有胺的亚氨酸酯,用于和胺反应的带有羧基的EDC,带有巯基的二硫吡啶等。其他实施方案包括使用如酰肼(HZ)的功能基团和4-甲酰基苯甲酸酯(4FB),其可以进一步反应形成键。更具体来说,各种各样的交联剂(异和同双功能的)被广泛提供(Pierce),其包括但不限于硫代-SMCC(硫代琥珀酰亚胺基4-[N-马来酰亚胺甲基]环己烷-1-羧酸酯)、SIA(N-琥珀酰亚胺基碘醋酸酯)、硫代-EMCS([N-e-马来酰亚胺基己酰氧基]硫代琥珀酰亚胺酯)、硫代-GMBS(N-[g-马来酰亚胺丁酰氧基]硫代琥珀酰亚胺酯)、AMAS N-(a-马来酰亚胺基乙酰氧基)琥珀酰亚胺酯)、BMPS(NEMCA(N-e-马来酰亚胺基己酸)-[β-马来酰亚胺基丙氧基]琥珀酰亚胺酯)、EDC(1-乙基-3-[3-二甲基氨丙基]盐酸碳二亚胺)、SANPAH(N-琥珀酰亚胺基-6-[4’-叠氮基-2’-硝基苯氨]己酸酯)、SADP(N-琥珀酰亚胺基(4-叠氮苯基)-1,3’-二硫代丙酸酯)、PMPI(N-[p-马来酰亚胺基苯基]异氰酸酯、BMPH(N-[β-马来酰亚胺基丙酸]酰肼,三氟醋酸盐)anate)、EMCH([N-e-马来酰亚胺基己酸]酰肼,三氟醋酸盐)、SANH(琥珀酰亚胺基4-肼基烟酸丙酮腙)、SHTH(琥珀酰亚胺基4-酰肼基对苯二甲酸酯盐酸盐),以及C6-SFB(C6-琥珀酰亚胺基4-甲酰基苯甲酸酯)。此外,Letsinger等公开的方法(“Phosphorothioate oligonucleotideshaving modified intemucleoside linkages”,美国专利6242589号)可用于形成硫代磷酸酯键。
如上所述的报道分子种类特异性连结的另一替代方法是使用种类特异性连续保护/脱保护化学物质来连接正确的报道分子。得到充分验证的保护/脱保护化学物质广泛用于常见的接头部分(Benoiton,“Chemistry ofPeptide Synthesis”,CRC Press,2005)。氨基保护包括但不限于,9-芴基甲基氨基甲酸酯(Fmoc-NRR′)、t-氨基甲酸丁酯(Boc-NRR′)、氨基甲酸苄酯(Z-NRR′,Cbz-NRR′)、乙酰胺三氟乙酰胺、苯邻二甲酰亚胺、苯甲基胺(Bn-NRR′)、三苯甲胺(Tr-NRR′)以及苯亚甲基胺p-甲苯磺酰胺(Ts-NRR′)。羧基保护基包括但不限于,甲酯、t-丁基酯、苯甲基酯、S-t-丁基酯以及2-烷基-1,3-恶唑啉。羰基包括但不限于,二甲基乙缩醛1,3-二噁烷和1,3-二噻烷N,N-二甲基腙。羟基保护基包括但不限于,甲氧基甲醚(MOM-OR)、四氢吡喃醚(THP-OR)、t-丁醚、烯丙醚、二苄醚(Bn-OR)、t-丁基二甲基甲硅烷醚(TBDMS-OR)、t-丁基二苯甲硅烷醚(TBDPS-OR)、醋酸酯、特戊酸酯以及安息香酸酯。
尽管将报道构建体经常描绘为与探针具有单个栓键,它也可以具有多个栓或可以掺入探针自身。报道构建体可以包括支架,一个或更多个报道分子与该支架连接。编码信息的一些方法包括排列报道分子,以便按照连续或分离的方式改变报道分子的数目,改变报道分子的类型或使用方法的组合,提供可以检测的形状或维数(dimensionality)。报道分子键可以包括一个或不同的化学物质以连接一个或更多个不同的三个报道基团,以便在S-多聚体主链组装后可以连接报道分子。
根据检测过程的要求,可以测量双链体形式的S-多聚体。可选地,它们可以被变性成单链形式。解离模板链的方法包括热变性或化学降解。S-多聚体产物链含有多个亚单位i,其中i表示组成子链的m个亚单位链中第i个亚单位,其中i=1、2、3到m,其中m>10,m>30,m>100或m>1000。
在另一实施方案中,公开了组装产物S-多聚体的基于聚合酶的方法。在这种情况下,如果适当,对于涉及聚合酶的反应,选择末端基团R1和R2是5′-三磷酸和3′-OH。通常,聚合酶底物是单核苷酸,但聚合酶还可以按照Kless在美国专利号7,060,440中所公开的引物依赖性的持续方法,以有效和保真的水平掺入二核苷酸、三核苷酸和四核苷酸三磷酸寡核苷酸。合适聚合酶的选择属于优化实验方案过程的一部分。
在图7所示实例中,通过通用发夹引物(704)进行末端改造,制备引发的模板链(701)。在为模板指导的聚合而优化的条件下,将含有引发的模板链的反应混合物与S-mers文库(710)和聚合酶(P)接触。在此,在步骤1中,聚合酶开始逐渐向模板链添加S-mers,如S-mer(712)所示。这种过程在步骤II和III中继续,如S-mers(713、714、715、716)的添加所示。所添加的每个探针亚单位(S-mer)是通过特异性结合模板后一相邻寡聚体而选择的特定种类,以便形成模板的连续互补拷贝。尽管不受理论约束,但是聚合酶被认为帮助确保添加到新生链的引入探针种类是与模板的后一可用的连续部分特异性互补的。Loeb和Patel描述了活性增加并且保真度提高的突变DNA聚合酶(美国专利号6,329,178)。例如,Williams在美国专利申请2007/0048748中证明,可以修饰聚合酶,用于增加掺入速度并且降低错误率,显然将连接错误率不是与杂交准确性而是与聚合酶持续性联系起来。步骤III产生完整的双链S-多聚体(720)。
在该实施方案中,S-mers被持续聚合,延伸、交联、末端活化、利高严紧性清洗步骤,通常与通过合成法的循环测序有关,用该方法可选地去除所述步骤。因此反应可以在溶液中进行。为了解析基因组模板以有利于组装后、二级结构减少、纯化、过程中反应物修饰或其他是目的,利用S-mers合成S-多聚体,还可以在固定的模板(在固体基质上、在多孔凝胶中等)上进行。此外,延伸模板以解除二级结构的方法也可轻易的适应于S-多聚体合成。
聚合酶包括但不限于,DNA依赖性DNA聚合酶、DNA依赖性RNA聚合酶、RNA依赖性DNA聚合酶、RNA依赖性RNA聚合酶、T7DNA聚合酶、T3DNA聚合酶、T4DNA聚合酶、T7RNA聚合酶、T3RNA聚合酶、SP6RNA聚合酶、DNA聚合酶I、克列诺片段、Thermophilusaquaticus DNA聚合酶、Tth DNA聚合酶、DNA聚合酶(NewEngland Biolabs)、Deep
Figure BPA00001162358200292
DNA聚合酶(New England Biolabs)、BstDNA聚合酶大片段、Stoeffel片段、9°N DNA聚合酶、9°N DNA聚合酶、Pfu DNA聚合酶、Tfl DNA聚合酶、Tth DNA聚合酶、RepliPHI Phi29聚合酶、Tli DNA聚合酶、真核DNA聚合酶β、端粒末端转移酶、TherminatorTM聚合酶(New England Biolabs)、KOD HiFiTM DNA聚合酶(Novagen)、KOD1DNA聚合酶、Q-beta复制酶、末端转移酶、AMV逆转录酶、M-MLV逆转录酶、Phi6逆转录酶、HIV-1逆转录酶、通过生物勘探发现的新聚合酶,以及在US 2007/0048748、US 6329178、US6602695和US 6395524(引入作为参考)中引用的聚合酶。这些聚合酶包括野生型、突变同种型和遗传改造的变体。
酶促连接的相似替代法是化学连接。对于选择性反应的S-mer的R1和R2末端基团,S-mers形成S-多聚体的化学连接使用化学功能基团。在合适的条件下,通过在靶DNA上的模板依赖性杂交邻接并稳定某些最少时间的S-mers将偶联。用于这种化学偶联法的偶联化学物质是本领域技术人员已知的,包括,例如,Burgin等人在美国专利号6,951,720中公开的技术。探针化学连接的方法描述于专利申请PCT/US2008/067507号中,它应用于使用X探针或Xmers的多聚体产物的模板依赖性合成。这些方法可以轻易适应于使用S-mers的S-多聚体产物的合成。
专利申请PCT/US2008/067507号中还描述了酶促聚合酶、酶促连接和化学连接法的不同实施方式的进一步说明。这些可轻易适应于使用S-mers的S-多聚体合成的应用。可以改造的方法变化包括固体底物以及合成的游离溶液法,引发方法和非引发的合成法(“混杂连接(promiscuousligation)”)。根据该参考文献可以改造其他辅助技术,如减少二级结构的方法。
下面提供合成技术的概述,其从探针末端基团、探针寡聚体开始,最后是报道构建体。如先前所述,S-mers是带有末端基团R1和R2的寡核苷酸探针,所述基团适应于酶促聚合、酶促连接或化学连接。
可以使用长度为n(n=2、3、4...20)的栓修饰寡核苷酸三磷酸作为底物,用于基于聚合酶掺入S-多聚体。各种方法可以用于5′三磷酸S-mers的有效合成。如Burgess和Cook(“Syntheses of Nucleoside Triphosphates”,Chem.Rev.100(6):2047-2060,2000)所述,这些方法包括但不限于使用核苷亚磷酰胺的反应,通过焦磷酸对活化的核苷单磷酸的亲核攻击的合成,通过磷酸对活化的核苷焦磷酸的亲核攻击的合成,通过二磷酸对活化的磷酸合成单体的亲核攻击的合成,涉及源自核苷的活化的亚磷酸或亚磷酰胺的合成,涉及通过三磷酸亲核物对5′-O-离去基团直接取代的合成,以及生物催化法。产生适合聚合酶的二核苷酸底物的典型方法使用N-甲基咪唑活化5′单磷酸基团;随后与焦磷酸(三丁基铵盐)反应产生三磷酸盐(Abramova et al.,“A facile and effective synthesis of dinucleotide 5’-triphosphates”,Bioorganic and Med,Chem,15,6549-6555,2007)。
SSP方法通过模板指导的合成,通常是选自杂交、连接、聚合以及S-mers化学交联的的方法或方法组合,来组装靶核酸的复制物,其与编码碱基准确互补并沿靶的纵向维持碱基到碱基的间隔。为了该目的,提供S-mers作为反应物文库(例如,作为测序试剂盒的一部分)。实际上文库通常是组合的,含有经选择与任何或全部互补序列特异性结合的探针成员,所述互补序列如将在靶多核苷酸中发现的序列。用于该目的的文库需要的探针数目是探针大小和掺入的核碱基类型的函数。每个探针可以与模板中一个或更多个序列片段互补,必须存在种类足够的探针成员以形成与靶多核苷酸序列片段的连续互补物。使用标准碱基A、T、C和G,作为二聚体的探针具有16种可能的类型组合,作为三聚体的探针具有64种可能的类型等。S-mers只编码部分探针碱基信息,对于未被编码的那些碱基来说可以使用通用碱基。通用碱基与差别很小的天然DNA/RNA碱基中的每一种形成“碱基对”(Loakes,D.,“Survey andSummary:The applications of universal DNA base analogues,”Nucleic AcidsResearch 29(12):2437-2447,2001)。因此通用碱基的使用降低文库的规模。例如,只编码5′末端碱基的四聚体探针可以按如下设计:对于5′末端位置来说使用天然碱基,其他3′位置使用通用碱基,以便将文库规模从64降低到4。S-mers只需要碱基对的高保真匹配,S-mer编码所述碱基对的信息。因为其局部活性,酶促碱基校对特性有利于这种应用。例如,连接酶在其活性位点只以高效率连接匹配的碱基。可以包括通用碱基的长探针的酶促连接将只依赖于其活性区附近的一个或几个碱基的保真度。如果用于编码的碱基位于连接酶活性位点,只有高保真匹配的S-mer探针将被掺入S-多聚体。对于最多长约8个碱基的更小S-mer探针来说,常规碱基的使用可以产生规模合理的文库。因为动力学和临界密度的原因,更大的S-mer探针可能需要使用通用碱基以保持文库规模足够小。
S-mer的探针部分是修饰的寡核苷酸碱基,其具有X个脱氧核糖核苷酸、糖核苷酸或更常见的核碱基残基的链(其中X可以是2、3、4、5、6或更多)。在这些讨论中,长度为2、3、4、5或6个核碱基残基的探针分别称为2mer、3mer、4mer、5mer或6mer。
S-mer反应物可以利用以下物质合成:5′-3′磷酸二酯主链,具有核苷酸A、T、G和C的探针(结构显示于图8的表格中),或其他杂交的核酸类似物,诸如具有肽主链、膦酰基-肽主链、丝氨酸主链、羟脯氨酸主链、混合的肽-膦酰基-肽主链、混合的肽-羟脯氨酸主链、混合的羟脯氨酸-膦酰基-肽主链、混合的丝氨酸-膦酰基-肽主链、苏糖主链、乙二醇主链、吗啉代-主链等的那些类似物,如本领域已知的。脱氧核糖核酸寡聚体和核糖核酸寡聚体,以及两者的混合寡聚体,也可以用做探针。其他碱基还可以被取代,诸如尿嘧啶取代胸苷,和肌苷取代简并碱基。还可以使用具有互补性的核碱基的片段化残基。本领域已知可以使用的其他通用、简并和/或摆动碱基包括但不限于,黄嘌呤、次黄嘌呤,或杂环衍生物,类似物,或黄嘌呤和次黄嘌呤的互变异构体,8-氮杂嘌呤,第8位用甲基或溴取代的嘌呤,9-氧代-N6-甲基腺嘌呤,2-氨基腺嘌呤,7-去氮黄嘌呤,7-去氮鸟嘌呤,7-去氮腺嘌呤,N4-桥亚乙基胞嘧啶,2,6-二氨基嘌呤,N6-桥亚乙基-2,6-二氨基嘌呤,5-甲基胞嘧啶,5-(C3-C6)-炔基胞嘧啶,5-氟尿嘧啶,5-溴尿嘧啶,硫尿嘧啶,2-羟基-5-甲基-4-三唑吡啶,异胞嘧啶,假异胞嘧啶,异鸟嘌呤,7,8-二甲基咯嗪,6-二氢胸腺嘧啶,5,6-二氢尿嘧啶,4-甲基吲哚,亚乙烯腺嘌呤以及在美国专利号5,432,272和6,150,510号、公开的PCTs WO 92/002258、WO 93/10820、WO 94/22892和WO 94/22144,和在Fasman,Practical Handbook of Biochemistry andMolecular Biology,pp.385-394,CRC Press,Boca Raton,LA,1989中描述的核碱基。
存在报道构建体的替代设计。一种设计使报道构建体嵌入探针自身。在这种情况下编码碱基信息(并被检测)的报道分子特征被整合入探针。这种的实例如上所述,其中S-mer探针具有4个碱基,5′末端碱基是A、C、T或G,剩余的3个是通用碱基。在这种情况下,碱基自身传递信息,通用碱基提供用于检测其的间隔。受益于这类S-mer探针的S-多聚体的一种典型检测方法是纳米孔中的横向贯穿(tunneling),其中混杂的碱基与碱基变异将被减少。另一报道构建体的实例是上一实例的改变,其中对于A、C、T或G中的每一个,可以分别使用不同的通用碱基。在这种情况下选择各种通用碱基类型,以便它具有一些使其与其他碱基进一步区分的特征,诸如大小、电子密度、形状或容量。在这种报道构建体设计类型中,模板依赖性S-多聚体合成的酶促方法要求探针(和整合的报道构建体)被识别为底物。
在另一报道构建体设计类型中,报道构建体通过一个或更多个栓与探针连接。这是有益的,因为酶只需要识别探针底物而不受空间抑制,因此提供更好的报道分子设计灵活性。下列合成法描述了这类报道构建体设计。通常S-mer具有与探针连接的单个栓的单个报道构建体,但应理解具有与探针连接的一个或多个栓的多个报道分子构建体也是本发明范围内的简单延伸。这些变化可能具有其他利益诸如相对于探针稳定报道构建体方向或提供更有效的多路编码。
如本领域所知,可以将寡聚体设计成包括核苷酸稀释剂。在一些实施方案中,这些作为报道构建体栓的连接点。适于合成衍生的寡聚体的嘌呤和嘧啶衍生物是本领域公知的。两种这类典型的修饰的碱基显示于图9A和9B,其中描述了5-氨基修饰的胞嘧啶衍生物和8-氨基修饰的鸟嘌呤残基。
如图10A和10B所示,以4mer探针举例来说(此处显示为5′-单磷酸),寡聚体上4个碱基位置的任意一个都可以通过已知的化学物质进行修饰以产生栓连接点。探针残基2处的修饰的核苷酸在图10A中显示。该图显示带有与探针的鸟嘌呤连接的氨基接头的4mer寡聚体。图10B显示带有与鸟嘌呤连接的苯甲醛功能基团的4mer探针。可以使用为所有4种核苷酸而商品化供应的氨基修饰剂C6亚磷酰胺(Glen Research,USA)进行这些接头的合成。通过进一步的亚磷酰胺修饰或寡核苷酸组装后接头修饰开发选择性的接头诸如苯甲醛修饰的核苷酸。HPLC或其他大小和/或亲和纯化可用于富集正确组装的S-mers。
细节是为了说明本领域公知的的方法。为简单起见,此处提供的大部分图解将假定为4mers,除非另作说明,但应清楚其他S-mer文库或文库组合可用于本法明的实施。
在其他实施方案中,底物的磷酸二酯主链可以被修饰产生栓的如以下所公开的连接点Cook et al.(“Oligonucleotides with novel,cationicbackbone substituents:aminoethylphosphonates”,Nucleic Acids Research22(24):5416-5424,1994)、Agrawal et al.(“Site specific functionalization ofoligonucleotides for attaching two different reporter groups”,Nucleic AcidsResearch 18(18):5419-5423,1990)、De Mesmaeker et al.(“Amide backbonemodifications for antisense oligonucleotides carrying potential intercalatingsubstituents:Influence on the thermodynamic stability of the correspondingduplexes with RNA-and DNA-complements”,Bioorganic&MedicinalChemistry Letters 7(14):1869-1874,1997)、Shaw et al.(Boranophosphates asmimics of natural phosphodiesters in DNA”,Curr Med Chem.8(10):1147-55,2001),Cook et al.(U.S.Pat.No.5378825)和Agrawal(“Functionalization ofOligonucleotides with Amino Groups and Attachment of Amino SpecificReporter Groups”,Methods in Molecular Biology,Vol.26,1994)。可以用核碱基类似物取代组成探针成员的核碱基残基以改变S-mer的功能性。例如,锁核酸(“LNA”)可用于增加探针双链体稳定性。如果预期S-mer的化学偶联(而不是酶促连接),探针5′和3′末端可以进一步被衍生化以允许化学交联。
可以通过各种多聚体化学物质制备报道构建体及其栓,其使用和合成将在此进行更详细的描述。报道构建体是报道分子密码(其实质上是生物信息学和数字的)的物理表现。报道分子密码编码与探针或核碱基序列片段有关的遗传信息,报道构建体及其栓与所述探针或核碱基序列连接。通过设计,只有部分序列信息被编码,以便为更大的报道分子结构提供空间并降低检测器的分辨率要求。通过调整组成报道分子的空间分离、丰度和信号强度,可以设计报道构建体以优化报道分子密码的检测能力。通常存在带有单个信号实体的单个报道构建体,但可以设计位于一个S-mer上的多个空间分离的报道构建体。栓必须足够长以免抑制酶活性,但也应足够短使得相邻的报道构建体重叠是最少的。报道构建体可以掺入大量的信号和结构元件,包括但不限于,多聚体、树状聚体、珠子、适体、配体、寡聚体、分枝多聚体、纳米颗粒和纳米晶体,以及可用合适的检测技术检测的报道化学物质和报道分子。通过共价或通过亲和指导的结合,可以在S-多聚体主链组装之前或之后引入碱基特异性标记(通过连接到报道构建体)。这些报道构建体可由各种多聚体化学物质制备,并在下文进行了进一步描述。
在一个实施方案中,报道构建体通过多聚体栓与探针或核碱基连接。栓可以由一个或更多个持久的水溶性或溶剂聚合物构成,其包括但不限于下列部分:聚乙二醇,聚乙二醇,聚吡啶,聚异腈,聚异氰酸酯,聚(三芳甲基)异丁烯酸酯,聚醛,聚吡咯啉,聚脲,聚乙二醇磷酸二酯,聚丙烯酸酯,聚甲基丙烯酸酯,聚丙烯酰胺,聚乙烯酯,聚苯乙烯,聚酰胺,聚氨基甲酸酯,聚碳酸酯,聚丁酸酯,聚丁二烯,聚丁内酯,聚吡咯烷酮,聚乙烯膦酸酯,聚乙酰胺,多糖,透明质酸酯,聚酰胺,聚酰亚胺,聚酯,聚乙烯,聚丙烯,聚苯乙烯,聚碳酸酯,聚对苯二甲酸酯,聚硅烷,聚氨基甲酸酯,聚醚,聚氨基酸,聚甘氨酸,聚脯氨酸,N取代的聚赖氨酸,多肽,侧链N取代的肽,聚N取代的甘氨酸,拟肽,侧链羧基取代的肽,同源肽,寡核苷酸,核糖核酸寡核苷酸,脱氧核酸寡核苷酸,经修饰以防止Watson-Crick碱基配对的寡核苷酸,寡核苷酸类似物,聚胞苷酸,聚腺苷酸,聚尿苷酸,聚胸苷,聚磷酸酯,多核苷酸,多核糖核苷酸,聚乙二醇-磷酸二酯,肽多核苷酸类似物,苏氨酰基多核苷酸类似物,乙二醇-多核苷酸类似物,吗啉代-多核苷酸类似物,锁核苷酸寡聚体类似物,多肽类似物,分枝的聚合物,梳形聚合物,星形聚合物,树状聚合物,随机梯度和嵌段共聚物,阴离子聚合物,阳离子聚合物,形成聚合物的茎-环,刚性片段和柔性片段。这类多聚体可以在S-mer上的两个连接点环化以进一步限制报道构建体。
聚乙二醇(PEG)、聚环氧乙烷(PEO)、甲氧基聚乙二醇(mPEG)和各种各样类似构建的PEG衍生物(PEGs)是广泛可用的多聚体,它们可用于实施本发明。改造的PEGs与各种双功能和异双功能末端交联剂一起使用,并可以合成为各种长度。PEGs通常可溶于水、甲醇、苯、二氯甲烷和许多常见的有机溶剂。PEGs通常是柔性多聚体,它们通常不与生化制品非特异性的相互作用。图11A表示PEG的结构,图11B图示PEG栓与探针在一端(用黑色方块表示)连接,并在另一端(用箭头表示)具有连接报道分子或报道构建体的接头。
可以用做栓并为报道分子提供“支架”的其他多聚体包括,例如,聚甘氨酸、聚脯氨酸、聚羟脯氨酸、聚半胱氨酸、聚丝氨酸、聚天门冬氨酸、聚谷氨酸等。可以使用侧链功能性构建富功能基团的支架以便增加信号容量和复杂性。
图12A表示聚赖氨酸的结构。在图12B所示的报道构建体中,聚赖氨酸栓部分产生用于报道分子连接的支架,且赖氨酸侧链的ε-氨基(用箭头表示)提供用于将多个报道元件连接到S-mer的功能性。图12C是显示分枝支架(报道分子连接点用箭头表示)诸如星爆树状聚体(starburstdendrimer)的示意图。
考虑到SSP方法的灵活性,大量报道分子可用于产生独特的可测量的信号。可以使用大量现有的结构特性构建连接报道分子部分的报道构建体支架,所述结构特性包括但不限于树状聚体,珠子,多聚体,和纳米颗粒。根据编码方案,对于每个栓的报道分子密码来说,可以使用一个或众多明确分离的报道分子支架。直接或间接将报道分子部分连接到报道分子支架的任何数量的选择都是可用的,包括(但不限于):整合于栓构建体的化学反应性多聚体的报道分子编码;整合于栓主链的树状聚体的化学反应性表面基团的报道分子编码;和与栓连接的珠子上化学反应性表面基团的报道分子编码。在这方面,“珠子”被泛泛的表示任何结晶、聚合物、胶乳或复合颗粒或微球。
在对报道构建体自身进行纯化去除不完整或破碎的反应产物后,构建体可以通过其接头与探针直接偶联。如同多聚体合成的所有方法一样,在S-mer合成和组装完成后进行纯化(大小、亲和性、HPLC、电泳等),以确保高纯度的活性产物。
还可以通过使用未标记的栓实现降低S-mer的大小和质量。通过去除大的报道分子(和报道分子支架诸如树状聚体,对于一些编码实施方案来说,其构成超过栓质量的90%),可以增强杂交和/或偶联动力学。然后可以使用组装后栓标记。报道分子与一个或更多个连接化学物质结合,它们被置于栓上编码碱基序列信息。在一个实施方案中,化学物质以4种可能的状态置于栓上,被用于S-mer文库以鉴定4种编码的碱基类型。在S-多聚体组装后,连接将传递编码的碱基信息的报道分子。
许多策略可用于以物理方式表示编码的碱基信息,但必须考虑实际限制。S-多聚体是S-mers的连续连接,其中每个S-mer都携带报道构建体。这意味着用于读取S-多聚体的检测方法必须至少能够解析报道构建体,所述报道构建体是分离的S-mer长度,S。这还表示,报道构建体自身的大小通常具有等于或小于S的大小。
通常S-mers将编码1个碱基。编码更多或更少信息诸如2个碱基或1bit也是可能的。1bit(比特)碱基信息的实例是2种状态:(A或C),(T或G)。通常单个报道构建体具有单个空间上可解析的信号。在单个空间可解析信号中编码1个碱基类型A、C、T或G需要至少4种状态。许多不同的报道构建体可以编码4种状态。下文描述了数种不同的实例以及相关的检测技术。
S-多聚体可以通过多种技术进行标记和测量。SSP方法的大量数据输出能力与纳米孔检测阵列或其他纳米解析技术非常吻合。
纳米孔检测是基于Coulter计数法。图13显示S-多聚体通过合成的纳米孔。纳米孔的直径为2-15nm,长1-10nm。两个槽,A和B,充满含有高浓度电解质(通常是1M KCl)的导电溶液并且是流动性的,从而通过纳米孔以导电的方式相连。通过在槽之间施加电势,电流穿过纳米孔,位于纳米孔内的任何分子构建体调节电流。此外,施加的电势通过电泳或电渗透方式驱动分子构建体通过纳米孔。S-多聚体报道构建体可以采用这种方式通过纳米孔并得到测量。纳米孔通道内残留的S-多聚体的一部分产生不同的电流特征。为了实现良好分辨率,报道构建体必须接近纳米孔的相同长度或比纳米孔更长。纳米孔内残留的带电多聚体的分布合数量调节电解质类型电流和移动速度。
一个实施方案将S-多聚体的平均电荷密度设计成类似于天然DNA的。在这种情况下向槽A溶液中添加带负电荷的S-多聚体。在这个实例中,将报道构建体设计成能产生5种水平的阻抗,从而产生纳米孔检测器所测量的5种电流水平。这些包括单独由S-多聚体主链造成的基线水平以及由S-多聚体主链上4种不同报道构建体引起的4种水平。当S-多聚体通过纳米孔时,每个报道构建体按照对应于编码碱基信息的特定水平阻断电流。图4是这种输出的图解。
可以使用图12B所示类型的聚赖氨酸支架设计4种报道构建体,所述支架与4种不同长度的线性肽偶联。偶联的肽,诸如聚谷氨酸,是刷状多聚体上的“刚毛(bristles)”,根据带电特性选择以增强纳米孔内的电流阻断。由于肽的长度,4种报道构建体的每一个都对纳米孔各表现出不同的电荷阻断截面。
已经证明,通过监测电流阻断,Coulter计数式纳米孔检测器能够解析其通道内多达5条ds-DNA链(Storm,A.J.et al.,“Translocation ofdouble-strand DNA through a silicon oxide nanopore,”Physical Review.E,Statistical,Nonlinear,and Soft Matter Physics 71(5Pt 1):051903,2005)。纳米孔还解析了牛血清白蛋白中的单个蛋白(Fologea,D.et al.,“Electricalcharacteristics of protein molecules by a solid-state nanopore,”AppliedPhysics Letters 91(5):053901-3,2007)。这时候,天然DNA的单个碱基还没有被连续解析。通过纳米孔的基于多聚体的检测在例如美国专利6,465,193号和7,060,507号中有描述,且证明多聚体的物理参数调节来自纳米孔的电输出。
在基于纳米孔的检测仪器(图14)的另一实施方案中,在如上所述的槽A和B之间施加电势,以控制S-多聚体移动;但是,添加另一电路用于测量。使用连接在纳米孔的侧电极测量穿过纳米孔口的阻抗或电导率。还可以以这种方式中进行其他测量,诸如电容或其他电共振(electroresonant)效果。这种设计具有以下优点:将移动功能与电流测量功能分离。当传递S-多聚体通过纳米孔时,再次测量电流调节。(Lagerqvist,J.et al.,“Influence of the environment and probes on rapid DNA sequencingvia transverse electronic transport,”Biophys.J.106:102269,2007).
使用微流体和微量吸管技术,以及拖拽标签(drag tab)、磁珠、电泳延伸技术等,以便控制和传递S-多聚体通过纳米孔。例如,末端标记的自由溶液电泳,也称为ELFSE,是打破自由穿流DNA(free-draining DNA)的电荷与摩擦平衡的方法,所述自由穿流DNA可用于自由溶液S-多聚体电泳(Slater et al.,“End-labeled free-solution electrophoresis of DNA”,Electrophoresis 26:331-350,2005)。
已经完全建立束缚(tethering)、延伸、标记和测量大DNA片段的方法(Schwartz et al.,“A single-molecule barcoding system using nanoslits forDNA analysis”,PNAS,104(8):2673-2678,2007;以及Blanch et al.,“Electrokinetic Stretching of Tethered DNA”,Biophysical Journal 85:2539-2546,2003)。但是,用于天然核酸全基因组测序目的的单核碱基分辨率超出了这些技术的能力。这些技术适用于“单分子”检测方法的S-多聚体制备。
通过电子显微镜术对大DNA分子进行检测和分析,已经完全建立(Montoliu et al.,“Visualization of large DNA molecules by electronmicroscopy with polyamines:application to the analysis of yeast endogenousand artificial chromosomes”,J.Mol.Bio.246(4):486-92,1995),但是,因为高信息处理要求,应用这些方法对多核苷酸进行精确和高通量测序是困难的。在图15中,透射(TEM)被显示用于S-多聚体的检测。此处使用聚焦电子束扫描S-多聚体,所述聚焦电子束通常在表面上又是平的。聚焦的电子束反射和散射模式也适用于S-多聚体检测。S-多聚体上报道构建体结构的情况用于解码主链上的遗传信息。样品固定和溅射镀膜技术,能够对分子的单个特征和原子大小特征进行成像,可以用来增强检测。
也可以使用纳米电极门控的电子隧道电导光谱法,其中两个纳米电极尖端之间隧道电子束受所述尖端之间S-多聚体运输的调节(Lee et al.,“Nanoelectrode-Gated Detection of Individual Molecules with Potential forRapid DNA Sequencing”,Solid State Phenomena 121-123:1379-1386,2007)。S-多聚体通过其筛选传导效应干扰隧道电流,所述筛选传导效应可以通过利用合适的报道分子针对天然DNA放大。这种技术具有下列优点:避免了样品固定和对真空的要求,并且在理论上,可以使用电极门的大规模平行阵列平行读取许多S-多聚体。
在图16中,显示原子力显微镜术。在简单的实施方案中,固定在灵敏支架上的纳米管扫过表面,位于探针和样品表面之间的吸引力和排斥力被转换为扫描表面的拓扑图像。该技术可以实现非常高的分辨率,但扫描速度相对较慢(M.Miles,Science 277,1845-1847(1997))。扫描隧道电子显微镜术(STM)是用于表面成像的相关技术;但是探针不接触表面而是测量表面和探针之间的隧道电流。此处可以将S-多聚体平放于表面,然后用探针尖端进行物理扫描。
根据测量S-多聚体产生的序列数据片段被称为“读取(read)”。SSP序列读取,适合于包括规则的间隔缺口,匹配模板的连续碱基信息(假定没有翻译错误)。使用S-mer大小和S-mer内的编码的碱基位置确定这些缺口的大小并定位。在图17中,例如,显示S-多聚体的一部分,与靶模板形成双链体,所述S-多聚体是由编码单个碱基的四聚体S-mers合成的。该图中显示的读取部分是...CAAT...,且在各个碱基间插入3个间隔区(显示为“x x x”)形成间隔读取...CxxxAxxxAxxxT...。“间隔读取”是通过添加合适的间隔进行调整的读取,并解释未编码的序列的S-mer缺口。间隔读取现在可以与参照或其他序列进行比对(如图17底部所示)。如果每个S-mer中编码超过1个碱基,然后向读取序列添加间隔区以反映S-mer探针结构并形成间隔读取。应当注意到,在这种情况下,S-mer的读框需要与读取序列同步,否则得到的间隔读取将是不正确的。可以确定从读取末端开始的S-mer位置来实现同步。可选地,可以考虑所有位置,但只选择与剩余数据最佳拟合。SSP测序的应用包括但不限于,重测序(resequencing)、从头测序(de novo sequencing)和基因组指纹分析。
对于重测序应用,可以使用公开的人基因组参照序列(或其他参照序列),例如,作为辅助组合间隔读取的比对工具。在该方法中,改变常规匹配技术以容纳缺口,将间隔读取与参照进行比对。这种序列重建方法的保真度要求S-多聚体的准确依次检测,以及对应于靶DNA的S-多聚体的准确复制。按照与重测序类似的方式,通过使用常规读取组装技术可以进行靶DNA的从头重建,所述常规读取组装技术经调节容纳读取序列缺口。在这种应用中,因为不存在可以比对的参照序列,将读取彼此匹配直至组装出共有序列的簇(称为重叠群(contigs))。通常,这种方法可以产生重叠群的家族,当适当交错时,该家族提供一部分靶模板的连续碱基序列。对于一些SSP产物来说,因为其规则的缺口间隔,这些重叠群家族没有序列重叠。这类似于奇偶数如何不会重叠,但是当适当交错时,它们形成整数序列。将一个重叠群与下一重叠群交错并正确定位,需要其他的序列数据。在另一应用中,可以使用长的SSP读取作为组装来自其他测序技术的短序列读取的参照支架。提供序列读取的正确交错的另一方法是,使用滚环聚合制备用于S-多聚体合成的引发的DNA(例如,图3A中步骤I-III的替代)。该引发的DNA链由串联的亲本DNA模板的多个相同复制物(此处称为“复制单位”)组成。图18描述了这种DNA制备法的实例。从样品纯化双链DNA,将其片段化(通常1k-5k的碱基片段),然后末端钝化。
在图18的步骤I中,将靶DNA片段(181)与双链接头寡聚体连接,形成环化的靶构建体(182)。在步骤II中,通用的发夹引物(184)与位于单链环化靶标的接头部分内的其互补物杂交。在步骤III中,添加链取代聚合酶反应混合物。进行聚合酶延伸并从通用引物延伸。在步骤IV中,聚合酶P在环化的模板周围延伸新生的3′末端,并通过取代通用引物继续第二次循环。步骤V显示连续滚环复制。当产物具有足够的平均长度时终止反应。在变性和纯化后,剩余的滚环产物具有一系列超过R的复制单位。复制单位是滚环延伸产物部分,其复制环化模板的一个环。纯化的产物是用于S-多聚体合成的引发的DNA。使用这种滚环产物的S-多聚体合成的连接实例类似于图3B所示的方法,且S-mer掺入从发夹的新生5′端开始。如果一种条件被满足,由编码单碱基的S-mers合成的S-多聚体将编码环化模板的全部序列。对于以碱基为单位的复制单位长度L,以碱基为单位的S-mer探针长度S和复制单位R的数目来说,所述条件可以是:L/S、2L/S...R*L/S的剩余部分包括数字0、1、2...S-1。通常当该条件被满足时,最小的R等于S。每个剩余部分等于移码(按碱基数),其发生在后续复制单位的S-mer位置,分别是第一、第二...第R复制单位。这进一步等于说S-mer位置的移码发生在每个复制单位后,并且在R复制单位后,这些移码造成S-多聚体中的S-mer具有相对于复制单位参照物的每个位置。举例来说,考虑用于产生约1000个碱基靶的S-多聚体的5个碱的基S-mer探针。忽略其他错误源,对于具有0、1、2、3或4个相等分布的剩余部分的的目标长度,当除以5(S=5),并且如果R等于或大于5,只有剩余部分为零的情况不会产生编码靶DNA完整序列的S-多聚体。
如上所述的应用适合于基因组指纹分析。该应用可用于病原体检测,例如,当使用病原体基因组序列的大型数据库匹配基因组样品序列时。如果发现样品序列与数据库中病原体序列统计上显著匹配,则在样品中发现病原体。如同上面的重测序应用中,SSP间隔序列读取可以再次与数据库直接匹配,以确定是否检测到病原体。
在此将在本说明书引用或在应用数据表(Application Data Sheet)中列举的所有美国专利、美国专利申请出版物、美国专利申请、国外专利、国外专利申请和非专利出版物(例如,期刊文献)的全文通过引用并入。可以组合上文所述的各种实施方案以提供其他实施方案,并且可以对实施方案的各个方面进行修改,必要时可以使用各个专利、申请和出版物的概念以另外提供其他实施方案。根据上面的详细说明可以对实施方案进行这些和其他变化。通常,在下列权利要求中,所用的术语不应解释为将权利要求限定到本说明书和权利要求书所公开的具体实施方案,而应当解释为,包括所有可能的实施方案以及此类权利要求享有权利的等同物的全部范围。因此,权利要求不受公开内容的限制。

Claims (44)

1.对靶核酸进行测序的方法,包括:
a)提供通过模板指导的合成产生的子链,所述子链包括在对应于所述靶核酸的全部或一部分的连续核苷酸序列的序列中偶联的多个亚单位,其中单个所述亚单位包括带有X个核碱基残基的探针和编码所述探针的Y个核碱基残基的报道构建体,X是大于1的正整数,Y是小于X的正整数,和;
b)检测所述报道构建体,以确定子链每X个核碱基中的Y个核碱基。
2.如权利要求1所述的方法,其中X是2-20。
3.如权利要求1所述的方法,其中X是3、4、5或6。
4.如权利要求1所述的方法,其中X是4。
5.如权利要求1所述的方法,其中Y是1或2。
6.如权利要求1所述的方法,其中Y是1。
7.如权利要求1所述的方法,其中X是4并且Y是1。
8.如权利要求1所述的方法,其中报道构建体通过共价栓与所述探针的至少一个核碱基残基连接。
9.如权利要求1所述的方法,其中报道构建体是所述探针的至少一个核碱基残基的组分。
10.如权利要求1所述的方法,其中所述子链由第二靶核酸形成,所述第二靶核酸通过进行靶核酸的滚环聚合酶延伸来制备。
11.如权利要求1所述的方法,其中所述带有X个核碱基残基的探针包括至少一个通用碱基。
12.如权利要求1所述的方法,其中所述子链的模板指导的合成包括酶促连接。
13.如权利要求1所述的方法,其中所述子链的模板指导的合成包括聚合酶反应。
14.如权利要求1所述的方法,其中所述子链的模板指导的合成包括化学连接。
15.如权利要求1所述的方法,其中所述子链的亚单位数目大于30。
16.如权利要求1所述的方法,其中所述子链的亚单位数目大于1000。
17.如权利要求1所述的方法,其中所述报道构建体的检测包括将所述子链通过纳米孔。
18.如权利要求1所述的方法,其中所述报道构建体的检测包括利用电子束的探测。
19.如权利要求1所述的方法,其中当检测所述报道构建体时,所述子链与所述靶核酸形成双链体。
20.如权利要求1所述的方法,其中当检测所述报道构建体时,所述子链不与所述靶核酸形成双链体。
21.如权利要求1所述的方法,其中所述子链由多个具有下列结构的构建体形成:
其中
R1和R2代表用于所述子链模板的合成的相同或不同的末端基团;
P代表带有X个核碱基残基的所述探针;和
C代表编码所述探针的Y个核酸基残基的所述报道构建体。
22.如权利要求21所述的方法,其中所述R1和R2单独地是羟基、氢、三磷酸、单磷酸或胺,或是酯、乙醚、乙二醇、酰胺或硫酯。
23.如权利要求21所述的方法,其中报道分子C通过共价栓与探针P的核碱基残基连接。
24.如权利要求23所述的方法,其中C包括多聚体、树状聚体、珠子、适体、配体、寡聚体、分枝多聚体、纳米颗粒和纳米晶体,或其混合物。
25.如权利要求21所述的方法,其中报道分子C是所述探针的核碱基残基,或是所述探针的核碱基残基的组分。
26.如权利要求21所述的方法,其中探针P包括3、4、5或6个核碱基残基。
27.如权利要求26所述的方法,其中报道分子C编码P核碱基残基中的1或2个。
28.如权利要求26所述的方法,其中报道分子C编码P核碱基残基中的1个。
29.如权利要求1所述的方法,其中所述子链具有下列结构:
Figure FPA00001162358100041
其中
P代表带有X个核碱基残基的所述探针;
C代表编码所述探针的Y个核碱基残基的所述报道构建体;和
i代表链m个亚单位的第i个亚单位。
30.如权利要求29所述的方法,其中m大于10。
31.如权利要求29所述的方法,其中m大于100。
32.如权利要求290所述的方法,其中m大于1000。
33.如权利要求1所述的方法,其中所述子链与靶核酸形成双链体并具有下列结构:
Figure FPA00001162358100042
其中
P代表含有X个核碱基残基的所述探针;
P′代表与P互补的模板链的X个核苷酸残基的连续核苷酸序列;
C代表编码所述探针的Y个核碱基残基的所述报道构建体;和
i代表链m个亚单位的第i个亚单位。
34.试剂盒,包括用于通过模板指导的合成形成子链的多种独特构建体和使用其的可选说明书,其中由所述模板指导的合成形成的所述子链包括在对应于靶核酸的全部或一部分的连续核苷酸序列的序列中偶联的多个亚单位,其中单个亚单位包括带有X个核碱基残基的探针和编码探针的Y个核碱基残基的报道构建体,其中多个构建体中的每一个是相同或不同的,并单独具有下列结构:
Figure FPA00001162358100051
其中
R1和R2代表用于所述子链的模板合成的相同或不同的末端基团;
P代表带有X个核碱基残基的所述探针,X是大于1的正整数;和
C代表编码所述探针的Y个核碱基残基的所述报道构建体,Y是小于X的正整数。
35.如权利要求34所述的试剂盒,其中所述R1和R2单独地是羟基、氢、三磷酸、单磷酸或胺,或是酯、乙醚、乙二醇、酰胺或硫酯。
36.如权利要求34所述的试剂盒,其中报道分子C通过共价栓与探针P的核碱基残基连接。
37.如权利要求34所述的试剂盒,其中C包括多聚体、树状聚体、珠子、适体、配体、寡聚体、分枝多聚体、纳米颗粒和纳米晶体,或其混合物。
38.如权利要求34所述的试剂盒,其中报道分子C是所述探针的核碱基残基,或是探针的核碱基残基的组分。
39.如权利要求34所述的试剂盒,其中探针P包括3、4、5或6个核碱基残基。
40.如权利要求34所述的试剂盒,其中报道分子C编码P核碱基残基中的1或2个。
41.如权利要求34所述的试剂盒,其中报道分子C编码P核碱基残基中的1个。
42.如权利要求34所述的试剂盒,其中独特构建体的数目范围是10到65000。
43.如权利要求34所述的试剂盒,其中独特构建体的数目范围是50到5000。
44.如权利要求34所述的试剂盒,其中独特构建体的数目范围是200到1200。
CN2008801224267A 2007-10-23 2008-10-23 通过间隔进行高通量核酸测序 Pending CN101910410A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US98191607P 2007-10-23 2007-10-23
US60/981,916 2007-10-23
US30507P 2007-10-25 2007-10-25
US61/000,305 2007-10-25
PCT/US2008/081025 WO2009055617A1 (en) 2007-10-23 2008-10-23 High throughput nucleic acid sequencing by spacing

Publications (1)

Publication Number Publication Date
CN101910410A true CN101910410A (zh) 2010-12-08

Family

ID=40580024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008801224267A Pending CN101910410A (zh) 2007-10-23 2008-10-23 通过间隔进行高通量核酸测序

Country Status (5)

Country Link
US (1) US8592182B2 (zh)
EP (1) EP2215259A1 (zh)
CN (1) CN101910410A (zh)
CA (1) CA2740973A1 (zh)
WO (1) WO2009055617A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102559667A (zh) * 2011-12-31 2012-07-11 浙江工业大学 脱氧次黄嘌呤在脱氧寡核苷酸链连接反应中的应用
CN108004131A (zh) * 2014-04-03 2018-05-08 意法半导体股份有限公司 用于基于纳米线探测器的核酸测序的设备和方法
CN110678559A (zh) * 2017-08-31 2020-01-10 深圳华大智造科技有限公司 一种核酸探针以及一种核酸测序方法
CN110691854A (zh) * 2017-10-25 2020-01-14 深圳华大生命科学研究院 一种核酸测序方法以及一种核酸测序试剂盒
CN110760574A (zh) * 2019-10-14 2020-02-07 芯盟科技有限公司 测定碱基的装置及方法

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101495656B (zh) 2006-06-07 2017-02-08 纽约哥伦比亚大学理事会 采用带修饰的核苷酸通过纳米通道进行dna序列测定
WO2009046094A1 (en) 2007-10-01 2009-04-09 Nabsys, Inc. Biopolymer sequencing by hybridization of probes to form ternary complexes and variable range alignment
CN102186989B (zh) 2008-09-03 2021-06-29 纳伯塞斯2.0有限责任公司 用于流体通道中生物分子和其它分析物的电压感测的纵向移位纳米级电极的使用
US9650668B2 (en) 2008-09-03 2017-05-16 Nabsys 2.0 Llc Use of longitudinally displaced nanoscale electrodes for voltage sensing of biomolecules and other analytes in fluidic channels
US8262879B2 (en) 2008-09-03 2012-09-11 Nabsys, Inc. Devices and methods for determining the length of biopolymers and distances between probes bound thereto
EP2391726B1 (en) 2009-01-29 2015-09-23 Stratos Genomics Inc. High throughput nucleic acid sequencing by expansion and related methods
US8455260B2 (en) 2009-03-27 2013-06-04 Massachusetts Institute Of Technology Tagged-fragment map assembly
US9605307B2 (en) 2010-02-08 2017-03-28 Genia Technologies, Inc. Systems and methods for forming a nanopore in a lipid bilayer
US8324914B2 (en) 2010-02-08 2012-12-04 Genia Technologies, Inc. Systems and methods for characterizing a molecule
US9678055B2 (en) 2010-02-08 2017-06-13 Genia Technologies, Inc. Methods for forming a nanopore in a lipid bilayer
US8586301B2 (en) 2010-06-30 2013-11-19 Stratos Genomics, Inc. Multiplexed identification of nucleic acid sequences
US8715933B2 (en) 2010-09-27 2014-05-06 Nabsys, Inc. Assay methods using nicking endonucleases
EP2640849B1 (en) 2010-11-16 2016-04-06 Nabsys 2.0 LLC Methods for sequencing a biomolecule by detecting relative positions of hybridized probes
US9121059B2 (en) 2010-12-22 2015-09-01 Genia Technologies, Inc. Nanopore-based single molecule characterization
US9581563B2 (en) 2011-01-24 2017-02-28 Genia Technologies, Inc. System for communicating information from an array of sensors
US9110478B2 (en) 2011-01-27 2015-08-18 Genia Technologies, Inc. Temperature regulation of measurement arrays
US11274341B2 (en) 2011-02-11 2022-03-15 NABsys, 2.0 LLC Assay methods using DNA binding proteins
US10260093B2 (en) 2011-11-02 2019-04-16 Genia Technologies, Inc. Systems and methods for determining genetic data
US8986629B2 (en) 2012-02-27 2015-03-24 Genia Technologies, Inc. Sensor circuit for controlling, detecting, and measuring a molecular complex
CA2876095A1 (en) 2012-06-15 2013-12-19 Genia Technologies, Inc. Chip set-up and high-accuracy nucleic acid sequencing
US9605309B2 (en) 2012-11-09 2017-03-28 Genia Technologies, Inc. Nucleic acid sequencing using tags
EP2917732B1 (en) 2012-11-09 2016-09-07 Stratos Genomics Inc. Concentrating a target molecule for sensing by a nanopore
US9914966B1 (en) 2012-12-20 2018-03-13 Nabsys 2.0 Llc Apparatus and methods for analysis of biomolecules using high frequency alternating current excitation
EP2956550B1 (en) 2013-01-18 2020-04-08 Nabsys 2.0 LLC Enhanced probe binding
US9759711B2 (en) 2013-02-05 2017-09-12 Genia Technologies, Inc. Nanopore arrays
US9551697B2 (en) 2013-10-17 2017-01-24 Genia Technologies, Inc. Non-faradaic, capacitively coupled measurement in a nanopore cell array
US9322062B2 (en) 2013-10-23 2016-04-26 Genia Technologies, Inc. Process for biosensor well formation
US10421995B2 (en) 2013-10-23 2019-09-24 Genia Technologies, Inc. High speed molecular sensing with nanopores
EP3221327A1 (en) 2014-11-20 2017-09-27 Stratos Genomics, Inc. Nulceoside phosphoroamidate esters and derivatives thereof, use and synthesis thereof
BR112020000638A2 (pt) * 2017-07-12 2020-07-14 John Katz métodos de associação de uma etiqueta a um ácido nucleico, para detectar um ácido nucleico e para capturar um ácido nucleico.
EP3788171B1 (en) * 2018-05-03 2023-04-05 Becton, Dickinson and Company High throughput multiomics sample analysis
EP3972976A4 (en) * 2019-05-23 2023-07-19 Stratos Genomics Inc. TRANSLOCATION CONTROL ELEMENTS, REPORTER CODES, AND OTHER TRANSLOCATION CONTROL MEANS FOR USE IN NANOPORES SEQUENCING
WO2020254672A1 (en) 2019-06-19 2020-12-24 Therycell Gmbh Spatial characterisation of target structures in a sample
CN117255945A (zh) 2021-03-31 2023-12-19 伊鲁米纳公司 纳米孔传感器装置
WO2023081031A1 (en) 2021-11-08 2023-05-11 Illumina, Inc. Identifying nucleotides using changes in impedance between electrodes
WO2023175024A1 (en) * 2022-03-15 2023-09-21 Illumina, Inc. Paired-end sequencing
US20230381718A1 (en) 2022-03-31 2023-11-30 Illumina Cambridge Limited Barriers including molecules covalently bonded to amphiphilic molecules, and methods of making the same
WO2023187106A1 (en) 2022-03-31 2023-10-05 Illumina Cambridge Limited Barriers including cross-linked amphiphilic molecules, and methods of making the same
WO2023187001A1 (en) 2022-03-31 2023-10-05 Illumina Cambridge Limited Devices including osmotically balanced barriers, and methods of making and using the same
WO2023187104A1 (en) 2022-03-31 2023-10-05 Illumina Cambridge Limited Nanopore devices including barriers using diblock or triblock copolymers, and methods of making the same
WO2023187110A1 (en) 2022-03-31 2023-10-05 Illumina Cambridge Limited Amphiphilic polymers to be used in barriers and preparation thereof, barriers with nanopores and preparation thereof
WO2023187111A1 (en) 2022-03-31 2023-10-05 Illumina Cambridge Limited Barriers including biological nanopore for dna sequencing, the barriers being made of co-polymers with end and/or middle groups, and methods of making the same
WO2023187081A1 (en) 2022-03-31 2023-10-05 Illumina Cambridge Limited Methods for inserting nanopores into polymeric membranes using chaotropic solvents
WO2024133204A1 (en) * 2022-12-21 2024-06-27 Imec Vzw Nanopore system using short identification molecules

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1136330A (zh) * 1993-09-27 1996-11-20 阿奇发展公司 有效进行核酸测序的方法和组合物
US20040166505A1 (en) * 1999-05-07 2004-08-26 Quantum Dot Corporation Method of detecting an analyte in a sample using semiconductor nanocrystals as a detectable label
WO2006044994A2 (en) * 2004-10-18 2006-04-27 Brandeis University Primers, probes and methods for nucleic acid amplification
US20070190542A1 (en) * 2005-10-03 2007-08-16 Ling Xinsheng S Hybridization assisted nanopore sequencing

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5853993A (en) * 1996-10-21 1998-12-29 Hewlett-Packard Company Signal enhancement method and kit
US6287765B1 (en) 1998-05-20 2001-09-11 Molecular Machines, Inc. Methods for detecting and identifying single molecules
AU4820399A (en) 1998-06-29 2000-01-17 Hyseq, Inc. A chemokine receptor obtained from a cdna library of fetal liver-spleen
US20070212695A1 (en) 2005-01-12 2007-09-13 Applera Corporation Compositions, methods, and kits for selective amplification of nucleic acids
US20060228717A1 (en) 2005-04-08 2006-10-12 Joyce Timothy H Microfluidic system and method of utilization
EP2952587B1 (en) * 2007-06-19 2023-07-05 Stratos Genomics Inc. High throughput nucleic acid sequencing by expansion

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1136330A (zh) * 1993-09-27 1996-11-20 阿奇发展公司 有效进行核酸测序的方法和组合物
US20040166505A1 (en) * 1999-05-07 2004-08-26 Quantum Dot Corporation Method of detecting an analyte in a sample using semiconductor nanocrystals as a detectable label
WO2006044994A2 (en) * 2004-10-18 2006-04-27 Brandeis University Primers, probes and methods for nucleic acid amplification
US20070190542A1 (en) * 2005-10-03 2007-08-16 Ling Xinsheng S Hybridization assisted nanopore sequencing

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102559667A (zh) * 2011-12-31 2012-07-11 浙江工业大学 脱氧次黄嘌呤在脱氧寡核苷酸链连接反应中的应用
CN102559667B (zh) * 2011-12-31 2013-12-04 浙江工业大学 脱氧次黄嘌呤在脱氧寡核苷酸链连接反应中的应用
CN108004131A (zh) * 2014-04-03 2018-05-08 意法半导体股份有限公司 用于基于纳米线探测器的核酸测序的设备和方法
CN110678559A (zh) * 2017-08-31 2020-01-10 深圳华大智造科技有限公司 一种核酸探针以及一种核酸测序方法
CN110678559B (zh) * 2017-08-31 2023-09-15 深圳华大智造科技股份有限公司 一种核酸探针以及一种核酸测序方法
US11993813B2 (en) 2017-08-31 2024-05-28 Mgi Tech Co., Ltd. Nucleic acid probe and nucleic acid sequencing method
CN110691854A (zh) * 2017-10-25 2020-01-14 深圳华大生命科学研究院 一种核酸测序方法以及一种核酸测序试剂盒
US11649489B2 (en) 2017-10-25 2023-05-16 Bgi Shenzhen Nucleic acid sequencing method and nucleic acid sequencing kit
CN110691854B (zh) * 2017-10-25 2023-09-12 深圳华大生命科学研究院 一种核酸测序方法以及一种核酸测序试剂盒
CN110760574A (zh) * 2019-10-14 2020-02-07 芯盟科技有限公司 测定碱基的装置及方法
CN110760574B (zh) * 2019-10-14 2023-06-06 芯盟科技有限公司 测定碱基的装置及方法

Also Published As

Publication number Publication date
CA2740973A1 (en) 2009-04-30
US8592182B2 (en) 2013-11-26
US20100297644A1 (en) 2010-11-25
EP2215259A1 (en) 2010-08-11
WO2009055617A1 (en) 2009-04-30

Similar Documents

Publication Publication Date Title
CN101910410A (zh) 通过间隔进行高通量核酸测序
US20220064741A1 (en) High throughput nucleic acid sequencing by expansion
CN103733063B (zh) 偶联方法
US10697974B2 (en) Methods and compositions for protein identification
CN104220874A (zh) 适配体方法
CN112204154B (zh) Dna-孔隙-聚合酶复合物的酶促富集
JP2022536907A (ja) 連結された標的捕捉
WO2023116575A1 (zh) 用于表征目标多核苷酸的衔接体、方法及其用途

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20101208