Nothing Special   »   [go: up one dir, main page]

CN116356001B - 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法 - Google Patents

一种基于血液循环肿瘤dna的双重背景噪声突变去除方法 Download PDF

Info

Publication number
CN116356001B
CN116356001B CN202310080082.4A CN202310080082A CN116356001B CN 116356001 B CN116356001 B CN 116356001B CN 202310080082 A CN202310080082 A CN 202310080082A CN 116356001 B CN116356001 B CN 116356001B
Authority
CN
China
Prior art keywords
mutation
background
filtering
sequencing
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310080082.4A
Other languages
English (en)
Other versions
CN116356001A (zh
Inventor
叶雷
陈子清
于跃
李俊
邓望龙
许青
李诗濛
任用
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Xiansheng Medical Diagnosis Co ltd
Original Assignee
Jiangsu Xiansheng Medical Diagnosis Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Xiansheng Medical Diagnosis Co ltd filed Critical Jiangsu Xiansheng Medical Diagnosis Co ltd
Priority to CN202310080082.4A priority Critical patent/CN116356001B/zh
Publication of CN116356001A publication Critical patent/CN116356001A/zh
Application granted granted Critical
Publication of CN116356001B publication Critical patent/CN116356001B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Zoology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physiology (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请属于生信分析技术领域,具体涉及一种基于血液循环肿瘤DNA的双重背景噪声突变去除方法及应用,本申请基于血液循环肿瘤DNA的双端固定单分子标签(UMI)建库和高深度测序结果,通过双端固定UMI的4重矫正,双重背景噪声突变联合过滤模型以及克隆性造血突变过滤的联合进行ctDNA背景噪声突变的去除,降低了ctDNA突变检测的假阳性,保证了MRD中极低含量的ctDNA信号以及液体活检中低频ctDNA突变检测的准确性。

Description

一种基于血液循环肿瘤DNA的双重背景噪声突变去除方法
技术领域
本申请属于生物信息学技术领域,具体涉及一种基于血液循环肿瘤DNA的双重背景噪声突变去除方法。
技术背景
人体循环游离DNA(circulating cell-free DNA,cfDNA)是指在非细胞成分中发现的片段化DNA,主要来源于凋亡、坏死的细胞分泌释放产生的小片段DNA,通常以长度约为150-200个碱基对的链状片段存在。循环肿瘤DNA(circulating tumor DNA,ctDNA)则来源于凋亡、坏死的肿瘤细胞或肿瘤细胞分泌释放产生的小片段DNA,是cfDNA的一部分。由于肿瘤组织检测存在临床上难以获取以及空间/时间/结构/功能异质性等局限性因素,而ctDNA携带有与原发肿瘤组织相一致的分子遗传学特征,且检测过程不具备侵袭性并可以在疾病治疗的不同阶段重复进行,是一种被广泛作为多种肿瘤临床诊断的肿瘤标志物。因此,ctDNA检测在肿瘤早期筛查与诊断、靶向用药指导、预后和治疗动态监测中扮演着重要作用。
实体瘤微小/分子残留病灶(Minimal/Molecular Residual Disease,MRD)是指治疗后仍存在于患者体内、但传统影像学方法或实验室方法不能发现的残留肿瘤细胞或者微小/分子病灶,但通过液体活检发现的癌来源分子异常,属于肿瘤进展的隐匿阶段。残留的癌细胞数量可能很少,暂时不会引起任何体征或症状,但它们可能导致未来肿瘤的进展或复发转移。ctDNA作为患者体内MRD检测的重要分子标记物,由于需要检测血液中极低含量的ctDNA信号,如何准确判定低频ctDNA突变的真实性成为MRD检测的关键挑战之一。为了提升检测极低含量ctDNA信号的灵敏度,避免MRD检测的假阴性问题,在目前的检测技术方法中,通常采用扩大ctDNA检测范围,检测更多的突变信号并协同进行超高深度的二代测序来实现。然而,这种方法一方面由于多变异检测会引起特异性的问题;另一方面,超高深度的测序引起的高水平噪声也是检测陷阱;此外,由于人体衰老机制和外在环境选择性压力(吸烟、化疗等)等因素影响,血液中会出现一些克隆性造血突变(Clonal HematopoiesisMutations,CH-Mutations),而这些突变会对ctDNA准确检测带来干扰。
综上所述,由于缺少有效的降低背景噪声以及克隆性造血突变干扰的方法学,导致了低频ctDNA突变信号检测的准确性不理想。
有鉴于此,提出本申请。
发明内容
为解决上述技术问题,本申请通过生物信息学分析,建立了一套基于血液循环肿瘤DNA的双重背景噪声突变去除方法,该方法能够有效降低血液ctDNA突变检测的假阳性,保证了MRD中极低含量的ctDNA信号以及液体活检中低频ctDNA突变检测的准确性。
因此,本申请的第一目的是提供一种血液循环肿瘤DNA(ctDNA)背景噪声突变联合过滤模型的构建方法及应用。
本申请的第二目的是提供一种基于血液循环肿瘤DNA(ctDNA)的双重背景噪声突变的去除方法及应用
具体的,本申请提出如下技术方案:
本申请首先提供一种血液循环肿瘤DNA(ctDNA)背景噪声突变联合过滤模型的构建方法,所述方法包括如下步骤:
a.正常人血液cfDNA样本靶向捕获和测序;
b.序列质控和参考基因组比对;
c.测序深度和碱基突变频率获取:
d.背景突变获取和胚系突变过滤:
e.二项分布背景突变噪声过滤模型构建:统计并获取d中得到的每个真实背景突变(SNV和/或INDEL)在正常人cfDNA样本中累积的测序深度和背景突变的支持序列数,以此构建二项分布背景突变噪声过滤模型;
f.背景Context突变特征回归模型构建:获取每个背景Context突变特征在正常人cfDNA样本中的测序深度和背景Context突变特征的支持序列数,统计在不同支持序列数下累积的背景错误率,构建背景Context突变特征回归模型。
进一步的,本申请中所述的“正常人”是指非肿瘤患者;
进一步的,所述步骤b具体为:对NSG测序序列进行质控,并将质控后序列比对到人参考基因组;优选的,再去除重复序列;
进一步的,所述步骤c具体为:基于人参考基因组比对数据获取每个正常人cfDNA样本中每个位点的测序深度和该位置碱基突变到任意其它三种非参考碱基的突变频率;
进一步的,所述步骤d具体为:获取正常人cfDNA样本中突变频率小于0.2的突变作为真实背景突变,将其他位点作为人类胚系突变进行过滤。
进一步的,步骤e中,所述二项分布背景突变噪声过滤模型为:
其中,P(X=nm)表示该背景突变位点支持数为nm时的概率,m为背景突变位点,pm表示该背景突变位点在正常人cfDNA样本中的累积背景错误率,Nm为该背景突变位点在正常人cfDNA样本中总的测序深度,nm为该背景突变位点在正常人cfDNA样本中总的支持序列数。
进一步的,步骤f中,所述Context突变特征是指:任何一种碱基突变(比如12种基础单碱基突变形式A>T、A>G、A>C、C>A、C>T、C>G、G>A、G>C、G>T、T>A、T>C、T>G与该突变位置参考基因组上下游各一个碱基所形成的序列组合,共有192种。
所述背景Context突变特征回归模型为:
其中,P(X≥km)表示Context突变特征的支持序列数大于等于km时的概率,m为背景Context突变特征,km为该背景Context突变特征的支持序列数,a为确定常数项,b为回归系数。
本申请还提供一种基于血液循环肿瘤DNA(ctDNA)的双重背景噪声突变的去除方法,包括如下步骤:
1)肿瘤cfDNA靶向捕获测序;
2)突变检测,获取所有SNV和/或INDEL突变结果;
3)背景噪声突变联合过滤模型构建:所述构建基于权利要求1-4任一所述方法构建;
4)二项分布模型的背景噪声突变过滤:
5)背景Context突变特征回归模型的背景噪声突变过滤;
优选的,还包括:
6)克隆性造血突变过滤。
进一步的,所述步骤1)中,靶向捕获测序为使用单分子标签UMI建库并靶向捕获测序;
优选的,在测序后还包括测序质控步骤和去重和序列矫正步骤;
更优选的,所述测序质控为:高通量测序后并去除低质量序列,再比对到人参考基因组得到比对结果;所述去重和序列矫正为:基于双端固定单分子标签UMI的参考基因组比对数据去重和序列一致性矫正,得到背景突变噪声矫正后的比对结果;
进一步的,所述步骤2)突变检测为:基于测序结果获取SNV和/或INDEL突变结果;优选的,基于去重和序列矫正后的测序比对结果,来获取SNV和/或INDEL突变结果。
进一步的,所述4)二项分布模型的背景噪声突变过滤具体为:
a.针对步骤2)中每个检测得到的突变(SNV和/或INDEL),基于该突变位点的序列支持数(k)和该位点的测序深度(n)以及步骤3)中构建的二项分布背景突变噪声过滤模型计算该突变位点是背景噪声突变的概率P(Bias):
P(Bias)=Bink,n,p
b.基于计算的概率P(Bias)进行背景噪声突变过滤,若P(Bias)大于判定阈值则该位点判定为背景噪声突变并过滤掉,以此进行背景假阳位点的首次过滤;
进一步的,所述5)背景Context突变特征回归模型的背景噪声突变过滤具体为:
a.针对步骤2)中每个检测得到的单碱基突变(SNV),获取该突变位点的Context突变特征;
b.基于该位点的突变支持序列数(k)以及步骤3)构建的背景Context突变特征回归模型计算该突变是背景噪声突变的概率P,
其中,a、b分别为步骤3)中背景Context突变特征回归模型的常数项和回归系数,
c.基于概率P进行背景噪声突变过滤,若P大于判定阈值则该位点判定为背景噪声突变并过滤掉,以此进行背景假阳位点的二次过滤。
进一步的,所述步骤6)克隆性造血突变过滤具体为:
a.针对配对白细胞进行单分子标签建库和高深度测序,测序序列矫正后进行参考基因组的比对以及双端固定UMI的去重和背景突噪声变矫正;
b.基于a中一致性矫正和去重后的配对白细胞的比对结果,获取配对白细胞的SNV与INDEL;
c.基于克隆性造血突变和胚系突变在cfDNA和配对白细胞中突变频率的分布特征构建Fisher统计分布模型进行克隆性造血突变和胚系突变的过滤。
本申请还提供一种电子设备,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如上述任一项所述的方法。
本申请还提供一种计算机存储介质所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行上述任一项所述的方法。
本申请有益技术效果:
1)本申请通过正常人(即非肿瘤的人群)cfDNA的训练集样本中背景噪声突变构建了基于特定位点背景错误率的二项分布统计模型以及基于三碱基Context突变特征累积背景错误率的回归模型,通过2种模型的联合,同时在特定位点以及背景突变特征层面进行背景噪声突变的双重过滤,增加了对背景噪声突变过滤的精确程度和有效性,确保MRD中极低含量的ctDNA信号和低频ctDNA突变检测的准确性。
2)本申请通过对照白细胞的双端固定UMI建库和高深度测序,并基于克隆性造血突变的突变频率在cfDNA以及对照白细胞中的特征构建了统计分布模型以区分克隆性造血突变,鉴定并去除克隆性造血突变对ctDNA突变检测的干扰,进一步确保了MRD中极低含量的ctDNA信号和低频ctDNA突变检测的准确性。
3)本申请开发了一种基于血液循环肿瘤DNA的双重背景噪声突变去除方法,通过序列一致性矫正、背景噪声突变双重过滤以及克隆性造血突变过滤的联合方法进行ctDNA的背景噪声突变的去除,降低了由于ctDNA的高测序深度以及克隆性造血突变引起的突变检测的假阳性。
附图说明
图1、ctDNA背景突变分布模型构建和背景噪声突变去除流程;
图2、48种A型背景Context突变特征的逻辑回归过滤模型图;
图3、48种C型背景Context突变特征的逻辑回归过滤模型图;
图4、48种G型背景Context突变特征的逻辑回归过滤模型图;
图5、48种T型背景Context突变特征的逻辑回归过滤模型图;
图6、不同背景噪声突变去除方法下阴性cfDNA的背景错误率;
图7、不同背景噪声突变去除方法下ctDNA突变检测准确性。
具体实施方式
下面将结合实施例对本申请的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本申请,而不应视为限制本申请的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市场购买获得的常规产品。
部分术语定义,除非在下文中另有定义,本申请具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解,但仍然阐述以下定义以更好地解释本申请。
本申请中的术语“大约”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10%,优选±5%。
如本申请中所使用,术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的,且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案,这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。
此外,说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类,是用于区分相似的元素,不是描述顺序或时间次序必须的。应理解,如此应用的术语在适当的环境下可互换,并且本申请描述的实施方案能以不同于本申请描述或举例说明的其它顺序实施。
下面结合具体实施例来阐述本申请。
实施例1血液ctDNA背景噪声突变联合过滤模型构建
如图1B所示,本申请ctDNA背景噪声突变联合过滤模型构建过程包括以下步骤:
a.从正常人血液样本提取cfDNA并进行cfDNA靶向捕获和测序;
b.通过NSG平台对捕获的基因进行测序,获得高通量测序序列并进行质控,将质控后的序列比对到人参考基因组hg19上,并去除重复序列;
c.基于人参考基因组比对数据分析并获取每个正常人cfDNA样本中每个位点的测序深度和该位置碱基突变到任意其它三种非参考碱基的突变频率;
d.获取正常人cfDNA样本中的背景突变和人类胚系突变:其中人类胚系突变的突变频率一般分布在0.5和1(杂合和纯合突变)且在人群数据库中存在一定的人群发生频率,而背景突变的突变频率一般分布在0.2以下,因此,将正常人cfDNA样本中突变频率小于0.2的突变作为真实背景突变并将其他位点作为人类胚系突变进行过滤;
e.二项分布背景突变噪声过滤模型的构建:统计并获取上述d中得到的每个真实背景突变在正常人cfDNA样本中累积的测序深度Nm和背景突变的支持序列数nm,该统计结果符合以下二项式概率模型,以此构建二项分布背景突变噪声过滤模型;其中m表示背景突变位点,pm表示在该背景突变位点在正常人cfDNA样本中的累积背景错误率,Nm为该背景突变位点在正常人cfDNA样本中总的测序深度,nm为该背景突变位点在正常人cfDNA样本中总的支持序列数,P(X=nm)表示该背景突变位点支持数为nm时的概率:
f.背景Context突变特征回归模型构建:获取每个背景突变的Context突变特征(三碱基突变,是指12种基础单碱基突变形式A>T、A>G、A>C、C>A、C>T、C>G、G>A、G>C、G>T、T>A、T>C、T>G与该位置参考基因组上下游各一个碱基的组合,共有192种)在正常人cfDNA样本中的测序深度N和背景突变模式的支持序列数n,统计在不同支持序列数下累积的背景错误率。结果如图2-5示例所示,背景Context突变特征的支持序列数与累积背景错误率符合逻辑回归模型。
以此构建针对192种背景Context突变特征的逻辑回归过滤模型,其中m表示背景突变的Context突变特征,km为该Context突变特征的支持序列数,a为确定常数项,b为回归系数,P(X≥km)表示Context突变特征的支持序列数大于等于km时的概率:
实施例2双重背景噪声突变去除方法
如图1所示,本申请背景噪声突变去除过程包括以下步骤:
1)肿瘤cfDNA使用单分子标签(UMI,Unique Molecular Identifier)建库并靶向捕获测序;
2)上述获得高通量测序序列进行质控,去除低质量测序序列后比对到人参考基因组hg19上得到BAM比对结果;
3)针对上述BAM比对结果,基于双端固定单分子标签(UMI)的参考基因组比对数据的去重和序列一致性矫正,得到背景突变噪声矫正后的BAM比对结果;
4)突变检测:基于上述3)中一致性矫正和去重后的BAM比对结果,获取单核苷酸位点变异(SNV)与小片段插入缺失变异(INDEL)
5)背景噪声突变联合过滤模型的构建:如图1B所示,ctDNA背景噪声突变联合过滤模型构建过程包括以下步骤:
a.从正常人血液样本提取cfDNA并进行cfDNA靶向捕获和测序;
b.通过NSG平台对捕获的基因进行测序,获得高通量测序序列并进行质控,将质控后的序列比对到人参考基因组hg19上,并去除重复序列;
c.基于人参考基因组比对数据分析并获取每个正常人cfDNA样本中每个位点的测序深度和该位置碱基突变到任意其它三种非参考碱基的突变频率;
d.获取正常人cfDNA样本中的背景突变和人类胚系突变:其中人类胚系突变的突变频率一般分布在0.5和1(杂合和纯合突变)且在人群数据库中存在一定的人群发生频率,而背景突变的突变频率一般分布在0.2以下,因此,将正常人cfDNA样本中突变频率小于0.2的突变作为真实背景突变并将其他位点作为人类胚系突变进行过滤;
e.二项分布背景突变噪声过滤模型的构建:统计并获取上述d中得到的每个真实背景突变在正常人cfDNA样本中累积的测序深度Nm和背景突变的支持序列数nm,该统计结果符合以下二项式概率模型,以此构建二项分布背景突变噪声过滤模型;其中m表示背景突变位点,pm表示在该背景突变位点在正常人cfDNA样本中的累积背景错误率,Nm为该背景突变位点在正常人cfDNA样本中总的测序深度,nm为该背景突变位点在正常人cfDNA样本中总的支持序列数,P(X=nm)表示该背景突变位点支持数为nm时的概率:
f.背景Context突变特征回归模型构建:获取每个背景突变的Context突变特征(三碱基突变,是指12种基础单碱基突变形式A>T、A>G、A>C、C>A、C>T、C>G、G>A、G>C、G>T、T>A、T>C、T>G与该位置参考基因组上下游各一个碱基的组合,共有192种)在正常人cfDNA样本中的测序深度N和背景突变模式的支持序列数n,统计在不同支持序列数下累积的背景错误率。如图2示例所示,背景Context突变特征的支持序列数与累积背景错误率符合逻辑回归模型。
以此构建针对192种背景突变噪声的Context突变特征逻辑回归过滤模型,其中m表示背景突变的Context突变特征,km为该Context突变特征的支持序列数,a为确定常数项,b为回归系数,P(X≥km)表示Context突变特征的支持序列数大于等于km时的概率:
6)二项分布模型的背景噪声突变过滤,具体过滤过程如下:
a、针对上述4)中每个检测得到的突变,基于该突变位点的序列支持数(k)和该位点的测序深度(n)以及上述5)中构建的二项分布背景突变噪声过滤模型(p)计算该突变位点是背景噪声突变的概率P(Bias):
P(Bias)=)ink,n,p
b、基于上述a中计算的概率P(Bias)进行背景噪声突变的过滤,若P(Bias)>α(α为判定阈值)则该位点判定为背景噪声突变并过滤掉,以此进行Panel覆盖范围内特定背景假阳位点的首次过滤;
7)Context突变特征回归模型的背景噪声突变过滤,具体过滤过程如下:
a、针对上述4)中每个检测得到的单碱基突变,获取该突变位点的Context突变特征(三碱基突变,例A(C->T)C);
b、基于该位点的突变支持序列数(k)以及上述5)中基于该Context突变特征构建的回归模型计算该突变是背景噪声突变的概率P,计算过程如下,其中a和b分别为上述5)中该Context突变特征回归模型的常数项和回归系数:
c、基于上述b中计算的概率P进行背景噪声突变的过滤,若P>α(α为判定阈值)则该位点判定为背景噪声突变并过滤掉,以此基于背景噪声突变的Context突变特征进行背景假阳位点的二次过滤;
8)克隆性造血突变过滤:
a、针对配对白细胞进行单分子标签建库和高深度测序,测序序列矫正后进行参考基因组的比对以及双端固定UMI的去重和背景突噪声变矫正;
b、基于上述a中一致性矫正和去重后的配对白细胞的BAM比对结果,获取配对白细胞的单核苷酸位点变异(SNV)与小片段插入缺失变异(INDEL);
c、基于克隆性造血突变和胚系突变在cfDNA和配对白细胞中突变频率的分布特征构建Fisher统计分布模型进行克隆性造血突变和胚系突变的过滤;
9)获得真实的来源于循环肿瘤DNA(ctDNA)的突变。
实施例3效果评价
本实施例中8例正常人cfDNA样本和15例肿瘤患者的cfDNA样本均使用双端固定UMI的建库和高深度靶向测序,测序深度60000X;此外,15例肿瘤患者同时进行配对白细胞的双端固定UMI的建库和高深度靶向测序,测序深度10000X。38个样本(包含15个配对白细胞)测序数据,经过序列质控后均使用BWA(v0.7.17)MEM算法进行人参考基因组比对分析;接下来,所有样本均通过双端固定UMI的序列一致性矫正和去重,得到去重和背景突变噪声矫正后的BAM比对结果作为输入文件。所有样本进行突变检测后分别进行本申请中的背景噪声联合过滤模型和克隆性造血突变过滤,用于去除背景噪声突变;另一方面,针对所有样本仅进行突变的基础过滤不进行本申请的背景噪声联合过滤模型和克隆性造血突变过滤,主要进行下述2个方面测试:
1)正常人cfDNA中进行本申请的背景噪声突变去除和未进行背景噪声突变去除情况下背景错误率的比较;
2)所有cfDNA中进行本申请的背景噪声突变去除和未进行背景噪声突变去除情况下低频ctDNA突变检测准确性的比较。
结果如图3所示,在8例正常人cfDNA中,不进行任何背景噪声突变去除时(Conventional)平均背景错误率10-4,当仅使用双端固定UMI进行序列一致性矫正时(UMI-NoiseReduced)平均背景错误率10-5,当使用本申请中的背景噪声突变双重过滤方法时(UMI-NoiseReduced+Polished)平均背景错误率已经低至10-6。综上,本申请中双重背景噪声突变去除方法可以有效的去除cfDNA检测中的背景噪声突变的干扰,整体背景错误率比传统的不进行任何背景噪声突变去除时低了100倍。
15例已知肿瘤突变已经确定的肿瘤患者,如表1所示。结果如图4所示,本申请使用8例正常人cfDNA以及这15例已知肿瘤突变的患者cfDNA评估了本申请中背景噪声突变去除方法对低频ctDNA突变检测准确性的影响。当使用本申请中的双重背景噪声突变去除方法时(UMI-NoiseReduced+Polished),相比于仅使用序列一致性矫正(UMI-NoiseReducedonly)可以有效的去除正常人和肿瘤患者cfDNA中的背景噪声突变;每个正常人cfDNA中假阳背景假阳突变数目均不多于1个且为非肿瘤相关的稀有突变,不影响患者的MRD检测状态,本申请中的方法保证了低频ctDNA突变检测和MRD检测的特异性;另一方面,在肿瘤患者cfDNA中应用本申请中的方法不仅能够有效的去除背景噪声突变,同时低频真实ctDNA突变可以有效检出,保证了低频ctDNA突变和MRD中极低含量ctDNA信号检测的准确性。
表1 15例肿瘤患者cfDNA中真实的ctDNA突变信息
22030111 EGFR p.T790M
22030111 EGFR p.L858R
22030112 EGFR p.C797S
22030113 KRAS p.G12D
22030114 EGFR p.L718M
22030115 EGFR p.C797S
22030115 EGFR p.L858R
22030117 KRAS p.G13D
22030118 KRAS p.K117N
22030119 PIK3CA p.E545K
22030120 U2AF1 p.S34F
22030120 PIK3CA p.E545K
22030122 BRAF p.V600_K601delinsE
22030122 BRAF p.V600E
22030123 EGFR p.E746_A750del
22030123 TP53 p.R248W
22030124 EGFR p.L858R
22030124 EGFR p.T790M
22030125 KRAS p.G12A
22030126 KRAS p.G12D
22030127 EGFR p.C797S
22030111 EGFR p.T790M
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (4)

1.一种血液循环肿瘤DNA背景噪声突变联合过滤模型的构建方法,其特征在于,所述方法包括如下步骤:
a.正常人血液cfDNA样本靶向捕获和测序;
b.序列质控和参考基因组比对;
c.测序深度和碱基突变频率获取:
d.背景突变获取和胚系突变过滤:
e.二项分布背景突变噪声过滤模型构建:统计并获取d中得到的每个真实背景突变在正常人cfDNA样本中累积的测序深度和背景突变的支持序列数,以此构建二项分布背景突变噪声过滤模型;
f.背景Context突变特征回归模型构建:获取每个背景Context突变特征在正常人cfDNA样本中的测序深度和背景Context突变特征的支持序列数,统计在不同支持序列数下累积的背景错误率,构建背景Context突变特征回归模型;
所述步骤b具体为:对NSG测序序列进行质控,并将质控后序列比对到人参考基因组;
所述步骤c具体为:基于人参考基因组比对数据获取每个正常人cfDNA样本中每个位点的测序深度和该位置碱基突变到任意其它三种非参考碱基的突变频率;
所述步骤d具体为:获取正常人cfDNA样本中突变频率小于0.2的突变作为真实背景突变,将其他位点作为人类胚系突变进行过滤;
所述步骤e中,所述二项分布背景突变噪声过滤模型为:
其中,P(X=nm)表示该背景突变位点支持数为nm时的概率,m为背景突变位点,pm为该背景突变位点在正常人cfDNA样本中的累积背景错误率,Nm为该背景突变位点在正常人cfDNA样本中总的测序深度,nm为该背景突变位点在正常人cfDNA样本中总的支持序列数;
所述步骤f中,所述背景Context突变特征回归模型为:
其中,P(X≥km)表示Context突变特征的支持序列数大于等于km时的概率,m为背景Context突变特征,km为该背景Context突变特征的支持序列数,a为确定常数项,b为回归系数。
2.一种基于血液循环肿瘤DNA的双重背景噪声突变的去除方法,其特征在于,包括如下步骤:
1)肿瘤cfDNA靶向捕获测序;
2)突变检测,获取所有SNV和/或INDEL突变结果;
3)背景噪声突变联合过滤模型构建:所述构建基于权利要求1所述方法构建;
4)二项分布模型的背景噪声突变过滤:
5)背景Context突变特征回归模型的背景噪声突变过滤;
6)克隆性造血突变过滤;
所述步骤1)中,靶向捕获测序为使用单分子标签UMI建库并靶向捕获测序;在测序后还包括测序质控步骤和去重和序列矫正步骤;所述测序质控为:高通量测序后并去除低质量序列,再比对到人参考基因组得到比对结果;所述去重和序列矫正为:基于双端固定单分子标签UMI的参考基因组比对数据去重和序列一致性矫正,得到背景突变噪声矫正后的比对结果;
所述步骤2)突变检测为:基于去重和序列矫正后的测序比对结果,获取所有SNV和/或INDEL突变结果;
所述步骤4)中二项分布模型的背景噪声突变过滤具体为:
针对步骤2)中每个检测得到的SNV和/或INDEL突变,基于该突变位点的序列支持数k和该位点的测序深度n以及步骤3)中构建的二项分布背景突变噪声过滤模型计算该突变位点是背景噪声突变的概率P(Bias):
P(Bias)=Bin(k,n,p)
基于计算的概率P(Bias)进行背景噪声突变过滤,若P(Bias)大于判定阈值则该位点判定为背景噪声突变并过滤掉,以此进行背景假阳位点的首次过滤;
所述步骤5)中背景Context突变特征回归模型的背景噪声突变过滤具体为:
针对步骤2)中每个检测得到的单碱基突变SNV,获取该突变位点的Context突变特征;基于该位点的突变支持序列数k以及步骤3)构建的背景Context突变特征回归模型计算该突变是背景噪声突变的概率P,
其中,a、b分别为步骤3)中背景Context突变特征回归模型的常数项和回归系数;
基于概率P进行背景噪声突变过滤,若P大于判定阈值则该位点判定为背景噪声突变并过滤掉,以此进行背景假阳位点的二次过滤;
所述步骤6)克隆性造血突变过滤具体为:
i.针对配对白细胞进行单分子标签建库和高深度测序,测序序列矫正后进行参考基因组的比对以及双端固定UMI的去重和背景突噪声变矫正;
ii.基于i中一致性矫正和去重后的配对白细胞的比对结果,获取配对白细胞的SNV与INDEL;
iii.基于克隆性造血突变和胚系突变在cfDNA和配对白细胞中突变频率的分布特征构建Fisher统计分布模型进行克隆性造血突变和胚系突变的过滤。
3.一种电子设备,其特征在于,包括:处理器和存储器;所述处理器和存储器相连,其中,
所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如权利要求1所述的方法。
4.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1所述的方法。
CN202310080082.4A 2023-02-07 2023-02-07 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法 Active CN116356001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310080082.4A CN116356001B (zh) 2023-02-07 2023-02-07 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310080082.4A CN116356001B (zh) 2023-02-07 2023-02-07 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法

Publications (2)

Publication Number Publication Date
CN116356001A CN116356001A (zh) 2023-06-30
CN116356001B true CN116356001B (zh) 2023-12-15

Family

ID=86929488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310080082.4A Active CN116356001B (zh) 2023-02-07 2023-02-07 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法

Country Status (1)

Country Link
CN (1) CN116356001B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116646007B (zh) * 2023-07-27 2023-10-20 北京泛生子基因科技有限公司 鉴定ctDNA测序数据中的真实突变或测序噪音的装置及计算机可读存储介质与应用
CN117253546B (zh) * 2023-10-11 2024-05-28 北京博奥医学检验所有限公司 一种降低靶向二代测序背景噪音的方法、系统及可存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107523563A (zh) * 2017-09-08 2017-12-29 杭州和壹基因科技有限公司 一种用于循环肿瘤dna分析的生物信息处理方法
CN108733975A (zh) * 2018-03-29 2018-11-02 深圳裕策生物科技有限公司 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质
AU2019200162A1 (en) * 2012-07-20 2019-01-31 Verinata Health, Inc. Detecting and classifying copy number variation
CN109762881A (zh) * 2019-01-31 2019-05-17 中山拓普基因科技有限公司 一种用于检测肿瘤患者血液ctDNA中的超低频突变位点的生物信息方法
CN110010197A (zh) * 2019-03-29 2019-07-12 深圳裕策生物科技有限公司 基于血液循环肿瘤dna的单核苷酸变异检测方法、装置和存储介质
CN111278993A (zh) * 2017-09-15 2020-06-12 加利福尼亚大学董事会 从无细胞核酸中检测体细胞单核苷酸变体并应用于微小残留病变监测
CN111321209A (zh) * 2020-03-26 2020-06-23 杭州和壹基因科技有限公司 一种用于循环肿瘤dna测序数据双端矫正的方法
CN114127308A (zh) * 2019-05-17 2022-03-01 阿尔缇玛基因组学公司 用于检测残留疾病的方法和系统
CN114182022A (zh) * 2022-01-29 2022-03-15 福建医科大学孟超肝胆医院(福州市传染病医院) 一种基于cfDNA碱基突变频率分布检测肝癌特异突变的方法
CN114292912A (zh) * 2021-12-24 2022-04-08 广州燃石医学检验所有限公司 一种变体核酸的检测方法
WO2022109574A1 (en) * 2020-11-18 2022-05-27 Ultima Genomics, Inc. Methods and systems for detecting residual disease
CN114694750A (zh) * 2022-05-31 2022-07-01 江苏先声医疗器械有限公司 一种基于ngs平台的单样本肿瘤体细胞突变判别及tmb检测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2019200162A1 (en) * 2012-07-20 2019-01-31 Verinata Health, Inc. Detecting and classifying copy number variation
CN107523563A (zh) * 2017-09-08 2017-12-29 杭州和壹基因科技有限公司 一种用于循环肿瘤dna分析的生物信息处理方法
CN111278993A (zh) * 2017-09-15 2020-06-12 加利福尼亚大学董事会 从无细胞核酸中检测体细胞单核苷酸变体并应用于微小残留病变监测
CN108733975A (zh) * 2018-03-29 2018-11-02 深圳裕策生物科技有限公司 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质
CN109762881A (zh) * 2019-01-31 2019-05-17 中山拓普基因科技有限公司 一种用于检测肿瘤患者血液ctDNA中的超低频突变位点的生物信息方法
CN110010197A (zh) * 2019-03-29 2019-07-12 深圳裕策生物科技有限公司 基于血液循环肿瘤dna的单核苷酸变异检测方法、装置和存储介质
CN114127308A (zh) * 2019-05-17 2022-03-01 阿尔缇玛基因组学公司 用于检测残留疾病的方法和系统
CN111321209A (zh) * 2020-03-26 2020-06-23 杭州和壹基因科技有限公司 一种用于循环肿瘤dna测序数据双端矫正的方法
WO2022109574A1 (en) * 2020-11-18 2022-05-27 Ultima Genomics, Inc. Methods and systems for detecting residual disease
CN114292912A (zh) * 2021-12-24 2022-04-08 广州燃石医学检验所有限公司 一种变体核酸的检测方法
CN114182022A (zh) * 2022-01-29 2022-03-15 福建医科大学孟超肝胆医院(福州市传染病医院) 一种基于cfDNA碱基突变频率分布检测肝癌特异突变的方法
CN114694750A (zh) * 2022-05-31 2022-07-01 江苏先声医疗器械有限公司 一种基于ngs平台的单样本肿瘤体细胞突变判别及tmb检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Advantages and Challenges of Using ctDNA NGS to Assess the Presence of Minimal Residual Disease (MRD) in Solid Tumors;Larribère L等;《 Cancers (Basel)》;第13卷(第22期);第1-14页 *
Detection of Rare Mutations in CtDNA Using Next Generation Sequencing;Lv X等;《J Vis Exp》;第1-8页 *
High efficiency error suppression for accurate detection of low-frequency variants;Wang TT等;《Nucleic Acids Res》;第47卷(第15期);第1-11页 *
Integrated digital error suppression for improved detection of circulating tumor DNA;Newman AM等;《Nat Biotechnol》;第34卷(第5期);第547-555页 *
TNER: a novel background error suppression method for mutation detection in circulating tumor DNA;Deng S等;《BMC Bioinformatics》;第19卷(第1期);第1-7页 *

Also Published As

Publication number Publication date
CN116356001A (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
US20230295738A1 (en) Systems and methods for detection of residual disease
EP3919627B1 (en) Mutational analysis of plasma dna for cancer detection
CN109767810B (zh) 高通量测序数据分析方法及装置
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
CN116356001B (zh) 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法
EP3973080B1 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
US20210065842A1 (en) Systems and methods for determining tumor fraction
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
US20210292845A1 (en) Identifying methylation patterns that discriminate or indicate a cancer condition
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
US12054712B2 (en) Fragment size characterization of cell-free DNA mutations from clonal hematopoiesis
US20190073445A1 (en) Identifying false positive variants using a significance model
CN109712671B (zh) 基于ctDNA的基因检测装置、存储介质及计算机系统
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
CN118918956A (zh) 胎儿浓度的确定方法及装置
US20210295948A1 (en) Systems and methods for estimating cell source fractions using methylation information
US20220301654A1 (en) Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
EP3635138B1 (en) Method for analysing cell-free nucleic acids
CN116543835B (zh) 一种检测血浆样本微卫星状态的方法和装置
US20230197277A1 (en) Assessment and Quantification of Imperfect dsDNA Break Repair for Cancer Diagnosis and Treatment
JP2024527142A (ja) リキッドバイオプシーにおける変異検出の方法
CN118726576A (zh) 用于预测肺鳞癌免疫疗效的甲基化标志物组合及其系统
CN114672562A (zh) 一种针对parp抑制剂耐药性监测的方法、装置、设备及介质
CN113362884A (zh) 基于单碱基替换特征的肿瘤标志物筛选方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant