CN116356001B

CN116356001B - 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法

Info

Publication number: CN116356001B
Application number: CN202310080082.4A
Authority: CN
Inventors: 叶雷; 陈子清; 于跃; 李俊; 邓望龙; 许青; 李诗濛; 任用
Original assignee: Jiangsu Xiansheng Medical Diagnosis Co ltd
Current assignee: Jiangsu Xiansheng Medical Diagnosis Co ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-12-15
Anticipated expiration: 2043-02-07
Also published as: CN116356001A

Abstract

本申请属于生信分析技术领域，具体涉及一种基于血液循环肿瘤DNA的双重背景噪声突变去除方法及应用，本申请基于血液循环肿瘤DNA的双端固定单分子标签(UMI)建库和高深度测序结果，通过双端固定UMI的4重矫正，双重背景噪声突变联合过滤模型以及克隆性造血突变过滤的联合进行ctDNA背景噪声突变的去除，降低了ctDNA突变检测的假阳性，保证了MRD中极低含量的ctDNA信号以及液体活检中低频ctDNA突变检测的准确性。

Description

一种基于血液循环肿瘤DNA的双重背景噪声突变去除方法

技术领域

本申请属于生物信息学技术领域，具体涉及一种基于血液循环肿瘤DNA的双重背景噪声突变去除方法。

技术背景

人体循环游离DNA(circulating cell-free DNA,cfDNA)是指在非细胞成分中发现的片段化DNA，主要来源于凋亡、坏死的细胞分泌释放产生的小片段DNA，通常以长度约为150-200个碱基对的链状片段存在。循环肿瘤DNA(circulating tumor DNA,ctDNA)则来源于凋亡、坏死的肿瘤细胞或肿瘤细胞分泌释放产生的小片段DNA，是cfDNA的一部分。由于肿瘤组织检测存在临床上难以获取以及空间/时间/结构/功能异质性等局限性因素，而ctDNA携带有与原发肿瘤组织相一致的分子遗传学特征，且检测过程不具备侵袭性并可以在疾病治疗的不同阶段重复进行，是一种被广泛作为多种肿瘤临床诊断的肿瘤标志物。因此，ctDNA检测在肿瘤早期筛查与诊断、靶向用药指导、预后和治疗动态监测中扮演着重要作用。

实体瘤微小/分子残留病灶(Minimal/Molecular Residual Disease,MRD)是指治疗后仍存在于患者体内、但传统影像学方法或实验室方法不能发现的残留肿瘤细胞或者微小/分子病灶，但通过液体活检发现的癌来源分子异常，属于肿瘤进展的隐匿阶段。残留的癌细胞数量可能很少，暂时不会引起任何体征或症状，但它们可能导致未来肿瘤的进展或复发转移。ctDNA作为患者体内MRD检测的重要分子标记物，由于需要检测血液中极低含量的ctDNA信号，如何准确判定低频ctDNA突变的真实性成为MRD检测的关键挑战之一。为了提升检测极低含量ctDNA信号的灵敏度，避免MRD检测的假阴性问题，在目前的检测技术方法中，通常采用扩大ctDNA检测范围，检测更多的突变信号并协同进行超高深度的二代测序来实现。然而，这种方法一方面由于多变异检测会引起特异性的问题；另一方面，超高深度的测序引起的高水平噪声也是检测陷阱；此外，由于人体衰老机制和外在环境选择性压力(吸烟、化疗等)等因素影响，血液中会出现一些克隆性造血突变(Clonal HematopoiesisMutations，CH-Mutations)，而这些突变会对ctDNA准确检测带来干扰。

综上所述，由于缺少有效的降低背景噪声以及克隆性造血突变干扰的方法学，导致了低频ctDNA突变信号检测的准确性不理想。

有鉴于此，提出本申请。

发明内容

为解决上述技术问题，本申请通过生物信息学分析，建立了一套基于血液循环肿瘤DNA的双重背景噪声突变去除方法，该方法能够有效降低血液ctDNA突变检测的假阳性，保证了MRD中极低含量的ctDNA信号以及液体活检中低频ctDNA突变检测的准确性。

因此，本申请的第一目的是提供一种血液循环肿瘤DNA(ctDNA)背景噪声突变联合过滤模型的构建方法及应用。

本申请的第二目的是提供一种基于血液循环肿瘤DNA(ctDNA)的双重背景噪声突变的去除方法及应用

具体的，本申请提出如下技术方案：

本申请首先提供一种血液循环肿瘤DNA(ctDNA)背景噪声突变联合过滤模型的构建方法，所述方法包括如下步骤：

a.正常人血液cfDNA样本靶向捕获和测序；

b.序列质控和参考基因组比对；

c.测序深度和碱基突变频率获取：

d.背景突变获取和胚系突变过滤：

e.二项分布背景突变噪声过滤模型构建：统计并获取d中得到的每个真实背景突变(SNV和/或INDEL)在正常人cfDNA样本中累积的测序深度和背景突变的支持序列数，以此构建二项分布背景突变噪声过滤模型；

f.背景Context突变特征回归模型构建：获取每个背景Context突变特征在正常人cfDNA样本中的测序深度和背景Context突变特征的支持序列数，统计在不同支持序列数下累积的背景错误率，构建背景Context突变特征回归模型。

进一步的，本申请中所述的“正常人”是指非肿瘤患者；

进一步的，所述步骤b具体为：对NSG测序序列进行质控，并将质控后序列比对到人参考基因组；优选的，再去除重复序列；

进一步的，所述步骤c具体为：基于人参考基因组比对数据获取每个正常人cfDNA样本中每个位点的测序深度和该位置碱基突变到任意其它三种非参考碱基的突变频率；

进一步的，所述步骤d具体为：获取正常人cfDNA样本中突变频率小于0.2的突变作为真实背景突变，将其他位点作为人类胚系突变进行过滤。

进一步的，步骤e中，所述二项分布背景突变噪声过滤模型为：

其中，P(X＝n_m)表示该背景突变位点支持数为n_m时的概率，m为背景突变位点，p_m表示该背景突变位点在正常人cfDNA样本中的累积背景错误率，N_m为该背景突变位点在正常人cfDNA样本中总的测序深度，n_m为该背景突变位点在正常人cfDNA样本中总的支持序列数。

进一步的，步骤f中，所述Context突变特征是指：任何一种碱基突变(比如12种基础单碱基突变形式A>T、A>G、A>C、C>A、C>T、C>G、G>A、G>C、G>T、T>A、T>C、T>G与该突变位置参考基因组上下游各一个碱基所形成的序列组合，共有192种。

所述背景Context突变特征回归模型为：

其中，P(X≥k_m)表示Context突变特征的支持序列数大于等于k_m时的概率，m为背景Context突变特征，k_m为该背景Context突变特征的支持序列数，a为确定常数项，b为回归系数。

本申请还提供一种基于血液循环肿瘤DNA(ctDNA)的双重背景噪声突变的去除方法，包括如下步骤：

1)肿瘤cfDNA靶向捕获测序；

2)突变检测，获取所有SNV和/或INDEL突变结果；

3)背景噪声突变联合过滤模型构建：所述构建基于权利要求1-4任一所述方法构建；

4)二项分布模型的背景噪声突变过滤：

5)背景Context突变特征回归模型的背景噪声突变过滤；

优选的，还包括：

6)克隆性造血突变过滤。

进一步的，所述步骤1)中，靶向捕获测序为使用单分子标签UMI建库并靶向捕获测序；

优选的，在测序后还包括测序质控步骤和去重和序列矫正步骤；

更优选的，所述测序质控为：高通量测序后并去除低质量序列，再比对到人参考基因组得到比对结果；所述去重和序列矫正为：基于双端固定单分子标签UMI的参考基因组比对数据去重和序列一致性矫正，得到背景突变噪声矫正后的比对结果；

进一步的，所述步骤2)突变检测为：基于测序结果获取SNV和/或INDEL突变结果；优选的，基于去重和序列矫正后的测序比对结果，来获取SNV和/或INDEL突变结果。

进一步的，所述4)二项分布模型的背景噪声突变过滤具体为：

a.针对步骤2)中每个检测得到的突变(SNV和/或INDEL)，基于该突变位点的序列支持数(k)和该位点的测序深度(n)以及步骤3)中构建的二项分布背景突变噪声过滤模型计算该突变位点是背景噪声突变的概率P(Bias)：

P(Bias)＝Bink,n,p

b.基于计算的概率P(Bias)进行背景噪声突变过滤，若P(Bias)大于判定阈值则该位点判定为背景噪声突变并过滤掉，以此进行背景假阳位点的首次过滤；

进一步的，所述5)背景Context突变特征回归模型的背景噪声突变过滤具体为：

a.针对步骤2)中每个检测得到的单碱基突变(SNV)，获取该突变位点的Context突变特征；

b.基于该位点的突变支持序列数(k)以及步骤3)构建的背景Context突变特征回归模型计算该突变是背景噪声突变的概率P，

其中，a、b分别为步骤3)中背景Context突变特征回归模型的常数项和回归系数，

c.基于概率P进行背景噪声突变过滤，若P大于判定阈值则该位点判定为背景噪声突变并过滤掉，以此进行背景假阳位点的二次过滤。

进一步的，所述步骤6)克隆性造血突变过滤具体为：

a.针对配对白细胞进行单分子标签建库和高深度测序，测序序列矫正后进行参考基因组的比对以及双端固定UMI的去重和背景突噪声变矫正；

b.基于a中一致性矫正和去重后的配对白细胞的比对结果，获取配对白细胞的SNV与INDEL；

c.基于克隆性造血突变和胚系突变在cfDNA和配对白细胞中突变频率的分布特征构建Fisher统计分布模型进行克隆性造血突变和胚系突变的过滤。

本申请还提供一种电子设备，包括：处理器和存储器；所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如上述任一项所述的方法。

本申请还提供一种计算机存储介质所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行上述任一项所述的方法。

本申请有益技术效果：

1)本申请通过正常人(即非肿瘤的人群)cfDNA的训练集样本中背景噪声突变构建了基于特定位点背景错误率的二项分布统计模型以及基于三碱基Context突变特征累积背景错误率的回归模型，通过2种模型的联合，同时在特定位点以及背景突变特征层面进行背景噪声突变的双重过滤，增加了对背景噪声突变过滤的精确程度和有效性，确保MRD中极低含量的ctDNA信号和低频ctDNA突变检测的准确性。

2)本申请通过对照白细胞的双端固定UMI建库和高深度测序，并基于克隆性造血突变的突变频率在cfDNA以及对照白细胞中的特征构建了统计分布模型以区分克隆性造血突变，鉴定并去除克隆性造血突变对ctDNA突变检测的干扰，进一步确保了MRD中极低含量的ctDNA信号和低频ctDNA突变检测的准确性。

3)本申请开发了一种基于血液循环肿瘤DNA的双重背景噪声突变去除方法，通过序列一致性矫正、背景噪声突变双重过滤以及克隆性造血突变过滤的联合方法进行ctDNA的背景噪声突变的去除，降低了由于ctDNA的高测序深度以及克隆性造血突变引起的突变检测的假阳性。

附图说明

图1、ctDNA背景突变分布模型构建和背景噪声突变去除流程；

图2、48种A型背景Context突变特征的逻辑回归过滤模型图；

图3、48种C型背景Context突变特征的逻辑回归过滤模型图；

图4、48种G型背景Context突变特征的逻辑回归过滤模型图；

图5、48种T型背景Context突变特征的逻辑回归过滤模型图；

图6、不同背景噪声突变去除方法下阴性cfDNA的背景错误率；

图7、不同背景噪声突变去除方法下ctDNA突变检测准确性。

具体实施方式

下面将结合实施例对本申请的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本申请，而不应视为限制本申请的范围。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市场购买获得的常规产品。

部分术语定义，除非在下文中另有定义，本申请具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解，但仍然阐述以下定义以更好地解释本申请。

本申请中的术语“大约”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10％，优选±5％。

如本申请中所使用，术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的，且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案，这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。

此外，说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类，是用于区分相似的元素，不是描述顺序或时间次序必须的。应理解，如此应用的术语在适当的环境下可互换，并且本申请描述的实施方案能以不同于本申请描述或举例说明的其它顺序实施。

下面结合具体实施例来阐述本申请。

实施例1血液ctDNA背景噪声突变联合过滤模型构建

如图1B所示，本申请ctDNA背景噪声突变联合过滤模型构建过程包括以下步骤：

a.从正常人血液样本提取cfDNA并进行cfDNA靶向捕获和测序；

b.通过NSG平台对捕获的基因进行测序，获得高通量测序序列并进行质控，将质控后的序列比对到人参考基因组hg19上，并去除重复序列；

c.基于人参考基因组比对数据分析并获取每个正常人cfDNA样本中每个位点的测序深度和该位置碱基突变到任意其它三种非参考碱基的突变频率；

d.获取正常人cfDNA样本中的背景突变和人类胚系突变：其中人类胚系突变的突变频率一般分布在0.5和1(杂合和纯合突变)且在人群数据库中存在一定的人群发生频率，而背景突变的突变频率一般分布在0.2以下，因此，将正常人cfDNA样本中突变频率小于0.2的突变作为真实背景突变并将其他位点作为人类胚系突变进行过滤；

e.二项分布背景突变噪声过滤模型的构建：统计并获取上述d中得到的每个真实背景突变在正常人cfDNA样本中累积的测序深度N_m和背景突变的支持序列数n_m，该统计结果符合以下二项式概率模型，以此构建二项分布背景突变噪声过滤模型；其中m表示背景突变位点，p_m表示在该背景突变位点在正常人cfDNA样本中的累积背景错误率，N_m为该背景突变位点在正常人cfDNA样本中总的测序深度，n_m为该背景突变位点在正常人cfDNA样本中总的支持序列数，P(X＝n_m)表示该背景突变位点支持数为n_m时的概率：

f.背景Context突变特征回归模型构建：获取每个背景突变的Context突变特征(三碱基突变，是指12种基础单碱基突变形式A>T、A>G、A>C、C>A、C>T、C>G、G>A、G>C、G>T、T>A、T>C、T>G与该位置参考基因组上下游各一个碱基的组合，共有192种)在正常人cfDNA样本中的测序深度N和背景突变模式的支持序列数n，统计在不同支持序列数下累积的背景错误率。结果如图2-5示例所示，背景Context突变特征的支持序列数与累积背景错误率符合逻辑回归模型。

以此构建针对192种背景Context突变特征的逻辑回归过滤模型，其中m表示背景突变的Context突变特征，k_m为该Context突变特征的支持序列数，a为确定常数项，b为回归系数，P(X≥k_m)表示Context突变特征的支持序列数大于等于k_m时的概率：

实施例2双重背景噪声突变去除方法

如图1所示，本申请背景噪声突变去除过程包括以下步骤：

1)肿瘤cfDNA使用单分子标签(UMI，Unique Molecular Identifier)建库并靶向捕获测序；

2)上述获得高通量测序序列进行质控，去除低质量测序序列后比对到人参考基因组hg19上得到BAM比对结果；

3)针对上述BAM比对结果，基于双端固定单分子标签(UMI)的参考基因组比对数据的去重和序列一致性矫正，得到背景突变噪声矫正后的BAM比对结果；

4)突变检测：基于上述3)中一致性矫正和去重后的BAM比对结果，获取单核苷酸位点变异(SNV)与小片段插入缺失变异(INDEL)

5)背景噪声突变联合过滤模型的构建：如图1B所示，ctDNA背景噪声突变联合过滤模型构建过程包括以下步骤：

a.从正常人血液样本提取cfDNA并进行cfDNA靶向捕获和测序；

f.背景Context突变特征回归模型构建：获取每个背景突变的Context突变特征(三碱基突变，是指12种基础单碱基突变形式A>T、A>G、A>C、C>A、C>T、C>G、G>A、G>C、G>T、T>A、T>C、T>G与该位置参考基因组上下游各一个碱基的组合，共有192种)在正常人cfDNA样本中的测序深度N和背景突变模式的支持序列数n，统计在不同支持序列数下累积的背景错误率。如图2示例所示，背景Context突变特征的支持序列数与累积背景错误率符合逻辑回归模型。

以此构建针对192种背景突变噪声的Context突变特征逻辑回归过滤模型，其中m表示背景突变的Context突变特征，k_m为该Context突变特征的支持序列数，a为确定常数项，b为回归系数，P(X≥k_m)表示Context突变特征的支持序列数大于等于k_m时的概率：

6)二项分布模型的背景噪声突变过滤，具体过滤过程如下：

a、针对上述4)中每个检测得到的突变，基于该突变位点的序列支持数(k)和该位点的测序深度(n)以及上述5)中构建的二项分布背景突变噪声过滤模型(p)计算该突变位点是背景噪声突变的概率P(Bias)：

P(Bias)＝)ink,n,p

b、基于上述a中计算的概率P(Bias)进行背景噪声突变的过滤，若P(Bias)>α(α为判定阈值)则该位点判定为背景噪声突变并过滤掉，以此进行Panel覆盖范围内特定背景假阳位点的首次过滤；

7)Context突变特征回归模型的背景噪声突变过滤，具体过滤过程如下：

a、针对上述4)中每个检测得到的单碱基突变，获取该突变位点的Context突变特征(三碱基突变，例A(C->T)C)；

b、基于该位点的突变支持序列数(k)以及上述5)中基于该Context突变特征构建的回归模型计算该突变是背景噪声突变的概率P，计算过程如下，其中a和b分别为上述5)中该Context突变特征回归模型的常数项和回归系数：

c、基于上述b中计算的概率P进行背景噪声突变的过滤，若P>α(α为判定阈值)则该位点判定为背景噪声突变并过滤掉，以此基于背景噪声突变的Context突变特征进行背景假阳位点的二次过滤；

8)克隆性造血突变过滤：

a、针对配对白细胞进行单分子标签建库和高深度测序，测序序列矫正后进行参考基因组的比对以及双端固定UMI的去重和背景突噪声变矫正；

b、基于上述a中一致性矫正和去重后的配对白细胞的BAM比对结果，获取配对白细胞的单核苷酸位点变异(SNV)与小片段插入缺失变异(INDEL)；

c、基于克隆性造血突变和胚系突变在cfDNA和配对白细胞中突变频率的分布特征构建Fisher统计分布模型进行克隆性造血突变和胚系突变的过滤；

9)获得真实的来源于循环肿瘤DNA(ctDNA)的突变。

实施例3效果评价

本实施例中8例正常人cfDNA样本和15例肿瘤患者的cfDNA样本均使用双端固定UMI的建库和高深度靶向测序，测序深度60000X；此外，15例肿瘤患者同时进行配对白细胞的双端固定UMI的建库和高深度靶向测序，测序深度10000X。38个样本(包含15个配对白细胞)测序数据，经过序列质控后均使用BWA(v0.7.17)MEM算法进行人参考基因组比对分析；接下来，所有样本均通过双端固定UMI的序列一致性矫正和去重，得到去重和背景突变噪声矫正后的BAM比对结果作为输入文件。所有样本进行突变检测后分别进行本申请中的背景噪声联合过滤模型和克隆性造血突变过滤，用于去除背景噪声突变；另一方面，针对所有样本仅进行突变的基础过滤不进行本申请的背景噪声联合过滤模型和克隆性造血突变过滤，主要进行下述2个方面测试：

1)正常人cfDNA中进行本申请的背景噪声突变去除和未进行背景噪声突变去除情况下背景错误率的比较；

2)所有cfDNA中进行本申请的背景噪声突变去除和未进行背景噪声突变去除情况下低频ctDNA突变检测准确性的比较。

结果如图3所示，在8例正常人cfDNA中，不进行任何背景噪声突变去除时(Conventional)平均背景错误率10^-4，当仅使用双端固定UMI进行序列一致性矫正时(UMI-NoiseReduced)平均背景错误率10^-5，当使用本申请中的背景噪声突变双重过滤方法时(UMI-NoiseReduced+Polished)平均背景错误率已经低至10^-6。综上，本申请中双重背景噪声突变去除方法可以有效的去除cfDNA检测中的背景噪声突变的干扰，整体背景错误率比传统的不进行任何背景噪声突变去除时低了100倍。

15例已知肿瘤突变已经确定的肿瘤患者，如表1所示。结果如图4所示，本申请使用8例正常人cfDNA以及这15例已知肿瘤突变的患者cfDNA评估了本申请中背景噪声突变去除方法对低频ctDNA突变检测准确性的影响。当使用本申请中的双重背景噪声突变去除方法时(UMI-NoiseReduced+Polished)，相比于仅使用序列一致性矫正(UMI-NoiseReducedonly)可以有效的去除正常人和肿瘤患者cfDNA中的背景噪声突变；每个正常人cfDNA中假阳背景假阳突变数目均不多于1个且为非肿瘤相关的稀有突变，不影响患者的MRD检测状态，本申请中的方法保证了低频ctDNA突变检测和MRD检测的特异性；另一方面，在肿瘤患者cfDNA中应用本申请中的方法不仅能够有效的去除背景噪声突变，同时低频真实ctDNA突变可以有效检出，保证了低频ctDNA突变和MRD中极低含量ctDNA信号检测的准确性。

表1 15例肿瘤患者cfDNA中真实的ctDNA突变信息

22030111	EGFR	p.T790M
			22030111	EGFR	p.L858R
22030112	EGFR	p.C797S
			22030113	KRAS	p.G12D
22030114	EGFR	p.L718M
			22030115	EGFR	p.C797S
22030115	EGFR	p.L858R
			22030117	KRAS	p.G13D
22030118	KRAS	p.K117N
			22030119	PIK3CA	p.E545K
22030120	U2AF1	p.S34F
			22030120	PIK3CA	p.E545K
22030122	BRAF	p.V600_K601delinsE
			22030122	BRAF	p.V600E
22030123	EGFR	p.E746_A750del
			22030123	TP53	p.R248W
22030124	EGFR	p.L858R
			22030124	EGFR	p.T790M
22030125	KRAS	p.G12A
			22030126	KRAS	p.G12D
22030127	EGFR	p.C797S
			22030111	EGFR	p.T790M

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种血液循环肿瘤DNA背景噪声突变联合过滤模型的构建方法，其特征在于，所述方法包括如下步骤：

a.正常人血液cfDNA样本靶向捕获和测序；

b.序列质控和参考基因组比对；

c.测序深度和碱基突变频率获取：

d.背景突变获取和胚系突变过滤：

e.二项分布背景突变噪声过滤模型构建：统计并获取d中得到的每个真实背景突变在正常人cfDNA样本中累积的测序深度和背景突变的支持序列数，以此构建二项分布背景突变噪声过滤模型；

f.背景Context突变特征回归模型构建：获取每个背景Context突变特征在正常人cfDNA样本中的测序深度和背景Context突变特征的支持序列数，统计在不同支持序列数下累积的背景错误率，构建背景Context突变特征回归模型；

所述步骤b具体为：对NSG测序序列进行质控，并将质控后序列比对到人参考基因组；

所述步骤c具体为：基于人参考基因组比对数据获取每个正常人cfDNA样本中每个位点的测序深度和该位置碱基突变到任意其它三种非参考碱基的突变频率；

所述步骤d具体为：获取正常人cfDNA样本中突变频率小于0.2的突变作为真实背景突变，将其他位点作为人类胚系突变进行过滤；

所述步骤e中，所述二项分布背景突变噪声过滤模型为：

其中，P(X＝n_m)表示该背景突变位点支持数为n_m时的概率，m为背景突变位点，p_m为该背景突变位点在正常人cfDNA样本中的累积背景错误率，N_m为该背景突变位点在正常人cfDNA样本中总的测序深度，n_m为该背景突变位点在正常人cfDNA样本中总的支持序列数；

所述步骤f中，所述背景Context突变特征回归模型为：

2.一种基于血液循环肿瘤DNA的双重背景噪声突变的去除方法，其特征在于，包括如下步骤：

1)肿瘤cfDNA靶向捕获测序；

2)突变检测，获取所有SNV和/或INDEL突变结果；

3)背景噪声突变联合过滤模型构建：所述构建基于权利要求1所述方法构建；

4)二项分布模型的背景噪声突变过滤：

5)背景Context突变特征回归模型的背景噪声突变过滤；

6)克隆性造血突变过滤；

所述步骤1)中，靶向捕获测序为使用单分子标签UMI建库并靶向捕获测序；在测序后还包括测序质控步骤和去重和序列矫正步骤；所述测序质控为：高通量测序后并去除低质量序列，再比对到人参考基因组得到比对结果；所述去重和序列矫正为：基于双端固定单分子标签UMI的参考基因组比对数据去重和序列一致性矫正，得到背景突变噪声矫正后的比对结果；

所述步骤2)突变检测为：基于去重和序列矫正后的测序比对结果，获取所有SNV和/或INDEL突变结果；

所述步骤4)中二项分布模型的背景噪声突变过滤具体为：

针对步骤2)中每个检测得到的SNV和/或INDEL突变，基于该突变位点的序列支持数k和该位点的测序深度n以及步骤3)中构建的二项分布背景突变噪声过滤模型计算该突变位点是背景噪声突变的概率P(Bias)：

P(Bias)＝Bin(k,n,p)

基于计算的概率P(Bias)进行背景噪声突变过滤，若P(Bias)大于判定阈值则该位点判定为背景噪声突变并过滤掉，以此进行背景假阳位点的首次过滤；

所述步骤5)中背景Context突变特征回归模型的背景噪声突变过滤具体为：

针对步骤2)中每个检测得到的单碱基突变SNV，获取该突变位点的Context突变特征；基于该位点的突变支持序列数k以及步骤3)构建的背景Context突变特征回归模型计算该突变是背景噪声突变的概率P，

其中，a、b分别为步骤3)中背景Context突变特征回归模型的常数项和回归系数；

基于概率P进行背景噪声突变过滤，若P大于判定阈值则该位点判定为背景噪声突变并过滤掉，以此进行背景假阳位点的二次过滤；

所述步骤6)克隆性造血突变过滤具体为：

i.针对配对白细胞进行单分子标签建库和高深度测序，测序序列矫正后进行参考基因组的比对以及双端固定UMI的去重和背景突噪声变矫正；

ii.基于i中一致性矫正和去重后的配对白细胞的比对结果，获取配对白细胞的SNV与INDEL；

iii.基于克隆性造血突变和胚系突变在cfDNA和配对白细胞中突变频率的分布特征构建Fisher统计分布模型进行克隆性造血突变和胚系突变的过滤。

3.一种电子设备，其特征在于，包括：处理器和存储器；所述处理器和存储器相连，其中，

所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如权利要求1所述的方法。

4.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1所述的方法。