检测基因突变的装置和用于对孕妇和胎儿的基因型进行分型
的试剂盒
技术领域
本发明涉及生物信息领域,具体而言,涉及一种检测基因突变的装置和用于对孕妇和胎儿的基因型进行分型的试剂盒。
背景技术
产前诊断又称宫内诊断,是指胎儿出生前采用各种方法预测其是否有先天性疾病(包括畸形和遗传性疾病),为能否继续妊娠提供科学依据。其中,遗传性疾病的产前诊断主要针对染色体病及孟德尔遗传病(Mendelian inheritant disease)。孟德尔遗传病是指按照孟德尔遗传方式进行传递的疾病,通常由一对等位基因控制的单个基因突变引起,涉及单个核苷酸到整个基因改变,故又称单基因病(single-genedefects)。截至到2013年6月25日,OMIM(online mendelian inheritance in man)数据库已收人分子机制明确的单基因病4912种,涉及致病基因2992个。
从目前产前检测的策略来看,基因诊断可以分为直接基因诊断和间接基因诊断两大类。直接基因诊断即直接检测致病基因本身,此类方法主要适用于先证者基因突变位点、类型、致病性明确的家系。从目前单基因病产前诊断的检测项目来看,根据诊断时间段的不同,分为植入前遗传学诊断(PGD)和妊娠期产前诊断两种。高通量测序技术的发展大大加速了临床检测技术的革新。
妊娠产前诊断包括有创产前诊断和无创产前诊断。无创产前诊断又称非侵入性的产前诊断技术(non-invasive prenatal diagnosis,NIPD)。随着母亲血浆中存在胎儿游离DNA(cffDNA)的发现,无创产前诊断因其风险低的优势越来越受到欢迎。但由于母源DNA与胎儿游离DNA差异极小,大量母源DNA背景无疑增加了对于胎儿游离DNA检测的难度,这一点尤其表现在点突变的检测方面。
最近,Liao等和Lo等通过对妊娠妇女血浆游离DNA进行高达65x人类基因组覆盖度的测序分析,检测出胎儿携带有不少于父源95%的特异性SNP,通过测序结果推导出胎儿和妊娠妇女基因组遗传图谱,成功检测出1例胎儿遗传了父亲的地中海贫血症基因4bp的已知碱基突变。
上述方法虽然能够通过对妊娠妇女血浆游离DNA的测序分析推导出胎儿的基因组遗传图谱,但需要结合父亲来源的遗传信息。对多个样本进行测序无疑会增加大量测序成本,对父亲来源遗传信息的依赖也可能受到限制。上述方法同时还存在需要全基因组测序、对测序深度要求高和仅能判断与父源相关突变的问题。因此,仍需要对现有的检测方法进行改进。
发明内容
本发明旨在提供一种检测基因突变的装置和用于对孕妇和胎儿的基因型进行分型的试剂盒,以对测序数据范围内的胎儿所有SNP进行检测,同时降低检测成本。
为了实现本发明的上述目的,根据本发明的一个方面,提供了一种检测基因突变的装置,该装置包括:检测模块,用于对孕妇外周血中的游离DNA进行高通量测序,得到测序数据;比对模块,用于将测序数据与参考基因组序列进行比对,得到SNP位点;目标混合基因型确定模块,用于采用贝叶斯模型和初始胎儿浓度f对各SNP位点进行混合基因型分型,得到各SNP位点的七种混合基因型中最大概率的混合基因型,并将最大概率的混合基因型作为各SNP位点的目标混合基因型;以及突变位点筛选模块,用于根据各SNP位点的目标混合基因型中的胎儿基因型筛选出导致胎儿基因突变的突变位点;其中,混合基因型是指孕妇和胎儿组成的假四倍体的基因型,混合基因型为AAAA、AAAB、ABAA、ABAB、ABBB、BBAB和BBBB七种中的任意一种,将AAAA、AAAB、ABAA、ABAB、ABBB、BBAB和BBBB按顺序依次编号为第1种、第2种、第3种、第4种、第5种、第6种和第7种,A表示各SNP位点的参考基因型,B表示各SNP位点的突变基因型。
进一步地,目标混合基因型确定模块包括:预估模块,用于采用贝叶斯模型和初始胎儿浓度f计算得到各SNP位点的七种混合基因型中概率最大的混合基因型,并将概率最大的混合基因型作为初始混合基因型;选取模块,用于选取方便计算第二胎儿浓度的初始混合基因型作为第二混合基因型;计算模块,用于根据第二混合基因型及测序数据,计算得到第二胎儿浓度f’;比较模块,用于比较第二胎儿浓度f’与初始胎儿浓度f,得到差值△f;判断模块,用于判断差值△f与设定值的关系;循环模块,用于当△f大于设定值时,将f’作为f重复执行预估模块、选取模块、计算模块、比较模块以及判断模块;标记模块,用于当△f在设定值以下时,将初始胎儿浓度f对应的初始混合基因型记为目标混合基因型。
进一步地,目标混合基因型确定模块采用贝叶斯模型和初始胎儿浓度f对各SNP位点进行混合基因型分型,得到各SNP位点的七种混合基因型中最大概率的混合基因型的步骤包括:根据七种混合基因型的条件概率和为1得到下列公式(1),其中Gj表示七种所述混合基因型中的任一种,S表示各SNP位点中的某一位点,
ΣP(Gj|S)=1 (1)
P(Gj|S)表示某一SNP位点如S一样时,SNP位点的混合基因型是Gj的概率;由贝叶斯模型得到下列公式(2)
在公式(2)中,P(Gij)表示在第i个SNP位点上出现Gj基因型的概率,j值与按顺序依次编号的混合基因型相对应分别为1、2、3、4、5、6或7;
从Gj中选取任意一种混合基因型Gj*为基准,则由公式(2)得出以下公式(3):
将公式(2)与公式(3)两边相除,得到下列公式(4)
其中,表示在Si条件下,第i个SNP位点的混合基因型为Gj的概率与第i个SNP位点的混合基因型为Gj*的概率的比值;P(Gij)通过群体突变频率计算得到,P(Si|Gij)通过利用各SNP位点上出现的突变等位基因的次数、与突变等位基因相应的参考等位基因的次数以及初始胎儿浓度,通过负二项分布公式得到;然后由下列公式(5)
找到七种混合基因型中出现概率最大的混合基因型,将出现概率最大的混合基因型记为第i个SNP位点上的最大概率的混合基因型。
进一步地,上述公式(4)中的P(Gij)通过以下公式(6)
中孕妇的基因型G’的概率与胎儿的基因型G’的概率相乘得到,其中,θ为第i个SNP位点的群体突变频率。
进一步地,上述公式(4)中的P(Si|Gij)通过以下公式(7)计算得到:
其中,r代表第i个SNP位点上出现突变等位基因的次数,k第i个SNP位点上出现参考等位基因的次数,f(b)代表第i个SNP位点的混合基因型为Gij时,理论上胎儿出现突变等位基因的概率。
进一步地,第i个SNP位点的混合基因型为Gij时理论上胎儿出现突变等位基因的概率f(b),根据混合基因型Gij的不同,分别按如下方式计算:当混合基因型Gij为Gi1时,f(b)的值为0;当混合基因型Gij为Gi2时,f(b)的值为f/2;当混合基因型Gij为Gi3时,f(b)的值为0.5-f/2;当混合基因型Gij为Gi4时,f(b)的值为0.5;当混合基因型Gij为Gi5时,f(b)的值为0.5+f/2;当混合基因型Gij为Gi6时,f(b)的值为1-f/2;当混合基因型Gij为Gi7时,f(b)的值为1;其中,f代表初始胎儿浓度。
进一步地,预估模块中的初始胎儿浓度为预估胎儿浓度,优选地,预估胎儿浓度为10%,更优选,判断模块中的设定值≤0.001。
进一步地,计算模块中的第二混合基因型选自如下四种混合基因型中的任意一种或多种:AAAB、ABAA、ABBB以及BBAB。
进一步地,突变位点筛选模块包括:高发多态性位点过滤子模块:用于将各SNP位点的目标混合基因型中的胎儿基因型中属于人群高发的多态性位点进行过滤,得到初步候选突变位点;基因突变位点筛选子模块:用于从初步候选突变位点中的导致同义突变、无义突变以及发生在非保守区域的SNP位点过滤掉,得到候选突变位点;文献及临床资料筛查子模块:用于对候选突变位点进行文献筛查和临床资料筛查,得到导致胎儿基因突变的突变位点。
根据本发明的另一个方面,提供了一种用于对孕妇和胎儿的基因型进行分型的试剂盒,该试剂盒包括:用于从孕妇外周血血浆中富集游离DNA进行高通量测序的试剂和器械;用于将高通量测序得到的测序数据与参考基因组比对得到SNP位点的器械;以及用于采用贝叶斯模型和初始胎儿浓度f得到各SNP位点的七种混合基因型中最大概率的混合基因型,并将最大概率的混合基因型作为各SNP位点的目标混合基因型的器械;其中,混合基因型是指孕妇和胎儿组成的假四倍体的基因型,混合基因型为AAAA、AAAB、ABAA、ABAB、ABBB、BBAB和BBBB七种中的任意一种,将AAAA、AAAB、ABAA、ABAB、ABBB、BBAB和BBBB按顺序依次编号为第1种、第2种、第3种、第4种、第5种、第6种和第7种,A表示各SNP位点的参考基因型,B表示各SNP位点突变基因型。
进一步地,获取各SNP位点的目标混合基因型的器械包括:第一计算元件,用于采用贝叶斯模型和初始胎儿浓度f对各SNP位点进行混合基因型分型,得到各SNP位点的7种混合基因型中概率最大的混合基因型,并将概率最大的混合基因型作为初始混合基因型;选取元件,用于选取方便计算第二胎儿浓度的初始混合基因型,记为第二混合基因型;第二计算元件,用于根据第二混合基因型及测序数据,计算得到第二胎儿浓度f’;比较元件,用于比较第二胎儿浓度f’与初始胎儿浓度f,得到差值△f;判断元件,用于判断△f是否大于设定值;以及循环元件,用于当△f大于设定值时,将f’作为f重复操作第一计算元件、选取元件、第二计算元件、比较元件以及判断元件;标记元件,用于当△f在设定值以下时,将初始胎儿浓度f对应的初始混合基因型标记为目标混合基因型。
进一步地,获取目标混合基因型的器械中采用贝叶斯模型和初始胎儿浓度f对各SNP位点进行混合基因型分型,得到各SNP位点的七种混合基因型中最大概率的混合基因型的步骤包括:根据七种混合基因型的条件概率和为1得到下列公式(1),其中Gj表示七种混合基因型中的任一种,S表示各SNP位点中的某一位点,
ΣP(Gj|S)=1 (1)
P(Gj|S)表示某一SNP位点如S一样时,SNP位点的混合基因型是Gj的概率;由贝叶斯模型得到下列公式(2)
在公式(2)中,P(Gij)表示在第i个SNP位点上出现Gj基因型的概率,j值与按顺序依次编号的混合基因型相对应分别为1、2、3、4、5、6或7;
从Gj中选取任意一种混合基因型Gj*为基准,则由公式(2)得出以下公式(3):
将公式(2)与公式(3)两边相除,得到下列公式(4)
其中,表示在Si条件下,第i个SNP位点的混合基因型为Gj的概率与第i个SNP位点的混合基因型为Gj*的概率的比值;P(Gij)通过群体突变频率计算得到,P(Si|Gij)通过利用各SNP位点上出现的突变等位基因的次数、与突变等位基因相应的参考等位基因的次数以及初始胎儿浓度,通过负二项分布公式得到;然后由下列公式(5)
找到七种混合基因型中出现概率最大的混合基因型,将出现概率最大的混合基因型记为第i个SNP位点上的初始混合基因型。
进一步地,公式(4)中的P(Gij)通过以下公式(6)
中孕妇的基因型G’的概率与胎儿的基因型G’的概率相乘得到,其中,θ为第i个SNP位点的群体突变频率。
进一步地,公式(4)中的P(Si|Gij)通过以下公式(7)计算得到:
其中,r代表第i个SNP位点上出现突变等位基因型的次数,k代表第i个SNP位点上出现参考等位基因型的次数,f(b)代表第i个SNP位点的混合基因型为Gij时,理论上出现突变等位基因型的概率。
进一步地,公式(7)中的f(b),根据混合基因型Gij的不同,分别按如下公式计算:当混合基因型Gij为Gi1时,f(b)的值为0;当混合基因型Gij为Gi2时,f(b)的值为f/2;当混合基因型Gij为Gi3时,f(b)的值为0.5-f/2;当混合基因型Gij为Gi4时,f(b)的值为0.5;当混合基因型Gij为Gi5时,f(b)的值为0.5+f/2;当混合基因型Gij为Gi6时,f(b)的值为1-f/2;当混合基因型Gij为Gi7时,f(b)的值为1;其中,f代表初始胎儿浓度。
进一步地,预估元件中的初始胎儿浓度为预估胎儿浓度,优选地预估胎儿浓度为10%,判断元件中的设定值≤0.001。
进一步地,第二计算元件中的第二混合基因型选自如下四种混合基因型中的任意一种或多种:AAAB、ABAA、ABBB以及BBAB。
应用本发明的技术方案,通过检测模块及与比对模块,得到母本和胎儿基因组信息中与参考基因组不同的SNP位点,并通过利用目标混合基因型确定模块对孕妇和胎儿组成的假四倍体的混合基因型进行分型,得到各SNP位点上母本和胎儿的基因型,从而实现了仅利用孕妇外周血样本便能检测出胎儿所有可能的基因突变的情况。该装置无需对父亲来源或者母亲来原的样本进行单独的测序,实现了仅利用孕妇外周血的测序数据既能检测出胎儿所有可能的基因突变,为胎儿基因检测提供了便利和多样化的服务。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本申请一种优选实施例中一种检测基因突变的装置结构示意图;
图2示出了本申请的实施例1中的操作流程图;以及
图3示出了本申请的实施例2采用现有方法进行验证的结果图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
名词解释:
群体突变频率是指某种基因在某个特定种群内出现突变的比例,如亚洲人千人突变频率。
设定值反应的是检测分辨率的高低,可以根据测序的实际情况进行合理设定,例如,在测序深度≥1000×时,优选的设定值≤0.001。
胎儿浓度即孕妇血浆中胎儿游离DNA占血浆总游离DNA的比例。胎儿浓度f可以通过本领域技术人员公知的实验方法获得,也可以根据本领域公知常识初步预估,例如为5~20%。
在本发明中,对孕妇外周血中游离DNA的高通量测序可以是全测序,或者对所关注基因的目标区域的捕获芯测序。
在本发明中,混合基因型是指孕妇和胎儿组成的假四倍体的基因型,A和B均为单倍型。混合基因型的前两个单倍型表示母亲的二倍体基因型,后两个单倍型表示胎儿的二倍体基因型。其中,A表示各SNP位点的参考基因型,B表示各SNP位点的突变基因型。对于测序数据的某个位点,若其与在参考基因组的对应位点的碱基一致则为参考基因型,反之则为突变基因型。混合基因型,例如可以是AAAB,其表示:母亲的二倍体基因型是AA且为纯合参考型,胎儿的二倍体基因型是AB且为携带突变型。
在本发明中,群体突变频率是指在特定群体内发生某种突变的细胞或个体数的比例,如亚洲人千人突变频率。
测序数据,是指高通量测序平台所能输出的待测样本的全部数据信息,包括例如,read名称、碱基序列以及碱基序列中每个碱基的质量值等。
SNP位点,是测序数据中与参考基因组序列中碱基类型不同的位点,其具体信息包括如,该位点所在的染色体编号、在该染色体上的位置、参考碱基类型/突变碱基型、参考碱基类型的数量/突变碱基类型的数量等。
本发明的公式(1)中的S表示任意一个SNP位点。公式(2)中i表示SNP位点的编号,例如1、2、3……,Si表示第i个SNP位点。
正如背景技术部分提到的,现有技术中利用高通量测序检测胎儿基因突变的方法,通常需要借助于额外的父源和母源的样品信息,且仅能检测与Y染色连锁的单基因遗传病。为了降低检测成本,并提供给多样化的产前检测服务,在本发明一种典型的实施方式中,提供了一种检测基因突变的方法,该方法包括以下步骤:将孕妇外周血中的游离DNA进行高通量测序,得到测序数据;将测序数据与参考基因组进行比对得到SNP位点;采用贝叶斯模型和初始胎儿浓度f对各所述SNP位点进行混合基因型分型,得到各SNP位点的七种混合基因型中最大概率的混合基因型,并将最大概率的混合基因型作为各SNP位点的目标混合基因型;根据目标混合基因型中胎儿的基因型筛选出导致胎儿基因突变的突变位点;其中,混合基因型是指孕妇和胎儿形成的假四倍体的基因型,混合基因型为AAAA、AAAB、ABAA、ABAB、ABBB、BBAB和BBBB所组成的七种中的任一种,且将AAAA、AAAB、ABAA、ABAB、ABBB、BBAB和BBBB按顺序依次编号为第1种、第2种、第3种、第4种、第5种、第6种和第7种,A表示各SNP位点的参考基因型,B表示各SNP位点突变基因型。
基于孕妇外周血中游离DNA既包含母亲的DNA又包含胎儿的DNA,而且利用目前的技术手段难以将两种来源的DNA进行彻底分离这一事实,发明人提出的假四倍体的概念,将孕妇和胎儿混合得到的四倍体称为假四倍体,并在基因组的各位点上,由孕妇的基因型和胎儿的基因型混合得到的该位点的基因型称为混合基因型。为了检测各位点上出现突变基因型的概率,用A表示该位点上的正常的参考基因型;用B表示该位点的突变基因型。
通过将孕妇在各位点上的二倍体基因型放在前面,胎儿在对应位点上的二倍体基因型放在后面,来表示假四倍体在某一位点上的混合基因型,就得到AAAA、AAAB、ABAA、ABAB、ABBB、BBAB和BBBB七种可能的混合基因型,通过测序数据推算出各SNP位点上最大概率的混合基因型即可得到在该位点的目标混合基因型,进而从目标混合基因型中获得胎儿的基因型。
进一步,发明人提出了利用条件概率和贝叶斯模型对上述假四倍体的混合基因型进行分型的思想。
本发明的上述方法,通过仅对母亲外周血中的游离DNA进行高通量测序和序列比对,得到混有母本和胎儿基因组信息的SNP位点,并通过利用本发明所提出的混合基因型分型的概念对孕妇外周血中游离的胎儿在各SNP位点上的基因型和母本在各SNP位点上的基因型进行分型,从而实现仅利用孕妇外周血便能检测出胎儿所有可能的基因突变的情况。一方面减少了对父源和母源样本的测序,降低测序成本;另一方面也为某些特殊条件下,如父源样本无法获取的情况下,对胎儿基因突变情况的检测提供了便利,为产前诊断提供了多样化的服务。
在本发明的上述方法中,本领域技术人员可以在本发明所提出的假四倍体及假四倍体的混合基因型分型概念的基础上,能够利用条件概率和贝叶斯模型对假四倍体的混合基因型进行分型,进而得到胎儿在SNP位点上的基因型,为筛选导致胎儿基因突变的突变位点奠定基础。根据孕妇外周血样本来源的不同,其中的初始胎儿浓度分为已知或未知两种情况,当已知胎儿浓度时,初始胎儿浓度f即为真实的胎儿浓度。利用初始胎儿浓度f和贝叶斯模型即可计算得到各SNP位点的最大概率的混合基因型。而当胎儿浓度未知时,需要进行真实胎儿浓度的推定过程。
在本发明一种优选的实施例中,当初始胎儿浓度不是真实胎儿浓度时,获取目标混合基因型的步骤包括:步骤C1,采用贝叶斯模型和初始胎儿浓度f对各SNP位点进行混合基因型分型,得到各SNP位点的七种混合基因型中最大概率的混合基因型,并将最大概率的混合基因型作为各SNP位点的初始混合基因型;步骤C2,选取方便计算第二胎儿浓度的初始混合基因型作为第二混合基因型;步骤C3,根据第二混合基因型及测序数据,计算得到第二胎儿浓度f’;步骤C4,比较第二胎儿浓度f’与初始胎儿浓度f,得到差值△f;步骤C5,判断差值△f与设定值的关系;步骤C6,当△f大于设定值时,将f’作为f重复步骤C1至步骤C5;当△f在设定值以下时,初始胎儿浓度f对应的初始混合基因型即为目标混合基因型。
上述假四倍体的混合基因型分型步骤中,由于胎儿浓度未知,通过根据常识初步预估的胎儿浓度,例如5~15%,作为初始胎儿浓度计算,在该胎儿浓度下七种可能的混合基因型出现的概率,从而得到各个SNP位点上概率最大的混合基因型。结合实际测序数据,通过突变来自母体或胎儿一方的基因突变来计算实际的胎儿浓度,然后将此时计算得到的胎儿浓度与预估的初始胎儿浓度进行比较,若差值小于某一设定值,则需要将此时计算得到的胎儿浓度作为步骤C1中的初始浓度,重新经过步骤C1到步骤C5的步骤,直到某次计算得到的胎儿浓度与该循环中步骤C1中的初始浓度差值小于设定值时,终止循环,并将该循环中步骤C1中的初始浓度下的各个SNP位点上概率最大的混合基因型记为各个SNP位点的目标混合基因型。上述设定值反应的是检测分辨率的高低,可以根据实际情况进行合理设定。例如,在测序深度≥1000×时,优选的设定值≤0.001。
上述优选实施例中,便于计算胎儿浓度的混合基因型的选取原则可以根据计算方法的不同进行合理选择。在本发明一种优选的实施例中,上述胎儿浓度计算混合基因型包括但不仅限于AAAB、ABAA、ABBB以及BBAB中的任意一种或多种。这些混合基因型中的突变等位基因或者参考等位基因仅来自孕妇或胎儿一方,根据测序数据中突变等位基因和参考等位基因被测到的次数,即可计算其中一方的浓度,从而很容易得到胎儿的浓度。
在本发明一种优选的实施例中,上述采用贝叶斯模型和初始胎儿浓度f对各SNP位点进行混合基因型分型,得到各SNP位点的七种混合基因型中最大概率的混合基因型的步骤包括:根据七种混合基因型的条件概率和为1得到下列公式(1),其中Gj表示七种混合基因型中的任一种,S表示各SNP位点中的
∑P(Gj|S)=1 (1)某一位点,P(Gj|S)表示某一SNP位点如S一样时,SNP位点的混合基因型是Gj的概率;由贝叶斯模型得到下列公式(2)
在公式(2)中,P(Gij)表示在第i个SNP位点上出现Gj基因型的概率,j值与按顺序依次编号的混合基因型相对应分别为1、2、3、4、5、6或7;从Gj中选取任意一种混合基因型Gj*为基准,则由公式(2)得出以下公式(3):
将公式(2)与公式(3)两边相除,得到下列公式(4)
其中,表示在Si条件下,第i个SNP位点的混合基因型为Gj的概率与第i个SNP位点的混合基因型为Gj*的概率的比值;P(Gij)通过群体突变频率计算得到,P(Si|Gij)通过利用各SNP位点上出现的突变等位基因的次数、与突变等位基因相应的参考等位基因的次数以及初始胎儿浓度f,通过负二项分布公式得到;然后由下列公式(5)
找到七种混合基因型中出现概率最大的混合基因型,将出现概率最大的混合基因型记为第i个SNP位点的最大概率的混合基因型。
在本发明的上述优选实施例中,通过将某一SNP位点上的最大概率的混合基因型的计算方法转化为计算在该SNP位点出现上述七种混合基因型的概率与出现其中某一种混合基因型的概率的比值,间接得到在该SNP位点上出现概率最大的混合基因型,进而推定为该位点的初始混合基因型。
在本发明的上述方法中,在已知某一位点上出现某种突变基因型的情况下,本领域技术人员能够利用千人基因组的数据库中的群体突变频率计算出公式(4)中的P(Gij)。在本发明一种优选的实施例中,P(Gij)通过以下公式(6)
计算得到。在上述公式(6)中,G’代表孕妇或胎儿在某一位点分别出现上述三种可能的基因型,则该特定位点上混合基因型出现的概率即为孕妇在该位点出现基因型G’的概率与胎儿在该位点出现基因型G’的概率的乘积,其中,θ为第i个SNP位点的群体突变频率。该参数θ通过千人基因组的数据库的群体频率得到。
在本发明的上述方法中,P(Si|Gij)的数值根据实际测序数据中,某一位点为特定的混合基因型Gij时,出现突变等位基因的次数与出现参考等位基因的次数的不同以及初始胎儿浓度的差异利用负二项分布公式得到。在本发明一种具体的实施例中,公式(4)中的P(Si|Gij)通过以下公式(7)计算得到:
其中,r代表第i个SNP位点上出现等位基因的次数,k第i个SNP位点上出现参考等位基因的次数,f(b)代表第i个SNP位点的混合基因型为Gij时理论上胎儿出现突变等位基因的概率。
在上述实施例中,f(b)与孕妇外周血中胎儿游离DNA的浓度有关,利用常规的胎儿浓度的计算方法,如Fetal Quant进行计算即可(参见文献Lench N,Barrett A,FieldingS,et al.The clinical implementation of non-invasive prenatal diagnosis forsingle-gene disorders:challenges and progress made[J].Prenatal diagnosis,2013,33(6):555-562.)。在获得胎儿浓度之后,根据某位点为混合基因型中的某一种时,推测得到该混合基因型的父本可能的基因型,从而推算出某一特定混合基因型出现时,理论上出现突变等位基因的概率。
如前述,本发明中的初始胎儿浓度利用最大期望算法进行迭代计算后得到最终的第二胎儿浓度与初始胎儿浓度的差值与设定值无明显区别时,认为此时的初始胎儿浓度或者第二胎儿浓度为该样本中胎儿的真实浓度。假设初始胎儿浓度(预估胎儿浓度)f为10%,计算当f=10%时所有SNP位点的混合基因型,利用混合基因型实际检测的参考等位基因与突变等位基因的频率计算实际的胎儿浓度f’(第二胎儿浓度f’),如果f’与f之间的差值小于设定的值,则迭代结束,迭代结束时对应的f’即为真实胎儿浓度。更优选,上述设定值小于等于0.001。
具体来说,采用以下算法对真实胎儿浓度进行计算:
第0步:预估胎儿浓度f为10%;
迭代:
第1步:根据混合基因型分型推断胎儿基因型,并根据基因型中的f(b)计算胎儿浓度f’;
第2步:计算△f,其中△f=D(f-f’);
第3步:如果△f<ε,迭代停止,其中ε代表任意小的正数;
第4步:胎儿浓度f=f(b);
其中,函数D()代表距离函数,衡量的是两个变量之间的差异。
下面举例说明此处真实胎儿浓度的计算过程:
假如,选择了3个SNP位点进行计算,假设都为AAAB型,f为初始预估的胎儿浓度,f’为根据检测出的A和B的频率推算的第二胎儿浓度。
第一个SNP,检测到A 19次,B 1次,假设f=10%,计算7种基因型的概率值,比较获得该SNP的混合基因型为AAAA,其不符合AAAB的假设,应当去除;
第二个SNP,检测到A 16次,B 4次,假设f=10%,计算7种基因型的概率值,比较获得该SNP的混合基因型为AAAB,符合AAAB的假设;此时f’=40%;
第三个SNP,检测到A 18次,B 2次,假设f=10%,计算7种基因型的概率值,比较获得该SNP的混合基因型AAAB,符合AAAB的假设;此时f’=20%。
综合3个SNP的情况,第二三个采信,第一个排除,则f’的平均值为30%,假设的f与检测推算的f’之间的差值大于0.001,需要继续进行迭代计算直到之间的差值小于0.001为止。
本发明的上述通过迭代算法计算得到胎儿浓度f的方法相比现有技术中男胎用X染色体,女胎用甲基化的方法计算胎儿浓度f的方法相比,具有不仅准确性高、而且不受性别限定的优点。
利用上述方法得到胎儿浓度后,便可计算上述第i个SNP位点的混合基因型为Gij时,理论上出现等位基因的概率f(b),根据混合基因型Gij的不同,分别按如下公式计算:当混合基因型Gij为Gi1时,f(b)的值为0;当混合基因型Gij为Gi2时,f(b)的值为f/2;当混合基因型Gij为Gi3时,f(b)的值为0.5-f/2;当混合基因型Gij为Gi4时,f(b)的值为0.5;当混合基因型Gij为Gi5时,f(b)的值为0.5+f/2;当混合基因型Gij为Gi6时,f(b)的值为1-f/2;当混合基因型Gij为Gi7时,f(b)的值为1;其中,f代表初始胎儿浓度。
f(b)是指假四倍体的混合基因型中出现突变等位基因的概率,所以只要计算假四倍体的混合基因型中B出现的概率即可,具体计算如下表1:(假设假四倍体的混合基因型概率为1)
表1:
在本发明的上述方法中,通过本发明的上述混合基因型分型便能够推算得到各SNP位点的目标混合基因型,进而得到胎儿的基因型。在得到胎儿的基因型之后便可以找到导致基因突变的致病突变位点。在本发明一种具体的实施例中,根据各SNP位点的目标混合基因型中的胎儿基因型的不同,从SNP位点中筛选出突变位点的步骤包括:将推算出胎儿基因型的各SNP位点中属于人群中高发的多态性位点进行过滤,得到初步候选突变位点;从初步候选位点中过滤能够导致同义突变和无义突变的SNP位点和发生在非保守区域的SNP位点,得到候选突变位点;对候选突变位点进行文献筛查和临床资料筛查,得到导致基因突变的突变位点。
上述实施例中,对胎儿的各SNP进行分析找到致病突变位点的过程中,对导致人类群体中不同个体之间存在差异的高频的SNP位点进行删除,因为这些位点明显不属于致病突变位点。在本发明中,利用目前医学界已经整理的dnSNP135公共数据库和Freq_1000g2012feb(千人基因组)数据库,去除在人群中的高发的多态性位点。在去除个体差异导致的SNP位点之后,得到初步的候选突变位点,然后利用本领域常用的突变预测软件筛选有害突变,例如,ANNOVAR软件既可以筛选突变是否导致氨基酸改变,即筛选突变是否导致有义突变,还可以筛选突变是否发生在保守序列区域。
在进行上述软件筛选之后,还需要对筛到的可能的致病突变位点进行人工解读,所谓“人工解读”就是通过已有的数据库和文献的检索,从可能的致病突变位点中找到与单基因遗传病相关的位点信息并进行相应解读。此外,本发明的方法不仅局限于检测是否存在导致已知单基因遗传病的热点突变位点,还可以检测已知单基因遗传病的非热点突变位点以及未报道过的潜在的致病基因及其突变位点。因而,可以根据客户的不同需求,为客户提供多样化的服务。
在本发明的上述方法中,对孕妇外周血中的游离DNA进行高通量测序,得到测序数据的步骤通过利用本领域常用的高通量测序方法先进行样本DNA文库构建,然后利用现有的高通量测序平台进行测序即可。在本发明一种优选的实施例中,对孕妇外周血中的游离DNA进行高通量测序,得到测序数据的步骤包括:获取孕妇外周血血浆DNA,对血浆DNA中的游离DNA进行富集,得到富集DNA;对富集DNA进行文库构建,得到测序文库;对测序文库进行高通量测序,得到测序数据。
上述优选实施例中,由于孕妇外周血中的游离DNA在母源血浆中的含量比较低,基本在10%以下,因此,在高通量测序之前需要对游离DNA进行提取和富集的步骤。该提取和富集步骤本领域技术人员可以根据各自样品的差异和对数据需求的不同选择合适的提取和富集方法。比如,可以采用德国Qiagen的QIAmp DNA Blood Mini Kit进行提取富集或者市售的其他公司的同类试剂进行提取富集,或者自己配制的能够对孕妇外周血进行提取富集的相关试剂。
在将上述富集DNA进行文库构建,得到测序文库的步骤之后,根据不同样本检测目的的不同,选择不同的目标区域进行测序检测。在本发明的实际操作过程中,在得到测序文库即将进行高通量测序之前,还包括将测序文库进行目标区域捕获,得到含有目标区域的测序文库的步骤。在本发明一种更优选的实施例中,通过增加将测序文库进行外显子捕获杂交的步骤,这样使得后续的高通量测序只针对外显子进行测序。由于基因在转录的过程中,内含子通常会被剪切掉,而外显子是最终编码蛋白的区域,因而,只进行外显子测序能够提高有效数据量,提高测序的效率。得到针对外显子的测序文库后,还可以根据检测目的不同和/或检测样本的不同,在特定的目标区域内对已知的单基因遗传病的突变位点进行检测或对所有测序数据中的突变位点进行整体检测。
在本发明的上述优选实施例中,根据所要捕获的目标区域的不同,可以选择不同的方法或试剂进行捕获。比如可以采用美国Roche NimbleGen公司的捕获试剂盒进行目标区域捕获、自制的或市售的其他公司的同类的功能的试剂盒。
在本发明另一种典型的实施方式中,提供了一种检测基因突变的装置,如图1所示,该装置包括:检测模块,用于对孕妇外周血中的游离DNA进行高通量测序,得到测序数据;比对模块,用于将测序数据与参考基因组序列进行比对得到SNP位点;目标混合基因型确定模块,用于采用贝叶斯模型和初始胎儿浓度f对各SNP位点进行混合基因型分型,得到各SNP位点的七种混合基因型中最大概率的混合基因型,并将最大概率的混合基因型作为各SNP位点的目标混合基因型;突变位点筛选模块,根据各SNP位点的目标混合基因型中的胎儿基因型筛选出导致胎儿基因突变的突变位点;其中,混合基因型是指孕妇和胎儿组成的染色体组的假四倍体基因型,是AAAA、AAAB、ABAA、ABAB、ABBB、BBAB和BBBB七种中的任意一种,将AAAA、AAAB、ABAA、ABAB、ABBB、BBAB和BBBB按顺序依次编号为第1种、第2种、第3种、第4种、第5种、第6种和第7种,A表示各SNP位点的参考基因型,B表示各SNP位点的突变基因型。
在本发明的上述装置,通过检测模块及与比对模块,得到母本和胎儿基因组信息中与参考基因组不同的SNP位点,并通过利用目标混合基因型确定模块对孕妇和胎儿组成的假四倍体的混合基因型进行分型,从而得到各SNP位点上母本和胎儿的基因型,从而实现了仅利用孕妇外周血样本便能检测出胎儿所有可能的基因突变的情况。本发明的该装置不仅减少了对父源、母源(外周血中细胞基因组样本)单独样本的测序,降低测序成本;而且,为在某些特殊条件下,如父源样本无法获取的情况下,对胎儿基因突变情况的检测提供了便利,为产前诊断提供了多样化的服务。
在本发明的上述目标混合基因型确定模块中,在初始胎儿浓度即为真实胎儿浓度时,本领域技术人员可以在本发明所提出的假四倍体及假四倍体的混合基因型的概念的基础上,通过对条件概率和贝叶斯模型进行变形,得到各SNP位点的目标混合基因型。在本发明一种优选的实施例中,当初始胎儿浓度不是真实胎儿浓度时,目标混合基因型确定模块包括:预估模块,用于采用贝叶斯模型和初始胎儿浓度f计算得到各SNP位点的7种混合基因型中概率最大概率的混合基因型,并将该概率最大的混合基因型作为初始混合基因型;选取模块,用于选取方便计算第二胎儿浓度的初始混合基因型,记为第二混合基因型;计算模块,用于根据第二混合基因型及测序数据,计算得到第二胎儿浓度f’;比较模块,用于比较第二胎儿浓度f’与初始胎儿浓度f,得到差值△f;判断模块,用于判断△f是否大于设定值;循环模块,用于当△f大于设定值时,将f’作为f重复执行预估模块、选取模块、计算模块、比较模块以及判断模块;标记模块,用于当△f在设定值以下时,将初始胎儿浓度f对应的初始混合基因型记为目标混合基因型。
上述利用初始胎儿浓度f计算各SNP位点的7种混合基因型中概率最大的混合基因型的具体计算方法可以根据条件概率和贝叶斯模型进行各种变形得到。优选地,在计算七种混合基因型的概率时,将七种混合基因型的概率计算公式都分别与其中某一特定的混合基因型的概率计算公式相除,进而得到每种混合基因型与该特定混合基因型的概率比值,比值最大的即为该SNP位点的概率最大的混合基因型,即为该SNP位点的初始混合基因型。其中,上述特定的混合基因型可以是七种混合基因型中的任意一种,可以根据计算方便程度合理选择。
上述优选实施例中的计算模块中的胎儿浓度计算混合基因型的选取原则可以根据计算方法的不同进行合理选择。在本发明一种优选的实施例中,上述胎儿浓度计算混合基因型包括但不仅限于AAAB、ABAA、ABBB以及BBAB中的任意一种或多种。这些混合基因型中的突变等位基因或者参考等位基因仅来自孕妇或胎儿一方,根据测序数据中突变等位基因和参考等位基因被测到的次数,即可计算其中一方的浓度,从而很容易得到胎儿的浓度。
在本发明另一种优选的实施例中,目标混合基因型确定模块采用贝叶斯模型和初始胎儿浓度f对各SNP位点进行混合基因型分型,得到各SNP位点的七种混合基因型中最大概率的混合基因型的步骤包括包括:根据七种混合基因型的条件概率和为1得到下列公式(1),其中Gj表示七种混合基因型中的任一种,S表示各SNP位点中的某一位点,
∑P(Gj|S)=1 (1)
P(Gj|S)表示某一SNP位点如S一样时,SNP位点的混合基因型是Gj的概率;由贝叶斯模型得到下列公式(2)
在公式(2)中,P(Gij)表示在第i个SNP位点上出现Gj基因型的概率,j值与按顺序依次编号的混合基因型相对应分别为1、2、3、4、5、6或7;
从Gj中选取任意一种混合基因型Gj*为基准,则由公式(2)得出以下公式(3):
将公式(2)与公式(3)两边相除,得到下列公式(4)
其中,表示在Si条件下,第i个SNP位点的混合基因型为Gj的概率与第i个SNP位点的混合基因型为Gj*的概率的比值;P(Gij)通过群体突变频率计算得到,P(Si|Gij)通过利用各SNP位点上出现的突变等位基因的次数、与突变等位基因相应的参考等位基因的次数以及初始胎儿浓度,通过负二项分布公式得到;
然后由下列公式(5)
找到七种混合基因型中出现概率最大的混合基因型,将出现概率最大的混合基因型记为第i个SNP位点的最大概率的混合基因型。
在本发明的上述优选实施例中,通过利用条件概率和贝叶斯模型,将某一SNP位点上的混合基因型的计算方法转化为计算在该SNP位点出现上述七种混合基因型的概率与出现其中某一种混合基因型的概率的比值,间接得到在该SNP位点上出现概率最大的混合基因型,进而推定为该位点的最大概率的混合基因型。
在本发明的上述装置中,在已知某一位点上出现某种突变基因型的情况下,本领域技术人员能够利用千人基因组的数据库中的群体突变频率计算出公式(4)中的P(Gij)。在本发明一种优选的实施例中,上述胎儿基因型确定模块中的公式(4)中的P(Gij)通过以下公式(6)
计算得到。在上述公式(6)中,G’代表孕妇或胎儿在某一位点分别出现上述三种可能的基因型,则该特定位点上混合基因型出现的概率即为孕妇在该位点出现基因型G’的概率与胎儿在该位点出现基因型G’的概率的乘积,其中,θ为第i个SNP位点的群体突变频率。该参数θ通过千人基因组的数据库的群体频率得到。
在本发明的上述装置中,胎儿基因型确定模块中的公式(4)中的P(Si|Gij)的数值根据实际测序数据中,某一位点为特定的混合基因型Gij时,出现突变等位基因的次数与出现参考等位基因的次数的不同以及初始胎儿浓度的差异利用负二项分布公式得到。在本发明一种具体的实施例中,公式(4)中的P(Si|Gij)通过以下公式(7)计算得到:
其中,r代表第i个SNP位点上出现等位基因的次数,k第i个SNP位点上出现参考等位基因的次数,f(b)代表第i个SNP位点的混合基因型为Gij时理论上出现突变等位基因的概率。
在上述实施例中,f(b)与孕妇外周血中胎儿游离DNA的浓度有关,利用常规的胎儿浓度的计算方法,如Fetal Quant进行计算即可(参见文献Lench N,Barrett A,FieldingS,et al.The clinical implementation of non-invasive prenatal diagnosis forsingle-gene disorders:challenges and progress made[J].Prenatal diagnosis,2013,33(6):555-562.)。在获得胎儿浓度之后,根据某位点为混合基因型中的某一种时,推测得到该混合基因型的父本可能的基因型,从而推算出某一特定混合基因型出现时,理论上胎儿出现突变等位基因的概率。
在本发明另一种优选的实施例中,初始胎儿浓度f采用最大期望算法进行迭代计算,假设初始预估胎儿浓度f为10%,计算当f=10%时所有位点的混合基因型,利用某些混合基因型实际检测的参考基因型与突变等位基因的频率计算实际的胎儿浓度f’,如果f’与f之间的差值小于设定的值,则迭代结束,迭代结束时对应的f’即为胎儿浓度f。更优选,上述设定值小于等于0.001时,迭代结束。具体采用的算法与前述检测方法中相同,在此不再赘述。同样地,上述第i个SNP位点的混合基因型Gij为7种中的任意一种时,理论上出现等位基因的概率f(b)同表1。
在本发明的上述装置中,通过上述目标混合基因型确定模块中对各SNP位点的假四倍体进行分型便能够推算得到目标混合基因型,进而从目标混合基因型中获得胎儿在各SNP位点的基因型,在得到胎儿的基因型之后便可以找到致病突变位点。在本发明一种典型的实施例中,上述装置中的突变位点筛选模块包括高发多态性位点过滤子模块、基因突变位点筛选子模块以及文献及临床资料筛查子模块,高发多态性位点过滤子模块用于将各SNP位点的目标混合基因型中的胎儿基因型中属于人群中高发的多态性位点进行过滤,得到初步突变位点;基因突变位点筛选子模块,用于从初步突变位点中过滤掉导致同义突变和无义突变的SNP位点以及发生在非保守区域的SNP位点,得到候选突变位点;文献及临床资料筛查子模块,用于从候选突变位点中筛查出文献及临床资料里记载过的导致致病基因突变的突变位点。
上述实施例中,对胎儿的各SNP进行分析找到致病突变位点的过程中,通过高发多态性位点过滤子模块对导致人类群体存在个体差异的高频SNP位点进行删除,因为这些位点明显不属于致病突变位点。在本发明中,上述高发多态性位点过滤子模块通过利用目前医学界已经整理的dnSNP135公共数据库和Freq_1000g2012feb(千人基因组)数据库,去除在人群中的高发的多态性位点。在去除个体差异导致的SNP位点之后,得到的是胎儿所特有的SNP位点,然后利用基因突变位点筛选子模块筛选真正导致基因突变的位点。该模块可以利用本领域常用的突变预测模块进行有害突变筛选。ANNOVAR模块,既可以筛选突变是否导致氨基酸改变,即筛选突变是否导致有义突变,也可以筛选突变是否发生在保守序列区域。
上述基因突变位点筛选子模块在经过上述突变预测模块筛选之后,还包括对筛到的可能的致病突变位点进行人工解读的人工解读子模块,所谓“人工解读子模块”就是将突变预测模块筛选之后的SNP位点与已有的数据库和文献的检索到的致病位点进行比对,从而找到与单基因遗传病相关的位点信息并进行相应解读。本发明的上述装置并非局限于检测是否存在导致已知单基因遗传病的热点突变位点,还可以检测已知单基因遗传病的非热点突变位点以及未报道过的潜在的致病基因及其突变位点。因而,可以根据客户的不同需求,为客户提供多样化的服务。
在本发明的上述装置中,检测模块是将从孕妇外周血血浆中富集的游离DNA制成测序文库并进行高通量测序,得到测序数据的过程。对孕妇外周血中的游离DNA进行高通量测序,得到测序数据的步骤通过本领域常用的高通量测序方法先进行样本DNA文库构建,然后利用现有的高通量测序平台进行测序即可。在本发明一种优选的实施例中,上述检测装置包括获取孕妇外周血血浆DNA,对血浆DNA中的游离DNA进行富集,得到富集DNA;对富集DNA进行文库构建,得到测序文库;以及对测序文库进行高通量测序,得到测序数据的过程。
上述优选实施例中,由于孕妇外周血中的游离DNA在母源血浆中的含量比较低,基本在10%以下,因此,上述检测装置还包括了在高通量测序之前对游离DNA进行提取和富集的步骤,可以根据各自样品的差异和对数据需求的不同选择合适的提取和富集方法进行。比如可以采用德国Qiagen的QIAmp DNA Blood Mini Kit进行提取富集或者市售的其他公司的同类试剂进行提取富集,或者自己配制的能够对孕妇外周血进行提取富集的相关试剂。
在将上述检测装置中,对富集DNA进行文库构建,得到测序文库的步骤之后,根据不同样本检测目的的不同,还可以选择不同的目标区域进行测序检测。在本发明的实际操作过程中,上述检测装置在得到测序文库即将进行高通量测序之前,还包括将测序文库进行目标区域捕获,得到含有目标区域的测序文库的步骤。在本发明一种更优选的实施例中,通过增加将测序文库进行外显子捕获杂交的步骤,这样使得后续的高通量测序只针对外显子进行测序。由于基因在转录的过程中,内含子通常会被剪切掉,而外显子是最终编码蛋白的区域,因而,只进行外显子测序能够提高有效数据量,提高测序的效率。得到针对外显子的测序文库后,还可以根据检测目的不同和/或检测样本的不同,在特定的目标区域内对已知的单基因遗传病的突变位点进行检测或对所有测序数据中的突变位点进行整体检测。
在本发明的上述优选实施例中,根据所要捕获的目标区域的不同,可以选择不同的方法或试剂进行捕获。比如可以采用美国Roche NimbleGen公司的捕获试剂盒进行目标区域捕获、自制的或市售的其他公司的同类的功能的试剂盒。
在本发明又一种典型的实施方式中,还提供了一种用于对孕妇和胎儿的基因型进行分型的试剂盒,该试剂盒包括:用于从孕妇外周血血浆中富集游离DNA进行高通量测序的试剂和器械;用于将高通量测序得到的测序数据与参考基因组比对得到SNP位点的器械;以及用于采用贝叶斯模型和初始胎儿浓度f对各SNP位点进行混合基因型分型,得到各SNP位点的七种混合基因型中最大概率的混合基因型,并将最大概率的混合基因型作为各SNP位点的目标混合基因型的器械;其中,混合基因型是指孕妇和胎儿形成的假四倍体的基因型,是AAAA、AAAB、ABAA、ABAB、ABBB、BBAB和BBBB七种中的任意一种,将AAAA、AAAB、ABAA、ABAB、ABBB、BBAB和BBBB按顺序依次编号为第1种、第2种、第3种、第4种、第5种、第6种和第7种,A表示各SNP位点的参考基因型,B表示各SNP位点突变的等位基因型;。
本发明的上述试剂盒,通过将孕妇与胎儿形成的假四倍体的混合基因型,并利用条件概率和贝叶斯模型,推算出各SNP位点上的混合基因型,进而获得母本和胎儿的基因型,从而实现了仅利用孕妇外周血样本便能检测出胎儿所有可能基因型。本发明的试剂盒不仅减少了对父源和/或母源样本的测序,降低测序成本;而且,为在某些特殊条件下,如父源样本无法获取的情况下,对胎儿基因型的检测提供了便利和多样化的服务。
在本发明的上述试剂盒中,当初始胎儿浓度即为胎儿真实浓度时,本领域技术人员可以在本发明所提出的假四倍体及假四倍体的混合基因型分型的基础上,通过对条件概率和贝叶斯模型进行变形,能够得到本发明的混合基因型。在本发明一种优选的实施例中,当初始胎儿浓度不是真实胎儿浓度时,上述试剂盒中,用于获取目标混合基因型的器械包括:第一计算元件,用于采用贝叶斯模型和初始胎儿浓度f对各SNP位点进行混合基因型分型,得到各SNP位点的7种混合基因型中概率最大的混合基因型,并将概率最大的混合基因型作为各SNP位点的初始混合基因型;选取元件,用于选取方便计算第二胎儿浓度的初始混合基因型,记为胎儿浓度计算混合基因型;第二计算元件,用于根据胎儿浓度计算混合基因型及测序数据,计算得到计算胎儿浓度f’;比较元件,用于比较计算胎儿浓度f’与初始胎儿浓度f,得到差值△f;以及判断元件,用于判断△f是否大于设定值;循环元件,用于当△f大于设定值时,将f’作为f重复操作第一计算元件、选取元件、第二计算元件、比较元件以及判断元件;标记元件,用于当△f在设定值以下时,将初始胎儿浓度所对应的初始混合基因型记为目标混合基因型。
用于对各SNP位点进行混合基因型分型获得各SNP位点的目标混合基因型的器械,通过利用预估的初始胎儿浓度计算各SNP位点的7种混合基因型的概率,得到各SNP位点的最大概率的混合基因型,将该概率最大的混合基因型作为初始混合基因型,然后利用选取元件选取便于计算胎儿浓度的初始混合基因型作为第二混合基因型,接着用第二计算元件根据第二混合基因型及测序数据,计算得到第二胎儿浓度f’,然后利用比较元件和判断元件,通过比较初始胎儿浓度与计算胎儿浓度之间的差值△f,根据该差值△f来评判初始胎儿浓度与计算胎儿浓度之间的差别,当该差值△f大于设定值时,则利用循环元件将第二胎儿浓度f’记为初始胎儿浓度f,循环执行进行上述预估元件、选取元件、计算元件、比较元件以及判断元件,直到当该差值△f小于设定值时,则认为初始胎儿浓度与计算的胎儿浓度无显著差别,即此时的初始胎儿浓度是真实的胎儿浓度,因而利用标记元件将该初始胎儿浓度计算得到的最大概率混合基因型作为目标混合基因型。
上述优选实施例中的选取元件中选取的第二混合基因型的选取原则可以根据计算方法的不同进行合理选择。在本发明一种优选的实施例中,上述第二混合基因型包括但不仅限于AAAB、ABAA、ABBB以及BBAB中的任意一种或多种。这些混合基因型中的突变等位基因或者参考等位基因仅来自孕妇或胎儿一方,根据测序数据中突变等位基因和参考等位基因被测到的次数,即可计算其中一方的浓度,从而很容易得到胎儿的浓度。
在本发明另一种优选的实施例中,上述获取目标混合基因型的器械中采用贝叶斯模型和初始胎儿浓度f对各SNP位点进行混合基因型分型,得到各SNP位点的七种混合基因型中最大概率的混合基因型的步骤包括:根据七种混合基因型的条件概率和为1得到下列公式(1),其中Gj表示七种混合基因型中的任一种,
ΣP(Gj|S)=1 (1)
S表示各SNP位点中的某一位点,P(Gj|S)表示某一SNP位点如S一样时,SNP位点的混合基因型是Gj的概率;由贝叶斯模型得到下列公式(2)
在公式(2)中,P(Gij)表示在第i个SNP位点上出现Gj基因型的概率,j值与按顺序依次编号的混合基因型相对应分别为1、2、3、4、5、6或7;
从Gj中选取任意一种混合基因型Gj*为基准,则由公式(2)得出以下公式(3):
将公式(2)与公式(3)两边相除,得到下列公式(4)
其中,表示在Si条件下,第i个SNP位点的混合基因型为Gj的概率与第i个SNP位点的混合基因型为Gj*的概率的比值;P(Gij)通过群体突变频率计算得到,P(Si|Gij)通过利用各SNP位点上出现的突变等位基因的次数、与突变等位基因相应的参考等位基因的次数以及初始胎儿浓度,通过负二项分布公式得到;然后由下列公式(5)找到七种混合基因型中出现概率最大的混合基因型,将出现概率最大的混合基因型记为第i个SNP位点上的初始混合基因型。
在本发明的上述优选的实施例中,该试剂盒中,上述第一计算元件通过利用条件概率和贝叶斯模型,将某一SNP位点上的混合基因型的计算方法转化为计算在该SNP位点出现上述七种混合基因型的概率与出现其中某一种混合基因型的概率的比值,间接得到在该SNP位点上出现概率最大的混合基因型,进而记为该位点的初始混合基因型。
在本发明的上述试剂盒中,在已知某一位点上出现某种突变基因型的情况下,本领域技术人员能够利用千人基因组的数据库中的群体突变频率计算出公式(4)中的P(Gij)。在本发明一种优选的实施例中,上述推算胎儿各SNP位点基因型的器械中的公式(4)中的P(Gij)通过以下公式(6)
计算得到。在上述公式(6)中,G’代表孕妇或胎儿在某一位点分别出现上述三种可能的基因型,则该特定位点上混合基因型出现的概率即为孕妇在该位点出现基因型G’的概率与胎儿在该位点出现基因型G’的概率的乘积,其中,θ为第i个SNP位点的群体突变频率。该参数θ通过千人基因组的数据库的群体频率得到。
在本发明的上述试剂盒中,推算胎儿各SNP位点基因型的器械中的公式(4)中的P(Si|Gij)的数值根据实际测序数据中,某一位点为特定的混合基因型Gij时,出现突变等位基因的次数与出现参考等位基因的次数的不同以及胎儿浓度的差异利用负二项分布公式得到。在本发明一种优选的实施例中,公式(4)中的P(Si|Gij)通过以下公式(7)计算得到:
其中,r代表第i个SNP位点上出现等位基因的次数,k第i个SNP位点上出现参考等位基因的次数,f(b)代表第i个SNP位点的混合基因型为Gij时理论上出现突变等位基因的概率。
在上述实施例中,f(b)与孕妇外周血中胎儿游离DNA的浓度有关,利用常规的胎儿浓度的计算方法,如Fetal Quant进行计算即可(参见文献Lench N,Barrett A,FieldingS,et al.The clinical implementation of non-invasive prenatal diagnosis forsingle-gene disorders:challenges and progress made[J].Prenatal diagnosis,2013,33(6):555-562.)。在获得胎儿浓度之后,根据某位点为混合基因型中的某一种时,推测得到该混合基因型的父本可能的基因型,从而推算出某一特定混合基因型出现时,理论上胎儿出现突变等位基因的概率。
在本发明另一种优选的实施例中,初始胎儿浓度f采用最大期望算法进行迭代计算,假设初始胎儿浓度f为10%,计算当f=10%时所有位点的混合基因型,利用混合基因型实际检测的参考基因型与突变等位基因的频率计算实际的胎儿浓度f’(即第二胎儿浓度f’),如果f’与f之间的差值小于设定的值,则迭代结束,迭代结束时对应的f’即为胎儿浓度f。更优选,上述设定值为0.001时,迭代结束。具体采用的算法与前述检测方法中相同,在此不再赘述。
利用上述方法得到胎儿浓度后,便可计算上述第i个SNP位点的混合基因型为Gij时,理论上出现等位基因的概率f(b),根据混合基因型Gij的不同,分别按如下公式计算:当混合基因型Gij为Gi1时,f(b)的值为0;当混合基因型Gij为Gi2时,f(b)的值为f/2;当混合基因型Gij为Gi3时,f(b)的值为0.5-f/2;当混合基因型Gij为Gi4时,f(b)的值为0.5;当混合基因型Gij为Gi5时,f(b)的值为0.5+f/2;当混合基因型Gij为Gi6时,f(b)的值为1-f/2;当混合基因型Gij为Gi7时,f(b)的值为1;其中,f代表胎儿浓度,具体计算方法同表1所示的方法,此处不再赘述。
下面将结合实施例来进一步说明本发明的有益效果。
需要说明的是,实施例1是按照图2所示的流程进行的。下列实施例中用的所有试剂除有特殊说明外,其余均来自NEB公司;所用方法如无特殊说明,则本领域的常规方法均可实现。
实施例1 一种检测基因突变的方法
实验一:样品获取及游离DNA提取
(1)将孕妇离体外周血液置于离心机中,1600g速度下,离心10min,之后吸取血浆。
(2)(2)获取孕妇的离体外周血浆,利用试剂盒QIAamp DNA Blood Mini Kit(Qiagen,德国,catlog#51106)提取血浆中的游离DNA,方法是该试剂盒中的血液和体液处理方法。
实验二:捕获富集及文库构建
2.1孕妇血浆中游离DNA的末端修复
实验目的:由于从孕妇血浆中提取的游离DNA是双链DNA片段,这些片段或是平末端的,或是含有3’或5′突出末端。这一步通过T4DNA聚合酶、大肠杆菌DNA多聚酶I大片段(Klenow片段)和多核苷酸激酶T4,使突出端磷酸化成平末端。DNA多聚酶I大片段的3′到5′外切酶活性去除3′突出末端,T4DNA聚合酶活性填充5′突出端。最终使游离DNA具有平末端。
实验材料、试剂及仪器:实验一的游离DNA;dNTPs的混合物(10mM);T4DNA聚合酶(3单位/μL);Klenow片段(5单位/μL);T4PNK(T4多核苷酸激酶,10单位/μL)及PNK缓冲液;DNA纯化用磁珠;PCR仪。
实验程序:
A.配制如下反应体系:
B.在PCR仪中孵育30分钟,温度20℃;
C.用磁珠对反应后产物进行纯化,用19.5μL的洗脱缓冲液EB(Elution Buffer)洗脱。
2.2对游离DNA进行3’端加“A”碱基处理
实施目的:由于后续的接头序列是需要与3′端具有单个“T”碱基突出端的磷酸化的DNA片段进行连接的,因此,需要先对末端修复后的片段的3′端添加互补的“A”碱基。该步骤由缺失了3′到5′外切酶活性的Klenow片段来完成。
实验材料、试剂及仪器:末端修复后的DNA;Klenow缓冲液(10×);dATP(1mM);Klenow片段(缺失3′到5′外切酶活性,5U/μL);PCR仪。
实验程序:
A.配制如下反应体系:
B.在PCR中仪孵育30分钟,温度37℃。
2.3接头(Adapter)与DNA片段的两端进行连接
实验目的:为了使末端加A之后的DNA在后续PCR步骤中能够特异性扩增,需要用DNA连接酶在其两端各连接一个特异性接头(Adapter,即接头序列1与接头序列2的退火产物)。
实验材料、试剂及仪器:加A之后的DNA;DNA连接酶缓冲液(2×);DNA连接酶(1U/μL);接头序列1和接头序列2;PCR仪;DNA纯化用磁珠。
其中,接头序列1的序列为:
SEQ ID NO:1:5'P-GATCGGAAGAGCACACGTCT-3';
接头序列2的序列为:SEQ ID NO:2:
5'P-ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3'(Illumina公司)。
实验程序:
A.配制如下反应体系:
B.在PCR中仪孵育15分钟,温度20℃。
C.用磁珠对反应后产物进行纯化,用38.2μL的洗脱缓冲液EB洗脱。
2.4对两端连接接头的DNA片段进行PCR扩增。
实验目的:对两端连接接头修饰过的DNA片段进行PCR扩增,一方面在PCR的过程中将DNA片段两端添加上与测序引物匹配的碱基序列,另一方面保证DNA片段有足够的总量用来进行接下来的测序。
实验材料、试剂及仪器:两端带有接头序列的DNA;10×Pfx DNA聚合酶扩增缓冲液;dNTP的混合物(10mM);MgSO4(50mM);PCR引物1(10pmol/μL);PCR引物2(10pmol/μL);PfxDNA聚合酶(2.5U/μL)。
其中,
PCR引物1的序列为SEQ ID NO:3:
5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3';
PCR引物2的序列为SEQ ID NO:4:
5'-CAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3'。
实验程序:
A.配制如下反应体系:
B.按以下PCR程序进行扩增:第一步:94℃保持2分钟;第二步:94℃变性15秒;62℃退火30秒;72℃延伸30秒,进行15个循环;第三步:72℃保持10分钟;第四步,反应结束,4℃保存。
C.用磁珠对反应后产物进行纯化,用ddH2O洗脱。
D.文库制备完成,用安捷伦的DNA检测仪2100进行浓度测定,测得浓度为21.34ng/μL。
实验三目标区域捕获
3.1文库杂交
文库定量完成后,采用美国Roche NimbleGen公司的捕获试剂盒SeqCap EZ HumanExome+UTR Kit(货号:06740308001)进行外显子捕获杂交。
实验材料、试剂:DNA文库;SeqCap.EZ Exome+UTR.Library;Cot DNA;SeqCap.EZ.Hyb.and.Wash.Kit;HE oligo序列和TS-INV-HE index oligo序列;
其中,HE oligo序列为:SEQ ID NO:5:
5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3'
TS-INV-HE index oligo序列为:SEQ ID NO:6
5'-CAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3'。
实验程序:
A.配制以下反应体系:
B.上述完成后,使用真空浓缩仪56℃干燥。
样本蒸干后,加入7.5μL 2×Hybridization Buffer和3μL HybridizationComponent A,混匀后,95℃变性10分钟。
C.变性完成后,将上述混合物转移至0.2mL凸盖PCR管中,加入4.5μLSeqCap.EZExome+UTR.Library。涡旋震荡3秒,充分混匀后最大转数离心10秒。
D.将杂交样品混合物置于47℃的加热64至72小时,进行杂交。
3.2捕获DNA的洗脱回收
实验试剂:链霉亲和素Dynabeads;1×Stringent Wash Buffer;1×Wash BufferⅠ;1×Wash BufferⅡ;1×Wash BufferⅢ和ddH2O。
实验程序:
A.将杂交的样本文库转入盛有链霉亲和素Dynabeads的0.2mL PCR管中,吸打10次,将二者混匀;然后将0.2mL PCR管置于47℃的加热模块中加热45分钟,每隔15分钟涡旋混匀一次,使DNA与磁珠结合。
B.孵育45min后,向15μL捕获的DNA样本中加入47℃的1×Wash BufferⅠ 100μL。涡旋混匀10sec。将0.2mL PCR管中的全部组分转入1.5mL离心管中。置于磁力架上吸附磁珠,弃上清。
然后将1.5mL离心管从磁力架上取下,加入200μL预热47℃的1×Stringent WashBuffer。吸打混匀10次。混匀后将样本置于47℃加热模块上5分钟,用47℃的1×StringentWash Buffer共洗涤两次。将1.5mL的离心管置于磁力架上,吸附磁珠,弃上清。
向上述1.5mL离心管中加入200μL室温的1×Wash BufferⅠ,涡旋混匀2min。将离心管置于磁力架上,吸附磁珠,弃上清。
向上述1.5mL离心管中加入200μL室温的1×Wash BufferⅡ,涡旋混匀1min。将离心管置于磁力架上,吸附磁珠,弃上清。
向上述1.5mL离心管中加入200μL室温的1×Wash BufferⅢ,涡旋混匀30sec。将离心管置于磁力架上,吸附磁珠,弃上清。
将1.5mL离心管从磁力架上取下,加入50μL ddH2O,溶解洗脱磁珠捕获样本。将磁珠-样本混合物放在-20℃保存。
3.3捕获DNA的PCR扩增
实验目的:由于捕获得到的DNA样本浓度很低,需要进行PCR扩增才能达到后续实验要求。
实验材料及试剂:杂交捕获的DNA;10×Pfx DNA聚合酶扩增缓冲液;dNTP的混合物(10mM);MgSO4(50mM);PCR引物3(10pmol/μL)(英潍捷基公司);PCR引物4(10pmol/μL);PfxDNA聚合酶(2.5U/μL)。
其中,PCR引物3的序列为:SEQ ID NO:7:
5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3';
PCR引物4的序列为:SEQ ID NO:8:
5'-CAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3'
实验程序:
A.配制以下反应体系:
B.按以下PCR程序进行扩增:第一步:94℃保持2分钟;第二步:94℃变性15秒;62℃退火30秒;72℃延伸30秒,进行13个循环;第三步:72℃保持10分钟;第四步,反应结束,4℃保存。
C.用磁珠对反应后产物进行纯化,用30μL的洗脱缓冲液ddH2O洗脱。
D.文库制备完成,用安捷伦DNA检测仪2100进行浓度测定,测得的浓度为13.60ng/μL。
实验四上样与测序
利用Illumina的cBot仪器将测序文库中DNA分子制成DNA簇,生成的DNA簇在IlluminaHiseq 2000(或Illumina HiSeq 2500)测序仪上进行100个循环的双端测序。
高通量测序(Illumina HiSeqTM2000)得到的原始图像数据文件经CASAVA碱基识别(BaseCalling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。
实验五原始测序数据处理
5.1不合格序列的过滤
经测序得到的原始序列中含有带接头的序列以及低质量的序列(质量值Q≤5的碱基数占整个read的50%以上的序列),为了保证分析结果的质量,必须对原始序列进行过滤,得到去除接头的测序质量合格的序列(又称为clean reads),后续的分析都是基于过滤后的序列进行的。其中,对如下序列进行过滤:(1)含N比例大于5%的reads;(2)低质量reads(质量值Q≤5的碱基数占整个read的50%以上);(3)接头污染的reads。
对样本的原始数据统计结果如表2所示。其中Modified Q30bases rate(%)指示过滤后总序列中质量值大于30(错误率小于0.1%)的碱基数的比例。该值越大说明测序质量越好。一般该指标大于85%即认为测序质量合格。若小于85%则重新测序。
表2:
原始序列(Raw reads) |
有效序列(Clean reads) |
影响率(Effect rate)(%) |
Q30(%) |
140,070,440 |
136,958,780 |
97.78 |
86.76 |
Effect rate(%):1.质量值≤5的碱基数占整个read的50%以上的序列;2.含N比例大于5%的reads;3.去掉接头污染的reads。
5.2比对质控
通过比对软件BWA(bwa-0.7.5a)将过滤后的Clean Reads比对参考基因组(HG19,NCBIbuilt 37)上,对于比对结果进行比对质控,得到比对文件。
质控点包括数据的比对率,捕获特异性,目标区域测序深度,目标区域测序深度分布,以及PCR重复率等,比对质控的结果如表3所示。
表3:
上表3中,Specificity capture:reads完全比对到设定区域以及reads部分在设定区域部分在区域外;Target Average depth(X):目标区域的深度;Duplication rate(%):由于duplication扩增出的reads;Mapping rate(%):利用BWA比对hg19参考基因组的数目与原始数据的比例;一般在90%以上才能算正常结果。
然后,以上述比对文件为基础,去除无用数据(比如重复序列等),获得与参考基因组存在差异的碱基位点的点集;
最后,统计上述存在差异的碱基位点的测序结果,例如某个位点测到40个A和60个T,以及其他的一些位点信息,比如位点所在的位置等。
实验六假四倍体的混合基因型分型
下仅通过来源于上述孕妇外周血的遗传信息,直接对孕妇及胎儿的目标区域进行基因分型。根据本发明的假四分体分型模型,对由孕妇的基因型和胎儿的基因型所组成的假四分体的混合基因型进行推算,从而得到各个相应位点上孕妇与胎儿的基因型。下面以某位点的具体情况为例,说明推算出孕妇与胎儿基因型的过程。
假设该位点测到参考基因50次,等位基因8次,胎儿浓度8%,群体突变频率0.03。令公式(4)中的Gj*为G4,即得到公式(4')
结合公式(4'),至公式(7)和表1,计算7种混合基因型与第四种混合基因型的概率比从而得到概率比最高时所对应的混合基因,具体计算过程如下:
当混合基因型为AAAA时,
当混合基因型为AAAB时,
当混合基因型为ABAA时,
当混合基因型为ABAB时,
当混合基因型为ABBB时,
当混合基因型为BBAB时,
当混合基因型为BBBB时,
比较所有的值,有所以该位点最有可能的混合基因型为AAAB型。进而,推算出孕妇的基因型为AA,胎儿的基因型为AB。按照上述原理,得到比对结果文件中的所有存在差异的碱基位点(SNP位点)的混合基因型,进而得到胎儿的基因型。
实验七致病突变位点的确定
7.1对非致病突变位点进行过滤
根据假四倍体分型结果得到的胎儿在各差异性碱基位点处的基因型,分别与如下数据库进行比对,并将属于下列数据库中的差异性碱基位点进行过滤:(1)dbSNP135公共数据库中的高频突变;(2)Freq 1000g2012feb(千人基因组)数据库的多态性位点。(3)根据突变预测软件对同义突变、无义突变以及非保守区域的突变位点进行过滤,取上述三个筛选条件共有的位点,得到胎儿所特有的差异性碱基位点,如表4所示。
表4:
总SNP数目 |
非同义突变位点 |
ASN_freq<0.05 |
dbSNP |
差异性碱基位点 |
111407 |
100046 |
8622 |
100501 |
1049 |
7.2根据公开文献以及临床资料,从上述过滤后的突变位点中确定导致致病性的突变位点。
实施例2 是成骨发育不全胎儿的无创单基因病诊断的实例
样本信息:孕妇28岁,妊娠3次生产0次,平素月经规律,经期为5-6天,月经周期为29天。末次月经2012-03-27,预产期2013-01-04。自然受孕,早孕期无发热、皮疹等病史,无放射线毒物等接触史。孕13周查弓形虫、风疹、巨细胞、单纯疱疹病毒均阴性,孕14+周B超测胎儿颈厚透明带宽度(NT)0.14cm,孕17+周血清学筛查21三体风险<1:50000,18三体风险<1:50000。孕26+周保健医院B超提示胎儿股骨、胫骨发育异常,孕26+周复查B超提示:胎儿颅骨薄、回声减低,双侧股骨长3.3cm,弯曲成角,胫骨、腓骨弯曲成角。考虑胎儿股骨、胫腓骨成角。孕30+周经产前诊断门诊鉴定考虑胎儿成骨发育不全,建议终止妊娠。
对孕妇抽取10ml静脉血,按照实施例1的方法提取DNA,并捕获富集后,通过HiSeq平台,对富集后DNA进行高深度测序。
假四倍体分型:将测序结果进行质控,过滤掉低质量值的数据,将其余的数据比对到基因组上,并依据比对结果,通过本发明的假四倍体分型模型,推算得到胎儿的基因分型信息,并且筛选是否和成骨发育相关。
突变位点筛选:原始突变111407个,按照实施例1中的步骤对其中的突变位点进行过滤,最终筛选得到7个突变。对筛选到的7个突变进行文献筛查以及临床资料筛查,最终确定1个突变(COL1A1:NM_000088:c.G2596A:p.G866S)为导致成骨发育不全的致病突变。
结果验证:利用胎儿脐带血样本、孕妇外周血样本和父亲血液样本对本实施例的样本得到的致病位点进行验证,结果见图3(图3中M-F、F-F或C-F分别表示母亲正链、父亲正链、胎儿正链)。从图3可以看出,胎儿在该位点确实含有致病位点。
实施例3 是对本发明的假四倍体分型模型的验证
对上述孕妇静脉血样本,利用本发明的假四分体分型模型进行检测和分析,同时,用“胎儿脐血样本+孕妇外周血样本”的体细胞检测方式进行验证,来评估本发明的假四倍体分型模型的有效性。
结合孕妇体细胞测序结果和脐带血样本的体细胞测序结果,与假四倍体分型结果进行比较,假四倍体分型检测的结果如下表5,与现有技术中的孕妇体细胞测序结果和脐带血样本的体细胞测序结果相比的准确率情况如表6。
表5:假四倍体的混合基因型分型及检出率。
附:由于AAAA不含有突变基因型B,因此不计算在总位点数内。上表中的总位点数是通过分别对母亲和脐带血进行体细胞测序,获得的母亲比对上的碱基位点数+胎儿比对上的碱基位点数的总和(母亲和胎儿重复的部分,只保留一份进行计算)。
总位点数A:代表采用本发明的假四倍体分型模型检测出的总位点数。
匹配的位点数:即真阳性位点数,代表上述总位点数A中通过本发明的假四倍体分型模型确定为真实突变的位点数。(采用母亲和脐带血进行体细胞测序是检测母亲和胎儿基因型的金标准,假四分体分型模型确定母亲和胎儿的基因型的方法为受试方法,本发明的受试方法与金标准相比,一致的位点为真阴性或真阳性位点;不一致的位点为假阳性或假阴性位点。)
不匹配的位点数:假阴性位点数,代表总位点数A中通过本发明的假四倍体分型未确定的位点数,即假阴性位点数。
检出率:是临床试验上评价某一检测方法的标准指标,又称为阳性检出率,即真阳性/(真阳性+假阴性)×100%。检出率是针对受试方法而言的,即真阳性位点数与实际检测出的总位点数A的比例。
表6:体细胞检测检测结果及准确率
准确率是检测某项检测方法实际检测到的阳性位点数与真正阳性位点数的比例。上表6中,总位点数B:是按照孕妇体细胞测序结果和脐带血样本的体细胞测序结果所确定的真正具有阳性突变的位点数。匹配的位点数:即采用假四倍体分型模型实际确定的真阳性位点数。未匹配位点数:即采用假四倍体分型模型实际未能确定的真阳性位点数(即假阴性位点数)。因而,表6中的真阳性/(假阴性+真阳性)×100%代表的是准确率。
实施例4
一种检测检测染色体非整倍性的装置,该装置包括:
检测模块,用于对孕妇外周血中的游离DNA进行高通量测序,得到测序数据;其中包括了对孕妇外周血中的游离DNA进行测序的仪器,可以包括Illumina的cBot仪器和Illumina的Genome AnalXzer、HiSeq2000测序仪或HiSeq2500测序仪或ABI公司的SOLiD系列的测序仪。
优选地,检测模块还包括区域捕获子模块,区域捕获子模块用于对富集的游离DNA制成的测序文库进行目标区域捕获,得到用于高通量测序的测序文库。
比对模块,用于将测序数据与参考基因组序列进行比对得到SNP位点;
目标混合基因型确定模块,用于采用贝叶斯模型和初始胎儿浓度f对各SNP位点进行混合基因型分型,得到各SNP位点的七种混合基因型中最大概率的混合基因型,并将最大概率的混合基因型作为各SNP位点的目标混合基因型;其中,混合基因型是指孕妇和胎儿形成的假四倍体的基因型,混合基因型为AAAA、AAAB、ABAA、ABAB、ABBB、BBAB和BBBB所组成的七种中的任一种,且将AAAA、AAAB、ABAA、ABAB、ABBB、BBAB和BBBB按顺序依次编号为第1种、第2种、第3种、第4种、第5种、第6种和第7种,A表示各SNP位点的参考基因型,B表示各SNP位点突变的等位基因型;混合基因型分型根据条件概率和贝叶斯模型,推算得到胎儿在各SNP位点的目标混合基因型。
优选地,当初始胎儿浓度不是真实胎儿浓度时,目标混合基因型确定模块包括:预估模块、选取模块、计算模块、比较模块以及判断模块,其中,预估模块用于采用贝叶斯模型和初始胎儿浓度f分别计算各SNP位点的7种混合基因型的概率,得到各SNP位点的最大概率的混合基因型,并将该最大概率的混合基因型作为初始混合基因型;选取模块用于选取方便计算第二胎儿浓度的初始混合基因型,记为第二混合基因型;计算模块,用于根据第二混合基因型及测序数据,计算得到第二胎儿浓度f’;比较模块,用于比较第二胎儿浓度f’与初始胎儿浓度f,得到差值△f;判断模块,用于判断△f是否大于设定值,并且当△f大于设定值时,利用循环模块将f’作为f重复执行预估模块、选取模块、计算模块、比较模块以及判断模块;当△f在设定值以下时,利用标记模块将此时各SNP位点的初始混合基因型记为目标混合基因型。
优选地,初始胎儿浓度为10%;更优选地,设定值为0.001;进一步优选地,胎儿浓度计算混合基因型选自如下四种混合基因型中的任意一种或多种:AAAB、ABAA、ABBB以及BBAB。
优选地,目标混合基因型确定模块采用贝叶斯模型和初始胎儿浓度f对各所述SNP位点进行混合基因型分型,得到各所述SNP位点的七种所述混合基因型中最大概率的混合基因型的步骤块包括:根据七种混合基因型的条件概率和为1得到下列公式(1),
∑P(Gj|S)=1 (1)
其中,Gj表示七种混合基因型中的任一种,S表示各SNP位点中的某一位点,P(Gj|S)表示某一SNP位点如S一样时,SNP位点的混合基因型是Gj的概率;由贝叶斯模型得到下列公式(2)
在公式(2)中,P(Gij)表示在第i个SNP位点上出现Gj基因型的概率,j值与按顺序依次编号的混合基因型相对应分别为1、2、3、4、5、6或7;从Gj中选取任意一种混合基因型Gj*为基准,则由公式(2)得出以下公式(3):
将公式(2)与公式(3)两边相除,得到下列公式(4)
其中,表示在Si条件下,第i个SNP位点的混合基因型为Gj的概率与第i个SNP位点的混合基因型为Gj*的概率的比值;P(Gij)通过群体突变频率计算得到,P(Si|Gij)通过利用各SNP位点上出现的突变等位基因的次数、与突变等位基因相应的参考等位基因的次数以及初始胎儿浓度,通过负二项分布公式得到;然后由下列公式(5)
找到七种混合基因型中出现概率最大的混合基因型,将出现概率最大的混合基因型记为第i个SNP位点上的最大概率的混合基因型。
优选地,上述公式(4)中的P(Gij)通过以下公式(6)中孕妇的基因型G’的概率与胎儿的基因型G’的概率相乘得到,
其中,θ为第i个SNP位点的群体突变频率。
优选地,胎儿基因型确定模块中的公式(4)中的P(Si|Gij)通过以下公式(7)计算得到:
其中,r代表第i个SNP位点上出现突变等位基因的次数,k第i个SNP位点上出现参考等位基因的次数,f(b)代表第i个SNP位点的混合基因型为Gij时,理论上胎儿出现突变等位基因的概率。
优选地,第i个SNP位点的混合基因型为Gij时理论上胎儿出现突变等位基因的概率f(b),根据混合基因型Gij的不同,分别按如下方式计算:当混合基因型Gij为Gi1时,f(b)的值为0;当混合基因型Gij为Gi2时,f(b)的值为f/2;当混合基因型Gij为Gi3时,f(b)的值为0.5-f/2;当混合基因型Gij为Gi4时,f(b)的值为0.5;当混合基因型Gij为Gi5时,f(b)的值为0.5+f/2;当混合基因型Gij为Gi6时,f(b)的值为1-f/2;当混合基因型Gij为Gi7时,f(b)的值为1;其中,f代表胎儿浓度,胎儿浓度采用最大期望算法进行迭代计算得到,假设初始f为10%,计算当f=10%时所有位点的混合基因型,利用混合基因型实际检测的参考基因型与突变等位基因的频率计算的胎儿浓度f’,如果f’与f之间的差值小于设定值,则迭代结束,迭代结束时对应的f’即为胎儿浓度f。更优选地,当采用最大期望算法对胎儿浓度进行迭代计算时,当设定值≤0.001时,则迭代结束。
突变位点筛选模块,用于根据胎儿的各SNP位点的基因型,从各SNP位点中筛选出突变位点。
优选地,突变位点筛选模块包括:高发多态性位点过滤子模块:用于将推算出胎儿基因型的各SNP位点中属于人群高发的多态性位点进行过滤,得到初步候选突变位点;例如通过通过利用目前医学界已经整理的dnSNP135公共数据库和Freq_1000g2012feb(千人基因组)数据库,去除在人群中的高发的多态性位点,得到胎儿所特有的SNP位点,然后利用基因突变位点筛选子模块筛选真正导致基因突变的位点。
基因突变位点筛选子模块:用于从初步候选突变位点中的导致同义突变、无义突变以及发生在非保守区域的SNP位点过滤掉,得到候选突变位点。该模块可以利用本领域常用的突变预测模块进行有害突变筛选。比如ANNOVAR模块,既可以筛选突变是否导致氨基酸改变,即筛选突变是否导致有义突变,也可以筛选突变是否发生在保守序列区域。
文献及临床资料筛查子模块:用于从候选突变位点中筛查出文献及临床资料里记载过的导致致病基因突变的突变位点。将突变预测模块筛选之后的SNP位点与已有的数据库和文献的检索到的致病位点进行比对,从而找到与单基因遗传病相关的位点信息并进行相应解读。不仅检测是否存在导致已知单基因遗传病的热点突变位点,还可以检测已知单基因遗传病的非热点突变位点以及未报道过的潜在的致病基因及其突变位点。
实施例5
一种用于对孕妇和胎儿的基因型进行分型的试剂盒,该试剂盒包括:
从孕妇外周血血浆中富集游离DNA进行高通量测序的试剂和器械;检测试剂可以包括游离DNA提取、分离、富集、检测、文库构建等各步骤所用到的各种试剂或化学药品;检测器械可以包括1.5mlEP管、PCR管、移液枪、上机所用的96孔板以及上机所用到高通量测序仪等;
用于将高通量测序得到的测序数据与参考基因组比对得到SNP位点的器械;包括各种存储在特定存储介质上,并利用计算机终端或移动终端来来执行上述比对功能的硬件模块。以及
用于采用贝叶斯模型和初始胎儿浓度f对各SNP位点进行混合基因型分型,得到各SNP位点的七种混合基因型中最大概率的混合基因型,并将最大概率的混合基因型作为各SNP位点的目标混合基因型的器械;其中,假四倍体是指孕妇和胎儿所组成的假四倍体,假四倍体的基因型记为混合基因型,混合基因型为AAAA、AAAB、ABAA、ABAB、ABBB、BBAB和BBBB所组成的七种中的任一种,且将AAAA、AAAB、ABAA、ABAB、ABBB、BBAB和BBBB按顺序依次编号为第1种、第2种、第3种、第4种、第5种、第6种和第7种,A表示各SNP位点的参考基因型,B表示各SNP位点突变的等位基因型。
其中,当初始胎儿浓度不是真实胎儿浓度时,获取各SNP位点的目标混合基因型的器械包括:第一计算元件,用于采用贝叶斯模型和初始胎儿浓度f分别计算各SNP位点的7种混合基因型的概率,得到概率最大的混合基因型,并将概率最大的混合基因型记为各SNP位点的初始混合基因型;选取元件,用于选取方便计算第二胎儿浓度的初始混合基因型,记为胎儿浓度计算混合基因型;第二计算元件,用于根据胎儿浓度计算混合基因型及测序数据,计算得到第二胎儿浓度f’;比较元件,用于比较第二胎儿浓度f’与初始胎儿浓度f,得到差值△f;以及判断元件,用于判断△f是否大于设定值,并且当△f大于设定值时,利用循环元件将f’作为f重复操作第一计算元件、选取元件、第二计算元件、比较元件以及判断元件;当△f在设定值以下时,利用标记元件将此初始胎儿浓度f所对应的初始混合基因型记为目标混合基因型。
优选地,获取目标混合基因型的器械中采用贝叶斯模型和初始胎儿浓度f对各SNP位点进行混合基因型分型,得到各SNP位点的七种混合基因型中最大概率的混合基因型的步骤包括包括:根据七种混合基因型的条件概率和为1得到下列公式(1),其中Gj表示七种混合基因型中的任一种,S表示各SNP位点中的某一位点,
∑P(Gj|S)=1 (1)
P(Gj|S)表示某一SNP位点如S一样时,SNP位点的混合基因型是Gj的概率;由贝叶斯模型得到下列公式(2)
在公式(2)中,P(Gij)表示在第i个SNP位点上出现Gj基因型的概率,j值与按顺序依次编号的混合基因型相对应分别为1、2、3、4、5、6或7;从Gj中选取任意一种混合基因型Gj*为基准,则由公式(2)得出以下公式(3):
将公式(2)与公式(3)两边相除,得到下列公式(4)
其中,表示在Si条件下,第i个SNP位点的混合基因型为Gj的概率与第i个SNP位点的混合基因型为Gj*的概率的比值;P(Gij)通过群体突变频率计算得到,P(Si|Gij)通过利用各SNP位点上出现的突变等位基因的次数、与突变等位基因相应的参考等位基因的次数以及初始胎儿浓度,通过负二项分布公式得到;然后由下列公式(5)
找到七种混合基因型中出现概率最大的混合基因型,将出现概率最大的混合基因型记为第i个SNP位点上的最大概率的混合基因型。
优选地,公式(4)中的P(Gij)通过以下公式(6)
孕妇的基因型G’的概率与胎儿的基因型G’的概率相乘得到,其中,θ为第i个SNP位点的群体突变频率。
优选地,公式(4)中的P(Si|Gij)通过以下公式(7)计算得到:
其中,r代表第i个SNP位点上出现突变等位基因的次数,k第i个SNP位点上出现参考等位基因的次数,f(b)代表第i个SNP位点的混合基因型为Gij时,理论上胎儿出现突变等位基因的概率。
优选地,第i个SNP位点的混合基因型为Gij时理论上胎儿出现突变等位基因的概率f(b),根据混合基因型Gij的不同,分别按如下方式计算:当混合基因型Gij为Gi1时,f(b)的值为0;当混合基因型Gij为Gi2时,f(b)的值为f/2;当混合基因型Gij为Gi3时,f(b)的值为0.5-f/2;当混合基因型Gij为Gi4时,f(b)的值为0.5;当混合基因型Gij为Gi5时,f(b)的值为0.5+f/2;当混合基因型Gij为Gi6时,f(b)的值为1-f/2;当混合基因型Gij为Gi7时,f(b)的值为1;其中,f代表胎儿浓度,胎儿浓度采用最大期望算法进行迭代计算得到,假设初始f为10%,计算当f=10%时所有位点的混合基因型,利用混合基因型实际检测的参考基因型与突变等位基因的频率计算的胎儿浓度f’,如果f’与f之间的差值小于设定值,则迭代结束,迭代结束时对应的f’即为胎儿浓度f。更优选地,当采用最大期望算法对胎儿浓度进行迭代计算时,当设定值≤0.001时,则迭代结束。
上述利用假四倍体的混合基因型分型推算出各SNP位点的胎儿基因型的器械,包括各种存储在特定存储介质上,并利用计算机终端或移动终端来来执行上述计算、判断或确认功能的硬件模块。上述各种计算方式作为器械的一部分,能够单独执行或组装成器械执行上述计算功能,因此负载或存储上述计算方式的部件也是器械的一个组成。
从以上的描述中,可以看出,本发明的无创产前诊断基因突变的方法、装置及试剂盒,无需借助胎儿父亲或者母亲自身的遗传信息,仅通过孕妇静脉血遗传信息即可推断胎儿的基因型,并判断是否导致相应疾病。简化了无创单基因病的检测程序,降低了检测成本。此外,本发明不仅可以对特定的单基因病进行检测,而且可以同时对多种单基因病进行检测。
显然,本领域的技术人员应该明白,上述的本申请的一些模块、元件或一些步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
SEQUENCE LISTING
<110> 安诺优达基因科技(北京)有限公司
<120> 检测基因突变的装置和用于对孕妇和胎儿的基因型进行分型的试剂盒
<130> PN25190
<160> 8
<170> PatentIn version 3.5
<210> 1
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> 文库构建中的接头序列1
<400> 1
gatcggaaga gcacacgtct 20
<210> 2
<211> 33
<212> DNA
<213> Artificial Sequence
<220>
<223> 文库构建中的接头序列2
<400> 2
acactctttc cctacacgac gctcttccga tct 33
<210> 3
<211> 58
<212> DNA
<213> Artificial Sequence
<220>
<223> 文库扩增引物1
<400> 3
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58
<210> 4
<211> 64
<212> DNA
<213> Artificial Sequence
<220>
<223> 文库扩增引物2
<400> 4
caagcagaag acggcatacg agatcgtgat gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 5
<211> 58
<212> DNA
<213> Artificial Sequence
<220>
<223> 外显子捕获用的封闭引物1
<400> 5
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58
<210> 6
<211> 64
<212> DNA
<213> Artificial Sequence
<220>
<223> 外显子捕获用的封闭引物2
<400> 6
caagcagaag acggcatacg agatcgtgat gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 7
<211> 58
<212> DNA
<213> Artificial Sequence
<220>
<223> 捕获后外显子文库扩增引物1
<400> 7
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58
<210> 8
<211> 64
<212> DNA
<213> Artificial Sequence
<220>
<223> 捕获的外显子文库扩增引物2
<400> 8
caagcagaag acggcatacg agatcgtgat gtgactggag ttcagacgtg tgctcttccg 60
atct 64