CN113436678A - 一种基于滤波降噪的基因组结构变异检测方法 - Google Patents
一种基于滤波降噪的基因组结构变异检测方法 Download PDFInfo
- Publication number
- CN113436678A CN113436678A CN202110764922.XA CN202110764922A CN113436678A CN 113436678 A CN113436678 A CN 113436678A CN 202110764922 A CN202110764922 A CN 202110764922A CN 113436678 A CN113436678 A CN 113436678A
- Authority
- CN
- China
- Prior art keywords
- copy number
- scale space
- number variation
- function
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 27
- 238000001914 filtration Methods 0.000 title claims abstract description 17
- 230000009467 reduction Effects 0.000 title claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000003708 edge detection Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 4
- 230000002759 chromosomal effect Effects 0.000 claims description 3
- 210000000349 chromosome Anatomy 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 30
- 238000012163 sequencing technique Methods 0.000 description 16
- 108091028043 Nucleic acid sequence Proteins 0.000 description 6
- 150000007523 nucleic acids Chemical class 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000000523 sample Substances 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 201000010374 Down Syndrome Diseases 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005251 capillar electrophoresis Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 210000003917 human chromosome Anatomy 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000007838 multiplex ligation-dependent probe amplification Methods 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 208000022074 proximal spinal muscular atrophy Diseases 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了在一种基于滤波降噪的基因组拷贝数变异检测方法,该方法考虑了染色体序列本身的特性以及序列中碱基GC含量对读深的影响,在更好的对数据进行预处理的基础上,将读深数据与高斯核函数进行卷积运算得到尺度空间图像函数,并对尺度空间图像进行边缘检测及基准检测,确定候选拷贝数区域,及检测拷贝数变异类型和位置,提高了拷贝数变异检测的精度。
Description
技术领域
本发明涉及生物信息学领域,具体涉及一种基于滤波降噪的基因组拷贝数变异检测方法。
背景技术
新一代测序(New generation sequencing,NGS)技术的发展越来越成熟,各测序平台层出不穷,基因序列的测序成本大幅度地下降,测序的速度越来越高,这使得测序产生的DNA序列数据非常庞大,数据处理的准确程度成为当务之急。
小波变换是信号处理当中去除数据噪声的有利利器,而尺度空间滤波是形象直观的描述信号的重要手段。生物信息学领域的测序数据,由于生物序列本身的高重复性以及测序过程中不可避免的误差,往往在对数据建模的时候,需要考虑噪声对模型带来的影响。在拷贝数变异的检测中,由于人类染色体序列的重复序列片段的存在会导致测序发生不可避免的错误,为了用合适的尺度描述拷贝数变异,采用了多尺度的尺度空间滤波,找出读深信号中的零交叉点,最终确定拷贝数变异区域。
另外,伴随着人类基因组计划及1000genomes project的实施与发展,蛋白质、DNA、RNA的序列数据的规模日趋增加,仅仅依靠生物实验来研究生物基因变异及疾病产生早已不能满足现实需要,因此必须借助计算机、数学等学科的理论及思想方法从海量数据中来研究和阐明生物学问题。拷贝数变异检测是生物信息学中研究生物基因结构改变的有效方法之一。
目前应用于拷贝数变异检测的技术主要有:
1.比较基因组杂交(CGH):该技术发展至今,已与芯片技术(Microarray)结合后衍生为芯片比较基因组杂交技术(Array-CGH)。该技术可以在全部染色体或染色体亚带水平上,对不同基因组之间DNA序列的拷贝数进行检测,从而发现拷贝数变异。然而该技术分辨率在Mb水平,更小片段的拷贝数片段则不易检出。同时该技术操作繁琐,通量低、耗时长且成本昂贵,需要较为大量的模板DNA,不利于大范围的推广。
2.MLPA:全称为多重连接探针扩增技术,是2002年发展起来的一种拷贝数检测方法。目前已有相应的试剂盒检测如SMA、唐氏综合征等疾病。该技术具有较准确的相对定量功能。但是该方法探针制备较为复杂,同时操作步骤繁琐,耗时长。并且采用毛细管电泳作为分析手段,通量较低、成本较高且属于开放式操作,易于造成PCR产物的污染。
发明内容
在本发明中,提出了一种基于滤波降噪的基因组拷贝数变异检测方法,该方法考虑了染色体序列本身的特性以及序列中碱基GC含量对读深的影响,在更好的对数据进行预处理的基础上,将读深数据与高斯核函数进行卷积运算得到尺度空间图像函数,并对尺度空间图像进行边缘检测及基准检测,确定候选拷贝数区域,及检测拷贝数变异类型和位置,提高了拷贝数变异检测的精度。
具体包括如下步骤:
S1.数据预处理;
利用SAMtools工具从bam文件中提取出读深信号,读深信号由以下两部分信号组成的:Rm=rm+Em,Rm代表观察到的读深信号的实际值,rm代表在染色体序列期望得到的读深信号,Em代表噪声信号;
采用GC校正去除碱基GC含量对读深信号的影响;
S2.获得尺度空间图像;
将读深数据r[i-j]与高斯核函数K(x,y)进行卷积运算得到尺度空间图像函数ISS[i,l]:
σl代表第l层的尺度参数,m代表高斯核函数K(i,j)的窗口值大小;
S3.尺度空间图像边缘检测;
MISS[i,l]在相角AISS[i,l]上取得极大值的点对应着尺度空间图像的突变点,由MISS[i,l和AISS[i,l]可以求得极值点,从而对尺度空间图像进行边缘检测;
S4.尺度空间图像基准检测;
设置三个基准标准mt(l)、mt(l)+λδt(l)和mt(l)-λδt(l),其中mt(l)和δt(l)是尺度空间图像函数ySS[i,l]在有两个非零的零交叉点函数ZSS[i,l]在第l层的均值和标准差,λ是基准校验系数,尺度空间值的正常范围为m(k)±2δ(k),在所述正常范围之外的尺度空间函数值将被滤除;
S5.确定候选拷贝数区域;
若ZSS[sm,l,l]·ZSS[em,l,l]<0,第l层中间区{ism,l≤i≤em,l}中所有的点满足ZSS[i,l]=0,且区间{i|sm,l≤i≤em,l}上尺度空间图像函数ISS[i,l]的均值在mt(l)+λδt(l)和mt(l)-λδt(l)之间,则[sm,l,em,l]是一个候选拷贝数变异的区域;其中i在零交叉点函数ZSS[i,l]在第l层上的对应位置区间内;
S6.拷贝数变异类型和位置检测;
进一步地,步骤S1中,噪声信号Em的数学期望为E(XK)=μ,(k=1,2,……),方差为D(XK)=σ2≠0,(k=1,2,……);其中μ是随机变量的期望值,σ2是方差。
进一步地,步骤S3中,对各尺度的边缘图像设置阈值TH,求取边缘点;大于等于阈值TH的点作为边缘点保留,小于阈值TH的点置零;求取尺度空间图像边缘,将不同尺度下的边缘点链接起来,得到不同尺度下的尺度空间图像边缘。
进一步地,步骤S6中,当在第l层的第m个区间[sm,l,em,l]发现拷贝数变异时,从第l层开始往下搜索,找到l-1层的第m个区间[sm,l-1,em,l-1],如此循环,直到迭代到原始的读深信号为止。
进一步地,步骤S2中,σl代表第l层的尺度参数,随着σ的增大,尺度空间图像越来越平滑,并且在平滑的过程中保持其轮廓不变。
进一步地,步骤S2中,m代表高斯核函数K(i,j)的窗口值大小,m=3σl。
本文使用的术语解释如下:
拷贝数变异(CNV):是指与正常样品中的相应核酸序列相比,待测试样品中核酸分子的至少一部分的拷贝数变化,其中所述部分具有大于1kb的长度。拷贝数变异的情况和原因可包括:缺失,诸如微缺失;插入,例如微插入、微复制、复制;倒位、转座和复杂的多位点变异。
测序:是指获得样品的核酸序列的信息的过程。测序可以通过各种方法进行,包括但不限于双脱氧链终止;优选地,高通量测序方法,包括但不限于下一代测序技术或单分子测序技术。测序深度越高,检测的灵敏度越高,即可以检测的缺失片段和重复片段的长度越小。
读深信号:是指具有一定长度(通常长于20bp)的核酸序列,例如由测序仪产生的序列的测序结果,其可以通过序列比对方法与参考序列的特定区域或位置比对。
索引:指具有特定长度并发挥标记功能的核酸序列。当待测试的DNA分子衍生自多个待测试的样品时,多个样品中的每一个可以添加有不同的索引,用于在测序期间区分多个样品。
GC含量偏差:批次之间或一个批次内存在一定的GC偏差,这可能导致拷贝数偏差呈现在基因组的具有高GC含量或低GC含量的区域中。用基于对照集的测序数据进行CG校正,以获得每个窗口中的校正的相对读段数,由此可以消除这种偏差,并且可以提高检测拷贝数变异的准确性。
附图说明
附图1为本发明的基于滤波降噪的基因组拷贝数变异检测方法的流程图。
附图2为变异检测方法进过数据预处理后的信号对比示例图。
附图3为变异检测方法中零交叉点和平滑后信号的拐点示例图。
具体实施方式
以下实施例结合附图对本发明作进一步的说明,所给出的是本发明的一些具体实施例,这些实施例只是说明而不表示本发明所有的可能性,本发明并不局限于这些实施例中提到的材料、反应条件或参数,任何在相关领域具备经验的人,都可以按照本发明的原理,利用其它类似材料或反应条件实现本发明所描述的基因拷贝数变异检测。这些并不脱离本发明描述的基本概念。
本文使用的词语“包括”、“包含”、“具有”或其任何其他变体意欲涵盖非排它性的包括。例如,包括列出要素的工艺、方法、物品或设备不必受限于那些要素,而是可以包括其他没有明确列出或属于这种工艺、方法、物品或设备固有的要素。
参考附图1为本发明的基于滤波降噪的基因组拷贝数变异检测方法的流程图:该变异检测方法具体包括以下步骤:
S1、数据预处理
读深信号是从bam文件中通过工具SAMtools提取得到的,bam文件中存储的是测序读段匹配到参考序列中的信息。利用SAMtools工具从bam文件中提取出read count文件,文件包括read counts值和对应的位置信息,我们将读深信号看作是由以下两部分信号组成的:
Rm=rm+Em (1)
在式(1)中,其中Rm代表观察到的读深信号的实际值,rm代表在染色体序列期望得到的读深信号,Em代表噪声信号,一般都被认为是高斯白噪声信号。白噪声是在无限宽的频率范围内,功率分布均匀的噪声,只是一种理想化的噪声模型。高斯白噪声其幅度的统计规律服从高斯分布,而定义中的“白”是指它的功率谱在整个频域内为常数。噪声信号Em的数学期望为E(XK)=μ,(k=1,2,……),方差为D(XK)=σ2≠0,(k=1,2,……)。其中μ是随机变量的期望(或均值),σ2是它的方差。
我们可以使用基于信号的方法找出读深信号当中的断点。小波理论在去噪和检测信号的断点信息方面都很有用处。小波去噪是从含噪信号中寻找到小波函数空间的最佳映射对信号进行滤波处理分析能够将高频干扰信号滤掉同时能成功地保留信号的原始特征将得到的特征信号与低通滤波后的信号进行组合重构。
Rm代表观察到的读深信号的实际值:
参考图2为进过数据预处理后的信号对比示例图。我们之所以采用haar函数进行噪声去除主要是因为它与读深数据的结构吻合的很自然,沿着染色体的拷贝数变异都是以块存在的,而且被标记的相邻的基因座具有相同的拷贝数增加或减少。
在进行完小波去噪后,由于碱基GC含量对读深信号的影响,我们需要采用GC校正,GC校正采用现有技术中的GC校正方法,这里就不再详细的说明了。
S2、获得尺度空间图像
将读深数据r[i-j]与高斯核函数K(i,j)进行卷积运算得到尺度空间图像函数ISS[i,l]:
σl代表第l层的尺度参数,随着σ的增大,尺度空间图像将变得越来越平滑,并且在平滑的过程中保持其轮廓不变。m代表高斯核函数K(i,j)的窗口值大小,默认为m=3σl,σl的变化范围决定了能检测到的拷贝数变异区间长度的大小。两个相邻尺度参数之间的比例决定了时间复杂度和能检测到的拷贝数变异区间的精度。若采用较小的比例,则是以时间为代价换取高的检测精度,反之,若采用较大的比例,则是牺牲检测精度来换取较低的时间复杂度。所以选择一个合适的比例既能获得较高的检测精度又能获得较小的时间复杂度。
S3、尺度空间图像边缘检测
尺度空间函数滤波过程是利用一个平滑函数,在不同的尺度下平滑所要检测的图像信号,根据平滑后信号的小波变换系数模的一阶或二阶导数找出信号的突变点。一阶导数的极值点对应二阶导数的零交叉点和平滑后信号的拐点,参考图2。因此可由小波变换模局部极大值检测图像边缘。
MISS[i,l]在相角AISS[i,l]上取得极大值的点对应着尺度空间图像的突变点,由MISS[i,l和AISS[i,l]可以求得极值点,从而对尺度空间图像进行边缘检测。
优选地,可以对各尺度的边缘图像设置阈值TH,求取边缘点,大于等于TH的点作为边缘点保留,小于TH的点置零;求取图像边缘,将不同尺度下的边缘点链接起来,得到了不同尺度下的图像边缘。
S4、尺度空间图形基准检测
为了进一步去除离群值对检测精度的影响,很有必要对尺度空间图形进行基准检测。这里我们设置三个基准标准,分别为mt(l)、mt(l)+λδt(l)和mt(l)-λδt(l)。其中mt(l)和δt(l是尺度空间图像函数ISS[i,l]在有两个非零的零交叉点函数ZSS[i,l]在第l层的均值和标准差,λ是基准校验系数,优选为3。为了滤除离群点,尺度空间值的正常范围为m(k)±2δ(k),在所述正常范围之外的尺度空间函数值将被滤除;
S5、确定候选拷贝数区域
当将每层的零交叉点都找到后,对于拷贝数变异的候选区域就可以从有两个非零值的每层的零交叉点着手,对于区间[sm,l,em,l]表示在第l层的第m个区间,在区域{i|sm,l≤i≤em,l},其中i在零交叉点函数ZSS[i,l]在第l层上的对应位置区间内。
若ZSS[sm,l,l]·ZSS[em,l,l]<0,第l层中间区{i|sm,l≤i≤em,l}中所有的点满足ZSS[i,l]=0,且区间{i|sm,l≤i≤em,l}上尺度空间图像函数ISS[i,l]的均值在mt(l)+λδt(l)和mt(l)-λδt(l)之间,则[sm,l,em,l]是一个候选拷贝数变异的区域;其中i在零交叉点函数ZSS[i,l]在第l层上的对应位置区间内;
S6、拷贝数变异检测
拷贝数变异检测包括检测拷贝数变异的类型(增加和缺失)以及检测拷贝数变异区域的精准位置。拷贝数变异增加定义为:尺度空间函数的均值在mt(l)+λδt(l)之上,拷贝数变异缺失(LOSS)定义为:尺度空间函数均值 在mt(l)-λδt(l)之下。
当在第l层的第m个区间[sm,l,em,l]发现拷贝数变异时,从第l层开始往下搜索,找到l-1层的第m个区间[sm,l-1,em,l-1],如此循环,直到迭代到原始的读深信号为止。
本发明另一方面,可提供一种计算机可读存储介质,所述可读存储介质上存储有机器可执行指令,所述机器可执行指令在被执行时使机器执行根据本发明所述的基于滤波降噪的基因组结构变异检测方法的步骤。
在本发明中,计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如包括但不限于,电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的机器可执行指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收机器可执行指令,并转发该机器可执行指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (7)
1.一种基于滤波降噪的基因组拷贝数变异检测方法,其特征在于,包括如下步骤:
S1.数据预处理;
利用SAMtools工具从bam文件中提取出读深信号,读深信号由以下两部分信号组成的:Rm=rm+Em,Rm代表观察到的读深信号的实际值,rm代表在染色体序列期望得到的读深信号,Em代表噪声信号;
采用GC校正去除碱基GC含量对读深信号的影响;
S2.获得尺度空间图像;
将读深数据r[i-j]与高斯核函数K(i,j)进行卷积运算得到尺度空间图像函数ISS[i,l]:
σl代表第l层的尺度参数,m代表高斯核函数K(i,j)的窗口值大小;
S3.尺度空间图像边缘检测;
MISS[i,l]在相角AISS[i,l]上取得极大值的点对应着尺度空间图像的突变点,由MISS[i,l]和AISS[i,l]可以求得极值点,从而对尺度空间图像进行边缘检测;
S4.尺度空间图形基准检测;
设置三个基准标准mt(l)、mt(l)+λδt(l)和mt(l)-λδt(l),其中mt(l)和δt(l)是尺度空间图像函数ISS[i,l]在有两个非零的零交叉点函数ZSS[i,l]在第l层的均值和标准差,λ是基准校验系数,尺度空间函数值的正常范围为m(k)±2δ(k),在所述正常范围之外的尺度空间函数值将被滤除;
S5.确定候选拷贝数区域;
若ZSS[sm,l,l]·ZSS[em,l,l]<0,第l层中间区{i|sm,l≤i≤em,l}中所有的点满足ZSS[i,l]=0,且区间{i|sm,l≤i≤em,l}上尺度空间图像函数ISS[i,l]的均值在mt(l)+λδt(l)和mt(l)-λδt(l)之间,则[sm,l,em,l]是一个候选拷贝数变异的区域;其中i在零交叉点函数ZSS[i,l]在第l层上的对应位置区间内;
S6.拷贝数变异检测;
2.根据权利要求1所述的基于滤波降噪的基因组拷贝数变异检测方法,其特征在于:步骤S1中,噪声信号Em的数学期望为E(XK)=μ,(k=1,2,……),方差为D(XK)=σ2≠0,(k=1,2,……);其中μ是随机变量的期望值,σ2是方差。
4.根据权利要求1所述的基于滤波降噪的基因组拷贝数变异检测方法,其特征在于:步骤S3中,对各尺度的边缘图像设置阈值TH,求取边缘点;大于等于阈值TH的点作为边缘点保留,小于阈值TH的点置零;求取尺度空间图像边缘,将不同尺度下的边缘点链接起来,得到不同尺度下的尺度空间图像边缘。
5.根据权利要求1所述的基于滤波降噪的基因组拷贝数变异检测方法,其特征在于:步骤S6中,当在第l层的第m个区间[sm,l,em,1]发现拷贝数变异时,从第l层开始往下搜索,找到l-1层的第m个区间[sm,l-1,em,l-1],如此循环,直到迭代到原始的读深信号为止。
6.根据权利要求1所述的基于滤波降噪的基因组拷贝数变异检测方法,其特征在于:步骤S2中,σl代表第l层的尺度参数,随着σ的增大,尺度空间图像越来越平滑,并且在平滑的过程中保持其轮廓不变。
7.根据权利要求1所述的基于滤波降噪的基因组拷贝数变异检测方法,其特征在于:步骤S2中,m代表高斯核函数K(i,j)的窗口值大小,m=3σl。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110764922.XA CN113436678A (zh) | 2021-07-07 | 2021-07-07 | 一种基于滤波降噪的基因组结构变异检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110764922.XA CN113436678A (zh) | 2021-07-07 | 2021-07-07 | 一种基于滤波降噪的基因组结构变异检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113436678A true CN113436678A (zh) | 2021-09-24 |
Family
ID=77759324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110764922.XA Withdrawn CN113436678A (zh) | 2021-07-07 | 2021-07-07 | 一种基于滤波降噪的基因组结构变异检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113436678A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100053351A1 (en) * | 2008-08-27 | 2010-03-04 | Rastislav Lukac | Image processing apparatus, image processing method, and program for attaining image processing |
US20140248621A1 (en) * | 2012-01-10 | 2014-09-04 | John Collins | Microfluidic devices and methods for cell sorting, cell culture and cells based diagnostics and therapeutics |
CN108875311A (zh) * | 2018-06-22 | 2018-11-23 | 安徽医科大学第附属医院 | 基于高通量测序和高斯混合模型的拷贝数变异检测方法 |
US20200087710A1 (en) * | 2017-03-17 | 2020-03-19 | Sequenom, Inc. | Methods and processes for assessment of genetic mosaicism |
-
2021
- 2021-07-07 CN CN202110764922.XA patent/CN113436678A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100053351A1 (en) * | 2008-08-27 | 2010-03-04 | Rastislav Lukac | Image processing apparatus, image processing method, and program for attaining image processing |
US20140248621A1 (en) * | 2012-01-10 | 2014-09-04 | John Collins | Microfluidic devices and methods for cell sorting, cell culture and cells based diagnostics and therapeutics |
US20200087710A1 (en) * | 2017-03-17 | 2020-03-19 | Sequenom, Inc. | Methods and processes for assessment of genetic mosaicism |
CN108875311A (zh) * | 2018-06-22 | 2018-11-23 | 安徽医科大学第附属医院 | 基于高通量测序和高斯混合模型的拷贝数变异检测方法 |
Non-Patent Citations (4)
Title |
---|
FATIMA ZARE等: ""Noise cancellation using total variation for copy number variation detection"", 《BMC BIOINFORMATICS》 * |
刘珍: ""基于PCF的拷贝数预处理系统的设计与实现"", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
赵婷婷等: ""基于小波变换的图像边缘检测的改进阈值设定"", 《哈尔滨理工大学学报》 * |
青丝盼: ""基于读深方法的拷贝数变异检测研究"", 《HTTPS://WWW.ZSDOCX.COM/P-1709690.HTML》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5297207B2 (ja) | スペクトル分析を介したdnaパターンの同定方法及びシステム | |
CN110289047B (zh) | 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统 | |
CN113270141B (zh) | 一种基因组拷贝数变异检测整合算法 | |
US6334099B1 (en) | Methods for normalization of experimental data | |
CN114530199A (zh) | 基于双重测序数据检测低频突变的方法、装置及存储介质 | |
CN112735517A (zh) | 一种检测染色体联合缺失的方法、装置和存储介质 | |
Zheng et al. | Gene prediction by the noise-assisted MEMD and wavelet transform for identifying the protein coding regions | |
Spisz et al. | Automated sizing of DNA fragments in atomic force microscope images | |
Wang et al. | MSB: a mean-shift-based approach for the analysis of structural variation in the genome | |
Fuhrmann et al. | Software for automated analysis of DNA fingerprinting gels | |
CN113436678A (zh) | 一种基于滤波降噪的基因组结构变异检测方法 | |
CN111696622B (zh) | 一种校正和评估变异检测软件检测结果的方法 | |
WO2024140881A1 (zh) | 胎儿dna浓度的确定方法及装置 | |
Karpikov et al. | Tiling array data analysis: a multiscale approach using wavelets | |
EP3180724B1 (en) | Methods and systems for detecting minor variants in a sample of genetic material | |
Zhang et al. | A modified statistically optimal null filter method for recognizing protein-coding regions | |
Dessouky et al. | Statistical dna sequence modeling and exon detection using non-parametric methods | |
CN115862744B (zh) | 一种基于关系图建立的全基因组并行拼接方法 | |
Wang et al. | Microarray image de-noising using stationary wavelet transform | |
JP3498706B2 (ja) | 核酸の塩基配列決定方法 | |
US20040029126A1 (en) | Method For examining macromolecules | |
Gopalappa et al. | Removal of hybridization and scanning noise from microarrays | |
Nelson | Improving DNA sequencing accuracy and throughput | |
US20100266177A1 (en) | Signal processing by iterative deconvolution of time series data | |
CN117174178A (zh) | 一种基于二代短读长序列的单倍型距离评估方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210924 |