CN112735604B - 一种基于深度学习算法的新型冠状病毒分类方法 - Google Patents
一种基于深度学习算法的新型冠状病毒分类方法 Download PDFInfo
- Publication number
- CN112735604B CN112735604B CN202110045563.2A CN202110045563A CN112735604B CN 112735604 B CN112735604 B CN 112735604B CN 202110045563 A CN202110045563 A CN 202110045563A CN 112735604 B CN112735604 B CN 112735604B
- Authority
- CN
- China
- Prior art keywords
- sequence
- virus
- novel coronavirus
- data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241000711573 Coronaviridae Species 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 241000700605 Viruses Species 0.000 claims abstract description 78
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000013145 classification model Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 50
- 230000003612 virological effect Effects 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 26
- 238000012795 verification Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 8
- 208000025721 COVID-19 Diseases 0.000 claims description 7
- 230000006872 improvement Effects 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 abstract description 2
- 238000013136 deep learning model Methods 0.000 description 11
- 238000011176 pooling Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 241001678561 Sarbecovirus Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000008904 Betacoronavirus Species 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 241001493065 dsRNA viruses Species 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011285 therapeutic regimen Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Discrete Mathematics (AREA)
- Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Algebra (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种基于深度学习算法的新型冠状病毒分类方法,用于解决现有技术中存在的分类精度较低的技术问题,实现步骤为:获取现有可用病毒序列和新型冠状病毒数据集,预处理病毒序列数据集,使用三个级联的自动编码器将预处理后高维冗余的病毒序列特征进行特征提取实现数据降维,获取病毒序列非线性抽象特征,获取训练集数据和测试集数据,获取最优新型冠状病毒序列分类模型,使用所述最优新型冠状病毒序列分类模型预测新型冠状病毒数据的标签,本发明有效提高了新型冠状病毒分类的准确性。
Description
技术领域
本发明涉及新型冠状病毒分类技术领域,一种基于深度学习算法的新型冠状病毒分类方法。
背景技术
新型冠状病毒,是一类具有包膜、基因组为线性单股正链的RNA病毒,因为人群缺少对新型病毒株的免疫力,所以人群普遍易感。由于新型冠状病毒具有较长的潜伏期,所以迫切的需要阐明和分析病毒基因组序列,以便更好地了解这种新型病毒并且及时制定治疗方案。而现有的方法通过对序列数据进行相似性比较虽然已经找到了序列相似性。但是这种序列对比方法需要借助基因注释,以数据库作为参考,利用比对软件分析数据,在面对需要同时分析数千个细胞表观基因组序列时几乎是不可能的。传统的机器学习方法很难提取病毒序列的非线性抽象特征,只能提取低层特征,低层特征主要是对病毒序列局部信息的描述,并不能很好的描述病毒基因组序列的全部特征,在需要分析病毒基因组序列这种大数据的背景下,缺乏计算效率和预测准确性。
发明内容
本发明提出一种基于深度学习的方法来分类新型冠状病毒,此方法对于分析和处理病毒序列大数据场景时可以有效挖掘其潜在价值,不仅解决了比较基因组学方法在新型冠状病毒分类方面的困难,而且该算法能够逐层学习到病毒序列的非线性特征,提取到更加全面且有代表性的基因组数据特征,克服了传统机器学习方法无法提取高层特征(抽象特征)的缺陷,从而有效提高了分类器的分类性能,实现了对病毒基因组序列内在非线性关联机制的深入挖掘,其特征在于,包括如下步骤:
步骤1获取新型冠状病毒数据集,从病毒宿主数据库和GISAID平台下载的所有的可用病毒序列和COVID-19序列;
步骤2预处理病毒序列数据集,得到特征向量;
步骤3使用三个级联自动编码器进行特征提取将所述特征向量映射成为低维的高层特征,作为模型的输入;
步骤4根据所述模型的输入,训练最优新型冠状病毒分类模型;
步骤5使用所述最优新型冠状病毒分类模型预测新型冠状病毒数据的标签。
进一步地,所述步骤2预处理病毒序列数据集,得到特征向量,其实现步骤为:
步骤2.1将所述病毒序列进行字符序列初步编码字符得到数字序列;
步骤2.2将所述数字序列进行快速傅里叶变化得到所述数字序列的幅值;
进一步地,步骤2.1将所述病毒序列进行字符序列初步编码字符得到数字序列,实现方法为:
从数据库下载的病毒序列为字符序列,由A,T,G,C四种碱基符号表示,将其转化为所述级联自动编码器所识别的数字序列,假设病毒序列集合表示为D={P1,P2,P3,P4,…,Pn},其中Pi∈{A,T,G,C},1≤i≤n,对于每一条字符序列Pi,编码字符T/C=1,A/G=-1,经过初步编码后的数值序列记为:G=(D1,D2,D3…Dn),其中Di是序列Pi的离散数值表示,1≤i≤n。
进一步地,步骤2.2将所述数字序列进行快速傅里叶变化得到所述数字序列的幅值;,其实现步骤为:
步骤2.2.1将每一个病毒序列数字信号Di(n)按n的奇偶分成两组:DFT表示为/>
步骤2.2.2将1个点的病毒子序列再按奇偶分解成为两个/>点的子序列:x1(2s)=x3(s),x1(2s+1)=x4(s);x2(2s)=x5(s),x2(2s+1)=x6(s),/>DFT表示为
步骤2.2.3递归重复M-2次步骤2.2.2,得到经过M次分解的成为病毒序列的2点DFT运算,Di(n)的快速傅里叶变化模表示为|Fi(k)|,记为Hi(k),其中0≤k≤n-1,Hi(k)即为幅值;
进一步地,所述步骤2.3根据所述幅值利用马氏距离构造特征向量,其实现为:
其中Hi和Hj分别为病毒序列第i个和第j个数字信号的幅值。对于病毒序列标签采用one-hot编码,编码后任一病毒类型对应一个标签值,L=[L1,L2,L3…Lk],Li∈{0,1},i={1,2…k},若病毒序列中任一条病毒序列属于第i类病毒,则其对应的标签L中仅第i个位置为1,其余位置均为0,所有标签数据L为一个二维数组。
进一步地,所述步骤3使用三个级联自动编码器进行特征提取将所述特征向量映射成为低维的高层特征,作为模型的输入,其实现步骤为:
步骤3.1为了学习到更加鲁棒的病毒序列特征,随机破坏所述特征向量的小部分数据得到样本,避免其在前一阶段字符序列编码时引入一些无关信息的影响,从而使设计的自动编码器更能抓住病毒序列的本质特征;
步骤3.2将L1+L2范数作为惩罚项共同用于模型改进,避免算法对输入数据过度拟合,构建损失函数;
步骤3.3训练第一级自动编码器,得到第一层低维特征向量;
步骤3.4将第一级自动编码器的输出作为下一级编码器的输入,继续完成第二级自动编码器的训练,重复此步骤,直至完成第三级自动编码器的训练,得到病毒序列抽象的高层特征表达;
进一步地,所述步骤3.2将L1+L2范数作为惩罚项共同用于模型改进,避免算法对输入数据过度拟合,构建损失函数,其实现为:
x(i)为输入的原始特征向量,x1 (i)为重构后特征向量,w为权重,λ和ρ用于调整惩罚项的权重。
进一步地,所述步骤3.3训练第一级自动编码器,得到第一层低维特征向量,其实现为:
假设病毒数字序列n个样本,表示为X={x1,x2,x3,x4……,xn}={xi|1≤i≤n},每个样本xi∈RM是一个M维特征向量,对于每个样本随机选取一小部分数据置为1、-1,向量X进一步表示为 输入到第一级编码器,编码函数fθ对/>每一个病毒序列样本进行第一层编码得到特征向量表示为/>通过解码器重构输入向量表示为Z1=gθ (1)(Y1)=s(W′Y1+b′),式中{W,b}为编码参数,{W′,b′}为解码参数,使用梯度下降算法最小化损失函数argminθ,θ′E得到编码和解码参数,/> 式中l为学习率,W′,b′采用相同的方法计算。
进一步地,所述步骤3.4第三级自动编码器输出的病毒序列抽象的高层特征表达,其实现为:
获得病毒序列最终特征可表示为: x1 (i)表示所述第三级自动编码器输出的特征向量,fθ为编码函数。
进一步地,所述步骤4根据所述模型的输入,训练最优新型冠状病毒序列分类模型,其步骤为:
步骤4.1将训练集数据划分为K份,其中一份作为验证集,其余K-1份作为训练集;
步骤4.2使用贝叶斯优化得到最佳超参数;
步骤4.3根据所述最佳超参数使用深度学习网络进行训练,得到优化后的新型冠状病毒分类模型;
步骤4.4选取没有划分为验证集的数据集中的其中一份作为验证集,其余数据作为训练集,重复步骤4.1,若所有数据均被划分过是验证集,则计算K次优化后的新型冠状病毒分类模型在测试集上的精度,精度最高的模型作为最优新型冠状病毒分类模型。
本发明提出一种基于深度学习算法的新型冠状病毒分类方法,可以有效提高分类精度,解决新型冠状病毒分类准确率低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明病毒序列特征提取框图;
图2为本发明病毒序列自动编码器算法流程图;
图3为本发明深度学习模型epoch参数优化流程图;
图4为本发明深度学习模型其余参数优化流程图;
图5为本发明的整体流程图;
图6为本发明数据库中现有可用病毒序列分类结构示意图;
图7为本发明深度学习模型预测病毒序列分类结构图;
图8为本发明深度学习模型网络具体结构设计;
图9为本发明COVID-19序列分级别建模分类预测结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图5为本发明的整体流程图,本发明提出一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,包括如下步骤:
(1)获取现有可用病毒序列和新型冠状病毒数据集:
(1a)从病毒宿主数据库和GISAID平台下载的所有的可用病毒序列和COVID-19序列;
(2)预处理病毒序列数据集,得到特征向量
(2a)将所述病毒序列进行字符序列编码字符得到数字序列;
(2b)将所述数字序列进行快速傅里叶变化得到所述数字序列的幅值;
(2c)根据所述幅值利用马氏距离构造特征向量;
(3)使用三个级联自动编码器进行特征提取将所述特征向量映射成为低维的高层特征,作为模型的输入
(4)根据所述模型的输入,训练最优新型冠状病毒序列分类模型
(4a)将训练集数据划分为K份,其中一份作为验证集,其余K-1份作为训练集;
(4b)使用贝叶斯优化得到最佳超参数;
(4c)根据所述最佳超参数使用深度学习网络进行训练,得到优化后的新型冠状病毒分类模型;
(4d)选取没有划分为验证集的数据集中的其中一份作为验证集,其余数据作为训练集,重复步骤(4a),若所有数据均被划分过是验证集,则计算K次优化后的新型冠状病毒分类模型在测试集上的精度,精度最高的模型作为最优新型冠状病毒分类模型;
(5)使用所述最优新型冠状病毒分类模型预测新型冠状病毒数据的标签;
步骤(2a)将所述病毒序列进行字符序列初步编码字符得到数字序列,实现方法为:
从数据库下载的病毒序列为字符序列,由A,T,G,C四种碱基符号表示,将其转化为级联自动编码器所识别的数字序列,假设病毒序列集合表示为D={P1,P2,P3,P4,…,Pn},其中Pi∈{A,T,G,C},1≤i≤n,对于每一条字符序列Pi,编码字符T/C=1,A/G=-1,经过初步编码后的数值序列记为:G=(D1,D2,D3…Dn),其中Di是序列Pi的离散数值表示,1≤i≤n;
步骤(2b)将所述数字序列进行快速傅里叶变化得到所述数字序列的幅值;,其实现原理为:
对于每一个Di数字信号,使用快速傅里叶变化(FFT)求解其幅值。Di的快速傅里叶变化模表示为|Fi(k)|,记为Hi(k),其中0≤k≤n-1,其实现为对点数N=2M病毒序列数字信号Di,其中N为病毒数字序列长度。进行按时间抽取的基MFFT变化,经过M次分解成为2点的DFT运算,构成Di(n)到Fi(k)的M级蝶形运算过程。具体的,将每一个病毒序列数字信号Di(n)按n的奇偶分成两组: DFT表示为 再将1个/>点的病毒子序列再按奇偶分解成为两个/>点的子序列:x1(2s)=x3(s),x1(2s+1)=x4(s);x2(2s)=x5(s),x2(2s+1)=x6(s),/>DFT表示为 依此类推,我们可以经过M次分解最终成为病毒序列的2点DFT运算。这样经过M级运算,可以得到病毒序列数字信号Di(n)幅度谱表示Fi(k);进一步地,其具体实现步骤为:
步骤1将每一个病毒序列数字信号Di(n)按n的奇偶分成两组:DFT表示为/>
步骤2将1个点的病毒子序列再按奇偶分解成为两个/>点的子序列:x1(2s)=x3(s),x1(2s+1)=x4(s);x2(2s)=x5(s),x2(2s+1)=x6(s),/>DFT表示为
步骤3递归重复M-2次步骤2.2.2,得到经过M次分解的成为病毒序列的2点DFT运算,Di(n)的快速傅里叶变化模表示为|Fi(k)|,记为Hi(k),其中0≤k≤n-1,Hi(k)即为幅值;
步骤(2c)根据所述幅值利用马氏距离构造特征向量,其实现为:
其中Hi和Hj分别为病毒序列第i个和第j个数字信号的幅值;
步骤(3)所述使用三个级联自动编码器进行特征提取将所述特征向量映射成为低维的高层特征,作为模型的输入,其实现步骤为:
(3a)为了学习到更加鲁棒的病毒序列特征,随机破坏所述特征向量的小部分数据,避免其在前一阶段字符序列编码时引入一些无关信息的影响,从而使设计的自动编码器更能抓住病毒序列的本质特征;
(3b)将L1+L2范数作为惩罚项共同用于模型改进,避免算法对输入数据过度拟合,构建损失函数;
(3c)训练第一级自动编码器,得到第一层低维特征向量;
(3d)将第一级自动编码器的输出作为下一级编码器的输入,继续完成第二级自动编码器的训练,重复此步骤,直至完成第三级自动编码器的训练,得到病毒序列抽象的高层特征表达;
(3e)步骤(3b)所述构建损失函数,其实现为:
x(i)为输入的原始特征向量,x1 (i)为重构后特征向量,w为权重,λ和ρ用于调整惩罚项的权重
步骤(3c)所述训练第一级自动编码器,得到第一层低维特征向量,其实现为:
假设病毒数字序列n个样本,表示为X={x1,x2,x3,x4……,xn}={xi|1≤i≤n},每个样本xi∈RM是一个M维特征向量,对于每个样本随机选取一小部分数据置为1、-1,向量X进一步表示为 输入到第一级编码器,编码函数fθ对/>每一个病毒序列样本进行第一层编码得到特征向量表示为/>通过解码器重构输入向量表示为Z1=gθ (1)(Y1)=s(W′Y1+b′),式中{W,b}为编码参数,{W′,b′}为解码参数,使用梯度下降算法最小化损失函数argminθ,θ′E得到编码和解码参数,/> 式中l为学习率,W′,b′采用相同的方法计算;
步骤(3d)所述第三级自动编码器输出的病毒序列抽象的高层特征表达,其实现为:
获得病毒序列最终特征可表示为: x1 (i)表示所述第三级自动编码器输出的特征向量,fθ为编码函数;
具体来说,步骤(3)可总结为:
具体的,假设病毒数字序列n个样本,表示为X={x1,x2,x3,x4……,xn}={xi|1≤i≤n},每个样本xi∈RM是一个M维特征向量,对于每个样本随机选取一小部分数据置为1、-1,向量X进一步表示为 输入到第一级编码器,编码函数fθ对/>每一个病毒序列样本进行第一层编码得到特征向量表示为Y1={yi|1≤i≤n}(3-1),通过解码器重构输入向量表示为Z1={zi|1≤i≤n}(3-2),式中{W,b}为编码参数,{W′,b′}为解码参数,使用梯度下降算法最小化损失函数argminθ,θ′E得到编码和解码参数,计算公式如(3-3),(3-4),式中l为学习率,W′,b′采用相同的方法计算,完成第一层网络训练后,只保留这一级的编码器部分,将此时编码器输出的经过抽象后的低维特征向量作为下一级编码器的输入,按照同样的方法训练第二层网络,直到完成第三级自动编码器的训练,此时编码器的输出为病毒DNA序列抽象特征表达/>通过三级逐步抽象组合病毒序列底层特征最终完成了其抽象的高层特征表达,病毒序列特征提取框图可见图1,病毒序列自动编码器算法流程图可见图2。
Z1=gθ (1)(Y1)=s(W′Y1+b′) (3-2)
步骤(4)可总结为:
首先将特征提取后的病毒数字序列通过一个卷积层进行降维,卷积核在工作时,有规律的扫过病毒数字序列输入特征,对输入特征做矩阵元素乘法求和并叠加偏差量,提取到的特征保持了输入的固有拓扑。卷积方法公式为(4-1),其中,f(·)为激活函数,*为卷积运算,为第l层的i行j列的特征,特别的x0表示输入病毒数字序列,/>是卷积核,bj是偏置项。
在卷积层进行特征提取之后,输出的特征会被传递至池化层进行特征选择和信息过滤。采用最大池化方法,池化方法公式为(4-2),其中为第l层最大池化层特征图第i行j列的特征值,u(a,a)是窗口函数,N是窗口的大小。
使用含有两个卷积层的基础残差模块代替堆叠卷积层解决了网络深度带来的训练困难问题,在基础残差模块后接一个池化层进行特征信息过滤且在一定程度上防止过拟合。所述步骤三一个残差模块被定义为yl+1=f(yl+F(yl,wl)),yl和yl+1分别代表第l层残差模块的输入和输出,F(·)是残差函数,wl是残差块的参数,f(·)代表激活函数。其中F(yl,wl)表示要学习的残差映射。在第二个最大池化层后接一个dropout层,前向传播的时候,让某个神经元的激活值以一定的概率p停止工作以此来避免过拟合,该过程计算如(4-3)、(4-4),其中W为权重,b为偏置,k(3)为第3层输出,k(4)为第4层输出,C(3)表示使用Bernoulli函数随机生成一个0、1向量,其中每一个随机变量服从参数为P的伯努利概率分布。其中丢弃法比率(P)最佳参数确定由贝叶斯调参给出。
ki (4)=f(ai (4)) (4-4)
全局平均池化后使用全连接层对提取的特征进行非线性组合以得到输出,该过程表示为(4-5),式中⊙代表矩阵乘法,WN*C为权重,b为偏置,Gc为全局平均池化后的病毒序列特征向量,N为分级别建模时每一级别病毒序列所有的类别数。
yn=WN*C⊙Gc+b (4-5)
在对病毒序列进行分级别建模时全连接层神经元数,N取值分别为13,12,4,4,即对应每次病毒序列类别总数。本专利使用交叉熵函数作为损失函数训练模型,具体过程如(4-6),式中yik为病毒序列标签集合第k个病毒序列类别的真实标签,pik表示模型对该病毒序列类别的分类预测概率,N为病毒序列样本总数,K为类别总数。有了模型的损失函数,模型使用梯度下降的优化方法更新参数,每层网络先经过前馈计算每层的输出,然后反向传播误差,模型沿着误差梯度方向直到找到最优解。
深度学习模型设计如图7所示,网络具体结构设计如图8所示。
在对模型进行优化时,对于定型周期(epoch)确定,经过30轮评估模型val-loss不再减少,输出此时epoch值作为模型最佳epoch参数设置,epoch优化方案如图3所示。除epoch之外其余参数优化方案如图4所示。使用三折交叉验证评估不同参数选择下模型的预测性能,使用三折交叉验证AUC值的平均值作为评估指标并以此来定义目标函数,保证在模型参数选择上的可靠性。网络参数调优范围可见下表:
通过K折交叉验证方式来比较深度学习模型在选择不同参数条件下模型的预测能力,在模型训练之前,将样本数据进行打乱以消除样本可能带来的偏差,为了确保所有数据集都能被训练,将训练数据分成K份,训练深度学习模型,每次选不同的K-1份做训练,1份做测试,重复K次,比较模型评价指标的K次平均值从而选出最优的模型。使用准确率(acc)、精确率(Precision)来进行评估,该值越接近1效果越佳。
在对COVID-19序列进行分类时,由于训练数据每一条病毒序列都是一组分类学名称,从界级别到属级别,由高到低排列,数据库中现有可用病毒序列分类结构如图6所示,所以应该分级别去建模计算,顺序为由高到低去寻找。第一次范围为11个病毒家族和核糖病毒域,使用优化好的深度学习模型对COVID-19序列进行分类预测,可确定其为核糖病毒域。第二次范围为核糖病毒域下的12个科,使用优化好的深度学习模型对COVID-19序列进行分类预测,可确定其为冠状病毒科(Coronaviridae)。第三次范围为冠状病毒科下的四个属,使用优化好的深度学习模型对COVID-19序列进行分类预测,可确定其为冠状病毒属(Betacoronavirus)。第四次范围为冠状病毒属下的四个亚属,使用优化好的深度学习模型对COVID-19序列进行分类预测,可确定其为B系(Sarbecovirus)。因此最终可确定COVID-19序列分类标签为冠状病毒属(Betacoronavirus)的B系(Sarbecovirus),COVID-19序列分级别建模分类预测结构如图9所示。
设选择的最优模型表示为f(x),对于COVID-19序列x,使用此模型输出它的分类标签,COVID-19_label=f(x)。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (6)
1.一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,包括如下步骤:
步骤1获取新型冠状病毒数据集,所述数据集为从病毒宿主数据库和GISAID平台下载的所有的可用病毒序列和COVID-19序列;
步骤2预处理病毒序列数据集,得到特征向量;
步骤3使用三个级联自动编码器进行特征提取将所述特征向量映射成为低维的高层特征,作为模型的输入;
所述步骤3使用三个级联自动编码器进行特征提取将所述特征向量映射成为低维的高层特征,作为模型的输入,其实现步骤为:
步骤3.1为得到病毒序列特征,随机破坏所述特征向量的十分之一数据得到样本;
步骤3.2将L1+L2范数作为惩罚项共同用于模型改进,避免算法对输入数据过度拟合,构建损失函数;
所述步骤3.2构建损失函数,其实现为:
x(i)为输入的原始特征向量,为重构后特征向量,w为权重,λ和ρ用于调整惩罚项的权重;
步骤3.3训练第一级自动编码器,得到第一层低维特征向量;
所述步骤3.3训练第一级自动编码器,得到第一层低维特征向量,其实现为:
假设病毒数字序列n个样本,表示为X={x1,x2,x3,x4……,xn}={xi|1≤i≤n},每个样本xi∈RM是一个M维特征向量,对于每个样本随机选取十分之一数据置为1、-1,向量X进一步表示为 输入到第一级编码器,编码函数/>对/>每一个病毒序列样本进行第一层编码得到特征向量表示为/>通过解码器重构输入向量表示为Z1=gθ (1)(Y1)=s(W′Y1+b′),式中{W,b}为编码参数,{W′,b′}为解码参数,使用梯度下降算法最小化损失函数argminθ,θ′E得到编码和解码参数,/> 式中l为学习率,W′,b′采用相同的方法计算;
步骤3.4将第一级自动编码器的输出作为下一级编码器的输入,继续完成第二级自动编码器的训练,重复此步骤,直至完成第三级自动编码器的训练,得到病毒序列抽象的高层特征表达;
所述步骤3.4第三级自动编码器输出的病毒序列抽象的高层特征表达,其实现为:
获得病毒序列最终特征表示为: 表示所述第三级自动编码器输出的特征向量,fθ为编码函数;
步骤4根据所述模型的输入,训练最优新型冠状病毒序列分类模型;
步骤5使用所述最优新型冠状病毒序列分类模型预测新型冠状病毒数据的标签。
2.根据权利要求1所述的一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,所述步骤2预处理病毒序列数据集,得到特征向量,其实现步骤为:
步骤2.1将所述病毒序列进行字符序列编码字符得到数字序列;
步骤2.2将所述数字序列进行快速傅里叶变化得到所述数字序列的幅值;
步骤2.3根据所述幅值利用马氏距离构造特征向量。
3.根据权利要求1所述的一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,所述步骤4根据所述模型的输入,训练最优新型冠状病毒序列分类模型,其步骤为:
步骤4.1将训练集数据划分为K份,其中一份作为验证集,其余K-1份作为训练集;
步骤4.2使用贝叶斯优化得到最佳超参数;
步骤4.3根据所述最佳超参数使用深度学习网络进行训练,得到优化后的新型冠状病毒分类模型;
步骤4.4判断是否所有数据均被划分过是验证集,若是,则计算K次优化后的新型冠状病毒分类模型在测试集上的精度,精度最高的模型作为最优新型冠状病毒分类模型,若不是,重新选取所述训练集数据中没有划分为验证集过中的其中一份作为验证集,其余K-1份作为训练集,重复步骤4.2和步骤4.3。
4.根据权利要求2所述的一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,步骤2.1将所述病毒序列进行字符序列初步编码得到数字序列,实现方法为:
从数据库下载的病毒序列为字符序列,由A,T,G,C四种碱基符号表示,将其转化为所述级联自动编码器所识别的数字序列,假设病毒序列集合表示为D={P1,P2,P3,P4,…,Pn},其中Pi∈{A,T,G,C},1≤i≤n,对于每一条字符序列Pi,所述编码字符为T/C=1,A/G=-1,经过初步编码后的数值序列记为:G=(D1,D2,D3…Dn),其中Di是序列Pi的离散数值表示,1≤i≤n。
5.根据权利要求2所述的一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,步骤2.2将所述数字序列进行快速傅里叶变化得到所述数字序列的幅值,其实现步骤为:
步骤2.2.1将每一个病毒序列数字信号Di(n)按n的奇偶分成两组:Di(2r)=x1(r),Di(2r+1)=x2(r),DFT表示为/> N为序列长度;
步骤2.2.2将1个点的病毒子序列再按奇偶分解成为两个/>点的子序列:x1(2s)=x3(s),x1(2s+1)=x4(s);x2(2s)=x5(s),x2(2s+1)=x6(s),/>DFT表示为
步骤2.2.3递归重复M-2次步骤2.2.2,得到经过M次分解的成为病毒序列的2点DFT运算,Di(n)的快速傅里叶变化模表示为|Fi(k)|,记为Hi(k),其中0≤k≤n-1,Hi(k)即为幅值。
6.根据权利要求2所述的一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,所述步骤2.3根据所述幅值利用马氏距离构造特征向量,其实现为:
其中Hi和Hj分别为病毒序列第i个和第j个数字信号的幅值,对于病毒序列标签采用one-hot编码,编码后任一病毒类型对应一个标签值,L=[L1,L2,L3…Lk],Li∈{0,1},i={1,2…k},具体的,若病毒序列中任一条病毒序列属于第i类病毒,则其对应的标签L中仅第i个位置为1,其余位置均为0,所有标签数据L为一个二维数组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110045563.2A CN112735604B (zh) | 2021-01-13 | 2021-01-13 | 一种基于深度学习算法的新型冠状病毒分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110045563.2A CN112735604B (zh) | 2021-01-13 | 2021-01-13 | 一种基于深度学习算法的新型冠状病毒分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112735604A CN112735604A (zh) | 2021-04-30 |
CN112735604B true CN112735604B (zh) | 2024-03-26 |
Family
ID=75592903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110045563.2A Active CN112735604B (zh) | 2021-01-13 | 2021-01-13 | 一种基于深度学习算法的新型冠状病毒分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735604B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113252640B (zh) * | 2021-06-03 | 2021-12-14 | 季华实验室 | 病毒快速筛查检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107665248A (zh) * | 2017-09-22 | 2018-02-06 | 齐鲁工业大学 | 基于深度学习混合模型的文本分类方法和装置 |
CN108171232A (zh) * | 2017-11-15 | 2018-06-15 | 中山大学 | 基于深度学习算法的细菌性与病毒性儿童肺炎的分类方法 |
CN111785328A (zh) * | 2020-06-12 | 2020-10-16 | 中国人民解放军军事科学院军事医学研究院 | 基于门控循环单元神经网络的冠状病毒序列识别方法 |
CN111951975A (zh) * | 2020-08-19 | 2020-11-17 | 哈尔滨工业大学 | 一种基于深度学习模型gpt-2的脓毒症早期预警方法 |
AU2020102631A4 (en) * | 2020-10-07 | 2020-11-26 | A, Anbuchezian Dr | The Severity Level and Early Prediction of Covid-19 Using CEDCNN Classifier |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140058987A1 (en) * | 2012-08-27 | 2014-02-27 | Almon David Ing | MoRPE: a machine learning method for probabilistic classification based on monotonic regression of a polynomial expansion |
-
2021
- 2021-01-13 CN CN202110045563.2A patent/CN112735604B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107665248A (zh) * | 2017-09-22 | 2018-02-06 | 齐鲁工业大学 | 基于深度学习混合模型的文本分类方法和装置 |
CN108171232A (zh) * | 2017-11-15 | 2018-06-15 | 中山大学 | 基于深度学习算法的细菌性与病毒性儿童肺炎的分类方法 |
CN111785328A (zh) * | 2020-06-12 | 2020-10-16 | 中国人民解放军军事科学院军事医学研究院 | 基于门控循环单元神经网络的冠状病毒序列识别方法 |
CN111951975A (zh) * | 2020-08-19 | 2020-11-17 | 哈尔滨工业大学 | 一种基于深度学习模型gpt-2的脓毒症早期预警方法 |
AU2020102631A4 (en) * | 2020-10-07 | 2020-11-26 | A, Anbuchezian Dr | The Severity Level and Early Prediction of Covid-19 Using CEDCNN Classifier |
Non-Patent Citations (3)
Title |
---|
Machine learning using intrinsic genomic signatures for rapid classfication of novel pathogens:COVID-19 case study;Gurjit S. Randhawa, et al;《PLOS ONE》;第1-24页 * |
王宇韬等.《Python大数据分析与机器学习商业案例实战》.机械工业出版社,2020,(第1版),第138页. * |
黄祥林等.《图像检索原理与实践》.中国传媒大学出版社,2014,(第1版),第89页. * |
Also Published As
Publication number | Publication date |
---|---|
CN112735604A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
Chen et al. | Shallowing deep networks: Layer-wise pruning based on feature representations | |
CN112926303B (zh) | 一种基于BERT-BiGRU的恶意URL检测方法 | |
CN107220506A (zh) | 基于深度卷积神经网络的乳腺癌风险评估分析系统 | |
CN109271522A (zh) | 基于深度混合模型迁移学习的评论情感分类方法及系统 | |
Ma et al. | Multi-feature fusion deep networks | |
Ma et al. | MIDIA: exploring denoising autoencoders for missing data imputation | |
CN113571125A (zh) | 基于多层网络与图编码的药物靶点相互作用预测方法 | |
WO2024086143A1 (en) | Native expansion of a sparse training dataset into a dense training dataset for supervised training of a synonymous variant sequence generator | |
CN115424663B (zh) | 一种基于attention的双向表示模型的RNA修饰位点预测方法 | |
CN112735604B (zh) | 一种基于深度学习算法的新型冠状病毒分类方法 | |
Bhadoria et al. | Bunch graph based dimensionality reduction using auto-encoder for character recognition | |
CN114138971A (zh) | 一种基于遗传算法的极大多标签分类方法 | |
CN118038995B (zh) | 非编码rna中小开放阅读窗编码多肽能力预测方法及系统 | |
CN112085245A (zh) | 一种基于深度残差神经网络的蛋白质残基接触预测方法 | |
CN118155746A (zh) | 一种预测分子性质的双通道对比模型 | |
CN115795037B (zh) | 一种基于标签感知的多标签文本分类方法 | |
CN113297385B (zh) | 基于改进GraphRNN的多标签文本分类系统及分类方法 | |
Kai et al. | Molecular design method based on novel molecular representation and variational auto-encoder | |
CN116628690A (zh) | 一种sql注入攻击检测方法及系统 | |
Liu et al. | ADRS-CNet: An adaptive dimensionality reduction selection and classification network for DNA storage clustering algorithms | |
CN118861527A (zh) | 一种基于稀疏跨模态通信辐射源识别方法 | |
CN116561004A (zh) | 一种基于Transformer模型的代码复杂度分析方法 | |
El Mhouti et al. | A Machine Learning-Based Approach for Meteorological Big Data Analysis to Improve Weather Forecast |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |