CN113838519B - 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 - Google Patents
基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 Download PDFInfo
- Publication number
- CN113838519B CN113838519B CN202110959928.2A CN202110959928A CN113838519B CN 113838519 B CN113838519 B CN 113838519B CN 202110959928 A CN202110959928 A CN 202110959928A CN 113838519 B CN113838519 B CN 113838519B
- Authority
- CN
- China
- Prior art keywords
- gene
- adaptive
- network model
- interaction
- regularization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 284
- 230000003993 interaction Effects 0.000 title claims abstract description 106
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 82
- 238000010187 selection method Methods 0.000 title claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000000585 Mann–Whitney U test Methods 0.000 claims abstract description 15
- 230000014509 gene expression Effects 0.000 claims description 27
- 230000002068 genetic effect Effects 0.000 claims description 7
- 238000011002 quantification Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 4
- 206010028980 Neoplasm Diseases 0.000 abstract description 17
- 201000011510 cancer Diseases 0.000 description 12
- 201000010099 disease Diseases 0.000 description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000002596 correlated effect Effects 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 4
- 238000002493 microarray Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 3
- 230000007067 DNA methylation Effects 0.000 description 2
- 238000000018 DNA microarray Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000011223 gene expression profiling Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 231100000517 death Toxicity 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 101150044508 key gene Proteins 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000006916 protein interaction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000005748 tumor development Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/30—Microarray design
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开一种基于自适应基因交互正则化弹性网络模型的基因选择方法及系统,该方法包括:基于Wilcoxon秩和检验评估每个测量的基因的重要程度;对每个测量的基因的重要程度进行量化,并添加自适应惩罚权重,进而删除噪声基因,得到特征基因;将惩罚权重引入最小二乘损失函数中,构建自适应弹性网络模型;构建基因交互网络的邻接矩阵;基于邻接矩阵构建基因交互网络惩罚;将自适应弹性网络模型和基因交互网络惩罚相结合,构建自适应基因交互正则化弹性网络模型;基于梯度下降算法求解出该正则化弹性网络模型的最优解,基于最优解选择基因。本发明可以自适应地选择与肿瘤的产生高度相关的重要基因,并去除冗余、不相关的基因和噪声基因。
Description
技术领域
本发明属于生物信息技术领域,尤其涉及一种基于自适应基因交互正则化弹性网络模型的基因选择方法及系统。
背景技术
肿瘤现在已经成为威胁人类生命健康的主要疾病之一,根据2018全球癌症统计数据报告显示,2018年全球新增癌症病例将达到1810万人,死亡人数将达到960万人,并且确诊癌症的人数每年还在快速上涨,然而对于癌症的治疗手段和预防手段等方面的研究还不是很全面。随着大量基因芯片技术的应用和发展完善,人类已经能够陆续获得各类组织正常的基因表达信息,而从基因芯片上所测量得到的海量基因中找出不同疾病类别上具有差异性表达的少量基因,是进行准确的疾病判断和给出可靠诊断依据的关键所在。同时这也将为进一步抗病药物的研制提供便利。
基于机器学习和统计分析的学习方法从大量基因表达数据中筛选出的特征基因有助于为肿瘤诊断、癌症分类、临床结果预测等提供重要的参考,因此引起了大量学者的广泛关注。在生物医学中,微阵列数据广泛应用在癌症分类和预测的研究中。通常使用矩阵的形式来表示DNA微阵列数据,矩阵内元素的数值表示基因表达水平信息。具体形式如表1所示,其中行表示样本,列表示一种基因,最右边的一列表示该样本的类别标签。
表1.DNA微阵列数据的矩阵形式
基因选择是对基因表达谱进行研究和分析的重要步骤,基因选择需要从高维的基因表达谱中选择出少量含有关键基因信息子集,在进行基因选择的过程中不改变原来样本中的基因值,而是通过去除冗余基因并保留与分类相关的基因。
基因选择的过程如下:(1)获取微阵列数据,(2)对所获取的数据进行预处理,(3)提取特征基因,(4)进行分类建模,(5)对分类的结果进行分析。具体分类过程如图1所示。
目前,有许多研究利用微阵列数据并根据基因的表达水平对疾病进行分类。大量研究表明,基因的表达水平是发现特征基因和分类的重要工具。逻辑回归是一种常用的特征分类方法,但是对于微阵列数据(即预测变量的数量p远远大于样本数n),它可能产生不稳定的估计结果。此外,最大似然法在预测变量之间存在的多重共线性时也会产生不稳定的结果。因此,现有的逻辑回归方法不适用于基于基因表达水平的疾病分类。基于L2范数的惩罚逻辑回归及各种L1范数的惩罚和正则化方法已经成功应用于疾病分类。然而,现有的L1型惩罚方法由于对所有特征均施加惩罚而不考虑每个特征的重要程度,在线性回归建模时可能会产生估计效率低下和变量选择结果不一致的问题。在进行疾病分类时存在的一些高度相关的基因应该作为一个基因群体,同时被选择或消除。以学习的角度来看,这可以被看成是一种群体效应,即一些高度相关的基因的估计系数会比较相近。作为一种新的正则化方法,弹性网络模型及其各种推广能够在创建分类器的过程中产生群体效应,但是现有此类模型很少具有生物可解释性且未能充分考虑基因相互作用。
随着大规模的癌症基因组研究和个性化医学的兴起,利用多组学数据进行临床结果综合预测成为了新兴研究课题。由于在许多癌症中,DNA甲基化和基因表达在预测癌症分期和患者生存方面的相对优势不太明显,通过将基因表达谱数据、甲基化谱数据和其他基因测量方法结合起来预测临床结果,可以提高预测性能。然而,这需要从大量的患者中收集和整合基因组数据,任务量比较大。
发明内容
本发明针对现有基因选择方法存在的估计效率低下、未充分考虑基因相互作用、任务量比较大的问题,提出一种基于自适应基因交互正则化弹性网络模型的基因选择方法及系统,克服了上述缺陷,可以自适应地选择与肿瘤的产生高度相关的重要基因,并去除冗余、不相关的基因和噪声基因。
为了实现上述目的,本发明的一种基于自适应基因交互正则化弹性网络模型的基因选择方法,基于Wilcoxon秩和检验(Wilcoxon Rank Sum Test,WRST)评估每个基因的重要性,然后根据测量的基因的重要性程度对每个基因施加自适应型惩罚,从而将噪声基因从模型中删除,识别出特征基因;将基因测量和基因与基因之间的交互信息整合到自适应弹性网络模型中,增强结构的稀疏性,并利用分组效应来选取特征基因降低冗余;利用迭代梯度下降算法求解正则化弹性网络模型。该方法具体包括如下步骤:
步骤1:基于Wilcoxon秩和检验评估每个测量的基因的重要程度;
步骤2:对每个测量的基因的重要程度进行量化;
步骤3:根据量化后的每个基因的重要程度为每个测量的基因添加自适应惩罚权重,基于所述自适应惩罚权重删除噪声基因,得到特征基因;
步骤4:将所述自适应惩罚权重引入最小二乘损失函数中,从而构建自适应弹性网络模型;
步骤5:构建基因交互网络的邻接矩阵;
步骤6:基于所述邻接矩阵构建基因交互网络惩罚;
步骤7:将所述自适应弹性网络模型和所述基因交互网络惩罚相结合,构建自适应基因交互正则化弹性网络模型;
步骤8:基于梯度下降算法求解出所述自适应基因交互正则化弹性网络模型的最优解,基于所述最优解选择基因。
进一步地,所述步骤1包括:
基于Wilcoxon秩和检验,按照下式评估每个测量的基因的重要程度:
其中I(.)为指示函数;表示第j个基因的第i个表达值;p表示测量的基因总数;N0和N1表示不同样本类的索引集,n0、n1分别表示样本N0、N1的数目;s(gj)表示第j个基因在两个类中不同表达水平,0≤s(gj)≤n0n1,如果s(gj)的值接近0或n0n1表示第j个基因是分类中重要的特征基因。
进一步地,所述步骤2包括:
按照下式将基因进行排序:
R(gj)=max{s(gj),n0n1-(gj)}
当s(gj)越接近0或n0n1时,R(gj)值越大,那么第j个基因在分类问题中的重要性越大。
进一步地,所述步骤3中,自适应惩罚权重的表达式为:
其中n为样本个数。
进一步地,所述自适应弹性网络模型的表达式为:
其中O2表示自适应弹性网络模型,y为样本类别,β为所有基因的估计系数,βj为第j个基因的估计系数,xi为输入向量,λ和α为正则化参数,且λ>0,α∈[0,1]。
进一步地,所述步骤5中,按照下式构建基因相互作用网络的邻接矩阵:
A=[aij]∈Rp×p
其中R代表实数集;A表示基因相互作用网络的邻接矩阵;aij值为0或1。
进一步地,所述步骤6中,按照下式构建基因交互网络惩罚:
其中O3表示基因交互网络惩罚,βi为第i个基因的估计系数,Tr(.)表示矩阵的迹。
进一步地,所述自适应基因交互正则化弹性网络模型的表达式为:
本发明另一方面还提出一种基于自适应基因交互正则化弹性网络模型的基因选择系统,包括:
基因重要程度评估模块,用于基于Wilcoxon秩和检验评估每个测量的基因的重要程度;
基因重要程度量化模块,用于对每个测量的基因的重要程度进行量化;
加权模块,用于根据量化后的每个基因的重要程度为每个测量的基因添加自适应惩罚权重,基于所述自适应惩罚权重删除噪声基因,得到特征基因;
第一构建模块,用于将所述基因权重引入最小二乘损失函数中,从而构建自适应弹性网络模型;
第二构建模块,用于构建基因交互网络的邻接矩阵;
第三构建模块,用于基于所述邻接矩阵构建基因交互网络惩罚;
第四构建模块,用于将所述自适应弹性网络模型和所述基因交互网络惩罚相结合,构建自适应基因交互正则化弹性网络模型;
基因得出模块,用于基于梯度下降算法求解出所述自适应基因交互正则化弹性网络模型的最优解,基于所述最优解选择基因。
与现有技术相比,本发明具有的有益效果:
本发明的自适应基因交互正则化弹性网络模型扩展并整合了基因交互网络信息和自适应弹性网络模型,以达到更好的分类目的。普通的弹性网络模型不考虑基因之间交互的信息,而提出的自适应弹性网络模型包含基因交互的信息。将自适应弹性网络模型与基因交互网络融合在一起,采用梯度下降算法求解模型的最优解,本发明方便地整合基因重要性和基因交互信息来识别特征基因,降低冗余;还可以自适应地选择与肿瘤的产生高度相关的重要基因,并去除冗余、不相关的基因和噪声基因。
附图说明
图1为基因选择过程示意图;
图2为本发明实施例一种基于自适应基因交互正则化弹性网络模型的基因选择方法的基本流程图;
图3为本发明实施例一种基于自适应基因交互正则化弹性网络模型的基因选择系统的架构示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
如图2所示,一种基于自适应基因交互正则化弹性网络模型的基因选择方法,包括:
步骤1:基于Wilcoxon秩和检验评估每个测量的基因的重要程度;
步骤2:对每个测量的基因的重要程度进行量化;
步骤3:根据量化后的每个基因的重要程度为每个测量的基因添加自适应惩罚权重,基于所述自适应惩罚权重删除噪声基因,得到特征基因;
步骤4:将所述自适应惩罚权重引入最小二乘损失函数中,从而构建自适应弹性网络模型;
步骤5:构建基因交互网络的邻接矩阵;
步骤6:基于所述邻接矩阵构建基因交互网络惩罚;
步骤7:将所述自适应弹性网络模型和所述基因交互网络惩罚相结合,构建自适应基因交互正则化弹性网络模型(AGIREN);
步骤8:基于梯度下降算法求解出所述自适应基因交互正则化弹性网络模型的最优解,基于所述最优解选择基因。
具体地,为了能够有效地挑选出重要的基因进行分类,通过施加自适应L1型惩罚,将分类中重要的基因加入惩罚回归模型。
进一步地,所述步骤1包括:
基于Wilcoxon秩和检验,按照下式评估每个测量的基因的重要程度:
其中I(.)为指示函数;表示第j个基因的第i个表达值;p表示测量的基因总数;N0和N1表示不同样本类的索引集,n0、n1分别表示样本N0、N1的数目;s(gj)表示第j个基因在两个类中不同表达水平,0≤s(gj)≤n0n1,如果s(gj)的值接近0或n0n1表示第j个基因是分类中重要的特征基因。
进一步地,所述步骤2包括:
虽然通过Wilcoxon秩和检验可以对每个基因的重要程度进行度量,但是由于该统计量不能直接用于自适应惩罚权重,为了对每个基因的重要性进行量化,按照下式将基因进行排序:
R(gj)=max{s(gj),n0n1-(gj)}
其中s(gj)接近0或n0n1表示第j个基因是重要的特征基因,重要基因对应的R(gj)值较大,而噪声基因对应的R(gj)值较小;s(gj)越接近0或n0n1,R(gj)值越大,第j个基因在分类中的重要性越大。
进一步地,为了在分类时根据每个基因的重要程度进行区别惩罚,所述步骤3中,自适应惩罚权重的表达式为:
其中n为样本个数。噪声基因会获得相对较大的惩罚权重,而关键的特征基因获得较小的惩罚权重。
进一步地,将基因对分类的重要性,即基因权重wj,引入至常见的最小二乘损失函数中,从而构建自适应弹性网络模型,所述自适应弹性网络模型的表达式为:
其中O2表示自适应弹性网络模型,y为样本类别,β为所有基因的估计系数,βj为第j个基因的估计系数,xi为输入向量,n为样本个数,λ和α为正则化参数,且λ>0,α∈[0,1]。
进一步地,所述步骤5中,按照下式构建基因相互作用网络的邻接矩阵:
A=[aij]∈Rp×p
其中R代表实数集,A表示基因相互作用网络的邻接矩阵;aij值为0或1。aij=0表示第i个基因与第j个基因之间交互较弱,反之较强。值得说明的是,本发明中构建的基因交互矩阵A可以根据基因之间的交互程度进行进一步优化,也可以包含多种类型的交互信息,如转录因子的目标和蛋白质之间的相互作用。例如,蛋白质之间相互作用较强的可能比蛋白质之间相互作用较弱的分配更多的权重。
进一步地,为了保证已知的相互作用的基因具有相似的系数,从而更有可能分在同一组,需要最大化基因相互作用网络中的总分组效应,按照下式构建基因交互网络惩罚:
其中O3表示基因交互网络惩罚,βi为第i个基因的估计系数,Tr(.)表示矩阵的迹。
进一步地,所述步骤7中,所述自适应基因交互正则化弹性网络模型的表达式为:
进一步地,所述步骤8中,基于梯度下降算法求解出的自适应基因交互正则化弹性网络模型的表达式为:
其中为惩罚项,表示基于梯度下降算法求解出的自适应基因交互正则化弹性网络模型,最优解为基于所述最优解选择基因;具体地,非零的回归系数为与癌症密切相关的重要基因,且回归系数的绝对值越大,该基因与癌症的相关性也就越强。
进一步地,在所述步骤8之后,还包括:
基于选择的基因进行分类,并对分类结果进行分析。
具体地,在进行疾病分类时存在的一些高度相关的基因应该作为一个基因群体,同时被选择或消除。作为一种新的正则化方法,弹性网络模型及其各种推广能够在创建分类器的过程中产生群体效应。为了能够有效地挑选出重要的基因进行分类,通过施加自适应L1型惩罚,将分类中重要的基因加入惩罚回归模型。基于Wilcoxon秩和检验的基因排序方法来表现每个基因的重要程度,提出自适应权重并对每个基因的重要性进行量化及在分类时根据每个基因的重要程度进行区别惩罚。然而噪声基因会获得相对较大的权重,而关键的特征基因获得较小的权重。因此,可以直接将基因对分类的重要性纳入逻辑回归模型中,即自适应弹性网络模型
基因与基因之间的相互作用是理解复杂疾病的根本要素,而表现型被认为是多个关键基因之间相互交互的结果。当进行癌症分类时,需要考虑基因的相互作用,当多个基因相互作用时,不用将所有的基因都看作为特征基因,因为由于基因交互的作用,它们所携带的信息会不可避免地具有相关性。为了避免冗余的产生,可以定义一个基于基因相互作用的网络约束,这样在网络中的任何变量都有可能被放置到相同的集合中。为了保证已知的相互作用的基因具有相似的系数,从而更有可能分在同一组,需要最大化基因相互作用网络中的总分组效应,即基因交互正则化模型
根据自适应弹性网络模型和基因交互正则化模型构建自适应基因交互正则化弹性网络模型(AGIREN):
在上述实施例的基础上,如图3所示,本发明还提出一种基于自适应基因交互正则化弹性网络模型的基因选择系统,包括:
基因重要程度评估模块,用于基于Wilcoxon秩和检验评估每个测量的基因的重要程度;
基因重要程度量化模块,用于对每个测量的基因的重要程度进行量化;
加权模块,用于根据量化后的每个基因的重要程度为每个测量的基因添加自适应惩罚权重,基于所述自适应惩罚权重删除噪声基因,得到特征基因;
第一构建模块,用于将所述基因权重引入最小二乘损失函数中,从而构建自适应弹性网络模型;
第二构建模块,用于构建基因交互网络的邻接矩阵;
第三构建模块,用于基于所述邻接矩阵构建基因交互网络惩罚;
第四构建模块,用于将所述自适应弹性网络模型和所述基因交互网络惩罚相结合,构建自适应基因交互正则化弹性网络模型;
基因得出模块,用于基于梯度下降算法求解出所述自适应基因交互正则化弹性网络模型的最优解,基于所述最优解选择基因。
综上,
(1)本发明通过Wilcoxon秩和检验在基于基因排序的分类方法中引入基因的重要性以更好的选择出对分类有重要贡献的特征基因;
(2)本发明对每个基因施加自适应惩罚权重,因此,噪声基因会有较大的惩罚从而被模型剔除,而特征基因的惩罚较小而被保留下来;
(3)由于基因与基因之间会存在大量的冗余信息,为了有效地剔除冗余基因,本发明构造基因与基因交互网络惩罚;
(4)结合上述三点。本发明提出的自适应基因交互正则化弹性网络模型,所构建的网络模型具有以下两个明显的特点。首先,自适应基因交互正则化弹性网络模型建立在自适应弹性网络模型的基础上,所以具有稀疏性,并根据回归系数选择相对较少的特征基因,选出的特征基因在癌症分类、临床结果预测等过程中发挥关键作用。其次,构建基因交互网络模型可以减少基因之间的冗余信息,并适用于各种各样的数据类型,例如DNA甲基化数据、基因表达谱数据、蛋白质相互作用等等。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于自适应基因交互正则化弹性网络模型的基因选择方法,其特征在于,包括:
步骤1:基于Wilcoxon秩和检验评估每个测量的基因的重要程度;
步骤2:对每个测量的基因的重要程度进行量化;
步骤3:根据量化后的每个基因的重要程度为每个测量的基因添加自适应惩罚权重,基于所述自适应惩罚权重删除噪声基因,得到特征基因;
步骤4:将所述自适应惩罚权重引入最小二乘损失函数中,从而构建自适应弹性网络模型;所述自适应弹性网络模型的表达式为:
其中O2表示自适应弹性网络模型,y为样本类别,β为所有基因的估计系数,βj为第j个基因的估计系数,xi为输入向量,λ和α为正则化参数,且λ>0,α∈[0,1],wj表示自适应惩罚权重,n为样本个数,p表示测量的基因总数;
步骤5:构建基因交互网络的邻接矩阵;
步骤6:基于所述邻接矩阵构建基因交互网络惩罚;按照下式构建基因交互网络惩罚:
其中O3表示基因交互网络惩罚,βi为第i个基因的估计系数,Tr(.)表示矩阵的迹,A表示基因相互作用网络的邻接矩阵;
步骤7:将所述自适应弹性网络模型和所述基因交互网络惩罚相结合,构建自适应基因交互正则化弹性网络模型;所述自适应基因交互正则化弹性网络模型的表达式为:
步骤8:基于梯度下降算法求解出所述自适应基因交互正则化弹性网络模型的最优解,基于所述最优解选择基因。
3.根据权利要求2所述的基于自适应基因交互正则化弹性网络模型的基因选择方法,其特征在于,所述步骤2包括:
按照下式将基因进行排序:
R(gj)=max{s(gj),n0n1-(gj)}
当s(gj)越接近0或n0n1时,R(gj)值越大,那么第j个基因在分类问题中的重要性越大。
5.根据权利要求2所述的基于自适应基因交互正则化弹性网络模型的基因选择方法,其特征在于,所述步骤5中,按照下式构建基因相互作用网络的邻接矩阵:
A=[aij]∈Rp×p
其中R代表实数集;A表示基因相互作用网络的邻接矩阵;aij值为0或1。
6.一种基于自适应基因交互正则化弹性网络模型的基因选择系统,其特征在于,包括:
基因重要程度评估模块,用于基于Wilcoxon秩和检验评估每个测量的基因的重要程度;
基因重要程度量化模块,用于对每个测量的基因的重要程度进行量化;
加权模块,用于根据量化后的每个基因的重要程度为每个测量的基因添加自适应惩罚权重,基于所述自适应惩罚权重删除噪声基因,得到特征基因;
第一构建模块,用于将所述基因权重引入最小二乘损失函数中,从而构建自适应弹性网络模型;所述自适应弹性网络模型的表达式为:
其中O2表示自适应弹性网络模型,y为样本类别,β为所有基因的估计系数,βj为第j个基因的估计系数,xi为输入向量,λ和α为正则化参数,且λ>0,α∈[0,1],wj表示自适应惩罚权重,n为样本个数,p表示测量的基因总数;
第二构建模块,用于构建基因交互网络的邻接矩阵;
第三构建模块,用于基于所述邻接矩阵构建基因交互网络惩罚;按照下式构建基因交互网络惩罚:
其中O3表示基因交互网络惩罚,βi为第i个基因的估计系数,Tr(.)表示矩阵的迹,A表示基因相互作用网络的邻接矩阵;
第四构建模块,用于将所述自适应弹性网络模型和所述基因交互网络惩罚相结合,构建自适应基因交互正则化弹性网络模型;所述自适应基因交互正则化弹性网络模型的表达式为:
基因得出模块,用于基于梯度下降算法求解出所述自适应基因交互正则化弹性网络模型的最优解,基于所述最优解选择基因。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110959928.2A CN113838519B (zh) | 2021-08-20 | 2021-08-20 | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110959928.2A CN113838519B (zh) | 2021-08-20 | 2021-08-20 | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113838519A CN113838519A (zh) | 2021-12-24 |
CN113838519B true CN113838519B (zh) | 2022-07-05 |
Family
ID=78961000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110959928.2A Active CN113838519B (zh) | 2021-08-20 | 2021-08-20 | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113838519B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727372B (zh) * | 2023-12-25 | 2024-05-17 | 韶关学院 | 一种基于正则化模型的数据整合方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241122A (zh) * | 2021-06-11 | 2021-08-10 | 长春工业大学 | 自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9536042B2 (en) * | 2013-03-15 | 2017-01-03 | International Business Machines Corporation | Using RNAi imaging data for gene interaction network construction |
-
2021
- 2021-08-20 CN CN202110959928.2A patent/CN113838519B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241122A (zh) * | 2021-06-11 | 2021-08-10 | 长春工业大学 | 自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法 |
Non-Patent Citations (1)
Title |
---|
惩罚logistic回归方法在SNPs数据变量筛选研究中的应用;刘匆提等;《实用预防医学》;20161115(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113838519A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933212B (zh) | 一种基于机器学习的临床组学数据处理方法及装置 | |
CN108595916B (zh) | 基于生成对抗网络的基因表达全谱推断方法 | |
US20020095260A1 (en) | Methods for efficiently mining broad data sets for biological markers | |
JP2007513391A (ja) | システムの複数の構成要素のうちのサブセットを識別する方法 | |
CN1741036A (zh) | 构造分类属于不同状态的生物样本的模型的方法 | |
TWI709904B (zh) | 訓練類神經網路以預測個體基因表現特徵的方法及系統 | |
CN111387938B (zh) | 一种基于特征重排一维卷积神经网络的病人心衰死亡风险预测系统 | |
US20040234995A1 (en) | System and method for storage and analysis of gene expression data | |
Khalil et al. | Diagnosis of blood cells using deep learning | |
Alharthi et al. | Gene selection and classification of microarray gene expression data based on a new adaptive L1-norm elastic net penalty | |
Pillai et al. | Prediction of heart disease using rnn algorithm | |
Paul et al. | Rule based hybrid weighted fuzzy classifier for tumor data | |
CN116680594B (zh) | 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法 | |
CN117520914A (zh) | 一种单细胞分类方法、系统、设备及计算机可读存储介质 | |
CN113838519B (zh) | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 | |
CN107480441B (zh) | 一种儿童脓毒性休克预后预测的建模方法及系统 | |
CN113096810A (zh) | 一种基于卷积神经网络的食管鳞癌患者生存风险预测方法 | |
CN112434737A (zh) | 用于脑卒中分析的多智能体评价准则融合的特征选择系统 | |
CN117409962B (zh) | 一种基于基因调控网络的微生物标记物的筛选方法 | |
Marshall et al. | Discriminant analysis for longitudinal data with multiple continuous responses and possibly missing data | |
DeTomaso et al. | Identifying informative gene modules across modalities of single cell genomics | |
Tasoulis et al. | Unsupervised clustering of bioinformatics data | |
TWI399661B (zh) | 從微陣列資料中分析及篩選疾病相關基因的系統 | |
CN113971984A (zh) | 分类模型构建方法及装置、电子设备、存储介质 | |
CN113177604B (zh) | 一种基于改进l1正则化和聚类的高维数据特征选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |