Nothing Special   »   [go: up one dir, main page]

CN116403713A - 一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法 - Google Patents

一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法 Download PDF

Info

Publication number
CN116403713A
CN116403713A CN202310308375.3A CN202310308375A CN116403713A CN 116403713 A CN116403713 A CN 116403713A CN 202310308375 A CN202310308375 A CN 202310308375A CN 116403713 A CN116403713 A CN 116403713A
Authority
CN
China
Prior art keywords
feature extraction
feature
autism spectrum
predicting
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310308375.3A
Other languages
English (en)
Inventor
樊永显
熊慧
孙贵聪
彭斌超
龚浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202310308375.3A priority Critical patent/CN116403713A/zh
Publication of CN116403713A publication Critical patent/CN116403713A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法,步骤为:获取与自闭症谱系障碍相关基因的正样本、负样本,并从BrainSpan数据库中获取基因的表达值;分别使用自动编码器、主成分分析、奇异值分解和非负矩阵分解四种无监督方法对基因表达值进行特征提取,期间用对数几率回归和五折交叉验证对特征维度的输出进行选择;应用Boruta方法对特征提取后的数据进行特征选择;构建预测模型,输入数据获得初步预测结果;调整训练后预测模型中的参数,对训练后的预测模型进行优化;使用10折交叉验证评估预测模型。实验结果表明,与现有方法相比,我们的结果在各个评估指标都有一定的性能提升,提高了预测与自闭症谱系障相关风险基因的准确率。

Description

一种基于多类无监督特征提取方法对自闭症谱系障风险基因 预测的方法
技术领域
本发明涉及生物信息学中疾病基因预测技术领域,具体是一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法。
背景技术
自闭症谱系障碍(ASD)是指一系列广泛的神经发育疾病,其特征是社交、言语和非言语交流困难,并表现出重复行为的症状。自闭症是可遗传的,通常从婴儿期开始,最晚开始于生命的前三年。ASD的遗传病因是复杂且高度异质性的,目前,所有已知的ASD风险基因都是编码蛋白质的,一些可能破坏蛋白质编码基因的新发突变已被证明会导致ASD。因此,探索基于RNA的分类预测对于治疗ASD具有重要意义。
对于ASD的诊断,人们通过使用ASD患者的各种临床数据,如症状资料、磁共振图像(MRI)数据和全脑结构图像数据,建立了计算预测模型。然而,这些模型并不适用于ASD风险基因的预测。识别ASD风险基因的遗传学方法,如全基因组关联研究(GWAS)、拷贝数变异研究(CNVs)和全外显子组测序(WES),都很费时和昂贵。因此,有必要开发更有效的计算方法或工具。
迄今为止,已经有不少利用机器学习针对ASD与RNA的研究,这些研究都取得一定的成果。2016年,Wang等利用支持向量机(SVM)模型结合大脑发育基因表达数据进行训练,用于ASD风险基因的分类和优先级排序。2020年,Wang等又分别利用自编码网络对基因表达数据进行表示学习、采用基于随机森林网络衍生的k-mer对转录序列进行特征提取,最后利用logistic regression, support vector machine and random forest三个机器学习模型结合十折交叉验证分别对RNA序列进行预测和排序。2021年,Lin等使用可继承的双目标组合遗传算法(IBCGA)和SVM提出ASD-Risk方法进一步提高了预测性能。多种方法证明了机器学习学习可以用于预测与ASD相关的风险基因,并且可以取得很好的性能。
发明内容
本发明的目的在于提高预测ASD风险基因准确率的问题,而提供的一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法。该预测方法使用基因表达值信息,并使用自动编码器、主成分分析、奇异值分解和非负矩阵分解四种无监督方法对基因表达值进行特征提取,之后以自动编码器表示的特征为基础,对得到的四种特征值进行组合。然后使用Boruta方法对每一种组合都进行特征选择,从而挑选出最优的特征集。最后使用得到的特征集构建、训练卷积神经网络(CNN)分类模型,并对模型进行性能评估。经过实验证明,该方法相较于现存最新方法有一定的提高。
为了解决现有技术存在的问题,本发明采用如下技术方案:
一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法,包括如下步骤:
(1)获取样本数据集:获取与自闭症谱系障碍相关基因的正样本、负样本,并从BrainSpan数据库中获取基因的表达值;
(2)特征提取:分别使用自动编码器、主成分分析、奇异值分解和非负矩阵分解四种无监督方法对基因表达值进行特征提取,期间用对数几率回归和五折交叉验证对特征维度的输出进行选择;
(3)特征选择:应用Boruta方法对特征提取后的数据进行特征选择;
(4)构建模型:利用keras构建CNN预测模型,;
(5)模型调优:利用dropout和早停法等方法对预测模型进行优化;
(6)模型评估:基于10折交叉验证进行模型评估,具体使用ROC曲线下面积(ROCAUC)、PR曲线下面积(PR AUC)、准确率(Accuracy)、敏感性(Sensitivity)、特异性(Specificity)、马修斯相关系数(MCC)
进行性能衡量。
步骤(2)中,使用到的四种无监督的特征提取方法自动编码器、主成分分析、奇异值分解和非负矩阵分解四种无监督方法。自动编码器(AutoEncoder,简称AE)是一种无监督神经网络,具有代表原始输入数据压缩版本的隐藏层。自动编码器主要由两个主要部分构成。第一部分是编码器,它是原始输入数据到低维数据的非线性变换。第二部分是解码器,它将先前编码的数据重建为其原始形式。自动编码器主要开发用于特征提取,以减少数据集的高维度,以便为不同的机器学习算法进行分类做好准备。它们还被用于各种应用,包括不同类型应用中的异常检测和许多应用中的分类问题。由于它们被认为是非线性特征减少方法,因此与 主成分分析等其他线性特征减少方法相比,自动编码器具有优越的性能,因此在本项研究进行特征提取时,以自动编码器表示的数据为基础进行选择。PCA(PrincipalComponents Analysis,简称PCA)是最常用的降维方法之一。它可以通过对特征域进行正交线性变换到具有较低维度和独立特征的新坐标空间,使用主成分来去除高相关变量而不会丢失太多信息。它就基本原理是将原数据进行重组,从而得到一组新的且互不相关的数据,计算成分累计贡献率,进一步到达特征提取或者降维的目的。奇异值分解(Singular ValueDecomposition,简称SVD)是在机器学习领域广泛应用的算法,不仅可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。非负矩阵分解(Nonnegative Matrix Factorization,简称NMF)的基本思想为对于任意给定的一个非负矩阵C,找到两个非负矩阵W,H,使得一个非负的矩阵分解为左右两个非负矩阵的乘积,再利用W、H对C进行降维或提取特征。经过实验,四种方法特征编码后得到的特征信息如表1所示,别且得到的10种特征的特征集如表2所示,五折交叉验证中用到的是逻辑回归函数。
表1 基准数据集详细信息
数量 风险基因 非风险基因
样本 366 1760
基因表达值 524 524
AE 324 324
PCA 163 163
SVD 223 223
NMF 309 309
Boruta 42 42
表2 特征组合方法
组合 特征提取方法 五折交叉验证准确率 特征选择后特征数量
组合1 AE 0.8459 31
组合2 PCA 0.8450 19
组合3 SVD 0.8454 20
组合4 NMF 0.8341 73
组合5 AE,PCA 0.8463 42
组合6 AE,SVD 0.8478 37
组合7 AE,NMF 0.8430 51
组合8 AE,PCA,SVD 0.8464 42
组合9 AE,PCA,NMF 0.8421 39
组合10 AE,PCA,SVD,NMF 0.8454 45
步骤(3)中Boruta特征选择方法介绍如下:
1)将输入的特征矩阵X的各个特征打乱,并用原来的特征与打乱后的特征(阴影特征)拼接起来,构造一个新的特征矩阵,即一个2倍原特征数的矩阵;
2)在扩展后的特征矩阵上运行一个随机森林分类器,将新构建的特征矩阵作为分类器的输入,通过模型的训练可以输出每个特征的重要性分数(feature_importance);
3)计算原始特征矩阵和阴影特征矩阵之间的Z_Score,计算公式为:
Figure SMS_1
(公式1)
其中SDMSE OOB MSE OOB 的标准差,MSE OOB 是根据RF模型的袋外误差(out-of-bag)定义的,计算公式为:
Figure SMS_2
(公式2)
其中y i 是样本i的标签值,
Figure SMS_3
是样本i的袋外预测值,N为样本大小;
4)在阴影特征矩阵中找出最大的Z_Score,即S_max,并将S_max作为筛选指标;
5)Z_Score高于S_max的原始特征被视为“重要”并保留,Z_Score低于S_max的原始特征被认为是“不重要的”并从特征集中永久删除;
6)删除阴影矩阵;
7)重复上述过程,直到所有特征都被标记为"重要"或者"不重要"。
经过实验对比,最后得到的最优特征集由AE、PCA和SVD三种方法特征提取后融合的特征经过Boruta特征选择出。
附图说明
图1为一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法的流程图;
图2为Boruta特征选择的流程图;
图3为预测(CNN)模型的结构图。
具体实践方式:
下面结合附图和实施例对本发明内容做进一步阐述,但不是对本发明的限定。
实施例:
如图1所示,一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法,包括如下步骤:
(1)获取样本数据集:获取与自闭症谱系障碍相关基因的正样本、负样本,并从BrainSpan数据库中获取基因的表达值;
(2)特征提取:分别使用自动编码器、主成分分析、奇异值分解和非负矩阵分解四种无监督方法对基因表达值进行特征提取,期间用对数几率回归和五折交叉验证对特征维度的输出进行选择;
(3)特征选择:应用Boruta方法对特征提取后的数据进行特征选择;
(4)构建模型:利用keras构建CNN预测模型,;
(5)模型调优:模型构建过程中,池化层之后我们尝试添加了一个值为0.5的dropout层以防止模型过拟合,但是没有好的效果,此外,借助callback函数动态地修改学习率,并使用早停法获取最优模型。对预测模型进行优化;
(6)模型评估:使用10折交叉验证来测试预测器的有效期,为了评估预测器,我们使用了以下六个指标ROC曲线下面积(ROC AUC)、PR曲线下面积(PR AUC)、准确率(Accuracy)、敏感性(Sensitivity)、特异性(Specificity)、马修斯相关系数(MCC),它们的定义分别为:
Figure SMS_4
(公式3)
Figure SMS_5
(公式4)
Figure SMS_6
(公式5)
Figure SMS_7
(公式6)
其中TP为真正样本数,FP为假正样本数,TN为真负样本数,FN为假负样本数。此外,受试者工作特征(ROC) 曲线、 ROC 曲线下面积(ROC AUC)和PR曲线下面积(PR ROC)也用于衡量预测变量的性能。
最后将我们的方法与现有最先进的方法进行比较,交叉验证对比结果如表3所示,从对比结果可知,本例的方法预测的各个指标均相比较其他方法有一定的提高。
表3 十折交叉验证对比实验结果
方法 Accuracy Sensitivity Specificity MCC
Wang’s SVM(2016) 0.767 0.744 0.772 0.419
Murat’s Bayes(2018) 0.783 0.902 0.665 0.583
Wang’s RF[1](2020) 0.770 0.698 0.799 0.471
Lin’s ASD-Risk(2021) 0.818 0.840 0.790 0.630
MCASDPred 0.856 0.909 0.802 0.716

Claims (3)

1.一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法,其特征在于,包括如下步骤:
(1)获取样本数据集:获取与自闭症谱系障碍相关基因的正样本、负样本,并从BrainSpan数据库中获取基因的表达值;
(2)特征提取:分别使用自动编码器、主成分分析、奇异值分解和非负矩阵分解四种无监督方法对基因表达值进行特征提取,期间用对数几率回归和五折交叉验证对特征维度的输出进行选择;
(3)特征选择:应用Boruta方法对特征提取后的数据进行特征选择;
(4)构建模型:利用keras构建卷积神经网络(CNN)预测模型;
(5)模型调优:利用dropout和早停法等方法对预测模型进行优化;
(6)模型评估:基于10折交叉验证进行模型评估,具体使用ROC曲线下面积(ROC AUC)、PR曲线下面积(PR AUC)、准确率(Accuracy)、敏感性(Sensitivity)、特异性(Specificity)、马修斯相关系数(MCC)进行性能衡量。
2.根据权利要求1所述的基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法,其特征在于,步骤(2)中所述的多类特征提取方法:首先,使用自动编码器等四种方法对524维的基因表达值进行特征提取,并用五折交叉验证和随机森林(LR)选择每种方法特征输出的维度。然后,以自动编码器表示特征为基础融合其他三类特征数据,加上原本的四类数据共10种组成形式,构成一个特征的特征集合。
3.根据权利要求1所述的基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法,其特征在于,步骤(3)中所述的Boruta特征选择方法。Boruta的目标是选择与因变量相关的所有特征的集合,它是一种包装(wrapper)算法,它使用随机森林作为分类器,从所有特征中筛选出与因变量相关的特征,主要通过降低平均精确值来构建新的特征子集。Boruta算法获取数据集中所有特征相对于目标变量的重要性,选择重要的特征,去除冗余的特征,并利用具有良好预测精度的黑盒预测模型来获得与目标变量相关联的重要性指标。
CN202310308375.3A 2023-03-28 2023-03-28 一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法 Pending CN116403713A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310308375.3A CN116403713A (zh) 2023-03-28 2023-03-28 一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310308375.3A CN116403713A (zh) 2023-03-28 2023-03-28 一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法

Publications (1)

Publication Number Publication Date
CN116403713A true CN116403713A (zh) 2023-07-07

Family

ID=87015355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310308375.3A Pending CN116403713A (zh) 2023-03-28 2023-03-28 一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法

Country Status (1)

Country Link
CN (1) CN116403713A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118335206A (zh) * 2024-06-07 2024-07-12 齐鲁工业大学(山东省科学院) 一种基于泛癌多组学数据的无监督特征选择方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118335206A (zh) * 2024-06-07 2024-07-12 齐鲁工业大学(山东省科学院) 一种基于泛癌多组学数据的无监督特征选择方法
CN118335206B (zh) * 2024-06-07 2024-10-01 齐鲁工业大学(山东省科学院) 一种基于泛癌多组学数据的无监督特征选择方法

Similar Documents

Publication Publication Date Title
CN111798921B (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN111899882B (zh) 一种预测癌症的方法及系统
CN108763865B (zh) 一种预测dna蛋白质结合位点的集成学习方法
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
WO2023217290A1 (zh) 基于图神经网络的基因表型预测
WO2013118224A1 (ja) 判別モデル学習装置、判別モデル学習方法および判別モデル学習プログラム
CN108877947B (zh) 基于迭代均值聚类的深度样本学习方法
CN114596467B (zh) 基于证据深度学习的多模态影像分类方法
JP2022548960A (ja) 単一細胞rna-seqデータ処理
Vieira et al. Main concepts in machine learning
Ahmed et al. Accurate prediction of RNA 5-hydroxymethylcytosine modification by utilizing novel position-specific gapped k-mer descriptors
CN117393042A (zh) 一种预测错义突变致病性的分析方法
CN116403713A (zh) 一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法
CN116959585B (zh) 基于深度学习的全基因组预测方法
CN108182347B (zh) 一种大规模跨平台基因表达数据分类方法
CN114566215B (zh) 一种双端成对的剪接位点预测方法
CN116186384A (zh) 一种基于物品隐含特征相似度的物品推荐方法及系统
CN115565610A (zh) 基于多组学数据的复发转移分析模型建立方法及系统
CN109902657B (zh) 一种基于分块协同表示的人脸识别方法
CN116740403B (zh) 一种图像分类的方法、装置和设备
Sun et al. Joint bayesian variable selection and graph estimation for non-linear SVM with application to genomics data
CN118506884B (zh) miRNA-疾病关联关系预测方法、系统、设备及介质
CN101840467B (zh) 蛋白质组过滤进化分类方法及其系统
CN116981779B (zh) 用于从Hi-C矩阵识别染色质结构特征的方法、存储用于从Hi-C矩阵中识别染色质结构特征的程序的非瞬态计算机可读介质
CN111108516A (zh) 使用深度学习算法来评价输入数据

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination