CN116403713A

CN116403713A - 一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法

Info

Publication number: CN116403713A
Application number: CN202310308375.3A
Authority: CN
Inventors: 樊永显; 熊慧; 孙贵聪; 彭斌超; 龚浩
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-07-07

Abstract

本发明基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法，步骤为：获取与自闭症谱系障碍相关基因的正样本、负样本，并从BrainSpan数据库中获取基因的表达值；分别使用自动编码器、主成分分析、奇异值分解和非负矩阵分解四种无监督方法对基因表达值进行特征提取，期间用对数几率回归和五折交叉验证对特征维度的输出进行选择；应用Boruta方法对特征提取后的数据进行特征选择；构建预测模型，输入数据获得初步预测结果；调整训练后预测模型中的参数，对训练后的预测模型进行优化；使用10折交叉验证评估预测模型。实验结果表明，与现有方法相比，我们的结果在各个评估指标都有一定的性能提升，提高了预测与自闭症谱系障相关风险基因的准确率。

Description

一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法

技术领域

本发明涉及生物信息学中疾病基因预测技术领域，具体是一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法。

背景技术

自闭症谱系障碍(ASD)是指一系列广泛的神经发育疾病，其特征是社交、言语和非言语交流困难，并表现出重复行为的症状。自闭症是可遗传的，通常从婴儿期开始，最晚开始于生命的前三年。ASD的遗传病因是复杂且高度异质性的，目前，所有已知的ASD风险基因都是编码蛋白质的，一些可能破坏蛋白质编码基因的新发突变已被证明会导致ASD。因此，探索基于RNA的分类预测对于治疗ASD具有重要意义。

对于ASD的诊断，人们通过使用ASD患者的各种临床数据，如症状资料、磁共振图像（MRI）数据和全脑结构图像数据，建立了计算预测模型。然而，这些模型并不适用于ASD风险基因的预测。识别ASD风险基因的遗传学方法，如全基因组关联研究（GWAS）、拷贝数变异研究（CNVs）和全外显子组测序（WES），都很费时和昂贵。因此，有必要开发更有效的计算方法或工具。

迄今为止，已经有不少利用机器学习针对ASD与RNA的研究，这些研究都取得一定的成果。2016年，Wang等利用支持向量机（SVM）模型结合大脑发育基因表达数据进行训练，用于ASD风险基因的分类和优先级排序。2020年，Wang等又分别利用自编码网络对基因表达数据进行表示学习、采用基于随机森林网络衍生的k-mer对转录序列进行特征提取，最后利用logistic regression, support vector machine and random forest三个机器学习模型结合十折交叉验证分别对RNA序列进行预测和排序。2021年，Lin等使用可继承的双目标组合遗传算法（IBCGA）和SVM提出ASD-Risk方法进一步提高了预测性能。多种方法证明了机器学习学习可以用于预测与ASD相关的风险基因，并且可以取得很好的性能。

发明内容

本发明的目的在于提高预测ASD风险基因准确率的问题，而提供的一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法。该预测方法使用基因表达值信息，并使用自动编码器、主成分分析、奇异值分解和非负矩阵分解四种无监督方法对基因表达值进行特征提取，之后以自动编码器表示的特征为基础，对得到的四种特征值进行组合。然后使用Boruta方法对每一种组合都进行特征选择，从而挑选出最优的特征集。最后使用得到的特征集构建、训练卷积神经网络（CNN）分类模型，并对模型进行性能评估。经过实验证明，该方法相较于现存最新方法有一定的提高。

为了解决现有技术存在的问题，本发明采用如下技术方案：

一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法，包括如下步骤：

（1）获取样本数据集：获取与自闭症谱系障碍相关基因的正样本、负样本，并从BrainSpan数据库中获取基因的表达值；

（2）特征提取：分别使用自动编码器、主成分分析、奇异值分解和非负矩阵分解四种无监督方法对基因表达值进行特征提取，期间用对数几率回归和五折交叉验证对特征维度的输出进行选择；

（3）特征选择：应用Boruta方法对特征提取后的数据进行特征选择；

（4）构建模型：利用keras构建CNN预测模型，；

（5）模型调优：利用dropout和早停法等方法对预测模型进行优化；

（6）模型评估：基于10折交叉验证进行模型评估，具体使用ROC曲线下面积（ROCAUC）、PR曲线下面积（PR AUC）、准确率(Accuracy)、敏感性（Sensitivity）、特异性（Specificity）、马修斯相关系数（MCC）

进行性能衡量。

步骤（2）中，使用到的四种无监督的特征提取方法自动编码器、主成分分析、奇异值分解和非负矩阵分解四种无监督方法。自动编码器（AutoEncoder，简称AE）是一种无监督神经网络，具有代表原始输入数据压缩版本的隐藏层。自动编码器主要由两个主要部分构成。第一部分是编码器，它是原始输入数据到低维数据的非线性变换。第二部分是解码器，它将先前编码的数据重建为其原始形式。自动编码器主要开发用于特征提取，以减少数据集的高维度，以便为不同的机器学习算法进行分类做好准备。它们还被用于各种应用，包括不同类型应用中的异常检测和许多应用中的分类问题。由于它们被认为是非线性特征减少方法，因此与主成分分析等其他线性特征减少方法相比，自动编码器具有优越的性能，因此在本项研究进行特征提取时，以自动编码器表示的数据为基础进行选择。PCA（PrincipalComponents Analysis，简称PCA）是最常用的降维方法之一。它可以通过对特征域进行正交线性变换到具有较低维度和独立特征的新坐标空间，使用主成分来去除高相关变量而不会丢失太多信息。它就基本原理是将原数据进行重组，从而得到一组新的且互不相关的数据，计算成分累计贡献率，进一步到达特征提取或者降维的目的。奇异值分解（Singular ValueDecomposition，简称SVD）是在机器学习领域广泛应用的算法，不仅可以用于降维算法中的特征分解，还可以用于推荐系统，以及自然语言处理等领域。是很多机器学习算法的基石。非负矩阵分解（Nonnegative Matrix Factorization，简称NMF）的基本思想为对于任意给定的一个非负矩阵C，找到两个非负矩阵W，H，使得一个非负的矩阵分解为左右两个非负矩阵的乘积，再利用W、H对C进行降维或提取特征。经过实验，四种方法特征编码后得到的特征信息如表1所示，别且得到的10种特征的特征集如表2所示，五折交叉验证中用到的是逻辑回归函数。

表1 基准数据集详细信息

数量	风险基因	非风险基因
			样本	366	1760
基因表达值	524	524
			AE	324	324
PCA	163	163
			SVD	223	223
NMF	309	309
			Boruta	42	42

表2 特征组合方法

组合	特征提取方法	五折交叉验证准确率	特征选择后特征数量
				组合1	AE	0.8459	31
组合2	PCA	0.8450	19
				组合3	SVD	0.8454	20
组合4	NMF	0.8341	73
				组合5	AE,PCA	0.8463	42
组合6	AE,SVD	0.8478	37
				组合7	AE,NMF	0.8430	51
组合8	AE,PCA,SVD	0.8464	42
				组合9	AE,PCA,NMF	0.8421	39
组合10	AE,PCA,SVD,NMF	0.8454	45

步骤（3）中Boruta特征选择方法介绍如下：

1）将输入的特征矩阵X的各个特征打乱，并用原来的特征与打乱后的特征（阴影特征）拼接起来，构造一个新的特征矩阵，即一个2倍原特征数的矩阵；

2）在扩展后的特征矩阵上运行一个随机森林分类器，将新构建的特征矩阵作为分类器的输入，通过模型的训练可以输出每个特征的重要性分数（feature_importance）；

3）计算原始特征矩阵和阴影特征矩阵之间的Z_Score，计算公式为：

（公式1）

其中SDMSE _OOB是MSE _OOB的标准差，MSE _OOB是根据RF模型的袋外误差（out-of-bag）定义的，计算公式为：

（公式2）

其中y _i是样本i的标签值，

是样本i的袋外预测值，N为样本大小；

4）在阴影特征矩阵中找出最大的Z_Score，即S_max，并将S_max作为筛选指标；

5）Z_Score高于S_max的原始特征被视为“重要”并保留，Z_Score低于S_max的原始特征被认为是“不重要的”并从特征集中永久删除；

6）删除阴影矩阵；

7）重复上述过程，直到所有特征都被标记为"重要"或者"不重要"。

经过实验对比，最后得到的最优特征集由AE、PCA和SVD三种方法特征提取后融合的特征经过Boruta特征选择出。

附图说明

图1为一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法的流程图；

图2为Boruta特征选择的流程图；

图3为预测（CNN）模型的结构图。

具体实践方式：

下面结合附图和实施例对本发明内容做进一步阐述，但不是对本发明的限定。

实施例：

如图1所示，一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法，包括如下步骤：

（4）构建模型：利用keras构建CNN预测模型，；

（5）模型调优：模型构建过程中，池化层之后我们尝试添加了一个值为0.5的dropout层以防止模型过拟合，但是没有好的效果，此外，借助callback函数动态地修改学习率，并使用早停法获取最优模型。对预测模型进行优化；

（6）模型评估：使用10折交叉验证来测试预测器的有效期，为了评估预测器，我们使用了以下六个指标ROC曲线下面积（ROC AUC）、PR曲线下面积（PR AUC）、准确率(Accuracy)、敏感性（Sensitivity）、特异性（Specificity）、马修斯相关系数（MCC），它们的定义分别为：

（公式3）

（公式4）

（公式5）

（公式6）

其中TP为真正样本数，FP为假正样本数，TN为真负样本数，FN为假负样本数。此外，受试者工作特征(ROC) 曲线、 ROC 曲线下面积(ROC AUC)和PR曲线下面积（PR ROC）也用于衡量预测变量的性能。

最后将我们的方法与现有最先进的方法进行比较，交叉验证对比结果如表3所示，从对比结果可知，本例的方法预测的各个指标均相比较其他方法有一定的提高。

表3 十折交叉验证对比实验结果

方法	Accuracy	Sensitivity	Specificity	MCC
					Wang’s SVM(2016)	0.767	0.744	0.772	0.419
Murat’s Bayes(2018）	0.783	0.902	0.665	0.583
					Wang’s RF[1](2020)	0.770	0.698	0.799	0.471
Lin’s ASD-Risk(2021)	0.818	0.840	0.790	0.630
					MCASDPred	0.856	0.909	0.802	0.716

Claims

1.一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法，其特征在于，包括如下步骤：

（4）构建模型：利用keras构建卷积神经网络（CNN）预测模型；

（6）模型评估：基于10折交叉验证进行模型评估，具体使用ROC曲线下面积（ROC AUC）、PR曲线下面积（PR AUC）、准确率(Accuracy)、敏感性（Sensitivity）、特异性（Specificity）、马修斯相关系数（MCC）进行性能衡量。

2.根据权利要求1所述的基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法，其特征在于，步骤（2）中所述的多类特征提取方法：首先，使用自动编码器等四种方法对524维的基因表达值进行特征提取，并用五折交叉验证和随机森林（LR）选择每种方法特征输出的维度。然后，以自动编码器表示特征为基础融合其他三类特征数据，加上原本的四类数据共10种组成形式，构成一个特征的特征集合。

3.根据权利要求1所述的基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法，其特征在于，步骤（3）中所述的Boruta特征选择方法。Boruta的目标是选择与因变量相关的所有特征的集合，它是一种包装（wrapper）算法，它使用随机森林作为分类器，从所有特征中筛选出与因变量相关的特征，主要通过降低平均精确值来构建新的特征子集。Boruta算法获取数据集中所有特征相对于目标变量的重要性，选择重要的特征，去除冗余的特征，并利用具有良好预测精度的黑盒预测模型来获得与目标变量相关联的重要性指标。