CN118335206B

CN118335206B - 一种基于泛癌多组学数据的无监督特征选择方法

Info

Publication number: CN118335206B
Application number: CN202410732519.2A
Authority: CN
Inventors: 赵龙; 司呈坤; 刘娇; 谌兆晖
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2024-06-07
Filing date: 2024-06-07
Publication date: 2024-10-01
Anticipated expiration: 2044-06-07
Also published as: CN118335206A

Abstract

本发明涉及一种基于泛癌多组学数据的无监督特征选择方法，属于生物信息学领域，包括选择数据集及数据预处理；通过改进的谱聚类算法对S1得到的数据进行聚类，得到特征子集A；构建深度自动编码器，将S1得到的数据输入深度自动编码器得到特征子集B；对于特征子集B中的每一个特征，与特征子集A中所有特征计算Pearson相关系数，Pearson相关系数最高的特征A _m作为结果，并在特征子集A中删除；评估最终得到的特征子集。本发明利用深度自动编码器指导的改进谱聚类无监督特征选择算法对未标记具体亚型的癌症样本做无监督特征选择，从中选择出对后续聚类分型有作用的重要基因特征，简化系统并提高亚型分类的准确性和可靠性。

Description

一种基于泛癌多组学数据的无监督特征选择方法

技术领域

本发明涉及一种基于泛癌多组学数据的无监督特征选择方法，属于生物信息学技术领域。

背景技术

癌症是全世界最主要的公共健康问题，是当今最致命的疾病之一。癌症的异质性归因于癌细胞的基因组学、转录组学、甲基化数据和蛋白质组学等组学数据特征的差异。可根据组学数据特征的差异将同一癌症划分为不同的亚型。在精准医疗的时代，准确识别癌症的亚型变得尤为重要。在分子水平上而非根据病理学特征，可以更细致地研究癌症，旨在早期识别癌症的亚型，以便进行更好的治疗和预后。

近年来，随着高通量组学数据的快速发展，有很多学者研究癌症亚型分型的问题。JiYoon Park等人确定了单组学数据分析中基因特征选择和亚型识别方法的最佳组合。然而，传统的单一组学研究往往难以全面揭示癌症的多样性和亚型差异，从而限制了对个性化治疗策略的理解和应用。因此，将多组学数据进行整合，深入分析癌症亚型的分子特征，已成为当前癌症研究领域的热门议题。

高通量组学数据的特征维度高但样本量较少、复杂度大，符合“大p小n”范式，其中，p是特征数，n是样本数。如何在高度冗余的基因特征中选择出最有利于癌症分型的生物标志物，成为了癌症研究的一个重要方向。Yuqi Lin等人提出了一种就组学数据的深度神经网络模型DeepMO来分类乳腺癌亚型。其中的关键一步就是特征选择。现有文献还提出了一种梯度提升深度特征选择算法来选择最佳低维特征子集，以提高胃癌亚型分类的准确性。

以上现有的特征选择算法都建立在已知癌症样本亚型分类的基础上或者是依赖聚类所得的亚型伪标签。因此，对未标记具体亚型的癌症样本做无监督特征选择显得尤为重要。

发明内容

为了解决现有技术的不足，本发明提供一种基于泛癌多组学数据的无监督特征选择方法，利用深度自动编码器指导的改进谱聚类无监督特征选择算法对未标记具体亚型的癌症样本做无监督特征选择，从中选择出对后续聚类分型有作用的重要基因特征，简化系统并提高亚型分类的准确性和可靠性。

本发明的技术方案如下：

一种基于泛癌多组学数据的无监督特征选择方法，包括以下步骤：

S1：选择数据集及数据预处理；

S2：通过改进的谱聚类算法对S1得到的数据进行聚类，得到特征子集A；

S3：构建深度自动编码器，将S1得到的数据输入深度自动编码器得到特征子集B；

S4：对于特征子集B中的每一个特征B _l，将特征B _l与特征子集A中所有特征计算Pearson相关系数，选择与特征B _l的Pearson相关系数最高的特征A _m作为结果，放入最终的特征子集中，并在特征子集A中删除A _m，其中B _l表示特征子集B中的第l个特征，l取值为1~N的自然数，N为特征子集B的特征总数；A _m表示特征子集A中的第m个特征，m取值为1~M的自然数，M为特征子集A的特征总数；

S5：评估最终得到的特征子集。

优选的，步骤S1中，数据集选择癌症基因组图谱TCGA数据库中的5个癌症数据集，包括乳腺癌、肺癌、胃癌、食管癌和前列腺癌。

优选的，数据预处理的过程如下：

首先对数据标准化，将不同量纲的数据按比例缩放，使之转化到同一个特定的数值区间；缺失值填补和去重复值；

然后，对于每种具体的癌症，数据集包括转录组学数据、甲基化数据和临床数据，样本取三者的交集，即样本对齐。

优选的，步骤S2包括：

S21：构建相似度矩阵

首先计算样本每对特征之间的相似度，然后根据相似度构建相似度矩阵。

S22：计算拉普拉斯矩阵和特征向量

通过相似度矩阵计算得到拉普拉斯矩阵，然后对拉普拉斯矩阵进行特征值分解，得到对应的特征向量；选择前c个特征向量作为降维或特征选择的结果。

S23：对特征向量进行聚类

将选取的c个特征向量作为新的特征表示，应用聚类算法进行聚类，从而得到k ₁个特征簇。

S24：按特征重要性得分排序

对每一特征簇按特征重要性得分从高到低排序，并选择前k ₂个特征向量作为代表特征集，所有特征簇得到的代表特征集取并集，即得到特征子集A。

优选的，步骤S24中，对于给定的数据集，其中n表示病例样本数，d表示基因特征维度，采用f表示特征向量，则数据集采用特征向量表示为；采用，，，…，，…表示n个样本，则数据集采用样本表示为，计算区分度：

（1）

其中，表示第i个特征的标准差，表示基因特征i在第j个样本上的表达值。

计算特征独立性：

（2）

其中，表示特征簇，表示特征、间的Pearson相关系数，表示第k个特征的区分度；

特征、间的Pearson相关系数为：

（3）

其中，表示的均值；表示的均值。

特征重要性得分为：

（4）

其中，表示权重因子一，取值为0.5。

优选的，步骤S3中，深度自动编码器包括编码器和解码器，用于特征提取从而得到原始高维特征的压缩表示；

编码器包括输入层、隐藏层A、10%的Dropout层A、隐藏层B、10%的Dropout层B以及编码层，其中输入层输入d个基因特征维度，隐藏层A为具有256个神经元的全连接层，激活函数为ReLU；隐藏层B为具有128个神经元的全连接层，激活函数为ReLU；编码层为具有u个神经元的全连接层，激活函数为ReLU；

解码器包括隐藏层C、10%的Dropout层C、隐藏层D、10%的Dropout层D以及重构层，其中隐藏层C为具有128个神经元的全连接层，激活函数为ReLU；隐藏层D为具有256个神经元的全连接层，激活函数为ReLU；重构层负责将压缩后的表示解码为原始的输入数据维度，其神经元个数与初始输入特征维度相同，激活函数为ReLU。

优选的，步骤S3中，编码器是一个非线性函数，将n个样本、d个特征维度的输入域D映射到一个较低维数为I的潜在空间Z，对应的，解码器是一个将样本从潜在空间Z重构到原始空间的函数；

编码器函数和解码器函数的定义如公式（5）、公式（6）：

（5）

（6）

其中，潜在空间中的样本为，为解码器重构样本，为编码器函数，为解码器函数；

在深度自动编码器训练时，损失函数为：

（7）

损失函数采用均方误差来量化，如公式（8）：

（8）

、分别表示初始数据和重构后的数据，、分别表示、。

优选的，步骤S5中，通过加权聚类指数和生存分析验证方法共同评估最终得到的特征子集。

加权聚类指数的计算过程如下：

首先计算第i个数据点的轮廓系数，计算公式如下：

（9）

其中表示该点与同一特征簇中其他点的平均距离，表示该点与最近的不同特征簇中所有点的平均距离；

最终的轮廓系数是所有的平均值；

然后，计算Calinski-Harabasz指数，Calinski-Harabasz指数（方差比标准）通过比较特征簇的簇内方差与簇间的方差之间的关系来衡量聚类结果簇内的稠密度和簇间的分离度，Calinski-Harabasz指数的计算公式如下：

（10）

其中，是数据点总数，是特征簇的总数，是簇内总方差，是特征簇的簇间总方差；

根据最终的轮廓系数S和Calinski-Harabasz指数计算加权聚类指数，公式为：

（11）

其中，表示权重因子二，取值为0.5。

本发明未详尽之处，均可参见现有技术。

本发明的有益效果为：

1、本发明通过深度自动编码器提取特征后，对改进的谱聚类算法聚类后的特征子集A进行指导，融合了自动编码器和改进谱聚类无监督特征选择算法对未标记具体亚型的癌症样本做无监督特征选择，从中选择出对后续聚类分型有作用的重要基因特征，简化系统并极大提高亚型分类的准确性和可靠性。

2、本发明中改进的谱聚类算法提出了特征重要性的概念，并进行降序排序，选择每个特征簇前的k ₂个特征，改进后的谱聚类算法使其能够更好地捕捉数据集样本中特征之间的关系，鲁棒性更好。

3、本发明综合了加权聚类指数和生存分析验证方法进行结果评估，可从多方面评估算法的有效性，解决了现有无监督学习中重要特征评价标准模糊的问题。

4、本发明整合了多组学数据，解决了基于单一组学数据的研究只能在某个特定的分子层面分析其与癌症的相关性，本发明能够全面揭示癌症的多样性和亚型差异性。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明的基于泛癌多组学数据的无监督特征选择方法的流程图；

图2为改进的谱聚类算法的框架示意图；

图3为深度自动编码器的结构示意图；

图4为肺癌中本发明方法与现有算法之间的加权聚类指数对比示意图；

图5为前列腺癌中本发明方法与现有算法之间的加权聚类指数对比示意图；

图6为乳腺癌中本发明方法与现有算法之间的加权聚类指数对比示意图；

图7为食管癌中本发明方法与现有算法之间的加权聚类指数对比示意图；

图8为胃癌中本发明方法与现有算法之间的加权聚类指数对比示意图。

具体实施方式

为了使本技术领域的人员更好的理解本说明书中的技术方案，下面结合本说明书实施中的附图，对本发明书实施例中的技术方案进行清楚、完整的描述，但不仅限于此，本发明未详尽说明的，均按本领域常规技术。

实施例1

一种基于泛癌多组学数据的无监督特征选择方法，如图1所示，包括以下步骤：

S1：选择数据集及数据预处理；

本实施例中的Pearson相关系数为现有常规技术，可参考现有技术。

Pearson相关系数的值域为[-1, 1]，表征了两个变量之间的关联程度。当Pearson相关系数为1时，表示两个变量完全正相关；当Pearson相关系数为-1时，则表明二者完全负相关；而当Pearson相关系数为0时，说明两个变量之间不存在线性关系。

计算过后，选择特征子集A中与B _l的Pearson相关系数最大的特征A _m，待选择特征中删除A _m，将其加入最终选择的特征子集中；依次按此过程持续下去，直到选择的特征子集数目（即自编码器提取的特征子集B的特征数）达到要求，停止遍历。

S5：评估最终得到的特征子集。

TCGA数据库是由美国国家癌症研究所（NCI）和国家人类基因组研究所（NHGRI）2005年共同发起的癌症基因组计划，旨在利用高通量基因组分析技术发现癌症治疗的新靶标。本发明选择了5种癌症数据集，这些数据集不仅是TCGA中样本量较大的，并且也是发病率和死亡率较高的五种癌症，因此更具代表性。

实施例2

一种基于泛癌多组学数据的无监督特征选择方法，如实施例1所述，所不同的是，数据预处理的过程如下：

首先对数据标准化，将不同量纲的数据按比例缩放，使之转化到同一个特定的数值区间；缺失值填补和去重复值，缺失值填补选择现有的k近邻的加权组合算法；

然后，对于每种具体的癌症，为整合多组学数据并分析相应的临床表现，数据集包括转录组学数据、甲基化数据和临床数据，样本取三者的交集，即样本对齐，这一样本对齐操作保证了实验数据集中的每个样本都包含这三种数据。后续对每种癌症，分别进行特征选择，得到每种组学数据的特征子集。

进一步的，考虑到所选重要特征具有的一个特性是高区分度，即该特征在不同癌症样本中具有较大的差异值。如果某些特征在大部分癌症样本上有近似的表达值，那么这些特征被视为干扰特征项，没有实际意义，这时需要通过方差过滤去除干扰特征。方差衡量了数据的变化程度，当方差很小时，说明特征的值在所有样本中都相似，可能只是噪音或者无意义的变化，所以设置合理的方差阈值可以有效地过滤掉这些特征，从而提高数据的质量和分析的可靠性。经过方差过滤后，泛癌数据集如表1所示：

表1 方差过滤后数据集

TCGA数据库中，转录组学基因特征初始维度为59427，甲基化基因特征初始维度为28590，从表1可以看出，方差过滤后，可有效去除冗余特征。

实施例3

一种基于泛癌多组学数据的无监督特征选择方法，如实施例2所述，所不同的是，如图2所示，步骤S2包括：

S21：构建相似度矩阵

首先计算样本每对特征之间的相似度，常用的相似度计算方法包括欧氏距离、高斯核函数等，然后根据相似度构建相似度矩阵；构建相似度矩阵是一种常见的数据分析和机器学习任务，通常用于发现数据集中样本之间的关系和结构。

S22：计算拉普拉斯矩阵和特征向量

通过相似度矩阵计算得到拉普拉斯矩阵，通常包括两种形式，分别为未标准化拉普拉斯矩阵和标准化拉普拉斯矩阵，本发明采用标准化拉普拉斯矩阵；首先根据相似度矩阵计算邻接矩阵和度矩阵，即可得到标准化拉普拉斯矩阵；

然后对拉普拉斯矩阵进行特征值分解，得到对应的特征向量；特征值分解可采用标准的数值计算方法，例如特征值分解算法（如幂迭代、QR算法等）或稀疏矩阵特征值分解算法（如Lanczos方法），特征值分解得到的特征向量对应着标准化的拉普拉斯矩阵的特征向量。

现已证明，谱聚类的最终目标是找到拉普拉斯矩阵L的c个（）最小非零特征值，得到对应的c个特征向量，组成d×c的矩阵H，d表示基因特征维度。

S23：对特征向量进行聚类

将选取的c个特征向量作为新的特征表示，应用传统的聚类算法（如K均值聚类算法）进行聚类，从而得到k ₁个特征簇M _j；K-means聚类需提前指定聚类数，这里本发明选择Optuna超参数调优框架来改进谱聚类，目标函数是聚类效果最优，k ₁的范围为[2, 10]，由此可将初始特征划分为聚类效果最佳的不同类簇。

S24：按特征重要性得分排序

特征选择的目标是选择彼此不相关的、具有较强区分能力的特征来构造特征子集，并从原始特征中消除冗余和相似的特征。这样，不仅可以保持和提高聚类和子类型化能力，而且可以大大简化原有系统。为了改进谱聚类算法，本发明提出了特征重要度的概念。

对每一特征簇按特征重要性得分从高到低排序，并选择前k ₂个特征向量作为代表特征集，所有特征簇得到的代表特征集取并集，即得到特征子集A，特征子集A中共有个k ₂×k ₁个特征向量。

对于某类具体癌症数据集，可以选取k ₂×k ₁分别为10、20、40、60、80、100、120时的加权聚类指数WCI和生存分析曲线的进行差异评估，选取评估效果较好的数据，通过k ₂×k ₁÷k ₁即得到了k ₂，其中k ₁是通过Optuna超参数调优得出的。

谱聚类算法主要思想是将聚类问题转化为以样本为顶点，样本间相似性为顶点连接边权重的带权无向图的划分问题，它能够发现任意形状的簇，且收敛于全局最优解。因此，对特征进行谱聚类，有助于揭示特征之间的内在联系，发现更具代表性的特征簇。本发明对谱聚类算法进行了改进，将特征簇按照特征重要性降序排序，选择前k ₂个特征，改进后的谱聚类算法使其能够更好地捕捉数据集样本中特征之间的关系，例如，可以使用更复杂的核函数，改进特征选择方法，使其在面对噪声、异常值等情况下更加鲁棒。

实施例4

一种基于泛癌多组学数据的无监督特征选择方法，如实施例3所述，所不同的是，步骤S24中，对于给定的数据集，其中n表示病例样本数，d表示基因特征维度，采用f表示特征向量，则数据集采用特征向量表示为；采用，，，…，，…表示n个样本，则数据集采用样本表示为。

在特征区分度方面，能够很好地区分各病例样本的重要特征具有的特性便是在不同亚型中有较大差异值。因此，本发明选取基因特征的标准差衡量特征区分能力，如公式（1），计算区分度：

（1）

在特征独立性方面，重要特征的另一个特性是高独立性，这能够保证不会选择到彼此相关的特征，两个基因特征越不相关，则其独立性越高。Person相关系数绝对值越小，则证明特征之间越不相关，即特征独立性高。本发明考虑用Person相关系数来度量特征独立性。定义特征与同类簇区分能力更强特征的Pearson相关系数绝对值和的倒数为特征独立性；对区分度最大的特征，定义其独立性为与本簇最不相关特征的Pearson相关性绝对值的倒数，公式（2）定义了特征独立性，其中M _j是特征所在的特征类簇。

计算特征独立性：

（2）

由上式可知，基因特征与区分能力比它更强的特征越不相关，则该特征的独立性越强，且区分能力最强的特征的独立性取值为与同类特征簇中最不相关的特征的相关系数值，再取倒数，从而保证其独立性也最大，即保障了区分能力最强的特征一定在特征子集中。

特征、间的Pearson相关系数为：

（3）

其中，表示的均值；表示的均值；

在特征重要度方面，本发明将特征重要度得分定义为公式（4），从公式（4）中可以看出，对特征区分度和特征独立性都做了归一化处理，并将权重因子一值选为0.5，从而保证了特征区分度和特征独立性对最终结果的评定具有同等影响，且特征重要度的取值范围为[0,1]。

特征重要性得分为：

（4）

其中，表示权重因子一，取值为0.5。

实施例5

一种基于泛癌多组学数据的无监督特征选择方法，如实施例4所述，所不同的是，步骤S3中，深度自动编码器在解决生物组学数据高维小样本灾难方面受到了更为广泛的关注，它是一种无监督学习的前馈人工神经网络，可以学习到输入数据的隐含特征，将输入编码为压缩且有意义的表示，这称为编码，同时用学习到的新特征可以重构出原始输入数据，称之为解码。

深度自动编码器包括编码器和解码器，用于特征提取从而得到原始高维特征的压缩表示；

如图3所示，首先将各单组学数据转置为深度自动编码器模型的输入数据，其中编码器包括输入层、隐藏层A、10%的Dropout层A、隐藏层B、10%的Dropout层B以及编码层，其中输入层输入d个基因特征维度，隐藏层A为具有256个神经元的全连接层，激活函数为ReLU；隐藏层B为具有128个神经元的全连接层，激活函数为ReLU；编码层为具有u个神经元的全连接层，激活函数为ReLU；

图3中的神经元表示特征维度的相对大小和神经元个数的相对大小。深度自动编码器模型是通过学习压缩输入数据来重构原始数据，以便最小化重构误差，最终用于特征提取和降维，“深度”表示具有多个隐藏层的自动编码器。

本发明的深度自动编码器选择使用ReLU为激活函数，可以进一步改进深度神经网络的训练；自编码器中各参数的优化采用自适应矩估计（Adam优化器），可根据梯度计算自适应学习率以加快学习过程，为防止神经网络对特定训练样本过度依赖，从而提高自编码器的泛化能力，本发明引入了Dropout层，Dropout层是一种正则化方法，正则化方法的目标是减少模型的过拟合，从而提高其泛化能力。Dropout是一种在训练过程中随机丢弃神经网络中的一些单元的方法。在每次训练迭代中，每个神经元都有一定的概率被丢弃，这样可以减少神经元之间的依赖关系，降低模型对某些特定神经元的依赖，从而减少过拟合的风险。

编码器是一个非线性函数，将n个样本、d个特征维度的输入域D映射到一个较低维数为I的潜在空间Z，对应的，解码器是一个将样本从潜在空间Z重构到原始空间的函数；

编码器函数和解码器函数的定义如公式（5）、公式（6）：

（5）

（6）

在深度自动编码器训练时，损失函数为：

（7）

损失函数采用均方误差来量化，如公式（8）：

（8）

、分别表示初始数据和重构后的数据，、分别表示、。

本发明中，深度自动编码器得到的特征子集B是原始基因特征的非线性组合，可利用深度自动编码器得到的低维特征子集B指导改进的谱聚类算法得到的特征子集A，从改进的谱聚类所选择的特征中，选择与深度自编码器提取的潜在特征分布最为近似的原始特征，该策略能最好地对齐从深度自动编码器学习的表示，且同时考虑到了特征区分度和特征独立性。

实施例6

一种基于泛癌多组学数据的无监督特征选择方法，如实施例5所述，所不同的是，步骤S5中，通过加权聚类指数和生存分析验证方法共同评估最终得到的特征子集。

生存分析验证中，通过绘制患者生存分析曲线图，能够衡量不同无监督特征选择算法所选择的重要特征在同一聚类算法下所得到亚型生存曲线是否有很好的分离，通过这种方式，能够评估每个无监督特征选择算法，更有说服力。

当研究目标涉及到泛癌分型的深度特征选择方法，并需要评价聚类内在属性来评估特征子集优劣时，聚类评价指标的选择和权衡是至关重要的。轮廓系数和Calinski-Harabasz指数，各自从不同角度反映了聚类结果的质量。本实施例所提出的加权聚类指数就是结合这些指标的综合评估以提供对特征选择方法的优劣进行相对权威的判断。

加权聚类指数的计算过程如下：

首先计算第i个数据点的轮廓系数，计算公式如下：

（9）

最终的轮廓系数是所有的平均值；

（10）

（11）

其中，表示权重因子二，取值为0.5，表示将基于样本间距离和方差的两个指标赋予相同权重，最终的结果将在0到1的范围内，值越大表明聚类效果越好。本发明分别对轮廓系数和Calinski-Harabasz两个指标做了归一化处理，避免因结果范围差距造成对加权聚类指数贡献不一的情况；公式中表示取最大值。

为突出本发明所提出的算法的优越性，本发明选择方差分析法（Analysis ofvariance，ANOVA）、相关系数法（Pearson product-moment correlation coefficient，PPMCC）、基于L1正则化的套索回归方法（Least AbsoluteShrinkage and SelectionOperator，Lasso）、基于余弦相似性排名的光谱特征选择方法（Cosine similarityspectral）、基于谱聚类的无监督特征选择方法（Spectral clustering）及基于拉普拉斯分数排名的光谱特征选择方法（Laplacian spectral）6种现有无监督特征选择算法与本发明方法进行加权聚类指数对比，如图4至图8所示，从图中可以看出，本发明提出方法在每种癌症中都比其他现有特征选择算法具有更高的加权聚类指数，即在聚类质量上，本发明的方法效果更好。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于泛癌多组学数据的无监督特征选择方法，其特征在于，包括以下步骤：

S1：选择数据集及数据预处理；

数据集选择癌症基因组图谱TCGA数据库中的5个癌症数据集，包括乳腺癌、肺癌、胃癌、食管癌和前列腺癌；

数据预处理的过程如下：

然后，对于每个具体的癌症，数据集包括转录组学数据、甲基化数据和临床数据，样本取三者的交集，即样本对齐；

步骤S2包括：

S21：构建相似度矩阵

首先计算样本每对特征之间的相似度，然后根据相似度构建相似度矩阵；

S22：计算拉普拉斯矩阵和特征向量

通过相似度矩阵计算得到拉普拉斯矩阵，然后对拉普拉斯矩阵进行特征值分解，得到对应的特征向量；选择前c个特征向量作为降维或特征选择的结果；

S23：对特征向量进行聚类

将选取的c个特征向量作为新的特征表示，应用聚类算法进行聚类，从而得到k₁个的特征簇；

S24：按特征重要性得分排序

对每一特征簇按特征重要性得分从高到低排序，并选择前k₂个特征向量作为代表特征集，所有特征簇得到的代表特征集取并集，即得到特征子集A；

步骤S24中，对于给定的数据集其中n表示病例样本数，d表示基因特征维度，采用f表示特征向量，则数据集D＝[f₁，f₂，f₃，…，f_i，…f_d]，采用x₁，x₂，x₃，…，x_j，…x_n表示n个样本，则数据集D＝[x₁，x₂，x₃，…，x_j，…x_n]，计算区分度dis_i：

其中，std_i表示第i个特征的标准差，f_ji表示基因特征i在第j个样本上的表达值；

计算特征独立性ind_i：

其中，M_j表示特征簇，表示特征f_i、f_k间的Pearson相关系数，dis_k表示第k个特征的区分度；

特征f_i、f_k间的Pearson相关系数为：

其中，表示f_ji的均值；表示f_jk的均值；

特征重要性得分score_i为：

其中，weight_factorA表示权重因子一，取值为0.5；

S4：对于特征子集B中的每一个特征B_l，将特征B_l与特征子集A中所有特征计算Pearson相关系数，选择与特征B_l的Pearson相关系数最高的特征A_m作为结果，放入最终的特征子集中，并在特征子集A中删除A_m，其中B_l表示特征子集B中的第l个特征，l取值为1～N的自然数，N为特征子集B的特征总数；A_m表示特征子集A中的第m个特征，m取值为1～M的自然数，M为特征子集A的特征总数；

S5：评估最终得到的特征子集；

步骤S5中，通过加权聚类指数和生存分析验证方法共同评估最终得到的特征子集。

2.根据权利要求1所述的基于泛癌多组学数据的无监督特征选择方法，其特征在于，步骤S3中，深度自动编码器包括编码器和解码器，用于特征提取从而得到原始高维特征的压缩表示；

编码器包括输入层、隐藏层A、10％的Dropout层A、隐藏层B、10％的Dropout层B以及编码层，其中输入层输入d个基因特征维度，隐藏层A为具有256个神经元的全连接层，激活函数为ReLU；隐藏层B为具有128个神经元的全连接层，激活函数为ReLU；编码层为具有u个神经元的全连接层，激活函数为ReLU；

解码器包括隐藏层C、10％的Dropout层C、隐藏层D、10％的Dropout层D以及重构层，其中隐藏层C为具有128个神经元的全连接层，激活函数为ReLU；隐藏层D为具有256个神经元的全连接层，激活函数为ReLU；重构层负责将压缩后的表示解码为原始的输入数据维度，其神经元个数与初始输入特征维度相同，激活函数为ReLU。

3.根据权利要求2所述的基于泛癌多组学数据的无监督特征选择方法，其特征在于，步骤S3中，编码器是一个非线性函数，将n个样本、d个特征维度的输入域D映射到一个较低维数为I的潜在空间Z，对应的，解码器是一个将样本从潜在空间Z重构到原始空间的函数；

编码器函数和解码器函数的定义如公式(5)、公式(6)

z＝f(x)(5)

其中，潜在空间中的样本为z，为解码器重构样本，f(x)为编码器函数，g(z)为解码器函数；

在深度自动编码器训练时，损失函数为：

损失函数采用均方误差来量化，如公式(8)：

x_i、分别表示初始数据和重构后的数据。

4.根据权利要求3所述的基于泛癌多组学数据的无监督特征选择方法，其特征在于，加权聚类指数的计算过程如下：

首先计算第i个数据点的轮廓系数S_i，计算公式如下：

其中a_i表示该点与同一特征簇中其他点的平均距离，b_i表示该点与最近的不同特征簇中所有点的平均距离；

最终的轮廓系数S是所有S_i的平均值；

然后，计算Calinski-Harabasz指数index，计算公式如下：

其中，Q是数据点总数，k₁是特征簇的总数，W_k1是簇内总方差，B_k1是特征簇的簇间总方差；

根据最终的轮廓系数S和Calinski-Harabasz指数计算加权聚类指数WCI，公式为：

其中，weight_factorB表示权重因子二，取值为0.5。