CN118335200B

CN118335200B - 基于因果特征选择的肺腺癌亚型分类系统、介质及设备

Info

Publication number: CN118335200B
Application number: CN202410748431.XA
Authority: CN
Inventors: 杨帆; 薛付忠; 张晓斌; 杨晓晖; 李江冰; 黄琳; 仲海; 刘锋
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2024-06-12
Filing date: 2024-06-12
Publication date: 2024-09-03
Anticipated expiration: 2044-06-12
Also published as: CN118335200A

Abstract

本公开提供了基于因果特征选择的肺腺癌亚型分类系统、介质及设备，涉及基因分类预测技术领域，包括：数据获取模块获取基因的多组学表达数据，并制定样本标签；特征选择模块计算每个组学特征对于样本标签的最大互信息系数，获得所有组学表达数据的因果子集候选特征队列；采用贪婪启发式搜索算法，选择因果子集候选特征队列中的候选特征，并对候选特征进行条件独立性测试，得到每个组学表达数据中的因果特征；分类模块将每组的因果特征输入至候选分类模型中，输出每组的标签分布；将每组的标签分布进行数据融合得到融合特征，将融合特征输入至癌症亚型分类模型中，输出最终的分类结果；本公开提高了癌症亚型分类系统的泛化能力和可解释性。

Description

基于因果特征选择的肺腺癌亚型分类系统、介质及设备

技术领域

本公开涉及基因分类预测技术领域，具体涉及基于因果特征选择的肺腺癌亚型分类系统、介质及设备。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

肺癌是目前致死率最高的恶性肿瘤疾病，其中非小细胞肺癌占肺癌发病率的80%-85%，肺腺癌（LUAD）是最常见的非小细胞肺癌类型，5年生存率极低。肺癌的发生和进展是一种多因素参与的过程，它的复杂性具有极高的肿瘤内遗传异质性。多组学的发展为深入了解肿瘤异质性提供新的思路，利用多组学数据评估癌症亚型的异质性。病理学研究表明，肺腺癌的准确分类对于治疗、预后有重要意义，不仅可以为优化临床治疗策略提供参考，还能够促进个性化精准医疗的实施，从而降低患者死亡率，提高病人的预后生存能力。

现代医疗健康数据是多模态、高维且非结构化的数据。在进行预测或分类任务时，必须考虑来自医学数据的多模态或多组学数据进行综合分析。基因作为生物标志物的一种，与癌症密切相关，是在分子层面对癌症进行分类所必不可少的，可以帮助医生对肿瘤进行更准确的分类和预测。近年来，随着机器学习和深度学习等技术的迅速发展，在极大程度上促进了利用多个组学数据分类技术的发展。机器学习领域的最新进展显示出将深度学习应用于癌症分类的巨大前景。例如，深度卷积神经网络已被证明可以提高基于组织病理学或放射线图像的肿瘤分类的准确性和可重复性。

但是目前的基于深度学习的框架，例如D-GEX、DeepChrome和DeepSEA，用于根据高维基因组或表观基因组图谱预测基因表达或非编码变体的影响。在多组学数据的研究方面面临许多难题，具体如下：

1）首先，多维度和高维度的生物数据特征难以选择和处理，过度压缩特征这可能导致信息损失；

2）其次，基于传统方法进行特征选择时，传统机器学习没有考虑变量间的关联，仅采用降低数据维度来提取特征是不足以阐明基因与结局之间的关联，主要关注特征之间的相关性并非因果性，在面对复杂的数据集时，不利于排除那些可能导致混淆的特征。

3）此外，利用传统机器学习的方法进行分类模型的构建通常不具有可解释性，很难用直观的方式解释模型对不同特征的依赖关系。许多研究仅将基因组学数据作为癌症亚型的分类标准。然而，基于这些分子特征的分类仍然遗漏了许多额外的癌症异质。

发明内容

本公开为了解决上述问题，提出了基于因果特征选择的肺腺癌亚型分类系统、介质及设备，利用因果特征选择方法，结合多组学数据构建的癌症亚型分类模型，通过学习给定高维数据的低维因果表征及其因果关系，并考虑多个组学数据对癌症的影响，提高癌症亚型分类系统的泛化能力和可解释性。

根据一些实施例，本公开采用如下技术方案：

基于因果特征选择的肺腺癌亚型分类系统，包括：

数据获取模块，用于获取肺癌基因的多组学表达数据，并制定样本标签；

特征选择模块，用于分别提取多组学表达数据的组学特征，计算每个组学特征对于样本标签的最大互信息系数，基于特征排序方法获得所有组学表达数据的因果子集候选特征队列；

采用贪婪启发式搜索算法，选择因果子集候选特征队列中的候选特征，并对所述候选特征进行条件独立性测试，得到每个组学表达数据中的因果特征；

分类模块，用于将每组的因果特征输入至候选分类模型中，输出每组因果特征的标签分布；将每组的标签分布进行数据融合得到融合特征，将所述融合特征输入至癌症亚型分类模型中，输出最终的分类结果。

根据一些实施例，本公开采用如下技术方案：

一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如下方法步骤：

获取肺癌基因的多组学表达数据，并制定样本标签；

分别提取多组学表达数据的组学特征，计算每个组学特征对于样本标签的最大互信息系数，基于特征排序方法获得所有组学表达数据的因果子集候选特征队列；

将每组的因果特征输入至候选分类模型中，输出每组因果特征的标签分布；将每组的标签分布进行数据融合得到融合特征，将所述融合特征输入至癌症亚型分类模型中，输出最终的分类结果。

根据一些实施例，本公开采用如下技术方案：

一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如下方法步骤：

获取肺癌基因的多组学表达数据，并制定样本标签；

与现有技术相比，本公开的有益效果为：

本公开基于因果特征选择的肺腺癌亚型分类系统，提出了一种融合因果推断方法两阶段分类算法，首先对原始高维数据进行相关性分析，剔除冗余、不相关的特征；其次，提出了改进的因果特征选择方法，选择更有效的因果特征集合，此外，将多个组学中的因果特征通过加权的方式进行融合。最后，结合多组学癌症亚型分类模型，得出分类结果验证模型性能。通过学习给定高维数据的低维因果表征及其因果关系，并考虑了多个组学数据对癌症的影响，提高了癌症亚型分类算法的泛化能力和可解释性。

本公开的基于因果特征选择的肺腺癌亚型分类系统，可以通过发现类别属性（疾病）的因果特征，推导局部类属性与特征之间的因果关联，对于提高分类模型的鲁棒性以及可解释性具有重要意义。单一组学数据不足以揭示疾病的发病机制，目前已有的多组学融合技术要么是直接连接来自不同组学的特征，要么通过低维特征嵌入进行融合，但是这些方法对后续疾病的分类精确度没有很大提升。本公开计了一种多视图融合技术，将每个模型的初步预测结果通过矩阵运算映射到一个张量中，并将此张量作为新的特征输入模型中进行最终的预测，系统通过这种融合方式协调了多个组学数据预测结果不统一的情况，间接消除了单个组学预测结果的负面影响，有助于提高疾病亚型的分类准确度。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例的模型整体架构示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

本公开的一种实施例中提供了基于因果特征选择的肺腺癌亚型分类系统，包括：

数据获取模块，用于获取癌症基因的多组学表达数据，并制定样本标签；

作为一种实施例，传统的特征选择算法根据特征和目标变量之间的相关性寻找相关特征子集。例如，将是否患肺癌作为目标变量，“携带打火机”和“吸烟”作为特征变量，由于吸烟会导致患肺癌，而吸烟的人群常携带打火机，因此“携带打火机”和“吸烟”与肺癌之间存在相关性，而当在吸电子烟的人群中，基于“携带打火机”特征建立的模型就不再适用。建立特征与类变量之间的因果关系具有较强的可解释性和鲁棒性。因此，由因果特征构建的分类模型可以通过特征和类属性之间的因果相关性来解释。

本公开基于因果特征选择的肺腺癌亚型分类系统的各个模块中执行的方法步骤中，提出整体采改进的两阶段多组学组学因果特征学习方法（Two stages Multi-omicsCausal Feature Selection，TMOCFS），融合了癌症基因组图谱计划TCGA数据库中的基因组、表观遗传组、转录组三个组学数据，并采用两阶段因果特征降维方法，寻找肺癌的因果特征子集，然后利用自编码器结构网络对因果特征子集进行非线性降维，最后输入到非线性分类器中进行验证，具体实施过程如下：

步骤1）在数据获取模块中，获取肺癌基因的多组学表达数据，采用来自TCGA数据库的基因组、表观遗传组、转录组三个组学数据D={、、}，具体包括DNA甲基化数据、RNA表达数据以及拷贝数变异数据。

步骤2）在特征选择模块，先进行第一阶段的特征选择，分别直接读取多组学表达数据的组学特征，计算每个组学特征对于样本标签的最大互信息系数，基于特征排序方法获得所有组学表达数据的因果子集候选特征队列。

最大互信息系数，是一种用于衡量两个变量之间关联程度的方法。相较于传统的互信息方法，MIC具有更高的准确度和适用性。MIC不仅能够捕捉线性关系，还能有效发现非线性关系，因此在数据关联性分析中具有广泛的应用前景，本公开中计算每个组学特征与样本标签之间的互信息，再基于得到的互信息计算每个组学特征与样本标签之间的最大互信息系数，所述样本标签为疾病标签。所述疾病标签为数据集中包含的，可直接读取。

计算每个组学特征与样本标签之间的互信息，包括：

其中，表示第i个组学数据的组学特征，为类别标签，即癌症亚型标签。M为组学数据样本的特征个数。

进一步，计算组学数据特征与标签之间的最大互信息系数MIC，计算如下式所示：

上式中，网格的分辨率限制为，为分辨率阈值，和表示二维空间中在x，y方向上划分的网格个数，由于在F-C网格上的分布最大互信息为，将最大信息系数度量值除以该最大可能互信息，便可将互信息值进行归一化，得到上述最大信息系数的计算公式。

获取每个组学特征与样本标签之间的最大互信息系数，按照设定的优先级队列存储与样本标签相关的组学特征，并将得到的所有的最大互信息系数按从大到小进行排序，分别获得三种组学表达数据的因果子集候选特征队列。这可以大大减少后续独立性检验的数量，提高算法的计算效率。

进一步的，进行第二阶段的特征选择，采用贪婪启发式搜索策略选择候选队列中的候选特征并计算其对疾病标签的条件概率。在因果子集候选特征队列中，利用贪婪启发式搜索策略从队列中取出一个候选特征，根据条件独立测试的结果来确定所述候选特征与样本标签的相关性，判断所述候选特征是否保留作为因果特征，相关性大的作为因果特征，相关性小的作为非因果特征，并将所述非因果特征剔除。

所述贪婪启发式搜索策略从队列中取出一个候选特征（基因），根据条件独立测试的结果来确定该特征是否保留。由于上一阶段对更强关联的变量进行了排序，所以在此步骤可以更快地识别非因果变量。算法的核心思想是在每一步搜索中利用与所求解问题相关的辅助信息（启发信息）选择最佳的局部最优解，以减少搜索范围，本系统中的启发信息为当前节点与其余节点及目标节点之间的相关系数。由于上一阶段对更强关联的变量进行了排序，所以在此步骤可以更快地识别非因果变量。

在这一步骤中，采用了一种加速的方法选择因果特征。并且，在第一步骤中通过相关性检验（最大互信息）去除了部分不相关或弱相关的变量，降低了假阳性及假阴性的概率。此外，保留了第一阶段计算的最大互信息相关系数，作为节点与结局之间因果关联权重。在给定因果不变子集的情况下，结局与其他变量之间相互独立：，其中为上述两步过程中筛除掉的特征。最终结局的类别可以通过下式计算得到：

其中，为特征到分类变量间的映射关系，为组学数据集个数，为权重，为噪声变量。最终，TMOCFS输出每组因果特征的标签分布，即模型预测每个样本对应每个标签的概率。

步骤3）将每组的因果特征子集输入至候选分类模型中，输出每组因果特征的标签分布；将每组的标签分布进行数据融合得到融合特征，将所述融合特征输入至癌症亚型分类模型中，输出最终的分类结果。

具体地，将每组的因果特征输入至候选分类模型中，输出每组因果特征的标签分布，并将多个标签分布相乘构造为的张量，将所述张量输入癌症亚型分类模型中，得到最终的预测分类结果。

面对多组学数据的癌症亚型分类问题，采用单一的模型难以同时学习多个组学数据中的模式，所以我们希望可以集成多个模型，结合多个模型的优缺点提高模型的泛化能力，并在多个模型的输出结果上对多组学数据进行融合。传统的做法通常是将原始数据进行简单的拼接，设计了更优的数据融合方案。首先，本公开选取了三分类器包括朴素贝叶斯、支持向量机和深度随机森林分别进行实验，选取在单一组学中最优的输出标签分布，并将多个标签分布进行数据融合，即相乘构造一个的张量，如下式所示：

其中，定义为的第个条目，为模型初步预测标签的分布，最后将输入到癌症亚型分类模型得到最终的预测结果。

其中，癌症亚型分类模型采用多视图融合网络，对多个组学数据的初步标签预测分布结果进行数据融合，其结构为一个三层神经网络，第一层为维的输入层，也为数据融合层，将三个组学数据输出的标签分布进行融合。其中，为标签类别个数，为组学数据个数。第二层为一个包含LeakyReLU激活函数的隐藏层，最后一层为维度为样本标签数的输出层输出每个样本标签。

作为一种实施例，本公开的改进的两阶段多组学组学因果特征学习算法（Twostages Multi-omics Causal Feature Selection，TMOCFS）执行的具体实施为：

输入：多组学数据集D={、、}，包括特征F和标签C。

输出：每个样本的标签概率p

1：第一阶段：

2：for i in range(len(D)):

3：for j in range(len(F)):

4：计算特征基因与结局标签之间的

5：对所有的特征按照大小进行排序rank()

6：第二阶段：

7：for i in range(len(F)):

8贪婪启发式搜索:优先选择下一步最好的特征基因select(max())

9：if:

9：从候选因果子集中移除

10：if:

11：保留在候选因果子集中

12：else:

13: 从候选因果子集中移除

14：预测每个组学的标签分布：

15：

16：

17：

为了避免选出的数据偏置，同时使得实验更具有可信度，重复上述实验过程10次，对10次的实验结果求均值得到最后的实验结果。并对于多种不同的特征筛选方法进行比较，验证所提出的因果特征选择方法的有效性。

数据处理

从肺癌基因组图谱（TCGA）中获取肺腺癌、乳腺癌分类的相关数据集，包括DNA甲基化、RNA-seq表达、拷贝数变异三种组学数据，这些数据具有样本量少，维度灾难的特点。因此，对这些数据进行有效的因果特征选择是非常必要的。

原始组学数据具有缺失率高、未标准化、样本三种组学数据不全的特点，对原始数据进行预处理后得到样本总量为肺腺癌230例样本、乳腺癌800例样本如下表1所示。

表1 TCGA肺腺癌和乳腺癌三种组学共同的样本量

三个组学每个组学的数据结构如表2、3、4所示，下表仅展示了肺腺癌数据的前三行三列。

表2 肺腺癌DAN甲基化组学数据结构

表3 肺腺癌RNA表达量组学数据结构

表4 肺腺癌CNV组学数据结构

实施例2

本公开的一种实施例中提出了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如下方法步骤：

获取癌症基因的多组学表达数据，并制定样本标签；

实施例3

本公开的一种实施例中提供了一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如下方法步骤：

获取癌症基因的多组学表达数据，并制定样本标签；

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于因果特征选择的肺腺癌亚型分类系统，其特征在于，包括：

分类模块，用于将每组的因果特征输入至候选分类模型中，输出每组因果特征的标签分布；将每组的标签分布进行数据融合得到融合特征，将所述融合特征输入至癌症亚型分类模型中，输出最终的分类结果；

提取多组学表达数据的组学特征，计算每个组学特征与样本标签之间的互信息，再基于得到的互信息计算每个组学特征与样本标签之间的最大互信息系数；

基于获得的每个组学特征与样本标签之间的最大互信息系数，使用优先级队列存储与样本标签相关的组学特征，并按从大到小进行排序，获得所有组学表达数据的因果子集候选特征队列；

在因果子集候选特征队列中，利用贪婪启发式搜索策略从队列中取出一个候选特征，根据条件独立测试的结果来确定所述候选特征与样本标签的相关性，判断所述候选特征是否保留作为因果特征，相关性大的作为因果特征，相关性小的作为非因果特征，并将所述非因果特征剔除；

所述条件独立测试的方法为：利用计算的最大互信息系数，作为组学特征与样本标签之间因果关联权重，在给定因果特征不变子集的情况下，样本标签与候选特征之间相互独立；

将每组的因果特征输入至候选分类模型中，输出每组因果特征的标签分布，并将多个标签分布相乘构造为的张量，将所述张量输入癌症亚型分类模型中，得到最终的预测分类结果。

2.如权利要求1所述的基于因果特征选择的肺腺癌亚型分类系统，其特征在于，所述多组学表达数据包括DNA甲基化数据、RNA表达数据以及拷贝数变异数据。

3.如权利要求1所述的基于因果特征选择的肺腺癌亚型分类系统，其特征在于，所述样本标签为疾病样本标签。

4.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如下方法步骤：

获取肺癌基因的多组学表达数据，并制定样本标签；

将每组的因果特征输入至候选分类模型中，输出每组因果特征的标签分布；将每组的标签分布进行数据融合得到融合特征，将所述融合特征输入至癌症亚型分类模型中，输出最终的分类结果；

5.一种电子设备，其特征在于，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如下方法步骤：

获取肺癌基因的多组学表达数据，并制定样本标签；