CN118335200B - 基于因果特征选择的肺腺癌亚型分类系统、介质及设备 - Google Patents
基于因果特征选择的肺腺癌亚型分类系统、介质及设备 Download PDFInfo
- Publication number
- CN118335200B CN118335200B CN202410748431.XA CN202410748431A CN118335200B CN 118335200 B CN118335200 B CN 118335200B CN 202410748431 A CN202410748431 A CN 202410748431A CN 118335200 B CN118335200 B CN 118335200B
- Authority
- CN
- China
- Prior art keywords
- causal
- histology
- feature
- features
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001364 causal effect Effects 0.000 title claims abstract description 136
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 title claims abstract description 23
- 201000005249 lung adenocarcinoma Diseases 0.000 title claims abstract description 23
- 230000014509 gene expression Effects 0.000 claims abstract description 55
- 230000004927 fusion Effects 0.000 claims abstract description 41
- 238000013145 classification model Methods 0.000 claims abstract description 37
- 238000009826 distribution Methods 0.000 claims abstract description 37
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 36
- 201000011510 cancer Diseases 0.000 claims abstract description 33
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 239000000126 substance Substances 0.000 claims abstract description 17
- 238000010845 search algorithm Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 32
- 206010058467 Lung neoplasm malignant Diseases 0.000 claims description 15
- 201000005202 lung cancer Diseases 0.000 claims description 15
- 208000020816 lung neoplasm Diseases 0.000 claims description 15
- 108700019961 Neoplasm Genes Proteins 0.000 claims description 10
- 102000048850 Neoplasm Genes Human genes 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 201000010099 disease Diseases 0.000 claims description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 230000007067 DNA methylation Effects 0.000 claims description 3
- 108090000623 proteins and genes Proteins 0.000 abstract description 6
- 230000002068 genetic effect Effects 0.000 abstract description 3
- 230000002962 histologic effect Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 206010006187 Breast cancer Diseases 0.000 description 3
- 208000026310 Breast neoplasm Diseases 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000391 smoking effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000001973 epigenetic effect Effects 0.000 description 2
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 201000008275 breast carcinoma Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 229940075799 deep sea Drugs 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003571 electronic cigarette Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002601 intratumoral effect Effects 0.000 description 1
- 231100000518 lethal Toxicity 0.000 description 1
- 230000001665 lethal effect Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000002052 molecular layer Substances 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本公开提供了基于因果特征选择的肺腺癌亚型分类系统、介质及设备,涉及基因分类预测技术领域,包括:数据获取模块获取基因的多组学表达数据,并制定样本标签;特征选择模块计算每个组学特征对于样本标签的最大互信息系数,获得所有组学表达数据的因果子集候选特征队列;采用贪婪启发式搜索算法,选择因果子集候选特征队列中的候选特征,并对候选特征进行条件独立性测试,得到每个组学表达数据中的因果特征;分类模块将每组的因果特征输入至候选分类模型中,输出每组的标签分布;将每组的标签分布进行数据融合得到融合特征,将融合特征输入至癌症亚型分类模型中,输出最终的分类结果;本公开提高了癌症亚型分类系统的泛化能力和可解释性。
Description
技术领域
本公开涉及基因分类预测技术领域,具体涉及基于因果特征选择的肺腺癌亚型分类系统、介质及设备。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
肺癌是目前致死率最高的恶性肿瘤疾病,其中非小细胞肺癌占肺癌发病率的80%-85%,肺腺癌(LUAD)是最常见的非小细胞肺癌类型,5年生存率极低。肺癌的发生和进展是一种多因素参与的过程,它的复杂性具有极高的肿瘤内遗传异质性。多组学的发展为深入了解肿瘤异质性提供新的思路,利用多组学数据评估癌症亚型的异质性。病理学研究表明,肺腺癌的准确分类对于治疗、预后有重要意义,不仅可以为优化临床治疗策略提供参考,还能够促进个性化精准医疗的实施,从而降低患者死亡率,提高病人的预后生存能力。
现代医疗健康数据是多模态、高维且非结构化的数据。在进行预测或分类任务时,必须考虑来自医学数据的多模态或多组学数据进行综合分析。基因作为生物标志物的一种,与癌症密切相关,是在分子层面对癌症进行分类所必不可少的,可以帮助医生对肿瘤进行更准确的分类和预测。近年来,随着机器学习和深度学习等技术的迅速发展,在极大程度上促进了利用多个组学数据分类技术的发展。机器学习领域的最新进展显示出将深度学习应用于癌症分类的巨大前景。例如,深度卷积神经网络已被证明可以提高基于组织病理学或放射线图像的肿瘤分类的准确性和可重复性。
但是目前的基于深度学习的框架,例如D-GEX、DeepChrome和DeepSEA,用于根据高维基因组或表观基因组图谱预测基因表达或非编码变体的影响。在多组学数据的研究方面面临许多难题,具体如下:
1)首先,多维度和高维度的生物数据特征难以选择和处理,过度压缩特征这可能导致信息损失;
2)其次,基于传统方法进行特征选择时,传统机器学习没有考虑变量间的关联,仅采用降低数据维度来提取特征是不足以阐明基因与结局之间的关联,主要关注特征之间的相关性并非因果性,在面对复杂的数据集时,不利于排除那些可能导致混淆的特征。
3)此外,利用传统机器学习的方法进行分类模型的构建通常不具有可解释性,很难用直观的方式解释模型对不同特征的依赖关系。许多研究仅将基因组学数据作为癌症亚型的分类标准。然而,基于这些分子特征的分类仍然遗漏了许多额外的癌症异质。
发明内容
本公开为了解决上述问题,提出了基于因果特征选择的肺腺癌亚型分类系统、介质及设备,利用因果特征选择方法,结合多组学数据构建的癌症亚型分类模型,通过学习给定高维数据的低维因果表征及其因果关系,并考虑多个组学数据对癌症的影响,提高癌症亚型分类系统的泛化能力和可解释性。
根据一些实施例,本公开采用如下技术方案:
基于因果特征选择的肺腺癌亚型分类系统,包括:
数据获取模块,用于获取肺癌基因的多组学表达数据,并制定样本标签;
特征选择模块,用于分别提取多组学表达数据的组学特征,计算每个组学特征对于样本标签的最大互信息系数,基于特征排序方法获得所有组学表达数据的因果子集候选特征队列;
采用贪婪启发式搜索算法,选择因果子集候选特征队列中的候选特征,并对所述候选特征进行条件独立性测试,得到每个组学表达数据中的因果特征;
分类模块,用于将每组的因果特征输入至候选分类模型中,输出每组因果特征的标签分布;将每组的标签分布进行数据融合得到融合特征,将所述融合特征输入至癌症亚型分类模型中,输出最终的分类结果。
根据一些实施例,本公开采用如下技术方案:
一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如下方法步骤:
获取肺癌基因的多组学表达数据,并制定样本标签;
分别提取多组学表达数据的组学特征,计算每个组学特征对于样本标签的最大互信息系数,基于特征排序方法获得所有组学表达数据的因果子集候选特征队列;
采用贪婪启发式搜索算法,选择因果子集候选特征队列中的候选特征,并对所述候选特征进行条件独立性测试,得到每个组学表达数据中的因果特征;
将每组的因果特征输入至候选分类模型中,输出每组因果特征的标签分布;将每组的标签分布进行数据融合得到融合特征,将所述融合特征输入至癌症亚型分类模型中,输出最终的分类结果。
根据一些实施例,本公开采用如下技术方案:
一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如下方法步骤:
获取肺癌基因的多组学表达数据,并制定样本标签;
分别提取多组学表达数据的组学特征,计算每个组学特征对于样本标签的最大互信息系数,基于特征排序方法获得所有组学表达数据的因果子集候选特征队列;
采用贪婪启发式搜索算法,选择因果子集候选特征队列中的候选特征,并对所述候选特征进行条件独立性测试,得到每个组学表达数据中的因果特征;
将每组的因果特征输入至候选分类模型中,输出每组因果特征的标签分布;将每组的标签分布进行数据融合得到融合特征,将所述融合特征输入至癌症亚型分类模型中,输出最终的分类结果。
与现有技术相比,本公开的有益效果为:
本公开基于因果特征选择的肺腺癌亚型分类系统,提出了一种融合因果推断方法两阶段分类算法,首先对原始高维数据进行相关性分析,剔除冗余、不相关的特征;其次,提出了改进的因果特征选择方法,选择更有效的因果特征集合,此外,将多个组学中的因果特征通过加权的方式进行融合。最后,结合多组学癌症亚型分类模型,得出分类结果验证模型性能。通过学习给定高维数据的低维因果表征及其因果关系,并考虑了多个组学数据对癌症的影响,提高了癌症亚型分类算法的泛化能力和可解释性。
本公开的基于因果特征选择的肺腺癌亚型分类系统,可以通过发现类别属性(疾病)的因果特征,推导局部类属性与特征之间的因果关联,对于提高分类模型的鲁棒性以及可解释性具有重要意义。单一组学数据不足以揭示疾病的发病机制,目前已有的多组学融合技术要么是直接连接来自不同组学的特征,要么通过低维特征嵌入进行融合,但是这些方法对后续疾病的分类精确度没有很大提升。本公开计了一种多视图融合技术,将每个模型的初步预测结果通过矩阵运算映射到一个张量中,并将此张量作为新的特征输入模型中进行最终的预测,系统通过这种融合方式协调了多个组学数据预测结果不统一的情况,间接消除了单个组学预测结果的负面影响,有助于提高疾病亚型的分类准确度。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例的模型整体架构示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
本公开的一种实施例中提供了基于因果特征选择的肺腺癌亚型分类系统,包括:
数据获取模块,用于获取癌症基因的多组学表达数据,并制定样本标签;
特征选择模块,用于分别提取多组学表达数据的组学特征,计算每个组学特征对于样本标签的最大互信息系数,基于特征排序方法获得所有组学表达数据的因果子集候选特征队列;
采用贪婪启发式搜索算法,选择因果子集候选特征队列中的候选特征,并对所述候选特征进行条件独立性测试,得到每个组学表达数据中的因果特征;
分类模块,用于将每组的因果特征输入至候选分类模型中,输出每组因果特征的标签分布;将每组的标签分布进行数据融合得到融合特征,将所述融合特征输入至癌症亚型分类模型中,输出最终的分类结果。
作为一种实施例,传统的特征选择算法根据特征和目标变量之间的相关性寻找相关特征子集。例如,将是否患肺癌作为目标变量,“携带打火机”和“吸烟”作为特征变量,由于吸烟会导致患肺癌,而吸烟的人群常携带打火机,因此“携带打火机”和“吸烟”与肺癌之间存在相关性,而当在吸电子烟的人群中,基于“携带打火机”特征建立的模型就不再适用。建立特征与类变量之间的因果关系具有较强的可解释性和鲁棒性。因此,由因果特征构建的分类模型可以通过特征和类属性之间的因果相关性来解释。
本公开基于因果特征选择的肺腺癌亚型分类系统的各个模块中执行的方法步骤中,提出整体采改进的两阶段多组学组学因果特征学习方法(Two stages Multi-omicsCausal Feature Selection,TMOCFS),融合了癌症基因组图谱计划TCGA数据库中的基因组、表观遗传组、转录组三个组学数据,并采用两阶段因果特征降维方法,寻找肺癌的因果特征子集,然后利用自编码器结构网络对因果特征子集进行非线性降维,最后输入到非线性分类器中进行验证,具体实施过程如下:
步骤1)在数据获取模块中,获取肺癌基因的多组学表达数据,采用来自TCGA数据库的基因组、表观遗传组、转录组三个组学数据D={、、},具体包括DNA甲基化数据、RNA表达数据以及拷贝数变异数据。
步骤2)在特征选择模块,先进行第一阶段的特征选择,分别直接读取多组学表达数据的组学特征,计算每个组学特征对于样本标签的最大互信息系数,基于特征排序方法获得所有组学表达数据的因果子集候选特征队列。
最大互信息系数,是一种用于衡量两个变量之间关联程度的方法。相较于传统的互信息方法,MIC具有更高的准确度和适用性。MIC不仅能够捕捉线性关系,还能有效发现非线性关系,因此在数据关联性分析中具有广泛的应用前景,本公开中计算每个组学特征与样本标签之间的互信息,再基于得到的互信息计算每个组学特征与样本标签之间的最大互信息系数,所述样本标签为疾病标签。所述疾病标签为数据集中包含的,可直接读取。
计算每个组学特征与样本标签之间的互信息,包括:
其中,表示第i个组学数据的组学特征,为类别标签,即癌症亚型标签。M为组学数据样本的特征个数。
进一步,计算组学数据特征与标签之间的最大互信息系数MIC,计算如下式所示:
上式中,网格的分辨率限制为,为分辨率阈值,和表示二维空间中在x,y方向上划分的网格个数,由于在F-C网格上的分布最大互信息为,将最大信息系数度量值除以该最大可能互信息,便可将互信息值进行归一化,得到上述最大信息系数的计算公式。
获取每个组学特征与样本标签之间的最大互信息系数,按照设定的优先级队列存储与样本标签相关的组学特征,并将得到的所有的最大互信息系数按从大到小进行排序,分别获得三种组学表达数据的因果子集候选特征队列。这可以大大减少后续独立性检验的数量,提高算法的计算效率。
进一步的,进行第二阶段的特征选择,采用贪婪启发式搜索策略选择候选队列中的候选特征并计算其对疾病标签的条件概率。在因果子集候选特征队列中,利用贪婪启发式搜索策略从队列中取出一个候选特征,根据条件独立测试的结果来确定所述候选特征与样本标签的相关性,判断所述候选特征是否保留作为因果特征,相关性大的作为因果特征,相关性小的作为非因果特征,并将所述非因果特征剔除。
所述贪婪启发式搜索策略从队列中取出一个候选特征(基因),根据条件独立测试的结果来确定该特征是否保留。由于上一阶段对更强关联的变量进行了排序,所以在此步骤可以更快地识别非因果变量。算法的核心思想是在每一步搜索中利用与所求解问题相关的辅助信息(启发信息)选择最佳的局部最优解,以减少搜索范围,本系统中的启发信息为当前节点与其余节点及目标节点之间的相关系数。由于上一阶段对更强关联的变量进行了排序,所以在此步骤可以更快地识别非因果变量。
在这一步骤中,采用了一种加速的方法选择因果特征。并且,在第一步骤中通过相关性检验(最大互信息)去除了部分不相关或弱相关的变量,降低了假阳性及假阴性的概率。此外,保留了第一阶段计算的最大互信息相关系数,作为节点与结局之间因果关联权重。在给定因果不变子集的情况下,结局与其他变量之间相互独立:,其中为上述两步过程中筛除掉的特征。最终结局的类别可以通过下式计算得到:
其中,为特征到分类变量间的映射关系,为组学数据集个数,为权重,为噪声变量。最终,TMOCFS输出每组因果特征的标签分布,即模型预测每个样本对应每个标签的概率。
步骤3)将每组的因果特征子集输入至候选分类模型中,输出每组因果特征的标签分布;将每组的标签分布进行数据融合得到融合特征,将所述融合特征输入至癌症亚型分类模型中,输出最终的分类结果。
具体地,将每组的因果特征输入至候选分类模型中,输出每组因果特征的标签分布,并将多个标签分布相乘构造为的张量,将所述张量输入癌症亚型分类模型中,得到最终的预测分类结果。
面对多组学数据的癌症亚型分类问题,采用单一的模型难以同时学习多个组学数据中的模式,所以我们希望可以集成多个模型,结合多个模型的优缺点提高模型的泛化能力,并在多个模型的输出结果上对多组学数据进行融合。传统的做法通常是将原始数据进行简单的拼接,设计了更优的数据融合方案。首先,本公开选取了三分类器包括朴素贝叶斯、支持向量机和深度随机森林分别进行实验,选取在单一组学中最优的输出标签分布,并将多个标签分布进行数据融合,即相乘构造一个的张量,如下式所示:
其中,定义为的第个条目,为模型初步预测标签的分布,最后将输入到癌症亚型分类模型得到最终的预测结果。
其中,癌症亚型分类模型采用多视图融合网络,对多个组学数据的初步标签预测分布结果进行数据融合,其结构为一个三层神经网络,第一层为维的输入层,也为数据融合层,将三个组学数据输出的标签分布进行融合。其中,为标签类别个数,为组学数据个数。第二层为一个包含LeakyReLU激活函数的隐藏层,最后一层为维度为样本标签数的输出层输出每个样本标签。
作为一种实施例,本公开的改进的两阶段多组学组学因果特征学习算法(Twostages Multi-omics Causal Feature Selection,TMOCFS)执行的具体实施为:
输入:多组学数据集D={、、},包括特征F和标签C。
输出:每个样本的标签概率p
1:第一阶段:
2:for i in range(len(D)):
3:for j in range(len(F)):
4:计算特征基因与结局标签之间的
5:对所有的特征按照大小进行排序rank()
6:第二阶段:
7:for i in range(len(F)):
8贪婪启发式搜索:优先选择下一步最好的特征基因select(max())
9:if:
9:从候选因果子集中移除
10:if:
11:保留在候选因果子集中
12:else:
13: 从候选因果子集中移除
14:预测每个组学的标签分布:
15:
16:
17:
为了避免选出的数据偏置,同时使得实验更具有可信度,重复上述实验过程10次,对10次的实验结果求均值得到最后的实验结果。并对于多种不同的特征筛选方法进行比较,验证所提出的因果特征选择方法的有效性。
数据处理
从肺癌基因组图谱(TCGA)中获取肺腺癌、乳腺癌分类的相关数据集,包括DNA甲基化、RNA-seq表达、拷贝数变异三种组学数据,这些数据具有样本量少,维度灾难的特点。因此,对这些数据进行有效的因果特征选择是非常必要的。
原始组学数据具有缺失率高、未标准化、样本三种组学数据不全的特点,对原始数据进行预处理后得到样本总量为肺腺癌230例样本、乳腺癌800例样本如下表1所示。
表1 TCGA肺腺癌和乳腺癌三种组学共同的样本量
三个组学每个组学的数据结构如表2、3、4所示,下表仅展示了肺腺癌数据的前三行三列。
表2 肺腺癌DAN甲基化组学数据结构
表3 肺腺癌RNA表达量组学数据结构
表4 肺腺癌CNV组学数据结构
实施例2
本公开的一种实施例中提出了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如下方法步骤:
获取癌症基因的多组学表达数据,并制定样本标签;
分别提取多组学表达数据的组学特征,计算每个组学特征对于样本标签的最大互信息系数,基于特征排序方法获得所有组学表达数据的因果子集候选特征队列;
采用贪婪启发式搜索算法,选择因果子集候选特征队列中的候选特征,并对所述候选特征进行条件独立性测试,得到每个组学表达数据中的因果特征;
将每组的因果特征输入至候选分类模型中,输出每组因果特征的标签分布;将每组的标签分布进行数据融合得到融合特征,将所述融合特征输入至癌症亚型分类模型中,输出最终的分类结果。
实施例3
本公开的一种实施例中提供了一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如下方法步骤:
获取癌症基因的多组学表达数据,并制定样本标签;
分别提取多组学表达数据的组学特征,计算每个组学特征对于样本标签的最大互信息系数,基于特征排序方法获得所有组学表达数据的因果子集候选特征队列;
采用贪婪启发式搜索算法,选择因果子集候选特征队列中的候选特征,并对所述候选特征进行条件独立性测试,得到每个组学表达数据中的因果特征;
将每组的因果特征输入至候选分类模型中,输出每组因果特征的标签分布;将每组的标签分布进行数据融合得到融合特征,将所述融合特征输入至癌症亚型分类模型中,输出最终的分类结果。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (5)
1.基于因果特征选择的肺腺癌亚型分类系统,其特征在于,包括:
数据获取模块,用于获取肺癌基因的多组学表达数据,并制定样本标签;
特征选择模块,用于分别提取多组学表达数据的组学特征,计算每个组学特征对于样本标签的最大互信息系数,基于特征排序方法获得所有组学表达数据的因果子集候选特征队列;
采用贪婪启发式搜索算法,选择因果子集候选特征队列中的候选特征,并对所述候选特征进行条件独立性测试,得到每个组学表达数据中的因果特征;
分类模块,用于将每组的因果特征输入至候选分类模型中,输出每组因果特征的标签分布;将每组的标签分布进行数据融合得到融合特征,将所述融合特征输入至癌症亚型分类模型中,输出最终的分类结果;
提取多组学表达数据的组学特征,计算每个组学特征与样本标签之间的互信息,再基于得到的互信息计算每个组学特征与样本标签之间的最大互信息系数;
基于获得的每个组学特征与样本标签之间的最大互信息系数,使用优先级队列存储与样本标签相关的组学特征,并按从大到小进行排序,获得所有组学表达数据的因果子集候选特征队列;
在因果子集候选特征队列中,利用贪婪启发式搜索策略从队列中取出一个候选特征,根据条件独立测试的结果来确定所述候选特征与样本标签的相关性,判断所述候选特征是否保留作为因果特征,相关性大的作为因果特征,相关性小的作为非因果特征,并将所述非因果特征剔除;
所述条件独立测试的方法为:利用计算的最大互信息系数,作为组学特征与样本标签之间因果关联权重,在给定因果特征不变子集的情况下,样本标签与候选特征之间相互独立;
将每组的因果特征输入至候选分类模型中,输出每组因果特征的标签分布,并将多个标签分布相乘构造为的张量,将所述张量输入癌症亚型分类模型中,得到最终的预测分类结果。
2.如权利要求1所述的基于因果特征选择的肺腺癌亚型分类系统,其特征在于,所述多组学表达数据包括DNA甲基化数据、RNA表达数据以及拷贝数变异数据。
3.如权利要求1所述的基于因果特征选择的肺腺癌亚型分类系统,其特征在于,所述样本标签为疾病样本标签。
4.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如下方法步骤:
获取肺癌基因的多组学表达数据,并制定样本标签;
分别提取多组学表达数据的组学特征,计算每个组学特征对于样本标签的最大互信息系数,基于特征排序方法获得所有组学表达数据的因果子集候选特征队列;
采用贪婪启发式搜索算法,选择因果子集候选特征队列中的候选特征,并对所述候选特征进行条件独立性测试,得到每个组学表达数据中的因果特征;
将每组的因果特征输入至候选分类模型中,输出每组因果特征的标签分布;将每组的标签分布进行数据融合得到融合特征,将所述融合特征输入至癌症亚型分类模型中,输出最终的分类结果;
提取多组学表达数据的组学特征,计算每个组学特征与样本标签之间的互信息,再基于得到的互信息计算每个组学特征与样本标签之间的最大互信息系数;
基于获得的每个组学特征与样本标签之间的最大互信息系数,使用优先级队列存储与样本标签相关的组学特征,并按从大到小进行排序,获得所有组学表达数据的因果子集候选特征队列;
在因果子集候选特征队列中,利用贪婪启发式搜索策略从队列中取出一个候选特征,根据条件独立测试的结果来确定所述候选特征与样本标签的相关性,判断所述候选特征是否保留作为因果特征,相关性大的作为因果特征,相关性小的作为非因果特征,并将所述非因果特征剔除;
所述条件独立测试的方法为:利用计算的最大互信息系数,作为组学特征与样本标签之间因果关联权重,在给定因果特征不变子集的情况下,样本标签与候选特征之间相互独立;
将每组的因果特征输入至候选分类模型中,输出每组因果特征的标签分布,并将多个标签分布相乘构造为的张量,将所述张量输入癌症亚型分类模型中,得到最终的预测分类结果。
5.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如下方法步骤:
获取肺癌基因的多组学表达数据,并制定样本标签;
分别提取多组学表达数据的组学特征,计算每个组学特征对于样本标签的最大互信息系数,基于特征排序方法获得所有组学表达数据的因果子集候选特征队列;
采用贪婪启发式搜索算法,选择因果子集候选特征队列中的候选特征,并对所述候选特征进行条件独立性测试,得到每个组学表达数据中的因果特征;
将每组的因果特征输入至候选分类模型中,输出每组因果特征的标签分布;将每组的标签分布进行数据融合得到融合特征,将所述融合特征输入至癌症亚型分类模型中,输出最终的分类结果;
提取多组学表达数据的组学特征,计算每个组学特征与样本标签之间的互信息,再基于得到的互信息计算每个组学特征与样本标签之间的最大互信息系数;
基于获得的每个组学特征与样本标签之间的最大互信息系数,使用优先级队列存储与样本标签相关的组学特征,并按从大到小进行排序,获得所有组学表达数据的因果子集候选特征队列;
在因果子集候选特征队列中,利用贪婪启发式搜索策略从队列中取出一个候选特征,根据条件独立测试的结果来确定所述候选特征与样本标签的相关性,判断所述候选特征是否保留作为因果特征,相关性大的作为因果特征,相关性小的作为非因果特征,并将所述非因果特征剔除;
所述条件独立测试的方法为:利用计算的最大互信息系数,作为组学特征与样本标签之间因果关联权重,在给定因果特征不变子集的情况下,样本标签与候选特征之间相互独立;
将每组的因果特征输入至候选分类模型中,输出每组因果特征的标签分布,并将多个标签分布相乘构造为的张量,将所述张量输入癌症亚型分类模型中,得到最终的预测分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410748431.XA CN118335200B (zh) | 2024-06-12 | 2024-06-12 | 基于因果特征选择的肺腺癌亚型分类系统、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410748431.XA CN118335200B (zh) | 2024-06-12 | 2024-06-12 | 基于因果特征选择的肺腺癌亚型分类系统、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118335200A CN118335200A (zh) | 2024-07-12 |
CN118335200B true CN118335200B (zh) | 2024-09-03 |
Family
ID=91780441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410748431.XA Active CN118335200B (zh) | 2024-06-12 | 2024-06-12 | 基于因果特征选择的肺腺癌亚型分类系统、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118335200B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113130002A (zh) * | 2021-04-29 | 2021-07-16 | 吉林大学 | 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法 |
CN116189761A (zh) * | 2022-12-09 | 2023-05-30 | 浙江大学 | 基于多组学数据的肝癌deb-tace联合pd-1抑制剂疗效精准预测方法和装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017192662A2 (en) * | 2016-05-03 | 2017-11-09 | Institute For Systems Biology | Methods for identifying treatment targets based on multiomics data |
CN111291777B (zh) * | 2018-12-07 | 2023-04-07 | 深圳先进技术研究院 | 一种基于多组学集成的癌症亚型分类方法 |
CN110379460B (zh) * | 2019-06-14 | 2023-06-20 | 西安电子科技大学 | 一种基于多组学数据的癌症分型信息处理方法 |
CN113808665B (zh) * | 2021-09-29 | 2024-03-08 | 山东大学 | 全基因组致病snp精细定位的因果关联分析方法 |
WO2024039873A1 (en) * | 2022-08-18 | 2024-02-22 | The Board Of Trustees Of The Leland Stanford Junior University | Multi-omic sample analysis methods |
CN115762631A (zh) * | 2022-10-11 | 2023-03-07 | 安徽大学 | 一种癌症驱动基因识别方法及系统 |
CN115862869B (zh) * | 2022-12-15 | 2023-06-09 | 山东大学 | 一种基于因果网络不确定性推理的疾病预测预警系统 |
CN115985513B (zh) * | 2023-01-05 | 2023-11-03 | 徐州医科大学科技园发展有限公司 | 一种基于多组学癌症分型的数据处理方法、装置及设备 |
-
2024
- 2024-06-12 CN CN202410748431.XA patent/CN118335200B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113130002A (zh) * | 2021-04-29 | 2021-07-16 | 吉林大学 | 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法 |
CN116189761A (zh) * | 2022-12-09 | 2023-05-30 | 浙江大学 | 基于多组学数据的肝癌deb-tace联合pd-1抑制剂疗效精准预测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN118335200A (zh) | 2024-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112635063B (zh) | 一种肺癌预后综合预测模型、构建方法及装置 | |
US20110246409A1 (en) | Data set dimensionality reduction processes and machines | |
CN114496092B (zh) | 基于图卷积网络的miRNA和疾病关联关系预测方法 | |
CN116741397B (zh) | 基于多组学数据融合的癌症分型方法、系统及存储介质 | |
Hu et al. | Classifying the multi-omics data of gastric cancer using a deep feature selection method | |
CN114334012B (zh) | 一种基于多组学数据识别癌症亚型的方法 | |
CN112926640B (zh) | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 | |
CN117591953A (zh) | 基于多组学数据的癌症分类方法、系统及电子设备 | |
CN117423391A (zh) | 一种基因调控网络数据库的建立方法、系统及设备 | |
US20070078606A1 (en) | Methods, software arrangements, storage media, and systems for providing a shrinkage-based similarity metric | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
CN113539479B (zh) | 一种基于相似性约束的miRNA-疾病关联预测方法及系统 | |
CN117409962B (zh) | 一种基于基因调控网络的微生物标记物的筛选方法 | |
CN118335200B (zh) | 基于因果特征选择的肺腺癌亚型分类系统、介质及设备 | |
Eshun et al. | Histological classification of non-small cell lung cancer with RNA-seq data using machine learning models | |
Chellamuthu et al. | Data mining and machine learning approaches in breast cancer biomedical research | |
CN115881218B (zh) | 用于全基因组关联分析的基因自动选择方法 | |
CN115588467B (zh) | 一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法 | |
Ma et al. | Kernel soft-neighborhood network fusion for MiRNA-disease interaction prediction | |
CN108376567B (zh) | 一种基于标签传播算法的临床药品-药品不良反应检测方法 | |
CN117789817A (zh) | 癌症跨组织免疫细胞类型富集和表达图谱的分析系统及检索方法 | |
CN113838519B (zh) | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 | |
CN115565610A (zh) | 基于多组学数据的复发转移分析模型建立方法及系统 | |
CN113971984A (zh) | 分类模型构建方法及装置、电子设备、存储介质 | |
Cai et al. | Application and research progress of machine learning in Bioinformatics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |