Nothing Special   »   [go: up one dir, main page]

CN117637035A - 一种基于图神经网络的多组学可信整合的分类模型及方法 - Google Patents

一种基于图神经网络的多组学可信整合的分类模型及方法 Download PDF

Info

Publication number
CN117637035A
CN117637035A CN202311702871.3A CN202311702871A CN117637035A CN 117637035 A CN117637035 A CN 117637035A CN 202311702871 A CN202311702871 A CN 202311702871A CN 117637035 A CN117637035 A CN 117637035A
Authority
CN
China
Prior art keywords
histology
classification
data
confidence
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311702871.3A
Other languages
English (en)
Inventor
姚晓辉
丛山
罗昊燃
梁洪
贾淼
袁浚博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Harbin Engineering University Innovation Development Center
Original Assignee
Qingdao Harbin Engineering University Innovation Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Harbin Engineering University Innovation Development Center filed Critical Qingdao Harbin Engineering University Innovation Development Center
Publication of CN117637035A publication Critical patent/CN117637035A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/257Belief theory, e.g. Dempster-Shafer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及一种基于图神经网络的多组学可信整合的分类模型及方法。该方法包括:针对一个样本,准备该样本的组学数据;构建每种组学数据的特异性网络;对组学特异性网络进行聚合更新,并对提取的组学特征进行降维和分类,产生每种组学的初始分类;计算每种组学的置信度,并对聚合后的特征进行增强;融合多种组学的置信增强特征,产生最终的分类结果;输出目标对象的医学分析结果。该模型包括:多组学数据准备模块、组学数据网络化构建模块、特征聚合及分类模块、置信度计算及增强模块、特征融合及分类模块、输出模块。

Description

一种基于图神经网络的多组学可信整合的分类模型及方法
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种基于图神经网络的多组学可信整合的分类模型及方法。
背景技术
随着医学研究的不断深入,组学数据(如基因组学、转录组学、蛋白组学、代谢组学等)为我们提供了宝贵的信息资源,帮助我们更好地理解疾病的发生、发展及治疗机制。这些数据尤其在复杂疾病,例如在阿尔兹海默症和癌症的诊断和治疗中,展现出巨大的价值。
随着高通量测序技术的迅速发展和成本的降低,越来越多的包含高质量组学数据的公共数据库被研发出来。因此,生物信息学领域的研究人员对组学数据的研究也从原来的仅仅使用单一组学数据发展到同时使用多种组学数据。同时,复杂疾病的分级以及分型作为一种复杂性状,都具有不同的临床、病理和分子特征,并且具有预后和治疗意义。因此,关于复杂疾病分级分型的研究对于精准医学和预后预测具有重要意义。很多相关方法是基于传统机器学习的,并且大多都是基于单组学数据的。而基于多组学数据整合的方法不多,并且其结果还有待提升。
例如,Wang等人[Wang T,Shao W,Huang Z,et al.MOGONET integrates multi-omics data using graph convolutional networks allowing patient classificationand biomarker identification[J].Nature Communications,2021,12(1):1-13.]提出了多组学图卷积网络(Multi-Omics Graph cOnvolutional NETworks,MOGONET)整合方法,用于生物医学分类。该方法可概括为三个部分:首先是对每种组学数据类型进行预处理和特征选择,然后通过GCN进行特定组学学习,最后通过VCDN进行多组学集成。它的优点是加入的VCDN模型可以更好地对数据分类,其实验结果也具有良好的可解释性。
再例如,Althubaiti等人[Althubaiti S,Kulmanov M,Liu Y,et al.DeepMOCCA:Apan-cancer prognostic model identifies personalized prognostic markersthrough graph attention and multi-omics data integration[J].bioRxiv,2021.]开发了一个用于多组学癌症分析的框架DeepMOCCA,该框架由图卷积神经网络和图注意力机制构成,能够预测33种癌症类型的样本的生存时间,优于大多数现有的方法,且图注意力机制能够用于识别患者中的驱动因素和预后标记,但其不足之处在于缺乏许多癌症的准确预后标记。
现有技术方案在针对提取组学表征信息和克服组学异质性上存在缺陷。从技术上讲,根据整合时机分类,多组学整合可分为早期整合、中期整合和后期整合三种不同类型。早期整合指先将数据集转换为单个基于特征的表或基于图的表示,然后采用原始或降维处理后的不同数据组合,最后输入机器学习模型得到预测结果。它的缺点是忽略了每种组学数据类型的独特分布,权重需要规范化,增加了输入数据的维度。而且,当整合的组学种类增加时,整合的效果往往会下降。中期整合是指保留数据集的数据结构,并仅在分析阶段合并它们,是一种通过联合模型将其融合的算法,能够解决数据集多样性问题。该方法的缺点是对特征的预处理要求较高,既要限制数量防止维度爆炸,还要满足能够表达组学数据的特点的需要。后期整合指先让每个组学数据类型分别学习特征,形成多个第一级训练模型,然后将第一级训练得到的特征整合,用作分类器或回归器的输入。它的缺点是可靠性低,仅将每种组学的预测结果整合,挖掘能整合的特征开销大,而且没有利用组学之间的互补信息。
因此,本领域需要研究一种基于图神经网络的多组学数据整合的深度学习算法来实现对复杂疾病分化度和亚型分类的预测。
此外,一方面由于对本领域技术人员的理解存在差异;另一方面由于申请人做出本发明时研究了大量文献和专利,但篇幅所限并未详细罗列所有的细节与内容,然而这绝非本发明不具备这些现有技术的特征,相反本发明已经具备现有技术的所有特征,而且申请人保留在背景技术中增加相关现有技术之权利。
发明内容
针对现有技术之不足,本发明旨在提供一种基于图神经网络的多组学可信整合的分类模型及方法,以利用复杂疾病(阿尔兹海默症和癌症等)的多组学数据(包括mRNA组学、甲基化组学、miRNA组学)得到所述目标对象的医学分析结果(病程分级和疾病亚型)。传统的统计学方法在处理组学数据时需要大量的人工干预,难以为疾病提供明确的分类或分型。此外,现有的机器学习方法虽然可以筛选出与疾病相关的生物标志物,但其预测结果缺乏解释性,且预测精度有待提高。
现有技术产生上述问题的原因主要有如下三点:
(1)组学数据具有各自的特点:
多组学整合分析需要用到多种组学的数据集,如,代谢组、转录组、基因组等组学数据。这些数据结构不同,数据类型也不同。这种特点使得在整合过程中,各种组学会彼此干扰,影响整合的效果,从而影响最终的任务目标。
(2)算法模型:
组学数据具有高维度、多噪音、数据稀疏、异质性的特点以及实验中存在数据集不平衡的问题,其都会影响模型预测的精度。因此,要将不同的、复杂的且大规模的组学数据进行整合,对算法模型和计算平台的分析能力提出了较高要求。早期和中期整合策略确实可通过预先整合所有数据集来解决这个问题,但是早期整合产生的大矩阵很难被大多数机器学习模型利用,而中间整合通常依赖于无监督矩阵分解,难以合并相当大数量的预先存在的生物学知识。现有的组学数据整合分析方法和算法模型已获得一定的成功,但多是将各组学数据独立分析后,再将结果进行整合,其整合分析能力有限。
(3)特征提取能力:
传统整合方法往往直接将预处理后的特征输入模型,这种操作并不能很好地提取组学数据的隐藏信息。而利用组学的天然拓扑属性,能够更进一步地提取组学数据的隐藏信息,有利于后续的整合操作。
为了整合多组学数据,现有技术已经出现通过使用集成学习等方法将各类机器学习的优势进行集成来实现数据准确选取的技术方案。例如,公开号为CN115565610A的专利文献公开了一种基于多组学数据的复发转移分析模型建立方法及系统,该方法对来自不同组学的数据源进行归一化处理、比较分析,建立不同组间数据的关系,获取多组学数据,并对所述多组学数据中的组学特征数据进行提取;利用主成分分析法对所述组学特征数据进行降维处理;对降维处理后的所述组学特征数据进行数据增强,使得所述组学特征数据符合样本量要求;基于符合样本量要求的所述组学特征数据,采用集成学习算法构建复发转移分析模型。该技术方案通过对多组学数据进行系统化的组学特征数据的选择和降维处理,能够有效利用和筛选不同组学的数据,以对进行复发转移分析模型建立的多组学数据进行质量控制,最终综合多种经典机器学习模型,提高了复发转移分析模型的准确性。然而,该技术方案中首先需要将所有不同组学的数据源进行归一化处理,此种处理方式忽略了不同组学数据中异常值对归一化后的数据的影响,进而无法对不同组学数据中关键数据对整体效果的影响的评估,无法确保归一化的稳定性和准确性。相反地,本发明首先对不同组学数据进行分开处理,以提取出不同的组学特征,从而确保不同组学数据分析的准确性,同时也能够避免不同组学数据间的相互干扰。
因此,针对多组学整合技术在对复杂疾病进行预测分类时,无法克服组学异质性从而影响整合效果的问题,本发明提出了一种基于图神经网络的多组学可信整合的分类模型及方法,将图神经网络和可信机制结合,进行多组学整合,从而实现预测分类。
第一方面,本发明公开了一种基于图神经网络的多组学可信整合的分类方法,其包括:
针对一个样本,准备该样本的组学数据;
构建每种组学数据的特异性网络;
对组学特异性网络进行聚合更新,并对提取的组学特征进行降维和分类,产生每种组学的初始分类;
计算每种组学的置信度,并对聚合后的特征进行增强;
融合多种组学的置信增强特征,产生最终的分类结果;
输出目标对象的医学分析结果。
与上述现有技术相比,本发明能够对组学特异性网络进行聚合更新,计算每种组学的置信度,并对聚合后的特征进行增强,融合多种组学的置信增强特征,产生最终的分类结果。基于上述区别技术特征,本发明要解决的问题可以包括:如何提高融合多种组学数据医学分析结果的准确性。现有技术已经出现通过基于图神经网络模型来对多组学数据进行聚类分析的技术方案。例如,公开号为CN113392894A的专利文献公开了一种多组学数据的聚类分析方法和系统,通过采用神经网络对MR影像信息进行分割,根据各部分分割信息,提取高通量影像超参数;对临床数据、人口学数据和实验室检查数据进行处理,生成不同维度的向量表示;将高通量影像数据和不同维度的向量表示进行多源数据融合,得到融合后的多源异构数据;构建多源异构数据集,通过训练并测试多源图聚类模型,得到最优模型;将MR影像信息输入到所述最优模型中,分析不同类别差异性和同一类别相似性。该技术方案采用图结构的方式,直观表达数据之间的关联情况,捕捉不同的特征,该模型具有良好的鲁棒性,从而实现基于图神经网络模型的高效聚类算法。然而,该技术方案中的神经网络主要用于将MR影响信息进行分割,相当于将单一组学数据进行信息分割以获得能够自动生成定量定位的超参数,为多源异构数据提供高通量影像数据。也即是说,该技术方案的神经网络是为了从不同组学数据中获得更细节的数据信息,这与本发明的图神经网络处理方向完全相反。具体地,本发明使用图神经网络对每种组学数据进行聚合更新,进而通过神经网络得到初始分类结果,再通过主观逻辑得到不确定度,最后通过证据融合理论得到最终分类结果,以从每种组学中提取更多的隐藏信息,从而提高对复杂疾病的病程进行分级和疾病亚型进行预测分类的准确性。上述现有技术中的处理方式均与本发明的处理方法完全相反,提供了与本发明完全相反的技术启示,本领域技术人员基于此,也不会将上述技术方案或其结合的技术方案作为本发明技术方案的基础。
根据一种优选实施方式,所准备的样本的组学数据包含多种组学,每种组学由若干个经过预处理筛选的特征组成。
根据一种优选实施方式,在构建每种组学数据的特异性网络时通过加权基因共表达网络分析构建组学信息网络,并利用拓扑特征来构建组学数据的图网络,以实现表达数据和图网络的结合。与上述现有技术相比,本发明能够实现表达数据和图网络的结合。基于上述区别技术特征,本发明要解决的问题可以包括:如何构建组学数据的图网络。具体地,本发明通过加权基因共表达网络分析来构建组学信息网络,并利用拓扑特征来构建组学数据的图网络,通过上述表达数据和图网络的结合能够产生更好的分类性能和更具有可解释性的生物标志物。
根据一种优选实施方式,对于每种类型的组学数据,初始共表达图网络将被输入到图注意力神经网络层以实现对特征的加权和聚合,并通过包含输入层、输出层和3个中间层的神经网络完成各组学的初始分类。
根据一种优选实施方式,在对组学特异性网络进行聚合更新时,利用多头注意力机制来稳定自我注意力的学习过程和/或利用多级图特征完全融合方法来利用内部特征之间的关系促进分子模块的信息聚合。
根据一种优选实施方式,在计算每种组学的置信度,并对聚合后的特征进行增强时,采用真实类概率置信度标准来为各种组学获得预测置信度,其中,对于第m个组学数据集,引入一个具有参数θ(m)的置信度神经网络,以用于在训练数据上估计真实类概率(TCP)置信度。进一步地,m为组学的种类,θ(m)为第m类组学估计生成的真实类概率置信度。与上述现有技术相比,本发明采用了一种可信的策略来评估和自适应调整与每种类型的组学数据相关联的预测置信度。基于上述区别技术特征,本发明要解决的问题可以包括:如何获得更可靠的预测置信度。具体地,传统的置信度推断方法是最大类概率,该方式预测类别的置信度MCP即为最高的softmax概率,进而导致了对不正确预测的过度自信。为了解决这个问题,本发明提出了真实类概率(TCP)置信度标准,旨在分别为错误和成功的预测分配低和高置信度。因此,本发明的模型中通过采用TCP标准来为各种组学获得更可靠的预测置信度。
根据一种优选实施方式,在融合多种组学的置信增强特征时采用联合后期混合集成技术,以利用组学级别的置信度机制来调节不同组学数据集之间的跨组学融合的贡献,从而解决跨组学分析的复杂性。
第二方面,本发明公开了一种基于图神经网络的多组学可信整合的分类模型,其包括:
多组学数据准备模块,用于针对一个样本,准备该样本的组学数据;
组学数据网络化构建模块,用于构建每种组学数据的特异性网络;
特征聚合及分类模块,用于对组学特异性网络进行聚合更新,并对提取的组学特征进行降维和分类,产生每种组学的初始分类;
置信度计算及增强模块,用于计算每种组学的置信度,并对聚合后的特征进行增强;
特征融合及分类模块,用于融合多种组学的置信增强特征,产生最终的分类结果;
输出模块,用于输出目标对象的医学分析结果。
第三方面,本发明公开了一种电子设备,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,该处理器执行程序时能够实现上述方法的步骤。
第四方面,本发明公开了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时能够实现上述方法的步骤。
本发明采取后期整合的框架,进行端到端的图分类任务,利用图神经网络和可信机制的结合优势,实现高准确度的分类预测。具体在于,使用图神经网络对每种组学数据进行聚合更新,进而通过神经网络得到初始分类结果,再通过主观逻辑得到不确定度,最后通过证据融合理论得到最终分类结果。使得在应用本发明时,能够从每种组学中提取更多的隐藏信息,并通过决策层面的整合,克服组学间的互相干扰,以实现更好的整合效果,从而提高对复杂疾病(阿尔兹海默症和癌症等)的病程进行分级和疾病亚型进行预测分类的任务指标,其中,该任务指标包括准确度、F1值、AUC。进一步地,F1值是精确率和召回率的调和平均数,它可以用来衡量模型在保持精确率和召回率之间的平衡时的性能。
附图说明
图1是本发明提供的一种优选实施方式的分类模型的结构及流程示意图。
附图标记列表
10:多组学数据准备模块;20:组学数据网络化构建模块;30:特征聚合及分类模块;40:置信度计算及增强模块;50:特征融合及分类模块;60:输出模块。
具体实施方式
下面结合附图进行详细说明。
图1示出了本发明提供的一种优选实施方式的分类模型的结构及流程示意图。
根据一种优选实施方式,本发明公开了一种基于图神经网络的多组学可信整合的分类方法,其包括:
针对一个样本,准备该样本的组学数据;
构建每种组学数据的特异性网络;
对组学特异性网络进行聚合更新,并对提取的组学特征进行降维和分类,产生每种组学的初始分类;
计算每种组学的置信度,并对聚合后的特征进行增强;
融合多种组学的置信增强特征,产生最终的分类结果;
输出目标对象的医学分析结果。
优选地,本发明所针对的样本通常为复杂疾病患者,所准备的组学数据包括组学1、组学2、组学3等。每种组学由若干个特征组成,在输入模型之前,特征通常经过预处理进行筛选,并缩放至0~1之间。
优选地,在构建每种组学数据的特异性网络时,可以执行如下步骤:
通过加权基因共表达网络分析(Weighted correlation network analysis,WGCNA)构建组学信息网络,利用拓扑特征来构建组学数据的图网络,这种表达数据和图网络的结合能够产生更好的分类性能和更具有可解释性的生物标志物。
对于每个患者,初始共表达图网络可以由如下公式表示:
G0=G(VK×1,EK×K),
其中,G为图网络,V为图网络的节点集合,E为图网络的边,K为特征数,VK×1表示节点的特征,EK×K表示边缘矩阵。
基于WGCNA分析的共表达式计算来计算边缘矩阵EK×K。WGCNA由R包“WGCNA”执行。具体而言,对于一个样本,生成维度1×K向量。K表示特征的数量。对于属于同一类组学数据的N个样本,生成一个矩阵N×K来计算共表达矩阵AK×K,N为样本数。节点νi和节点νj之间的相关性计算的共表达矩阵Aij如下:
其中,和/>是节点νi和νj的平均特征,β表示WGCNA的软阈值。
通过以下步骤对矩阵进行二值化,从矩阵AK×K中生成边缘矩阵EK×K
优选地,在本发明中,对矩阵进行二值化的阈值设定为0.08。
优选地,在对组学特异性网络进行聚合更新并对提取的组学特征进行降维和分类时,可以通过图注意力神经网络(或称之为图神经网络)和神经网络完成初始分类。对于每种类型的组学数据,初始共表达图网络将被输入到图注意力神经网络(GAT)层。图注意力神经网络是将注意力机制与图卷积相结合,其计算过程包括以下两个步骤:
首先,计算关注系数参数。对于节点i,其自身与其邻居之间的相似系数计算如下:
eij=a([Whi||Whj]),j∈Ni
节点特征的增强是通过共享参数W的线性映射向节点特征添加维度,节点i和j的变换特征由[Whi||Whj]拼接。连接的高维特征映射到实数,关注系数归一化如下:
其中,eij为节点之间的相似系数;
其次,根据计算出的关注系数对特征进行加权和聚合,如下所示:
h′i=σ(∑j∈NαijWhj),
其中,hi′表示GAT层为每个节点i输出的生成特征。
优选地,为了稳定自我注意力的学习过程,本发明采用了多头注意力机制。也就是说,GAT层的操作被独立复制为T次,每个副本具有不同的参数,并且输出是通过如下拼接进行特征聚合的:
其中,||表示特征串联,αij t表示由第t个副本导出的关注系数,Wt表示第t个副本的线性变换的权重矩阵。
进一步地,为了利用内部特征之间的关系,本发明应用了多级图特征完全融合方法。除了对节点级别的分子特征进行聚合之外,还利用该方法促进分子模块的信息聚合。具体来说,通过在G0上应用多头GAT层来生成高级图G1,并以类似的方式从G1派生出G2。之后,来自三个级别的图嵌入被串联在一起,生成更丰富的多级表示。这些表示随后被输入到全连接层中,以产生特定于组学的嵌入,记为FGAT。与此同时,对于每种组学类型,GAT分类器被训练以将组学内部信息纳入预测中:
其中,LCE是交叉熵损失函数,N是训练样本数量,yi是真实标签,是第m个组学数据的预测标签。
优选地,在本发明中,神经网络的全连接层除输入层和输出层外,设置有3个中间层,其中,输入层个数和多种组学的特征数的总和相等,最后的输出层个数和种类数目相等。
优选地,多组学数据之间的固有异质性以及来自数据采集和存储条件差异等外部影响给数据集成带来了重大挑战。因此,除了提高每种组学数据的预测能力之外,本发明还采用了一种可信的策略来评估和自适应调整与每种类型的组学数据相关联的预测置信度。
传统的置信度推断方法是最大类概率(MCP)。对于组学m,给定输入特征矩阵X(m),分类器可以被解释为一个概率模型。利用softmax函数,它为每个类别k=1,…,K分配预测概率分布P(Y|X(m))。随后,可以推断出预测类别为:
可以观察到,MCP选择了最高的softmax概率,导致了对不正确预测的过度自信。
为了解决这个问题,本发明提出了真实类概率(TCP)置信度标准,旨在分别为错误和成功的预测分配低和高置信度。在本发明的模型中采用TCP标准来为各种组学获得更可靠的预测置信度:
TCP(X,y*)=P(Y=y*∣X),
其中,y*是真实标签向量,其中,P(Y=y*|X)为softmax函数计算的真实标签的概率。公式显示,当样本被正确分类时,TCP和MCP是相等的,而对于被错误分类的样本,前者产生较低的值。
然而,由于测试集上没有真实标签的可用性,无法直接估计TCP置信度。因此,对于第m个组学数据集,引入一个具有参数θ(m)的置信度神经网络,以用于在训练数据上估计TCP置信度:
具体来说,使用L2损失来训练置信度网络:
其中,LCls (m)是特定于组学的分类器的交叉熵损失。
总之,本发明在丰富的GAT层表示之上构建了一个特定于组学的分类器和一个置信度神经网络,并为每种组学数据类型生成了置信度分数。
优选地,多级别GAT生成的增强互动性和信息性增加了异质性,使跨组学分析变得更加复杂。为了解决这些复杂性,本发明采用了一种联合后期混合集成技术,利用组学级别的置信度机制来调节不同组学数据集之间的跨组学融合的贡献。
优选地,GAT编码的特定于组学的表示FGAT (m)被转化为组学信息度,表示为认知级别特征:
进一步地,本发明引入了一种选择性注意力机制来生成更具有区分性的特征:
其中,σ表示激活函数,FCog (m)表示认知级别特征,FCog_att (m)表示选择性注意力机制的认知级别特征。这个机制不仅强调显著的特征,还减少了非信息性属性的影响,专注于活跃信息。
进一步地,来自多组学的特征被连接起来进行最终分类。总体而言,总损失可以表示为:
其中,λg和λc表示用于调整不同损失的超参数,λg是调节特征聚合更新模块贡献的超参数,λc是调节置信增强模块贡献的超参数,LGAT (m)是GAT编码的特定于组学的表示,LFinal是最终分类的交叉熵损失。优选地,在本发明中可将超参数λg和λc都设置为1。
优选地,经过上述步骤可得到目标对象的医学分析结果。
根据一种优选实施方式,本发明公开了一种基于图神经网络的多组学可信整合的分类模型,也可以是一种基于图神经网络的多组学可信整合的分类装置,其包括:
多组学数据准备模块10,用于针对一个样本,准备该样本的组学数据;
组学数据网络化构建模块20,用于构建每种组学数据的特异性网络;
特征聚合及分类模块30,用于对组学特异性网络进行聚合更新,并对提取的组学特征进行降维和分类,产生每种组学的初始分类;
置信度计算及增强模块40,用于计算每种组学的置信度,并对聚合后的特征进行增强;
特征融合及分类模块50,用于融合多种组学的置信增强特征,产生最终的分类结果;
输出模块60,用于输出目标对象的医学分析结果。
优选地,多组学数据准备模块10所针对的样本通常为复杂疾病患者,所准备的组学数据包括组学1、组学2、组学3等。每种组学由若干个特征组成,在输入模型之前,特征通常经过预处理进行筛选,并缩放至0~1之间。
优选地,组学数据网络化构建模块20可包含多个特征网络化模块,以构建多种组学数据的特异性网络,从而得到各组学的网络化特征。
优选地,组学数据网络化构建模块20可通过加权基因共表达网络分析(Weightedcorrelation network analysis,WGCNA)构建组学信息网络,利用拓扑特征来构建组学数据的图网络,这种表达数据和图网络的结合能够产生更好的分类性能和更具有可解释性的生物标志物。
对于每个患者,初始共表达图网络可以由如下公式表示:
G0=G(VK×1,EK×K),
其中,VK×1表示节点的特征,EK×K表示边缘矩阵。
基于WGCNA分析的共表达式计算来计算边缘矩阵EK×K。WGCNA由R包“WGCNA”执行。具体而言,对于一个样本,生成维度1×K向量。K表示特征的数量。对于属于同一类组学数据的N个样本,生成一个矩阵N×K来计算共表达矩阵AK×K。节点νi和节点νj之间的相关性计算Aij如下:
其中,和/>是节点νi和νj的平均特征,β表示WGCNA自动计算的软阈值。
通过以下步骤对矩阵进行二值化,从矩阵AK×K中生成边缘矩阵EK×K
优选地,在本发明中,对矩阵进行二值化的阈值设定为0.08。
优选地,特征聚合及分类模块30可包括用于对组学特异性网络进行聚合更新的图神经网络特征聚合模块和用于对提取的组学特征进行降维和分类,以产生每种组学的初始分类的概率分布的神经网络分类模块,其中,该神经网络分类模块可以是神经网络初始分类模块。
优选地,特征聚合及分类模块30在对组学特异性网络进行聚合更新并对提取的组学特征进行降维和分类时,可以通过图注意力神经网络和神经网络完成初始分类。对于每种类型的组学数据,初始共表达图网络将被输入到图注意力神经网络(GAT)层。图注意力神经网络是将注意力机制与图卷积相结合,其计算过程包括以下两个步骤:
首先,计算关注系数参数。对于节点i,其自身与其邻居之间的相似系数计算如下:
eij=a([Whi||Whj]),j∈Ni
节点特征的增强是通过共享参数W的线性映射向节点特征添加维度,节点i和j的变换特征由[Whi||Whj]拼接。连接的高维特征映射到实数,关注系数归一化如下:
其次,根据计算出的关注系数对特征进行加权和聚合,如下所示:
h′i=σ(∑j∈NαijWhj),
其中,hi′表示GAT层为每个节点i输出的生成特征。
优选地,为了稳定自我注意力的学习过程,本发明的图神经网络特征聚合模块采用了多头注意力机制。也就是说,GAT层的操作被独立复制为T次,每个副本具有不同的参数,并且输出是通过如下拼接进行特征聚合的:
其中,||表示特征串联,αij t表示由第t个副本导出的关注系数,Wt表示第t个副本的线性变换的权重矩阵。
进一步地,为了利用内部特征之间的关系,本发明的图神经网络特征聚合模块应用了多级图特征完全融合方法。除了对节点级别的分子特征进行聚合之外,还利用该方法促进分子模块的信息聚合。具体来说,通过在G0上应用多头GAT层来生成高级图G1,并以类似的方式从G1派生出G2。之后,来自三个级别的图嵌入被串联在一起,生成更丰富的多级表示。这些表示随后被输入到全连接层中,以产生特定于组学的嵌入,记为FGAT。与此同时,对于每种组学类型,GAT分类器被训练以将组学内部信息纳入预测中:
其中,LCE是交叉熵损失函数,N是训练样本数量,yi是真实标签,是第m个组学数据的预测标签。
优选地,在本发明中,神经网络分类模块的全连接层除输入层和输出层外,设置有3个中间层,其中,输入层个数和多种组学的特征数的总和相等,最后的输出层个数和种类数目相等。
优选地,置信度计算及增强模块40可包括多个真实概率置信度增强模块,以计算每种组学的置信度,并对聚合后的特征进行增强。
多组学数据之间的固有异质性以及来自数据采集和存储条件差异等外部影响给数据集成带来了重大挑战。因此,除了提高每种组学数据的预测能力之外,本发明的置信度计算及增强模块40还采用了一种可信的策略来评估和自适应调整与每种类型的组学数据相关联的预测置信度。
传统的置信度推断方法是最大类概率(MCP)。对于组学m,给定输入特征矩阵X(m),分类器可以被解释为一个概率模型。利用softmax函数,它为每个类别k=1,…,K分配预测概率分布P(Y|X(m))。随后,可以推断出预测类别为:
可以观察到,预测类别的置信度MCP即为最高的softmax概率,导致了对不正确预测的过度自信。
为了解决这个问题,本发明提出了真实类概率(TCP)置信度标准,旨在分别为错误和成功的预测分配低和高置信度。在本发明的模型中采用TCP标准来为各种组学获得更可靠的预测置信度:
TCP(X,y*)=P(Y=y*∣X),
其中,y*是真实标签向量。公式显示,当样本被正确分类时,TCP和MCP是相等的,而对于被错误分类的样本,前者产生较低的值。
然而,由于测试集上没有真实标签的可用性,无法直接估计TCP置信度。因此,对于第m个组学数据集,引入一个具有参数θ(m)的置信度神经网络,以用于在训练数据上估计TCP置信度:
具体来说,使用L2损失来训练置信度网络:
其中,LCls (m)是特定于组学的分类器的交叉熵损失。
总之,真实概率置信度增强模块在丰富的GAT层表示之上构建了一个特定于组学的分类器和一个置信度神经网络,并为每种组学数据类型生成了置信度分数。
优选地,能够融合多种组学的置信增强特征的特征融合及分类模块50可包含多特征融合模块和神经网络分类模块。
多级别GAT生成的增强互动性和信息性增加了异质性,使跨组学分析变得更加复杂。为了解决这些复杂性,本发明的特征融合及分类模块50采用了一种联合后期混合集成技术,利用组学级别的置信度机制来调节不同组学数据集之间的跨组学融合的贡献。
优选地,GAT编码的特定于组学的表示FGAT (m)被转化为组学信息度,表示为认知级别特征:
进一步地,本发明的特征融合及分类模块50引入了一种选择性注意机制来生成更具有区分性的特征:
其中,σ表示注意激活函数。这个机制不仅强调显著的特征,还减少了非信息性属性的影响,专注于活跃信息。
进一步地,来自多组学的特征被连接起来进行最终分类。总体而言,总损失可以表示为:
其中,λg和λc表示用于调整不同损失的超参数,LFinal是最终分类的交叉熵损失。优选地,在本发明中可将超参数λg和λc都设置为1。
优选地,样本最终类别概率分布可作为目标对象的医学分析结果被输出模块60输出。
示例性地,针对阿尔兹海默症患者进行了一系列的组学数据收集,包括mRNA组学、甲基化组学、miRNA组学,并通过使用本发明的分类方法和/或分类模型来利用这些数据,以实现对患者的疾病亚型进行精确分类。
优选地,本发明所进行的实验遵循与Mogonet相同的实验设置和评估指标,以便公正地比较本发明的模型与现有技术的模型。为了评估性能可选取四个基准数据集,并对其应用六种传统的单组学分类器(KNN、SVM、Lasso、随机森林(RF)、XGboost和全连接神经网络(NN))和两种先进的方法(Mogonet和Dynamics)。
优选地,所用的实验数据集包含:
ROSMAP for Alzheimer's disease(AD):ROSMAP数据集专为阿尔茨海默病(AD)分类而设计。阿尔茨海默病是一种逐渐进展的神经退行性疾病,会导致记忆丧失和其他认知功能障碍。
BRCA for PAM50-defined breast cancer subtype:BRCA数据集用于PAM50定义的乳腺癌亚型分类。PAM50是一个基于50个基因的测试,用于确定乳腺癌的亚型,以便为患者提供更具针对性的治疗建议。
LGG for low-grade glioma(LGG)grade 2vs.grade 3classification:LGG数据集专为低级胶质瘤(LGG)的2级和3级分类而设计。胶质瘤是发生在脑部或脊髓的肿瘤,分为多个等级,其中,2级和3级的诊断和治疗策略有所不同。
KIPAN for renal cell carcinoma subtype classification:KIPAN数据集用于肾细胞癌亚型分类。肾细胞癌是一种起源于肾脏的癌症,有多个亚型,每种亚型的生物学特性和治疗响应都有所不同。
优选地,所用的评估指标包含:
二元分类:准确率(ACC)、F1分数(F1)和受试者工作特征曲线下面积(AUC);
多类分类:ACC、加权平均F1分数(F1-weighted)和宏平均F1分数(F1-macro)。
优选地,实验结果如表1和表2所示,本发明的基于图神经网络的多组学整合技术在多种评估指标上均展现出卓越的性能,无论是在二元还是多类分类任务中,其不仅成功克服了组学异质性的问题,还大大提高了预测的准确性。与现有的先进方法相比,本发明的模型在部分关键指标上实现了显著的提升,这充分证明了其在医疗数据分类中的实用价值。此外,这种技术为每一种组学数据提供了独特的权重,进一步增强了预测的可靠性。通过这种方法可成功地为每位患者提供精确的疾病亚型分类,为后续的个性化治疗提供了有力的指导。
表1在ROSMAP和BRCA数据集上与其他方法的比较结果
表2在LGG和KIPAN数据集上与其他方法的比较结果
根据一种优选实施方式,本发明公开了一种电子设备,其包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,处理器执行程序时能够实现如上述方法的步骤。
根据一种优选实施方式,本发明公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时能够实现如上述方法的步骤。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。本发明说明书包含多项发明构思,诸如“优选地”“根据一种优选实施方式”或“可选地”均表示相应段落公开了一个独立的构思,申请人保留根据每项发明构思提出分案申请的权利。在全文中,“优选地”所引导的特征仅为一种可选方式,不应理解为必须设置,故此申请人保留随时放弃或删除相关优选特征之权利。

Claims (10)

1.一种基于图神经网络的多组学可信整合的分类方法,其特征在于,其包括:
针对一个样本,准备该样本的组学数据;
构建每种组学数据的特异性网络;
对组学特异性网络进行聚合更新,并对提取的组学特征进行降维和分类,产生每种组学的初始分类;
计算每种组学的置信度,并对聚合后的特征进行增强;
融合多种组学的置信增强特征,产生最终的分类结果;
输出目标对象的医学分析结果。
2.根据权利要求1所述的分类方法,其特征在于,所准备的样本的组学数据包含多种组学,每种组学由若干个经过预处理筛选的特征组成。
3.根据权利要求1或2所述的分类方法,其特征在于,在构建每种组学数据的特异性网络时通过加权基因共表达网络分析构建组学信息网络,并利用拓扑特征来构建组学数据的图网络,以实现表达数据和图网络的结合。
4.根据权利要求1~3任一项所述的分类方法,其特征在于,对于每种类型的组学数据,初始共表达图网络将被输入到图注意力神经网络层以实现对特征的加权和聚合,并通过包含输入层、输出层和3个中间层的神经网络完成各组学的初始分类。
5.根据权利要求1~4任一项所述的分类方法,其特征在于,在对组学特异性网络进行聚合更新时,利用多头注意力机制来稳定自我注意力的学习过程和/或利用多级图特征完全融合方法来利用内部特征之间的关系促进分子模块的信息聚合。
6.根据权利要求1~5任一项所述的分类方法,其特征在于,在计算每种组学的置信度,并对聚合后的特征进行增强时,采用真实类概率置信度标准来为各种组学获得预测置信度,其中,对于第m个组学数据集,引入一个具有参数θ(m)的置信度神经网络,以用于在训练数据上估计真实类概率置信度。
7.根据权利要求1~6任一项所述的分类方法,其特征在于,在融合多种组学的置信增强特征时采用联合后期混合集成技术,以利用组学级别的置信度机制来调节不同组学数据集之间的跨组学融合的贡献,从而解决跨组学分析的复杂性。
8.一种基于图神经网络的多组学可信整合的分类模型,其特征在于,其包括:
多组学数据准备模块(10),用于针对一个样本,准备该样本的组学数据;
组学数据网络化构建模块(20),用于构建每种组学数据的特异性网络;
特征聚合及分类模块(30),用于对组学特异性网络进行聚合更新,并对提取的组学特征进行降维和分类,产生每种组学的初始分类;
置信度计算及增强模块(40),用于计算每种组学的置信度,并对聚合后的特征进行增强;
特征融合及分类模块(50),用于融合多种组学的置信增强特征,产生最终的分类结果;
输出模块(60),用于输出目标对象的医学分析结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于,所述处理器执行程序时能够实现如权利要求1~7中任一项的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时能够实现如权利要求1~7中任一项的方法的步骤。
CN202311702871.3A 2023-10-20 2023-12-12 一种基于图神经网络的多组学可信整合的分类模型及方法 Pending CN117637035A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2023113667101 2023-10-20
CN202311366710 2023-10-20

Publications (1)

Publication Number Publication Date
CN117637035A true CN117637035A (zh) 2024-03-01

Family

ID=90018174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311702871.3A Pending CN117637035A (zh) 2023-10-20 2023-12-12 一种基于图神经网络的多组学可信整合的分类模型及方法

Country Status (1)

Country Link
CN (1) CN117637035A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118352007A (zh) * 2024-04-30 2024-07-16 中国人民解放军总医院第一医学中心 一种基于人群队列多组学数据的疾病数据分析方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118352007A (zh) * 2024-04-30 2024-07-16 中国人民解放军总医院第一医学中心 一种基于人群队列多组学数据的疾病数据分析方法及系统

Similar Documents

Publication Publication Date Title
CN111126488B (zh) 一种基于双重注意力的图像识别方法
Singh et al. Artificial intelligence based medical decision support system for early and accurate breast cancer prediction
CN111126482B (zh) 一种基于多分类器级联模型的遥感影像自动分类方法
CN113393911B (zh) 一种基于深度学习的配体化合物快速预筛选方法
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
CN113113130A (zh) 一种肿瘤个体化诊疗方案推荐方法
CN117637035A (zh) 一种基于图神经网络的多组学可信整合的分类模型及方法
CN115985503B (zh) 基于集成学习的癌症预测系统
CN116226629B (zh) 一种基于特征贡献的多模型特征选择方法及系统
CN117611932B (zh) 基于双重伪标签细化和样本重加权的图像分类方法及系统
CN101923604A (zh) 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
Karim et al. Prognostically relevant subtypes and survival prediction for breast cancer based on multimodal genomics data
Valdebenito et al. Machine learning approaches to study glioblastoma: A review of the last decade of applications
CN114420201A (zh) 一种多源数据高效融合的药物靶标相互作用的预测方法
Tamilmani et al. Cancer MiRNA biomarker classification based on improved generative adversarial network optimized with Mayfly optimization algorithm
CN105046323A (zh) 一种正则化rbf网络多标签分类方法
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
CN117994587A (zh) 一种基于深度学习两阶段推理网络的病理图像分类方法
Arowolo et al. Enhanced dimensionality reduction methods for classifying malaria vector dataset using decision tree
CN117371511A (zh) 图像分类模型的训练方法、装置、设备及存储介质
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
WO2023134296A1 (zh) 分类预测方法, 装置, 设备, 存储介质及计算机程序产品
CN108304546B (zh) 一种基于内容相似度和Softmax分类器的医学图像检索方法
CN114999566B (zh) 基于词向量表征和注意力机制的药物重定位方法及系统
CN115662504A (zh) 一种基于多角度融合的生物组学数据分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination