Nothing Special   »   [go: up one dir, main page]

CN118335206B - 一种基于泛癌多组学数据的无监督特征选择方法 - Google Patents

一种基于泛癌多组学数据的无监督特征选择方法 Download PDF

Info

Publication number
CN118335206B
CN118335206B CN202410732519.2A CN202410732519A CN118335206B CN 118335206 B CN118335206 B CN 118335206B CN 202410732519 A CN202410732519 A CN 202410732519A CN 118335206 B CN118335206 B CN 118335206B
Authority
CN
China
Prior art keywords
feature
data
cancer
layer
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410732519.2A
Other languages
English (en)
Other versions
CN118335206A (zh
Inventor
赵龙
司呈坤
刘娇
谌兆晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202410732519.2A priority Critical patent/CN118335206B/zh
Publication of CN118335206A publication Critical patent/CN118335206A/zh
Application granted granted Critical
Publication of CN118335206B publication Critical patent/CN118335206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Epidemiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于泛癌多组学数据的无监督特征选择方法,属于生物信息学领域,包括选择数据集及数据预处理;通过改进的谱聚类算法对S1得到的数据进行聚类,得到特征子集A;构建深度自动编码器,将S1得到的数据输入深度自动编码器得到特征子集B;对于特征子集B中的每一个特征,与特征子集A中所有特征计算Pearson相关系数,Pearson相关系数最高的特征A m 作为结果,并在特征子集A中删除;评估最终得到的特征子集。本发明利用深度自动编码器指导的改进谱聚类无监督特征选择算法对未标记具体亚型的癌症样本做无监督特征选择,从中选择出对后续聚类分型有作用的重要基因特征,简化系统并提高亚型分类的准确性和可靠性。

Description

一种基于泛癌多组学数据的无监督特征选择方法
技术领域
本发明涉及一种基于泛癌多组学数据的无监督特征选择方法,属于生物信息学技术领域。
背景技术
癌症是全世界最主要的公共健康问题,是当今最致命的疾病之一。癌症的异质性归因于癌细胞的基因组学、转录组学、甲基化数据和蛋白质组学等组学数据特征的差异。可根据组学数据特征的差异将同一癌症划分为不同的亚型。在精准医疗的时代,准确识别癌症的亚型变得尤为重要。在分子水平上而非根据病理学特征,可以更细致地研究癌症,旨在早期识别癌症的亚型,以便进行更好的治疗和预后。
近年来,随着高通量组学数据的快速发展,有很多学者研究癌症亚型分型的问题。JiYoon Park等人确定了单组学数据分析中基因特征选择和亚型识别方法的最佳组合。然而,传统的单一组学研究往往难以全面揭示癌症的多样性和亚型差异,从而限制了对个性化治疗策略的理解和应用。因此,将多组学数据进行整合,深入分析癌症亚型的分子特征,已成为当前癌症研究领域的热门议题。
高通量组学数据的特征维度高但样本量较少、复杂度大,符合“大p小n”范式,其中,p是特征数,n是样本数。如何在高度冗余的基因特征中选择出最有利于癌症分型的生物标志物,成为了癌症研究的一个重要方向。Yuqi Lin等人提出了一种就组学数据的深度神经网络模型DeepMO来分类乳腺癌亚型。其中的关键一步就是特征选择。现有文献还提出了一种梯度提升深度特征选择算法来选择最佳低维特征子集,以提高胃癌亚型分类的准确性。
以上现有的特征选择算法都建立在已知癌症样本亚型分类的基础上或者是依赖聚类所得的亚型伪标签。因此,对未标记具体亚型的癌症样本做无监督特征选择显得尤为重要。
发明内容
为了解决现有技术的不足,本发明提供一种基于泛癌多组学数据的无监督特征选择方法,利用深度自动编码器指导的改进谱聚类无监督特征选择算法对未标记具体亚型的癌症样本做无监督特征选择,从中选择出对后续聚类分型有作用的重要基因特征,简化系统并提高亚型分类的准确性和可靠性。
本发明的技术方案如下:
一种基于泛癌多组学数据的无监督特征选择方法,包括以下步骤:
S1:选择数据集及数据预处理;
S2:通过改进的谱聚类算法对S1得到的数据进行聚类,得到特征子集A
S3:构建深度自动编码器,将S1得到的数据输入深度自动编码器得到特征子集B
S4:对于特征子集B中的每一个特征B l ,将特征B l 与特征子集A中所有特征计算Pearson相关系数,选择与特征B l 的Pearson相关系数最高的特征A m 作为结果,放入最终的特征子集中,并在特征子集A中删除A m ,其中B l 表示特征子集B中的第l个特征,l取值为1~N的自然数,N为特征子集B的特征总数;A m 表示特征子集A中的第m个特征,m取值为1~M的自然数,M为特征子集A的特征总数;
S5:评估最终得到的特征子集。
优选的,步骤S1中,数据集选择癌症基因组图谱TCGA数据库中的5个癌症数据集,包括乳腺癌、肺癌、胃癌、食管癌和前列腺癌。
优选的,数据预处理的过程如下:
首先对数据标准化,将不同量纲的数据按比例缩放,使之转化到同一个特定的数值区间;缺失值填补和去重复值;
然后,对于每种具体的癌症,数据集包括转录组学数据、甲基化数据和临床数据,样本取三者的交集,即样本对齐。
优选的,步骤S2包括:
S21:构建相似度矩阵
首先计算样本每对特征之间的相似度,然后根据相似度构建相似度矩阵。
S22:计算拉普拉斯矩阵和特征向量
通过相似度矩阵计算得到拉普拉斯矩阵,然后对拉普拉斯矩阵进行特征值分解,得到对应的特征向量;选择前c个特征向量作为降维或特征选择的结果。
S23:对特征向量进行聚类
将选取的c个特征向量作为新的特征表示,应用聚类算法进行聚类,从而得到k 1个特征簇。
S24:按特征重要性得分排序
对每一特征簇按特征重要性得分从高到低排序,并选择前k 2个特征向量作为代表特征集,所有特征簇得到的代表特征集取并集,即得到特征子集A
优选的,步骤S24中,对于给定的数据集,其中n表示病例样本数,d表示基因特征维度,采用f表示特征向量,则数据集采用特征向量表示为;采用,…,,…表示n个样本,则数据集采用样本表示为,计算区分度
(1)
其中,表示第i个特征的标准差,表示基因特征i在第j个样本上的表达值。
计算特征独立性
(2)
其中,表示特征簇,表示特征间的Pearson相关系数,表示第k个特征的区分度;
特征间的Pearson相关系数为:
(3)
其中,表示的均值;表示的均值。
特征重要性得分为:
(4)
其中,表示权重因子一,取值为0.5。
优选的,步骤S3中,深度自动编码器包括编码器和解码器,用于特征提取从而得到原始高维特征的压缩表示;
编码器包括输入层、隐藏层A、10%的Dropout层A、隐藏层B、10%的Dropout层B以及编码层,其中输入层输入d个基因特征维度,隐藏层A为具有256个神经元的全连接层,激活函数为ReLU;隐藏层B为具有128个神经元的全连接层,激活函数为ReLU;编码层为具有u个神经元的全连接层,激活函数为ReLU;
解码器包括隐藏层C、10%的Dropout层C、隐藏层D、10%的Dropout层D以及重构层,其中隐藏层C为具有128个神经元的全连接层,激活函数为ReLU;隐藏层D为具有256个神经元的全连接层,激活函数为ReLU;重构层负责将压缩后的表示解码为原始的输入数据维度,其神经元个数与初始输入特征维度相同,激活函数为ReLU。
优选的,步骤S3中,编码器是一个非线性函数,将n个样本、d个特征维度的输入域D映射到一个较低维数为I的潜在空间Z,对应的,解码器是一个将样本从潜在空间Z重构到原始空间的函数;
编码器函数和解码器函数的定义如公式(5)、公式(6):
(5)
(6)
其中,潜在空间中的样本为为解码器重构样本,为编码器函数,为解码器函数;
在深度自动编码器训练时,损失函数为:
(7)
损失函数采用均方误差来量化,如公式(8):
(8)
分别表示初始数据和重构后的数据,分别表示
优选的,步骤S5中,通过加权聚类指数和生存分析验证方法共同评估最终得到的特征子集。
加权聚类指数的计算过程如下:
首先计算第i个数据点的轮廓系数,计算公式如下:
(9)
其中表示该点与同一特征簇中其他点的平均距离,表示该点与最近的不同特征簇中所有点的平均距离;
最终的轮廓系数是所有的平均值;
然后,计算Calinski-Harabasz指数,Calinski-Harabasz指数(方差比标准)通过比较特征簇的簇内方差与簇间的方差之间的关系来衡量聚类结果簇内的稠密度和簇间的分离度,Calinski-Harabasz指数的计算公式如下:
(10)
其中,是数据点总数,是特征簇的总数,是簇内总方差,是特征簇的簇间总方差;
根据最终的轮廓系数S和Calinski-Harabasz指数计算加权聚类指数,公式为:
(11)
其中,表示权重因子二,取值为0.5。
本发明未详尽之处,均可参见现有技术。
本发明的有益效果为:
1、本发明通过深度自动编码器提取特征后,对改进的谱聚类算法聚类后的特征子集A进行指导,融合了自动编码器和改进谱聚类无监督特征选择算法对未标记具体亚型的癌症样本做无监督特征选择,从中选择出对后续聚类分型有作用的重要基因特征,简化系统并极大提高亚型分类的准确性和可靠性。
2、本发明中改进的谱聚类算法提出了特征重要性的概念,并进行降序排序,选择每个特征簇前的k 2个特征,改进后的谱聚类算法使其能够更好地捕捉数据集样本中特征之间的关系,鲁棒性更好。
3、本发明综合了加权聚类指数和生存分析验证方法进行结果评估,可从多方面评估算法的有效性,解决了现有无监督学习中重要特征评价标准模糊的问题。
4、本发明整合了多组学数据,解决了基于单一组学数据的研究只能在某个特定的分子层面分析其与癌症的相关性,本发明能够全面揭示癌症的多样性和亚型差异性。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明的基于泛癌多组学数据的无监督特征选择方法的流程图;
图2为改进的谱聚类算法的框架示意图;
图3为深度自动编码器的结构示意图;
图4为肺癌中本发明方法与现有算法之间的加权聚类指数对比示意图;
图5为前列腺癌中本发明方法与现有算法之间的加权聚类指数对比示意图;
图6为乳腺癌中本发明方法与现有算法之间的加权聚类指数对比示意图;
图7为食管癌中本发明方法与现有算法之间的加权聚类指数对比示意图;
图8为胃癌中本发明方法与现有算法之间的加权聚类指数对比示意图。
具体实施方式
为了使本技术领域的人员更好的理解本说明书中的技术方案,下面结合本说明书实施中的附图,对本发明书实施例中的技术方案进行清楚、完整的描述,但不仅限于此,本发明未详尽说明的,均按本领域常规技术。
实施例1
一种基于泛癌多组学数据的无监督特征选择方法,如图1所示,包括以下步骤:
S1:选择数据集及数据预处理;
S2:通过改进的谱聚类算法对S1得到的数据进行聚类,得到特征子集A
S3:构建深度自动编码器,将S1得到的数据输入深度自动编码器得到特征子集B
S4:对于特征子集B中的每一个特征B l ,将特征B l 与特征子集A中所有特征计算Pearson相关系数,选择与特征B l 的Pearson相关系数最高的特征A m 作为结果,放入最终的特征子集中,并在特征子集A中删除A m ,其中B l 表示特征子集B中的第l个特征,l取值为1~N的自然数,N为特征子集B的特征总数;A m 表示特征子集A中的第m个特征,m取值为1~M的自然数,M为特征子集A的特征总数;
本实施例中的Pearson相关系数为现有常规技术,可参考现有技术。
Pearson相关系数的值域为[-1, 1],表征了两个变量之间的关联程度。当Pearson相关系数为1时,表示两个变量完全正相关;当Pearson相关系数为-1时,则表明二者完全负相关;而当Pearson相关系数为0时,说明两个变量之间不存在线性关系。
计算过后,选择特征子集A中与B l 的Pearson相关系数最大的特征A m ,待选择特征中删除A m ,将其加入最终选择的特征子集中;依次按此过程持续下去,直到选择的特征子集数目(即自编码器提取的特征子集B的特征数)达到要求,停止遍历。
S5:评估最终得到的特征子集。
优选的,步骤S1中,数据集选择癌症基因组图谱TCGA数据库中的5个癌症数据集,包括乳腺癌、肺癌、胃癌、食管癌和前列腺癌。
TCGA数据库是由美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)2005年共同发起的癌症基因组计划,旨在利用高通量基因组分析技术发现癌症治疗的新靶标。本发明选择了5种癌症数据集,这些数据集不仅是TCGA中样本量较大的,并且也是发病率和死亡率较高的五种癌症,因此更具代表性。
实施例2
一种基于泛癌多组学数据的无监督特征选择方法,如实施例1所述,所不同的是,数据预处理的过程如下:
首先对数据标准化,将不同量纲的数据按比例缩放,使之转化到同一个特定的数值区间;缺失值填补和去重复值,缺失值填补选择现有的k近邻的加权组合算法;
然后,对于每种具体的癌症,为整合多组学数据并分析相应的临床表现,数据集包括转录组学数据、甲基化数据和临床数据,样本取三者的交集,即样本对齐,这一样本对齐操作保证了实验数据集中的每个样本都包含这三种数据。后续对每种癌症,分别进行特征选择,得到每种组学数据的特征子集。
进一步的,考虑到所选重要特征具有的一个特性是高区分度,即该特征在不同癌症样本中具有较大的差异值。如果某些特征在大部分癌症样本上有近似的表达值,那么这些特征被视为干扰特征项,没有实际意义,这时需要通过方差过滤去除干扰特征。方差衡量了数据的变化程度,当方差很小时,说明特征的值在所有样本中都相似,可能只是噪音或者无意义的变化,所以设置合理的方差阈值可以有效地过滤掉这些特征,从而提高数据的质量和分析的可靠性。经过方差过滤后,泛癌数据集如表1所示:
表1 方差过滤后数据集
TCGA数据库中,转录组学基因特征初始维度为59427,甲基化基因特征初始维度为28590,从表1可以看出,方差过滤后,可有效去除冗余特征。
实施例3
一种基于泛癌多组学数据的无监督特征选择方法,如实施例2所述,所不同的是,如图2所示,步骤S2包括:
S21:构建相似度矩阵
首先计算样本每对特征之间的相似度,常用的相似度计算方法包括欧氏距离、高斯核函数等,然后根据相似度构建相似度矩阵;构建相似度矩阵是一种常见的数据分析和机器学习任务,通常用于发现数据集中样本之间的关系和结构。
S22:计算拉普拉斯矩阵和特征向量
通过相似度矩阵计算得到拉普拉斯矩阵,通常包括两种形式,分别为未标准化拉普拉斯矩阵和标准化拉普拉斯矩阵,本发明采用标准化拉普拉斯矩阵;首先根据相似度矩阵计算邻接矩阵和度矩阵,即可得到标准化拉普拉斯矩阵;
然后对拉普拉斯矩阵进行特征值分解,得到对应的特征向量;特征值分解可采用标准的数值计算方法,例如特征值分解算法(如幂迭代、QR算法等)或稀疏矩阵特征值分解算法(如Lanczos方法),特征值分解得到的特征向量对应着标准化的拉普拉斯矩阵的特征向量。
现已证明,谱聚类的最终目标是找到拉普拉斯矩阵Lc个()最小非零特征值,得到对应的c个特征向量,组成d×c的矩阵H,d表示基因特征维度。
S23:对特征向量进行聚类
将选取的c个特征向量作为新的特征表示,应用传统的聚类算法(如K均值聚类算法)进行聚类,从而得到k 1个特征簇M j ;K-means聚类需提前指定聚类数,这里本发明选择Optuna超参数调优框架来改进谱聚类,目标函数是聚类效果最优,k 1的范围为[2, 10],由此可将初始特征划分为聚类效果最佳的不同类簇。
S24:按特征重要性得分排序
特征选择的目标是选择彼此不相关的、具有较强区分能力的特征来构造特征子集,并从原始特征中消除冗余和相似的特征。这样,不仅可以保持和提高聚类和子类型化能力,而且可以大大简化原有系统。为了改进谱聚类算法,本发明提出了特征重要度的概念。
对每一特征簇按特征重要性得分从高到低排序,并选择前k 2个特征向量作为代表特征集,所有特征簇得到的代表特征集取并集,即得到特征子集A,特征子集A中共有个k 2×k 1个特征向量。
对于某类具体癌症数据集,可以选取k 2×k 1分别为10、20、40、60、80、100、120时的加权聚类指数WCI和生存分析曲线的进行差异评估,选取评估效果较好的数据,通过k 2×k 1÷k 1即得到了k 2,其中k 1是通过Optuna超参数调优得出的。
谱聚类算法主要思想是将聚类问题转化为以样本为顶点,样本间相似性为顶点连接边权重的带权无向图的划分问题,它能够发现任意形状的簇,且收敛于全局最优解。因此,对特征进行谱聚类,有助于揭示特征之间的内在联系,发现更具代表性的特征簇。本发明对谱聚类算法进行了改进,将特征簇按照特征重要性降序排序,选择前k 2个特征,改进后的谱聚类算法使其能够更好地捕捉数据集样本中特征之间的关系,例如,可以使用更复杂的核函数,改进特征选择方法,使其在面对噪声、异常值等情况下更加鲁棒。
实施例4
一种基于泛癌多组学数据的无监督特征选择方法,如实施例3所述,所不同的是,步骤S24中,对于给定的数据集,其中n表示病例样本数,d表示基因特征维度,采用f表示特征向量,则数据集采用特征向量表示为;采用,…,,…表示n个样本,则数据集采用样本表示为
在特征区分度方面,能够很好地区分各病例样本的重要特征具有的特性便是在不同亚型中有较大差异值。因此,本发明选取基因特征的标准差衡量特征区分能力,如公式(1),计算区分度
(1)
其中,表示第i个特征的标准差,表示基因特征i在第j个样本上的表达值。
在特征独立性方面,重要特征的另一个特性是高独立性,这能够保证不会选择到彼此相关的特征,两个基因特征越不相关,则其独立性越高。Person相关系数绝对值越小,则证明特征之间越不相关,即特征独立性高。本发明考虑用Person相关系数来度量特征独立性。定义特征与同类簇区分能力更强特征的Pearson相关系数绝对值和的倒数为特征独立性;对区分度最大的特征,定义其独立性为与本簇最不相关特征的Pearson相关性绝对值的倒数,公式(2)定义了特征独立性,其中M j 是特征所在的特征类簇。
计算特征独立性
(2)
其中,表示特征簇,表示特征间的Pearson相关系数,表示第k个特征的区分度;
由上式可知,基因特征与区分能力比它更强的特征越不相关,则该特征的独立性越强,且区分能力最强的特征的独立性取值为与同类特征簇中最不相关的特征的相关系数值,再取倒数,从而保证其独立性也最大,即保障了区分能力最强的特征一定在特征子集中。
特征间的Pearson相关系数为:
(3)
其中,表示的均值;表示的均值;
在特征重要度方面,本发明将特征重要度得分定义为公式(4),从公式(4)中可以看出,对特征区分度和特征独立性都做了归一化处理,并将权重因子一值选为0.5,从而保证了特征区分度和特征独立性对最终结果的评定具有同等影响,且特征重要度的取值范围为[0,1]。
特征重要性得分为:
(4)
其中,表示权重因子一,取值为0.5。
实施例5
一种基于泛癌多组学数据的无监督特征选择方法,如实施例4所述,所不同的是,步骤S3中,深度自动编码器在解决生物组学数据高维小样本灾难方面受到了更为广泛的关注,它是一种无监督学习的前馈人工神经网络,可以学习到输入数据的隐含特征,将输入编码为压缩且有意义的表示,这称为编码,同时用学习到的新特征可以重构出原始输入数据,称之为解码。
深度自动编码器包括编码器和解码器,用于特征提取从而得到原始高维特征的压缩表示;
如图3所示,首先将各单组学数据转置为深度自动编码器模型的输入数据,其中编码器包括输入层、隐藏层A、10%的Dropout层A、隐藏层B、10%的Dropout层B以及编码层,其中输入层输入d个基因特征维度,隐藏层A为具有256个神经元的全连接层,激活函数为ReLU;隐藏层B为具有128个神经元的全连接层,激活函数为ReLU;编码层为具有u个神经元的全连接层,激活函数为ReLU;
解码器包括隐藏层C、10%的Dropout层C、隐藏层D、10%的Dropout层D以及重构层,其中隐藏层C为具有128个神经元的全连接层,激活函数为ReLU;隐藏层D为具有256个神经元的全连接层,激活函数为ReLU;重构层负责将压缩后的表示解码为原始的输入数据维度,其神经元个数与初始输入特征维度相同,激活函数为ReLU。
图3中的神经元表示特征维度的相对大小和神经元个数的相对大小。深度自动编码器模型是通过学习压缩输入数据来重构原始数据,以便最小化重构误差,最终用于特征提取和降维,“深度”表示具有多个隐藏层的自动编码器。
本发明的深度自动编码器选择使用ReLU为激活函数,可以进一步改进深度神经网络的训练;自编码器中各参数的优化采用自适应矩估计(Adam优化器),可根据梯度计算自适应学习率以加快学习过程,为防止神经网络对特定训练样本过度依赖,从而提高自编码器的泛化能力,本发明引入了Dropout层,Dropout层是一种正则化方法,正则化方法的目标是减少模型的过拟合,从而提高其泛化能力。Dropout是一种在训练过程中随机丢弃神经网络中的一些单元的方法。在每次训练迭代中,每个神经元都有一定的概率被丢弃,这样可以减少神经元之间的依赖关系,降低模型对某些特定神经元的依赖,从而减少过拟合的风险。
编码器是一个非线性函数,将n个样本、d个特征维度的输入域D映射到一个较低维数为I的潜在空间Z,对应的,解码器是一个将样本从潜在空间Z重构到原始空间的函数;
编码器函数和解码器函数的定义如公式(5)、公式(6):
(5)
(6)
其中,潜在空间中的样本为为解码器重构样本,为编码器函数,为解码器函数;
在深度自动编码器训练时,损失函数为:
(7)
损失函数采用均方误差来量化,如公式(8):
(8)
分别表示初始数据和重构后的数据,分别表示
本发明中,深度自动编码器得到的特征子集B是原始基因特征的非线性组合,可利用深度自动编码器得到的低维特征子集B指导改进的谱聚类算法得到的特征子集A,从改进的谱聚类所选择的特征中,选择与深度自编码器提取的潜在特征分布最为近似的原始特征,该策略能最好地对齐从深度自动编码器学习的表示,且同时考虑到了特征区分度和特征独立性。
实施例6
一种基于泛癌多组学数据的无监督特征选择方法,如实施例5所述,所不同的是,步骤S5中,通过加权聚类指数和生存分析验证方法共同评估最终得到的特征子集。
生存分析验证中,通过绘制患者生存分析曲线图,能够衡量不同无监督特征选择算法所选择的重要特征在同一聚类算法下所得到亚型生存曲线是否有很好的分离,通过这种方式,能够评估每个无监督特征选择算法,更有说服力。
当研究目标涉及到泛癌分型的深度特征选择方法,并需要评价聚类内在属性来评估特征子集优劣时,聚类评价指标的选择和权衡是至关重要的。轮廓系数和Calinski-Harabasz指数,各自从不同角度反映了聚类结果的质量。本实施例所提出的加权聚类指数就是结合这些指标的综合评估以提供对特征选择方法的优劣进行相对权威的判断。
加权聚类指数的计算过程如下:
首先计算第i个数据点的轮廓系数,计算公式如下:
(9)
其中表示该点与同一特征簇中其他点的平均距离,表示该点与最近的不同特征簇中所有点的平均距离;
最终的轮廓系数是所有的平均值;
然后,计算Calinski-Harabasz指数,Calinski-Harabasz指数(方差比标准)通过比较特征簇的簇内方差与簇间的方差之间的关系来衡量聚类结果簇内的稠密度和簇间的分离度,Calinski-Harabasz指数的计算公式如下:
(10)
其中,是数据点总数,是特征簇的总数,是簇内总方差,是特征簇的簇间总方差;
根据最终的轮廓系数S和Calinski-Harabasz指数计算加权聚类指数,公式为:
(11)
其中,表示权重因子二,取值为0.5,表示将基于样本间距离和方差的两个指标赋予相同权重,最终的结果将在0到1的范围内,值越大表明聚类效果越好。本发明分别对轮廓系数和Calinski-Harabasz两个指标做了归一化处理,避免因结果范围差距造成对加权聚类指数贡献不一的情况;公式中表示取最大值。
为突出本发明所提出的算法的优越性,本发明选择方差分析法(Analysis ofvariance,ANOVA)、相关系数法(Pearson product-moment correlation coefficient,PPMCC)、基于L1正则化的套索回归方法(Least AbsoluteShrinkage and SelectionOperator,Lasso)、基于余弦相似性排名的光谱特征选择方法(Cosine similarityspectral)、基于谱聚类的无监督特征选择方法(Spectral clustering)及基于拉普拉斯分数排名的光谱特征选择方法(Laplacian spectral)6种现有无监督特征选择算法与本发明方法进行加权聚类指数对比,如图4至图8所示,从图中可以看出,本发明提出方法在每种癌症中都比其他现有特征选择算法具有更高的加权聚类指数,即在聚类质量上,本发明的方法效果更好。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于泛癌多组学数据的无监督特征选择方法,其特征在于,包括以下步骤:
S1:选择数据集及数据预处理;
数据集选择癌症基因组图谱TCGA数据库中的5个癌症数据集,包括乳腺癌、肺癌、胃癌、食管癌和前列腺癌;
数据预处理的过程如下:
首先对数据标准化,将不同量纲的数据按比例缩放,使之转化到同一个特定的数值区间;缺失值填补和去重复值;
然后,对于每个具体的癌症,数据集包括转录组学数据、甲基化数据和临床数据,样本取三者的交集,即样本对齐;
S2:通过改进的谱聚类算法对S1得到的数据进行聚类,得到特征子集A;
步骤S2包括:
S21:构建相似度矩阵
首先计算样本每对特征之间的相似度,然后根据相似度构建相似度矩阵;
S22:计算拉普拉斯矩阵和特征向量
通过相似度矩阵计算得到拉普拉斯矩阵,然后对拉普拉斯矩阵进行特征值分解,得到对应的特征向量;选择前c个特征向量作为降维或特征选择的结果;
S23:对特征向量进行聚类
将选取的c个特征向量作为新的特征表示,应用聚类算法进行聚类,从而得到k1个的特征簇;
S24:按特征重要性得分排序
对每一特征簇按特征重要性得分从高到低排序,并选择前k2个特征向量作为代表特征集,所有特征簇得到的代表特征集取并集,即得到特征子集A;
步骤S24中,对于给定的数据集其中n表示病例样本数,d表示基因特征维度,采用f表示特征向量,则数据集D=[f1,f2,f3,…,fi,…fd],采用x1,x2,x3,…,xj,…xn表示n个样本,则数据集D=[x1,x2,x3,…,xj,…xn],计算区分度disi
其中,stdi表示第i个特征的标准差,fji表示基因特征i在第j个样本上的表达值;
计算特征独立性indi
其中,Mj表示特征簇,表示特征fi、fk间的Pearson相关系数,disk表示第k个特征的区分度;
特征fi、fk间的Pearson相关系数为:
其中,表示fji的均值;表示fjk的均值;
特征重要性得分scorei为:
其中,weight_factorA表示权重因子一,取值为0.5;
S3:构建深度自动编码器,将S1得到的数据输入深度自动编码器得到特征子集B;
S4:对于特征子集B中的每一个特征Bl,将特征Bl与特征子集A中所有特征计算Pearson相关系数,选择与特征Bl的Pearson相关系数最高的特征Am作为结果,放入最终的特征子集中,并在特征子集A中删除Am,其中Bl表示特征子集B中的第l个特征,l取值为1~N的自然数,N为特征子集B的特征总数;Am表示特征子集A中的第m个特征,m取值为1~M的自然数,M为特征子集A的特征总数;
S5:评估最终得到的特征子集;
步骤S5中,通过加权聚类指数和生存分析验证方法共同评估最终得到的特征子集。
2.根据权利要求1所述的基于泛癌多组学数据的无监督特征选择方法,其特征在于,步骤S3中,深度自动编码器包括编码器和解码器,用于特征提取从而得到原始高维特征的压缩表示;
编码器包括输入层、隐藏层A、10%的Dropout层A、隐藏层B、10%的Dropout层B以及编码层,其中输入层输入d个基因特征维度,隐藏层A为具有256个神经元的全连接层,激活函数为ReLU;隐藏层B为具有128个神经元的全连接层,激活函数为ReLU;编码层为具有u个神经元的全连接层,激活函数为ReLU;
解码器包括隐藏层C、10%的Dropout层C、隐藏层D、10%的Dropout层D以及重构层,其中隐藏层C为具有128个神经元的全连接层,激活函数为ReLU;隐藏层D为具有256个神经元的全连接层,激活函数为ReLU;重构层负责将压缩后的表示解码为原始的输入数据维度,其神经元个数与初始输入特征维度相同,激活函数为ReLU。
3.根据权利要求2所述的基于泛癌多组学数据的无监督特征选择方法,其特征在于,步骤S3中,编码器是一个非线性函数,将n个样本、d个特征维度的输入域D映射到一个较低维数为I的潜在空间Z,对应的,解码器是一个将样本从潜在空间Z重构到原始空间的函数;
编码器函数和解码器函数的定义如公式(5)、公式(6)
z=f(x)(5)
其中,潜在空间中的样本为z,为解码器重构样本,f(x)为编码器函数,g(z)为解码器函数;
在深度自动编码器训练时,损失函数为:
损失函数采用均方误差来量化,如公式(8):
xi分别表示初始数据和重构后的数据。
4.根据权利要求3所述的基于泛癌多组学数据的无监督特征选择方法,其特征在于,加权聚类指数的计算过程如下:
首先计算第i个数据点的轮廓系数Si,计算公式如下:
其中ai表示该点与同一特征簇中其他点的平均距离,bi表示该点与最近的不同特征簇中所有点的平均距离;
最终的轮廓系数S是所有Si的平均值;
然后,计算Calinski-Harabasz指数index,计算公式如下:
其中,Q是数据点总数,k1是特征簇的总数,Wk1是簇内总方差,Bk1是特征簇的簇间总方差;
根据最终的轮廓系数S和Calinski-Harabasz指数计算加权聚类指数WCI,公式为:
其中,weight_factorB表示权重因子二,取值为0.5。
CN202410732519.2A 2024-06-07 2024-06-07 一种基于泛癌多组学数据的无监督特征选择方法 Active CN118335206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410732519.2A CN118335206B (zh) 2024-06-07 2024-06-07 一种基于泛癌多组学数据的无监督特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410732519.2A CN118335206B (zh) 2024-06-07 2024-06-07 一种基于泛癌多组学数据的无监督特征选择方法

Publications (2)

Publication Number Publication Date
CN118335206A CN118335206A (zh) 2024-07-12
CN118335206B true CN118335206B (zh) 2024-10-01

Family

ID=91771096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410732519.2A Active CN118335206B (zh) 2024-06-07 2024-06-07 一种基于泛癌多组学数据的无监督特征选择方法

Country Status (1)

Country Link
CN (1) CN118335206B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926640A (zh) * 2021-02-22 2021-06-08 齐鲁工业大学 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质
CN116403713A (zh) * 2023-03-28 2023-07-07 桂林电子科技大学 一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111047182B (zh) * 2019-12-10 2021-12-28 北京航空航天大学 一种基于深度无监督学习的空域复杂度评估方法
AU2023219255A1 (en) * 2022-02-11 2024-08-22 The Hospital For Sick Children System and method for classifying cancer and classifying benign and malignant neoplasm.
CN114529975B (zh) * 2022-02-25 2024-05-31 北京工业大学 一种应用于人脸识别的自适应快速无监督特征选择方法
CN116417070A (zh) * 2023-04-17 2023-07-11 齐鲁工业大学(山东省科学院) 一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926640A (zh) * 2021-02-22 2021-06-08 齐鲁工业大学 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质
CN116403713A (zh) * 2023-03-28 2023-07-07 桂林电子科技大学 一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法

Also Published As

Publication number Publication date
CN118335206A (zh) 2024-07-12

Similar Documents

Publication Publication Date Title
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
CN107609588B (zh) 一种基于语音信号的帕金森患者updrs得分预测方法
CN113889192B (zh) 一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法
CN107992945B (zh) 基于深度学习和进化计算的特征基因选择方法
CN106250442A (zh) 一种网络安全数据的特征选择方法及系统
CN112926640B (zh) 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质
CN109214084A (zh) 孔压静力触探海底土层划分方法及系统
CN113157957A (zh) 一种基于图卷积神经网络的属性图文献聚类方法
CN113052271B (zh) 基于深度神经网络的生物发酵数据预测方法
CN113569920B (zh) 基于自动编码的第二近邻异常检测方法
CN116469561A (zh) 一种基于深度学习的乳腺癌生存预测方法
Paterlini et al. Evolutionary approaches for cluster analysis
CN117253550A (zh) 一种空间转录组数据聚类方法
CN118335206B (zh) 一种基于泛癌多组学数据的无监督特征选择方法
CN116738297B (zh) 一种基于深度自编码的糖尿病分型方法和系统
CN117457081A (zh) 一种基于超图的空间转录组数据处理方法及系统
CN114999628B (zh) 一种利用机器学习寻找退行性膝骨关节炎显著性特征方法
CN108304546B (zh) 一种基于内容相似度和Softmax分类器的医学图像检索方法
Wani Incremental hybrid approach for microarray classification
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN114547601B (zh) 一种基于多层分类策略的随机森林入侵检测方法
CN114358191A (zh) 一种基于深度自动编码器的基因表达数据聚类方法
CN116228759A (zh) 肾细胞癌类型的计算机辅助诊断系统及设备
CN116403713A (zh) 一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法
CN115129503A (zh) 一种设备故障数据清洗方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant