CN114005492A - 膀胱癌分子分型方法及其装置、计算机可读存储介质 - Google Patents
膀胱癌分子分型方法及其装置、计算机可读存储介质 Download PDFInfo
- Publication number
- CN114005492A CN114005492A CN202111680072.1A CN202111680072A CN114005492A CN 114005492 A CN114005492 A CN 114005492A CN 202111680072 A CN202111680072 A CN 202111680072A CN 114005492 A CN114005492 A CN 114005492A
- Authority
- CN
- China
- Prior art keywords
- mibc
- samples
- sample
- classification
- subtype
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种膀胱癌分子分型方法及其装置、计算机可读存储介质。其中,该方法包括:获取肌肉浸润性膀胱癌MIBC样本;通过单样本mRNA分类模型对MIBC样本进行处理,得到MIBC样本的分子分型结果,其中,单样本mRNA分类模型是利用第一预定数量的MIBC样本进行训练得到的,第一预定数量的MIBC样本是从第二预定数量的MIBC样本中选择出来的样本。本发明解决了针对相关技术中对肌肉浸润性膀胱癌MIBC类型无临床意义的分类较多导致实验资源浪费的技术问题。
Description
技术领域
本发明涉及分子分型领域,具体而言,涉及一种膀胱癌分子分型方法及其装置、计算机可读存储介质。
背景技术
肌肉浸润性膀胱癌(MIBC)是一种具有不同临床结局的分子多样性疾病。目前已经有很多研究提出了几种通过mRNA对MIBC进行分子分型的方法,但是这些研究得到的亚型均不相同,亚型的多样性阻碍了MIBC分子分型在临床上的应用。根据文献调研发现,目前已经有6个团队研究了MIBC分子分型的方法,这些团队采用了不同分型方法,总计将MIBC分成了29种不同的类型。在这29种亚型中,有许多亚型之间有强烈的相似性,并且这些亚型并不是全都有明确的临床意义。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种膀胱癌分子分型方法及其装置、计算机可读存储介质,以至少解决针对相关技术中对肌肉浸润性膀胱癌MIBC类型无临床意义的分类较多导致实验资源浪费的技术问题。
根据本发明实施例的一个方面,提供了一种膀胱癌分子分型方法,包括:获取肌肉浸润性膀胱癌MIBC样本;通过单样本mRNA分类模型对所述MIBC样本进行处理,得到所述MIBC样本的分子分型结果,其中,所述单样本mRNA分类模型是利用第一预定数量的MIBC样本进行训练得到的,所述第一预定数量的MIBC样本是从第二预定数量的MIBC样本中选择出来的样本。
可选地,在通过单样本mRNA分类模型对所述MIBC样本进行处理,得到所述MIBC样本的分子分型结果之前,所述方法还包括:生成所述单样本mRNA分类模型;其中,生成所述单样本mRNA分类模型,包括:获取所述第二预定数量的MIBC样本;利用所述第二预定数量的MIBC样本生成亚型网络;利用所述亚型网络从所述第二预定数量的MIBC样本中筛选得到所述第一预定数量的MIBC样本;利用所述第一预定数量的MIBC样本训练得到所述单样本mRNA分类模型。
可选地,利用所述第二预定数量的MIBC样本生成亚型网络,包括:利用多种分类方式分别对所述第二预定数量的MIBC样本中的每一个MIBC样本进行分子分型处理,得到所述每一个MIBC样本分别采用所述多种分类方式进行分子分型的分类结果;基于所述分类结果生成分类矩阵;对所述分类矩阵中的每一列通过kappa度量方式确定所述每一列的kappa系数;根据所述每一列的Kappa系数生成亚型之间的亚型网络,其中,所述亚型网络的每一个子结构分别对应一种亚型分类。
可选地,在根据所述每一列的Kappa系数生成亚型之间的亚型网络之后,所述方法还包括:采用聚类算法识别所述亚型网络中的每一个子结构,以得到MIBC新的亚型分类。
可选地,利用所述第一预定数量的MIBC样本训练得到所述单样本mRNA分类模型,包括:按照预定比例将所述第一预定数量的MIBC样本分为训练集和测试集;分析所述训练集中每一个MIBC样本对应的亚型与其他亚型之间的差异基因,并得到差异数值小于预定阈值的多个基因;对所述多个基因进行预定处理后,得到目标基因;利用所述目标基因生成所述单样本mRNA分类模型。
根据本发明实施例的另外一个方面,还提供了一种膀胱癌分子分型装置,包括:获取模块,用于获取肌肉浸润性膀胱癌MIBC样本;处理模块,用于通过单样本mRNA分类模型对所述MIBC样本进行处理,得到所述MIBC样本的分子分型结果,其中,所述单样本mRNA分类模型是利用第一预定数量的MIBC样本进行训练得到的,所述第一预定数量的MIBC样本是从第二预定数量的MIBC样本中选择出来的样本。
可选地,所述装置还包括:生成模块,用于在通过单样本mRNA分类模型对所述MIBC样本进行处理,得到所述MIBC样本的分子分型结果之前,生成所述单样本mRNA分类模型;其中,所述生成模块,包括:获取单元,用于获取所述第二预定数量的MIBC样本;生成单元,用于利用所述第二预定数量的MIBC样本生成亚型网络;筛选单元,用于利用所述亚型网络从所述第二预定数量的MIBC样本中筛选得到所述第一预定数量的MIBC样本;训练单元,用于利用所述第一预定数量的MIBC样本训练得到所述单样本mRNA分类模型。
可选地,所述生成单元,包括:分子分型处理子单元,用于利用多种分类方式分别对所述第二预定数量的MIBC样本中的每一个MIBC样本进行分子分型处理,得到所述每一个MIBC样本分别采用所述多种分类方式进行分子分型的分类结果;第一生成子单元,用于基于所述分类结果生成分类矩阵;确定子单元,用于对所述分类矩阵中的每一列通过kappa度量方式确定所述每一列的kappa系数;第二生成子单元,用于根据所述每一列的Kappa系数生成亚型之间的亚型网络,其中,所述亚型网络的每一个子结构分别对应一种亚型分类。
可选地,所述装置还包括:识别模块,用于在根据所述每一列的Kappa系数生成亚型之间的亚型网络之后,采用聚类算法识别所述亚型网络中的每一个子结构,以得到MIBC新的亚型分类。
可选地,所述训练单元,包括:分类子单元,用于按照预定比例将所述第一预定数量的MIBC样本分为训练集和测试集;分析子单元,用于分析所述训练集中每一个MIBC样本对应的亚型与其他亚型之间的差异基因,并得到差异数值小于预定阈值的多个基因;获取子单元,用于对所述多个基因进行预定处理后,得到目标基因;第三生成子单元,用于利用所述目标基因生成所述单样本mRNA分类模型。
根据本发明实施例的另外一个方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述计算机可读存储介质所在设备执行上述中任一项所述的膀胱癌分子分型方法。
根据本发明实施例的另外一个方面,还提供了一种处理器,所述处理器用于运行计算机程序,其中,所述计算机程序运行时执行上述中任一项所述的膀胱癌分子分型方法。
在本发明实施例中,获取肌肉浸润性膀胱癌MIBC样本;通过单样本mRNA分类模型对MIBC样本进行处理,得到MIBC样本的分子分型结果,其中,单样本mRNA分类模型是利用第一预定数量的MIBC样本进行训练得到的,第一预定数量的MIBC样本是从第二预定数量的MIBC样本中选择出来的样本。通过本发明实施例提供的膀胱癌分子分型方法,达到了通过对肌肉浸润性膀胱癌MIBC样本以获取MIBC样本的分子分型结果的目的,从而实现了提升临床应用价值的技术效果,进而解决了针对相关技术中对肌肉浸润性膀胱癌MIBC类型无临床意义的分类较多导致实验资源浪费的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的膀胱癌分子分型方法的流程图;
图2是根据本发明实施例的优选的膀胱癌分子分型方法的流程图;
图3是根据本发明实施例的亚型的皮尔森相关系数得分的示意图;
图4是根据本发明实施例的多个亚型的正确预测样本数量的示意图;
图5是根据本发明实施例的皮尔森相关系数分类器模型的测试结果的ROC曲线图;
图6是根据本发明实施例的膀胱癌分子分型装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种膀胱癌分子分型方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的膀胱癌分子分型方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取肌肉浸润性膀胱癌MIBC样本。
需要说明的是,肌肉浸润性膀胱癌是起源于膀胱黏膜层,并浸润深度达到膀胱肌层、周围脂肪或膀胱外器官的膀胱恶性肿瘤,肌肉浸润性膀胱癌MIBC样本就是该肿瘤的样本切片。
步骤S104,通过单样本mRNA分类模型对MIBC样本进行处理,得到MIBC样本的分子分型结果,其中,单样本mRNA分类模型是利用第一预定数量的MIBC样本进行训练得到的,第一预定数量的MIBC样本是从第二预定数量的MIBC样本中选择出来的样本。
需要说明的是,上述步骤中的单样本mRNA分类模型也即皮尔森相关系数分类器,皮尔森相关系数是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。
由上可知,在本发明实施例中,首先可以获取肌肉浸润性膀胱癌MIBC样本;最后可以通过单样本mRNA分类模型对MIBC样本进行处理,得到MIBC样本的分子分型结果,其中,单样本mRNA分类模型是利用第一预定数量的MIBC样本进行训练得到的,第一预定数量的MIBC样本是从第二预定数量的MIBC样本中选择出来的样本。通过本发明实施例提供的膀胱癌分子分型方法,达到了通过对肌肉浸润性膀胱癌MIBC样本以获取MIBC样本的分子分型结果的目的,从而实现了提升临床应用价值的技术效果,进而解决了针对相关技术中对肌肉浸润性膀胱癌MIBC类型无临床意义的分类较多导致实验资源浪费的技术问题。
作为一种可选的实施例,在通过单样本mRNA分类模型对MIBC样本进行处理,得到MIBC样本的分子分型结果之前,该膀胱癌分子分型方法还包括:生成单样本mRNA分类模型;其中,生成单样本mRNA分类模型,包括:获取第二预定数量的MIBC样本;利用第二预定数量的MIBC样本生成亚型网络;利用亚型网络从第二预定数量的MIBC样本中筛选得到第一预定数量的MIBC样本;利用第一预定数量的MIBC样本训练得到单样本mRNA分类模型。
在上述可选的实施例中,在获取到MIBC样本的分子分型结果之前,需要先生成单样本mRNA分类模型,其中具体步骤为,首先获取一定数量的MIBC样本,接着利用一定数量的MIBC样本来生成亚型网络,接着利用压型网络从之前的样本中利用超几何检验的方法选择出一定数量的高代表性的MIBC样本在,最后训练筛选出的样本以获取皮尔森相关系数分类器(即单样本mRNA分类模型)。
作为一种可选的实施例,利用第二预定数量的MIBC样本生成亚型网络,包括:利用多种分类方式分别对第二预定数量的MIBC样本中的每一个MIBC样本进行分子分型处理,得到每一个MIBC样本分别采用多种分类方式进行分子分型的分类结果;基于分类结果生成分类矩阵;对分类矩阵中的每一列通过kappa度量方式确定每一列的kappa系数;根据每一列的Kappa系数生成亚型之间的亚型网络,其中,亚型网络的每一个子结构分别对应一种亚型分类。
在上述可选的实施例中,首先可以利用不止一种分类方式对之前获取到的一定数量的MIBC样本中每一个MIBC样本进行分子分型处理以获得每一个MIBC样本分别采用多种分类方式进行分子分型的分类结果,基于分类结果生成分类矩形,对得到的矩阵,其每列代表一个之前研究得到的亚型,每列之间通过kappa度量的方法计算出一个kappa分数,之后根据kappa分数,构建出亚型之间的加权网络,kappa分数小于0.2认为两个亚型之间相关性很低,只使用kappa分数大于0.2的关系用于构建网络。
作为一种可选的实施例,在根据每一列的Kappa系数生成亚型之间的亚型网络之后,该膀胱癌分子分型方法还包括:采用聚类算法识别亚型网络中的每一个子结构,以得到MIBC新的亚型分类。
在上述可选的实施例中,将得到的网络使用马尔科夫聚类算法来识别网络的子结构,这些识别出的子结构中的之前研究得到的亚型之间比较相似,识别出来的每个子结构认为是一个新的分类。
需要说明的是,聚类算法包括但不限于:马尔科夫聚类算法。
作为一种可选的实施例,利用第一预定数量的MIBC样本训练得到单样本mRNA分类模型,包括:按照预定比例将第一预定数量的MIBC样本分为训练集和测试集;分析训练集中每一个MIBC样本对应的亚型与其他亚型之间的差异基因,并得到差异数值小于预定阈值的多个基因;对多个基因进行预定处理后,得到目标基因;利用目标基因生成单样本mRNA分类模型。
图2是根据本发明实施例的优选的膀胱癌分子分型方法的流程图,如图2所示,下面对该优选的膀胱癌分子分型方法步骤结合具体实验数据以及过程进行详细说明。
步骤1)、使用来自6个开源数据库的共计1750例MIBC样本,按照以往研究给出的6种分类方法进行分类,每个样本会得到6种分类方法给出的亚型,生成一个1750×29的矩阵,矩阵每行为一个样本,每列对应以往6个研究给出的亚型。
步骤2)、对得到的矩阵,其每列代表一个之前研究得到的亚型,每列之间通过kappa度量的方法计算出一个kappa分数,之后根据kappa分数,构建出亚型之间的加权网络,kappa分数小于0.2认为两个亚型之间相关性很低,只使用kappa分数大于0.2的关系用于构建网络。
步骤3)、将得到的网络使用马尔科夫聚类算法来识别网络的子结构,这些识别出的子结构中的之前研究得到的亚型之间比较相似,识别出来的每个子结构认为是一个新的分类。最终得到了6种高可信度网络的子结构,即将之前研究的29种亚型映射成了6种新的亚型。其中,分别分出六种亚型分别是管腔乳头型(LumP)、管腔非特异性型(LumNS)、管腔不稳定型(LumU)、富含间质型(stroma-rich)、基底/鳞状型(Ba/Sq)和神经内分泌样(NE-like)。
步骤4)、将1750个样本分类到最终得到的6种亚型,结合样本可用的临床信息进行关联分析,对连续型变量使用Kruskal-Wallis检验,对临床上的危险因素使用多变量Cox模型进行分析。最终的分析结果表明我们最终得到的6种亚型具有较高的临床意义,可能与某些潜在的治疗靶点或者诊断marker相关。
步骤5)、在确定了最终的6种亚型后,将这1750个样本进行筛选,以构建单样本的分子分型分类器,接着使用超几何检验的方法从1750个样本中选取6种亚型的高代表性样本,最终得到了1084个样本,将这1084个样本分为训练集和测试集,其中三分之一作为训练集(n=403),三分之二作为测试集(n=681),接着根据已有的训练集和测试集数据表达谱的实际情况筛选了17381个共有基因进行训练,并且在训练集中使用limma分析每个亚型与其他亚型的差异基因,选取p<0.05,并根据foldchange的绝对值进行排序。通过从每个排序后的基因列表中提取N个上调基因和N个下调基因,(N从10到125进行迭代)合并后去除重复,作为最后的分类模型使用的基因,并逐个测试其在训练集中的性能,最终确定了包含857个基因的基因列表作为模型使用的基因,其中,使用这些基因构建了一个皮尔森相关系数分类器,在测试集中的性能可达到97%的准确度。
需要说明的是,分类模型可以使用R语言构建成分类脚本工具。
进一步地,本发明实施例中利用膀胱癌组织样本mRNA测序表达量数据进行分子分型进行实验,其具体实验步骤如下。
步骤1)、测试集的681个样本按照过往6个研究的分类标准确定其真实的亚型分类。
步骤2)、对测试集的681个样本的表达量数据进行合并,表达量数据使用标准化后的readcount数据。合并后的数据按照log2(readcount+1)进行对数处理。
步骤3)、测试集数据使用get_Consensus_Class命令得到每个样本的分类结果。
步骤4)、分类结果中如果给出的类对应皮尔森相关系数低于0.2,认为是分类失败。图3是根据本发明实施例的亚型的皮尔森相关系数得分的示意图,如图3所示,图中一共6个亚型,六种亚型分别是管腔乳头型(LumP)、管腔非特异性型(LumNS)、管腔不稳定型(LumU)、富含间质型(stroma-rich)、基底/鳞状型(Ba/Sq)和神经内分泌样(NE-like),其中皮尔森系数得分低于0.2的亚型,认为是分类失败。
图4是根据本发明实施例的多个亚型的正确预测样本数量的示意图,如图4所示,列数字代表真实结果,行数字代表预测结果,数值代表样本个数,深色灰色中的数字表示正确预测的样本数量,经计算总体正确率为97.23%,整体看来预测准确性很高。
图5是根据本发明实施例的皮尔森相关系数分类器模型的测试结果的ROC曲线图,如图5所示,横轴是假阳率(1-特异度),纵轴为真阳率(灵敏度),该分类器模型在测试集中可以达到0.996的AUC(Area Under Curve,ROC曲线下与坐标轴围成的面积),由此可见模型的分类效率很高。
因此,通过本发明实施例提供的膀胱癌分子分型方法将多种类型进行基于网络的分析,并通过马尔科夫聚类方法,将多种不同的亚型聚类成数量更少的类型,在得到最终的亚型后,使用mRNA表达量的数据构建单样本分子分型的分类器,最终可以实现对样本进行准确的分型,具有以下优势:
1.对于每个样本,利用已有研究的6种分类方法,将每个样本的确定亚型分出。
2.通过网络分析和马尔科夫聚类,将全部29种分类,合并较为相似的亚型,最终形成新的分类标准。
3.对新的分类标准中的每个亚型的临床特征进行研究,确定新的分类标准具有临床应用的价值。
4.按照新的分类标准中的亚型构建单样本mRNA分类器,实现MIBC的分子分型。
实施例2
根据本发明实施例的另外一个方面,还提供了一种膀胱癌分子分型装置,图6是根据本发明实施例的膀胱癌分子分型装置的示意图,如图6所示,包括:获取模块61以及处理模块63。下面对该膀胱癌分子分型装置进行说明。
获取模块61,用于获取肌肉浸润性膀胱癌MIBC样本。
处理模块63,用于通过单样本mRNA分类模型对MIBC样本进行处理,得到MIBC样本的分子分型结果,其中,单样本mRNA分类模型是利用第一预定数量的MIBC样本进行训练得到的,第一预定数量的MIBC样本是从第二预定数量的MIBC样本中选择出来的样本。
此处需要说明的是,上述获取模块61以及处理模块63对应于实施例1中的步骤S102至S104,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
由上可知,在本发明实施例中,首先可以借助获取模块61获取肌肉浸润性膀胱癌MIBC样本;接着可以借助处理模块63通过单样本mRNA分类模型对MIBC样本进行处理,得到MIBC样本的分子分型结果,其中,单样本mRNA分类模型是利用第一预定数量的MIBC样本进行训练得到的,第一预定数量的MIBC样本是从第二预定数量的MIBC样本中选择出来的样本。通过本发明实施例提供的膀胱癌分子分型装置,达到了通过对肌肉浸润性膀胱癌MIBC样本以获取MIBC样本的分子分型结果的目的,从而实现了提升临床应用价值的技术效果,进而解决了针对相关技术中对肌肉浸润性膀胱癌MIBC类型无临床意义的分类较多导致实验资源浪费的技术问题。
可选地,该膀胱癌分子分型装置还包括:生成模块,用于在通过单样本mRNA分类模型对MIBC样本进行处理,得到MIBC样本的分子分型结果之前,生成单样本mRNA分类模型;其中,生成模块,包括:获取单元,用于获取第二预定数量的MIBC样本;生成单元,用于利用第二预定数量的MIBC样本生成亚型网络;筛选单元,用于利用亚型网络从第二预定数量的MIBC样本中筛选得到第一预定数量的MIBC样本;训练单元,用于利用第一预定数量的MIBC样本训练得到单样本mRNA分类模型。
可选地,生成单元,包括:分子分型处理子单元,用于利用多种分类方式分别对第二预定数量的MIBC样本中的每一个MIBC样本进行分子分型处理,得到每一个MIBC样本分别采用多种分类方式进行分子分型的分类结果;第一生成子单元,用于基于分类结果生成分类矩阵;确定子单元,用于对分类矩阵中的每一列通过kappa度量方式确定每一列的kappa系数;第二生成子单元,用于根据每一列的Kappa系数生成亚型之间的亚型网络,其中,亚型网络的每一个子结构分别对应一种亚型分类。
可选地,该膀胱癌分子分型装置还包括:识别模块,用于在根据每一列的Kappa系数生成亚型之间的亚型网络之后,采用聚类算法识别亚型网络中的每一个子结构,以得到MIBC新的亚型分类。
可选地,训练单元,包括:分类子单元,用于按照预定比例将第一预定数量的MIBC样本分为训练集和测试集;分析子单元,用于分析训练集中每一个MIBC样本对应的亚型与其他亚型之间的差异基因,并得到差异数值小于预定阈值的多个基因;获取子单元,用于对多个基因进行预定处理后,得到目标基因;第三生成子单元,用于利用目标基因生成单样本mRNA分类模型。
实施例3
根据本发明实施例的另外一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序被处理器运行时控制计算机可读存储介质所在设备执行上述中任一项的膀胱癌分子分型方法。
实施例4
根据本发明实施例的另外一个方面,还提供了一种处理器,处理器用于运行计算机程序,其中,计算机程序运行时执行上述中任一项的膀胱癌分子分型方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种膀胱癌分子分型方法,其特征在于,包括:
获取肌肉浸润性膀胱癌MIBC样本;
通过单样本mRNA分类模型对所述MIBC样本进行处理,得到所述MIBC样本的分子分型结果,其中,所述单样本mRNA分类模型是利用第一预定数量的MIBC样本进行训练得到的,所述第一预定数量的MIBC样本是从第二预定数量的MIBC样本中选择出来的样本。
2.根据权利要求1所述的膀胱癌分子分型方法,其特征在于,在通过单样本mRNA分类模型对所述MIBC样本进行处理,得到所述MIBC样本的分子分型结果之前,所述方法还包括:生成所述单样本mRNA分类模型;
其中,生成所述单样本mRNA分类模型,包括:
获取所述第二预定数量的MIBC样本;
利用所述第二预定数量的MIBC样本生成亚型网络;
利用所述亚型网络从所述第二预定数量的MIBC样本中筛选得到所述第一预定数量的MIBC样本;
利用所述第一预定数量的MIBC样本训练得到所述单样本mRNA分类模型。
3.根据权利要求2所述的膀胱癌分子分型方法,其特征在于,利用所述第二预定数量的MIBC样本生成亚型网络,包括:
利用多种分类方式分别对所述第二预定数量的MIBC样本中的每一个MIBC样本进行分子分型处理,得到所述每一个MIBC样本分别采用所述多种分类方式进行分子分型的分类结果;
基于所述分类结果生成分类矩阵;
对所述分类矩阵中的每一列通过kappa度量方式确定所述每一列的kappa系数;
根据所述每一列的Kappa系数生成亚型之间的亚型网络,其中,所述亚型网络的每一个子结构分别对应一种亚型分类。
4.根据权利要求3所述的膀胱癌分子分型方法,其特征在于,在根据所述每一列的Kappa系数生成亚型之间的亚型网络之后,所述方法还包括:
采用聚类算法识别所述亚型网络中的每一个子结构,以得到MIBC新的亚型分类。
5.根据权利要求2所述的膀胱癌分子分型方法,其特征在于,利用所述第一预定数量的MIBC样本训练得到所述单样本mRNA分类模型,包括:
按照预定比例将所述第一预定数量的MIBC样本分为训练集和测试集;
分析所述训练集中每一个MIBC样本对应的亚型与其他亚型之间的差异基因,并得到差异数值小于预定阈值的多个基因;
对所述多个基因进行预定处理后,得到目标基因;
利用所述目标基因生成所述单样本mRNA分类模型。
6.一种膀胱癌分子分型装置,其特征在于,包括:
获取模块,用于获取肌肉浸润性膀胱癌MIBC样本;
处理模块,用于通过单样本mRNA分类模型对所述MIBC样本进行处理,得到所述MIBC样本的分子分型结果,其中,所述单样本mRNA分类模型是利用第一预定数量的MIBC样本进行训练得到的,所述第一预定数量的MIBC样本是从第二预定数量的MIBC样本中选择出来的样本。
7.根据权利要求6所述的膀胱癌分子分型装置,其特征在于,所述装置还包括:生成模块,用于在通过单样本mRNA分类模型对所述MIBC样本进行处理,得到所述MIBC样本的分子分型结果之前,生成所述单样本mRNA分类模型;
其中,所述生成模块,包括:
获取单元,用于获取所述第二预定数量的MIBC样本;
生成单元,用于利用所述第二预定数量的MIBC样本生成亚型网络;
筛选单元,用于利用所述亚型网络从所述第二预定数量的MIBC样本中筛选得到所述第一预定数量的MIBC样本;
训练单元,用于利用所述第一预定数量的MIBC样本训练得到所述单样本mRNA分类模型。
8.根据权利要求7所述的膀胱癌分子分型装置,其特征在于,所述生成单元,包括:
分子分型处理子单元,用于利用多种分类方式分别对所述第二预定数量的MIBC样本中的每一个MIBC样本进行分子分型处理,得到所述每一个MIBC样本分别采用所述多种分类方式进行分子分型的分类结果;
第一生成子单元,用于基于所述分类结果生成分类矩阵;
确定子单元,用于对所述分类矩阵中的每一列通过kappa度量方式确定所述每一列的kappa系数;
第二生成子单元,用于根据所述每一列的Kappa系数生成亚型之间的亚型网络,其中,所述亚型网络的每一个子结构分别对应一种亚型分类。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述计算机可读存储介质所在设备执行上述权利要求1至5中任一项所述的膀胱癌分子分型方法。
10.一种处理器,其特征在于,所述处理器用于运行计算机程序,其中,所述计算机程序运行时执行上述权利要求1至5中任一项所述的膀胱癌分子分型方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111680072.1A CN114005492A (zh) | 2021-12-31 | 2021-12-31 | 膀胱癌分子分型方法及其装置、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111680072.1A CN114005492A (zh) | 2021-12-31 | 2021-12-31 | 膀胱癌分子分型方法及其装置、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114005492A true CN114005492A (zh) | 2022-02-01 |
Family
ID=79932536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111680072.1A Pending CN114005492A (zh) | 2021-12-31 | 2021-12-31 | 膀胱癌分子分型方法及其装置、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114005492A (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360604A (zh) * | 2018-11-21 | 2019-02-19 | 南昌大学 | 一种卵巢癌分子分型预测系统 |
-
2021
- 2021-12-31 CN CN202111680072.1A patent/CN114005492A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360604A (zh) * | 2018-11-21 | 2019-02-19 | 南昌大学 | 一种卵巢癌分子分型预测系统 |
Non-Patent Citations (1)
Title |
---|
AURE´LIE KAMOUN等: "A Consensus Molecular Classification of Muscle-invasive Bladder Cancer", 《EUROPEAN UROLOGY》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6280997B1 (ja) | 疾患の罹患判定装置、疾患の罹患判定方法、疾患の特徴抽出装置及び疾患の特徴抽出方法 | |
Liebermeister | Linear modes of gene expression determined by independent component analysis | |
Wirth et al. | Mining SOM expression portraits: feature selection and integrating concepts of molecular function | |
CN110604550B (zh) | 一种肿瘤放疗后正常组织器官并发症预测模型的建立方法 | |
Golugula et al. | Evaluating feature selection strategies for high dimensional, small sample size datasets | |
Matos et al. | Research techniques made simple: mass cytometry analysis tools for decrypting the complexity of biological systems | |
US20140180599A1 (en) | Methods and apparatus for analyzing genetic information | |
CN115564756A (zh) | 医学图像病灶定位显示方法与系统 | |
Adhikari et al. | Recent advances in spatially variable gene detection in spatial transcriptomics | |
Tasoulis et al. | Unsupervised clustering of bioinformatics data | |
CN114005492A (zh) | 膀胱癌分子分型方法及其装置、计算机可读存储介质 | |
CN111048145B (zh) | 蛋白质预测模型的生成方法、装置、设备和存储介质 | |
Qiu et al. | Genomic processing for cancer classification and prediction-Abroad review of the recent advances in model-based genomoric and proteomic signal processing for cancer detection | |
Singh et al. | GeneAI 3.0: powerful, novel, generalized hybrid and ensemble deep learning frameworks for miRNA species classification of stationary patterns from nucleotides | |
CN114999661A (zh) | 皮肤癌识别模型的构建方法、皮肤癌识别装置、电子设备 | |
US20160378914A1 (en) | Method of and apparatus for identifying phenotype-specific gene network using gene expression data | |
US20230046438A1 (en) | Method for predicting cell spatial relation based on single-cell transcriptome sequencing data | |
Tsai et al. | Significance analysis of ROC indices for comparing diagnostic markers: applications to gene microarray data | |
CN113981081A (zh) | 一种基于rna编辑水平的乳腺癌分子标志物及诊断模型 | |
Zhong et al. | Cell segmentation and gene imputation for imaging-based spatial transcriptomics | |
CN113971984A (zh) | 分类模型构建方法及装置、电子设备、存储介质 | |
Ahmed et al. | Convolutional neural network for cancer treatment response prediction | |
Mosci et al. | Finding structured gene signatures | |
Kostadinova | Data Integration: an approach to improve the preprocessing and analysis of gene expression data | |
Bokdia et al. | Performance Analysis of Data Augmentation Techniques for Lung Cancer Classification using Microarray Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220201 |
|
RJ01 | Rejection of invention patent application after publication |