Nothing Special   »   [go: up one dir, main page]

CN116987789B - Utuc分子分型、单样本分类器及其构建方法 - Google Patents

Utuc分子分型、单样本分类器及其构建方法 Download PDF

Info

Publication number
CN116987789B
CN116987789B CN202310791539.2A CN202310791539A CN116987789B CN 116987789 B CN116987789 B CN 116987789B CN 202310791539 A CN202310791539 A CN 202310791539A CN 116987789 B CN116987789 B CN 116987789B
Authority
CN
China
Prior art keywords
lncrna
subtype
urinary tract
gene
upper urinary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310791539.2A
Other languages
English (en)
Other versions
CN116987789A (zh
Inventor
金鸽
赵婷婷
徐小红
曹建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Rendong Medical Laboratory Co ltd
Original Assignee
Shanghai Rendong Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Rendong Medical Laboratory Co ltd filed Critical Shanghai Rendong Medical Laboratory Co ltd
Priority to CN202310791539.2A priority Critical patent/CN116987789B/zh
Publication of CN116987789A publication Critical patent/CN116987789A/zh
Application granted granted Critical
Publication of CN116987789B publication Critical patent/CN116987789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/178Oligonucleotides characterized by their use miRNA, siRNA or ncRNA

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Oncology (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种上尿路尿路上皮癌分子分型方法,该方法依据上尿路尿路上皮癌患者的lncRNA特征对其进行分子分型。本发明还公开了用于鉴定上尿路尿路上皮癌分子分型的单样本分类器及其构建方法。本发明利用上尿路尿路上皮癌患者的转录组测序数据,分析得到患者的lncRNA丰度表达数据,然后通过筛选与预后相关的lncRNA并进行聚类,获得上尿路尿路上皮癌的分子分型,并进一步构建得到可鉴定上尿路尿路上皮癌分子分型的单样本分类器,从而从分子层面深度解析了患者lncRNA丰度表达特征对预后的影响,并有助于上尿路尿路上皮癌分子分型的准确鉴定和实际应用。

Description

UTUC分子分型、单样本分类器及其构建方法
技术领域
本发明涉及泌尿肿瘤医学领域,特别是涉及上尿路尿路上皮癌(upper urinarytract urothelial carcinoma,UTUC),更具体地说,是涉及UTUC的分子分型及单样本分类器的构建。
背景技术
UTUC是一类发生在肾盂及输尿管的尿路上皮癌(UC)。UTUC与膀胱尿路上皮癌(UBC)具有一些相同的临床病理特征,但其也具有独特性,比如发病隐匿、级别高、侵袭性强以及复发率高等。目前研究显示,性别、年龄、肿瘤分期分级、淋巴结转移等因素可能是影响其预后的危险因素。相较于UBC,目前对UTUC发生发展的分子机制研究有限,同时也缺乏精准的生物标志物用于分子分型和预后判断。
MD安德森癌症中心的Moss TJ等2017年在《Eur Urol》杂志上发表的研究(Moss TJ,Qi Y,Xi L,et al.Comprehensive genomic characterization of upper tracturothelial carcinoma[J].European urology,2017,72(4):641-649)首次报道了31例UTUC全外显子测序及RNA测序整合分析结果。全外显子测序(WES)分析结果显示,UTUC的高频突变为FGFR3、KMT2D、PIK3CA及TP53等。通过无监督聚类分析RNA测序数据将UTUC分为4型,特征分别如下:1)I型:无PIK3CA突变,无吸烟史,高级别<pT2肿瘤,高复发;2)Ⅱ型:100% FGFR3突变,低级别肿瘤,有吸烟史,非肌层浸润疾病,无复发;3)Ⅲ型:100% FGFR3突变,71% PIK3CA突变,无TP53突变,5人复发,有吸烟史,肿瘤分期<pT2;4)Ⅳ型:62.5%KMT2D突变,50% FGFR3突变,50% TP53突变,无PIK3CA突变,高级别肿瘤,有吸烟史,原位癌,生存期短。
2019年,威尔康奈尔医学院病理与检验医学中心的Robinson BD等描述了37例高级别UTUC的分子特征,通过整合分析WES和RNA-seq测序数据发现,绝大多数UTUC为管腔-乳头状型。UTUC具有T细胞耗竭的免疫环境,高表达FGFR3。此外,散发性的UTUC的肿瘤突变负荷低于UBC。
2021年,日本京都大学Seishi Ogawa研究组,通过整合分析199例UTUC样本的基因突变、拷贝数变异、DNA甲基化及基因表达特征全面描绘分子发病机理。首先通过TP53、MDM2、RAS和FGFR3的基因突变状态将UTUC分为5型:超突变型(5.5%),TP53/MDM2型(37.7%),RAS型(HRAS/KRAS/NRAS,15.1%)、FGFR3型(35.2%)以及三阴型(6.5%)。此外,通过对158个UTUC样本进行RNA测序并进行无差聚类分析,鉴定出了C1-C5五种表达谱亚型。大多数FGFR3突变和大多数超突变亚型分类在C1表达谱亚型中,TP53/MDM2突变和三阴性亚型主要分类在C3-C5表达谱亚型之中,而大多数情况下在RAS突变亚型和FGFR3其中一个子集的突变情况下属于C2表达谱亚型。作者们还根据肿瘤特异性CpG岛的DNA甲基化状态进行了无差聚类分析,得到了DNA甲基化不同状态的三个亚类。
总体而言,目前对于UTUC的分子分型研究很少,且主要基于基因组及mRNA转录组数据,迫切需要整合其他维度的组学信息进一步全面探究疾病的侵袭、复发与进展的生物学过程。lncRNA(Long non-coding RNA,长链非编码RNA)是指长度大于200个核苷酸的非编码RNA,具有高度的异质性,主要参与基因转录调控、转录后调控、翻译调控、介导染色体修饰等。lncRNA可从体液、组织和细胞中无创提取。近年来,lncRNA受到了广泛的关注,被认为与发育过程和各种疾病有关。
发明内容
本发明要解决的技术问题之一是提供一种上尿路尿路上皮癌分子分型方法,它可以从lncRNA层面解析不同UTUC患者之间预后的差异。
为解决上述技术问题,本发明的上尿路尿路上皮癌分子分型方法,依据上尿路尿路上皮癌患者的lncRNA特征对上尿路尿路上皮癌进行分子分型,具体方法包括以下步骤:
1)获取上尿路尿路上皮癌患者肿瘤组织转录组测序数据和临床信息;
2)将步骤1)所得测序数据比对至人类参考基因组,并用所述参考基因组对应版本的GTF基因注释文件对基因进行注释;
3)对步骤2)注释到的基因进行定量、过滤、标准化处理和log2转换;
4)筛选与上尿路尿路上皮癌预后相关并在所有患者样本中丰度表达值变化较大的lncRNA作为候选的分型特征;
5)基于步骤4)所得候选分型特征的表达矩阵,对所有患者样本进行聚类分析,得到上尿路尿路上皮癌的最佳分子分型结果。
上述步骤1),所述临床信息包括无进展生存时间和无进展生存状态。
上述步骤3),所述标准化处理优选采用TPM标准化处理方法。
上述步骤4),优选依次用单因素Cox比例风险模型、LASSO模型、绝对中位差值筛选分型特征。
上述步骤5),优选采用共识聚类分析方法。所述最佳分子分型结果是将上尿路尿路上皮癌分为Ⅰ型、Ⅱ型和Ⅲ型三种分子亚型。
本发明要解决的技术问题之二是提供一组上尿路尿路上皮癌分子分型标志物,该组标志物包括以下表1中所示的46个lncRNA:
表1
ENSG00000235491 ENSG00000203706
ENSG00000228873 ENSG00000283684
ENSG00000259439 ENSG00000285280
ENSG00000226674 ENSG00000231246
ENSG00000204588 ENSG00000289326
ENSG00000240040 ENSG00000125462
ENSG00000224165 ENSG00000224616
ENSG00000289062 ENSG00000224559
ENSG00000225087 ENSG00000226780
ENSG00000203709 ENSG00000229021
ENSG00000233593 ENSG00000225643
ENSG00000175147 ENSG00000225077
ENSG00000291077 ENSG00000287670
ENSG00000189223 ENSG00000289305
ENSG00000226994 ENSG00000286572
ENSG00000227088 ENSG00000230186
ENSG00000289033 ENSG00000228971
ENSG00000238122 ENSG00000287064
ENSG00000228794 ENSG00000224875
ENSG00000228044 ENSG00000287628
ENSG00000289077 ENSG00000287305
ENSG00000228852 ENSG00000231407
ENSG00000289483 ENSG00000288007
本发明要解决的技术问题之三是提供一种上尿路尿路上皮癌分型单样本分类器。该单样本分类器主要包括存储模块和相关性计算模块,所述存储模块存储有UTUC的全部亚型特异性lncRNA特征分别在UTUC各个亚型样本中的丰度表达中心点值;所述相关性计算模块用于计算需要鉴定亚型类别的UTUC样本中全部亚型特异性lncRNA特征的丰度表达值与所述存储模块存储的每个亚型的特异性lncRNA特征的丰度表达中心点值之间的相关性(可以是皮尔森相关性或斯皮尔曼相关性)。
本发明要解决的技术问题之四是提供上述上尿路尿路上皮癌分型单样本分类器的构建方法,该方法具体包括如下步骤:
1)获取上尿路尿路上皮癌患者肿瘤组织转录组测序数据;
2)将步骤1)所得测序数据比对至人类参考基因组,并用所述参考基因组对应版本的GTF基因注释文件对基因进行注释;
3)对步骤2)注释到的基因进行定量、过滤、标准化处理和log2转换;
4)针对每个分子亚型,计算步骤3)所得每个lncRNA预测亚型的AUC值,保留AUC值大于0.7的lncRNA作为该亚型的特异性lncRNA特征;
5)对步骤4)筛选出的特异性lncRNA特征进行合并去重,得到上尿路尿路上皮癌的全部亚型特异性lncRNA特征;
6)计算步骤5)所得每个特异性lncRNA特征在各个亚型样本中的平均丰度表达值,作为该特异性lncRNA特征的丰度表达中心点值,最终每个亚型获得一组包含全部亚型特异性lncRNA特征中心点值的数据。
本发明要解决的技术问题之五是提供应用上述单样本分类器对UTUC样本进行分型鉴定的方法,该方法包括以下步骤:
计算需要鉴定亚型类别的UTUC样本中全部亚型特异性lncRNA特征的丰度表达值与每个亚型对应的一组包含全部亚型特异性lncRNA特征的丰度表达中心点值之间的相关性,将该样本归类于最高相关性对应的亚型。
UTUC的全部亚型特异性lncRNA特征及其在UTUC的Ⅰ型、Ⅱ型和Ⅲ型三个分子亚型样本中的丰度表达中心点值优选如表3所示:
表3
本发明利用UTUC的转录组测序数据分析得到lncRNA数据,然后筛选与UTUC预后相关的lncRNA进行共识聚类,获得了UTUC基于lncRNA的3种分子分型;同时,本发明通过筛选每个分子亚型对应的特异性lncRNA特征,进一步构建了UTUC单样本分类器,该单样本分类器可以鉴定UTUC患者的lncRNA分子分型,从而实现对UTUC患者的亚型鉴定和预后分层。
附图说明
图1是本发明实施例1k=3时的共识聚类图。
图2是本发明实施例1基于lncRNA的三个分子分型与无进展生存率(progression-free survival,PFS)显著相关。
图3是本发明实施例2利用单样本分类器对TCGA公共数据库中的403例UTUC样本进行分型后,不同分型之间的预后差异。
具体实施方式
为对本发明的技术内容、特点与功效有更具体的了解,现结合附图及具体实施例,对本发明的技术方案做进一步详细的说明:
实施例1基于lncRNA的UTUC分子分型
一、收集UTUC的lncRNA丰度表达数据及临床数据
从EGA公共数据库上下载数据号为EGAD00001007667的156例UTUC患者肿瘤组织转录组测序(RNA-seq)数据,数据类型为比对到人类参考基因组hg19的BMA文件。从GENCODE网站下载hg19对应的GTF基因注释文件gencode.v43lift37.annotation.gtf,然后利用featureCounts工具对基因进行注释和定量,保留在GTF基因注释文件中基因类型为“lncRNA”的基因以及表达丰度中位值大于0的基因,最终得到7698个lncRNA。
对上述7698个lncRNA的丰度表达值进行TPM标准化和log2转换,得到标准化后的lncRNA丰度表达值,TPM标准化转换公式为:
其中,i为样本编号,j为基因编号,Rij为样本i基因j的reads count数值,Fij为样本i基因j的FPKM(Fragments Per Kilobase of exon model per Million mappedfragments,每千个碱基的转录每百万映射读取的fragments)数值,Lj为基因j的编码区域长度,Ti为样本i的测序reads数量。
另外,收集上述156例患者对应的临床信息,包括无进展生存时间和无进展生存状态。
二、挑选与UTUC预后相关的lncRNA
依次利用单因素Cox比例风险模型、LASSO模型以及绝对中位差值对上述7698个lncRNA进行筛选:首先筛选得到在单因素Cox比例风险模型分析中统计学检验p值小于0.05的lncRNA,对于这些lncRNA;再循环进行100次LASSO模型分析,选择在60次以上的结果中系数均非零的lncRNA,这些lncRNA认为是与患者无进展生存率存在显著关联的lncRNA;最后计算这些与预后相关的lncRNA的绝对中位差值,选择绝对中位差值从大到小排在前50%的lncRNA作为候选的分型特征,得到与预后相关且丰度表达变化较大的46个lncRNA(这些lncRNA在Ensembl数据库的基因ID参见表1所示)。
表1与UTUC预后相关且丰度表达变化较大的46个lncRNA
ENSG00000235491 ENSG00000203706
ENSG00000228873 ENSG00000283684
ENSG00000259439 ENSG00000285280
ENSG00000226674 ENSG00000231246
ENSG00000204588 ENSG00000289326
ENSG00000240040 ENSG00000125462
ENSG00000224165 ENSG00000224616
ENSG00000289062 ENSG00000224559
ENSG00000225087 ENSG00000226780
ENSG00000203709 ENSG00000229021
ENSG00000233593 ENSG00000225643
ENSG00000175147 ENSG00000225077
ENSG00000291077 ENSG00000287670
ENSG00000189223 ENSG00000289305
ENSG00000226994 ENSG00000286572
ENSG00000227088 ENSG00000230186
ENSG00000289033 ENSG00000228971
ENSG00000238122 ENSG00000287064
ENSG00000228794 ENSG00000224875
ENSG00000228044 ENSG00000287628
ENSG00000289077 ENSG00000287305
ENSG00000228852 ENSG00000231407
ENSG00000289483 ENSG00000288007
三、共识聚类得到分子分型
基于上述筛选得到的46个与UTUC预后相关的lncRNA,利用CancerSubtypes包,对所有患者样本进行共识聚类,设定聚类算法为“pam”,距离计算方法为“pearson”,聚类数为2-4,计算2-4型的样本平均轮廓系数,确定平均轮廓系数最大的3型(k=3)为最佳聚类结果,得到最终基于lncRNA的UTUC分子分型结果(参见图1所示),其中,61例患者属于Ⅰ型,34例患者属于Ⅱ型,61例患者属于Ⅲ型。
四、分子分型的预后分层能力验证
基于上述得到的UTUC分子分型结果,利用单因素Kaplan-Meier生存分析计算三个分型之间的预后差异,如图2所示,Ⅰ型预后最好,其次是Ⅲ型,Ⅱ型预后最差,三型间logrank test检验差异p值小于0.001,说明不同分型的UTUC患者之间无进展生存率存在显著差异,说明本实施例的分子分型可以对UTUC患者的预后风险进行区分。
实施例2UTUC分型鉴定
一、基于分子分型标签构建单样本分类器
(1)筛选亚型特异性lncRNA特征
利用实施例1收集到的156例样本的7698个lncRNA,针对每个UTUC分子亚型,使用R包pROC的auc函数计算每个lncRNA预测亚型的AUC值,保留AUC值大于0.7的lncRNA作为该亚型的特异性特征。其中Ⅰ型得到7个特异性lncRNA特征,Ⅱ型得到148个特异性lncRNA特征,Ⅲ型得到6个特异性lncRNA特征,其中有3个特异性lncRNA特征在两个亚型中重复出现,将所有特异性lncRNA特征合并去重后,最终得到158个亚型特异性lncRNA特征(在Ensembl数据库中的基因ID参见表2所示)。
表2UTUC 3个亚型的特异性lncRNA特征
(2)计算每个亚型特异性lncRNA特征的丰度表达的中心点值
计算158个特异性lncRNA特征分别在三个亚型样本中的平均表达值,作为该特异性lncRNA特征的中心点值,最终每个亚型都得到一组包含所有特异性lncRNA特征中心点值的数据(参见表3所示),该组数据可用于UTUC单样本分类。
表3 158个亚型特异性lncRNA特征的中心点值
二、新样本UTUC分子分型鉴定
从TCGA公共数据库中下载尿路上皮癌数据集,包括403例基因丰度表达矩阵及临床信息(包括总生存期)齐全的尿路上皮癌样本,用于验证本实施例构建的上述单样本分类器的效果。计算这些样本中158个亚型特异性lncRNA特征的丰度表达值与上述表3中每个亚型的特异性lncRNA特征中心点值的皮尔森相关性,当皮尔森相关性最高时,该样本属于该最高相关性对应的亚型,最后鉴定到111个样本属于Ⅰ型,180个样本属于Ⅱ型,112个样本属于Ⅲ型。
基于上述得到的分子分型结果,利用单因素Kaplan-Meier生存分析计算三个分型之间的预后差异,如图3所示,Ⅰ型预后最好,其次是Ⅲ型,Ⅱ型预后最差,三型间log ranktest检验差异p值小于0.05,与先前的分型差异趋势一致,说明本实施例的单样本分类器可以对新样本UTUC分子分型进行鉴定。
上述实施例仅为本发明的可行或较佳实施例而已,是用来说明本发明的,并非用以限制本发明申请专利的范围,因此,凡依本发明申请专利范围所作的均等变化与修饰,均应属于本发明专利涵盖的范围。

Claims (14)

1.检测lncRNA表达水平的试剂在制备上尿路尿路上皮癌分子分型试剂中的应用,其特征在于,依据上尿路尿路上皮癌患者的lncRNA特征对上尿路尿路上皮癌进行分子分型;所述lncRNA包括下表所示的46个lncRNA:
ENSG00000235491 ENSG00000203706 ENSG00000228873 ENSG00000283684 ENSG00000259439 ENSG00000285280 ENSG00000226674 ENSG00000231246 ENSG00000204588 ENSG00000289326 ENSG00000240040 ENSG00000125462 ENSG00000224165 ENSG00000224616 ENSG00000289062 ENSG00000224559 ENSG00000225087 ENSG00000226780 ENSG00000203709 ENSG00000229021 ENSG00000233593 ENSG00000225643 ENSG00000175147 ENSG00000225077 ENSG00000291077 ENSG00000287670 ENSG00000189223 ENSG00000289305 ENSG00000226994 ENSG00000286572 ENSG00000227088 ENSG00000230186 ENSG00000289033 ENSG00000228971 ENSG00000238122 ENSG00000287064 ENSG00000228794 ENSG00000224875 ENSG00000228044 ENSG00000287628 ENSG00000289077 ENSG00000287305 ENSG00000228852 ENSG00000231407 ENSG00000289483 ENSG00000288007
2.根据权利要求1所述的应用,其特征在于,包括以下步骤:
1)获取上尿路尿路上皮癌患者肿瘤组织转录组测序数据和临床信息;
2)将步骤1)所得测序数据比对至人类参考基因组,并用所述参考基因组对应版本的GTF基因注释文件对基因进行注释;
3)对步骤2)注释到的基因进行定量、过滤、标准化处理和log2转换;
4)筛选与上尿路尿路上皮癌预后相关并在所有患者样本中丰度表达值变化较大的lncRNA作为候选的分型特征;
5)基于步骤4)所得候选分型特征的表达矩阵,对所有患者样本进行聚类分析,得到上尿路尿路上皮癌的最佳分子分型结果。
3.根据权利要求2所述的应用,其特征在于,步骤1),所述临床信息包括无进展生存时间和无进展生存状态。
4.根据权利要求2所述的应用,其特征在于,步骤3),所述过滤包括:保留在GTF基因注释文件中基因类型为“lncRNA”及表达丰度中位值大于0的基因。
5.根据权利要求2所述的应用,其特征在于,步骤3),所述标准化处理采用TPM标准化方法,TPM标准化转换公式为:
其中,i为样本编号,j为基因编号,Rij为样本i基因j的reads count数值,Fij为样本i基因j的FPKM数值,Lj为基因j的编码区域长度,Ti为样本i的测序reads数量。
6.根据权利要求2所述的应用,其特征在于,步骤4),依次用单因素Cox比例风险模型、LASSO模型、绝对中位差值筛选分型特征。
7.根据权利要求6所述的应用,其特征在于,步骤4),筛选方法包括:筛选出单因素Cox比例风险模型分析所得p值小于0.05的lncRNA,循环进行100次LASSO模型分析,保留在60次以上的循环结果中系数均非零的lncRNA,计算这些lncRNA的绝对中位差值并从大到小排列,选择绝对中位差值排在前50%的lncRNA作为候选的分型特征。
8.根据权利要求2所述的应用,其特征在于,步骤5),采用共识聚类分析,通过计算平均轮廓系数,确定平均轮廓系数最高的聚类为最佳聚类结果。
9.根据权利要求2所述的应用,其特征在于,步骤5),所述最佳分子分型结果是将上尿路尿路上皮癌分为Ⅰ型、Ⅱ型和Ⅲ型三种分子亚型。
10.上尿路尿路上皮癌分子分型标志物,其特征在于,包括下表中所示的46个lncRNA:
11.上尿路尿路上皮癌分型单样本分类器,其特征在于,所述分类器包括存储模块和相关性计算模块,所述存储模块存储有UTUC的全部亚型特异性lncRNA特征分别在UTUC各个亚型样本中的丰度表达中心点值;所述相关性计算模块用于计算需要鉴定亚型类别的UTUC样本中全部亚型特异性lncRNA特征的丰度表达值与所述存储模块存储的每个亚型的特异性lncRNA特征的丰度表达中心点值之间的相关性;所述亚型特异性lncRNA特征及其在上尿路尿路上皮癌三个分子亚型样本中的丰度表达中心点值如下表所示:
12.权利要求11所述上尿路尿路上皮癌分型单样本分类器的构建方法,所述方法非用于疾病的诊断和治疗目的,其特征在于,包括如下步骤:
1)获取上尿路尿路上皮癌患者肿瘤组织转录组测序数据;
2)将步骤1)所得测序数据比对至人类参考基因组,并用所述参考基因组对应版本的GTF基因注释文件对基因进行注释;
3)对步骤2)注释到的基因进行定量、过滤、标准化处理和log2转换;
4)针对每个分子亚型,计算步骤3)所得每个lncRNA预测亚型的AUC值,保留AUC值大于0.7的lncRNA作为该亚型的特异性lncRNA特征;
5)对步骤4)筛选出的特异性lncRNA特征进行合并去重,得到上尿路尿路上皮癌的全部亚型特异性lncRNA特征;
6)计算步骤5)所得每个特异性lncRNA特征在各个亚型样本中的平均丰度表达值,作为该特异性lncRNA特征的丰度表达中心点值,最终每个亚型获得一组包含全部亚型特异性lncRNA特征中心点值的数据,如下表所示:
13.根据权利要求12所述的方法,其特征在于,步骤3),所述过滤包括:保留在GTF基因注释文件中基因类型为“lncRNA”及表达丰度中位值大于0的基因。
14.根据权利要求12所述的方法,其特征在于,步骤3),所述标准化处理采用TPM标准化方法,TPM标准化转换公式为:
其中,i为样本编号,j为基因编号,Rij为样本i基因j的reads count数值,Fij为样本i基因j的FPKM数值,Lj为基因j的编码区域长度,Ti为样本i的测序reads数量。
CN202310791539.2A 2023-06-30 2023-06-30 Utuc分子分型、单样本分类器及其构建方法 Active CN116987789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310791539.2A CN116987789B (zh) 2023-06-30 2023-06-30 Utuc分子分型、单样本分类器及其构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310791539.2A CN116987789B (zh) 2023-06-30 2023-06-30 Utuc分子分型、单样本分类器及其构建方法

Publications (2)

Publication Number Publication Date
CN116987789A CN116987789A (zh) 2023-11-03
CN116987789B true CN116987789B (zh) 2024-07-26

Family

ID=88533034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310791539.2A Active CN116987789B (zh) 2023-06-30 2023-06-30 Utuc分子分型、单样本分类器及其构建方法

Country Status (1)

Country Link
CN (1) CN116987789B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103558395B (zh) * 2013-10-28 2015-08-26 深圳市第二人民医院 Smad3基因在检测上尿路上皮癌中的应用
EP3665308A1 (en) * 2017-08-07 2020-06-17 The Johns Hopkins University Methods and materials for assessing and treating cancer
KR102216645B1 (ko) * 2018-10-29 2021-02-17 사회복지법인 삼성생명공익재단 폐암의 분자 아형 결정을 위한 바이오마커 패널 및 이의 용도
CN111833965B (zh) * 2019-11-08 2024-06-04 中国科学院北京基因组研究所(国家生物信息中心) 一种尿沉渣基因组dna的分类方法、装置和用途
CN114203256B (zh) * 2022-02-18 2022-06-21 上海仁东医学检验所有限公司 基于微生物丰度的mibc分型及预后预测模型构建方法
CN114582425A (zh) * 2022-03-14 2022-06-03 上海交通大学医学院附属仁济医院 Nmibc预后预测分子标志物、筛选方法及建模方法

Also Published As

Publication number Publication date
CN116987789A (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
JP7169002B2 (ja) 癌の検出のための血漿dna中のサイズ及び数異常の使用
US20230170048A1 (en) Systems and methods for classifying patients with respect to multiple cancer classes
CN113257350B (zh) 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置
CN117778576A (zh) 游离dna末端特征
EP3658684B1 (en) Enhancement of cancer screening using cell-free viral nucleic acids
US20240249798A1 (en) Systems and methods for enriching for cancer-derived fragments using fragment size
Waldron et al. Expression profiling of archival tumors for long-term health studies
CN115807089B (zh) 肝细胞肝癌预后生物标志物及应用
WO2020237184A1 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
CN115418401A (zh) 用于膀胱癌的尿监测的诊断测定
WO2021150990A1 (en) Small rna disease classifiers
CN113862351A (zh) 体液样本中鉴定胞外rna生物标志物的试剂盒及方法
CN111223525A (zh) 一种肿瘤外显子测序数据分析方法
CN116987789B (zh) Utuc分子分型、单样本分类器及其构建方法
CN116656829B (zh) 一种预测胃癌不良预后的基因标志物组合、试剂盒及系统
Feng et al. Comprehensive genomics analysis of aging related gene signature to predict the prognosis and drug resistance of colon adenocarcinoma
CN110819700A (zh) 一种构建肺部小结节计算机辅助检测模型的方法
CN117558346A (zh) Utuc分子分型及预后预测模型构建方法
JP2024527142A (ja) リキッドバイオプシーにおける変異検出の方法
EP4392781A1 (en) Random epigenomic sampling
Olman et al. Gene expression data analysis in subtypes of ovarian cancer using covariance analysis
CN117625793A (zh) 一种卵巢癌生物标志物的筛选方法及其应用
CN117070628A (zh) 胰腺癌预后预测的产品、模型、系统、装置及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant