CN116987789B - Utuc分子分型、单样本分类器及其构建方法 - Google Patents
Utuc分子分型、单样本分类器及其构建方法 Download PDFInfo
- Publication number
- CN116987789B CN116987789B CN202310791539.2A CN202310791539A CN116987789B CN 116987789 B CN116987789 B CN 116987789B CN 202310791539 A CN202310791539 A CN 202310791539A CN 116987789 B CN116987789 B CN 116987789B
- Authority
- CN
- China
- Prior art keywords
- lncrna
- subtype
- urinary tract
- gene
- upper urinary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000031128 Upper tract urothelial carcinoma Diseases 0.000 title claims description 52
- 238000010276 construction Methods 0.000 title abstract description 6
- 108020005198 Long Noncoding RNA Proteins 0.000 claims abstract description 42
- 230000014509 gene expression Effects 0.000 claims abstract description 40
- 206010044412 transitional cell carcinoma Diseases 0.000 claims abstract description 37
- 210000001635 urinary tract Anatomy 0.000 claims abstract description 34
- 238000004393 prognosis Methods 0.000 claims abstract description 21
- 238000012163 sequencing technique Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 10
- 108090000623 proteins and genes Proteins 0.000 claims description 40
- 239000000523 sample Substances 0.000 claims description 33
- 206010028980 Neoplasm Diseases 0.000 claims description 14
- 230000004083 survival effect Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 210000001519 tissue Anatomy 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000007621 cluster analysis Methods 0.000 claims description 5
- 239000013610 patient sample Substances 0.000 claims description 5
- 208000023747 urothelial carcinoma Diseases 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 201000010099 disease Diseases 0.000 claims description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 108091026890 Coding region Proteins 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 201000011510 cancer Diseases 0.000 claims description 2
- 210000003741 urothelium Anatomy 0.000 claims description 2
- 239000003153 chemical reaction reagent Substances 0.000 claims 2
- 201000009030 Carcinoma Diseases 0.000 claims 1
- 208000006593 Urologic Neoplasms Diseases 0.000 claims 1
- 238000003745 diagnosis Methods 0.000 claims 1
- 238000003205 genotyping method Methods 0.000 claims 1
- 239000003550 marker Substances 0.000 claims 1
- 238000002360 preparation method Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 53
- 230000035772 mutation Effects 0.000 description 14
- 102100027842 Fibroblast growth factor receptor 3 Human genes 0.000 description 8
- 101710182396 Fibroblast growth factor receptor 3 Proteins 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 8
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 6
- 102000015098 Tumor Suppressor Protein p53 Human genes 0.000 description 6
- 238000003559 RNA-seq method Methods 0.000 description 5
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 4
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 4
- 230000000391 smoking effect Effects 0.000 description 4
- 230000007067 DNA methylation Effects 0.000 description 3
- 102000012199 E3 ubiquitin-protein ligase Mdm2 Human genes 0.000 description 3
- 108050002772 E3 ubiquitin-protein ligase Mdm2 Proteins 0.000 description 3
- 101150040459 RAS gene Proteins 0.000 description 3
- 101150076031 RAS1 gene Proteins 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 102000016914 ras Proteins Human genes 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 206010064571 Gene mutation Diseases 0.000 description 2
- 102100027768 Histone-lysine N-methyltransferase 2D Human genes 0.000 description 2
- 101001008894 Homo sapiens Histone-lysine N-methyltransferase 2D Proteins 0.000 description 2
- 238000010824 Kaplan-Meier survival analysis Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001325 log-rank test Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- -1 15.1%) Proteins 0.000 description 1
- VTAKZNRDSPNOAU-UHFFFAOYSA-M 2-(chloromethyl)oxirane;hydron;prop-2-en-1-amine;n-prop-2-enyldecan-1-amine;trimethyl-[6-(prop-2-enylamino)hexyl]azanium;dichloride Chemical compound Cl.[Cl-].NCC=C.ClCC1CO1.CCCCCCCCCCNCC=C.C[N+](C)(C)CCCCCCNCC=C VTAKZNRDSPNOAU-UHFFFAOYSA-M 0.000 description 1
- 208000009458 Carcinoma in Situ Diseases 0.000 description 1
- 229920002905 Colesevelam Polymers 0.000 description 1
- 108091029523 CpG island Proteins 0.000 description 1
- 108091008794 FGF receptors Proteins 0.000 description 1
- 102100029974 GTPase HRas Human genes 0.000 description 1
- 102100039788 GTPase NRas Human genes 0.000 description 1
- 101000584633 Homo sapiens GTPase HRas Proteins 0.000 description 1
- 101000744505 Homo sapiens GTPase NRas Proteins 0.000 description 1
- 238000012351 Integrated analysis Methods 0.000 description 1
- 208000007433 Lymphatic Metastasis Diseases 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 208000037280 Trisomy Diseases 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 206010005084 bladder transitional cell carcinoma Diseases 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 102000052178 fibroblast growth factor receptor activity proteins Human genes 0.000 description 1
- 230000002962 histologic effect Effects 0.000 description 1
- 201000004933 in situ carcinoma Diseases 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 210000000244 kidney pelvis Anatomy 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 230000004784 molecular pathogenesis Effects 0.000 description 1
- 230000002632 myometrial effect Effects 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000001124 posttranscriptional effect Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 210000000626 ureter Anatomy 0.000 description 1
- 210000003932 urinary bladder Anatomy 0.000 description 1
- 230000002485 urinary effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 229940111503 welchol Drugs 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/112—Disease subtyping, staging or classification
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/178—Oligonucleotides characterized by their use miRNA, siRNA or ncRNA
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Pathology (AREA)
- Analytical Chemistry (AREA)
- Zoology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Immunology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Wood Science & Technology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Oncology (AREA)
- General Engineering & Computer Science (AREA)
- Hospice & Palliative Care (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种上尿路尿路上皮癌分子分型方法,该方法依据上尿路尿路上皮癌患者的lncRNA特征对其进行分子分型。本发明还公开了用于鉴定上尿路尿路上皮癌分子分型的单样本分类器及其构建方法。本发明利用上尿路尿路上皮癌患者的转录组测序数据,分析得到患者的lncRNA丰度表达数据,然后通过筛选与预后相关的lncRNA并进行聚类,获得上尿路尿路上皮癌的分子分型,并进一步构建得到可鉴定上尿路尿路上皮癌分子分型的单样本分类器,从而从分子层面深度解析了患者lncRNA丰度表达特征对预后的影响,并有助于上尿路尿路上皮癌分子分型的准确鉴定和实际应用。
Description
技术领域
本发明涉及泌尿肿瘤医学领域,特别是涉及上尿路尿路上皮癌(upper urinarytract urothelial carcinoma,UTUC),更具体地说,是涉及UTUC的分子分型及单样本分类器的构建。
背景技术
UTUC是一类发生在肾盂及输尿管的尿路上皮癌(UC)。UTUC与膀胱尿路上皮癌(UBC)具有一些相同的临床病理特征,但其也具有独特性,比如发病隐匿、级别高、侵袭性强以及复发率高等。目前研究显示,性别、年龄、肿瘤分期分级、淋巴结转移等因素可能是影响其预后的危险因素。相较于UBC,目前对UTUC发生发展的分子机制研究有限,同时也缺乏精准的生物标志物用于分子分型和预后判断。
MD安德森癌症中心的Moss TJ等2017年在《Eur Urol》杂志上发表的研究(Moss TJ,Qi Y,Xi L,et al.Comprehensive genomic characterization of upper tracturothelial carcinoma[J].European urology,2017,72(4):641-649)首次报道了31例UTUC全外显子测序及RNA测序整合分析结果。全外显子测序(WES)分析结果显示,UTUC的高频突变为FGFR3、KMT2D、PIK3CA及TP53等。通过无监督聚类分析RNA测序数据将UTUC分为4型,特征分别如下:1)I型:无PIK3CA突变,无吸烟史,高级别<pT2肿瘤,高复发;2)Ⅱ型:100% FGFR3突变,低级别肿瘤,有吸烟史,非肌层浸润疾病,无复发;3)Ⅲ型:100% FGFR3突变,71% PIK3CA突变,无TP53突变,5人复发,有吸烟史,肿瘤分期<pT2;4)Ⅳ型:62.5%KMT2D突变,50% FGFR3突变,50% TP53突变,无PIK3CA突变,高级别肿瘤,有吸烟史,原位癌,生存期短。
2019年,威尔康奈尔医学院病理与检验医学中心的Robinson BD等描述了37例高级别UTUC的分子特征,通过整合分析WES和RNA-seq测序数据发现,绝大多数UTUC为管腔-乳头状型。UTUC具有T细胞耗竭的免疫环境,高表达FGFR3。此外,散发性的UTUC的肿瘤突变负荷低于UBC。
2021年,日本京都大学Seishi Ogawa研究组,通过整合分析199例UTUC样本的基因突变、拷贝数变异、DNA甲基化及基因表达特征全面描绘分子发病机理。首先通过TP53、MDM2、RAS和FGFR3的基因突变状态将UTUC分为5型:超突变型(5.5%),TP53/MDM2型(37.7%),RAS型(HRAS/KRAS/NRAS,15.1%)、FGFR3型(35.2%)以及三阴型(6.5%)。此外,通过对158个UTUC样本进行RNA测序并进行无差聚类分析,鉴定出了C1-C5五种表达谱亚型。大多数FGFR3突变和大多数超突变亚型分类在C1表达谱亚型中,TP53/MDM2突变和三阴性亚型主要分类在C3-C5表达谱亚型之中,而大多数情况下在RAS突变亚型和FGFR3其中一个子集的突变情况下属于C2表达谱亚型。作者们还根据肿瘤特异性CpG岛的DNA甲基化状态进行了无差聚类分析,得到了DNA甲基化不同状态的三个亚类。
总体而言,目前对于UTUC的分子分型研究很少,且主要基于基因组及mRNA转录组数据,迫切需要整合其他维度的组学信息进一步全面探究疾病的侵袭、复发与进展的生物学过程。lncRNA(Long non-coding RNA,长链非编码RNA)是指长度大于200个核苷酸的非编码RNA,具有高度的异质性,主要参与基因转录调控、转录后调控、翻译调控、介导染色体修饰等。lncRNA可从体液、组织和细胞中无创提取。近年来,lncRNA受到了广泛的关注,被认为与发育过程和各种疾病有关。
发明内容
本发明要解决的技术问题之一是提供一种上尿路尿路上皮癌分子分型方法,它可以从lncRNA层面解析不同UTUC患者之间预后的差异。
为解决上述技术问题,本发明的上尿路尿路上皮癌分子分型方法,依据上尿路尿路上皮癌患者的lncRNA特征对上尿路尿路上皮癌进行分子分型,具体方法包括以下步骤:
1)获取上尿路尿路上皮癌患者肿瘤组织转录组测序数据和临床信息;
2)将步骤1)所得测序数据比对至人类参考基因组,并用所述参考基因组对应版本的GTF基因注释文件对基因进行注释;
3)对步骤2)注释到的基因进行定量、过滤、标准化处理和log2转换;
4)筛选与上尿路尿路上皮癌预后相关并在所有患者样本中丰度表达值变化较大的lncRNA作为候选的分型特征;
5)基于步骤4)所得候选分型特征的表达矩阵,对所有患者样本进行聚类分析,得到上尿路尿路上皮癌的最佳分子分型结果。
上述步骤1),所述临床信息包括无进展生存时间和无进展生存状态。
上述步骤3),所述标准化处理优选采用TPM标准化处理方法。
上述步骤4),优选依次用单因素Cox比例风险模型、LASSO模型、绝对中位差值筛选分型特征。
上述步骤5),优选采用共识聚类分析方法。所述最佳分子分型结果是将上尿路尿路上皮癌分为Ⅰ型、Ⅱ型和Ⅲ型三种分子亚型。
本发明要解决的技术问题之二是提供一组上尿路尿路上皮癌分子分型标志物,该组标志物包括以下表1中所示的46个lncRNA:
表1
ENSG00000235491 | ENSG00000203706 |
ENSG00000228873 | ENSG00000283684 |
ENSG00000259439 | ENSG00000285280 |
ENSG00000226674 | ENSG00000231246 |
ENSG00000204588 | ENSG00000289326 |
ENSG00000240040 | ENSG00000125462 |
ENSG00000224165 | ENSG00000224616 |
ENSG00000289062 | ENSG00000224559 |
ENSG00000225087 | ENSG00000226780 |
ENSG00000203709 | ENSG00000229021 |
ENSG00000233593 | ENSG00000225643 |
ENSG00000175147 | ENSG00000225077 |
ENSG00000291077 | ENSG00000287670 |
ENSG00000189223 | ENSG00000289305 |
ENSG00000226994 | ENSG00000286572 |
ENSG00000227088 | ENSG00000230186 |
ENSG00000289033 | ENSG00000228971 |
ENSG00000238122 | ENSG00000287064 |
ENSG00000228794 | ENSG00000224875 |
ENSG00000228044 | ENSG00000287628 |
ENSG00000289077 | ENSG00000287305 |
ENSG00000228852 | ENSG00000231407 |
ENSG00000289483 | ENSG00000288007 |
。
本发明要解决的技术问题之三是提供一种上尿路尿路上皮癌分型单样本分类器。该单样本分类器主要包括存储模块和相关性计算模块,所述存储模块存储有UTUC的全部亚型特异性lncRNA特征分别在UTUC各个亚型样本中的丰度表达中心点值;所述相关性计算模块用于计算需要鉴定亚型类别的UTUC样本中全部亚型特异性lncRNA特征的丰度表达值与所述存储模块存储的每个亚型的特异性lncRNA特征的丰度表达中心点值之间的相关性(可以是皮尔森相关性或斯皮尔曼相关性)。
本发明要解决的技术问题之四是提供上述上尿路尿路上皮癌分型单样本分类器的构建方法,该方法具体包括如下步骤:
1)获取上尿路尿路上皮癌患者肿瘤组织转录组测序数据;
2)将步骤1)所得测序数据比对至人类参考基因组,并用所述参考基因组对应版本的GTF基因注释文件对基因进行注释;
3)对步骤2)注释到的基因进行定量、过滤、标准化处理和log2转换;
4)针对每个分子亚型,计算步骤3)所得每个lncRNA预测亚型的AUC值,保留AUC值大于0.7的lncRNA作为该亚型的特异性lncRNA特征;
5)对步骤4)筛选出的特异性lncRNA特征进行合并去重,得到上尿路尿路上皮癌的全部亚型特异性lncRNA特征;
6)计算步骤5)所得每个特异性lncRNA特征在各个亚型样本中的平均丰度表达值,作为该特异性lncRNA特征的丰度表达中心点值,最终每个亚型获得一组包含全部亚型特异性lncRNA特征中心点值的数据。
本发明要解决的技术问题之五是提供应用上述单样本分类器对UTUC样本进行分型鉴定的方法,该方法包括以下步骤:
计算需要鉴定亚型类别的UTUC样本中全部亚型特异性lncRNA特征的丰度表达值与每个亚型对应的一组包含全部亚型特异性lncRNA特征的丰度表达中心点值之间的相关性,将该样本归类于最高相关性对应的亚型。
UTUC的全部亚型特异性lncRNA特征及其在UTUC的Ⅰ型、Ⅱ型和Ⅲ型三个分子亚型样本中的丰度表达中心点值优选如表3所示:
表3
本发明利用UTUC的转录组测序数据分析得到lncRNA数据,然后筛选与UTUC预后相关的lncRNA进行共识聚类,获得了UTUC基于lncRNA的3种分子分型;同时,本发明通过筛选每个分子亚型对应的特异性lncRNA特征,进一步构建了UTUC单样本分类器,该单样本分类器可以鉴定UTUC患者的lncRNA分子分型,从而实现对UTUC患者的亚型鉴定和预后分层。
附图说明
图1是本发明实施例1k=3时的共识聚类图。
图2是本发明实施例1基于lncRNA的三个分子分型与无进展生存率(progression-free survival,PFS)显著相关。
图3是本发明实施例2利用单样本分类器对TCGA公共数据库中的403例UTUC样本进行分型后,不同分型之间的预后差异。
具体实施方式
为对本发明的技术内容、特点与功效有更具体的了解,现结合附图及具体实施例,对本发明的技术方案做进一步详细的说明:
实施例1基于lncRNA的UTUC分子分型
一、收集UTUC的lncRNA丰度表达数据及临床数据
从EGA公共数据库上下载数据号为EGAD00001007667的156例UTUC患者肿瘤组织转录组测序(RNA-seq)数据,数据类型为比对到人类参考基因组hg19的BMA文件。从GENCODE网站下载hg19对应的GTF基因注释文件gencode.v43lift37.annotation.gtf,然后利用featureCounts工具对基因进行注释和定量,保留在GTF基因注释文件中基因类型为“lncRNA”的基因以及表达丰度中位值大于0的基因,最终得到7698个lncRNA。
对上述7698个lncRNA的丰度表达值进行TPM标准化和log2转换,得到标准化后的lncRNA丰度表达值,TPM标准化转换公式为:
其中,i为样本编号,j为基因编号,Rij为样本i基因j的reads count数值,Fij为样本i基因j的FPKM(Fragments Per Kilobase of exon model per Million mappedfragments,每千个碱基的转录每百万映射读取的fragments)数值,Lj为基因j的编码区域长度,Ti为样本i的测序reads数量。
另外,收集上述156例患者对应的临床信息,包括无进展生存时间和无进展生存状态。
二、挑选与UTUC预后相关的lncRNA
依次利用单因素Cox比例风险模型、LASSO模型以及绝对中位差值对上述7698个lncRNA进行筛选:首先筛选得到在单因素Cox比例风险模型分析中统计学检验p值小于0.05的lncRNA,对于这些lncRNA;再循环进行100次LASSO模型分析,选择在60次以上的结果中系数均非零的lncRNA,这些lncRNA认为是与患者无进展生存率存在显著关联的lncRNA;最后计算这些与预后相关的lncRNA的绝对中位差值,选择绝对中位差值从大到小排在前50%的lncRNA作为候选的分型特征,得到与预后相关且丰度表达变化较大的46个lncRNA(这些lncRNA在Ensembl数据库的基因ID参见表1所示)。
表1与UTUC预后相关且丰度表达变化较大的46个lncRNA
ENSG00000235491 | ENSG00000203706 |
ENSG00000228873 | ENSG00000283684 |
ENSG00000259439 | ENSG00000285280 |
ENSG00000226674 | ENSG00000231246 |
ENSG00000204588 | ENSG00000289326 |
ENSG00000240040 | ENSG00000125462 |
ENSG00000224165 | ENSG00000224616 |
ENSG00000289062 | ENSG00000224559 |
ENSG00000225087 | ENSG00000226780 |
ENSG00000203709 | ENSG00000229021 |
ENSG00000233593 | ENSG00000225643 |
ENSG00000175147 | ENSG00000225077 |
ENSG00000291077 | ENSG00000287670 |
ENSG00000189223 | ENSG00000289305 |
ENSG00000226994 | ENSG00000286572 |
ENSG00000227088 | ENSG00000230186 |
ENSG00000289033 | ENSG00000228971 |
ENSG00000238122 | ENSG00000287064 |
ENSG00000228794 | ENSG00000224875 |
ENSG00000228044 | ENSG00000287628 |
ENSG00000289077 | ENSG00000287305 |
ENSG00000228852 | ENSG00000231407 |
ENSG00000289483 | ENSG00000288007 |
。
三、共识聚类得到分子分型
基于上述筛选得到的46个与UTUC预后相关的lncRNA,利用CancerSubtypes包,对所有患者样本进行共识聚类,设定聚类算法为“pam”,距离计算方法为“pearson”,聚类数为2-4,计算2-4型的样本平均轮廓系数,确定平均轮廓系数最大的3型(k=3)为最佳聚类结果,得到最终基于lncRNA的UTUC分子分型结果(参见图1所示),其中,61例患者属于Ⅰ型,34例患者属于Ⅱ型,61例患者属于Ⅲ型。
四、分子分型的预后分层能力验证
基于上述得到的UTUC分子分型结果,利用单因素Kaplan-Meier生存分析计算三个分型之间的预后差异,如图2所示,Ⅰ型预后最好,其次是Ⅲ型,Ⅱ型预后最差,三型间logrank test检验差异p值小于0.001,说明不同分型的UTUC患者之间无进展生存率存在显著差异,说明本实施例的分子分型可以对UTUC患者的预后风险进行区分。
实施例2UTUC分型鉴定
一、基于分子分型标签构建单样本分类器
(1)筛选亚型特异性lncRNA特征
利用实施例1收集到的156例样本的7698个lncRNA,针对每个UTUC分子亚型,使用R包pROC的auc函数计算每个lncRNA预测亚型的AUC值,保留AUC值大于0.7的lncRNA作为该亚型的特异性特征。其中Ⅰ型得到7个特异性lncRNA特征,Ⅱ型得到148个特异性lncRNA特征,Ⅲ型得到6个特异性lncRNA特征,其中有3个特异性lncRNA特征在两个亚型中重复出现,将所有特异性lncRNA特征合并去重后,最终得到158个亚型特异性lncRNA特征(在Ensembl数据库中的基因ID参见表2所示)。
表2UTUC 3个亚型的特异性lncRNA特征
(2)计算每个亚型特异性lncRNA特征的丰度表达的中心点值
计算158个特异性lncRNA特征分别在三个亚型样本中的平均表达值,作为该特异性lncRNA特征的中心点值,最终每个亚型都得到一组包含所有特异性lncRNA特征中心点值的数据(参见表3所示),该组数据可用于UTUC单样本分类。
表3 158个亚型特异性lncRNA特征的中心点值
二、新样本UTUC分子分型鉴定
从TCGA公共数据库中下载尿路上皮癌数据集,包括403例基因丰度表达矩阵及临床信息(包括总生存期)齐全的尿路上皮癌样本,用于验证本实施例构建的上述单样本分类器的效果。计算这些样本中158个亚型特异性lncRNA特征的丰度表达值与上述表3中每个亚型的特异性lncRNA特征中心点值的皮尔森相关性,当皮尔森相关性最高时,该样本属于该最高相关性对应的亚型,最后鉴定到111个样本属于Ⅰ型,180个样本属于Ⅱ型,112个样本属于Ⅲ型。
基于上述得到的分子分型结果,利用单因素Kaplan-Meier生存分析计算三个分型之间的预后差异,如图3所示,Ⅰ型预后最好,其次是Ⅲ型,Ⅱ型预后最差,三型间log ranktest检验差异p值小于0.05,与先前的分型差异趋势一致,说明本实施例的单样本分类器可以对新样本UTUC分子分型进行鉴定。
上述实施例仅为本发明的可行或较佳实施例而已,是用来说明本发明的,并非用以限制本发明申请专利的范围,因此,凡依本发明申请专利范围所作的均等变化与修饰,均应属于本发明专利涵盖的范围。
Claims (14)
1.检测lncRNA表达水平的试剂在制备上尿路尿路上皮癌分子分型试剂中的应用,其特征在于,依据上尿路尿路上皮癌患者的lncRNA特征对上尿路尿路上皮癌进行分子分型;所述lncRNA包括下表所示的46个lncRNA:
。
2.根据权利要求1所述的应用,其特征在于,包括以下步骤:
1)获取上尿路尿路上皮癌患者肿瘤组织转录组测序数据和临床信息;
2)将步骤1)所得测序数据比对至人类参考基因组,并用所述参考基因组对应版本的GTF基因注释文件对基因进行注释;
3)对步骤2)注释到的基因进行定量、过滤、标准化处理和log2转换;
4)筛选与上尿路尿路上皮癌预后相关并在所有患者样本中丰度表达值变化较大的lncRNA作为候选的分型特征;
5)基于步骤4)所得候选分型特征的表达矩阵,对所有患者样本进行聚类分析,得到上尿路尿路上皮癌的最佳分子分型结果。
3.根据权利要求2所述的应用,其特征在于,步骤1),所述临床信息包括无进展生存时间和无进展生存状态。
4.根据权利要求2所述的应用,其特征在于,步骤3),所述过滤包括:保留在GTF基因注释文件中基因类型为“lncRNA”及表达丰度中位值大于0的基因。
5.根据权利要求2所述的应用,其特征在于,步骤3),所述标准化处理采用TPM标准化方法,TPM标准化转换公式为:
其中,i为样本编号,j为基因编号,Rij为样本i基因j的reads count数值,Fij为样本i基因j的FPKM数值,Lj为基因j的编码区域长度,Ti为样本i的测序reads数量。
6.根据权利要求2所述的应用,其特征在于,步骤4),依次用单因素Cox比例风险模型、LASSO模型、绝对中位差值筛选分型特征。
7.根据权利要求6所述的应用,其特征在于,步骤4),筛选方法包括:筛选出单因素Cox比例风险模型分析所得p值小于0.05的lncRNA,循环进行100次LASSO模型分析,保留在60次以上的循环结果中系数均非零的lncRNA,计算这些lncRNA的绝对中位差值并从大到小排列,选择绝对中位差值排在前50%的lncRNA作为候选的分型特征。
8.根据权利要求2所述的应用,其特征在于,步骤5),采用共识聚类分析,通过计算平均轮廓系数,确定平均轮廓系数最高的聚类为最佳聚类结果。
9.根据权利要求2所述的应用,其特征在于,步骤5),所述最佳分子分型结果是将上尿路尿路上皮癌分为Ⅰ型、Ⅱ型和Ⅲ型三种分子亚型。
10.上尿路尿路上皮癌分子分型标志物,其特征在于,包括下表中所示的46个lncRNA:
11.上尿路尿路上皮癌分型单样本分类器,其特征在于,所述分类器包括存储模块和相关性计算模块,所述存储模块存储有UTUC的全部亚型特异性lncRNA特征分别在UTUC各个亚型样本中的丰度表达中心点值;所述相关性计算模块用于计算需要鉴定亚型类别的UTUC样本中全部亚型特异性lncRNA特征的丰度表达值与所述存储模块存储的每个亚型的特异性lncRNA特征的丰度表达中心点值之间的相关性;所述亚型特异性lncRNA特征及其在上尿路尿路上皮癌三个分子亚型样本中的丰度表达中心点值如下表所示:
12.权利要求11所述上尿路尿路上皮癌分型单样本分类器的构建方法,所述方法非用于疾病的诊断和治疗目的,其特征在于,包括如下步骤:
1)获取上尿路尿路上皮癌患者肿瘤组织转录组测序数据;
2)将步骤1)所得测序数据比对至人类参考基因组,并用所述参考基因组对应版本的GTF基因注释文件对基因进行注释;
3)对步骤2)注释到的基因进行定量、过滤、标准化处理和log2转换;
4)针对每个分子亚型,计算步骤3)所得每个lncRNA预测亚型的AUC值,保留AUC值大于0.7的lncRNA作为该亚型的特异性lncRNA特征;
5)对步骤4)筛选出的特异性lncRNA特征进行合并去重,得到上尿路尿路上皮癌的全部亚型特异性lncRNA特征;
6)计算步骤5)所得每个特异性lncRNA特征在各个亚型样本中的平均丰度表达值,作为该特异性lncRNA特征的丰度表达中心点值,最终每个亚型获得一组包含全部亚型特异性lncRNA特征中心点值的数据,如下表所示:
13.根据权利要求12所述的方法,其特征在于,步骤3),所述过滤包括:保留在GTF基因注释文件中基因类型为“lncRNA”及表达丰度中位值大于0的基因。
14.根据权利要求12所述的方法,其特征在于,步骤3),所述标准化处理采用TPM标准化方法,TPM标准化转换公式为:
其中,i为样本编号,j为基因编号,Rij为样本i基因j的reads count数值,Fij为样本i基因j的FPKM数值,Lj为基因j的编码区域长度,Ti为样本i的测序reads数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310791539.2A CN116987789B (zh) | 2023-06-30 | 2023-06-30 | Utuc分子分型、单样本分类器及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310791539.2A CN116987789B (zh) | 2023-06-30 | 2023-06-30 | Utuc分子分型、单样本分类器及其构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116987789A CN116987789A (zh) | 2023-11-03 |
CN116987789B true CN116987789B (zh) | 2024-07-26 |
Family
ID=88533034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310791539.2A Active CN116987789B (zh) | 2023-06-30 | 2023-06-30 | Utuc分子分型、单样本分类器及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116987789B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103558395B (zh) * | 2013-10-28 | 2015-08-26 | 深圳市第二人民医院 | Smad3基因在检测上尿路上皮癌中的应用 |
EP3665308A1 (en) * | 2017-08-07 | 2020-06-17 | The Johns Hopkins University | Methods and materials for assessing and treating cancer |
KR102216645B1 (ko) * | 2018-10-29 | 2021-02-17 | 사회복지법인 삼성생명공익재단 | 폐암의 분자 아형 결정을 위한 바이오마커 패널 및 이의 용도 |
CN111833965B (zh) * | 2019-11-08 | 2024-06-04 | 中国科学院北京基因组研究所(国家生物信息中心) | 一种尿沉渣基因组dna的分类方法、装置和用途 |
CN114203256B (zh) * | 2022-02-18 | 2022-06-21 | 上海仁东医学检验所有限公司 | 基于微生物丰度的mibc分型及预后预测模型构建方法 |
CN114582425A (zh) * | 2022-03-14 | 2022-06-03 | 上海交通大学医学院附属仁济医院 | Nmibc预后预测分子标志物、筛选方法及建模方法 |
-
2023
- 2023-06-30 CN CN202310791539.2A patent/CN116987789B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN116987789A (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7169002B2 (ja) | 癌の検出のための血漿dna中のサイズ及び数異常の使用 | |
US20230170048A1 (en) | Systems and methods for classifying patients with respect to multiple cancer classes | |
CN113257350B (zh) | 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置 | |
CN117778576A (zh) | 游离dna末端特征 | |
EP3658684B1 (en) | Enhancement of cancer screening using cell-free viral nucleic acids | |
US20240249798A1 (en) | Systems and methods for enriching for cancer-derived fragments using fragment size | |
Waldron et al. | Expression profiling of archival tumors for long-term health studies | |
CN115807089B (zh) | 肝细胞肝癌预后生物标志物及应用 | |
WO2020237184A1 (en) | Systems and methods for determining whether a subject has a cancer condition using transfer learning | |
CN115418401A (zh) | 用于膀胱癌的尿监测的诊断测定 | |
WO2021150990A1 (en) | Small rna disease classifiers | |
CN113862351A (zh) | 体液样本中鉴定胞外rna生物标志物的试剂盒及方法 | |
CN111223525A (zh) | 一种肿瘤外显子测序数据分析方法 | |
CN116987789B (zh) | Utuc分子分型、单样本分类器及其构建方法 | |
CN116656829B (zh) | 一种预测胃癌不良预后的基因标志物组合、试剂盒及系统 | |
Feng et al. | Comprehensive genomics analysis of aging related gene signature to predict the prognosis and drug resistance of colon adenocarcinoma | |
CN110819700A (zh) | 一种构建肺部小结节计算机辅助检测模型的方法 | |
CN117558346A (zh) | Utuc分子分型及预后预测模型构建方法 | |
JP2024527142A (ja) | リキッドバイオプシーにおける変異検出の方法 | |
EP4392781A1 (en) | Random epigenomic sampling | |
Olman et al. | Gene expression data analysis in subtypes of ovarian cancer using covariance analysis | |
CN117625793A (zh) | 一种卵巢癌生物标志物的筛选方法及其应用 | |
CN117070628A (zh) | 胰腺癌预后预测的产品、模型、系统、装置及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |