CN111508563B - 一种长非编码rna的癌症相关可变剪接数据库系统 - Google Patents
一种长非编码rna的癌症相关可变剪接数据库系统 Download PDFInfo
- Publication number
- CN111508563B CN111508563B CN202010443545.5A CN202010443545A CN111508563B CN 111508563 B CN111508563 B CN 111508563B CN 202010443545 A CN202010443545 A CN 202010443545A CN 111508563 B CN111508563 B CN 111508563B
- Authority
- CN
- China
- Prior art keywords
- splicing
- cancer
- long non
- module
- alternative splicing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 76
- 201000011510 cancer Diseases 0.000 title claims abstract description 62
- 108091046869 Telomeric non-coding RNA Proteins 0.000 title claims abstract description 61
- 238000012800 visualization Methods 0.000 claims abstract description 20
- 241000972773 Aulopiformes Species 0.000 claims abstract description 12
- 230000003993 interaction Effects 0.000 claims abstract description 12
- 235000019515 salmon Nutrition 0.000 claims abstract description 12
- 108020005198 Long Noncoding RNA Proteins 0.000 claims abstract description 7
- 238000012163 sequencing technique Methods 0.000 claims description 15
- 108090000623 proteins and genes Proteins 0.000 claims description 14
- 108700024394 Exon Proteins 0.000 claims description 8
- 230000027455 binding Effects 0.000 claims description 6
- 102000004169 proteins and genes Human genes 0.000 claims description 6
- 230000004570 RNA-binding Effects 0.000 claims description 5
- 241000258957 Asteroidea Species 0.000 claims description 4
- 238000003908 quality control method Methods 0.000 claims description 4
- 201000010099 disease Diseases 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 3
- 238000013414 tumor xenograft model Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000014759 maintenance of location Effects 0.000 claims description 2
- 238000011002 quantification Methods 0.000 claims description 2
- 230000005026 transcription initiation Effects 0.000 claims description 2
- 230000005030 transcription termination Effects 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 8
- 230000004083 survival effect Effects 0.000 description 6
- 238000003559 RNA-seq method Methods 0.000 description 4
- 101000633904 Homo sapiens Putative taurine up-regulated 1 protein Proteins 0.000 description 3
- 102100029247 Putative taurine up-regulated 1 protein Human genes 0.000 description 3
- 239000000090 biomarker Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000004393 prognosis Methods 0.000 description 3
- 238000012174 single-cell RNA sequencing Methods 0.000 description 3
- 230000009897 systematic effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 239000002679 microRNA Substances 0.000 description 2
- 108091027963 non-coding RNA Proteins 0.000 description 2
- 102000042567 non-coding RNA Human genes 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 1
- 238000012351 Integrated analysis Methods 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000032459 dedifferentiation Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 238000003209 gene knockout Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007762 localization of cell Effects 0.000 description 1
- 238000001325 log-rank test Methods 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 108091070501 miRNA Proteins 0.000 description 1
- 108091064355 mitochondrial RNA Proteins 0.000 description 1
- 231100000590 oncogenic Toxicity 0.000 description 1
- 230000002246 oncogenic effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007473 univariate analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及生物医学领域,公开了一种长非编码RNA的癌症相关可变剪接数据库系统,以便于帮助研究人员更好理解癌症中lncRNA可变剪接的作用。本发明包括搜索模块、可视化模块以及文件交互模块:搜索模块用于根据用户输入的与长非编码RNA相关的搜索条件,从系统的数据区搜索出长非编码RNA在指定癌症中的剪接信息,并将搜索结果通过可视化模块展现给用户;当用户点击可视化模块展示中的搜索结果,可获得更详细的可视化信息和注释信息;其中,可视化信息包括剪接图、三文鱼图、箱式图和基因组浏览器;文件交互模块用于提供文件上传功能,以及搜索结果的下载和调用功能。本发明适用于癌症研究。
Description
技术领域
本发明涉及生物医学领域,特别涉及一种长非编码RNA(lncRNA)的癌症相关可变剪接数据库系统。
背景技术
癌症中异常的可变剪接模式与诸多致癌过程相关,例如去分化和转移。因此,Ryan等人开发了一个记录癌症中蛋白编码基因可变剪接的数据库,名叫TCGA SpliceSeq,网址为http://bioinformatics.mdanderson.org/TCGASpliceSeq。该数据库收集了TCGA中33种癌症的组织RNA测序数据,利用软件包SpliceSeq,识别其中蛋白编码基因的可变剪接信号,结果插入比(Percent-splicing in,PSI,Ψ)来表示。用户可以搜索感兴趣蛋白编码基因的可变剪接信号,比较其在不同癌症中的差异,以及在癌症组织和正常组织的差异。该数据库对剪接模式提供可视化,并提供支持读段、PSI等统计信息。用户也可以从数据中下载相关数据,进行后续整合分析。但是该数据库存在以下缺点:
1.该数据库仅包含癌症中蛋白编码基因可变剪接的信息,没有包含癌症中长非编码RNA可变剪接的信息。
2.该数据可以仅提供基于组织的剪接信号,没有提供基于单细胞的剪接信号,因此会受到癌症异质性的影响。
发明内容
本发明要解决的技术问题是:提供一种长非编码RNA的癌症相关可变剪接数据库系统,以便于帮助研究人员更好理解癌症中lncRNA可变剪接的作用。
为解决上述问题,本发明采用的技术方案是:一种长非编码RNA的癌症相关可变剪接数据库系统,包括搜索模块、可视化模块以及文件交互模块;
所述搜索模块用于根据用户输入的与长非编码RNA相关的搜索条件,从系统的数据区搜索出长非编码RNA在指定癌症中的剪接信号,并将搜索结果通过所述可视化模块展现给用户;其中,数据区中的剪接信号来源于组织块的测序数据和单细胞的测序数据;
当用户点击可视化模块展示中的搜索结果,可获得更详细的可视化信息和注释信息;其中,可视化信息包括剪接图、三文鱼图、箱式图和基因组浏览器,剪接图用于全局展示单个长非编码RNA基因的外显子和连接读段的信号强弱;三文鱼图用于展示具体剪接事件在不同分组间的局部信号差异;箱式图可用于展示具体剪接事件在不同疾病或组织中的信号差异;所述基因组浏览器从多角度展示剪接序列的潜在功能影响,包括蛋白质结合位点、RNA结合位点和功能元件信息;注释信息包括长非编码RNA的基本注释信息、剪接事件的基本注释信息和剪接序列的相关文献报道;
所述文件交互模块用于提供文件上传功能,以及搜索结果的下载和调用功能。
具体的,所述搜索条件可包括lncRNA名称、基因组位座、组织类型、癌症类型、可变剪接类型、癌症细胞系名、剪接ID中的一种或者多种。
具体的,系统数据区的剪接信号涉及了多种情况下的长非编码RNA的剪接信号,包括癌症患者、癌症细胞系和人源肿瘤异种移植模型(Patient-Derived tumor Xenograft,PDX)。
本发明的有益效果如下:通过本发明的数据库系统,用户可以从lncRNA名称、癌症类型、可变剪接类型和基因位座等多个角度搜索感兴趣lncRNA在特定癌症中的剪接信号,或利用逻辑连接符进行批量搜索。为了让用户更好地理解剪接信号,该数据库对于所有剪接事件提供剪接图可视化,对于差异剪接事件提供三文鱼图进行可视化。为了帮助用户探索癌症中lncRNA可变剪接的功能影响,该数据库提供了整合蛋白质结合位点、RNA结合位点和功能元件的基因组浏览器。用户还可以利用blast将自己感兴趣的序列和lncRNA剪接调控的序列进行比对,比较多个癌症中lncRNA可变剪接的差异,或通过生存分析结果评估lncRNA剪接对于癌症患者预后的影响。最后,用户可以通过文件交互模块下载数据库的结果文件,利用文件交互模块提供的应用程序接口(Application Programming Interface,API)的方式批量对数据库中内容进行调用,或者上传自己的数据进行比较分析。因此,本发明的数据库系统是一个系统的癌症相关lncRNA可变剪接的数据库,该数据库能够帮助研究人员更好理解癌症中lncRNA可变剪接的作用,为癌症机制研究和相关生物标志物的开发提供参考。
附图说明
图1是LncAS2cancer的内容和功能示意图。
图2是数据库首页图。
图3是LncAS2cancer的查询方式图。
图4是LncAS2cancer的查询结果说明图。
具体实施方式
实施例提供了一种长非编码RNA的癌症相关可变剪接数据库系统,名为LncAS2cancer,该数据库系统包括搜索模块、可视化模块以及文件交互模块;
所述搜索模块用于根据用户输入的与长非编码RNA相关的搜索条件,从系统的数据区搜索出长非编码RNA在指定癌症中的剪接信号,并将搜索结果通过所述可视化模块展现给用户;
其中,数据区中的剪接信号来源于组织块的测序数据和单细胞的测序数据,上述的搜索条件可包括lncRNA名称、基因组位座、组织类型、癌症类型、可变剪接类型、癌症细胞系名、剪接ID中的一种或者多种。数据区的剪接信号涉及了多种情况下的长非编码RNA的剪接信号,包括癌症患者、癌症细胞系和人源肿瘤异种移植模型(Patient-Derived tumorXenograft,PDX)。
当用户点击可视化模块展示中的搜索结果,可获得更详细的可视化信息和注释信息;其中,可视化信息包括剪接图、三文鱼图、箱式图和基因组浏览器,剪接图用于全局展示单个长非编码RNA基因的外显子和连接读段的信号强弱;三文鱼图用于展示具体剪接事件在不同分组间的局部信号差异;箱式图可用于展示具体剪接事件在不同疾病或组织中的信号差异;所述基因组浏览器从多角度展示剪接序列的潜在功能影响,包括蛋白质结合位点、RNA结合位点和功能元件信息;注释信息包括长非编码RNA的基本注释信息、剪接事件的基本注释信息和剪接序列的相关文献报道;
所述文件交互模块用于提供文件上传功能,以及搜索结果的下载和调用功能。
为了构建这个数据库系统,我们首先从3个数据库中下载癌症的组织和单细胞RNA测序数据。这些RNA测序样本既包括没有分组信息的均一癌症样本,也包括条件特异的样本,如癌症正常配对样本、基因敲除前后的癌症细胞系样本、用药前后的癌症样本和不同细胞定位的癌症样本等。而这3个数据库分别为Sequence Read Archive(SRA,网址为https://www.ncbi.nlm.nih.gov/sra/),Encyclopedia of DNA Elements(ENCODE,网址为https://www.encodeproject.org/),和Cancer Cell Line Encyclopedia(网址为CCLE,https://portals.broadinstitute.org/ccle/)。对于SRA数据库,我们利用SRA Toolkit软件的prefetch工具下载SRA文件,利用fasterq-dump工具将SRA转化成FSASTQ格式。
对于组织水平的RNA测序(bulk RNA sequencing),首先利用STAR软件的两步策略将其比对到人类参考基因组hg38中,即第一步比对中识别未注释的外显子接合区域,将这些外显子接合区域整合入参考基因组中,进行第二步比对,这样可以提高识别剪接事件的敏感性。随后,我们利用不同的软件系统地识别不同的可变剪接类型。我们利用rMATS识别外显子跳跃、5’可变剪接、3’可变剪接、内含子保留和互斥外显子;利用Dapars识别可变转录终止事件;利用SEASTAR识别可变转录起始事件;利用MAJIQ识别复杂的剪接事件。对于rMATS,我们要求不小于8个支持读段。对于MAJIQ识别的可变剪接,为了让其结果与基于rMATS的结果可比较,故利用spliceSites软件提取位于外显子接合区域的支持读段,要求样本支持读段的中位值不小于10,并利用rMATS-STAT计算显著性。对于Dapars和SEASTAR,这两个软件仅基于覆盖外显子的读段,而不利用外显子接合区域的读段,但是lncRNA的部分外显子会和其他转录本有重叠,故仅对起始外显子或终止外显子不与其他转录本有交集的lncRNA识别可变剪接。基于rMATS和MAJIQ结果用插入比(Percent-splicing in,PSI,Ψ)来表示,基于Dapars和SEASTAR的结果用远端外显子利用比例(Percentage of DistalUsage Index,PDUI)来表示。对于单细胞水平的RNA测序(single cell RNA sequencing),首先利用scater进行质控,去除线粒体RNA含量过高、总读段过少和基因数过少的样本,阈值均为中位绝对偏差大于3。随后,对通过质控的样本进行STAR两步比对。利用BRIE进行剪接识别、定量和差异计算
为了帮助用户形象地理解lncRNA可变剪接的信号,我们利用剪接图对所有的剪接事件进行可视化,利用三文鱼图比较不同分组中显著差异的可变剪接。在剪接图中,我同时计算了每个外显子的RPKM(Reads Per Kilobase per Million mapped reads,每兆匹配读段每kb长度的支持读段)和每个外显子接合区的RPMG(Reads Per Million Gapped,每兆间断中的支持读段),前者利用HTseq软件进行计算,后者利用spliceSites软件进行计算。对于显著差异的可变剪接事件,组织水平测序的阈值为P<0.05,ΔPSI/PDUI>0.05,而单细胞水平测序的阈值为Bayesian factor>10。三文鱼图用rmats2sashimiplot进行绘制。对于组织水平的样本,我们绘制每组平均值,用于比较组间差异;单细胞测序的优势在于消除异质性的影响,不适合用平均值的方式表示,然而每个单细胞测序研究的样本较多,因此我们对于每一组样本仅展示5个样本。
为了帮助用户理解癌症中lncRNA可变剪接的潜在功能影响,我们对显著差异的可变剪接事件进行序列注释和生存分析。注释包括整合其他数据资源的高通量注释和手工文献注释,其中高通量注释整合的数据资源有UCSC(基因组元件注释)、Poster2(lncRNA与蛋白质互作)和StarBasev3(lncRNA与miRNA互作)。手工文献注释是指人工阅读文献,查找lncRNA可变剪接影响的功能序列是否与文献中记录的功能序列一致。我们要求该文献是研究lncRNA在癌症中的作用,并明确指出功能序列(如与蛋白质或miRNA的结合位点),而且对功能序列的记录至少满足以下条件之一:(1)明确指出功能序列在人类基因组hg18,hg19或hg38中的坐标信息;(2)记录功能序列在lncRNA中的碱基坐标,并提供具体序列。对于第一种情况,利用liftover将hg18或hg19坐标信息转化为hg38;对于第二种情况,利用代码将lncRNA的碱基坐标转换成lncRNA的序列信息,并比较该序列信息是否与文献中记录一致,以排除由于不同注释系统导致的偏差。除了功能注释,我们还对显著差异的lncRNA可变剪接进行生存分析,首先利用cox单因素分析其PSI或PDUI是否与患者预后显著相关,然后利用log-rank检验比较以中位值分组的生存差异,并对于cox分析和log-rank分析均显著,且每组样本量不少于10个事件绘制Kaplan-Meier生存曲线。
LncAS2cancer由XAMPP搭建(涉及Apache,mariaDB,php和perl)。我们利用Bootstrap设计网页界面;利用AJAX和jQuery UI可视化和分析数据;利用Echart和Genoverse进行交互可视化。
实施例最终得到的数据库系统LncAS2cancer,收录了30余种癌症中5113个组织测序样本和2315个单细胞测序样本,涉及4145个lncRNA的49266个剪接事件,基本统计信息如表1。
表1.LncAS2cancer的基本统计信息
数据内容 | 总条目 |
lncRNA基因 | 4145 |
lncRNA转录本 | 28468 |
研究数据集 | 268 |
可变剪接事件 | 49266 |
测序样本 | 7428 |
组织类型 | 39 |
癌症类型 | 233 |
癌症细胞系 | 982 |
用户可以从lncRNA名称、癌症类型、可变剪接类型和基因位座等多个角度搜索感兴趣lncRNA在特定癌症中的剪接信号,或利用逻辑连接符进行批量搜索。为了让用户更好地理解剪接信号,该数据库对于所有剪接事件提供剪接图可视化,对于差异剪接事件提供三文鱼图进行可视化。为了帮助用户探索癌症中lncRNA可变剪接的功能影响,该数据库提供了整合蛋白质结合位点、RNA结合位点和功能元件的基因组浏览器。用户还可以利用blast将自己感兴趣的序列和lncRNA剪接调控的序列进行比对,比较多个癌症中lncRNA可变剪接的差异,或通过生存分析结果评估lncRNA剪接对于癌症患者预后的影响。最后,用户可以下载数据库的结果文件,利用应用程序接口(Application Programming Interface,API)的方式批量对数据库中内容进行调用,或者上传自己的数据进行比较分析。因此,LncAS2cancer是一个系统的癌症相关lncRNA可变剪接的数据库系统,该数据库系统能够帮助研究人员更好理解癌症中lncRNA可变剪接的作用,为癌症机制研究和相关生物标志物的开发提供参考。
以下再通过对上述LncAS2cancer的具体使用方式,对本发明做进一步说明。
进入LncAS2cancer之后,其系统首页如图2所示。LncAS2cancer可提供多种查询癌症中lncRNA可变剪接的方式,如图3所示。首先,用户可以通过导航栏进行快捷搜索(查询1),其效果与搜索部分的基本搜索(查询2)一致,可以从lncRNA名字、基因组位座、组织类型、癌症类型、可变剪接类型、癌症细胞系名和剪接ID等多个角度进行搜索,或者批量搜索(查询6)。同时,用户也可以点击高级搜索中的人体图(查询3),针对感兴趣的组织类型进行快捷搜索。另外,用户还可以利用逻辑连接符筛选剪接事件(查询4)。若用户有感兴趣的序列,希望能够知道是否存在lncRNA可变剪接影响的序列与该序列一致,可以通过blast的方式进行序列比对(查询5)。该数据库还提供应用程序接口(查询7),便于外部程序调用相关数据。
以lncRNA TUG1为例,在基本搜索中输入TUG1,出现如图4的表格(结果1),展示所有TUG1在癌症中的可变剪接,记录剪接ID、剪接类型、研究ID、分组信息、lncRNA名和癌症类型等信息,可以通过工具栏改变展现方式,并下载表格信息。第一条信息是显著差异的剪接事件,故点击plot,可以展现三文鱼图(结果2)。进一步,点击剪接ID,可进入详细的结果界面。结果界面分多个板块,首先提供lncRNA的基本注释信息(结果3),用以了解该lncRNA的背景知识;随后可以看到剪接图(结果4),可以帮助理解剪接的信号强度;接着箱式图可以比较该剪接在癌症之间的信号差异(结果5),帮助用户判断其是否存在癌症特异性;为了帮助用户理解该lncRNA的可变剪接的功能影响,结果中提供基因组浏览器(结果6)和文献注释信息(结果7)。
综上,LncAS2cancer是一个系统的癌症相关lncRNA可变剪接的数据库,该数据库能够帮助研究人员查询各个癌症中的可变剪接事件,比较不同癌症之间的信号差异,通过基因组浏览器和文献注释推测可变剪接的潜在功能,为癌症机制研究和相关生物标志物的开发提供参考。
Claims (3)
1.一种长非编码RNA的癌症相关可变剪接数据库系统,其特征在于,包括搜索模块、可视化模块以及文件交互模块;
所述搜索模块用于根据用户输入的与长非编码RNA相关的搜索条件,从系统的数据区搜索出长非编码RNA在指定癌症中的剪接信号,并将搜索结果通过所述可视化模块展现给用户;其中,数据区中的剪接信号来源于组织块的测序数据和单细胞的测序数据;组织块的测序首先利用STAR软件的两步策略,随后利用rMATS识别外显子跳跃、5’可变剪接、3’可变剪接、内含子保留和互斥外显子;利用Dapars识别可变转录终止事件;利用SEASTAR识别可变转录起始事件;利用MAJIQ识别复杂的剪接事件;单细胞的测序首先利用scater进行质控,随后,对通过质控的样本进行STAR两步比对,利用BRIE进行剪接识别、定量和差异计算;
当用户点击可视化模块展示中的搜索结果,可获得更详细的可视化信息和注释信息;其中,可视化信息包括剪接图、三文鱼图、箱式图和基因组浏览器,剪接图用于全局展示单个长非编码RNA基因的外显子和连接读段的信号强弱;三文鱼图用于展示具体剪接事件在不同分组间的局部信号差异;箱式图用于展示具体剪接事件在不同疾病或组织中的信号差异;所述基因组浏览器从多角度展示剪接序列的潜在功能影响,包括蛋白质结合位点、RNA结合位点和功能元件信息;注释信息包括长非编码RNA的基本注释信息、剪接事件的基本注释信息和剪接序列的相关文献报道;
所述文件交互模块用于提供文件上传功能,以及搜索结果的下载和调用功能。
2.如权利要求1所述的一种长非编码RNA的癌症相关可变剪接数据库系统,其特征在于,所述搜索条件包括lncRNA名称、基因组位座、组织类型、癌症类型、可变剪接类型、癌症细胞系名、剪接ID中的一种或者多种。
3.如权利要求1所述的一种长非编码RNA的癌症相关可变剪接数据库系统,其特征在于,数据区的剪接信号涉及多种情况下的长非编码RNA的剪接信号,包括癌症患者、癌症细胞系和人源肿瘤异种移植模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010443545.5A CN111508563B (zh) | 2020-05-22 | 2020-05-22 | 一种长非编码rna的癌症相关可变剪接数据库系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010443545.5A CN111508563B (zh) | 2020-05-22 | 2020-05-22 | 一种长非编码rna的癌症相关可变剪接数据库系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111508563A CN111508563A (zh) | 2020-08-07 |
CN111508563B true CN111508563B (zh) | 2023-04-18 |
Family
ID=71878587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010443545.5A Active CN111508563B (zh) | 2020-05-22 | 2020-05-22 | 一种长非编码rna的癌症相关可变剪接数据库系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111508563B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116189897B (zh) * | 2023-04-24 | 2023-07-25 | 四川省医学科学院·四川省人民医院 | 一种基于时序变化关系的病毒癌症风险预测方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011150453A1 (en) * | 2010-06-01 | 2011-12-08 | The University Of Queensland | Diagnostic, prognostic and therapeutic use of a long non-coding rna |
WO2012087983A1 (en) * | 2010-12-20 | 2012-06-28 | The General Hospital Corporation | Polycomb-associated non-coding rnas |
WO2019183188A1 (en) * | 2018-03-22 | 2019-09-26 | Illumina, Inc. | Preparation of nucleic acid libraries from rna and dna |
WO2019226804A1 (en) * | 2018-05-23 | 2019-11-28 | Envisagenics, Inc. | Systems and methods for analysis of alternative splicing |
WO2019236644A1 (en) * | 2018-06-05 | 2019-12-12 | Arrakis Therapeutics, Inc. | Encoded libraries and methods of use for screening nucleic acid targets |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9920317B2 (en) * | 2010-11-12 | 2018-03-20 | The General Hospital Corporation | Polycomb-associated non-coding RNAs |
US10169530B2 (en) * | 2012-11-05 | 2019-01-01 | Genomic Health, Inc. | Gene fusions and alternatively spliced junctions associated with breast cancer |
US20170239294A1 (en) * | 2014-10-15 | 2017-08-24 | Novartis Ag | Compositions and methods for treating b-lymphoid malignancies |
CN105785036B (zh) * | 2016-03-29 | 2018-06-26 | 四川大学华西医院 | 一种肺癌筛查试剂盒 |
BR112020002555A2 (pt) * | 2017-08-07 | 2020-08-11 | The Johns Hopkins University | métodos e materiais para avaliar e tratar câncer |
CN110619926B (zh) * | 2019-08-07 | 2023-03-31 | 复旦大学附属肿瘤医院 | 一种识别全部rna剪切位点的分析方法及分析系统 |
-
2020
- 2020-05-22 CN CN202010443545.5A patent/CN111508563B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011150453A1 (en) * | 2010-06-01 | 2011-12-08 | The University Of Queensland | Diagnostic, prognostic and therapeutic use of a long non-coding rna |
WO2012087983A1 (en) * | 2010-12-20 | 2012-06-28 | The General Hospital Corporation | Polycomb-associated non-coding rnas |
WO2019183188A1 (en) * | 2018-03-22 | 2019-09-26 | Illumina, Inc. | Preparation of nucleic acid libraries from rna and dna |
WO2019226804A1 (en) * | 2018-05-23 | 2019-11-28 | Envisagenics, Inc. | Systems and methods for analysis of alternative splicing |
WO2019236644A1 (en) * | 2018-06-05 | 2019-12-12 | Arrakis Therapeutics, Inc. | Encoded libraries and methods of use for screening nucleic acid targets |
Non-Patent Citations (1)
Title |
---|
Christopher J. Green等.MAJIQ-SPEL: web-tool to interrogate classical and complex splicing variations from RNA-Seq data.Bioinformatics.2017,第300-302页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111508563A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | A survey and evaluation of Web-based tools/databases for variant analysis of TCGA data | |
Kilpinen et al. | Systematic bioinformatic analysis of expression levels of 17,330 human genes across 9,783 samples from 175 types of healthy and pathological tissues | |
Poirion et al. | Using single nucleotide variations in single-cell RNA-seq to identify subpopulations and genotype-phenotype linkage | |
Pabinger et al. | A survey of tools for variant analysis of next-generation genome sequencing data | |
Bahassi et al. | Next-generation sequencing technologies: breaking the sound barrier of human genetics | |
CN110168648A (zh) | 序列变异识别的验证方法和系统 | |
US20220310201A1 (en) | Precision medicine portal for human diseases | |
CN113035273B (zh) | 一种快速、超高灵敏度的dna融合基因检测方法 | |
CN116064755B (zh) | 一种基于连锁基因突变检测mrd标志物的装置 | |
CN112292730B (zh) | 具有用于解释和可视化数据的改进的用户界面的计算设备 | |
Kubiritova et al. | On the critical evaluation and confirmation of germline sequence variants identified using massively parallel sequencing | |
CN111508563B (zh) | 一种长非编码rna的癌症相关可变剪接数据库系统 | |
Zhao et al. | Profiling long noncoding RNA of multi-tissue transcriptome enhances porcine noncoding genome annotation | |
Karakoyun et al. | Challenges in clinical interpretation of next-generation sequencing data: Advantages and Pitfalls | |
Sana et al. | GAMES identifies and annotates mutations in next-generation sequencing projects | |
Srinivasan et al. | Enrichment of genetic markers of recent human evolution in educational and cognitive traits | |
Ruffle et al. | New chimeric RNAs in acute myeloid leukemia | |
US20220375544A1 (en) | Kit and method of using kit | |
CN112970068A (zh) | 用于检测样品之间的污染的方法和系统 | |
CN110164504A (zh) | 二代测序数据的处理方法、装置及电子设备 | |
Park | Experimental design and data analysis for array comparative genomic hybridization | |
Cutts et al. | O-miner: an integrative platform for automated analysis and mining of-omics data | |
De Coster et al. | Visualization and analysis of medically relevant tandem repeats in nanopore sequencing of control cohorts with pathSTR | |
WO2022203705A1 (en) | A precision medicine portal for human diseases | |
Miller et al. | RLSuite: An integrative R-loop bioinformatics framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |