CN111462820A

CN111462820A - 基于特征筛选和集成算法的非编码rna预测方法

Info

Publication number: CN111462820A
Application number: CN202010240971.9A
Authority: CN
Inventors: 孙婷婷
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-28

Abstract

本发明公开了一种基于特征筛选和集成算法的非编码RNA预测方法，包括以下步骤：a、在RNA数据库中获取非编码RNA序列组成正样本数据集，并选取与非编码RNA序列相同数量的RNA序列组成负样本数据集,得到正样本数据集和负样本数据集组成的数据集，并将数据集分割成训练集和预测集；b、利用特征筛选和集成算法构建机器学习模型，将训练集输入至机器学习模型中使其进行训练，通过训练后的机器学习模型进行非编码RNA预测。本发明可以对非编码RNA进行预测，预测结果较为准确，预测效率大大提高。

Description

基于特征筛选和集成算法的非编码RNA预测方法

技术领域

本发明涉及RNA预测技术领域，特别涉及一种基于特征筛选和集成算法的非编码RNA预测方法。

背景技术

一直以来生物研究者使用生物实验的方法识别非编码RNA，生物实验的方法主要是通过各种先进实验技术来大规模识别非编码RNA基因。虽然生物实验方法可以准确识别非编码RNA，但是对那些表达水平极低、在不同时期才表达或者在特定环境下才表达的非编码RNA，生物实验的方法不再适用，除此之外，依靠生化实验方法识别非编码RNA既耗时而且价格昂贵，因此，目前生物实验的方法对非编码RNA识别受到不同程度的限制，所以我们有必要利用生物信息学方法从基因组序列中识别非编码RNA。

非编码RNA在染色体复制、RNA加工与修饰、肿瘤抑制、细胞调亡和基因调控网络方面扮演着重要角色。非编码RNA分子参与的调控网络可以影响人类发育、进化、遗传变异和多种疾病的等关键生理进程。对非编码RNA深入研究可能揭示一个全新的由RNA介导的遗传信息表达调控网络，从而以不同的视角阐明和解释人类基因组的结构和功能，也将为人类疾病和治疗提供新的技术和思路。随着新一代高通芯片和测序技术的发展，不同物种的基因组已经陆续测序完成，利用生物信息学方法从基因组序列中预测非编码RNA基因非常重要，已成为RNA基因组学的研究热点。

近几年人工智能的飞速发展，机器学习和深度学习应用领域的不断扩大，将人工智能与生物学相结合的想法及研究成为新的探索点，也是目前研究和应用的热门领域。实际上，深度学习的优势在于它可以将数据映射到高维空间中，深度学习自主地发现生物基因序列中我们用肉眼无法发现的内在特征，虽然深度学习有很高识别生物基因序列的能力，但是深度学习通过卷积层自主提取生物特征是无法预知的，导致了生物学研究者无法对生物特征的功能进一步了解。而机器学习可以提取所需的生物特征，并对生物特征进一步研究，通过研究结果从不同的视角解析生物特征的结构和功能。想要更深一步研究非编码RNA的功能和结构，非编码RNA的识别是最关键的一步。通过生物实验的方法识别非编码RNA虽然准确可靠，但是对那些表达水平极低、在不同时期才表达或者在特定环境下才表达的非编码RNA，生物实验的方法不再适用。除此之外，实验的方法既耗时而且价格昂贵。因此，如何利用机器学习对非编码RNA进行准确预测成为申请人所要研究与解决的技术问题。

发明内容

本发明的目的在于，提供一种基于特征筛选和集成算法的非编码RNA预测方法。本发明可以对非编码RNA进行预测，预测结果较为准确，预测效率大大提高。

本发明的技术方案：基于特征筛选和集成算法的非编码RNA预测方法，包括以下步骤：

a、在RNA数据库中获取非编码RNA序列组成正样本数据集，并选取与非编码RNA序列相同数量的RNA序列组成负样本数据集,得到正样本数据集和负样本数据集组成的数据集，并将数据集分割成训练集和预测集；

b、利用特征筛选和集成算法构建机器学习模型，将训练集输入至机器学习模型中使其进行训练，通过训练后的机器学习模型进行非编码RNA预测。

上述的基于特征筛选和集成算法的非编码RNA预测方法，包括以下步骤：

a、在RNA数据库中获取lncRNA序列组成正样本数据集，并选取与lncRNA 序列相同数量的mRNA序列组成负样本数据集，得到正样本数据集和负样本数据集组成的数据集，并将数据集分割成训练集和预测集；

其中，在选取正负样本集的过程中，从正样本数据集中去除长度超过 20099nt的lncRNA序列和具有特异性的lncRNA序列，从负样本数据集中去除长度小于200nt和大于20000nt的mRNA序列，再用随机森林测试方法确定正负样本集的个数；

b、利用ORF以及K-mer作为非编码RNA的特征筛选，结合Voting集成算法构建机器学习模型，将训练集输入至机器学习模型中使其进行训练，通过训练后的机器学习模型进行非编码RNA预测。

前述的基于特征筛选和集成算法的非编码RNA预测方法，包括以下步骤：

a、在RNA数据库中获取circRNA序列组成正样本数据集，并选取与circRNA 序列相同数量的mRNA序列组成负样本数据集，得到正样本数据集和负样本数据集组成的数据集，并将数据集分割成训练集和预测集；

其中，在选取正负样本集的过程中，从正样本数据集中去除长度超过 20099nt的lncRNA序列和具有特异性的序列，从负样本数据集中去除长度小于 200nt和大于20000nt的mRNA序列，再用随机森林测试方法确定正负样本集的个数；

前述的基于特征筛选和集成算法的非编码RNA预测方法，所述每条序列中最长的ORF片段作为ORF的首要特征，记为ORF_LONGEST；

将ORF_LONGEST与该序列的总长度的比值作为ORF的覆盖率ORF_Coverage：

其中Transcript_length表示整个序列的长度，得到ORF的第二特征；

将该序列存在的ORF的个数作为ORF的最后一个特征,记为ORF_Count。

a、在RNA数据库中获取真实的pre-miRNA序列组成正样本数据集，并选取与真实的pre-miRNA序列相同数量的虚假的pre-miRNA序列组成负样本数据集，得到正样本数据集和负样本数据集组成的数据集，并将数据集分割成训练集和预测集；

b、利用碱基组合频率以及K-mer作为非编码RNA的特征筛选，结合lightGBM 集成算法构建机器学习模型，将训练集输入至机器学习模型中使其进行训练，通过训练后的机器学习模型进行非编码RNA预测。

前述的基于特征筛选和集成算法的非编码RNA预测方法，所述的碱基组合频率包括四种表示方式：(G-C)％、(A-U)％、(G+C)％和(A+U)％,

具体碱基组合频率为：

(G+C)％＝G％+C％

(A+U)％＝A％+U％。

与现有技术相比，本发明利用特征筛选和集成算法构建机器学习模型，首先从RNA数据库中获取非编码RNA序列以及相对应数量的RNA序列构成数据集，然后将数据集划分成训练机后对机器学习模型进行训练，最后通过机器学习的方法对非编码RNA预测；本发明采用的特征筛选可以选取最优的特征组合，去除冗余和不相关的特征，从而提升机器学习模型对非编码RNA的预测的准确率，使得预测结果较为准确，预测效率大大提高。此外，本发明进一步的提出了三种非编码RNA的预测方法，包括lncRNA、circRNA以及pre-miRNA，然后优选对应的特征与集成算法，从而对三种非编码RNA的有着很好的预测效果。本发明还进一步地对ORF(开放阅读框)择优选取了三个主要特征，从而大大提高对lncRNA、circRNA这两种非编码RNA的预测效率。

附图说明

图1是决策树模型对lncRNA预测准确率及对应特征百分比；

图2是LDA模型对lncRNA预测准确率及对应特征百分比；

图3是随机森林模型对lncRNA预测准确率及对应特征百分比；

图4是bagging_tree模型对lncRNA预测准确率及对应特征百分比；

图5是bagging_LDA模型对lncRNA预测准确率及对应特征百分比；

图6是bagging_RFT模型对lncRNA预测准确率及对应特征百分比；

图7是Adaboost模型对lncRNA预测准确率及对应特征百分比；

图8是Voting模型对lncRNA预测准确率及对应特征百分比；

图9是八种模型通过特征筛选对lncRNA的预测准确率；

图10是八种模型经过三种特征处理对lncRNA的预测准确率；

图11是决策树模型对circRNA预测准确率及对应特征百分比；

图12是LDA模型对circRNA预测准确率及对应特征百分比；

图13是随机森林模型对circRNA预测准确率及对应特征百分比；

图14是bagging_tree模型对circRNA预测准确率及对应特征百分比；

图15是bagging_LDA模型对circRNA预测准确率及对应特征百分比；

图16是bagging_RFT模型对circRNA预测准确率及对应特征百分比；

图17是Adaboost模型对circRNA预测准确率及对应特征百分比；

图18是Voting模型对circRNA预测准确率及对应特征百分比；

图19是八种模型通过特征筛选对circRNA的预测准确率；

图20是八种模型经过三种特征处理对circRNA的预测准确率；

图21是决策树模型对pre-miRNA预测准确率及对应特征百分比；

图22是LDA模型对pre-miRNA预测准确率以及对应特征百分比；

图23是随机森林模型对pre-miRNA预测准确率及对应特征百分比；

图24是bagging_tree模型对pre-miRNA预测准确率及对应特征百分比；

图25是bagging_LDA模型对pre-miRNA预测准确率及对应特征百分比；

图26是bagging_RFT模型对pre-miRNA预测准确率及对应特征百分比；

图27是Adaboost模型对pre-miRNA预测准确率及对应特征百分比；

图28是Voting模型对pre-miRNA预测准确率及对应特征百分比；

图29是八种模型通过特征筛选对pre-miRNA的预测准确率；

图30是八种模型经过三种特征处理对pre-miRNA的预测准确率。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明，但并不作为对本发明限制的依据。

实施例1：基于特征筛选和集成算法的非编码RNA预测方法，包括以下步骤：

a、在RNA数据库中获取lncRNA(长非编码RNA(long noncoding RNA，lncRNA) 是指一类广泛存在于真核生物中，转录本长度大于200nt不具有编码蛋白的能力的RNA分子)序列组成正样本数据集，并选取与lncRNA序列相同数量的mRNA 序列组成负样本数据集，得到正样本数据集和负样本数据集组成的数据集，并将数据集分割成训练集和预测集；

其中，在选取正负样本集的过程中，从正样本数据集中去除长度超过 20099nt的lncRNA序列和具有特异性的lncRNA序列，从负样本数据集中去除长度小于200nt和大于20000nt的mRNA序列，再用随机森林测试方法确定正负样本集的个数，从而确定选取了7500条lncRNA序列和7500条mRNA序列，

b、利用ORF(开放阅读框，是以三位连续的碱基作为开始密码子的起始端，在以每三位碱开始读，一直到以三位碱基作为终止密码子的结束端)以及K-mer (表示生物分子中任意区域的核酸序列的K元组)作为非编码RNA的特征筛选，

对于ORF的特征筛选，在每条序列中最长的ORF片段作为ORF的首要特征，记为ORF_LONGEST；

对于K-mer的特征筛选，本实施例中选择了1至5-mer的字符串作为描述非编码RNA序列的重要特征，字符串包括A，U，C，G四种碱基字符，其中，1-mer 是4维特征，2-mer是16维特征，3-mer是64维特征，4-mer是256维特征， 5-mer是1024维特征，所以1至5-mer的字符串一共有1364维特征。这里K-mer 中的k表示含有碱基的个数，比如K取5时，表示5个连续碱基组成的字符串，一共有1024种相互独立表示方式，任意取一种连续碱基段可以表示为SSSSS，S 可以取四种碱基(A，U，C，G)中的任意一个碱基。具体表示方式以2-mer表示方式为例，可以看表1。

表1

结合Voting(一种集成学习算法，也被称为投票分类器。Voting是将多种模型的结果通过投票的方式进行聚合，本实施例中采用Soft Voting的投票思想，是将所有模型预测样本为某一类别的概率的平均值作为标准，概率最高的对应的类型为最终的预测结果)集成算法构建机器学习模型，将训练集输入至机器学习模型中使其进行训练，通过训练后的机器学习模型进行非编码RNA预测。

实施例2：基于特征筛选和集成算法的非编码RNA预测方法，包括以下步骤：

a、在RNA数据库中获取circRNA(circular RNA，环状RNA)是一类通过共价键形成闭合环状结构的非编码RNA分子)序列组成正样本数据集，并选取与circRNA序列相同数量的mRNA序列组成负样本数据集，得到正样本数据集和负样本数据集组成的数据集，并将数据集分割成训练集和预测集；

其中，在选取正负样本集的过程中，从正样本数据集中去除长度超过 20099nt的lncRNA序列和具有特异性的序列，从负样本数据集中去除长度小于 200nt和大于20000nt的mRNA序列，再用随机森林测试方法确定正负样本集的个数，从而确定选取了2750条lncRNA序列和2750条mRNA序列，

实施例3：基于特征筛选和集成算法的非编码RNA预测方法，包括以下步骤：

a、在RNA数据库中获取8000条真实的pre-miRNA(miRNA是一类具有内源性的长度约为20～25nt，由茎环结构的前体pre-miRNA通过核酸酶Dicer加工得到的非编码单链小RNA子)序列组成正样本数据集，并选取与真实的pre-miRNA 序列相同数量的虚假的pre-miRNA序列组成负样本数据集，得到正样本数据集和负样本数据集组成的数据集，并将数据集分割成训练集和预测集；

b、利用碱基组合频率(碱基组合频率包括四种表示方式：(G-C)％、(A-U)％、 (G+C)％和(A+U)％,

具体碱基组合频率为：

(G+C)％＝G％+C％

(A+U)％＝A％+U％)

以及K-mer作为非编码RNA的特征筛选，结合lightGBM(Light Gradient BoostingMachine，lightGBM是个快速的、分布式的、高性能的基于决策树算法的梯度提升框架)集成算法构建机器学习模型，将训练集输入至机器学习模型中使其进行训练，通过训练后的机器学习模型进行非编码RNA预测。

申请人分别采用AUC值、准确率(Accuracy)、精确率(precision)、召回率(recall)以及精确率和召回率之间的权重比例系数f1-score，利用这五种指标来评估实施例1、实施例2和实施例3对非编码RNA的分类效果。在非编码RNA预测中，正例分别为lncRNA、真实的pre-miRNA和circRNA,负例分别为 mRNA和虚假的pre-miRNA。真正例(TP)是指模型将正类别样本正确地预测为正类别。假负例(FN)指模型将正类别样本错误地预测为负类别。假正例(FP) 指模型将负类别样本错误地预测为正类别。真负例(TN)指模型将负类别样本正确地预测为负类别。具体计算公式为：

f₁为当β＝1时的值，

此时准确率和召回率一样重要，

在机器学习中，ROC曲线分析和AUC值是衡量二分类模型优劣的一种评价指标，表示正例排在负例前面的概率。在坐标上ROC曲线越往左上角靠近，表示 AUC的值越大，则表示分类器效果越好。在二分类器识别正样本与负样本时候，最直观看ROC曲线的界限值判断分类器对样本识别能力。混淆矩阵(Confusion Matrix)是分别统计分类模型归错类和归对类的观测值个数，然后把结果放在一个表里展示出来，如表2：

表2

真阳性率(True Positive Rate,TPR)的含义表示正样本被正确预测为正样本的比例，也被称为召回率(Recall)：

假阳性率(False Positive Rate,FPR)的含义表示负样本被错误预测为正样本的比例，也被称为灵敏性 (Sensitivity,SE)：

因此在对二分类预测时候，TPR的值越大越好和FPR的值越小越好。

实验中主要使用三种集成算法对三种非编码RNA进行预测，三种非编码RNA 分别为lncRNA、pre-miRNA和circRNA。为了考察Voting集成算法和lightGBM 集成算法结合特征筛选对三种非编码RNA预测的有效性，这里主要选择了两种对比的实验策略。第一，主模型与三种机器学习算法进行对比，分别为决策树、 LDA和随机森林。第二，主模型与三种bagging集成算法对比，分别为 bagging_tree、bagging_LDA和bagging_RFT。分别选用机器学习中AUC值、准确率、精确率、f1-score和召回率五种评价指标做评估比较。

最后，为了进一步验证Voting集成算法和lightGBM集成算法结合序列特征对三种非编码RNA预测的优越性，再分别加入Adaboost、XGboost和lightGBM 三种boosting集成算法进行准确率均值的比较。

AUC均值和准确率均值都是经过Stratified五折交叉验证输出结果，且将数据分割成8:2的训练集和测试集。而精确率、f1-score和召回率是单次训练和测试输出的结果，且将数据分割成9:1的训练集和测试集，从而分别对各个模型进行单次非编码RNA的准确率预测。

在对三种非编码RNA预测中，为了考察特征筛选的有效性，分别使用三种对比策略：第一，特征筛选的八种模型之间对比。第二，特征筛选与PCA降维做对比。第三，特征筛选与原始特征做对比。其中，在八种模型对三种非编码RNA 的预测，PCA降维方法是以每100维度的特征进行搜索，确定八个模型最佳的预测准确率。特征筛选方法是以2％维度的特征进行搜索，确定八个模型最佳的预测准确率。

对实施例1的预测结果与另外7种模型的预测结果进行统计，得到由图1- 图8得到八种模型通过特征筛选的每百分比的特征组输出预测lncRNA的准确率。图1中决策树模型的最佳预测准确率为88.27％和对应的特征的百分比为 19％。图2中LDA模型的最佳预测准确率为91.6％和对应的特征的百分比为47％。图3中随机森林模型的最佳预测准确率为91.4％和对应的特征的百分比为19％。图4中bagging_tree模型的最佳预测准确率为90.27％和对应的特征的百分比为 7％。图5中bagging_LDA模型的最佳预测准确率为91.8％和对应的特征的百分比为63％。图6中bagging_RFT模型的最佳预测准确率为91.13％和对应的特征的百分比为5％。图7中Adaboost模型的最佳预测准确率为91.47％和对应的特征的百分比为15％。图8中Voting模型(实施例1)的最佳预测准确率为93.93％和对应的特征的百分比为45％。

在八种模型对lncRNA预测中，下表3和图9表示八种模型通过特征筛选对 lncRNA的预测准确率。从表3可知，经过特征筛选选取的最佳特征集的维度明显降低，维度范围为5％～63％，有效降低模型的训练时间。从图9中可以看出 Voting模型的预测准确率为93.93％，均高于七种模型的预测准确率，且相差比较明显，相差的范围为2.13％～5.66％。实验数据表明了通过特征筛选的Voting 模型对lncRNA的预测效果最好，并且可以通过图9直观看出Voting模型对 lncRNA的预测准确率最高。

表3

表4表示八种通过三种特征处理对lncRNA的预测准确率。表5表示在八种模型对lncRNA预测中，特征筛选与原始特征和PCA降维这两种的预测准确率对比。从表4和表5的实验数据可知，在八种模型对lncRNA预测中，第一，对于同种模型的对比，特征筛选比PCA降维的预测准确率高出1.8％～5.6％，。第二，对于同种模型的对比，特征筛选比原始特征的预测准确率高出0.73％～1.4％。第三，特征筛选的Voting模型与原始特征的Voting模型对比，通过特征筛选的 Voting主模型对lncRNA的预测准确率提高了0.73％。以上对比数据表明了，第一，对lncRNA的预测中，特征筛选方法要比PCA降维方法更加有效。第二，通过特征筛选可以提高八种模型对lncRNA的预测准确率。第三，通过特征筛选有效提高Voting主模型对lncRNA的预测准确率。

表4

表5

图10表示八种模型经过三种特征处理对lncRNA的预测准确率。从图10可知，在八种模型对lncRNA预测中，特征筛选的预测准确率均高于PCA降维的预测准确率和原始特征的预测准确率。从图10的所标的实验数据和柱状体高低可以直观看出，特征筛选有效提高八种模型对lncRNA的预测准确率，并且发现PCA 降维的八种模型对lncRNA预测效果较差。

对实施例2的预测结果与另外7种模型的预测结果进行统计，得到由图 11-18的八幅图表示八种模型通过特征筛选的每百分比的特征组输出预测 circRNA的准确率值。图11中决策树模型的最佳预测准确率为91.45％和对应的特征的百分比为7％。图12中国LDA模型的最佳预测准确率为89.64％和对应的特征的百分比为55％。图13可知，随机森林模型的最佳预测准确率为93.64％和对应的特征的百分比为21％。图14中bagging_tree模型的最佳预测准确率为 92.55％和对应的特征的百分比为5％。图15中bagging_LDA模型的最佳预测准确率为90.36％和对应的特征的百分比为61％。图16中bagging_RFT模型的最佳预测准确率为93.09％和对应的特征的百分比为1％。图17中adaboost模型的最佳预测准确率为94％和对应的特征的百分比为65％。图18中Voting模型(实施例 2)预测最高准确率为94.55％和与其对应的特征的百分比为5％。

在八种模型对circRNA预测中，下表6和图19表示八种模型通过特征筛选对circRNA的预测准确率。从表6可知，通过特征筛选得到最佳特征集的维度明显降低，维度范围为1％～65％，有效降低模型的训练时间。模型Voting的预测准确率为94.55％，均高于七种模型的预测准确率，且相差比较明显，相差的范围为0.55％～4.91％。实验数据表明了通过特征筛选的Voting模型对circRNA 的预测效果最好，并且可以通过图19直观看出Voting模型对circRNA的预测准确率最高。

表6

表7表示八种模型经过三种特征处理对circRNA的预测准确率。表8表示在八种模型对circRNA预测中，特征筛选与原始特征和PCA降维的预测准确率对比。从表7和表8的实验数据可知，在八种模型对circRNA预测中，第一，特征筛选比PCA降维的预测准确率高出0.18％～4％。第二，特征筛选比原始特征的预测准确率高出0.19％～2.01％。第三，与原始特征的Voting主模型对比，经过特征筛选的Voting主模型对circRNA的预测准确率提升了0.74％。以上对比表明了，第一，特征筛选要比PCA降维更加有效。第二，经过特征筛选可以提高八种模型对circRNA的预测准确率。第三，经过特征筛选可以提高Voting主模型对长circRNA的预测准确率，说明了特征筛选有效提高Voting主模型对 circRNA的预测准确率。

表7

表8

图20表示八种模型经过三种特征处理对circRNA的预测准确率。从图20 可知，在八个模型对circRNA预测中，特征筛选的预测准确率均高于PCA降维的预测准确率和原始特征的预测准确率。从图20的所标的实验数据和柱状体高低可以直观看出，特征筛选有效提高八种模型对circRNA的预测准确率，并且发现PCA降维的八种模型对circRNA预测效果较差。

对实施例3的预测结果与另外7种模型的预测结果进行统计，得到由图 21-28的八幅图表示八种模型通过特征筛选的每百分比的特征组输出预测 pre-miRNA的准确率。图21中决策树模型的最佳预测准确率为79.06％和对应的特征的百分比为23％。图22中LDA模型的最佳预测准确率为84.69％和与其对应的特征的百分比为99％。图23中随机森林模型的最佳预测准确率为87.75％和对应的特征的百分比为89％。图24中bagging_tree模型的最佳预测准确率为 81.94％和对应的特征的百分比为91％。图25中bagging_LDA模型的最佳预测准确率为84.38％和对应的特征的百分比为99％。图26中bagging_RFT模型的最佳预测准确率为86.94％和对应的特征的百分比为85％。图27中Adaboost模型预的最佳预测准确率为88.31％和对应的特征的百分比为75％。图28中lightGBM 模型(实施例3)的最佳预测准确率为93.38％和对应的特征的百分比为71％。

在八种模型对pre-miRNA预测中，表9和图29表示八种模型通过特征筛选对pre-miRNA的预测准确率。从表9可知，通过特征筛选得到最佳特征集，八种模型的最佳特征集的维度范围为23％～91％，有效降低小部分模型的训练时间，两种模型的最佳特征集的维度为99％，可以除去冗余特征和不相关特征。

lightGBM模型的预测准确率为93.38％，均高于七种模型的预测准确率，且相差明显，相差的范围为5.07％～14.32％。实验数据表明了通过特征筛选的lightGBM 模型对pre-miRNA的预测效果最好，并且可以通过图29直观看出lightGBM模型对pre-miRNA的预测准确率最高。

表9

表10表示八种模型通过三种特征处理对pre-miRNA的预测准确率。表11 表示在八种模型对pre-miRNA预测中，特征筛选与原始特征和PCA降维这两种的预测准确率对比。从表10和表11的实验数据可知，在八种模型对pre-miRNA 预测中，第一，对同种模型的对比，特征筛选比PCA降维的预测准确率高了 2.31％～6.12％。第二，对同种模型的对比，特征筛选比原始特征的预测准确率高了0.01％～1.5％。第三，特征筛选的lightGBM模型与原始特征的lightGBM模型对比，通过特征筛选的lightGBM模型对pre-miRNA的预测准确率提高了 0.57％。以上对比数据表明了，第一，对pre-miRNA的预测中，特征筛选方法要比PCA降维方法更加有效。第二，通过特征筛选可以提高八种模型对pre-miRNA 的预测准确率。第三，通过特征筛选有效提高lightGBM模型对pre-miRNA的预测准确率。

表10

表11

图30表示八种模型通过三种特征处理对pre-miRNA的预测准确率。从图30 可知，在八个模型对pre-miRNA预测中，特征筛选的预测准确率均高于PCA降维的预测准确率和原始特征这两种的预测准确率。从图30的所标的实验数据和柱状体高低可以直观看出，特征筛选有效提高八种模型对pre-miRNA的预测准确率，并且发现PCA降维的八种模型对pre-miRNA预测效果较差。

综上所述，本发明利用特征筛选和集成算法构建机器学习模型，首先从RNA 数据库中获取非编码RNA序列以及相对应数量的RNA序列构成数据集，然后将数据集划分成训练机后对机器学习模型进行训练，最后通过机器学习的方法对非编码RNA预测；本发明采用的特征筛选可以选取最优的特征组合，去除冗余和不相关的特征，从而提升机器学习模型对非编码RNA的预测的准确率，使得预测结果较为准确，预测效率大大提高。

Claims

1.基于特征筛选和集成算法的非编码RNA预测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于特征筛选和集成算法的非编码RNA预测方法，其特征在于：包括以下步骤：

a、在RNA数据库中获取lncRNA序列组成正样本数据集，并选取与lncRNA序列相同数量的mRNA序列组成负样本数据集，得到正样本数据集和负样本数据集组成的数据集，并将数据集分割成训练集和预测集；

其中，在选取正负样本集的过程中，从正样本数据集中去除长度超过20099nt的lncRNA序列和具有特异性的lncRNA序列，从负样本数据集中去除长度小于200nt和大于20000nt的mRNA序列，再用随机森林测试方法确定正负样本集的个数；

3.根据权利要求1所述的基于特征筛选和集成算法的非编码RNA预测方法，其特征在于：包括以下步骤：

a、在RNA数据库中获取circRNA序列组成正样本数据集，并选取与circRNA序列相同数量的mRNA序列组成负样本数据集，得到正样本数据集和负样本数据集组成的数据集，并将数据集分割成训练集和预测集；

其中，在选取正负样本集的过程中，从正样本数据集中去除长度超过20099nt的lncRNA序列和具有特异性的序列，从负样本数据集中去除长度小于200nt和大于20000nt的mRNA序列，再用随机森林测试方法确定正负样本集的个数；

4.根据权利要求2或3所述的基于特征筛选和集成算法的非编码RNA预测方法，其特征在于：所述每条序列中最长的ORF片段作为ORF的首要特征，记为ORF_LONGEST；

5.根据权利要求1所述的基于特征筛选和集成算法的非编码RNA预测方法，其特征在于：包括以下步骤：

b、利用碱基组合频率以及K-mer作为非编码RNA的特征筛选，结合lightGBM集成算法构建机器学习模型，将训练集输入至机器学习模型中使其进行训练，通过训练后的机器学习模型进行非编码RNA预测。

6.根据权利要求5所述的基于特征筛选和集成算法的非编码RNA预测方法，其特征在于：所述的碱基组合频率包括四种表示方式：(G-C)％、(A-U)％、(G+C)％和(A+U)％,

具体碱基组合频率为：

(G+C)％＝G％+C％

(A+U)％＝A％+U％。