CN118038995B

CN118038995B - 非编码rna中小开放阅读窗编码多肽能力预测方法及系统

Info

Publication number: CN118038995B
Application number: CN202410092859.3A
Authority: CN
Inventors: 杨森; 杨泽熙; 卢嘉毅; 倪嘉琦; 聂琪; 陈宏�
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2024-01-23
Filing date: 2024-01-23
Publication date: 2024-08-23
Anticipated expiration: 2044-01-23
Also published as: CN118038995A

Abstract

本发明公开了非编码RNA中小开放阅读窗编码多肽能力预测方法及系统，涉及非编码RNA中sORF编码多肽能力预测技术领域，包括采集非编码RNA中小开放阅读窗sORF编码多肽和不编码多肽序列数据，进行数据预处理；构建sORF序列和sORF序列对应的多肽序列特征空间；通过多肽序列特征空间构建融合多空间视图的深度学习模型DeepNCsORF模型；验证和评估DeepNCsORF模型。本发明通过多种特征表征来描述序列，填补了单一数据来源的不足，实现多路径信息融合，提出三路交互式注意力机制来更好地合成三个子网络的输出，充分挖掘不同网络之间的关联性，提取重要信息，预测效果优于仅考虑单一特征的方法。

Description

非编码RNA中小开放阅读窗编码多肽能力预测方法及系统

技术领域

本发明涉及非编码RNA中sORF编码多肽能力预测技术领域，特别是非编码RNA中小开放阅读窗编码多肽能力预测方法及系统。

背景技术

小开放阅读窗(small open readingframes，sORF)，sORFs是非编码RNA分子中的短开放阅读窗，其长度通常在50个核苷酸到数百个核苷酸之间。近年来研究表明，一些非编码RNA分子中的sORFs能够编码功能性多肽，这些多肽在细胞过程和生理功能中扮演重要角色。本发明通过提取核苷酸和氨基酸两个方面的序列信息，构建了新的深度学习模型，实现了对非编码RNA中小开放阅读窗编码多肽能力的预测。在测试数据集上与多个已有模型对比，结果表明本发明具有更高的准确率和鲁棒性。本发明对理解非编码RNA的功能和调控机制具有重要意义，有助于揭示非编码RNA分子中潜在的编码多肽序列，进一步研究这些多肽的功能和作用机制。

过去非编码RNA(ncRNA)被认为只起到调控基因表达的功能，而不会编码蛋白质。然而，随着技术的进步和研究的深入，越来越多的证据表明，一些ncRNA中的小开放阅读窗(small open readingframes，sORFs)具有编码功能性多肽的能力。sORFs是ncRNA分子中相对较短的开放阅读窗，其长度通常在50个核苷酸到数百个核苷酸之间。由于其长度相对较短，传统的蛋白质编码基因预测方法往往无法准确识别这些sORFs。然而，随着高通量测序技术的发展，研究发现一些ncRNA中的sORFs可以编码功能性多肽。这些多肽对深入理解基因表达调控、细胞信号传导、疾病发生等生物学过程具有重要的意义，并为开发新的治疗策略和药物靶点提供了新的方向和机会。

然而，通过质谱等生物实验方法发现非编码RNA中sORF翻译的多肽，存在实验复杂、实验重复度高、实验一致性难控制等问题，无法高通量发现非编码RNA中sORF翻译的多肽。此外，现有的计算方法主要针对长开放阅读窗(longORF)的编码能力预测，对于短的sORF的编码能力预测不够准确，存在一些局限性，一方面现有的计算方法中大多数仅从氨基酸或者核苷酸的单一方向进行特征提取，且sORF的长度相对较短，传统的蛋白质编码基因预测方法通常依赖于长ORF的特征表示，导致预测结果不佳。其次目前的计算模型没有抓住sORF与其翻译的多肽之间的关联信息，没有从sORF和其翻译的多肽两个方面学习sORF翻译能力，导致模型学习能力不足。

基于现有方法的不足，本发明提出了一种新的计算方法DeepNCsORF。本发明分别从核苷酸序列和氨基酸序列的角度进行特征构建。在特征构造方面，本发明以3mer为分割单元，将核苷酸序列转为图。对氨基酸序列，本项目将从比对信息、氨基酸生化特征以及预训练模型表示三个层面表征氨基酸序列。通过图卷积神经网络、RNN神经网络以及二维卷积神经网络，构建融合核苷酸和多肽序列的深度学习网络，预测非编码RNA中sORF翻译多肽的能力。本发明填补了预测非编码RNA中sORF编码能力不足的技术空白，具有重要的实际应用价值。

发明内容

鉴于上述存在的问题，提出了本发明。

因此，本发明所要解决的问题是：如何解决预测非编码RNA中sORF编码能力不足的问题。

为解决上述技术问题，本发明提供如下技术方案：非编码RNA中小开放阅读窗编码多肽能力预测方法，包括，采集非编码RNA中小开放阅读窗sORF编码多肽和不编码多肽序列数据，进行数据预处理；构建sORF序列和sORF序列对应的多肽序列特征空间；通过多肽序列特征空间构建融合多空间视图的深度学习模型DeepNCsORF模型；验证和评估DeepNCsORF模型。

作为本发明所述非编码RNA中小开放阅读窗编码多肽能力预测方法的一种优选方案，其中：所述多肽序列数据包括，获取TransLnc中的所有核苷酸和氨基酸序列，选择有1到4种实验证据支撑的序列数据作为正样本，将没有实验证据支撑的序列数据作为负样本，运用CD-HIT按80％的阈值将多肽序列数据集中的冗余数据去除，按1:1比例随机抽取数据正负样本，构建数据集。

作为本发明所述非编码RNA中小开放阅读窗编码多肽能力预测方法的一种优选方案，其中：所述多肽序列特征空间包括基于图的核苷酸序列表征、基于进化信息的多肽序列表征、基于比对信息的多肽序列表征、基于生化特征的多肽序列表征和基于大模型预训练多肽序列表征；所述基于图的核苷酸序列表征包括，将核苷酸序列划分为3mer片段，将给定的核苷酸序列按照连续的三个核苷酸为一组进行划分，得到一系列的3mer片段，对于长度为N的核苷酸序列，得到N-2个3mer片段，然后构建3mer图的节点，将每个3mer片段作为3mer图的节点，每个节点代表一个唯一的3mer片段，构建3mer图的边，对于相邻的3mer片段，添加一条边表示相邻的3mer片段之间的连接，如果两个3mer片段在原始核苷酸序列中是连续的，则两个3mer片段之间存在一条边，将核苷酸序列转换为3mer图后，得到一个图结构，其中节点表示3mer片段，边表示3mer片段之间的连接，将图结构联合图卷积网络。

作为本发明所述非编码RNA中小开放阅读窗编码多肽能力预测方法的一种优选方案，其中：所述基于进化信息的多肽序列表征包括，多肽序列的进化信息使用位置特异性评分矩阵表示，收集已有物种的蛋白质序列，使用多序列比对算法ClustalW，将多肽序列比对到收集到的蛋白质序列，根据比对结果，统计每个位置上氨基酸残基的频率和出现概率，得到初始的频率矩阵，频率矩阵的大小为m×n，其中，m为氨基酸的种类数目，n为比对序列的长度，对初始频率矩阵进行修正，修正方法为加权，得到修正后的矩阵，即为PSSM，PSSM矩阵的每一列代表一个氨基酸残基，每一行代表比对序列中的一个位置，矩阵中的每个元素表示位置上某个氨基酸残基的评分，若评分值高，则表示残基在位置上的保守性高，若评分值低，则表示残基在位置上的变异性高，对给定的长度为L的多肽序列，PSSM矩阵的大小为L*20，L为多肽序列的长度，20种氨基酸在每个位置出现的评分；所述基于比对信息的多肽序列表征包括，多肽序列的比对信息用多肽的接触图表示，使用AlphaFold2获取多肽的三维结构，从多肽的结构数据中提取出每个氨基酸残基的原子坐标，选择在蛋白质结构中稳定的Cα原子的坐标，对于每个氨基酸残基，使用欧氏距离计算氨基酸残基与其他残基之间的距离，并根据设定的阈值，判断是否存在接触，若两个氨基酸残基的距离小于阈值，则认为两个氨基酸残基之间存在接触，将对应的接触图元素设置为1，若两个氨基酸残基的距离大于阈值，则将对应的接触图元素设置为0，将所有氨基酸残基之间的接触情况记录在接触图中，形成一个对称的二维矩阵，矩阵的行和列对应于氨基酸的索引，得到的多肽序列的接触图。

作为本发明所述非编码RNA中小开放阅读窗编码多肽能力预测方法的一种优选方案，其中：所述基于生化特征的多肽序列表征包括，多肽的序列的生化特征使用AAindex表示，其中AAindex1是AAindex数据库中的一个子集，通过AAindex1将序列中每个氨基酸转化为544维度的向量，对给定长度为L的多肽序列，得到L*544的矩阵；所述基于大模型预训练多肽序列表征包括，预训练模型通过大规模蛋白质数据学习多肽序列的高级表示，捕获语义和上下文信息，ProtT5通过自注意力机制捕获序列的全局依赖，将长度为L的序列编码为L*1024维矩阵，ESM-2采用自回归方式预测氨基酸，建模局部依赖关系，学习序列中的语义信息和上下文关联，通过编码器将序列编码为L*1280维矩阵。

作为本发明所述非编码RNA中小开放阅读窗编码多肽能力预测方法的一种优选方案，其中：所述DeepNCsORF模型包括图卷积神经网络、长短记忆网络LSTM加一维卷积神经网络1DCNN网络以及二维卷积神经网络2DCNN网络三路神经网络，将核苷酸和氨基酸表征数据进行整合，核苷酸序列被表征为图，采用图卷积神经网络处理核苷酸信息，多肽序列被PSSM、AAindex1、ProtT5和ESM-2表示为矩阵，其中PSSM表示矩阵维度为L*20，AAindex1表示矩阵维度为L*544，ProtT5表示矩阵维度L*1024，ESM-2表示矩阵维度为L*1280；将PSSM、AAindex1、ProtT5和ESM-2表示矩阵拼接，构建一个L*2868维度的矩阵，L*2868维度的矩阵将采用LSTM和1DCNN提取序列签字特征；由于多肽的接触图被表示为2维矩阵，通过2DCNN学习多肽的接触图携带的信息；提出新的注意力机制策略TPIA用于更好地合并三路神经网络输出信息；所述TPIA包括，三路神经网络输出的数据分别定义为P₁、P₂和P₃，使用3个独立全连接网络分别将P₁、P₂和P₃数据对齐到同一维度512维度，分别成为PP₁、PP₂和PP₃，拼接PP₁、PP₂和PP₃构建一个1536维度的大向量，并采用全连接网络将其降到512维度，生成矩阵M，矩阵M存储三路数据中重点信息，将(PP₁、PP₂、M)，(PP₁、PP₃、M)，(PP₂、PP₃、M)组合通过获得重点关注的信息SM₁、SM₂、SM₃，其中，d为对应向量的模，将SM₁、SM₂、SM₃合并为一个向量，作为DeepNCsORF模型的输出；DeepNCsORF的损失函数表示为：

其中，N为样本标签的总数，y_i为第i个样本标签，y是样本标签，p(y)是预测样本的概率；使用Adam优化算法对模型参数进行更新，使模型的损失函数收敛，网络的学习率为0.0001。

作为本发明所述非编码RNA中小开放阅读窗编码多肽能力预测方法的一种优选方案，其中：所述验证和评估DeepNCsORF模型包括特异性、敏感度、准确率、马修斯相关系数、F1-score和平均准确率，表示为：

其中，Sensitivity为敏感度，TP为正确地将正类预测为正类的实例数，FN为错误地将正类预测为负类的实例数，Specificity为特异性，TN为正确地将负类预测为负类的实例数，FP为错误地将负类预测为正类的实例数，MCC为马修斯相关系数，F1为F1-score，Accuracy为准确率，AP为平均准确率，p(r)为在给定召回率水平下的精确率，r为分类阈值。

本发明的另外一个目的是提供非编码RNA中小开放阅读窗编码多肽能力预测方法的系统，其能通过构建非编码RNA中小开放阅读窗编码多肽能力预测系统，解决了非编码RNA中小开放阅读窗编码多肽能力预测的问题。

为解决上述技术问题，本发明提供如下技术方案：非编码RNA中小开放阅读窗编码多肽能力预测系统，包括，数据采集模块、多肽序列特征空间构建模块、DeepNCsORF模块及验证评估模块；所述数据采集模块采集非编码RNA中小开放阅读窗sORF编码多肽和不编码多肽序列数据，进行数据预处理；所述多肽序列特征空间构建模块构建sORF序列和sORF序列对应的多肽序列特征空间；所述DeepNCsORF模块通过多肽序列特征空间构建融合多空间视图的深度学习模型DeepNCsORF模型；所述验证评估模块用于验证和评估DeepNCsORF模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述非编码RNA中小开放阅读窗编码多肽能力预测方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述非编码RNA中小开放阅读窗编码多肽能力预测方法的步骤。

本发明有益效果为：本发明提供的非编码RNA中小开放阅读窗编码多肽能力预测方法充分利用了核糖核酸序列和氨基酸序列的信息，通过多种特征表征来描述序列，包括基于图的核糖核酸特征表达、PSSM、接触图等多种氨基酸特征表达，填补了单一数据来源的不足。本发明建立了一个深度学习模型来结合多种特征，通过图卷积网络处理核糖核酸特征，LSTM+1DCNN处理PSSM等氨基酸序列特征，2DCNN处理多肽接触图特征，实现多路径信息融合。本发明提出三路交互式注意力机制来更好地合成三个子网络的输出，充分挖掘不同子网络之间的关联性，提取重要信息。本发明方法实现了非编码RNA序列和其编码多肽之间复杂关联的深度学习，预测效果应优于仅考虑单一特征的方法。本发明有助于揭示非编码RNA潜在编码多肽序列，扩展对基因表达调控、细胞信号传导的认识，对理解相关生物学过程和疾病发生具有重要意义。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明第一个实施例提供的非编码RNA中小开放阅读窗编码多肽能力预测方法的流程图。

图2为本发明第一个实施例提供的非编码RNA中小开放阅读窗编码多肽能力预测方法的整体流程图。

图3为本发明第二个实施例提供的非编码RNA中小开放阅读窗编码多肽能力预测系统的结构图。

图4为本发明第三个实施例提供的非编码RNA中小开放阅读窗编码多肽能力预测方法的本发明与其他方法在Human、Mouse和Rat数据集上的AUROC对比图。

图5为本发明第三个实施例提供的非编码RNA中小开放阅读窗编码多肽能力预测方法的本发明与其他方法在Human、Mouse和Rat数据集上的PRROC曲线对比图。

图6为本发明第三个实施例提供的非编码RNA中小开放阅读窗编码多肽能力预测方法的本发明与其他方法在Human、Mouse和Rat数据集上的预测分布对比图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

实施例1

参照图1和图2，为本发明第一个实施例，该实施例提供了非编码RNA中小开放阅读窗编码多肽能力预测方法，包括：采集非编码RNA中小开放阅读窗sORF编码多肽和不编码多肽序列数据，进行数据预处理；构建sORF序列和sORF序列对应的多肽序列特征空间；通过多肽序列特征空间构建融合多空间视图的深度学习模型DeepNCsORF模型；验证和评估DeepNCsORF模型。

近年来的研究表明，一些非编码RNA分子中的sORF能够编码功能性多肽，并在细胞过程和生理功能中发挥重要作用，因此需要探寻能够准确预测sORF编码多肽能力的方法。为了解决现有方法预测性能不足的问题，本发明提出了一种名为DeepNCsORF的计算方法，用于预测非编码RNA中小开放阅读窗(sORF)编码多肽的能力。本发明通过深度提取核苷酸和多肽序列的信息并融合图卷积神经网络(GCN)、循环神经网络(RNN)和二维卷积神经网络等技术，构建了一个综合核苷酸和氨基酸序列的深度学习网络。该网络能够有效学习到sORF与其翻译的多肽之间的关联信息，并且与现有方法对比显著提升预测非编码RNA中sORF编码多肽的能力。本发明的具体内容如下：

(1)核苷酸层面的特征表示。本发明基于图(Graph)对核苷酸序列做出特征表示，使用3mer作为分割单元，将核苷酸序列转换为图的表示，图的节点为3mer的核苷酸片段，图的边为两个3mer核苷酸片段是否在序列中相邻。本发明将核苷酸序列转换为3mer图后，融合该图与图卷积网络，以发现序列中的模式、相似性、结构特征等信息。

(2)多肽序列层面的特征表示。本发明通过深度挖掘多肽序列中的隐含信息，构建多肽序列层面的深层特征表示，以便于提升模型性能。其中包括：基于进化信息的多肽序列表征；基于比对信息的多肽序列表征；基于生化特征的多肽序列表征；基于大模型预训练多肽序列表征。对于基于进化信息的多肽序列表征，本发明采用UniProt数据库中的uniref90作为比对数据源，采用Makeblastdb工具构建序列索引，使用多序列比对算法ClustalW，将多肽序列比对到蛋白质数据库，得到包含进化信息的位置特异性评分矩阵(PSSM)。对于基于比对信息的多肽序列表征，本发明使用AlphaFold2工具获取多肽的三维结构，并根据三维结构计算氨基酸残基间的接触关系，以此构建多肽的接触图矩阵表示比对信息。对于基于生化特征的多肽序列表征，本发明通过氨基酸属性信息数据库(AAindex)对多肽序列进行编码，所得的特征表示即包含了多肽序列的理化性质、结构性质、功能性质等多种生化特征。对于基于大模型预训练多肽序列表征，本发明使用Prot-T5和ESM-2两种广泛应用的预训练模型对多肽序列进行特征表示。

(3)构建融合多空间视图的深度学习模型DeepNCsORF。本发明在特征工程中挖掘了核苷酸层面的特征表示，多肽序列层面的特征表示，为了能够更好地训练学习不同视图的特征，本发明提出了一种三路通道融合的深度学习模型，分别是图卷积神经网络(GCN)、长短期记忆网络(LSTM)+一维卷积神经网络(1DCNN)、二维卷积神经网络(2DCNN)。本发明中的深度学习模型使用GCN处理由核苷酸序列生成的图表示，使用LSTM+1DCNN处理由PSSM、AAindex、Prot-T5和ESM-2特征融合得到的矩阵表示，使用2DCNN处理多肽序列的接触图矩阵。同时本发明还提出了新的注意力机制策略TPIA(three path interactiveattention)，用于更好地合并三路神经网络的输出信息。TPIA的主要策略是充分挖掘不同路神经网络信息与主神经网络信息的关联性，进而挖掘不同路神经网络潜在的重要信息。三路神经网络经TPIA合并，经过计算后生成最终的概率预测值。DeepNCsORF模型融合了多路不同的数据，并联合多路径关联注意机制，充分挖掘输入数据潜力，能够更准确预测非编码RNA中sORF的翻译能力。

本发明提出了一种融合多空间视图的深度学习模型DeepNCsORF，用于预测非编码RNA中sORF翻译多肽的能力。DeepNCsORF融合了核苷酸序列、多肽序列信息，构建了多路神经网络，提出了新的注意力机制，在非编码RNA中sORF翻译能力相关领域的研究和应用中具有广泛的潜力。具体实施过程为图2所示。

S1、非编码RNA中sORF编码多肽和不编码多肽序列数据收集和预处理。

本发明使用的数据集来源于TransLnc。首先获取TransLnc中的所有核苷酸和氨基酸序列，选择有1到4种实验证据支撑的序列数据作为正样本，将没有实验证据支撑的序列数据作为负样本。由于sORF密码子翻译的结果会有相同，导致多肽序列会有重叠，因此本发明运用CD-HIT按80％的阈值将多肽序列数据集中的冗余数据去除。为了保证数据的平衡性，本发明按1:1比例随机抽取数据正负样本，最终构建本发明所需的数据集。

S2、sORF序列和其对应的多肽序列特征空间构建

S2.1、基于图的核苷酸序列表征。

通过将核苷酸序列划分为若干3mer，不同3mer为节点，3mer是否毗邻作为两3mer的边，构建图数据，进而表征核苷酸序列。具体过程如下，首先将核苷酸序列划分为3mer片段，将给定的核苷酸序列按照连续的三个核苷酸为一组进行划分，得到一系列的3mer片段。对于长度为N的核苷酸序列，将会得到N-2个3mer片段。例如，对于核苷酸序列"ATCGATCG"，划分后的3mer片段为："ATC"、"TCG"、"CGA"、"GAT"、"ATC"、"TCG"，然后构建3mer图的节点，将每个3mer片段作为3mer图的节点，每个节点代表一个唯一的3mer片段。在上述例子中，共有6个节点："ATC"、"TCG"、"CGA"、"GAT"、"ATC"、"TCG"，最后，构建3mer图的边，对于相邻的3mer片段，添加一条边来表示它们之间的连接。如果两个3mer片段在原始核苷酸序列中是连续的，则它们之间存在一条边。例如，"ATC"和"TCG"之间可以有一条边。通过以上步骤，将核苷酸序列转换为3mer图后，可以得到一个图结构，其中节点表示3mer片段，边表示3mer片段之间的连接。本发明将该图联合图卷积网络，以发现序列中的模式、相似性、结构特征等信息。

S2.2、基于进化信息的多肽序列表征。

多肽序列的进化信息可以使用位置特异性评分矩阵(Position-SpecificScoringMatrix，PSSM)表示。首先收集已有物种的蛋白质序列，本专利采用UniProt数据库中的uniref90作为比对数据源，并采用Makeblastdb工具构建序列索引。使用多序列比对算法ClustalW，将多肽序列比对到收集到的蛋白质序列。根据比对结果，统计每个位置上氨基酸残基的频率和出现概率，得到初始的频率矩阵。频率矩阵的大小为m×n，其中m表示氨基酸的种类数目，n表示比对序列的长度。然后，对初始频率矩阵进行修正，以考虑氨基酸残基的背景分布和互相之间的相互作用。修正方法为加权，加权方法可以根据氨基酸残基的重要性对频率矩阵进行加权，以提高保守性残基的权重。最终，本项目将得到修正后的矩阵，即为PSSM。PSSM矩阵的每一列代表一个氨基酸残基，每一行代表比对序列中的一个位置。矩阵中的每个元素表示该位置上某个氨基酸残基的评分。评分值越高表示该残基在该位置上的保守性越高，评分值越低表示该残基在该位置上的变异性越高。对给定的长度为L的多肽序列，其PSSM矩阵的大小为L*20，L为多肽序列的长度，20种氨基酸在每个位置出现的评分。

S2.3、基于比对信息的多肽序列表征。

多肽序列的比对信息可以用多肽的接触图表示，多肽的接触图描述了多肽中所有氨基酸之间的接触关系。接触图是一种二维矩阵，其中的每个元素表示两个氨基酸之间是否存在接触。本发明的多肽接触图构建过程如下：首先，使用AlphaFold2获取多肽的三维结构，然后，从多肽的结构数据中提取出每个氨基酸残基的原子坐标，选择在蛋白质结构中通常较为稳定的Cα原子的坐标，其次，对于每个氨基酸残基，使用欧氏距离计算它与其他残基之间的距离，并根据设定的阈值，判断是否存在接触。如果两个氨基酸残基的距离小于阈值，则认为它们之间存在接触，将对应的接触图元素设置为1；否则，将对应的接触图元素设置为0。最后，将所有氨基酸残基之间的接触情况记录在接触图中，形成一个对称的二维矩阵，矩阵的行和列对应于氨基酸的索引，最终得到的多肽序列的接触图。多肽接触图可以通过可视化工具更直观地分析蛋白质中氨基酸之间的接触关系。

S2.4、基于生化特征的多肽序列表征。

多肽的序列的生化特征可以使用AAindex表示。AAindex(Amino Acid index)是一个包含了氨基酸属性信息的数据库。它提供了一系列数值化的氨基酸特征，用于描述氨基酸的物理化学性质、结构性质、功能性质等。AAindex数据库中的每个索引都对应一个特定的氨基酸属性。其中AAindex1是AAindex数据库中的一个子集，它包含了544一组数值化的氨基酸属性指标。AAindex1主要关注氨基酸的物理化学性质和结构性质，如溶解性、疏水性、电荷等。通过AAindex1可以将序列中每个氨基酸转化为544维度的向量，对给定长度为L的多肽序列，最终可以得到L*544的矩阵。

S2.5、基于大模型预训练多肽序列表征。

预训练模型通过大规模蛋白质数据学习多肽序列的高级表示，捕获语义和上下文信息。在蛋白质领域，ProtT5和ESM-2是两种广泛应用的预训练模型。ProtT5基于Transformer架构，Transformer模型能够有效地处理长序列，并且具有较强的建模能力，使得Prot-T5能够学习到多肽序列中的复杂特征和相互作用。通过自注意力机制捕获序列的全局依赖，将长度为L的序列编码为L*1024维矩阵。ESM-2作为蛋白质语言模型，采用自回归方式预测氨基酸，建模局部依赖关系，并且能够学习到序列中的语义信息和上下文关联，通过编码器可以将序列编码为L*1280维矩阵。这些模型提供的高级特征向量可用于序列分类、聚类和相似性计算，实现深入分析和预测。

S3、融合多空间视图信息的深度学习模型构建。

为了更好地融合核苷酸序列和氨基酸序列信息，本发明提出了一种融合多空间视图的深度学习模型DeepNCsORF，用于预测非编码RNA中sORF翻译多肽的能力。

首先将核苷酸和氨基酸表征数据进行整合，核苷酸序列被表征为图，本发明将采用图卷积神经网络(graph neural network)处理核苷酸信息，多肽序列被PSSM、AAindex1、ProtT5和ESM-2表示为矩阵，其中PSSM表示矩阵维度为L*20，AAindex1表示矩阵维度为L*544，ProtT5表示矩阵维度L*1024，ESM-2表示矩阵维度为L*1280，将PSSM、AAindex1、ProtT5和ESM-2表示矩阵拼接，构建一个L*2868维度的矩阵，该矩阵将采用长短记忆网络(longshort-termmemory，LSTM)和一维卷积神经网络(1dimensional convolutional neuralnetwork，1DCNN)提取序列签字特征，其次，由于多肽的接触图被表示为2维矩阵，本发明将通过二维卷积神经网络(2dimensional convolutional neural network，2DCNN)学习其携带的信息。因此，DeepNCsORF将由三路神经网络构建，分别是图卷积神经网络、LSTM+1DCNN网络以及2DCNN网络。同时本项目还提出了新的注意力机制策略(three path interactiveattention，TPIA)，用于更好地合并三路神经网络输出信息。

TPIA的主要策略是充分挖掘不同路神经网络信息与主神经网络信息的关联性，进而挖掘不同路神经网络潜在的重要信息。三路神经网络输出的数据分别定义为P₁、P₂和P₃，首先使用3个独立全连接网络分别将P₁、P₂和P₃数据对齐到同一维度512维度，分别成为PP₁、PP₂和PP₃，其次拼接PP₁、PP₂和PP₃构建一个1536维度的大向量，并采用全连接网络将其降到512维度，生成矩阵M，矩阵M存储这三路数据中重点信息。然后将(PP₁、PP₂、M)，(PP₁、PP₃、M)，(PP₂、PP₃、M)组合通过获得其重点关注的信息SM₁、SM₂、SM₃，其中d为对应向量的模。最后将SM₁、SM₂、SM₃合并为一个向量，用于DeepNCsORF模型的输出。

DeepNCsORF的损失函数为：

用于衡量预测结果和真实标签之间的差异，其中，N为样本标签的总数，y_i为第i个样本标签，y是样本标签，p(y)是预测样本的概率。Adam优化算法对模型参数进行更新，使得模型的损失函数收敛，网络的学习率为0.0001。

DeepNCsORF模型融合了多路不同的数据，并联合多路径关联注意机制，充分挖掘输入数据潜力，能够更准确预测非编码RNA中sORF的翻译能力。

S4、本发明的模型评估和验证。

本发明的模型与多个非编码RNA翻译能力预测模型进行了比较，并在多个评价指标上取得了显著的性能提升。评价指标包括特异性(Specificity，SPE)、敏感度(Sensitivity，SEN)、准确率(Accuracy，ACC)、马修斯相关系数(Matthews correlationcoefficient，MCC)、F1-score(F1)、曲线下面积(AUC)和平均准确率(Average precise，AP)，其定义如下：

通过与现有模型在这些评价指标上的比较，该发明的模型展现出更好的性能，超过了现有模型的预测能力。该模型能够更准确地预测sORF翻译多肽的能力，并且在分类任务中具有更好的性能。

实施例2

参照图3，为本发明第二个实施例，其不同于前一个实施例的是，提供了非编码RNA中小开放阅读窗编码多肽能力预测系统，包括：数据采集模块、多肽序列特征空间构建模块、DeepNCsORF模块及验证评估模块。

数据采集模块采集非编码RNA中小开放阅读窗sORF编码多肽和不编码多肽序列数据，进行数据预处理。

多肽序列特征空间构建模块构建sORF序列和sORF序列对应的多肽序列特征空间。

DeepNCsORF模块通过多肽序列特征空间构建融合多空间视图的深度学习模型DeepNCsORF模型。

验证评估模块用于验证和评估DeepNCsORF模型。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方案中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

实施例3

参照图4～图6，为本发明第三个实施例，其不同于前两个实施例的是：为对本发明中采用的技术效果加以验证说明，以验证本方法所具有的真实效果。

由于sORF密码子翻译的结果会有相同，导致多肽序列会有重叠，因此本发明运用CD-HIT按80％的阈值将多肽序列数据集中的冗余数据去除。为了保证数据的平衡性，本发明按1:1比例随机抽取数据正负样本，最终构建本发明所需的数据集，如表1所示。

表1.非编码RNA中sORF翻译多肽和不翻译多肽的序列数据集

通过与现有模型在这些评价指标上的比较，该发明的模型展现出更好的性能，超过了现有模型的预测能力。该模型能够更准确地预测sORF翻译多肽的能力，并且在分类任务中具有更好的性能。表2，表3，表4是本发明与sORFpred、sORFplnc、CPE_SLDI、CPPred、DeepCPP、MiPepid方法的在人类、小鼠和大鼠数据集上的对比。从表2，表3，表4可以看出本发明专利在SPE，SEN，ACC，MCC，F1，AUC和AP指标表现出较好的性能。此外，图4，图5分别展示本发明与其他方法的AUROC曲线和PRROC曲线的对比，且本发明的曲线要高于且包裹于其他曲线，表明了本发明具有更强的预测非编码RNA中的sORF编码多肽的能力。并且，为了更好地展示比较方法预测概率值分布，图6展示了各个对比方法的预测概率分布图，从图6可以看到，本发明DeepNCsORF展现了更小的预测错误，再一次展示了本发明可以很好的预测非编码RNA中sORF翻译多肽的能力。

表2本发明与其他方法在人类数据集的比较

表3本发明与其他方法在小鼠数据集的比较

	SPE	SEN	ACC	MCC	F1	AUC	AP
								DeepNCsORF	0.855	0.738	0.798	0.599	0.779	0.888	0.882
sORFpred	0.811	0.702	0.758	0.517	0.737	0.821	0.780
								sORFplnc	0.654	0.729	0.460	0.460	0.700	0.812	0.815
CPE_SLDI	0.766	0.678	0.724	0.447	0.703	0.820	0.831
								CPPred	0.777	0.690	0.735	0.470	0.716	0.812	0.794
DeepCPP	0.777	0.738	0.758	0.516	0.746	0.839	0.850
								MiPepid	0.777	0.785	0.781	0.563	0.776	0.855	0.872

表4本发明与其他方法在大鼠数据集的比较

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.非编码RNA中小开放阅读窗编码多肽能力预测方法，其特征在于：包括，

采集非编码RNA中小开放阅读窗sORF编码多肽和不编码多肽序列数据，进行数据预处理；

构建sORF序列和sORF序列对应的多肽序列特征空间；

通过多肽序列特征空间构建融合多空间视图的深度学习模型DeepNCsORF模型；

验证和评估DeepNCsORF模型；

所述多肽序列数据包括，获取TransLnc中的所有核苷酸和氨基酸序列，选择有1到4种实验证据支撑的序列数据作为正样本，将没有实验证据支撑的序列数据作为负样本，运用CD-HIT按80％的阈值将多肽序列数据集中的冗余数据去除，按1:1比例随机抽取数据正负样本，构建数据集；

所述sORF序列对应的多肽序列特征空间包括基于图的核苷酸序列表征、基于进化信息的多肽序列表征、基于比对信息的多肽序列表征、基于生化特征的多肽序列表征和基于大模型预训练多肽序列表征；

所述基于图的核苷酸序列表征包括，将核苷酸序列划分为3mer片段，将给定的核苷酸序列按照连续的三个核苷酸为一组进行划分，得到一系列的3mer片段，对于长度为N的核苷酸序列，得到N-2个3mer片段，然后构建3mer图的节点，将每个3mer片段作为3mer图的节点，每个节点代表一个唯一的3mer片段，构建3mer图的边，对于相邻的3mer片段，添加一条边表示相邻的3mer片段之间的连接，如果两个3mer片段在原始核苷酸序列中是连续的，则两个3mer片段之间存在一条边，将核苷酸序列转换为3mer图后，得到一个图结构，其中节点表示3mer片段，边表示3mer片段之间的连接，将图结构联合图卷积网络；

所述基于进化信息的多肽序列表征包括，多肽序列的进化信息使用位置特异性评分矩阵表示，收集已有物种的蛋白质序列，使用多序列比对算法ClustalW，将多肽序列比对到收集到的蛋白质序列，根据比对结果，统计每个位置上氨基酸残基的频率和出现概率，得到初始的频率矩阵，频率矩阵的大小为m×n，其中，m为氨基酸的种类数目，n为比对序列的长度，对初始频率矩阵进行修正，修正方法为加权，得到修正后的矩阵，即为PSSM，PSSM矩阵的每一列代表一个氨基酸残基，每一行代表比对序列中的一个位置，矩阵中的每个元素表示位置上某个氨基酸残基的评分，若评分值高，则表示残基在位置上的保守性高，若评分值低，则表示残基在位置上的变异性高，对给定的长度为L的多肽序列，PSSM矩阵的大小为L*20，L为多肽序列的长度，20种氨基酸在每个位置出现的评分；

所述基于比对信息的多肽序列表征包括，多肽序列的比对信息用多肽的接触图表示，使用AlphaFold2获取多肽的三维结构，从多肽的结构数据中提取出每个氨基酸残基的原子坐标，选择在蛋白质结构中稳定的Cα原子的坐标，对于每个氨基酸残基，使用欧氏距离计算氨基酸残基与其他残基之间的距离，并根据设定的阈值，判断是否存在接触，若两个氨基酸残基的距离小于阈值，则认为两个氨基酸残基之间存在接触，将对应的接触图元素设置为1，若两个氨基酸残基的距离大于阈值，则将对应的接触图元素设置为0，将所有氨基酸残基之间的接触情况记录在接触图中，形成一个对称的二维矩阵，矩阵的行和列对应于氨基酸的索引，得到的多肽序列的接触图；

所述基于生化特征的多肽序列表征包括，多肽的序列的生化特征使用AAindex表示，其中AAindex1是AAindex数据库中的一个子集，通过AAindex1将序列中每个氨基酸转化为544维度的向量，对给定长度为L的多肽序列，得到L*544的矩阵；

所述基于大模型预训练多肽序列表征包括，预训练模型通过大规模蛋白质数据学习多肽序列的高级表示，捕获语义和上下文信息，ProtT5通过自注意力机制捕获序列的全局依赖，将长度为L的序列编码为L*1024维矩阵，ESM-2采用自回归方式预测氨基酸，建模局部依赖关系，学习序列中的语义信息和上下文关联，通过编码器将序列编码为L*1280维矩阵。

2.如权利要求1所述的非编码RNA中小开放阅读窗编码多肽能力预测方法，其特征在于：所述DeepNCsORF模型包括图卷积神经网络、长短记忆网络LSTM加一维卷积神经网络1DCNN网络以及二维卷积神经网络2DCNN网络三路神经网络，将核苷酸和氨基酸表征数据进行整合，核苷酸序列被表征为图，采用图卷积神经网络处理核苷酸信息，多肽序列被PSSM、AAindex1、ProtT5和ESM-2表示为矩阵，其中PSSM表示矩阵维度为L*20，AAindex1表示矩阵维度为L*544，ProtT5表示矩阵维度L*1024，ESM-2表示矩阵维度为L*1280；

将PSSM、AAindex1、ProtT5和ESM-2表示矩阵拼接，构建一个L*2868维度的矩阵，L*2868维度的矩阵将采用LSTM和1DCNN提取序列潜在特征；

由于多肽的接触图被表示为2维矩阵，通过2DCNN学习多肽的接触图携带的信息；

提出新的注意力机制策略TPIA用于更好的合并三路神经网络输出信息；

所述TPIA包括，三路神经网络输出的数据分别定义为P₁、P₂和P₃，使用3个独立全连接网络分别将P₁、P₂和P₃数据对齐到同一维度512维度，分别成为PP₁、PP₂和PP₃，拼接PP₁、PP₂和PP₃构建一个1536维度的大向量，并采用全连接网络将其降到512维度，生成矩阵M，矩阵M存储三路数据中重点信息，将(PP₁、PP₂、M)，(PP₁、PP₃、M)，(PP₂、PP₃、M)组合通过获得重点关注的信息SM₁、SM₂、SM₃，其中，d为对应向量的模，将SM₁、SM₂、SM₃合并为一个向量，作为DeepNCsORF模型的输出；

DeepNCsORF的损失函数表示为，

其中，N为样本标签的总数，y_i为第i个样本标签，y是样本标签，p(y)是预测样本的概率；

使用Adam优化算法对模型参数进行更新，使模型的损失函数收敛，网络的学习率为0.0001。

3.如权利要求2所述的非编码RNA中小开放阅读窗编码多肽能力预测方法，其特征在于：所述验证和评估DeepNCsORF模型包括特异性、敏感度、准确率、马修斯相关系数、F1-score和平均准确率，表示为：

4.一种采用如权利要求1～3任一所述的非编码RNA中小开放阅读窗编码多肽能力预测方法的系统，其特征在于：包括，数据采集模块、多肽序列特征空间构建模块、DeepNCsORF模块及验证评估模块；

所述数据采集模块采集非编码RNA中小开放阅读窗sORF编码多肽和不编码多肽序列数据，进行数据预处理；

所述多肽序列特征空间构建模块构建sORF序列和sORF序列对应的多肽序列特征空间；

所述DeepNCsORF模块通过多肽序列特征空间构建融合多空间视图的深度学习模型DeepNCsORF模型；

所述验证评估模块用于验证和评估DeepNCsORF模型。

5.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述的非编码RNA中小开放阅读窗编码多肽能力预测方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的非编码RNA中小开放阅读窗编码多肽能力预测方法的步骤。