CN118072835B

CN118072835B - 基于机器学习的生物信息学数据处理方法、系统及介质

Info

Publication number: CN118072835B
Application number: CN202410474853.2A
Authority: CN
Inventors: 何加铭; 王钦文; 吴东舒; 单丹丹; 江文玲; 金錱; 洪锐; 郑国俊; 张济鹏; 雷宣龙; 周林
Original assignee: Ningbo Yongheng Yaoyao Intelligent Technology Co ltd
Current assignee: Ningbo Yongheng Yaoyao Intelligent Technology Co ltd
Priority date: 2024-04-19
Filing date: 2024-04-19
Publication date: 2024-09-17
Anticipated expiration: 2044-04-19
Also published as: CN118072835A

Abstract

本发明提供基于机器学习的生物信息学数据处理方法、系统及介质，涉及数据处理技术领域，包括：创建样品数据库和已知数据库；对样品数据库中的蛋白质分子进行编码，得到样品编码库，对已知数据库中的蛋白质分子进行编码，得到已知编码库；对样品编码库中的蛋白质分子编码进行识别分类，得到缺失数据集和正常数据集；对正常数据集进行特征提取，得到正常特征集；对缺失数据集进行预补全，得到估计值数据集；训练随机森林模型对正常特征集进行分类；基于训练完成的随机森林模型对估计值数据集进行特征补全，得到补全数据；本发明用于解决现有的识别方法不能有效地对缺失的生物信息学数据进行精准补全，因此在后续的分类上也会存在缺陷的问题。

Description

基于机器学习的生物信息学数据处理方法、系统及介质

技术领域

本发明涉及数据处理技术领域，尤其涉及基于机器学习的生物信息学数据处理方法、系统及介质。

背景技术

生物信息学分类是一门涉及生命科学和计算科学的交叉学科。它致力于研究生物信息的组织、传递和表达，以解决生物信息数据的分类问题。生物信息学分类具有重要的科学意义和商业价值。它常用于蛋白质分子结构预测、生物疾病预测、生物习性预测、基因分析与表达等重要领域。因此，如何有效地解决生物信息数据的分类问题具有非常重要的研究价值。

现有的技术中，在对生物信息学数据进行处理时，会存在生物信息学数据的缺失，现有的识别方法不能有效地对缺失的生物信息学数据进行精准补全，因此在后续的分类上也会存在缺陷，例如在公开号为CN103810402A的申请文件中，公开了用于基因组的数据处理方法和装置，该方法就是将目标基因组的信息与参考基因组的信息进行比对，从比对结果中获取未比对上的基因组片段的信息；将未比对上的基因组片段的信息与参考基因组的信息进行二次比对，从比对结果中获取目标基因组的特异序列的信息，该方法缺少对缺失的生物信息学数据进行补全的技术，不能及时准确地提供有效信息。

发明内容

针对现有技术存在的不足，本发明目的是提供基于机器学习的生物信息学数据处理方法、系统及介质，通过将样品数据分类为正常数据集和缺失数据集，对正常数据集进行特征提取得到正常特征集，对缺失数据集进行预补全得到估计值数据集，再训练随机森林模型对正常特征集进行分类，对估计值数据集进行特征提取和分类，根据分类结果将正常数据集进行补全，得到补全数据，将补全数据导入正常数据集，得到处理数据集；以解决现有的技术中，在对生物信息学数据进行处理时，存在生物信息学数据的缺失，现有的识别方法不能有效地对缺失的生物信息学数据进行精准补全，因此在后续的分类上也会存在缺陷的问题。

为了实现上述目的，本发明是通过如下的技术方案来实现：第一方面，本申请提供基于机器学习的生物信息学数据处理方法，所述处理方法包括如下步骤：

步骤S1：创建样品数据库和已知数据库；

步骤S2：对样品数据库中的蛋白质分子进行编码，得到样品编码库，对已知数据库中的蛋白质分子进行编码，得到已知编码库；

步骤S3：对样品编码库中的蛋白质分子编码进行识别分类，得到缺失数据集和正常数据集；

步骤S4：对正常数据集进行特征提取，得到正常特征集；

步骤S5：对缺失数据集进行预补全，得到估计值数据集；

步骤S6：训练随机森林模型对正常特征集进行分类；

步骤S7：基于训练完成的随机森林模型对估计值数据集进行特征补全，得到补全数据，将补全数据导入正常数据集，得到处理数据库。

进一步地，所述步骤S1中所述样品数据库用于存储未处理的蛋白质分子数据，所述已知数据库用于存储已知的蛋白质分子数据。

进一步地，步骤S2包括如下子步骤：

步骤S201：获取待处理的蛋白质分子的蛋白序列；

步骤S202：对蛋白质分子的蛋白序列进行氨基酸序列编码，得到蛋白质分子的蛋白编码；

步骤S203：获取所有蛋白质分子的蛋白编码，将所有蛋白质分子的蛋白编码设置为样品，得到样品编码库；

步骤S204：获取已知蛋白质分子，对所有已知蛋白质分子进行氨基酸序列编码，得到已知编码库。

进一步地，所述步骤S202中，氨基酸序列编码包括：获取蛋白质分子的蛋白序列中的氨基酸排序，将蛋白质分子中每个氨基酸用一个字母或数字表示，得到蛋白质分子的氨基酸序列编码。

进一步地，所述步骤S3包括如下子步骤：

步骤S301：获取样品编码库中任一蛋白质分子的氨基酸序列编码，对于该氨基酸序列编码与已知编码库中的氨基酸序列编码进行编码比对，得到缺失相似编码和已知比对编码；

步骤S302：获取所有缺失相似编码，得到缺失数据集，获取所有已知比对编码，得到正常数据集。

进一步地，所述步骤S301中的编码比对包括如下步骤：

步骤K1：获取任一编码X，对编码X的第n位数据标记为X_n，其中，n的取值为正整数；

步骤K2：从已知编码库中获取任一编码数大于等于编码X的编码数的编码，记为已知编码Y，将已知编码Y的第n位数据标记为Y_n；

步骤K3：判断Y_n是否与X_n相同，当Y_n与X_n全部相同时，标记编码X为已知比对编码；

步骤K4：当Y_n与X_n不同时，跳过Y₁至Y_n，判断Y_n+1与X_n是否相同；当Y_n+1与X_n完全相同时，标记编码X为缺失相似编码；

步骤K5：当Y_n+1与X_n不同时，跳过Y₁至Y_n+1，判断Y_n+2与X_n是否相同；当Y_n+2与X_n完全相同时，标记编码X为缺失相似编码；

步骤K6：当Y_n+2与X_n不同时，重复步骤K4至步骤K5，直至对编码Y中的编码全部进行判断，当Y_n+i与X_n依然不同时，标记编码X为无关编码，其中n+i等于编码Y的编码数；

步骤K7：当判定编码X为无关编码时，从已知编码库中获取另一编码数大于等于n的已知编码，重复步骤K2至K7，直至将编码X判定为已知比对编码或缺失相似编码。

进一步地，步骤S4包括如下子步骤：

步骤S401：获取正常数据集中的任一蛋白质分子，将所述蛋白质分子的多个残基位置中的每个残基位置设置为多个片段，所述多个片段包括该蛋白质分子的残基的位置；

步骤S402：将蛋白质分子的多个片段设置为蛋白质分子的一级特征；

步骤S403：获取蛋白质分子的二级结构，将蛋白质分子多肽链中主链原子的局部空间排布设置为蛋白质分子的二级特征；

步骤S404：获取蛋白质分子的三级结构，从蛋白质分子的三级结构中提取出次级键的数量，将蛋白质分子中次级键的数量设置为蛋白质分子的三级特征；

步骤S405：对一个蛋白质分子的一级特征、二级特征和三级特征进行整合，得到该蛋白质分子的正常特征，将正常数据集中的所有蛋白质分子的正常特征整合后得到正常特征集。

进一步地，所述步骤S5包括如下子步骤：

步骤S501：获取缺失数据集中的任一蛋白质分子编码，将该蛋白质分子编码与已知编码库中的蛋白质分子编码进行编码比对；

步骤S502：从步骤K2获取第n位编码与该蛋白质分子编码的X_n+1或者X_n-1完全相同的编码，设置为估计编码；

步骤S503：获取所有估计编码，得到估计值数据集。

进一步地，所述步骤S6包括如下子步骤：

步骤S601：获取正常特征集，通过随机抽取的方式，将正常特征集平均分为两份，得到训练特征集和测试特征集，训练特征集用于训练随机森林模型，测试特征集用于对训练完成的随机森林模型进行模型校准；

步骤S602：建立若干个决策树，所述决策树的数量等于蛋白质分子三级特征的数量；所述决策树的节点为随机抽取的蛋白质分子的一级特征和蛋白质分子的二级特征；

步骤S603：将训练特征集代入所有决策树中，得到训练特征集的特征分类，对决策树进行多次重复训练；

步骤S604：当所有决策树都训练完成后，将决策树组合成一个随机森林模型，并输出训练数据分类结果；

步骤S605：将测试特征集输入所述随机森林模型中，得到测试数据分类结果，将测试数据的任一分类结果中的任一特征数据代入测试特征集中的任一决策树的节点进行二次分类，判断此时分类是否与第一次分类相同，对测试数据得到的分类结果中的所有特征数据都随机代入任一节点，将二次分类与一次分类相同的次数与判断次数的比值设置为分类正确率，当分类正确率大于正确率阈值时，判断随机森林模型训练完成，当分类正确率小于正确率阈值时，从测试特征集中随机抽取第一百分比的测试数据归纳到训练特征集中，并重复步骤S603至步骤S605，直至分类正确率大于正确率阈值。

进一步地，所述步骤S7包括如下子步骤：

步骤S701：获取估计值数据集中蛋白质分子的二级特征和三级特征；

步骤S702：对估计值数据集中蛋白质分子的二级特征和三级特征进行整合，得到该蛋白质分子的估计特征，将估计值数据集中的所有蛋白质分子的估计特征整合后得到估计特征集；

步骤S703：将估计特征集输入步骤S605中训练完成的随机森林模型中，得到估计值数据的分类结果；

步骤S704：当正常数据的分类结果与估计值数据的分类结果相同时，判断该估计值数据与正常数据为同类数据，获取正常数据的一级特征，并将正常数据的一级特征填充为该估计值数据的一级特征，得到补全数据；

步骤S705：将补全数据导入正常数据集，得到处理数据集。

第二方面，本申请还提供基于机器学习的生物信息学数据处理系统，包括：样品库模块、样品处理模块、数据分类模块、模型训练模块、特征提取模块和缺失补全模块；

样品库模块用于创建样品数据库，样品数据库用于存储样品蛋白质分子数据；样品处理模块用于对蛋白质分子数据进行编码，得到蛋白质分子编码；

所述数据分类模块用于对样品编码库中的蛋白质分子编码进行识别分类，得到缺失数据集和正常数据集；

所述特征提取模块用于对正常数据集进行特征提取，得到正常特征集；

所述模型训练模块用于基于正常特征集训练并评估随机森林模型，得到训练完成的随机森林模型；

所述缺失补全模块包括预补全单元和正常补全单元；所述预补全单元包括使用正常数据集中的相似一级结构对缺失数据进行预补全，得到估计值数据集；所述正常补全单元包括使用训练完成的随机森林模型对估计值数据集进行分类，从同类型的正常数据中选取一级特征对估计值数据进行补全，得到补全数据并导入正常数据集。

第三方面，本申请提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，运行如上所述方法中的步骤。

本发明的有益效果：本发明通过将样品数据分类为正常数据集和缺失数据集，对正常数据集进行特征提取得到正常特征集，对缺失数据集进行预补全得到估计值数据集，再训练随机森林模型对正常特征集进行分类，对估计值数据集进行特征提取和分类，根据分类结果将正常数据集进行补全，得到补全数据，将补全数据导入正常数据集，得到处理数据集；能够提高对生物信息学数据的筛选的细致性，避免数据遗漏，能够有效地对缺失的生物信息学数据进行精准补全，提高了数据分类的准确性。

本发明附加方面的优点将在下面的具体实施方式的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其他特征、目的和优点将会变得更明显：

图1为本发明的方法步骤流程图；

图2为本发明的编码比对的步骤流程图；

图3为本发明的系统的原理框图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1，请参阅图1所示，基于机器学习的生物信息学数据处理方法，用于解决现有的技术中，在对生物信息学数据进行处理时，可能存在生物信息学数据的缺失，现有的识别方法不能有效地对缺失的生物信息学数据进行精准补全，因此在后续的分类上也会存在缺陷的问题；

具体地，基于机器学习的生物信息学数据处理方法，处理方法包括如下步骤：

步骤S1：创建样品数据库和已知数据库；

步骤S1中样品数据库用于存储未处理的蛋白质分子数据，已知数据库用于存储已知的蛋白质分子数据；

步骤S2包括如下子步骤：

步骤S201：获取待处理的蛋白质分子的蛋白序列；

步骤S202中，氨基酸序列编码包括：获取蛋白质分子的蛋白序列中的氨基酸排序，将蛋白质分子中每个氨基酸用一个字母或数字表示，得到蛋白质分子的氨基酸序列编码；

步骤S3包括如下子步骤：

步骤S302：获取所有缺失相似编码，得到缺失数据集，获取所有已知比对编码，得到正常数据集；

请参阅图2所示，步骤S301中的编码比对包括如下步骤：

步骤K1：获取任一编码X，对编码X的第n位数据标记为X_n，其中，n的取值为正整数；在具体实施过程中，例如，蛋白质分子编码X的序列为MTVGIGWDQNQILRLQNLMKTF；则n的取值为1至20的正整数；

步骤K7：当判定编码X为无关编码时，从已知编码库中获取另一编码数大于等于n的已知编码，重复步骤K2至K7，直至将编码X判定为已知比对编码或缺失相似编码；在具体实施过程中，例如编码X为MTVGIGWDQNQILRLQNLKTF，已知编码Y为MTVGIGWDQNQILRLQNLMKTF时，Y₁₇为M，X₁₇为K，二者不同；跳过Y₁₇，判断得到Y₁₈与X₁₇相同、Y₁₉与X₁₈相同且Y₂₀与X₁₉相同，则编码X为缺失相似编码；

步骤S4：对正常数据集进行特征提取，得到正常特征集；

步骤S4包括如下子步骤：

步骤S401：获取正常数据集中的任一蛋白质分子，将蛋白质分子的多个残基位置中的每个残基位置设置为多个片段，多个片段包括该蛋白质分子的残基的位置；

步骤S402：将蛋白质分子的多个片段设置为蛋白质分子的一级特征；在具体实施过程中，例如，任一蛋白质分子有15个残基，则设置15个片段，其中每个片段包括所述残基的位置，则该蛋白质分子的一级特征为15个片段；

步骤S403：获取蛋白质分子的二级结构，将蛋白质分子多肽链中主链原子的局部空间排布设置为蛋白质分子的二级特征；在具体实施过程中，蛋白质分子的二级结构为依靠不同氨基酸之间的C=O和N-H基团间的氢键形成的稳定结构，主要为α螺旋和β折叠；

步骤S404：获取蛋白质分子的三级结构，从蛋白质分子的三级结构中提取出次级键的数量，将蛋白质分子中次级键的数量设置为蛋白质分子的三级特征；在具体实施过程中，蛋白质分子的三级结构为通过多个二级结构元素在三维空间的排列所形成的一个蛋白质分子的三维结构，例如：纤维状蛋白质分子，如丝心蛋白等，球状蛋白质分子，如血浆清蛋白、球蛋白和肌红蛋白等；

步骤S405：对一个蛋白质分子的一级特征、二级特征和三级特征进行整合，得到该蛋白质分子的正常特征，将正常数据集中的所有蛋白质分子的正常特征整合后得到正常特征集；

步骤S5：对缺失数据集进行预补全，得到估计值数据集；

步骤S5包括如下子步骤：

步骤S503：获取所有估计编码，得到估计值数据集；

步骤S6：训练随机森林模型对正常特征集进行分类；

步骤S6包括如下子步骤：

步骤S601：获取正常特征集，通过随机抽取的方式，将正常特征集平均分为两份，得到训练特征集和测试特征集，训练特征集用于训练随机森林模型，测试特征集用于对训练完成的随机森林模型进行模型校准；在具体实施过程中，测试特征集可以通过引入新的特征集来解决模型的不确定性问题，从而使得模型在进行概率预测时更加准确和可靠；

步骤S602：建立若干个决策树，决策树的数量等于蛋白质分子三级特征的数量；在具体实施过程中，例如，一个正常特征集中蛋白质分子的三级特征有56个，则决策树的数量为56个；决策树的节点为随机抽取的蛋白质分子的一级特征和蛋白质分子的二级特征；在具体实施过程中，随机抽取蛋白质分子的一级特征的数量和蛋白质分子的二级特征的数量；例如，随机抽取的蛋白质分子的一级特征为15个片段、10个片段、30个片段和4个片段，随机抽取的蛋白质分子的二级特征为α螺旋和β折叠时，决策树将以15个片段、10个片段、30个片段、4个片段、α螺旋和β折叠为节点对蛋白质分子进行分类；

步骤S605：将测试特征集输入随机森林模型中，得到测试数据分类结果，将测试数据的任一分类结果中的任一特征数据代入测试特征集中的任一决策树的节点进行二次分类，判断此时分类是否与第一次分类相同，对测试数据得到的分类结果中的所有特征数据都随机代入任一节点，将二次分类与一次分类相同的次数与判断次数的比值设置为分类正确率，当分类正确率大于正确率阈值时，判断随机森林模型训练完成，当分类正确率小于正确率阈值时，从测试特征集中随机抽取第一百分比的测试数据归纳到训练特征集中，并重复步骤S603至步骤S605，直至分类正确率大于正确率阈值；在具体实施过程中，第一百分比设置为10%，正确率阈值通常设置为0.5；在随机森林模型中，默认的分类方法是基于多数投票的原则，所以设置阈值为0.5是符合多数投票的原则的；

步骤S7：基于训练完成的随机森林模型对估计值数据集进行特征补全，得到补全数据，将补全数据导入正常数据集，得到处理数据库；

步骤S7包括如下子步骤：

步骤S705：将补全数据导入正常数据集，得到处理数据集。

实施例2，请参阅图3所示，本申请还提供基于机器学习的生物信息学数据处理系统，系统包括：样品库模块、样品处理模块、数据分类模块、模型训练模块、特征提取模块和缺失补全模块；

数据分类模块用于对样品编码库中的蛋白质分子编码进行识别分类，得到缺失数据集和正常数据集；

特征提取模块用于对正常数据集进行特征提取，得到正常特征集；

模型训练模块用于基于正常特征集训练并评估随机森林模型，得到训练完成的随机森林模型；

缺失补全模块包括预补全单元和正常补全单元；预补全单元包括使用正常数据集中的相似一级结构对缺失数据进行预补全，得到估计值数据集；正常补全单元包括使用训练完成的随机森林模型对估计值数据集进行分类，从同类型的正常数据中选取一级特征对估计值数据进行补全，得到补全数据并导入正常数据集。

实施例3，本申请还提供一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时，运行如上任意一项方法中的步骤。通过上述技术方案，计算机程序被处理器执行时，执行上述实施例的任一可选的实现方式中的方法，以实现以下功能：通过将样品数据分类为正常数据集和缺失数据集，对正常数据集进行特征提取得到正常特征集，对缺失数据集进行预补全得到估计值数据集，再训练随机森林模型对正常特征集进行分类，对估计值数据集进行特征提取和分类，根据分类结果将正常数据集进行补全，得到补全数据，将补全数据导入正常数据集，得到处理数据集。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random AccessMemory，简称SRAM），电可擦除可编程只读存储器（Electrically Erasable ProgrammableRead-Only Memory，简称EEPROM），可擦除可编程只读存储器（Erasable ProgrammableRead Only Memory，简称EPROM），可编程只读存储器（Programmable Red-Only Memory，简称PROM），只读存储器（Read-OnlyMemory，简称ROM），磁存储器，快闪存储器，磁盘或光盘。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.基于机器学习的生物信息学数据处理方法，其特征在于，所述处理方法包括如下步骤：

步骤S1：创建样品数据库和已知数据库；

步骤S4：对正常数据集进行特征提取，得到正常特征集；

步骤S5：对缺失数据集进行预补全，得到估计值数据集；

步骤S6：训练随机森林模型对正常特征集进行分类；

步骤S2包括如下子步骤：

步骤S201：获取待处理的蛋白质分子的蛋白序列；

步骤S204：获取已知蛋白质分子，对所有已知蛋白质分子进行氨基酸序列编码，得到已知编码库；

所述步骤S202中，氨基酸序列编码包括：获取蛋白质分子的蛋白序列中的氨基酸排序，将蛋白质分子中每个氨基酸用一个字母或数字表示，得到蛋白质分子的氨基酸序列编码；

所述步骤S3包括如下子步骤：

所述步骤S301中的编码比对包括如下步骤：

步骤K7：当判定编码X为无关编码时，从已知编码库中获取另一编码数大于等于n的已知编码，重复步骤K2至K7，直至将编码X判定为已知比对编码或缺失相似编码；

步骤S4包括如下子步骤：

所述步骤S5包括如下子步骤：

步骤S503：获取所有估计编码，得到估计值数据集；

所述步骤S6包括如下子步骤：

步骤S605：将测试特征集输入所述随机森林模型中，得到测试数据分类结果，将测试数据的任一分类结果中的任一特征数据代入测试特征集中的任一决策树的节点进行二次分类，判断此时分类是否与第一次分类相同，对测试数据得到的分类结果中的所有特征数据都随机代入任一节点，将二次分类与一次分类相同的次数与判断次数的比值设置为分类正确率，当分类正确率大于正确率阈值时，判断随机森林模型训练完成，当分类正确率小于正确率阈值时，从测试特征集中随机抽取第一百分比的测试数据归纳到训练特征集中，并重复步骤S603至步骤S605，直至分类正确率大于正确率阈值；

所述步骤S7包括如下子步骤：

步骤S705：将补全数据导入正常数据集，得到处理数据集。

2.根据权利要求1所述的基于机器学习的生物信息学数据处理方法，其特征在于，所述步骤S1中所述样品数据库用于存储未处理的蛋白质分子数据，所述已知数据库用于存储已知的蛋白质分子数据。

3.基于机器学习的生物信息学数据处理系统，适用于权利要求1或2所述的基于机器学习的生物信息学数据处理方法，包括：样品库模块、样品处理模块、数据分类模块、模型训练模块、特征提取模块和缺失补全模块；

4.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，运行如权利要求1或2所述方法中的步骤。