CN118072835B - 基于机器学习的生物信息学数据处理方法、系统及介质 - Google Patents
基于机器学习的生物信息学数据处理方法、系统及介质 Download PDFInfo
- Publication number
- CN118072835B CN118072835B CN202410474853.2A CN202410474853A CN118072835B CN 118072835 B CN118072835 B CN 118072835B CN 202410474853 A CN202410474853 A CN 202410474853A CN 118072835 B CN118072835 B CN 118072835B
- Authority
- CN
- China
- Prior art keywords
- code
- data
- normal
- protein
- protein molecule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 14
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 170
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 169
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000007637 random forest analysis Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 16
- 230000000295 complement effect Effects 0.000 claims description 39
- 238000012360 testing method Methods 0.000 claims description 28
- 238000003066 decision tree Methods 0.000 claims description 26
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 24
- 239000012634 fragment Substances 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 7
- 230000037430 deletion Effects 0.000 claims description 7
- 239000003550 marker Substances 0.000 claims description 6
- 150000001413 amino acids Chemical class 0.000 claims description 4
- 230000008676 import Effects 0.000 claims description 3
- 229920001184 polypeptide Polymers 0.000 claims description 3
- 102000004196 processed proteins & peptides Human genes 0.000 claims description 3
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 102000009027 Albumins Human genes 0.000 description 1
- 108010088751 Albumins Proteins 0.000 description 1
- 108010022355 Fibroins Proteins 0.000 description 1
- 102000006395 Globulins Human genes 0.000 description 1
- 108010044091 Globulins Proteins 0.000 description 1
- 108010062374 Myoglobin Proteins 0.000 description 1
- 102000036675 Myoglobin Human genes 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 108091005899 fibrous proteins Proteins 0.000 description 1
- 102000034240 fibrous proteins Human genes 0.000 description 1
- 102000034238 globular proteins Human genes 0.000 description 1
- 108091005896 globular proteins Proteins 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 229940012957 plasmin Drugs 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供基于机器学习的生物信息学数据处理方法、系统及介质,涉及数据处理技术领域,包括:创建样品数据库和已知数据库;对样品数据库中的蛋白质分子进行编码,得到样品编码库,对已知数据库中的蛋白质分子进行编码,得到已知编码库;对样品编码库中的蛋白质分子编码进行识别分类,得到缺失数据集和正常数据集;对正常数据集进行特征提取,得到正常特征集;对缺失数据集进行预补全,得到估计值数据集;训练随机森林模型对正常特征集进行分类;基于训练完成的随机森林模型对估计值数据集进行特征补全,得到补全数据;本发明用于解决现有的识别方法不能有效地对缺失的生物信息学数据进行精准补全,因此在后续的分类上也会存在缺陷的问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及基于机器学习的生物信息学数据处理方法、系统及介质。
背景技术
生物信息学分类是一门涉及生命科学和计算科学的交叉学科。它致力于研究生物信息的组织、传递和表达,以解决生物信息数据的分类问题。生物信息学分类具有重要的科学意义和商业价值。它常用于蛋白质分子结构预测、生物疾病预测、生物习性预测、基因分析与表达等重要领域。因此,如何有效地解决生物信息数据的分类问题具有非常重要的研究价值。
现有的技术中,在对生物信息学数据进行处理时,会存在生物信息学数据的缺失,现有的识别方法不能有效地对缺失的生物信息学数据进行精准补全,因此在后续的分类上也会存在缺陷,例如在公开号为CN103810402A的申请文件中,公开了用于基因组的数据处理方法和装置,该方法就是将目标基因组的信息与参考基因组的信息进行比对,从比对结果中获取未比对上的基因组片段的信息;将未比对上的基因组片段的信息与参考基因组的信息进行二次比对,从比对结果中获取目标基因组的特异序列的信息,该方法缺少对缺失的生物信息学数据进行补全的技术,不能及时准确地提供有效信息。
发明内容
针对现有技术存在的不足,本发明目的是提供基于机器学习的生物信息学数据处理方法、系统及介质,通过将样品数据分类为正常数据集和缺失数据集,对正常数据集进行特征提取得到正常特征集,对缺失数据集进行预补全得到估计值数据集,再训练随机森林模型对正常特征集进行分类,对估计值数据集进行特征提取和分类,根据分类结果将正常数据集进行补全,得到补全数据,将补全数据导入正常数据集,得到处理数据集;以解决现有的技术中,在对生物信息学数据进行处理时,存在生物信息学数据的缺失,现有的识别方法不能有效地对缺失的生物信息学数据进行精准补全,因此在后续的分类上也会存在缺陷的问题。
为了实现上述目的,本发明是通过如下的技术方案来实现:第一方面,本申请提供基于机器学习的生物信息学数据处理方法,所述处理方法包括如下步骤:
步骤S1:创建样品数据库和已知数据库;
步骤S2:对样品数据库中的蛋白质分子进行编码,得到样品编码库,对已知数据库中的蛋白质分子进行编码,得到已知编码库;
步骤S3:对样品编码库中的蛋白质分子编码进行识别分类,得到缺失数据集和正常数据集;
步骤S4:对正常数据集进行特征提取,得到正常特征集;
步骤S5:对缺失数据集进行预补全,得到估计值数据集;
步骤S6:训练随机森林模型对正常特征集进行分类;
步骤S7:基于训练完成的随机森林模型对估计值数据集进行特征补全,得到补全数据,将补全数据导入正常数据集,得到处理数据库。
进一步地,所述步骤S1中所述样品数据库用于存储未处理的蛋白质分子数据,所述已知数据库用于存储已知的蛋白质分子数据。
进一步地,步骤S2包括如下子步骤:
步骤S201:获取待处理的蛋白质分子的蛋白序列;
步骤S202:对蛋白质分子的蛋白序列进行氨基酸序列编码,得到蛋白质分子的蛋白编码;
步骤S203:获取所有蛋白质分子的蛋白编码,将所有蛋白质分子的蛋白编码设置为样品,得到样品编码库;
步骤S204:获取已知蛋白质分子,对所有已知蛋白质分子进行氨基酸序列编码,得到已知编码库。
进一步地,所述步骤S202中,氨基酸序列编码包括:获取蛋白质分子的蛋白序列中的氨基酸排序,将蛋白质分子中每个氨基酸用一个字母或数字表示,得到蛋白质分子的氨基酸序列编码。
进一步地,所述步骤S3包括如下子步骤:
步骤S301:获取样品编码库中任一蛋白质分子的氨基酸序列编码,对于该氨基酸序列编码与已知编码库中的氨基酸序列编码进行编码比对,得到缺失相似编码和已知比对编码;
步骤S302:获取所有缺失相似编码,得到缺失数据集,获取所有已知比对编码,得到正常数据集。
进一步地,所述步骤S301中的编码比对包括如下步骤:
步骤K1:获取任一编码X,对编码X的第n位数据标记为Xn,其中,n的取值为正整数;
步骤K2:从已知编码库中获取任一编码数大于等于编码X的编码数的编码,记为已知编码Y,将已知编码Y的第n位数据标记为Yn;
步骤K3:判断Yn是否与Xn相同,当Yn与Xn全部相同时,标记编码X为已知比对编码;
步骤K4:当Yn与Xn不同时,跳过Y1至Yn,判断Yn+1与Xn是否相同;当Yn+1与Xn完全相同时,标记编码X为缺失相似编码;
步骤K5:当Yn+1与Xn不同时,跳过Y1至Yn+1,判断Yn+2与Xn是否相同;当Yn+2与Xn完全相同时,标记编码X为缺失相似编码;
步骤K6:当Yn+2与Xn不同时,重复步骤K4至步骤K5,直至对编码Y中的编码全部进行判断,当Yn+i与Xn依然不同时,标记编码X为无关编码,其中n+i等于编码Y的编码数;
步骤K7:当判定编码X为无关编码时,从已知编码库中获取另一编码数大于等于n的已知编码,重复步骤K2至K7,直至将编码X判定为已知比对编码或缺失相似编码。
进一步地,步骤S4包括如下子步骤:
步骤S401:获取正常数据集中的任一蛋白质分子,将所述蛋白质分子的多个残基位置中的每个残基位置设置为多个片段,所述多个片段包括该蛋白质分子的残基的位置;
步骤S402:将蛋白质分子的多个片段设置为蛋白质分子的一级特征;
步骤S403:获取蛋白质分子的二级结构,将蛋白质分子多肽链中主链原子的局部空间排布设置为蛋白质分子的二级特征;
步骤S404:获取蛋白质分子的三级结构,从蛋白质分子的三级结构中提取出次级键的数量,将蛋白质分子中次级键的数量设置为蛋白质分子的三级特征;
步骤S405:对一个蛋白质分子的一级特征、二级特征和三级特征进行整合,得到该蛋白质分子的正常特征,将正常数据集中的所有蛋白质分子的正常特征整合后得到正常特征集。
进一步地,所述步骤S5包括如下子步骤:
步骤S501:获取缺失数据集中的任一蛋白质分子编码,将该蛋白质分子编码与已知编码库中的蛋白质分子编码进行编码比对;
步骤S502:从步骤K2获取第n位编码与该蛋白质分子编码的Xn+1或者Xn-1完全相同的编码,设置为估计编码;
步骤S503:获取所有估计编码,得到估计值数据集。
进一步地,所述步骤S6包括如下子步骤:
步骤S601:获取正常特征集,通过随机抽取的方式,将正常特征集平均分为两份,得到训练特征集和测试特征集,训练特征集用于训练随机森林模型,测试特征集用于对训练完成的随机森林模型进行模型校准;
步骤S602:建立若干个决策树,所述决策树的数量等于蛋白质分子三级特征的数量;所述决策树的节点为随机抽取的蛋白质分子的一级特征和蛋白质分子的二级特征;
步骤S603:将训练特征集代入所有决策树中,得到训练特征集的特征分类,对决策树进行多次重复训练;
步骤S604:当所有决策树都训练完成后,将决策树组合成一个随机森林模型,并输出训练数据分类结果;
步骤S605:将测试特征集输入所述随机森林模型中,得到测试数据分类结果,将测试数据的任一分类结果中的任一特征数据代入测试特征集中的任一决策树的节点进行二次分类,判断此时分类是否与第一次分类相同,对测试数据得到的分类结果中的所有特征数据都随机代入任一节点,将二次分类与一次分类相同的次数与判断次数的比值设置为分类正确率,当分类正确率大于正确率阈值时,判断随机森林模型训练完成,当分类正确率小于正确率阈值时,从测试特征集中随机抽取第一百分比的测试数据归纳到训练特征集中,并重复步骤S603至步骤S605,直至分类正确率大于正确率阈值。
进一步地,所述步骤S7包括如下子步骤:
步骤S701:获取估计值数据集中蛋白质分子的二级特征和三级特征;
步骤S702:对估计值数据集中蛋白质分子的二级特征和三级特征进行整合,得到该蛋白质分子的估计特征,将估计值数据集中的所有蛋白质分子的估计特征整合后得到估计特征集;
步骤S703:将估计特征集输入步骤S605中训练完成的随机森林模型中,得到估计值数据的分类结果;
步骤S704:当正常数据的分类结果与估计值数据的分类结果相同时,判断该估计值数据与正常数据为同类数据,获取正常数据的一级特征,并将正常数据的一级特征填充为该估计值数据的一级特征,得到补全数据;
步骤S705:将补全数据导入正常数据集,得到处理数据集。
第二方面,本申请还提供基于机器学习的生物信息学数据处理系统,包括:样品库模块、样品处理模块、数据分类模块、模型训练模块、特征提取模块和缺失补全模块;
样品库模块用于创建样品数据库,样品数据库用于存储样品蛋白质分子数据;样品处理模块用于对蛋白质分子数据进行编码,得到蛋白质分子编码;
所述数据分类模块用于对样品编码库中的蛋白质分子编码进行识别分类,得到缺失数据集和正常数据集;
所述特征提取模块用于对正常数据集进行特征提取,得到正常特征集;
所述模型训练模块用于基于正常特征集训练并评估随机森林模型,得到训练完成的随机森林模型;
所述缺失补全模块包括预补全单元和正常补全单元;所述预补全单元包括使用正常数据集中的相似一级结构对缺失数据进行预补全,得到估计值数据集;所述正常补全单元包括使用训练完成的随机森林模型对估计值数据集进行分类,从同类型的正常数据中选取一级特征对估计值数据进行补全,得到补全数据并导入正常数据集。
第三方面,本申请提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,运行如上所述方法中的步骤。
本发明的有益效果:本发明通过将样品数据分类为正常数据集和缺失数据集,对正常数据集进行特征提取得到正常特征集,对缺失数据集进行预补全得到估计值数据集,再训练随机森林模型对正常特征集进行分类,对估计值数据集进行特征提取和分类,根据分类结果将正常数据集进行补全,得到补全数据,将补全数据导入正常数据集,得到处理数据集;能够提高对生物信息学数据的筛选的细致性,避免数据遗漏,能够有效地对缺失的生物信息学数据进行精准补全,提高了数据分类的准确性。
本发明附加方面的优点将在下面的具体实施方式的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其他特征、目的和优点将会变得更明显:
图1为本发明的方法步骤流程图;
图2为本发明的编码比对的步骤流程图;
图3为本发明的系统的原理框图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1,请参阅图1所示,基于机器学习的生物信息学数据处理方法,用于解决现有的技术中,在对生物信息学数据进行处理时,可能存在生物信息学数据的缺失,现有的识别方法不能有效地对缺失的生物信息学数据进行精准补全,因此在后续的分类上也会存在缺陷的问题;
具体地,基于机器学习的生物信息学数据处理方法,处理方法包括如下步骤:
步骤S1:创建样品数据库和已知数据库;
步骤S1中样品数据库用于存储未处理的蛋白质分子数据,已知数据库用于存储已知的蛋白质分子数据;
步骤S2:对样品数据库中的蛋白质分子进行编码,得到样品编码库,对已知数据库中的蛋白质分子进行编码,得到已知编码库;
步骤S2包括如下子步骤:
步骤S201:获取待处理的蛋白质分子的蛋白序列;
步骤S202:对蛋白质分子的蛋白序列进行氨基酸序列编码,得到蛋白质分子的蛋白编码;
步骤S203:获取所有蛋白质分子的蛋白编码,将所有蛋白质分子的蛋白编码设置为样品,得到样品编码库;
步骤S204:获取已知蛋白质分子,对所有已知蛋白质分子进行氨基酸序列编码,得到已知编码库。
步骤S202中,氨基酸序列编码包括:获取蛋白质分子的蛋白序列中的氨基酸排序,将蛋白质分子中每个氨基酸用一个字母或数字表示,得到蛋白质分子的氨基酸序列编码;
步骤S3:对样品编码库中的蛋白质分子编码进行识别分类,得到缺失数据集和正常数据集;
步骤S3包括如下子步骤:
步骤S301:获取样品编码库中任一蛋白质分子的氨基酸序列编码,对于该氨基酸序列编码与已知编码库中的氨基酸序列编码进行编码比对,得到缺失相似编码和已知比对编码;
步骤S302:获取所有缺失相似编码,得到缺失数据集,获取所有已知比对编码,得到正常数据集;
请参阅图2所示,步骤S301中的编码比对包括如下步骤:
步骤K1:获取任一编码X,对编码X的第n位数据标记为Xn,其中,n的取值为正整数;在具体实施过程中,例如,蛋白质分子编码X的序列为MTVGIGWDQNQILRLQNLMKTF;则n的取值为1至20的正整数;
步骤K2:从已知编码库中获取任一编码数大于等于编码X的编码数的编码,记为已知编码Y,将已知编码Y的第n位数据标记为Yn;
步骤K3:判断Yn是否与Xn相同,当Yn与Xn全部相同时,标记编码X为已知比对编码;
步骤K4:当Yn与Xn不同时,跳过Y1至Yn,判断Yn+1与Xn是否相同;当Yn+1与Xn完全相同时,标记编码X为缺失相似编码;
步骤K5:当Yn+1与Xn不同时,跳过Y1至Yn+1,判断Yn+2与Xn是否相同;当Yn+2与Xn完全相同时,标记编码X为缺失相似编码;
步骤K6:当Yn+2与Xn不同时,重复步骤K4至步骤K5,直至对编码Y中的编码全部进行判断,当Yn+i与Xn依然不同时,标记编码X为无关编码,其中n+i等于编码Y的编码数;
步骤K7:当判定编码X为无关编码时,从已知编码库中获取另一编码数大于等于n的已知编码,重复步骤K2至K7,直至将编码X判定为已知比对编码或缺失相似编码;在具体实施过程中,例如编码X为MTVGIGWDQNQILRLQNLKTF,已知编码Y为MTVGIGWDQNQILRLQNLMKTF时,Y17为M,X17为K,二者不同;跳过Y17,判断得到Y18与X17相同、Y19与X18相同且Y20与X19相同,则编码X为缺失相似编码;
步骤S4:对正常数据集进行特征提取,得到正常特征集;
步骤S4包括如下子步骤:
步骤S401:获取正常数据集中的任一蛋白质分子,将蛋白质分子的多个残基位置中的每个残基位置设置为多个片段,多个片段包括该蛋白质分子的残基的位置;
步骤S402:将蛋白质分子的多个片段设置为蛋白质分子的一级特征;在具体实施过程中,例如,任一蛋白质分子有15个残基,则设置15个片段,其中每个片段包括所述残基的位置,则该蛋白质分子的一级特征为15个片段;
步骤S403:获取蛋白质分子的二级结构,将蛋白质分子多肽链中主链原子的局部空间排布设置为蛋白质分子的二级特征;在具体实施过程中,蛋白质分子的二级结构为依靠不同氨基酸之间的C=O和N-H基团间的氢键形成的稳定结构,主要为α螺旋和β折叠;
步骤S404:获取蛋白质分子的三级结构,从蛋白质分子的三级结构中提取出次级键的数量,将蛋白质分子中次级键的数量设置为蛋白质分子的三级特征;在具体实施过程中,蛋白质分子的三级结构为通过多个二级结构元素在三维空间的排列所形成的一个蛋白质分子的三维结构,例如:纤维状蛋白质分子,如丝心蛋白等,球状蛋白质分子,如血浆清蛋白、球蛋白和肌红蛋白等;
步骤S405:对一个蛋白质分子的一级特征、二级特征和三级特征进行整合,得到该蛋白质分子的正常特征,将正常数据集中的所有蛋白质分子的正常特征整合后得到正常特征集;
步骤S5:对缺失数据集进行预补全,得到估计值数据集;
步骤S5包括如下子步骤:
步骤S501:获取缺失数据集中的任一蛋白质分子编码,将该蛋白质分子编码与已知编码库中的蛋白质分子编码进行编码比对;
步骤S502:从步骤K2获取第n位编码与该蛋白质分子编码的Xn+1或者Xn-1完全相同的编码,设置为估计编码;
步骤S503:获取所有估计编码,得到估计值数据集;
步骤S6:训练随机森林模型对正常特征集进行分类;
步骤S6包括如下子步骤:
步骤S601:获取正常特征集,通过随机抽取的方式,将正常特征集平均分为两份,得到训练特征集和测试特征集,训练特征集用于训练随机森林模型,测试特征集用于对训练完成的随机森林模型进行模型校准;在具体实施过程中,测试特征集可以通过引入新的特征集来解决模型的不确定性问题,从而使得模型在进行概率预测时更加准确和可靠;
步骤S602:建立若干个决策树,决策树的数量等于蛋白质分子三级特征的数量;在具体实施过程中,例如,一个正常特征集中蛋白质分子的三级特征有56个,则决策树的数量为56个;决策树的节点为随机抽取的蛋白质分子的一级特征和蛋白质分子的二级特征;在具体实施过程中,随机抽取蛋白质分子的一级特征的数量和蛋白质分子的二级特征的数量;例如,随机抽取的蛋白质分子的一级特征为15个片段、10个片段、30个片段和4个片段,随机抽取的蛋白质分子的二级特征为α螺旋和β折叠时,决策树将以15个片段、10个片段、30个片段、4个片段、α螺旋和β折叠为节点对蛋白质分子进行分类;
步骤S603:将训练特征集代入所有决策树中,得到训练特征集的特征分类,对决策树进行多次重复训练;
步骤S604:当所有决策树都训练完成后,将决策树组合成一个随机森林模型,并输出训练数据分类结果;
步骤S605:将测试特征集输入随机森林模型中,得到测试数据分类结果,将测试数据的任一分类结果中的任一特征数据代入测试特征集中的任一决策树的节点进行二次分类,判断此时分类是否与第一次分类相同,对测试数据得到的分类结果中的所有特征数据都随机代入任一节点,将二次分类与一次分类相同的次数与判断次数的比值设置为分类正确率,当分类正确率大于正确率阈值时,判断随机森林模型训练完成,当分类正确率小于正确率阈值时,从测试特征集中随机抽取第一百分比的测试数据归纳到训练特征集中,并重复步骤S603至步骤S605,直至分类正确率大于正确率阈值;在具体实施过程中,第一百分比设置为10%,正确率阈值通常设置为0.5;在随机森林模型中,默认的分类方法是基于多数投票的原则,所以设置阈值为0.5是符合多数投票的原则的;
步骤S7:基于训练完成的随机森林模型对估计值数据集进行特征补全,得到补全数据,将补全数据导入正常数据集,得到处理数据库;
步骤S7包括如下子步骤:
步骤S701:获取估计值数据集中蛋白质分子的二级特征和三级特征;
步骤S702:对估计值数据集中蛋白质分子的二级特征和三级特征进行整合,得到该蛋白质分子的估计特征,将估计值数据集中的所有蛋白质分子的估计特征整合后得到估计特征集;
步骤S703:将估计特征集输入步骤S605中训练完成的随机森林模型中,得到估计值数据的分类结果;
步骤S704:当正常数据的分类结果与估计值数据的分类结果相同时,判断该估计值数据与正常数据为同类数据,获取正常数据的一级特征,并将正常数据的一级特征填充为该估计值数据的一级特征,得到补全数据;
步骤S705:将补全数据导入正常数据集,得到处理数据集。
实施例2,请参阅图3所示,本申请还提供基于机器学习的生物信息学数据处理系统,系统包括:样品库模块、样品处理模块、数据分类模块、模型训练模块、特征提取模块和缺失补全模块;
样品库模块用于创建样品数据库,样品数据库用于存储样品蛋白质分子数据;样品处理模块用于对蛋白质分子数据进行编码,得到蛋白质分子编码;
数据分类模块用于对样品编码库中的蛋白质分子编码进行识别分类,得到缺失数据集和正常数据集;
特征提取模块用于对正常数据集进行特征提取,得到正常特征集;
模型训练模块用于基于正常特征集训练并评估随机森林模型,得到训练完成的随机森林模型;
缺失补全模块包括预补全单元和正常补全单元;预补全单元包括使用正常数据集中的相似一级结构对缺失数据进行预补全,得到估计值数据集;正常补全单元包括使用训练完成的随机森林模型对估计值数据集进行分类,从同类型的正常数据中选取一级特征对估计值数据进行补全,得到补全数据并导入正常数据集。
实施例3,本申请还提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时,运行如上任意一项方法中的步骤。通过上述技术方案,计算机程序被处理器执行时,执行上述实施例的任一可选的实现方式中的方法,以实现以下功能:通过将样品数据分类为正常数据集和缺失数据集,对正常数据集进行特征提取得到正常特征集,对缺失数据集进行预补全得到估计值数据集,再训练随机森林模型对正常特征集进行分类,对估计值数据集进行特征提取和分类,根据分类结果将正常数据集进行补全,得到补全数据,将补全数据导入正常数据集,得到处理数据集。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random AccessMemory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable ProgrammableRead Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (4)
1.基于机器学习的生物信息学数据处理方法,其特征在于,所述处理方法包括如下步骤:
步骤S1:创建样品数据库和已知数据库;
步骤S2:对样品数据库中的蛋白质分子进行编码,得到样品编码库,对已知数据库中的蛋白质分子进行编码,得到已知编码库;
步骤S3:对样品编码库中的蛋白质分子编码进行识别分类,得到缺失数据集和正常数据集;
步骤S4:对正常数据集进行特征提取,得到正常特征集;
步骤S5:对缺失数据集进行预补全,得到估计值数据集;
步骤S6:训练随机森林模型对正常特征集进行分类;
步骤S7:基于训练完成的随机森林模型对估计值数据集进行特征补全,得到补全数据,将补全数据导入正常数据集,得到处理数据库;
步骤S2包括如下子步骤:
步骤S201:获取待处理的蛋白质分子的蛋白序列;
步骤S202:对蛋白质分子的蛋白序列进行氨基酸序列编码,得到蛋白质分子的蛋白编码;
步骤S203:获取所有蛋白质分子的蛋白编码,将所有蛋白质分子的蛋白编码设置为样品,得到样品编码库;
步骤S204:获取已知蛋白质分子,对所有已知蛋白质分子进行氨基酸序列编码,得到已知编码库;
所述步骤S202中,氨基酸序列编码包括:获取蛋白质分子的蛋白序列中的氨基酸排序,将蛋白质分子中每个氨基酸用一个字母或数字表示,得到蛋白质分子的氨基酸序列编码;
所述步骤S3包括如下子步骤:
步骤S301:获取样品编码库中任一蛋白质分子的氨基酸序列编码,对于该氨基酸序列编码与已知编码库中的氨基酸序列编码进行编码比对,得到缺失相似编码和已知比对编码;
步骤S302:获取所有缺失相似编码,得到缺失数据集,获取所有已知比对编码,得到正常数据集;
所述步骤S301中的编码比对包括如下步骤:
步骤K1:获取任一编码X,对编码X的第n位数据标记为Xn,其中,n的取值为正整数;
步骤K2:从已知编码库中获取任一编码数大于等于编码X的编码数的编码,记为已知编码Y,将已知编码Y的第n位数据标记为Yn;
步骤K3:判断Yn是否与Xn相同,当Yn与Xn全部相同时,标记编码X为已知比对编码;
步骤K4:当Yn与Xn不同时,跳过Y1至Yn,判断Yn+1与Xn是否相同;当Yn+1与Xn完全相同时,标记编码X为缺失相似编码;
步骤K5:当Yn+1与Xn不同时,跳过Y1至Yn+1,判断Yn+2与Xn是否相同;当Yn+2与Xn完全相同时,标记编码X为缺失相似编码;
步骤K6:当Yn+2与Xn不同时,重复步骤K4至步骤K5,直至对编码Y中的编码全部进行判断,当Yn+i与Xn依然不同时,标记编码X为无关编码,其中n+i等于编码Y的编码数;
步骤K7:当判定编码X为无关编码时,从已知编码库中获取另一编码数大于等于n的已知编码,重复步骤K2至K7,直至将编码X判定为已知比对编码或缺失相似编码;
步骤S4包括如下子步骤:
步骤S401:获取正常数据集中的任一蛋白质分子,将所述蛋白质分子的多个残基位置中的每个残基位置设置为多个片段,所述多个片段包括该蛋白质分子的残基的位置;
步骤S402:将蛋白质分子的多个片段设置为蛋白质分子的一级特征;
步骤S403:获取蛋白质分子的二级结构,将蛋白质分子多肽链中主链原子的局部空间排布设置为蛋白质分子的二级特征;
步骤S404:获取蛋白质分子的三级结构,从蛋白质分子的三级结构中提取出次级键的数量,将蛋白质分子中次级键的数量设置为蛋白质分子的三级特征;
步骤S405:对一个蛋白质分子的一级特征、二级特征和三级特征进行整合,得到该蛋白质分子的正常特征,将正常数据集中的所有蛋白质分子的正常特征整合后得到正常特征集;
所述步骤S5包括如下子步骤:
步骤S501:获取缺失数据集中的任一蛋白质分子编码,将该蛋白质分子编码与已知编码库中的蛋白质分子编码进行编码比对;
步骤S502:从步骤K2获取第n位编码与该蛋白质分子编码的Xn+1或者Xn-1完全相同的编码,设置为估计编码;
步骤S503:获取所有估计编码,得到估计值数据集;
所述步骤S6包括如下子步骤:
步骤S601:获取正常特征集,通过随机抽取的方式,将正常特征集平均分为两份,得到训练特征集和测试特征集,训练特征集用于训练随机森林模型,测试特征集用于对训练完成的随机森林模型进行模型校准;
步骤S602:建立若干个决策树,所述决策树的数量等于蛋白质分子三级特征的数量;所述决策树的节点为随机抽取的蛋白质分子的一级特征和蛋白质分子的二级特征;
步骤S603:将训练特征集代入所有决策树中,得到训练特征集的特征分类,对决策树进行多次重复训练;
步骤S604:当所有决策树都训练完成后,将决策树组合成一个随机森林模型,并输出训练数据分类结果;
步骤S605:将测试特征集输入所述随机森林模型中,得到测试数据分类结果,将测试数据的任一分类结果中的任一特征数据代入测试特征集中的任一决策树的节点进行二次分类,判断此时分类是否与第一次分类相同,对测试数据得到的分类结果中的所有特征数据都随机代入任一节点,将二次分类与一次分类相同的次数与判断次数的比值设置为分类正确率,当分类正确率大于正确率阈值时,判断随机森林模型训练完成,当分类正确率小于正确率阈值时,从测试特征集中随机抽取第一百分比的测试数据归纳到训练特征集中,并重复步骤S603至步骤S605,直至分类正确率大于正确率阈值;
所述步骤S7包括如下子步骤:
步骤S701:获取估计值数据集中蛋白质分子的二级特征和三级特征;
步骤S702:对估计值数据集中蛋白质分子的二级特征和三级特征进行整合,得到该蛋白质分子的估计特征,将估计值数据集中的所有蛋白质分子的估计特征整合后得到估计特征集;
步骤S703:将估计特征集输入步骤S605中训练完成的随机森林模型中,得到估计值数据的分类结果;
步骤S704:当正常数据的分类结果与估计值数据的分类结果相同时,判断该估计值数据与正常数据为同类数据,获取正常数据的一级特征,并将正常数据的一级特征填充为该估计值数据的一级特征,得到补全数据;
步骤S705:将补全数据导入正常数据集,得到处理数据集。
2.根据权利要求1所述的基于机器学习的生物信息学数据处理方法,其特征在于,所述步骤S1中所述样品数据库用于存储未处理的蛋白质分子数据,所述已知数据库用于存储已知的蛋白质分子数据。
3.基于机器学习的生物信息学数据处理系统,适用于权利要求1或2所述的基于机器学习的生物信息学数据处理方法,包括:样品库模块、样品处理模块、数据分类模块、模型训练模块、特征提取模块和缺失补全模块;
样品库模块用于创建样品数据库,样品数据库用于存储样品蛋白质分子数据;样品处理模块用于对蛋白质分子数据进行编码,得到蛋白质分子编码;
所述数据分类模块用于对样品编码库中的蛋白质分子编码进行识别分类,得到缺失数据集和正常数据集;
所述特征提取模块用于对正常数据集进行特征提取,得到正常特征集;
所述模型训练模块用于基于正常特征集训练并评估随机森林模型,得到训练完成的随机森林模型;
所述缺失补全模块包括预补全单元和正常补全单元;所述预补全单元包括使用正常数据集中的相似一级结构对缺失数据进行预补全,得到估计值数据集;所述正常补全单元包括使用训练完成的随机森林模型对估计值数据集进行分类,从同类型的正常数据中选取一级特征对估计值数据进行补全,得到补全数据并导入正常数据集。
4.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,运行如权利要求1或2所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410474853.2A CN118072835B (zh) | 2024-04-19 | 2024-04-19 | 基于机器学习的生物信息学数据处理方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410474853.2A CN118072835B (zh) | 2024-04-19 | 2024-04-19 | 基于机器学习的生物信息学数据处理方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118072835A CN118072835A (zh) | 2024-05-24 |
CN118072835B true CN118072835B (zh) | 2024-09-17 |
Family
ID=91107717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410474853.2A Active CN118072835B (zh) | 2024-04-19 | 2024-04-19 | 基于机器学习的生物信息学数据处理方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118072835B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115101125A (zh) * | 2022-07-07 | 2022-09-23 | 中科合肥智慧农业协同创新研究院 | 一种基于随机森林和序列矩阵的蛋白互作预测方法 |
CN115985397A (zh) * | 2022-11-08 | 2023-04-18 | 沈阳药科大学 | 一种lncRNA编码肽的高通量鉴定方法及其应用 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10060827A1 (de) * | 2000-12-07 | 2002-06-13 | Basf Lynx Bioscience Ag | Verfahren zur Codierung von Hybridisierungssonden |
CN107622182B (zh) * | 2017-08-04 | 2020-10-09 | 中南大学 | 蛋白质局部结构特征的预测方法及系统 |
KR102171681B1 (ko) * | 2018-08-14 | 2020-10-29 | 인하대학교 산학협력단 | 기계 학습 알고리즘을 이용하여 표적 단백질과 결합하는 후보 rna 압타머를 생성하는 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록 매체 및 후보 rna 압타머를 생성하는 방법 |
EP3935581A4 (en) * | 2019-03-04 | 2022-11-30 | Iocurrents, Inc. | DATA COMPRESSION AND COMMUNICATION USING MACHINE LEARNING |
CN110349628B (zh) * | 2019-06-27 | 2021-06-15 | 广东药科大学 | 一种蛋白质磷酸化位点识别方法、系统、装置及存储介质 |
CN112599190B (zh) * | 2020-12-17 | 2024-04-05 | 重庆大学 | 一种基于混合分类器来识别耳聋相关基因的方法 |
CN112927753A (zh) * | 2021-02-22 | 2021-06-08 | 中南大学 | 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法 |
CN113177587B (zh) * | 2021-04-27 | 2023-04-07 | 西安电子科技大学 | 基于主动学习和变分自编码器的广义零样本目标分类方法 |
US20220375538A1 (en) * | 2021-05-11 | 2022-11-24 | International Business Machines Corporation | Embedding-based generative model for protein design |
BR112023025480A2 (pt) * | 2021-06-10 | 2024-02-27 | BASF Agricultural Solutions Seed US LLC | Método implementado por computador e sistemas de computador |
CN115862747B (zh) * | 2023-02-27 | 2023-06-30 | 北京航空航天大学 | 一种序列-结构-功能耦合的蛋白质预训练模型构建方法 |
CN116453584A (zh) * | 2023-04-20 | 2023-07-18 | 上海天壤智能科技有限公司 | 蛋白质三维结构预测方法及系统 |
CN117875320A (zh) * | 2024-01-08 | 2024-04-12 | 中国平安财产保险股份有限公司 | 基于人工智能的数据处理方法、装置、设备及存储介质 |
-
2024
- 2024-04-19 CN CN202410474853.2A patent/CN118072835B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115101125A (zh) * | 2022-07-07 | 2022-09-23 | 中科合肥智慧农业协同创新研究院 | 一种基于随机森林和序列矩阵的蛋白互作预测方法 |
CN115985397A (zh) * | 2022-11-08 | 2023-04-18 | 沈阳药科大学 | 一种lncRNA编码肽的高通量鉴定方法及其应用 |
Also Published As
Publication number | Publication date |
---|---|
CN118072835A (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12046327B1 (en) | Identity-by-descent relatedness based on focal and reference segments | |
US11804285B2 (en) | Hilbert-cnn: ai-driven convolutional neural networks with conversion data of genome for biomarker discovery | |
CN113593631A (zh) | 一种预测蛋白质-多肽结合位点的方法及系统 | |
CN112270953A (zh) | 基于bd单细胞转录组测序数据的分析方法、装置及设备 | |
CN110692101A (zh) | 用于比对靶向的核酸测序数据的方法 | |
CN111815432A (zh) | 金融服务风险预测方法及装置 | |
Llinares-López et al. | Genome-wide genetic heterogeneity discovery with categorical covariates | |
CN118072835B (zh) | 基于机器学习的生物信息学数据处理方法、系统及介质 | |
CN118038995B (zh) | 非编码rna中小开放阅读窗编码多肽能力预测方法及系统 | |
WO2009148527A2 (en) | Mass spectrometer output analysis tool for identification of proteins | |
CN116049644A (zh) | 特征筛选和聚类分箱方法、装置、电子设备及存储介质 | |
CN110021342B (zh) | 用于加速变异位点的识别的方法及系统 | |
CN112185457A (zh) | 一种基于句嵌入Infersent模型的蛋白质-蛋白质相互作用预测方法 | |
Chao et al. | Splam: a deep-learning-based splice site predictor that improves spliced alignments | |
EP3427385A1 (en) | Method and device for decoding data segments derived from oligonucleotides and related sequencer | |
Leong | Modeling Sequencing Artifacts for Next Generation Sequencing | |
Strzoda et al. | A mapping-free NLP-based technique for sequence search in Nanopore long-reads | |
CN115662520B (zh) | Bcr/abl1融合基因的检测方法及相关设备 | |
KR102258897B1 (ko) | 염기 서열 분석에서의 오류 처리 방법 및 염기 서열 분석장치 | |
CN113449533B (zh) | 一种基于条形码序列的读长比对方法和装置 | |
Jiang et al. | Identification of All-to-All Protein-Protein Interactions Based on Deep Hash Learning | |
Denti | Algorithms for analyzing genetic variability from Next-Generation Sequencing data | |
Kumar et al. | Comparative analysis of HiSeq3000 and BGISEQ-500 sequencing platform with shotgun metagenomic sequencing data | |
Jary | Improving the Protein-Protein Interaction Prediction Engine (PIPE) with Protein Physicochemical Properties | |
CN118057542A (zh) | 一种蛋白残基接触预测方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |