CN112735532A

CN112735532A - 基于分子指纹预测的代谢物识别系统及其应用方法

Info

Publication number: CN112735532A
Application number: CN202011600846.0A
Authority: CN
Inventors: 汤德佑; 谭达强; 余文涛; 胡寓旻; 姚瑶; 张晖; 曾康
Original assignee: South China University of Technology SCUT; Sun Yat Sen University Cancer Center
Current assignee: South China University of Technology SCUT; Sun Yat Sen University Cancer Center
Priority date: 2020-10-15
Filing date: 2020-12-29
Publication date: 2021-04-30
Anticipated expiration: 2040-12-29
Also published as: CN112735532B

Abstract

本发明提出了一种基于分子指纹预测的代谢物识别系统及其应用方法，包括：数据预处理模块，所述数据预处理模块用于代谢物表征数据进行采集分析，并提取特征参数；分子指纹模块，所述分子指纹模块用于采集数据预处理模块提取的特征参数，并进行分子指纹预测，以确定代谢物的可能化学结构；候选化合物筛选模块，所述候选化合物筛选模块用于对代谢物的可能化学结构进行初步筛选；候选化合物计算模块，所述候选化合物计算模块用于将代谢物的可能化学结构与代谢物的特征参数进行匹配计算，确定代谢物的预测结果。本发明基于代谢物串联质谱数据的分子指纹预测算法建立在深度神经网络模型上，能够根据输入的串联质谱数据预测对应未知代谢物的分子指纹。

Description

基于分子指纹预测的代谢物识别系统及其应用方法

技术领域

本发明涉及生物信息和代谢组学领域，特别涉及基于分子指纹预测的代谢物识别方法及系统。

背景技术

代谢物是细胞代谢过程的中间产物或最终产物。有别于核酸、蛋白质和脂质等生物大分子，代谢物通常是相对分子质量不高于1500Da的小分子化合物。作为基因和蛋白质的表达的下游产物，代谢物的活性可作为生理病理状态的标志。同时，相比于种类繁多、结构复杂的生物大分子，小分子代谢物的分析难度也相对较低。

代谢组学是系统生物学的重要组成部分，着重于对生物系统中的代谢物进行全面分析，或对某组代谢物进行定向分析。代谢组学的研究方法能够通过分析在不同环境下样品的代谢物活性，并与基因组学、转录组学等组学的知识建立联系，从而推理得出由遗传因素或环境因素对生物系统所施加的影响的反映水平，在生物医学、微生物学等领域有广泛的应用场景。

质谱技术(Mass Spectrometry)在代谢组学研究中有着大量的应用。其中，串联质谱技术(Tandem Mass Spectrometry)通过串联至少两个质谱仪器，并令后级质谱仪对前级质谱仪中产生的若干离子进行二次电离，产生大量的离子碎片，从而提供了丰富的化合物结构信息，大大提高了质谱技术的分析能力。

基于匹配二级质谱数据的方法是代谢物识别的一个惯用方法。该方法以二级串联质谱技术为基础，通过选择在一级质谱仪中产生的某个离子作为未知代谢物，并将其送往二级质谱仪中进行电离，产生二级质谱数据，并将二级质谱数据与数据库中已有的化合物标准品的二级质谱数据进行匹配，并将具有最高匹配分数的标准品二级质谱数据所对应的化合物作为未知代谢物的识别结果。不过，该方法在实践中存在数据覆盖率不足的问题。二级质谱数据不仅受化合物自身条件的影响，还会受仪器因素以及其他实验条件因素的影响。若某个化合物在用于匹配的数据库中的覆盖率不足，即缺乏某些实验条件下的二级质谱数据，则该化合物可能永远不会被识别出来。

分子指纹是一种直接描述分子的结构以及性质的编码。分子指纹的形式通常是定长的二进制串，每一个二进制位可以表示某个特征的存在(1)或不存在(0)，或者与其他二进制位共同表达某类特征，比如环结构或者特定化学键的有无等。常见的分子指纹包括FP3、FP4、MACCS等。分子指纹常常与某种相似性量度(如Jaccard系数)结合，被用于搜索与特定化合物结构相似的化合物。

基于匹配代谢物的分子指纹的方法是代谢物识别的一种较新方法。相比于直接匹配二级质谱数据，该方法首先会从代谢物的串联质谱数据中预测出一组表征代谢物特征的分子指纹，然后使用预测得到的分子指纹与化合物数据库中不同化合物的分子指纹进行匹配，从而获得与代谢物的识别结果。由于分子指纹是一种与质谱数据无关的分子描述符，因此即便某一化合物在数据库中没有标准品质谱数据，它也可以参与到代谢物的匹配中，从而解决了质谱数据库的数据覆盖率不足的问题，提高了代谢物的识别能力。

目前，现有的分子指纹预测算法不断地尝试各种核技巧、多核学习方式来提高识别准确率。本发明通过使用深度神经网络来预测代谢物分子指纹识别未知代谢物，并建立了基于该分子指纹预测算法的代谢物识别系统。本发明不仅能够有效地从串联质谱数据中识别出未知代谢物，而且准确度与可用性比现有的代谢物识别方法更好。

发明内容

本发明提供了基于分子指纹预测的代谢物识别系统，以改善代谢物识别方法的准确度与可用性。

本发明提供了基于分子指纹预测的代谢物识别系统，包括：

数据预处理模块，所述数据预处理模块用于代谢物表征数据进行采集分析，并提取特征参数；

分子指纹模块，所述分子指纹模块用于采集数据预处理模块提取的特征参数，并进行分子指纹预测，以确定代谢物的可能化学结构；

候选化合物筛选模块，所述候选化合物筛选模块用于对代谢物的可能化学结构进行初步筛选；

候选化合物计算模块，所述候选化合物计算模块用于将代谢物的可能化学结构与代谢物的特征参数进行匹配计算，确定代谢物的预测结果。

进一步地，所述代谢物表征数据为代谢物的质谱数据、紫外数据、红外数据、核磁数据、液相数据、气相数据中的一种或多种。

更进一步地，所述代谢物表征数据为代谢物二级质谱峰表，所述数据预处理模块的预处理过程包括步骤如下：

步骤S101，异常峰过滤：输入峰表的每一项P_i由二元组<M_i,I_i>组成，其中M_i为质谱峰的m/z值，I_i为质谱峰的信号强度；设前级离子m/z值为M_p，若某个质谱峰符合条件M_i>M_p，则该质谱峰属于异常峰，应被过滤，具体输出方程式为：

P⁽¹⁾＝{P_i∈P|M_i≤M_p}；

步骤S102，噪声峰过滤：以最大-最小值方式对峰表进行归一化，并以阈值0.001过滤强度过小的质谱峰数据，具体输出方程式为：

步骤S103，输入稀疏向量构造；以经过归一化和过滤后的峰表以及前级离子信息为输入，计算出输入分子指纹预测模型的稀疏向量数据，获得代谢物的特征参数。

更进一步地，所述步骤S103具体过程如下：

步骤S103.1，预处理峰表，对峰表的m/z值按照

进行缩放；

步骤S103.2，计算产生n维的质谱峰直方图向量V⁽¹⁾，该向量的第i个分量V_i ⁽¹⁾表示缩放后m/z值为i与i-1分界值间的离子碎片信号强度，采用该直方图向量的维度n与最大m/z值的设定值作为实验测得的最优值；

步骤S103.3，计算中性损失：设前级离子的m/z值为M_p，利用峰表P可计算出中性损失表，计算过程如下：

N＝{N_i∈P|<L_i,I_i>}

L_i＝M_p-M_i；

步骤S103.4，预处理中性损失表，对中性损失表的中性损失L_i按照

进行缩放；

步骤S103.5，计算产生中性损失直方图向量V⁽²⁾，以该向量的第i个分量V_i ⁽¹⁾表示缩放后中性损失值为i与i-1分界值间的离子碎片信号强度，该直方图向量的维度n与最大中性损失值作为实验测得的最优值。

更进一步地，所述分子指纹模块的工作过程具体如下：

步骤S201，将质谱峰直方图向量V⁽¹⁾和中性损失直方图向量V⁽²⁾合并为能够输入模型进行计算的输入张量V；

步骤S202，将输入张量输入至深度神经网络模型中进行计算，得到预测分子指纹结果f(V)。

更进一步地，所述候选化合物筛选模块工作过程如下：

步骤S301，化合物数据库数据提取：利用化合物数据库中的质谱数据，对每一个化合物查找其二级质谱的前级离子的m/z值和RT值信息，若某一化合物没有对应的RT值信息，则基于其化合物元数据及二级质谱数据，使用RT预测方法得出一个RT值的推定值；

步骤S302，前级离子m/z值筛选：从化合物数据库的全体化合物中，搜索其在当前代谢物的质谱数据条件下的前级离子m/z值，排除m/z值不在代谢物的前级离子m/z值附近的化合物，筛选范围作为实验测定的最优值；

步骤S303，前级离子RT值筛选：从上一步骤所筛选出的化合物中，搜索其在当前代谢物的质谱数据条件下的前级离子RT值，排除RT值不在代谢物的前级离子RT值附近的化合物。

更进一步地，所述候选化合物计算模块工作过程如下：

步骤S401，计算分子指纹：令步骤S3所输出的候选化合物集合为C，元素数目为m，对C内的每一个化合物C_i分别计算分子指纹F_i；

步骤S402，计算匹配分数：令步骤S2所预测的代谢物分子指纹为f(V)，对集合C的每一个化合物C_i分别计算其分子指纹F_i与f(V)对应的匹配分数S_i＝S(F_i,f(V))；

步骤S403，输出匹配结果：根据化合物C_i对应的分子指纹与代谢物分子指纹的匹配分数，保留匹配分数最高的若干个化合物作为匹配结果输出；或

按照用户设定的匹配分数阈值，保留匹配分数不低于阈值的化合物作为匹配结果输出。

更进一步地，所述分子指纹模块为深度神经网络，所述深度神经网络还包括训练过程，所述深度神经网络的训练过程如下：

步骤S501，从化合物数据库中提取二级质谱数据以及其元信息，所述元信息为化合物的数据信息；

步骤S502，使用分子指纹生成工具，根据化合物的元信息生成用于训练深度神经网络模型的分子指纹；

步骤S503，按照步骤S1的输入数据预处理方式，计算化合物的二级质谱峰直方图向量和中性损失直方图向量；

步骤S504，以化合物的二级质谱直方图向量、中性损失直方图向量为特征，以分子指纹为标签，构建用于深度神经网络模型训练的数据集；

步骤S505，选取若干个数据集样本送入深度神经网络模型输出分子指纹的预测结果；

步骤S506，按步骤S402的方式，计算预测分子指纹与真实结果的误差，并基于Adam优化方法优化上述的基于深度神经网络的分子指纹预测模型参数；

步骤S507，重复S505至S506步骤，直至上述基于深度神经网络的分子指纹预测模型参数收敛，完成训练过程。

更进一步地，所述代谢物的分子指纹与数据库中各个化合物的分子指纹的匹配分数为Jaccard系数和Hamming损失的加权组合，权值α为由实验测得的位于0和1之间的最优值，具体计算方式如下：

S(F_i,f(V))＝α·Jaccard(F_i,f(V))+(1-α)·Hamming(F_i,f(V))

本发明还公开一种上述基于分子指纹预测的代谢物识别系统的应用方法，包括步骤如下：

步骤S1.运行数据预处理模块，输入数据预处理；

步骤S2.运行分子指纹模块，进行分子指纹预测；

步骤S3.运行候选化合物筛选模块，进行候选化合物初筛选；

步骤S4.运行候选化合物计算模块，进行候选化合物匹配结果计算。

本发明相对于现有技术，以分子指纹为基础，对代谢物复杂的空间结构信息进行提炼，通过运用机器学习方法，对代谢物的分子指纹进行预测，基于分子指纹给出化合物数据库，选出与代谢物的分子指纹匹配度最高的若干化合物作为候选化合物组。

附图说明

图1为代谢物识别系统的模块图；

图2为输入数据预处理功能流程图；

图3为计算分值指纹预测值流程图；

图4为候选化合物初筛选流程图；

图5为候选化合物匹配结果计算流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。

本发明实施例提供了基于分子指纹预测的代谢物识别系统，包括：

其中，本发明实施例运行过程包括步骤如下：

步骤S1.运行数据预处理模块，输入数据预处理；

步骤S2.运行分子指纹模块，进行分子指纹预测；

步骤S3.运行候选化合物筛选模块，进行候选化合物初筛选；

其中，图1展示了给予分子预测算法的代谢物识别系统的功能模块以及所依赖的数据库。

所述功能模块包括11分子指纹识别功能和12分子指纹匹配功能，所依赖数据库包括化合物库、质谱数据库、分子指纹库。

所述11分子指纹预测功能由数据预处理模块、分子指纹模块实现，使用基于串联质谱数据的分子指纹预测算法，提供未知代谢物的分子预测功能。具体的流程包括输入数据预处理和计算分子指纹预测值。

所述12分子指纹匹配功能由候选化合物筛选模块、候选化合物计算模块实现，为对给定的分子指纹，以及未知代谢物的串联质谱信息给出匹配的化合物以及匹配分数。具体的流程包括候选化合物初筛选和候选化合物匹配结果计算。

可选的，所述代谢物表征数据为代谢物的质谱数据、紫外数据、红外数据、核磁数据、液相数据、气相数据中的一种或多种。

特别的，所述代谢物表征数据为代谢物二级质谱峰表，所述数据预处理模块的预处理过程包括步骤如下：

P⁽¹⁾＝{P_i∈P|M_i≤M_p}；

特别的，所述步骤S103具体过程如下：

步骤S103.1，预处理峰表，对峰表的m/z值按照

进行缩放；

N＝{N_i∈P|<L_i,I_i>}

L_i＝M_p-M_i；

进行缩放；

其中，图2展示了分子指纹预测模块的输入数据预处理功能具体流程，包括1.1异常峰过滤、1.2噪声峰过滤和1.3输入稀疏向量构造。

所述1.1异常峰过滤流程令输入的峰表的每一项P_i由二元组<M_i,I_i>组成，其中M_i为质谱峰的m/z值，I_i为质谱峰的信号强度。设前级离子m/z值为M_p，若某个质谱峰符合条件M_i>M_p，则该质谱峰属于异常峰，应被过滤。本步骤输出可表示为：

P⁽¹⁾＝{P_i∈P|M_i≤M_p}

所述1.2噪声峰过滤流程利用最大-最小值方式对峰表进行归一化，并以阈值0.001过滤强度过小的质谱峰数据。本步骤输出可表示为：

所述1.3输入稀疏向量构造流程以经过归一化和过滤后的峰表以及前级离子信息为输入，计算出输入分子指纹预测模型的稀疏向量数据。具体子流程包括1.3.1峰表m/z值缩放、计算质谱峰直方图向量、计算中性损失、中性损失值缩放和计算中性损失直方图向量。

所述1.3.1峰值m/z值缩放流程会对峰表的m/z值进行缩放，本流程可表示为：

所述1.3.2计算质谱峰直方图向量流程会从二级质谱峰表计算产生n维的质谱峰直方图向量V⁽¹⁾。该向量的第i个分量V_i ⁽¹⁾表示缩放后m/z值为i与i-1分界值间的离子碎片信号强度。该直方图向量的维度n与最大m/z值的设定值是由实验测得的最优值。

所述1.3.3计算中性损失流程对二级质谱峰表P可计算出中性损失表，其中设前级离子的m/z值为M_p：

N＝{N_i∈P|<L_i,I_i>}

L_i＝M_p-M_i

所述1.3.4中性损失值缩放流程对中性损失表的中性损失L_i进行缩放，即可表示为：

所述1.3.5计算中性损失直方图向量流程会从中性损失表计算产生中性损失直方图向量V⁽²⁾。该向量的第i个分量V_i ⁽¹⁾表示缩放后中性损失值为i与i-1分界值间的离子碎片信号强度。该直方图向量的维度n与最大中性损失值是由实验测得的最优值。

本发明实施例数据预处理模块以未知的代谢物二级质谱峰表，以及前级离子信息作为输入，经过一系列的预处理，输出用于分子指纹计算步骤的数据。

特别的，所述分子指纹模块的工作过程具体如下：

其中，图3展示了分子指纹预测模块的计算分子指纹预测功能的具体流程，包括2.1构建输入张量、2.2计算预测结果。

所述2.1构建输入张量流程将质谱峰直方图向量V⁽¹⁾和中性损失直方图向量V⁽²⁾合并为能够输入模型进行计算的输入张量V。

所述2.2计算预测结果流程将输入张量输入至深度神经网络模型中进行计算，得到预测分子指纹结果f(V)。

本发明实施例的分子指纹模块基于预处理过程所产生的质谱峰直方图向量和中性损失直方图向量，经由机器学习算法得到的深度神经网络模型计算得到分子指纹的预测结果。

特别的，所述候选化合物筛选模块工作过程如下：

其中，图4展示了分子指纹匹配模块的候选化合物初筛选功能的具体流程，包括3.1化合物质谱数据提取、3.2前级离子m/z值筛选和3.3前级离子RT值筛选。

所述3.1化合物质谱数据提取流程利用化合物数据库中的质谱数据，对每一个化合物查找其二级质谱的前级离子的m/z值和RT值信息。若某一化合物没有对应的RT值信息，则基于其化合物元数据及二级质谱数据，使用RT预测方法得出一个RT值的推定值。

所述3.2前级离子m/z值筛选流程从化合物数据库的全体化合物中，搜索其在当前未知化合物的质谱数据条件下的前级离子m/z值，排除m/z值不在未知化合物的前级离子m/z值附近的化合物。筛选范围为由实验测定的最优值。

所述3.3前级离子RT值筛选从上一步骤所筛选出的化合物中，搜索其在当前未知化合物的质谱数据条件下的前级离子RT值，排除RT值不在未知化合物的前级离子RT值附近的化合物。筛选范围为由实验测定的最优值。

本发明实施例的候选化合物筛选模块基于输入数据的二级质谱以及前级离子信息，从化合物数据库中初步筛选出一批候选化合物的集合，缩小计算匹配分数的开销。

特别的，所述候选化合物计算模块工作过程如下：

其中，图5展示了分子指纹匹配模块的候选化合物匹配结果计算功能的具体流程，包括4.1计算分子指纹、4.2计算匹配分数以及4.3输出匹配结果。

所述4.1计算分子指纹流程：令步骤S3所输出的候选化合物集合为C，元素数目为m。对C内的每一个化合物C_i分别计算分子指纹F_i。

所述4.2计算匹配分数流程：令步骤S2所预测的未知化合物分子指纹为f(V)，对集合C的每一个化合物C_i分别计算其分子指纹F_i与f(V)对应的匹配分数S_i＝S(F_i,f(V))。

所述4.3输出匹配结果流程根据化合物C_i对应的分子指纹与未知化合物分子指纹的匹配分数，保留匹配分数最高的若干个化合物作为匹配结果输出，或按照用户设定的匹配分数阈值保留匹配分数不低于阈值的化合物作为匹配结果输出。

特别的，所述分子指纹模块为深度神经网络，所述深度神经网络还包括训练过程，所述深度神经网络的训练过程如下：

其中，深度神经网络通过不断地叠加隐藏层个数、增大神经元数量和使用复杂的激活函数，可有效解决复杂的非线性问题。以未知化合物的二级质谱峰直方图向量和中性损失向量为输入，经过多层神经元的运算之后，能够输出未知化合物的分子指纹的预测结果。深度神经网络模型包括训练过程和预测过程。所述预测过程即步骤S2的所述过程。

特别的，所述代谢物的分子指纹与数据库中各个化合物的分子指纹的匹配分数为Jaccard系数和Hamming损失的加权组合，权值α为由实验测得的位于0和1之间的最优值，具体计算方式如下：

S(F_i,f(V))＝α·Jaccard(F_i,f(V))+(1-α)·Hamming(F_i,f(V))

本发明实施例以分子指纹为基础，对代谢物复杂的空间结构信息进行提炼，通过运用机器学习方法，对代谢物的分子指纹进行预测，基于分子指纹给出化合物数据库，选出与代谢物的分子指纹匹配度最高的若干化合物作为候选化合物组。同时，本发明实施例以未知化合物的二级质谱峰表，以及前级离子信息作为输入，经过一系列的预处理，输出用于分子指纹计算步骤的数据，具体流程包括异常峰过滤、噪声峰过滤、输入稀疏向量构造，实现数据的准确预处理。此外，本发明实施例基于输入数据预处理所产生的质谱峰直方图向量和中性损失直方图向量，经由机器学习算法得到的深度神经网络模型计算得到分子指纹的预测结果，具体流程包括构建输入张量和计算预测结果，实现对代谢物的可能化学式结构进行准确预测。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解，技术人员阅读本申请说明书后依然可以对本发明的具体实施方式进行修改或者等同替换，但这些修改或变更均未脱离本发明申请待批权利要求保护范围之内。