CN116399836A

CN116399836A - 基于交替梯度下降算法的串扰荧光光谱分解方法

Info

Publication number: CN116399836A
Application number: CN202211472386.7A
Authority: CN
Inventors: 刘天元; 富雨超; 黄梅珍; 李婉香; 李昊宸; 蓝天朔; 屈凡华
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-07-07

Abstract

本发明提供一种基于交替梯度下降算法的串扰荧光光谱分解方法，包括：对样本的原始光谱数据进行预处理，得到光谱数据集，所述光谱数据集为n个样本的荧光光谱构成的实测光谱矩阵；依据串扰荧光光谱分析模型，将所述实测光谱矩阵对应的同型估计矩阵分解为三个特征矩阵；采用交替梯度下降的方法计算待求的因子矩阵，进而得到成分信息。本发明可以实现无监督模型训练和大量荧光光谱的光谱解耦，提高组分含量的定量精度。

Description

基于交替梯度下降算法的串扰荧光光谱分解方法

技术领域

本发明涉及光谱处理技术与定量分析领域，具体地，涉及一种基于交替梯度下降算法的串扰荧光光谱分解方法。

背景技术

荧光物质广泛存在于自然水体、工业废水、石油化工产品和生物医学样品中。如自然水体和工业废水中包括各种溶解性有机物和生化染料等荧光物质，其中一部分是有毒物质，直接给水域生态造成潜在的威胁，在饮用水的处理过程中，有些荧光物质因被氯化而产生次生的有害物质。因此，准确地检测或监测这些荧光物质成分和含量是一项至关重要的任务。

荧光光谱法是识别和追踪荧光物质的最常用的方法，对于仅含有单组分荧光物质的样品，可以获得很高的灵敏度和检测精度。对于含有多种荧光组分的分析对象，由于不同组分荧光物质的光谱相互影响交叠，采用常规的荧光光谱法的分析精度不令人满意。为了准确地解析各种组分的特征光谱，提高分析精度，研究发展了荧光区域积分法、主成分分析法、独立成分分析法、非负矩阵分解法以及平行因子分析法等等。荧光区域积分适用于荧光组分简单且荧光光谱无严重重叠的情况，对于多组分的荧光分析适用性差。主成分分析法是将高维的光谱信息进行降维，能有效压缩高维光谱中的重复信息，但是在获得成分浓度得分的同时丢失了独立组分的特征发射光谱信息。

平行因子法(PARAFAC)是一种多路分解的分析方法，被越来越多地应用于含有多种荧光物质的复杂体系的三维荧光光谱分析中。但是PARAFAC是基于数学上的线性叠加而提出的简化张量分解模型，它只考虑了不同特征荧光发射的线性混叠，没有考虑实际存在的荧光组分之间的相互吸收淬灭，也称为内滤光效应，因此计算结果仍然存在一定的误差。为了提高精度，很多研究都选择在使用PARAFAC方法前进行内滤光效应校正预处理，为此，需要额外测量样本的吸光度；也有研究者提出了控制稀释法以消除这种由荧光组分之间相互吸收淬灭导致的定量模型不准确的问题，得到了比较好的结果。无论是通过测量吸光度进行光谱数据校正预处理，还是通过控制稀释法，它们都需要增加实验测量仪器和实验步骤，这使得PARAFAC分析方法的实用性受限，不能适用于在线测量应用。

将荧光组分之间的光谱混叠和互相吸收引起光谱强度减弱(淬灭)统称为荧光串扰。通过对荧光串扰现象的影响进行分析，本申请的发明人之前提出了串扰荧光光谱分析(CFSA)模型【申请号202210166620.7，发明名称：一种定量分析多种荧光物质成分的高精度通用方法】。CFSA模型能够精确定量相互之间存在串扰的荧光组分。但是在实际使用这个模型之前，需要由已知成分含量的样本确定模型中的参数。因此，该模型的建立过程是有监督的。对于以自然水环境检测为例的实际测量过程中，可能存在陌生的荧光组分，很难通过有监督的模型训练事先确定CFSA定量模型。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于交替梯度下降算法的串扰荧光光谱分解方法，以解决平行因子法(PARAFAC)等常规线性分析模型无法精确定量存在荧光串扰的多组分体系中的荧光物质的难题，并且克服现有的CFSA技术需有监督的模型等不足。

根据本发明的一个方面，提供一种基于交替梯度下降算法的串扰荧光光谱分解方法，该方法包括：

对样本的原始光谱数据进行预处理，得到光谱数据集，所述光谱数据集为n个样本的荧光光谱构成的实测光谱矩阵；

依据串扰荧光光谱分析模型，将所述实测光谱矩阵对应的同型矩阵分解为三个特征矩阵；

采用交替梯度下降的方法计算待求的因子矩阵，进而得到成分信息。

进一步地，所述对样本的原始光谱数据进行预处理，得到光谱数据集，包括：基于哈达玛积，将串扰荧光光谱分析模型表达为矩阵运算形式。

更进一步地，所述基于哈达玛积，将串扰荧光光谱分析模型表达为矩阵运算形式，包括：

用I_m×n表示实验测得的由n个样本的荧光光谱构成的实测光谱矩阵，实测光谱矩阵中的一列代表一个样本的荧光光谱，每一个样本的荧光光谱包含m个波长点数据；

串扰荧光光谱分析模型通过同型矩阵

估计测得的实测荧光光谱矩阵I_m×n，并使得误差最小。

进一步地，所述依据串扰荧光光谱分析模型，将所述实测光谱矩阵对应的同型矩阵分解为三个特征矩阵，包括：基于哈达玛积，在n个样本中所有组分数的总和数为r的条件下，分解模型的表达式如下所示：

其中，C_r×n是代表浓度大小的特征矩阵，其中的元素为n个样本中的每一个成分的浓度得分；

Q_m×r是代表发射光谱的特征矩阵，其每一列表示的是一种组分在最大值归一化的发射光谱，每一列的元素数是发射光谱的像素数；

P_m×r是代表吸收光谱的特征矩阵，其每一列表示的是一种组分在最大值归一化的吸收光谱。

进一步地，所述采用交替梯度下降的方法计算待求的因子矩阵，包括：

定义一个待优化的目标函数作为交替梯度下降的损失函数，通过最小化所述损失函数求解和评估串扰荧光光谱分析模型；

在参数的初始化过程中，由随机数生成器随机生成一个浓度得分的初始矩阵，并且设定一个梯度下降过程的学习率；

以初始矩阵为起点，随后的交替梯度下降过程包含了一个大循环迭代和两个小循环迭代，其中，小循环迭代以设定的学习率进行梯度下降；

如果损失函数的函数值未到达进度要求，则进入下一轮大循环；否则，则退出迭代，输出迭代结果。

进一步地，定义一个分块矩阵T_m×2r，分块矩阵由两个光谱特征矩阵Q_m×r，P_m×r作为子矩阵构成：

T_m×2r＝[Q_m×r P_m×r]。

进一步地，所述随后的交替梯度下降过程包含了一个大循环迭代和两个小循环迭代，其中：

在每一轮大循环的第一个小循环中，当前的C_r×n值被固定，通过梯度下降算法迭代计算T_m×2r，直至其收敛；

在每一轮大循环的第二个小循环中，将当前的Q_m×r和P_m×r值固定，通过梯度下降算法迭代计算C_r×n，直至其收敛。

进一步地，在两个小循环结束后，计算当前的大循环中的

矩阵，并计算当前损失函数/>

更进一步地，所述计算当前损失函数

其中：损失函数/>

由(Q_m×r,P_m×r,C_r×n)这三个特征矩阵在迭代过程中的数值矩阵计算得到：

与现有技术相比，本发明具有如下至少之一的有益效果：

本发明的基于交替梯度下降算法的串扰荧光光谱分解方法，为依据串扰荧光光谱分析模型分解的交替梯度下降(AGD)方法，CFSA是一种非线性分析模型，无需增加诸如测量吸光度或稀释等多余的实验操作，采用交替梯度下降方法可以实现大量荧光光谱的无监督模型训练和光谱解耦，免除了在使用分析模型前需要由实验室测量参考值来进行模型训练的繁杂建模过程，还可以精确解析光谱，计算得到比PARAFAC准确度更高的特征荧光发射光谱，特别是还能得到PARAFAC方法无法得到的特征荧光吸收光谱，提高组分含量的定量精度，具有通用性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明实施例中依CFSA模型分解的估计矩阵

来描述实测的荧光光谱矩阵；

图2是本发明实施例中组织和分割标准样本的光谱数据集；

图3是本发明实施例中残差随迭代次数的变化过程；

图4是本发明实施例中重复10次实验并取其中迭代结束时残差最小的结果为最终结果；

图5是本发明实施例中CFSA-AGD计算的Q_m×r中的荧光发射特征光谱与参考样本的荧光发射光谱的对比；

图6是本发明实施例中CFSA-AGD计算的P_m×r中的荧光吸收特征光谱对比参考样本的吸收光谱；

图7是本发明实施例中CFSA-AGD方法对测试样本集的浓度分析结果。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明实施例提供一种基于交替梯度下降算法的串扰荧光光谱分解方法，该方法包括：

步骤一：对样本的原始光谱数据进行预处理，得到光谱数据集，该光谱数据集为n个样本的荧光光谱构成的实测光谱矩阵；

步骤二：依据串扰荧光光谱分析(CFSA)模型，将实测光谱矩阵对应的同型矩阵分解为三个特征矩阵，这三个特征矩阵即分别是C_r×n、Q_m×r和P_m×r，它们是三个待求解的因子矩阵；

步骤三：采用交替梯度下降的方法计算待求的因子矩阵，C_r×n是代表浓度大小的特征矩阵，其中的元素为n个样本中的每一个成分的浓度得分；Q_m×r是代表发射光谱的特征矩阵，其每一列表示的是一种组分在最大值归一化的发射光谱，每一列的元素数是发射光谱的像素数；P_m×r是代表吸收光谱的特征矩阵，其每一列表示的是一种组分在最大值归一化的吸收光谱；进而得到成分信息。

在一些实施方式中，在步骤一中，对样本的原始光谱数据进行预处理，得到光谱数据集，包括：基于哈达玛积，将串扰荧光光谱分析模型表达为矩阵运算形式。

为了用数学公式清晰地表示串扰荧光光谱模型，引入哈达玛积的矩阵运算，或者称之为基本积。

具体地，若

A＝[a_ij]和B＝[b_ij]是两个同型的矩阵，则定义一个m×n矩阵为A与B的哈达玛积(Hadamard product)，记作/>

在一些实施方式中，基于哈达玛积，将串扰荧光光谱分析模型表达为矩阵运算形式，包括：

用I_m×n表示实验测得的由n个样本的荧光光谱构成的实测光谱矩阵，实测光谱矩阵中的一列代表一个样本的荧光光谱，每一个样本的荧光光谱包含m个波长点数据，其决定了在一定探测波长范围内的最小采样波长间隔(即波长分辨率)；

因为原始的光谱矩阵带有测量误差和光谱噪声，无法按照CFSA模型进行光谱分解。因此，串扰荧光光谱分析模型通过满足分解模型的同型矩阵(即估计矩阵或同型估计矩阵)

估计测得的实测荧光光谱矩阵I_m×n，并使得误差最小。此处的误差具体指的是，由估计矩阵和实测荧光光谱矩阵所计算出的损失函数。

在一些实施方式中，在步骤二中，串扰荧光光谱分析(CFSA)模型的具体内容可以参见申请号为202210166620.7的专利。依据串扰荧光光谱分析模型，将实测光谱矩阵对应的同型矩阵分解为三个特征矩阵，包括：基于哈达玛积，在n个样本中所有组分数的总和数为r的条件下，分解模型的表达式如下所示：

其中，C_r×n是代表浓度大小的特征矩阵，其中的元素为n个样本中的每一个成分的浓度得分；由于其中的每一个样本中的成分数不大于r，所以每一个样本最多可以给r个成分赋分；

Q_m×r是代表发射光谱的特征矩阵，其包含每种组分在单位浓度下的发射光谱，每一列发射光谱的像素数和荧光光谱矩阵的波长分辨率相同；

P_m×r是代表吸收光谱的特征矩阵，其每一列表示的是一种组分在单位浓度下的吸收光谱，其与Q_m×r矩阵也是同型的。

上述分解模型的表达式中，由Q_m×r和C_r×n矩阵相乘得到的结果为简单的混叠荧光光谱矩阵，被广泛采用的平行因子法的思想就是源于这一分解原理结合交替最小二乘法产生的。

上述实施例中，从一个巨大的、高秩的荧光光谱矩阵中提取出了三个反映客观成分信息的低秩特征矩阵；相比较简单的线性分解方法具有更高的刻画精度，能够更客观地反映出荧光光谱之间的非线性串扰现象。

在一些实施方式中，在分解计算的过程中，这两个矩阵是未被归一化的，在表示Q_m×r矩阵和P_m×r矩阵中的光谱时，对Q_m×r和P_m×r这两个矩阵的计算结果的每一列光谱进行最大值归一化，使得在比较光谱时所有成分的光谱都显示在同一尺度上，从而方便比较结果。

由于串扰荧光光谱分析模型的光谱矩阵分解过程并非是线性分解，因此无法直接利用最小二乘法来进行计算，因此，采用交替梯度下降的方法计算待求的因子矩阵，将这种交替求解、迭代逼近的思想应用于非线性的分析模型。在一些实施方式中，在步骤三中，采用交替梯度下降的方法计算待求的因子矩阵，包括：

定义一个待优化的目标函数作为交替梯度下降的损失函数，通过最小化损失函数求解和评估串扰荧光光谱分析模型；

在第一次进入循环迭代时需要固定一个因子矩阵，这个因子矩阵的初始值需要随机产生，因此，在参数的初始化过程中，由随机数生成器随机生成一个浓度得分的初始矩阵，并且设定一个梯度下降过程的学习率；

如果损失函数的函数值未到达进度要求，则进入下一轮大循环；否则，则退出迭代，输出迭代结果，即因子矩阵。

在一些实施方式中，为了描述AGD算法的方便，定义一个分块矩阵T_m×2t，分块矩阵由两个光谱特征矩阵Q_m×r，P_m×r作为子矩阵构成：

T_m×2r＝[Q_m×r P_m×r]。

在一些实施方式中，随后的交替梯度下降过程包含了一个大循环迭代和两个小循环迭代，其中：

在一些实施方式中，在两个小循环结束后，计算当前的大循环中的

矩阵，并计算当前损失函数/>

在一些实施方式中，计算当前损失函数

其中：损失函数/>

随着交替迭代的过程的进行，损失函数总体应保持减小的趋势，并在算法收敛时趋于一个固定的值。

AGD算法的核心策略是以交替梯度下降的方法来计算待求的因子矩阵，将交替求解、迭代逼近的思想应用于非线性的分析模型，以此，可以实现CFSA分析模型的自动分解和光谱解耦。上述实施例中的基于交替梯度下降(AGD)算法的串扰荧光光谱分解方法，可以实现大量荧光光谱的无监督模型训练和光谱解耦，不但可以简化测量操作，还可以计算得到比PARAFAC准确度更高的特征荧光发射光谱和PARAFAC无法得到的特征荧光吸收光谱，并提高了组分含量的定量精度。

为了分别验证本发明上述实施例中方法的准确性和实用性，在实验室中配置标准样本，将其作为测量样本。

参照图1，具体的测试和验证过程包括：

S1、对串扰荧光物质进行配置，获得标准样本的荧光光谱；

其中，标准样本是指在实验室中，由色氨酸、荧光素钠和罗丹明B三种荧光物质按不同比例配置的已知参考浓度的样本。这类样本主要是用于检验CSFA-AGD方法在计算过程中的运行性能和定量分析结果的准确度。这些荧光物质在波长为275nm的激发光激发下均有明显的荧光发射，并且荧光素钠和罗丹明B之间存在显著的荧光串扰。

使用紫外可见分光光度计测量上述荧光物质的吸收光谱，其光谱分辨率为1nm。参考样本的吸收光谱仅用作考察CFSA-AGD分析方法的准确度的参考结果，而不参与实际的分析和建模过程。

激发光源选用中心波长275nm的窄带LED，采用常规的正交测量光路测量荧光，荧光光谱的分辨率为0.8nm，放入样品池的样品未作提取或过滤等预处理。

S2、组织和分割标准样本的光谱数据集；

标准样本是已知各荧光组分浓度的样本，作为测试样本集的数据输入分析模型的。

为了增加输入分析模型的样本量，还以标准样本为母液进行随机的混合和稀释，得到了一组新的随机样本集。

测试样本集和随机样本集的荧光光谱如下图2所示，具有相同的荧光发射、重叠和串扰特征。将这些荧光光谱混合后，形成一个可以用于CFSA-ADG分析的荧光光谱矩阵(混合数据集)。

利用随机样本集扩大样本量的方法虽然增加了算法运行的时间成本，但是增加了具有相同特征的样本，有利于CFSA-AGD分析模型训练得更符合串扰荧光光谱的特征，减少过拟合的发生。

S3、根据分割后的光谱数据集，建立CFSA-AGD分析模型，基于该分析模型进行结果比较。

结果比较主要对比的是已知参量的测试样本集的分析结果；未知参量的随机样本集仅参与模型的训练，不参与结果的比较分析。

CFSA-ADG分析模型的输入为混合数据集，而输出则是两个光谱特征矩阵和一个浓度得分特征矩阵(图2)。

由紫外可见分光光度计和LED单波长激发光荧光光谱仪测量参考样本集，就可以获得各类组分的参考荧光光谱和参考吸收光谱。

最终，将参考荧光光谱与特征矩阵Q_m×r进行对比，将参考吸收矩阵与特征矩阵P_m×r进行对比，并将测试样本集的浓度得分特征矩阵和参考荧光组分浓度进行对比，检验分析方法的有效性。

CFSA-AGD方法对标准样本的分析可以从过程和结果两个角度来考察CFSA-AGD方法的工作性能。

在算法迭代的过程中，计算估计荧光光谱矩阵

和实测荧光光谱矩阵I_m×n之间的残差，即损失函数的值，并记录残差随迭代次数的变化过程(图3)。

残差随着梯度下降方向有减小的趋势，直至800轮迭代后满足误差条件退出循环。

由于实际测得的荧光光谱矩阵难免伴有一定程度的噪声信号，因此残差的变化并非完全是单调减小的，而且会导致在接近收敛点的附近存在诸多局部最优解。

为了提高CFSA-AGD方法的准确性，重复进行10次实验并取其中迭代结束时残差最小的结果为最终结果(图4)，即认为其是最接近全局最优的一个解。

依据串扰荧光光谱分析模型，利用交替梯度下降算法做矩阵分解将会收敛到三个特征矩阵。

具体地，如下图5所示的是CFSA-AGD计算的Q_m×r中的荧光发射特征光谱与参考样本的荧光发射光谱的对比结果，在这里也做了最大值归一化。

与PARAFAC的结果不同的是，CFSA-AGD计算的荧光发射特征光谱不再混有串扰光谱信号，每一种荧光物质的荧光发射峰更加得纯净，且不会产生荧光峰的畸变和偏移。

而且，CFSA-AGD还计算得到了P_m×r中的荧光吸收特征光谱，以此对比参考样本的吸收光谱的结果如图6所示。

计算得到的荧光吸收特征光谱基本可以体现出其中的荧光组分的吸收光谱，但在部分测量荧光信号本身较弱的波段产生了明显的误差。

CFSA-AGD方法对测试样本集的浓度分析结果如图7所示，依次为荧光素钠、罗丹明B和色氨酸的参考浓度-浓度得分关系图。直线是根据数据散点得到的拟合线。

进一步地，可以看到，对于罗丹明B定量结果与PARAFAC方法相似，这可能是由于测量过程中的系统性噪声导致的误差。该方法消除了荧光串扰对荧光素钠和色氨酸的定量分析的影响，较PARAFAC方法具有更高的定量精度。

本发明上述实施例中的基于交替梯度下降算法的串扰荧光光谱分解方法，为依据串扰荧光光谱分析模型分解的交替梯度下降(AGD)方法，CFSA是一种非线性分析模型，无需增加诸如测量吸光度或稀释等多余的实验操作，采用交替梯度下降方法可以实现大量荧光光谱的无监督模型训练和光谱解耦，免除了在使用分析模型前需要由实验室测量参考值来进行模型训练的繁杂建模过程，还可以精确解析光谱，计算得到比PARAFAC准确度更高的特征荧光发射光谱，特别是还能得到PARAFAC方法无法得到的特征荧光吸收光谱，提高组分含量的定量精度，具有通用性。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下，可以任意组合使用。

Claims

1.一种基于交替梯度下降算法的串扰荧光光谱分解方法，其特征在于，包括：

2.根据权利要求1所述的基于交替梯度下降算法的串扰荧光光谱分解方法，其特征在于，所述对样本的原始光谱数据进行预处理，得到光谱数据集，包括：基于哈达玛积，将串扰荧光光谱分析模型表达为矩阵运算形式。

3.根据权利要求2所述的基于交替梯度下降算法的串扰荧光光谱分解方法，其特征在于，所述基于哈达玛积，将串扰荧光光谱分析模型表达为矩阵运算形式，包括：

串扰荧光光谱分析模型通过同型矩阵

估计测得的实测荧光光谱矩阵I_m×n，并使得误差最小。

4.根据权利要求1所述的基于交替梯度下降算法的串扰荧光光谱分解方法，其特征在于，所述依据串扰荧光光谱分析模型，将所述实测光谱矩阵对应的同型矩阵分解为三个特征矩阵，包括：基于哈达玛积，在n个样本中所有组分数的总和数为r的条件下，分解模型的表达式如下所示：

5.根据权利要求1所述的基于交替梯度下降算法的串扰荧光光谱分解方法，其特征在于，所述采用交替梯度下降的方法计算待求的因子矩阵，包括：

6.根据权利要求5所述的基于交替梯度下降算法的串扰荧光光谱分解方法，其特征在于，定义一个分块矩阵T_m×2r，分块矩阵由两个光谱特征矩阵Q_m×r，P_m×r作为子矩阵构成：

T_m×2r＝[Q_m×r P_m×r]。

7.根据权利要求5所述的基于交替梯度下降算法的串扰荧光光谱分解方法，其特征在于，所述随后的交替梯度下降过程包含了一个大循环迭代和两个小循环迭代，其中：

8.根据权利要求7所述的基于交替梯度下降算法的串扰荧光光谱分解方法，其特征在于，在两个小循环结束后，计算当前的大循环中的

矩阵，并计算当前损失函数

9.根据权利要求8所述的基于交替梯度下降算法的串扰荧光光谱分解方法，其特征在于，所述计算当前损失函数

其中：损失函数/>

由Q_m×r,P_m×r,C_r×n)这三个特征矩阵在迭代过程中的数值矩阵计算得到：