CN117690421B

CN117690421B - 降噪识别联合网络的语音识别方法、装置、设备及介质

Info

Publication number: CN117690421B
Application number: CN202410145846.8A
Authority: CN
Inventors: 李�杰
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-06-04
Anticipated expiration: 2044-02-02
Also published as: CN117690421A

Abstract

本申请涉及语音识别技术领域，特别是涉及到一种降噪识别联合网络的语音识别方法、装置、设备及介质，其中方法包括：对输入的带噪音频进行傅里叶变换，得到实部和虚部的频域特征；对所述频域特征进行变换，得到FBank特征；将FBank特征经过线性映射后输入到降噪网络中，获取降噪输出结果，其中，所述降噪输出结果为包含实部和虚部的复数掩码；基于目标函数对所述降噪输出结果进行训练，输出降噪后的复数掩码；通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后FBank特征；将所述FBank特征和所述降噪后FBank特征输入到语音识别网络，计算音素序列。本申请实现对噪声降噪和语音识别的同时优化，提高整体的识别性能和轻量化性能。

Description

降噪识别联合网络的语音识别方法、装置、设备及介质

技术领域

本申请涉及语音识别领域，特别是涉及到一种降噪识别联合网络的语音识别方法、装置、设备及介质。

背景技术

命令词识别属于语音识别，广泛应用于智能家居领域，比如智能语音音箱、智能语音耳机、智能语音灯、智能语音风扇等。单独的语音识别网络，在比如电视噪声，电风扇噪声等复杂环境下，识别率会较大幅度下降。传统的降噪算法对非稳态噪声降噪效果不佳，AI降噪无法跟后续的识别进行联合优化，且识别能力往往与模型大小成正比，嵌入式设备由于成本考虑，相比手机等智能设备，其算力低、内存和flash小，大的复杂的模型无法部署在此类低资源设备上。

因此，如何解决传统的降噪算法无法做到联合优化，降噪效果不佳且在算力较低的设备上难以部署的问题是一个亟需解决的技术问题。

发明内容

本申请的主要目的为提供一种降噪识别联合网络的语音识别方法、装置、设备及介质，旨在解决传统的降噪算法无法做到联合优化，降噪效果不佳且在算力较低的设备上难以部署的技术问题。

为了实现上述发明目的，本申请提出一种降噪识别联合网络的语音识别方法，所述方法包括：

对输入的带噪音频进行傅里叶变换，得到实部和虚部的频域特征；

对所述频域特征进行变换，得到FBank特征；

将FBank特征经过线性映射后输入到降噪网络中，获取降噪输出结果，其中，所述降噪输出结果为包含实部和虚部的复数掩码；

基于目标函数对所述降噪输出结果进行训练，输出实部和虚部的降噪后的复数掩码；

通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后FBank特征；

将所述FBank特征和所述降噪后FBank特征输入到语音识别网络，计算音素序列。

进一步地，所述对输入的带噪音频进行傅里叶变换，得到实部和虚部的频域特征的步骤，包括：

从输入音频中进行采样，并对采样得到的信号进行加窗处理；

对加窗后的信号进行傅里叶变换，将时域信号转换为频域信号；

对所述频域信号进行提取，得到实部和虚部的频域特征。

进一步地，所述对所述频域特征进行变换，得到FBank特征的步骤，包括：

将所述频域特征映射到Mel频率上，得到Mel频谱；

使用滤波器对所述Mel频谱进行滤波，得到每个滤波器通道的能量；

对滤波器通道的能量进行对数运算，得到FBank特征。

进一步地，所述将FBank特征经过线性映射后输入到降噪网络中，获取降噪输出结果的步骤，包括：

通过FBank特征经过一层线性映射，将FBank特征的维度映射为降噪网络的输入维度，输入至所述降噪网络中；

将FBank特征进行升维到hdim；

将升维后的特征降维为pdim；

通过一个注意力操作，使用注意力矩阵对当前时刻及历史共窗口长度的特征进行加权汇总；

通过二维卷积，对加权汇总后的FBank特征进行处理，得到降噪输出结果。

进一步地，所述目标函数包括第一目标函数和第二目标函数，所述基于目标函数对所述降噪输出结果进行训练，输出实部和虚部的降噪后的复数掩码的步骤，包括：

定义所述目标函数，其中所述第一目标函数使用 si-snr 作为损失函数，第二目标函数使用掩码之间的均方误差作为损失函数；

针对所述降噪输出结果，通过所述第一目标函数进行训练，目标是最大化干净语音和降噪后音频之间的信噪比；

同时，通过第二目标函数进行训练，目标是最小化生成的掩码与真实掩码之间的均方误差；

在达到预设条件后，输出实部和虚部的降噪后的复数掩码。

进一步地，所述通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后FBank特征的步骤，包括：

将输入音频对应的所述频域特征与降噪后的复数掩码进行按元素相乘操作，得到降噪后的频域特征；

对所述降噪后的频域特征进行变换，得到所述降噪后的FBank特征。

进一步地，所述将所述FBank特征和所述降噪后FBank特征输入到语音识别网络，计算音素序列的步骤，包括：

对于每个输入的FBank特征和降噪后的FBank特征，将其分别输入到语音识别网络的第一层线性映射中；

将映射后的FBank特征和降噪后的FBank特征分别输入到识别模块中进行升维；

将升维后的特征再降维为原始维度进行降维；

将经过降维后的特征通过Conv2d层进行卷积操作，将经过卷积操作后的特征输入到下一个识别模块；

直到通过所有的识别模块，将最后一个识别模块输出的FBank特征与音素类别建立对应关系，获得音素序列的预测结果。

本申请的第二方面还包括一种降噪识别联合网络的语音识别装置，包括：

第一变换模块，用于对输入的带噪音频进行傅里叶变换，得到实部和虚部的频域特征；

第二变换模块，用于对所述频域特征进行变换，得到FBank特征；

降噪模块，用于输入FBank特征到降噪网络中，通过网络的前向传播过程得到降噪输出结果，即频谱的实部和虚部的复数掩码；

训练模块，用于基于目标函数对所述降噪输出结果进行训练，输出实部和虚部的降噪后的复数掩码；

降噪转化模块，用于通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后FBank特征；

语音识别模块，用于将所述FBank特征和所述降噪后FBank特征输入到语音识别网络，计算音素序列。

本申请的第三方面还包括一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述中任一项所述方法的步骤。

本申请的第四方面还包括一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述中任一项所述方法的步骤。

有益效果

传统降噪算法与语音识别网络相互分离，在实际应用中无法进行联合优化。本申请提供的一种降噪识别联合网络的语音识别方法，通过将降噪网络与语音识别网络进行联合训练和优化，可以实现对噪声降噪和语音识别的同时优化，提高整体的识别性能。通过采用计算量少的线性映射和计算，大大减少了计算复杂度和推理耗时，使得在低资源嵌入式平台可实时计算，融合降噪前和降噪后的特征作为识别的输入特征，保证了识别的鲁棒性。

附图说明

图1 为本申请一实施例的降噪识别联合网络的语音识别方法的流程示意图；

图2 为本申请一实施例的降噪识别联合网络的语音识别装置的结构示意框图；

图3 为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“上述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件、模块和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、模块、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一模块和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语），具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

参照图1，本发明实施例提供一种降噪识别联合网络的语音识别方法，包括步骤S1-S6，具体地：

S1、对输入的带噪音频进行傅里叶变换，得到实部和虚部的频域特征；

S2、对所述频域特征进行变换，得到FBank特征；

S3、将FBank特征经过线性映射后输入到降噪网络中，获取降噪输出结果，其中，所述降噪输出结果为包含实部和虚部的复数掩码；

S4、基于目标函数对所述降噪输出结果进行训练，输出降噪后的复数掩码；

S5、通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后FBank特征；

S6、将所述FBank特征和所述降噪后FBank特征输入到语音识别网络，计算音素序列。

如上述步骤S1所述，从输入音频中进行采样，获取一定时间内的信号。然后对采样得到的信号进行加窗处理，比如汉明窗或其他窗函数，对加窗后的信号进行傅里叶变换，将时域信号转换为频域信号。得到频域信号的实部和虚部，这样每个时间点的频域特征都包含实部和虚部。对得到的频域信号进行提取，获取实部和虚部的频域特征，可以通过简单的复数分解或者从复数中提取实部和虚部来实现。假设有一段带噪音的语音信号，经过采样和加窗处理后，得到一个时间窗口的信号。对这个信号进行傅里叶变换，可以得到频域上每个频率分量的实部和虚部。例如，对于某个频率 f，其在时刻 t 的实部表示为 Re(f, t)，虚部表示为Im(f, t)。这样，整个频域信号就由一系列频率分量的实部和虚部构成。本步骤通过傅里叶变换，得到了输入音频的时频域信息，包括实部和虚部的频域特征，可用于后续处理降噪和识别网络处理，为整个系统提供更多的信息。

如上述步骤S2所述，将频域特征映射到Mel频率上，通过Mel滤波器组将频率线性划分为一组滤波器通道，这个过程可以使用Mel滤波器组的中心频率和带宽来计算每个滤波器的权重。然后对每个Mel滤波器通道的输出进行能量提取，计算每个滤波器通道内信号的能量，例如可以通过对每个滤波器通道的输出进行平方运算，或者将输出通过绝对值运算后再平方来实现，对能量进行对数运算，得到对数能量的FBank（Filter Bank）特征，例如可以通过对每个滤波器通道的能量值进行取对数运算来实现。假设在频域特征中，每个时间窗口都有一组频率对应的幅度值。通过Mel频率映射，对每个频率应用Mel（Mel Scale）滤波器组，得到每个滤波器通道的输出。然后，对每个滤波器通道的输出进行能量提取，计算通道内信号的能量值。最后，对能量进行对数运算，得到对数能量的FBank特征。例如，假设Mel滤波器组将频率线性划分为10个滤波器通道，对应于不同的Mel频率，而每个滤波器通道的能量为E1、E2、E3...E10。通过对这些能量值取对数运算，得到对数能量的FBank特征：log(E1)、log(E2)、log(E3)、...、log(E10)。这样，得到的FBank特征具有更低的维度，并且更加强调人耳感知相关的重要频率成分。综上所述，本步骤通过映射到Mel频率并进行能量提取和对数运算，可以将频域特征的维度减少到较小的值。有助于减少模型输入的维度，从而提高计算效率，FBank特征提取过程有助于保留语音信号中与人耳感知相关的重要频率成分，同时滤除不相关的频率成分。

如上述步骤S3所述，将FBank特征通过线性映射层输入到降噪网络中。线性映射层的目的是将FBank特征的维度适配到降噪网络的输入维度。FBank特征经过线性映射后，作为降噪网络的输入，其中降噪网络包括多个降噪模块，每个模块根据输入的特征进行计算和处理，降噪网络的目标是生成适当的实部和虚部的复数掩码，以减少噪声对语音信号的影响。降噪网络的输出是包含实部和虚部的复数掩码。复数掩码可以表示降噪网络根据输入的特征计算出的对频谱进行降噪的信息。假设经过线性映射层，将FBank特征经过适当的变换映射为降噪网络的输入。降噪网络由多个降噪模块组成，每个模块接收输入的特征并进行计算。根据输入的FBank特征，降噪网络学习如何生成适当的复数掩码，以减少噪声对语音信号的影响。举例来说，假设降噪网络的输出为复数掩码，其中实部为R，虚部为I。这个复数掩码可以通过降噪网络根据输入的特征计算出，用于表示降噪网络对频谱进行降噪的信息。其中，实部和虚部的数值表示了频谱的幅度和相位的变化程度。这样，降噪网络的输出结果是一组复数掩码，可以用于后续的频谱处理和复原。本步骤通过线性映射将FBank特征输入降噪网络，可以适应不同的降噪网络架构和输入要求。降噪网络的输出是复数掩码，可以根据实部和虚部对频谱进行精确的降噪处理，降噪网络通过学习输入特征和复数掩码之间的映射关系，可以根据输入的噪声情况自适应地进行降噪处理。

如上述步骤S4所述，在训练降噪网络时，首先需要定义对应的目标函数，目标函数衡量了降噪网络的输出与期望的降噪结果之间的差异。通常，目标函数的选择与降噪任务的性质有关，可以选择均方误差（Mean Squared Error，MSE）或其他适合的损失函数。使用带有噪声的语音数据和相应的干净语音数据作为训练集。干净语音数据是没有噪声的语音信号，用作训练的目标。将带有噪声的语音数据输入降噪网络，并获取降噪输出结果，即复数掩码。计算目标函数，将降噪输出结果与对应的干净语音数据进行比较，得到损失。然后使用反向传播算法和优化器（如随机梯度下降）来调整降噪网络的权重和参数，以减小损失函数值。迭代多次，每次通过不同的训练样本进行网络权重的更新，直到达到一定的训练轮次或损失函数达到满意的值。经过训练后，降噪网络能够产生降噪后的复数掩码。通过本步骤中的训练过程，降噪网络能够学习如何有效地从带噪声的语音信号中提取干净信号信息，以生成降噪后的复数掩码，同时降噪网络的训练使其能够自适应不同噪声环境和语音特征，提高降噪性能。

如上述步骤S5所述，将降噪后的复数掩码应用于频域特征，通过逐个复数点相乘来获得降噪后的频域信息，其中复数掩码的实部和虚部与频域点的实部和虚部分别进行对应元素的乘法操作。通过应用降噪后的复数掩码，将其与原始频域特征进行元素级的乘法，得到降噪后的频谱信息。在傅里叶变换中，复数点的幅度和相位对应频域特征的幅度和相位。将降噪后的频域特征经过与步骤S2相同的过程进行FBank特征计算，其中涉及到Mel频率映射、能量提取和对数运算等步骤，以获得降噪后的FBank特征。本步骤通过应用降噪后的复数掩码，能够对原始频域特征进行降噪处理，提高降噪效果。降噪后的复数掩码与频域特征相乘，旨在保留频谱信息的相位和幅度，并减小噪声对频谱的影响。通过降噪后的频域特征计算降噪后的FBank特征，可进一步减少维度，并提取更加相关和鲁棒的语音特征。

如上述步骤S6所述，将原始FBank特征和降噪后的FBank特征作为语音识别网络的输入。这两组特征代表同一段语音信号，但一个是原始的、未经处理的特征，另一个是经过降噪处理的特征。语音识别网络通常是深度神经网络（例如循环神经网络或卷积神经网络），用于将输入的语音特征映射到对应的音素序列。这个网络的目标是学习语音信号中的语音信息，并输出音素序列，表示所说话的单词或句子。语音识别网络根据输入的原始FBank特征和降噪后的FBank特征进行前向传播，计算音素序列。本步骤在输入降噪后的FBank特征时，语音识别网络更容易区分语音信号和噪声，从而提高了语音识别的准确性，最终，将识别的音素序列通过语音识别网络识别和输出。

通过步骤S1-S6，实现了降噪和识别的联合，通过训练降噪网络的目标函数是通过与干净语音数据的比较来衡量降噪网络输出的复数掩码与期望降噪结果之间的差异。此目标函数与语音识别任务的准则关联，即降低噪声对语音信号的影响，提升语音识别的性能。另外，将经过线性映射层处理后的FBank特征作为降噪网络的输入，这样，降噪网络可以根据语音特征来生成适合降噪的复数掩码，然后将原始FBank特征和降噪后的FBank特征作为语音识别网络的输入，这种关联保证了降噪网络和语音识别网络能够在处理语音信号时进行协作，共同提取有用的特征并进行处理，从而提高整个系统的性能。线性映射层的设计可以采用轻量的线性映射，减小模型的参数量和计算复杂度，对频域特征进行降维处理，例如通过Mel频率映射、能量提取和对数运算，减小特征维度，可以降低计算和存储开销，实现了轻量化的效果。

在一实施例中，所述对输入的带噪音频进行傅里叶变换，得到实部和虚部的频域特征的步骤，包括：

S101、从输入音频中进行采样，并对采样得到的信号进行加窗处理；

S102、对加窗后的信号进行傅里叶变换，将时域信号转换为频域信号；

S103、对所述频域信号进行提取，得到实部和虚部的频域特征。

在本实施例中，从输入音频中进行采样，即在一定时间间隔内获取一系列音频信号的样本点。对采样得到的信号进行加窗处理。窗函数通常用于减少频谱泄漏的影响。常见的窗函数包括汉明窗、汉宁窗等，它们在时域上对信号进行加权。对加窗后的信号进行傅里叶变换。傅里叶变换将时域信号转换为频域信号，将信号表示为复数形式，包括实部和虚部。从傅里叶变换得到的频域信号中提取实部和虚部的频域特征。这些特征代表了信号在频域上的幅度和相位信息。

在一实施例中，所述对所述频域特征进行变换，得到FBank特征的步骤，包括：

S201、将所述频域特征映射到Mel频率上，得到Mel频谱；

S202、使用滤波器对所述Mel频谱进行滤波，得到每个滤波器通道的能量；

S203、对滤波器通道的能量进行对数运算，得到FBank特征。

在本实施例中，将频域特征映射到Mel频率上，得到Mel频谱 Mel频率是一种人耳感知频率的刻度，与线性频率不同，该映射可以将将频域特征转换到与人耳感知更加一致的频率刻度上。常见的方法是将频域特征通过一组Mel滤波器组，将特征能量映射到Mel频率上，得到Mel频谱。使用滤波器对Mel频谱进行滤波，得到每个滤波器通道的能量在S201中得到的Mel频谱是一个矩阵，包含了在不同Mel频率上的能量分布情况。在这一步中，会通过一组滤波器对Mel频谱进行滤波操作，滤波器的数量通常与FBank特征的维度相同。通过滤波器计算每个滤波通道在Mel频谱上的能量，得到每个滤波通道的输出能量。对滤波通道的能量进行对数运算，得到FBank特征，对数运算可以扩大较小的能量值之间的差异，使得FBank特征更具判别力。通过将频域特征转换为Mel频谱，再使用滤波器进行能量提取，可以将特征的维度大幅减小。例如，从原来的512个点的FFT（Fast Fourier Transform）结果（即包含了实部和虚部的复数掩码），经过这个过程可以有效压缩特征维度至80维。

在一实施例中，所述将FBank特征经过线性映射后输入到降噪网络中，获取降噪输出结果的步骤，包括：

S301、通过FBank特征经过一层线性映射，将FBank特征的维度映射为降噪网络的输入维度，输入至所述降噪网络中；

S302、将FBank特征进行升维到hdim；

S303、将升维后的特征降维为pdim；

S304、通过一个注意力操作，使用注意力矩阵对当前时刻及历史共窗口长度的特征进行加权汇总；

S305、通过二维卷积，对加权汇总后的FBank特征进行处理，得到降噪输出结果。

在本实施例中，降噪网络的设计中，网络模块采用简单的线性计算算子，相比卷积或者transformer等结构，可大幅减少计算量。先通过一层线性映射，将输入的FBank特征的维度映射为降噪网络的输入维度。线性映射的参数为一个矩阵，将输入的80维FBank特征映射为96维度的特征，（比如 Linear(in_features=80, out_features=96, bias=True)），然后经过若干降噪模块，比如6块干降噪模块，最后将96维度，映射为fft实部虚部的mask维度，（(512个点即(NFFT//2 + 1)*2) Linear(in_features=96, out_features=514, bias=True)此处乘以2的含义是对实部和虚部分别进行mask操作）。其中每个降噪模块的设计为：将经过线性映射后的FBank特征进行升维，将特征维度扩展到hdim(Hidden Dimension，隐藏维度，指的是降噪网络中的隐藏层或隐藏单元的维度，它表示了升维后的特征的维度，通常用来控制模型的表达能力），升维的目的是增加网络的表示能力，提高降噪性能。将升维后的特征降维为pdim(Projection Dimension，投影维度，指的是升维后的特征经过第一降维单元降维后的维度。它表示了特征在经过降维之后的维度。）维度，其中，hdim一般为pdim的2倍。这个步骤主要是减小特征维度，加快计算速度。降维操作可以通过线性变换实现。然后使用注意力矩阵对当前时刻及历史共窗口长度的特征进行加权汇总，注意力操作通过计算特征与注意力权重的加权和来获取加权汇总结果，这个操作能够使网络更加关注重要的特征信息，有利于降低噪声的影响。即 sum(ai*xi) 其中 ai 是第i个注意力权值 xi是窗内第i个特征，可通过二维卷积等价实现。通过二维卷积对加权汇总后的FBank特征进行处理，得到降噪输出结果。卷积操作可以有效提取特征的空间相关性，并进一步减小噪声干扰。本实施例采用了简单的线性计算算子，如线性映射和线性变换，相对于复杂的卷积或transformer结构，计算量较小，能够更高效地进行模型推理，特别是对于实时应用而言，这是一个重要的优点，通过线性映射将输入FBank特征映射到降噪网络的输入维度，以及升降维操作，有助于模型更好地处理输入数据，提高降噪性能。升维提高了网络的表示能力，而降维则减小了特征维度，从而在不牺牲性能的前提下提高了计算效率。引入注意力机制，模型能够自动学习和关注当前时刻及历史特征的重要性，有助于降低噪声的影响，提高降噪性能。这使得模型更智能地处理音频信号。

在一实施例中，所述目标函数包括第一目标函数和第二目标函数，所述基于目标函数对所述降噪输出结果进行训练，输出实部和虚部的降噪后的复数掩码的步骤，包括：

S401、定义所述目标函数，其中所述第一目标函数使用 si-snr 作为损失函数，第二目标函数使用掩码之间的均方误差作为损失函数；

S402、针对所述降噪输出结果，通过所述第一目标函数进行训练，目标是最大化干净语音和降噪后音频之间的信噪比；

S403、同时，通过第二目标函数进行训练，目标是最小化生成的掩码与真实掩码之间的均方误差；

S404、在达到预设条件后，输出实部和虚部的降噪后的复数掩码。

在本实施例中，使用 si-snr（Signal-to-Noise Ratio）作为损失函数。这个目标函数的目标是最大化干净语音和降噪后音频之间的信噪比，这意味着模型在训练中会努力使降噪后的音频尽可能接近干净语音，以提高信号质量。第二目标函数：使用掩码之间的均方误差（MSE，Mean Squared Error）作为损失函数。这个目标函数的目标是最小化生成的复数掩码与真实复数掩码之间的均方误差，以使模型的输出尽可能接近真实情况，这有助于减小降噪效果与真实情况之间的差距。针对降噪输出结果，首先通过第一目标函数进行训练。这意味着模型在训练中会优化si-snr损失函数，以提高信噪比，使得降噪后的音频更接近干净语音。在达到预设条件后，对实部和虚部的降噪后的复数掩码进行输出。其中，预设条件即指训练过程中的停止条件。具体来说，可以事先设定一个固定的训练轮数，当模型完成指定轮数的训练后，训练过程将停止，又或者可以设置一个性能指标作为停止条件，比如定义一个最小的si-snr或最大的MSE值，当模型的性能达到或超过指定的性能指标时，训练过程将终止。或者可以监测验证集上的性能，当模型在验证集上的表现不再提升时，即验证集上的损失函数不再下降或准确度不再提高时，训练过程可能会终止。具体方式可以根据实际情况进行设置。本实施例结合si-snr和MSE损失函数，可以在降噪任务中综合考虑信噪比的优化和复数掩码的准确性，这种综合性的训练方式使得模型在不同方面都能取得良好的性能。

在一实施例中，所述通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后FBank特征的步骤，包括：

S501、将输入音频对应的所述频域特征与降噪后的复数掩码进行按元素相乘操作，得到降噪后的频域特征；

S502、对所述降噪后的频域特征进行变换，得到所述降噪后的FBank特征。

在本实施例中，首先对输入的音频信号进行频域变换，通常是通过应用短时傅里叶变换（STFT）得到频谱表示。然后，使用先前进行的降噪操作得到的复数掩码，按元素对频域特征进行相乘操作。这一操作的目的是通过掩码去除或减弱噪音成分，从而得到降噪后的频域特征。对经过降噪的频域特征进行某种变换，以获得FBank特征。这个变换可以包括滤波器组的应用，其中每个滤波器对应于FBank特征中的一个频带，也可以包括在Mel频率刻度上均匀分布的三角滤波器的应用，然后对每个滤波器的输出进行加权求和，并进行对数操作和DCT变换。本实施例通过降噪和特征提取，提高了语音信号的质量和表征能力，为后续的语音处理任务提供更可靠的输入。

在一实施例中，所述将所述FBank特征和所述降噪后FBank特征输入到语音识别网络，计算音素序列的步骤，包括：

S601、对于每个输入的FBank特征和降噪后的FBank特征，将其分别输入到语音识别网络的第一层线性映射中；

S602、将映射后的FBank特征和降噪后的FBank特征分别输入到识别模块中进行升维；

S603、将升维后的特征再降维为原始维度进行降维；

S604、将经过降维后的特征通过Conv2d层进行卷积操作，将经过卷积操作后的特征输入到下一个识别模块；

S605、直到通过所有的识别模块，将最后一个识别模块输出的FBank特征与音素类别建立对应关系，获得音素序列的预测结果。

在本实施例中，将输入特征映射到识别网络的输入维度，将映射后的FBank特征和降噪后的FBank特征分别输入到识别模块中进行升维。在这里，升维是为了提取更丰富的特征表示，这有助于网络更好地捕获语音信号的复杂性和变化。将升维后的特征再降维为原始维度，以减少计算复杂性并保留主要的特征信息。这种降维有助于提高计算效率，并确保模型能够更好地处理输入数据，将经过降维后的FBank特征通过Conv2d层（2DConvolutional Layer，卷积神经网络 (Convolutional Neural Network, CNN) 中常用的层之一）进行卷积操作。卷积操作有助于捕获特征之间的空间关系，从而提高模型的表现。重复以上步骤，直到通过所有的识别模块。最后一个识别模块的输出FBank特征与音素类别建立对应关系，获得音素序列的预测结果。另外，在语音识别网络中，通过设置第三目标函数进行识别训练，可采用ctc（Connectionist Temporal Classification）或者transducer（Sequence Transduction，处理序列转导任务的深度学习模型）等语音识别任务目标函数。本实施例将降噪前和降噪后的FBank特征融合在一起，充分利用了降噪网络的输出和原始特征，有助于提高识别性能，且降噪网络和识别网络具有相似的结构，有助于共享一些网络层和权重，提高了模型的推理效率和参数利用率，且这种结构设计非常灵活，可以根据任务需求和数据集的性质来调整网络的层数和维度，使其适应不同的识别任务。通过卷积操作和升维降维，可以实现多尺度的特征提取，有助于捕获不同时间尺度下的语音信息，提高了识别的鲁棒性。总之，这个实施例中的步骤结合了降噪网络和语音识别网络的特点，以提高语音识别性能和效率。它允许网络在不同层次和尺度上提取和整合特征，以更好地理解和识别输入的语音信号。这种设计有助于应对复杂的语音识别任务，提高了模型的性能和泛化能力。

参照图2，是本申请一实施例中宠物状态监测装置结构框图，装置包括：

第一变换模块100，用于对输入的带噪音频进行傅里叶变换，得到实部和虚部的频域特征；

第二变换模块200，用于对所述频域特征进行变换，得到FBank特征；

降噪模块300，用于输入FBank特征到降噪网络中，通过网络的前向传播过程得到降噪输出结果，即频谱的实部和虚部的复数掩码；

训练模块400，用于基于目标函数对所述降噪输出结果进行训练，输出实部和虚部的降噪后的复数掩码；

降噪转化模块500，用于通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后FBank特征；

语音识别模块600，用于将所述FBank特征和所述降噪后FBank特征输入到语音识别网络，计算音素序列。

在一个实施例中，上述第一变换模块100，包括：

加窗单元，用于从输入音频中进行采样，并对采样得到的信号进行加窗处理；

信号转换单元，用于对加窗后的信号进行傅里叶变换，将时域信号转换为频域信号；

信号提取单元，用于对所述频域信号进行提取，得到实部和虚部的频域特征。

在一个实施例中，上述第二变换模块200，包括

频率映射单元，用于将所述频域特征映射到Mel频率上，得到Mel频谱；

能量获取单元，用于使用滤波器对所述Mel频谱进行滤波，得到每个滤波器通道的能量；

对数运算单元，用于对滤波器通道的能量进行对数运算，得到FBank特征。

在一实施例中，上述降噪模块300，包括：

维度输入单元，用于通过FBank特征经过一层线性映射，将FBank特征的维度映射为降噪网络的输入维度，输入至所述降噪网络中；

第一升维单元，用于将FBank特征进行升维到hdim；

第一降维单元，用于将升维后的特征降维为pdim；

汇总单元，用于通过一个注意力操作，使用注意力矩阵对当前时刻及历史共窗口长度的特征进行加权汇总；

第一卷积单元，用于通过二维卷积，对加权汇总后的FBank特征进行处理，得到降噪输出结果。

在一实施例中，上述训练模块400，包括：

目标函数定义单元，用于定义所述目标函数，其中所述第一目标函数使用 si-snr作为损失函数，第二目标函数使用掩码之间的均方误差作为损失函数；

第一降噪训练单元，用于针对所述降噪输出结果，通过所述第一目标函数进行训练，目标是最大化干净语音和降噪后音频之间的信噪比；

第二降噪训练单元，用于同时，通过第二目标函数进行训练，目标是最小化生成的掩码与真实掩码之间的均方误差；

掩码输出单元，用于在达到预设条件后，输出实部和虚部的降噪后的复数掩码。

在一实施例中，上述降噪转化模块500，包括：

降噪特征获取单元，用于将输入音频对应的所述频域特征与降噪后的复数掩码进行按元素相乘操作，得到降噪后的频域特征；

降噪变换单元，用于对所述降噪后的频域特征进行变换，得到所述降噪后的FBank特征。

在一实施例中，上述语音识别模块600，包括：

分别输入单元，用于对于每个输入的FBank特征和降噪后的FBank特征，将其分别输入到语音识别网络的第一层线性映射中；

第二升维单元，用于将映射后的FBank特征和降噪后的FBank特征分别输入到识别模块中进行升维；

第二降维单元，用于将升维后的特征再降维为原始维度进行降维；

第二卷积单元，用于将经过降维后的特征通过Conv2d层进行卷积操作，将经过卷积操作后的特征输入到下一个识别模块；

结果输出单元，用于直到通过所有的识别模块，将最后一个识别模块输出的FBank特征与音素类别建立对应关系，获得音素序列的预测结果。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储降噪识别联合网络的语音识别方法过程中的使用数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。进一步地，上述计算机设备还可以设置有输入装置和显示屏等。上述计算机程序被处理器执行时以实现降噪识别联合网络的语音识别方法，包括如下步骤：对输入的带噪音频进行傅里叶变换，得到实部和虚部的频域特征；对所述频域特征进行变换，得到FBank特征；将FBank特征经过线性映射后输入到降噪网络中，获取降噪输出结果，其中，所述降噪输出结果为包含实部和虚部的复数掩码；基于目标函数对所述降噪输出结果进行训练，输出降噪后的复数掩码；通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后FBank特征；将所述FBank特征和所述降噪后FBank特征输入到语音识别网络，计算音素序列。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种降噪识别联合网络的语音识别方法，包括如下步骤：对输入的带噪音频进行傅里叶变换，得到实部和虚部的频域特征；对所述频域特征进行变换，得到FBank特征；将FBank特征经过线性映射后输入到降噪网络中，获取降噪输出结果，其中，所述降噪输出结果为包含实部和虚部的复数掩码；基于目标函数对所述降噪输出结果进行训练，输出降噪后的复数掩码；通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后FBank特征；将所述FBank特征和所述降噪后FBank特征输入到语音识别网络，计算音素序列。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种降噪识别联合网络的语音识别方法，其特征在于，所述方法包括：

对所述频域特征进行变换，得到FBank特征；

将所述FBank特征和所述降噪后FBank特征输入到语音识别网络，计算音素序列；

所述目标函数包括第一目标函数和第二目标函数，所述基于目标函数对所述降噪输出结果进行训练，输出实部和虚部的降噪后的复数掩码的步骤，包括：

在达到预设条件后，输出实部和虚部的降噪后的复数掩码。

2.根据权利要求1所述的降噪识别联合网络的语音识别方法，其特征在于，所述对输入的带噪音频进行傅里叶变换，得到实部和虚部的频域特征的步骤，包括：

对所述频域信号进行提取，得到实部和虚部的频域特征。

3.根据权利要求1所述的降噪识别联合网络的语音识别方法，其特征在于，所述对所述频域特征进行变换，得到FBank特征的步骤，包括：

将所述频域特征映射到Mel频率上，得到Mel频谱；

对滤波器通道的能量进行对数运算，得到FBank特征。

4.根据权利要求1所述的降噪识别联合网络的语音识别方法，其特征在于，所述将FBank特征经过线性映射后输入到降噪网络中，获取降噪输出结果的步骤，包括：

将FBank特征进行升维到hdim；

将升维后的特征降维为pdim；

5.根据权利要求1所述的降噪识别联合网络的语音识别方法，其特征在于，所述通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后FBank特征的步骤，包括：

6.根据权利要求1所述的降噪识别联合网络的语音识别方法，其特征在于，所述将所述FBank特征和所述降噪后FBank特征输入到语音识别网络，计算音素序列的步骤，包括：

将升维后的特征再降维为原始维度进行降维；

7.一种降噪识别联合网络的语音识别装置，用于执行权利要求1-6中任意一项所述的方法，其特征在于，包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6 中任一项所述方法的步骤。