CN103632677B

CN103632677B - 带噪语音信号处理方法、装置及服务器

Info

Publication number: CN103632677B
Application number: CN201310616654.2A
Authority: CN
Inventors: 陈国明; 彭远疆; 莫贤志
Original assignee: Tencent Technology Chengdu Co Ltd
Current assignee: Tencent Technology Chengdu Co Ltd
Priority date: 2013-11-27
Filing date: 2013-11-27
Publication date: 2016-09-28
Anticipated expiration: 2033-11-27
Also published as: US20160379662A1; CN103632677A; US9978391B2; WO2015078268A1

Abstract

本发明公开了一种带噪语音信号处理方法、装置及服务器，属于通信技术领域。所述方法包括：根据带噪语音信号的静默段，获取该带噪语音信号中噪声信号；对于语音信号中的每一帧，根据该噪声信号和该带噪语音信号，获取该语音信号的每一帧的功率谱迭代因子；根据该带噪语音信号、该噪声信号的每一帧和上一帧的功率谱迭代因子，计算语音信号每一帧的中间功率谱；根据该语音信号每一帧的中间功率谱和噪声信号，计算该带噪语音信号中每一帧的信噪比；根据该带噪语音信号中每一帧的信噪比、该带噪语音信号和该噪声信号的每一帧，获取时域的处理后带噪语音信号。本发明通过功率谱迭代因子对带噪语音信号进行处理，提高了用户的听觉质量。

Description

带噪语音信号处理方法、装置及服务器

技术领域

本发明涉及通信技术领域，特别涉及一种带噪语音信号处理方法、装置及服务器。

背景技术

现实生活中的语音不可避免地要受到周围环境噪声的影响，为了改善听觉质量，需要对语音信号进行去噪处理。

在进行去噪处理时，通常采用基于短时幅度谱估计的算法，即在频域内，利用原始语音信号的功率谱和噪声信号的功率谱得到语音信号的功率谱，并根据语音信号的功率谱计算得到语音信号的幅度谱，通过傅里叶反变换得到时域的语音信号。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

对于信号的功率谱估计，通常的做法是采用固定迭代因子的迭代算法，该算法往往对于白噪声有效，不能及时跟踪语音或者噪声的变化，因此遇到有色噪声时性能急剧下降。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种带噪语音信号处理方法、装置及服务器。所述技术方案如下：

第一方面，提供了一种带噪语音信号处理方法，所述方法包括：

根据带噪语音信号的静默段，获取所述带噪语音信号中噪声信号，所述带噪语音信号包括语音信号和噪声信号，所述带噪语音信号为频域信号；

对于所述语音信号中的每一帧，根据所述噪声信号和所述带噪语音信号，获取所述语音信号的每一帧的功率谱迭代因子；

对于所述语音信号中的每一帧，根据所述带噪语音信号、所述噪声信号的上一帧和每一帧语音信号的功率谱迭代因子，计算语音信号每一帧的中间功率谱；

根据所述语音信号每一帧的中间功率谱和噪声信号，计算所述带噪语音信号中每一帧的信噪比；

根据所述带噪语音信号中每一帧的信噪比、所述带噪语音信号和所述噪声信号的每一帧，获取时域的处理后带噪语音信号；

其中，所述根据所述带噪语音信号中每一帧的信噪比、所述带噪语音信号和所述噪声信号的每一帧，获取时域的处理后带噪语音信号包括：

根据所述带噪语音信号的第m帧的信噪比、所述带噪语音信号和所述噪声信号的第m帧以及所述噪声信号的第m帧的掩蔽阈值，计算所述带噪语音信号的第m帧的修正因子；

根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧的修正因子，计算所述带噪语音信号的第m帧的传递函数；

根据所述带噪语音信号的第m帧的传递函数、所述带噪语音信号的第m帧的幅度谱，计算处理后带噪语音信号的第m帧的幅度谱；

以所述带噪语音信号的相位作为处理后带噪语音信号的相位，基于处理后带噪语音信号的第m帧的幅度谱进行傅里叶反变换，得到时域的处理后带噪语音信号的第m帧。

第二方面，提供了一种带噪语音信号处理装置，所述装置包括：

噪声信号获取模块，用于根据带噪语音信号的静默段，获取所述带噪语音信号中噪声信号，所述带噪语音信号包括语音信号和噪声信号，所述带噪语音信号为频域信号；

功率谱迭代因子获取模块，用于对于所述语音信号中的每一帧，根据所述噪声信号和所述带噪语音信号，获取所述语音信号的每一帧的功率谱迭代因子；

语音信号中间功率谱获取模块，用于对于所述语音信号中的每一帧，根据所述带噪语音信号、所述噪声信号的上一帧和每一帧语音信号的功率谱迭代因子，计算语音信号每一帧的中间功率谱；

信噪比获取模块，用于根据所述语音信号每一帧的中间功率谱和噪声信号，计算所述带噪语音信号中每一帧的信噪比；

带噪语音信号处理模块，用于根据所述带噪语音信号中每一帧的信噪比、所述带噪语音信号和所述噪声信号的每一帧，获取时域的处理后带噪语音信号；

其中，所述带噪语音信号处理模块包括：

修正因子获取单元，用于根据所述带噪语音信号的第m帧的信噪比、所述带噪语音信号和所述噪声信号的第m帧以及所述噪声信号的第m帧的掩蔽阈值，计算所述带噪语音信号的第m帧的修正因子；

传递函数获取单元，用于根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧的修正因子，计算所述带噪语音信号的第m帧的传递函数；

幅度谱获取单元，用于根据所述带噪语音信号的第m帧的传递函数、所述带噪语音信号的第m帧的幅度谱，计算处理后带噪语音信号的第m帧的幅度谱；

带噪语音信号处理单元，用于以所述带噪语音信号的相位作为处理后带噪语音信号的相位，基于处理后带噪语音信号的第m帧的幅度谱进行傅里叶反变换，得到时域的处理后带噪语音信号的第m帧。

第三方面，提供了一种服务器，所述服务器包括：处理器和存储器，所述处理器与所述存储器相连接，

所述处理器，用于根据带噪语音信号的静默段，获取所述带噪语音信号中噪声信号，所述带噪语音信号包括语音信号和噪声信号，所述带噪语音信号为频域信号；

所述处理器还用于对于所述语音信号中的每一帧，根据所述噪声信号和所述带噪语音信号，获取所述语音信号的每一帧的功率谱迭代因子；

所述处理器还用于对于所述语音信号中的每一帧，根据所述带噪语音信号、所述噪声信号的上一帧和每一帧语音信号的功率谱迭代因子，计算语音信号每一帧的中间功率谱；

所述处理器还用于根据所述语音信号每一帧的中间功率谱和噪声信号，计算所述带噪语音信号中每一帧的信噪比；

所述处理器还用于根据所述带噪语音信号中每一帧的信噪比、所述带噪语音信号和所述噪声信号的每一帧，获取时域的处理后带噪语音信号；

所述处理器具体用于：根据所述带噪语音信号的第m帧的信噪比、所述带噪语音信号和所述噪声信号的第m帧以及所述噪声信号的第m帧的掩蔽阈值，计算所述带噪语音信号的第m帧的修正因子；根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧的修正因子，计算所述带噪语音信号的第m帧的传递函数；根据所述带噪语音信号的第m帧的传递函数、所述带噪语音信号的第m帧的幅度谱，计算处理后带噪语音信号的第m帧的幅度谱；以所述带噪语音信号的相位作为处理后带噪语音信号的相位，基于处理后带噪语音信号的第m帧的幅度谱进行傅里叶反变换，得到时域的处理后带噪语音信号的第m帧。

本发明实施例提供的技术方案带来的有益效果是：

通过带噪语音信号和噪声信号确定功率谱迭代因子，基于功率谱迭代因子得到语音信号的中间功率谱，服务器能够通过功率谱迭代因子对带噪语音信号进行跟踪，使得每一帧带噪语音信号在相减前后频谱误差减小，从而提高增强后的语音信号信噪比，大大减少了语音信号中夹杂的噪声，提高了用户的听觉质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种带噪语音信号处理方法流程图；

图2是本发明实施例提供的一种带噪语音信号处理方法流程图；

图3是本发明实施例提供的一种语音信号流转示意图；

图4是本发明实施例提供的一种带噪语音信号处理装置结构示意图；

图5是本发明实施例提供的一种服务器结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种带噪语音信号处理方法流程图。参见图1，该实施例的执行主体为服务器，该方法包括：

101、根据带噪语音信号的静默段，获取该带噪语音信号中噪声信号，该带噪语音信号包括语音信号和噪声信号，该带噪语音信号为频域信号。

102、对于该语音信号中的每一帧，根据该噪声信号和该带噪语音信号，获取该语音信号的每一帧的功率谱迭代因子。

103、对于该语音信号中的每一帧，根据该带噪语音信号、该噪声信号的上一帧和每一帧语音信号的功率谱迭代因子，计算语音信号每一帧的中间功率谱。

104、根据该语音信号每一帧的中间功率谱和噪声信号，计算该带噪语音信号中每一帧的信噪比。

105、根据该带噪语音信号中每一帧的信噪比、该带噪语音信号和该噪声信号的每一帧，获取时域的处理后带噪语音信号。

本发明实施例提供的方法，通过带噪语音信号和噪声信号确定功率谱迭代因子，基于功率谱迭代因子得到语音信号的中间功率谱，服务器能够通过功率谱迭代因子对带噪语音信号进行跟踪，使得每一帧带噪语音信号在相减前后频谱误差减小，从而提高增强后的语音信号信噪比，大大减少了语音信号中夹杂的噪声，提高了用户的听觉质量。

图2是本发明实施例提供的一种带噪语音信号处理方法流程图。参见图2，该实施例的执行主体为服务器，该方法流程包括：

201、服务器根据带噪语音信号的静默段，获取该带噪语音信号中噪声信号，该带噪语音信号包括语音信号和噪声信号，该带噪语音信号为频域信号。

在现实生活中，语音不可避免的会受到周围环境噪声的影响，因此原始语音信号中不仅包括语音信号，还包括了噪声信号，该原始语音信号为时域信号。该原始语音信号可以表示为y(m,n)＝x(m,n)+d(m,n)，其中，m为帧号，且m＝1,2,3，…，n＝0,1,2，…，N-1，N为帧长，x(m,n)为时域的语音信号，d(m,n)为时域的噪声信号。该服务器将该原始语音信号进行傅里叶变换，将该原始语音信号变换为频域信号，得到带噪语音信号，该带噪语音信号可以表示为Y(m,k)＝X(m,k)+D(m,k)，其中，m为帧号，k为离散频率,X(m,k)为频域的语音信号，D(m,k)为频域的噪声信号。

该服务器用于对语音信号进行去噪处理，该服务器可以为即时通信应用的服务器、会议服务器等。

由于带噪语音信号中带有噪声信号，为了降低噪声信号对语音信号的影响，需要对带噪语音信号中噪声信号进行检测。步骤201具体为：服务器根据预设检测算法对带噪语音信号的静默段进行检测，得到带噪语音信号的静默段，服务器得到带噪语音信号的静默段之后，可以将该带噪语音信号静默段对应的帧确定噪声信号。其中，静默段是指带噪语音信号中语音信号有停顿的时间段。

其中，预设检测算法可以由技术人员在开发时设置，也可以由用户在使用的过程中调整，本发明实施例对此不做限定。该预设检测算法具体可以为语音活动检测算法等。

202、对于该语音信号中的第m帧，服务器根据该噪声信号和该带噪语音信号的第m-1帧，计算该语音信号的第m帧的方差

具体地，对于该语音信号中的第m帧，服务器将该噪声信号的第m-1帧D(m-1,k)的期望E{|D(m-1,k)|²}和该带噪语音信号的第m-1帧Y(m-1,k)的期望E{|Y(m-1,k)|²}，代入公式中，得到该语音信号的第m帧的方差

203、服务器根据该语音信号的第m-1帧的功率谱和该语音信号的第m帧的方差获取该语音信号的第m帧的功率谱迭代因子α(m,n)。

由于每一帧带噪语音信号之间是相关的，如果不对语音信号进行跟踪并处理，那么就会在带噪语音信号与噪声信号进行相减前后的带噪语音信号的频谱上产生误差，形成音乐噪声，为了能够较好的对语音信号进行跟踪，可以设定一个随每一帧语音信号变化而变化的参量，即功率谱迭代因子α(m,n)。

具体地，服务器将该语音信号的第m-1帧的功率谱和该语音信号的第m帧的方差代入公式中，得到该语音信号的第m帧的功率谱迭代因子α(m,n)。其中，α(m,n)_opt为最小均方条件下α(m,n)的最优取值，且其中，m为语音信号的帧数，n＝0,1,2,3…，N-1，N为帧长，为该语音信号的第m-1帧的功率谱，其中，当m＝1时，为该语音信号的功率谱预设初值，λ_min为该语音信号的功率谱最小值。

例如，以第1帧语音信号为例，即m＝1，功率谱迭代因子为α(1,n)，语音信号功率的预设初值为当m＝1时，服务器根据步骤202计算得到第1帧语音信号的方差服务器将该预设初值和第1帧语音信号的方差代入公式中，得到α(1,n)_opt，并判断α(1,n)_opt与1和0的大小关系，从而确定功率谱迭代因子α(1,n)的取值。

对于信号的功率谱估计，通常的做法是采用固定迭代因子的迭代算法，该算法往往对于白噪声有效，遇到有色噪声时性能急剧下降，究其原因在于不能及时跟踪语音或者噪声的变化。在本发明实施例中通过采用最小均方准则对语音进行跟踪，能够更准确的估计信号的功率谱。

204、对于该语音信号中的每一帧，服务器根据该带噪语音信号、该噪声信号的上一帧和每一帧语音信号的功率谱迭代因子，计算语音信号每一帧的中间功率谱。

其中，语音信号的中间功率谱是根据一般信号的功率谱的迭代平均公式而得到。其中，α为常数，且0≤α≤1。由于每一帧带噪语音信号之间的相关性，以及为了能够较好的对语音信号进行跟踪，可以将常数α替换为随每一帧语音信号而变化的参量，即功率谱迭代因子α(m,n)，则语音信号的第m帧的中间功率谱即为

{\hat{λ}}_{X_{m | m - 1}} = \max {(1 - α (m, n)) {\hat{λ}}_{X_{m - 1 | m - 1}} + α (m, n) A_{m - 1}^{2}, λ_{\min}} .

具体地，服务器根据该带噪语音信号、该噪声信号的第m-1帧，利用公式得到第m-1帧语音信号的功率谱，对于第m-1帧语音信号，服务器根据该帧语音信号的功率谱、该功率谱迭代因子和语音信号功率的预设初值，利用公式得到该第m帧语音信号的中间功率谱。其中，为第m帧语音信号的中间功率谱，A_m-1为第m-1帧语音信号的幅度谱，且λ_min为语音信号的功率谱最小值。

205、服务器根据该语音信号每一帧的中间功率谱和噪声信号，计算该带噪语音信号中每一帧的信噪比。

具体地，服务器根据该噪声信号的第m-1帧和该语音信号的第m帧的中间功率谱，利用公式得到该带噪语音信号的第m帧的中间信噪比，其中，为该带噪语音信号的第m帧的中间信噪比，为该噪声信号的第m-1帧的功率谱，且服务器根据该带噪语音信号的第m帧的中间信噪比，利用公式得到该带噪语音信号的第m帧的信噪比，其中，为该带噪语音信号的第m帧的信噪比。

需要说明的是，上述步骤201～205为：当服务器根据语音信号功率谱的预设初值，得到第1帧语音信号的功率谱迭代因子后，进一步得到第1帧带噪语音信号的信噪比的过程，服务器完成上述过程后，服务器根据第1帧带噪语音信号的信噪比，利用公式得到第1帧带噪语音信号的功率谱，服务器将该第1帧带噪语音信号的功率谱代入功率谱迭代因子表达式中，计算第2帧语音信号的功率谱迭代因子，并执行步骤202～205的过程。进一步地，对于该语音信号的第m帧，根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧，计算该语音信号的第m帧的功率谱；基于该语音信号的第m帧的功率谱，计算该语音信号的第m+1帧的功率谱迭代因子，服务器进行如上述迭代运算得到每一帧带噪语音信号的信噪比。

206、服务器根据该带噪语音信号和该噪声信号的第m帧，计算该噪声信号的第m帧的掩蔽阈值。

具体地，服务器根据带噪语音信号Y(m,k)＝X(m,k)+D(m,k)的实部Re(ω)与虚部Im(ω)，计算该带噪语音信号的功率谱密度P(ω)＝Re²(ω)+Im²(ω)，根据该带噪语音信号的功率谱密度P(ω)，获取第一掩蔽阈值根据该第一掩蔽阈值和绝对听阈，得到该噪声信号的第m帧T′(m,k′)＝max(T(k′),T_abx(k′))。其中，C(k′)＝B(k′)*SF(k′)， B(k′)表示各个临界频带的能量，bl_i和bh_i分别表示临界频带i的上限和下限，k′为临界频带序号，且与采样率有关，

O(k′)＝α_SFM×(14.5+k′)+(1-α_SFM)×5.5，为谱平坦测度，Gm是功率谱密度的几何平均值，Am是功率谱密度的算术平均值，为音调系数，T_abx(k′)＝3.64f^-0.8-6.5exp(f-3.3)²+10^-3f⁴为绝对听阈，f为带噪语音信号的采样频率。

如果得到的该噪声信号的第m帧的第一掩蔽阈值小于人耳的绝对听阈，将该第一掩蔽阈值确定为该噪声信号的第m帧掩蔽阈值就没有实际意义了，因此，对于该第一掩蔽阈值小于绝对听阈时，需要将该绝对听阈确定为该噪声信号的第m帧掩蔽阈值，则该噪声信号的第m帧的掩蔽阈值表示为T′(m,k′)＝max(T(k′),T_abx(k′))。

207、服务器根据该带噪语音信号的第m帧的信噪比、该带噪语音信号和该噪声信号的第m帧以及该噪声信号的第m帧的掩蔽阈值，利用不等式得到该带噪语音信号的第m帧的修正因子μ(m,k)。

具体地，服务器根据噪声信号，利用公式得到每一帧噪声信号的方差，服务器根据得到的每一帧语音信号的方差、每一帧噪声信号的方差、掩蔽阈值和每一帧带噪语音信号的信噪比，利用不等式得到修正因子μ(m,k)的取值范围。其中，为带噪语音信号的第m帧的信噪比，为该语音信号的第m帧的方差，为该噪声信号的第m帧的方差，T′(m,k′)为该噪声信号的第m帧的掩蔽阈值。

其中，该修正因子由该带噪语音信号的第m帧的信噪比、该带噪语音信号和该噪声信号的第m帧以及该噪声信号的第m帧的掩蔽阈值确定，该修正因子可以根据具体情况，通过该修正因子动态的改变传递函数的形态，达到对语音畸变和残留噪声信号两种情况下的最佳折中处理，改善用户的听觉质量。

需要说明的是，该步骤207得到的是修正因子的取值范围，当需要该修正因子进行后续步骤208的计算时，服务器会根据该修正因子的取值范围，确定该修正因子的具体取值，优选地，服务器将该修正因子的取值范围中的最大值作为该修正因子的具体取值，当然，该修正因子在进行具体取值时，也可以选取除该取值范围内最大值以外的其它数值，作为该修正因子的具体取值，本发明实施例对此不做限定。

进一步地，当带噪语音信号与噪声信号进行频谱相减产生具有一定信号变化的音乐噪声时，通过掩蔽阈值，确定修正因子，该修正因子可以动态的改变传递函数的形状，以达到对语音畸变和残留噪声两种情况下的最佳折中，进一步改善了用户的听觉质量。

208、服务器根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧的修正因子，计算该带噪语音信号的第m帧的传递函数。

具体地，根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧的修正因子，利用公式得到该带噪语音信号的第m帧的传递函数其中，为该带噪语音信号的第m帧的信噪比。

209、服务器根据该带噪语音信号的第m帧的传递函数、该带噪语音信号的第m帧的幅度谱，计算处理后带噪语音信号的第m帧的幅度谱。

具体地，服务器根据带噪语音信号，得到带噪语音信号的第m帧的幅度谱，服务器将带噪语音信号的第m帧的幅度谱和对应的传递函数，利用公式得到处理后带噪语音信号的第m帧的幅度谱其中，为带噪语音信号的第m帧的幅度谱。

210、服务器以该带噪语音信号的相位作为处理后带噪语音信号的相位，基于处理后带噪语音信号的第m帧的幅度谱进行傅里叶反变换，得到时域的处理后带噪语音信号的第m帧。

具体地，服务器获取带噪语音信号的相位，服务器将该相位作为处理后带噪语音信号的相位，并根据得到的处理后带噪语音信号的第m帧的幅度谱，得到频域的处理后带噪语音信号的第m帧，服务器将该频域的处理后带噪语音信号的第m帧进行傅里叶反变换，得到时域的处理后带噪语音信号的第m帧。

以第m帧带噪语音信号为例，服务器获取带噪语音信号的相位服务器根据步骤209得到第m帧语音信号的幅度谱为则第m帧频域的处理后带噪语音信号为服务器对该第m帧频域的处理后带噪语音信号进行傅里叶反变换，得到第m帧时域的处理后带噪语音信号，以上述方法进行迭代计算，可以得到每一帧时域的处理后带噪语音信号。

需要说明的是，上述步骤202～210是根据带噪语音信号的第m-1帧、噪声信号的第m-1帧，获取语音信号的第m帧的功率谱迭代因子，进一步得到语音信号的第m帧的中间功率谱，得到带噪语音信号的第m帧的信噪比，并根据掩蔽阈值取定带噪语音信号的第m帧的修正因子，从而获取时域的处理后带噪语音信号的第m帧，在得到时域的处理后带噪语音信号的第m帧后，服务器继续根据上述步骤202～210的过程进行迭代计算，得到每一帧时域的处理后带噪语音信号。

为了使上述步骤201～210的过程更清晰明了，图3是本发明实施例提供的一种语音信号流转示意图。参见图3，接收到的原始语音信号为y(m,n)＝x(m,n)+d(m,n)，该原始语音信号经过傅里叶变换得到带噪语音信号，根据语音信号的功率谱预设初值，得到每一帧语音信号的功率谱迭代因子，根据该每一帧语音信号的功率谱迭代因子，得到每一帧语音信号的中间功率谱，进一步得到每一帧带噪语音信号的信噪比，服务器根据得到的每一帧带噪语音信号的信噪比和修正因子，计算传递函数，根据该传递函数和带噪语音信号的幅度谱，得到处理后带噪语音信号的幅度谱，服务器进行相位恢复，也即是以带噪语音信号的相位作为处理后带噪语音信号的相位，基于处理后带噪语音信号的幅度谱进行傅里叶反变换，得到时域的处理后带噪语音信号。

下面对步骤203中，在最小均方条件下迭代因子的推导过程进行说明：

由于带噪语音信号的每一帧之间是相关的，如果得到的语音功率谱不能及时的跟踪语音的变化，则该语音信号会在频谱上产生误差，因此而导致音乐噪声。为了对语音信号每一帧的能量进行很好的跟踪，可以利用最小均方条件来对语音信号进行处理，具体过程如下：

可以令

\begin{matrix} J (α (m, n)) = E {{({\hat{λ}}_{X_{m | m - 1}} - σ_{s}^{2})}^{2} | {\hat{λ}}_{X_{m - 1 | m - 1}}} = E {{((1 - α (m, n)) {\hat{λ}}_{X_{m | m - 1}} + α (m, n) A_{m - 1}^{2} - σ_{s}^{2})}^{2}} \\ = E {{[(1 - α (m, n)) {\hat{λ}}_{X_{m | m - 1}}]}^{2} + {[α (m, n) A_{m - 1}^{2}]}^{2} + σ_{s}^{4} + 2 α (m, n) (1 - α (m, n)) A_{m - 1}^{2} {\hat{λ}}_{X_{m | m - 1}} \\ - 2 σ_{s}^{2} (1 - α (m, n)) {\hat{λ}}_{X_{m | m - 1}} - 2 σ_{s}^{2} α (m, n) A_{m - 1}^{2}} \end{matrix}

上式对α(m,n)求一阶偏导数，并令该一阶偏导数为0，即得到

α {(m, n)}_{o p t} = \frac{{\hat{λ}}_{X_{m - 1 | m - 1}}^{2} - {\hat{λ}}_{X_{m - 1 | m - 1}} (E {A_{m - 1}^{2}} + σ_{s}^{2}) + σ_{s}^{2} E {A_{m - 1}^{2}}}{{\hat{λ}}_{X_{m - 1 | m - 1}}^{2} - 2 E {A_{m - 1}^{2}} {\hat{λ}}_{X_{m - 1 | m - 1}} + E {A_{m - 1}^{4}}}

如果幅度A服从标准高斯分布则

α {(m, n)}_{o p t} = \frac{{({\hat{λ}}_{X_{m - 1 | m - 1}} - σ_{s}^{2})}^{2}}{{\hat{λ}}_{X_{m - 1 | m - 1}}^{2} - 2 σ_{s}^{2} {\hat{λ}}_{X_{m - 1 | m - 1}} + 3 σ_{s}^{4}}

则最小均方条件下，功率谱迭代因子即为：

α (m, n) = \{\begin{matrix} 0 & α {(m, n)}_{o p t} \leq 0 \\ α {(m, n)}_{o p t} & 0 < α {(m, n)}_{o p t} < 1 \\ 1 & α {(m, n)}_{o p t} &GreaterEqual; 1 \end{matrix} .

下面对步骤207中，修正因子所满足的不等式推导过程进行说明：

如果以表示处理后带噪语音信号的幅度谱，由于人耳对频域带噪语音信号中幅度谱的变化相比于相位更敏感，定义如下误差函数：

δ (m, k) = X^{2} (m, k) - {\hat{X}}^{2} (m, k),

根据人耳可听闻域的要求，令：

E[|δ(m,k)|]≤T′(m,k)，即令畸变噪声信号的能量在掩蔽阈值以下，而不被人耳感知。为了推导方便，令则有

\begin{matrix} E {| δ (m, k) |} = E {| X^{2} (m, k) - {\hat{X}}^{2} (m, k) |} = E {| X^{2} (m, k) - M^{2} Y^{2} (m, k) |} \\ = E {| X^{2} (m, k) - M^{2} {(X (m, k) + D (m, k))}^{2} |} \\ = | E {X^{2} (m, k)} - M^{2} E {(X (m, k) + D (m, k))}^{2}} | \\ = | E {X^{2} (m, k)} - M^{2} (E {X^{2} (m, k)} + E {D^{2} (m, k)}) | \\ \leq T^{'} (m, k^{'}) \end{matrix}

由于则上式可写为：

σ_{s}^{2} - T^{'} (m, k^{'}) \leq | M^{2} (σ_{s}^{2} + σ_{d}^{2}) | \leq σ_{s}^{2} + T^{'} (m, k^{'}) .

当时，即语音信号功率小于掩蔽阈值时，μ(m,k)＝1；当时，即语音信号功率大于掩蔽阈值时，由于M＞0，所以，可以看出不等号两边相当于在维纳滤波的基础上做了修正。

令化简上述不等式，得到即

\frac{{\hat{ξ}}_{m | m} \sqrt{σ_{s}^{2} + σ_{d}^{2}}}{\sqrt{σ_{s}^{2} + T^{'} (m, k^{'})}} - {\hat{ξ}}_{m | m} \leq μ (m, k) \leq \frac{{\hat{ξ}}_{m | m} \sqrt{σ_{s}^{2} + σ_{d}^{2}}}{\sqrt{σ_{s}^{2} - T^{'} (m, k^{'})}} - {\hat{ξ}}_{m | m} .

本发明实施例提供的方法，通过带噪语音信号和噪声信号确定功率谱迭代因子，基于功率谱迭代因子得到语音信号的中间功率谱，服务器能够通过功率谱迭代因子对带噪语音信号进行跟踪，使得每一帧带噪语音信号在相减前后频谱误差减小，从而提高增强后的语音信号信噪比，大大减少了语音信号中夹杂的噪声，提高了用户的听觉质量。进一步地，当带噪语音信号与噪声信号进行频谱相减产生具有一定信号变化的音乐噪声时，通过掩蔽阈值，确定修正因子，该修正因子可以动态的改变传递函数的形状，以达到对语音畸变和残留噪声两种情况下的最佳折中，进一步改善了用户的听觉质量。

图4是本发明实施例提供的一种带噪语音信号处理装置结构示意图。参见图4，该装置包括：噪声信号获取模块401、功率谱迭代因子获取模块402、语音信号中间功率谱获取模块403、信噪比获取模块404、带噪语音信号处理模块405。其中，噪声信号获取模块401，用于根据带噪语音信号的静默段，获取该带噪语音信号中噪声信号，该带噪语音信号包括语音信号和噪声信号，该带噪语音信号为频域信号；噪声信号获取模块401与功率谱迭代因子获取模块402相连接，功率谱迭代因子获取模块402，用于对于该语音信号中的每一帧，根据该噪声信号和该带噪语音信号，获取该语音信号的每一帧的功率谱迭代因子；功率谱迭代因子获取模块402与语音信号中间功率谱获取模块403相连接，语音信号中间功率谱获取模块403，用于对于该语音信号中的每一帧，根据该带噪语音信号、该噪声信号的上一帧和每一帧语音信号的功率谱迭代因子，计算语音信号每一帧的中间功率谱；语音信号中间功率谱获取模块403与信噪比获取模块404相连接，信噪比获取模块404，用于根据该语音信号每一帧的中间功率谱和噪声信号，计算该带噪语音信号中每一帧的信噪比；信噪比获取模块404与带噪语音信号处理模块405相连接，带噪语音信号处理模块405，用于根据该带噪语音信号中每一帧的信噪比、该带噪语音信号和该噪声信号的每一帧，获取时域的处理后带噪语音信号。

可选地，该功率谱迭代因子获取模块402还用于对于该语音信号中的第m帧，根据该噪声信号和该带噪语音信号的第m-1帧，计算该语音信号的第m帧的方差该语音信号的第m帧的方差根据该语音信号的第m-1帧的功率谱和该语音信号的第m帧的方差获取该语音信号的第m帧的功率谱迭代因子α(m,n)，该语音信号的第m帧的功率谱迭代因子其中，α(m,n)_opt为最小均方条件下α(m,n)的最优取值，且其中，m为语音信号的帧数，n＝0,1,2,3…，N-1，N为帧长，为该语音信号的第m-1帧的功率谱，其中，当m＝1时，为该语音信号的功率谱预设初值，λ_min为该语音信号的功率谱最小值。

可选地，该语音信号中间功率谱获取模块403还用于根据该带噪语音信号、该噪声信号的第m-1帧和该语音信号的第m帧的功率谱迭代因子，利用公式得到该语音信号的第m帧的中间功率谱，为该语音信号的第m帧的中间功率谱，A_m-1为该语音信号的第m-1帧的幅度谱，且λ_min为该语音信号的功率谱最小值。

可选地，该带噪语音信号处理模块405包括：

修正因子获取单元，用于根据该带噪语音信号的第m帧的信噪比、该带噪语音信号和该噪声信号的第m帧以及该噪声信号的第m帧的掩蔽阈值，计算该带噪语音信号的第m帧的修正因子；

传递函数获取单元，用于根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧的修正因子，计算该带噪语音信号的第m帧的传递函数；

幅度谱获取单元，用于根据该带噪语音信号的第m帧的传递函数、该带噪语音信号的第m帧的幅度谱，计算处理后带噪语音信号的第m帧的幅度谱；

带噪语音信号处理单元，用于以该带噪语音信号的相位作为处理后带噪语音信号的相位，基于处理后带噪语音信号的第m帧的幅度谱进行傅里叶反变换，得到时域的处理后带噪语音信号的第m帧。

可选地，该修正因子获取单元还用于根据该带噪语音信号和该噪声信号的第m帧，计算该噪声信号的第m帧的掩蔽阈值；根据该带噪语音信号的第m帧的信噪比、该带噪语音信号和该噪声信号的第m帧以及该噪声信号的第m帧的掩蔽阈值，利用不等式得到该带噪语音信号的第m帧的修正因子μ(m,k)，其中，为带噪语音信号的第m帧的信噪比，为该语音信号的第m帧的方差，为该噪声信号的第m帧的方差，T′(m,k′)为该噪声信号的第m帧的掩蔽阈值，k′为临界频带序号，k为离散频率。

可选地，该传递函数获取单元还用于根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧的修正因子，利用公式得到该带噪语音信号的第m帧的传递函数其中，为该带噪语音信号的第m帧的信噪比。

可选地，该装置还包括：

语音信号功率谱获取模块，用于对于该语音信号的第m帧，根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧，计算该语音信号的第m帧的功率谱；

该功率谱迭代因子获取模块402还用于基于该语音信号的第m帧的功率谱，计算该语音信号的第m+1帧的功率谱迭代因子。

可选地，该信噪比获取模块404还用于根据该噪声信号的第m-1帧和该语音信号的第m帧的中间功率谱，利用公式得到该带噪语音信号的第m帧的中间信噪比，其中，为该带噪语音信号的第m帧的中间信噪比，为该噪声信号的第m-1帧的功率谱，且根据该带噪语音信号的第m帧的中间信噪比，利用公式得到该带噪语音信号的第m帧的信噪比，其中，为该带噪语音信号的第m帧的信噪比。

综上所述，本发明实施例提供的装置，通过带噪语音信号和噪声信号确定功率谱迭代因子，基于功率谱迭代因子得到语音信号的中间功率谱，服务器能够通过功率谱迭代因子对带噪语音信号进行跟踪，使得每一帧带噪语音信号在相减前后频谱误差减小，从而提高增强后的语音信号信噪比，大大减少了语音信号中夹杂的噪声，提高了用户的听觉质量。进一步地，当带噪语音信号与噪声信号进行频谱相减产生具有一定信号变化的音乐噪声时，通过掩蔽阈值，确定修正因子，该修正因子可以动态的改变传递函数的形状，以达到对语音畸变和残留噪声两种情况下的最佳折中，进一步改善了用户的听觉质量。

需要说明的是：上述实施例提供的带噪语音信号处理装置在对带噪语音信号处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的带噪语音信号处理装置与带噪语音信号处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本发明实施例提供的一种服务器结构示意图。参见图4，该服务器包括：处理器501和存储器502，该处理器501与该存储器502相连接，

该处理器501，用于根据带噪语音信号的静默段，获取该带噪语音信号中噪声信号，该带噪语音信号包括语音信号和噪声信号，该带噪语音信号为频域信号；

该处理器501还用于对于该语音信号中的每一帧，根据该噪声信号和该带噪语音信号，获取该语音信号的每一帧的功率谱迭代因子；

该处理器501还用于对于该语音信号中的每一帧，根据该带噪语音信号、该噪声信号的上一帧和每一帧语音信号的功率谱迭代因子，计算语音信号每一帧的中间功率谱；

该处理器501还用于根据该语音信号每一帧的中间功率谱和噪声信号，计算该带噪语音信号中每一帧的信噪比；

该处理器501还用于根据该带噪语音信号中每一帧的信噪比、该带噪语音信号和该噪声信号的每一帧，获取时域的处理后带噪语音信号。

可选地，该处理器501还用于对于该语音信号中的第m帧，根据该噪声信号和该带噪语音信号的第m-1帧，计算该语音信号的第m帧的方差该语音信号的第m帧的方差根据该语音信号的第m-1帧的功率谱和该语音信号的第m帧的方差获取该语音信号的第m帧的功率谱迭代因子α(m,n)，该语音信号的第m帧的功率谱迭代因子其中，α(m,n)_opt为最小均方条件下α(m,n)的最优取值，且其中，m为语音信号的帧数，n＝0,1,2,3…，N-1，N为帧长，为该语音信号的第m-1帧的功率谱，其中，当m＝1时，为该语音信号的功率谱预设初值，λ_min为该语音信号的功率谱最小值。

可选地，该处理器501还用于根据该带噪语音信号、该噪声信号的第m-1帧和该语音信号的第m帧的功率谱迭代因子，利用公式得到该语音信号的第m帧的中间功率谱，为该语音信号的第m帧的中间功率谱，A_m-1为该语音信号的第m-1帧的幅度谱，且λ_min为该语音信号的功率谱最小值。

可选地，该处理器501还用于根据该带噪语音信号的第m帧的信噪比、该带噪语音信号和该噪声信号的第m帧以及该噪声信号的第m帧的掩蔽阈值，计算该带噪语音信号的第m帧的修正因子；根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧的修正因子，计算该带噪语音信号的第m帧的传递函数；根据该带噪语音信号的第m帧的传递函数、该带噪语音信号的第m帧的幅度谱，计算处理后带噪语音信号的第m帧的幅度谱；以该带噪语音信号的相位作为处理后带噪语音信号的相位，基于处理后带噪语音信号的第m帧的幅度谱进行傅里叶反变换，得到时域的处理后带噪语音信号的第m帧。

可选地，该处理器501还用于根据该带噪语音信号和该噪声信号的第m帧，计算该噪声信号的第m帧的掩蔽阈值；根据该带噪语音信号的第m帧的信噪比、该带噪语音信号和该噪声信号的第m帧以及该噪声信号的第m帧的掩蔽阈值，利用不等式得到该带噪语音信号的第m帧的修正因子μ(m,k)，其中，为带噪语音信号的第m帧的信噪比，为该语音信号的第m帧的方差，为该噪声信号的第m帧的方差，T′(m,k′)为该噪声信号的第m帧的掩蔽阈值，k′为临界频带序号，k为离散频率。

可选地，该处理器501还用于根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧的修正因子，利用公式得到该带噪语音信号的第m帧的传递函数其中，为该带噪语音信号的第m帧的信噪比。

可选地，该处理器501还用于对于该语音信号的第m帧，根据该带噪语音信号的第m帧的信噪比和该带噪语音信号的第m帧，计算该语音信号的第m帧的功率谱；基于该语音信号的第m帧的功率谱，计算该语音信号的第m+1帧的功率谱迭代因子。

可选地，该处理器501还用于根据该噪声信号的第m-1帧和该语音信号的第m帧的中间功率谱，利用公式得到该带噪语音信号的第m帧的中间信噪比，其中，为该带噪语音信号的第m帧的中间信噪比，为该噪声信号的第m-1帧的功率谱，且根据该带噪语音信号的第m帧的中间信噪比，利用公式得到该带噪语音信号的第m帧的信噪比，其中，为该带噪语音信号的第m帧的信噪比。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种带噪语音信号处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，对于所述语音信号中的每一帧，根据所述噪声信号和所述带噪语音信号，获取所述语音信号的每一帧的功率谱迭代因子包括：

对于所述语音信号中的第m帧，根据所述噪声信号和所述带噪语音信号的第m-1帧，计算所述语音信号的第m帧的方差所述语音信号的第m帧的方差其中，Y(m-1,k)为所述带噪语音信号的第m-1帧，D(m-1,k)为所述噪声信号的第m-1帧；

根据所述语音信号的第m-1帧的功率谱和所述语音信号的第m帧的方差获取所述语音信号的第m帧的功率谱迭代因子α(m,n)，所述语音信号的第m帧的功率谱迭代因子其中，α(m,n)_opt为最小均方条件下α(m,n)的最优取值，且其中，m为语音信号的帧数，n＝0,1,2,3…，N-1，N为帧长，为所述语音信号的第m-1帧的功率谱，其中，当m＝1时，为所述语音信号的功率谱预设初值，λ_min为所述语音信号的功率谱最小值。

3.根据权利要求2所述的方法，其特征在于，对于所述语音信号中的每一帧，根据所述带噪语音信号、所述噪声信号的上一帧和每一帧语音信号的功率谱迭代因子，计算语音信号每一帧的中间功率谱包括：

根据所述带噪语音信号、所述噪声信号的第m-1帧和所述语音信号的第m帧的功率谱迭代因子，利用公式得到所述语音信号的第m帧的中间功率谱，为所述语音信号的第m帧的中间功率谱，A_m-1为所述语音信号的第m-1帧的幅度谱，且λ_min为所述语音信号的功率谱最小值。

4.根据权利要求1所述的方法，其特征在于，根据所述带噪语音信号的第m帧的信噪比、所述带噪语音信号和所述噪声信号的第m帧以及所述噪声信号的第m帧的掩蔽阈值，计算所述带噪语音信号的第m帧的修正因子包括：

根据所述带噪语音信号和所述噪声信号的第m帧，计算所述噪声信号的第m帧的掩蔽阈值；

根据所述带噪语音信号的第m帧的信噪比、所述带噪语音信号和所述噪声信号的第m帧以及所述噪声信号的第m帧的掩蔽阈值，利用不等式得到所述带噪语音信号的第m帧的修正因子μ(m,k)，其中，为带噪语音信号的第m帧的信噪比，为所述语音信号的第m帧的方差，为所述噪声信号的第m帧的方差，T′(m,k′)为所述噪声信号的第m帧的掩蔽阈值，k′为临界频带序号，k为离散频率。

5.根据权利要求4所述的方法，其特征在于，根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧的修正因子，计算所述带噪语音信号的第m帧的传递函数包括：

根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧的修正因子，利用公式得到所述带噪语音信号的第m帧的传递函数其中，为所述带噪语音信号的第m帧的信噪比。

6.根据权利要求1所述的方法，其特征在于，根据所述语音信号每一帧的中间功率谱和噪声信号，计算所述带噪语音信号中每一帧的信噪比之后，所述方法还包括：

对于所述语音信号的第m帧，根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧，计算所述语音信号的第m帧的功率谱；

基于所述语音信号的第m帧的功率谱，计算所述语音信号的第m+1帧的功率谱迭代因子。

7.根据权利要求3所述的方法，其特征在于，根据所述语音信号每一帧的中间功率谱和噪声信号，计算所述带噪语音信号中每一帧的信噪比包括：

根据所述噪声信号的第m-1帧和所述语音信号的第m帧的中间功率谱，利用公式得到所述带噪语音信号的第m帧的中间信噪比，其中，为所述带噪语音信号的第m帧的中间信噪比，为所述噪声信号的第m-1帧的功率谱，且

根据所述带噪语音信号的第m帧的中间信噪比，利用公式得到所述带噪语音信号的第m帧的信噪比，其中，为所述带噪语音信号的第m帧的信噪比。

8.一种带噪语音信号处理装置，其特征在于，所述装置包括：

其中，所述带噪语音信号处理模块包括：

9.根据权利要求8所述的装置，其特征在于，所述功率谱迭代因子获取模块还用于对于所述语音信号中的第m帧，根据所述噪声信号和所述带噪语音信号的第m-1帧，计算所述语音信号的第m帧的方差所述语音信号的第m帧的方差其中，Y(m-1,k)为所述带噪语音信号的第m-1帧，D(m-1,k)为所述噪声信号的第m-1帧；根据所述语音信号的第m-1帧的功率谱和所述语音信号的第m帧的方差获取所述语音信号的第m帧的功率谱迭代因子α(m,n)，所述语音信号的第m帧的功率谱迭代因子其中，α(m,n)_opt为最小均方条件下α(m,n)的最优取值，且其中，m为语音信号的帧数，n＝0,1,2,3…，N-1，N为帧长，为所述语音信号的第m-1帧的功率谱，其中，当m＝1时，为所述语音信号的功率谱预设初值，λ_min为所述语音信号的功率谱最小值。

10.根据权利要求9所述的装置，其特征在于，所述语音信号中间功率谱获取模块还用于根据所述带噪语音信号、所述噪声信号的第m-1帧和所述语音信号的第m帧的功率谱迭代因子，利用公式得到所述语音信号的第m帧的中间功率谱，为所述语音信号的第m帧的中间功率谱，A_m-1为所述语音信号的第m-1帧的幅度谱，且λ_min为所述语音信号的功率谱最小值。

11.根据权利要求8所述的装置，其特征在于，所述修正因子获取单元还用于根据所述带噪语音信号和所述噪声信号的第m帧，计算所述噪声信号的第m帧的掩蔽阈值；根据所述带噪语音信号的第m帧的信噪比、所述带噪语音信号和所述噪声信号的第m帧以及所述噪声信号的第m帧的掩蔽阈值，利用不等式得到所述带噪语音信号的第m帧的修正因子μ(m,k)，其中，为带噪语音信号的第m帧的信噪比，为所述语音信号的第m帧的方差，为所述噪声信号的第m帧的方差，T′(m,k′)为所述噪声信号的第m帧的掩蔽阈值，k′为临界频带序号，k为离散频率。

12.根据权利要求11所述的装置，其特征在于，所述传递函数获取单元还用于根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧的修正因子，利用公式得到所述带噪语音信号的第m帧的传递函数其中，为所述带噪语音信号的第m帧的信噪比。

13.根据权利要求8所述的装置，其特征在于，所述装置还包括：

语音信号功率谱获取模块，用于对于所述语音信号的第m帧，根据所述带噪语音信号的第m帧的信噪比和所述带噪语音信号的第m帧，计算所述语音信号的第m帧的功率谱；

所述功率谱迭代因子获取单元还用于基于所述语音信号的第m帧的功率谱，计算所述语音信号的第m+1帧的功率谱迭代因子。

14.根据权利要求10所述的装置，其特征在于，所述信噪比获取模块还用于根据所述噪声信号的第m-1帧和所述语音信号的第m帧的中间功率谱，利用公式得到所述带噪语音信号的第m帧的中间信噪比，其中，为所述带噪语音信号的第m帧的中间信噪比，为所述噪声信号的第m-1帧的功率谱，且根据所述带噪语音信号的第m帧的中间信噪比，利用公式得到所述带噪语音信号的第m帧的信噪比，其中，为所述带噪语音信号的第m帧的信噪比。

15.一种服务器，其特征在于，所述服务器包括：处理器和存储器，所述处理器与所述存储器相连接，