CN101320566B

CN101320566B - 基于多带谱减法的非空气传导语音增强方法

Info

Publication number: CN101320566B
Application number: CN2008101502052A
Authority: CN
Inventors: 李盛; 王健琪; 荆西京; 牛明
Original assignee: Fourth Military Medical University FMMU
Current assignee: Fourth Military Medical University FMMU
Priority date: 2008-06-30
Filing date: 2008-06-30
Publication date: 2010-10-20
Anticipated expiration: 2028-06-30
Also published as: CN101320566A

Abstract

本发明公开了一种基于多带谱减法的非空气传导语音增强方法，由于基于雷达的非空气传导语音中的噪声往往是有色的，并且不会在整个频谱范围内均匀地影响语音信号，因此本发明提出将语音频谱有针对性地分为互不重叠的五段，同时分别为每一段设计独自的谱减系数，从而实现算法的有效性和较强的针对性。采用这种方法的实例表明，这种新型非空气传导语音增强方法能够有效弥补传统语音增强方法针对性不强的弱点，且执行效率高、算法简单易行，效果明显，因此具有较强的实用价值和应用前景。

Description

基于多带谱减法的非空气传导语音增强方法

技术领域

本发明属于语音信号的探测与采集及语音增强技术领域，特别涉及一种基于多带谱减法的非空气传导语音增强方法。

背景技术

由于探测原理和方法本质上的不同，语音的非空气传导探测技术从本质上突破了传统空气传导语音的固定模式和局限性，同时也是对传统探测方式单一性的有效补充。非空气传导语音探测技术不仅能够克服多种语音探测模式的缺点和不足(使人们摆脱必须在声源附近安置麦克风的限制而实现较远距离探测语音、具备较强抗声学干扰能力，并克服了激光、红外、超声波等探测技术易受环境、温度和气候影响的缺点)，而且具有多种重要特点和优点(非接触、非侵入、安全、实时、高灵敏度、强抗干扰能力、高方向性、一定的穿透性、成本低廉等)，因此这种技术的发展将拓展语音及声学信号探测的应用场合、适用性及其应用领域，在民用、工业、科研、灾害救援、医院临床、反恐等许多应用领域发挥独特的功能和优势，具有广阔的应用前景。

然而大量的实验数据表明，采用雷达波探测出来的语音信号干扰成分，要比采用普通声学传感器复杂得多。其干扰主要来自以下几个方面：(a)目标说话时的体动干扰。如说话时的头部运动、手势、口唇运动、心跳、呼吸等；(b)雷达波的各次谐波、信道噪声及语音探测系统硬件本身的附加噪声；(c)外界环境噪声的干扰，这些噪声信号成份复杂，幅度更强，且多与语音信号频谱相混叠，严重影响了语音信号的质量。因此，对于在对所采集雷达语音信号进行特性分析的基础上，有针对性地进行语音的去噪增强，也是一项十分重要的工作。

发明内容

本发明的目的在于提供一种能够弥补传统语音增强方法针对性不强的弱点，且执行效率高、算法简单易行，效果明显，具有较强的实用价值的基于多带谱减法的非空气传导语音增强方法。

为达到上述目的，本发明采用技术方案是：

1)对雷达非空气传导语音做A/D转换，进行数字化处理，其采样速率为10KHz～20KHz；

2)对数字化后的雷达语音进行有语音段信号及无语音段噪声信号判别；

3)对上述雷达语音中的无语音段噪声信号进行采集，得到长度大于10帧即200～400ms的无语音段噪声信号，取每帧256～512点，设定帧间重叠率介于25％～75％间，并进行噪声平均估计；

4)对该无语音段噪声信号做傅立叶变换，再取频谱幅值的平方得到噪声功率谱估计值；

5)对上述雷达语音中的有语音段信号做分帧处理，取每帧256～512点，并设定帧间重叠率介于25％～75％间，再对每帧语音数据做傅立叶变换进行频谱分析，并取频谱幅值的平方得到带噪语音的功率谱估计值；

6)将语音和噪声频谱分为五个频段，分别是：0～300Hz(Band 1)，300～1KHz(Band 2)，1K～2K(Band 3)，2K～3K(Band 4)，3K～5K(Band5)；

7)对于处于各个频段内的噪声功率谱进行加权，并用带噪语音的功率谱减去加权后的噪声功率谱，从而得到纯净语音的功率谱估计值；

8)将带噪语音的频谱相位作为增强后语音频谱相位的估计值，再将语音信号做反变换，从而得到处理后的语音信号。

本发明对数字化后的雷达语音进行有语音段信号及无语音段噪声信号判别采用短时能量、过零率、倒谱、谱熵、线性预测分析或神经网络方法；对于处于各个频段内的噪声功率谱进行加权，其加权系数，α_i可由下式计算：

α_{i} = \{\begin{matrix} 5 & {SNR}_{i} < 5 \\ 4 - \frac{3}{20} ({SNR}_{i}) & - 5 \leq {SNR}_{i} \leq 20 \\ 1 & {SNR}_{i} > 20 \end{matrix},

其中SNR_i为第i个频率段的信噪比，i＝1～5；

每一频段设置的调节系数δ_i的值为：

δ_{i} = \{\begin{matrix} 1 & 60 Hz \leq f_{i} \leq 300 Hz \\ 1.2 & 0.3 KHz < f_{i} \leq 1 KHz \\ 1.5 & 1 KHz < f_{i} \leq 2 KHz \\ 2.5 & 2 kHz < f_{i} \leq 3 kHz \\ 1.5 & 3 kHz < f_{i} \leq 5 kHz \end{matrix},

其中f_i为第i个频率段内的频率。

本发明利用毫米波雷达探测语音信号具有多种空气传导语音探测方法所不具备的优点，如能够摆脱传统的在声源附近必须安置声学传感器的限制，对检测对象无任何约束，并能穿透一定的介质及障碍物进行检测，从而有望在诸如演讲、报告、舞台表演、打电话等场合、复杂声学环境中语音的定向检测、微弱宽带声学信号检测、灾害救援(地震、塌方中的伤员探寻)、医院临床的语音检测、评价、恢复与监护系统、反恐斗争(隔墙监听)、国家安全(侦听)等领域内得到广泛应用，具有广阔的应用前景和市场推广价值。本发明基本上能使语音信号的质量达到普通麦克风采集的效果。

附图说明：

图1为整个雷达非空气传导语音增强系统的结构框图。其中的标号分别表示：1、语音信号加窗及做快速傅立叶变换；2、对有语音段信号频谱做多带分割；3、对无语音段信号做噪声估计；4、提取的相位信息；5、第i频段的调节系数δ_i；6、第i频段的过减因子α_i；7、能量谱相减；8、反傅立叶变换。

图2为某段雷达语音在五个频段内(0～300Hz(Band 1)，300～1KHz(Band 2)，1K～2K(Band 3)，2K～3K(Band 4)，3K～5K(Band 5))的信噪比分布图；

图3为对某段指定的语音信号，使用本发明所述方法之前和之后，及与传统谱减法相比的雷达语音语谱图比较图。其中(a)为未增强语音的语谱图，(b)为使用传统谱减法增强后的语音谱图；(c)为使用本发明所述改进的基于多带谱减法增强后语音的语谱图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

参见图1，本发明首先将接收到雷达非空气传导语音信号进行数字化处理后加窗并做快速傅立叶变换1；对变换后的信号进行有声段及无声段判别、对有语音段信号频谱做多带分割2、对无语音段信号做噪声估计3并提取语音的相位信息4；对有语音段信号频谱做多带分割后以第i频段的调节系数δ_i为其加权5；对无语音段信号做噪声估计后以第i频段的过减因子α_i为其加权6；用加权后的带噪语音的功率谱减去加权后的噪声功率谱估计值7；将提取的相位信息和能量谱相减的结果进行反傅立叶变换8。

其具体步骤如下：

2)对数字化后的雷达语音进行有声段及无声段判别；

3)对上述雷达语音中的无语音段进行采集，得到长度大于10帧即200～400ms的噪声，取每帧256～512点，设定帧间重叠率介于25％～75％间，并进行噪声平均估计；

5)对上述雷达语音中的有语音段做分帧处理，取每帧256～512点，并设定帧间重叠率介于25％～75％间，再对每帧语音数据做傅立叶变换进行频谱分析，并取频谱幅值的平方得到带噪语音的功率谱估计值；

7)对于处于各个频段内的噪声功率谱进行加权，并用带噪语音的功率谱减去加权后的噪声功率谱，从而得到纯净语音的功率谱估计值，

整个数据处理步骤可表述如下：

设s(n)为纯净语音信号，d(n)为噪声信号，y(n)为带噪语音信号，则有

y(n)＝s(n)+d(n) (1)

因此，对上述三个参量分别做傅立叶变换后，就得到带噪语音的功率谱，可表示为：

|Y(ω)|²≈|S(ω)|²+|D(ω)|² (2)

这里|Y(ω)|²，|S(ω)|²和|D(ω)|²分别代表带噪语音短时谱、纯净语音短时谱和噪声功率谱估计。

经典谱减法(Berouti et.al(1979))可以表示为：

这里α(α＞1)是过减因子，它是信噪比的函数，β(0≤β≤1)为谱阶，γ则是变换程度的指数因子。这里我们设γ＝2，及β＝0.002。

传统谱减法假设噪声是“均匀”地污染语音的，因此都会令带噪语音在整个语音频谱范围内减去一个其值恒定的过减因子。然而，基于雷达的非空气传导语音的噪声往往是有色的，并且不会在整个频谱范围内均匀地影响语音信号。图2给出了一个雷达语音在五个频段内(0～300Hz(Band 1)，300～1KHz(Band 2)，1K～2K(Band 3)，2K～3K(Band 4)，3K～5K(Band5))的信噪比分布图，可以看出雷达非空气传导语音的两个较低频率带的信噪比要比高频率段的要高。其中最高和最低的信噪比值之差约25dB，这是一个非常大的数值。因此，如果在全频段范围内给定一个固定的过减因子，往往会在滤去噪声的同时丢失语音信号。

为了在语音增强过程中考虑到有色噪声对不同语音频率段的影响，我们将整个语音频谱分为互不重叠的5段，同时分别为每一段设计独自的谱减系数。因此第i段的纯净语音谱可以估计为：

{| {\hat{S}}_{i} (k) |}^{2} = {| Y_{i} (k) |}^{2} - α_{i} δ_{i} {| {\hat{D}}_{i} (k) |}^{2}, b_{i} \leq k \leq e_{i} - - - (4)

这里α_i是第i频段的过减因子，δ_i是为每一频段设置的调节系数，b_i和e_i是第i个频率段的起止频率，因此，整个算法就如图3所示。

这里，我们定义过减因子是每个频率段信噪比的函数，信噪比由下式计算：

{SNR}_{i} (dB) = 10 lo g_{10} \frac{Σ_{k = b_{i}}^{e_{i}} {| Y_{i} (k) |}^{2}}{Σ_{k = b_{i}}^{e_{i}} {| {\hat{D}}_{i} (k) |}^{2}} - - - (5)

依据公式(5)的计算公式及图2的结果，过减因子α_i可由下式计算：

α_{i} = \{\begin{matrix} 5 & {SNR}_{i} < 5 \\ 4 - \frac{3}{20} ({SNR}_{i}) & - 5 \leq {SNR}_{i} \leq 20 \\ 1 & {SNR}_{i} > 20 \end{matrix} - - - (6)

另外一个因子，公式(4)中的δ_i能够被用来对每一个频率段进行精细控制，由于大部分的语音能量聚集在低频段，较小的δ_i值就能够用来校正语音失调。δ_i的值由反复实验中得来，设定为：

δ_{i} = \{\begin{matrix} 1 & 60 Hz \leq f_{i} \leq 300 Hz \\ 1.2 & 0.3 KHz < f_{i} \leq 1 KHz \\ 1.5 & 1 KHz < f_{i} \leq 2 KHz \\ 2.5 & 2 kHz < f_{i} \leq 3 kHz \\ 1.5 & 3 kHz < f_{i} \leq 5 kHz \end{matrix} - - - (7)

利用这两个因子能够对各种发声条件下，每一段的语音频谱进行细微调整从而得到较高质量的语音信号，从而得到增强后的非空气传导语音。

以下是发明人给出的实施例，但并不局限于这些实施例：

一男性在距离雷达式非空气传导语音探测仪前5米处以正常语速发声，语音材料为“第四军医大学”，语音时长为4.8秒，其中有语音段约为3.1秒。

依下述步骤对此语音做增强处理：

1)对雷达非空气传导语音做A/D转换，采样速率为10KHz/秒；

2)对数字化后的雷达语音进行有声段及无声段判别，本例中采用基于小波熵阈值的方法进行判别；

3)对语音末尾段近一秒的无语音段做分帧处理，以每512点为一帧，并设帧间重叠率为50％；

4)对该噪声段做傅立叶变换，再取频谱幅值的平方以得到噪声功率谱估计值；

5)对雷达语音中的有语音段进行分帧，以每512点为一帧，并设帧间重叠率为50％。对此有语音段做傅立叶变换，并取频谱幅值的平方得到带噪语音的频谱和功率谱；

7)对于处于各个频段内的噪声功率谱进行加权，并用带噪语音的功率谱减去加权后的噪声功率谱，从而得到纯净语音的功率谱估计值；所说的对于处于各个频段内的噪声功率谱进行加权，其加权系数，α_i可由下式计算：

α_{i} = \{\begin{matrix} 5 & {SNR}_{i} < 5 \\ 4 - \frac{3}{20} ({SNR}_{i}) & - 5 \leq {SNR}_{i} \leq 20 \\ 1 & {SNR}_{i} > 20 \end{matrix},

其中SNR_i为第i个频率段的信噪比；

δ_i的值为：

δ_{i} = \{\begin{matrix} 1 & 60 Hz \leq f_{i} \leq 300 Hz \\ 1.2 & 0.3 KHz < f_{i} \leq 1 KHz \\ 1.5 & 1 KHz < f_{i} \leq 2 KHz \\ 2.5 & 2 kHz < f_{i} \leq 3 kHz \\ 1.5 & 3 kHz < f_{i} \leq 5 kHz \end{matrix},

其中f_i为第i个频率段内的频率；

处理结果图：图3为对某段指定的语音信号，使用本发明所述方法之前和之后，及与传统谱减法相比的雷达语音语谱图比较图。其中(a)为未增强语音的语谱图，(b)为使用传统谱减法增强后的语音谱图；(c)为使用本发明所述改进的基于多带谱减法增强后语音的语谱图。从图3(a)中可以看出，原始语音中携带有具有较强能量的噪声，这些噪声在语音字句之间能够明显地观察到。图3(b)显示出传统的谱减法能够有效地减少2kHz以下的噪声，同时也能有效去除语音间隙的噪声，但是不能够去除高频噪声。图3(c)示出本专利所述的多带谱减法效果。它不仅能够减小语音及其间隙中的低频噪声，而且能较完全地去除高频噪声。说明与传统谱减法相比，多带谱减法能够在全频率段内实现较好的语音增强效果。同步开展的听觉感知实验也表明本专利所述方法能够有效去除雷达语音的噪声，且不丢失语音信息。

另外，本发明所述多带谱减法中的两个因子α_i和δ_i能够在多种不同和复杂的语音环境和条件下很容易地改变其值来提升语音质量。同时还须注意到，如果本发明所述方法的频谱分割子带的数目仅为一时，本方法即回归到传统的谱减法。

Claims

1.基于多带谱减法的非空气传导语音增强方法，其特征在于：

2.根据权利要求1所述的基于多带谱减法的非空气传导语音增强方法，其特征在于：所述对数字化后的雷达语音进行有语音段信号及无语音段噪声信号判别采用短时能量、过零率、倒谱、谱熵、线性预测分析或神经网络方法。

3.根据权利要求1所述的基于多带谱减法的非空气传导语音增强方法，其特征在于：所说的对于处于各个频段内的噪声功率谱进行加权，其加权系数，α_i可由下式计算：

α_{i} = \{\begin{matrix} 5 & {SNR}_{i} < 5 \\ 4 - \frac{3}{20} ({SNR}_{i}) & - 5 \leq {SNR}_{i} \leq 20 \\ 1 & {SNR}_{i} > 20 \end{matrix},

其中SNR_i为第i个频率段的信噪比，i＝1～5；

每一频段设置的调节系数δ_i的值为：

δ_{i} = \{\begin{matrix} 1 & 60 Hz \leq f_{i} \leq 300 Hz \\ 1.2 & 0.3 KHz < f_{i} \leq 1 KHz \\ 1.5 & 1 KHz < f_{i} \leq 2 KHz \\ 2.5 & 2 kHz < f_{i} \leq 3 kHz \\ 1.5 & 3 kHz < f_{i} \leq 5 kHz \end{matrix},

其中f_i为第i个频率段内的频率。