CN101320566B - 基于多带谱减法的非空气传导语音增强方法 - Google Patents
基于多带谱减法的非空气传导语音增强方法 Download PDFInfo
- Publication number
- CN101320566B CN101320566B CN2008101502052A CN200810150205A CN101320566B CN 101320566 B CN101320566 B CN 101320566B CN 2008101502052 A CN2008101502052 A CN 2008101502052A CN 200810150205 A CN200810150205 A CN 200810150205A CN 101320566 B CN101320566 B CN 101320566B
- Authority
- CN
- China
- Prior art keywords
- voice
- noise
- signal
- band
- khz
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于多带谱减法的非空气传导语音增强方法,由于基于雷达的非空气传导语音中的噪声往往是有色的,并且不会在整个频谱范围内均匀地影响语音信号,因此本发明提出将语音频谱有针对性地分为互不重叠的五段,同时分别为每一段设计独自的谱减系数,从而实现算法的有效性和较强的针对性。采用这种方法的实例表明,这种新型非空气传导语音增强方法能够有效弥补传统语音增强方法针对性不强的弱点,且执行效率高、算法简单易行,效果明显,因此具有较强的实用价值和应用前景。
Description
技术领域
本发明属于语音信号的探测与采集及语音增强技术领域,特别涉及一种基于多带谱减法的非空气传导语音增强方法。
背景技术
由于探测原理和方法本质上的不同,语音的非空气传导探测技术从本质上突破了传统空气传导语音的固定模式和局限性,同时也是对传统探测方式单一性的有效补充。非空气传导语音探测技术不仅能够克服多种语音探测模式的缺点和不足(使人们摆脱必须在声源附近安置麦克风的限制而实现较远距离探测语音、具备较强抗声学干扰能力,并克服了激光、红外、超声波等探测技术易受环境、温度和气候影响的缺点),而且具有多种重要特点和优点(非接触、非侵入、安全、实时、高灵敏度、强抗干扰能力、高方向性、一定的穿透性、成本低廉等),因此这种技术的发展将拓展语音及声学信号探测的应用场合、适用性及其应用领域,在民用、工业、科研、灾害救援、医院临床、反恐等许多应用领域发挥独特的功能和优势,具有广阔的应用前景。
然而大量的实验数据表明,采用雷达波探测出来的语音信号干扰成分,要比采用普通声学传感器复杂得多。其干扰主要来自以下几个方面:(a)目标说话时的体动干扰。如说话时的头部运动、手势、口唇运动、心跳、呼吸等;(b)雷达波的各次谐波、信道噪声及语音探测系统硬件本身的附加噪声;(c)外界环境噪声的干扰,这些噪声信号成份复杂,幅度更强,且多与语音信号频谱相混叠,严重影响了语音信号的质量。因此,对于在对所采集雷达语音信号进行特性分析的基础上,有针对性地进行语音的去噪增强,也是一项十分重要的工作。
发明内容
本发明的目的在于提供一种能够弥补传统语音增强方法针对性不强的弱点,且执行效率高、算法简单易行,效果明显,具有较强的实用价值的基于多带谱减法的非空气传导语音增强方法。
为达到上述目的,本发明采用技术方案是:
1)对雷达非空气传导语音做A/D转换,进行数字化处理,其采样速率为10KHz~20KHz;
2)对数字化后的雷达语音进行有语音段信号及无语音段噪声信号判别;
3)对上述雷达语音中的无语音段噪声信号进行采集,得到长度大于10帧即200~400ms的无语音段噪声信号,取每帧256~512点,设定帧间重叠率介于25%~75%间,并进行噪声平均估计;
4)对该无语音段噪声信号做傅立叶变换,再取频谱幅值的平方得到噪声功率谱估计值;
5)对上述雷达语音中的有语音段信号做分帧处理,取每帧256~512点,并设定帧间重叠率介于25%~75%间,再对每帧语音数据做傅立叶变换进行频谱分析,并取频谱幅值的平方得到带噪语音的功率谱估计值;
6)将语音和噪声频谱分为五个频段,分别是:0~300Hz(Band 1),300~1KHz(Band 2),1K~2K(Band 3),2K~3K(Band 4),3K~5K(Band5);
7)对于处于各个频段内的噪声功率谱进行加权,并用带噪语音的功率谱减去加权后的噪声功率谱,从而得到纯净语音的功率谱估计值;
8)将带噪语音的频谱相位作为增强后语音频谱相位的估计值,再将语音信号做反变换,从而得到处理后的语音信号。
本发明对数字化后的雷达语音进行有语音段信号及无语音段噪声信号判别采用短时能量、过零率、倒谱、谱熵、线性预测分析或神经网络方法;对于处于各个频段内的噪声功率谱进行加权,其加权系数,αi可由下式计算:
每一频段设置的调节系数δi的值为:
本发明利用毫米波雷达探测语音信号具有多种空气传导语音探测方法所不具备的优点,如能够摆脱传统的在声源附近必须安置声学传感器的限制,对检测对象无任何约束,并能穿透一定的介质及障碍物进行检测,从而有望在诸如演讲、报告、舞台表演、打电话等场合、复杂声学环境中语音的定向检测、微弱宽带声学信号检测、灾害救援(地震、塌方中的伤员探寻)、医院临床的语音检测、评价、恢复与监护系统、反恐斗争(隔墙监听)、国家安全(侦听)等领域内得到广泛应用,具有广阔的应用前景和市场推广价值。本发明基本上能使语音信号的质量达到普通麦克风采集的效果。
附图说明:
图1为整个雷达非空气传导语音增强系统的结构框图。其中的标号分别表示:1、语音信号加窗及做快速傅立叶变换;2、对有语音段信号频谱做多带分割;3、对无语音段信号做噪声估计;4、提取的相位信息;5、第i频段的调节系数δi;6、第i频段的过减因子αi;7、能量谱相减;8、反傅立叶变换。
图2为某段雷达语音在五个频段内(0~300Hz(Band 1),300~1KHz(Band 2),1K~2K(Band 3),2K~3K(Band 4),3K~5K(Band 5))的信噪比分布图;
图3为对某段指定的语音信号,使用本发明所述方法之前和之后,及与传统谱减法相比的雷达语音语谱图比较图。其中(a)为未增强语音的语谱图,(b)为使用传统谱减法增强后的语音谱图;(c)为使用本发明所述改进的基于多带谱减法增强后语音的语谱图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
参见图1,本发明首先将接收到雷达非空气传导语音信号进行数字化处理后加窗并做快速傅立叶变换1;对变换后的信号进行有声段及无声段判别、对有语音段信号频谱做多带分割2、对无语音段信号做噪声估计3并提取语音的相位信息4;对有语音段信号频谱做多带分割后以第i频段的调节系数δi为其加权5;对无语音段信号做噪声估计后以第i频段的过减因子αi为其加权6;用加权后的带噪语音的功率谱减去加权后的噪声功率谱估计值7;将提取的相位信息和能量谱相减的结果进行反傅立叶变换8。
其具体步骤如下:
1)对雷达非空气传导语音做A/D转换,进行数字化处理,其采样速率为10KHz~20KHz;
2)对数字化后的雷达语音进行有声段及无声段判别;
3)对上述雷达语音中的无语音段进行采集,得到长度大于10帧即200~400ms的噪声,取每帧256~512点,设定帧间重叠率介于25%~75%间,并进行噪声平均估计;
4)对该无语音段噪声信号做傅立叶变换,再取频谱幅值的平方得到噪声功率谱估计值;
5)对上述雷达语音中的有语音段做分帧处理,取每帧256~512点,并设定帧间重叠率介于25%~75%间,再对每帧语音数据做傅立叶变换进行频谱分析,并取频谱幅值的平方得到带噪语音的功率谱估计值;
6)将语音和噪声频谱分为五个频段,分别是:0~300Hz(Band 1),300~1KHz(Band 2),1K~2K(Band 3),2K~3K(Band 4),3K~5K(Band5);
7)对于处于各个频段内的噪声功率谱进行加权,并用带噪语音的功率谱减去加权后的噪声功率谱,从而得到纯净语音的功率谱估计值,
8)将带噪语音的频谱相位作为增强后语音频谱相位的估计值,再将语音信号做反变换,从而得到处理后的语音信号。
整个数据处理步骤可表述如下:
设s(n)为纯净语音信号,d(n)为噪声信号,y(n)为带噪语音信号,则有
y(n)=s(n)+d(n) (1)
因此,对上述三个参量分别做傅立叶变换后,就得到带噪语音的功率谱,可表示为:
|Y(ω)|2≈|S(ω)|2+|D(ω)|2 (2)
这里|Y(ω)|2,|S(ω)|2和|D(ω)|2分别代表带噪语音短时谱、纯净语音短时谱和噪声功率谱估计。
经典谱减法(Berouti et.al(1979))可以表示为:
这里α(α>1)是过减因子,它是信噪比的函数,β(0≤β≤1)为谱阶,γ则是变换程度的指数因子。这里我们设γ=2,及β=0.002。
传统谱减法假设噪声是“均匀”地污染语音的,因此都会令带噪语音在整个语音频谱范围内减去一个其值恒定的过减因子。然而,基于雷达的非空气传导语音的噪声往往是有色的,并且不会在整个频谱范围内均匀地影响语音信号。图2给出了一个雷达语音在五个频段内(0~300Hz(Band 1),300~1KHz(Band 2),1K~2K(Band 3),2K~3K(Band 4),3K~5K(Band5))的信噪比分布图,可以看出雷达非空气传导语音的两个较低频率带的信噪比要比高频率段的要高。其中最高和最低的信噪比值之差约25dB,这是一个非常大的数值。因此,如果在全频段范围内给定一个固定的过减因子,往往会在滤去噪声的同时丢失语音信号。
为了在语音增强过程中考虑到有色噪声对不同语音频率段的影响,我们将整个语音频谱分为互不重叠的5段,同时分别为每一段设计独自的谱减系数。因此第i段的纯净语音谱可以估计为:
这里αi是第i频段的过减因子,δi是为每一频段设置的调节系数,bi和ei是第i个频率段的起止频率,因此,整个算法就如图3所示。
这里,我们定义过减因子是每个频率段信噪比的函数,信噪比由下式计算:
依据公式(5)的计算公式及图2的结果,过减因子αi可由下式计算:
另外一个因子,公式(4)中的δi能够被用来对每一个频率段进行精细控制,由于大部分的语音能量聚集在低频段,较小的δi值就能够用来校正语音失调。δi的值由反复实验中得来,设定为:
利用这两个因子能够对各种发声条件下,每一段的语音频谱进行细微调整从而得到较高质量的语音信号,从而得到增强后的非空气传导语音。
以下是发明人给出的实施例,但并不局限于这些实施例:
一男性在距离雷达式非空气传导语音探测仪前5米处以正常语速发声,语音材料为“第四军医大学”,语音时长为4.8秒,其中有语音段约为3.1秒。
依下述步骤对此语音做增强处理:
1)对雷达非空气传导语音做A/D转换,采样速率为10KHz/秒;
2)对数字化后的雷达语音进行有声段及无声段判别,本例中采用基于小波熵阈值的方法进行判别;
3)对语音末尾段近一秒的无语音段做分帧处理,以每512点为一帧,并设帧间重叠率为50%;
4)对该噪声段做傅立叶变换,再取频谱幅值的平方以得到噪声功率谱估计值;
5)对雷达语音中的有语音段进行分帧,以每512点为一帧,并设帧间重叠率为50%。对此有语音段做傅立叶变换,并取频谱幅值的平方得到带噪语音的频谱和功率谱;
6)将语音和噪声频谱分为五个频段,分别是:0~300Hz(Band 1),300~1KHz(Band 2),1K~2K(Band 3),2K~3K(Band 4),3K~5K(Band5);
7)对于处于各个频段内的噪声功率谱进行加权,并用带噪语音的功率谱减去加权后的噪声功率谱,从而得到纯净语音的功率谱估计值;所说的对于处于各个频段内的噪声功率谱进行加权,其加权系数,αi可由下式计算:
δi的值为:
8)将带噪语音的频谱相位作为增强后语音频谱相位的估计值,再将语音信号做反变换,从而得到处理后的语音信号。
处理结果图:图3为对某段指定的语音信号,使用本发明所述方法之前和之后,及与传统谱减法相比的雷达语音语谱图比较图。其中(a)为未增强语音的语谱图,(b)为使用传统谱减法增强后的语音谱图;(c)为使用本发明所述改进的基于多带谱减法增强后语音的语谱图。从图3(a)中可以看出,原始语音中携带有具有较强能量的噪声,这些噪声在语音字句之间能够明显地观察到。图3(b)显示出传统的谱减法能够有效地减少2kHz以下的噪声,同时也能有效去除语音间隙的噪声,但是不能够去除高频噪声。图3(c)示出本专利所述的多带谱减法效果。它不仅能够减小语音及其间隙中的低频噪声,而且能较完全地去除高频噪声。说明与传统谱减法相比,多带谱减法能够在全频率段内实现较好的语音增强效果。同步开展的听觉感知实验也表明本专利所述方法能够有效去除雷达语音的噪声,且不丢失语音信息。
另外,本发明所述多带谱减法中的两个因子αi和δi能够在多种不同和复杂的语音环境和条件下很容易地改变其值来提升语音质量。同时还须注意到,如果本发明所述方法的频谱分割子带的数目仅为一时,本方法即回归到传统的谱减法。
Claims (3)
1.基于多带谱减法的非空气传导语音增强方法,其特征在于:
1)对雷达非空气传导语音做A/D转换,进行数字化处理,其采样速率为10KHz~20KHz;
2)对数字化后的雷达语音进行有语音段信号及无语音段噪声信号判别;
3)对上述雷达语音中的无语音段噪声信号进行采集,得到长度大于10帧即200~400ms的无语音段噪声信号,取每帧256~512点,设定帧间重叠率介于25%~75%间,并进行噪声平均估计;
4)对该无语音段噪声信号做傅立叶变换,再取频谱幅值的平方得到噪声功率谱估计值;
5)对上述雷达语音中的有语音段信号做分帧处理,取每帧256~512点,并设定帧间重叠率介于25%~75%间,再对每帧语音数据做傅立叶变换进行频谱分析,并取频谱幅值的平方得到带噪语音的功率谱估计值;
6)将语音和噪声频谱分为五个频段,分别是:0~300Hz(Band 1),300~1KHz(Band 2),1K~2K(Band 3),2K~3K(Band 4),3K~5K(Band5);
7)对于处于各个频段内的噪声功率谱进行加权,并用带噪语音的功率谱减去加权后的噪声功率谱,从而得到纯净语音的功率谱估计值;
8)将带噪语音的频谱相位作为增强后语音频谱相位的估计值,再将语音信号做反变换,从而得到处理后的语音信号。
2.根据权利要求1所述的基于多带谱减法的非空气传导语音增强方法,其特征在于:所述对数字化后的雷达语音进行有语音段信号及无语音段噪声信号判别采用短时能量、过零率、倒谱、谱熵、线性预测分析或神经网络方法。
3.根据权利要求1所述的基于多带谱减法的非空气传导语音增强方法,其特征在于:所说的对于处于各个频段内的噪声功率谱进行加权,其加权系数,αi可由下式计算:
每一频段设置的调节系数δi的值为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101502052A CN101320566B (zh) | 2008-06-30 | 2008-06-30 | 基于多带谱减法的非空气传导语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101502052A CN101320566B (zh) | 2008-06-30 | 2008-06-30 | 基于多带谱减法的非空气传导语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101320566A CN101320566A (zh) | 2008-12-10 |
CN101320566B true CN101320566B (zh) | 2010-10-20 |
Family
ID=40180578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101502052A Expired - Fee Related CN101320566B (zh) | 2008-06-30 | 2008-06-30 | 基于多带谱减法的非空气传导语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101320566B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103021420B (zh) * | 2012-12-04 | 2015-02-25 | 中国科学院自动化研究所 | 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法 |
SI3511935T1 (sl) | 2014-04-17 | 2021-04-30 | Voiceage Evs Llc | Metoda, naprava in računalniško bran neprehodni spomin za linearno predvidevano kodiranje in dekodiranje zvočnih signalov po prehodu med okvirji z različnimi frekvencami vzorčenja |
CN105989848A (zh) * | 2015-01-30 | 2016-10-05 | 上海西门子医疗器械有限公司 | 降噪装置和医疗器械 |
CN106887235A (zh) * | 2015-12-16 | 2017-06-23 | 芋头科技(杭州)有限公司 | 一种语音降噪方法及智能电子设备 |
CN105427859A (zh) * | 2016-01-07 | 2016-03-23 | 深圳市音加密科技有限公司 | 一种用于对说话人识别的前端语音增强方法 |
CN105632512B (zh) * | 2016-01-14 | 2019-04-09 | 华南理工大学 | 一种基于统计模型的双传感器语音增强方法与装置 |
CN106199549B (zh) * | 2016-06-30 | 2019-01-22 | 南京理工大学 | 一种采用谱减法提升lfmcw雷达信噪比的方法 |
CN106601265B (zh) * | 2016-12-15 | 2019-08-13 | 中国人民解放军第四军医大学 | 一种消除毫米波生物雷达语音中噪声的方法 |
CN109841208A (zh) * | 2017-11-29 | 2019-06-04 | 宁波方太厨具有限公司 | 一种应用于吸油烟机中的语音增强方法 |
CN112863547B (zh) * | 2018-10-23 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 虚拟资源转移处理方法、装置、存储介质及计算机设备 |
CN110610706A (zh) * | 2019-09-23 | 2019-12-24 | 珠海格力电器股份有限公司 | 声音信号采集方法、装置、电器设备控制方法及电器设备 |
CN112634929B (zh) * | 2020-12-16 | 2024-07-23 | 普联国际有限公司 | 一种语音增强方法、装置及存储介质 |
CN113345438A (zh) * | 2021-05-28 | 2021-09-03 | 深圳大学 | 一种基于扬声器磁场的监听方法及系统 |
CN114023348B (zh) * | 2021-10-29 | 2024-07-23 | 西安邮电大学 | 一种基于自适应谱底优化的多带谱减法的语音增强方法 |
CN115206335B (zh) * | 2022-09-15 | 2022-12-02 | 北京中环高科环境治理有限公司 | 一种自动留样取证的噪声监测方法 |
CN117711419B (zh) * | 2024-02-05 | 2024-04-26 | 卓世智星(成都)科技有限公司 | 用于数据中台的数据智能清洗方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1081685A2 (en) * | 1999-09-01 | 2001-03-07 | TRW Inc. | System and method for noise reduction using a single microphone |
CN1354873A (zh) * | 1999-04-12 | 2002-06-19 | 艾利森电话股份有限公司 | 利用固定滤波器通过时域频谱减法减少信号噪声 |
CN1373930A (zh) * | 1999-09-07 | 2002-10-09 | 艾利森电话股份有限公司 | 一种利用频谱减法抑制噪声的数字滤波器设计方法和装置 |
-
2008
- 2008-06-30 CN CN2008101502052A patent/CN101320566B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1354873A (zh) * | 1999-04-12 | 2002-06-19 | 艾利森电话股份有限公司 | 利用固定滤波器通过时域频谱减法减少信号噪声 |
EP1081685A2 (en) * | 1999-09-01 | 2001-03-07 | TRW Inc. | System and method for noise reduction using a single microphone |
CN1373930A (zh) * | 1999-09-07 | 2002-10-09 | 艾利森电话股份有限公司 | 一种利用频谱减法抑制噪声的数字滤波器设计方法和装置 |
Non-Patent Citations (2)
Title |
---|
喻庆东,阿尔察.基于谱减法的一种改进语音增强算法.《科教文汇》.2006,188-189. * |
洪晓芬.基于谱减法的改进语音增强方法.《计算机工程与设计》.2007,第28卷(第22期),5453-5454、5477. * |
Also Published As
Publication number | Publication date |
---|---|
CN101320566A (zh) | 2008-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101320566B (zh) | 基于多带谱减法的非空气传导语音增强方法 | |
US10504539B2 (en) | Voice activity detection systems and methods | |
CN101625869B (zh) | 一种基于小波包能量的非空气传导语音增强方法 | |
CN103594094B (zh) | 自适应谱减法实时语音增强 | |
CN104157295B (zh) | 用于检测及抑制瞬态噪声的方法 | |
Chang et al. | Performance evaluation and enhancement of lung sound recognition system in two real noisy environments | |
Talmon et al. | Single-channel transient interference suppression with diffusion maps | |
WO2019205798A1 (zh) | 语音增强的方法、装置及设备 | |
CN104064196B (zh) | 一种基于语音前端噪声消除的提高语音识别准确率的方法 | |
Liu et al. | EMG burst presence probability: a joint time–frequency representation of muscle activity and its application to onset detection | |
WO2019205796A1 (zh) | 减少频域处理量的方法、装置及设备 | |
Dimoulas et al. | Novel wavelet domain Wiener filtering de-noising techniques: application to bowel sounds captured by means of abdominal surface vibrations | |
Li et al. | A new kind of non-acoustic speech acquisition method based on millimeter waveradar | |
Nelke | Wind noise reduction: signal processing concepts | |
Hasan et al. | Signal reshaping using dominant harmonic for pitch estimation of noisy speech | |
CN109102823A (zh) | 一种基于子带谱熵的语音增强方法 | |
Nabi et al. | A dual-channel noise reduction algorithm based on the coherence function and the bionic wavelet | |
Li et al. | A pitch estimation algorithm for speech in complex noise environments based on the radon transform | |
Sun et al. | Enhancement of Chinese speech based on nonlinear dynamics | |
CN103839544B (zh) | 语音激活检测方法和装置 | |
Kotnik et al. | Noise robust F0 determination and epoch-marking algorithms | |
Jin et al. | An improved speech endpoint detection based on spectral subtraction and adaptive sub-band spectral entropy | |
Huang et al. | Speech enhancement method based on multi-band excitation model | |
Dai et al. | An improved model of masking effects for robust speech recognition system | |
WO2019205797A1 (zh) | 噪音处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20101020 Termination date: 20110630 |