Nothing Special   »   [go: up one dir, main page]

CN103594094B - 自适应谱减法实时语音增强 - Google Patents

自适应谱减法实时语音增强 Download PDF

Info

Publication number
CN103594094B
CN103594094B CN201210290096.0A CN201210290096A CN103594094B CN 103594094 B CN103594094 B CN 103594094B CN 201210290096 A CN201210290096 A CN 201210290096A CN 103594094 B CN103594094 B CN 103594094B
Authority
CN
China
Prior art keywords
noise
voice
speech
frame
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210290096.0A
Other languages
English (en)
Other versions
CN103594094A (zh
Inventor
徐云剑
郭艾寅
王景芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan International Economics University
Original Assignee
Hunan International Economics University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan International Economics University filed Critical Hunan International Economics University
Priority to CN201210290096.0A priority Critical patent/CN103594094B/zh
Publication of CN103594094A publication Critical patent/CN103594094A/zh
Application granted granted Critical
Publication of CN103594094B publication Critical patent/CN103594094B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种自适应谱减法实时语音增强方法,该方法包括:构建含噪语音有语音与无语音判别的动态阈值,提出了依动态阈值的噪声谱时变更新原则;充分利用了相邻帧间的相关性提取信息,实现了纯净语音谱平滑迭代估计方法;针对非平稳噪声和强背景噪声下声音信号难以提取的实际问题,给出了一种自适应谱减法语音增强算法;采用快速跟踪噪声算法对非平稳噪声进行逐帧平滑更新,能较好的估计噪声谱;本发明提出的算法能更有效地抑制背景噪声,提高了去噪后的语音质量与可懂度。这一方法具有计算代价小,简单易实现,实时性好,它为强背景噪声的去噪和弱信号的检测提供了新的途径。

Description

自适应谱减法实时语音增强
技术领域
本发明属于语音信号处理技术领域,特别是指一种自适应谱减法实时语音增强方法。
背景技术
语音增强是语音处理的一项重要技术,在语音识别、语音编码、语音合成等领域中有着广泛的应用。语音增强的目的是从带噪语音中提取尽可能纯净的原始语音。但由于噪声信号都是随机产生的,完全消噪几乎不可能。因此,实际语音增强的目标主要有:提高语音清晰度,改善语音质量;提高语音可懂度,方便听者理解。
实际环境中,语音总会受到外界环境噪声的干扰,这些噪声包括从周围环境,传输媒介中引入的噪声,电器设备的噪声以及其他说话人的干扰等等。环境噪声会影响语音质量,严重的情况下语音将完全淹没到噪声中,无法分辨。语音质量的下降会使语音处理系统的性能急剧恶化。比如,语音识别系统在实验室环境中可取得相当好的效果,但在噪声环境中,尤其是在强噪声环境中使用时,系统的识别率将受到严重影响。低速语音编码同样会受到噪声的影响。由于语音生成模型是低速率语音编码的基础,当语音受到噪声干扰时,提取的模型参数将很不准确,重建的语音质量急剧恶化。此时,采用语音增强技术进行预处理,将有效的改善系统性能。因此,语音增强技术有着非常广泛的应用前景,可以应用于如多媒体语音通信、有线、无线语音通信、语音编码、助听设备和鲁棒性语音识别、多模态人机交互、口语对话等领域。
常规谱减法在频域中,因为带噪语音谱减去噪声谱后会有些较大的功率谱分量的剩余部分,所以在频域上呈现出随机出现的尖峰,相应地在时域上就呈现出一些类正弦信号的叠加,呈现出音乐的特性。由于此类残留噪声具有一定的节奏性起伏感,被称为“音乐噪声”。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的在于提出一种自适应谱减法实时语音增强方法,从带噪语音中提取尽可能纯净的原始语音,1)从含噪语音中判别有语音帧与无语音帧;2)判别阈值的时变更新;3)噪声谱的时变更新;4)语音谱的时变更新与语音增强。
(二)技术方案
为达到上述目的,本发明提供了一种自适应谱减法实时语音增强方法,该方法包括:
用ym(n),sm(n)和dm(n)分别表示第n帧时刻的带噪语音、纯净语音和加性噪声;假设纯净语音信号与噪声互不相关,有
(1)
对上式进行FFT变换,有
(2)
其中,Ym(ω),Sm(ω) 与Dm(ω)分别表示向量ym,sm和dm的FFT变换。两边平方:
谱减法是从含噪语音功率谱中减去噪声功率谱,并假设噪声功率谱密度(PSD)已知:
(3)
(4)
1 )动态阈值
由式(1),时域分帧帧长N,第m帧能量,[.]为取整,
计数器:
的序号为maxScript,则第m帧动态阈值为:
,如k=1.122 (5)
2)噪声谱更新
对式(1)进行离散FFT变换,有
(6)
是语音信号sm(n)的功率谱密度估计,是噪声dm(n)的功率谱密度估计,k为频率序号;
,则 ,其中:,如,否则,
3)语音谱更新与语音增强
,则,,否则,,其中:,如
优选地,所述提取的参数初始化:含噪语音信号分帧,帧长N= [0.25fs]点,fs为信号采样频率,帧移N/2;噪声谱初值确定取开始无语音段几帧。
优选地,所述该发明实现过程见图1,语音增强过程如图2所示。
优选地,含噪语音信号一帧一帧实时处理,如图3所示。
(三)有益效果
1、本发明提供的这种自适应谱减法实时语音增强方法,具有有效地去噪滤波,显著地提高语音识别系统性能与可懂度, 且在不同的噪声环境和信噪比条件下具有鲁棒性。本算法复杂度低,计算代价小,实时性强,简洁易实现,做到了有效性与实时性双满足;
2、本发明提供的这种自适应谱减法实时语音增强方法优势与特色:
1)实现了一种动态阈值;
2)提出了噪声谱时变更新原则;
3)充分利用了相邻帧间的相关性提取信息,实现了纯净语音谱平滑迭代估计方法;
4)算法复杂度低,可满足实时性;
3、本发明提供的这种自适应谱减法实时语音增强方法针对非平稳环境噪声,从噪声谱滤波的角度提出一种语音去噪算法。采用快速跟踪噪声算法对非平稳噪声进行逐帧平滑更新,能较好的估计噪声谱;这一方法具有计算简单, 它为强背景噪声的去噪和弱信号的检测提供了新的途径。
附图说明
图1本发明提供的一种自适应谱减法实时语音增强方法流程图;
图2为本发明提供的语音增强示意图;
图3为本发明提供的语音分帧示意图;
图4为本发明提供的谱减法实现结构图;
图5为本发明提供的自适应谱减法滤波法滤波前后结果对比;
图6为本发明提供的SNR=5dB不同噪声下语音增强方法的波形与语谱图比较;
图7 为本发明提供的SNR=5dB下同一语音不同噪声下语音增强方法的波形与语谱图比较。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明的核心内容是:实现了一种动态阈值;提出了噪声谱时变更新原则;充分利用了相邻帧间的相关性提取信息,实现了纯净语音谱平滑迭代估计方法,达到语音增强目的。
如图1所示,图1为本发明提供的一种自适应谱减法实时语音增强方法流程图,该方法包括以下步骤:
步骤101:参数初始化:含噪语音信号分帧,帧长N= [0.25fs]点,fs为信号采样频率,帧移N/2;噪声谱初值;
步骤102:分帧:用ym(n),sm(n)和dm(n)分别表示第m帧时刻的带噪语音、纯净语音和加性噪声;
步骤103:计算第m帧信号能量与阈值;
步骤104:第m帧噪声谱时变更新;
步骤105:第m帧语音谱迭代更新,增强语音信号恢复;
步骤106:下一帧信号实时处理转步骤102。
上述步骤103中所述能量与阈值计算步骤包括:
时域分帧帧长N,第m帧能量,[.]为取整,
计数器:
则第m帧动态阈值为:
,如k=1.122。
上述步骤1024中所述噪声谱时变更新的形成过程包括:
离散FFT变换,有
是语音信号sm(n)的功率谱密度估计,是噪声dm(n)的功率谱密度估计,k为频率序号。
,则 ,其中:,如,否则,
上述步骤105中所述语音谱迭代更新,增强语音信号恢复的形成过程包括:
,则,,否则,,其中:,如
基于图1所示的一种自适应谱减法实时语音增强方法流程图,图2进一步示出了语音增强过程示意过程。
以下结合具体的实施例,对本发明提供的这种基于自适应谱减法实时语音增强进一步详细说明;实验取背景噪声选自AURORA库与Noisex-92数据库,纯净语音“The birchcanoe slid on the smooth planks.”文件sp01.wav,采样频率fs=16kHZ。在语音分帧过程中,帧长取25ms,即帧长M=[0.25fs]点,帧移,截取开始噪声帧N0=10;
采用信噪比
来定量地分析算法的去噪效果。客观上从语音波形、语谱图、信噪比、分段信噪比(Time-domain segmental SNR,-10<SNRseg<35dB)与感知语音质量评价(Perceptualevaluation of speech quality ,1<PESQ<4.5)提高等几个方面对本算法的性能进行了综合分析;
实验1 选取非平稳时变噪声源—嘈杂人声Babble (crowd of people)频率混在语音频段,一般方法很难奏效,本算法能到达了预期效果。图5为自适应谱减法滤波法滤波前后结果对比;
计算滤波前的信噪比SNRin=4.33dB、滤波后的信噪比SNRout=6.55dB,在嘈杂人声(babble)本算法滤波信噪比Efficiency=提高了51.27%。倒数第二幅图为时域能量与动态阈值变化,最后一幅为语音增强前后频域能量之比变化趋势;
实验2 用本文自适应谱减法滤波语音增强在不同噪声背景:白噪声(white)、粉色噪声(pink)、航空噪声(f16)、工厂噪声(factory)与人的嘈杂声(babble)在信噪比SNR=5dB时比较,波形与语谱图比较结果见图6。信噪比SNR=5dB不同噪声语音增强质量评价结果见表I;
实验3 用本文自适应谱减法滤波语音增强,在同语音加载不同噪声背景:白噪声(white)、粉色噪声(pink)、航空噪声(f16)、工厂噪声(factory)与人的嘈杂声(babble)在信噪比SNR=5dB时比较,波形与语谱图比较结果见图7,考查算法的实时跟踪结果。其语音增强质量评价]结果见表I最后一栏。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.基于自适应谱减法实时语音增强方法,其特征在于,用ym(n),sm(n)和dm(n)分别表示第m帧时刻的带噪语音、纯净语音和加性噪声,假设纯净语音信号与噪声互不相关,有
时域分帧帧长N,n为帧中序号,第m帧能量[.]为取整,MAX=max{Energy(i),m-L<i≤m},
计数器:js(j)=0,1≤j≤L,js(flag(i))=js(flag(i))+1,1≤i≤L;
max{js(j),1≤j≤L}的序号为maxscript,则第m帧动态阈值为:
噪声谱:Pd(ω)=E{|D(ω)|2}
Ym(ω)=Sm(ω)+Dm(ω)
注释说明:Ym(ω)、Sm(ω)与Dm(ω)分别表示向量ym(n)、sm(n)与dm(n)的FFT变换;
是语音信号sm(n)的功率谱密度估计,是噪声dm(n)的功率谱密度估计,k为频率序号;
当Energy(m)<Threshold(m)第m帧阈值,则
其中:0<α<1,
否则,
语音谱更新与语音增强:
则,
否则,其中:0<β<1。
CN201210290096.0A 2012-08-15 2012-08-15 自适应谱减法实时语音增强 Expired - Fee Related CN103594094B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210290096.0A CN103594094B (zh) 2012-08-15 2012-08-15 自适应谱减法实时语音增强

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210290096.0A CN103594094B (zh) 2012-08-15 2012-08-15 自适应谱减法实时语音增强

Publications (2)

Publication Number Publication Date
CN103594094A CN103594094A (zh) 2014-02-19
CN103594094B true CN103594094B (zh) 2016-09-07

Family

ID=50084200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210290096.0A Expired - Fee Related CN103594094B (zh) 2012-08-15 2012-08-15 自适应谱减法实时语音增强

Country Status (1)

Country Link
CN (1) CN103594094B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023572A (zh) * 2014-04-16 2015-11-04 王景芳 一种含噪语音端点鲁棒检测方法
CN105225673B (zh) * 2014-06-09 2020-12-04 杜比实验室特许公司 用于噪声水平估计的方法、系统和介质
CN105224844B (zh) * 2014-07-01 2020-01-24 腾讯科技(深圳)有限公司 验证方法、系统和装置
CN104134444B (zh) * 2014-07-11 2017-03-15 福建星网视易信息系统有限公司 一种基于mmse的歌曲去伴奏方法和装置
CN104200811A (zh) * 2014-08-08 2014-12-10 华迪计算机集团有限公司 对语音信号进行自适应谱减消噪处理的方法和装置
CN104269178A (zh) * 2014-08-08 2015-01-07 华迪计算机集团有限公司 对语音信号进行自适应谱减和小波包消噪处理的方法和装置
CN104157294B (zh) * 2014-08-27 2017-08-11 中国农业科学院农业信息研究所 一种农产品市场要素信息采集的鲁棒性语音识别方法
CN104810023B (zh) * 2015-05-25 2018-06-19 河北工业大学 一种用于语音信号增强的谱减法
CN106531156A (zh) * 2016-10-19 2017-03-22 兰州交通大学 一种基于室内多移动源实时处理的语音信号增强技术方法
CN108899052B (zh) * 2018-07-10 2020-12-01 南京邮电大学 一种基于多带谱减法的帕金森语音增强方法
CN109102823B (zh) * 2018-09-05 2022-12-06 河海大学 一种基于子带谱熵的语音增强方法
CN110428841B (zh) * 2019-07-16 2021-09-28 河海大学 一种基于不定长均值的声纹动态特征提取方法
CN112992153B (zh) * 2021-04-27 2021-08-17 太平金融科技服务(上海)有限公司 音频处理方法、声纹识别方法、装置、计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1065656B1 (en) * 1994-05-13 2003-09-03 Sony Corporation Method for reducing noise in an input speech signal
CN101894563A (zh) * 2010-07-15 2010-11-24 瑞声声学科技(深圳)有限公司 语音增强的方法
CN101968957A (zh) * 2010-10-28 2011-02-09 哈尔滨工程大学 一种噪声条件下的语音检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1065656B1 (en) * 1994-05-13 2003-09-03 Sony Corporation Method for reducing noise in an input speech signal
CN101894563A (zh) * 2010-07-15 2010-11-24 瑞声声学科技(深圳)有限公司 语音增强的方法
CN101968957A (zh) * 2010-10-28 2011-02-09 哈尔滨工程大学 一种噪声条件下的语音检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Improved Voice Activity Detection Based on Iterative Spectral Subtraction and Double Thresholds for CVR";Xiangbin Li,etc;《IEEE Conference Publications》;20080803;全文 *
"几种无语音检测噪音估计方法的比较研究";章文义,朱杰;《计算机工程与设计》;20031028;第24卷(第10期);全文 *
"基于计算机声卡的谱相减语音增强系统";纪元法,欧阳缮,曾庆宁;《电声技术》;20050917(第09期);全文 *

Also Published As

Publication number Publication date
CN103594094A (zh) 2014-02-19

Similar Documents

Publication Publication Date Title
CN103594094B (zh) 自适应谱减法实时语音增强
CN103854662B (zh) 基于多域联合估计的自适应语音检测方法
CN102982801B (zh) 一种用于鲁棒语音识别的语音特征提取方法
CN102664006B (zh) 基于时频域分析的异常人声检测方法
CN102915742B (zh) 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
CN101320566B (zh) 基于多带谱减法的非空气传导语音增强方法
CN103646649A (zh) 一种高效的语音检测方法
CN106486131A (zh) 一种语音去噪的方法及装置
CN106971740A (zh) 基于语音存在概率和相位估计的语音增强方法
WO2014153800A1 (zh) 语音识别系统
CN105023572A (zh) 一种含噪语音端点鲁棒检测方法
CN102436809A (zh) 英语口语机考系统中网络语音识别方法
CN105679312A (zh) 一种噪声环境下声纹识别的语音特征处理方法
CN103594093A (zh) 基于信噪比软掩蔽语音增强方法
CN106024010A (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
CN108305639A (zh) 语音情感识别方法、计算机可读存储介质、终端
Wang et al. Joint noise and mask aware training for DNN-based speech enhancement with sub-band features
CN109493880A (zh) 一种谐波信号基频初步筛选的方法
CN103400578B (zh) 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置
CN112233657A (zh) 一种基于低频音节识别的语音增强方法
Dash et al. Mitigating information interruptions by COVID-19 face masks: a three-stage speech enhancement scheme
Jančovič et al. Speech enhancement based on Sparse Code Shrinkage employing multiple speech models
Gupta et al. Speech enhancement using MMSE estimation and spectral subtraction methods
Han et al. Speech enhancement based on improved deep neural networks with MMSE pretreatment features
Hassani et al. Speech enhancement based on spectral subtraction in wavelet domain

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: HUNAN INTERNATIONAL ECONOMICS UNIVERSITY

Free format text: FORMER OWNER: WANG JINGFANG

Effective date: 20140605

C41 Transfer of patent application or patent right or utility model
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Xu Yunjian

Inventor after: Guo Aiyin

Inventor after: Wang Jingfang

Inventor before: Wang Jingfang

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: WANG JINGFANG TO: XU YUNJIAN GUO AIYIN WANG JINGFANG

TA01 Transfer of patent application right

Effective date of registration: 20140605

Address after: Three road 410205 in Hunan Province, Yuelu District City, Changsha Fenglin No. 822 School of information science and engineering Hunan International Economics University

Applicant after: Hunan International Economics University

Address before: 410205, No. 17, No. 402, Yangming Mountain Villa, Changsha, Hunan, Yuelu District

Applicant before: Wang Jingfang

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160907

Termination date: 20180815

CF01 Termination of patent right due to non-payment of annual fee