CN108735213B - 一种基于相位补偿的语音增强方法及系统 - Google Patents
一种基于相位补偿的语音增强方法及系统 Download PDFInfo
- Publication number
- CN108735213B CN108735213B CN201810533857.8A CN201810533857A CN108735213B CN 108735213 B CN108735213 B CN 108735213B CN 201810533857 A CN201810533857 A CN 201810533857A CN 108735213 B CN108735213 B CN 108735213B
- Authority
- CN
- China
- Prior art keywords
- noise
- spectrum
- signal
- amplitude
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000001228 spectrum Methods 0.000 claims abstract description 237
- 238000001914 filtration Methods 0.000 claims description 16
- 238000009499 grossing Methods 0.000 claims description 7
- 201000007201 aphasia Diseases 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000005236 sound signal Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 42
- 230000000694 effects Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开一种基于相位补偿的语音增强方法及系统。所述方法包括:获取待处理的含噪语音信号;对含噪语音信号进行短时傅里叶变换,进而获得含噪语音信号的幅度谱和相位谱;获得相位谱补偿函数,其中补偿因子为随含噪语音信噪比变化而相应变化的Sigmoid型函数;根据相位谱补偿函数对含噪语音信号的相位谱进行补偿,得到补偿后的相位谱;根据含噪语音信号的幅度谱获得纯净语音信号的幅值;将补偿后的相位谱与纯净语音信号的幅值重构,获得增强后的语音信号。采用本发明的方法或系统,相比传统基于相位补偿语音增强方法而言,对噪声的估计更加接近真实噪声功率谱,能够有效抑制音频信号中的噪声,在增强语音信号质量的同时提高其可懂度。
Description
技术领域
本发明涉及语音处理领域,特别是涉及一种基于相位补偿的语音增强方法及系统。
背景技术
在许多情况下,如正常的语音通信,听力辅助和自动语音识别中,语音信号由于受到不同类型的背景噪声干扰会严重退化。因此,从退化语音中去除噪声成分一直是研究的主要目的。当前,大多数单通道语音增强方法是改变带噪语音的幅度谱实现语音增强的效果,而忽略相位谱的影响。这是因为早期的研究表明相位谱在信噪比较高的情况下感知效果不明显,因此,通过改变幅度谱实现语音增强是普遍的做法。
而最近研究发现相位谱中也包含了很多与语音可懂度相关的信息,这些信息对于语音增强起到一定的作用。现有的相位谱补偿算法中补偿因子固定,无法对含噪语音的相位谱进行灵活的补偿,导致语音增强效果差。
发明内容
本发明的目的是提供一种基于相位补偿的语音增强方法及系统,以提高语音增强的效果。
为实现上述目的,本发明提供了如下方案:
一种基于相位补偿的语音增强方法,所述方法包括:
获取待处理的含噪语音信号;
对所述含噪语音信号进行短时傅里叶变换,进而获得所述含噪语音信号的幅度谱和相位谱;
获得相位谱补偿函数,所述相位谱补偿函数的补偿因子λnew为其中c为固定经验值;k为频点索引,n为帧数,|Y(n,k)|为所述含噪语音信号第n帧第k个频率点的幅度谱,|D(n,k)|为噪声第n帧第k个频率点的幅度谱;
根据所述相位谱补偿函数对所述含噪语音信号的相位谱进行补偿,得到补偿后的相位谱;
根据所述含噪语音信号的幅度谱获得纯净语音信号的幅值;
将所述补偿后的相位谱与所述纯净语音信号的幅值重构,获得增强后的语音信号。
可选的,所述根据所述含噪语音信号的幅度谱获得纯净语音信号的幅值,具体包括:
根据所述含噪语音信号的幅度谱,采用改进决策导向算法获得每一帧噪声的改进的先验信噪比;
根据所述改进的先验信噪比,采用基于语音存在概率的噪声功率谱估计算法获得每一帧噪声的功率谱;
根据所述每一帧噪声的功率谱,采用维纳滤波法获得纯净语音信号的幅值。
可选的,所述根据所述含噪语音信号的幅度谱,采用改进决策导向算法获得每一帧噪声的改进的先验信噪比,具体包括:
根据决策导向算法估计先验信噪比 其中α为时频相关平滑因子,|Y(n-1,k)|为含噪语音第n-1帧第k个频率点的幅度谱,|Y(n,k)|为含噪语音当前第n帧第k个频率点的幅度谱,是估算出的第n帧的噪声幅度值,max[·]是求最大值函数;
可选的,所述根据所述改进的先验信噪比,采用基于语音存在概率的噪声功率谱估计算法获得每一帧噪声的功率谱,具体包括:
根据所述改进的先验信噪比,采用贝叶斯公式确定第n帧后验语音存在概率P(H1|Y)和第n帧后验语音缺失概率P(H0|Y);
可选的,所述根据所述改进的先验信噪比,采用贝叶斯公式确定第n帧后验语音存在概率P(H1|Y),之后还包括:
判断是否满足PH1mean>0.9,如果是,更新第n帧后验语音存在概率P(H1|Y)的值为PH1mean。
可选的,所述根据所述每一帧噪声的功率谱,采用维纳滤波法获得纯净语音信号的幅值,具体包括:
采用谱减法获得纯净语音的功率谱Ps(n,k);
可选的,所述将所述补偿后的相位谱与所述纯净语音信号的幅值重构,获得增强后的语音信号,具体包括:
依次获得每一帧增强后的语音信号,进而得到所述待处理的含噪语音信号对应的增强后的语音信号。
本发明还提供一种基于相位补偿的语音增强系统,所述系统包括:
含噪语音信号获取模块,用于获取待处理的含噪语音信号;
短时傅里叶变换模块,用于对所述含噪语音信号进行短时傅里叶变换,进而获得所述含噪语音信号的幅度谱和相位谱;
相位谱补偿函数获取模块,用于获得相位谱补偿函数,所述相位谱补偿函数的补偿因子λnew为其中c为固定经验值;k为频点索引,n为帧数,|Y(n,k)|为所述含噪语音信号第n帧第k个频率点的幅度谱,|D(n,k)|为噪声第n帧第k个频率点的幅度谱;
相位谱补偿模块,用于根据所述相位谱补偿函数对所述含噪语音信号的相位谱进行补偿,得到补偿后的相位谱;
纯净语音信号幅值获取模块,用于根据所述含噪语音信号的幅度谱获得纯净语音信号的幅值;
重构模块,用于将所述补偿后的相位谱与所述纯净语音信号的幅值重构,获得增强后的语音信号。
可选的,所述纯净语音信号幅值获取模块,具体包括:
改进的先验信噪比获取单元,用于根据所述含噪语音信号的幅度谱,采用改进决策导向算法获得每一帧噪声的改进的先验信噪比;
噪声功率谱获取单元,用于根据所述改进的先验信噪比,采用基于语音存在概率的噪声功率谱估计算法获得每一帧噪声的功率谱;
纯净语音信号幅值获取单元,用于根据所述每一帧噪声的功率谱,采用维纳滤波法获得纯净语音信号的幅值。
可选的,所述改进的先验信噪比获取单元具体包括:
先验信噪比估计子单元,用于根据决策导向算法估计先验信噪比 其中α为时频相关平滑因子,|Y(n-1,k)|为含噪语音第n-1帧第k个频率点的幅度谱,|Y(n,k)|为含噪语音当前第n帧第k个频率点的幅度谱,是估算出的第n帧第k个频率点的噪声幅度值,max[·]是求最大值函数;
改进的先验信噪比获取子单元,用于根据所述增益函数采用改进的决策导向算法获得第n帧噪声的改进的先验信噪比 其中μ为基于后验信噪比的Sigmoid型权值,其表达式为b是尺度因子;其中|D(n,k)|为噪声第n帧第k个频率点的幅度谱。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明将补偿因子设置为一个随含噪语音信噪比变化而相应变化的Sigmoid型函数,由于Sigmoid函数随自变量单调递增的性质,在语音存在的区域信噪比很高,补偿因子会相对较小,从而能够跟踪突然的信噪比变化,对含噪语音的频谱进行补偿;反之类似。相比传统相位谱补偿方法而言,该方法在不同信噪比下的语音质量显著改善,同时语音可懂度也有了明显提升。
本发明的方法在每个频率点根据语音输入信噪比计算先验语音存在概率而不是使用一个固定值,在噪声急剧变化时仍能实时跟踪噪声,相比传统的基于语音存在概率噪声估计方法而言,整体包络与真实的噪声功率谱更加接近。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于相位补偿的语音增强方法实施例1的流程示意图;
图2为本发明基于相位补偿的语音增强方法实施例2的流程示意图;
图3为本发明基于相位补偿的语音增强系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
首先说明传统的相位补偿方法:
假设x(t)表示纯净语音,v(t)表示平稳加性高斯噪声,且x(t)与v(t)相互独立,则含噪语音y(t)的时域表达式为y(t)=x(t)+v(t)
对其作短时傅里叶变换,其频域表达式为其中,k为频点索引,n为帧数,N为离散傅里叶变换长度,w(n)为语音短时频谱分析中的窗函数。由于加汉明窗得到的短时频谱相对平滑,故应用较为普遍。含噪语音频谱Y(n,k)的极坐标形式为Y(n,k)=|Y(n,k)|exp(j∠Y(n,k)),|Y(n,k)|为短时傅里叶变换的幅度谱,∠Y(n,k)为短时傅里叶变换的相位谱。
补偿后的频谱表达式为Y∧(n,k)=Y(n,k)+∧(n,k),其中,Y(n,k)为短时傅里叶变换的频谱,∧(n,k)为相位谱补偿函数。
对补偿后的频谱取相位得到相位谱∠Y∧(n,k)=arg[Y∧(n,k)],其中,arg(·)表示复数幅角函数。
将补偿后的相位谱与短时傅里叶变换的幅度谱相结合得到语音增强后的频谱表达式为S∧(n,k)=|Y(n,k)|exp(j∠Y∧(n,k))。
针对传统的相位谱补偿方法中补偿因子固定,无法对含噪语音相位进行灵活的补偿的问题,本发明提出一种基于每帧语音输入信噪比的Sigmoid型相位谱补偿函数。
图1为本发明基于相位补偿的语音增强方法实施例1的流程示意图。如图所示,所述方法包括:
步骤100:获取待处理的含噪语音信号。
步骤200:对含噪语音信号进行短时傅里叶变换,进而获得含噪语音信号的幅度谱和相位谱。此步骤与传统算法中的方式相同,含噪语音频谱Y(n,k)的极坐标形式为Y(n,k)=|Y(n,k)|exp(j∠Y(n,k)),|Y(n,k)|为短时傅里叶变换的幅度谱,∠Y(n,k)为短时傅里叶变换的相位谱,具体过程此处不再赘述。
步骤300:获得相位谱补偿函数。所述相位谱补偿函数的补偿因子λnew为其中c为固定经验值;k为频点索引,n为帧数,|Y(n,k)|为所述含噪语音信号第n帧第k个频率点的幅度谱,|D(n,k)|为噪声第n帧第k个频率点的幅度谱。
本发明提出一种新的相位谱补偿函数,对∧(n,k)中的补偿因子λ进行改进,将其设置为一个随含噪语音变化而相应变化的Sigmoid型函数,该函数的表达式为其中,c为固定经验值,取值3.5,|Y(n,k)|为含噪语音短时傅里叶变换的幅度谱,|D(n,k)|为噪声短时傅里叶变换的幅度谱。
步骤400:根据相位谱补偿函数对含噪语音信号的相位谱进行补偿,得到补偿后的相位谱。将新的相位谱补偿函数代入补偿后的频谱表达式得到新的频谱,并取相位可得新的相位谱为∠Ynew(n,k)=arg[Ynew(n,k)]=arg[Y(n,k)+^new(n,k)],arg(·)表示取相位函数。Y(n,k)为短时傅里叶变换的频谱,∧new(n,k)为新的相位谱补偿函数。
步骤500:根据含噪语音信号的幅度谱获得纯净语音信号的幅值。
具体包括:
(1)根据所述含噪语音信号的幅度谱,采用改进决策导向算法获得每一帧噪声的改进的先验信噪比。
相位信息只能捕捉到语音的细节信息,无法对语音的整体结构做出估计,故对相位谱补偿之后还需结合幅度谱进行语音增强。得到相位谱后还不能估计出语音,必须结合幅度谱,本发明用的维纳滤波法估计幅度谱,但前提必须估计噪声,噪声估计的准确性直接关系到语音增强器的幅度谱估计,所以本发明提出了新的基于语音存在概率的噪声功率谱估计算法,通过改进决策导向(Decision-Directed,DD)算法来估计先验信噪比,具体的方案如下:
其中α为时频相关平滑因子,可以选取α=0.5。|Y(n-1,k)|为含噪语音前一帧短时傅里叶变换的幅度谱。|Y(n,k)|为含噪语音当前帧短时傅里叶变换的幅度谱。是估算出的噪声幅度值。max[·]是求最大值函数。
最后,通过改进DD来估计先验信噪比,得到改进的先验信噪比,即
(2)根据所述改进的先验信噪比,采用基于语音存在概率的噪声功率谱估计算法获得每一帧噪声的功率谱。具体过程如下:
首先,根据贝叶斯公式计算后验语音存在概率P(H1|Y):
用H1代表speech present(语音存在),用H0代表speech absent(语音缺失),根据语音决策得到P(H1|Y):
P(H1|Y)=P(H1)P(Y|H1)/(P(H1)P(Y|H1)+P(H0)P(Y|H0))
其中,P(H1)为语音存在的概率,P(H0)为语音缺失的概率,假设语音存在和语音缺失的概率相等,即P(H1)=P(H0)=0.5,P(Y|H1)为Y在语音存在条件下的发生概率,P(Y|H0)为Y在语音缺失条件下的发生概率。
由于STFT(短时傅里叶变换)系数服从复高斯分布,概率P(Y|H1)和P(Y|H0)可近似表示为:
然后,对噪声功率谱进行初步估计:
此步骤中,还包括第n帧后验语音存在概率P(H1|Y)的更新过程,当PH1mean>0.9时,更新第n帧后验语音存在概率P(H1|Y)的值为PH1mean,其中PH1mean=(1-I)*PH1mean+I*P(H1|Y),PH1mean为后验语音存在概率P(H1|Y)的均值。I为语音存在决策,其表达式为
最后,更新噪声功率谱:
采用谱减法获得纯净语音的功率谱Ps(n,k);
步骤600:将补偿后的相位谱与纯净语音信号的幅值重构,获得增强后的语音信号。
结合维纳滤波中估计出的第n帧的纯净语音幅度谱与改进Sigmoid型相位谱,得到在第n帧频域上增强后的语音信号为其中为估算出的第n帧的纯净语音的幅度谱,∠Ynew(n,k)为估算出的第n帧补偿后的相位谱。
依次获得每一帧增强后的语音信号,对其做傅里叶逆变换,得到最终增强后的时域信号为s(t)=TIFFT(S(n,k))
图2为本发明基于相位补偿的语音增强方法实施例2的流程示意图。如图2所示,所述方法包括:
1)对含噪语音y(t)进行STFT变换得到含噪语音频谱(幅度谱和相位谱);
其中,Ps(n,k)是谱减法估计出的纯净语音功率谱,用带噪语音功率谱减去噪声功率谱得到;Px(n,k)是带噪语音的功率谱;
5)对1)得到的相位谱采用相位谱补偿函数进行补偿,得到补偿后的相位谱;
图3为本发明基于相位补偿的语音增强系统的结构示意图。如图所示,所述系统包括:
含噪语音信号获取模块301,用于获取待处理的含噪语音信号;
短时傅里叶变换模块302,用于对所述含噪语音信号进行短时傅里叶变换,进而获得所述含噪语音信号的幅度谱和相位谱;
相位谱补偿函数获取模块303,用于获得相位谱补偿函数,所述相位谱补偿函数的补偿因子λnew为其中c为固定经验值;k为频点索引,n为帧数,|Y(n,k)|为所述含噪语音信号第n帧第k个频率点的幅度谱,|D(n,k)|为噪声第n帧第k个频率点的幅度谱;
相位谱补偿模块304,用于根据所述相位谱补偿函数对所述含噪语音信号的相位谱进行补偿,得到补偿后的相位谱;
纯净语音信号幅值获取模块305,用于根据所述含噪语音信号的幅度谱获得纯净语音信号的幅值;
重构模块306,用于将所述补偿后的相位谱与所述纯净语音信号的幅值重构,获得增强后的语音信号。
其中,所述纯净语音信号幅值获取模块305,具体包括:
改进的先验信噪比获取单元,用于根据所述含噪语音信号的幅度谱,采用改进决策导向算法获得每一帧噪声的改进的先验信噪比;
噪声功率谱获取单元,用于根据所述改进的先验信噪比,采用基于语音存在概率的噪声功率谱估计算法获得每一帧噪声的功率谱;
纯净语音信号幅值获取单元,用于根据所述每一帧噪声的功率谱,采用维纳滤波法获得纯净语音信号的幅值。
所述改进的先验信噪比获取单元具体包括:
先验信噪比估计子单元,用于根据决策导向算法估计先验信噪比 其中α为时频相关平滑因子,|Y(n-1,k)|为含噪语音第n-1帧第k个频率点的幅度谱,|Y(n,k)|为含噪语音当前第n帧第k个频率点的幅度谱,是估算出的第n帧第k个频率点的噪声幅度值,max[·]是求最大值函数;
改进的先验信噪比获取子单元,用于根据所述增益函数采用改进的决策导向算法获得第n帧噪声的改进的先验信噪比 其中μ为基于后验信噪比的Sigmoid型权值,其表达式为b是尺度因子;其中|D(n,k)|为噪声第n帧第k个频率点的幅度谱。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种基于相位补偿的语音增强方法,其特征在于,所述方法包括:
获取待处理的含噪语音信号;
对所述含噪语音信号进行短时傅里叶变换,进而获得所述含噪语音信号的幅度谱和相位谱;
获得相位谱补偿函数,所述相位谱补偿函数的补偿因子λnew为其中c为固定经验值;k为频点索引,n为帧数,|Y(n,k)|为所述含噪语音信号第n帧第k个频率点的幅度谱,|D(n,k)|为噪声第n帧第k个频率点的幅度谱;
根据所述相位谱补偿函数对所述含噪语音信号的相位谱进行补偿,得到补偿后的相位谱;
根据所述含噪语音信号的幅度谱获得纯净语音信号的幅值;具体包括:根据所述含噪语音信号的幅度谱,采用改进决策导向算法获得每一帧噪声的改进的先验信噪比;根据所述改进的先验信噪比,采用基于语音存在概率的噪声功率谱估计算法获得每一帧噪声的功率谱;根据所述每一帧噪声的功率谱,采用维纳滤波法获得纯净语音信号的幅值;
将所述补偿后的相位谱与所述纯净语音信号的幅值重构,获得增强后的语音信号;
所述根据所述改进的先验信噪比,采用基于语音存在概率的噪声功率谱估计算法获得每一帧噪声的功率谱,具体包括:根据所述改进的先验信噪比,采用贝叶斯公式确定第n帧后验语音存在概率P(H1|Y)和第n帧后验语音缺失概率P(H0|Y);采用公式对第n帧噪声的功率谱进行初步估计,其中|Y(n,k)|为含噪语音当前第n帧第k个频率点幅度谱,是估算出的第n帧第k个频率点的噪声幅度值;根据公式更新第n帧噪声的功率谱,其中为估算出的第n-1帧第k个频率点噪声的幅度值,|N(n,k)|2为初步估计出的第n帧第k个频率点噪声的功率谱,为获得的更新后的第n帧第k个频率点噪声的功率谱;
2.根据权利要求1所述的方法,其特征在于,所述根据所述含噪语音信号的幅度谱,采用改进决策导向算法获得每一帧噪声的改进的先验信噪比,具体包括:
根据决策导向算法估计先验信噪比 其中α为时频相关平滑因子,|Y(n-1,k)|为含噪语音第n-1帧第k个频率点的幅度谱,|Y(n,k)|为含噪语音当前第n帧第k个频率点的幅度谱,是估算出的第n帧的噪声幅度值,max[·]是求最大值函数;
5.一种基于相位补偿的语音增强系统,其特征在于,所述系统包括:
含噪语音信号获取模块,用于获取待处理的含噪语音信号;
短时傅里叶变换模块,用于对所述含噪语音信号进行短时傅里叶变换,进而获得所述含噪语音信号的幅度谱和相位谱;
相位谱补偿函数获取模块,用于获得相位谱补偿函数,所述相位谱补偿函数的补偿因子λnew为其中c为固定经验值;k为频点索引,n为帧数,|Y(n,k)|为所述含噪语音信号第n帧第k个频率点的幅度谱,|D(n,k)|为噪声第n帧第k个频率点的幅度谱;
相位谱补偿模块,用于根据所述相位谱补偿函数对所述含噪语音信号的相位谱进行补偿,得到补偿后的相位谱;
纯净语音信号幅值获取模块,用于根据所述含噪语音信号的幅度谱获得纯净语音信号的幅值;所述纯净语音信号幅值获取模块具体包括:改进的先验信噪比获取单元,用于根据所述含噪语音信号的幅度谱,采用改进决策导向算法获得每一帧噪声的改进的先验信噪比;噪声功率谱获取单元,用于根据所述改进的先验信噪比,采用基于语音存在概率的噪声功率谱估计算法获得每一帧噪声的功率谱;纯净语音信号幅值获取单元,用于根据所述每一帧噪声的功率谱,采用维纳滤波法获得纯净语音信号的幅值;
重构模块,用于将所述补偿后的相位谱与所述纯净语音信号的幅值重构,获得增强后的语音信号;
所述噪声功率谱获取单元获得每一帧噪声的功率谱的具体过程为:
根据所述改进的先验信噪比,采用贝叶斯公式确定第n帧后验语音存在概率P(H1|Y)和第n帧后验语音缺失概率P(H0|Y);采用公式对第n帧噪声的功率谱进行初步估计,其中|Y(n,k)|为含噪语音当前第n帧第k个频率点幅度谱,是估算出的第n帧第k个频率点的噪声幅度值;根据公式更新第n帧噪声的功率谱,其中为估算出的第n-1帧第k个频率点噪声的幅度值,|N(n,k)|2为初步估计出的第n帧第k个频率点噪声的功率谱,为获得的更新后的第n帧第k个频率点噪声的功率谱;所述根据所述改进的先验信噪比,采用贝叶斯公式确定第n帧后验语音存在概率P(H1|Y),之后还包括:根据公式PH1mean=(1-I)*PH1mean+I*P(H1|Y)确定后验语音存在概率P(H1|Y)的均值PH1mean,其中I为语音存在决策,判断是否满足PH1mean>0.9,如果是,更新第n帧后验语音存在概率P(H1|Y)的值为PH1mean。
6.根据权利要求5所述的系统,其特征在于,所述改进的先验信噪比获取单元具体包括:
先验信噪比估计子单元,用于根据决策导向算法估计先验信噪比 其中α为时频相关平滑因子,|Y(n-1,k)|为含噪语音第n-1帧第k个频率点的幅度谱,|Y(n,k)|为含噪语音当前第n帧第k个频率点的幅度谱,是估算出的第n帧第k个频率点的噪声幅度值,max[·]是求最大值函数;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810533857.8A CN108735213B (zh) | 2018-05-29 | 2018-05-29 | 一种基于相位补偿的语音增强方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810533857.8A CN108735213B (zh) | 2018-05-29 | 2018-05-29 | 一种基于相位补偿的语音增强方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108735213A CN108735213A (zh) | 2018-11-02 |
CN108735213B true CN108735213B (zh) | 2020-06-16 |
Family
ID=63935714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810533857.8A Active CN108735213B (zh) | 2018-05-29 | 2018-05-29 | 一种基于相位补偿的语音增强方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108735213B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022066328A1 (en) * | 2020-09-25 | 2022-03-31 | Intel Corporation | Real-time dynamic noise reduction using convolutional networks |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215671B (zh) * | 2018-11-08 | 2022-12-02 | 西安电子科技大学 | 基于MFrSRRPCA算法的语音增强系统及方法 |
CN112997249B (zh) * | 2018-11-30 | 2022-06-14 | 深圳市欢太科技有限公司 | 语音处理方法、装置、存储介质及电子设备 |
CN110060700B (zh) * | 2019-03-12 | 2021-07-30 | 上海微波技术研究所(中国电子科技集团公司第五十研究所) | 基于参数谱估计的短序列音频分析方法 |
CN110797041B (zh) | 2019-10-21 | 2023-05-12 | 珠海市杰理科技股份有限公司 | 语音降噪处理方法、装置、计算机设备及存储介质 |
CN111010179B (zh) * | 2019-11-09 | 2023-11-10 | 许继集团有限公司 | 一种信号补偿校准方法及系统 |
CN111128230B (zh) * | 2019-12-31 | 2022-03-04 | 广州市百果园信息技术有限公司 | 语音信号重建方法、装置、设备和存储介质 |
CN111508514A (zh) * | 2020-04-10 | 2020-08-07 | 江苏科技大学 | 基于补偿相位谱的单通道语音增强算法 |
CN111554315B (zh) * | 2020-05-29 | 2022-07-15 | 展讯通信(天津)有限公司 | 单通道语音增强方法及装置、存储介质、终端 |
CN113299308B (zh) * | 2020-09-18 | 2024-09-27 | 淘宝(中国)软件有限公司 | 一种语音增强方法、装置、电子设备及存储介质 |
CN112289337B (zh) * | 2020-11-03 | 2023-09-01 | 北京声加科技有限公司 | 一种滤除机器学习语音增强后的残留噪声的方法及装置 |
CN112652322A (zh) * | 2020-12-23 | 2021-04-13 | 江苏集萃智能集成电路设计技术研究所有限公司 | 一种语音信号增强方法 |
CN112863544A (zh) * | 2021-01-11 | 2021-05-28 | 新疆品宣生物科技有限责任公司 | 基于声波分析的预警设备及预警方法 |
CN113571080B (zh) * | 2021-02-08 | 2024-11-08 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、设备及存储介质 |
CN113744754B (zh) * | 2021-03-23 | 2024-04-05 | 京东科技控股股份有限公司 | 语音信号的增强处理方法和装置 |
CN113257264A (zh) * | 2021-04-27 | 2021-08-13 | 贵州电网有限责任公司 | 一种电力调度电话降噪的方法 |
CN113470685B (zh) * | 2021-07-13 | 2024-03-12 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN115862649A (zh) * | 2021-09-24 | 2023-03-28 | 北京字跳网络技术有限公司 | 一种音频降噪方法、装置、设备及存储介质 |
CN114093380B (zh) * | 2022-01-24 | 2022-07-05 | 北京荣耀终端有限公司 | 一种语音增强方法、电子设备、芯片系统及可读存储介质 |
CN115295024A (zh) * | 2022-04-11 | 2022-11-04 | 维沃移动通信有限公司 | 信号处理方法、装置、电子设备及介质 |
CN116052706B (zh) * | 2023-03-30 | 2023-06-27 | 苏州清听声学科技有限公司 | 一种基于神经网络的低复杂度语音增强方法 |
CN116469402A (zh) * | 2023-04-23 | 2023-07-21 | 百果园技术(新加坡)有限公司 | 一种音频降噪方法、装置、设备、存储介质及产品 |
CN117995215B (zh) * | 2024-04-03 | 2024-06-18 | 深圳爱图仕创新科技股份有限公司 | 语音信号的处理方法、装置、计算机设备及存储介质 |
CN118398022B (zh) * | 2024-04-24 | 2024-10-01 | 广东保伦电子股份有限公司 | 改进的语音增强降噪方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6003000A (en) * | 1997-04-29 | 1999-12-14 | Meta-C Corporation | Method and system for speech processing with greatly reduced harmonic and intermodulation distortion |
CN103021420A (zh) * | 2012-12-04 | 2013-04-03 | 中国科学院自动化研究所 | 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法 |
CN107610712A (zh) * | 2017-10-18 | 2018-01-19 | 会听声学科技(北京)有限公司 | 一种结合改进的mmse和谱减法的语音增强方法 |
-
2018
- 2018-05-29 CN CN201810533857.8A patent/CN108735213B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6003000A (en) * | 1997-04-29 | 1999-12-14 | Meta-C Corporation | Method and system for speech processing with greatly reduced harmonic and intermodulation distortion |
CN103021420A (zh) * | 2012-12-04 | 2013-04-03 | 中国科学院自动化研究所 | 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法 |
CN107610712A (zh) * | 2017-10-18 | 2018-01-19 | 会听声学科技(北京)有限公司 | 一种结合改进的mmse和谱减法的语音增强方法 |
Non-Patent Citations (3)
Title |
---|
《基于参数估计和感知提升的语音增强降噪算法》;王晶等;《电子与信息学报》;20160131;第38卷(第1期);第174-179页 * |
《基于最大后验相位估计的多带谱减语音增强算法》;李真等;《电子与信息学报》;20170930;第39卷(第9期);第2282-2286页 * |
《改进相位谱补偿的语音增强算法》;王栋等;《西安电子科技大学学报(自然科学版)》;20170630;第44卷(第3期);第83-88页 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022066328A1 (en) * | 2020-09-25 | 2022-03-31 | Intel Corporation | Real-time dynamic noise reduction using convolutional networks |
Also Published As
Publication number | Publication date |
---|---|
CN108735213A (zh) | 2018-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108735213B (zh) | 一种基于相位补偿的语音增强方法及系统 | |
CN109767783B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN111899752B (zh) | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 | |
CN103456310B (zh) | 一种基于谱估计的瞬态噪声抑制方法 | |
KR100304666B1 (ko) | 음성 향상 방법 | |
US9113241B2 (en) | Noise removing apparatus and noise removing method | |
CN110634500B (zh) | 一种先验信噪比的计算方法、电子设备及存储介质 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
KR20120066134A (ko) | 다채널 음원 분리 장치 및 그 방법 | |
Tu et al. | A hybrid approach to combining conventional and deep learning techniques for single-channel speech enhancement and recognition | |
CN105144290B (zh) | 信号处理装置、信号处理方法和信号处理程序 | |
CN111081267A (zh) | 一种多通道远场语音增强方法 | |
US20080152157A1 (en) | Method and system for eliminating noises in voice signals | |
WO2022218254A1 (zh) | 语音信号增强方法、装置及电子设备 | |
CN105702262A (zh) | 一种头戴式双麦克风语音增强方法 | |
CN113539285A (zh) | 音频信号降噪方法、电子装置和存储介质 | |
CN111933165A (zh) | 突变噪声快速估计方法 | |
CN114005457A (zh) | 一种基于幅度估计与相位重构的单通道语音增强方法 | |
CN107731242B (zh) | 一种广义最大后验的谱幅度估计的增益函数语音增强方法 | |
CN107045874B (zh) | 一种基于相关性的非线性语音增强方法 | |
US9875748B2 (en) | Audio signal noise attenuation | |
CN109087657B (zh) | 一种应用于超短波电台的语音增强方法 | |
CN106328160B (zh) | 一种基于双麦克的降噪方法 | |
CN104810023B (zh) | 一种用于语音信号增强的谱减法 | |
CN112151060B (zh) | 单通道语音增强方法及装置、存储介质、终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |