Nothing Special   »   [go: up one dir, main page]

CN108735213B - 一种基于相位补偿的语音增强方法及系统 - Google Patents

一种基于相位补偿的语音增强方法及系统 Download PDF

Info

Publication number
CN108735213B
CN108735213B CN201810533857.8A CN201810533857A CN108735213B CN 108735213 B CN108735213 B CN 108735213B CN 201810533857 A CN201810533857 A CN 201810533857A CN 108735213 B CN108735213 B CN 108735213B
Authority
CN
China
Prior art keywords
noise
spectrum
signal
amplitude
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810533857.8A
Other languages
English (en)
Other versions
CN108735213A (zh
Inventor
贾海蓉
吉慧芳
方玲
武亚红
李鸿燕
张雪英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN201810533857.8A priority Critical patent/CN108735213B/zh
Publication of CN108735213A publication Critical patent/CN108735213A/zh
Application granted granted Critical
Publication of CN108735213B publication Critical patent/CN108735213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开一种基于相位补偿的语音增强方法及系统。所述方法包括:获取待处理的含噪语音信号;对含噪语音信号进行短时傅里叶变换,进而获得含噪语音信号的幅度谱和相位谱;获得相位谱补偿函数,其中补偿因子为随含噪语音信噪比变化而相应变化的Sigmoid型函数;根据相位谱补偿函数对含噪语音信号的相位谱进行补偿,得到补偿后的相位谱;根据含噪语音信号的幅度谱获得纯净语音信号的幅值;将补偿后的相位谱与纯净语音信号的幅值重构,获得增强后的语音信号。采用本发明的方法或系统,相比传统基于相位补偿语音增强方法而言,对噪声的估计更加接近真实噪声功率谱,能够有效抑制音频信号中的噪声,在增强语音信号质量的同时提高其可懂度。

Description

一种基于相位补偿的语音增强方法及系统
技术领域
本发明涉及语音处理领域,特别是涉及一种基于相位补偿的语音增强方法及系统。
背景技术
在许多情况下,如正常的语音通信,听力辅助和自动语音识别中,语音信号由于受到不同类型的背景噪声干扰会严重退化。因此,从退化语音中去除噪声成分一直是研究的主要目的。当前,大多数单通道语音增强方法是改变带噪语音的幅度谱实现语音增强的效果,而忽略相位谱的影响。这是因为早期的研究表明相位谱在信噪比较高的情况下感知效果不明显,因此,通过改变幅度谱实现语音增强是普遍的做法。
而最近研究发现相位谱中也包含了很多与语音可懂度相关的信息,这些信息对于语音增强起到一定的作用。现有的相位谱补偿算法中补偿因子固定,无法对含噪语音的相位谱进行灵活的补偿,导致语音增强效果差。
发明内容
本发明的目的是提供一种基于相位补偿的语音增强方法及系统,以提高语音增强的效果。
为实现上述目的,本发明提供了如下方案:
一种基于相位补偿的语音增强方法,所述方法包括:
获取待处理的含噪语音信号;
对所述含噪语音信号进行短时傅里叶变换,进而获得所述含噪语音信号的幅度谱和相位谱;
获得相位谱补偿函数,所述相位谱补偿函数的补偿因子λnew
Figure BDA0001677191170000021
其中c为固定经验值;k为频点索引,n为帧数,|Y(n,k)|为所述含噪语音信号第n帧第k个频率点的幅度谱,|D(n,k)|为噪声第n帧第k个频率点的幅度谱;
根据所述相位谱补偿函数对所述含噪语音信号的相位谱进行补偿,得到补偿后的相位谱;
根据所述含噪语音信号的幅度谱获得纯净语音信号的幅值;
将所述补偿后的相位谱与所述纯净语音信号的幅值重构,获得增强后的语音信号。
可选的,所述根据所述含噪语音信号的幅度谱获得纯净语音信号的幅值,具体包括:
根据所述含噪语音信号的幅度谱,采用改进决策导向算法获得每一帧噪声的改进的先验信噪比;
根据所述改进的先验信噪比,采用基于语音存在概率的噪声功率谱估计算法获得每一帧噪声的功率谱;
根据所述每一帧噪声的功率谱,采用维纳滤波法获得纯净语音信号的幅值。
可选的,所述根据所述含噪语音信号的幅度谱,采用改进决策导向算法获得每一帧噪声的改进的先验信噪比,具体包括:
根据决策导向算法估计先验信噪比
Figure BDA0001677191170000022
Figure BDA0001677191170000023
其中α为时频相关平滑因子,|Y(n-1,k)|为含噪语音第n-1帧第k个频率点的幅度谱,|Y(n,k)|为含噪语音当前第n帧第k个频率点的幅度谱,
Figure BDA0001677191170000024
是估算出的第n帧的噪声幅度值,max[·]是求最大值函数;
根据所述先验信噪比
Figure BDA00016771911700000311
确定增益函数
Figure BDA0001677191170000031
根据所述增益函数采用改进的决策导向算法获得第n帧噪声的改进的先验信噪比
Figure BDA0001677191170000032
Figure BDA0001677191170000033
其中μ为基于后验信噪比的Sigmoid型权值,其表达式为
Figure BDA0001677191170000034
b是尺度因子;其中|D(n,k)|为噪声第n帧第k个频率点的幅度谱。
可选的,所述根据所述改进的先验信噪比,采用基于语音存在概率的噪声功率谱估计算法获得每一帧噪声的功率谱,具体包括:
根据所述改进的先验信噪比,采用贝叶斯公式确定第n帧后验语音存在概率P(H1|Y)和第n帧后验语音缺失概率P(H0|Y);
采用公式
Figure BDA0001677191170000035
对第n帧噪声的功率谱进行初步估计,其中|Y(n,k)|为含噪语音当前第n帧第k个频率点的幅度谱,
Figure BDA0001677191170000036
是估算出的第n帧第k个频率点的噪声幅度值;
根据公式
Figure BDA0001677191170000037
更新第n帧噪声的功率谱,其中
Figure BDA0001677191170000038
为估算出的第n-1帧第k个频率点噪声的幅度值,|N(n,k)|2为初步估计出的第n帧第k个频率点噪声的功率谱,
Figure BDA0001677191170000039
为获得的更新后的第n帧第k个频率点噪声的功率谱。
可选的,所述根据所述改进的先验信噪比,采用贝叶斯公式确定第n帧后验语音存在概率P(H1|Y),之后还包括:
根据公式PH1mean=(1-I)*PH1mean+I*P(H1|Y)确定后验语音存在概率P(H1|Y)的均值PH1mean,其中I为语音存在决策,
Figure BDA00016771911700000310
判断是否满足PH1mean>0.9,如果是,更新第n帧后验语音存在概率P(H1|Y)的值为PH1mean
可选的,所述根据所述每一帧噪声的功率谱,采用维纳滤波法获得纯净语音信号的幅值,具体包括:
采用谱减法获得纯净语音的功率谱Ps(n,k);
根据维纳滤波法采用
Figure BDA0001677191170000041
获得第n帧纯净语音信号
Figure BDA0001677191170000042
其中
Figure BDA0001677191170000043
Px(n,k)是第n帧第k个频率点带噪语音的功率谱;
根据所述第n帧纯净语音信号
Figure BDA0001677191170000044
确定所述第n帧纯净语音的幅值为
Figure BDA0001677191170000045
可选的,所述将所述补偿后的相位谱与所述纯净语音信号的幅值重构,获得增强后的语音信号,具体包括:
利用
Figure BDA0001677191170000046
将第n帧语音补偿后的相位谱与第n帧纯净语音信号的幅值重构,获得第n帧增强后的语音信号S(n,k),其中
Figure BDA0001677191170000047
为第n帧纯净语音的幅值,∠Ynew(n,k)为第n帧语音补偿后的相位谱;
依次获得每一帧增强后的语音信号,进而得到所述待处理的含噪语音信号对应的增强后的语音信号。
本发明还提供一种基于相位补偿的语音增强系统,所述系统包括:
含噪语音信号获取模块,用于获取待处理的含噪语音信号;
短时傅里叶变换模块,用于对所述含噪语音信号进行短时傅里叶变换,进而获得所述含噪语音信号的幅度谱和相位谱;
相位谱补偿函数获取模块,用于获得相位谱补偿函数,所述相位谱补偿函数的补偿因子λnew为
Figure BDA0001677191170000051
其中c为固定经验值;k为频点索引,n为帧数,|Y(n,k)|为所述含噪语音信号第n帧第k个频率点的幅度谱,|D(n,k)|为噪声第n帧第k个频率点的幅度谱;
相位谱补偿模块,用于根据所述相位谱补偿函数对所述含噪语音信号的相位谱进行补偿,得到补偿后的相位谱;
纯净语音信号幅值获取模块,用于根据所述含噪语音信号的幅度谱获得纯净语音信号的幅值;
重构模块,用于将所述补偿后的相位谱与所述纯净语音信号的幅值重构,获得增强后的语音信号。
可选的,所述纯净语音信号幅值获取模块,具体包括:
改进的先验信噪比获取单元,用于根据所述含噪语音信号的幅度谱,采用改进决策导向算法获得每一帧噪声的改进的先验信噪比;
噪声功率谱获取单元,用于根据所述改进的先验信噪比,采用基于语音存在概率的噪声功率谱估计算法获得每一帧噪声的功率谱;
纯净语音信号幅值获取单元,用于根据所述每一帧噪声的功率谱,采用维纳滤波法获得纯净语音信号的幅值。
可选的,所述改进的先验信噪比获取单元具体包括:
先验信噪比估计子单元,用于根据决策导向算法估计先验信噪比
Figure BDA0001677191170000052
Figure BDA0001677191170000053
其中α为时频相关平滑因子,|Y(n-1,k)|为含噪语音第n-1帧第k个频率点的幅度谱,|Y(n,k)|为含噪语音当前第n帧第k个频率点的幅度谱,
Figure BDA0001677191170000054
是估算出的第n帧第k个频率点的噪声幅度值,max[·]是求最大值函数;
增益函数确定子单元,用于根据所述先验信噪比
Figure BDA0001677191170000061
确定增益函数
Figure BDA0001677191170000062
改进的先验信噪比获取子单元,用于根据所述增益函数采用改进的决策导向算法获得第n帧噪声的改进的先验信噪比
Figure BDA0001677191170000063
Figure BDA0001677191170000064
其中μ为基于后验信噪比的Sigmoid型权值,其表达式为
Figure BDA0001677191170000065
b是尺度因子;其中|D(n,k)|为噪声第n帧第k个频率点的幅度谱。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明将补偿因子设置为一个随含噪语音信噪比变化而相应变化的Sigmoid型函数,由于Sigmoid函数随自变量单调递增的性质,在语音存在的区域信噪比很高,补偿因子会相对较小,从而能够跟踪突然的信噪比变化,对含噪语音的频谱进行补偿;反之类似。相比传统相位谱补偿方法而言,该方法在不同信噪比下的语音质量显著改善,同时语音可懂度也有了明显提升。
本发明的方法在每个频率点根据语音输入信噪比计算先验语音存在概率而不是使用一个固定值,在噪声急剧变化时仍能实时跟踪噪声,相比传统的基于语音存在概率噪声估计方法而言,整体包络与真实的噪声功率谱更加接近。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于相位补偿的语音增强方法实施例1的流程示意图;
图2为本发明基于相位补偿的语音增强方法实施例2的流程示意图;
图3为本发明基于相位补偿的语音增强系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
首先说明传统的相位补偿方法:
假设x(t)表示纯净语音,v(t)表示平稳加性高斯噪声,且x(t)与v(t)相互独立,则含噪语音y(t)的时域表达式为y(t)=x(t)+v(t)
对其作短时傅里叶变换,其频域表达式为
Figure BDA0001677191170000071
其中,k为频点索引,n为帧数,N为离散傅里叶变换长度,w(n)为语音短时频谱分析中的窗函数。由于加汉明窗得到的短时频谱相对平滑,故应用较为普遍。含噪语音频谱Y(n,k)的极坐标形式为Y(n,k)=|Y(n,k)|exp(j∠Y(n,k)),|Y(n,k)|为短时傅里叶变换的幅度谱,∠Y(n,k)为短时傅里叶变换的相位谱。
在传统相位谱补偿方法中,相位谱补偿函数的表达式为
Figure BDA0001677191170000072
其中λ是补偿因子,选取λ=3.14为其最优值,判决函数
Figure BDA0001677191170000073
Figure BDA0001677191170000074
是估算出的噪声幅度值。
补偿后的频谱表达式为Y∧(n,k)=Y(n,k)+∧(n,k),其中,Y(n,k)为短时傅里叶变换的频谱,∧(n,k)为相位谱补偿函数。
对补偿后的频谱取相位得到相位谱∠Y∧(n,k)=arg[Y∧(n,k)],其中,arg(·)表示复数幅角函数。
将补偿后的相位谱与短时傅里叶变换的幅度谱相结合得到语音增强后的频谱表达式为S∧(n,k)=|Y(n,k)|exp(j∠Y∧(n,k))。
针对传统的相位谱补偿方法中补偿因子固定,无法对含噪语音相位进行灵活的补偿的问题,本发明提出一种基于每帧语音输入信噪比的Sigmoid型相位谱补偿函数。
图1为本发明基于相位补偿的语音增强方法实施例1的流程示意图。如图所示,所述方法包括:
步骤100:获取待处理的含噪语音信号。
步骤200:对含噪语音信号进行短时傅里叶变换,进而获得含噪语音信号的幅度谱和相位谱。此步骤与传统算法中的方式相同,含噪语音频谱Y(n,k)的极坐标形式为Y(n,k)=|Y(n,k)|exp(j∠Y(n,k)),|Y(n,k)|为短时傅里叶变换的幅度谱,∠Y(n,k)为短时傅里叶变换的相位谱,具体过程此处不再赘述。
步骤300:获得相位谱补偿函数。所述相位谱补偿函数的补偿因子λnew
Figure BDA0001677191170000081
其中c为固定经验值;k为频点索引,n为帧数,|Y(n,k)|为所述含噪语音信号第n帧第k个频率点的幅度谱,|D(n,k)|为噪声第n帧第k个频率点的幅度谱。
本发明提出一种新的相位谱补偿函数,对∧(n,k)中的补偿因子λ进行改进,将其设置为一个随含噪语音变化而相应变化的Sigmoid型函数,该函数的表达式为
Figure BDA0001677191170000082
其中,c为固定经验值,取值3.5,|Y(n,k)|为含噪语音短时傅里叶变换的幅度谱,|D(n,k)|为噪声短时傅里叶变换的幅度谱。
将λnew代入相位谱补偿函数表达式
Figure BDA0001677191170000091
中,得到新的相位谱补偿函数表达式为
Figure BDA0001677191170000092
步骤400:根据相位谱补偿函数对含噪语音信号的相位谱进行补偿,得到补偿后的相位谱。将新的相位谱补偿函数代入补偿后的频谱表达式得到新的频谱,并取相位可得新的相位谱为∠Ynew(n,k)=arg[Ynew(n,k)]=arg[Y(n,k)+^new(n,k)],arg(·)表示取相位函数。Y(n,k)为短时傅里叶变换的频谱,∧new(n,k)为新的相位谱补偿函数。
步骤500:根据含噪语音信号的幅度谱获得纯净语音信号的幅值。
具体包括:
(1)根据所述含噪语音信号的幅度谱,采用改进决策导向算法获得每一帧噪声的改进的先验信噪比。
相位信息只能捕捉到语音的细节信息,无法对语音的整体结构做出估计,故对相位谱补偿之后还需结合幅度谱进行语音增强。得到相位谱后还不能估计出语音,必须结合幅度谱,本发明用的维纳滤波法估计幅度谱,但前提必须估计噪声,噪声估计的准确性直接关系到语音增强器的幅度谱估计,所以本发明提出了新的基于语音存在概率的噪声功率谱估计算法,通过改进决策导向(Decision-Directed,DD)算法来估计先验信噪比,具体的方案如下:
首先,利用DD算法估计先验信噪比
Figure BDA0001677191170000093
Figure BDA0001677191170000094
其中α为时频相关平滑因子,可以选取α=0.5。|Y(n-1,k)|为含噪语音前一帧短时傅里叶变换的幅度谱。|Y(n,k)|为含噪语音当前帧短时傅里叶变换的幅度谱。
Figure BDA0001677191170000095
是估算出的噪声幅度值。max[·]是求最大值函数。
然后,由DD算法估计的先验信噪比计算得到增益函数,其计算式为
Figure BDA0001677191170000101
Figure BDA0001677191170000102
是DD算法估计出的先验信噪比。
最后,通过改进DD来估计先验信噪比,得到改进的先验信噪比,即
Figure BDA0001677191170000103
其中μ为一个基于后验信噪比的Sigmoid型权值,其表达式为
Figure BDA0001677191170000104
b是尺度因子,取值为800,G为增益函数,|Y(n,k)|为含噪语音短时傅里叶变换的幅度谱。|D(n,k)|为噪声短时傅里叶变换的幅度谱。
(2)根据所述改进的先验信噪比,采用基于语音存在概率的噪声功率谱估计算法获得每一帧噪声的功率谱。具体过程如下:
首先,根据贝叶斯公式计算后验语音存在概率P(H1|Y):
用H1代表speech present(语音存在),用H0代表speech absent(语音缺失),根据语音决策得到P(H1|Y):
P(H1|Y)=P(H1)P(Y|H1)/(P(H1)P(Y|H1)+P(H0)P(Y|H0))
其中,P(H1)为语音存在的概率,P(H0)为语音缺失的概率,假设语音存在和语音缺失的概率相等,即P(H1)=P(H0)=0.5,P(Y|H1)为Y在语音存在条件下的发生概率,P(Y|H0)为Y在语音缺失条件下的发生概率。
由于STFT(短时傅里叶变换)系数服从复高斯分布,概率P(Y|H1)和P(Y|H0)可近似表示为:
Figure BDA0001677191170000105
其中,m=0,1;
Figure BDA0001677191170000106
为语音缺失时的先验信噪比,取值为0;
Figure BDA0001677191170000107
为语音存在时的先验信噪比,取值为改进DD估计的先验信噪比。
Figure BDA0001677191170000108
是估算出的噪声幅度值。|Y(n,k)|为含噪语音短时傅里叶变换的幅度谱。
将其代入语音存在时的后验概率计算式中得到一种新的语音存在时的后验概率:
Figure BDA0001677191170000111
然后,对噪声功率谱进行初步估计:
利用
Figure BDA0001677191170000112
得到初步估计后的噪声的功率谱,其中,P(H0|Y)为后验语音缺失概率,P(H1|Y)为后验语音存在概率。
此步骤中,还包括第n帧后验语音存在概率P(H1|Y)的更新过程,当PH1mean>0.9时,更新第n帧后验语音存在概率P(H1|Y)的值为PH1mean,其中PH1mean=(1-I)*PH1mean+I*P(H1|Y),PH1mean为后验语音存在概率P(H1|Y)的均值。I为语音存在决策,其表达式为
Figure BDA0001677191170000113
最后,更新噪声功率谱:
Figure BDA0001677191170000114
其中,β是平滑系数,选取0.9为其经验常数,
Figure BDA0001677191170000115
为获得的更新后的第n帧第k个频率点噪声的功率谱。
Figure BDA0001677191170000116
为估算出的前一帧噪声幅度值,|N(n,k)|2为初步估计出的第n帧第k个频率点噪声的功率谱。
以上步骤为计算第n帧噪声的功率谱的过程,通过上述步骤计算出每一帧噪声的功率谱
Figure BDA0001677191170000117
(3)根据所述每一帧噪声的功率谱,采用维纳滤波法获得纯净语音信号的幅值。在维纳滤波中应用新的基于语音存在概率(SPP)的噪声估计算法得到纯净语音幅度谱
Figure BDA0001677191170000118
具体包括:
采用谱减法获得纯净语音的功率谱Ps(n,k);
根据维纳滤波法采用
Figure BDA0001677191170000119
获得第n帧纯净语音信号
Figure BDA0001677191170000121
其中
Figure BDA0001677191170000122
Px(n,k)是第n帧带噪语音的功率谱;
根据所述第n帧纯净语音信号
Figure BDA0001677191170000123
确定所述第n帧纯净语音的幅值为
Figure BDA0001677191170000124
步骤600:将补偿后的相位谱与纯净语音信号的幅值重构,获得增强后的语音信号。
结合维纳滤波中估计出的第n帧的纯净语音幅度谱
Figure BDA0001677191170000125
与改进Sigmoid型相位谱,得到在第n帧频域上增强后的语音信号为
Figure BDA0001677191170000126
其中
Figure BDA0001677191170000127
为估算出的第n帧的纯净语音的幅度谱,∠Ynew(n,k)为估算出的第n帧补偿后的相位谱。
依次获得每一帧增强后的语音信号,对其做傅里叶逆变换,得到最终增强后的时域信号为s(t)=TIFFT(S(n,k))
图2为本发明基于相位补偿的语音增强方法实施例2的流程示意图。如图2所示,所述方法包括:
1)对含噪语音y(t)进行STFT变换得到含噪语音频谱(幅度谱和相位谱);
2)对1)得到的幅度谱采用DD算法估计先验信噪比
Figure BDA0001677191170000128
在此基础上进行改进得到改进DD的先验信噪比
Figure BDA0001677191170000129
3)将2)得到的改进先验信噪比
Figure BDA00016771911700001210
用于基于语音存在概率的噪声功率谱估计算法,得到噪声的功率谱估计
Figure BDA00016771911700001211
4)将3)得到的噪声功率谱
Figure BDA00016771911700001212
用于维纳滤波估计出纯净语音幅值
Figure BDA00016771911700001213
基于维纳滤波的纯净语音可表示为
Figure BDA00016771911700001214
Figure BDA00016771911700001215
其中,Ps(n,k)是谱减法估计出的纯净语音功率谱,用带噪语音功率谱减去噪声功率谱得到;Px(n,k)是带噪语音的功率谱;
5)对1)得到的相位谱采用相位谱补偿函数进行补偿,得到补偿后的相位谱;
6)将4)得到的纯净语音幅值
Figure BDA0001677191170000131
与5)得到的补偿后的相位谱进行语音重构得到增强语音s(t)。
图3为本发明基于相位补偿的语音增强系统的结构示意图。如图所示,所述系统包括:
含噪语音信号获取模块301,用于获取待处理的含噪语音信号;
短时傅里叶变换模块302,用于对所述含噪语音信号进行短时傅里叶变换,进而获得所述含噪语音信号的幅度谱和相位谱;
相位谱补偿函数获取模块303,用于获得相位谱补偿函数,所述相位谱补偿函数的补偿因子λnew
Figure BDA0001677191170000132
其中c为固定经验值;k为频点索引,n为帧数,|Y(n,k)|为所述含噪语音信号第n帧第k个频率点的幅度谱,|D(n,k)|为噪声第n帧第k个频率点的幅度谱;
相位谱补偿模块304,用于根据所述相位谱补偿函数对所述含噪语音信号的相位谱进行补偿,得到补偿后的相位谱;
纯净语音信号幅值获取模块305,用于根据所述含噪语音信号的幅度谱获得纯净语音信号的幅值;
重构模块306,用于将所述补偿后的相位谱与所述纯净语音信号的幅值重构,获得增强后的语音信号。
其中,所述纯净语音信号幅值获取模块305,具体包括:
改进的先验信噪比获取单元,用于根据所述含噪语音信号的幅度谱,采用改进决策导向算法获得每一帧噪声的改进的先验信噪比;
噪声功率谱获取单元,用于根据所述改进的先验信噪比,采用基于语音存在概率的噪声功率谱估计算法获得每一帧噪声的功率谱;
纯净语音信号幅值获取单元,用于根据所述每一帧噪声的功率谱,采用维纳滤波法获得纯净语音信号的幅值。
所述改进的先验信噪比获取单元具体包括:
先验信噪比估计子单元,用于根据决策导向算法估计先验信噪比
Figure BDA0001677191170000141
Figure BDA0001677191170000142
其中α为时频相关平滑因子,|Y(n-1,k)|为含噪语音第n-1帧第k个频率点的幅度谱,|Y(n,k)|为含噪语音当前第n帧第k个频率点的幅度谱,
Figure BDA0001677191170000143
是估算出的第n帧第k个频率点的噪声幅度值,max[·]是求最大值函数;
增益函数确定子单元,用于根据所述先验信噪比
Figure BDA0001677191170000144
确定增益函数
Figure BDA0001677191170000145
改进的先验信噪比获取子单元,用于根据所述增益函数采用改进的决策导向算法获得第n帧噪声的改进的先验信噪比
Figure BDA0001677191170000146
Figure BDA0001677191170000147
其中μ为基于后验信噪比的Sigmoid型权值,其表达式为
Figure BDA0001677191170000148
b是尺度因子;其中|D(n,k)|为噪声第n帧第k个频率点的幅度谱。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种基于相位补偿的语音增强方法,其特征在于,所述方法包括:
获取待处理的含噪语音信号;
对所述含噪语音信号进行短时傅里叶变换,进而获得所述含噪语音信号的幅度谱和相位谱;
获得相位谱补偿函数,所述相位谱补偿函数的补偿因子λnew
Figure FDA0002467298460000011
其中c为固定经验值;k为频点索引,n为帧数,|Y(n,k)|为所述含噪语音信号第n帧第k个频率点的幅度谱,|D(n,k)|为噪声第n帧第k个频率点的幅度谱;
根据所述相位谱补偿函数对所述含噪语音信号的相位谱进行补偿,得到补偿后的相位谱;
根据所述含噪语音信号的幅度谱获得纯净语音信号的幅值;具体包括:根据所述含噪语音信号的幅度谱,采用改进决策导向算法获得每一帧噪声的改进的先验信噪比;根据所述改进的先验信噪比,采用基于语音存在概率的噪声功率谱估计算法获得每一帧噪声的功率谱;根据所述每一帧噪声的功率谱,采用维纳滤波法获得纯净语音信号的幅值;
将所述补偿后的相位谱与所述纯净语音信号的幅值重构,获得增强后的语音信号;
所述根据所述改进的先验信噪比,采用基于语音存在概率的噪声功率谱估计算法获得每一帧噪声的功率谱,具体包括:根据所述改进的先验信噪比,采用贝叶斯公式确定第n帧后验语音存在概率P(H1|Y)和第n帧后验语音缺失概率P(H0|Y);采用公式
Figure FDA0002467298460000012
对第n帧噪声的功率谱进行初步估计,其中|Y(n,k)|为含噪语音当前第n帧第k个频率点幅度谱,
Figure FDA0002467298460000013
是估算出的第n帧第k个频率点的噪声幅度值;根据公式
Figure FDA0002467298460000021
更新第n帧噪声的功率谱,其中
Figure FDA0002467298460000022
为估算出的第n-1帧第k个频率点噪声的幅度值,|N(n,k)|2为初步估计出的第n帧第k个频率点噪声的功率谱,
Figure FDA0002467298460000023
为获得的更新后的第n帧第k个频率点噪声的功率谱;
所述根据所述改进的先验信噪比,采用贝叶斯公式确定第n帧后验语音存在概率P(H1|Y),之后还包括:根据公式PH1mean=(1-I)*PH1mean+I*P(H1|Y)确定后验语音存在概率P(H1|Y)的均值PH1mean,其中I为语音存在决策,
Figure FDA0002467298460000024
判断是否满足PH1mean>0.9,如果是,更新第n帧后验语音存在概率P(H1|Y)的值为PH1mean
2.根据权利要求1所述的方法,其特征在于,所述根据所述含噪语音信号的幅度谱,采用改进决策导向算法获得每一帧噪声的改进的先验信噪比,具体包括:
根据决策导向算法估计先验信噪比
Figure FDA0002467298460000025
Figure FDA0002467298460000026
其中α为时频相关平滑因子,|Y(n-1,k)|为含噪语音第n-1帧第k个频率点的幅度谱,|Y(n,k)|为含噪语音当前第n帧第k个频率点的幅度谱,
Figure FDA0002467298460000027
是估算出的第n帧的噪声幅度值,max[·]是求最大值函数;
根据所述先验信噪比
Figure FDA0002467298460000028
确定增益函数
Figure FDA0002467298460000029
根据所述增益函数采用改进的决策导向算法获得第n帧噪声的改进的先验信噪比
Figure FDA00024672984600000210
Figure FDA00024672984600000211
其中μ为基于后验信噪比的Sigmoid型权值,其表达式为
Figure FDA00024672984600000212
b是尺度因子;其中|D(n,k)|为噪声第n帧第k个频率点的幅度谱。
3.根据权利要求1所述的方法,其特征在于,所述根据所述每一帧噪声的功率谱,采用维纳滤波法获得纯净语音信号的幅值,具体包括:
采用谱减法获得纯净语音的功率谱Ps(n,k);
根据维纳滤波法采用
Figure FDA0002467298460000031
获得第n帧纯净语音信号
Figure FDA0002467298460000032
其中
Figure FDA0002467298460000033
Px(n,k)是第n帧第k个频率点带噪语音的功率谱;
根据所述第n帧纯净语音信号
Figure FDA0002467298460000034
确定所述第n帧纯净语音的幅值为
Figure FDA0002467298460000035
4.根据权利要求1所述的方法,其特征在于,所述将所述补偿后的相位谱与所述纯净语音信号的幅值重构,获得增强后的语音信号,具体包括:
利用
Figure FDA0002467298460000036
将第n帧语音补偿后的相位谱与第n帧纯净语音信号的幅值重构,获得第n帧增强后的语音信号S(n,k),其中
Figure FDA0002467298460000037
为第n帧纯净语音的幅值,∠Ynew(n,k)为第n帧语音补偿后的相位谱;
依次获得每一帧增强后的语音信号,进而得到所述待处理的含噪语音信号对应的增强后的语音信号。
5.一种基于相位补偿的语音增强系统,其特征在于,所述系统包括:
含噪语音信号获取模块,用于获取待处理的含噪语音信号;
短时傅里叶变换模块,用于对所述含噪语音信号进行短时傅里叶变换,进而获得所述含噪语音信号的幅度谱和相位谱;
相位谱补偿函数获取模块,用于获得相位谱补偿函数,所述相位谱补偿函数的补偿因子λnew
Figure FDA0002467298460000038
其中c为固定经验值;k为频点索引,n为帧数,|Y(n,k)|为所述含噪语音信号第n帧第k个频率点的幅度谱,|D(n,k)|为噪声第n帧第k个频率点的幅度谱;
相位谱补偿模块,用于根据所述相位谱补偿函数对所述含噪语音信号的相位谱进行补偿,得到补偿后的相位谱;
纯净语音信号幅值获取模块,用于根据所述含噪语音信号的幅度谱获得纯净语音信号的幅值;所述纯净语音信号幅值获取模块具体包括:改进的先验信噪比获取单元,用于根据所述含噪语音信号的幅度谱,采用改进决策导向算法获得每一帧噪声的改进的先验信噪比;噪声功率谱获取单元,用于根据所述改进的先验信噪比,采用基于语音存在概率的噪声功率谱估计算法获得每一帧噪声的功率谱;纯净语音信号幅值获取单元,用于根据所述每一帧噪声的功率谱,采用维纳滤波法获得纯净语音信号的幅值;
重构模块,用于将所述补偿后的相位谱与所述纯净语音信号的幅值重构,获得增强后的语音信号;
所述噪声功率谱获取单元获得每一帧噪声的功率谱的具体过程为:
根据所述改进的先验信噪比,采用贝叶斯公式确定第n帧后验语音存在概率P(H1|Y)和第n帧后验语音缺失概率P(H0|Y);采用公式
Figure FDA0002467298460000041
对第n帧噪声的功率谱进行初步估计,其中|Y(n,k)|为含噪语音当前第n帧第k个频率点幅度谱,
Figure FDA0002467298460000042
是估算出的第n帧第k个频率点的噪声幅度值;根据公式
Figure FDA0002467298460000043
更新第n帧噪声的功率谱,其中
Figure FDA0002467298460000044
为估算出的第n-1帧第k个频率点噪声的幅度值,|N(n,k)|2为初步估计出的第n帧第k个频率点噪声的功率谱,
Figure FDA0002467298460000045
为获得的更新后的第n帧第k个频率点噪声的功率谱;所述根据所述改进的先验信噪比,采用贝叶斯公式确定第n帧后验语音存在概率P(H1|Y),之后还包括:根据公式PH1mean=(1-I)*PH1mean+I*P(H1|Y)确定后验语音存在概率P(H1|Y)的均值PH1mean,其中I为语音存在决策,
Figure FDA0002467298460000046
判断是否满足PH1mean>0.9,如果是,更新第n帧后验语音存在概率P(H1|Y)的值为PH1mean
6.根据权利要求5所述的系统,其特征在于,所述改进的先验信噪比获取单元具体包括:
先验信噪比估计子单元,用于根据决策导向算法估计先验信噪比
Figure FDA0002467298460000051
Figure FDA0002467298460000052
其中α为时频相关平滑因子,|Y(n-1,k)|为含噪语音第n-1帧第k个频率点的幅度谱,|Y(n,k)|为含噪语音当前第n帧第k个频率点的幅度谱,
Figure FDA0002467298460000053
是估算出的第n帧第k个频率点的噪声幅度值,max[·]是求最大值函数;
增益函数确定子单元,用于根据所述先验信噪比
Figure FDA0002467298460000054
确定增益函数
Figure FDA0002467298460000055
改进的先验信噪比获取子单元,用于根据所述增益函数采用改进的决策导向算法获得第n帧噪声的改进的先验信噪比
Figure FDA0002467298460000056
Figure FDA0002467298460000057
其中μ为基于后验信噪比的Sigmoid型权值,其表达式为
Figure FDA0002467298460000058
b是尺度因子;其中|D(n,k)|为噪声第n帧第k个频率点的幅度谱。
CN201810533857.8A 2018-05-29 2018-05-29 一种基于相位补偿的语音增强方法及系统 Active CN108735213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810533857.8A CN108735213B (zh) 2018-05-29 2018-05-29 一种基于相位补偿的语音增强方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810533857.8A CN108735213B (zh) 2018-05-29 2018-05-29 一种基于相位补偿的语音增强方法及系统

Publications (2)

Publication Number Publication Date
CN108735213A CN108735213A (zh) 2018-11-02
CN108735213B true CN108735213B (zh) 2020-06-16

Family

ID=63935714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810533857.8A Active CN108735213B (zh) 2018-05-29 2018-05-29 一种基于相位补偿的语音增强方法及系统

Country Status (1)

Country Link
CN (1) CN108735213B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022066328A1 (en) * 2020-09-25 2022-03-31 Intel Corporation Real-time dynamic noise reduction using convolutional networks

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215671B (zh) * 2018-11-08 2022-12-02 西安电子科技大学 基于MFrSRRPCA算法的语音增强系统及方法
CN112997249B (zh) * 2018-11-30 2022-06-14 深圳市欢太科技有限公司 语音处理方法、装置、存储介质及电子设备
CN110060700B (zh) * 2019-03-12 2021-07-30 上海微波技术研究所(中国电子科技集团公司第五十研究所) 基于参数谱估计的短序列音频分析方法
CN110797041B (zh) 2019-10-21 2023-05-12 珠海市杰理科技股份有限公司 语音降噪处理方法、装置、计算机设备及存储介质
CN111010179B (zh) * 2019-11-09 2023-11-10 许继集团有限公司 一种信号补偿校准方法及系统
CN111128230B (zh) * 2019-12-31 2022-03-04 广州市百果园信息技术有限公司 语音信号重建方法、装置、设备和存储介质
CN111508514A (zh) * 2020-04-10 2020-08-07 江苏科技大学 基于补偿相位谱的单通道语音增强算法
CN111554315B (zh) * 2020-05-29 2022-07-15 展讯通信(天津)有限公司 单通道语音增强方法及装置、存储介质、终端
CN113299308B (zh) * 2020-09-18 2024-09-27 淘宝(中国)软件有限公司 一种语音增强方法、装置、电子设备及存储介质
CN112289337B (zh) * 2020-11-03 2023-09-01 北京声加科技有限公司 一种滤除机器学习语音增强后的残留噪声的方法及装置
CN112652322A (zh) * 2020-12-23 2021-04-13 江苏集萃智能集成电路设计技术研究所有限公司 一种语音信号增强方法
CN112863544A (zh) * 2021-01-11 2021-05-28 新疆品宣生物科技有限责任公司 基于声波分析的预警设备及预警方法
CN113571080B (zh) * 2021-02-08 2024-11-08 腾讯科技(深圳)有限公司 语音增强方法、装置、设备及存储介质
CN113744754B (zh) * 2021-03-23 2024-04-05 京东科技控股股份有限公司 语音信号的增强处理方法和装置
CN113257264A (zh) * 2021-04-27 2021-08-13 贵州电网有限责任公司 一种电力调度电话降噪的方法
CN113470685B (zh) * 2021-07-13 2024-03-12 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN115862649A (zh) * 2021-09-24 2023-03-28 北京字跳网络技术有限公司 一种音频降噪方法、装置、设备及存储介质
CN114093380B (zh) * 2022-01-24 2022-07-05 北京荣耀终端有限公司 一种语音增强方法、电子设备、芯片系统及可读存储介质
CN115295024A (zh) * 2022-04-11 2022-11-04 维沃移动通信有限公司 信号处理方法、装置、电子设备及介质
CN116052706B (zh) * 2023-03-30 2023-06-27 苏州清听声学科技有限公司 一种基于神经网络的低复杂度语音增强方法
CN116469402A (zh) * 2023-04-23 2023-07-21 百果园技术(新加坡)有限公司 一种音频降噪方法、装置、设备、存储介质及产品
CN117995215B (zh) * 2024-04-03 2024-06-18 深圳爱图仕创新科技股份有限公司 语音信号的处理方法、装置、计算机设备及存储介质
CN118398022B (zh) * 2024-04-24 2024-10-01 广东保伦电子股份有限公司 改进的语音增强降噪方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6003000A (en) * 1997-04-29 1999-12-14 Meta-C Corporation Method and system for speech processing with greatly reduced harmonic and intermodulation distortion
CN103021420A (zh) * 2012-12-04 2013-04-03 中国科学院自动化研究所 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法
CN107610712A (zh) * 2017-10-18 2018-01-19 会听声学科技(北京)有限公司 一种结合改进的mmse和谱减法的语音增强方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6003000A (en) * 1997-04-29 1999-12-14 Meta-C Corporation Method and system for speech processing with greatly reduced harmonic and intermodulation distortion
CN103021420A (zh) * 2012-12-04 2013-04-03 中国科学院自动化研究所 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法
CN107610712A (zh) * 2017-10-18 2018-01-19 会听声学科技(北京)有限公司 一种结合改进的mmse和谱减法的语音增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《基于参数估计和感知提升的语音增强降噪算法》;王晶等;《电子与信息学报》;20160131;第38卷(第1期);第174-179页 *
《基于最大后验相位估计的多带谱减语音增强算法》;李真等;《电子与信息学报》;20170930;第39卷(第9期);第2282-2286页 *
《改进相位谱补偿的语音增强算法》;王栋等;《西安电子科技大学学报(自然科学版)》;20170630;第44卷(第3期);第83-88页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022066328A1 (en) * 2020-09-25 2022-03-31 Intel Corporation Real-time dynamic noise reduction using convolutional networks

Also Published As

Publication number Publication date
CN108735213A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN108735213B (zh) 一种基于相位补偿的语音增强方法及系统
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
CN111899752B (zh) 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
CN103456310B (zh) 一种基于谱估计的瞬态噪声抑制方法
KR100304666B1 (ko) 음성 향상 방법
US9113241B2 (en) Noise removing apparatus and noise removing method
CN110634500B (zh) 一种先验信噪比的计算方法、电子设备及存储介质
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
KR20120066134A (ko) 다채널 음원 분리 장치 및 그 방법
Tu et al. A hybrid approach to combining conventional and deep learning techniques for single-channel speech enhancement and recognition
CN105144290B (zh) 信号处理装置、信号处理方法和信号处理程序
CN111081267A (zh) 一种多通道远场语音增强方法
US20080152157A1 (en) Method and system for eliminating noises in voice signals
WO2022218254A1 (zh) 语音信号增强方法、装置及电子设备
CN105702262A (zh) 一种头戴式双麦克风语音增强方法
CN113539285A (zh) 音频信号降噪方法、电子装置和存储介质
CN111933165A (zh) 突变噪声快速估计方法
CN114005457A (zh) 一种基于幅度估计与相位重构的单通道语音增强方法
CN107731242B (zh) 一种广义最大后验的谱幅度估计的增益函数语音增强方法
CN107045874B (zh) 一种基于相关性的非线性语音增强方法
US9875748B2 (en) Audio signal noise attenuation
CN109087657B (zh) 一种应用于超短波电台的语音增强方法
CN106328160B (zh) 一种基于双麦克的降噪方法
CN104810023B (zh) 一种用于语音信号增强的谱减法
CN112151060B (zh) 单通道语音增强方法及装置、存储介质、终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant