CN102800322B - 一种噪声功率谱估计与语音活动性检测方法 - Google Patents
一种噪声功率谱估计与语音活动性检测方法 Download PDFInfo
- Publication number
- CN102800322B CN102800322B CN201110141137.5A CN201110141137A CN102800322B CN 102800322 B CN102800322 B CN 102800322B CN 201110141137 A CN201110141137 A CN 201110141137A CN 102800322 B CN102800322 B CN 102800322B
- Authority
- CN
- China
- Prior art keywords
- lambda
- overbar
- alpha
- calculate
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000000694 effects Effects 0.000 title claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 37
- 238000001514 detection method Methods 0.000 claims abstract description 24
- 230000002123 temporal effect Effects 0.000 claims abstract description 10
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 3
- 230000007704 transition Effects 0.000 claims description 36
- 238000009499 grossing Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012804 iterative process Methods 0.000 claims description 6
- 230000036962 time dependent Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 10
- 230000011218 segmentation Effects 0.000 description 4
- 238000012896 Statistical algorithm Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Landscapes
- Complex Calculations (AREA)
Abstract
本发明涉及一种噪声功率谱估计与语音活动性检测方法,该方法基于一阶回归的序贯隐马尔可夫模型SHMM描述语音在每一频率分量上的时序相关性,最终推演出语音的在这个频率子带上的出现概率和噪声的功率谱信息,1)对于语音信号在每一个频率分量上提取对数幅度谱包络,并建立一个对应的二元隐马尔可夫模型,每一个状态均由高斯分布表示;2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,采用极大似然估计算法建立一个初始化的模型;3)在得到初始化的模型λM之后,从第M+1帧开始,采用增量学习的方法,逐帧更新每一频带的HMM模型,依次递推得到噪声值和语音信号的出现概率。
Description
技术领域
本发明涉及语音信号处理的技术领域,具体的说,本发明涉及一种基于序贯隐马尔可夫模型的噪声谱估计与语音活动性检测方法。其中,语音活动性检测是在时间维度上判断语音出现与否的算法,它既能以“是”或“否”的形式回答存在性,也可以用语音出现概率来描述语音的存在性。
背景技术
语音活动性检测和噪声功率谱估计是降噪算法必不可少的组成部分,它们的性能直接影响降噪算法的性能,特别是在恶劣的噪声环境下,它们间接影响了语音处理系统(如语音识别、话者识别以及语言识别器)的性能。
大多数的语音应用系统不得不面对环境噪声干扰。前人提出了很多方法去除噪声对语音系统的干扰,几乎所有的方法都依赖于语音活动性检测和噪声功率谱估计。这两个模块存在着紧密的联系,它们的准确性直接影响系统的整体抗噪性能。传统的估计方法尽管性能良好,但仍然有两个地方值得提高:
1、充分利用连续语音/非语音信号在某一频率分量上的时序相关性,现有的算法对于时间相关性的利用不够充分,它们往往采用比较简单的一阶回归平滑器对幅度谱包络进行平滑,而且平滑器的平滑因子是固定的。而语音信号本身就是一个分段平稳的信号,它的统计特征包括时序相关性,都是随着时间在不断变化的,一个固定的模型无法反映这种时变特性。如果我们能够采用自适应的模型对时序相关性进行建模,那么算法的性能无疑将会得到提升。这一方法在以往的文献资料中没有提及。
2、传统的序贯HMM的参数自适应采用高阶的回归平均方式,当前的HMM参数集依赖于上一时刻的模型、当前的观察值以及过去多个时刻的观察值,这种参数回归的方式计算量巨大。如果能够在精度损失不大的情况下把这种高阶回归简化为一阶回归,那么,算法的计算效率将大为提高。基于一阶回归的序贯HMM算法,在以往的文献资料中也没有提及。
另外,传统的解决方案是基于半监督学习的方式。在起始阶段,一股的系统需要做出“噪声起始”的假设,即假设句子的开头总是存在一段非语音信号。这段非语音信号可以理解为人工标注的背景噪声样本,从这些标注样本中建立噪声的初始化模型,这是一种监督学习方法。其缺陷是:在一些应用中这个假设难以得到满足,比如当句子以语音信号开头,那么将导致噪声模型的初始化失败,继而使得语音检测和噪声功率谱估计都不准确。这种初始化的方法在中国申请号201010178166.4的专利中已经公开。
发明内容
本发明目的的目的在于,为提供一种基于序贯隐马尔可夫模型的噪声谱估计与语音活动性检测方法,该方法利用隐马尔可夫模型对语音信号在某频率分量上存在的时序相关性进行建模,在某个频率分量上的对数功率谱包络可以看作一个马尔可夫链,这个链条在语音“出现”和“不出现”两种状态间跳转,对于每个状态,采用一个高斯分布描述其功率谱的分布,再根据HMM的前向因子,可以导出语音在某个时频点的出现概率。
为实现上述发明目的,本发明提供了一种噪声功率谱估计与语音活动性检测方法,该方法基于一阶回归的序贯隐马尔可夫模型SHMM描述语音在每一频率分量上的时序相关性,并采用增量学习的方式来逐步更新SHMM,最终,推演出语音的在这个频率子带上的出现概率和噪声的功率谱信息,以准确反映语音的时序统计特征,该方法包括下列步骤:
1)对于语音信号在每一个频率分量上提取对数幅度谱包络,并建立一个对应的二元隐马尔可夫模型,其中,一个分量表示语音能量的分布,另一个分量是噪声能量的分布,每一个状态均由高斯分布表示;
2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,采用极大似然估计算法建立一个初始化的模型;
3)在得到初始化的模型λM之后,从第M+1帧开始,采用增量学习的方法,逐帧更新每一频带的HMM模型,依次递推得到噪声值和语音信号的出现概率。
该方法的具体步骤包括:
1)对于语音信号在每一个频率分量上提取对数幅度谱包络,对于一个频率分量上的对数幅度谱时间序列xl={x1,x2,...,xl},建立一个隐马尔可夫模型sl={s1,s2,...,sl},st∈{0,1}是其对应的状态序列,1表示语音出现状态,0表示噪声出现状态,λl表示从序列xl中获取的模型参数估值,那么,对于给定一个参数集λl,对应的观察值序列xl的概率密度函数可以表示为:
其中,p(sl|λl)表示状态序列sl出现的先验概率,高斯分量表示为:
其中,
变化;
2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,代入步骤1)的HMM模型对每一个频点上初始化一个隐马尔可夫模型λM,下标M表示初始化的时间窗口长度,l≥M;
3)在得到初始化的模型λM之后,从第M+1帧开始,HMM模型采用增量学习的方法,逐帧更新SHMM模型,依次递推得到λl;并得出噪声值μ0,l和语音信号在第l帧的某个频点上的出现概率。
作为上述技术方案的一种改进,所述的步骤1)中提取一帧幅度谱的步骤包括:
首先,对这一帧的数字化声音信号做预处理,设每帧长度为F点,先补零到N点,N≥F,N=2j,j为整数,且j≥8,进行N点离散傅里叶变换,得到离散谱其中,yl,n表示缓存中第l帧的第n个采样点,Yl,k表示缓存中第i帧的第k个傅里叶变换值(k=0,1,...,N-1);那么,它的幅度值可以计算为式中,b(r)为加窗函数。所述的预处理包括加窗、或/和预加重;所述的加窗函数采用汉宁窗或哈宁窗。
作为上述技术方案的一种改进,所述的步骤2)中HMM的初始化,在某个频点上具体初始化的步骤包括:
两类的方差分别为:
两类的初始化权重系数为:
步骤202):计算前向因子:
步骤203):计算后向因子:
步骤204):计算噪声和语音出现概率:
步骤206):计算转移概率:
步骤207):计算新的初始化概率
步骤208):计算新的均值
步骤209):对新的均值进行约束:μ′1,M=max{μ′0,M,μ′0,M+δ},其中,δ是一个常数,取值范围在0至100之间;
步骤210):计算新方差
步骤211):对新方差进行约束,κ′1,M=max{κ′0,M,κ′1,M};
步骤212):计算新的转移概率,
步骤213):计算新模型的似然度
在上述的HMM参数的建模过程中,分别对HMM的均值、权重、方差以及转移概率进行约束。需要指出的是:在初始化过程中,这里的转移概率所发挥的作用与专利201010178166.4中的权重系数相当,由于201010178166.4中的权重系数在初始化过程中用作分母项,所以它必须在初始化过程中进行约束。而本专利中的转移概率不存在此问题。
作为上述技术方案的一种改进,所述的步骤3)中的HMM的序贯更新是在建立初始化的模型λM之后,从第M+1帧开始,采用增量学习的方法,逐帧更新HMM模型,其迭代过程可以表述为:在每一个频点上,已知λl和当前的观察值xl,推断λl+1;对于第l+1帧进行傅立叶变换,得到Yl+1,k,其中,0≤k<N;在每一个频点上,计算幅度值对于每一个频点,在l+1帧的参数更新步骤如下:
步骤301):计算前向因子, z∈{0,1};
步骤302):计算语音和噪声出现概率,
步骤303):计算条件转移概率,
步骤304):计算平均噪声语音出现概率,
步骤305):计算时间依赖平滑因子,
步骤306):计算状态均值,
步骤307):对新的状态均值进行约束:μ1,l+1=max{μ1,l+1,μ0,l+1+δ},l≥M;
步骤308):计算新的状态方差,
步骤309):对新状态方差进行约束,κ1,l+1=max{κ0,l+1,κ1,l+1},l≥M;
步骤310):计算平均转移概率,
步骤311):计算状态概率,
步骤312):对新的转移概率进行约束,a01,l=max{a01,l,η},a00,l=1-a01,l,a10,l=max{a10,l,η},a11,l=1-a10,l,l≥M;
从以上子步骤中,获得了λl+1中所有的参数,从而得到了相应的语音出现概率γl+1|λl(1)和噪声信号的功率谱估值μ0,l+1。
所述的步骤3)中的HMM模型采用的增量学习方法包括:递推权重系数、递推均值和递椎方差;
所述的递推方差:
所述的基于一阶回归的序贯隐马尔可夫模型的参数递推方法为:
计算HMM的前向因子:
计算语音和噪声出现概率,
计算条件转移概率,
计算平均噪声语音出现概率,
计算时间依赖平滑因子,
计算均值,
计算新的方差,
计算平均转移概率,
计算转移概率,
上述技术方案中,采用的保障二元统计模型稳健运行的约束机制包括:
2)为防止隐马尔可夫模型的状态跳转停止,对模型的转移状态进行约束。a01,l=max{a01,l,η},a00,l=1-a01,l,a10,l=max{a10,l,η},a11,l=1-a10,l,l≥M。该约束在步骤312中实施。
3)在追踪过程中,对均值的约束,μ1,l+1=max{μ1,l+1,μ0,l+1+δ},l≥M。该约束在步骤307中实施。
4)对方差的约束,κ1,l+1=max{κ0,l+1,κ1,l+1},l≥M。该约束在步骤309中实施。
本发明涉及一种基于序贯隐马尔可夫模型(Sequential Hidden Markov Model,SHMM)的噪声功率谱估计与语音活动性检测方法,包括下列步骤:1)对于语音信号在每一个频率分量上的对数幅度特征,建立一个SHMM模型,2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,代入步骤1)的SHMM模型进行初始化,得到初始化的模型λM;3)在得到初始化的模型λM之后,从第M+1帧开始,采用增量学习的方法,逐帧更新SHMM模型。模型中的噪声状态平均值就是当前的噪声估计值,估计过程中的语音出现概率表示语音在时频域的活动性。递推的方法是:根据当前的观察值xl和上一时刻的模型参数集λl-1,估计当前时刻的模型参数集λl。由此,依次得到每一时刻某个频率分量上的噪声功率谱和语音出现的概率。本发明是谱估计与语音活动性检测的紧耦合解决方案,能够增强语音应用系统对噪声环境的适应性;本发明不依赖于“噪声起始”假设;并且,本发明还能够提供语音活动性在时频二维空间上的描述。本专利是在已申请的专利号201010178166.4的专利基础之上发展而来的,由于采用了更加模型精确的建模方法,本专利的性能优于201010178166.4,但计算复杂度高于201010178166.4。
与现有技术相比,本发明具有下列技术效果:
基于语音信号在某频率分量上存在时序相关性,本发明利用隐马尔可夫模型对这种时序相关性进行建模,在某个频率分量上的对数功率谱包络可以看作一个马尔可夫链,这个链条在语音“出现”和“不出现”两种状态间跳转,对于每个状态,采用一个高斯分布描述其功率谱的分布。为了简化计算,本发明还提出了一阶回归的序贯HMM追踪方法,它的参数随着输入信号不断变化。其中HMM的语音“不出现”状态的均值就是噪声功率谱的估计值,根据HMM的前向因子,可以导出语音在某个时频点的出现概率。
本发明是一种语音活动性检测和噪声功率谱估计紧耦合的方案,能够增强语音应用系统对噪声环境的适应性;并且,本发明还能够提供语音活动性在时频二维空间上的描述,有利于对噪声进行进一步的精细化处理。
附图说明
图1本发明的噪声谱估计与语音活动性检测方法的的流程图;
图2为实例比较了本发明的SHMM噪声估计算法、经典的最小统计算法(MS)、最小控制回归平均算法(MCRA)、以及它的提高版本IMCRA效果比对图。
具体实施方式
本发明提出了一种基于序贯隐马尔可夫模型的噪声功率谱估计与语音活动性检测方法。
如图1所示,包括下列步骤:
1)对于语音信号在每一个频点上的对数幅度特征,建立一个HMM模型,数学表达式如下:
其中,xl表示第l帧的某个频点上的对数幅度谱,z=0表示语音不出现状态,z=1表示出现状态。μz,k和κz,k分别表示均值和方差,参数集λl={μ0,l,μ1,l,κ1,l,κ0,l,a01,l,a10,l,a00,l,a11,l,π0,π1}。
2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,代入步骤1)的GMM模型进行初始化,得到初始化的模型λ0,k;初始化过程采用约束EM算法;M表示初始化窗口的长度。
3)在得到初始化的模型λM之后,从第M+1帧开始,采用增量学习的方法,逐帧更新HMM模型,依次递推得到λl。并得出噪声值μ0,l和语音信号在第l帧的某个频点上的出现概率。
其中i=1,2,3,……。
其中,所述GMM的增量学习方法包括递推权重系数、递推均值和递推方差;
其中前向因子递推方法为: z∈{0,1}。
语音和噪声出现概率递推方法为:
条件转移概率递推方法为:
平均噪声语音出现概率递推方法为:
时间依赖平滑因子递推方法为:
状态均值递推方法为:
状态方差递推方法为:
平均转移概率递推方法为:
状态概率递推方法为:
序贯隐马尔可夫模型的最大特点是可以在线追踪某频率分量上语音出现的时序相关性,它将某频率分量上的功率普包络看作一个在语音与非语音状态之间切换的马尔可夫链。它采用非监督的方式构建初始化模型。具体说来,它具有以下几个特点:
●由于采用HMM,可以采用Viterbi译码的方式,给出一个时间序列上,语音是否出现的最优估计。
●在初始化阶段,不依赖于噪声起始假设,所以该发明的应用范围比一股的解决方案应用更加宽泛。
●语音活动性是一个“时间——频率”的二维信息,而其它的语音活动性检测算法仅仅描述了语音在时间维度上的存在性。
在一个实施例中,非监督学习框架的载体是二元隐马尔可夫模型(Hidden MarkovModel,缩写为HMM)。其中一个分量表示语音能量的分布,另一个分量是噪声能量的分布。在每一个频率分量上提取对数幅度谱包络,并建立一个对应的HMM。首先采用EM算法初始化HMM,然后采用增量学习的方式来逐步更新HMM。根据HMM模型,分别推演出语音的在这个子带上的出现概率和噪声的功率谱信息。在HMM参数的建模过程中,分别对HMM的均值、权重、方差以及转移概率进行约束。其中,对于HMM参数的序贯估计方法,具体包括递推权重系数、递推均值和递推方差以及递推的计算。
音出现概率的平滑因子,小于1但接近于1。
2)递推方差,
下面结合一个优选实施例对本发明做进一步地描述。
本发明的原理如下:
噪声估计过程在每一个频率分量上并行运行,所以,以下的描述中省略掉频率分量索引k。对于语音信号在每一个频率分量上的对数幅度谱时间序列xl={x1,x2,...,xl},建立一个隐马尔可夫模型,sl={s1,s2,...,sl},st∈{0,1}是其对应的状态序列,1表示语音出现状态,0表示噪声出现状态,λl表示从序列xl中获取的模型参数估值,那么对于给定一个参数集λl,对应的观察值序列xl的概率密度函数可以表示为:
其中,p(sl|λl)表示状态序列sl出现的先验概率高斯分量表示为:
其中
这里κz,l表示高斯分布方差,μz,l表示均值,sl=z,λl={μ0,l,μ1,l,κ1,l,κ0,l,a01,l,a10,l,a00,l,a11,l,π0,π1},参数集中的初始概率πz不随着时间变化。
这个模型中的μ0,l就是我们想要估计的噪声。同时,我们可以推导出语音信号在第l帧的某个频点上出现的概率为γt|λl(z)=p(st=z|xt,λl)。
基于上述原理,根据本发明的一个实施例,所述噪声功率谱估计和语音活动性检测方法包括下列步骤:
步骤100:设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的幅度谱。提取一帧幅度谱的方法如下:
首先对这一帧的数字化声音信号做预处理(根据系统实际情况,可以包括加窗、预加重等),设每帧长度为F点,先补零到N点(其中N≥F,N=2j,j为整数且j≥8),进行N点离散傅里叶变换,得到离散谱其中yl,n表示缓存中第l帧的第n个采样点,Yl,k表示缓存中第i帧的第k个傅里叶变换值(k=0,1,...,N-1)。那么,它的幅度值可以计算为b(r)为加窗函数(如汉宁窗,哈宁窗等等),注意这里的k在下面的描述中被省略。
步骤200:HMM的初始化。在每一个频点上初始化一个隐马尔可夫模型λM,其中下标M表示初始化的时间窗口长度,初始化过程采用约束EM算法,在某个频点上,具体初始化步骤如下:
步骤201:通过聚类的方法(例如LBG非监督聚类,或者模糊聚类等等)将M个样本分成两类:和其中M0+M1=M,均值较大的一类用上标(1)表示,另一类用上标(0)表示。两类的均值为能量较小的一类的均值为其中两类的方差分别为:两类的初始化权重系数:计算新模型的似然度,在以下的迭代过程中,老的模型参数集合表示为λ′M,新的模型参数为:在开始迭代以前,L′设置为一个很大的负数,例如L′k=-10000。初始化前向因子,初始化后向因子,以下开始迭代运算。
步骤202:计算前向因子:
步骤203:计算后向因子:
步骤204:计算噪声和语音出现概率:
步骤205:如果停止跌代。其中ζ是接近于零但大于零的小数。
步骤206:计算转移概率:
步骤207:计算新的初始化概率
步骤208:计算新的均值
步骤209:对新的均值进行约束:μ′1,k=max{μ′0,k,μ′0,k+δ},其中δ是一个常数,取值范围在0至100之间。
步骤210:计算新方差
步骤211:对新方差进行约束,κ′1,M=max{κ′0,M,κ′1,M}
步骤212:计算新的转移概率,
步骤213:计算新模型的似然度
步骤300:HMM的序贯更新。在建立初始化的模型λM之后,从第M+1帧开始,采用增量学习的方法,逐帧更新HMM模型。迭代过程可以表述为:在每一个频点上,已知λl和当前的观察值xl,推断λl+1。对于第l+1帧进行傅立叶变换,得到Tl+1,k,其中0≤k<N。在每一个频点上,计算幅度值对于每一个频点,在l+1帧的参数更新步骤如下:
步骤301:计算前向因子,
步骤302:计算语音和噪声出现概率,
步骤303:计算条件转移概率,
步骤304:计算平均噪声语音出现概率,
步骤305:计算时间依赖平滑因子,
步骤306:计算均值,
步骤307:对新的均值进行约束:μ1,l+1=max{μ1,l+1,μ0,l+1+δ}。
步骤308:计算新的方差,
步骤309:对新方差进行约束,κ1,l+1=max{κ0,l+1,κ1,l+1}
步骤310:计算平均转移概率,
步骤311:计算转移概率,
步骤312:对新的转移概率进行约束,a01,l=max{a01,l,η},a00,l=1-a01,l,a10,l=max{a10,l,η},a11,l=1-a10,l。
从以上子步骤中,我们获得了λl+1中所有的参数,从而得到了相应的语音出现概率和噪声信号的功率谱估值μ0,l+1。
基于上述实施例的算法,对噪声功率谱估计的性能进行评价,采用TIMIT数据库中的男女话者语音数据各8个句子,和NOISEX92噪声数据库中的高斯白噪声、F16战斗机座仓噪声、以及babble噪声按照0、5、10dB等信噪比混合。第一种评价指标线性分段误差定义如下:
同理,误差值越小,表示估计噪声越准确。
算法分别与当前主流的三种噪声功率谱估计算法进行了比较,其中MS表示最小统计算法,MCRA表示最小控制的回归平均算法,IMCRA表示提高版本的最小控制回归平均算法,SHMM为本发明的算法。表1表示出了线谱误差SegError的结果。
表1各种环境下的噪声估计线性分段误差
表2各种环境下的噪声估计对数分段误差
从上表可以看出,本发明提出的算法对于目前主流的三种算法均具有明显的优势。
另外,图2通过一个实例比较了SHMM噪声估计算法、经典的最小统计算法(MS)、最小控制回归平均算法(MCRA)、以及它的提高版本IMCRA。本例中,带噪语音信号在3.75秒的位置,信噪比从10dB突然下降到4dB,在13.1秒的位置,又从4dB上升到10dB。(a)为带噪语音在某一子带上的功率谱;(b)为MS算法估计的噪声功率谱包络,其中虚线表示真实的噪声功率谱包络;(c)表示MCRA算法的估计结果;(d)表示IMCRA算法的估计结果;(e)表示本算法的估计结果。从图中可以看出,其它三个算法对于噪声的突然上升的反应较慢,不能快速跟上噪声的突升。而SHMM算法表现出的性能较好。
在过去的几十年中,人们发明了各种各样的算法,用于估计语音活动性和噪声功率谱。语音信号在频域的时序相关性是其中的一个重要线索,由于语音信号是非稳定信号,这种时序相关性也是随着时间变化的。然而,过去的算法对这种时序相关性没有引起足够的重视,只是简单地加以利用,没有采用自适应的方法描述时变相关性。本发明采用序贯隐马尔可夫模型SHMM描述语音在每一频率分量上的时序相关性,这种序贯估计方法是建立在一阶回归的基础之上,时序相关性和它的参数集一起,随着输入信号的变化而变化。这种统计模型准确反映了语音的时序统计特征,因此,本发明提出的估计算法在性能优于目前主流的算法(例如最小统计,最小控制的回归平均)。
此外,以往SHMM模型都是在建立在高阶回归的基础之上,本发明中提出的一阶回归SHMM相对于高阶回归的SHMM,大大节约了计算量和存储空间。这是本发明的另一个创新之处。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种噪声功率谱估计与语音活动性检测方法,该方法基于一阶回归的序贯隐马尔可夫模型SHMM描述语音在每一频率分量上的时序相关性,并采用增量学习的方式来逐步更新SHMM,最终,推演出语音的在这个频率子带上的出现概率和噪声的功率谱信息,以准确反映语音的时序统计特征,该方法包括下列步骤:
1)对于语音信号在每一个频率分量上提取对数幅度谱包络,并建立一个对应的二元隐马尔可夫模型,其中,一个分量表示语音能量的分布,另一个分量是噪声能量的分布,每一个状态均由高斯分布表示;
2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,采用极大似然估计算法建立一个初始化的模型;
3)在得到初始化的模型λM之后,从第M+1帧开始,采用增量学习的方法,逐帧更新每一频带的HMM模型,依次递推得到噪声值和语音信号的出现概率;
所述的步骤3)中的HMM的序贯更新是在建立初始化的模型λM之后,从第M+1帧开始,采用增量学习的方法,逐帧更新HMM模型,其迭代过程可以表述为:在每一个频点上,已知λl和当前的观察值xl,推断λl+1;对于第l+1帧进行傅立叶变换,得到Yl+1,k,其中,0≤k<N;在每一个频点上,计算幅度值对于每一个频点,在l+1帧的参数更新步骤如下:
步骤301):计算前向因子, z∈{0,1};
步骤302):计算语音和噪声出现概率,
步骤303):计算条件转移概率,
步骤305):计算时间依赖平滑因子,
步骤306):计算状态均值,
步骤307):对新的状态均值进行约束:
步骤308):计算新的状态方差,
步骤309):对新状态方差进行约束,κ1,l+1=max{κ0,l+1,κ1,l+1},l≥M;
步骤310):计算平均转移概率,
步骤311):计算状态概率,
步骤312):对新的转移概率进行约束,a01,l=max{a01,l,η},a00,l=1-a01,l,a10,l=max{a10,l,η},a11,l=1-a10,l,l≥M;
从以上子步骤中,获得了λl+1中所有的参数,从而得到了相应的语音出现概率γl+1|λl(1)和噪声信号的功率谱估值μ0,l+1。
2.根据权利要求1所述的噪声功率谱估计与语音活动性检测方法,该方法的具体步骤包括:
1)对于语音信号在每一个频率分量上提取对数幅度谱包络,对于一个频率分量上的对数幅度谱时间序列xl={x1,x2,...,xl},建立一个隐马尔可夫模型sl={s1,s2,...,sl},st∈{0,1}是其对应的状态序列,1表示语音出现状态,0表示噪声出现状态,λl表示从序列xl中获取的模型参数估值,那么,对于给定一个参数集λl,对应的观察值序列xl的概率密度函数可以表示为:
其中,p(sl|λl)表示状态序列sl出现的先验概率,高斯分量表示为:
其中,
这里表示状态st对应的高斯分布方差,表示相应的均值,λl={μ0,l,μ1,l,κ1,l,κ0,l,a01,l,a10,l,a00,l,a11,l,π0,π1},参数集中的初始概率πi不随着时间变化;
2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,代入步骤1)的HMM模型对每一个频点上初始化一个隐马尔可夫模型λM,下标M表示初始化的时间窗口长度,l≥M;
3)在得到初始化的模型λM之后,从第M+1帧开始,HMM模型采用增量学习的方法,逐帧更新SHMM模型,依次递推得到λl;并得出噪声值μ0,l和语音信号在第l帧的某个频点上的出现概率。
4.根据权利要求3所述的噪声功率谱估计与语音活动性检测方法,其特征在于,所述的预处理包括加窗、或/和预加重。
5.根据权利要求3所述的噪声功率谱估计与语音活动性检测方法,其特征在于,所述的加窗函数采用汉宁窗或哈宁窗。
6.根据权利要求1或2所述的噪声功率谱估计与语音活动性检测方法,其特征在于,所述的步骤2)中HMM的初始化,在某个频点上具体初始化的步骤包括:
两类的方差分别为:
两类的初始化权重系数为:
步骤202):计算前向因子: z,y∈{0,1};
步骤203):计算后向因子: z,y∈{0,1};
步骤205):如果 停止跌代,其中ζ是接近于零但大于零的小数;
步骤206):计算转移概率:
步骤207):计算新的初始化概率
步骤208):计算新的均值
步骤209):对新的均值进行约束:μ′1,M=max{μ′0,M,μ′0,M+δ},其中,δ是一个常数,取值范围在0至100之间;
步骤210):计算新方差
步骤211):对新方差进行约束,κ′1,M=max{κ′0,M,κ′1,M};
步骤212):计算新的转移概率,
步骤213):计算新模型的似然度
步骤214):如果满足条件终止迭代,其中,ε是一个很小的数字,如果 迭代跳转至步骤202)。
7.根据权利要求6所述的噪声功率谱估计与语音活动性检测方法,其特征在于,所述的步骤201)中的聚类的方法采用LBG非监督聚类或者模糊聚类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110141137.5A CN102800322B (zh) | 2011-05-27 | 2011-05-27 | 一种噪声功率谱估计与语音活动性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110141137.5A CN102800322B (zh) | 2011-05-27 | 2011-05-27 | 一种噪声功率谱估计与语音活动性检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102800322A CN102800322A (zh) | 2012-11-28 |
CN102800322B true CN102800322B (zh) | 2014-03-26 |
Family
ID=47199411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110141137.5A Expired - Fee Related CN102800322B (zh) | 2011-05-27 | 2011-05-27 | 一种噪声功率谱估计与语音活动性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102800322B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103489454B (zh) * | 2013-09-22 | 2016-01-20 | 浙江大学 | 基于波形形态特征聚类的语音端点检测方法 |
CN104575513B (zh) * | 2013-10-24 | 2017-11-21 | 展讯通信(上海)有限公司 | 突发噪声的处理系统、突发噪声的检测及抑制方法与装置 |
CN103632677B (zh) | 2013-11-27 | 2016-09-28 | 腾讯科技(成都)有限公司 | 带噪语音信号处理方法、装置及服务器 |
CN104269180B (zh) * | 2014-09-29 | 2018-04-13 | 华南理工大学 | 一种用于语音质量客观评价的准干净语音构造方法 |
CN105810201B (zh) * | 2014-12-31 | 2019-07-02 | 展讯通信(上海)有限公司 | 语音活动检测方法及其系统 |
EP3118851B1 (en) * | 2015-07-01 | 2021-01-06 | Oticon A/s | Enhancement of noisy speech based on statistical speech and noise models |
CN106571146B (zh) * | 2015-10-13 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 噪音信号确定方法、语音去噪方法及装置 |
CN105355199B (zh) * | 2015-10-20 | 2019-03-12 | 河海大学 | 一种基于gmm噪声估计的模型组合语音识别方法 |
CN108113646A (zh) * | 2016-11-28 | 2018-06-05 | 中国科学院声学研究所 | 一种心音信号周期的检测与心音的状态分割方法 |
CN106653047A (zh) * | 2016-12-16 | 2017-05-10 | 广州视源电子科技股份有限公司 | 一种音频数据的自动增益控制方法与装置 |
CN107731230A (zh) * | 2017-11-10 | 2018-02-23 | 北京联华博创科技有限公司 | 一种庭审笔录系统及方法 |
CN108986832B (zh) * | 2018-07-12 | 2020-12-15 | 北京大学深圳研究生院 | 基于语音出现概率和一致性的双耳语音去混响方法和装置 |
CN109741759B (zh) * | 2018-12-21 | 2020-07-31 | 南京理工大学 | 一种面向特定鸟类物种的声学自动检测方法 |
CN109616139B (zh) * | 2018-12-25 | 2023-11-03 | 平安科技(深圳)有限公司 | 语音信号噪声功率谱密度估计方法和装置 |
CN110136738A (zh) * | 2019-06-13 | 2019-08-16 | 苏州思必驰信息科技有限公司 | 噪声估计方法及装置 |
CN110648680B (zh) * | 2019-09-23 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 语音数据的处理方法、装置、电子设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1242553A (zh) * | 1998-03-24 | 2000-01-26 | 松下电器产业株式会社 | 用于噪声环境的语音检测系统 |
US20020188445A1 (en) * | 2001-06-01 | 2002-12-12 | Dunling Li | Background noise estimation method for an improved G.729 annex B compliant voice activity detection circuit |
CN101853661A (zh) * | 2010-05-14 | 2010-10-06 | 中国科学院声学研究所 | 基于非监督学习的噪声谱估计与语音活动度检测方法 |
CN102044243A (zh) * | 2009-10-15 | 2011-05-04 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
-
2011
- 2011-05-27 CN CN201110141137.5A patent/CN102800322B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1242553A (zh) * | 1998-03-24 | 2000-01-26 | 松下电器产业株式会社 | 用于噪声环境的语音检测系统 |
US20020188445A1 (en) * | 2001-06-01 | 2002-12-12 | Dunling Li | Background noise estimation method for an improved G.729 annex B compliant voice activity detection circuit |
CN102044243A (zh) * | 2009-10-15 | 2011-05-04 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
CN101853661A (zh) * | 2010-05-14 | 2010-10-06 | 中国科学院声学研究所 | 基于非监督学习的噪声谱估计与语音活动度检测方法 |
Non-Patent Citations (1)
Title |
---|
赵力.语音识别.《语音信号处理》.机械工业出版社,2003,第100-102页,33页. * |
Also Published As
Publication number | Publication date |
---|---|
CN102800322A (zh) | 2012-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102800322B (zh) | 一种噪声功率谱估计与语音活动性检测方法 | |
CN100543842C (zh) | 基于多统计模型和最小均方误差实现背景噪声抑制的方法 | |
TW201935464A (zh) | 基於記憶性瓶頸特徵的聲紋識別的方法及裝置 | |
US8615393B2 (en) | Noise suppressor for speech recognition | |
WO2014153800A1 (zh) | 语音识别系统 | |
WO2011037587A1 (en) | Downsampling schemes in a hierarchical neural network structure for phoneme recognition | |
CN101853661B (zh) | 基于非监督学习的噪声谱估计与语音活动度检测方法 | |
KR20080078466A (ko) | 다단계 음성인식장치 및 방법 | |
EP1465154B1 (en) | Method of speech recognition using variational inference with switching state space models | |
Novoa et al. | Uncertainty weighting and propagation in DNN–HMM-based speech recognition | |
CN104078039A (zh) | 基于隐马尔科夫模型的家用服务机器人语音识别系统 | |
Frey et al. | Algonquin-learning dynamic noise models from noisy speech for robust speech recognition | |
CN103021408B (zh) | 一种发音稳定段辅助的语音识别优化解码方法及装置 | |
Todkar et al. | Speaker recognition techniques: A review | |
CN109192200A (zh) | 一种语音识别方法 | |
CN111739562B (zh) | 一种基于数据选择性和高斯混合模型的语音活动检测方法 | |
US7454336B2 (en) | Variational inference and learning for segmental switching state space models of hidden speech dynamics | |
Liu et al. | A novel pitch extraction based on jointly trained deep BLSTM recurrent neural networks with bottleneck features | |
Liang et al. | An improved noise-robust voice activity detector based on hidden semi-Markov models | |
KR100784456B1 (ko) | Gmm을 이용한 음질향상 시스템 | |
Li et al. | A Convolutional Neural Network with Non-Local Module for Speech Enhancement. | |
Górriz et al. | Improved likelihood ratio test based voice activity detector applied to speech recognition | |
Sehr et al. | Frame-wise HMM adaptation using state-dependent reverberation estimates | |
Dimitriadis et al. | An alternative front-end for the AT&T WATSON LV-CSR system | |
He et al. | A new framework for robust speech recognition in complex channel environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140326 |