CN102667927B

CN102667927B - 语音活动检测的方法和背景估计器

Info

Publication number: CN102667927B
Application number: CN2010800579955A
Authority: CN
Inventors: 马丁·绍尔斯戴德
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2009-10-19
Filing date: 2010-10-18
Publication date: 2013-05-08
Anticipated expiration: 2030-10-18
Also published as: US20160078884A1; CA2778342C; CA2778342A1; EP2816560A1; IN2012DN03221A; AU2010308597A1; CN102667927A; JP2013508772A; US9418681B2; AU2010308597B2; EP2491559A1; EP2491559A4; PT2491559E; EP2491559B1; WO2011049514A1; US9202476B2; US20120209604A1; JP5712220B2

Abstract

本发明涉及语音活动检测器中用于更新输入信号的背景噪声估计的方法和背景估计器。接收当前帧的输入信号，并确定输入信号的当前帧是否包括非噪声。此外，通过分析至少与输入信号的相关性和能量电平有关的特性，来执行附加确定，确定非噪声输入的当前帧是否包括噪声；以及如果确定当前帧包括噪声，更新背景噪声估计。

Description

语音活动检测的方法和背景估计器

技术领域

本发明的实施例涉及语音活动检测器的方法和背景估计器。

背景技术

背景噪声估计用作对背景噪声的表征，并且在诸如噪声抑制、语音活动检测器、SNR(信噪比)估计等应用中是有用的。

背景噪声估计的比较重要的属性包括：应当能够跟踪输入噪声特性的改变；以及还应当能够处理噪声特性和/或强度的阶跃改变(如，突变)，同时还避免使用非噪声段落来更新背景噪声估计。

在用于对话语音的语音编码系统中，普遍使用通常使用非连续发送(DTX)来增加编码的效率。还可以使用可变比特率(VBR)编码来降低比特率。原因在于：对话语音包含了嵌入在语音中的大量停顿，例如当一个人在说话而另一个人在聆听时。因此，利用非连续发送(DTX)，语音编码器平均仅在大约50％的时间上是活动的，且可以使用舒适噪声对其余时间进行编码。使用DTX的一个示例是AMR(自适应多速率)窄带。对于高质量DTX操作，即，无劣化语音质量的情况下，在输入信号中检测语音的周期是十分重要的。这是由语音活动检测器(VAD)来完成的。DTX逻辑使用VAD结果来确定如何/何时在语音和舒适噪声间切换。

图1示出了一般化VAD180的总体框图，其获取根据具体实现被分为5至30ms的数据帧的输入信号100作为输入，并产生VAD判决作为输出160。即，VAD判决160是针对每帧的该帧包含语音还是噪声的判决，又称VAD_flag。

通用VAD180包括从输入信号中提取用于VAD判决的主要特征的特征提取器120，主要特征的一个示例是被用作每帧输入信号的频率表示的子带能量。为了进行判决，背景估计器130提供背景信号的子带估计(对先前输入帧进行估计)。操作控制器110采集输入信号的特性(如，长期噪声强度、用于长期SNR计算的长期语音强度、以及长期噪声强度变化)，作为初级语音检测器的输入信号。

由初级语音活动检测器140来作出初级判决“vad_prim”150，且初级判决“vad_prim”150基本上就是对当前帧的特征与(根据先前输入帧估计出的)背景特征的比较，其中，大于阈值的差异导致活动初级判决。尾响添加(hangover addition)块170用于基于过去的初级判决对该初级判决进行扩展，以形成最终判决“vad_flag”160。使用尾响的原因主要是为了减少/消除“讲到一半”(mid speech)的风险以及“语音突发”(speech burst)的后端截断(backend clipping)。然而，该尾响也可以用于避免音乐段落的截断。操作控制器110可以根据输入信号的特性来调整初级语音活动检测器140的阈值以及尾响添加170的长度。

背景估计可以通过以下两个根本不同的原理来实现：或者使用初级判决(即，使用图1中的点划线所示的判决或判决度量反馈)；或者使用输入信号的某些其他特性(即，不使用判决反馈)。还可以使用两种策略的组合。

存在可以使用的大量不同的特征，但在VAD中使用的一个特征是输入信号的频率特性。计算输入信号的频率子带中的能量是一种流行的表示输入频率特性的方式。采用该方式，背景噪声特征之一是每个子带的能量值的矢量。这些能量值是在频域中表征输入信号中背景噪声的值。为了实现对实际噪声的跟踪，可以至少三种不同方式来进行估计更新。第一种方式是，针对每个频率仓(frequency bin)使用AR过程(自回归规程)来处理更新。基本上，对于这类更新，更新的步长与观察到的当前输入和当前背景估计之差成正比。第二种方式是，在估计决不大于当前输入或小于最小值的限制条件下，使用当前估计的乘性缩放。这意味着，对于每帧使估计增加，直至其高于当前输入。在该情形下，使用当前输入作为估计。第三种方式是，使用最小值技术，其中，估计是先前帧的滑动窗期间的最小值。这基本上给出了最小估计，使用补偿因子对所述最小估计进行缩放以获得并逼近平稳噪声的平均估计。先前帧的滑动时间窗意味着：针对指定数量的先前帧，以关注的变量(帧能量或子带能量)创建缓冲区。当新帧到达时，通过从缓冲器中移除最早的值并插入最新的值来更新缓冲区。

虽然最小值估计技术具有较低的复杂度，但对于变化的背景噪声，得到的估计可能不够精确。其出发点在于：长滑动时间窗有时可能导致过低的估计，而短滑动时间窗可能导致过大的估计。对于滑动时间窗，背景估计器针对音乐型输入将如何工作也是不清楚的。

与纯粹的最小值估计技术相比，在估计不能大于当前值的限制条件下使用当前估计的乘性缩放表现出更好的跟踪，但在跟踪变化背景的快速增加方面仍存在问题。基本上，跟踪正常，直至增加速率超过乘性缩放所限的速率。

使用AR过程进行背景更新具有高效地跟踪背景噪声强度的潜力。然而，利用非噪声数据进行背景估计更新的判决误差可能导致糟糕的背景估计。特别地，对于依赖于判决反馈的VAD方案，不精确的背景估计可能导致甚至更多的判决错误。

为了避免以非噪声数据来更新背景，通常对何时更新(至少对向上更新)背景估计存在许多限制。虽然所述许多限制将降低使用非噪声数据进行更新的风险，但这些限制将同时降低估计器跟踪变化的背景噪声的能力，对非平稳背景噪声的情形尤其如此。通过允许估计始终向下更新，可以减小一些错误判决的影响。始终向下更新的缺陷在于：对于非平稳噪声，将最终导致过低的估计。此处的出发点类似于最小值估计，在最小值估计中，在该情况下，没有针对滑动时间窗定义长度。

还存在以背景噪声更新死锁告终的可能。即，背景逻辑结束于即使当前输入为纯噪声输入也不允许改变背景噪声的状态。如果存在噪声特性或噪声强度突变，使得输入不再被识别为噪声，则可能发生这种情况。因此，通常存在恢复算法。虽然该算法通常适用于平稳噪声，但其可能并不总是适用于嘈杂噪声，所述嘈杂噪声本质上与语音在特性上相对接近。

虽然基于能量的停顿检测器在较好的SNR条件下工作良好，但是在低SNR条件下能力有限。

发明内容

因此，本发明的实施例的目的在于：提供一种在低SNR条件下具有增强性能的VAD方案。

这是通过执行确定当前帧是否包括噪声的附加确定来实现的。在一个实施例中，仅对被认为包括非噪声的帧执行该附加确定。

根据本发明实施例的第一方面，提供了一种在VAD的背景估计器中更新输入信号的背景噪声估计的方法。在所述方法中，接收当前帧的输入信号，并确定输入信号的当前帧是否包括非噪声。此外，通过分析至少与输入信号的相关性和能量电平有关的特性，来执行附加确定，确定非噪声输入的当前帧是否包括噪声；以及如果确定当前帧包括噪声，更新背景噪声估计。

根据本发明实施例的第二方面，提供了一种在VAD中更新输入信号的背景噪声估计的背景估计器。所述背景估计器包括：输入部，被配置为接收当前帧的输入信号。所述背景估计器还包括：处理器，被配置为确定输入信号的当前帧是否包括非噪声；通过分析至少与输入信号的相关性和能量电平有关的特性，来执行附加确定，确定非噪声输入的当前帧是否包括噪声；以及如果确定当前帧包括噪声，更新背景噪声估计

通过使用本发明的实施例，获得了用于背景噪声估计(特别是对非平稳噪声)的更好的噪声跟踪。采用改进的噪声跟踪，VAD功能得以改进，该改进体现为非平稳噪声中的误报语音帧减少。此外，可以提供对平稳噪声类型的背景噪声估计的改进的死锁恢复。从系统角度讲，过多活动的减少将导致更好的容量。

因此，提供了(例如，用户设备中的发射机编码器的)语音活动检测器的方法和背景估计器，所述方法和背景估计器被配置为实现本发明实施例的方案。

附图说明

图1示出了根据现有技术的采用背景估计的通用语音活动检测器(VAD)。

图2是示出了根据现有技术的、要在发射机中实现的背景噪声估计器的背景更新过程的流程图。

图3是示出了根据本发明实施例的、要在发射机中实现的背景噪声估计器的背景更新过程的流程图。

图4是示出了根据本发明实施例的方法的另一流程图。

图5示意性地示出了根据本发明实施例的背景估计器。

图6示出了根据本发明实施例的、对混合语音(-26dBov)和嘈杂噪声64(-36dBov)输入的改进的噪声跟踪。

图7示出了根据本发明实施例的、对混合语音(-26dBov)和粉红噪声64(-46dBov)输入的改进的噪声跟踪。

具体实施方式

下文中将参照示出了本发明的优选实施例的附图，来更充分地描述本发明的实施例。然而，可以用很多不同形式来体现实施例，且实施例不应当被理解为受限于本文所阐述的实施例；相反，这些实施例被提供为使得本公开将是全面且完整的，并且将向本领域技术人员充分地传达本发明的范围。在附图中，相似的附图标记指代相似的元素。

此外，本领域技术人员将意识到：可以使用软件功能结合编程微处理器或通用计算机，和/或使用专用集成电路(ASIC)，来实现以下说明的装置和功能。还将意识到：尽管主要以方法和设备的形式来描述当前实施例，还可以在计算机程序产品中以及包括计算机处理器和连接至处理器的存储器在内的系统中实现这些实施例，其中，使用可以执行本文公开的功能的一个或多个程序对存储器进行编码。

为了描述本发明的实施例，使用AR(自回归)过程来进行背景噪声估计，其中，始终允许对噪声估计进行向下调整。图2示出了根据现有技术的这样的背景估计器的判决逻辑的基本流程图。

1.背景估计的更新过程起始于根据当前输入帧来导出子带电平的频率分析。此外，在该步骤中计算用于判决逻辑的其他特征，如，与噪声估计、总能量Etot、相关性有关的特征的示例，包括音调和发声参数。在该步骤中，还计算vad_flag，即，语音活动检测器是否检测到语音的判决。

2.在该步骤中，执行对潜在的新噪声估计tmpN的计算。该估计仅基于当前输入帧和来自最后一帧的背景噪声估计。如果当前估计的背景估计高于潜在的新噪声估计，则此时可以降低当前噪声估计。在以下伪码中，与此对应地，tmpN[i]低于bckr[i]。

3.接着，估计在噪声更新逻辑中使用的与噪声估计有关的特征，并且如果检测到非噪声输入，该输入很可能是活动的语音信号。

4.对于活动的语音信号，如果需要，激活尾响计数器。注意，背景更新过程使用尾响周期也是十分常见的，并且如此可以避免将语音信号的大的类噪声段落用于背景估计。

5.如果尾响计数器不为0，背景估计仍在尾响内，并且在该帧期间将不存在任何背景噪声更新。如果尾响周期结束，尾响计数器为0。可以增加噪声估计。

6.如果在块3中未检测到非噪声，语音突发已经结束，并且如果存在任何剩余尾响，递减/减小尾响计数器。

7.当尾响周期结束时，尾响计数器为0。进行最终测试以识别大能量阶跃(即，输入能量是否远大于当前噪声估计)，从而确保不使用大能量阶跃进行背景更新。

8-11.为了避免大能量阶跃引起背景估计死锁，恢复逻辑允许在一定延迟(即，若干死锁帧)后进行更新。

12-13.结束噪声更新过程前的最后步骤是更新特征状态历史，以供评估下一帧时使用。

根据本发明的实施例，执行附加确定，确定非噪声输入的当前帧是否包括噪声。这是通过分析至少与输入信号的相关性和能量电平有关的特性来执行的，并且如果确定当前帧包括噪声，更新背景噪声估计。

下面转向示出了本发明实施例的图3的流程图。与图2的流程图相比，图3的流程图包括：表示为“非噪声输入？”(附图标记3)、“噪声输入？”(附图标记4a)、“背景更新(向上)”(附图标记4a)、“大能量阶跃”(附图标记7)和“死锁恢复？”(附图标记8)以及背景更新减小步长(向上)(附图标记10a)的新增或修改步骤。其他框与图2中相应的框具有相同的功能。

采用图3中框3的逻辑，可能发生以下情况：特定噪声类型被误认为音乐，并且因此防止噪声估计增加。使用在图3的框3中实现的新特征(其中，与图2框3的逻辑的一部分组合，考虑从具有相关性的最后一帧开始的时间)，如果输入是类噪声的(即，根据本发明的实施例，如果输入在足够长的时间内未显示出相关性的迹象)，可以禁用该阻止噪声更新的特征。

在作为新增步骤的标记为4a的“噪声输入？”框中，根据本发明的实施例，执行附加确定，确定当前帧的非噪声输入是否包括噪声。改进的判决逻辑将现有特征和新特征组合，以改进框3中的非噪声判决，并且在框4a中增加了第二噪声输入检测步骤，该步骤还允许附加背景更新(参见步骤4b)，尽管在框5中已确定仍在背景噪声更新尾响以内。因此，框4a中的附加噪声输入检测步骤引入了对在“非噪声输入”中被识别为潜在语音帧的帧的额外检查，检查它们是否确实是语音。如果此时确定这些帧是噪声，则在框4b中允许使用噪声估计增加来更新背景。基本上，这允许更好地跟踪接近语音突发的噪声估计，有时甚至语音突发内的噪声估计。

标记为4b的“背景更新(向上)”框的逻辑允许噪声估计的增加，但以比在图2的框中使用的“常规”噪声增加小的步长来增加。

通过引入尽管在框5中确定背景噪声更新的尾响周期仍在继续也更新噪声的新的可能(4a和4b)，可以强化对常规噪声更新的要求(即，在框5中确定自非噪声输入存在起已经过足够的时间)，而不增加在标记为7的“大能量阶跃？”框中以噪声估计死锁而告终的风险。噪声估计死锁意味着不允许进一步增加噪声估计。由于强化这些要求避免了例如引起音乐截断的一些非期望的规则噪声更新，因此期望强化这些要求。

由于图2的死锁恢复过于激进，与图2的现有技术方案相比，框8的修改和框10a的添加改进了性能。框“死锁恢复？”8和“背景更新减小步长(向上)”10a导致噪声估计增加的减小的步长，用以避免死锁。

根据不同特征所出现的上下文，不同特征具有不同的可靠度。对于语音、音乐和音调输入，相关性是重要的特征，这是由于语音和音乐至少由可以检测到相关性的输入段落组成。此外，不应低估作为低复杂特征的帧能量在与其他特征组合时对于噪声检测的有效性。

对于根据本发明实施例的改进的控制逻辑，定义了以下特征：

E_{f_low_LP}是每帧更新的平滑后的最小能量跟踪量。该特征主要用作其他特征的基础。

E_t-E_{f_low_LP}是当前帧与平滑后的最小能量跟踪量的能量差。

NT_tot-E_{f_low_LP}是当前噪声估计与平滑后的最小能量跟踪量的能量差。

N_bg是连续的可能背景帧的数目的计数器，基于E_{f_low_LP}和总能量E_t。注意，该特征将不会对平稳噪声造成死锁。

N_corr是相关性事件计数器，从指示相关性的最后一帧开始对连续帧的数目进行计数。

SNR_sum是来自子带SNR VAD的判决度量。在改进的背景噪声更新逻辑中，SNR_sum用作加权的频谱差特征。

由于仅在较长的语音/音乐停顿中特征N_corr将达到较高值，在改进的非噪声检测器中使用相关性事件计数器N_corr。当从最后一个的相关性事件开始已存在较长停顿时，这可以用于降低非噪声检测器的灵敏度。这将允许背景噪声估计器在纯噪声的情况下更好地跟踪噪声强度。

避免背景噪声跟踪直接跟随输入能量的大幅阶跃仍是重要的。因此，可以使用特征E_t-E_{f_low_LP}来检测这样的能量阶跃何时发生，并且暂时阻止噪声更新跟踪该输入。注意，对于达到新电平的阶跃，特征E_t-E_{f_low_LP}将最终恢复，这是由于E_{f_low_LP}仅基于输入能量，并将在一定延迟后适应于新电平。

根据实施例的附加噪声检测器可以被视为二次噪声更新和可选死锁恢复的组合。允许两个附加条件，进行常规更新过程以外的背景更新。第一附加条件使用特征N_corr、E_t-E_{f_low_LP}、N_tot-E_{f_low_LP}和N_bg，其中，N_corr确保多个帧不相关，E_t-E_{f_low_LP}确保当前能量接近于当前所估计的噪声强度，N_tot-E_{f_low_LP}确保两个噪声估计接近(由于还允许E_{f_low_LP}跟踪音乐中的输入能量，需要如此)，N_bg确保输入电平对于多个帧低至合理水平(接近于E_{f_low_LP})。第二附加条件使用特征N_corr和SNR_sum，确定输入何时是类噪声的，其中，如前所述N_corr确保多个不相关帧，SNR_sum被用作加权的频谱差测量。这两个条件中的任一个可以允许更新背景噪声。

在大能量阶跃检测器和死锁恢复中也做出了改进。通过添加特定的噪声检测步骤，可以提高大能量阶跃检测器的灵敏度，并且可以减小原始死锁恢复的步长。

以下进一步定义上述特征中一些特征的计算：

E_{f_low_LP}如上所述是帧能量的最小估计的平滑函数，其缓慢增加直至找到新的最小值。E_{f_low}是在当前帧能量E_t小于修改后的E_{f_low}的情况下以较小值δ_{f_low}增加的未平滑值。接着，E_{f_low}被设置为E_t。接着，通过AR过程，使用新的E_{f_low}值来更新所述平滑值：E_{f_low_LP}＝(1-α)E_{f_low_LP}+αE_{f_low}。注意，在平滑后，E_{f_low_LP}不再是严格的最小估计。

N_bg如上所述是连续的可疑背景帧的数目的计数器，通过特征E_t-E_{f_low_LP}而基于E_{f_low_LP}和总能量E_t。如果N_bg为0或更大并且E_t充分大于E_{f_low_LP}，假设语音突发已经开始或者正在进行，然后设置N_bg＝-1。如果N_bg＝-1并且E_t并非充分大于Ｅ_{f_low_LP}，假设语音停顿已经开始，设置N_bg＝0。如果此时N_bg为0或更大，则使N_bg增1。

N_corr是相关性事件计数器，自最近相关性事件起对连续帧的数目进行计数。如果在当前帧中检测到相关性，则设置N_corr＝0，否则使计数器增加N_corr＝N_corr+1。

本发明的实施例改进了阻止常规噪声更新过程的判决逻辑，但还增加了更新背景估计的可选逻辑。如此，使得背景噪声估计实现了对非平稳输入噪声的更好的跟踪，并且避免了对平稳噪声类型(如粉红噪声和白噪声)的死锁，并仍然保持/改进了不跟踪音乐或语音突发前端的能力。

下面将结合以下伪码来描述本发明的实施例。使用G.718编解码器(ITU-T建议嵌入式可扩缩语音和音频编解码器)作为该描述的基础，但应注意实施例也适用于其他编解码器。

表1

首先，如结合图2的框1说明的那样，在框1中，执行频率分析和特征计算。如图2的框2，可以更新噪声强度估计。在框3中，执行确定，确定输入帧是否包括非噪声输入。

为了允许噪声估计还适用于粉红噪声和白噪声，需要修改VAD的输入。根据实施例，这是通过引入计数器(st_harm_cor_cnt或N_corr)在框3中实现的，所述计数器用于从最后一个谐音或相关性事件开始对帧数目进行计数。这基于与图2的非噪声测试中相同的用于相关性准则的特征。差别在于：增加了计数器。在以下伪码中示意了如何能够实现计数器的示例。

此外，在框3中，基于稍后将在特征(Etot-Etot_l_lp或E_t-E_{f_low_LP})中使用的(Etot_l_lp或Ｅ_{f_low_LP})，引入检测输入能量突然增加的特征。

Etot_l每帧增加，并且决不能高于当前输入能量。进一步对该度量进行低通滤波，以形成Etot_l_lp。条件(Etot-Etot_l_lp＞10)避免基于能量与当前的平滑后最小估计相比过高的帧，来自执行常规噪声更新。

使用该度量，在该实施例中，用于防止背景的条件被修改为：

该实施例在最后80帧内不存在谐音或相关性事件的情况下，防止non_sta、tmp_pc和noise_char特征停止背景更新。

采用与框3相对应的本发明实施例的上述修改(更新后的防止逻辑)，需要使噪声更新变慢的可选方案，来防止背景噪声的突然增加导致噪声估计器以死锁告终。对于灵敏的基于能量的停顿检测器，这还需要另一附加特征，该附加特征具有背景帧计数器(bg_cnt)的形式(bg_cnt＝＝-1-＞可能的语音突发，bg_cnt＝＝0-＞背景起始，bg_cnt＝＝n-＞从背景起始开始的第n帧)

此处，bg_cnt形成组合的基于能量的停顿检测器和停顿突发长度计数器，确保当前帧能量不大幅偏离其长期估计。这用于确保不将非语音帧用于背景更新，不存在以死锁而告终的风险。更新背景的最终条件被修改为在框3中确定其不是非噪声：

在以上伪码中，初始测试(aEn＝＝0)为与图3中的框5相对应的“在尾响内？”测试。由于(与之前的25dB相比)仅允许Etot和totalNoise的15dB的差异，以上伪码的第一修改块使得常规背景更新过程对能量增加更加灵敏；还应注意，死锁修改块被移至第二修改块，其中，更新使用与图3的框8和10a相对应的减小的步长。该伪码部分对应于图3中修改框7以及框11和10的功能。

如果在20帧内不存在相关性且Etot和totalNoise之差小于25dB，以上伪码的第二修改块允许减小步长更新。此外，仅允许死锁更新使用减小步长更新。该伪码部分对应于图3框中框8、11和10a的功能。如果上述噪声调整都不可能，伪码块以死锁计数器增加结束，这对应于图3中的框9。

以上伪码的第三修改块包含：框4a中的附加噪声检测测试以及框4b中的增加的背景噪声更新可能。注意，当常规噪声估计因尾响而被禁止时，执行该伪码块。存在两种可选方案，并且该两种可选方案均依赖于相关性计数器harm_cor_cnt。在第一可选方案中，利用新度量totalNoise-Etot_l_lp和Etot-Etot_l_lp结合低复杂度停顿长度计数器bg_cnt，除了较低的能量差，还要求多于20个无相关帧。在第二可选方案中，除了较低的snr_sum，还要求多于80个无相关帧。注意，snr_sum是在VAD中使用的判决度量，并且在情况下其被用作当前帧和当前背景噪声估计的频谱差异。使用作为频谱差异测量的snr_sum，不对与背景估计相比的子带能量降低施加权重。对于该频谱差异，仅子带能量增加具有权重。

对于图3的框3中的非噪声测试，在上述实施例中，将特征E_t-E_{f_low_LP}与固定阈值进行了比较。对于N_bg的创建，这也是有效的，在N_bg的创建中，特征E_t-E_{f_low_LP}与固定阈值比较。上述实施例的可选方案是：对E_t-E_{f_low_LP}的判决阈值应用迟滞，即，根据寻找语音突发(N_bg≥0)还是语音停顿(N_bg＝-1)使用不同的固定阈值。

在上述实施例中，对于图3的框4a中的噪声测试，将特征E_t-E_{f_low_LP}和N_tot-E_{f_low_LP}与固定阈值比较，还将特征SNR_sum与固定阈值比较。

根据又一实施例，对于框3的框3中的非噪声测试，将特征E_t-E_{f_low_LP}与自适应阈值比较。对于Ｎ_bg的创建，也将特征E_t-E_{f_low_ＬＰ}与自适应阈值比较。可选方案是：对E_t-E_{f_low_LP}的阈值应用迟滞，即，根据寻找语音突发(N_bg≥0)还是语音停顿(N_bg＝-1)使用不同的自适应阈值。

对于噪声测试，将特征Ｅ_t-E_{f_low_LP}和N_tot-E_{f_low_LP}与自适应阈值比较。此外，将特征SNR_sum与自适应阈值比较。

所有上述阈值适配可以基于输入特征，如，输入能量变化、所估计的SNR、背景强度、或其组合。

根据又一实施例，对所有帧，而不仅仅对非噪声或尾响帧，应用框4a中的附加噪声测试功能。

以下，将结合图4来描述本发明的实施例。VAD的背景估计器中的用于更新输入信号的背景噪声估计的方法包括：接收401当前帧的输入信号。应当注意的是，该接收是在VAD的其他块间共享的，并且背景估计器能够接收执行背景估计所需的其他输入信号。此外，实施例的方法还包括：确定402输入信号的当前帧是否包括非噪声，或者如图3的框5根据这样的帧确定仍处于背景噪声尾响以内。如果确定不处于尾响以内，则更新背景估计。如果确定在尾响以内，则通过分析至少与输入信号的相关性和能量电平有关的特性来执行403附加确定，确定当前帧输入是否包括噪声。接着，如果确定当前帧包括噪声，更新404背景噪声估计，这对应于图3中的框4b。

根据实施例，确定非噪声输入的当前帧是否包括噪声的附加确定包括以下至少一项：如果输入信号的能量电平与平滑最小能量电平的差距在第一范围以内，以及如果总噪声与平滑最小能量电平的差距在第二范围以内，对相关性进行检测并从指示相关性事件的最后一帧开始对帧的数量进行计数。此外，根据一实施例，执行对相关性的检测并从指示相关性事件的最后一帧开始对帧的数量进行计数，以减小背景噪声估计更新的步长，并确定应何时执行背景噪声估计更新。

根据一实施例，利用对输入信号的能量电平与平滑最小能量电平的差距是否在第一范围以内的分析，避免基于能量与平滑最小能量电平相比过高的帧对背景噪声估计进行更新，并确定应何时在图3的框4b中执行背景噪声估计更新。此外，根据实施例，利用对总噪声与当前所估计的噪声强度的差距是否在第二范围以内的分析，来确定应何时在图3的框4b中执行背景噪声估计更新。

第一和第二范围可以是固定范围或自适应范围。

在又一实施例中，对所有帧，而不仅仅对在图3的框5中被视为包括背景更新尾响帧的帧，应用在图3的框4a中执行的附加确定。

根据本发明的另一方面，提供了VAD中的用于更新输入信号501的背景噪声估计的背景估计器。背景估计器500包括：输入部502，被配置为接收当前帧的输入信号501和用于估计背景噪声的其他信号。背景估计器500还包括：处理器503、存储器504和输出部505。处理器503被配置为：确定输入信号的当前帧是否包括非噪声；通过分析至少与输入信号的相关性和能量电平有关的特性，来执行附加确定4a，确定非噪声输入的当前帧是否包括噪声；以及如果确定当前帧包括噪声，更新背景噪声估计。存储器504被配置为：存储用于执行处理器503的功能的软件代码部分、背景噪声估计以及与噪声和信号能量估计有关的其他数据。

此外，确定非噪声输入的当前帧是否包括噪声的附加确定4a可以进一步包括以下至少一项：如果输入信号的能量电平与平滑最小能量电平的差距在第一范围以内，以及如果总噪声与平滑最小能量电平的差距在第二范围以内，对相关性进行检测并从指示相关性事件的最后一帧开始对帧的数量进行计数。

此外，处理器503可以被配置为：基于对相关性的检测以及从指示相关性事件的最后一帧开始的帧的数量，来减小背景噪声估计更新的步长，并确定应何时执行背景噪声估计更新。

根据一实施例，处理器503被配置为：利用对输入信号的能量电平与平滑最小能量电平的差距是否在第一范围以内的分析，来避免基于能量与平滑最小能量电平相比过高的帧对背景噪声估计进行更新，并确定应何时执行背景噪声估计更新。

此外，处理器503可以被配置为：利用对总噪声与当前所估计的噪声强度的差距是否在第二范围以内的分析，来确定应何时执行背景噪声估计更新。第一和第二范围可以是固定范围或自适应范围。

此外，根据一实施例，处理器503被配置为：对非噪声帧或尾响中的帧，应用附加确定。

还应注意的是，可以使用重要性阈值来确定输入信号的子带能量电平。

以下示例示出了使用结合伪码描述的实施例在背景噪声跟踪方面的改进。图6示出了对混合了10dB SNR的嘈杂噪声的语音的改进，所述嘈杂噪声具有64个同时说话者。图6清晰地示出：改进的判决逻辑允许语音停顿中的更多的更新。此外，对于仅具有噪声的初始段落，原判决逻辑无法跟踪输入噪声，相反由于始终向下更新的策略表现出下降趋势。

图7示出了对混合了20dB SNR的粉红噪声输入的语音的改进。该图清晰地示出：原方案甚至不允许噪声跟踪开始进行。对于改进逻辑，仅在跟踪开始前存在较小的延迟，并且此处甚至还允许跟踪在语音停顿中工作。

受益于前述描述和相关附图中呈现的教导，本领域技术人员将想到所公开的本发明的修改和其他实施例。因此，应当理解本发明的实施例不应限于所公开的具体实施例，且在本公开的范围中意在包括该修改和其他实施例。虽然此处采用了特定术语，但这些术语是在一般性和描述性的意义下使用的，而非用于限制的目的。

Claims

1.一种在语音活动检测器VAD的背景估计器中更新输入信号的背景噪声估计的方法，包括：

接收(401)当前帧的输入信号，

确定(402)输入信号的当前帧是否包括非噪声，所述方法还包括：

通过分析至少与输入信号的相关性和能量电平有关的特性，来执行(403)附加确定(4a)，确定非噪声输入的当前帧是否包括噪声，以及

如果确定当前帧包括噪声，更新(404)背景噪声估计。

2.根据权利要求1所述的方法，其中，确定非噪声输入的当前帧是否包括噪声的所述附加确定(4a)进一步包括以下至少一项：如果输入信号的能量电平与平滑最小能量电平的差距在第一范围以内，以及如果总噪声强度与平滑最小能量电平的差距在第二范围以内，对相关性进行检测并从指示相关性事件的最后一帧开始对帧的数量进行计数。

3.根据权利要求2所述的方法，其中，执行对相关性的检测并从指示相关性事件的最后一帧开始对帧的数量进行计数，以减小背景噪声估计更新的步长，并确定应何时执行背景噪声估计更新。

4.根据权利要求2所述的方法，其中，通过分析输入信号的能量电平与平滑最小能量电平的差距是否在第一范围以内，避免基于能量与平滑最小能量电平相比过高的帧，对背景噪声估计进行更新，并确定应何时执行背景噪声估计更新。

5.根据权利要求2所述的方法，其中，通过分析总噪声与当前所估计的噪声强度的差距是否在第二范围以内，确定应何时执行背景噪声估计更新。

6.根据权利要求2至5中任一项所述的方法，其中，所述第一和第二范围是固定范围。

7.根据权利要求2至5中任一项所述的方法，其中，所述第一和第二范围是自适应范围。

8.根据权利要求1至5中任一项所述的方法，其中，对所有帧应用所述附加确定(4a)。

9.根据权利要求1至5中任一项所述的方法，其中，对非噪声帧或尾响中的帧应用附加确定(4a)。

10.一种在语音活动检测器VAD中更新输入信号(501)的背景噪声估计的背景估计器(500)，所述背景估计器包括：输入部(502)，被配置为接收当前帧的输入信号(501)；处理器(503)，被配置为确定输入信号的当前帧是否包括非噪声；通过分析至少与输入信号的相关性和能量电平有关的特性，来执行附加确定，确定非噪声输入的当前帧是否包括噪声；以及如果确定当前帧包括噪声，更新背景噪声估计。

11.根据权利要求10所述的背景估计器(500)，其中，确定非噪声输入的当前帧是否包括噪声的附加确定(4a)进一步包括以下至少一项：如果输入信号的能量电平与平滑最小能量电平的差距在第一范围以内，以及如果总噪声强度与平滑最小能量电平的差距在第二范围以内，对相关性进行检测并从指示相关性事件的最后一帧开始对帧的数量进行计数。

12.根据权利要求11所述的背景估计器(500)，其中，所述处理器(503)被配置为：基于对相关性的检测以及从指示相关性事件的最后一帧开始对帧的数量进行计数，来减小背景噪声估计更新的步长，并确定应何时执行背景噪声估计更新。

13.根据权利要求11所述的背景估计器(500)，其中，所述处理器(503)被配置为：通过分析输入信号的能量电平与平滑最小能量电平的差距是否在第一范围以内，避免基于能量与平滑最小能量电平相比过高的帧，对背景噪声估计进行更新，并确定应何时执行背景噪声估计更新。

14.根据权利要求11所述的背景估计器(500)，其中，所述处理器(503)被配置为：通过分析总噪声与当前所估计的噪声强度的差距是否在第二范围以内的分析，确定应何时执行背景噪声估计更新。

15.根据权利要求11至14中任一项所述的背景估计器(500)，其中，所述第一和第二范围是固定范围。

16.根据权利要求11至14中任一项所述的背景估计器(500)，其中，所述第一和第二范围是自适应范围。

17.根据权利要求10至14中任一项所述的背景估计器(500)，其中，所述处理器(503)被配置为对所有帧执行所述附加确定。

18.根据权利要求10至14中任一项所述的背景估计器(500)，其中，所述处理器(503)被配置为对非噪声帧或尾响中的帧执行所述附加确定。