CN106716528A

CN106716528A - 用于对音频信号中的噪声进行估计的方法、噪声估计器、音频编码器、音频解码器、以及用于传输音频信号的系统

Info

Publication number: CN106716528A
Application number: CN201580051890.1A
Authority: CN
Inventors: 本杰明·舒伯特; 曼纽尔·扬德尔; 安东尼·伦巴第; 马丁·迪茨; 马库斯·缪特拉斯
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2014-07-28
Filing date: 2015-07-21
Publication date: 2017-05-24
Anticipated expiration: 2035-07-21
Also published as: ES2850224T3; AU2015295624B2; ES2768719T3; CA2956019C; WO2016016051A1; CN106716528B; TWI590237B; EP3826011A1; PL3614384T3; US10249317B2; US20190198033A1; AU2015295624A1; JP2019023742A; EP3175457A1; KR101907808B1; US20210035591A1; EP3175457B1; US20170133031A1; KR20170039226A; AR101320A1

Abstract

描述一种对音频信号(102)中的噪声进行估计的方法。对用于音频信号(102)的能量值(174)进行估计(S100)且将其变换(S102)至对数域。基于经变换的能量值(178)对音频信号(102)的噪声等级进行估计(S104)。

Description

用于对音频信号中的噪声进行估计的方法、噪声估计器、音频编码器、音频解码器、以及用于传输音频信号的系统

技术领域

本发明涉及处理音频信号的领域，尤其涉及一种用于对音频信号中(例如，待编码的音频信号中或已经解码的音频信号中)的噪声进行估计的方法。实施例描述一种用于对音频信号中的噪声进行估计的方法、一种噪声估计器、一种音频编码器、一种音频解码器及一种用于传输音频信号的系统。

背景技术

在处理音频信号的领域(例如，用于对音频信号进行编码或用于处理经解码的音频信号)中，存在期望对噪声进行估计的情形。例如，以引用的方式并入本文中的PCT/EP2012/077525及PCT/EP2012/077527描述使用噪声估计器(例如，最小统计噪声估计器)对频域中的背景噪声的谱进行估计。已经(例如)通过快速傅立叶变换(FFT)或任意其他合适的滤波器组将被提供给算法的信号逐块变换至频域。成帧通常等同于编解码器的成帧，即，可再使用编解码器中已存在的变换，例如，在EVS(增强型语音服务)编码器中，用于预处理的FFT。出于噪声估计的目的，计算FFT的功率谱。将谱分组为心理声学激励的带且累积带内的功率谱区间(power spectral bins)，以形成每带的能量值。最后，通过通常也用于以心理声学方式处理音频信号的此方法获得能量值的集合。每个带具有其自身的噪声估计算法，即，在每帧中，使用对随时间变化的信号进行分析并在任意给定的帧处针对每个带给出估计的噪声等级的噪声估计算法处理该帧的能量值。

用于高质量语音及音频信号的样本分辨率可为16比特，即，该信号具有96dB的信杂比(SNR)。计算功率谱意味着将信号变换至频域且计算每频率区间的平方(square)。由于平方函数，此需要32比特的动态范围。由于带内的能量分布实际上未知的，将多个功率谱区间汇集到带内需要用于动态范围的额外动态余量(headroom)。因此，需要支持大于32比特(通常，大约40比特)的动态范围以在处理器上运行噪声估计器。

在处理音频信号的装置(其基于从能量储存单元(如电池)接收的能量进行操作，例如，如移动电话的便携式装置)中，为了保存能量，音频信号的功率有效处理对于电池使用寿命至关重要。根据已知方法，由定点处理器(其通常支持对呈16或32比特定点格式的数据的处理)执行音频信号的处理。通过处理16比特数据实现用于处理的最低复杂度，而处理32比特数据已需要一些开销。处理具有40比特动态范围的数据需要将该数据分裂成两个，即，尾数和指数，必须在对数据进行修改的时候对二者进行处理，这又导致甚至更高的计算复杂度以及甚至更高的储存需求。

发明内容

从上文所论述的现有技术开始，本发明的目标在于提供一种用于使用定点处理器以高效方式对音频信号中的噪声进行估计以避免不必要的计算开销的方法。

通过如在独立权利要求中定义的主题实现此目标。

本发明提供一种用于对音频信号中的噪声进行估计的方法，该方法包括确定用于音频信号的能量值，将能量值变换至对数域及基于经变换的能量值为音频信号估计噪声等级。

本发明提供一种噪声估计器，该噪声估计器包括：用于确定用于该音频信号的能量值的检测器；用于将该能量值变换至对数域的变换器；以及用于基于经变换的能量值为音频信号估计噪声等级的估计器。

本发明提供一种用于根据本发明的方法操作的噪声估计器。

根据实施例，对数域包括log2域。

根据实施例，对噪声等级进行估计包括直接在对数域中基于经变换的能量值执行预定的噪声估计算法。可基于由R.Martin描述的最小统计算法(“Noise Power SpectralDensity Estimation Based on Optimal Smoothing and Minimum Statistics”，基于最优平滑和最小统计的噪声功率谱密度估计，2001)进行噪声估计。在其他实施例中，可使用可选的噪声估计算法，如由T.Gerkmann及R.C.Hendriks描述的基于MMSE的噪声估计器(“Unbiased MMSE-based noise power estimation with low complexity and lowtracking delay”，具有低复杂度和低跟踪延迟的客观的基于MMSE的噪声功率估计，2012)，或由L.Lin、W.Holmes及E.Ambikairajah描述的算法(“Adaptive noise estimationalgorithm for speech enhancement”，用于语音增强的适应性噪声估计，2003)。

根据实施例，确定能量值包括通过将音频信号变换至频域获得音频信号的功率谱，将功率谱分组至心理声学激励的带内，及累积带内的功率谱区间以形成用于每个带的能量值，其中将用于每个带的能量值变换至对数域，且其中基于对应的经变换的能量值为每个带估计噪声等级。

根据实施例，音频信号包括多个帧，且针对每个帧，能量值被确定并被变换至对数域，且基于经变换的能量值为每个带估计噪声等级。

根据实施例，将能量值变换至对数域，如下：

x的向下取整(floor(x))，

E_{n_log}log2域中的带n的能量值，

E_{n_lin}线性域中的带n的能量值，

N分辨率/精度。

根据实施例，基于经变换的能量值对噪声等级进行估计产生对数数据，且该方法还包括直接使用对数数据用于进一步处理，或将对数数据变换回至线性域用于进一步处理。

根据实施例，倘若在对数域中进行传输，将对数数据直接变换为传输数据，且将对数数据直接变换为传输数据使用移位函数连同查找表法或近似法，例如，

本发明提供一种非易失性计算机程序产品，其包括存储指令的计算机可读介质，当在计算机上执行指令时，进行所发明的方法。

本发明提供一种包括所发明的噪声估计器的音频编码器。

本发明提供一种包括本发明的噪声估计器的音频解码器。

本发明提供一种用于传输音频信号的系统，该系统包括：用于基于接收的音频信号生成经编码的音频信号的音频编码器；以及用于接收经编码的音频信号以对经编码的音频信号进行解码并输出经解码的音频信号的音频解码器，其中音频编码器及音频解码器中的至少一个包括所发明的噪声估计器。

本发明基于发明者的如下发现：与对线性能量数据执行噪声估计算法的现有方法相反，出于对音频/语音材料中的噪声等级进行估计的目的，基于对数输入数据执行算法也是可能的。对于噪声估计，对数据精度的需求并不非常高，例如，当为了如在以引用的方式并入本文中的PCT/EP2012/077525或PCT/EP2012/077527中所描述的舒适噪声生成而使用估计的值时，已发现，估计每带的大致正确的噪声等级已足够，即，噪声等级被估计为(例如)高于还是不高于0.1dB在最终信号中将不是那么重要。因此，虽然可能需要40比特以覆盖数据的动态范围，但在现有方法中，用于中/高电平信号的数据精度比实际所需的高得多。基于此发现，根据实施例，本发明的关键要素为将每带的能量值变换至对数域(优选的，log2域)，且直接在允许以16比特表达能量值的对数域中(例如)基于最小统计算法或任意其他合适的算法进行噪声估计，这又允许更高效的处理，例如，使用定点处理器。

附图说明

在下文中，将参考附图描述本发明的实施例，其中：

图1展示实施用于对待编码的音频信号中或经解码的音频信号中的噪声进行估计的所发明的方法的用于传输音频信号的系统的简化框图；

图2展示根据实施例的可用于音频信号编码器和/或音频信号解码器中的噪声估计器的简化框图；以及

图3展示根据实施例的绘示用于对音频信号中的噪声进行估计的所发明的方法的流程图。

具体实施方式

在下文中，将更详细地描述本发明方法的实施例，且应注意的是，在附图中，由相同附图标记表示具有相同或类似功能的元件。

图1展示在编码器侧和/或在解码器侧的实施所发明的方法的用于传输音频信号的系统的简化框图。图1的系统包括在输入102处接收音频信号104的编码器100。该编码器包括接收音频信号104以及生成在编码器的输出108处提供的经编码的音频信号的编码处理器106。编码处理器可被程序化或被创建以用于对音频信号的连续音频帧进行处理及用于实施用于对待编码的音频信号104中的噪声进行估计的所发明的方法。在其他实施例中，无需将编码器作为传输系统的部分，然而，其可作为生成经编码的音频信号的独立装置，或其可作为音频信号传输器的部分。根据实施例，编码器100可包括天线110以允许音频信号的无线传输，如在112处所指示。在其他实施例中，编码器100可使用有线连接线输出在输出108处提供的经编码的音频信号，如其(例如)在附图标记114处被指示。

图1的系统还包括解码器150，该解码器150具有接收待由解码器150处理的经编码的音频信号(例如，经由有线114或经由天线154)的输入152。解码器150包括对经编码的信号进行操作且在输出160处提供经解码的音频信号158的解码处理器156。可程序化或创建解码处理器以用于处理用于实施对经解码的音频信号104中的噪声进行估计的所发明的方法。在其他实施例中，无需将解码器作为传输系统的部分，相反地，其可作为用于对经编码的音频信号进行解码的独立装置，或其可作为音频信号接收器的部分。

图2展示根据实施例的噪声估计器170的简化框图。噪声估计器170可用于图1中展示的音频信号编码器和/或音频信号解码器中。噪声估计器170包括用于确定用于音频信号102的能量值174的检测器172、用于将能量值174变换至对数域(参见经变换的能量值178)的变换器176及用于基于经变换的能量值178为音频信号102估计噪声等级182的估计器180。可由用于实施检测器172、变换器176及估计器180的功能而程序化或创建的共用处理器或多个处理器实施估计器170。

在下文中，将更详细地描述可在图1的编码处理器106及解码处理器156中的至少一个中实施或由图2的估计器170实施的所发明的方法的实施例。

图3展示用于对音频信号中的噪声进行估计的所发明的方法的流程图。在第一步骤S100中，接收音频信号，且确定用于音频信号的能量值174，然后，在步骤S102中，将该能量值变换至对数域。在步骤S104中，基于经变换的能量值178对噪声进行估计。根据实施例，在步骤S106中，确定对由对数数据182表示的经估计的噪声数据的进一步处理是否应在对数域中。倘若期望在对数域中的进一步处理(在步骤S106中，是)，则在步骤S108中处理表示经估计的噪声的对数数据，例如，倘若传输也发生在对数域中，则将对数数据变换为传输参数。否则(在步骤S106中，否)，在步骤S110中，将对数数据182变换回至线性数据，且在步骤S112中对线性数据进行处理。

根据实施例，在步骤S100中，如可以以现有方法进行确定用于音频信号的能量值。已被应用至音频信号的FFT的功率谱被计算并被分组至心理声学激励的带中。累积带内的功率谱区间以形成每带的能量值，从而获得能量值的集合。在其他实施例中，可基于任何合适的谱变换(如MDCT(Modified Discrete Cosine Transform，改进离散余弦变换)、CLDFB(复杂低延迟滤波器组)或覆盖谱的不同部分的若干变换的组合)对功率谱进行计算。在步骤S100中，确定用于每个带的能量值174，且在步骤S102中将用于每个带的能量值174变换至对数域，根据实施例，变换至log2域。可将带能量变换至log2域，如下：

x的向下取整(floor(x))，

E_{n_log}log2域中的带n的能量值，

E_{n_lin}线性域中的带n的能量值，

N分辨率/精度。

根据实施例，执行至log2域的变换，其有利之处在于，通常可使用以定点数确定前导零的数目的“norm”函数在定点处理器上非常快速地(例如，在一个循环中)计算(int)log2函数。有时需要比(int)log2更高的精度，其在上式中由常数N表示。可在norm指令及近似法(其为在可接受较低精度时用于实现低复杂度对数计算的常用方法)之后使用具有最高有效位的简单查找表来实现此稍微较高的精度。在上式中，添加log2函数内部的常数“1”以确保经变换的能量保持为正。根据实施例，倘若噪声估计器依赖于噪声能量的统计模型，则此可为重要的，因为对负值执行噪声估计将违背此模型且将导致估计器的不可预计的行为。

根据实施例，在上式中，将N设为6，其等效于2⁶＝64比特的动态范围。此大于40比特的上述动态范围，且因此是足够的。为了处理数据，目标为使用16比特数据，这使得9个比特用于尾数及1个比特用于符号。通常将此格式表示为“6Q9”格式。可选地，由于可考虑仅正值，因此可避免符号比特，并将其用于尾数，从而共10个比特用于尾数，此被称作“6Q10”格式。

可在R.Martin的“Noise Power Spectral Density Estimation Based onOptimal Smoothing and Minimum Statistics”(2001)中找到最小统计算法的详细描述。其大体上在于，对在用于每个谱带的给定长度的滑动时间窗上(通常在两三秒内)的平滑化功率谱的最小值进行追踪。算法还包括偏压补偿以改良噪声估计的准确性。此外，为了改良时变噪声的追踪，可使用在较短的时间窗上计算的局部最小值来替代原始最小值，假若其引起估计的噪声能量的适度增加。在R.Martin的“Noise Power Spectral DensityEstimation Based on Optimal Smoothing and Minimum Statistics”(2001)中通过参数noise_slope_max确定容许的增加量。根据实施例，使用最小统计噪声估计算法，其传统地对线性能量数据执行。然而，根据发明者的发现，出于对音频材料或语音材料中的噪声等级进行估计的目的，反之，可将对数输入数据提供给算法。在信号处理自身保持未修改时，仅需要的重调最小量，其在于减小参数noise_slope_max，以应对对数数据相比于线性数据的减小的动态范围。迄今为止，假定需要对线性数据执行最小统计算法或其他合适的噪声估计技术，即，实际上作为对数表示的数据被假定为是不合适的。与此现有的假定相反，发明者发现：实际上可基于允许使用仅以16比特表示的输入数据的对数数据执行噪声估计，因此，其以定点实施提供低得多的复杂度，因为大多数操作可以以16比特进行，且仅算法的一些部分仍需要32比特。例如，在最小统计算法中，偏差补偿基于输入功率的方差，因此的通常仍需要32比特表示的四阶统计。

如上已关于图3描述，可以以不同方式进一步处理噪声估计过程的结果。根据实施例，第一种方式为直接使用对数数据182，如在步骤S108中所展示，例如，通过将对数数据182直接变换为传输参数(若也在对数域中传输此类参数，情况通常如此)。第二种方式为对对数数据182进行处理，使得将其变换回至线性域用于进一步处理，例如，使用处理器上的通常非常快且通常仅需一个循环的移位函数连同表查找或通过使用近似法，例如：

在下文中，将参照编码器描述用于实施用于基于对数数据对噪声进行估计的所发明的方法的详细示例，然而，如上所概述，本发明的方法也可应用至已经在解码器中解码的信号，如其(例如)在以引用的方式并入本文中的PCT/EP2012/077525或PCT/EP2012/077527中所描述。以下实施例描述在音频编码器(如图1中的编码器100)中的用于对音频信号中的噪声进行估计的所发明的方法的实施。更具体的，将给出用于实施用于对在增强型语音服务(EVS)编码器处接收的音频信号中的噪声进行估计的所发明的方法的EVS编码器的信号处理算法的描述。

20ms长度的音频样本的输入块假定为呈16比特均匀PCM(Pulse CodeModulation，脉码调制)格式。假定四个取样率，例如，8 000、16 000、32 000及48 000个样本/秒，用于经编码的比特流的比特率可为5.9、7.2、8.0、9.6、13.2、16.4、24.4、32.0、48.0、64.0或128.0kbit/s。也可提供在6.6、8.85、12.65、14.85、15.85、18.25、19.85、23.05或23.85kbit/s的用于经编码的比特流的比特率下操作的AMR-WB(Adaptive Multi RateWideband(codec)，自适应多速率宽带(编解码器))可互操作模式。

出于以下描述的目的，以下惯例应用于数学表达：

指示小于或等于x的最大整数：且

∑指示求和；

除非另有指定，否则贯穿以下描述，log(x)表示以10为底的对数。

编码器接受按48、32、16或8kHz取样的全带(FB)、超宽带(SWB)、宽带(WB)或窄带(NB)信号。类似地，解码器输出可为48、32、16或8kHz FB、SWB、WB或NB。参数R(8、16、32或48)用于指示在编码器处的输入取样率或在解码器处的输出取样率。

使用20ms帧对输入信号进行处理。编解码器延迟取决于输入及输出的取样率。对于WB输入及WB输出，总算法延迟为42.875ms。其包括一个20ms帧、输入及输出再取样滤波器的1.875ms延迟、用于先行编码器的10ms、1ms的后置滤波延迟，以及在解码器处的10ms，以允许较高层变换编码的重叠相加运算。对于NB输入及NB输出，不使用较高层，但在存在帧擦除的情况下及针对音乐信号，使用10ms解码器延迟以改良编解码器性能。对于NB输入及NB输出的总算法延迟为43.875ms—一个20ms的帧、用于输入再取样滤波器的2ms、用于先行编码器的10ms、用于输出再取样滤波的1.875ms及解码器中的10ms延迟。若输出限于层2，则编解码器延迟可减小10ms。

编码器的一般功能包括以下处理部分：共同处理、CELP(Code-Excited LinearPrediction，码本激励线性预测)编码模式、MDCT(Modified Discrete Cosine Transform，改进离散余弦变换)编码模式、切换编码模式、帧擦除隐藏旁侧信息、DTX/CNG(Discontinuous Transmission/Comfort Noise Generator，不连续传输/舒适噪声生成器)操作、AMR-WB可互操作选项及信道感知编码。

根据本实施例，所发明的方法实施于DTX/CNG操作部分中。编解码器装备有信号活动检测(SAD)算法以用于将每个输入帧分类为活跃的或非活跃的。其支持不连续传输(DTX)操作，其中频域舒适噪声生成(FD-CNG)模块用于以可变比特率近似及更新背景噪声的统计。因此，在非活跃信号周期期间的传输速率是可变的，且取决于背景噪声的估计的等级。然而，通过命令行参数，CNG更新速率也可以是固定的。

为了能够产生类似于实际输入背景噪声的人为噪声(就谱-时间特征而言)，FD-CNG使用噪声估计算法追踪在编码器输入处存在的背景噪声的能量。然后，将噪声估计传输为按SID(Silence Insertion Descriptor，静音插入描述符)帧格式的参数以在非活跃阶段期间更新在解码器侧的每个频带中生成的随机序列的幅度。

FD-CNG噪声估计器依赖于混合谱分析方法。对应于核心带宽的低频率被高分辨率FFT分析覆盖，然而其余较高频率被呈现出400Hz的显著较低的谱分辨率的CLDFB捕获。应注意的是，CLDFB也用作再取样工具来降取样(downsample)输入信号至核心取样率。

然而，SID帧的大小实际上受到限制。为了减少描述背景噪声的参数的数目，在后续中被称为划分的谱带的群组之中对输入能量进行平均。

1.谱划分能量

分别针对FFT与CLDFB带计算划分能量。然后，对应于FFT划分的能量与对应于CLDFB划分的能量被串接成大小为的单个数组E_FD-CNG，其将充当至以下描述的噪声估计器(参见“2.FD-CNG噪声估计”)的输入。

1.1 FFT划分能量的计算

如下获得用于覆盖核心带宽的频率的划分能量

其中及分别为用于第一及第二分析窗口的临界带i中的平均能量。根据所使用的配置(参见“1.3FD-CNG编码器配置”)，捕获核心带宽的FFT划分的数目范围在17与21之间。使用去加重谱权重H_de-emph(i)对高通滤波器进行补偿，且其被定义为：

1.2 CLDFB划分能量的计算

将用于核心带宽之上的频率的划分能量计算为：

其中j_min(i)及j_max(i)分别为第i个划分中的第一个及最后一个CLDFB带的索引，E_CLDFB(j)为第j个CLDFB带的总能量，且A_CLDFB为比例因子。常数16指CLDFB中的时隙的数目。CLDFB划分L_CLDFB的数目取决于所使用的配置，如以下所描述。

1.3 FD-CNG编码器配置

下表列出针对在编码器处的不同FD-CNG配置的划分的数目及其上边界。

表1：在编码器处的FD-CNG噪声估计的配置

对于每个划分i＝0，...，L_SID-1，f_max(i)对应于第i个划分中的最后一个带的频率。每个谱划分中的第一个及最后一个带的索引j_min(i)及j_max(i)可根据核心的配置而导出，如下：

其中f_min(0)＝50Hz为第一谱划分中的第一个带的频率。因此，FD-CNG生成仅高于50Hz的一些舒适噪声。

2.FD-CNG噪声估计

FD-CNG依赖于噪声估计器以对输入谱中存在的背景噪声的能量进行追踪。此主要基于由R.Martin描述的最小统计算法(“Noise Power Spectral Density EstimationBased on Optimal Smoothing and Minimum Statistics”，2001)。然而，为了减小输入能量的动态范围{E_FD-CNG(0)，...，E_FD-CNG(L_SID-1)}且因此有助于噪声估计算法的定点实施，在噪声估计之前应用非线性变换(参见“2.1用于输入能量的动态范围压缩”)。然后，对所得的噪声估计使用逆变换以恢复原始动态范围(参见“2.3针对估计的噪声能量的动态范围扩展”)。

2.1用于输入能量的动态范围压缩

通过非线性函数对输入能量进行处理并以9比特分辨率进行量化，如下：

2.2噪声追踪

可在R.Martin的“Noise Power Spectral Density Estimation Based onOptimal Smoothing and Minimum Statistics”(2001)中找到最小统计算法的详细描述。其大体上在于，追踪在用于每个谱带的给定长度的滑动时间窗上(通常在两三秒内)的平滑化功率谱的最小值。算法还包括偏置补偿以改良噪声估计的准确性。此外，为了改良时变噪声的追踪，可使用在短得多的时间窗上计算的局部最小值来替代原始最小值，假如其引起经估计的噪声能量的适度增加。在R.Martin的“Noise Power Spectral DensityEstimation Based on Optimal Smoothing and Minimum Statistics”(2001)中通过参数noise_slope_max确定容许的增加量。

噪声追踪器的主要输出为噪声估计N_MS(i),i＝0，...，L_SID-1。为了获得舒适噪声中的较平滑的过渡，可应用一阶递归滤波器，即，

此外，在最后5个帧上对输入能量E_MS(i)进行平均。此用于在每个谱划分中对应用上限。

2.3用于经估计的噪声能量的动态范围扩展

通过非线性函数对经估计的噪声能量进行处理以补偿上文所描述的动态范围压缩：

根据本发明，描述一种用于对音频信号中的噪声进行估计的改良的方法，其允许减小噪声估计器的复杂度，尤其对于使用定点算术在处理器上被处理的音频/语音信号。所发明的方法允许减小用于音频/语音信号处理的噪声估计器的动态范围，例如，在PCT/EP2012/077527(其指以高的谱-时间分辨率生成舒适噪声)中或PCT/EP2012/077527(其指用于以低比特率将背景噪声模型化的舒适噪声添加)中所描述的环境中。在所描述的情境中，使用基于最小统计算法操作的噪声估计器，以用于增强背景噪声的质量或用于针对有噪语音信号的舒适噪声生成，例如，在存在背景噪声的情况下的语音，其在电话呼叫中是非常普遍的情形并且是EVS编解码器的受测种类中的一种。根据标准，EVS编解码器将使用利用固定算术的处理器，且所发明的方法允许通过减小用于最小统计噪声估计器的信号的动态范围(通过在对数域中且不再在线性域中处理用于音频信号的能量值)来减小处理复杂度。

虽然在装置的上下文中已经描述所描述的概念的一些方面，显然，这些方面也表示对应方法的描述，其中模块或装置对应方法步骤或方法步骤的特征。类似的，在方法步骤的上下文中描述的方面也表示对应模块或项目或对应装置的特征的描述。

根据特定的实施需求，本发明的实施例可在硬件或软件中实施。可使用数字存储介质执行此实施，例如软盘、DVD、蓝光光盘、CD、ROM、PROM、EPROM、EEPROM或闪存，其具有存储于其上的电子可读取控制信号，其与可编程计算机系统协同操作(或能够协同操作)，以使得执行各个方法。因此，数字存储介质可以是计算机可读取的。

根据本发明的一些实施例包括具有电子可读取控制信号的数据载体，其能够与可编程计算机系统协同运作，以执行所述方法的一个。

通常，本发明实施例可被实施为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，可运作程序代码以执行方法的一个。程序代码可例如存储在机器可读取载体上。

其他实施例包括用于执行所述方法的一个的计算机程序，其被存储在机器可读取载体上。

换言之，因此，本发明方法的实施例为具有程序代码的计算机程序，当计算机程序在计算机上运行时，该程序代码用于执行本文中所描述的方法中的一个。

因此，本发明方法的另一实施例为数据载体(或数字存储介质，或计算机可读介质)，该数据载体包括记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。

因此，本发明方法的另一实施例是表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。可(例如)用于经由数据通信连接(例如，经由因特网)传送数据流或信号序列。

另一实施例包括处理构件，例如，用于或适于执行本文中所描述的方法中的一个的计算机或可编程逻辑设备。

另一实施例包括计算机，其上安装有用于执行本文中所描述的方法中的一个的计算机程序。

在一些实施例中，可编程逻辑设备(例如，现场可编程门阵列)可用以执行本文中所描述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可与微处理器协作，以便执行本文中所描述方法中的一个。通常，优选地由任何硬件装置执行方法。

上文所描述的实施例仅说明本发明的原理。应理解的是，本文中所描述的配置及细节的变形及变化对本领域技术人员是显而易见的。因此，其意图在于仅由待决权利要求的范围限制，而非由通过本文中实施例的描述及解释所呈现的特定细节限制。

Claims

1.一种用于对音频信号(102)中的噪声进行估计的方法，所述方法包括：

确定(S100)用于所述音频信号(102)的能量值(174)；

将所述能量值(174)变换(S102)至log2域；以及

直接在log2域中基于经变换的能量值(178)为所述音频信号(102)估计(S104)噪声等级(182)。

2.根据权利要求1所述的方法，其中估计(S104)所述噪声等级包括：执行预定的噪声估计算法，如最小统计算法。

3.根据权利要求1或2所述的方法，其中确定(S100)所述能量值(174)包括：通过将所述音频信号(102)变换至频域获得所述音频信号(102)的功率谱，将所述功率谱分组至心理声学激励的带内，并累积带内的功率谱区间以形成用于每个带的能量值(174)，其中将用于每个带的能量值(174)变换至对数域，且其中基于对应的经变换的能量值(174)为每个带估计噪声等级。

4.根据权利要求1至3中任一项所述的方法，其中所述音频信号(102)包括多个帧，且其中对于每个帧，所述能量值(174)被确定并被变换至对数域，且基于所述经变换的能量值(174)为帧的每个带估计所述噪声等级。

5.根据权利要求1至4中任一项所述的方法，其中将所述能量值(174)变换(S102)至对数域，如下：

x的向下取整，

E_{n_log}log2域中的带n的能量值，

E_{n_lin}线性域中的带n的能量值，

N量化分辨率。

6.根据权利要求1至5中任一项所述的方法，其中基于所述经变换的能量值(178)估计(S104)所述噪声等级产生对数数据，且其中所述方法进一步包括：

直接使用(S108)所述对数数据用于进一步处理，或

将所述对数数据变换(S110，S112)回至线性域用于进一步处理。

7.根据权利要求6所述的方法，其中

倘若传输在对数域中进行，将所述对数数据直接变换(S108)为传输数据，以及

将所述对数数据直接变换(S110)为传输数据使用移位函数连同查找表或近似法，例如，

8.一种非易失性计算机程序产品，包括储存指令的计算机可读介质，当所述指令在计算机上执行时，进行根据权利要求1至7中任一项所述的方法。

9.一种噪声估计器(170)，包括：

检测器(172)，用于确定用于音频信号(102)的能量值(174)；

变换器(176)，用于将所述能量值(174)变换至log2域；以及

估计器处理器(180)，用于直接在log2域中基于经变换的能量值(178)为所述音频信号(102)估计噪声等级(182)。

10.一种音频编码器(100)，包括根据权利要求9所述的噪声估计器。

11.一种音频解码器(150)，包括根据权利要求9所述的噪声估计器(170)。

12.一种用于传输音频信号(120)的系统，所述系统包括：

音频编码器(100)，用于基于接收的音频信号(102)生成经编码的音频信号(102)；以及

音频解码器(150)，用于接收所述经编码的音频信号(102)，对所述经编码的音频信号(102)进行解码，以及输出经解码的音频信号(102)，

其中所述音频编码器及所述音频解码器中的至少一个包括根据权利要求9所述的噪声估计器(170)。