CN106716528A - 用于对音频信号中的噪声进行估计的方法、噪声估计器、音频编码器、音频解码器、以及用于传输音频信号的系统 - Google Patents
用于对音频信号中的噪声进行估计的方法、噪声估计器、音频编码器、音频解码器、以及用于传输音频信号的系统 Download PDFInfo
- Publication number
- CN106716528A CN106716528A CN201580051890.1A CN201580051890A CN106716528A CN 106716528 A CN106716528 A CN 106716528A CN 201580051890 A CN201580051890 A CN 201580051890A CN 106716528 A CN106716528 A CN 106716528A
- Authority
- CN
- China
- Prior art keywords
- noise
- audio signal
- energy value
- audio
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000004422 calculation algorithm Methods 0.000 claims description 29
- 238000001228 spectrum Methods 0.000 claims description 28
- 230000005540 biological transmission Effects 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 230000005284 excitation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 12
- 230000003595 spectral effect Effects 0.000 description 10
- 238000005070 sampling Methods 0.000 description 9
- 238000009499 grossing Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Monitoring And Testing Of Transmission In General (AREA)
Abstract
描述一种对音频信号(102)中的噪声进行估计的方法。对用于音频信号(102)的能量值(174)进行估计(S100)且将其变换(S102)至对数域。基于经变换的能量值(178)对音频信号(102)的噪声等级进行估计(S104)。
Description
技术领域
本发明涉及处理音频信号的领域,尤其涉及一种用于对音频信号中(例如,待编码的音频信号中或已经解码的音频信号中)的噪声进行估计的方法。实施例描述一种用于对音频信号中的噪声进行估计的方法、一种噪声估计器、一种音频编码器、一种音频解码器及一种用于传输音频信号的系统。
背景技术
在处理音频信号的领域(例如,用于对音频信号进行编码或用于处理经解码的音频信号)中,存在期望对噪声进行估计的情形。例如,以引用的方式并入本文中的PCT/EP2012/077525及PCT/EP2012/077527描述使用噪声估计器(例如,最小统计噪声估计器)对频域中的背景噪声的谱进行估计。已经(例如)通过快速傅立叶变换(FFT)或任意其他合适的滤波器组将被提供给算法的信号逐块变换至频域。成帧通常等同于编解码器的成帧,即,可再使用编解码器中已存在的变换,例如,在EVS(增强型语音服务)编码器中,用于预处理的FFT。出于噪声估计的目的,计算FFT的功率谱。将谱分组为心理声学激励的带且累积带内的功率谱区间(power spectral bins),以形成每带的能量值。最后,通过通常也用于以心理声学方式处理音频信号的此方法获得能量值的集合。每个带具有其自身的噪声估计算法,即,在每帧中,使用对随时间变化的信号进行分析并在任意给定的帧处针对每个带给出估计的噪声等级的噪声估计算法处理该帧的能量值。
用于高质量语音及音频信号的样本分辨率可为16比特,即,该信号具有96dB的信杂比(SNR)。计算功率谱意味着将信号变换至频域且计算每频率区间的平方(square)。由于平方函数,此需要32比特的动态范围。由于带内的能量分布实际上未知的,将多个功率谱区间汇集到带内需要用于动态范围的额外动态余量(headroom)。因此,需要支持大于32比特(通常,大约40比特)的动态范围以在处理器上运行噪声估计器。
在处理音频信号的装置(其基于从能量储存单元(如电池)接收的能量进行操作,例如,如移动电话的便携式装置)中,为了保存能量,音频信号的功率有效处理对于电池使用寿命至关重要。根据已知方法,由定点处理器(其通常支持对呈16或32比特定点格式的数据的处理)执行音频信号的处理。通过处理16比特数据实现用于处理的最低复杂度,而处理32比特数据已需要一些开销。处理具有40比特动态范围的数据需要将该数据分裂成两个,即,尾数和指数,必须在对数据进行修改的时候对二者进行处理,这又导致甚至更高的计算复杂度以及甚至更高的储存需求。
发明内容
从上文所论述的现有技术开始,本发明的目标在于提供一种用于使用定点处理器以高效方式对音频信号中的噪声进行估计以避免不必要的计算开销的方法。
通过如在独立权利要求中定义的主题实现此目标。
本发明提供一种用于对音频信号中的噪声进行估计的方法,该方法包括确定用于音频信号的能量值,将能量值变换至对数域及基于经变换的能量值为音频信号估计噪声等级。
本发明提供一种噪声估计器,该噪声估计器包括:用于确定用于该音频信号的能量值的检测器;用于将该能量值变换至对数域的变换器;以及用于基于经变换的能量值为音频信号估计噪声等级的估计器。
本发明提供一种用于根据本发明的方法操作的噪声估计器。
根据实施例,对数域包括log2域。
根据实施例,对噪声等级进行估计包括直接在对数域中基于经变换的能量值执行预定的噪声估计算法。可基于由R.Martin描述的最小统计算法(“Noise Power SpectralDensity Estimation Based on Optimal Smoothing and Minimum Statistics”,基于最优平滑和最小统计的噪声功率谱密度估计,2001)进行噪声估计。在其他实施例中,可使用可选的噪声估计算法,如由T.Gerkmann及R.C.Hendriks描述的基于MMSE的噪声估计器(“Unbiased MMSE-based noise power estimation with low complexity and lowtracking delay”,具有低复杂度和低跟踪延迟的客观的基于MMSE的噪声功率估计,2012),或由L.Lin、W.Holmes及E.Ambikairajah描述的算法(“Adaptive noise estimationalgorithm for speech enhancement”,用于语音增强的适应性噪声估计,2003)。
根据实施例,确定能量值包括通过将音频信号变换至频域获得音频信号的功率谱,将功率谱分组至心理声学激励的带内,及累积带内的功率谱区间以形成用于每个带的能量值,其中将用于每个带的能量值变换至对数域,且其中基于对应的经变换的能量值为每个带估计噪声等级。
根据实施例,音频信号包括多个帧,且针对每个帧,能量值被确定并被变换至对数域,且基于经变换的能量值为每个带估计噪声等级。
根据实施例,将能量值变换至对数域,如下:
x的向下取整(floor(x)),
En_loglog2域中的带n的能量值,
En_lin线性域中的带n的能量值,
N分辨率/精度。
根据实施例,基于经变换的能量值对噪声等级进行估计产生对数数据,且该方法还包括直接使用对数数据用于进一步处理,或将对数数据变换回至线性域用于进一步处理。
根据实施例,倘若在对数域中进行传输,将对数数据直接变换为传输数据,且将对数数据直接变换为传输数据使用移位函数连同查找表法或近似法,例如,
本发明提供一种非易失性计算机程序产品,其包括存储指令的计算机可读介质,当在计算机上执行指令时,进行所发明的方法。
本发明提供一种包括所发明的噪声估计器的音频编码器。
本发明提供一种包括本发明的噪声估计器的音频解码器。
本发明提供一种用于传输音频信号的系统,该系统包括:用于基于接收的音频信号生成经编码的音频信号的音频编码器;以及用于接收经编码的音频信号以对经编码的音频信号进行解码并输出经解码的音频信号的音频解码器,其中音频编码器及音频解码器中的至少一个包括所发明的噪声估计器。
本发明基于发明者的如下发现:与对线性能量数据执行噪声估计算法的现有方法相反,出于对音频/语音材料中的噪声等级进行估计的目的,基于对数输入数据执行算法也是可能的。对于噪声估计,对数据精度的需求并不非常高,例如,当为了如在以引用的方式并入本文中的PCT/EP2012/077525或PCT/EP2012/077527中所描述的舒适噪声生成而使用估计的值时,已发现,估计每带的大致正确的噪声等级已足够,即,噪声等级被估计为(例如)高于还是不高于0.1dB在最终信号中将不是那么重要。因此,虽然可能需要40比特以覆盖数据的动态范围,但在现有方法中,用于中/高电平信号的数据精度比实际所需的高得多。基于此发现,根据实施例,本发明的关键要素为将每带的能量值变换至对数域(优选的,log2域),且直接在允许以16比特表达能量值的对数域中(例如)基于最小统计算法或任意其他合适的算法进行噪声估计,这又允许更高效的处理,例如,使用定点处理器。
附图说明
在下文中,将参考附图描述本发明的实施例,其中:
图1展示实施用于对待编码的音频信号中或经解码的音频信号中的噪声进行估计的所发明的方法的用于传输音频信号的系统的简化框图;
图2展示根据实施例的可用于音频信号编码器和/或音频信号解码器中的噪声估计器的简化框图;以及
图3展示根据实施例的绘示用于对音频信号中的噪声进行估计的所发明的方法的流程图。
具体实施方式
在下文中,将更详细地描述本发明方法的实施例,且应注意的是,在附图中,由相同附图标记表示具有相同或类似功能的元件。
图1展示在编码器侧和/或在解码器侧的实施所发明的方法的用于传输音频信号的系统的简化框图。图1的系统包括在输入102处接收音频信号104的编码器100。该编码器包括接收音频信号104以及生成在编码器的输出108处提供的经编码的音频信号的编码处理器106。编码处理器可被程序化或被创建以用于对音频信号的连续音频帧进行处理及用于实施用于对待编码的音频信号104中的噪声进行估计的所发明的方法。在其他实施例中,无需将编码器作为传输系统的部分,然而,其可作为生成经编码的音频信号的独立装置,或其可作为音频信号传输器的部分。根据实施例,编码器100可包括天线110以允许音频信号的无线传输,如在112处所指示。在其他实施例中,编码器100可使用有线连接线输出在输出108处提供的经编码的音频信号,如其(例如)在附图标记114处被指示。
图1的系统还包括解码器150,该解码器150具有接收待由解码器150处理的经编码的音频信号(例如,经由有线114或经由天线154)的输入152。解码器150包括对经编码的信号进行操作且在输出160处提供经解码的音频信号158的解码处理器156。可程序化或创建解码处理器以用于处理用于实施对经解码的音频信号104中的噪声进行估计的所发明的方法。在其他实施例中,无需将解码器作为传输系统的部分,相反地,其可作为用于对经编码的音频信号进行解码的独立装置,或其可作为音频信号接收器的部分。
图2展示根据实施例的噪声估计器170的简化框图。噪声估计器170可用于图1中展示的音频信号编码器和/或音频信号解码器中。噪声估计器170包括用于确定用于音频信号102的能量值174的检测器172、用于将能量值174变换至对数域(参见经变换的能量值178)的变换器176及用于基于经变换的能量值178为音频信号102估计噪声等级182的估计器180。可由用于实施检测器172、变换器176及估计器180的功能而程序化或创建的共用处理器或多个处理器实施估计器170。
在下文中,将更详细地描述可在图1的编码处理器106及解码处理器156中的至少一个中实施或由图2的估计器170实施的所发明的方法的实施例。
图3展示用于对音频信号中的噪声进行估计的所发明的方法的流程图。在第一步骤S100中,接收音频信号,且确定用于音频信号的能量值174,然后,在步骤S102中,将该能量值变换至对数域。在步骤S104中,基于经变换的能量值178对噪声进行估计。根据实施例,在步骤S106中,确定对由对数数据182表示的经估计的噪声数据的进一步处理是否应在对数域中。倘若期望在对数域中的进一步处理(在步骤S106中,是),则在步骤S108中处理表示经估计的噪声的对数数据,例如,倘若传输也发生在对数域中,则将对数数据变换为传输参数。否则(在步骤S106中,否),在步骤S110中,将对数数据182变换回至线性数据,且在步骤S112中对线性数据进行处理。
根据实施例,在步骤S100中,如可以以现有方法进行确定用于音频信号的能量值。已被应用至音频信号的FFT的功率谱被计算并被分组至心理声学激励的带中。累积带内的功率谱区间以形成每带的能量值,从而获得能量值的集合。在其他实施例中,可基于任何合适的谱变换(如MDCT(Modified Discrete Cosine Transform,改进离散余弦变换)、CLDFB(复杂低延迟滤波器组)或覆盖谱的不同部分的若干变换的组合)对功率谱进行计算。在步骤S100中,确定用于每个带的能量值174,且在步骤S102中将用于每个带的能量值174变换至对数域,根据实施例,变换至log2域。可将带能量变换至log2域,如下:
x的向下取整(floor(x)),
En_loglog2域中的带n的能量值,
En_lin线性域中的带n的能量值,
N分辨率/精度。
根据实施例,执行至log2域的变换,其有利之处在于,通常可使用以定点数确定前导零的数目的“norm”函数在定点处理器上非常快速地(例如,在一个循环中)计算(int)log2函数。有时需要比(int)log2更高的精度,其在上式中由常数N表示。可在norm指令及近似法(其为在可接受较低精度时用于实现低复杂度对数计算的常用方法)之后使用具有最高有效位的简单查找表来实现此稍微较高的精度。在上式中,添加log2函数内部的常数“1”以确保经变换的能量保持为正。根据实施例,倘若噪声估计器依赖于噪声能量的统计模型,则此可为重要的,因为对负值执行噪声估计将违背此模型且将导致估计器的不可预计的行为。
根据实施例,在上式中,将N设为6,其等效于26=64比特的动态范围。此大于40比特的上述动态范围,且因此是足够的。为了处理数据,目标为使用16比特数据,这使得9个比特用于尾数及1个比特用于符号。通常将此格式表示为“6Q9”格式。可选地,由于可考虑仅正值,因此可避免符号比特,并将其用于尾数,从而共10个比特用于尾数,此被称作“6Q10”格式。
可在R.Martin的“Noise Power Spectral Density Estimation Based onOptimal Smoothing and Minimum Statistics”(2001)中找到最小统计算法的详细描述。其大体上在于,对在用于每个谱带的给定长度的滑动时间窗上(通常在两三秒内)的平滑化功率谱的最小值进行追踪。算法还包括偏压补偿以改良噪声估计的准确性。此外,为了改良时变噪声的追踪,可使用在较短的时间窗上计算的局部最小值来替代原始最小值,假若其引起估计的噪声能量的适度增加。在R.Martin的“Noise Power Spectral DensityEstimation Based on Optimal Smoothing and Minimum Statistics”(2001)中通过参数noise_slope_max确定容许的增加量。根据实施例,使用最小统计噪声估计算法,其传统地对线性能量数据执行。然而,根据发明者的发现,出于对音频材料或语音材料中的噪声等级进行估计的目的,反之,可将对数输入数据提供给算法。在信号处理自身保持未修改时,仅需要的重调最小量,其在于减小参数noise_slope_max,以应对对数数据相比于线性数据的减小的动态范围。迄今为止,假定需要对线性数据执行最小统计算法或其他合适的噪声估计技术,即,实际上作为对数表示的数据被假定为是不合适的。与此现有的假定相反,发明者发现:实际上可基于允许使用仅以16比特表示的输入数据的对数数据执行噪声估计,因此,其以定点实施提供低得多的复杂度,因为大多数操作可以以16比特进行,且仅算法的一些部分仍需要32比特。例如,在最小统计算法中,偏差补偿基于输入功率的方差,因此的通常仍需要32比特表示的四阶统计。
如上已关于图3描述,可以以不同方式进一步处理噪声估计过程的结果。根据实施例,第一种方式为直接使用对数数据182,如在步骤S108中所展示,例如,通过将对数数据182直接变换为传输参数(若也在对数域中传输此类参数,情况通常如此)。第二种方式为对对数数据182进行处理,使得将其变换回至线性域用于进一步处理,例如,使用处理器上的通常非常快且通常仅需一个循环的移位函数连同表查找或通过使用近似法,例如:
在下文中,将参照编码器描述用于实施用于基于对数数据对噪声进行估计的所发明的方法的详细示例,然而,如上所概述,本发明的方法也可应用至已经在解码器中解码的信号,如其(例如)在以引用的方式并入本文中的PCT/EP2012/077525或PCT/EP2012/077527中所描述。以下实施例描述在音频编码器(如图1中的编码器100)中的用于对音频信号中的噪声进行估计的所发明的方法的实施。更具体的,将给出用于实施用于对在增强型语音服务(EVS)编码器处接收的音频信号中的噪声进行估计的所发明的方法的EVS编码器的信号处理算法的描述。
20ms长度的音频样本的输入块假定为呈16比特均匀PCM(Pulse CodeModulation,脉码调制)格式。假定四个取样率,例如,8 000、16 000、32 000及48 000个样本/秒,用于经编码的比特流的比特率可为5.9、7.2、8.0、9.6、13.2、16.4、24.4、32.0、48.0、64.0或128.0kbit/s。也可提供在6.6、8.85、12.65、14.85、15.85、18.25、19.85、23.05或23.85kbit/s的用于经编码的比特流的比特率下操作的AMR-WB(Adaptive Multi RateWideband(codec),自适应多速率宽带(编解码器))可互操作模式。
出于以下描述的目的,以下惯例应用于数学表达:
指示小于或等于x的最大整数:且
∑指示求和;
除非另有指定,否则贯穿以下描述,log(x)表示以10为底的对数。
编码器接受按48、32、16或8kHz取样的全带(FB)、超宽带(SWB)、宽带(WB)或窄带(NB)信号。类似地,解码器输出可为48、32、16或8kHz FB、SWB、WB或NB。参数R(8、16、32或48)用于指示在编码器处的输入取样率或在解码器处的输出取样率。
使用20ms帧对输入信号进行处理。编解码器延迟取决于输入及输出的取样率。对于WB输入及WB输出,总算法延迟为42.875ms。其包括一个20ms帧、输入及输出再取样滤波器的1.875ms延迟、用于先行编码器的10ms、1ms的后置滤波延迟,以及在解码器处的10ms,以允许较高层变换编码的重叠相加运算。对于NB输入及NB输出,不使用较高层,但在存在帧擦除的情况下及针对音乐信号,使用10ms解码器延迟以改良编解码器性能。对于NB输入及NB输出的总算法延迟为43.875ms—一个20ms的帧、用于输入再取样滤波器的2ms、用于先行编码器的10ms、用于输出再取样滤波的1.875ms及解码器中的10ms延迟。若输出限于层2,则编解码器延迟可减小10ms。
编码器的一般功能包括以下处理部分:共同处理、CELP(Code-Excited LinearPrediction,码本激励线性预测)编码模式、MDCT(Modified Discrete Cosine Transform,改进离散余弦变换)编码模式、切换编码模式、帧擦除隐藏旁侧信息、DTX/CNG(Discontinuous Transmission/Comfort Noise Generator,不连续传输/舒适噪声生成器)操作、AMR-WB可互操作选项及信道感知编码。
根据本实施例,所发明的方法实施于DTX/CNG操作部分中。编解码器装备有信号活动检测(SAD)算法以用于将每个输入帧分类为活跃的或非活跃的。其支持不连续传输(DTX)操作,其中频域舒适噪声生成(FD-CNG)模块用于以可变比特率近似及更新背景噪声的统计。因此,在非活跃信号周期期间的传输速率是可变的,且取决于背景噪声的估计的等级。然而,通过命令行参数,CNG更新速率也可以是固定的。
为了能够产生类似于实际输入背景噪声的人为噪声(就谱-时间特征而言),FD-CNG使用噪声估计算法追踪在编码器输入处存在的背景噪声的能量。然后,将噪声估计传输为按SID(Silence Insertion Descriptor,静音插入描述符)帧格式的参数以在非活跃阶段期间更新在解码器侧的每个频带中生成的随机序列的幅度。
FD-CNG噪声估计器依赖于混合谱分析方法。对应于核心带宽的低频率被高分辨率FFT分析覆盖,然而其余较高频率被呈现出400Hz的显著较低的谱分辨率的CLDFB捕获。应注意的是,CLDFB也用作再取样工具来降取样(downsample)输入信号至核心取样率。
然而,SID帧的大小实际上受到限制。为了减少描述背景噪声的参数的数目,在后续中被称为划分的谱带的群组之中对输入能量进行平均。
1.谱划分能量
分别针对FFT与CLDFB带计算划分能量。然后,对应于FFT划分的能量与对应于CLDFB划分的能量被串接成大小为的单个数组EFD-CNG,其将充当至以下描述的噪声估计器(参见“2.FD-CNG噪声估计”)的输入。
1.1 FFT划分能量的计算
如下获得用于覆盖核心带宽的频率的划分能量
其中及分别为用于第一及第二分析窗口的临界带i中的平均能量。根据所使用的配置(参见“1.3FD-CNG编码器配置”),捕获核心带宽的FFT划分的数目范围在17与21之间。使用去加重谱权重Hde-emph(i)对高通滤波器进行补偿,且其被定义为:
1.2 CLDFB划分能量的计算
将用于核心带宽之上的频率的划分能量计算为:
其中jmin(i)及jmax(i)分别为第i个划分中的第一个及最后一个CLDFB带的索引,ECLDFB(j)为第j个CLDFB带的总能量,且ACLDFB为比例因子。常数16指CLDFB中的时隙的数目。CLDFB划分LCLDFB的数目取决于所使用的配置,如以下所描述。
1.3 FD-CNG编码器配置
下表列出针对在编码器处的不同FD-CNG配置的划分的数目及其上边界。
表1:在编码器处的FD-CNG噪声估计的配置
对于每个划分i=0,...,LSID-1,fmax(i)对应于第i个划分中的最后一个带的频率。每个谱划分中的第一个及最后一个带的索引jmin(i)及jmax(i)可根据核心的配置而导出,如下:
其中fmin(0)=50Hz为第一谱划分中的第一个带的频率。因此,FD-CNG生成仅高于50Hz的一些舒适噪声。
2.FD-CNG噪声估计
FD-CNG依赖于噪声估计器以对输入谱中存在的背景噪声的能量进行追踪。此主要基于由R.Martin描述的最小统计算法(“Noise Power Spectral Density EstimationBased on Optimal Smoothing and Minimum Statistics”,2001)。然而,为了减小输入能量的动态范围{EFD-CNG(0),...,EFD-CNG(LSID-1)}且因此有助于噪声估计算法的定点实施,在噪声估计之前应用非线性变换(参见“2.1用于输入能量的动态范围压缩”)。然后,对所得的噪声估计使用逆变换以恢复原始动态范围(参见“2.3针对估计的噪声能量的动态范围扩展”)。
2.1用于输入能量的动态范围压缩
通过非线性函数对输入能量进行处理并以9比特分辨率进行量化,如下:
2.2噪声追踪
可在R.Martin的“Noise Power Spectral Density Estimation Based onOptimal Smoothing and Minimum Statistics”(2001)中找到最小统计算法的详细描述。其大体上在于,追踪在用于每个谱带的给定长度的滑动时间窗上(通常在两三秒内)的平滑化功率谱的最小值。算法还包括偏置补偿以改良噪声估计的准确性。此外,为了改良时变噪声的追踪,可使用在短得多的时间窗上计算的局部最小值来替代原始最小值,假如其引起经估计的噪声能量的适度增加。在R.Martin的“Noise Power Spectral DensityEstimation Based on Optimal Smoothing and Minimum Statistics”(2001)中通过参数noise_slope_max确定容许的增加量。
噪声追踪器的主要输出为噪声估计NMS(i),i=0,...,LSID-1。为了获得舒适噪声中的较平滑的过渡,可应用一阶递归滤波器,即,
此外,在最后5个帧上对输入能量EMS(i)进行平均。此用于在每个谱划分中对应用上限。
2.3用于经估计的噪声能量的动态范围扩展
通过非线性函数对经估计的噪声能量进行处理以补偿上文所描述的动态范围压缩:
根据本发明,描述一种用于对音频信号中的噪声进行估计的改良的方法,其允许减小噪声估计器的复杂度,尤其对于使用定点算术在处理器上被处理的音频/语音信号。所发明的方法允许减小用于音频/语音信号处理的噪声估计器的动态范围,例如,在PCT/EP2012/077527(其指以高的谱-时间分辨率生成舒适噪声)中或PCT/EP2012/077527(其指用于以低比特率将背景噪声模型化的舒适噪声添加)中所描述的环境中。在所描述的情境中,使用基于最小统计算法操作的噪声估计器,以用于增强背景噪声的质量或用于针对有噪语音信号的舒适噪声生成,例如,在存在背景噪声的情况下的语音,其在电话呼叫中是非常普遍的情形并且是EVS编解码器的受测种类中的一种。根据标准,EVS编解码器将使用利用固定算术的处理器,且所发明的方法允许通过减小用于最小统计噪声估计器的信号的动态范围(通过在对数域中且不再在线性域中处理用于音频信号的能量值)来减小处理复杂度。
虽然在装置的上下文中已经描述所描述的概念的一些方面,显然,这些方面也表示对应方法的描述,其中模块或装置对应方法步骤或方法步骤的特征。类似的,在方法步骤的上下文中描述的方面也表示对应模块或项目或对应装置的特征的描述。
根据特定的实施需求,本发明的实施例可在硬件或软件中实施。可使用数字存储介质执行此实施,例如软盘、DVD、蓝光光盘、CD、ROM、PROM、EPROM、EEPROM或闪存,其具有存储于其上的电子可读取控制信号,其与可编程计算机系统协同操作(或能够协同操作),以使得执行各个方法。因此,数字存储介质可以是计算机可读取的。
根据本发明的一些实施例包括具有电子可读取控制信号的数据载体,其能够与可编程计算机系统协同运作,以执行所述方法的一个。
通常,本发明实施例可被实施为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,可运作程序代码以执行方法的一个。程序代码可例如存储在机器可读取载体上。
其他实施例包括用于执行所述方法的一个的计算机程序,其被存储在机器可读取载体上。
换言之,因此,本发明方法的实施例为具有程序代码的计算机程序,当计算机程序在计算机上运行时,该程序代码用于执行本文中所描述的方法中的一个。
因此,本发明方法的另一实施例为数据载体(或数字存储介质,或计算机可读介质),该数据载体包括记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。
因此,本发明方法的另一实施例是表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。可(例如)用于经由数据通信连接(例如,经由因特网)传送数据流或信号序列。
另一实施例包括处理构件,例如,用于或适于执行本文中所描述的方法中的一个的计算机或可编程逻辑设备。
另一实施例包括计算机,其上安装有用于执行本文中所描述的方法中的一个的计算机程序。
在一些实施例中,可编程逻辑设备(例如,现场可编程门阵列)可用以执行本文中所描述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可与微处理器协作,以便执行本文中所描述方法中的一个。通常,优选地由任何硬件装置执行方法。
上文所描述的实施例仅说明本发明的原理。应理解的是,本文中所描述的配置及细节的变形及变化对本领域技术人员是显而易见的。因此,其意图在于仅由待决权利要求的范围限制,而非由通过本文中实施例的描述及解释所呈现的特定细节限制。
Claims (12)
1.一种用于对音频信号(102)中的噪声进行估计的方法,所述方法包括:
确定(S100)用于所述音频信号(102)的能量值(174);
将所述能量值(174)变换(S102)至log2域;以及
直接在log2域中基于经变换的能量值(178)为所述音频信号(102)估计(S104)噪声等级(182)。
2.根据权利要求1所述的方法,其中估计(S104)所述噪声等级包括:执行预定的噪声估计算法,如最小统计算法。
3.根据权利要求1或2所述的方法,其中确定(S100)所述能量值(174)包括:通过将所述音频信号(102)变换至频域获得所述音频信号(102)的功率谱,将所述功率谱分组至心理声学激励的带内,并累积带内的功率谱区间以形成用于每个带的能量值(174),其中将用于每个带的能量值(174)变换至对数域,且其中基于对应的经变换的能量值(174)为每个带估计噪声等级。
4.根据权利要求1至3中任一项所述的方法,其中所述音频信号(102)包括多个帧,且其中对于每个帧,所述能量值(174)被确定并被变换至对数域,且基于所述经变换的能量值(174)为帧的每个带估计所述噪声等级。
5.根据权利要求1至4中任一项所述的方法,其中将所述能量值(174)变换(S102)至对数域,如下:
x的向下取整,
En_loglog2域中的带n的能量值,
En_lin线性域中的带n的能量值,
N量化分辨率。
6.根据权利要求1至5中任一项所述的方法,其中基于所述经变换的能量值(178)估计(S104)所述噪声等级产生对数数据,且其中所述方法进一步包括:
直接使用(S108)所述对数数据用于进一步处理,或
将所述对数数据变换(S110,S112)回至线性域用于进一步处理。
7.根据权利要求6所述的方法,其中
倘若传输在对数域中进行,将所述对数数据直接变换(S108)为传输数据,以及
将所述对数数据直接变换(S110)为传输数据使用移位函数连同查找表或近似法,例如,
8.一种非易失性计算机程序产品,包括储存指令的计算机可读介质,当所述指令在计算机上执行时,进行根据权利要求1至7中任一项所述的方法。
9.一种噪声估计器(170),包括:
检测器(172),用于确定用于音频信号(102)的能量值(174);
变换器(176),用于将所述能量值(174)变换至log2域;以及
估计器处理器(180),用于直接在log2域中基于经变换的能量值(178)为所述音频信号(102)估计噪声等级(182)。
10.一种音频编码器(100),包括根据权利要求9所述的噪声估计器。
11.一种音频解码器(150),包括根据权利要求9所述的噪声估计器(170)。
12.一种用于传输音频信号(120)的系统,所述系统包括:
音频编码器(100),用于基于接收的音频信号(102)生成经编码的音频信号(102);以及
音频解码器(150),用于接收所述经编码的音频信号(102),对所述经编码的音频信号(102)进行解码,以及输出经解码的音频信号(102),
其中所述音频编码器及所述音频解码器中的至少一个包括根据权利要求9所述的噪声估计器(170)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011194703.4A CN112309422B (zh) | 2014-07-28 | 2015-07-21 | 对音频信号中的噪声进行估计的方法和装置以及传输音频信号的装置和系统 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14178779.6A EP2980801A1 (en) | 2014-07-28 | 2014-07-28 | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
EP14178779.6 | 2014-07-28 | ||
PCT/EP2015/066657 WO2016016051A1 (en) | 2014-07-28 | 2015-07-21 | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011194703.4A Division CN112309422B (zh) | 2014-07-28 | 2015-07-21 | 对音频信号中的噪声进行估计的方法和装置以及传输音频信号的装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106716528A true CN106716528A (zh) | 2017-05-24 |
CN106716528B CN106716528B (zh) | 2020-11-17 |
Family
ID=51224866
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011194703.4A Active CN112309422B (zh) | 2014-07-28 | 2015-07-21 | 对音频信号中的噪声进行估计的方法和装置以及传输音频信号的装置和系统 |
CN201580051890.1A Active CN106716528B (zh) | 2014-07-28 | 2015-07-21 | 对音频信号中的噪声进行估计的方法和装置以及传输音频信号的装置和系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011194703.4A Active CN112309422B (zh) | 2014-07-28 | 2015-07-21 | 对音频信号中的噪声进行估计的方法和装置以及传输音频信号的装置和系统 |
Country Status (19)
Country | Link |
---|---|
US (3) | US10249317B2 (zh) |
EP (4) | EP2980801A1 (zh) |
JP (3) | JP6408125B2 (zh) |
KR (1) | KR101907808B1 (zh) |
CN (2) | CN112309422B (zh) |
AR (1) | AR101320A1 (zh) |
AU (1) | AU2015295624B2 (zh) |
BR (1) | BR112017001520B1 (zh) |
CA (1) | CA2956019C (zh) |
ES (2) | ES2768719T3 (zh) |
MX (1) | MX363349B (zh) |
MY (1) | MY178529A (zh) |
PL (2) | PL3175457T3 (zh) |
PT (2) | PT3175457T (zh) |
RU (1) | RU2666474C2 (zh) |
SG (1) | SG11201700701TA (zh) |
TW (1) | TWI590237B (zh) |
WO (1) | WO2016016051A1 (zh) |
ZA (1) | ZA201700532B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2980801A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
GB2552178A (en) * | 2016-07-12 | 2018-01-17 | Samsung Electronics Co Ltd | Noise suppressor |
CN107068161B (zh) * | 2017-04-14 | 2020-07-28 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音降噪方法、装置和计算机设备 |
RU2723301C1 (ru) * | 2019-11-20 | 2020-06-09 | Акционерное общество "Концерн "Созвездие" | Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих |
CN113193927B (zh) * | 2021-04-28 | 2022-09-23 | 中车青岛四方机车车辆股份有限公司 | 一种电磁敏感性指标的获得方法及装置 |
Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020127987A1 (en) * | 2001-03-12 | 2002-09-12 | Mark Kent | Method and apparatus for multipath signal detection, identification, and monitoring for wideband code division multiple access systems |
US20030004720A1 (en) * | 2001-01-30 | 2003-01-02 | Harinath Garudadri | System and method for computing and transmitting parameters in a distributed voice recognition system |
CN1431650A (zh) * | 2003-02-21 | 2003-07-23 | 清华大学 | 基于局部能量加权的抗噪声语音识别方法 |
US20050278171A1 (en) * | 2004-06-15 | 2005-12-15 | Acoustic Technologies, Inc. | Comfort noise generator using modified doblinger noise estimate |
US20060143001A1 (en) * | 2004-12-29 | 2006-06-29 | Siemens Aktiengesellschaft | Method for the adaptation of comfort noise generation parameters |
CN1920947A (zh) * | 2006-09-15 | 2007-02-28 | 清华大学 | 用于低比特率音频编码的语音/音乐检测器 |
CN101115051A (zh) * | 2006-07-25 | 2008-01-30 | 华为技术有限公司 | 音频信号处理方法、系统以及音频信号收发装置 |
CN101140759A (zh) * | 2006-09-08 | 2008-03-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及系统 |
CN101305423A (zh) * | 2005-11-08 | 2008-11-12 | 三星电子株式会社 | 自适应的基于时间/频率的音频编码和解码设备和方法 |
CN101501763A (zh) * | 2005-05-31 | 2009-08-05 | 微软公司 | 音频编解码器后置滤波器 |
CN101740033A (zh) * | 2008-11-24 | 2010-06-16 | 华为技术有限公司 | 一种音频编码方法和音频编码器 |
US7912567B2 (en) * | 2007-03-07 | 2011-03-22 | Audiocodes Ltd. | Noise suppressor |
CN102054480A (zh) * | 2009-10-29 | 2011-05-11 | 北京理工大学 | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 |
CN102144259A (zh) * | 2008-07-11 | 2011-08-03 | 弗劳恩霍夫应用研究促进协会 | 用于产生带宽扩展输出数据的装置和方法 |
CN102281225A (zh) * | 2010-06-11 | 2011-12-14 | 英特尔移动通信技术德累斯顿有限公司 | Lte基带接收器及其操作方法 |
CN102483916A (zh) * | 2009-08-28 | 2012-05-30 | 国际商业机器公司 | 声音特征量提取装置、声音特征量提取方法及声音特征量提取程序 |
CN102664017A (zh) * | 2012-04-25 | 2012-09-12 | 武汉大学 | 一种3d音频质量客观评价方法 |
CN102759572A (zh) * | 2011-04-29 | 2012-10-31 | 比亚迪股份有限公司 | 一种产品的质量检测方法和检测装置 |
US20120288109A1 (en) * | 2007-09-28 | 2012-11-15 | Huawei Technologies Co., Ltd. | Apparatus and method for noise generation |
CN103026407A (zh) * | 2010-05-25 | 2013-04-03 | 诺基亚公司 | 带宽扩展器 |
US20130197904A1 (en) * | 2012-01-27 | 2013-08-01 | John R. Hershey | Indirect Model-Based Speech Enhancement |
CN103546977A (zh) * | 2013-11-11 | 2014-01-29 | 苏州威士达信息科技有限公司 | 基于HD Radio系统的动态频谱接入方法 |
CN103558029A (zh) * | 2013-10-22 | 2014-02-05 | 重庆建设摩托车股份有限公司 | 一种发动机异响故障在线诊断系统和诊断方法 |
CN103714806A (zh) * | 2014-01-07 | 2014-04-09 | 天津大学 | 一种结合svm和增强型pcp特征的和弦识别方法 |
WO2014096280A1 (en) * | 2012-12-21 | 2014-06-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Comfort noise addition for modeling background noise at low bit-rates |
Family Cites Families (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4630304A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic background noise estimator for a noise suppression system |
GB2216320B (en) * | 1988-02-29 | 1992-08-19 | Int Standard Electric Corp | Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems |
US5227788A (en) * | 1992-03-02 | 1993-07-13 | At&T Bell Laboratories | Method and apparatus for two-component signal compression |
FI103700B1 (fi) * | 1994-09-20 | 1999-08-13 | Nokia Mobile Phones Ltd | Samanaikainen puheen ja datan siirto matkaviestinjärjestelmässä |
CN1121684C (zh) | 1995-09-14 | 2003-09-17 | 艾利森公司 | 用于选择性地改变一帧数字信号的方法和装置 |
FR2739995B1 (fr) * | 1995-10-13 | 1997-12-12 | Massaloux Dominique | Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole |
JP3538512B2 (ja) * | 1996-11-14 | 2004-06-14 | パイオニア株式会社 | データ変換装置 |
JPH10319985A (ja) * | 1997-03-14 | 1998-12-04 | N T T Data:Kk | ノイズレベル検出方法、システム及び記録媒体 |
JP3357829B2 (ja) * | 1997-12-24 | 2002-12-16 | 株式会社東芝 | 音声符号化/復号化方法 |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6289309B1 (en) * | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US6954800B2 (en) * | 2000-04-07 | 2005-10-11 | Broadcom Corporation | Method of enhancing network transmission on a priority-enabled frame-based communications network |
JP2002091478A (ja) * | 2000-09-18 | 2002-03-27 | Pioneer Electronic Corp | 音声認識システム |
WO2002071395A2 (en) * | 2001-03-02 | 2002-09-12 | Matsushita Electric Industrial Co., Ltd. | Apparatus for coding scaling factors in an audio coder |
US7650277B2 (en) * | 2003-01-23 | 2010-01-19 | Ittiam Systems (P) Ltd. | System, method, and apparatus for fast quantization in perceptual audio coders |
WO2005004113A1 (ja) * | 2003-06-30 | 2005-01-13 | Fujitsu Limited | オーディオ符号化装置 |
US7251322B2 (en) * | 2003-10-24 | 2007-07-31 | Microsoft Corporation | Systems and methods for echo cancellation with arbitrary playback sampling rates |
GB2409389B (en) * | 2003-12-09 | 2005-10-05 | Wolfson Ltd | Signal processors and associated methods |
WO2005086139A1 (en) * | 2004-03-01 | 2005-09-15 | Dolby Laboratories Licensing Corporation | Multichannel audio coding |
US7869500B2 (en) * | 2004-04-27 | 2011-01-11 | Broadcom Corporation | Video encoder and method for detecting and encoding noise |
EP1774692A2 (en) | 2004-07-01 | 2007-04-18 | Staccato Communications, Inc. | Multiband receiver synchronization |
DE102004059979B4 (de) | 2004-12-13 | 2007-11-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Berechnung einer Signalenergie eines Informationssignals |
EP1984911A4 (en) * | 2006-01-18 | 2012-03-14 | Lg Electronics Inc | DEVICE AND METHOD FOR SIGNAL CODING AND DECODING |
US7873511B2 (en) * | 2006-06-30 | 2011-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
EP1873754B1 (en) * | 2006-06-30 | 2008-09-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
EP2077550B8 (en) * | 2008-01-04 | 2012-03-14 | Dolby International AB | Audio encoder and decoder |
US8331892B2 (en) | 2008-03-29 | 2012-12-11 | Qualcomm Incorporated | Method and system for DC compensation and AGC |
US20090259469A1 (en) * | 2008-04-14 | 2009-10-15 | Motorola, Inc. | Method and apparatus for speech recognition |
ES2526767T3 (es) * | 2008-07-11 | 2015-01-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador de audio, procedimiento para codificar una señal de audio y programa de ordenador |
ES2654433T3 (es) * | 2008-07-11 | 2018-02-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador de señal de audio, método para codificar una señal de audio y programa informático |
US7961125B2 (en) * | 2008-10-23 | 2011-06-14 | Microchip Technology Incorporated | Method and apparatus for dithering in multi-bit sigma-delta digital-to-analog converters |
US20100145687A1 (en) * | 2008-12-04 | 2010-06-10 | Microsoft Corporation | Removing noise from speech |
PL3779979T3 (pl) * | 2010-04-13 | 2024-01-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Sposób dekodowania audio do przetwarzania sygnałów audio stereo z wykorzystaniem zmiennego kierunku predykcji |
JP5296039B2 (ja) | 2010-12-06 | 2013-09-25 | 株式会社エヌ・ティ・ティ・ドコモ | 移動通信システムにおける基地局及びリソース割当方法 |
CN103261959B (zh) | 2010-12-10 | 2015-11-25 | 夏普株式会社 | 半导体装置和半导体装置的制造方法以及液晶显示装置 |
AR085224A1 (es) * | 2011-02-14 | 2013-09-18 | Fraunhofer Ges Forschung | Codec de audio utilizando sintesis de ruido durante fases inactivas |
CA2827305C (en) * | 2011-02-14 | 2018-02-06 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Noise generation in audio codecs |
US9280982B1 (en) * | 2011-03-29 | 2016-03-08 | Google Technology Holdings LLC | Nonstationary noise estimator (NNSE) |
KR101294405B1 (ko) * | 2012-01-20 | 2013-08-08 | 세종대학교산학협력단 | 위상 변환된 잡음 신호를 이용한 음성 영역 검출 방법 및 그 장치 |
CN103325384A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 谐度估计、音频分类、音调确定及噪声估计 |
CN103597742A (zh) | 2012-06-14 | 2014-02-19 | 西凯渥资讯处理科技公司 | 包含相关系统、装置及方法的功率放大器模块 |
EP2880654B1 (en) * | 2012-08-03 | 2017-09-13 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases |
EP2717261A1 (en) * | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding |
CN103021405A (zh) * | 2012-12-05 | 2013-04-03 | 渤海大学 | 基于music和调制谱滤波的语音信号动态特征提取方法 |
CA2894625C (en) | 2012-12-21 | 2017-11-07 | Anthony LOMBARD | Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals |
US10593435B2 (en) | 2014-01-31 | 2020-03-17 | Westinghouse Electric Company Llc | Apparatus and method to remotely inspect piping and piping attachment welds |
US9628266B2 (en) * | 2014-02-26 | 2017-04-18 | Raytheon Bbn Technologies Corp. | System and method for encoding encrypted data for further processing |
EP2980801A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
-
2014
- 2014-07-28 EP EP14178779.6A patent/EP2980801A1/en not_active Ceased
-
2015
- 2015-07-21 WO PCT/EP2015/066657 patent/WO2016016051A1/en active Application Filing
- 2015-07-21 MY MYPI2017000139A patent/MY178529A/en unknown
- 2015-07-21 BR BR112017001520-0A patent/BR112017001520B1/pt active IP Right Grant
- 2015-07-21 SG SG11201700701TA patent/SG11201700701TA/en unknown
- 2015-07-21 CN CN202011194703.4A patent/CN112309422B/zh active Active
- 2015-07-21 ES ES15739587T patent/ES2768719T3/es active Active
- 2015-07-21 JP JP2017504799A patent/JP6408125B2/ja active Active
- 2015-07-21 PL PL15739587T patent/PL3175457T3/pl unknown
- 2015-07-21 EP EP21152041.6A patent/EP3826011A1/en active Pending
- 2015-07-21 EP EP19202338.0A patent/EP3614384B1/en active Active
- 2015-07-21 ES ES19202338T patent/ES2850224T3/es active Active
- 2015-07-21 RU RU2017106161A patent/RU2666474C2/ru active
- 2015-07-21 EP EP15739587.2A patent/EP3175457B1/en active Active
- 2015-07-21 PT PT157395872T patent/PT3175457T/pt unknown
- 2015-07-21 CA CA2956019A patent/CA2956019C/en active Active
- 2015-07-21 CN CN201580051890.1A patent/CN106716528B/zh active Active
- 2015-07-21 MX MX2017001241A patent/MX363349B/es unknown
- 2015-07-21 AU AU2015295624A patent/AU2015295624B2/en active Active
- 2015-07-21 PL PL19202338T patent/PL3614384T3/pl unknown
- 2015-07-21 PT PT192023380T patent/PT3614384T/pt unknown
- 2015-07-21 KR KR1020177005256A patent/KR101907808B1/ko active IP Right Grant
- 2015-07-23 TW TW104123864A patent/TWI590237B/zh active
- 2015-07-27 AR ARP150102374A patent/AR101320A1/es active IP Right Grant
-
2017
- 2017-01-23 ZA ZA2017/00532A patent/ZA201700532B/en unknown
- 2017-01-27 US US15/417,234 patent/US10249317B2/en active Active
-
2018
- 2018-09-19 JP JP2018174338A patent/JP6730391B2/ja active Active
-
2019
- 2019-02-27 US US16/288,000 patent/US10762912B2/en active Active
-
2020
- 2020-07-01 JP JP2020113803A patent/JP6987929B2/ja active Active
- 2020-08-17 US US16/995,493 patent/US11335355B2/en active Active
Patent Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030004720A1 (en) * | 2001-01-30 | 2003-01-02 | Harinath Garudadri | System and method for computing and transmitting parameters in a distributed voice recognition system |
US20020127987A1 (en) * | 2001-03-12 | 2002-09-12 | Mark Kent | Method and apparatus for multipath signal detection, identification, and monitoring for wideband code division multiple access systems |
CN1431650A (zh) * | 2003-02-21 | 2003-07-23 | 清华大学 | 基于局部能量加权的抗噪声语音识别方法 |
US20050278171A1 (en) * | 2004-06-15 | 2005-12-15 | Acoustic Technologies, Inc. | Comfort noise generator using modified doblinger noise estimate |
US20060143001A1 (en) * | 2004-12-29 | 2006-06-29 | Siemens Aktiengesellschaft | Method for the adaptation of comfort noise generation parameters |
CN101501763A (zh) * | 2005-05-31 | 2009-08-05 | 微软公司 | 音频编解码器后置滤波器 |
CN101305423A (zh) * | 2005-11-08 | 2008-11-12 | 三星电子株式会社 | 自适应的基于时间/频率的音频编码和解码设备和方法 |
CN101115051A (zh) * | 2006-07-25 | 2008-01-30 | 华为技术有限公司 | 音频信号处理方法、系统以及音频信号收发装置 |
CN101140759A (zh) * | 2006-09-08 | 2008-03-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及系统 |
CN1920947A (zh) * | 2006-09-15 | 2007-02-28 | 清华大学 | 用于低比特率音频编码的语音/音乐检测器 |
US7912567B2 (en) * | 2007-03-07 | 2011-03-22 | Audiocodes Ltd. | Noise suppressor |
US20120288109A1 (en) * | 2007-09-28 | 2012-11-15 | Huawei Technologies Co., Ltd. | Apparatus and method for noise generation |
CN102144259A (zh) * | 2008-07-11 | 2011-08-03 | 弗劳恩霍夫应用研究促进协会 | 用于产生带宽扩展输出数据的装置和方法 |
CN101740033A (zh) * | 2008-11-24 | 2010-06-16 | 华为技术有限公司 | 一种音频编码方法和音频编码器 |
CN102483916A (zh) * | 2009-08-28 | 2012-05-30 | 国际商业机器公司 | 声音特征量提取装置、声音特征量提取方法及声音特征量提取程序 |
CN102054480A (zh) * | 2009-10-29 | 2011-05-11 | 北京理工大学 | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 |
CN103026407A (zh) * | 2010-05-25 | 2013-04-03 | 诺基亚公司 | 带宽扩展器 |
CN102281225A (zh) * | 2010-06-11 | 2011-12-14 | 英特尔移动通信技术德累斯顿有限公司 | Lte基带接收器及其操作方法 |
CN102759572A (zh) * | 2011-04-29 | 2012-10-31 | 比亚迪股份有限公司 | 一种产品的质量检测方法和检测装置 |
US20130197904A1 (en) * | 2012-01-27 | 2013-08-01 | John R. Hershey | Indirect Model-Based Speech Enhancement |
CN102664017A (zh) * | 2012-04-25 | 2012-09-12 | 武汉大学 | 一种3d音频质量客观评价方法 |
WO2014096280A1 (en) * | 2012-12-21 | 2014-06-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Comfort noise addition for modeling background noise at low bit-rates |
CN103558029A (zh) * | 2013-10-22 | 2014-02-05 | 重庆建设摩托车股份有限公司 | 一种发动机异响故障在线诊断系统和诊断方法 |
CN103546977A (zh) * | 2013-11-11 | 2014-01-29 | 苏州威士达信息科技有限公司 | 基于HD Radio系统的动态频谱接入方法 |
CN103714806A (zh) * | 2014-01-07 | 2014-04-09 | 天津大学 | 一种结合svm和增强型pcp特征的和弦识别方法 |
Non-Patent Citations (2)
Title |
---|
FEBE DE WET ET AL.: "《Additive background noise as a source of non-linear mismatch in the cepstral and log-energy domain》", 《COMPUTER SPEECH AND LANGUAGE》 * |
NOBUTAKA ITO ET AL.: "《COMPLEX ANGULAR CENTRAL GAUSSIAN MIXTURE MODEL FOR DIRECTIONAL》", 《IEEE INTERNATIONAL SYMPOSIUM ON SIGNALS,CIRCUITS AND SYSTEMS ISSCS2013》 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5978218B2 (ja) | 低ビットレート低遅延の一般オーディオ信号の符号化 | |
RU2389085C2 (ru) | Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx | |
TWI480856B (zh) | 音訊編解碼器中之雜訊產生技術 | |
US20070106502A1 (en) | Adaptive time/frequency-based audio encoding and decoding apparatuses and methods | |
Milner et al. | Speech reconstruction from mel-frequency cepstral coefficients using a source-filter model | |
CN105210149A (zh) | 用于音频信号解码或编码的时域电平调整 | |
US11335355B2 (en) | Estimating noise of an audio signal in the log2-domain | |
JPH07199997A (ja) | 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法 | |
Thimmaraja et al. | Enhancements in encoded noisy speech data by background noise reduction | |
US7603271B2 (en) | Speech coding apparatus with perceptual weighting and method therefor | |
US10950251B2 (en) | Coding of harmonic signals in transform-based audio codecs | |
Vafin et al. | Rate-distortion optimized quantization in multistage audio coding | |
Kleijn | Principles of speech coding | |
CN117178322A (zh) | 用于声音信号的统一时域/频域编码的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |