CN110827841A - 音频解码器 - Google Patents
音频解码器 Download PDFInfo
- Publication number
- CN110827841A CN110827841A CN201910950848.3A CN201910950848A CN110827841A CN 110827841 A CN110827841 A CN 110827841A CN 201910950848 A CN201910950848 A CN 201910950848A CN 110827841 A CN110827841 A CN 110827841A
- Authority
- CN
- China
- Prior art keywords
- noise
- current frame
- information
- audio decoder
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003595 spectral effect Effects 0.000 claims description 35
- 230000005284 excitation Effects 0.000 claims description 24
- 238000007493 shaping process Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012546 transfer Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 description 69
- 238000004590 computer program Methods 0.000 description 19
- 230000005236 sound signal Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 11
- 230000002829 reductive effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本公开涉及音频解码器。该音频解码器包含:倾斜调整器,其被配置为使用当前帧的线性预测系数来调整噪声的倾斜以获得倾斜信息;以及噪声插入器,其被配置为根据由倾斜计算器获得的倾斜信息来将噪声添加至当前帧。根据本发明的另一音频解码器包含:噪声水平估计器,其被配置为使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平以获得噪声水平信息;以及噪声插入器,其被配置为根据由噪声水平估计器提供的噪声水平信息来将噪声添加至当前帧。因此,可省略位流中的关于背景噪声的边信息。
Description
本申请是国际申请号为PCT/EP2014/051649、申请日为2014年1月28日、进入中国国家阶段日期为2015年9月28日、发明名称为“用于码激励线性预测类编码器的无边信息的噪声填充”的PCT申请的中国国家阶段申请的分案申请,该中国国家阶段申请的申请号为201480019087.5。
技术领域
本发明的实施方式涉及:用以基于包含线性预测系数(LPC)的已编码音频信息来提供已解码音频信息的音频解码器;用以基于包含线性预测系数(LPC)的已编码音频信息来提供已解码音频信息的方法;用以执行此方法的计算机程序,其中该计算机程序在计算机上运行;以及音频信号或储存有此音频信号的储存介质,该音频信号已经用此方法进行了处理。
背景技术
当比特率降低至小于每个样本约0.5至1比特时,基于码激励线性预测(CELP)编码原理的低比特率数字语音(speech)编码器通常会遭受信号稀疏伪影,从而引起略为不自然的金属声。尤其当输入语音中具有背景中的环境噪声时,低速率(low-rate)伪影明显可听见:背景噪声在主动语音区段(active speech sections)期间将会衰减。本发明描述用于诸如AMR-WB[1]及G.718[4,7]的(A)CELP编码器的噪声插入方案,该方案与在诸如xHE-AAC[5,6]的基于变换的编码器中所使用的噪声填充技术类似,将随机噪声产生器的输出添加至已解码语音信号来重新建构背景噪声。
国际公开案WO 2012/110476 A1展示出一种基于线性预测且使用频谱域噪声整形的编码概念。对音频输入信号的频谱分解(分解成包含连串频谱的频谱图)被用于以下两者:线性预测系数计算,以及用于基于线性预测系数的频域整形的输入。根据引用的文献,音频编码器包含线性预测分析器,其用以分析输入音频信号以便由此导出线性预测系数。音频编码器的频域整形器被配置为基于由线性预测分析器提供的线性预测系数频谱整形频谱图的一连串频谱的当前频谱。将已量化且已频谱整形的频谱连同在频谱整形时使用的线性预测系数一起插入至数据流中,使得在解码侧可执行去除整形(de-shaping)及去除量化(de-quantization)。也可存在时间噪声整形模块以执行时间噪声整形。
鉴于现有技术,仍然需要改良的音频解码器、改良的方法、用以执行此方法的改良的计算机程序、以及改良的音频信号或储存有此音频信号的储存介质,该音频信号已经用此方法加以处理。更具体而言,需要找到改良在已编码位流中传递的音频信息的声音质量的解决方案。
发明内容
在本发明的权利要求中和的实施方式的详细描述中的参考符号仅仅为了改善可读性而添加,绝不意味着是限制性的。
本发明的目标是通过一种用以基于包含线性预测系数(LPC)的已编码音频信息来提供已解码音频信息的音频解码器来实现,该音频解码器包含:倾斜调整器(tiltadjuster),其被配置为使用当前帧的线性预测系数来调整噪声的倾斜以获得倾斜信息;以及噪声插入器,其被配置为取决于由倾斜计算器获得的该倾斜信息来将该噪声添加至该当前帧。另外,本发明的目标通过一种用以基于包含线性预测系数(LPC)的已编码音频信息来提供已解码音频信息的方法来实现,该方法包含:使用当前帧的线性预测系数来调整噪声的倾斜以获得倾斜信息;以及取决于所获得的倾斜信息来将该噪声添加至该当前帧。
作为第二种创造性解决方案,本发明建议一种用以基于包含线性预测系数(LPC)的已编码音频信息来提供已解码音频信息的音频解码器,该音频解码器包含:噪声水平估计器,其被配置为使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平,以便获得噪声水平信息;以及噪声插入器,其被配置为取决于由该噪声水平估计器提供的该噪声水平信息来将噪声添加至该当前帧。此外,本发明的目标是通过一种用以基于包含线性预测系数(LPC)的已编码音频信息来提供已解码音频信息的方法来解决,该方法包含:使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平,以便获得噪声水平信息;以及取决于由该噪声水平估计提供的噪声水平信息来将噪声添加至该当前帧。另外,本发明的目标通过以下两者来解决:一种用以执行此方法的计算机程序,其中该计算机程序在计算机上运行;以及一种音频信号或储存有此音频信号的储存介质,该音频信号已经用此方法加以处理。
所建议的解决方案避免了必须在CELP位流(bitstream,比特流)中提供边信息以便在噪声填充过程期间调整在解码器侧所提供的噪声。这意味着,可减小将要用位流输送的数据的量,而可仅仅基于当前或先前已解码的帧的线性预测系数来增加所插入噪声的质量。换言之,可省略关于噪声的边信息,该边信息将会增加将要用位流传递的数据的量。本发明允许提供低比特率数字编码器及方法,其与现有技术的解决方案相比而言可占用关于位流的更少的带宽并且提供质量提高的背景噪声。
较佳的是,音频解码器包含用以判定当前帧的帧类型的帧类型判定器,该帧类型判定器被配置为在检测到当前帧的帧类型为语音类型时,启动倾斜调整器来调整噪声的倾斜。在一些实施方式中,帧类型判定器被配置为在帧经ACELP或CELP编码时,将该帧辨识为语音类型帧。根据当前帧的倾斜来对噪声加以整形可提供更自然的背景噪声且可减少与编码于位流中的所要信号的背景噪声有关的音频压缩的不良效应。因为这些不良的压缩效应及伪影相对于语音信息的背景噪声常常变得显著,所以可能有利的是:通过在将噪声添加至当前帧之前调整噪声的倾斜来增强将要添加至此类语音类型帧的噪声的质量。因此,噪声插入器可被配置为仅在当前帧为语音帧的情况下将噪声添加至当前帧,因为如果仅语音帧通过噪声填充来进行处理,可减少解码器侧的工作负载。
在本发明的一较佳实施方式中,倾斜调整器被配置为使用对当前帧的线性预测系数的一阶分析(first-order analysis)的结果来获得倾斜信息。通过使用对线性预测系数此一阶分析,在位流中省略用以表征噪声的边信息成为可能。此外,对将要添加的噪声的调整可基于当前帧的线性预测系数,该等线性预测系数必须用位流以任何方式加以传递来允许对当前帧的音频信息的解码。这意味着在调整噪声的倾斜的过程中当前帧的线性预测系数被有利地再使用。另外,一阶分析相当简单,使得音频解码器的计算复杂性不会显著增加。
在本发明的一些实施方式中,倾斜调整器被配置为使用对当前帧的线性预测系数的增益g的计算作为该一阶分析来获得倾斜信息。更佳地,通过公式g=Σ[ak·ak+1]/Σ[ak·ak]给出增益g,其中ak为当前帧的LPC系数。在一些实施方式中,在该计算中使用两个或更多LPC系数ak。较佳地,使用总共16个LPC系数,因此k=0….15。在本发明的实施方式中,位流可利用多于或少于16个LPC系数编码。因为当前帧的线性预测系数容易存在于位流中,所以可在不利用边信息的情况下获得倾斜信息,从而减小将要在位流中传递的数据的量。可仅仅通过使用对已编码音频信息加以解码所必需的线性预测系数来调整将要添加的噪声。
较佳地,倾斜调整器可被配置为使用用于当前帧的直接形式滤波器x(n)-g·x(n-1)的传递函数的计算来获得倾斜信息。此种类型的计算相当容易且不需要解码器侧的高计算能力。如上文所展示,可易于根据当前帧的LPC系数计算出增益g。这允许在仅仅使用对已编码音频信息解码所必需的位流数据的情况下改善低比特率数字编码器的噪声质量。
在本发明的一较佳实施方式中,噪声插入器被配置为在将噪声添加至当前帧之前,将当前帧的倾斜信息应用于噪声以便调整噪声的倾斜。若噪声插入器经相应地配置,则可提供简化的音频解码器。通过首先应用倾斜信息,随后将已调整的噪声添加至当前帧,可提供音频解码器的简单且有效的方法。
在本发明的一实施方式中,音频解码器另外包含:噪声水平估计器,其被配置为使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平以获得噪声水平信息;以及噪声插入器,其被配置为取决于由该噪声水平估计器提供的该噪声水平信息来将噪声添加至该当前帧。由此,因为可根据可能存在于当前帧中的噪声水平来调整将要添加至当前帧的噪声,所以可增强背景噪声的质量且因此增强整个音频传输的质量。例如,若因为根据先前帧估计了高噪声水平,所以预计在当前帧中为高噪声水平,则噪声插入器可被配置为在将噪声添加至当前帧之前增加将要添加至当前帧的噪声的水平。因此,将要添加的噪声可被调整成与当前帧中的预计噪声水平相比而言既不会太安静也不会太大声。此外,此调整并非基于位流中的专用边信息,而是仅仅使用在位流中传递的必要数据的信息,在此情况下为至少一个先前帧的线性预测系数,该线性预测系数亦提供关于先前帧中的噪声水平的信息。因此,较佳的是,使用g导出的倾斜对将要添加至当前帧的噪声加以整形且考虑到噪声水平估计来缩放(scale)该噪声。更佳的是,在当前帧为语音类型时,调整将要添加至当前帧的噪声的倾斜及噪声水平。在一些实施方式中,在当前帧为例如TCX类型或DTX类型的一般音频类型时,也调整将要添加至当前帧的倾斜和/或噪声水平。
较佳地,音频解码器包含用以判定当前帧的帧类型的帧类型判定器,该帧类型判定器被配置为识别当前帧的帧类型为语音还是一般音频,因此可取决于当前帧的帧类型来执行噪声水平估计。例如,帧类型判定器可被配置为检测当前帧为CELP或ACELP帧(其是语音帧类型),还是TCX/MDCT或DTX帧(其是一般音频帧类型)。因为这些编码格式遵循不同原理,所以需要在执行噪声水平估计之前判定帧类型,以使得可取决于帧类型来选择适合的计算。
在本发明的一些实施方式中,音频解码器适于:计算表示当前帧的未频谱整形的激发(excitation,激励)的第一信息,以及计算关于当前帧的频谱缩放的第二信息,以便计算第一信息和第二信息的商(quotient)来获得噪声水平信息。由此,可在不利用任何边信息的情况下获得噪声水平信息。因此,可保持编码器的比特率较低。
较佳地,音频解码器适于:在当前帧为语音类型的条件下,解码当前帧的激发信号,且根据当前帧的时域表示来计算其均方根erms来作为第一信息,以便获得噪声水平信息。对此实施方式较佳的是,音频解码器适于在当前帧为CELP或ACELP类型的情况下相应地执行。将已频谱整平的激发信号(在感知域中)从位流解码且用来更新噪声水平估计。在读取位流之后计算当前帧的激发信号的均方根erms。此种类型的计算可不需要高计算能力,因此甚至可由具有较低计算能力的音频解码器执行。
在一较佳实施方式中,音频解码器适于:在当前帧为语音类型的条件下,计算当前帧的LPC滤波器的传递函数的峰值水平p来作为第二信息,从而使用线性预测系数来获得噪声水平信息。此外,较佳的是,当前帧为CELP或ACELP类型。计算峰值水平p的成本相当低,且通过再使用当前帧的线性预测系数(也用来解码该帧中所含的音频信息),可省略边信息,且仍可增强背景噪声而不增加位流的数据速率。
在本发明的一较佳实施方式中,音频解码器适于:在当前帧为语音类型的条件下,通过计算均方根erms与峰值水平p的商来计算当前音频帧的频谱最小值mf,以便获得噪声水平信息。此计算相当简单且可提供可用于估计在多个音频帧的范围内的噪声水平的数值。因此,可使用一系列当前音频帧的频谱最小值mf来估计在该等一系列音频帧所涵盖的时段期间的噪声水平。这可允许在保持复杂性相当低的同时获得对当前帧的噪声水平的良好估计。较佳地使用公式p=∑|ak|来计算峰值水平p,其中ak为线性预测系数,较佳地,k=0….15。因此,若帧包含16个线性预测系数,则在一些实施方式中可通过对较佳为16个的ak的振幅求和来计算p。
较佳地,音频解码器适于:在当前帧为一般音频类型的情况下,解码当前帧的未整形的MDCT激发,且根据当前帧的频谱域表示来计算其均方根erms以便获得噪声水平信息来作为第一信息。每当当前帧并非语音帧,而是一般音频帧时,此系本发明的较佳实施方式。在MDCT或DTX帧中的频谱域表示很大程度上等效于在例如CELP或(A)CELP帧的语音帧中的时域表示。差别在于,MDCT未考虑帕塞瓦尔定理(Parseval’s theorem)。因此,较佳地,计算一般音频帧的均方根erms的方式类似于计算语音帧的均方根erms的方式。然后,较佳地,如WO2012/110476A1中所述,例如使用MDCT功率谱来计算一般音频帧的LPC系数等效物(LPCcoefficients equivalents),该MDCT功率谱指代巴克尺度(bark scale)上的MDCT值的平方。在替代实施方式中,MDCT功率谱的频带可具有恒定的宽度,因此该功率谱的尺度对应于线性尺度(linear scale,线性标尺)。在此线性尺度的情况下,计算出的LPC系数等效物类似于例如针对ACELP或CELP帧所计算出的相同帧的时域表示中的LPC系数。另外,较佳的是,若当前帧为一般音频类型,则计算如WO 2012/110476A1中所述根据MDCT帧所计算出的当前帧的LPC滤波器的传递函数的峰值水平p来作为第二信息,从而在当前帧为一般音频类型的条件下使用线性预测系数来获得噪声水平信息。然后,若当前帧为一般音频类型,则较佳地通过计算均方根erms和峰值水平p的商来计算当前音频帧的频谱最小值,以便在当前帧为一般音频类型的条件下获得噪声水平信息。因此,无论当前帧为语音类型还是一般音频类型,均可获得描述当前帧的频谱最小值mf的商。
在一较佳实施方式中,音频解码器适于:无论帧类型如何,在噪声水平估计器中将从当前音频帧获得的商加入队列,该噪声水平估计器包含用于从不同音频帧获得的两个或更多商的噪声水平储存器。例如在应用低延迟统一语音及音频解码(LD-USAC、EVS)时,如果音频解码器适于在语音帧的解码与一般音频帧的解码之间切换,这会是有利的。由此,无论帧类型如何,均可获得多个帧的平均噪声水平。较佳地,噪声水平储存器可保存从十个或更多先前音频帧获得的十个或更多的商。例如,噪声水平储存器可含有用于30个帧的商的空间。因此,可针对在当前帧之前的扩展时间计算出噪声水平。在一些实施方式中,仅在检测到当前帧为语音类型时,可在噪声水平估计器中将商加入队列。在其他实施方式中,仅在检测到当前帧为一般音频类型时,可在噪声水平估计器中将商加入队列。
较佳的是,噪声水平估计器适于基于不同音频帧的两个或更多商的统计分析来估计噪声水平。在本发明的一实施方式中,音频解码器适于使用基于最小均方误差的噪声功率谱密度追踪来对该等商进行统计分析。在Hendriks、Heusdens以及Jensen的公开案[2]中描述了此追踪。如果应该应用根据[2]的方法,则音频解码器适于在统计分析时使用轨迹值的平方根,就像在本例中一样直接搜寻振幅谱。在本发明的另一实施方式中,使用根据[3]已知的最小值统计数据来分析不同音频帧的两个或更多商。
在一较佳实施方式中,音频解码器包含解码器核心,解码器核心被配置为使用当前帧的线性预测系数来解码当前帧的音频信息以获得已解码的核心编码器输出信号,且噪声插入器取决于在解码当前帧的音频信息时所使用的和/或在解码一个或多个先前帧的音频信息时所使用的线性预测系数来添加噪声。因此,噪声插入器利用用来解码当前帧的音频信息的相同线性预测系数。可省略用来指示噪声插入器的边信息。
较佳地,音频解码器包含用以将当前帧去加重的去加重滤波器(de-emphasisfilter),该音频解码器适于在噪声插入器将噪声添加至当前帧之后对当前帧应用去加重滤波器。由于去加重是提升低频的一阶IIR,所以这允许对所添加噪声的低复杂性、陡峭IIR高通滤波,从而避免在低频处的可听见的噪声伪影。
较佳地,音频解码器包含噪声产生器,该噪声产生器适于产生将由噪声插入器添加至当前帧的噪声。使音频解码器包括噪声产生器可提供更方便的音频解码器,因为不需要外部噪声产生器。在替代方案中,噪声可由外部噪声产生器供应,外部噪声产生器可经由接口连接至音频解码器。例如,取决于在当前帧中将要增强的背景噪声,可应用特殊类型的噪声产生器。
较佳地,噪声产生器被配置为产生随机白噪声。此噪声与常见的背景噪声充分相似,且此噪声产生器可易于提供。
在本发明的一较佳实施方式中,噪声插入器被配置为在已编码音频信息的比特率小于每个样本1个比特的条件下将噪声添加至当前帧。较佳地,已编码音频信息的比特率小于每个样本0.8比特。甚至更佳的是,噪声插入器被配置为在已编码音频信息的比特率小于每个样本0.5比特的条件下将噪声添加至当前帧。
在一较佳实施方式中,音频解码器被配置为使用基于编码器AMR-WB、G.718或LD-USAC(EVS)中的一个或多个的编码器来解码已编码音频信息。这些编码器是熟知的且分布广泛的(A)CELP编码器,在这些编码器中额外使用这样的噪声填充方法会是极为有利的。
附图说明
以下关于附图来描述本发明的实施方式。
图1示出了根据本发明的音频解码器的第一实施方式;
图2示出了根据本发明的用于执行音频解码的第一种方法,该方法可由根据图1的音频解码器执行;
图3示出了根据本发明的音频解码器的第二实施方式;
图4示出了根据本发明的用于执行音频解码的第二种方法,该方法可由根据图3的音频解码器执行;
图5示出了根据本发明的音频解码器的第三实施方式;
图6示出了根据本发明的用于执行音频解码的第三种方法,该方法可由根据图5的音频解码器执行;
图7示出了用于计算用于噪声水平估计的频谱最小值mf的方法的例示;
图8示出了例示了从LPC系数导出的倾斜的图;以及
图9示出了例示了如何根据MDCT功率谱确定LPC滤波器等效物的图。
具体实施方式
关于图1至图9来详细描述本发明。本发明绝不意味着限于所示出及描述的实施方式。
图1示出了根据本发明的音频解码器的第一实施方式。音频解码器适于基于已编码音频信息来提供已解码音频信息。音频解码器被配置为使用可基于AMR-WB、G.718及LD-USAC(EVS)的编码器来解码已编码音频信息。已编码音频信息包含可分别表示为系数ak的线性预测系数(LPC)。音频解码器包含:倾斜调整器,其被配置为使用当前帧的线性预测系数来调整噪声的倾斜以获得倾斜信息;以及噪声插入器,其被配置为取决于通过倾斜计算器获得的倾斜信息来将噪声添加至当前帧。噪声插入器被配置为在已编码音频信息的比特率小于每个样本1个比特的条件下将噪声添加至当前帧。另外,噪声插入器可被配置为在当前帧为语音帧的条件下将噪声添加至当前帧。因此,可将噪声添加至当前帧以便改善已解码音频信息的总体声音质量,该质量可能因编码伪影而受损,尤其就语音信息的背景噪声而言。当考虑到当前音频帧的倾斜来调整噪声的倾斜时,可在不取决于位流中的边信息的情况下改善总体声音质量。因此,可减小将要用位流传递的数据的量。
图2示出了根据本发明的用于执行音频解码的第一种方法,该方法可由根据图1的音频解码器执行。连同方法特征一起描述了图1中所描绘的音频解码器的技术细节。音频解码器适于读取已编码音频信息的位流。音频解码器包含用于判定当前帧的帧类型的帧类型判定器,该帧类型判定器被配置为在检测到当前帧的帧类型为语音类型时,激活倾斜调整器来调整噪声的倾斜。因此,音频解码器通过应用帧类型判定器来判定当前音频帧的帧类型。若当前帧为ACELP帧,则帧类型判定器激活倾斜调整器。倾斜调整器被配置为使用对当前帧的线性预测系数的一阶分析的结果来获得倾斜信息。更具体而言,倾斜调整器使用公式g=Σ[ak·ak+1]/Σ[ak·ak]作为一阶分析来计算增益g,其中ak为当前帧的LPC系数。图8示出了例示了从LPC系数导出的倾斜的图。图8示出了单词「see」的两个帧。对于具有大量高频的字母「s」,倾斜向上。对于具有大量低频的字母「ee」,倾斜向下。图8所示的频谱倾斜是直接形式滤波器x(n)-g·x(n-1)的传递函数,其中g是如上文所述地定义。因此,倾斜调整器利用在位流中所提供的且用来解码已编码音频信息的LPC系数。因此可省略边信息,从而可减小将要用位流传递的数据的量。另外,倾斜调整器被配置为使用直接形式滤波器x(n)-g·x(n-1)的传递函数的计算来获得倾斜信息。因此,倾斜调整器通过使用先前计算出的增益g计算出直接形式滤波器x(n)-g·x(n-1)的传递函数来计算当前帧中的音频信息的倾斜。在获得倾斜信息之后,倾斜调整器取决于当前帧的倾斜信息来调整将要添加至当前帧的噪声的倾斜。在此之后,将已调整的噪声添加至当前帧。另外,图2中未示出,音频解码器包含用于将当前帧去加重的去加重滤波器,音频解码器适于在噪声插入器将噪声添加至当前帧之后对当前帧应用去加重滤波器。在将该帧去加重(此去加重也充当对所添加噪声的低复杂性、陡峭IIR高通滤波)之后,音频解码器提供已解码音频信息。因此,根据图2的方法允许通过调整将要添加至当前帧的噪声的倾斜以改善背景噪声的质量来增强音频信息的声音质量。
图3示出了根据本发明的音频解码器的第二实施方式。音频解码器同样适于基于已编码音频信息来提供已解码音频信息。音频解码器被配置为使用可基于AMR-WB、G.718及LD-USAC(EVS)的编码器来解码已编码音频信息。已编码音频信息同样包含可分别表示为系数ak的线性预测系数(LPC)。根据第二实施方式的音频解码器包含:噪声水平估计器,其被配置为使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平,以获得噪声水平信息;以及噪声插入器,其被配置为取决于由噪声水平估计器提供的噪声水平信息来将噪声添加至当前帧。噪声插入器被配置为在已编码音频信息的比特率小于每个样本0.5比特的条件下将噪声添加至当前帧。另外,噪声插入器可被配置为在当前帧为语音帧的条件下将噪声添加至当前帧。因此,同样可将噪声添加至当前帧以改善已解码音频信息的总体声音质量,该质量可因编码伪影而受损,尤其就语音信息的背景噪声而言。当考虑到至少一个先前音频帧的噪声水平来调整噪声的噪声水平时,可在不取决于位流中的边信息的情况下改善总体声音质量。因此,可减小将要用位流传递的数据的量。
图4示出了根据本发明的用于执行音频解码的第二种方法,该方法可由根据图3的音频解码器执行。连同方法特征一起描述了图3中所描绘的音频解码器的技术细节。根据图4,音频解码器被配置为读取位流以便判定当前帧的帧类型。另外,音频解码器包含用于判定当前帧的帧类型的帧类型判定器,该帧类型判定器被配置为识别当前帧的帧类型为语音还是一般音频,使得可取决于当前帧的帧类型来执行噪声水平估计。一般而言,音频解码器适于:计算表示当前帧的未频谱整形的激发的第一信息,且计算关于当前帧的频谱缩放的第二信息以计算第一信息和第二信息之商来获得噪声水平信息。例如,若帧类型为ACELP(其是语音帧类型),则音频解码器解码当前帧的激发信号,且从该激发信号的时域表示来针对当前帧f计算其均方根erms。这意味着,音频解码器适于:在当前帧为语音类型的条件下,解码当前帧的激发信号,且从当前帧的时域表示(time domain representation)来计算其均方根erms来作为第一信息,以便获得噪声水平信息。在另一种情况下,若帧类型为MDCT或DTX(其是一般音频帧类型),则音频解码器解码当前帧的激发信号,且从该激发信号的时域表示等效物来针对当前帧f计算其均方根erms。这意味着,音频解码器适于:在当前帧为一般音频类型的条件下,解码当前帧的未整形的MDCT激发,且从当前帧的频谱域表示来计算其均方根erms来作为第一信息,以获得噪声水平信息。WO 2012/110476A1中描述了具体如何完成上述操作。另外,图9示出了例示了如何从MDCT功率谱确定LPC滤波器等效物的图。虽然所描绘的尺度为巴克尺度,但也可从线性尺度获得LPC系数等效物。尤其当从线性尺度获得LPC系数等效物时,计算出的LPC系数等效物非常类似于根据例如以ACELP加以编码的相同帧的时域表示所计算出的LPC系数。
另外,如图4的方法图所例示,根据图3的音频解码器适于:在当前帧为语音类型的条件下,计算当前帧的LPC滤波器的传递函数的峰值水平p来作为第二信息,从而使用线性预测系数来获得噪声水平信息。这意味着,音频解码器根据公式p=∑|ak|来计算当前帧的LPC分析滤波器的传递函数的峰值水平p,其中ak为线性预测系数,其中k=0…15。若帧为一般音频信息,则从当前帧的频谱域表示获得LPC系数等效物,如图9所示以及WO 2012/110476 A1中及上文所描述的。如图4中所看出,在计算峰值水平p之后,通过将erms除以p来计算当前帧f的频谱最小值mf。因此,音频解码器适于:计算表示当前帧的未频谱整形的激发的第一信息,该第一信息在此实施方式中为erms,且计算关于当前帧的频谱缩放的第二信息,该第二信息在此实施方式中为峰值水平p,以便计算第一信息和第二信息之商来获得噪声水平信息。然后在噪声水平估计器中将当前帧的频谱最小值加入队列,音频解码器适于:无论帧类型如何,在噪声水平估计器中将从当前音频帧获得的商加入队列,且噪声水平估计器包含用于从不同音频帧获得的两个或更多商(在此情况下为频谱最小值mf)的噪声水平储存器。更具体而言,噪声水平储存器可储存来自50个帧的商以便估计噪声水平。另外,噪声水平估计器适于基于不同音频帧的两个或更多商(因此,频谱最小值mf的集合)的统计分析来估计噪声水平。在例示出必需的计算步骤的图7中详细描绘用于计算商mf的步骤。在第二实施方式中,噪声水平估计器基于根据[3]已知的最小值统计来操作。若当前帧为语音帧,则根据基于最小值统计的当前帧的所估计噪声水平来缩放噪声,然后将噪声添加至当前帧。最后,将当前帧去加重(图4中未展示)。因此,此第二实施方式亦允许省略用于噪声填充的边信息,从而允许减小将要用位流传递的数据的量。因此,通过在解码阶段期间增强背景噪声而不增加数据速率,可改善音频信息的声音质量。请注意,因为无需时间/频率变换,且因为噪声水平估计器每个帧仅运行一次(而不是对多个子频带(sub-band)运行),所以所描述的噪声填充在能够改善有噪声的语音的低比特率编码的同时表现出极低的复杂性。
图5示出了根据本发明的音频解码器的第三实施方式。
音频解码器适于基于已编码音频信息来提供已解码音频信息。音频解码器被配置为使用基于LD-USAC的编码器来解码已编码音频信息。已编码音频信息包含可分别表示为系数ak的线性预测系数(LPC)。音频解码器包含:倾斜调整器,其被配置为使用当前帧的线性预测系数来调整噪声的倾斜以获得倾斜信息;以及噪声水平估计器,其被配置为使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平,以获得噪声水平信息。另外,音频解码器包含噪声插入器,其被配置为取决于通过倾斜计算器获得的倾斜信息且取决于通过噪声水平估计器提供的噪声水平信息来将噪声添加至当前帧。因此,取决于通过倾斜计算器获得的倾斜信息且取决于通过噪声水平估计器提供的噪声水平信息,可将噪声添加至当前帧以便改善解码后的音频信息的总体声音质量,该质量可因编码伪影而受损,尤其就语音信息的背景噪声而言。在此实施方式中,音频解码器所包含的随机噪声产生器(未展示)产生频谱白噪声,随后根据噪声水平信息来缩放该噪声并且使用g导出的倾斜对其加以整形,如先前所描述。
图6示出了根据本发明的用于执行音频解码的第三种方法,该方法可由根据图5的音频解码器执行。读取位流,且被称为帧类型检测器的帧类型判定器判定当前帧为语音帧(ACELP)还是一般音频帧(TCX/MDCT)。无论帧类型如何,解码帧报头,且解码感知域(perceptual domain)中的频谱整平后的(spectrally flattened)未整形的激发信号。在语音帧的情况下,此激发信号是时域激发,如先前所描述。若帧为一般音频帧,则解码MDCT域残余(频谱域)。分别使用时域表示及频谱域表示来估计噪声水平,如图7中所例示以及先前所描述的,从而使用也用来解码位流的LPC系数而不是使用任何边信息或额外的LPC系数。在当前帧为语音帧的条件下,将两种类型的帧的噪声信息加入队列,以调整将要添加至当前帧的噪声的倾斜和噪声水平。在将噪声添加至ACELP语音帧(应用ACELP噪声填充)之后,通过IIR将该ACELP语音帧去加重,且在表示已解码音频信息的时间信号中组合语音帧与一般音频帧。图6中通过小插图I、II及III描绘了去加重对所添加噪声的频谱的陡峭高通效应。
换言之,根据图6,在LD-USAC(EVS)解码器中实施上文所描述的ACELP噪声填充系统,该解码器是xHE-AAC[6]的低延迟变体,其可每个帧地在ACELP(语音)与MDCT(音乐/噪声)编码之间切换。将根据图6的插入过程概述如下:
1.读取位流,且判定当前帧为ACELP帧还是MDCT帧或DTX帧。无论帧类型如何,解码频谱整平后的激发信号(在感知域中)且将其用来更新噪声水平估计,如下文所详细描述那样。然后,直至为最后一个步骤的去加重,信号得以完全重新建构。
2.若帧经ACELP编码,则通过LPC过滤器系数的一阶LPC分析来计算用于噪声插入的倾斜(总体频谱形状)。该倾斜是从16个LPC系数ak的增益g导出,增益g是由g=Σ[ak·ak+1]/Σ[ak·ak]给出。
3.若帧经ACELP编码,则使用噪声整形水平及倾斜来执行对已解码帧的噪声添加:随机噪声产生器产生频谱白噪声信号,然后缩放该信号且使用g导出的倾斜对其加以整形。
4.紧接在最后的去加重填充步骤之前,将用于ACELP帧的已整形且已调平(leveled)的噪声信号添加至已解码信号。因为去加重是提升低频的一阶IIR,所以这允许对所添加噪声的低复杂性、陡峭IIR高通滤波,如同图6中一样,从而避免在低频处的可听见噪声伪影。
步骤1中的噪声水平估计是通过以下操作来执行:计算当前帧的激发信号的均方根erms(或在MDCT域激发的情况下为时域等效物,其意味着在帧为ACELP帧的情况下,将针对该帧来计算的erms),以及随后将erms除以LPC分析滤波器的传递函数的峰值水平p。此操作得出帧f的频谱最小值的水平mf,如同图7中一样。最后在基于例如最小值统计[3]来操作的噪声水平估计器中将mf加入队列。请注意,因为不需要时间/频率变换,且因为该水平估计器每个帧仅运行一次(而不是对多个子频带运行),所以所描述的CELP噪声填充系统在能够改善有噪声的语音的低比特率编码的同时表现出极低的复杂性。
虽然已就音频解码器为背景来描述了一些方面,但显然这些方面也表示对应的方法的描述,其中方块或设备对应于方法步骤或方法步骤的特征。类似地,就方法步骤为背景所描述的方面也表示对应的音频解码器的对应的方块或项目或特征的描述。该等方法步骤中的一些或全部可通过(或使用)例如为微处理器、可编程计算机或电子电路的硬件装置来执行。在一些实施方式中,最重要的方法步骤中的某一个或多个可通过这样的装置来执行。
本发明的已编码音频信号可储存于数字储存介质上或可在传输介质上加以传输,传输介质为诸如无线传输介质或有线传输介质,诸如因特网。
取决于特定的实行方案要求,本发明的实施方式可在硬件或软件中实行。可使用储存有电子可读控制信号的数字储存介质来执行实行方案,数字储存介质例如软盘、DVD、蓝光盘、CD、ROM、PROM、EPROM、EEPROM或闪存,该等电子可读控制信号与可编程计算机系统合作(或能够与可编程计算机系统合作)以使得相应的方法得以执行。因此,数字储存介质可为计算机可读的。
根据本发明的一些实施方式包含一种具有电子可读控制信号的数据载体,该等电子可读控制信号能够与可编程计算机系统合作以使得本文中所描述的方法之一得以执行。
一般而言,本发明的实施方式可实行为一种具有程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时,该程序代码可操作来执行该等方法中的一种。该程序代码可例如储存于机器可读载体上。
其他实施方式包含用于执行本文中所描述的方法之一的计算机程序,其储存于机器可读载体上。
换言之,本发明的方法的一实施方式因此是一种具有程序代码的计算机程序,当该计算机程序在计算机上运行时,该程序代码用于执行本文中所描述的方法之一。
本发明方法的另一实施方式因此是一种数据载体(或数字储存介质或计算机可读媒体),其包含记录于其上的用于执行本文中所描述的方法之一的计算机程序。数据载体、数字储存介质或记录媒体通常为有形的和/或非暂时性的。
本发明方法的另一实施方式因此是一种数据流或一种信号序列,其表示用于执行本文中所描述的方法之一的计算机程序。该数据流或该信号序列可例如被配置为经由数据通讯连接(例如经由因特网)加以传递。
另一实施方式包含一种处理构件,例如计算机或可编程逻辑设备,其被配置为执行或适于执行本文中所描述的方法之一。
另一实施方式包含一种计算机,其上安装有用于执行本文中所描述的方法之一的计算机程序。
根据本发明的另一实施方式包含一种装置或一种系统,其被配置为将用于执行本文中所描述的方法之一的计算机程序(例如,电子地或光学地)传递至接收器。该接收器可例如为计算机、移动设备、内存设备或类似物。该装置或系统可例如包含用于将计算机程序传递至接收器的文件服务器。
在一些实施方式中,可编程逻辑设备(例如场可编程门阵列)可用来执行本文中所描述的方法的功能中的一些或全部。在一些实施方式中,场可编程门阵列可与微处理器合作以便执行本文中所描述的方法之一。一般而言,较佳通过任何硬件装置来执行该等方法。
可使用硬件装置,或使用计算机,或使用硬件装置与计算机之组合来实行本文中所描述之装置。
可使用硬件装置,或使用计算机,或使用硬件装置与计算机之组合来实行本文中所描述的方法。
1.一种音频解码器,用于基于包括线性预测系数(LPC)的已编码音频信息来提供已解码音频信息,
所述音频解码器包含:
倾斜调整器,其被配置为使用当前帧的线性预测系数来调整噪声的倾斜以获得倾斜信息;以及
噪声插入器,其被配置为取决于由所述倾斜计算器获得的所述倾斜信息来将所述噪声添加至所述当前帧。
2.根据实施方式1所述的音频解码器,其中,所述音频解码器包括用于判定所述当前帧的帧类型的帧类型判定器,所述帧类型判定器被配置为在所述当前帧的所述帧类型被检测为语音类型时,激活所述倾斜调整器来调整所述噪声的所述倾斜。
3.根据实施方式1或2所述的音频解码器,其中,所述倾斜调整器被配置为使用所述当前帧的所述线性预测系数的一阶分析的结果来获得所述倾斜信息。
4.根据实施方式3所述的音频解码器,其中,所述倾斜调整器被配置为使用所述当前帧的所述线性预测系数的增益g的计算作为所述一阶分析来获得所述倾斜信息。
5.根据实施方式4所述的音频解码器,其中,所述倾斜调整器被配置为使用用于所述当前帧的直接形式滤波器x(n)-g·x(n-1)的传递函数的计算来获得所述倾斜信息。
6.根据前述实施方式中任一项所述的音频解码器,其中,所述噪声插入器被配置为在将所述噪声添加至所述当前帧之前,将所述当前帧的所述倾斜信息应用于所述噪声以便调整所述噪声的所述倾斜。
7.根据前述实施方式中任一项所述的音频解码器,其中,所述音频解码器还包含:
噪声水平估计器,其被配置为使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平以获得噪声水平信息;以及
噪声插入器,其被配置为取决于由所述噪声水平估计器提供的所述噪声水平信息来将噪声添加至所述当前帧。
8.一种音频解码器,用于基于包括线性预测系数(LPC)的已编码音频信息来提供已解码音频信息,
所述音频解码器包括:
噪声水平估计器,其被配置为使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平以获得噪声水平信息;以及
噪声插入器,其被配置为取决于由所述噪声水平估计器提供的所述噪声水平信息来将噪声添加至所述当前帧。
9.根据实施方式7或8所述的音频解码器,其中,所述音频解码器包括用于判定所述当前帧的帧类型的帧类型判定器,所述帧类型判定器被配置为识别所述当前帧的所述帧类型为语音还是一般音频,使得能取决于所述当前帧的所述帧类型来执行所述噪声水平估计。
10.根据实施方式7至9中任一项所述的音频解码器,其中,所述音频解码器适于:计算表示所述当前帧的未频谱整形的激发的第一信息,计算关于所述当前帧的频谱缩放的第二信息,以及计算所述第一信息与所述第二信息的商来获得所述噪声水平信息。
11.根据实施方式10所述的音频解码器,其中,所述音频解码器适于:在所述当前帧为语音类型的条件下,解码所述当前帧的激发信号,且从所述当前帧的时域表示来计算其均方根erms来作为所述第一信息,以获得所述噪声水平信息。
12.根据实施方式10或11所述的音频解码器,其中,所述音频解码器适于:在所述当前帧为语音类型的条件下,计算所述当前帧的LPC滤波器的传递函数的峰值水平p来作为第二信息,从而使用线性预测系数来获得所述噪声水平信息。
13.根据实施方式11和12所述的音频解码器,其中,所述音频解码器适于:在所述当前帧为语音类型的条件下,通过计算所述均方根erms与所述峰值水平p的所述商来计算所述当前音频帧的频谱最小值mf,以获得所述噪声水平信息。
14.根据实施方式10至13所述的音频解码器,其中,所述音频解码器适于:如果所述当前帧为一般音频类型,则解码所述当前帧的未整形的MDCT激发,以及从所述当前帧的频谱域表示来计算其均方根erms来作为所述第一信息,以获得所述噪声水平信息。
15.根据实施方式10至14中任一项所述的音频解码器,其中,所述音频解码器适于:无论帧类型如何,在所述噪声水平估计器中将从所述当前音频帧获得的所述商加入队列,所述噪声水平估计器包括用于从不同音频帧获得的两个或更多的商的噪声水平储存器。
16.根据实施方式6或11所述的音频解码器,其中,所述噪声水平估计器适于:基于对不同音频帧的两个或更多的商的统计分析来估计所述噪声水平。
17.根据前述实施方式中任一项所述的音频解码器,其中,所述音频解码器包括解码器核心,所述解码器核心被配置为使用所述当前帧的线性预测系数来解码所述当前帧的音频信息以获得已解码的核心编码器输出信号,并且其中,所述噪声插入器取决于在解码所述当前帧的所述音频信息时所使用的和/或在解码一个或多个先前帧的所述音频信息时所使用的线性预测系数来添加所述噪声。
18.根据前述实施方式中任一项所述的音频解码器,其中,所述音频解码器包括去加重滤波器以将所述当前帧去加重,所述音频解码器适于在所述噪声插入器将所述噪声添加至所述当前帧之后对所述当前帧应用所述去加重滤波器。
19.根据前述实施方式中任一项所述的音频解码器,其中,所述音频解码器包括噪声产生器,所述噪声产生器适于产生将由所述噪声插入器添加至所述当前帧的所述噪声。
20.根据前述实施方式中任一项所述的音频解码器,其中,所述噪声产生器被配置为产生随机白噪声。
21.根据前述实施方式中任一项所述的音频解码器,其中,所述噪声插入器被配置为在所述已编码音频信息的比特率小于每个样本1比特的条件下将所述噪声添加至所述当前帧。
22.根据前述实施方式中任一项所述的音频解码器,其中,所述音频解码器被配置为使用基于编码器AMR-WB、G.718或LD-USAC(EVS)中的一个或多个的编码器来解码所述已编码音频信息。
23.一种用于基于包括线性预测系数(LPC)的已编码音频信息来提供已解码音频信息的方法,
所述方法包括:
使用当前帧的线性预测系数来调整噪声的倾斜以获得倾斜信息;以及
取决于所获得的倾斜信息来将所述噪声添加至所述当前帧。
24.一种用于执行根据实施方式23所述的方法的计算机程序,其中,所述计算机程序在计算机上运行。
25.一种音频信号或储存有此音频信号的储存介质,所述音频信号已经用根据实施方式23所述的方法进行了处理。
26.一种用于基于包括线性预测系数(LPC)的已编码音频信息来提供已解码音频信息的方法,
所述方法包括:
使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平以获得噪声水平信息;以及
取决于由所述噪声水平估计所提供的所述噪声水平信息来将噪声添加至所述当前帧。
27.一种用于执行根据实施方式26所述的方法的计算机程序,其中,所述计算机程序在计算机上运行。
28.一种音频信号或储存有此音频信号的储存介质,所述音频信号已经用根据实施方式26所述的方法进行了处理。
上述实施方式仅例示出本发明的原理。应理解,本文中所描述的配置及细节的修改及变化对本领域技术人员而言将显而易见。因此,将仅受申请专利实施方式书的范围的限制,而不受本文中对实施方式的描述及说明所呈现的特定细节限制。
非专利文献引用清单
[1]B.Bessette et al.,“The Adaptive Multi-rate Wideband Speech Codec(AMR-WB),”IEEE Trans.On Speech and Audio Processing,Vol.10,No.8,Nov.2002。
[2]R.C.Hendriks,R.Heusdens and J.Jensen,“MMSE based noise PSDtracking with low complexity,”in IEEE Int.Conf.Acoust.,Speech,SignalProcessing,pp.4266–4269,March 2010。
[3]R.Martin,“Noise Power Spectral Density Estimation Based on OptimalSmoothing and Minimum Statistics,”IEEE Trans.On Speech and Audio Processing,Vol.9,No.5,Jul.2001。
[4]M.Jelinek and R.Salami,“Wideband Speech Coding Advances in VMR-WBStandard,”IEEE Trans.On Audio,Speech,and Language Processing,Vol.15,No.4,May2007。
[5]J.et al.,“AMR-WB+:A New Audio Coding Standard for 3rdGeneration Mobile Audio Services,”in Proc.ICASSP 2005,Philadelphia,USA,Mar.2005。
[6]M.Neuendorf et al.,“MPEG Unified Speech and Audio Coding–The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types,”inProc.132nd AES Convention,Budapest,Hungary,Apr.2012.Also appears in theJournal of the AES,2013。
[7]T.Vaillancourt et al.,“ITU-T EV-VBR:A Robust 8–32 kbit/s ScalableCoder for Error Prone Telecommunications Channels,”in Proc.EUSIPCO 2008,Lausanne,Switzerland,Aug.2008。
Claims (10)
1.一种音频解码器,用于基于包括线性预测系数的已编码音频信息来提供已解码音频信息,
所述音频解码器包含:
倾斜调整器,其被配置为使用当前帧的线性预测系数来调整噪声的倾斜以获得倾斜信息;以及
噪声插入器,其被配置为取决于由倾斜计算器获得的所述倾斜信息来将所述噪声添加至所述当前帧。
2.根据权利要求1所述的音频解码器,其中,所述音频解码器包括用于判定所述当前帧的帧类型的帧类型判定器,所述帧类型判定器被配置为在所述当前帧的所述帧类型被检测为语音类型时,激活所述倾斜调整器来调整所述噪声的所述倾斜。
3.根据权利要求1或2所述的音频解码器,其中,所述倾斜调整器被配置为使用所述当前帧的所述线性预测系数的一阶分析的结果来获得所述倾斜信息。
4.根据权利要求3所述的音频解码器,其中,所述倾斜调整器被配置为使用所述当前帧的所述线性预测系数的增益g的计算作为所述一阶分析来获得所述倾斜信息。
5.根据权利要求4所述的音频解码器,其中,所述倾斜调整器被配置为使用用于所述当前帧的直接形式滤波器x(n)-g·x(n-1)的传递函数的计算来获得所述倾斜信息。
6.根据前述权利要求中任一项所述的音频解码器,其中,所述噪声插入器被配置为在将所述噪声添加至所述当前帧之前,将所述当前帧的所述倾斜信息应用于所述噪声以便调整所述噪声的所述倾斜。
7.根据前述权利要求中任一项所述的音频解码器,其中,所述音频解码器还包含:
噪声水平估计器,其被配置为使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平以获得噪声水平信息;以及
噪声插入器,其被配置为取决于由所述噪声水平估计器提供的所述噪声水平信息来将噪声添加至所述当前帧。
8.一种音频解码器,用于基于包括线性预测系数的已编码音频信息来提供已解码音频信息,
所述音频解码器包括:
噪声水平估计器,其被配置为使用至少一个先前帧的线性预测系数来估计当前帧的噪声水平以获得噪声水平信息;以及
噪声插入器,其被配置为取决于由所述噪声水平估计器提供的所述噪声水平信息来将噪声添加至所述当前帧。
9.根据权利要求7或8所述的音频解码器,其中,所述音频解码器包括用于判定所述当前帧的帧类型的帧类型判定器,所述帧类型判定器被配置为识别所述当前帧的所述帧类型为语音还是一般音频,使得能取决于所述当前帧的所述帧类型来执行所述噪声水平估计。
10.根据权利要求7至9中任一项所述的音频解码器,其中,所述音频解码器适于:计算表示所述当前帧的未频谱整形的激发的第一信息,计算关于所述当前帧的频谱缩放的第二信息,以及计算所述第一信息与所述第二信息的商来获得所述噪声水平信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910950848.3A CN110827841B (zh) | 2013-01-29 | 2014-01-28 | 音频解码器 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361758189P | 2013-01-29 | 2013-01-29 | |
US61/758,189 | 2013-01-29 | ||
CN201480019087.5A CN105264596B (zh) | 2013-01-29 | 2014-01-28 | 用于码激励线性预测类编码器的无边信息的噪声填充 |
PCT/EP2014/051649 WO2014118192A2 (en) | 2013-01-29 | 2014-01-28 | Noise filling without side information for celp-like coders |
CN201910950848.3A CN110827841B (zh) | 2013-01-29 | 2014-01-28 | 音频解码器 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480019087.5A Division CN105264596B (zh) | 2013-01-29 | 2014-01-28 | 用于码激励线性预测类编码器的无边信息的噪声填充 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110827841A true CN110827841A (zh) | 2020-02-21 |
CN110827841B CN110827841B (zh) | 2023-11-28 |
Family
ID=50023580
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910950848.3A Active CN110827841B (zh) | 2013-01-29 | 2014-01-28 | 音频解码器 |
CN201480019087.5A Active CN105264596B (zh) | 2013-01-29 | 2014-01-28 | 用于码激励线性预测类编码器的无边信息的噪声填充 |
CN202311306515.XA Pending CN117392990A (zh) | 2013-01-29 | 2014-01-28 | 用于码激励线性预测类编码器的无边信息的噪声填充 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480019087.5A Active CN105264596B (zh) | 2013-01-29 | 2014-01-28 | 用于码激励线性预测类编码器的无边信息的噪声填充 |
CN202311306515.XA Pending CN117392990A (zh) | 2013-01-29 | 2014-01-28 | 用于码激励线性预测类编码器的无边信息的噪声填充 |
Country Status (21)
Country | Link |
---|---|
US (3) | US10269365B2 (zh) |
EP (3) | EP3121813B1 (zh) |
JP (1) | JP6181773B2 (zh) |
KR (1) | KR101794149B1 (zh) |
CN (3) | CN110827841B (zh) |
AR (1) | AR094677A1 (zh) |
AU (1) | AU2014211486B2 (zh) |
BR (1) | BR112015018020B1 (zh) |
CA (2) | CA2960854C (zh) |
ES (2) | ES2799773T3 (zh) |
HK (1) | HK1218181A1 (zh) |
MX (1) | MX347080B (zh) |
MY (1) | MY180912A (zh) |
PL (2) | PL3121813T3 (zh) |
PT (2) | PT3121813T (zh) |
RU (1) | RU2648953C2 (zh) |
SG (2) | SG10201806073WA (zh) |
TR (1) | TR201908919T4 (zh) |
TW (1) | TWI536368B (zh) |
WO (1) | WO2014118192A2 (zh) |
ZA (1) | ZA201506320B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
PT2951819T (pt) * | 2013-01-29 | 2017-06-06 | Fraunhofer Ges Forschung | Aparelho, método e meio computacional para sintetizar um sinal de áudio |
RU2648953C2 (ru) * | 2013-01-29 | 2018-03-28 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Наполнение шумом без побочной информации для celp-подобных кодеров |
RU2675777C2 (ru) | 2013-06-21 | 2018-12-24 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ улучшенного плавного изменения сигнала в различных областях во время маскирования ошибок |
US10008214B2 (en) * | 2015-09-11 | 2018-06-26 | Electronics And Telecommunications Research Institute | USAC audio signal encoding/decoding apparatus and method for digital radio services |
JP6611042B2 (ja) * | 2015-12-02 | 2019-11-27 | パナソニックIpマネジメント株式会社 | 音声信号復号装置及び音声信号復号方法 |
US10582754B2 (en) | 2017-03-08 | 2020-03-10 | Toly Management Ltd. | Cosmetic container |
EP3701523B1 (en) * | 2017-10-27 | 2021-10-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise attenuation at a decoder |
BR112021012753A2 (pt) * | 2019-01-13 | 2021-09-08 | Huawei Technologies Co., Ltd. | Método implementado por computador para codificação de áudio, dispositivo eletrônico e meio legível por computador não transitório |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1484824A (zh) * | 2000-10-18 | 2004-03-24 | ��˹��ŵ�� | 用于估算语音调制解调器中的模拟高频段信号的方法和系统 |
EP2077551A1 (en) * | 2008-01-04 | 2009-07-08 | Dolby Sweden AB | Audio encoder and decoder |
EP2311034A1 (en) * | 2008-07-11 | 2011-04-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding frames of sampled audio signals |
WO2011048094A1 (en) * | 2009-10-20 | 2011-04-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-mode audio codec and celp coding adapted therefore |
CN102089758A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 用于对采样音频信号的帧进行编码和解码的音频编码器和解码器 |
US20110178795A1 (en) * | 2008-07-11 | 2011-07-21 | Stefan Bayer | Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs |
CN102144259A (zh) * | 2008-07-11 | 2011-08-03 | 弗劳恩霍夫应用研究促进协会 | 用于产生带宽扩展输出数据的装置和方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2237296C2 (ru) * | 1998-11-23 | 2004-09-27 | Телефонактиеболагет Лм Эрикссон (Пабл) | Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения |
JP3490324B2 (ja) * | 1999-02-15 | 2004-01-26 | 日本電信電話株式会社 | 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体 |
CA2327041A1 (en) * | 2000-11-22 | 2002-05-22 | Voiceage Corporation | A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals |
US6941263B2 (en) * | 2001-06-29 | 2005-09-06 | Microsoft Corporation | Frequency domain postfiltering for quality enhancement of coded speech |
US8725499B2 (en) * | 2006-07-31 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, and apparatus for signal change detection |
WO2008032828A1 (fr) * | 2006-09-15 | 2008-03-20 | Panasonic Corporation | Dispositif de codage audio et procédé de codage audio |
EP2116998B1 (en) * | 2007-03-02 | 2018-08-15 | III Holdings 12, LLC | Post-filter, decoding device, and post-filter processing method |
EP2259253B1 (en) | 2008-03-03 | 2017-11-15 | LG Electronics Inc. | Method and apparatus for processing audio signal |
MX2011000375A (es) | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
ES2372014T3 (es) | 2008-07-11 | 2012-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para calcular datos de ampliación de ancho de banda utilizando un encuadre controlado por pendiente espectral. |
TWI413109B (zh) | 2008-10-01 | 2013-10-21 | Dolby Lab Licensing Corp | 用於上混系統之解相關器 |
MX2011003824A (es) | 2008-10-08 | 2011-05-02 | Fraunhofer Ges Forschung | Esquema de codificacion/decodificacion de audio conmutado de resolucion multiple. |
KR101411759B1 (ko) * | 2009-10-20 | 2014-06-25 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 신호 인코더, 오디오 신호 디코더, 앨리어싱-소거를 이용하여 오디오 신호를 인코딩 또는 디코딩하는 방법 |
CN102081927B (zh) * | 2009-11-27 | 2012-07-18 | 中兴通讯股份有限公司 | 一种可分层音频编码、解码方法及系统 |
JP5316896B2 (ja) * | 2010-03-17 | 2013-10-16 | ソニー株式会社 | 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム |
DE102010015163A1 (de) | 2010-04-16 | 2011-10-20 | Liebherr-Hydraulikbagger Gmbh | Baumaschine oder Umschlaggerät |
US9208792B2 (en) * | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
PL2676266T3 (pl) | 2011-02-14 | 2015-08-31 | Fraunhofer Ges Forschung | Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej |
US9037456B2 (en) * | 2011-07-26 | 2015-05-19 | Google Technology Holdings LLC | Method and apparatus for audio coding and decoding |
RU2648953C2 (ru) * | 2013-01-29 | 2018-03-28 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Наполнение шумом без побочной информации для celp-подобных кодеров |
-
2014
- 2014-01-28 RU RU2015136787A patent/RU2648953C2/ru active
- 2014-01-28 PL PL16176505T patent/PL3121813T3/pl unknown
- 2014-01-28 WO PCT/EP2014/051649 patent/WO2014118192A2/en active Application Filing
- 2014-01-28 EP EP16176505.2A patent/EP3121813B1/en active Active
- 2014-01-28 PT PT161765052T patent/PT3121813T/pt unknown
- 2014-01-28 ES ES16176505T patent/ES2799773T3/es active Active
- 2014-01-28 KR KR1020157022400A patent/KR101794149B1/ko active IP Right Grant
- 2014-01-28 AU AU2014211486A patent/AU2014211486B2/en active Active
- 2014-01-28 TR TR2019/08919T patent/TR201908919T4/tr unknown
- 2014-01-28 CA CA2960854A patent/CA2960854C/en active Active
- 2014-01-28 SG SG10201806073WA patent/SG10201806073WA/en unknown
- 2014-01-28 CA CA2899542A patent/CA2899542C/en active Active
- 2014-01-28 PT PT14701567T patent/PT2951816T/pt unknown
- 2014-01-28 CN CN201910950848.3A patent/CN110827841B/zh active Active
- 2014-01-28 SG SG11201505913WA patent/SG11201505913WA/en unknown
- 2014-01-28 EP EP20155722.0A patent/EP3683793A1/en active Pending
- 2014-01-28 EP EP14701567.1A patent/EP2951816B1/en active Active
- 2014-01-28 CN CN201480019087.5A patent/CN105264596B/zh active Active
- 2014-01-28 PL PL14701567T patent/PL2951816T3/pl unknown
- 2014-01-28 MX MX2015009750A patent/MX347080B/es active IP Right Grant
- 2014-01-28 CN CN202311306515.XA patent/CN117392990A/zh active Pending
- 2014-01-28 BR BR112015018020-5A patent/BR112015018020B1/pt active IP Right Grant
- 2014-01-28 ES ES14701567T patent/ES2732560T3/es active Active
- 2014-01-28 MY MYPI2015001893A patent/MY180912A/en unknown
- 2014-01-28 JP JP2015554202A patent/JP6181773B2/ja active Active
- 2014-01-29 AR ARP140100293A patent/AR094677A1/es active IP Right Grant
- 2014-01-29 TW TW103103527A patent/TWI536368B/zh active
-
2015
- 2015-07-28 US US14/811,778 patent/US10269365B2/en active Active
- 2015-08-28 ZA ZA2015/06320A patent/ZA201506320B/en unknown
-
2016
- 2016-05-31 HK HK16106152.3A patent/HK1218181A1/zh unknown
-
2019
- 2019-02-26 US US16/286,445 patent/US10984810B2/en active Active
-
2020
- 2020-11-24 US US17/103,609 patent/US12100409B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1484824A (zh) * | 2000-10-18 | 2004-03-24 | ��˹��ŵ�� | 用于估算语音调制解调器中的模拟高频段信号的方法和系统 |
EP2077551A1 (en) * | 2008-01-04 | 2009-07-08 | Dolby Sweden AB | Audio encoder and decoder |
CN101925950A (zh) * | 2008-01-04 | 2010-12-22 | 杜比国际公司 | 音频编码器和解码器 |
EP2311034A1 (en) * | 2008-07-11 | 2011-04-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding frames of sampled audio signals |
CN102089758A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 用于对采样音频信号的帧进行编码和解码的音频编码器和解码器 |
CN102105930A (zh) * | 2008-07-11 | 2011-06-22 | 弗朗霍夫应用科学研究促进协会 | 用于编码采样音频信号的帧的音频编码器和解码器 |
US20110178795A1 (en) * | 2008-07-11 | 2011-07-21 | Stefan Bayer | Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs |
CN102144259A (zh) * | 2008-07-11 | 2011-08-03 | 弗劳恩霍夫应用研究促进协会 | 用于产生带宽扩展输出数据的装置和方法 |
CN102150201A (zh) * | 2008-07-11 | 2011-08-10 | 弗劳恩霍夫应用研究促进协会 | 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码 |
WO2011048094A1 (en) * | 2009-10-20 | 2011-04-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-mode audio codec and celp coding adapted therefore |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110827841B (zh) | 音频解码器 | |
CN103477386B (zh) | 音频编解码器中的噪声产生 | |
JP6086999B2 (ja) | ハーモニクス低減を使用して第1符号化アルゴリズムと第2符号化アルゴリズムの一方を選択する装置及び方法 | |
JP2014505907A (ja) | 不活性相の間のノイズ合成を用いるオーディオコーデック | |
KR101701081B1 (ko) | 제 1 오디오 인코딩 알고리즘 및 제 2 오디오 인코딩 알고리즘 중 하나를 선택하기 위한 장치 및 방법 | |
US9224402B2 (en) | Wideband speech parameterization for high quality synthesis, transformation and quantization | |
CN107710324B (zh) | 音频编码器和用于对音频信号进行编码的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |