CN103380455B - 对音频信号的高效编码/解码 - Google Patents
对音频信号的高效编码/解码 Download PDFInfo
- Publication number
- CN103380455B CN103380455B CN201180067275.1A CN201180067275A CN103380455B CN 103380455 B CN103380455 B CN 103380455B CN 201180067275 A CN201180067275 A CN 201180067275A CN 103380455 B CN103380455 B CN 103380455B
- Authority
- CN
- China
- Prior art keywords
- frequency band
- energy
- high frequency
- band
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 136
- 238000013139 quantization Methods 0.000 claims abstract description 122
- 238000000034 method Methods 0.000 claims abstract description 78
- 238000001228 spectrum Methods 0.000 claims abstract description 50
- 238000005259 measurement Methods 0.000 claims description 84
- 230000008569 process Effects 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 11
- 230000007704 transition Effects 0.000 claims description 5
- 238000007142 ring opening reaction Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 abstract description 5
- 230000015572 biosynthetic process Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 24
- 238000006243 chemical reaction Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
- G10L2019/0008—Algebraic codebooks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种用于对音频信号编码的方法包括:执行(214)对音频信号的变换。针对每个第一子频带来选择(216)能量偏移。获得(212)综合信号的编码的低频带内的第一参考频带的能量测量。通过以下方式对第一高频带编码(220):通过使用所选择的能量偏移来提供量化索引,该量化索引表示第一高频带的第一子频带中的频谱包络相对于第一参考频带的能量测量的相应标量量化。编码器装置包括用于执行该方法的各步骤的装置。还描述了对应的解码器方法和装置。
Description
技术领域
本发明总体上涉及对音频信号的编码/解码,且具体地涉及用于高效的低比特率音频编码/解码的方法和设备。
背景技术
在要发送和/或存储音频信号时,如今的标准方式是根据不同的方案将音频信号编码为数字表示。为了节约存储器和/或发送能力,一般希望降低允许以足够的质量来重构音频信号所需的数字表示的大小。编码信号的大小与信号质量之间的平衡取决于实际的应用。
存在着各种不同的编码原理。基于变换的音频编码器通过量化变换系数来压缩音频信号。这种编码因此在变换后的频域中工作。基于变换的音频编码器对于一般音频的中比特率和高比特率编码而言是高效的,然而对于语音的低比特率编码而言不是非常高效。
在低比特率语音编码处,码激励线性预测(CELP)编解码(例如,代数码激励线性预测(ACELP)编解码)非常高效。CELP语音合成模型使用对关注的语音信号的分析合成(analysis-by-synthesis)编码。ACELP编解码可以在8~12kbit/s处实现高质量。然而,对具有高频分量的信号特征的建模通常没那么好。
用于降低所需比特率的一种方式是使用带宽扩展(BWE)。BWE背后的主要理念是不发送音频信号的一部分,而在解码器处根据接收到的信号分量对其进行重构(估计)。对以低采样率采样的信号的CELP编码和BWE的组合是所讨论的一种解决方案。
另一方面,BWE在变换域中执行得更加高效,例如,在改进型离散余弦变换(MDCT)域中。其原因在于:使用频域表示对BWE区域中在感知上重要的信号特征更高效地进行了建模。
因此,现有技术编解码系统的问题是找到对于所有类型的音频信号都高效的BWE编码方案。
发明内容
本发明的总体目标是提供允许针对大多数类型的音频信号进行高效的低比特率编码/解码的方法以及编码器和解码器装置。
通过根据所附独立权利要求所述的方法和装置来实现该目标。在从属权利要求中定义了优选实施例。
总而言之,在第一方面中,用于对音频信号编码的方法包括获得音频信号的编码的低频带综合信号。获得低频带综合信号中的低频带内的第一参考频带的第一能量测量。执行将音频信号变换到变换域中。针对变换域中所述音频信号的第一高频带的多个第一子频带中的每个第一子频带,从具有至少两个预定能量偏移的集合中选择能量偏移。第一高频带位于比低频带高的频率处。对第一高频带编码。该编码包括:提供第一量化索引集合,所述第一量化索引集合表示第一高频带的多个第一子频带中的频谱包络的相对于第一能量测量的相应标量量化。第一量化索引集合是利用相应选择的能量偏移给出的。对第一高频带编码还包括:提供定义了所使用的能量偏移的参数。获得低频带综合信号中的低频带内的第二参考频带的第二能量测量。在变换域中对音频信号的第二高频带编码。第二高频带位于低频带与第一高频带之间的频率处。对第二高频带的编码包括:提供第二量化索引集合,该第二量化索引集合表示第二高频带的多个第二子频带中的频谱包络的相对于第二能量测量的对应标量量化。
在第二方面中,用于对音频信号解码的方法包括接收音频信号的编码。编码表示音频信号的第一高频带的多个第一子频带中的频谱包络的第一量化索引集合。第一量化索引集合表示相对于第一能量测量的能量。获得音频信号的编码的低频带综合信号。获得第一能量测量,作为低频带综合信号中的低频带内的第一参考频带的能量测量。第一高频带位于比低频带高的频率处。该编码还表示定义了所使用的能量偏移的参数。针对每个第一子频带,从具有至少两个预定能量偏移的集合选择能量偏移。该选择基于定义了所使用的能量偏移的参数。通过以下方式在变换域中重构信号:针对第一高频带的每个第一子频带,通过使用这样选择的能量偏移和第一能量测量,根据与第一子频带相对应的第一量化索引集合来确定第一高频带中的频谱包络。至少基于变换域中重构的信号,来执行到音频信号的逆变换。编码还表示第二高频带的多个第二子频带中的频谱包络的第二量化索引集合。第二高频带位于低频带与第一高频带之间的频率处。第二量化索引集合表示相对于第二能量测量的能量。获得第二能量测量,作为低频带综合信号中的低频带内的第二参考频带的能量测量。在变换域中重构信号还包括:针对第二高频带的每个第二子频带,通过使用第二能量测量,根据与第二子频带相对应的第二量化索引集合来确定第二高频带中的频谱包络。
在第三方面中,用于对音频信号编码的编码器装置包括变换编码器、选择器、综合器、能量参考块和编码器块。变换编码器被配置用于:执行将音频信号变换到变换域中。选择器被配置用于:针对变换域中音频信号的第一高频带的多个第一子频带中的每个第一子频带,从具有至少两个预定能量偏移的集合中选择能量偏移。综合器被配置用于:获得音频信号的编码的低频带综合信号。能量参考块连接到综合器,并且被配置用于:获得低频带综合信号中的低频带内的第一参考频带的第一能量测量。第一高频带位于比低频带高的频率处。编码器块连接到选择器和能量参考块。编码块被配置用于:对第一高频带编码。对第一高频带的编码包括:提供第一量化索引集合,该第一量化索引集合表示第一高频带的多个第一子频带中的频谱包络的相对于第一能量测量的对应标量量化。第一量化索引集合是利用相应选择的能量偏移给出的。对第一高频带编码还包括:提供定义了所使用的能量偏移的参数。能量参考块还被配置用于:获得低频带综合信号中的低频带内的第二参考频带的第二能量测量。编码器块还被配置用于:在变换域中对音频信号的第二高频带编码。第二高频带位于低频带与第一高频带之间的频率中。对第二高频带的编码包括:提供第二量化索引集合,该第二量化索引集合表示第二高频带的多个第二子频带中的频谱包络的相对于第二能量测量的相应标量量化。
在第四方面中,音频编码器包括根据第三方面的编码器装置。
在第五方面中,网络节点包括根据第四方面的音频编码器。
在第六方面中,用于对音频信号解码的解码器装置包括输入块、综合器、能量参考块、选择器、重构块和逆变换解码器。输入块被配置用于:接收音频信号的编码。编码表示音频信号的第一高频带的多个第一子频带中的频谱包络的第一量化索引集合。第一量化索引集合表示相对于第一能量测量的能量。综合器被配置用于:获得音频信号的编码的低频带综合信号。能量参考块连接到综合器,并且被配置用于:获得第一能量测量,作为低频带综合信号中的低频带内的第一参考频带的能量测量。第一高频带位于比低频带高的频率处。该编码还表示定义了所使用的能量偏移的参数。选择器连接到输入块。选择器被配置用于:基于定义了所使用的能量偏移的参数,针对每个第一子频带,从具有至少两个预定能量偏移的集合中选择能量偏移。重构器块连接到输入块、选择器和能量参考块。重构块被配置用于通过以下方式在变换域中重构信号:针对第一高频带的每个第一子频带,通过使用这样选择的能量偏移和第一能量测量,根据与第一子频带相对应的第一量化索引集合来确定第一高频带中的频谱包络。逆变换解码器连接到重构块。逆变换解码器被配置用于:至少基于变换域中重构的信号,来执行到音频信号的逆变换。该编码还表示第二高频带的多个第二子频带中的频谱包络的第二量化索引集合。第二高频带位于低频带与第一高频带之间的频率处。第二量化索引集合表示相对于第二能量测量的能量。所述能量参考块还被配置用于:获得第二能量测量,作为低频带综合信号中的低频带内的第二参考频带的能量测量。重构块还被配置用于:针对第二高频带的每个第二子频带,通过使用第二能量测量,根据与第二子频带相对应的第二量化索引集合来确定第二高频带中的频谱包络。
在第七方面中,音频解码器包括根据第三方面的解码器装置。
在第八方面中,网络节点包括根据第七方面的音频解码器。
本发明的一个优点是:与例如纯粹的ACELP编码相比,在主观收听测试中测量到的质量增加了,且将非常少的所需附加比特率用于BWE信息。结合下面描述的不同实施例来讨论其他的优点。
附图说明
通过结合附图来参考以下的描述,可以最好地理解本发明及其其他目标和优势,在附图中:
图1是音频系统的示例的示意框图;
图2A是音频编码器的实施例的示意框图;
图2B是音频编码器的另一实施例的示意框图;
图3A是音频解码器的实施例的示意框图;
图3B是音频解码器的另一实施例的示意框图;
图4A是编码器装置的实施例的示意框图;
图4B是编码器装置的另一实施例的示意框图;
图5是示出了带宽扩展中的能量参考关系的图;
图6A-C是示出了不同种类的音频信号的图;
图7A-B是分别示出了浊音和清音音频信号的图;
图8A是编码方法的实施例的步骤的流程图;
图8B是编码方法的另一实施例的步骤的流程图;
图9是解码器装置的实施例的示意框图;
图10是解码方法的实施例的步骤的流程图;
图11是示出了原始频谱包络与ACELP编码的输出之间的差异的示例的图;
图12A是编码器装置的另一实施例的示意框图;
图12B是编码器装置的又一实施例的示意框图;
图13是示出了带宽扩展中的另一能量参考关系的图;
图14A是编码方法的另一实施例的步骤的流程图;
图14B是编码方法的又一实施例的步骤的流程图;
图15是解码器装置的另一实施例的示意框图;
图16是解码方法的另一实施例的步骤的流程图;
图17是示出了编码器装置的示例实施例的框图;以及
图18是示出了解码器装置的示例实施例的框图。
具体实施方式
在全部附图中,针对相似或者对应的元素使用相同的附图标记。
描述将开始于对整体系统的描述,然后,在提出最终解决方案之前,描述提出了最终解决方案的一部分的示例。
图1中示意性地示出了具有编解码系统的一般音频系统的示例。音频源节点10引起音频信号16。在音频编码器14中处理音频信号16,音频编码器14产生包括对音频信号16进行表示的数据的二进制流(flux)。音频编码器14通常被包括在发射机12中。这种发射机可以例如是通信网络节点的一部分。音频编码器通常包括一个或若干编码器装置,将在下面对其进行进一步讨论。例如当在多媒体通信的情况下时,可以由发射机通过发送接口20来发送二进制流22。备选地或作为补充,二进制流22可被记录到存储器26中,在稍后时机,可以从存储器26将其取回28。可选地,发送装置还可以包括一些存储能力。还可以仅临时地存储二进制流22,仅在二进制流的使用中引入时间延迟。当使用二进制流22时,在音频解码器34中处理二进制流22。音频解码器34通常被包括在接收机32中。这种接收机例如可以是通信网络节点的一部分。音频解码器通常包括一个或若干编码器装置,将在下面对其进行进一步讨论。解码器34根据二进制流中包括的数据来产生音频输出36。通常,音频输出36在特定的约束下应该尽可能地类似于原始的音频信号16。向目标节点30提供音频输出。
在很多实时应用中,通常不允许原始音频信号16的产生与所产生的音频输出36之间的时间延迟超出特定的时间。如果同时限制了传输资源,可用比特率通常也较低。
图2A示意性地示出了作为框图的发射机12的音频编码器14的实施例。提供音频信号16,作为输入。向核心编码器40提供音频信号,核心编码器40执行对音频信号的一部分的编码,例如,低频部分。该编码组成了向解码侧发送的信息的核心部分。在音频编码器14中,还向变换编码器52提供音频信号。变换编码器52将音频信号变换到变换域(或等效地,频域)中。编码器装置56将音频信号的至少一部分编码到变换域中。在编码器装置56中,对变换的频谱包络进行量化。在音频信号的变换域中确定多个子频带中的频谱包络的相应标量量化。将通常针对于特定频带的量化频谱包络编码到量化索引中。通过使用来自核心编码器40或音频信号自身可用的信息,可以在所需比特率方面更高效地执行对量化频谱包络的该编码。然后,可以将这种编码用于BWE。表示频谱包络的量化索引的编码95与向解码器侧提供的核心编码参数一起,作为二进制流22。变换编码器52和编码器装置56形成用于针对特定的频率范围提供带宽扩展数据的编码器装置50。可选地,还可以将其他类型的带宽扩展功能与该概念一起使用,例如,以图中的甚高(very high)带宽扩展编码器60为例。
图2B示出了音频编码器14的另一实施例。在此,核心编码器40是ACELP编码器41,即CELP编码器的示例。在备选实施例中,还可以使用其他类型的CELP编码器。同样地,CELP或ACELP的操作在编解码的领域内是公知的,并将不会做更详细的讨论。本实施例的ACELP编码器41对音频信号16的重采样版本进行操作。因此,在音频采样的输入与ACELP编码器41之间提供重采样单元42。ACELP编码器41由此提供对音频信号16的低频带的编码。ACELP编解码可以在高达8~12kbit/s处实现高质量编码。
对于高频带,由低比特率BWE来补充ACELP编码。本具体实施例中的变换编码器52是改进型离散余弦变换(MDCT)编码器52。然而,在备选实施例中,变换编码器52还可以基于其他变换。这种变换的非排他性示例是傅立叶变换、不同类型的正弦或余弦变换、Karhunen-Loeve变换、或者不同类型的滤波器组。同样地,这种变换的操作在编解码的领域内是公知的,并将不会做更详细的讨论。将编码器装置56布置为提供与至少高频带有关的BWE信息。如名字所暗示的,与ACELP编码低频带相比,高频带位于更高的频率处。在本实施例中,编码器组合器61连接到ACELP编码器41和基于MDCT变换的编码器装置50,并被布置为提供对与音频信号有关的所有信息的适合的联合编码。提供音频信号的这种表示,作为二进制流22。
在具体的实施例中,以32kHz对输入和输出信号采样,其给出了MDCT BWE的基础。将用于ACELP核心编码的信号重采样为12.8kHz。
图3A示出了接收机32中的音频解码器34的实施例。在输入块82中接收二进制流22,即,与音频信号有关的编码信息。向核心解码器70提供音频信号的核心编码的编码参数。在核心解码器70中,将该参数用于重构音频信号的至少一部分。向解码器装置84提供与高频带有关的编码BWE参数。在解码器装置84中,根据编码参数来重构量化索引,以及在逆变换解码器86中,根据量化索引来提供音频信号的另一部分。解码器装置84、逆变换解码器86和输入块82的至少一部分被包括在处理音频信号的高频带部分的解码器装置80中。音频信号来自核心解码器和解码器装置80的部分在组合器63中组合为最终的解码音频信号36。此外,在此处,可以提供针对其他频带的附加过程,例如,以图中的甚高带宽扩展解码器62为例。
图3B示出了音频解码器34的另一实施例。在此,核心解码器70是ACELP解码器71,例如CELP解码器的示例。在备选实施例中,还可以使用其他类型的CELP解码器。本实施例的ACELP解码器71进行操作,以低采样速率提供音频信号36的一部分。ACELP解码器71由此提供对音频信号36的低频带的解码。如上所述,ACELP编解码可以在高达8~12kbit/s处实现高质量解码。
类似于编码侧,对于高频带,由低比特率BWE来补充ACELP解码。在本具体的实施例中,逆变换解码器86是逆改进型离散余弦变换(IMDCT)解码器85。然而,在备选实施例中,变换解码器86还可以基于其他变换。这种变换的非排他性示例是傅立叶变换、不同类型的正弦或余弦变换、Karhunen-Loeve变换、或者不同类型的滤波器组。
本方案的重要部分是处理BWE的编码器装置。图4A更稍微详细地示出了编码器装置的示例。一些部分在上面已经讨论过了。变换编码器52(在本实施例中,MDCT编码器51)被配置用于执行将音频信号16变换到变换域中。向编码器装置56的编码器块55提供音频信号的这种变换域版本90。编码器块55连接到变换编码器52,并被配置用于对变换编码的频谱包络进行量化。编码器块55还被配置用于在音频信号的变换域中确定多个子频带中的频谱包络的相应标量量化。这些子频带一起至少构建了音频信号的高频带。
编码器装置56包括选择器58,在本实施例中,选择器58包括功率分布分析器57。该功率分布分析器57被配置用于获得音频信号在变换域中的功率分布。如下面还将讨论的。不同类型的音频信号在变换域可以具有非常不同的行为。然而,可以将这种行为用于编码。在功率分布分析器57的一个实施例中,执行将音频信号分类为两类或更多类。在不同的实施例中,这种功率分布分析器57可以从综合器29接收频谱信息42。综合器29获得音频信号的编码的低频带综合信号。综合信息可以基于外部源的信号,例如,经由MDCT变换器54来自核心编码器40的信号。综合器29可以仅包括MDCT变换器54,或包括MDCT变换器54和编码器。备选地,综合器29可以直接基于音频信号在变换域中的特性来直接导出42B频谱信息。下面将进一步讨论这种分析或分类的示例。选择器58被配置用于提供旨在用于找到适合的量化索引的能量偏移。通过从预定能量偏移的集合中选择能量偏移92来执行对能量偏移的提供。预定能量偏移的集合包括至少两个预定能量偏移。该预定能量偏移的集合为编码器和解码器所知晓,并通常在连接到选择器58的存储器53中提供。针对即将被编码的每个子频带来选择预定能量偏移92。此外,选择基于对音频信号的分析。
在具体的实施例中,选择基于开环方案。在本实施例中,确定对音频信号在变换域中的功率分布进行表征的参数。然后,基于预定参数来执行实际选择。这意味着针对一种类型的信号,将一个能量偏移92用于编码每个单独子频带。
编码器装置56还包括能量参考块59。能量参考块被配置用于获得要作为能量参考使用的能量测量93。能量测量93是音频信号的变换域中的低频带内的第一参考频带的能量测量。例如,可以经由MDCT变换器54从核心编码器40获得具有第一参考频带的低频带信号43。备选地,可以根据音频信号的变换域版本90实现低频带信号43B。能量测量通常是第一参考频带的平均能量。在备选实施例中,作为替代,能量测量可以是第一参考频带的能量任何其他特征统计测量,例如,中间值、均方值或加权平均值。使用该参考能量测量来作为MDCT包络的相对量化的开始点。从中选择第一参考频带的频带位于比假设编码器装置50要处理的频带低的频率处。换言之,正如名称所指示的,高频带位于比音频信号的低频带高的频率处。
编码器块55连接到选择器58、变换编码器52以及用于接收对能量偏移范围92的选择、音频信号的变换域版本90和能量测量93的能量参考块59。编码器块55被配置用于通过以下方式对所述高频带编码:通过使用所选择的能量偏移92,提供量化索引集合,该量化索引集合表示频谱包络的相对于第一参考频带的能量测量93的相应标量量化。编码器块55由此输出表示相对能量的参数95的集合。编码器块55还被配置用于:提供定义了所使用的预定能量偏移的参数。然后,在具体的实施例中,将这些输出与核心编码和其他的BWE编码组合,并向接收机发送。
图4B示意性地示出了编码器装置50的另一示例。在本实施例中,在闭环方案中执行对能量偏移的选择。本质上,这意味着测试所有的能量偏移,并选择具有最好结果的能量偏移。该编码策略也被称为分析-综合。为此,存储器53连接到编码器块55。编码器块55还被配置用于:针对每个可用的能量偏移提供一个量化索引集合94。在当前实施例中,使用两个预定能量偏移,且因此编码器块55产生两个量化索引集合94。在其他实施例中,定义两个以上的预定能量偏移,并因此产生两个以上的量化索引集合94。
在本实施例中,选择器58被配置用于接收针对所有预定能量偏移的量化索引。选择器58在此包括计算块64和选择块65。计算块64被配置用于:针对每个量化索引集合来计算量化误差。为此,计算块还访问原始的已变换音频信号90。然后,选择块65被配置用于:选择给出最小量化误差的量化索引集合。使用这些量化索引,作为与定义所使用的能量偏移的参数在一起的参数95的输出集合。
图5示出了参考能量和不同频带之间的关系。通过核心编码方法来编码低频带LB。然后,将低频带LB的至少一部分(第一参考频带)用于确定能量电平,该能量电平将要被用作针对高频带HB的能量偏移编码的参考。第一参考频带可以包括整个低频带,或者如图所示包括低频带的一部分。
可以根据总的可用比特率、所使用的编码技术、所需音频质量等级来选择低频带和高频带的频率范围。在具体的实施例中(通常旨在用于无线通信),低频带的范围是从基本为0到6.4kHz。第一参考频带的范围是从0~5.9kHz,然而在备选实施例中,将整个低频带包括在第一参考频带中。在当前实施例中,高频带的上限是11.6kHz。将包络量化限制为11.6kHz的原因是在这些频率中,人类听觉系统分辨率的降低以及语音信号中的低能量。可选地,可以通过另一BWE方法来编码高于高频带上限的甚高频带VHB,例如,在该方法中,预测在高于11.6kHz的甚高频带区域中的包络。然而,这些方面不在本公开的主要范围内。还可以通过不同的方式来选择子频带的数目。众多的子频带给出了更好的预测,但要求更高的比特率。在本具体实施例中,使用8个子频带。对低频带区域进行ACELP编码,以及在MDCT域中重构高频带。
根据音频信号表示的声音的类型,音频信号看起来可以有很大不同。可以例如使用话音活跃性检测来用于切换到备选的编码方法。图6A~C使用了三种不同种类的音频信号。实际的曲线是想象中的,但呈现出相同的总体趋势,该总体趋势可在实际的采样中发现。在图6A中,示出了音频信号101的示例。与高频相比,低频处的能量一般较高。将低频区域的平均能量电平确定为参考,并以破折线示出。当编码高频带部分的子频带的包络时,可以看出所有的能量都降到远低于参考等级。为了对相对于参考的能量偏移进行编码,仅需要能量标度的较低部分。这意味着可以将用于对高频带部分中的能量进行编码的能量偏移的集合限制为能量标度的较低部分112。
在图6B中,示出了另一音频信号。在此,在整个频率范围上,能量电平或多或少相等,这意味着能量参考靠近也在高频频带中的曲线。能量标度的较低部分112现在不适于能量偏移编码。代之,可以使用较高部分111。
在图7A和7B中呈现了话音和非话音语音的真实示例,其中,曲线104表示话音语音段,以及曲线105表示非话音语音段。在话音语音段中,范围6.4~11.6kHz中的能量比低于6.4kHz的范围中的低频带能量低40dB以上。在非话音语音段中,低频带和高频带能量大致在相同等级上。
通过使用对音频信号的不同频带之间的功率分布的分析,可以选择适合的能量偏移,该能量偏移窄于一般的音频信号。通过确定对音频信号在频域中的功率分布的重要方面进行表征的参数,可以使用这种参数来选择有用的能量偏移。如果将这些动作针对每个情况所使用的能量偏移降低到与总的能量偏移等级相比的一半,在每个子频带的编码中可以节省一个比特。如果如图6A和6B的实施例中一样使用6个子频带,可以针对每个音频采样节省6个比特。因为还必须发送对所使用的预定能量偏移的选择,在这种情况下,总增益变为5比特。
可以进一步概括根据对音频信号的功率分布的分析来选择正确的能量偏移的概念。在图6C中,示出了针对具体的频率具有异常高的能量的信号。这种信号将具有高于正常音频的参考,这导致与能量偏移相关联的范围111、112都不适于编码。取而代之地,可以定义与具体能量偏移相关联的具体能量范围113。还可以将该原理应用于例如瞬时信号等。提前确定要在其间选择的能量偏移,以使得该信息在发送侧和接收侧之间共享。此外,预先确定针对分析的准则以及分析本身。
在图4B的实施例的开环方案中,间接分析功率分布。音频信号的不同频带之间的能量偏移对于量化而言很重要。正确选择能量偏移将给出较小的量化误差,这意味着音频信号在不同频带中的能量分布与所选择的范围相适合。
图8A示出了用于使用根据之前理念的装置来编码音频信号的方法示例的步骤的流程图。该过程在步骤200中开始。在步骤210中,获得音频信号的编码的低频带综合信号。在步骤212中,获得所述低频带综合信号中的低频带内的第一参考频带的第一能量测量。在步骤214中,执行将音频信号变换到变换域中。在步骤216中,针对变换域中的第一高频带的多个子频带中的每个子频带,从预定能量偏移的集合中选择能量偏移。第一高频带位于比音频信号的低频带高的频率处。在步骤220中,对音频信号的第一高频带编码。提供量化索引集合,其表示第一高频带的多个第一子频带中的频谱包络相对于第一参考频带的能量测量的相应标量量化。使用相应选择的能量偏移来给出量化索引。编码第一高频带的步骤还包括提供定义了所使用的能量偏移的参数。该过程在步骤299中结束。
在本具体实施例中,选择216能量偏移的步骤取决于音频信号在频域中的能量分布。为此,选择216预定能量偏移范围的步骤基于开环过程,该步骤包括:确定对所述音频信号在频域中的功率分布进行表征的参数的步骤215。然后,实际的选择基于预定参数。
在一个具体实施例中,变换编码是改进型离散余弦变换。此外,在一个具体实施例中,分类包括在话音音频信号的种类与非话音音频信号的种类之间的分类。此外,在一个具体的实施例中,由CELP编码器来编码低频带。
图8B示出了用于编码音频信号的方法的另一示例的步骤流程图。多数步骤类似于图8A中呈现的步骤,且不进行进一步讨论。在本示例中,对第一高频带编码的步骤219进而包括:针对每个可用的预定能量偏移,来提供一个量化索引集合。在步骤216中(在本示例中发生在步骤219之后),选择要使用的能量偏移。在本示例中,如步骤217所指示的,这是通过以下方式来执行的:针对量化索引集合中的每个集合来计算量化误差。在步骤218中,选择给出最小量化误差的量化索引集合。
图9示出了解码器装置80的示例的框图。和图3B中一样,解码器装置80包括输入块82和逆变换解码器85。输入块82被配置用于:接收对音频信号的至少高频带的编码。该编码表示音频信号的高频带的多个第一子频带中的频谱包络的量化索引集合96。量化索引96表示相对于能量测量的能量。该编码还包括定义了所使用的预定能量偏移的参数。解码器装置84包括能量参考块89、MDCT变换编码器87、综合器27、选择器88、存储器83和重构块81。
综合器27被配置用于:获得音频信号的编码的低频带综合信号。综合信息可以基于外部源的信号,例如,来自经由MDCT变换器87向核心解码器70提供的信号。
能量参考块89被配置用于:接收音频信号的变换域中的低频带内的第一参考频带的能量测量72。向重构块81提供能量测量,即能量测量93。
向选择器88提供定义了所使用的能量偏移的参数。选择器88被配置用于:基于该参数,针对每个第一子频带,从预定能量偏移集合中选择能量偏移。重构块81连接到输入块82、选择器88和能量参考块89。重构块81被配置用于通过以下方式重构变换域中的信号:通过使用所选择的能量偏移92和参考频带的能量测量93,根据量化索引集合96来确定高频带中的频谱包络。
逆变换解码器85连接到重构块81,并被配置用于:至少基于重构的能量偏移,来执行到音频信号的至少一部分98的逆变换。
图10示出了用于解码音频信号的方法的示例的步骤流程图。该过程在步骤201中开始。在步骤260中,接收对音频信号的高频带的编码。该编码表示音频信号的高频带的多个第一子频带中的频谱包络的量化索引集合96。第一量化索引集合表示相对于能量测量的能量。在步骤262中,获得音频信号的编码的低频带综合信号。在步骤264中,当接收到音频信号的低频带内的第一参考频带的能量测量时,获得能量测量。
该编码还表示定义了所使用的能量偏移范围的参数。步骤266中的能量偏移是从具有至少两个预定能量偏移的集合中选择的。这是针对每个第一子频带来执行的,并基于定义了所使用的能量偏移的参数。在步骤268中,通过以下方式重构变换域中的信号:针对所述第一高频带的每个所述第一子频带,通过使用所选择的能量偏移以及第一参考频带的能量测量,根据与第一子频带相对应的量化索引集合来确定高频带中频谱包络。在步骤270中,至少基于所述变换域中重构的信号,来执行到音频信号的至少一部分的逆变换。
在一个具体实施例中,变换编码是改进型离散余弦变换。此外,在一个具体实施例中,分类包括在话音音频信号的种类与非话音音频信号的种类之间的分类。此外,在一个具体的实施例中,由CELP编码器来编码低频带。
图11示出了原始信号和高达6.4kHz编码的ACELP输出二者的自回归频谱包络。编码信号通常从稍低于6kHz开始补偿能量损耗,然而该补偿仅是部分的。这对本发明给出了暗示。换言之,在具体实施例中,通过在低频带的高频端处给出能量衰减的方法来处理低频带。当将低频带与常规的BWE一起使用时,这种能量衰减在从低频带到高频带的转移中引起能量阶跃(step)。有时这引起对音频信号的奇怪的感觉。换言之,将不同的策略用于编码低频带和高频带可在该频带之间的交叉区域中产生问题。本发明旨在找到高效地使用低频带中的信息并且还允许处理从一个编码域转移到另一个编码域中的BWE编码方案。
在具体实施例中,优选地,限制以上可能的能量阶跃。这是通过将最靠近低频带的子频带中的编码能量约束为与低频带的高端中的能量电平相差不要太大来实现的。这是通过提供被限制为不支持对太大正能量改变进行编码的编码能量范围来实现的。编码器被约束为不允许任何快速的能量增加,即使这在那些最靠近的子频带中产生与原始信号的失配。用于这种增加约束的参考能量是从低频带内的第二参考频带导出的。在具体实施例中,该第二参考频带位于低频带的高端处。在还在以上给出的示例中,例如,选择频带5.9~6.4kHz来建立该第二参考能量可以是适合的。
换言之,将高频带划分为两部分。根据还在上面描述的原理来编码位于高频带的高频端的第一高频带。第二高频带包括在第一高频带与低频带之间的频率。在该第二高频带中,编码能量(即,量化索引)在增加能量方向上受到限制。换言之,不允许编码能量与低频带的高频端相比增加得太快。这是通过提供量化索引的允许范围来实现的,该允许范围不允许高于受限的正能量改变。第二高频带的子频带距离低频带越远,所使用的量化索引越少受到限制。换言之,对编码能量的能量限制随着第二子频带的频率增加而降低。
在具体实施例中,第一高频带包括5个第一子频带,并覆盖了8~11.6kHz的范围。第二高频带包括3个子频带,并且范围在6.4和8kHz之间。将MDCT BWE实现为1.55kbit/s的高频包络量化。由ACELP编解码来对频带0~6.4kHz中的信号进行完全量化。第二参考频带的范围是在5.9和6.4kHz之间。针对第二高频带中的第一子频带的能量限制是与最大能量参考的能量差+3dB。针对第二高频带中的第二子频带的能量限制是最大能量差+6dB。针对第二高频带中的第三子频带的能量限制是最大能量差+9dB。在表1和表2中分别针对第二和第一高频带总结了不同子频带的标量量化器。“范围1”对应于具有话音类型能量分布的音频采样,而“范围2”对应于具有非话音类型能量分布的音频采样。所有的标量量化器都具有与对应的低频参考能量的偏移。
表1对针对第二高频带的标量量化器的描述
表2对针对第一高频带的标量量化器的描述
图12A示出了适用于上述理念的编码器装置的实施例。与例如图4A相比较,编码器块55还被配置用于:确定在音频信号的第二高频带的多个第二子频带中的频谱包络的相应标量量化。能量参考块59还被配置用于:获得音频信号的低频带内的第二参考频带的能量测量99。编码器块55还被配置用于:通过使用相应能量偏移和量化索引范围来编码第二高频带的相对于第二参考频带的能量测量的能量偏移。量化索引范围在增加能量方向上受到限制。如前所述,在具体的实施例中,量化索引的能量限制随着第二子频带的能量增加而降低。
图12B示出了适用于上述想法的编码器装置的又一实施例。与例如图4B相比,通过与在图12A中对其进行的相同方式来修改编码器块55和能量参考块。
图13以频率图示出了这些原理。第一高频带HB-1从低频带LB内的第一参考频带收集其能量参考。该第一参考频带通常至少覆盖低频带的大的部分。第二高频带HB-2从与第二高频带的低频端相邻的第二参考频带收集其能量参考。这给出与低频带的该端中的能量电平有关的想法。
图14A示出了用于对音频信号编码的方法的实施例的步骤流程图。不再对与图8A中的步骤相同的步骤进行详细讨论。在步骤213中,获得在对低频带综合信号的低频带的编码中对第二参考频带的能量测量。在步骤222中,对音频信号的第二高频带编码。第二高频带位于低频带和第一高频带之间的频率中。对第二高频带的编码包括:提供量化索引,该量化索引表示第二高频带的多个第二子频带中的频谱包络相对于第二参考频带的能量测量的相应标量量化。优选地,量化索引在增加能量方向上受到限制。在第一高频带中,应用根据图8A的编码。
图14B示出了用于对音频信号编码的方法的又一实施例的步骤流程图。现在与图8B的实施例相比较,在此还添加步骤213和222。
图15示出了解码器装置的实施例。多数部件以与结合图9描述的相同方式操作,并且不再进行描述。在本实施例中,输入块82还被配置用于:接收对音频信号的第二高频带的编码。对第二高频带的编码表示音频信号的第二高频带的多个第二子频带中的频谱包络的量化索引。量化索引表示低频带综合信号的低频带内相对于第二参考频带的能量测量的能量。能量参考块89还被配置用于:获得低频带综合信号的低频带内的第二参考频带的能量测量。重构块81还被配置用于:根据第二量化索引集合来确定第二高频带中的频谱包络。转移能量在增加能量方向上受到限制。逆变换解码器还被配置用于:还至少基于所确定的第二高频带的频谱包络来执行逆变换。
图16示出了用于对音频信号解码的方法的实施例的步骤流程图。不再讨论与图10中相类似的步骤。在步骤260中,接收对音频信号的第一高频带和第二高频带的编码。对第二高频带的编码表示音频信号的第二高频带的多个第二子频带中的频谱包络的量化索引。量化索引表示低频带综合信号的低频带内相对于第二参考频带的能量测量的能量。在步骤265中接收低频带综合信号的低频带内的第二参考频带的能量测量。在此,步骤268还包括:针对第二高频带的每个第二子频带,通过使用第二参考频带的能量测量,根据与第二子频带相对应的量化索引来确定频谱包络。转移能量在增加能量方向上受到限制。执行逆变换的步骤270还基于所确定的第二高频带的频谱包络。
通常在处理单元(通常是数字信号处理器)中实现编码器和解码器装置的不同块。处理单元可以是执行在此描述的过程的不同步骤的单个单元或多个单元。处理单元还可以是例如执行低频带编码的相同处理单元。从而,可以将从例如核心编码器“接收”数据实现为使得可以访问存储了实际数据的存储器位置。在编码器或解码器装置的一个实施例中,该装置包括非易失性存储器形式(例如,EEPROM、闪存和/或盘驱动器)的至少一个计算机程序产品。计算机程序产品包括计算机程序,计算机程序包括在处理单元上运行的、使得编码器或解码器装置分别执行还在以上描述的过程步骤的代码工具。计算机程序中的代码工具可以包括与每个示出了的块相对应的模块。模块基本上执行还在以上描述的过程步骤。换言之,当在处理单元上运行不同的模块时,其对应于例如图4A、4B、9、12A、12B和15中的对应块。
虽然上述实施例中的代码工具被实现为计算机程序模块(当在处理单元上运行计算机程序模块时,计算机程序模块使得块执行还在下面描述的过程步骤),在备选实施例中,可以将块中的至少一个至少部分地实现为硬件电路。
作为实现示例,图17是示出了编码器装置50的示例实施例的框图。该实施例基于处理器120(例如,微处理器)、存储器136、系统总线130、输入/输出(I/O)控制器134和I/O总线132。在本实施例中,将由I/O控制器134接收到的低频带综合信号存储在存储器136中。同样地,将由I/O控制器134接收到的第一参考频带的第一能量测量和第二能量测量存储在存储器136中。在备选实施例中,可以由处理器经由系统总线130提供低频带综合信号和/或第一参考频带的第一能量测量和第二能量测量。处理器120执行用于执行音频信号的变换的软件组件122,用于选择能量偏移的软件组件124、用于编码第一高频带的软件组件126、以及用于编码第二高频带的软件组件128。该软件存储在存储器136中。处理器120通过系统总线130与存储器136通信。软件组件122可以实现图12A或12B的实施例中的块52的功能。软件组件124可以实现图12A或12B的实施例中的块58的功能。软件组件126和128可以一起实现图12A或12B的实施例中的块55的功能。
作为实现示例,图18是示出了解码器装置80的示例实施例的框图。该实施例基于处理器150(例如,微处理器)、存储器166、系统总线160、输入/输出(I/O)控制器164和I/O总线162。在本实施例中,将由I/O控制器164接收到的音频信号和低频带综合信号存储在存储器166中。同样地,将由I/O控制器164接收到的第一参考频带的第一能量测量和第二能量测量存储在存储器166中。在备选实施例中,可以由处理器经由系统总线160提供低频带综合信号和/或第一参考频带的第一能量测量和第二能量测量。处理器150执行用于选择能量偏移的软件组件152、用于在变换域中重构信号的软件组件154、以及用于执行逆变换的软件组件156。该软件存储在存储器166中。处理器150通过系统总线160与存储器166通信。软件组件152可以实现图15的实施例中的块88的功能。软件组件154可以实现图15的实施例中的块81的功能。软件组件156可以实现图15的实施例中的块85的功能。
上述的软件组件中的一些或全部可以在计算机可读介质(例如,CD、DVD或者硬盘)上携带,并在由处理器执行时加载到存储器中。
要将上述实施例理解为本发明的一些说明性示例。本领域技术人员将理解,在不脱离本发明的范围的情况下,可以对实施例进行各种修改、合并和改变。具体地,只要技术上可能,可以通过其他配置来合并不同实施例中的不同部分解决方案。然而,本发明的范围由所附权利要求限定。
缩写
ACELP-代数码激励线性预测
BWE-带宽扩展
CELP-码激励线性预测
MDCT-改进型离散余弦变换
Claims (42)
1.一种用于对音频信号编码的方法,包括以下步骤:
获得(210)所述音频信号的编码的低频带综合信号;
获得(212)所述低频带综合信号中的低频带LB内的第一参考频带的第一能量测量;
执行(214)将所述音频信号变换到变换域中;
针对所述变换域中所述音频信号的第一高频带HB-1的多个第一子频带中的每个第一子频带,从具有至少两个预定能量偏移的集合中选择(216)能量偏移;
所述第一高频带HB-1位于比所述低频带LB高的频率处;以及
对所述第一高频带HB-1编码(219、220);
所述对所述第一高频带HB-1编码的步骤包括:提供第一量化索引集合,所述第一量化索引集合表示所述第一高频带HB-1的所述多个第一子频带中的频谱包络的相对于所述第一能量测量的相应标量量化;
所述第一量化索引集合是利用相应选择的所述能量偏移给出的;
所述对所述第一高频带HB-1编码的步骤还包括:提供定义了所使用的能量偏移的参数;
获得(213)所述低频带综合信号中的所述低频带LB内的第二参考频带的第二能量测量;
在所述变换域中对所述音频信号的第二高频带HB-2编码(222);
所述第二高频带HB-2位于所述低频带LB与所述第一高频带HB-1之间的频率处;以及
所述对所述第二高频带HB-2编码的步骤包括:提供第二量化索引集合,所述第二量化索引集合表示所述第二高频带HB-2的多个第二子频带中的频谱包络的相对于所述第二能量测量的相应标量量化。
2.根据权利要求1所述的方法,其特征在于,所述选择(216)能量偏移的步骤取决于所述音频信号在频域中的功率分布。
3.根据权利要求1或2所述的方法,其特征在于,所述选择(216)能量偏移的步骤基于开环过程,所述开环过程包括:确定对所述低频带 综合信号在频域中的功率分布进行表征的参数,由此所述选择步骤基于确定的所述参数。
4.根据权利要求1或2所述的方法,其特征在于
所述编码(219)步骤进而包括:针对每个预定的能量偏移范围,提供一个所述第一量化索引集合;以及
所述选择(216)能量偏移的步骤进而包括以下步骤:
针对每个所述第一量化索引集合来计算(217)量化误差;以及
选择(218)给出最小量化误差的所述第一量化索引集合。
5.根据权利要求1所述的方法,其特征在于,所述变换编码是改进型离散余弦变换。
6.根据权利要求1所述的方法,其特征在于,所述第一高频带HB-1的低频端是8kHz。
7.根据权利要求1所述的方法,其特征在于,所述第一高频带HB-1的高频端是11.6kHz。
8.根据权利要求1所述的方法,其特征在于,所述第一高频带HB-1包括5个第一子频带。
9.根据权利要求1所述的方法,其特征在于,所述低频带LB的范围是从0到6.4kHz。
10.根据权利要求1所述的方法,其特征在于,所述第一参考频带包括整个所述低频带LB。
11.根据权利要求1所述的方法,其特征在于,所述第一参考频带的范围是从0到5.9kHz。
12.根据权利要求1所述的方法,其特征在于,所述低频带综合信号基于码激励线性预测编码器的编码。
13.根据权利要求1所述的方法,其特征在于,所述第二量化索引集合的量化索引在增加能量方向上受限制。
14.根据权利要求13所述的方法,其特征在于,所述量化索引的所述能量限制随着所述第二子频带的频率增加而降低。
15.根据权利要求1所述的方法,其特征在于,所述第二高频带HB-2的范围是在6.4和8kHz之间。
16.根据权利要求1所述的方法,其特征在于,所述第二参考频带的范围是在5.9和6.4kHz之间。
17.根据权利要求1所述的方法,其特征在于,所述第二高频带HB-2包括3个第二子频带。
18.一种用于对音频信号解码的方法,包括以下步骤:
接收(260)所述音频信号的编码;
所述编码表示所述音频信号的第一高频带HB-1的多个第一子频带中的频谱包络的第一量化索引集合;
所述第一量化索引集合表示相对于第一能量测量的能量;
获得(262)所述音频信号的编码的低频带综合信号;
获得(264)所述第一能量测量,作为所述低频带综合信号中的低频带LB内的第一参考频带的能量测量;
所述第一高频带HB-1位于比所述低频带LB高的频率处;
所述编码还表示定义了所使用的能量偏移的参数;
基于定义了所使用的所述能量偏移的所述参数,针对每个所述第一子频带,从具有至少两个预定能量偏移的集合中选择(266)能量偏移;
通过以下方式在变换域中重构(268)信号:针对所述第一高频带HB-1的每个所述第一子频带,通过使用所选择的所述能量偏移和所述第一能量测量,根据与所述第一子频带相对应的所述第一量化索引集合来确定所述第一高频带HB-1中的频谱包络;以及
至少基于所述变换域中重构的所述信号,来执行(270)到所述音频信号的逆变换;
所述编码还表示第二高频带HB-2的多个第二子频带中的频谱包络的第二量化索引集合;
所述第二高频带HB-2位于所述低频带LB与所述第一高频带HB-1之间的频率处;
所述第二量化索引集合表示相对于第二能量测量的能量;以及
获得(265)所述第二能量测量,作为所述低频带综合信号中的所述低频带LB内的第二参考频带的能量测量;
所述在所述变换域中重构(268)所述信号的步骤还包括:针对所述 第二高频带HB-2的每个所述第二子频带,通过使用所述第二能量测量,根据与所述第二子频带相对应的所述第二量化索引集合来确定所述第二高频带HB-2中的频谱包络。
19.根据权利要求18所述的方法,其特征在于,所述变换编码是改进型离散余弦变换。
20.根据权利要求18或19所述的方法,其特征在于,所述第一高频带HB-1的低频端是8kHz。
21.根据权利要求18所述的方法,其特征在于,所述第一高频带HB-1的高频端是11.6kHz。
22.根据权利要求18所述的方法,其特征在于,所述第一高频带HB-1包括5个第一子频带。
23.根据权利要求18所述的方法,其特征在于,所述低频带LB的范围是从0到6.4kHz。
24.根据权利要求18所述的方法,其特征在于,所述第一参考频带包括整个所述低频带LB。
25.根据权利要求18所述的方法,其特征在于,所述第一参考频带的范围是从0到5.9kHz。
26.根据权利要求18所述的方法,其特征在于,所述低频带综合信号基于码激励线性预测编码器的编码。
27.根据权利要求18所述的方法,其特征在于,所述第二量化索引集合的量化索引在增加能量方向上受限制。
28.根据权利要求27所述的方法,其特征在于,所述量化索引的所述能量限制随着所述第二子频带的频率增加而降低。
29.根据权利要求18所述的方法,其特征在于,所述第二高频带HB-2的范围是在6.4和8kHz之间。
30.根据权利要求18所述的方法,其特征在于,所述第二参考频带的范围是在5.9和6.4kHz之间。
31.根据权利要求18所述的方法,其特征在于,所述第二高频带HB-2包括3个第二子频带。
32.一种用于对音频信号编码的编码器装置(50),包括:
变换编码器(52),被配置用于执行将所述音频信号变换到变换域中;
选择器(58),被配置用于:针对所述变换域中所述音频信号的第一高频带HB-1的多个第一子频带中的每个第一子频带,从具有至少两个预定能量偏移的集合中选择能量偏移;
综合器,被配置用于:获得所述音频信号的编码的低频带综合信号;
连接到所述综合器的能量参考块(59),被配置用于:获得所述低频带综合信号中的低频带LB内的第一参考频带的第一能量测量;
所述第一高频带HB-1位于比所述低频带LB高的频率处;
连接到所述选择器(58)和所述能量参考块(59)的编码器块(55),被配置用于对所述第一高频带HB-1编码;
所述对所述第一高频带HB-1编码包括:提供第一量化索引集合,所述第一量化索引集合表示所述第一高频带HB-1的所述多个第一子频带中的频谱包络的相对于所述第一能量测量的相应标量量化;
所述第一量化索引集合是利用相应选择的所述能量偏移给出的;
所述对所述第一高频带HB-1的编码还包括:提供定义了所使用的能量偏移的参数;
所述能量参考块(59)还被配置用于:获得所述低频带综合信号中的所述低频带LB内的第二参考频带的第二能量测量;
所述编码器块(55)还被配置用于:在所述变换域中对所述音频信号的第二高频带HB-2编码;
所述第二高频带HB-2位于所述低频带LB与所述第一高频带HB-1之间的频率处;以及
所述对所述第二高频带HB-2的编码包括:提供第二量化索引集合,所述第二量化索引集合表示所述第二高频带HB-2的多个第二子频带中的频谱包络的相对于所述第二能量测量的相应标量量化。
33.根据权利要求32所述的编码器装置,其特征在于,所述选择器(58)被配置用于:取决于所述音频信号在频域中的功率分布来选择能量偏移。
34.根据权利要求32或33所述的编码器装置,其特征在于,所述选择器(58)被配置用于:确定对所述低频带综合信号在频域中的功率分 布进行表征的参数,以及基于确定的所述参数来选择能量偏移。
35.根据权利要求32所述的编码器装置,其特征在于
所述编码器块(55)被配置用于:针对每个预定的能量偏移范围,提供一个所述第一量化索引集合;以及
所述选择器(58)被配置用于:针对所有预定的能量偏移范围,接收所述第一量化索引集合,以及所述选择器(58)还包括计算块和选择块,所述计算块被配置用于:针对每个所述第一量化索引集合来计算量化误差,所述选择块被配置用于:选择给出最小量化误差的所述第一量化索引集合。
36.根据权利要求32所述的编码器装置,其特征在于,所述变换编码器(52)是改进型离散余弦变换编码器(51)。
37.一种音频编码器(14),包括根据权利要求32至36中任一项所述的编码器装置(50)。
38.一种网络节点,包括根据权利要求37所述的音频编码器(14)。
39.一种用于对音频信号解码的解码器装置(80),包括:
输入块(82),被配置用于:接收所述音频信号的编码;
所述编码表示所述音频信号的第一高频带HB-1的多个第一子频带中的频谱包络的第一量化索引集合;
所述第一量化索引集合表示相对于第一能量测量的能量;
综合器,被配置用于:获得所述音频信号的编码的低频带综合信号;
连接到所述综合器的能量参考块(89),被配置用于:获得所述第一能量测量,作为所述低频带综合信号中的低频带LB内的第一参考频带的能量测量;
所述第一高频带HB-1位于比所述低频带LB高的频率处;
所述编码还表示定义了所使用的能量偏移的参数;
连接到所述输入块(82)的选择器(88),被配置用于:基于定义了所使用的所述能量偏移的所述参数,针对每个所述第一子频带,从具有至少两个预定能量偏移的集合中选择能量偏移;
连接到所述输入块(82)、所述选择器(88)和所述能量参考块(89)的重构块(81),被配置用于通过以下方式在变换域中重构信号:针对所 述第一高频带HB-1的每个所述第一子频带,通过使用所选择的所述能量偏移和所述第一能量测量,根据与所述第一子频带相对应的所述第一量化索引集合来确定所述第一高频带HB-1中的频谱包络;以及
连接到所述重构块(81)的逆变换解码器(86),被配置用于:至少基于所述变换域中重构的所述信号,来执行到所述音频信号的逆变换;
所述编码还表示第二高频带HB-2的多个第二子频带中的频谱包络的第二量化索引集合;
所述第二高频带HB-2位于所述低频带LB与所述第一高频带HB-1之间的频率处;
所述第二量化索引集合表示相对于第二能量测量的能量;
所述能量参考块(89)还被配置用于:获得所述第二能量测量,作为所述低频带综合信号中的所述低频带LB内的第二参考频带的能量测量;
所述重构块(81)还被配置用于:针对所述第二高频带HB-2的每个所述第二子频带,通过使用所述第二能量测量,根据与所述第二子频带相对应的所述第二量化索引集合来确定所述第二高频带HB-1中的频谱包络。
40.根据权利要求39所述的解码器装置,其特征在于,所述逆变换解码器(86)是改进型离散余弦逆变换解码器(85)。
41.一种音频解码器(34),包括根据权利要求39或40所述的解码器装置(80)。
42.一种网络节点,包括根据权利要求41所述的音频解码器(34)。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/SE2011/050146 WO2012108798A1 (en) | 2011-02-09 | 2011-02-09 | Efficient encoding/decoding of audio signals |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103380455A CN103380455A (zh) | 2013-10-30 |
CN103380455B true CN103380455B (zh) | 2015-06-10 |
Family
ID=46638827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180067275.1A Active CN103380455B (zh) | 2011-02-09 | 2011-02-09 | 对音频信号的高效编码/解码 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9280980B2 (zh) |
EP (1) | EP2673771B1 (zh) |
JP (1) | JP5719941B2 (zh) |
CN (1) | CN103380455B (zh) |
AU (1) | AU2011358654B2 (zh) |
BR (1) | BR112013016350A2 (zh) |
WO (1) | WO2012108798A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2581904B1 (en) * | 2010-06-11 | 2015-10-07 | Panasonic Intellectual Property Corporation of America | Audio (de)coding apparatus and method |
PL3244405T3 (pl) | 2011-03-04 | 2019-12-31 | Telefonaktiebolaget Lm Ericsson (Publ) | Dekoder audio z korekcją wzmocnienia po kwantyzacji |
CN108198564B (zh) * | 2013-07-01 | 2021-02-26 | 华为技术有限公司 | 信号编码和解码方法以及设备 |
US9293143B2 (en) | 2013-12-11 | 2016-03-22 | Qualcomm Incorporated | Bandwidth extension mode selection |
WO2015136078A1 (en) * | 2014-03-14 | 2015-09-17 | Telefonaktiebolaget L M Ericsson (Publ) | Audio coding method and apparatus |
PL3413306T3 (pl) * | 2014-03-24 | 2020-04-30 | Nippon Telegraph And Telephone Corporation | SPOSÓB KODOWANIA, KODER, PROGRAM i NOŚNIK ZAPISU |
KR102244612B1 (ko) | 2014-04-21 | 2021-04-26 | 삼성전자주식회사 | 무선 통신 시스템에서 음성 데이터를 송신 및 수신하기 위한 장치 및 방법 |
US9959876B2 (en) | 2014-05-16 | 2018-05-01 | Qualcomm Incorporated | Closed loop quantization of higher order ambisonic coefficients |
CN104269173B (zh) * | 2014-09-30 | 2018-03-13 | 武汉大学深圳研究院 | 切换模式的音频带宽扩展装置与方法 |
ES2956344T3 (es) | 2015-08-25 | 2023-12-19 | Dolby Laboratories Licensing Corp | Descodificador de audio y procedimiento de descodificación |
CN107221334B (zh) * | 2016-11-01 | 2020-12-29 | 武汉大学深圳研究院 | 一种音频带宽扩展的方法及扩展装置 |
US10559315B2 (en) * | 2018-03-28 | 2020-02-11 | Qualcomm Incorporated | Extended-range coarse-fine quantization for audio coding |
CN117476013A (zh) * | 2022-07-27 | 2024-01-30 | 华为技术有限公司 | 音频信号的处理方法、装置、存储介质及计算机程序产品 |
CN118053437A (zh) * | 2022-11-17 | 2024-05-17 | 抖音视界有限公司 | 音频编码方法、解码方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1689226A (zh) * | 2002-09-18 | 2005-10-26 | 瑞典商编码技术股份公司 | 实质滤波器段中降低因光谱包络调整所生混叠的方法 |
CN1998046A (zh) * | 2004-11-02 | 2007-07-11 | 编码技术股份公司 | 改善基于预测的多声道重构的性能的方法 |
WO2009059632A1 (en) * | 2007-11-06 | 2009-05-14 | Nokia Corporation | An encoder |
WO2010042024A1 (en) * | 2008-10-10 | 2010-04-15 | Telefonaktiebolaget Lm Ericsson (Publ) | Energy conservative multi-channel audio coding |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01233496A (ja) | 1988-03-15 | 1989-09-19 | Fujitsu Ltd | 多チャンネルa/d変換装置 |
EP0525809B1 (en) * | 1991-08-02 | 2001-12-05 | Sony Corporation | Digital encoder with dynamic quantization bit allocation |
JPH09172376A (ja) | 1995-12-20 | 1997-06-30 | Hitachi Ltd | 量子化ビット割当て装置 |
EP0878790A1 (en) | 1997-05-15 | 1998-11-18 | Hewlett-Packard Company | Voice coding system and method |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
JP4021124B2 (ja) | 2000-05-30 | 2007-12-12 | 株式会社リコー | デジタル音響信号符号化装置、方法及び記録媒体 |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
US9454974B2 (en) * | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
ATE500588T1 (de) * | 2008-01-04 | 2011-03-15 | Dolby Sweden Ab | Audiokodierer und -dekodierer |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
US8352279B2 (en) * | 2008-09-06 | 2013-01-08 | Huawei Technologies Co., Ltd. | Efficient temporal envelope coding approach by prediction between low band signal and high band signal |
-
2011
- 2011-02-09 BR BR112013016350A patent/BR112013016350A2/pt not_active Application Discontinuation
- 2011-02-09 US US13/982,515 patent/US9280980B2/en active Active
- 2011-02-09 CN CN201180067275.1A patent/CN103380455B/zh active Active
- 2011-02-09 JP JP2013553392A patent/JP5719941B2/ja active Active
- 2011-02-09 WO PCT/SE2011/050146 patent/WO2012108798A1/en active Application Filing
- 2011-02-09 AU AU2011358654A patent/AU2011358654B2/en not_active Ceased
- 2011-02-09 EP EP11858302.0A patent/EP2673771B1/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1689226A (zh) * | 2002-09-18 | 2005-10-26 | 瑞典商编码技术股份公司 | 实质滤波器段中降低因光谱包络调整所生混叠的方法 |
CN1998046A (zh) * | 2004-11-02 | 2007-07-11 | 编码技术股份公司 | 改善基于预测的多声道重构的性能的方法 |
WO2009059632A1 (en) * | 2007-11-06 | 2009-05-14 | Nokia Corporation | An encoder |
WO2010042024A1 (en) * | 2008-10-10 | 2010-04-15 | Telefonaktiebolaget Lm Ericsson (Publ) | Energy conservative multi-channel audio coding |
Also Published As
Publication number | Publication date |
---|---|
AU2011358654B2 (en) | 2017-01-05 |
JP5719941B2 (ja) | 2015-05-20 |
JP2014510938A (ja) | 2014-05-01 |
EP2673771A1 (en) | 2013-12-18 |
CN103380455A (zh) | 2013-10-30 |
BR112013016350A2 (pt) | 2018-06-19 |
US20130317811A1 (en) | 2013-11-28 |
EP2673771B1 (en) | 2016-06-01 |
US9280980B2 (en) | 2016-03-08 |
WO2012108798A1 (en) | 2012-08-16 |
EP2673771A4 (en) | 2015-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103380455B (zh) | 对音频信号的高效编码/解码 | |
AU2018217299B2 (en) | Improving classification between time-domain coding and frequency domain coding | |
KR101664434B1 (ko) | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 | |
US8527265B2 (en) | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs | |
KR101139172B1 (ko) | 스케일러블 음성 및 오디오 코덱들에서 양자화된 mdct 스펙트럼에 대한 코드북 인덱스들의 인코딩/디코딩을 위한 기술 | |
AU2011358654A1 (en) | Efficient encoding/decoding of audio signals | |
KR101797033B1 (ko) | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 | |
US20100274555A1 (en) | Audio Coding Apparatus and Method Thereof | |
CA2457988A1 (en) | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization | |
KR101387808B1 (ko) | 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치 | |
US20100280830A1 (en) | Decoder | |
KR101798084B1 (ko) | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 | |
KR101770301B1 (ko) | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 | |
EP4046155A1 (en) | Methods and system for waveform coding of audio signals with a generative model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |