CN102396024A

CN102396024A - 使用自适应正弦波脉冲编码的用于音频信号的编码/解码方法及其设备

Info

Publication number: CN102396024A
Application number: CN2010800168290A
Authority: CN
Inventors: 李美淑; 裵贤珠; 李炳墡
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2009-02-16
Filing date: 2010-02-16
Publication date: 2012-03-28
Also published as: KR20100093504A; EP2645367A2; WO2010093224A2; KR101441474B1; EP2398017B1; JP2014170232A; EP2645367A3; EP2398017A2; US9251799B2; US20140310007A1; JP5520967B2; US20110301961A1; JP5863868B2; WO2010093224A3; JP2012518194A; US8805694B2; EP2645367B1; CN103366755A; CN103366755B; EP2398017A4

Abstract

本发明涉及一种使用自适应正弦波形脉冲编码的用于音频信号的编码/解码方法及其设备。根据本发明实施例的用于音频信号的编码方法包括：将音频信号划分为多个子带的步骤；单独地操作每个子带的能量的步骤；按照预定数目来从所有子带之中选择具有相对较大能量的子带的步骤；以及针对所选择的子带来执行整形波形脉冲编码的步骤。本发明具有以下效果，即通过在考虑到合成信号的每个子带的能量数量的情况下应用正弦波形脉冲编码来有效地增加合成信号的质量。

Description

使用自适应正弦波脉冲编码的用于音频信号的编码/解码方法及其设备

技术领域

本发明的示范实施例涉及一种用于对音频信号进行编码和解码的方法和设备；且更具体地，涉及一种用于使用自适应正弦脉冲编码来对音频信号进行编码和解码的方法和设备。

背景技术

由于用于数据传送的带宽随着通信技术的发展而增加，所以用户对于使用多声道语音和音频的高质量服务的需求正在增加。首先，高质量语音和音频服务的提供需要能够有效地对立体声语音和音频信号进行压缩和解压缩的编码技术。

因此，对于用于编码窄带(NB：300-3,400赫兹(Hz))、宽带(WB：50-7,000Hz)、和超宽带(SWB：50-14,000Hz)信号的编解码器的扩展研究正在进行中。例如，ITU-T G.729.1是代表性扩展编解码器，其是基于G.729的WB扩展编解码器(NB编解码器)。此编解码器按照8千比特/秒(kbit/s)来提供与G.729的比特流级别的兼容性，并且按照12千比特/秒来提供较好质量的NB信号。在14-32千比特/秒的范围中，编解码器可以对具有2千比特/秒的比特率可伸缩性的WB信号进行编码，并且输出信号的质量随着比特率增加而改善。

近来，正在开发能够基于G.729.1提供SWB信号的扩展编解码器。此扩展编解码器可以对NB、WB和SWB信号进行编码和解码。

在这种扩展编解码器中，正弦脉冲编码可以用于改善所合成信号的质量。当使用正弦脉冲编码时，需要考虑输入信号的能量，以增加编码效率。具体地，当可用于正弦脉冲编码的比特的数目不足时，有效的是，优先编码对于所合成信号的质量具有较大影响的频带(即，具有相对大量能量的频带)。

发明内容

技术问题

本发明的实施例针对一种用于对音频信号进行编码和解码的方法和设备，其可以使用正弦脉冲编码来改善合成信号的质量。

本发明的另一实施例针对一种用于对音频信号进行编码和解码的方法和设备，其可以通过基于对于合成信号的每个子带的能量数量的考虑、而应用正弦脉冲编码，来更加有效地改善合成信号的质量。

本发明的目的不限于上述的目的，并且本发明的其他目的和优点可以通过以下描述来理解，并可以参考本发明的实施例而变得明显。同样，对于本发明所属技术领域的技术人员显而易见的是，可以通过所要求保护的手段及其组合来实现本发明的目的和优点。

技术解决方案

根据本发明的实施例，一种用于对音频信号进行编码的方法包括：将所转换的音频信号划分为多个子带；计算所述子带中的每个子带的能量；从所述子带中选择具有相对大量能量的预定数目的子带；以及对于所选择的子带执行正弦脉冲编码。

根据本发明的另一实施例，一种用于对音频信号进行编码的设备包括：输入单元，被配置为接收所转换的音频信号；计算单元，被配置为将所合成的音频信号划分为多个子带，计算所述子带中的每个子带的能量，并且从所述子带中选择具有相对大量能量的预定数目的子带；以及编码单元，被配置为对于所选择的子带执行正弦脉冲编码。

根据本发明的另一实施例，一种用于对音频信号进行解码的方法包括：接收所转换的音频信号；将所编码的音频信号划分为多个子带；计算所述子带中的每个子带的能量；从所述子带中选择具有相对大量能量的预定数目的子带；以及对于所选择的子带执行正弦脉冲解码。

根据本发明的另一实施例，一种用于对音频信号进行解码的设备包括：输入单元，被配置为接收所转换的音频信号；计算单元，被配置为将所编码的音频信号划分为多个子带，计算所述子带中的每个子带的能量，并且从所述子带中选择具有相对大量能量的预定数目的子带；以及解码单元，被配置为对于所选择的子带执行正弦脉冲解码。

根据本发明的另一实施例，一种用于对音频信号进行编码的方法包括：接收音频信号；对于该音频信号执行改进的离散余弦变换(MDCT)，以输出MDCT系数；使用该MDCT系数来对高频音频信号进行合成；以及对于该高频音频信号执行正弦脉冲编码。

根据本发明的另一实施例，一种用于对音频信号进行编码的设备包括：输入单元，被配置为接收音频信号；MDCT单元，被配置为对于该音频信号执行MDCT，以输出MDCT系数；合成单元，被配置为使用该MDCT系数来对高频音频信号进行合成；以及正弦脉冲编码单元，被配置为对于该高频音频信号执行正弦脉冲编码。

根据本发明的另一实施例，一种用于对音频信号进行解码的方法包括：接收音频信号；对于该音频信号执行MDCT，以输出MDCT系数；使用该MDCT系数来对高频音频信号进行合成；以及对于该高频音频信号执行正弦脉冲解码。

根据本发明的另一实施例，一种用于对音频信号进行解码的设备包括：输入单元，被配置为接收音频信号；MDCT单元，被配置为对于该音频信号执行MDCT，以输出MDCT系数；合成单元，被配置为使用该MDCT系数来对高频音频信号进行合成；以及正弦脉冲解码单元，被配置为对于该高频音频信号执行正弦脉冲解码。

有益效果

根据本发明的示范实施例，使用正弦脉冲编码来改善合成信号的质量。

另外，基于对于合成信号的每个子带的能量数量的考虑的正弦脉冲编码的应用更加有效地改善了合成信号的质量。

附图说明

图1示出了用于提供与NB编解码器的兼容性的SWB扩展编解码器的结构。

图2示出了根据本发明实施例的音频信号编码设备的构造。

图3示出了根据本发明实施例的音频信号解码设备的构造。

图4是示出了根据本发明实施例的音频信号编码方法的流程图。

图5是示出了根据本发明实施例的执行正弦脉冲编码的步骤(图4中的S410)的流程图。

图6是示出了根据本发明实施例的音频信号解码方法的流程图。

图7示出了传统的正弦脉冲编码与根据本发明的自适应正弦脉冲编码的结果之间的比较。

图8示出了根据本发明另一实施例的音频信号编码设备的构造。

图9示出了根据本发明另一实施例的音频信号解码设备的构造。

具体实施方式

下面，将参考附图来更加详细地描述本发明的示范实施例。然而，本发明可以按照不同的形式来实施，并且不应被诠释为限于在这里提出的实施例。相反地，提供这些实施例，使得本公开将是彻底和完全的，并将向本领域技术人员充分地传达本发明的范围。贯穿整个公开中，贯穿本发明的各个图和实施例中，同样的附图标记表示同样的部分。

一般地，扩展编解码器具有以下构造，其中将输入信号划分为多个频带，并且对相应频带中的信号进行编码或解码。参考图1，将输入信号输入到初级低通滤波器102和初级高通滤波器104。将初级低通滤波器102配置为执行滤波和下采样，使得输出输入信号的低频带信号A(0-8千赫兹(kHz))。将初级高通滤波器104配置为执行滤波和下采样，使得输出输入信号的高频带信号B(8-16kHz)。

将从初级低通滤波器102输出的低频带信号A输入到次级低通滤波器106和次级高通滤波器108。将次级低通滤波器106配置为执行滤波和下采样，使得输出低低频带信号A1(0-4kHz)。将次级高通滤波器108配置为执行滤波和下采样，使得输出低高频带信号A2(4-8kHz)。

结果，将低低频带信号A1输入到NB编码模块110，将低高频带信号A2输入到WB扩展编码模块112，并且将高频带信号B输入到SWB扩展编码模块114。当NB编码模块110单独地进行操作时，仅仅重新生成NB信号，并且当NB编码模块110和WB扩展编码模块112两者进行操作时，重新生成WB信号。当NB编码模块110、WB扩展编码模块112和SWB扩展编码模块114全部都进行操作时，重新生成SWB信号。

图1所示的扩展编解码器的代表性示例可以是ITU-T G.729.1，其是基于G.729的WB扩展编解码器(NB编解码器)。此编解码器按照8kbit/s来提供与G.729的比特流级别的兼容性，并且按照12kbit/s来提供质量被大大改善的NB信号。在14-32kbit/s的范围中，编解码器可以对具有2kbit/s的比特率可伸缩性的WB信号进行编码，并且输出信号的质量由于比特率增加而改善。

近来，正在开发能够基于G.729.1来提供SWB质量的扩展编解码器。此扩展编解码器可以对NB、WB和SWB信号进行编码和解码。

在这种扩展编解码器中，可以将不同的编码方案应用于如图1所示的相应频带。例如，G.729.1和G.711.1编解码器采用其中使用传统的NB编解码器(即，G.729和G.711)来对NB信号进行编码的编码方案，并且对于剩余信号执行改进的离散余弦变换(MDCT)，使得对所输出的MDCT系数进行编码。

在MDCT域编码的情况下，将MDCT系数划分为多个子带，对每个子带的增益和形状进行编码，并且使用代数码激励线性预测(ACELP)或正弦脉冲来对MDCT系数进行编码。扩展编解码器一般具有以下结构，其中首先对用于带宽扩展的信息进行编码，并然后对用于质量改善的信息进行编码。例如，使用每个子带的增益和形状来对7-14kHz频带中的信号进行合成，并且使用ACELP或正弦脉冲编码来改善合成信号的质量。

具体地，在用于提供SWB质量的第一层中，使用诸如增益和形状之类的信息来对与7-14kHz波段对应的信号进行合成。然后，使用附加比特来应用例如正弦脉冲编码，以改善合成信号的质量。由于比特率增加，所以此结构可以改善合成信号的质量。

一般地，在正弦脉冲编码的情况下，对与在给定间隔中具有最大幅度的脉冲(即，对于质量具有最大影响的脉冲)的位置、幅度和符号有关的信息进行编码。计算的数量与这种脉冲搜索间隔成比例地增加。因此，取代了将正弦脉冲编码应用于整个帧(在时域的情况下)或整个频带，优选地将正弦脉冲编码应用于每个子帧或子带。正弦脉冲编码的有利之处在于，尽管需要相对大数目的比特来传送一个脉冲，但是可以准确地表达影响信号质量的信号。

输入到编解码器的信号的能量分布取决于频率而变化。具体地，在音乐信号的情况下，频率方面的能量变化比在语音信号的情况下更加严重。具有大量能量的子带中的信号对于合成信号的质量具有更大的影响。如果存在足够的比特来对整个子带进行编码，则将不会存在问题，但是如果并非如此，则有效的是，优先编码对于合成信号的质量具有大影响的子带中的(即，具有大量能量的)信号。

本发明针对音频信号的编码和解码，其可以在如图1所示的扩展编解码器的情况下，通过基于对于有限比特数目的考虑执行更有效的正弦脉冲编码，来改善合成信号的质量。在下文中，在本发明的以下描述中将简单地把语音和音频信号称作音频信号。

图2示出了根据本发明实施例的音频信号编码设备的构造。

参考图2，音频信号编码设备202包括输入单元204、计算单元206和编码单元208。将输入单元204配置为接收所转换的音频信号，例如作为通过MDCT进行的音频信号的转换的结果的MDCT系数。

将计算单元206配置为将已经通过输入单元204所输入的、转换后的音频信号划分为多个子带，并且计算每个子带的能量。将计算单元206配置为从子带中选择具有相对大量能量的、预定数目的子带。该预定数目通过要在一个子带中进行编码的正弦脉冲的数目和用于对一个正弦脉冲进行编码所必需的比特数目来确定。

将编码单元208配置为对于计算单元206所选择的子带执行正弦脉冲编码。编码单元208可以按照能量数量的顺序，对于具有相对大量能量的、预定数目的子带来执行正弦脉冲编码。根据本发明的另一实施例，编码单元208可以按照除了能量数量的顺序之外的顺序(例如，按照带宽或索引的顺序)，对于具有相对大量能量的、预定数目的子带来执行正弦脉冲编码。

计算单元206可以确认在所选择的子带之中是否存在相邻的子带，并且将相邻的子带合并为一个子带。然后，编码单元208可以然后对于这样所合并的子带来执行正弦脉冲编码。

图3示出了根据本发明实施例的音频信号解码设备的构造。

参考图3，音频信号解码设备302包括输入单元304、计算单元306和解码单元308。将输入单元204配置为接收所转换的音频信号，例如，MDCT系数。

将计算单元306配置为将已经通过输入单元304所输入的、转换后的音频信号划分为多个子带，并且计算每个子带的能量。将计算单元306配置为从子带中选择具有相对大量能量的、预定数目的子带。该预定数目通过要在一个子带中进行编码的正弦脉冲的数目和用于对一个正弦脉冲进行编码所必需的比特数目来确定。

将解码单元308配置为对于计算单元306所选择的子带来执行正弦脉冲解码。解码单元308可以按照能量数量的顺序，对于具有相对大量能量的、预定数目的子带来执行正弦脉冲编码。根据本发明的另一实施例，解码单元308可以按照除了能量数量的顺序之外的顺序(例如，按照带宽或索引的顺序)，对于具有相对大量能量的、预定数目的子带来执行正弦脉冲编码。

图2和3所示的音频信号编码设备202和音频信号解码设备302可以包括在图1所示的NB编码模块110、WB扩展编码模块112或SWB扩展编码模块114中。

在下文中，将结合图1所示的SWB扩展编码模块114进行的音频信号的示范编码或解码，参考图4到6来描述根据本发明实施例的用于对音频信号进行编码和解码的方法。

SWB扩展编码单元114将与7-14kHz对应的MDCT系数划分为多个子带，并且对每个子带的增益和形状进行编码或解码，以获得误差信号。然后，SWB扩展编码模块114对于误差信号来执行正弦脉冲编码或解码。如果存在充足数目的比特要用于正弦脉冲编码，则正弦脉冲编码可以应用于每个子带。然而，由于比特数目在大多数的情况下都很难是充足的，所以仅仅对于有限数目的子带来应用正弦脉冲编码。因此，将正弦脉冲编码应用于对于合成信号的质量具有较大影响的子带保证了在给定相同比特率的情况下获得较好的信号质量。

参考图4，在步骤S402中，在SWB扩展编码模块114中包括的音频信号编码设备接收所转换的音频信号，例如，与7-14kHz对应的MDCT系数。该设备在步骤S404中将所接收到的转换后的音频信号划分为多个子带，并且在步骤S406中对所述多个子带中的每一个子带的能量进行计算。图7示出了被划分为九个子带的MDCT系数、以及每个子带的能量的相对数量。根据图7所清楚的是，子带1、4、5、6和7的能量的数量大于其他子带的能量数量。

下面，表1列举了已经被划分为八个子带的MDCT系数的索引和能量。

表1

索引	1	2	3	4	5	6	7	8
									能量	350	278	657	245	1500	780	200	190

在步骤S408中，音频信号编码设备从所述子带中选择具有大量能量的、预定数目的子带。例如，如下面的表2所示，按照能量的顺序来对表1的MDCT系数进行归类，并且从它们中选择具有最大能量数量的五个子带(其用阴影表示)。

表2

索引	5	6	3	1	2	4	7	8
									能量	1500	780	657	350	278	245	200	190

根据本发明，如表2所示地选择预定数目的(例如，五个)子带。该预定数目通过要在一个子带中进行编码的正弦脉冲的数目和用于对一个正弦脉冲进行编码所必需的比特的数目来确定。

如下地确定用于对一个正弦脉冲进行编码所必需的比特的数目：需要一个比特来对一个正弦脉冲的符号(+，-)进行编码。通过正弦脉冲搜索间隔的尺寸(例如，一个子带的尺寸)来确定用于对正弦脉冲的位置进行编码所需的比特的数目。如果子带的尺寸是32，则需要五个比特来对正弦脉冲的位置进行编码(2⁵＝32)。通过量化器的结构和和代码本的尺寸来确定用于对正弦脉冲的幅度(增益)进行编码所需的比特的数目。综上，用于对一个正弦脉冲进行编码所必需的比特的数目是用于对正弦脉冲的符号、位置和幅度进行编码所需的比特的总数。

将假设：在已经确认了针对正弦脉冲编码所给定的比特的数目和用于对一个正弦脉冲进行编码所必需的比特的数目的情况下，可以传送十个正弦脉冲。当针对每个子带来对两个正弦脉冲进行编码时，可以将正弦脉冲编码应用于总共五个子带。因此，音频信号编码设备如表2所示地选择具有最大数量能量的五个子带，并且在步骤S410中对于所选择的子带5、6、3、1和2来执行正弦脉冲编码。

根据本发明的另一实施例，在步骤S502中确认在图4的步骤S408中所选择的子带之中是否存在相邻的子带。在步骤S504中将相邻的子带合并为一个子带，并且在步骤S506中对于所合并的子带执行正弦脉冲编码。

例如，假设已经如表2所示地选择了五个子带5、6、3、1和2，则确认子带5是否具有在所选择的子带之中的相邻的子带，即子带4或6。确认出这五个子带中包括与子带5相邻的子带6。因此，取代了对用于子带5和6中的每一个的两个正弦脉冲进行编码，音频信号编码设备将两个子带合并为单一子带，并且对于该单一子带来对四个正弦脉冲进行编码。例如，如果子带5比子带6具有更大数量的能量，则所有的四个正弦脉冲都可位于所合并的子带中的子带5中。照这样，对相邻的子带进行合并并且将正弦脉冲编码应用于所合并的子带保证了更加有效的正弦脉冲编码。

其间，取决于编解码器的特性，编码器和解码器所合成的7-14kHz波段中的信号可能彼此不一致。为了减少由于编码器和解码器所分别计算的子带的能量的差异所产生的误差，音频信号编码设备可以重新安排子带，如下面表3所示，并且执行正弦脉冲编码。

表3

索引	1	2	3	5	6	4	7	8
									能量	350	278	657	1500	780	245	200	190

即，取代了按照能量数量的顺序而对于五个子带执行正弦脉冲编码，音频信号编码设备可以按照带宽或索引的顺序来执行正弦脉冲编码。照这样，不考虑所选择的子带的能量数量的顺序减少了由于可能在编码器和解码器中出现的较高频带合成信号的差异所产生的误差。

首先，在步骤S602中接收所转换的音频信号。在步骤S604中，将所转换的音频信号划分为多个子带，并且在步骤S606中计算每个子带的能量。

在步骤S608中，从子带中选择具有大量能量的、预定数目的子带，并且在步骤S610中对于所选择的子带执行正弦脉冲解码。图6的步骤S602到S610与上述的根据本发明实施例的音频信号编码方法的相应步骤相似，并且在这里将省略其详细描述。

图7示出了传统的正弦脉冲编码与根据本发明实施例的自适应正弦脉冲编码的结果之间的比较。

在图7中，(a)对应于传统正弦脉冲编码的结果。根据图7所示的每个子带的能量的相对数量的比较所清楚的是，子带1、4、5、6和7的能量的数量比其他子带的能量数量更大。然而，传统正弦脉冲编码按照带宽或索引的顺序来应用脉冲编码，而与子带的能量数量无关，使得相对于子带1、2、3、4和5来对正弦脉冲进行编码，如图(a)所示。

在图7中，(b)对应于根据本发明的自适应正弦脉冲编码的结果。根据(b)所清楚的是，根据本发明，将正弦脉冲编码应用于具有相对大量能量的子带，即，子带1、4、5、6和7。

如上所述，本发明可应用于包括语音的音频信号。语音信号的能量分布如下：浊音(voiced)声音具有大多数都位于低频带中的能量，而清音(unvoiced)和爆破音(plosive)声音具有位于相对高频带中的能量。相反，音乐信号的能量取决于频率而极大地变化。这意味着，与语音信号不同地，难以在频带的方面对音乐信号的能量分布的特性进行定义。合成信号的质量受到具有大量能量的频带中的信号的更大影响。因此，取代了对要应用正弦脉冲编码的子带进行固定，如本发明所提出的，根据输入信号的特性来选择子带并且相应地应用正弦脉冲编码可以改善按照相同的比特率所合成的信号的质量。

现在，将参考图8和9来描述根据本发明另一实施例的用于对音频信号进行编码和解码的方法和设备。

将图8所示的音频信号编码设备配置为接收32kHz的输入信号，并且合成和输出WB和SWB信号。音频信号编码设备包括WB扩展编码模块802、808和822以及SWB扩展编码模块804、806、810和812。WB扩展模块(具体地，G.729.1核心编解码器)使用16kHz信号来进行操作，而SWB扩展编码模块使用32kHz信号。在MDCT域中执行SWB扩展编码。使用两个模式(即，一般(generic)模式814和正弦模式816)来对SWB扩展编码模块的第一层进行编码。基于输入信号的所测量的音调(tonality)，来做出关于要使用一般模式和正弦模式814和816中的哪一个的确定。通过用于改善高频内容的质量的正弦编码单元818和820，或者通过用于改善WB内容的感知质量的WB信号改善单元822，来对较高SWB波段进行编码。

首先，将32kHz的输入信号输入到下采样单元802中，并且将它下采样到16kHz。将下采样的16kHz信号输入到G.729.1编解码器808。G.729.1编解码器808对于所输入的16kHz信号执行WB编码。将从G.729.1编解码器808所输出的合成后的32kbit/s信号输入到WB信号改善单元822，并且WB信号改善单元822改善输入信号的质量。

另一方面，将32kHz输入信号输入到MDCT单元806，并且将它转换到MDCT域中。在步骤S810中，将转换到MDCT域中的输入信号输入到音调测量单元804，以确定输入信号是否是音调的。换言之，基于音调测量来定义第一SWB层中的编码模式，该音调测量是通过在MDCT域中对输入信号的当前帧和先前帧的对数域能量进行比较来执行的。音调测量基于输入信号的当前帧和先前帧的谱峰值之间的相关性分析。

在步骤S810中，基于音调测量单元804所输出的音调信息，确定输入信号是否是音调的。例如，如果音调信息高于给定的阈值，则确认该输入信号是音调的，并且如果并非如此，则确认该输入信号不是音调的。还将该音调信息包括在传输到解码器的比特流中。如果输入信号是音调的，则使用正弦模式816，并且如果并非如此，则使用一般模式814。

当输入信号的帧不是音调的(音调(tonal)＝0)时，使用一般模式814。一般模式814利用G.729.1WB编解码器808的编码MDCT域表达式，来对高频进行编码。将高频频带(7-14kHz)划分为四个子带，并且从编码后的、包络的归一化WB内容中搜索与每个子带有关的所选择的相似性准则。通过两个缩放(scaling)因子(具体地，线性域的第一缩放因子和对数域的第二缩放因子)来对最相似的匹配进行缩放，以获取所合成的高频内容。还通过正弦编码单元818和一般模式814内的附加正弦脉冲来改善此内容。

在一般模式814中，可以通过根据本发明的音频编码方法来改善所编码信号的质量。例如，比特预算(budget)允许将两个正弦脉冲添加到4kbit/s的第一SWB层。基于所合成的高频信号的子带能量来选择轨道的开始位置，使用该开始位置来搜索要添加的正弦脉冲的位置。可以根据下面的等式1来计算合成子带的能量。

SbE (k) = Σ_{n = 0}^{n = 31} {\overset{. .}{M}}_{32} {(k \times 32 + n)}^{2}, k = 0, . . ., 7

(等式1)

其中，k是指子带索引，SbE(k)是指第k子带的能量，而

是指所合成的高频信号。每个子带由32个MDCT系数组成。作为用于正弦编码的搜索轨道来选择具有相对大量能量的子带。例如，搜索轨道可以包括具有单位尺寸1的32个位置。在此情况下，搜索轨道与子带相符。

分别通过4比特、一维代码本来对两个正弦脉冲的幅度进行量化。

当输入信号是音调的时，使用正弦模式816。在正弦模式816中，通过将一组有限数目的正弦分量添加到高频频谱，来创建高频信号。例如，假设添加总共十个正弦脉冲，则四个正弦脉冲可以位于7000-8600Hz的频率范围中，四个正弦脉冲可以位于8600-10200Hz的频率范围中，一个正弦脉冲可以位于10200-11800Hz的频率范围中，并且一个正弦脉冲可以位于11800-12600Hz的频率范围中。将正弦编码单元818和820配置为改善一般模式814或正弦模式816所输出的信号的质量。正弦编码单元818和820所添加的正弦脉冲的数目(Nsin)取决于比特预算而变化。基于高频内容的子带能量来选择用于正弦编码单元818和820进行正弦编码的轨道。

例如，将7000-13400Hz的频率范围中的所合成的高频内容划分为八个子带。每个子带由32个MDCT系数组成，并且可以根据等式1来计算每个子带的能量。

通过找到与Nsin/Nsin_track一样多的具有相对大量能量的子带，来选择用于正弦编码的轨道。对此，Nsin_track是指每个轨道的正弦脉冲的数目，并且被设置为2。所选择的(Nsin/Nsin_track)个子带分别对应于用于正弦编码所使用的轨道。例如，假设Nsin是4，则最初两个正弦脉冲位于具有最大数量子带能量的子带中，而剩余的两个正弦脉冲位于具有次大数量能量的子带中。用于正弦编码的轨道位置取决于可用的比特预算和高频信号能量特性而逐帧地变化。

将图9所示的音频信号解码设备配置为接收该编码设备已经编码的WB和SWB信号，并且输出对应的32kHz信号。音频信号解码设备包括WB扩展解码模块902、914、916和918以及SWB扩展解码模块902、920和922。将WB扩展解码模块配置为对所输入的16kHz信号进行解码，并且将SWB扩展解码模块配置为对高频进行解码，以提供32kHz输出。使用两个模式(具体地，一般模式906和正弦模式908)来对扩展的第一层进行解码，并且此操作取决于首先解码的音调指示符。第二层使用与编码器相同的比特分配，以改善WB信号，并且在附加的正弦脉冲之间分布比特。第三SWB层由正弦解码单元910和912组成，并且这改善了高频内容的质量。第四和第五扩展层提供WB信号改善。为了改善所合成的SWB内容，在时域中使用后处理。

将编码设备所编码的信号输入到G.729.1编解码器902。G.729.1编解码器902输出被输入到WB信号改善单元914的、16kHz的合成信号。WB信号改善单元914对所输入的信号的质量进行改善。从WB信号改善单元914输出的信号经历后处理单元916进行的后处理和上采样单元918所进行的上采样。

其间，在开始高频解码以前，需要对WB信号进行合成。通过G.729.1编解码器902来执行这种合成。在高频信号解码的情况下，在应用一般的后处理功能以前使用32kbit/s WB合成。

高频信号的解码通过从G.729.1WB解码中获取所合成的MDCT域表达式而开始。需要MDCT域WB内容来对一般编码帧的高频信号进行解码，并且通过从WB频率范围自适应地复制所编码的子带，来构造此情况下的高频信号。

一般模式906通过自适应子带复制来构造高频信号。此外，将两个正弦分量添加到最初4kbit/s SWB扩展层的频谱。一般模式906和正弦模式908利用基于正弦模式解码技术的相似增强层。

在一般模式906中，可以通过根据本发明的音频解码方法来改善所解码的信号的质量。一般模式906将两个正弦分量添加到所重构的整个高频频谱。在位置、符号和幅度方面表达这些正弦脉冲。如上所述，从具有相对大量能量的子带的索引中获取用于添加正弦脉冲所使用的轨道的开始位置。

在正弦模式908中，通过一组有限数目的正弦分量来创建高频信号。例如，假设添加总共十个正弦脉冲，则四个正弦脉冲可以位于7000-8600Hz的频率范围中，四个正弦脉冲可以位于8600-10200Hz的频率范围中，一个正弦脉冲可以位于10200-11800Hz的频率范围中，并且一个正弦脉冲可以位于11800-12600Hz的频率范围中。

将正弦解码单元902和912配置为改善通过一般模式906或正弦模式908所输出的信号的质量。第一SWB改善层将十个正弦分量添加到正弦模式帧的高频信号频谱。在一般模式帧中，根据低频与高频改善之间的自适应比特分配，来设置所添加的正弦分量的数目。

正弦解码单元910和912进行的解码的处理如下：首先，从比特流中获取正弦脉冲的位置。然后，对该比特流进行解码，以获得所传送的符号索引和幅度代码本索引。

通过找到与Nsin/Nsin_track一样多的具有相对大量能量的子带，来选择用于正弦解码的轨道。对此，Nsin_track是指每个轨道的正弦脉冲的数目，并且被设置为2。所选择的(Nsin/Nsin_track)个子带分别对应于用于正弦解码的轨道。

初始地从该比特流中获得与相应的对应轨道相关的十个正弦脉冲的位置索引。然后，对这十个正弦脉冲的符号进行解码。最终，对正弦脉冲的幅度(三个8比特代码本索引)进行解码。

正弦解码单元910和912已经这样改善其质量的信号经历IMDCT 920进行的逆MDCT和后处理单元922进行的后处理。添加从上采样单元918和后处理单元922所输出的信号，使得输出32kHz输出信号。

尽管已经相对于特定实施例而描述了本发明，但是对于本领域技术人员明显的是，可以做出各种改变和修改，而不脱离由以下权利要求所限定的本发明的精神和范围。

Claims

1.一种用于对音频信号进行编码的方法，包括：

接收所合成的音频信号；

将所合成的音频信号划分为多个子带；

计算所述子带中的每个子带的能量；

从所述子带中选择具有相对大量能量的预定数目的子带；以及

对于所选择的子带执行正弦脉冲编码。

2.根据权利要求1的方法，其中通过要在一个子带中进行编码的正弦脉冲的数目和用于对一个正弦脉冲进行编码所必需的比特数目，来确定该预定数目。

3.根据权利要求1的方法，其中所述对于所选择的子带执行正弦脉冲编码的步骤包括：

确认在所选择的子带之中是否存在相邻的子带；

将所述相邻的子带合并为一个子带；以及

对于所合并的子带执行正弦脉冲编码。

4.根据权利要求1的方法，其中在所述对于所选择的子带执行正弦脉冲编码的步骤中，

按照能量的数量的顺序，对于所选择的子带执行正弦脉冲编码。

5.一种用于对音频信号进行编码的设备，包括：

输入单元，被配置为接收所转换的音频信号；

计算单元，被配置为将所转换的音频信号划分为多个子带，计算所述子带中的每个子带的能量，并且从所述子带中选择具有相对大量能量的预定数目的子带；以及

编码单元，被配置为对于所选择的子带执行正弦脉冲编码。

6.根据权利要求5的设备，其中该计算单元被配置为基于要在一个子带中进行编码的正弦脉冲的数目和用于对一个正弦脉冲进行编码所必需的比特数目，来确定该预定数目。

7.根据权利要求5的设备，其中该计算单元被配置为确认在所选择的子带之中是否存在相邻的子带，并且将所述相邻的子带合并为一个子带，并且

该编码单元被配置为对于所合并的子带执行正弦脉冲编码。

8.根据权利要求5的设备，其中该编码单元被配置为按照能量的数量的顺序，对于所选择的子带执行正弦脉冲编码。

9.一种用于对音频信号进行解码的方法，包括：

接收所转换的音频信号；

将所转换的音频信号划分为多个子带；

计算所述子带中的每个子带的能量；

对于所选择的子带执行正弦脉冲解码。

10.根据权利要求9的方法，其中通过要在一个子带中进行编码的正弦脉冲的数目和用于对一个正弦脉冲进行编码所必需的比特数目，来确定该预定数目。

11.根据权利要求9的方法，其中在所述对于所选择的子带执行正弦脉冲解码的步骤中，

按照能量的数量的顺序，对于所选择的子带执行正弦脉冲解码。

12.一种用于对音频信号进行解码的设备，包括：

输入单元，被配置为接收所转换的音频信号；

解码单元，被配置为对于所选择的子带执行正弦脉冲解码。

13.根据权利要求12的设备，其中该计算单元被配置为基于要在一个子带中进行编码的正弦脉冲的数目和用于对一个正弦脉冲进行编码所必需的比特数目来确定该预定数目。

14.根据权利要求12的设备，其中该解码单元被配置为按照能量的数量的顺序，对于所选择的子带执行正弦脉冲解码。

15.一种用于对音频信号进行编码的方法，包括：

接收音频信号；

对于该音频信号执行改进的离散余弦变换(MDCT)，以输出MDCT系数；

使用该MDCT系数来对高频音频信号进行合成；以及

对于该高频音频信号执行正弦脉冲编码。

16.根据权利要求15的方法，其中所述对于高频音频信号执行正弦脉冲编码的步骤包括：

将该高频音频信号划分为多个子带；

计算所述子带中的每个子带的能量；

对于所选择的子带执行正弦脉冲编码。

17.一种用于对音频信号进行编码的设备，包括：

输入单元，被配置为接收音频信号；

MDCT单元，被配置为对于该音频信号执行MDCT，以输出MDCT系数；

合成单元，被配置为使用该MDCT系数来对高频音频信号进行合成；以及

正弦脉冲编码单元，被配置为对于该高频音频信号执行正弦脉冲编码。

18.根据权利要求17的设备，其中该正弦脉冲编码单元被配置为将该高频信号划分为多个子带，计算所述子带中的每个子带的能量，从所述子带中选择具有相对大量能量的预定数目的子带，并且对于所选择的子带执行正弦脉冲编码。

19.一种用于对音频信号进行解码的方法，包括：

接收音频信号；

对于该音频信号执行MDCT，以输出MDCT系数；

使用该MDCT系数来对高频音频信号进行合成；以及

对于该高频音频信号执行正弦脉冲解码。

20.根据权利要求19的方法，其中所述对于高频音频信号执行正弦脉冲解码的步骤包括：

将该高频信号划分为多个子带；

计算所述子带中的每个子带的能量；

对于所选择的子带执行正弦脉冲解码。

21.一种用于对音频信号进行解码的设备，包括：

输入单元，被配置为接收音频信号；

正弦脉冲解码单元，被配置为对于该高频音频信号执行正弦脉冲解码。

22.根据权利要求21的设备，其中该正弦脉冲解码单元被配置为将该高频信号划分为多个子带，计算所述子带中的每个子带的能量，从所述子带中选择具有相对大量能量的预定数目的子带，并且对于所选择的子带执行正弦脉冲解码。