CN1735928A

CN1735928A - 用于可变速率音频编解码的方法

Info

Publication number: CN1735928A
Application number: CNA2003801084396A
Authority: CN
Inventors: 巴拉兹·科弗西; 多米尼克·马萨卢
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2003-01-08
Filing date: 2003-12-22
Publication date: 2006-02-15
Anticipated expiration: 2023-12-22
Also published as: ES2302530T3; BR0317954A; EP1581930B1; MXPA05007356A; KR20050092107A; US7457742B2; ZA200505257B; CN1735928B; FR2849727B1; WO2004070706A1; FR2849727A1; AU2003299395B2; JP4390208B2; KR101061404B1; ATE388466T1; EP1581930A1; DE60319590D1; DE60319590T2; CA2512179A1; CA2512179C

Abstract

为参数集合定义编码比特的最大数量Nmax，该参数可以从信号帧中计算。计算第一子集的参数，并用N0个比特编码，其中N0＜Nmax。确定分配Nmax－N0个编码比特用于第二子集的参数，并且对这些分配给第二子集的参数的编码比特分级。根据用于第一子集的编码参数，确定对编码比特的分配和/或分级排序。对于全部参数的编码可用的比特的总数N(N0＜N＝Nmax)，选择所述排序中的前N－N0个编码比特所分配的第二子集的参数。计算所述的所选参数并将其编码为N－N0个比特。最后，将用于第一子集的N0个编码比特和用于第二子集的所选参数的N－N0个编码比特引入编码器的输出序列。

Description

用于可变速率音频编解码的方法

技术领域

本发明涉及用于音频信号编解码的设备，更具体地说，旨在用于发送或存储数字压缩的音频信号(语音和/或声音)。

更具体地说，本发明涉及能够提供各种比特速率的音频编码系统，也称为多速率编码系统。这样的系统不同于固定速率的编码器，因为它们可能在处理过程中能够调整编码的比特速率，这特别适合通过异构接入网传送：异构接入网可以是固定接入和移动接入混合的IP类型的网络、高比特速率(ADLS)的网络、低比特速率(RTC，GPRS调制解调器)的网络或者涉及可变容量的终端(手机、PC等)的网络。

背景技术

从本质上，划分为两类多速率编码器：“可交换”多速率编码器和“分层”编码器。

“可交换”多速率编码器依赖于属于技术族(时域编码或频域编码，例如：CELP、正弦编码或变换编码)的编码体系结构，其中同时向编码器和解码器提供比特速率的指示。编码器利用该信息来选择相应的算法和与所选比特速率相关的表。解码器以对称的方式操作。已经提出了许多种可交换多速率编码结构用于音频编码。例如由3GPP组织(“第三代合作伙伴计划”)标准化的移动编码器，电话频带中的NB-AMR(“窄带自适应多速率”，TechnicalSpecification 3GPP TS 26.090，version 5.0.0，June 2002)，或宽带中的WB-AMR(“宽带自适应多速率”，TechnicalSpecification 3GPP TS 26.190，version 5.1.0，December 2001)，就是这样的例子。这些编码器在相当宽的比特速率范围内操作(对于NB-AMR从4.75到12.2kbit/s，对于WB-AMR从6.60到23.85kbit/s)，并且粒度相当大(NB-AMR为8比特速率以及WB-AMR为9比特速率)。然而，为这种灵活性付出的代价是相当高的结构复杂性：能够支持所有这些比特速率，这些编码器必须支持多种不同的选择，各种量化表等。性能曲线随着不断增加的比特速率而增长，但是该过程不是线性的并且某些比特速率本质上优于其它的比特速率。

在所谓的“分层”编码系统中，也称作“可分级”，把来自编码操作的二进制数据分成连续的层次。基础层，也称作“内核”，由二进制单元组成，这些二进制单元是二进制链解码所绝对必需的，并且决定解码的最低质量要求。

接下来的层使之可以不断提高来自解码操作的信号的质量，每新的一层带来解码器可利用的新信息，从而在输出端提供质量不断提高的信号。

分层编码的特殊特征之一是可以提供在发送或存储链的任何级别上的干涉，以便删除一部分二进制链而不必向编码器或解码器提供任何特殊的指示。解码器利用它接收的二进制信息，并产生相应质量的信号。

分层编码结构领域同样引发了许多工作。某种分层编码结构仅仅基于一种编码类型操作，设计成传送分层的编码信息。当附加层提高输出信号的质量而不需要调整带宽时，有人喜欢称为“嵌入式编码器”(例如参见R.D.Lacovo et al.，“Embedded CELP Coding forVariable Bit-Rate Between 6.4 and 9.6kbit/s”，Proc.ICASSP1991，pp.681-686)。然而这种类型的编码器不允许所提出的最低比特速率和最高比特速率之间有很大的差距。

分层常用于逐渐增加信号的带宽：内核提供基带信号，例如电话信号(300-3400Hz)，而接下来的层使额外频带(例如，宽带可达7kHz，HiFi频带可达20kHz或中频，等等)进行编码。子带编码器利用时间/频率变换，如同下面的文献所述，J.P.Princen等人提出的“Subband/transform coding using filter banks designsbased on time domain aliasing cancellation”(Proc.IEEEICASSP-87，pp.2161-2164)以及Y.Mahieux等人提出的“HighQuality Audio Transform Coding at 64 kbit/s”(IEEE Trans.Commun.，Vol.42，No.11，November 1994，pp.3010-3019)，使之具体地执行这样的操作。

此外，对于内核和对附加层进行编码的模块，经常使用不同的编码技术，所以有人称为各种编码级，每一级包括一个子编码器。给定级别的那一级的子编码器或者能够对前一级未编码的部分信号编码，或者能够对前一级的编码残差编码，该残差是由原始信号减去解码后的信号得到。

这种结构的优点是在保证满足质量的情况下使得可以降到相对低的比特速率，而在高比特速率时产生高的质量。特别地，用于低比特速率的技术通常在高比特速率时无效，反之亦然。

这种结构使得可以使用两种不同的技术(例如CELP和时间/频率变换等)，这对于覆盖大范围的比特速率特别有效。

然而，现有技术提出的分层编码结构精确定义了分配给每一个中间层的比特速率。每一层对应一定参数的编码，并且分层二进制链的粒度取决于分配给这些参数的比特速率(典型地，一层每帧可以包含几十量级的比特，信号帧包括信号在给定持续时间段上的一定数量的采样，后面所描述的实施例考虑每帧960个采样对应信号的60ms)。

此外，当解码信号的带宽可以根据二进制单元的分层级别变化时，对线路比特速率的调整会产生影响收听的失真。

发明内容

特别地，本发明旨在提出一种多速率编码解决方案，以减少在利用现存的分层编码和可交换编码情况下引入的缺陷。

因此本发明提出一种把数字音频信号帧编码为二进制输出序列的方法，其中为参数集合定义编码比特的最大数量Nmax，该参数可以根据信号帧来计算，该集合包含第一子集和第二子集。该提出的方法包括以下步骤：

-计算第一子集的参数，并且把这些参数编码为N0个编码比特，使得N0＜Nmax；

-确定分配Nmax-N0个编码比特用于第二子集的参数；以及

-把分配给第二子集的参数的Nmax-N0个编码比特按照确定的顺序排列。

根据第一子集的编码参数，确定对Nmax-N0个编码比特的分配和/或排列顺序。响应二进制输出序列的N个比特的指示，该N个比特可用于所述参数集合的编码，且N0＜N≤Nmax，该编码方法还包括以下步骤：

-选择第二子集的参数，分配按照所述顺序排列的前N-N0个编码比特给这些参数；

-计算第二子集的所选参数，并且对这些参数编码以产生所述排列的前N-N0个编码比特；以及

-把第一子集的N0个编码比特以及第二子集的所选参数的N-N0个编码比特插入到输出序列中。

根据本发明的方法使得能够可以定义一种多速率编码，其至少会在对应每帧的比特数从N0变化到Nmax的范围下操作。

因此可以考虑用“指针”(cursor)概念代替与现有分层编码和可交换编码相关的预定速率的概念，使得可以在最小值(可能对应小于N0的比特数N)和最大值(对应Nmax)之间自由地改变比特速率。这些极值可能离的很远。不管所选的比特速率怎样，该方法在编码的有效性方面都提供良好的性能。

有利地，二进制输出序列的比特数N严格小于Nmax。那么关于编码器值得注意的是，采用的比特分配不是参考编码器的实际输出比特速率，而是参考适合解码器的另一个Nmax。

然而，根据传输信道上可用的瞬时比特速率，可以固定Nmax＝N。像这样的可交换多速率编码器的输出序列可以由解码器处理，解码器不用接收整个序列，只要借助Nmax的已知信息就能够恢复第二子集的编码比特的结构。

另一种情况，其中可以使N＝Nmax，以最大的编码速率存储音频数据。当以较低比特速率读取存储的该内容的N′个比特时，只要N′＞N0，解码器就能够恢复第二子集的编码比特的结构。

分配给第二子集的参数的编码比特的排列顺序可以是预定的顺序。

在优选的实施方式中，分配给第二子集的参数的编码比特的排列顺序是可变的。特别地，它可以是根据至少第一子集的编码参数确定的重要性的降序排列。因此，解码器接收该帧的N′比特的二进制序列，并且N0＜N′＜N＜Nmax，该解码器能够从接收的用于第一子集的编码的N0个比特推出该顺序。

可以以固定的方式执行分配Nmax-N0个比特用于第二子集的参数的编码(在这种情况下，这些比特的排列顺序将依赖于至少第一子集的编码参数)。

在优选的实施方式中，根据第一子集的编码参数，分配Nmax-N0个比特用于第二子集的参数的编码。

有利地，根据第一子集的编码参数，借助于至少一种心理声学准则，确定分配给第二子集的参数的编码比特的这种排列顺序。

第二子集的参数与信号的谱带有关。在这种情况下，有利地，该方法包括步骤：基于第一子集的编码参数估计编码信号的谱包络，以及步骤：通过将听觉感知模型应用于所估计的谱包络来计算频率掩蔽曲线，并且该心理声学准则参考所估计的谱包络的级别，其与每一个谱带中的掩蔽曲线有关。

在一种实施方式中，编码比特以这样的方式在输出序列中排序，即第一子集的N0个编码比特位于第二子集的所选参数的N-N0个编码比特之前，并且第二子集的所选参数的相应编码比特以对于所述编码比特所确定的顺序出现在其中。这使得可以在二进制序列被截短的情况下接收最重要的部分。

数量N可以因帧而变化，特别地例如根据传输资源的可用容量而变化。

可以根据非常灵活的分层或可交换模式使用根据本发明的多速率音频编码，因为要发送的比特数量在任意时刻，也就是说是逐帧的，可以在N0和Nmax之间进行自由的选择。

第一子集的参数的编码的比特速率可以是可变的，由此数量N0因帧而变化。这允许根据要编码的帧把比特分配调整到最佳。

在一种实施方式中，第一子集包括由编码器内核计算的参数。有利地，编码器内核的工作频带低于要编码的信号的带宽，并且第一子集还包括音频信号的能级，该能级与高于编码器内核的工作频带的频带相关联。这种类型的结构是具有两级的分层编码器，例如它经由编码器内核传送认为满足一定质量的信号，并且根据可变的比特速率，补充由具有附加信息的编码器内核执行的编码，该附加信息来自根据本发明的编码方法。

优选地，第一子集的编码比特然后以这样的方式在输出序列中排序，即由编码器内核所计算的参数的编码比特，其后紧跟与较高频带相关联的能级的编码比特。只要解码器接收足够的比特，这些比特具有编码器内核的信息以及与较高频带相关联的编码能级的信息，这样对于连续编码的帧可以保证同一带宽。

在一种实施方式中，估计要编码的信号和合成信号之间的差分信号，该合成信号源自由编码器内核所产生的编码参数，并且第一子集还包括差分信号的能级，该能级与包括在编码器内核的工作频带中的频带相关联。

本发明的第二个方面是关于解码二进制输入序列的方法，以便合成数字音频信号，对应于对根据本发明的编码方法编码的帧的解码。根据该方法，为参数集合定义编码比特的最大数量Nmax，用于描述信号帧，该集合包括第一子集和第二子集。对于一个信号帧，输入序列包括N′个编码比特用于参数集合，并且N′≤Nmax。根据本发明的解码方法包括以下步骤：

-从输入序列的所述N′个比特中，提取第一子集的参数的N0个编码比特，假设N0＜N′；

-基于提取的所述N0个编码比特，恢复第一子集的参数；

-确定分配Nmax-N0个编码比特用于第二子集的参数；以及

-将分配给第二子集的参数的Nmax-N0个编码比特按照确定的顺序排列。

根据第一子集的所恢复的参数，确定对Nmax-N0个编码比特的分配和/或排列顺序，该解码方法还包括以下步骤：

-选择第二子集的参数，分配按照所述顺序排列的前N′-N0个编码比特给这些参数；

-从输入序列的所述N′个比特中，提取第二子集的所选参数的N′-N0个编码比特；

-基于提取的所述N′-N0个编码比特，恢复第二子集的所选参数；以及

-通过使用第一子集和第二子集的所恢复的参数，合成信号帧。

有利地，该解码方法与用于再生丢失的参数的过程相关联，参数丢失的原因是由编码器所实际或另外产生的Nmax个比特序列的截短造成的。

本发明的第三个方面是关于音频编码器，该音频编码器包括数字信号处理的装置，该装置设计成实施根据本发明的编码方法。

本发明的另一个方面是关于音频解码器，该音频解码器包括数字信号处理的装置，该装置设计成实施根据本发明的解码方法。

附图说明

本发明的其他特征和优点将在下面参照附图对非限制性的示例性实施方式进行的描述中变得显而易见，其中：

图1是根据本发明的一种示例性音频编码器的示意图；

图2表示本发明实施方式中的N位的二进制输出序列；以及

图3是根据本发明的一种音频解码器的示意图。

具体实施方式

图1中示出的编码器是具有两个编码级的一种分层结构。第一编码级1包括例如CELP类型的电话频带(300-3400Hz)中的编码器内核。该实施例中的编码器考虑一种由ITU-T(“国际电信联盟”)标准化的固定模式6.4kbit/s的G.723.1编码器。它根据该标准计算G.723.1参数并且按照30ms每帧192个编码比特P1，对参数进行量化。

第二编码级2，使得可以将带宽向宽带(50-7000Hz)增加，该第二编码级2对第一级的编码残差E操作，该编码残差E由图1框图中的减法器3提供。信号同步模块4使音频信号帧S延迟一段时间，该段时间是编码器内核1的处理所用的时间。信号同步模块4的输出被送到减法器3，减法器3从该输出中减去合成信号S′，S′等于解码器内核的输出，该解码器内核在诸如由编码器内核的输出比特P1所表示的量化参数的基础上操作。通常，编码器1与提供S′的本地解码器结合。

要编码的音频信号S例如具有带宽7KHz，同时采样频率为16KHz。一帧例如包括960个采样，即信号的60ms或编码器内核G.723.1的两个基本帧。由于后者是对在8KHz下采样的信号进行操作，所以在编码器内核1的输入端以因子2对信号S进行二次采样。同样地，在编码器内核1的输出端以16KHz对合成信号S′进行过采样。

第一级1的比特速率是6.4kbit/s(2×N1＝2×192＝384比特/帧)。如果编码器具有最大比特速率32kbit/s(Nmax＝1920比特/帧)，那么第二级的最大比特速率为25.6kbit/s(1920-384＝1536比特/帧)。第二级2例如对20ms(在16KHz下的320个采样)的基本帧或子帧进行操作。

第二级2包括一个时间/频率变换模块5，例如为MDCT(“修正离散余弦变换”)类型，减法器3所得到的残差E送至该模块5。实际上，图1中表示的模块3和5的操作方式可以通过对每一个20ms的帧执行以下操作来实现，操作如下：

-对经过模块4延时的输入信号S进行MDCT变换，提供320个MDCT系数。由于频谱限制在7225Hz，所以只有前289个MDCT系数不是0；

-对合成信号S′进行MDCT变换。由于处理的是电话频带信号的频谱，所以只有前139个MDCT系数不是0(可达3450Hz)；以及

-计算前面频谱间的差频谱。

所得到的频谱通过模块6分布到宽度不同的几个频带上。通过实施例，G.723.1编解码器的带宽可以细分为21个频带，而较高的频率分布到11个附加频带上。在这11个附加频带中，残差E等同于输入信号S。

模块7执行残差E的谱包络的编码。它从计算差频谱的每一频带的MDCT系数的能量开始。这些能量在下文称为“比例因子”。32个比例因子组成差分信号的谱包络。然后模块7分成两部分进行谱包络的量化。第一部分对应电话频带(前21个频带，从0到3450Hz)，第二部分对应高频带(后11个频带，从3450到7225Hz)。在每一部分中，第一比例因子基于绝对准则进行量化，以及接下来的那些比例因子基于差分准则进行量化，均通过采用常规的可变比特速率的霍夫曼编码来实现。对于等级为i(i＝1，2，3)的每个子帧，基于可变数量N2(i)的比特P2对这32个比例因子进行量化。

量化比例因子在图1中用FQ表示。第一子集的量化比特P1、P2包括编码器内核1的量化参数和量化比例因子FQ，该量化比特P1、P2的数量N0＝(2×N1)+N2(1)+N2(2)+N2(3)可变。差Nmax-N0＝1536-N2(1)-N2(2)-N2(3)可用于更精细地量化频谱。

模块8通过用这些频带所分别确定的量化比例因子FQ划分MDCT系数，对由模块6分布到不同频带的MDCT系数进行归一化。把因此归一化的频谱提供给量化模块9，该模块9采用已知类型的矢量量化方案。由模块9产生的量化比特在图1中用P3表示。

输出多路复用器10把来自模块1、7、9的比特P1、P2和P3收集在一起，以形成编码器的二机制输出序列Φ。

根据本发明，代表当前帧的输出序列的总比特数N不必等于Nmax。它可以小于后者。然而，对频带执行量化比特的分配是基于数量Nmax来执行的。

在图1的框图中，基于数量Nmax-N0、量化比例因子FQ以及由模块11计算的频谱掩蔽曲线，由模块12为每个子帧执行这种分配。

模块11的操作方式如下。它基于例如由模块7量化的差分信号的谱包络，以及确定同样的解决方案用于编码器内核产生的合成信号S′，首先确定信号S的初始谱包络的一个大约值。这两个包络也可由解码器确定，该解码器只提供有前述第一子集的参数。从而信号S的估计的谱包络也可用于解码器。因此，模块11通过以自身已知的方式，把逐频带的一种听觉感知模型应用到初始估计的谱包络，来计算谱掩蔽曲线。该曲线11给出所考虑的每一个频带的掩蔽级别。

在差分信号的三层MDCT变换的3×32个频带中，模块12对该序列Φ的Nmax-N0个剩余比特执行动态分配。在这里列举出的本发明的实施中，根据心理声学感知重要性的准则，参考关于每个频带中的掩蔽曲线而估计的谱包络的级别，对每个频带分配与该级别成比例的比特速率。其他的等级准则也是可用的。

在分配比特之后，模块9知道有多少比特要考虑用于每个子帧中的每个频带的量化。

然而，如果N＜Nmax，就不必使用所有这些分配的比特。根据感知重要性的准则，由模块13执行表示频带的比特排序。模块13按照重要性降序排列3×32个频带，该降序可以是信号掩蔽比(每个频带中估计的谱包络和掩蔽曲线之间的比)的降序。根据本发明，使用该顺序用于建立二进制序列Φ。

根据序列Φ中用于当前帧编码所需的比特数N，通过选择首先由模块13排列的频带并且通过对每个所选频带保持由模块12确定的比特数，来确定要由模块9量化的频带。

然后例如借助矢量量化器，按照所分配的比特数量，由模块9量化所选的每一个频带的MDCT系数，使得产生的总比特数等于N-N0。

输出多路复用器10建立二进制序列Φ，该序列Φ包括图2中所示按照如下顺序排列的序列的前N个比特(N＝Nmax的情况)：

a)首先是对应两个G.723.1帧的二进制链(384比特)；

b)接下来是比特F₂₂ ⁽ⁱ⁾，…，F₃₂ ⁽ⁱ⁾用于对三个子帧(i＝1，2，3)量化比例因子，从第22个谱带(超出电话频带的第一频带)到第32个频带(可变速率的霍夫曼编码)；

c)接下来是比特F₁ ⁽ⁱ⁾，…，F₂₁ ⁽ⁱ⁾用于对三个子帧(i＝1，2，3)量化比例因子，从第一个频带到第21个频带(可变速率的霍夫曼编码)；

d)以及，最后是96个频带的矢量量化的索引M_c1，M_c2，…，M_c96，按照感知重要性的顺序，从最重要的频带到重要性最低的频带，同时遵守模块13所确定的顺序。

通过首先放置(a)和b))G.723.1参数和高频带的比例因子，不管实际上的比特速率是否超出对应接收这些组a)和b)的最小值，都可以使可由解码器恢复的信号保持同样的带宽。这个最小值，除了满足G.723.1编码，还满足高频带3×11＝33个比例因子的霍夫曼编码，例如该最小值为8kbit/s。

如果解码器接收N′个比特而N0≤N′≤N，则上文所述的编码方法允许帧的解码。数量N′通常会因帧而变化。

对应本实施例，图3示出了根据本发明的解码器。解多路复用器20分离接收的比特序列Φ′，以便从中提取编码比特P1和P2。将384比特P1提供给G.723.1类型的解码器内核21，从而解码器内核21合成电话频带中的基带信号S′的两个帧。由模块22根据霍夫曼算法对比特P2解码，由此恢复3个子帧的每一个的量化比例因子FQ。

模块23计算掩蔽曲线，该模块23等同于图1编码器的模块11，接收基带信号S′和量化比例因子FQ，并为96个频带的每一个产生谱掩蔽级别。基于这些掩蔽级别、量化比例因子FQ以及已知数量Nmax(也基于已知数量N0，该数量N0由模块22对比特P2的霍夫曼解码推得)，模块24按照与图1的模块12同样的方式确定比特的分配。此外，按照与参照图1所述的模块13同样的排列准则，模块25对频带进行排序。

根据模块24和25提供的信息，模块26提取输入序列Φ′的比特P3，并且合成归一化的MDCT系数，该系数与序列Φ′中表示的频带相关联。如果合适(N′＜Nmax)，还可以通过如下文描述的内插或外推，合成与丢失的频带关联的标准化MDCT系数(模块27)。这些丢失的频带可能由于译码器截短N＜Nmax已经被解码器去除，或者它们可能已经在传输过程中被消除(N′＜N)。

标准化MDCT系数，由模块26和/或模块27合成，在被送到模块29之前乘以他们各自的量化比例因子(乘法器28)，以执行频率/时间变换，这是由编码器的模块5操作的MDCT变换的逆变换。将由此产生的时域校正信号加到由解码器内核21传送来的合成信号S′上，以产生解码器的输出音频信号

应当注意的是，即使解码器没有接收到序列的前N0个比特，它也能够合成信号

解码器足以接收对应上文中列出的那部分a)的2×N1个比特，则解码处于“退化”模式。只有这退化模式不使用MDCT合成以得到解码信号。为保证该模式和其他模式之间的切换没有中断，解码器在三种MDCT合成之后执行三种MDCT分析，使得更新MDCT变换的存储器。输出信号包含电话频带品质的信号。如果即使没有接收到前2×N1个比特，解码器也会认为相应的帧已经被擦除并且能够使用已知的算法来构造被擦除的帧。

如果解码器接收对应于部分a)加上部分b)的比特的2×N1个比特(三种谱包络的高频带)，则它能够首先合成一种宽带信号。特别地，解码器能够继续如下操作：

1)模块22恢复部分所接收的三种谱包络。

2)没有接收到的频带把它们的比例因子临时设为零。

3)基于对G.723.1解码之后获得的信号执行的MDCT分析，计算谱包络的低频部分，并且模块23对因而获得的包络计算三种掩蔽曲线。

4)校正谱包络以便调整它，避免由于未接收到该频带而为零；谱包络FQ高频部分的零值例如由前面计算的掩蔽曲线的百分之一(hundredth)的值替代，以使他们保持听不见。低频带的整个频谱和高频带的谱包络在该情况下是已知的。

5)然后模块27生成高频谱。在比例因子加权之前(乘法器28)，这些频带的精细结构由已知邻域的精细结构映射而成。在没有接收到任何一个比特P3的情况下，“已知邻域”对应G.723.1解码器内核所产生的信号S′的频谱。它的“映射”可以包括复制标准化MDCT频谱的值，该值可以是变化的，与离开“已知邻域”的距离成比例地减小。

6)在逆MDCT变换(29)以及把得到的校正信号加到(30)解码器内核的输出信号上之后，得到宽频带的合成信号。

在解码器也至少接收差分信号(部分c))的部分低频谱包络的情况下，在步骤3中它可以考虑该信息以改进(refine)谱包络，也可以不考虑该信息。

如果解码器10接收足够的比特P3，以至少解码最重要频带的MDCT系数，即序列的部分d)中排在前面的部分，然后模块26根据模块24和25所指示的分配和排序，恢复某些归一化的MDCT系数。因此这些MDCT系数不必如同上文步骤5那样进行内插。对于其他的频带，模块27可以按前面同样的方式应用步骤1到6的处理，对于某些频带接收MDCT系数的信息在步骤5中允许更可靠的内插。

未接收到的频带从一个MDCT子帧到下一个子帧会有所不同。丢失频带的“已知邻域”可能对应其他子帧中没有丢失的相同的频带，并且/或者在相同子帧的过程中对应频域中最接近的一个或多个频带。也可以通过计算加权贡献的总和，为子帧重新生成从某一频带丢失的MDCT系数，贡献是基于“已知邻域”的几个频带/子帧评估的。

在某种程度上由于每帧N′比特的实际比特速率任意放置给定帧的最后比特，最后发送的编码参数，根据情况，可以完全被发送或者部分地被发送。于是会出现两种情况：

-或者所采用的编码结构使得可以利用接收到的部分信息(标量量化器的情况，或者带有分区字典(partitioned dictionary)的矢量量化的情况)，

-或者它不允许该信息以及将未完全接收的参数像其它没有接收到的参数那样处理。对于后者的情况要注意，如果比特的排序随每帧变化，则因此丢失的比特数是可变的并且在整个所解码的帧的集合上将平均产生所选的N′个比特，其质量好于比特数较小时获得的质量。

Claims

1.一种把数字音频信号帧(S)编码为二进制输出序列(Φ)的方法，其中为参数集合定义编码比特的最大数量Nmax，该参数可以根据所述信号帧计算，该集合包括第一子集和第二子集，所述方法包括如下步骤：

-计算所述第一子集的所述参数，并且把这些参数编码为N0个编码比特，使得N0＜Nmax；

-确定分配Nmax-N0个编码比特用于所述第二子集的所述参数；以及

-把分配给所述第二子集的所述参数的所述Nmax-N0个编码比特按照确定的顺序排列，

其中，根据所述第一子集的所述编码参数，确定对所述Nmax-N0个编码比特的所述分配和/或所述排列顺序，响应所述二进制输出序列的N个比特的指示，该N个比特可用于所述参数集合的所述编码，且N0＜N≤Nmax，所述方法还包括以下步骤：

-选择所述第二子集的参数，分配按照所述顺序排列的前N-N0个编码比特给这些参数；

-计算所述第二子集的所选参数，并且对这些参数编码以产生所述排列的前N-N0个编码比特；以及

-把所述第一子集的N0个编码比特以及所述第二子集的所选参数的N-N0个编码比特插入到所述输出序列中。

2.根据权利要求1的方法，其中，分配给所述第二子集的所述参数的所述编码比特的所述排列顺序因帧而变化。

3.根据权利要求1或2的方法，其中，N＜Nmax。

4.根据前述权利要求中任一权利要求的方法，其中，分配给所述第二子集的所述参数的所述编码比特的所述排列顺序是根据至少所述第一子集的所述编码参数确定的重要性的降序排列。

5.根据权利要求4的方法，其中，根据所述第一子集的所述编码参数，借助于至少一种心理声学准则，确定分配给所述第二子集的所述参数的所述编码比特的所述排列顺序。

6.根据权利要求5的方法，其中，所述第二子集的所述参数与所述信号的谱带有关，其中基于所述第一子集的所述编码参数来估计所述编码信号的谱包络，其中通过将听觉感知模型应用于所述估计的谱包络来计算频率掩蔽曲线，并且其中所述心理声学准则参考所述估计的谱包络的级别，其与每一个谱带中的所述掩蔽曲线有关。

7.根据权利要求4至6中任一权利要求的方法，其中，Nmax＝N。

8.根据前述权利要求中任一权利要求的方法，其中，所述编码比特以这样的方式在所述输出序列中排序，即所述第一子集的所述N0个编码比特位于所述第二子集的所选参数的所述N-N0个编码比特之前，并且所述第二子集的所选参数的所述相应编码比特以对于所述编码比特所确定的顺序出现在其中。

9.根据前述权利要求中任一权利要求的方法，其中，所述数量N因帧而变化。

10.根据前述权利要求中任一权利要求的方法，其中，所述第一子集的所述参数的所述编码的比特速率是可变的，由此所述数量N0因帧而变化。

11.根据前述权利要求中任一权利要求的方法，其中，所述第一子集包括由编码器内核(1)计算的参数。

12.根据权利要求11的方法，其中，所述编码器内核(1)的工作频带低于要编码的所述信号的带宽，并且其中，所述第一子集还包括所述音频信号的能级，该能级与高于所述编码器内核的所述工作频带的频带相关联。

13.根据权利要求8和12中任一权利要求的方法，其中，所述第一子集的所述编码比特以这样的方式在所述输出序列中排序，即由所述编码器内核所计算的所述参数的所述编码比特，其后紧跟与所述较高频带相关联的所述能级的所述编码比特。

14.根据权利要求11至13中任一权利要求的方法，其中，估计要编码的所述信号和合成信号之间的差分信号，该合成信号源自由所述编码器内核所产生的所述编码参数，并且其中，所述第一子集还包括所述差分信号的能级，该能级与包括在所述编码器内核的所述工作频带中的频带相关联。

15.根据权利要求8和权利要求12至14中任一权利要求的方法，其中，所述第一子集的所述编码比特以这样的方式在所述输出序列中排序，即由所述编码器内核(1)计算的所述参数的所述编码比特，其后紧跟与所述频带相关联的所述能级的所述编码比特。

16.一种解码二进制输入序列(Φ′)以合成数字音频信号()的方法，其中为参数集合定义编码比特的最大数量Nmax，用于描述信号帧，该集合包括第一子集和第二子集，对于一个信号帧，所述输入序列包括N′个编码比特用于所述参数集合，并且N′≤Nmax，所述方法包括以下步骤：

-从所述输入序列的所述N′个比特中，提取所述第一子集的所述参数的N0个编码比特，假设N0＜N′；

-基于提取的所述N0个编码比特，恢复所述第一子集的所述参数；

-确定分配Nmax-N0个编码比特用于所述第二子集的所述参数：以及

-将分配给所述第二子集的所述参数的所述Nmax-N0个编码比特按照确定的顺序排列，

其中，根据所述第一子集的所述恢复参数，确定对所述Nmax-N0个编码比特的所述分配和/或所述排列顺序，所述方法还包括以下步骤：

-选择所述第二子集的参数，分配按照所述顺序排列的前N′-N0个编码比特给这些参数；

-从所述输入序列的所述N′个比特中，提取所述第二子集的所选参数的N′-N0个编码比特；

-基于所述提取的N′-N0个编码比特，恢复所述第二子集的

所选参数；以及

-通过使用所述第一子集和第二子集的所述恢复参数，合成所述信号帧。

17.根据权利要求16的方法，其中，分配给所述第二子集的参数的所述编码比特的排列顺序因帧而变化。

18.根据权利要求16或17的方法，其中，N′＜Nmax。

19.根据权利要求16至18中任一权利要求的方法，其中，分配给所述第二子集的所述参数的所述编码比特的所述排列顺序是根据至少所述第一子集的所述恢复参数确定的重要性的降序排列。

20.根据权利要求19的方法，其中，根据所述第一子集的所述恢复参数，借助于至少一种心理声学准则，确定分配给所述第二子集的所述参数的所述编码比特的所述排列顺序。

21.根据权利要求20的方法，其中，所述第二子集的所述参数与所述信号的谱带有关，其中基于所述第一子集的所述恢复参数来估计所述信号的谱包络，其中通过将听觉感知模型应用于所述估计的谱包络来计算频率掩蔽曲线，并且其中所述心理声学准则参考所述估计的谱包络级别，其与每一个谱带中的所述掩蔽曲线有关。

22.根据权利要求16至21中任一权利要求的方法，其中，在从中提取所述第二子集的所选参数的所述N′-N0个编码比特的位置之前的所述序列的位置处接收的N′个比特中，提取所述第一子集的所述参数的所述N0个编码比特。

23.根据权利要求16至22中任一权利要求的方法，其中，为合成所述信号帧，基于至少所选参数，通过内插估计所述第二子集的未选参数，该所选参数基于提取的所述N′-N0个编码比特恢复。

24.根据权利要求16至23中任一权利要求的方法，其中，所述第一子集包括解码器内核(21)的输入参数。

25.根据权利要求24的方法，其中，所述解码器内核(21)的工作频带低于要合成的所述信号的带宽，并且其中，所述第一子集还包括所述音频信号的能级，该能级与高于所述解码器内核的所述工作频带的频带相关联。

26.根据权利要求22和25中任一权利要求的方法，其中，所述第一子集的所述编码比特以这样的方式在所述输入序列中排序，即所述解码器内核21的所述输入参数的所述编码比特，其后紧跟与所述较高频带相关联的所述能级的所述编码比特。

27.根据权利要求26的方法，假设所述输入序列(Φ′)的N′个比特限制为所述解码器内核(21)的所述输入参数的所述编码比特，并且至少为与所述较高频带相关联的所述能级的部分编码比特，所述方法包括以下步骤：

-从所述输入序列中提取所述解码器内核的所述输入参数的所述编码比特以及所述能级的所述部分编码比特；

-在所述解码器内核中合成基带信号(S′)，并且基于所述提取的编码比特，恢复与所述较高频带相关联的能级；

-计算所述基带信号的频谱；

-给每一个较高频带分配能级，该较高频带与所述输入序列中的未编码的能级相关联；

-基于所述相应的能级和在所述频谱的至少一个频带中的所述基带信号的所述频谱，为每一个较高频带合成频谱分量；

-把所述合成的频谱分量变换到时域，以便得到基带信号的校正信号；以及

-把所述基带信号和所述校正信号加到一起，以便合成所述信号帧。

28.根据权利要求27的方法，其中，分配给较高频带的所述能级是一小部分感知掩蔽级别，根据所述基带信号的所述频谱和基于所述提取的编码比特恢复的所述能级计算该感知掩蔽级别，所述输入序列中的未编码能级与该较高频带相关联。

29.根据权利要求24至28中任一权利要求的方法，其中，在所述解码器内核中合成基带信号(S′)，并且其中，所述第一子集还包括要合成的所述信号和所述基带信号之间的差分信号的能级，该能级与包括在所述编码器内核的所述工作频带中的频带相关联。

30.根据权利要求25、26以及29中任一权利要求的方法，其中，对于N0＜N′＜Nmax，借助于计算得到的所述基带信号的频谱和/或基于提取的所述N′＜N0编码比特所恢复的所选参数，估计所述第二子集的未选参数，该未选参数与频带中的频谱分量有关。

31.根据权利要求30的方法，其中，借助于所述频带的频谱邻域，估计频带中的所述第二子集的所述未选参数，该邻域是基于所述输入序列的所述N′个编码比特确定的。

32.根据权利要求22和权利要求25至31中任一权利要求的方法，其中，在从中提取与所述频带相关联的所述能级的所述编码比特的位置之前的所述序列的位置处接收的N′个比特中，提取所述解码器内核(21)的所述输入参数的所述编码比特。

33.根据权利要求16至32中任一权利要求的方法，其中，所述数量N′因帧而变化。

34.根据权利要求16至33中任一权利要求的方法，其中，所述数量N0因帧而变化。

35.一种音频编码器，包括数字信号处理的装置，该装置设计成实施根据权利要求1至15中任一权利要求的编码方法。

36.一种音频解码器，包括数字信号处理的装置，该装置设计成实施根据权利要求16至34中任一权利要求的解码方法。