CN1252678C

CN1252678C - 可缩放的立体声音频编码/解码方法及装置

Info

Publication number: CN1252678C
Application number: CNB200310114740XA
Authority: CN
Inventors: 金重会; 金尚煜
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2002-12-18
Filing date: 2003-12-18
Publication date: 2006-04-19
Anticipated expiration: 2023-12-18
Also published as: KR100528325B1; US20040181395A1; JP2004199075A; CN1510662A; US7835915B2; JP3964860B2; KR20040054235A

Abstract

提供可缩放立体声音频编码和解码方法和装置。所述可缩放立体声音频编码方法包括：转换第一信道和第二信道音频取样；量化所述经转换的第一信道和第二信道音频取样；以及编码所述量化的第一信道音频取样直到预定的过渡层，然后通过从接续该过渡层的层增加层索引，交错编码所量化的第一和第二信道音频取样，直到完成预定的多个层的编码。

Description

可缩放的立体声音频编码/解码方法及装置

技术领域

本发明涉及音频数据编码和解码，并且尤其涉及一种编码音频数据的方法和装置，以便其编码的立体声音频比特流具有可以缩放的比特率；以及一种解码经编码的立体声音频比特流的方法和装置。

背景技术

随着数字信号处理技术最近的发展，音频信号经常以数字数据形式存储和再现。数字音频存储/再现装置，通过取样和量化模拟音频信号将模拟音频信号转换为被称作脉冲编码调制(PCM)音频数据的数字信号，将所述脉冲编码调制音频数据存储在像CD或者DVD这样的信息存储介质上，并允许使用者在任何时间再现所述数据。与正在使用例如长时间(LP)记录或磁带的模拟存储/再现方法相比，这种数字存储/再现的方法显著地提高了音质以及大大地降低了由于长期存储的音质退化。然而，在由大量数字数据引起的存储和传送不能有效地执行方面，这种数字存储/再现的方法存在缺陷。

为了克服上述问题，已使用多种压缩数字音频信号的方法。由国际标准化组织(ISO)标准化的运动图片专家组(MPEG)/音频和由杜比公司开发的AC-2/AC-3技术，采用了利用人类心理声学模型来降低数据量的方法，这样可以不考虑信号的特性而有效地降低数据量。换句话说，MPEG/音频标准和AC-2/AC-3方法在64-384Kbps比特率提供了几乎与CD音质同样水平的音质，即，传统数字编码方法所用比特率的1/6-1/8。

然而，由于这些方法包括在为固定比特率选择了最佳状态之后执行量化和进行编码，当传输的带宽由于较差的网络状态而降低时，通过网络传输的数据可能被破坏；而且进一步地，可能在此之后不能向用户提供服务。另外，当数据被转换成较小的比特流以适应存储容量有限的移动装置时，则需要重新编码以降低数据量，这样就增加了计算量。

为了克服这个问题，本发明的申请人于1997年11月19日提交了名称为“使用比特-分片算法编码(BSAC)的可缩放的音频编码/解码方法和装置”编号NO.97-61298的韩国专利申请，于2000年4月17日在韩国知识产权局注册，注册号NO.261253。根据BSAC，经高比特率编码的比特流能被转换成比特率较低的比特流，并且只利用部分比特流就可再现数据。结果，甚至在网络过载、解码器处于较低性能状态、或者用户需要低的比特率时，仅使用部分的比特流便能给用户提供一定水平音质的服务，尽管性能可能与降低的比特率成比例地降低。然而，由于BSAC技术利用修正离散余弦变换(MDCT)进行音频信号的转换，低层的音质可能严重失真。

同时，在美国专利NO.6,351,730中公开了一种利用量化来调整比特率的技术。由于这种技术运用了心理声学模型，音质在低层是令人满意的，但在高层由于额外开销(overhead)而被降低了。其他的音频编码/解码技术在美国专利NO.6,182,031、6,370,507和6,029,126中被公开，这些技术应用低取样(down sampling)并在低层中提供满意的音质，但他们存在下述缺陷：在可缩放比特率之间的间隔巨大或者需要大量的计算。结果，他们很难用于细粒度可缩放性技术(fine grain scalability，FGS)。

这种可缩放的音频编码设备将绝大多数的音频数据编码成具有44.1或48KHz的取样率以提供CD音质的立体声信号，并采用当层增加时频带扩展的分层结构。用这样的分层结构，可以交替地为左声道和右声道编码立体声信号。在这种情况下，由于立体声信号的音质在低层被降低，那么在编码立体声信号时会比编码单声道信号时感知到更多的噪声。

发明内容

本发明提供一种立体声音频编码和解码的方法和装置，其在提供细粒度可缩放性(FGS)的同时在较低层中提高了音质。

根据本发明的一个方面，提供了一种可缩放的立体声音频编码方法，该方法转换第一和第二信道音频取样；量化转换后的第一和第二信道音频取样；编码经量化的第一信道音频取样直到预定的过渡层，然后通过从接续过渡层的层增加层索引，交错编码所量化的第一和第二信道音频取样，直到完成预定的多个层的编码。

根据本发明的另一个方面，提供了一种可缩放立体声音频编码设备，包括：心理声学单元，提供关于心理声学模型信息；变换单元，在心理声学模型信息的基础上转换第一和第二信道音频取样；量化器，量化转换后的第一和第二信道音频取样；比特打包单元，编码所述经量化的第一信道音频取样直到预定的过渡层，然后通过从接续该过渡层的层增加层索引，交错编码所量化的第一和第二信道音频取样，直到完成预定的多个层的编码。

还是根据本发明的另一个方面，提供了一种可缩放的立体声音频解码的方法，包括：解码第一信道音频取样直到预定的过渡层，然后通过从接续该过渡层的层增加层索引，交错解码第一和第二信道音频取样，直到完成预定的多个层的解码，并获得第一和第二信道的量化取样；将已量化的第一信道和第二信道的取样去量化；以及反向转换第一和第二信道的所述去量化取样，以获得第一和第二信道音频取样。

还是根据本发明的另一个方面，提供了一种可缩放的立体声音频解码设备，包括：比特解包单元，解码第一信道音频取样直到预定的过渡层，然后通过从接续该过渡层的层增加层索引，交错解码第一和第二信道音频取样，直到完成预定的多个层的解码，并获得第一和第二信道的量化取样；去量化器，将所述第一和第二信道的量化取样去量化；以及反向变换器，反向转换所述第一和第二信道的去量化取样，以获得第一和第二信道音频取样。

附图说明

通过结合下列附图对优选实施例的详细描述，本发明上述和其他的特点和优势变得更加明显。

图1是根据本发明实施例的音频编码设备的框图。

图2是根据本发明实施例的音频解码设备的框图。

图3是说明用于本发明的经编码的比特流中帧的层结构的图。

图4A和4B是说明根据本发明在如图1所示音频编码设备中编码立体声信号的顺序和编码结果的图。

图5是根据本发明一个实施例的音频编码方法的流程图。

图6是根据本发明一个实施例的音频解码方法的流程图。

图7A和7B示出了根据本发明其它实施例的音频解码的方法。

具体实施方式

下文将结合相关附图详细描述本发明的优选实施例。

图1是根据本发明一个实施例的音频编码设备的框图。音频编码设备包括：变换器11，心理声学单元12，量化器13，分层编码音频数据以便比特率能够被缩放的比特打包单元14。

如图1所示，变换器11在时间域中接收脉冲编码调制(PCM)音频数据，也就是说，从两个或更多信道获得左右声道的音频取样，并根据由心理声学单元12提供的心理声学模型信息将左声道音频取样和右声道音频取样转换成频率域中的信号。在时间域中人们感知的音频信号的特征差别不是很大。对于通过在频率域中的转化获得的音频信号，可被人们感知的音频信号特征大大区别于那些依据人类心理声学模型在每个频带中不能被感知的音频信号。从而，压缩效率能通过改变分配给每个频带的比特数得到提高。

心理声学单元12提供诸如冲击检测信息(attack detectioninformation)的心理声学信息给变换器11。此外，心理声学单元12将经变换器11转换后的音频信号划分为合适的子频带(sub-band)内的信号，通过使用子频带信号间的相互干扰所产生的屏蔽现象计算每个子频带的屏蔽阈值，并提供经计算后的屏蔽阈值给量化器13。在本项发明的一个实施例中，心理声学单元12使用立体声屏蔽电平下降(binaural masking leveldepression，BMLD)方式计算立体声分量(stereo component)的屏蔽阈值。

量化器13根据相应的比例因子信息分等级地量化每个子频带的音频信号，以使得在每个子频带中的量化噪声的量级都低于心理声学模型单元12所提供的屏蔽阈值，这样人们感知不到量化噪声，并输出量化的取样。换句话说，量化器13使用噪声屏蔽比(Noise-to-Ratio，NMR)进行量化，即，由心理声学模型单元12计算出来的屏蔽阈值与每个子频带中出现的噪声的比率，这样整个频带上的NMR不超过0分贝(dB)。当NMR不超过0分贝时，人们是听不到量化噪声。

比特打包单元14以与所述层相应的比特率，通过合并每层的附加信息和量化信息来编码由量化器13提供的量化取样。在这里，由于层的增加，立体声信号的单声道分量被编码到预定的过渡层(也就是下文中所提及的ENHANCE_CHANNAL(增强信道))，然后立体声信号的立体声分量从ENHANCE_CHANNAL之后的层被分层编码。经编码的比特流被分层打包。附加信息包括：量化频带信息，编码频带信息，比例因数信息，和关于每层的编码模型信息。量化频带信息用于根据音频信号的频率特征适当地量化音频信号。当频率范围被划分为多个频带，并且每个频带都被分配了适当的比例因数时，量化频带信息表示每层相应的量化频带。因此，至少一个量化频带属于每层。每一个量化频带都被分配了一个比例因数。编码频带信息也用于根据音频信号的频率特征适当地量化音频信号，当频率范围被划分为多个频带，并且每个频带都被分配了适当的编码模型时，编码频带信息表示每层相应的编码频带。通过试验适当地限定量化频带和编码频带，并且通过实验，他们的比例因数和编码模型也被适当的加以分配。量化频带信息和编码频带信息可能被作为首标信息打包然后发送给解码设备。可选择地，量化频带信息和编码频带信息也可以被作为每层的附加信息加以编码和打包，然后发送给解码设备。可选择地，由于解码设备预先存储了量化频带信息和编码频带信息，所以量化频带信息和编码频带信息可以不被发送给解码设备。

更为明显地，比特打包单元14编码包括比例因数信息和编码模型信息的附加信息，该附加信息对应于基础层，并在相应于基础层的编码模型信息的基础上，顺序地从最高有效位到最低有效位、并从较低的频率分量向较高频率分量编码音频信号。在基础层的编码完成后，将在基础层上的各层重复上述同样的操作。在立体声信号中，信道1中的单声道分量被编码为预定过渡点，而在过渡点(transition point)之后的立体声分量被在信道1和信道2中交错编码。根据例如在比特分片算法编码(BSAC)中使用的语法的预定语法，经上述操作编码的比特流被打包以具有层结构。这里，过渡点信息可以被表示为层索引(index)，比例因数频带，或者是编码频带，并被包括在帧的首标信息里或者包含在每一层的附加信息中。

当比特打包单元使用BSAC时，可以利用表一所示的语法来编码比特流。

表一

Syntax	No.of bits	Mnemonic
Syntax	No.of bits	Mnemonic	Bsac_spectral_data(start_g，end_g，thr_snf，cur_snf){if(layer-data_available())return；for(snf＝maxsnf；snf＞thr_snf；snf--)for(g＝start_g；g＜end_g；g++)for(i＝start_index[g]；i＜end_index[g]；i++)for(ch＝0；ch＜nch；ch++){if(cur_snf[ch][g][i]＜snf)continue；

if(layer＜ENHANCE_CHANNEL&&ch＝＝1)continue；if(！sample[ch][g][i]||sign_is_coded[ch][g][i])acod_sliced_bit[ch][g][i]；if(sample[ch][g][i]&&！sign_is_coded[ch][g][i]){if(layer_data_available())return；acod_sign[ch][g][i]；sign_is_coded[ch][g][i]＝1；}cur_snf[ch][g][i]--；if(layer_data_available())return；}}

0.61

bslbfbslbf

虽然没有示出，但是在量化器13之前可以进一步包括瞬时噪声整形(temporal noise shaping unit)单元和/或中间/侧面(M/S)立体声处理器。所述瞬间噪声整形单元用于控制在每个窗(window)内的量化噪声的瞬时整形，并可以通过过滤频率域中的数据实现瞬时噪声整形。所述M/S立体声处理器用于更有效地处理立体声信号。基于心理声学模型信息，M/S立体声处理器分别将中间信号(Mid signal)加上侧面信号(Side signal)和中间信号减去侧面信号分别转换成信道1信号和信道2信号，并且可以确定是否在比例因数频带的各单元中使用这些信道1和信道2信号。

图2是根据本发明实施例的音频解码设备的框图。该音频解码设备包括比特解包单元21，去量化器(dequantizer)22，以及反向变换器23，以通过把比特流解包到目标层来缩放比特率，所述目标层是根据下述条件来确定的：网络状态、音频解码设备的性能和用户选择。

比特解包单元21对比特流解包直到目标层，并实现每一层的解码。换句话说，比特解包单元21对包括相应于每一层的过渡点信息、比例因数信息和编码模型信息的附加信息进行解码，并根据所获得的编码模型信息对每一层的量化取样进行解码。在立体声信号中，单声道分量在信道1中被解码成预定过渡点，而在过渡点之后的立体声分量在信道1和信道2中被交错解码。同时，过渡点信息、量化频带信息和编码频带信息可以从比特流的首标信息中获得，或者通过解码每一层的附加信息获得。可选地，量化频带信息和编码频带信息可以预先存储在音频解码设备中。

去量化器22根据相应于每一层的比例因数信息反向量化每一层的解码量化取样，以还原取样。反向变换器23把还原的取样从频率域转换到时间域，并在时间域输出PCM音频数据。

虽然没有示出，可以在去量化器22之后进一步提供M/S立体声反向处理器和/或瞬时噪声整形单元。该M/S立体声反向处理器实现关于比例因数频带的处理，该比例因数频带已由音频编码设备进行了M/S立体声处理。所述瞬间噪声整形单元用于控制在每个窗内的量化噪声的瞬时整形，并可以执行相应于由音频编码设备的瞬时噪声整形单元执行的处理。

图3是说明根据本发明的比特流中的帧结构的图，其中所述比特流是分层编码的，以便可以缩放比特率。根据图3，比特流中的帧通过分层映射量化取样和附加信息被编码，以提供细粒度可缩放性(fine grain scalability(FGS))。换句话说，低层比特流被包括在高层比特流中。每层所需的附加信息在每层上被编码。

存储首标信息的首标区域被提供在比特流的前部。次于首标区域的，层0的信息被打包，然后层1至层N的信息按顺序被打包。层1至层N被称为增强层。从首标区域到层0信息的范围被称为基础层。从首标区域到层1信息的范围被称为层1，而从首标区域到层2信息的范围被称为层2。同样地，从首标区域到层N信息的范围被称为顶层(top layer)。就是说，顶层包括基础层到增强层N。层信息包括附加信息和编码音频数据。例如，层2信息包括附加信息2和编码量化取样2。

在本发明中，用单个比特流来表示多个层的比特率信息，以便用于每一层比特率的比特流可以根据用户需求或传输线路的状态被简单地重新构造。比如，如果基础层是16kbps，顶层是96kbps，并以8kbps的间隔来配置增强层，比特流由编码设备构造，使得每层(16，24，32，40，48，56，64，72，80，88和96kbps)的信息被存储在顶层的比特流中，即96kbps。如果用户请求顶层的数据，那么比特流不需要被处理就可以被传输。如果其它用户请求基础层的数据，那么只有比特流的前部被抽取出来并传输出去。

图4A和4B说明根据本发明，在如图1所示音频编码设备中编码立体声信号的顺序和编码结果。通常的，随着层索引的增加，信道1和信道2可轮流地被编码。然而，在本发明中，信道1被编码到ENHANCE_CHANNEL，比如，第5层，并且此后，信道1和信道2就从信道1中的第六层开始被交错地编码。换句话说，当用传统方法把信道1和2中的立体声分量编码到第3层时，在同一时期，在本发明中，信道1的单声道分量被编码直到第6层。

在上述结构的基础上，根据本发明实施例的立体声音频编码和解码方法将在下面进行描述。

图5是根据本发明实施例音频编码方法的流程图。所述音频编码方法包括在操作501和502中接收附加信息和量化取样，在操作503中定义ENHANCE_CHANNEL，在操作504到508中编码单声道分量，以及在操作505到512中编码立体声分量。在如图5所示的实施例中，层索引被设置为过渡点，而为了描述的清楚，所述过渡点被称为ENHANCE_CHANNEL。

参照图5，在操作501中，比特打包单元14接收来自量化器13的量化取样和附加信息，并在操作502中获得层信息。换句话说，比如每层的频率带宽、每一层中可以使用的比特数量、以及相应每一层的量化频带和编码频带的层信息，通过使用收到的音频取样的取样率、目标比特率、顶层截止频率、编码频带长度、量化频带单元、以及期望的层数来获得。

在操作503中，定义ENHANCE_CHANNEL信息。ENHANCE_CHANNEL信息表示层的索引，其中在信道1中从单声道分量编码到立体声分量编码进行过渡。比如，当提供16-64kbps比特率并将层间比特率间隔设置为1kbps时，可以产生层0到层47。在这种情况下，所述ENHANCE_CHANNEL信息可以用6或更少的比特来表示。根据音质稳定性和立体声特征中的哪一个将被增强而确定所述ENHANCE_CHANNEL信息的值。换句话说，当ENHANCE_CHANNEL的索引具有大值时，音质稳定性就比低层的立体声特征增强得更多。相反地，当ENHANCE_CHANNEL的索引具有小值时，立体声特征就比较低层的音质稳定性增强得更多。

在操作504中层索引被设置为“0”。在操作505中，相应于层0的附加信息关于立体声信道的信道1被编码。在操作506中，相应于层0的量化取样关于信道1被编码。

在操作507中，当前层索引与ENHANCE_CHANNEL信息进行比较。在当前层索引小于由ENHANCE_CHANNEL信息指示的层索引加1所获得的值时，在操作508，当前层索引增加1，而编码操作返回操作505。同时，在当前层索引等于或大于由ENHANCE_CHANNEL信息指示的层索引加1所获得的值时，编码操作转到操作509。

在操作509中，相应于层0的附加信息关于立体声信道中的信道2被编码。在操作510中，相应于层0的量化取样关于信道2被编码。

在操作511中，确定当前层索引是否是最后的层索引，即，目标层索引。在当前层索引不是最后的层索引时，在操作512中，当前层索引增加1，并且编码操作返回操作505。同时，在当前层索引是最后层索引时，编码操作结束。

图6是根据本发明实施例音频解码方法的流程图。音频解码方法包括在操作601和602接收比特流。在操作603中，获取ENHANCE_CHANNEL信息。在操作604到608中解码单声道分量，并在操作605到612中解码立体声分量。

如图6所示，比特解包单元21在操作601中接收比特流，并在操作602中获得层信息。层信息可以被以与如图5所示的操作502中所使用的相同方式获得。

在操作603中，从比特流的首标区域提取首标信息。并且从所述首标信息中获取ENHANCE_CHANNEL信息。

层索引在操作604中被设置成“0”。相应于层0的附加信息从在立体声信道间关于信道1的比特流中提取，而且在操作605中解码。相应于层0的量化取样从关于信道1的比特流中提取，并在操作606中被解码。

在操作607中比较当前层索引和ENHANCE_CHANNEL信息。在当前层索引小于由ENHANCE_CHANNEL信息指示的层索引加1所获得的值时，在操作608中，当前层索引增加1，而且解码操作返回操作605。同时，在当前层索引等于或大于由ENHANCE_CHANNEL信息指示的层索引加1所获得的值时，解码操作转到操作609。

在操作609中，相应于层0的附加信息从在立体声信道间关于信道2的比特流中提取，并且被解码。在操作610中，相应于层0的量化取样从关于信道2的比特流中提取，并被解码。

在操作611中，确定当前层索引是否是最后的层索引，即，目标层索引。在当前层索引不是最后的层索引时，在操作612中，当前层索引增加1，并且解码操作返回操作605。同时，在当前层索引是最后层索引时，解码操作结束。

图7A和7B说明根据本发明另一实施例的音频解码方法。

如图7A所示，当在某一层，比如信道1中间的第4层，中断解码时，那么尽管立体声信号正在被解码，在信道2中也不会有解码数据。在这种状况下，通过把已经在信道1的第1至第4层被解码的量化取样和附加信息复制到信道2的第1层至第4层来执行解码。

同时，如图7B所示，在完成直到信道1的ENHANCE_CHANNEL的解码之后，而当在信道2的较低层中解码被中断时，经过解码的左右声道的频谱宽度互不相同。为补偿这一点，通过把已经在信道1的第2至第4层被解码的量化取样和附加信息复制到信道2的第2层至第4层来进行解码。

在上述实施例中，典型BSAC技术的单声道音频编码可以被用于单声道分量直到过渡层，而BSAC技术的立体声音频编码可以从过渡层之后的层被用于立体声分量。

本发明可以用代码实现，所述代码记录在计算机可读记录介质中并可以由计算机读取。所述计算机可读记录介质可以是任意类型的介质，该介质可记录能被计算机系统读取的数据，比如，ROM，RAM，CD-ROM，磁带，软盘，或光学数据存储设备。本发明还可以用固件或者载波(比如，经由因特网传输)来实现。可选择地，计算机可读记录介质可以在通过网络连接的计算机系统间分发(distribute)，以便可以用存于记录介质并可由计算机读取并执行的代码来实现本发明。本发明所属领域的变成人员可以很容易地推导出用于实施本发明的功能程序、代码和代码段。

根据本发明，当立体声音频信号被编码时，首先信道1的音频信号被编码，直到ENHANCE_CHANNEL，然后对信道1中的音频信号和信道2中的音频信号交错编码，由此在较低层提高音质，同时提供FGS。

在附图和说明书中，本发明的优选实施例已经使用特定术语得到描述，但是可以理解这样的术语仅被用于描述的意义，而且这样的术语不能被解释成作为本发明范围的限定。因此，本领域普通技术人员可以理解，可以对实施例做多种改变而不脱离本发明的精神和范围。因此，本发明的范围将由后附的权利要求作限定。

Claims

1.可缩放立体声音频编码方法，包括：

转换第一信道和第二信道音频取样；

量化所述转换的第一信道和第二信道音频取样；以及

编码所量化的第一信道音频取样直到预定的过渡层，然后通过从接续过渡层的层增加层索引，交错编码所量化的第一和第二信道音频取样，直到完成预定的多个层的编码。

2.如权利要求1所述的可缩放立体声音频编码方法，进一步包括：在量化前，分别将所转换的第一信道和第二信道音频取样的中间信号和侧面信号转换到第一信道和第二信道音频取样。

3.如权利要求1所述的可缩放立体声音频编码方法，其中根据音质和立体声特征中的哪一个被增强来确定过渡层。

4.如权利要求1所述的可缩放立体声音频编码方法，其中过渡层信息被表示为从由层索引、比例因数频带、和编码频带构成的组中选择的一个。

5.如权利要求3所述的可缩放立体声音频编码方法，其中过渡层信息被包括在分层比特流的首标信息或附加信息中。

6.一种可缩放立体声音频编码设备，包括：

心理声学单元，提供关于心理声学模型的信息；

变换单元，基于心理声学模型信息转换第一信道和第二信道音频取样；

量化器，量化所转换的第一信道和第二信道音频取样；以及

比特打包单元，编码所述经量化的第一信道音频取样直到预定的过渡层，然后通过从接续该过渡层的层增加层索引，交错编码所量化的第一和第二信道音频取样，直到完成预定的多个层的编码。

7.如权利要求6所述的可缩放立体声音频编码设备，进一步包括：M/S立体声处理器，分别将所转换的第一信道和第二信道音频取样的中间信号和侧面信号转换到第一信道和第二信道音频取样，然后将结果提供给量化器。

8.如权利要求6所述的可缩放立体声音频编码设备，其中根据音质和立体声特征中的哪一个被增强来确定过渡层。

9.如权利要求6所述的可缩放立体声音频编码设备，其中过渡层的信息被表示为从包括层索引、比例因数频带、和编码频带的组中选择的一个。

10.如权利要求6所述的可缩放立体声音频编码设备，其中过渡点的信息被包括在分层比特流的首标信息或附加信息中。

11.一种可缩放立体声音频解码方法，包括：

解码第一信道音频取样直到预定的过渡层，然后通过从接续该过渡层的层增加层索引，交错解码第一和第二信道音频取样，直到完成预定的多个层的解码，并获得第一和第二信道的量化取样；

将已量化的第一信道和第二信道的取样去量化；以及

反向转换第一和第二信道的所述去量化的取样，以获得第一和第二信道音频取样。

12.如权利要求11所述的可缩放立体声音频解码方法，其中在交错解码第一和第二信道音频取样中，当从接续该预定过渡层的层中断解码时，将已在第一信道被解码的量化取样复制到第二信道的相应层，从而恢复该量化取样。

13.如权利要求11所述的可缩放立体声音频解码方法，其中在交错解码第一和第二信道音频取样中，当在第二信道中的某一层中断解码时，将已在第一信道的某一层被解码的量化取样复制到第二信道的相应层，从而恢复该量化取样。

14.如权利要求11所述的可缩放立体声音频解码方法，进一步包括：M/S立体声反向处理第一和第二信道的去量化取样。

15.如权利要求11所述的可缩放立体声音频解码方法，其中过渡层的信息被获得作为从包括层索引、比例因数频带、和编码频带的组中选择的一个。

16.如权利要求11所述的可缩放立体声音频解码方法，其中从具有分层结构的比特流的首标信息或附加信息中提取过渡层的信息。

17.一种可缩放立体声音频解码设备，包括：

比特解包单元，解码第一信道音频取样直到预定的过渡层，然后通过从接续该过渡层的层增加层索引，交错解码第一和第二信道音频取样，直到完成预定的多个层的解码，并获得第一和第二信道的量化取样；

去量化器，将所述第一和第二信道的量化取样去量化；以及

反向变换器，反向转换所述第一和第二信道的去量化取样，以获得第一和第二信道音频取样。

18.如权利要求17所述的可缩放立体声音频解码设备，其中当从接续该预定过渡层的层中断解码时，比特解包单元将已在第一信道被解码的量化取样复制到第二信道的相应层，从而恢复该量化取样。

19.如权利要求17所述的可缩放立体声音频解码设备，其中当在第二信道中的某一层中断解码时，比特解包单元将已在第一信道的某一层被解码的量化取样复制到第二信道的相应层，从而恢复该量化取样。

20.如权利要求17所述的可缩放立体声音频解码设备，进一步包括M/S立体声反向处理器，M/S立体声反向处理第一和第二信道的去向量化取样。