Nothing Special   »   [go: up one dir, main page]

CN102682779A - 面向3d音频的双声道编解码方法和编解码器 - Google Patents

面向3d音频的双声道编解码方法和编解码器 Download PDF

Info

Publication number
CN102682779A
CN102682779A CN2012101839630A CN201210183963A CN102682779A CN 102682779 A CN102682779 A CN 102682779A CN 2012101839630 A CN2012101839630 A CN 2012101839630A CN 201210183963 A CN201210183963 A CN 201210183963A CN 102682779 A CN102682779 A CN 102682779A
Authority
CN
China
Prior art keywords
signal
mrow
sub
channel
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101839630A
Other languages
English (en)
Other versions
CN102682779B (zh
Inventor
胡瑞敏
董石
郑翔
涂卫平
杨玉红
王晓晨
高戈
刘梦颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN2012101839630A priority Critical patent/CN102682779B/zh
Publication of CN102682779A publication Critical patent/CN102682779A/zh
Application granted granted Critical
Publication of CN102682779B publication Critical patent/CN102682779B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种面向3D音频的双声道编解码方法和编解码器,本发明在面向3D音频的双声道技术基础上,根据人耳听觉特性,将更多的编码能量用于编码的主成分中,并针对不同的音频信号采用不同的编码方法进行编码,进而提出一种面向3D音频的双声道编解码方法及相应的编解码器。本发明方法能降低编解码噪音,使重建信号具有更高的信噪比,同时能更好的模拟3D音频信号。

Description

面向3D音频的双声道编解码方法和编解码器
技术领域
本发明涉及音频压缩技术领域,尤其涉及了一种面向3D音频的双声道编解码方法和编解码器。
背景技术
随着新世纪信息技术的迅猛发展,音频压缩技术得到的广泛应用。如今的3D音频技术,如5.1声道、7.1声道,甚至更多用于音效渲染的渠道越来越流行。多声道音频能够提供更加身临其境的真实听觉效果。但随着音频通道的不断增加,编码所产生的比特率也在线性增加,因而就需要更多的音频录制空间和更多的实时传输带宽,于是许多高效的编码技术应运而生,如下混和参数立体声编码。而针对上述技术同时也产生了许多立体声编码的音频编解码器,如PS、EAAC+、MPEG-Surround以及基于PCA的立体声音频编解码器等。在多声源、多方向的情况下,传统的音频编解码器的编解码结果并不能表现出更好的主观及客观音质。
发明内容
为进一步提高音频编解码质量、降低编解码噪音、增强主观和客观音质,本发明提出了一种面向3D音频的双声道编解码方法和编解码器。
为解决上述技术问题,本发明采用如下的技术方案:
一、一种面向3D音频的双声道编码方法,包括步骤:
S1.1对输入的双声道信号分别进行时频变换,将时域上的双声道信号转换成频域上的双声道信号;
S1.2、对所述的频域上的双声道信号分别进行子带划分,得到双声道子带信号;
S1.3、分别采用基于频域主成份和基于极坐标主成份的参数编码方法对所述的双声道子带信号逐一进行编码,以得到各双声道子带信号在上述两种编码方法下所产生的编码噪音能量;
所述的采用基于极坐标主成份的参数编码方法对所述的双声道子带信号进行编码所得到的编码噪音能量
Figure BDA00001733175900011
ε2.k为第k个双声道子带信号的编码噪音能量,ρk(j)为第k个双声道子带信号中第j个频点的信号幅值,
Figure BDA00001733175900021
Lk(j)、Rk(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为第k个双声道子带信号中频点的数量;
S1.4、针对各双声道子带信号,选择较小编码噪音能量所对应的参数编码方法对该双声道子带信号进行进一步编码,若噪音能量相等,则选择基于频域主成分的参数编码方法对该双声道子带信号进行进一步编码;若采用基于频域主成分的参数编码方法进行进一步编码,则输出双声道子带信号的编码主成分序列、方向角以及噪音能量比;若采用基于极坐标主成分的参数编码方法进行进一步编码,则输出双声道子带信号的编码主成分序列、旋转半径以及噪音能量比;
所述的采用基于极坐标主成分的参数编码方法所得到的编码主成分序列为:
PCk={PCk(j)|j=1,2,...,n}
其中,PCk为第k个双声道子带信号的主成分序列,PCk(j)为第k个双声道子带信号中第j个频点的主要成分,
Figure BDA00001733175900022
Figure BDA00001733175900023
表示第k个双声道子带信号中第j个频点的方向角,
Figure BDA00001733175900024
Lk(j)、Rk(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为编号为k的子带中频点的数量;
所述的采用基于极坐标主成分的参数编码方法所得到的旋转半径为:
ρ ‾ k = Σ j = 1 n L k 2 ( j ) + R k 1 ( j ) n
其中,
Figure BDA00001733175900026
为第k个双声道子带信号的旋转半径,Lk(j)、Rk(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为第k个双声道子带信号中频点的数量;
所述的采用基于极坐标主成分的参数编码方法所得到的噪音能量比为:
PAR = π 2 48 Σ j = 1 n [ ρ k ( j ) - 1 n Σ j = 1 n ρ k ( j ) ] 2
其中,ρk(j)为第k个双声道子带信号中第j个频点的信号幅值,
Figure BDA00001733175900028
Lk(j)、Rk(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为第k个双声道子带信号中频点的数量;
S1.5、对所述的编码主成分序列进行下混,得到下混信号;
S1.6、采用核心编码器对所述的下混信号进行编码,得到编码码流,并将所述的方向角或旋转半径、和噪音能量比写入编码码流。
二、一种面向3D音频的双声道编码器,包括:
时频变换模块,用来对输入的双声道信号分别进行时频变换,将时域上的双声道信号转换成频域上的双声道信号;
子带划分模块,用来对所述的频域上的双声道信号分别进行子带划分,得到双声道子带信号;
编码噪音能量计算模块,用来分别采用基于频域主成份和基于极坐标主成份的参数编码方法对所述的双声道子带信号逐一进行编码,以得到各双声道子带信号在上述两种编码方法下所产生的编码噪音能量;所述的采用基于极坐标主成份的参数编码方法对所述的双声道子带信号进行编码所得到的编码噪音能量
Figure BDA00001733175900031
ε2.k为第k个双声道子带信号的编码噪音能量,ρk(j)为第k个双声道子带信号中第j个频点的信号幅值,Lk(j)、Rk(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为第k个双声道子带信号中频点的数量;
参数编码模块,用来针对各双声道子带信号,选择较小编码噪音能量所对应的参数编码方法对该双声道子带信号进行进一步编码,若噪音能量相等,则选择基于频域主成分的参数编码方法对该双声道子带信号进行进一步编码;若采用基于频域主成分的参数编码方法进行进一步编码,则输出双声道子带信号的编码主成分序列、方向角以及噪音能量比;若采用基于极坐标主成分的参数编码方法进行进一步编码,则输出双声道子带信号的编码主成分序列、旋转半径以及噪音能量比;
所述的采用基于极坐标主成分的参数编码方法所得到的编码主成分序列为:
PCk={PCk(j)|j=1,2,...,n}
其中,PCk为第k个双声道子带信号的主成分序列,PCk(j)为第k个双声道子带信号中第j个频点的主要成分,
Figure BDA00001733175900041
表示第k个双声道子带信号中第j个频点的方向角,
Figure BDA00001733175900043
Lk(j)、Rk(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为编号为k的子带中频点的数量;
所述的采用基于极坐标主成分的参数编码方法所得到的旋转半径为:
ρ ‾ k = Σ j = 1 n L k 2 ( j ) + R k 1 ( j ) n
其中,
Figure BDA00001733175900045
为第k个双声道子带信号的旋转半径,Lk(j)、Rk(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为第k个双声道子带信号中频点的数量;
所述的采用基于极坐标主成分的参数编码方法所得到的噪音能量比为:
PAR = π 2 48 Σ j = 1 n [ ρ k ( j ) - 1 n Σ j = 1 n ρ k ( j ) ] 2
其中,ρk(j)为第k个双声道子带信号中第j个频点的信号幅值,Lk(j)、Rk(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为第k个双声道子带信号中频点的数量;
下混模块,用来对所述的编码主成分序列进行下混,得到下混信号;
核心编码器,用来对所述的下混信号进行编码,得到编码码流,并将所述的方向角或旋转半径、和噪音能量比写入编码码流。
三、一种面向3D音频的双声道解码方法,包括步骤:
S2.1采用核心解码器对编码码流进行解码,得到解码信号;
S2.2对所述的解码信号进行子带划分,得到解码子带信号;
S2.3采用与编码所用参数编码方法相应的参数解码方法、并结合编码码流中的方向角或旋转半径、噪音能力比对所述的解码子带信号进行解码,得到重建的频域子带信号;
S2.4合并所述的重建的频域子带信号得到重建的频域信号;
S2.5对所述的频域信号进行时频逆变换,将频域信号转换成时域信号,恢复出重建的音频信号。
上述的参数解码方法为基于频域主成份的参数解码方法或基于极坐标主成份的参数解码方法。
所述的利用基于频域主成份的参数解码方法对所述的解码子带信号进行解码,得到重建的频域子带信号,具体为:根据编码码流中的噪音能量比,产生一个与原始信号具有相同能量的白噪声,结合编码码流中的主要成分序列和方向角,将所述的解码子带信号进行恢复,得到重建的频域子带信号。
所述的利用基于极坐标主成份的参数解码方法对所述的解码子带信号进行解码,得到重建的频域子带信号,具体为:根据编码码流中的噪音能量比,产生一个与原始信号具有相同能量的白噪声,结合编码码流中的主要成分序列和旋转半径,将所述的解码子带信号进行恢复,得到重建的频域子带信号。
四、一种面向3D音频的双声道解码器,包括:
核心解码器,用来对编码码流进行解码,得到解码信号;
子带划分模块,用来对所述的解码信号进行子带划分,得到解码子带信号;
参数解码模块,用来采用与编码所用参数编码方法相应的参数解码方法、并结合编码码流中的方向角或旋转半径、噪音能力比对所述的解码子带信号进行解码,得到重建的频域子带信号;
子带合并模块,用来合并所述的重建的频域子带信号得到重建的频域信号;
时频逆变换模块,用来对所述的频域信号进行时频逆变换,将频域信号转换成时域信号,恢复出重建的音频信号。
上述参数解码模块进一步包括基于频域主成份的参数解码模块和基于极坐标主成份的参数解码模块。
所述的基于频域主成份的参数解码模块,用来根据编码码流中的噪音能量比,产生一个与原始信号具有相同能量的白噪声,结合编码码流中的主要成分序列和方向角,将所述的解码子带信号进行恢复,得到重建的频域子带信号。
所述的基于极坐标主成份的参数解码模块,用来根据编码码流中的噪音能量比,产生一个与原始信号具有相同能量的白噪声,结合编码码流中的主要成分序列和旋转半径,将所述的解码子带信号进行恢复,得到重建的频域子带信号。
本发明在面向3D音频的双声道技术基础上,根据人耳听觉特性,将更多的编码能量用于编码的主成分中,并针对不同的音频信号采用不同的编码方法进行编码,进而提出一种面向3D音频的双声道编解码方法及相应的编解码器。本发明方法能降低编解码噪音,使重建信号具有更高的信噪比,同时能更好的模拟3D音频信号。
附图说明
图1是本发明编码方法的流程图;
图2是本发明解码方法的流程图;
图3是本发明编码方法中的子带划分的流程图;
图4是本发明编码方法中编码方法选择的流程图;
图5是本发明的基于极坐标主成分的参数编码方法示意图;
图6是本发明解码方法中解码方法选择的流程图;
图7是本发明解码方法中的参数解码的流程图。
具体实施方式
本发明提出了一种面向3D音频的双声道编码方法,以及相应的双声道解码方法,具体实施时,可以由本领域技术人员采用计算机软件手段根据所提供技术方案实现音频自动编解码。由于在编解码应用中,往往还可以将编解码软件方法固化形成编解码装置,所以,本发明还提供了相应的面向3D音频的双声道编码器和解码器。
以下将结合附图对本发明的具体实施方式做详细说明,以使本发明的技术方案和有益效果更为清楚。
本发明中为了采用基于频域主成分的参数编码方法来分析空间音频信号,编码方案中利用最小均方误差(MMSE)将两个声道合并为一个声道,然后只有这一个声道被核心编码器所编码。在解码时,利用方向角、主要成分和次要成分的环境噪音能量比(PAR)进行信号的重建,其中,环境噪音产生一个类似于原始信号能量的白噪声来模拟原始信号。但对于3D的多声道信号,子带划分时,一些子带是由小的均匀的子带合并而来,其中包含了很多左右声道能量比有差异的子带。由于这些子带能更好的模拟多个不同方向的声源,因此在基于频域主成分的参数编码方式中,只用一个方向角和PAR来传输下混的信道并不合理。针对上述问题,本发明提出了一种基于极坐标的参数编码方法,在极坐标中进行主要成分和次要成分的参数编码,以旋转半径和PAR来进行信号的重建,来更好的模拟3D音频信号,使其有更高的信噪比。
本发明的面向3D音频的双声道编码方法,具体流程图参见图1,包括如下步骤:
步骤1.1,对输入的双声道信号分别进行时频变换,将时域上的双声道信号转换成频域上的双声道信号
双声道信号由左声道信号l和右声道信号r组成,本步骤的具体实施为:采用快速傅里叶变换(FFT)将时域上的左声道信号l和右声道信号r分别转换成频域上的左声道信号L和右声道信号R。
步骤1.2,对频域上的左声道信号L和右声道信号R进行子带划分,得到左、右声道子带信号,图3为本步骤的一种具体实施的流程图。
本步骤的具体实施为:
采用基于等效矩形带宽(ERB)的划分方法将频域上的左声道信号L和右声道信号R分别划分为64个子带,再根据人耳听觉特性和编码器的需求,分别对左声道信号L和右声道信号R的子带进行合并或再细分、或既进行合并又进行再细分,得到最终的左声道子带信号和右声道信号。
由于人耳对低频的声音比较敏感,而对高频的声音的感知较差,因此,可对左声道信号L和右声道信号R的64个子带进行进一步处理:可以对其中的低频子带进行再细分,或对高频子带进行合并,或者既对低频子带进行再细分又对高频子带进行合并。在本具体实施中将64个子带信号中的3个低频子带再细分为16个子带,将61个高频子带合并为4个子带,最终得到20个子带信号,以下的操作就是针对所得的20个子带信号来进行。上述的低频和高频的范围,是在具体实施时,根据需要人为来规定的。
步骤1.3,分别采用基于频域主成分的参数编码方法(PCA)和基于极坐标主成分的参数编码方法(PC-PCA)对步骤1.2所得的左声道子带信号和右声道子带信号进行编码,分别求出上述两种参数编码方法的编码噪音能量。
本步骤的具体实施为:
1)采用基于频域主成分的参数编码方法对左声道子带信号和右声道子带信号进行编码,以求得基于频域主成分的参数编码方法所产生的编码噪音能量。
假设步骤1.2所得到的左声道子带信号Lk和右声道子带信号Rk数量均为N,将第k个左声道子带信号和右声道子带信号分别表示为Lk、Rk,k=1,2,...,N,并假设左声道子带信号Lk和右声道子带信号Rk中各含有n个频点,则子带信号Lk和Rk可以看成由n个频点的信号所组成的序列,Lk={Lk(j)|j=1,2,...,n}和Rk={Rk(j)|j=1,2,...,n},Lk(j)和Rk(j)分别为子带信号Lk和Rk中第j个频点的信号。本步骤是逐一针对各子带信号Lk和Rk,k=1,2,...,N,来获取基于频域主成分的参数编码方法所产生的编码噪音能量。
下面将以子带信号Lk和Rk为例,进一步说明基于频域主成分的参数编码方法所产生的编码噪音能量的获取:
a)计算Lk和Rk序列构成的协方差矩阵Rk
R k = r ll r lr r rl r rr - - - ( 1 )
其中,
rll=cov[Lk,Lk],rlr=rrl=cov[Lk,Rk],rrr=cov[Rk,Rk];
b)求协方差矩阵Rk的特征值λ1和λ2
λ 1 = 1 2 [ r ll + r rr + ( r ll - r rr ) 2 + ( 2 r lr ) 2 ] - - - ( 2 )
λ 2 = 1 2 [ r ll + r rr + ( r ll - r rr ) 2 + ( 2 r lr ) 2 ] - - - ( 3 )
c)根据特征值λ1和λ2分别得到基于频域主成分的参数编码方法(PCA)的主要成分能量Ep和次要成分能量Es
Ep=max(λ12)    (4)
Es=min(λ12)    (5)
则,基于频域主成分的参数编码方法所产生的编码噪声能量ε1=Es=min(λ12)。
2)采用基于极坐标主成分的参数编码方法对左声道子带信号和右声道子带信号进行编码,以求得基于极坐标主成分的参数编码方法所产生的编码噪音能量。
基于极坐标主成分的参数编码方式是在基于频域主成分参数编码方式的基础上自创的,两者的编码原理相同,但所采用的坐标不同,基于频域主成分参数编码方式采用的是直角坐标系,而基于极坐标主成分的参数编码方式则采用的是极坐标系。
假设步骤1.2所得到的左声道子带信号Lk和右声道子带信号Rk数量均为N,将第k个左声道子带信号和右声道子带信号分别表示为Lk、Rk,k=1,2,...,N,并假设左声道子带信号Lk和右声道子带信号Rk中含有n个频点,则子带信号Lk和Rk可以看出由n个频点的信号所组成的序列,Lk={Lk(j)|j=1,2,...,n}和Rk={Rk(j)|j=1,2,...,n},Lk(j)和Rk(j)分别为子带信号Lk和Rk中第j个频点的信号。本步骤是逐一针对各子带信号Lk和Rk,k=1,2,...,N,来获取基于极坐标主成分的参数编码方法所产生的编码噪音能量。
下面将以子带信号Lk和Rk为例,进一步说明本步骤:
a)为了能在极坐标系中进行主成分参数编码,逐一将子带信号Lk和Rk中各频点的子带信号Lk(j)和Rk(j)引入极坐标系中组成2个新的随机变量ρk(j)和
Figure BDA00001733175900091
如图5所示,其中,j=1,2,...,n,Lk(j)、Rk(j)表示子带信号Lk和Rk中第j个频点的信号,ρk(j)表示子带信号Lk和Rk中第j个频点的信号的幅值,
Figure BDA00001733175900092
Figure BDA00001733175900093
表示子带信号Lk和Rk中第j个频点的方向角:
Figure BDA00001733175900094
将子带信号Lk和Rk中各频点的信号幅值构成ρk序列,将子带信号Lk和Rk中各频点所对应的方向角构成
Figure BDA00001733175900095
序列:
ρk={ρk(j)|j=1,2,...,n}    (7)
Figure BDA00001733175900096
b)计算ρk
Figure BDA00001733175900097
序列构成的协方差矩阵Rk
Figure BDA00001733175900098
其中,
Figure BDA00001733175900099
Figure BDA000017331759000911
c)求协方差矩阵Rk(9)的特征值λ1、λ2,并根据λ1、λ2得出基于极坐标主成分的参数编码方法(PC-PCA)的主要成分能量
Figure BDA000017331759000912
和次要成分能量Eρ
Figure BDA000017331759000913
E ρ = λ 1 = Σ j = 1 n [ ρ k ( j ) - Σ j = 1 n ( j ) ) n ] 2 - - - ( 11 )
则,基于极坐标主成分的参数编码方式的编码噪声能量ε2=Eρ
分别采用上述基于频域主成分和基于极坐标主成分的参数编码方法逐一对N个子带信号Lk和Rk求解编码噪音能量,最终得到N组编码噪声能量。
步骤1.4,根据上述两种参数编码方法所产生的编码噪声能量大小来选择最优的参数编码方法,并采用所选的参数编码方法对左、右声道子带信号(Lk和Rk)进行进一步编码
本步骤中选择最优参数编码方式的具体实施为:
选择编码噪声能量较小的参数编码方法,并输出该参数编码方法对应的模式mode,再采用被选参数编码方法对步骤1.2所得的左、右声道信号进行进一步编码。
假设采用基于频域主成分和基于极坐标主成分的参数编码方法对子带信号Lk和Rk编码所产生的编码噪声能量为ε1、ε2,下面仍然以子带信号Lk和Rk为例说明本步骤的具体实施:
1)若ε1≤ε2,则输出mode=0,此时,采用基于频域主成分的参数编码方法对子带信号Lk和Rk进行进一步编码:
根据式(1)的协方差矩阵Rk得出子带信号Lk和Rk的方向角
Figure BDA00001733175900102
采用基于频域主成分的参数编码方法对子带信号Lk和Rk进行进一步编码,得到编码后的主要成分序列PCk和次要成分序列Ak,PCk={PCk(j)|j=1,2,...,n},Ak={Ak(j)|j=1,2,...,n},PCk(j)为子带信号Lk和Rk中第j个频点的主要成分,Ak(j)为子带信号Lk和Rk中第j个频点的次要成分,其中:
cos θ k sin θ k - sin θ k cos θ k L k ( j ) R k ( j ) = PC k ( j ) A k ( j ) - - - ( 12 )
Lk(j)、Rk(j)分别为子带信号Lk和Rk中第j个频点的信号,θk表示子带信号Lk和Rk的方向角,k=1,2,...,N,j=1,2,...,n。
采用上述方法对所有子带逐一进行解码,并输出各子带的主要成分序列PCk、方向角θk,以及噪音能量比PAR(即Ep和Es之比)。
2)若ε1>ε2,则输出mode=1,此时,采用基于极坐标主成分的参数编码方法对子带信号Lk和Rk进行进一步编码:
采用基于极坐标主成分的参数编码方法对子带信号Lk和Rk进行进一步编码,得到编码后的主要成分序列PCk和次要成分序列Ak,PCk={PCk(j)|j=1,2,...,n},Ak={Ak(j)|j=1,2,...,n},PCk(j)为子带信号Lk和Rk中第j个频点的主要成分,Ak(j)为子带信号Lk和Rk中第j个频点的次要成分:
其中,Lk(j)、Rk(j)分别为子带信号Lk和Rk中第j个频点的信号,
Figure BDA00001733175900112
表示子带信号中Lk和Rk第j个频点的方向角,
Figure BDA00001733175900113
的值如式(6)所示,k=1,2,...,N,j=1,2,...,n。
求解子带信号Lk和Rk的旋转半径
Figure BDA00001733175900114
旋转半径
Figure BDA00001733175900115
为子带信号Lk和Rk各频点的信号幅值的平均值,即:
ρ ‾ k = Σ j = 1 n L k 2 ( j ) + R k 1 ( j ) n - - - ( 14 )
采用上述方法对所有子带逐一进行解码,并输出各子带的主要成分序列PCk、旋转半径ρk,以及PAR(即Eρ
Figure BDA00001733175900117
之比)。
步骤1.3和1.4均是以各子带信号为基础来进行编码的,针对每个子带信号均会计算一个基于频域主成分的参数编码方法的编码噪音能量ε1和一个基于极坐标主成分的参数编码方法的编码噪音能量ε2,每个子带信号均进行一次ε1和ε2大小的比较,并选择较小的编码噪音能量所对应的参数编码方法对该子带进行进一步编码。步骤1.3和1.4的过程如图3所示。
步骤1.5,对步骤1.4所产生的所有主要成分序列PCk进行信号下混,得到下混后的信号m,k=1,2,...,N;
步骤1.6,将步骤1.5所得的下混信号m传入核心编码器进行编码,得到编码后的码流,若是采用的基于极坐标主成分的参数编码方法进行编码,则将旋转半径ρk、PAR及mode值写入编码码流中;若是采用的基于极频域主成分的参数编码方法进行编码,则将方向角θk、PAR及mode值写入编码码流中。
本发明还提供了一种面向3D音频的双声道编码方法,具体流程图参见图2,包括如下步骤:
步骤2.1,对编码端所得的编码码流进行解码,得到解码信号m
具体实施时,将编码码流输入核心解码器,利用核心解码器解码得到解码信号m。
步骤2.2,对步骤2.1中获得的解码信号m进行子带划分,得到解码子带信号
具体实施时,将核心解码器输出的解码信号m划分成子带序列P(N),其中,N为子带数量,等同于编码方法中的N值。
步骤2.3,根据编码码流中的模式mode值选择相应的解码模式,结合编码码流中的方向角或旋转半径、噪音能量比进行解码工作,得到重建的频域子带信号,如图6和图7所示。
本步骤的具体实施为:
1)若mode=0,则选择基于频域主成分的参数解码方法:
根据编码码流中的噪音能量比PAR,产生一个与原始信号具有相同能量的白噪声,结合编码码流中的主要成分序列和方向角,利用基于频域主成份的参数解码方法将步骤2.2中所得的子带序列P(N)进行恢复,得到解码后的子带信号,即重建的频域子带信号
Figure BDA00001733175900121
L ^ 1 , L ^ 2 , . . . , L ^ N .
2)若mode=1,则选择基于极坐标主成分的参数解码方法:
根据编码码流中的噪音能量比PAR,产生一个与原始信号具有相同能量的白噪声,结合编码码流中的主要成分序列和旋转半径,利用基于极坐标主成份的参数解码方法将步骤2.2中所得的子带序列P(N)进行恢复,得到解码后的子带信号,即重建的频域子带信号 R ^ 1 , R ^ 2 , . . . , R ^ N . L ^ 1 , L ^ 2 , . . . , L ^ N .
步骤2.4,合并步骤2.3所得到的重建的频域子带信号得到重建的频域信号
Figure BDA00001733175900126
步骤2.5,对步骤2.4所得到的重建的频域声道信号进行时频逆变换,恢复出重建的时域信号
Figure BDA00001733175900132
具体实施时,可采用现有技术,如FFT(快速傅里叶变换)变换来实现,本发明不予赘述。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (10)

1.一种面向3D音频的双声道编码方法,其特征在于,包括步骤:
S1.1、对输入的双声道信号分别进行时频变换,将时域上的双声道信号转换成频域上的双声道信号;
S1.2、对所述的频域上的双声道信号分别进行子带划分,得到双声道子带信号;
S1.3、分别采用基于频域主成份和基于极坐标主成份的参数编码方法对所述的双声道子带信号逐一进行编码,以得到各双声道子带信号在上述两种编码方法下所产生的编码噪音能量;
所述的采用基于极坐标主成份的参数编码方法对所述的双声道子带信号进行编码所得到的编码噪音能量
Figure FDA00001733175800011
ε2.k为第k个双声道子带信号的编码噪音能量,ρk(j)为第k个双声道子带信号中第j个频点的信号幅值,
Figure FDA00001733175800012
Lk(j)、Rk(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为第k个双声道子带信号中频点的数量;
S1.4、针对各双声道子带信号,选择较小编码噪音能量所对应的参数编码方法对该双声道子带信号进行进一步编码,若噪音能量相等,则选择基于频域主成分的参数编码方法对该双声道子带信号进行进一步编码;若采用基于频域主成分的参数编码方法进行进一步编码,则输出双声道子带信号的编码主成分序列、方向角以及噪音能量比;若采用基于极坐标主成分的参数编码方法进行进一步编码,则输出双声道子带信号的编码主成分序列、旋转半径以及噪音能量比;
所述的采用基于极坐标主成分的参数编码方法所得到的编码主成分序列为:
PCk={PCk(j)|j=1,2,...,n}
其中,PCk为第k个双声道子带信号的主成分序列,PCk(j)为第k个双声道子带信号中第j个频点的主要成分,
Figure FDA00001733175800013
Figure FDA00001733175800014
表示第k个双声道子带信号中第j个频点的方向角,
Figure FDA00001733175800015
Lk(j)、Rk(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为编号为k的子带中频点的数量;
所述的采用基于极坐标主成分的参数编码方法所得到的旋转半径为:
ρ ‾ k = Σ j = 1 n L k 2 ( j ) + R k 2 ( j ) n
其中,
Figure FDA00001733175800022
为第k个双声道子带信号的旋转半径,Lk(j)、Rk(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为第k个双声道子带信号中频点的数量;
所述的采用基于极坐标主成分的参数编码方法所得到的噪音能量比为:
PAR = π 2 48 Σ j = 1 n [ ρ k ( j ) - 1 n Σ j = 1 n ρ k ( j ) ] 2
其中,ρk(j)为第k个双声道子带信号中第j个频点的信号幅值,
Figure FDA00001733175800024
Lk(j)、Rk(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为第k个双声道子带信号中频点的数量;
S1.5、对所述的编码主成分序列进行下混,得到下混信号;
S1.6、采用核心编码器对所述的下混信号进行编码,得到编码码流,并将所述的方向角或旋转半径、和噪音能量比写入编码码流。
2.一种面向3D音频的双声道编码器,其特征在于,包括:
时频变换模块,用来对输入的双声道信号分别进行时频变换,将时域上的双声道信号转换成频域上的双声道信号;
子带划分模块,用来对所述的频域上的双声道信号分别进行子带划分,得到双声道子带信号;
编码噪音能量计算模块,用来分别采用基于频域主成份和基于极坐标主成份的参数编码方法对所述的双声道子带信号逐一进行编码,以得到各双声道子带信号在上述两种编码方法下所产生的编码噪音能量;所述的采用基于极坐标主成份的参数编码方法对所述的双声道子带信号进行编码所得到的编码噪音能量
Figure FDA00001733175800025
ε2.k为第k个双声道子带信号的编码噪音能量,ρk(j)为第k个双声道子带信号中第j个频点的信号幅值,
Figure FDA00001733175800031
Lk(j)、Rk(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为第k个双声道子带信号中频点的数量;
参数编码模块,用来针对各双声道子带信号,选择较小编码噪音能量所对应的参数编码方法对该双声道子带信号进行进一步编码,若噪音能量相等,则选择基于频域主成分的参数编码方法对该双声道子带信号进行进一步编码;若采用基于频域主成分的参数编码方法进行进一步编码,则输出双声道子带信号的编码主成分序列、方向角以及噪音能量比;若采用基于极坐标主成分的参数编码方法进行进一步编码,则输出双声道子带信号的编码主成分序列、旋转半径以及噪音能量比;
所述的采用基于极坐标主成分的参数编码方法所得到的编码主成分序列为:
PCk={PCk(j)|j=1,2,...,n}
其中,PCk为第k个双声道子带信号的主成分序列,PCk(j)为第k个双声道子带信号中第j个频点的主要成分,
Figure FDA00001733175800032
表示第k个双声道子带信号中第j个频点的方向角,Lk(j)、Rk(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为编号为k的子带中频点的数量;
所述的采用基于极坐标主成分的参数编码方法所得到的旋转半径为:
ρ ‾ k = Σ j = 1 n L k 2 ( j ) + R k 2 ( j ) n
其中,
Figure FDA00001733175800036
为第k个双声道子带信号的旋转半径,Lk(j)、Rk(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为第k个双声道子带信号中频点的数量;
所述的采用基于极坐标主成分的参数编码方法所得到的噪音能量比为:
PAR = π 2 48 Σ j = 1 n [ ρ k ( j ) - 1 n Σ j = 1 n ρ k ( j ) ] 2
其中,ρk(j)为第k个双声道子带信号中第j个频点的信号幅值,
Figure FDA00001733175800038
Lk(j)、Rk(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为第k个双声道子带信号中频点的数量;
下混模块,用来对所述的编码主成分序列进行下混,得到下混信号;
核心编码器,用来对所述的下混信号进行编码,得到编码码流,并将所述的方向角或旋转半径、和噪音能量比写入编码码流。
3.一种面向3D音频的双声道解码方法,其特征在于,包括步骤:
S2.1、采用核心解码器对编码码流进行解码,得到解码信号;
S2.2、对所述的解码信号进行子带划分,得到解码子带信号;
S2.3、采用与编码所用参数编码方法相应的参数解码方法、并结合编码码流中的方向角或旋转半径、噪音能力比对所述的解码子带信号进行解码,得到重建的频域子带信号;
S2.4、合并所述的重建的频域子带信号得到重建的频域信号;
S2.5、对所述的频域信号进行时频逆变换,将频域信号转换成时域信号,恢复出重建的音频信号。
4.根据权利要求3所述的面向3D音频的双声道解码方法,其特征在于:
步骤S2.3中所述的参数解码方法为基于频域主成份的参数解码方法或基于极坐标主成份的参数解码方法。
5.根据权利要求4所述的面向3D音频的双声道解码方法,其特征在于:
所述的利用基于频域主成份的参数解码方法对所述的解码子带信号进行解码,得到重建的频域子带信号,具体为:
根据编码码流中的噪音能量比,产生一个与原始信号具有相同能量的白噪声,结合编码码流中的主要成分序列和方向角,将所述的解码子带信号进行恢复,得到重建的频域子带信号。
6.根据权利要求4所述的面向3D音频的双声道解码方法,其特征在于:
所述的利用基于极坐标主成份的参数解码方法对所述的解码子带信号进行解码,得到重建的频域子带信号,具体为:
根据编码码流中的噪音能量比,产生一个与原始信号具有相同能量的白噪声,结合编码码流中的主要成分序列和旋转半径,将所述的解码子带信号进行恢复,得到重建的频域子带信号。
7.一种面向3D音频的双声道解码器,其特征在于,包括:
核心解码器,用来对编码码流进行解码,得到解码信号;
子带划分模块,用来对所述的解码信号进行子带划分,得到解码子带信号;
参数解码模块,用来采用与编码所用参数编码方法相应的参数解码方法、并结合编码码流中的方向角或旋转半径、噪音能力比对所述的解码子带信号进行解码,得到重建的频域子带信号;
子带合并模块,用来合并所述的重建的频域子带信号得到重建的频域信号;
时频逆变换模块,用来对所述的频域信号进行时频逆变换,将频域信号转换成时域信号,恢复出重建的音频信号。
8.根据权利要求7所述的面向3D音频的双声道解码器,其特征在于:
所述的参数解码模块进一步包括基于频域主成份的参数解码模块和基于极坐标主成份的参数解码模块。
9.根据权利要求8所述的面向3D音频的双声道解码器,其特征在于:
所述的基于频域主成份的参数解码模块,用来根据编码码流中的噪音能量比,产生一个与原始信号具有相同能量的白噪声,结合编码码流中的主要成分序列和方向角,将所述的解码子带信号进行恢复,得到重建的频域子带信号。
10.根据权利要求8所述的面向3D音频的双声道解码器,其特征在于:
所述的基于极坐标主成份的参数解码模块,用来根据编码码流中的噪音能量比,产生一个与原始信号具有相同能量的白噪声,结合编码码流中的主要成分序列和旋转半径,将所述的解码子带信号进行恢复,得到重建的频域子带信号。
CN2012101839630A 2012-06-06 2012-06-06 面向3d音频的双声道编解码方法和编解码器 Expired - Fee Related CN102682779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101839630A CN102682779B (zh) 2012-06-06 2012-06-06 面向3d音频的双声道编解码方法和编解码器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101839630A CN102682779B (zh) 2012-06-06 2012-06-06 面向3d音频的双声道编解码方法和编解码器

Publications (2)

Publication Number Publication Date
CN102682779A true CN102682779A (zh) 2012-09-19
CN102682779B CN102682779B (zh) 2013-07-24

Family

ID=46814589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101839630A Expired - Fee Related CN102682779B (zh) 2012-06-06 2012-06-06 面向3d音频的双声道编解码方法和编解码器

Country Status (1)

Country Link
CN (1) CN102682779B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400582A (zh) * 2013-08-13 2013-11-20 武汉大学 面向多声道三维音频的编解码方法与系统
CN104240712A (zh) * 2014-09-30 2014-12-24 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及系统
CN105336333A (zh) * 2014-08-12 2016-02-17 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
CN105632505A (zh) * 2014-11-28 2016-06-01 北京天籁传音数字技术有限公司 主成分分析pca映射模型的编解码方法及装置
CN107787509A (zh) * 2015-06-17 2018-03-09 三星电子株式会社 处理低复杂度格式转换的内部声道的方法和设备
CN114783450A (zh) * 2022-04-02 2022-07-22 杭州网易云音乐科技有限公司 音频处理方法、装置、计算设备及介质
WO2024212634A1 (zh) * 2023-04-13 2024-10-17 华为技术有限公司 场景音频编码方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101162904A (zh) * 2007-11-06 2008-04-16 武汉大学 一种空间参数立体声编解码方法及其装置
CN101401152A (zh) * 2006-03-15 2009-04-01 法国电信公司 通过多通道音频信号的主分量分析进行编码的设备和方法
US20110046946A1 (en) * 2008-05-30 2011-02-24 Panasonic Corporation Encoder, decoder, and the methods therefor
US20110075850A1 (en) * 2008-05-13 2011-03-31 Stormingswiss Gmbh Angle-dependent operating device or method for generating a pseudo-stereophonic audio signal

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101401152A (zh) * 2006-03-15 2009-04-01 法国电信公司 通过多通道音频信号的主分量分析进行编码的设备和方法
CN101162904A (zh) * 2007-11-06 2008-04-16 武汉大学 一种空间参数立体声编解码方法及其装置
US20110075850A1 (en) * 2008-05-13 2011-03-31 Stormingswiss Gmbh Angle-dependent operating device or method for generating a pseudo-stereophonic audio signal
US20110046946A1 (en) * 2008-05-30 2011-02-24 Panasonic Corporation Encoder, decoder, and the methods therefor

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400582A (zh) * 2013-08-13 2013-11-20 武汉大学 面向多声道三维音频的编解码方法与系统
CN103400582B (zh) * 2013-08-13 2015-09-16 武汉大学 面向多声道三维音频的编解码方法与系统
CN105336333A (zh) * 2014-08-12 2016-02-17 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
CN105336333B (zh) * 2014-08-12 2019-07-05 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
CN104240712A (zh) * 2014-09-30 2014-12-24 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及系统
CN104240712B (zh) * 2014-09-30 2018-02-02 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及系统
CN105632505A (zh) * 2014-11-28 2016-06-01 北京天籁传音数字技术有限公司 主成分分析pca映射模型的编解码方法及装置
WO2016082278A1 (zh) * 2014-11-28 2016-06-02 北京天籁传音数字技术有限公司 主成分分析pca映射模型的编解码方法及装置
CN105632505B (zh) * 2014-11-28 2019-12-20 北京天籁传音数字技术有限公司 主成分分析pca映射模型的编解码方法及装置
CN107787509A (zh) * 2015-06-17 2018-03-09 三星电子株式会社 处理低复杂度格式转换的内部声道的方法和设备
CN114783450A (zh) * 2022-04-02 2022-07-22 杭州网易云音乐科技有限公司 音频处理方法、装置、计算设备及介质
WO2024212634A1 (zh) * 2023-04-13 2024-10-17 华为技术有限公司 场景音频编码方法及电子设备

Also Published As

Publication number Publication date
CN102682779B (zh) 2013-07-24

Similar Documents

Publication Publication Date Title
US11798568B2 (en) Methods, apparatus and systems for encoding and decoding of multi-channel ambisonics audio data
KR102230727B1 (ko) 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
EP1934973B1 (en) Temporal and spatial shaping of multi-channel audio signals
RU2665214C1 (ru) Стереофонический кодер и декодер аудиосигналов
TWI413108B (zh) 音訊解碼器、接收機與傳輸系統、音訊解碼方法、用於發射及接收音訊信號之方法及相關電腦程式產品與音訊播放裝置
TWI497485B (zh) 用以重塑經合成輸出音訊信號之時域包絡以更接近輸入音訊信號之時域包絡的方法
TWI404429B (zh) 用於將多頻道音訊信號編碼/解碼之方法與裝置
CN102682779A (zh) 面向3d音频的双声道编解码方法和编解码器
ES2547232T3 (es) Método y aparato para procesar una señal
CN109448741B (zh) 一种3d音频编码、解码方法及装置
KR20130079627A (ko) 오디오 인코딩 및 디코딩
KR20070001205A (ko) 방법, 디바이스, 인코더 장치, 디코더 장치 및 오디오시스템
TWI689210B (zh) 時域身歷聲編解碼方法和相關產品
CN103700372A (zh) 一种基于正交解相关技术的参数立体声编码、解码方法
CN103413553A (zh) 音频编码方法、音频解码方法、编码端、解码端和系统
CN110660401B (zh) 一种基于高低频域分辨率切换的音频对象编解码方法
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
Dong et al. Enhanced principal component using polar coordinate PCA for stereo audio coding
KR20110022251A (ko) 스테레오 오디오의 부호화, 복호화 방법 및 장치
CN105336334B (zh) 多声道声音信号编码方法、解码方法及装置
RU2798009C2 (ru) Стереофонический кодер и декодер аудиосигналов

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130724

Termination date: 20190606