CN113096672A

CN113096672A - 一种应用于低码率下的多音频对象编解码方法

Info

Publication number: CN113096672A
Application number: CN202110312781.8A
Authority: CN
Inventors: 胡瑞敏; 吴玉林; 王晓晨; 胡晨昊; 柯善发; 张灵鲲; 刘文可
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-07-09
Anticipated expiration: 2041-03-24
Also published as: CN113096672B

Abstract

本发明公开了一种应用于低码率下的多音频对象编解码方法，编码阶段本方法首先将输入的多个音频对象变换到频域；然后将频域的音频对象信号下混得到混合信号，并计算单个音频对象子带被细分后的边信息矩阵；其次利用卷积自编码器中的编码模块对边信息矩阵进行降维表达；最后将混合信号和降维后的边信息合成码流。解码阶段首先分解接收到的码流，得到下混信号和边信息；然后在卷积自编码器解码器网络中引入稠密连接模块从边信息的低维结构中重构原始高维的边信息数据，最后将重建的频域音频对象信号变换为时域信号。本发明可以在低码率下全面提升音频对象信号的解码质量，以满足用户对音频对象个性化控制的需求。

Description

一种应用于低码率下的多音频对象编解码方法

技术领域

本发明属于数字音频信号处理技术领域，涉及一种利用卷积自编码器和稠密连接混合网络压缩边信息与重建的音频对象编码解码方法，适用于低码率下的空间音频个性化交互系统，允许在用户根据自身需求调整音频对象。

背景技术

三维(3D)音频表示具有3个自由度(例如方位角，仰角和距离)的音频对象。它可以在3D空间中的任何位置形成声音图像。3D音频技术主要用于娱乐系统，以提供身临其境和个性化的体验。沉浸式的空间声音表示方式分为三种：基于声道的编码技术、基于高阶环境音的编码技术和基于对象的编码技术。基于声道的声音表示是将每个声道信号馈送到相对于听者位置固定的扬声器上。虽然基于声道的编码技术已经很成熟，然而该技术所产生的音频内容与特定的扬声器配置相关联，且该技术受到通道数量的限制，并且不能满足用户对音频对象个性化操作的需求，尤其是在沉浸式场景中，例如虚拟现实和增强现实的体感互动游戏。基于高阶环境音的编码技术使用系数信号来重建3D空间声场。虽然系数信号与声道或对象都没有直接关系，但基与高阶环境音的编码技术不适合对声音场景中单个对象的控制。基于对象的编码方法中每个音频对象位置完全独立于扬声器位置，结合个性化的渲染系统，将对象信号渲染到目标位置。因此基于对象的编码方法克服了产生的音频内容对扬声器位置的依赖。而且实现声音场景中高度沉浸式效果，例如鸟儿或直升机在头顶飞过，雨水从天空中落下，雷声从任何方向传来的听音效果。基于对象的编码框架已成功用于Dolby Atmos。

基于对象编码的典型代表是空间音频对象编码(Spatial Audio Object Coding,SAOC)，SAOC的核心思想是只需一个下混和边信息参数就可以传输多个目标信号，从而可以同时以低比特率对各种音频对象进行编码。但是，当音频对象的数量增加且码率较低时，SAOC重建的音频对象将带来频谱混叠。

发明内容

为解决上述技术问题，本发明提供一种应用于低码率下的多音频对象编解码方法，本发明能够在低码率下全面提升音频对象信号的解码质量，提高编码效率。

本发明提供一种应用于低码率下的多音频对象编解码方法，用于音频对象边信息的降维表达，其中音频对象边信息的降维表达包括以下步骤：

步骤A1：对输入的J个独立音频信号通过改进离散余弦变换MDCT进行时域-频域变换，得到对象信号的频谱；

步骤A2：对步骤A1得到的每帧频谱数据进行精细的子带划分；其中，根据子带数量对频谱混叠失真的影响，确定精细的子带划分的数量；

步骤A3：对步骤A2中的子带，计算所有对象的下混信号，获得下混信号码流；

步骤A4：对步骤A2中的子带，计算每个对象的边信息，得到边信息矩阵；

步骤A5：对A3得到的边信息矩阵传入卷积自编码器的编码器模块中，得到音频对象边信息的低维特征表达结果R，然后根据查表法对边信息值进行量化，获得边信息码流；

步骤A6：将步骤A3和步骤A5得到的码流合成输出码流，传输到解码端。

本发明提供一种应用于低码率下的多音频对象编解码方法，用于从低维结构中重建原始高维数据，具体包括以下步骤：

步骤B1：分解接收到的码流，得到下混信号码流和边信息码流；

步骤B2：步骤B1得到的下混信号码流解码得到下混信号；

步骤B3：步骤B1得到的边信息码流经过去量化操作得到边信息；

步骤B4：将步骤B3得到的边信息输入带有稠密连接模块的卷积自编码器解码器模块中，得到重建后的音频对象边信息；

步骤B5：根据B2得到的下混信号和B4得到的对象边信息，得到重建的音频对象频谱；

步骤B6：根据B5得到的音频对象频谱进行逆改进离散余弦变换IMDCT处理，得到重建的单个对象的时域信号。

与现有的音频对象编码相比，本发明的优势在于：利用卷积自编码器(Convolutional Auto Encoder,CAE)的编码模块中提取了边信息的有效特征，减少边信息参数的维数以节省比特率。并在卷积自编码器的解码模块中引入稠密连接(DenseNet)，增强解码神经网络各层之间的特征传递。从而很好地重建音频对象。因此，本发明可以在低码率下全面提升音频对象信号的解码质量，以满足用户对音频对象个性化控制的需求。

附图说明

图1是本发明实施例的编码流程图。

图2是本发明实施例的解码流程图。

图3是本发明实施例的卷积自编码器模型结构框图。

具体实施方式

为了便于本领域的技术人员理解和实施本发明，下面结合附图以及具体实施示例对本发明的技术方案作进一步说明，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明：

本发明在现有音频对象编码方法的基础上开展研究，提出了一种应用于低码率下的多音频对象编解码方法。首先利用卷积自编码器中的编码模块对边信息进行降维表达，然后在卷积自编码器解码模块中引入稠密连接，增强解码神经网络各层之间的特征传递，实现从边信息的低维结构中重构原始高维的边信息数据，从而边信息的低维特征得到充分利用，达到降低码率的目的。

本发明提供的一种应用于低码率下的多音频对象编解码方法，包括编码方法和解码方法；

请见图1，本实施例的编码方法，具体实现包括以下步骤：

步骤A1：输入为多个音频对象的时域信号S₁，S₂，...，S_J，如架子鼓、贝斯、人声等不同种类的音频对象信号，其采样频率是44.1kHz，位深度是16位，音频格式是wav格式。

本实施例中，对输入的J个独立音频信号S₁，S₂，...，S_J通过改进离散余弦变换MDCT进行时域-频域变换，得到对象信号的频谱0₁，O₂，...，O_J；

本实施例中，对时通过2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域-频域变换，得到单个对象的频谱矩阵，矩阵的行数(列数)等于帧数，列数(行数)等于频点数。

应注意的是，此处规定的帧长，窗函数类型以及变换方式等只是为了举例说明本发明的具体实施步骤，并不用作限定本发明。

步骤A2：对步骤A1得到的频谱O₁，O₂，...，O_J对每帧数据进行精细的子带划分；

本实施例中，根据子带数量对恢复音频对象频谱混叠失真的影响，利用评价指标SDR确定精细的子带划分数量。

本实施例中，由于ERB将每帧信号划分为28个子带，所以在2ERB子带的基础上，每个子带均匀细分为10个子带。

应该注意的是，此处规定的细分子带的数量只是为了举例说明本发明的具体实施流程，并不用作限定本发明。

本实施例中，将所有对象的频谱信息进行矩阵相加，得到下混信号数据，下混信号的计算如下式所示：

其中，sign()为符号函数，用于获取变量的符号；O_J(i，m)是第j个对象的频谱信息，i是对象的序号，b是频点的序号。

本实施例中，下混信号采用AAC编码器进行编码，码率控制为128kbps，得到下混信号码流；

应注意的是，对最终下混信号采用AAC 128kbps编码仅为举例说明本发明的具体实施步骤，并不用作限定本发明。

步骤A4：对步骤A2中的子带，计算每个对象的边信息，得到边信息矩阵G₁，G₂，...，G_J；

本实施例中，对象的边信息为

其中，P_j(i，b)表示对象j在子带(i，b)的能量，I是总帧数，J是对象的个数，B是子带数量；1≤i≤I，1≤j≤J，1≤b≤B。

步骤A5：对A3得到的边信息矩阵G₁，G₂，...，G_J，传入卷积自编码器的编码器模块中，得到音频对象边信息的低维特征表达结果R，获得边信息码流；

本实施例利用卷积自编码器的编码器模块对边信息进行降维表达，从而减少边原始信息的数据量。然后根据查表法对边信息值进行量化，最后把对应的量化索引形成码流输出。

步骤A6：步骤A3和步骤A5得到的码流合成输出码流，传输到解码端。

本实施例合成输出码流指将最终下混信号的码流与边信息码流进行整合。最终下混信号码流指经AAC编码后的输出码流，边信息码流指卷积自编码器编码器模块输出的量化索引码流。

请见图2，本实施例的解码方法，具体实现包括以下步骤：

本实施例中，根据解码端接收到的码流，利用码流解析得到下混信号码流和边信息码流。

步骤B2：步骤B1得到的下混信号码流经过AAC解码得到下混信号；

本实施例中，将步骤B3得到的边信息输入卷积自编码器的解码器模块中，其中卷积自编码器解码器模块中加入稠密连接网络，增强解码神经网络各层之间的特征传递，得到重建后的音频对象边信息

实现从边信息的低维结构中重构原始高维的边信息数据，边信息的低维特征的得到充分利用，达到降低码率的目的。

请见图3，本发明实施例中，卷积自编码器解码模块中加入稠密连接网络，其结构包括三个模块：模块1、模块2和模块3；

模块1由卷积层、重塑层、池化层和展平层组成，用于对输入的边信息数据通过卷积神经网络提取特征，并利用池化技术对提取的特征进行压缩处理，卷积层对特征进行进一步的低维表达处理；

模块2由重塑层、反卷积层和反卷积层组成，重塑层与两反卷积层稠密连接，用于对边信息数据特征的低维表达进行解码，其中稠密连接的引入是为了增强解码神经网络各层之间的特征传递；

模块3由反卷积层、重塑层和卷积层组成，用于对边信息数据特征的低维表达进行进一步解码，该操作可以看做是模块1的逆向操作。

本实施例中，将解码后的边信息输入到引入稠密连接的卷积自编码器的解码部分，从低维的边信息结构中重建出高维边信息数据。

本实施例中，重建的音频对象频谱

其中，

是重建的音频对象j的频域，

是经过编解码的下混信号，

是去量化的边信息；m是频点的序号，A_b-1和A_b-1代表子带b的开始频点和结束频点；1≤i≤I，1≤j≤J，1≤b≤B，A_b-1≤m≤A_b-1。

步骤B6：根据B5得到的音频对象频谱

进行逆改进离散余弦变换IMDCT处理，得到重建的单个对象的时域信号

本实施例中，利用逆改进离散余弦变换IMDCT进行频域-时域变换，最终得到重建的音频对象的时域信号。

本发明利用卷积自编码器(Convolutional Auto Encoder，CAE)的编码模块中提取了边信息的有效特征，减少边信息参数的维数以节省比特率。并在卷积自编码器的解码模块中引入稠密连接，增强解码神经网络各层之间的特征传递。从而很好地重建音频对象。因此，本发明可以在低码率下全面提升音频对象信号的解码质量，以满足用户对音频对象个性化控制的需求。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种应用于低码率下的多音频对象编解码方法，其特征在于：包括编码方法和解码方法；

所述编码方法，具体实现包括以下步骤：

2.根据权利要求1所述的应用于低码率下的多音频对象编解码方法，其特征在于：步骤A1中，通过2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域-频域变换，得到单个对象的频谱。

3.根据权利要求1所述的应用于低码率下的多音频对象编解码方法，其特征在于：步骤A2中，根据子带数量对恢复音频对象频谱混叠失真的影响，利用评价指标SDR确定精细的子带划分数量。

4.根据权利要求1所述的应用于低码率下的多音频对象编解码方法，其特征在于：步骤A3中，将所有对象的频谱信息进行矩阵相加，得到下混信号数据。

5.根据权利要求1-4任意一项所述的应用于低码率下的多音频对象编解码方法，其特征在于：步骤A4中，对象的边信息为

其中，P_j(i,b)表示对象j在子带(i,b)的能量，I是总帧数，J是对象的个数，B是子带数量；1≤i≤I，1≤j≤J，1≤b≤B。

6.一种应用于低码率下的多音频对象编解码方法，其特征在于：包括编码方法和解码方法；

所述解码方法，具体实现包括以下步骤：

步骤B2：步骤B1得到的下混信号码流解码得到下混信号；

7.根据权利要求6所述的应用于低码率下的多音频对象编解码方法，其特征在于：步骤B2中，利用AAC解码下混信号码流，得到编码前的下混信号。

8.根据权利要求6所述的应用于低码率下的多音频对象编解码方法，其特征在于：步骤B4中，在卷积自编码器解码模块中加入稠密连接网络，实现从边信息的低维结构中重构原始高维的边信息数据；

所述卷积自编码器解码模块中加入稠密连接网络，其结构包括三个模块：模块1、模块2和模块3；

所述模块1由卷积层、重塑层、池化层和展平层组成，用于对输入的边信息数据通过卷积神经网络提取特征，并利用池化技术对提取的特征进行压缩处理，卷积层对特征进行进一步的低维表达处理；

所述模块2，由重塑层、反卷积层和反卷积层组成，所述重塑层与两反卷积层稠密连接，用于对边信息数据特征的低维表达进行解码；

所述模块3，由反卷积层、重塑层和卷积层组成，用于对边信息数据特征的低维表达进行进一步解码，该操作是模块1的逆向操作。

9.根据权利要求6所述的应用于低码率下的多音频对象编解码方法，其特征在于：步骤B5中，重建的音频对象频谱

其中，

是重建的音频对象j的频域，

是经过编解码的下混信号，

10.根据权利要求6-9任意一项所述的应用于低码率下的多音频对象编解码方法，其特征在于：步骤B6中，利用逆改进离散余弦变换IMDCT进行频域-时域变换，最终得到重建的音频对象的时域信号。