CN113314132A

CN113314132A - 一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置

Info

Publication number: CN113314132A
Application number: CN202110535195.XA
Authority: CN
Inventors: 胡瑞敏; 吴玉林; 王晓晨; 胡晨昊; 柯善发; 张灵鲲; 刘文可
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-08-27
Anticipated expiration: 2041-05-17
Also published as: CN113314132B

Abstract

本发明提供了一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置，其中的编码方法首先将输入的独立多个音频对象进过预处理变换到频域；然后利用非均匀子带划分算法完成子带划分，计算每个音频的对象的空间信息参数，将音频对象频域信号下混得到单声道的下混信号；其次利用深度神经网络中的编码模块对空间参数进行降维表达；最后将混合信号和压缩后的空间参数合成编码码流。与一般的音频对象编码方法相比，在相同码率下，本音频对象编码方法混叠失真有明显下降，能给用户带来更好的沉浸式体验。该方法适用于音频交互设备，且适用于多风格、多类型、多模态的音频信号。

Description

一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置

技术领域

本发明涉及属于数字音频信号处理领域，具体涉及沉浸式多音频对象编码方法，适用于交互式音频服务系统，允许用户根据自身需求生成个性化的多音频对象。

背景技术

随着移动通信技术的迅猛发展，虚拟现实、增强现实和基于智能手机的沉浸式捕获成为空间音频对象编码的新应用。如何对沉浸式音频信号进行有效编码，是当前移动通信技术与交互过程中一个亟待解决的问题。

传统的基于声道的编码技术已发展成熟，但该技术对扬声器数量和扬声器位置有严格的要求，例如NHK22.2系统包含24个声道，扬声器的位置分布为三层，其中上层9声道，中层10声道，下层3声道。且基于声道的编码系统不能满足用户个性化的操作需求。所以该技术难以应用于沉浸式的移动通信中。基于对象的音频编码技术摆脱了扬声器数量和扬声器位置对音频内容的限制，结合用户个性化的交互指令，最终实现对象信号的灵活呈现效果。空间音频对象编码技术以(Spatial Audio Object Coding,SAOC)为代表，并已商用到杜比全景声中。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

SAOC的编码思想是利用单声道的下混信号和提取的空间信息参数数据，以较低的码率同时传输多个对象信号。SAOC技术具备对对象信号高效压缩和灵活配置的优势。但由于传统的SAOC方法中，一帧仅包含28个子带，即存在大量的频点共用空间参数，导致频谱混叠。

发明内容

本发明提出一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置，用于解决或者至少部分解决因大量的频点共用空间参数，导致频谱混叠的技术问题。

为了解决上述技术问题，本发明提供了一种应用于交互式音频系统中的音频对象编码方法，包括：

步骤A1：对输入的多个独立音频对象信号进行时域-频域变换，得到对象信号的频谱数据；

步骤A2：对步骤A1得到的每帧频谱数据进行非均匀频率分辨率的子带划分，得到划分后的子带；

步骤A3：对步骤A1中的对象信号的频谱数据，计算所有对象的下混信号，并利用单声道编码器，获得下混信号码流；；

步骤A4：对步骤A2中划分后的子带，计算每个对象的空间信息参数数据，并构建空间信息参数矩阵，用以存储对象的空间信息参数数据；

步骤A5：对A4得到的空间信息参数矩阵传入预先训练好的深度神经网络的编码模块中，得到编码后的空间参数表示，其中，编码模块用以对空间信息参数矩阵中的数据进行编码处理，得到低维的空间参数表示，即编码后的空间参数表示；

步骤A6：对编码后的空间参数表示进行量化，获得空间信息参数码流；

步骤A7：将步骤A3中得到的下混信号码流和步骤A6得到的空间信息参数码流合成为编码码流，传输到解码端。

在一种实施方式中，步骤A1中输入的多个独立音频对象信号包含多种风格、多种类型的音频对象。

在一种实施方式中，利用人耳对低频声比高频声敏感的特性，对全频段的音频信号进行非均匀频率分辨率的子带划分，步骤A2包括：

对于低频段的信号，子带的频率分辨率FR为最小的频点分辨率，其中，最小的频点分辨率为2048点MDCT变换后的频率分辨率Δf，剩余频段的频率分辨率值按照x次方递增，低频段的信号为小于预设值的信号，频率分辨率的计算方式为：

其中，b为子带序号，μ为低频段的子带数量。

在一种实施方式中，步骤A5中的深度神经网络，根据情况选择对应的学习算法、训练次数和损失函数进行训练得到。

基于同样的发明构思，本发明第二方面提供了一种应用于交互式音频系统中的音频对象解码方法，包括：

步骤B1：对接收的编码码流进行解析，得到单声道下混信号码流和空间信息参数码流；

步骤B2：对步骤B1得到的空间信息参数码流进行反量化操作得到非均匀频率分辨率的空间信息参数的低维表示；

步骤B3：利用单声道解码器对步骤B1得到的下混信号码流进行解码得到下混信号；

步骤B4：将非均匀频率分辨率的空间信息参数的低维表示输入预先训练好的深度神经网络的解码模块，得到解码后的空间信息参数，其中，解码模块用于对空间信息参数的低维表示进行解码处理，恢复成高维的空间信息参数；

步骤B5：对解码后的空间信息参数和下混信号进行合成，得到单个音频对象信号；

步骤B6：对单个音频对象信号进行频域-时域变换，得到解码后的单个对象信号；

步骤B7：根据单个对象信号，利用用户交互指令，得到带有个性化信息的多音频对象。

基于同样的发明构思，本发明第三方面提供了一种应用于交互式音频系统中的音频对象编码装置，包括：

预处理模块，用于对输入的多个独立音频对象信号进行时域-频域变换，得到对象信号的频谱数据；

非均匀子带划分模块，用于对得到的每帧频谱数据进行非均匀频率分辨率的子带划分，得到划分后的子带；

单声道编码器模块，用于对对象信号的频谱数据，计算所有对象的下混信号，并利用单声道编码器，获得下混信号码流；；

参数信息计算模块，用于对划分后的子带，计算每个对象的空间信息参数数据，并构建空间信息参数矩阵，用以存储对象的空间信息参数数据；

参数转换模块，用于对空间信息参数矩阵传入预先训练好的深度神经网络的编码模块中，得到编码后的空间参数表示，其中，编码模块用以对空间信息参数矩阵中的数据进行编码处理，得到低维的空间参数表示，即编码后的空间参数表示；

量化模块，用于对编码后的空间参数表示进行量化，获得空间信息参数码流；

码流合成模块，用于将下混信号码流和空间信息参数码流合成为编码码流，传输到解码端。

基于同样的发明构思，本发明第四方面提供了一种应用于交互式音频系统中的音频对象解码装置，包括：

解析模块，用于对接收的编码码流进行解析，得到单声道下混信号码流和空间信息参数码流；

反量化模块，用于对空间信息参数码流进行反量化操作得到非均匀频率分辨率的空间信息参数的低维表示；

单声道解码器模块，用于利用单声道解码器对得到的下混信号码流进行解码得到下混信号；

参数转换模块，用于将非均匀频率分辨率的空间信息参数的低维表示输入预先训练好的深度神经网络的解码模块，得到解码后的空间信息参数，其中，解码模块用于对空间信息参数的低维表示进行解码处理，恢复成高维的空间信息参数；

对象合成模块，用于对解码后的空间信息参数和下混信号进行合成，得到单个音频对象信号；

后处理模块，用于对单个音频对象信号进行频域-时域变换，得到解码后的单个对象信号；

渲染器模块，用于根据单个对象信号，利用用户交互指令，得到带有个性化信息的多音频对象。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供一种应用于交互式音频系统中的音频对象编码方法，首先将输入的独立多个音频对象进过预处理变换到频域；然后利用非均匀子带划分算法完成子带划分，计算每个音频的对象的空间信息参数，将音频对象频域信号下混得到单声道的下混信号；再利用深度神经网络中的编码模块对空间参数进行降维表达；最后将混合信号和压缩后的空间参数合成编码码流。本发明提供的方法能够在相同码率下全面提升音频对象信号的编码质量，提高编码效率，从而给用户带来更逼真的沉浸感和临场感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种应用于交互式音频系统中的音频对象编码方法的流程框图；

图2为本发明实施例中一种应用于交互式音频系统中的音频对象解码方法的流程框图。

具体实施方式

本发明实施例提供了一种应用于交互式音频系统中的沉浸式音频对象编码方法，用于解决在家庭影院、移动通信和沉浸式交互系统中，音频对象信号存在混叠失真的问题。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种应用于交互式音频系统中的音频对象编码方法，包括：

步骤A1：对输入的多个独立音频对象信号进行，得到对象信号的频谱数据；

具体来说，为改进现有音频对象编码技术在混叠失真方面的问题，本实施例阐述了一种应用于交互式音频系统中的沉浸式音频对象编码方法，实施流程图如图1所示。

在具体实施过程中，步骤A1输入的是多个音频对象信号O₁,O₂,…,O_J，包含多种风格、多种类型的音频对象，比如钢琴音、鼓声、吉他音和人声等。其中进行时域-频域变换时，参数设置为2048点MDCT变换(改进的离散余弦变换)。

上述输入信号的采样率可以为11025/22050/24000/44100/48000赫兹等。

作为优选，采样率为44100赫兹。

步骤A2将输入的多音频对象转换到频域，使用重叠窗对所有音频信号分帧，可以选择凯塞-贝塞尔窗、汉宁窗、海明窗等窗函数，可以取50％、2/3重叠等常见重叠方式，MDCT变换的点数可以取1024/2048常见数值；

优选的，使用50％重叠的64毫秒时长的凯塞-贝塞尔窗，MDCT，即窗长为1024个采样点。

其中，b为子带序号，μ为低频段的子带数量。

在具体实施过程中，x的取值可以为2/3/4等数值。优选的，x取2。

深度神经网络的编码模块，为控制空间信息参数数据的码率，训练基于深度神经网络的编码器，得到空间信息参数数据的低维表示。

举例来说，深度神经网络模型可以基于现有的自编码器模型得到，可以是自编码器(AutoEncoder,AE)、卷积自编码器(Convolutional Auto-Encode,CAE)、稀疏自编码器(Sparse Autoencoder,SAE)、栈式自编码器(Stacked AutoEncoder,SAE)和栈式稀疏自编码器(Stacked Sparse AutoEncoder,SSAE)。

优选的，为卷积自编码器(Convolutional Auto-Encode,CAE)。

步骤A3中，将所有对象频点能量(即所有对象频谱系数的平方)相加可以得到单通道的下混信号；然后对下混信号进行编码，编码器可以是AAC/Opus/Speex。

优选的，编码器选AAC。

其中，步骤A6的量化操作中，将低维的空间信息参数表示量化成码流，量化位数n的取值可以为4/5/6/7/8等数值；

优选的，n取4。

实施例二

基于同样的发明构思，本实施例还提供了一种应用于交互式音频系统中的音频对象解码方法，包括：

具体来说，请参见图2，应用于交互式音频系统中的沉浸式音频对象解码方法的实施流程图，当接收到编码码流后，首先对其进行解析，然后将空间信息参数码流反量化为低维的空间参数值；

步骤B3中对下混信号进行解码，解码器可以是AAC/Opus/Speex；

优选的，解码器是AAC。

步骤B4中训练基于深度神经网络的解码器，从空间信息参数的低维表示中恢复空间信息参数。深度神经网络模型中，输入数据为一定时长的原始空间信息参数(空间信息参数的低维表示)，输出数据为解码后的空间信息参数，网络训练过程根据情况选择合适的学习算法、训练次数和损失函数等一系列超参数。

步骤B5：利用空间参数和下混信号合成单个对象信号；

步骤B6：将输入的多音频对象转换到时域，参数设置与编码方法中相同。

步骤B7：如图2的解码方法中“渲染器”模块，利用恢复的音频对象信号和用户交互指令(如：消除主唱音或单独播放贝斯音)，生成所需的输出信号；

综上，本发明提供了一种用于交互式音频系统中的沉浸式音频对象编码方法，为改进现有的对象编码技术在频谱混叠失真方面的问题，能应用于沉浸式的场景。具体实施时，可使用计算机软件技术实现自动化处理流程。

实施例三

基于同样的发明构思，本实施例提供了一种应用于交互式音频系统中的音频对象编码装置，包括：

由于本发明实施例三所介绍的装置，为实施本发明实施例一中应用于交互式音频系统中的音频对象编码方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

实施例四

基于同样的发明构思，本实施例提供了一种应用于交互式音频系统中的音频对象解码装置，包括：

由于本发明实施例四所介绍的装置，为实施本发明实施例二中应用于交互式音频系统中的音频对象解码方法所采用的装置，故而基于本发明实施例二所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例二的方法所采用的装置都属于本发明所欲保护的范围。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种应用于交互式音频系统中的音频对象编码方法，其特征在于，包括：

2.如权利要求1所述的音频对象编码方法，其特征在于，步骤A1中输入的多个独立音频对象信号包含多种风格、多种类型的音频对象。

3.如权利要求1所述的音频对象编码方法，其特征在于，利用人耳对低频声比高频声敏感的特性，对全频段的音频信号进行非均匀频率分辨率的子带划分，步骤A2包括：

其中，b为子带序号，μ为低频段的子带数量。

4.如权利要1所述的音频对象编码方法，其特征在于，步骤A5中的深度神经网络，根据情况选择对应的学习算法、训练次数和损失函数进行训练得到。

5.一种应用于交互式音频系统中的音频对象解码方法，其特征在于，包括：

6.一种应用于交互式音频系统中的音频对象编码装置，其特征在于，包括：

7.一种应用于交互式音频系统中的音频对象解码装置，其特征在于，包括：