CN113314132A - 一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置 - Google Patents
一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置 Download PDFInfo
- Publication number
- CN113314132A CN113314132A CN202110535195.XA CN202110535195A CN113314132A CN 113314132 A CN113314132 A CN 113314132A CN 202110535195 A CN202110535195 A CN 202110535195A CN 113314132 A CN113314132 A CN 113314132A
- Authority
- CN
- China
- Prior art keywords
- spatial information
- code stream
- information parameter
- module
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 15
- 230000003993 interaction Effects 0.000 claims abstract description 9
- 230000005236 sound signal Effects 0.000 claims abstract description 7
- 238000001228 spectrum Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000013139 quantization Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000009467 reduction Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供了一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置,其中的编码方法首先将输入的独立多个音频对象进过预处理变换到频域;然后利用非均匀子带划分算法完成子带划分,计算每个音频的对象的空间信息参数,将音频对象频域信号下混得到单声道的下混信号;其次利用深度神经网络中的编码模块对空间参数进行降维表达;最后将混合信号和压缩后的空间参数合成编码码流。与一般的音频对象编码方法相比,在相同码率下,本音频对象编码方法混叠失真有明显下降,能给用户带来更好的沉浸式体验。该方法适用于音频交互设备,且适用于多风格、多类型、多模态的音频信号。
Description
技术领域
本发明涉及属于数字音频信号处理领域,具体涉及沉浸式多音频对象编码方法,适用于交互式音频服务系统,允许用户根据自身需求生成个性化的多音频对象。
背景技术
随着移动通信技术的迅猛发展,虚拟现实、增强现实和基于智能手机的沉浸式捕获成为空间音频对象编码的新应用。如何对沉浸式音频信号进行有效编码,是当前移动通信技术与交互过程中一个亟待解决的问题。
传统的基于声道的编码技术已发展成熟,但该技术对扬声器数量和扬声器位置有严格的要求,例如NHK22.2系统包含24个声道,扬声器的位置分布为三层,其中上层9声道,中层10声道,下层3声道。且基于声道的编码系统不能满足用户个性化的操作需求。所以该技术难以应用于沉浸式的移动通信中。基于对象的音频编码技术摆脱了扬声器数量和扬声器位置对音频内容的限制,结合用户个性化的交互指令,最终实现对象信号的灵活呈现效果。空间音频对象编码技术以(Spatial Audio Object Coding,SAOC)为代表,并已商用到杜比全景声中。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
SAOC的编码思想是利用单声道的下混信号和提取的空间信息参数数据,以较低的码率同时传输多个对象信号。SAOC技术具备对对象信号高效压缩和灵活配置的优势。但由于传统的SAOC方法中,一帧仅包含28个子带,即存在大量的频点共用空间参数,导致频谱混叠。
发明内容
本发明提出一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置,用于解决或者至少部分解决因大量的频点共用空间参数,导致频谱混叠的技术问题。
为了解决上述技术问题,本发明提供了一种应用于交互式音频系统中的音频对象编码方法,包括:
步骤A1:对输入的多个独立音频对象信号进行时域-频域变换,得到对象信号的频谱数据;
步骤A2:对步骤A1得到的每帧频谱数据进行非均匀频率分辨率的子带划分,得到划分后的子带;
步骤A3:对步骤A1中的对象信号的频谱数据,计算所有对象的下混信号,并利用单声道编码器,获得下混信号码流;;
步骤A4:对步骤A2中划分后的子带,计算每个对象的空间信息参数数据,并构建空间信息参数矩阵,用以存储对象的空间信息参数数据;
步骤A5:对A4得到的空间信息参数矩阵传入预先训练好的深度神经网络的编码模块中,得到编码后的空间参数表示,其中,编码模块用以对空间信息参数矩阵中的数据进行编码处理,得到低维的空间参数表示,即编码后的空间参数表示;
步骤A6:对编码后的空间参数表示进行量化,获得空间信息参数码流;
步骤A7:将步骤A3中得到的下混信号码流和步骤A6得到的空间信息参数码流合成为编码码流,传输到解码端。
在一种实施方式中,步骤A1中输入的多个独立音频对象信号包含多种风格、多种类型的音频对象。
在一种实施方式中,利用人耳对低频声比高频声敏感的特性,对全频段的音频信号进行非均匀频率分辨率的子带划分,步骤A2包括:
对于低频段的信号,子带的频率分辨率FR为最小的频点分辨率,其中,最小的频点分辨率为2048点MDCT变换后的频率分辨率Δf,剩余频段的频率分辨率值按照x次方递增,低频段的信号为小于预设值的信号,频率分辨率的计算方式为:
其中,b为子带序号,μ为低频段的子带数量。
在一种实施方式中,步骤A5中的深度神经网络,根据情况选择对应的学习算法、训练次数和损失函数进行训练得到。
基于同样的发明构思,本发明第二方面提供了一种应用于交互式音频系统中的音频对象解码方法,包括:
步骤B1:对接收的编码码流进行解析,得到单声道下混信号码流和空间信息参数码流;
步骤B2:对步骤B1得到的空间信息参数码流进行反量化操作得到非均匀频率分辨率的空间信息参数的低维表示;
步骤B3:利用单声道解码器对步骤B1得到的下混信号码流进行解码得到下混信号;
步骤B4:将非均匀频率分辨率的空间信息参数的低维表示输入预先训练好的深度神经网络的解码模块,得到解码后的空间信息参数,其中,解码模块用于对空间信息参数的低维表示进行解码处理,恢复成高维的空间信息参数;
步骤B5:对解码后的空间信息参数和下混信号进行合成,得到单个音频对象信号;
步骤B6:对单个音频对象信号进行频域-时域变换,得到解码后的单个对象信号;
步骤B7:根据单个对象信号,利用用户交互指令,得到带有个性化信息的多音频对象。
基于同样的发明构思,本发明第三方面提供了一种应用于交互式音频系统中的音频对象编码装置,包括:
预处理模块,用于对输入的多个独立音频对象信号进行时域-频域变换,得到对象信号的频谱数据;
非均匀子带划分模块,用于对得到的每帧频谱数据进行非均匀频率分辨率的子带划分,得到划分后的子带;
单声道编码器模块,用于对对象信号的频谱数据,计算所有对象的下混信号,并利用单声道编码器,获得下混信号码流;;
参数信息计算模块,用于对划分后的子带,计算每个对象的空间信息参数数据,并构建空间信息参数矩阵,用以存储对象的空间信息参数数据;
参数转换模块,用于对空间信息参数矩阵传入预先训练好的深度神经网络的编码模块中,得到编码后的空间参数表示,其中,编码模块用以对空间信息参数矩阵中的数据进行编码处理,得到低维的空间参数表示,即编码后的空间参数表示;
量化模块,用于对编码后的空间参数表示进行量化,获得空间信息参数码流;
码流合成模块,用于将下混信号码流和空间信息参数码流合成为编码码流,传输到解码端。
基于同样的发明构思,本发明第四方面提供了一种应用于交互式音频系统中的音频对象解码装置,包括:
解析模块,用于对接收的编码码流进行解析,得到单声道下混信号码流和空间信息参数码流;
反量化模块,用于对空间信息参数码流进行反量化操作得到非均匀频率分辨率的空间信息参数的低维表示;
单声道解码器模块,用于利用单声道解码器对得到的下混信号码流进行解码得到下混信号;
参数转换模块,用于将非均匀频率分辨率的空间信息参数的低维表示输入预先训练好的深度神经网络的解码模块,得到解码后的空间信息参数,其中,解码模块用于对空间信息参数的低维表示进行解码处理,恢复成高维的空间信息参数;
对象合成模块,用于对解码后的空间信息参数和下混信号进行合成,得到单个音频对象信号;
后处理模块,用于对单个音频对象信号进行频域-时域变换,得到解码后的单个对象信号;
渲染器模块,用于根据单个对象信号,利用用户交互指令,得到带有个性化信息的多音频对象。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供一种应用于交互式音频系统中的音频对象编码方法,首先将输入的独立多个音频对象进过预处理变换到频域;然后利用非均匀子带划分算法完成子带划分,计算每个音频的对象的空间信息参数,将音频对象频域信号下混得到单声道的下混信号;再利用深度神经网络中的编码模块对空间参数进行降维表达;最后将混合信号和压缩后的空间参数合成编码码流。本发明提供的方法能够在相同码率下全面提升音频对象信号的编码质量,提高编码效率,从而给用户带来更逼真的沉浸感和临场感。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种应用于交互式音频系统中的音频对象编码方法的流程框图;
图2为本发明实施例中一种应用于交互式音频系统中的音频对象解码方法的流程框图。
具体实施方式
本发明实施例提供了一种应用于交互式音频系统中的沉浸式音频对象编码方法,用于解决在家庭影院、移动通信和沉浸式交互系统中,音频对象信号存在混叠失真的问题。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种应用于交互式音频系统中的音频对象编码方法,包括:
步骤A1:对输入的多个独立音频对象信号进行,得到对象信号的频谱数据;
步骤A2:对步骤A1得到的每帧频谱数据进行非均匀频率分辨率的子带划分,得到划分后的子带;
步骤A3:对步骤A1中的对象信号的频谱数据,计算所有对象的下混信号,并利用单声道编码器,获得下混信号码流;;
步骤A4:对步骤A2中划分后的子带,计算每个对象的空间信息参数数据,并构建空间信息参数矩阵,用以存储对象的空间信息参数数据;
步骤A5:对A4得到的空间信息参数矩阵传入预先训练好的深度神经网络的编码模块中,得到编码后的空间参数表示,其中,编码模块用以对空间信息参数矩阵中的数据进行编码处理,得到低维的空间参数表示,即编码后的空间参数表示;
步骤A6:对编码后的空间参数表示进行量化,获得空间信息参数码流;
步骤A7:将步骤A3中得到的下混信号码流和步骤A6得到的空间信息参数码流合成为编码码流,传输到解码端。
具体来说,为改进现有音频对象编码技术在混叠失真方面的问题,本实施例阐述了一种应用于交互式音频系统中的沉浸式音频对象编码方法,实施流程图如图1所示。
在一种实施方式中,步骤A1中输入的多个独立音频对象信号包含多种风格、多种类型的音频对象。
在具体实施过程中,步骤A1输入的是多个音频对象信号O1,O2,…,OJ,包含多种风格、多种类型的音频对象,比如钢琴音、鼓声、吉他音和人声等。其中进行时域-频域变换时,参数设置为2048点MDCT变换(改进的离散余弦变换)。
上述输入信号的采样率可以为11025/22050/24000/44100/48000赫兹等。
作为优选,采样率为44100赫兹。
步骤A2将输入的多音频对象转换到频域,使用重叠窗对所有音频信号分帧,可以选择凯塞-贝塞尔窗、汉宁窗、海明窗等窗函数,可以取50%、2/3重叠等常见重叠方式,MDCT变换的点数可以取1024/2048常见数值;
优选的,使用50%重叠的64毫秒时长的凯塞-贝塞尔窗,MDCT,即窗长为1024个采样点。
在一种实施方式中,利用人耳对低频声比高频声敏感的特性,对全频段的音频信号进行非均匀频率分辨率的子带划分,步骤A2包括:
对于低频段的信号,子带的频率分辨率FR为最小的频点分辨率,其中,最小的频点分辨率为2048点MDCT变换后的频率分辨率Δf,剩余频段的频率分辨率值按照x次方递增,低频段的信号为小于预设值的信号,频率分辨率的计算方式为:
其中,b为子带序号,μ为低频段的子带数量。
在具体实施过程中,x的取值可以为2/3/4等数值。优选的,x取2。
在一种实施方式中,步骤A5中的深度神经网络,根据情况选择对应的学习算法、训练次数和损失函数进行训练得到。
深度神经网络的编码模块,为控制空间信息参数数据的码率,训练基于深度神经网络的编码器,得到空间信息参数数据的低维表示。
举例来说,深度神经网络模型可以基于现有的自编码器模型得到,可以是自编码器(AutoEncoder,AE)、卷积自编码器(Convolutional Auto-Encode,CAE)、稀疏自编码器(Sparse Autoencoder,SAE)、栈式自编码器(Stacked AutoEncoder,SAE)和栈式稀疏自编码器(Stacked Sparse AutoEncoder,SSAE)。
优选的,为卷积自编码器(Convolutional Auto-Encode,CAE)。
步骤A3中,将所有对象频点能量(即所有对象频谱系数的平方)相加可以得到单通道的下混信号;然后对下混信号进行编码,编码器可以是AAC/Opus/Speex。
优选的,编码器选AAC。
其中,步骤A6的量化操作中,将低维的空间信息参数表示量化成码流,量化位数n的取值可以为4/5/6/7/8等数值;
优选的,n取4。
实施例二
基于同样的发明构思,本实施例还提供了一种应用于交互式音频系统中的音频对象解码方法,包括:
步骤B1:对接收的编码码流进行解析,得到单声道下混信号码流和空间信息参数码流;
步骤B2:对步骤B1得到的空间信息参数码流进行反量化操作得到非均匀频率分辨率的空间信息参数的低维表示;
步骤B3:利用单声道解码器对步骤B1得到的下混信号码流进行解码得到下混信号;
步骤B4:将非均匀频率分辨率的空间信息参数的低维表示输入预先训练好的深度神经网络的解码模块,得到解码后的空间信息参数,其中,解码模块用于对空间信息参数的低维表示进行解码处理,恢复成高维的空间信息参数;
步骤B5:对解码后的空间信息参数和下混信号进行合成,得到单个音频对象信号;
步骤B6:对单个音频对象信号进行频域-时域变换,得到解码后的单个对象信号;
步骤B7:根据单个对象信号,利用用户交互指令,得到带有个性化信息的多音频对象。
具体来说,请参见图2,应用于交互式音频系统中的沉浸式音频对象解码方法的实施流程图,当接收到编码码流后,首先对其进行解析,然后将空间信息参数码流反量化为低维的空间参数值;
步骤B3中对下混信号进行解码,解码器可以是AAC/Opus/Speex;
优选的,解码器是AAC。
步骤B4中训练基于深度神经网络的解码器,从空间信息参数的低维表示中恢复空间信息参数。深度神经网络模型中,输入数据为一定时长的原始空间信息参数(空间信息参数的低维表示),输出数据为解码后的空间信息参数,网络训练过程根据情况选择合适的学习算法、训练次数和损失函数等一系列超参数。
步骤B5:利用空间参数和下混信号合成单个对象信号;
步骤B6:将输入的多音频对象转换到时域,参数设置与编码方法中相同。
步骤B7:如图2的解码方法中“渲染器”模块,利用恢复的音频对象信号和用户交互指令(如:消除主唱音或单独播放贝斯音),生成所需的输出信号;
综上,本发明提供了一种用于交互式音频系统中的沉浸式音频对象编码方法,为改进现有的对象编码技术在频谱混叠失真方面的问题,能应用于沉浸式的场景。具体实施时,可使用计算机软件技术实现自动化处理流程。
实施例三
基于同样的发明构思,本实施例提供了一种应用于交互式音频系统中的音频对象编码装置,包括:
预处理模块,用于对输入的多个独立音频对象信号进行时域-频域变换,得到对象信号的频谱数据;
非均匀子带划分模块,用于对得到的每帧频谱数据进行非均匀频率分辨率的子带划分,得到划分后的子带;
单声道编码器模块,用于对对象信号的频谱数据,计算所有对象的下混信号,并利用单声道编码器,获得下混信号码流;;
参数信息计算模块,用于对划分后的子带,计算每个对象的空间信息参数数据,并构建空间信息参数矩阵,用以存储对象的空间信息参数数据;
参数转换模块,用于对空间信息参数矩阵传入预先训练好的深度神经网络的编码模块中,得到编码后的空间参数表示,其中,编码模块用以对空间信息参数矩阵中的数据进行编码处理,得到低维的空间参数表示,即编码后的空间参数表示;
量化模块,用于对编码后的空间参数表示进行量化,获得空间信息参数码流;
码流合成模块,用于将下混信号码流和空间信息参数码流合成为编码码流,传输到解码端。
由于本发明实施例三所介绍的装置,为实施本发明实施例一中应用于交互式音频系统中的音频对象编码方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
实施例四
基于同样的发明构思,本实施例提供了一种应用于交互式音频系统中的音频对象解码装置,包括:
解析模块,用于对接收的编码码流进行解析,得到单声道下混信号码流和空间信息参数码流;
反量化模块,用于对空间信息参数码流进行反量化操作得到非均匀频率分辨率的空间信息参数的低维表示;
单声道解码器模块,用于利用单声道解码器对得到的下混信号码流进行解码得到下混信号;
参数转换模块,用于将非均匀频率分辨率的空间信息参数的低维表示输入预先训练好的深度神经网络的解码模块,得到解码后的空间信息参数,其中,解码模块用于对空间信息参数的低维表示进行解码处理,恢复成高维的空间信息参数;
对象合成模块,用于对解码后的空间信息参数和下混信号进行合成,得到单个音频对象信号;
后处理模块,用于对单个音频对象信号进行频域-时域变换,得到解码后的单个对象信号;
渲染器模块,用于根据单个对象信号,利用用户交互指令,得到带有个性化信息的多音频对象。
由于本发明实施例四所介绍的装置,为实施本发明实施例二中应用于交互式音频系统中的音频对象解码方法所采用的装置,故而基于本发明实施例二所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例二的方法所采用的装置都属于本发明所欲保护的范围。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (7)
1.一种应用于交互式音频系统中的音频对象编码方法,其特征在于,包括:
步骤A1:对输入的多个独立音频对象信号进行时域-频域变换,得到对象信号的频谱数据;
步骤A2:对步骤A1得到的每帧频谱数据进行非均匀频率分辨率的子带划分,得到划分后的子带;
步骤A3:对步骤A1中的对象信号的频谱数据,计算所有对象的下混信号,并利用单声道编码器,获得下混信号码流;;
步骤A4:对步骤A2中划分后的子带,计算每个对象的空间信息参数数据,并构建空间信息参数矩阵,用以存储对象的空间信息参数数据;
步骤A5:对A4得到的空间信息参数矩阵传入预先训练好的深度神经网络的编码模块中,得到编码后的空间参数表示,其中,编码模块用以对空间信息参数矩阵中的数据进行编码处理,得到低维的空间参数表示,即编码后的空间参数表示;
步骤A6:对编码后的空间参数表示进行量化,获得空间信息参数码流;
步骤A7:将步骤A3中得到的下混信号码流和步骤A6得到的空间信息参数码流合成为编码码流,传输到解码端。
2.如权利要求1所述的音频对象编码方法,其特征在于,步骤A1中输入的多个独立音频对象信号包含多种风格、多种类型的音频对象。
4.如权利要1所述的音频对象编码方法,其特征在于,步骤A5中的深度神经网络,根据情况选择对应的学习算法、训练次数和损失函数进行训练得到。
5.一种应用于交互式音频系统中的音频对象解码方法,其特征在于,包括:
步骤B1:对接收的编码码流进行解析,得到单声道下混信号码流和空间信息参数码流;
步骤B2:对步骤B1得到的空间信息参数码流进行反量化操作得到非均匀频率分辨率的空间信息参数的低维表示;
步骤B3:利用单声道解码器对步骤B1得到的下混信号码流进行解码得到下混信号;
步骤B4:将非均匀频率分辨率的空间信息参数的低维表示输入预先训练好的深度神经网络的解码模块,得到解码后的空间信息参数,其中,解码模块用于对空间信息参数的低维表示进行解码处理,恢复成高维的空间信息参数;
步骤B5:对解码后的空间信息参数和下混信号进行合成,得到单个音频对象信号;
步骤B6:对单个音频对象信号进行频域-时域变换,得到解码后的单个对象信号;
步骤B7:根据单个对象信号,利用用户交互指令,得到带有个性化信息的多音频对象。
6.一种应用于交互式音频系统中的音频对象编码装置,其特征在于,包括:
预处理模块,用于对输入的多个独立音频对象信号进行时域-频域变换,得到对象信号的频谱数据;
非均匀子带划分模块,用于对得到的每帧频谱数据进行非均匀频率分辨率的子带划分,得到划分后的子带;
单声道编码器模块,用于对对象信号的频谱数据,计算所有对象的下混信号,并利用单声道编码器,获得下混信号码流;;
参数信息计算模块,用于对划分后的子带,计算每个对象的空间信息参数数据,并构建空间信息参数矩阵,用以存储对象的空间信息参数数据;
参数转换模块,用于对空间信息参数矩阵传入预先训练好的深度神经网络的编码模块中,得到编码后的空间参数表示,其中,编码模块用以对空间信息参数矩阵中的数据进行编码处理,得到低维的空间参数表示,即编码后的空间参数表示;
量化模块,用于对编码后的空间参数表示进行量化,获得空间信息参数码流;
码流合成模块,用于将下混信号码流和空间信息参数码流合成为编码码流,传输到解码端。
7.一种应用于交互式音频系统中的音频对象解码装置,其特征在于,包括:
解析模块,用于对接收的编码码流进行解析,得到单声道下混信号码流和空间信息参数码流;
反量化模块,用于对空间信息参数码流进行反量化操作得到非均匀频率分辨率的空间信息参数的低维表示;
单声道解码器模块,用于利用单声道解码器对得到的下混信号码流进行解码得到下混信号;
参数转换模块,用于将非均匀频率分辨率的空间信息参数的低维表示输入预先训练好的深度神经网络的解码模块,得到解码后的空间信息参数,其中,解码模块用于对空间信息参数的低维表示进行解码处理,恢复成高维的空间信息参数;
对象合成模块,用于对解码后的空间信息参数和下混信号进行合成,得到单个音频对象信号;
后处理模块,用于对单个音频对象信号进行频域-时域变换,得到解码后的单个对象信号;
渲染器模块,用于根据单个对象信号,利用用户交互指令,得到带有个性化信息的多音频对象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110535195.XA CN113314132B (zh) | 2021-05-17 | 2021-05-17 | 交互式音频系统中的音频对象编码方法、解码方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110535195.XA CN113314132B (zh) | 2021-05-17 | 2021-05-17 | 交互式音频系统中的音频对象编码方法、解码方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113314132A true CN113314132A (zh) | 2021-08-27 |
CN113314132B CN113314132B (zh) | 2022-05-17 |
Family
ID=77373492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110535195.XA Active CN113314132B (zh) | 2021-05-17 | 2021-05-17 | 交互式音频系统中的音频对象编码方法、解码方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113314132B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360555A (zh) * | 2021-12-24 | 2022-04-15 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN116959459A (zh) * | 2023-09-19 | 2023-10-27 | 国网江西省电力有限公司信息通信分公司 | 一种音频传输方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070067162A1 (en) * | 2003-10-30 | 2007-03-22 | Knoninklijke Philips Electronics N.V. | Audio signal encoding or decoding |
CN101149925A (zh) * | 2007-11-06 | 2008-03-26 | 武汉大学 | 一种用于参数立体声编码的空间参数选取方法 |
WO2009048239A2 (en) * | 2007-10-12 | 2009-04-16 | Electronics And Telecommunications Research Institute | Encoding and decoding method using variable subband analysis and apparatus thereof |
WO2011073600A1 (fr) * | 2009-12-18 | 2011-06-23 | France Telecom | Codage/decodage parametrique stereo avec optimisation du traitement de reduction des canaux |
CN105070293A (zh) * | 2015-08-31 | 2015-11-18 | 武汉大学 | 基于深度神经网络的音频带宽扩展编码解码方法及装置 |
CN110660401A (zh) * | 2019-09-02 | 2020-01-07 | 武汉大学 | 一种基于高低频域分辨率切换的音频对象编解码方法 |
-
2021
- 2021-05-17 CN CN202110535195.XA patent/CN113314132B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070067162A1 (en) * | 2003-10-30 | 2007-03-22 | Knoninklijke Philips Electronics N.V. | Audio signal encoding or decoding |
WO2009048239A2 (en) * | 2007-10-12 | 2009-04-16 | Electronics And Telecommunications Research Institute | Encoding and decoding method using variable subband analysis and apparatus thereof |
CN101149925A (zh) * | 2007-11-06 | 2008-03-26 | 武汉大学 | 一种用于参数立体声编码的空间参数选取方法 |
WO2011073600A1 (fr) * | 2009-12-18 | 2011-06-23 | France Telecom | Codage/decodage parametrique stereo avec optimisation du traitement de reduction des canaux |
CN105070293A (zh) * | 2015-08-31 | 2015-11-18 | 武汉大学 | 基于深度神经网络的音频带宽扩展编码解码方法及装置 |
CN110660401A (zh) * | 2019-09-02 | 2020-01-07 | 武汉大学 | 一种基于高低频域分辨率切换的音频对象编解码方法 |
Non-Patent Citations (1)
Title |
---|
胡瑞敏: "双耳时间差变化感知阈限与时间差和频率的关系", 《声学学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360555A (zh) * | 2021-12-24 | 2022-04-15 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN114360555B (zh) * | 2021-12-24 | 2024-12-24 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN116959459A (zh) * | 2023-09-19 | 2023-10-27 | 国网江西省电力有限公司信息通信分公司 | 一种音频传输方法及系统 |
CN116959459B (zh) * | 2023-09-19 | 2023-12-22 | 国网江西省电力有限公司信息通信分公司 | 一种音频传输方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113314132B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12205600B2 (en) | Methods, apparatus and systems for encoding and decoding of multi-channel Ambisonics audio data | |
JP5302980B2 (ja) | 複数の入力データストリームのミキシングのための装置 | |
CN112767954B (zh) | 音频编解码方法、装置、介质及电子设备 | |
TWI671736B (zh) | 對信號的包絡進行寫碼的設備及對其進行解碼的設備 | |
CN105027200A (zh) | 变换球谐系数 | |
JP6495420B2 (ja) | スペクトル符号化装置及びスペクトル復号化装置 | |
WO2007088853A1 (ja) | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 | |
CN104718572A (zh) | 音频编码方法和装置、音频解码方法和装置及采用该方法和装置的多媒体装置 | |
CN107610710B (zh) | 一种面向多音频对象的音频编码及解码方法 | |
JP4685165B2 (ja) | 仮想音源位置情報に基づいたチャネル間レベル差量子化及び逆量子化方法 | |
CN117136406A (zh) | 组合空间音频流 | |
CN112997248A (zh) | 确定空间音频参数的编码和相关联解码 | |
CN113314132B (zh) | 交互式音频系统中的音频对象编码方法、解码方法及装置 | |
EP2489036B1 (en) | Method, apparatus and computer program for processing multi-channel audio signals | |
CN114863942A (zh) | 音质转换的模型训练方法、提升语音音质的方法及装置 | |
Zhang et al. | Sparse autoencoder based multiple audio objects coding method | |
CN108417219B (zh) | 一种适应于流媒体的音频对象编解码方法 | |
CN101754086B (zh) | 一种基于音源位置线索的多频道音频的解码装置和其方法 | |
KR100911994B1 (ko) | Hht를 이용한 음성 및 오디오 신호의 부호화/복호화장치 및 방법 | |
CN113096672A (zh) | 一种应用于低码率下的多音频对象编解码方法 | |
CN112365896A (zh) | 一种基于栈式稀疏自编码器的面向对象编码方法 | |
CN105336334B (zh) | 多声道声音信号编码方法、解码方法及装置 | |
US20190096410A1 (en) | Audio Signal Encoder, Audio Signal Decoder, Method for Encoding and Method for Decoding | |
Lim et al. | Perceptual Neural Audio Coding with Modified Discrete Cosine Transform | |
KR101281945B1 (ko) | 오디오 코딩 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |