CN113096672A - 一种应用于低码率下的多音频对象编解码方法 - Google Patents
一种应用于低码率下的多音频对象编解码方法 Download PDFInfo
- Publication number
- CN113096672A CN113096672A CN202110312781.8A CN202110312781A CN113096672A CN 113096672 A CN113096672 A CN 113096672A CN 202110312781 A CN202110312781 A CN 202110312781A CN 113096672 A CN113096672 A CN 113096672A
- Authority
- CN
- China
- Prior art keywords
- side information
- audio object
- encoding
- module
- decoding method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims description 17
- 238000005516 engineering process Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000011084 recovery Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种应用于低码率下的多音频对象编解码方法,编码阶段本方法首先将输入的多个音频对象变换到频域;然后将频域的音频对象信号下混得到混合信号,并计算单个音频对象子带被细分后的边信息矩阵;其次利用卷积自编码器中的编码模块对边信息矩阵进行降维表达;最后将混合信号和降维后的边信息合成码流。解码阶段首先分解接收到的码流,得到下混信号和边信息;然后在卷积自编码器解码器网络中引入稠密连接模块从边信息的低维结构中重构原始高维的边信息数据,最后将重建的频域音频对象信号变换为时域信号。本发明可以在低码率下全面提升音频对象信号的解码质量,以满足用户对音频对象个性化控制的需求。
Description
技术领域
本发明属于数字音频信号处理技术领域,涉及一种利用卷积自编码器和稠密连接混合网络压缩边信息与重建的音频对象编码解码方法,适用于低码率下的空间音频个性化交互系统,允许在用户根据自身需求调整音频对象。
背景技术
三维(3D)音频表示具有3个自由度(例如方位角,仰角和距离)的音频对象。它可以在3D空间中的任何位置形成声音图像。3D音频技术主要用于娱乐系统,以提供身临其境和个性化的体验。沉浸式的空间声音表示方式分为三种:基于声道的编码技术、基于高阶环境音的编码技术和基于对象的编码技术。基于声道的声音表示是将每个声道信号馈送到相对于听者位置固定的扬声器上。虽然基于声道的编码技术已经很成熟,然而该技术所产生的音频内容与特定的扬声器配置相关联,且该技术受到通道数量的限制,并且不能满足用户对音频对象个性化操作的需求,尤其是在沉浸式场景中,例如虚拟现实和增强现实的体感互动游戏。基于高阶环境音的编码技术使用系数信号来重建3D空间声场。虽然系数信号与声道或对象都没有直接关系,但基与高阶环境音的编码技术不适合对声音场景中单个对象的控制。基于对象的编码方法中每个音频对象位置完全独立于扬声器位置,结合个性化的渲染系统,将对象信号渲染到目标位置。因此基于对象的编码方法克服了产生的音频内容对扬声器位置的依赖。而且实现声音场景中高度沉浸式效果,例如鸟儿或直升机在头顶飞过,雨水从天空中落下,雷声从任何方向传来的听音效果。基于对象的编码框架已成功用于Dolby Atmos。
基于对象编码的典型代表是空间音频对象编码(Spatial Audio Object Coding,SAOC),SAOC的核心思想是只需一个下混和边信息参数就可以传输多个目标信号,从而可以同时以低比特率对各种音频对象进行编码。但是,当音频对象的数量增加且码率较低时,SAOC重建的音频对象将带来频谱混叠。
发明内容
为解决上述技术问题,本发明提供一种应用于低码率下的多音频对象编解码方法,本发明能够在低码率下全面提升音频对象信号的解码质量,提高编码效率。
本发明提供一种应用于低码率下的多音频对象编解码方法,用于音频对象边信息的降维表达,其中音频对象边信息的降维表达包括以下步骤:
步骤A1:对输入的J个独立音频信号通过改进离散余弦变换MDCT进行时域-频域变换,得到对象信号的频谱;
步骤A2:对步骤A1得到的每帧频谱数据进行精细的子带划分;其中,根据子带数量对频谱混叠失真的影响,确定精细的子带划分的数量;
步骤A3:对步骤A2中的子带,计算所有对象的下混信号,获得下混信号码流;
步骤A4:对步骤A2中的子带,计算每个对象的边信息,得到边信息矩阵;
步骤A5:对A3得到的边信息矩阵传入卷积自编码器的编码器模块中,得到音频对象边信息的低维特征表达结果R,然后根据查表法对边信息值进行量化,获得边信息码流;
步骤A6:将步骤A3和步骤A5得到的码流合成输出码流,传输到解码端。
本发明提供一种应用于低码率下的多音频对象编解码方法,用于从低维结构中重建原始高维数据,具体包括以下步骤:
步骤B1:分解接收到的码流,得到下混信号码流和边信息码流;
步骤B2:步骤B1得到的下混信号码流解码得到下混信号;
步骤B3:步骤B1得到的边信息码流经过去量化操作得到边信息;
步骤B4:将步骤B3得到的边信息输入带有稠密连接模块的卷积自编码器解码器模块中,得到重建后的音频对象边信息;
步骤B5:根据B2得到的下混信号和B4得到的对象边信息,得到重建的音频对象频谱;
步骤B6:根据B5得到的音频对象频谱进行逆改进离散余弦变换IMDCT处理,得到重建的单个对象的时域信号。
与现有的音频对象编码相比,本发明的优势在于:利用卷积自编码器(Convolutional Auto Encoder,CAE)的编码模块中提取了边信息的有效特征,减少边信息参数的维数以节省比特率。并在卷积自编码器的解码模块中引入稠密连接(DenseNet),增强解码神经网络各层之间的特征传递。从而很好地重建音频对象。因此,本发明可以在低码率下全面提升音频对象信号的解码质量,以满足用户对音频对象个性化控制的需求。
附图说明
图1是本发明实施例的编码流程图。
图2是本发明实施例的解码流程图。
图3是本发明实施例的卷积自编码器模型结构框图。
具体实施方式
为了便于本领域的技术人员理解和实施本发明,下面结合附图以及具体实施示例对本发明的技术方案作进一步说明,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明:
本发明在现有音频对象编码方法的基础上开展研究,提出了一种应用于低码率下的多音频对象编解码方法。首先利用卷积自编码器中的编码模块对边信息进行降维表达,然后在卷积自编码器解码模块中引入稠密连接,增强解码神经网络各层之间的特征传递,实现从边信息的低维结构中重构原始高维的边信息数据,从而边信息的低维特征得到充分利用,达到降低码率的目的。
本发明提供的一种应用于低码率下的多音频对象编解码方法,包括编码方法和解码方法;
请见图1,本实施例的编码方法,具体实现包括以下步骤:
步骤A1:输入为多个音频对象的时域信号S1,S2,...,SJ,如架子鼓、贝斯、人声等不同种类的音频对象信号,其采样频率是44.1kHz,位深度是16位,音频格式是wav格式。
本实施例中,对输入的J个独立音频信号S1,S2,...,SJ通过改进离散余弦变换MDCT进行时域-频域变换,得到对象信号的频谱01,O2,...,OJ;
本实施例中,对时通过2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域-频域变换,得到单个对象的频谱矩阵,矩阵的行数(列数)等于帧数,列数(行数)等于频点数。
应注意的是,此处规定的帧长,窗函数类型以及变换方式等只是为了举例说明本发明的具体实施步骤,并不用作限定本发明。
步骤A2:对步骤A1得到的频谱O1,O2,...,OJ对每帧数据进行精细的子带划分;
本实施例中,根据子带数量对恢复音频对象频谱混叠失真的影响,利用评价指标SDR确定精细的子带划分数量。
本实施例中,由于ERB将每帧信号划分为28个子带,所以在2ERB子带的基础上,每个子带均匀细分为10个子带。
应该注意的是,此处规定的细分子带的数量只是为了举例说明本发明的具体实施流程,并不用作限定本发明。
步骤A3:对步骤A2中的子带,计算所有对象的下混信号,获得下混信号码流;
本实施例中,将所有对象的频谱信息进行矩阵相加,得到下混信号数据,下混信号的计算如下式所示:
其中,sign()为符号函数,用于获取变量的符号;OJ(i,m)是第j个对象的频谱信息,i是对象的序号,b是频点的序号。
本实施例中,下混信号采用AAC编码器进行编码,码率控制为128kbps,得到下混信号码流;
应注意的是,对最终下混信号采用AAC 128kbps编码仅为举例说明本发明的具体实施步骤,并不用作限定本发明。
步骤A4:对步骤A2中的子带,计算每个对象的边信息,得到边信息矩阵G1,G2,...,GJ;
步骤A5:对A3得到的边信息矩阵G1,G2,...,GJ,传入卷积自编码器的编码器模块中,得到音频对象边信息的低维特征表达结果R,获得边信息码流;
本实施例利用卷积自编码器的编码器模块对边信息进行降维表达,从而减少边原始信息的数据量。然后根据查表法对边信息值进行量化,最后把对应的量化索引形成码流输出。
步骤A6:步骤A3和步骤A5得到的码流合成输出码流,传输到解码端。
本实施例合成输出码流指将最终下混信号的码流与边信息码流进行整合。最终下混信号码流指经AAC编码后的输出码流,边信息码流指卷积自编码器编码器模块输出的量化索引码流。
请见图2,本实施例的解码方法,具体实现包括以下步骤:
步骤B1:分解接收到的码流,得到下混信号码流和边信息码流;
本实施例中,根据解码端接收到的码流,利用码流解析得到下混信号码流和边信息码流。
步骤B2:步骤B1得到的下混信号码流经过AAC解码得到下混信号;
步骤B3:步骤B1得到的边信息码流经过去量化操作得到边信息;
步骤B4:将步骤B3得到的边信息输入带有稠密连接模块的卷积自编码器解码器模块中,得到重建后的音频对象边信息;
本实施例中,将步骤B3得到的边信息输入卷积自编码器的解码器模块中,其中卷积自编码器解码器模块中加入稠密连接网络,增强解码神经网络各层之间的特征传递,得到重建后的音频对象边信息实现从边信息的低维结构中重构原始高维的边信息数据,边信息的低维特征的得到充分利用,达到降低码率的目的。
请见图3,本发明实施例中,卷积自编码器解码模块中加入稠密连接网络,其结构包括三个模块:模块1、模块2和模块3;
模块1由卷积层、重塑层、池化层和展平层组成,用于对输入的边信息数据通过卷积神经网络提取特征,并利用池化技术对提取的特征进行压缩处理,卷积层对特征进行进一步的低维表达处理;
模块2由重塑层、反卷积层和反卷积层组成,重塑层与两反卷积层稠密连接,用于对边信息数据特征的低维表达进行解码,其中稠密连接的引入是为了增强解码神经网络各层之间的特征传递;
模块3由反卷积层、重塑层和卷积层组成,用于对边信息数据特征的低维表达进行进一步解码,该操作可以看做是模块1的逆向操作。
本实施例中,将解码后的边信息输入到引入稠密连接的卷积自编码器的解码部分,从低维的边信息结构中重建出高维边信息数据。
步骤B5:根据B2得到的下混信号和B4得到的对象边信息,得到重建的音频对象频谱;
本实施例中,重建的音频对象频谱其中,是重建的音频对象j的频域,是经过编解码的下混信号,是去量化的边信息;m是频点的序号,Ab-1和Ab-1代表子带b的开始频点和结束频点;1≤i≤I,1≤j≤J,1≤b≤B,Ab-1≤m≤Ab-1。
本实施例中,利用逆改进离散余弦变换IMDCT进行频域-时域变换,最终得到重建的音频对象的时域信号。
本发明利用卷积自编码器(Convolutional Auto Encoder,CAE)的编码模块中提取了边信息的有效特征,减少边信息参数的维数以节省比特率。并在卷积自编码器的解码模块中引入稠密连接,增强解码神经网络各层之间的特征传递。从而很好地重建音频对象。因此,本发明可以在低码率下全面提升音频对象信号的解码质量,以满足用户对音频对象个性化控制的需求。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (10)
1.一种应用于低码率下的多音频对象编解码方法,其特征在于:包括编码方法和解码方法;
所述编码方法,具体实现包括以下步骤:
步骤A1:对输入的J个独立音频信号通过改进离散余弦变换MDCT进行时域-频域变换,得到对象信号的频谱;
步骤A2:对步骤A1得到的每帧频谱数据进行精细的子带划分;其中,根据子带数量对频谱混叠失真的影响,确定精细的子带划分的数量;
步骤A3:对步骤A2中的子带,计算所有对象的下混信号,获得下混信号码流;
步骤A4:对步骤A2中的子带,计算每个对象的边信息,得到边信息矩阵;
步骤A5:对A3得到的边信息矩阵传入卷积自编码器的编码器模块中,得到音频对象边信息的低维特征表达结果R,然后根据查表法对边信息值进行量化,获得边信息码流;
步骤A6:将步骤A3和步骤A5得到的码流合成输出码流,传输到解码端。
2.根据权利要求1所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤A1中,通过2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域-频域变换,得到单个对象的频谱。
3.根据权利要求1所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤A2中,根据子带数量对恢复音频对象频谱混叠失真的影响,利用评价指标SDR确定精细的子带划分数量。
4.根据权利要求1所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤A3中,将所有对象的频谱信息进行矩阵相加,得到下混信号数据。
6.一种应用于低码率下的多音频对象编解码方法,其特征在于:包括编码方法和解码方法;
所述解码方法,具体实现包括以下步骤:
步骤B1:分解接收到的码流,得到下混信号码流和边信息码流;
步骤B2:步骤B1得到的下混信号码流解码得到下混信号;
步骤B3:步骤B1得到的边信息码流经过去量化操作得到边信息;
步骤B4:将步骤B3得到的边信息输入带有稠密连接模块的卷积自编码器解码器模块中,得到重建后的音频对象边信息;
步骤B5:根据B2得到的下混信号和B4得到的对象边信息,得到重建的音频对象频谱;
步骤B6:根据B5得到的音频对象频谱进行逆改进离散余弦变换IMDCT处理,得到重建的单个对象的时域信号。
7.根据权利要求6所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤B2中,利用AAC解码下混信号码流,得到编码前的下混信号。
8.根据权利要求6所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤B4中,在卷积自编码器解码模块中加入稠密连接网络,实现从边信息的低维结构中重构原始高维的边信息数据;
所述卷积自编码器解码模块中加入稠密连接网络,其结构包括三个模块:模块1、模块2和模块3;
所述模块1由卷积层、重塑层、池化层和展平层组成,用于对输入的边信息数据通过卷积神经网络提取特征,并利用池化技术对提取的特征进行压缩处理,卷积层对特征进行进一步的低维表达处理;
所述模块2,由重塑层、反卷积层和反卷积层组成,所述重塑层与两反卷积层稠密连接,用于对边信息数据特征的低维表达进行解码;
所述模块3,由反卷积层、重塑层和卷积层组成,用于对边信息数据特征的低维表达进行进一步解码,该操作是模块1的逆向操作。
10.根据权利要求6-9任意一项所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤B6中,利用逆改进离散余弦变换IMDCT进行频域-时域变换,最终得到重建的音频对象的时域信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110312781.8A CN113096672B (zh) | 2021-03-24 | 2021-03-24 | 一种应用于低码率下的多音频对象编解码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110312781.8A CN113096672B (zh) | 2021-03-24 | 2021-03-24 | 一种应用于低码率下的多音频对象编解码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113096672A true CN113096672A (zh) | 2021-07-09 |
CN113096672B CN113096672B (zh) | 2022-06-14 |
Family
ID=76669589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110312781.8A Active CN113096672B (zh) | 2021-03-24 | 2021-03-24 | 一种应用于低码率下的多音频对象编解码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113096672B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360555A (zh) * | 2021-12-24 | 2022-04-15 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070291951A1 (en) * | 2005-02-14 | 2007-12-20 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Parametric joint-coding of audio sources |
CN107610710A (zh) * | 2017-09-29 | 2018-01-19 | 武汉大学 | 一种面向多音频对象的音频编码及解码方法 |
CN108596213A (zh) * | 2018-04-03 | 2018-09-28 | 中国地质大学(武汉) | 一种基于卷积神经网络的高光谱遥感图像分类方法及系统 |
CN110739000A (zh) * | 2019-10-14 | 2020-01-31 | 武汉大学 | 一种适应于个性化交互系统的音频对象编码方法 |
CN111476342A (zh) * | 2019-01-23 | 2020-07-31 | 斯特拉德视觉公司 | 利用了1xH卷积的CNN方法及装置 |
CN111508524A (zh) * | 2020-03-05 | 2020-08-07 | 合肥工业大学 | 语音来源设备的识别方法和系统 |
CN112365896A (zh) * | 2020-10-15 | 2021-02-12 | 武汉大学 | 一种基于栈式稀疏自编码器的面向对象编码方法 |
-
2021
- 2021-03-24 CN CN202110312781.8A patent/CN113096672B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070291951A1 (en) * | 2005-02-14 | 2007-12-20 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Parametric joint-coding of audio sources |
CN107610710A (zh) * | 2017-09-29 | 2018-01-19 | 武汉大学 | 一种面向多音频对象的音频编码及解码方法 |
CN108596213A (zh) * | 2018-04-03 | 2018-09-28 | 中国地质大学(武汉) | 一种基于卷积神经网络的高光谱遥感图像分类方法及系统 |
CN111476342A (zh) * | 2019-01-23 | 2020-07-31 | 斯特拉德视觉公司 | 利用了1xH卷积的CNN方法及装置 |
CN110739000A (zh) * | 2019-10-14 | 2020-01-31 | 武汉大学 | 一种适应于个性化交互系统的音频对象编码方法 |
CN111508524A (zh) * | 2020-03-05 | 2020-08-07 | 合肥工业大学 | 语音来源设备的识别方法和系统 |
CN112365896A (zh) * | 2020-10-15 | 2021-02-12 | 武汉大学 | 一种基于栈式稀疏自编码器的面向对象编码方法 |
Non-Patent Citations (1)
Title |
---|
张钢等: "基于多尺度AlexNet网络的健康因子构建方法", 《系统工程与电子技术》, no. 01, 31 December 2020 (2020-12-31) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360555A (zh) * | 2021-12-24 | 2022-04-15 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113096672B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11798568B2 (en) | Methods, apparatus and systems for encoding and decoding of multi-channel ambisonics audio data | |
CN111656441B (zh) | 编码或解码定向音频编码参数的装置和方法 | |
CN105027200B (zh) | 变换球谐系数 | |
US8527282B2 (en) | Method and an apparatus for processing a signal | |
TWI723805B (zh) | 解碼高階立體音響(hoa)聲訊訊號之方法和設備及其電腦可讀取媒體 | |
JP6346278B2 (ja) | ジョイント符号化残留信号を用いたオーディオエンコーダ、オーディオデコーダ、方法、およびコンピュータプログラム | |
US20060190247A1 (en) | Near-transparent or transparent multi-channel encoder/decoder scheme | |
CN116229995A (zh) | 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置 | |
JP2009510514A (ja) | マルチチャネルオーディオ信号の符号化/復号化方法及び装置 | |
CN107610710B (zh) | 一种面向多音频对象的音频编码及解码方法 | |
CN110739000B (zh) | 一种适应于个性化交互系统的音频对象编码方法 | |
CN106023999A (zh) | 用于提高三维音频空间参数压缩率的编解码方法及系统 | |
CN113728382A (zh) | 利用旋转的插值和量化进行空间化音频编解码 | |
WO2022237851A1 (zh) | 一种音频编码、解码方法及装置 | |
WO2015096789A1 (zh) | 一种用于音频信号的矢量量化编解码方法及装置 | |
CN113096672B (zh) | 一种应用于低码率下的多音频对象编解码方法 | |
CN113314132B (zh) | 交互式音频系统中的音频对象编码方法、解码方法及装置 | |
EP2489036B1 (en) | Method, apparatus and computer program for processing multi-channel audio signals | |
Goodwin et al. | Analysis and synthesis for universal spatial audio coding | |
CN108417219B (zh) | 一种适应于流媒体的音频对象编解码方法 | |
CN112365896B (zh) | 一种基于栈式稀疏自编码器的面向对象编码方法 | |
CN113314131B (zh) | 一种基于两级滤波的多步音频对象编解码方法 | |
CN101308657B (zh) | 一种基于先进音频编码器的码流合成方法 | |
CN105336334B (zh) | 多声道声音信号编码方法、解码方法及装置 | |
CN116486822A (zh) | 沉浸式音频系统中的自适应音频对象编解码方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |