CN107945811B

CN107945811B - 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法

Info

Publication number: CN107945811B
Application number: CN201710992311.4A
Authority: CN
Inventors: 曲天书; 吴玺宏; 黄庆博
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2021-06-01
Anticipated expiration: 2037-10-23
Also published as: CN107945811A

Abstract

本发明公开了一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法。本发明的生成式对抗网络训练方法为：对音频信号进行瞬态信号检测；然后根据检测结果分别对其进行MDCT变换，将得到的频谱作为真数据；对频谱进行分带，并计算高低频频谱能量包络比，然后对该高低频频谱能量包络比进行量化、反量化；将分带得到的低频频谱输入生成网络GAN，生成高频频谱；利用反量化的高频能量包络修正生成的高频频谱，得到最终生成的高频频谱；将最终生成的高频频谱和分带得到的低频频谱合成为全带的生成频谱，将该全带的生成频谱作为假数据；将得到真数据、假数据作为判别网络D的输入，训练生成式对抗网络。本发明训练的网络易收敛。

Description

一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法

技术领域

本发明属于音频编解码领域，涉及一种频带扩展方法，尤其涉及一种面向频带扩展的生成式对抗网络训练方法及音频编码方法、解码方法。

背景技术

音频编解码技术又称之为音频压缩技术，对音频文件进行压缩编码，降低文件码率，使结果便于记录、存储、传输，具有广泛的用途。当目标码率较低时，传统单声道音频编解码技术会舍弃高频信息以保证低频的压缩效果，但由于缺失高频信息，此时编解码结果声音会引起空洞、发闷等不舒适的感觉。为提高编解码质量，通常会对单通道核心编码器的解码结果进行频带扩展。这类方法统称为频带扩展技术。频带扩展技术是指解码端通过少量额外信息或者不用额外信息，在编码端只给出低频内容的条件下，恢复出相应高频部分，使解码结果具有温暖，明亮，丰富等舒适的主观听感。

20世纪70年代早期，Knoppel K在音频编辑软件Aphex Aural Exciter中提供了一种由低频生成高频的方法。该方法一般被认为是音频频带扩展技术的第一个方法。1979年，Makhoul J和Berouti M提出用谱折叠谱平移的方式扩展语音信号的带宽。

20世纪90年代，以心理声学模型为基础的音频感知编码的研究逐渐成熟。通过心理学实验发现人类听觉系统感觉不到一个能量较大信号频谱周围的失真，称之为“掩蔽效应”。利用掩蔽效应，可把音频感知编码中的误差放到人感知不到的地方。1997年，CodingTechnology公司提出频带扩展技术(Spectral Band Replication，SBR)成功地把心理声学模型作为评价准则应用于音频压缩编码中。凭借优良的性能，SBR模块成为国际音频压缩标准的一个重要组成模块。

1994年Cheng Y M等人提出利用统计模型(Statistical Recovery Function，SRF)完成从低频到高频的映射，实现语音文件从窄带到宽带的频带扩展。2000年，Jax P和Vary P利用隐马尔科夫模型完成语音频带扩展任务。同年，Park K Y等人提出利用高斯混合模型完成语音频带扩展任务，2002年Seo J提出在Bark带频谱建模，在Bark带上实现频带扩展，2009年Nagel F,Disch S提出谐波频带扩展等。

近几年，神经网络飞速发展，借助神经网络作为生成模型，频带扩展技术又有了新的发展。主要包括2010年Pham T V,Schaefer F等提出用前馈神经网络(Feed ForwardNeural Network)实现频谱扩展。2012年，Pulakka H和Alku P基于窄带语音的特征，使用神经网络在帧内估计扩展频带中的频谱。

发明内容

本发明提出了一种面向频带扩展的生成式对抗网络训练方法及音频编码方法、解码方法。针对生成式对抗网络不易收敛的缺点以及声音信号频带扩展任务的特殊性，引入真实的低频信息及高频包络对传统生成式对抗网络做了改进，并在此基础上搭建了完整的单通道编解码系统。编码端提取高频频谱能量包络，并量化压缩，作为边信息与窄带的单通道压缩信号一起写入码流。解码端利用高频能量包络信息和窄带压缩信号恢复宽带信号。

本发明的技术方案为：

一种面向频带扩展的生成式对抗网络训练方法，其步骤包括：

对音频信号进行瞬态信号检测；

a)如果检测结果为稳态信号，则对其进行MDCT变换，将得到的频谱作为真数据；对得到的频谱进行分带，并根据得到的高频频谱、低频频谱计算高低频频谱能量包络比，然后对该高低频频谱能量包络比进行量化、反量化；将分带得到的低频频谱输入生成网络GAN，生成高频频谱；利用反量化的高频能量包络修正生成网络GAN生成的高频频谱，得到最终生成的高频频谱；将最终生成的高频频谱和分带得到的低频频谱合成为全带的生成频谱，将该全带的生成频谱作为假数据；将得到真数据、假数据作为判别网络D的输入，训练生成式对抗网络；

b)如果检测结果为瞬态信号，则对其进行MDCT变换，将得到的频谱作为真数据；对得到的频谱进行分带，并根据得到的高频频谱、低频频谱计算高低频频谱能量包络比，然后对该高低频频谱能量包络比进行量化、反量化；将分带得到的低频频谱输入生成网络GAN，生成高频频谱；利用反量化的高频能量包络修正生成网络GAN生成的高频频谱，得到最终生成的高频频谱；将最终生成的高频频谱和分带得到的低频频谱合成为全带的生成频谱，将该全带的生成频谱作为假数据；将得到真数据、假数据作为判别网络D的输入，训练生成式对抗网络。

进一步的，所述利用反量化的高频能量包络修正生成网络GAN生成的高频频谱，得到最终生成的高频频谱的方法为：利用反量化的高频能量包络作为校正模块使用的先验信息，修正生成网络GAN生成的高频频谱，得到最终生成的高频频谱。

进一步的，所述计算高低频频谱能量包络比为

其中，低频频谱能量包络

高频频谱能量包络为

MDCTcoef(k)表示MDCT谱系数，cutf_low表示低频截止频率，slen表示选取的融合带的带宽，n表示融合带下标，k表示MDCT谱线的下标。

进一步的，所述步骤a)中的生成网络GAN的网络隐层节点系数与所述步骤b)中的生成网络GAN的网络隐层节点系数不同。

一种音频编码方法，其步骤包括：

对音频信号进行瞬态信号检测，并根据检测结果标记帧类型；

如果检测结果为稳态信号，则对其进行MDCT变换并采用长帧进行编码，将MDCT变换得到的频谱作为真数据；对得到的频谱进行分带，并根据得到的高频频谱、低频频谱计算高低频频谱能量包络比，然后对该高低频频谱能量包络比进行量化；

如果检测结果为瞬态信号，则对其进行MDCT变换并采用短帧进行编码，将MDCT变换得到的频谱作为真数据；对得到的频谱进行分带，并根据得到的高频频谱、低频频谱计算高低频频谱能量包络比，然后对该高低频频谱能量包络比进行量化；

码流合成，即将量化后的高低频频谱能量包络比、帧类型标记与单通道核心编码器的编码结果一起写入码流。

一种音频解码方法，其步骤包括：

从码流中分离出单通道码流、量化后的高低频频谱能量包络比和帧类型标记；

对分离出的单通道码流解码得到时域低频信号；将量化后的高低频频谱能量包络比解码为编码码书中的量化值；

根据帧类型标记对所述时域低频信号进行分帧；根据分帧结果做相应长度的MDCT变换，得到的频谱作为真实数据；并对MDCT变换得到的频谱进行分带，得到高频频谱、低频频谱；

分别计算低频频谱能量包络、高频频谱能量包络；并将得到的低频频谱能量包络经过生成式对抗网络中的生成网络GAN输出高频频谱，将低频频谱能量包络经过生成式对抗网络中的生成网络GAN输出高频频谱；然后用高频频谱能量包络修正输出的高频频谱，得到修正后的高频频谱；

将修正后的高频频谱经IMDCT变换得到高频时域信号；

将所述时域低频信号、高频时域信号进行融合得到最终的时域信号。

与现有技术相比，本发明的积极效果为：

本发明提出了基于生成式对抗网络编解码方法，主观评价实验结果表明，本发明提出的方法与HE-AAC无显著性差异。由于使用神经网络作为生成模型，本发明提出的方法解码时间复杂度、空间复杂度远低于HE-AAC。

附图说明

图1为GAN训练流程图；

图2为改进的GAN训练流程图；

图3为基于生成式对抗网络的频带扩展算法；

图4为编码框架图；

图5为解码框架图；

图6为语音类MUSHRA测试结果；

图7为多乐器类MUSHRA测试结果；

图8为单乐器独奏类MUSHRA测试结果；

图9为单乐器合奏类MUSHRA测试结果。

具体实施方式

为了便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

本发明包括生成式对抗网络的改进与训练、基于生成式对抗网络频带扩展算法的编码器和基于生成式对抗网络频带扩展算法的解码器三部分。

生成式对抗网络的改进与训练

2014年，蒙特利尔大学的Ian J.Goodfellow等人提出了生成式对抗网络主要思想如下：通过竞争学习，用一个判别网络评价生成网络。生成式对抗网络包含两个网络：一个是生成模型(Generative model)G，用来模拟数据分布，一个是判别模型(Discriminativemodel)D，用来估计某样点是来自真实数据(而不是生成模型生成的)概率。公式(1)为GAN的代价函数，根据通过竞争学习，D网络的区分能力逐渐增强，而G网络生成的数据也越来越接近真实数据。

x为服从p_data(x)分布的真实数据的某一样本，z为满足p_z(z)分布的某一样本，p_data(x)为真实数据分布函数，在本发明提出的频带扩展任务中，可以认为是高频频谱分布函数。p_z(z)为网络输入满足任意分布的某一分布函数，在本发明提出的频带扩展任务中，可以认为是低频频谱分布函数。E为期望函数，V为误差评价函数。

GAN训练流程如图1所示：结合公式(1)GAN训练流程如下：G网络输入为z，输出为G(z)，一般被称为假数据，x一般被称为真数据，真数据和假数据都可以作为D网络的输入。对于某一轮训练，首先控制G网络不变，当D网络输入为真数据时，用1去监督，当D网络输入为假数据时，用0去监督，修改D网络系数。然后控制D网络不变，用1去监督D(G(z))，修改G网络系数。

GAN网络也存在不足，主要体现在模型难收敛，易崩溃，CGAN和DCGAN分别在数据和网络结构上对生成网络模型加入约束，以提高系统稳定性。本文针对音频频带扩展任务的特点，引入真实的低频信息及高频包络对GAN增加约束，具体修改如下：

1.判断生成高频是否真实合理时，加入已知相应的低频内容。具体做法如下：某一帧的时域信号St变换到频域SF经过分带后包括高频成分SF_high和低频成分SF_low共2部分。D网络判断基于该帧信号GAN网络生成的高频信号s_high_gen是否合理时，把s中的高频部分SF_high用生成的高频信号SF_high_gen替代，得到一个完整频谱SF_gen作为输入。D网络通过对SF_gen真实性的判决来决定SF_high_gen的真实性，这里真实的低频信号SF_low帮助D网络对高频真实性做出判决。即D网络判决某一高频是否是真实高频时，需参照相应的低频内容。

2.为了提高G网络的假数据生成能力，帮助G网络“欺骗”D网络，加入能量谱包络作为先验信息，保证G网络输出的假数据在能量谱包络上和真实数据是一致的。

修改后的GAN训练流程如图2所示：G网络输入为低频数据(lowband data)，生成的高频数据经过校正模块，根据先验信息修正，得到校正后的高频数据，校正后的高频数据再和低频数据合成，得到最终的假数据(fake data)。相应的原始高频数据和低频数据合成的称之为对应的真数据(true data)。

改进的GAN训练流程基本和原始GAN一致。其中选取真实高频的频谱能量包络作为校正模块使用的先验信息，频谱能量包络提取方法如下：时域信号经过MDCT变换，得到MDCT谱，设低频截止频率为cutf_low，子带长度为slen。

由于瞬态信号在音频编码会引入预回声，为避免此问题，需要对音频信号进行瞬态信号检测，对稳态信号采用长帧进行编码并标记为长帧，对瞬态信号采用短帧进行编码并标记为短帧。因此，稳态信号和瞬态信号分别对应两个GAN网络，需使用两个GAN进行训练。利用瞬态信号训练的网络我们称之为瞬态GAN网络，利用稳态信号训练的网络我们称之为稳态GAN网络。两不同的GAN网络(即瞬态GAN网络和稳态GAN网络)的区别主要体现在拓扑结构(可参考主观评价实验部分，网络拓扑结构设置有详细说明)不同，即网络隐层节点系数不同。瞬态GAN网络训练使用的是前面标记为瞬态数据，稳态GAN网络训练使用的是前面标记为稳态的数据。瞬态GAN网络和稳态GAN网络的训练方法一致。瞬态GAN网络和稳态GAN网络的cutf_low不同。网络训练流程如图3所示。

1.瞬态检测：时域信号做瞬态检测，并记录。

2.分帧：根据瞬态检测结果，对稳态信号采用长帧，对瞬态信号采用短帧。

3.时频变换：根据分帧结果做相应长度的MDCT变换。此时得到的频谱认为是真数据。

4.分带：根据低频截止频率cutf_low划分分为高频低频两个部分。cutf_low可能在瞬态和稳态2种不同情况下为不同的值。

5.网络生成：以低频频谱作为稳(瞬)态生成网络输入，得到输出的高频频谱。

6.计算低频能量包络：根据公式(2)计算低频频谱能量包络。

7.计算高频能量包络：按照公式(3)计算高频频谱能量包络。

8.计算高低频能量包络比：根据公式(4)计算高低频频谱能量包络比。

9.量化：按照编码码书将高低频频谱能量包络比量化。

10.反量化：将高低频能量包络比解码为编码码书中的量化值，得到解码后的高频能量包络。

11.高频频谱调整：用步骤10得到的解码后的高频能量包络依照公式4修正生成网络输出的高频频谱，得到最终生成的高频频谱。

12.合成：将最终生成的高频频谱和分带得到的低频频谱合成为全带的生成频谱。这个频谱认为是假数据。

13.网络训练：分别针对瞬态情况和稳态情况设置2个独立的生成式对抗网络。对于稳态情况，利用步骤3得到稳态真数据和步骤12得到的稳态假数据作为稳态D网络的输入，训练稳态情况下的生成式对抗网络。对于瞬态情况，利用步骤3得到瞬态真数据和步骤12得到的瞬态假数据作为稳态D网络的输入，训练瞬态情况下的生成式对抗网络。

其中公式中变量含义如下:Elow表示低频频谱能量包络，Ehigh表示高频频谱能量包络，Eratio表示高低频频谱能量包络比，MDCTcoef(k)表示MDCT谱系数，cutf_low表示步骤4划分高低频的截止频率，计算能量包络时，需要对MDCT谱线能量进行融合，生成若干融合带，slen表示为了计算能量包络而选取的融合带带宽。n表示计算能量包络时的融合带下标，k表示MDCT谱线的下标。

基于生成式对抗网络频带扩展算法的编码器，如图4所示。

1.瞬态检测：时域信号做瞬态检测，并记录。

2.分帧：根据瞬态检测结果，对稳态信号采用长帧并记录，以后使用长帧进行MDCT变换并编码，对瞬态信号采用短帧并记录，以后使用短帧进行MDCT变换并编码。

3.时频变换：根据分帧结果做相应长度的MDCT变换。此时得到的频谱认为是真实数据。

4.划分高频低频频谱：根据低频截止频率cutf_low对步骤3得到的MDCT变换结果划分为高频低频2个部分。

5.计算低频能量包络：根据公式(2)计算低频频谱能量包络。

6.计算高频能量包络：按照公式(3)计算高频频谱能量包络。

7.计算高低频能量包络比：根据公式(4)计算高低频频谱能量包络比。

8.量化：按照编码码书将高低频频谱能量包络比量化。

9.码流合成：量化后的高低频频谱能量包络比、帧类型标记与单通道核心编码器结果一起写入码流。

基于生成式对抗网络频带扩展算法的解码器，如图5所示。

1.码流分解：从码流中分离出单通道码流，量化后的高低频频谱能量包络比和帧类型标记。

2.单通道解码：单通道码流经过核心解码器得到时域低频信号。

3.边信息解码：将量化后的高低频频谱能量包络比解码为编码码书中的量化值。

4.分帧：时域低频信号根据帧类型标记分帧。

5.时频变换：根据分帧结果做相应长度的MDCT变换，得到的频谱认为是真实数据。

6.划分低频：按照网络训练时低频截止频率对步骤3得到的MDCT变换结果划分为高频低频2个部分。

7.计算低频频谱能量包络：按照公式(2)计算低频频谱能量包络。

8.计算高频频谱能量包络：根据高低频包络能量比和低频频谱能量包络，按照公式(3)计算高频频谱能量包络。

9.恢复高频频谱：根据步骤1码流分解得到的帧类型标记确定生成网络类型，如果帧标记类型为瞬态，则选取瞬态GAN网络的生成网络，如果帧标记类型为稳态，则选取稳态GAN网络的生成网络。低频频谱经过生成式对抗网络中的生成网络得到网络输出的高频频谱；根据步骤1码流分解得到的帧类型标记确定所选用的生成式对抗网络，如果帧标记类型为瞬态，则选取瞬态GAN网络的生成网络，如果帧标记类型为稳态，则选取稳态GAN网络的生成网络。

10.高频频谱调整：用高频频谱能量包络修正网络输出的高频频谱，得到最终的高频频谱。

11.时频变换：最终得到的高频频谱经IMDCT变换得到高频时域信号。

12.高低频融合：最后将时域低频信号、高频时域信号经过高低频融合模块进行融合，得到最终的时域信号。

主观评价实验

网络拓扑结构设置如下：对于稳态信号G网络采用全连接的拓扑结构，设3个隐层，输入层和输出层分别为160个节点，每个隐层均为320个节点，输入层、隐层和输出层的激活函数均采用tanh；D网络采用全连接的拓扑结构，设1个隐层，输入层320个节点，隐层640个节点，输出层1个节点，输入层和隐层激活函数为tanh，输出层激活函数为sigmoid。对于瞬态帧G网络采用全连接的拓扑结构，设3个隐层，输入层和输出层分别为20个节点，每个隐层均为40个节点，输入层、隐层和输出层的激活函数均采用tanh；D网络采用全连接的拓扑结构，设1个隐层，输入层40个节点，隐层80个节点，输出层1个节点，输入层和隐层激活函数为tanh，输出层激活函数为sigmoid。

由于MPEG-4He-AAC包含核心编码器和SBR 2个模块，而且核心编码器亦是MPEG-4AAC LowComplex，故以MPEG-4He-AAC作为基线系统，单通道编码器码率均设为30kbps，用于频带扩展的边信息码率为2kbps。根据国际电信联盟指定的“音频系统中级质量水平的主观评价方法”标准，采用“带有隐藏参考和锚点的多激励测试”(MUltiple Stimuli withHidden Reference and Anchor，MUSHRA)实验范式评价新系统和基线系统生成音频文件的音质优劣。实验所用文件为MPEG网站提供的12个单通道测试文件，采样率为44100，量化精度为16bit，具体描述见下表。被试为12名年龄在22-27岁之间听力正常的学生(6男6女)，实验环境为安静的听音室，所用耳机为Sennheiser HD650。

表1 测试用声音文件简介

图6～9分别为测试材料为语音，多乐器，单乐器独奏及单乐器合奏时的MUSHRA测试结果。

借助SPSS对MUSHRA得分进行假设检验，p值表示2个对比系统差异的显著度，一般认为p<0.05时2个对比系统有显著性差异。总体上，新系统和HE-AAC几乎无区别，对于文件sc01、sc02、sc03、si03，sm01新系统效果比HE-AAC好，但均不显著。对于文件es01、es02、es03、si01、si02、sm02、sm03，新系统效果不如HE-AAC，其中对于文件es01、si02、sm02、sm03，HE-AAC明显好于新系统。新系统由于使用神经网络作为生成模型，解码复杂度远低于原方法。

以上包含了本发明优选实施例的说明，这是为了详细说明本发明的技术特征，并不是想要将发明内容限制在实施例所描述的具体形式中，依据本发明内容主旨进行的其他修改和变型也受本专利保护。本发明内容的主旨是由权利要求书所界定，而非有实施例的具体描述所界定。

Claims

1.一种面向频带扩展的生成式对抗网络训练方法，其步骤包括：

对音频信号进行瞬态信号检测；

a)如果检测结果为稳态信号，则对其进行MDCT变换，将得到的频谱作为真数据；对得到的频谱进行分带，并根据得到的高频频谱、低频频谱计算高低频频谱能量包络比，然后对该高低频频谱能量包络比进行量化、反量化；将分带得到的低频频谱输入稳态GAN网络，生成高频频谱；利用反量化的高频能量包络修稳态GAN网络生成的高频频谱，得到最终生成的高频频谱；将最终生成的高频频谱和分带得到的低频频谱合成为全带的生成频谱，将该全带的生成频谱作为假数据；将得到真数据、假数据作为判别网络D的输入，训练生成式对抗网络；

b)如果检测结果为瞬态信号，则对其进行MDCT变换，将得到的频谱作为真数据；对得到的频谱进行分带，并根据得到的高频频谱、低频频谱计算高低频频谱能量包络比，然后对该高低频频谱能量包络比进行量化、反量化；将分带得到的低频频谱输入瞬态GAN网络，生成高频频谱；利用反量化的高频能量包络修正瞬态GAN网生成的高频频谱，得到最终生成的高频频谱；将最终生成的高频频谱和分带得到的低频频谱合成为全带的生成频谱，将该全带的生成频谱作为假数据；将得到真数据、假数据作为判别网络D的输入，训练生成式对抗网络；

其中稳态GAN网络与瞬态GAN网络均为生成式网络GAN，且所述步骤a)中的稳态GAN网络的网络隐层节点系数与所述步骤b)中的瞬态GAN网络的网络隐层节点系数不同。

2.如权利要求1所述的生成式对抗网络训练方法，其特征在于，所述利用反量化的高频能量包络修正生成网络GAN生成的高频频谱，得到最终生成的高频频谱的方法为：利用反量化的高频能量包络作为校正模块使用的先验信息，修正生成网络GAN生成的高频频谱，得到最终生成的高频频谱。

3.如权利要求1所述的生成式对抗网络训练方法，其特征在于，所述计算高低频频谱能量包络比为

其中，低频频谱能量包络

高频频谱能量包络为

4.一种音频编码方法，其步骤包括：

利用权利要求1所述方法得到的生成式对抗网络对音频信号进行瞬态信号检测，并根据检测结果标记帧类型；

5.一种音频解码方法，其步骤包括：

将修正后的高频频谱经IMDCT变换得到高频时域信号；