CN113099374B

CN113099374B - 一种基于多重注意力视听融合的音频立体化方法

Info

Publication number: CN113099374B
Application number: CN202110340463.2A
Authority: CN
Inventors: 邵杰; 张文
Original assignee: Sichuan Artificial Intelligence Research Institute Yibin
Current assignee: Sichuan Artificial Intelligence Research Institute Yibin
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2022-08-05
Anticipated expiration: 2041-03-30
Also published as: CN113099374A

Abstract

本发明公开了一种基于多重注意力视听融合的音频立体化方法，属于多媒体信号处理领域，该方法设计了能实现对视觉特征与音频特征进行有效跨模态融合的视听注意力融合模块，并在此基础上设计了多重注意力融合模型，能将原始视觉特征张量中与声源空间信息高度相关的特征提取出来并注入到多个不同等级的音频特征中，从而赋予了单声道音频以空间信息，将其转化为立体声信号。

Description

一种基于多重注意力视听融合的音频立体化方法

技术领域

本发明属于多媒体信号处理领域，具体涉及一种基于多重注意力视听融合的音频立体化方法。

背景技术

随着互联网及多媒体技术的发展，人们在生活中每天会接触到大量的视频媒体文件，其中大部分的视频所包含的音频文件都是简单的单声道音频，而带有高质量的立体声或双耳音频的视频相对较少，这是由于网络中大部分的视频都是由普通的用户所拍摄制作。所谓高质量的立体声，是指准确记录了录制现场的声源空间信息的立体声。当用户听到这样的音频时，大脑的双耳效应能够提取出音频中的这些空间信息，从而使用户仿佛身处录制现场，从而获得更丰富的沉浸式视听体验。普通的用户一般使用的视频拍摄设备是手机或者普通的相机，这些设备不具备录制立体声的功能，要录制高质量的立体声需要一定的专业知识和专业设备。因此，研究一种能够将普通设备录制的单声道音频转换为高质量的立体声音频的算法具有极大的价值和现实意义，其能够使普通用户也具有录制带有高质量立体声的视频的能力，从而提升用户的视听体验。

针对该研究课题，Gao和Grauma在文献“RuohanGao and KristenGrauman.2019.2.5D Visual Sound.In IEEE Conference on Computer Vision andPattern Recognition,CVPR 2019,Long Beach,CA,USA,June 16-20,2019.324–333”中提出了有效的思路：单声道音频本身不含有任何空间信息，想要将单声道音频信号转化为含有空间特征的场景立体声需要额外的空间信息作为引导，而视频中的视觉帧正好记录下了录制现场丰富的场景信息，因此可以将视频帧中的空间场景特征提取出来，将其注入到单声道音频特征中，从而将其转化为含有空间特征的立体声信号。

这一音频立体化任务是近些年的联合视听学习领域出现的比较新颖的课题，现有的工作成果比较有限。该任务的关键点在于如何有效地提取出视频帧中与声源高度相关的空间信息并将其有效地注入音频信号中。现有的主要工作采用的方法相对比较简单且解释性欠佳，取得的立体声生成效果也不尽如人意。具体来说，Gao和Grauma在文献“RuohanGaoand Kristen Grauman.2019.2.5D Visual Sound.In IEEE Conference on ComputerVision and Pattern Recognition,CVPR 2019,Long Beach,CA,USA,June 16-20,2019.324–333”中设计的框架只是简单地将音频和视频特征分别提取出来，然后将两个模态的特征张量在通道维度进行联接，取得的效果不够理想，且从理论上不具有很好的解释性。Zhou等人在文献“Hang Zhou,XudongXu,Dahua Lin,Xiaogang Wang,and ZiweiLiu.2020.SepStereo:Visually Guided Stereophonic Audio Generation byAssociating Source Separation.In Computer Vision-ECCV 2020-16th EuropeanConference,Glasgow,UK,August 23-28,2020,Proceedings,Part XII.52–69”中基于前人的工作设计了一个多任务网络框架，将音频空间化任务与音源分离任务整合起来，从而使用了额外的单声道音频数据训练网络，最终实现对立体声的生成。然而其设计的音频视频模态融合网络依旧比较简单，其核心操作只是将两种模态的特征张量进行相乘融合，取得的效果有限，还有待进一步的提升。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于多重注意力视听融合的音频立体化方法解决了以下两个问题：

(1)现有的跨模态音视频特征融合方法比较简单，取得的效果有限并且在理论上的可解释性不强；

(2)现有方案最终生成的立体声质量不够理想。

为了达到上述发明目的，本发明采用的技术方案为：一种基于多重注意力视听融合的音频立体化方法，包括以下步骤：

S1、对目标视频中的音频和视频进行预处理，得到音频信号对应的原始音频二维频谱图和视频帧对应的原始视觉特征张量；

S2、将原始音频二维频谱图和原始视觉特征张量输入主视听融合系统中，得到左声道频谱和右声道频谱，并将左声道频谱和右声道频谱作为后续的输入频谱；

S3、将输入频谱中各频谱进行逐元素相加求和，得到声道混合频谱；

S4、将原始音频二维频谱图与声道混合频谱相减，得到残差频谱；

S5、将残差频谱和原始视觉特征张量输入副视听融合系统中，得到左声道补充频谱和右声道补充频谱；

S6、将左声道补充频谱和右声道补充频谱进行评估，判断左声道补充频谱和右声道补充频谱是否满足预测目标，若是，将该次迭代的左声道补充频谱与左声道频谱相加，作为左声道预测频谱，将该次迭代的右声道补充频谱与右声道频谱相加，作为右声道预测频谱，并跳转至步骤S7，若否，将左声道补充频谱、右声道补充频谱、左声道频谱和右声道频谱作为新的输入频谱，并跳转至步骤S3；

S7、对左声道预测频谱和右声道预测频谱进行傅里叶逆变换，得到立体声波形信号，实现将目标视频中的单声道音频转化为立体声。

进一步地，步骤S1包括以下分步骤：

S11、从目标视频上提取音频信号片段和对应的视频帧；

S12、对音频信号片段进行傅里叶变换，得到音频信号对应的原始音频二维频谱图；

S13、采用残差网络ResNet18对对应的视频帧进行特征提取，得到原始视觉特征张量。

进一步地，步骤S11包括以下分步骤：

S111、对目标视频中的音频进行下采样，得到音频采样信号；

S112、从音频采样信号中随机抽取固定时长的片段，得到音频信号片段；

S113、将目标视频以每秒十帧的速率进行抽帧，得到一系列的视频帧；

S114、从各视频帧中选取与音频信号片段时间对应的视频帧。

进一步地，步骤S2包括以下分步骤：

S21、采用U-Net中五个卷积层对原始音频二维频谱图进行下采样，得到音频特征张量；

S22、对原始视觉特征张量进行尺寸调整，将调整尺寸后的视觉特征张量与音频特征张量在通道上连接，进行初次特征融合，得到初级视听特征张量；

S23、采用U-Net中四个反卷积层依次对初级视听特征张量进行处理，得到四个不同级别的视听特征张量；

S24、将四个不同级别的视听特征张量和原始视觉特征张量输入多重注意力融合模型进行融合，得到左声道掩码和右声道掩码；

S25、将左声道掩码和右声道掩码分别与原始音频二维频谱图相乘，分别得到左声道频谱和右声道频谱，并将左声道频谱和右声道频谱作为后续的输入频谱。

进一步地，步骤S22中对原始视觉特征张量的尺寸调整操作具体为：首先使用一个卷积核大小为1×1、输出通道数为8的二维卷积层将原始视觉特征张量的通道数降低至8，然后将通道数降低之后的视觉特征张量展开成一个向量，再复制得到的向量若干次并将这些向量进行拼接得到新的视觉特征张量，保证最终得到的视觉特征张量的尺寸与音频特征张量相同。

进一步地，步骤S23中四个不同级别的视听特征张量具体为：第一级张量、第二级张量、第三级张量和第四级张量；

步骤S24中多重注意力融合模型包括：第一视听注意力融合模块、第二视听注意力融合模块、第三视听注意力融合模块、第四视听注意力融合模块、第一反卷积层、第二反卷积层、第三反卷积层、第四反卷积层、第五反卷积层、第一连接层、第二连接层、第三连接层、第一激活层和第二激活层；

所述第一视听注意力融合模块、第二视听注意力融合模块、第三视听注意力融合模块和第四视听注意力融合模块均包括：第一输入端和第二输入端；所述第一视听注意力融合模块的第一输入端用于输入第一级张量；所述第二视听注意力融合模块的第一输入端用于输入第二级张量；所述第三视听注意力融合模块的第一输入端用于输入第三级张量；所述第四视听注意力融合模块的第一输入端用于输入第四级张量；所述第一视听注意力融合模块、第二视听注意力融合模块、第三视听注意力融合模块和第四视听注意力融合模块的第二输入端均用于输入原始视觉特征张量；所述第一视听注意力融合模块的输出端与第一反卷积层的输入端连接；所述第一连接层的第一输入端与第一反卷积层的输出端连接，其第二输入端与第二视听注意力融合模块的输出端连接，其输出端与第二反卷积层的输入端连接；所述第二连接层的第一输入端与第二反卷积层的输出端连接，其第二输入端与第三视听注意力融合模块的输出端连接，其输出端与第三反卷积层的输入端连接；所述第三连接层的第一输入端与第三反卷积层的输出端连接，其第二输入端与第四视听注意力融合模块的输出端连接，其输出端分别与第四反卷积层的输入端和第五反卷积层的输入端连接；所述第四反卷积层的输出端与第一激活层的输入端连接；所述第五反卷积层的输出端与第二激活层的输入端连接；所述第一激活层的输出端用于输出左声道掩码；所述第二激活层的输出端用于输出右声道掩码。

进一步地，第一视听注意力融合模块对数据的处理方法与第二视听注意力融合模块、第三视听注意力融合模块和第四视听注意力融合模块对数据的处理方法相同；

所述第一视听注意力融合模块对第一级张量和原始视觉特征张量的处理方法包括以下分步骤：

A1、对第一级张量进行降维处理，得到视听特征向量；

A2、对原始视觉特征张量进行降维处理后，采用带有ReLU激活函数的一维卷积对降维后的视觉特征张量进行处理，使降维后的视觉特征张量的通道维度与视听特征向量的通道数一致，得到视觉特征向量；

A3、将视觉特征向量的转置向量与视听特征向量相乘；

A4、采用Softmax激活函数对相乘结果进行处理，得到概率分布向量；

A5、将该概率分布向量与视觉特征向量相乘，再将相乘得到的特征向量与视听特征向量相加，得到视觉和音频特征融合之后的视听融合特征向量；

A6、将视听融合特征向量进行维度扩展，得到视听融合特征张量；

A7、采用二维卷积对视听融合特征张量进行特征整合，得到第一视听注意力融合模块的输出。

上述进一步方案的有益效果为：这一系列的操作将视觉向量中与音频相关的成分赋予了更大的权值，而将其中与音频无关的成分进行了忽略，很好地提取出了视觉特征中对音频空间化任务有用的那些特征，并将其很好地融合到了音频信号中。

进一步地，步骤S2中主视听融合系统和步骤S5中副视听融合系统结构相同，对主视听融合系统和副视听融合系统进行训练时的损失函数Loss为：

其中，

和

分别为左声道频谱和右声道频谱，

和

分别为真实立体声的左声道频谱和右声道频谱，L₂()为L2损失函数。

综上，本发明的有益效果为：

(1)、本发明设计了能实现对视觉特征与音频特征进行有效跨模态融合的视听注意力融合模块，并在此基础上设计了多重注意力融合模型，能将原始视觉特征张量中与声源空间信息高度相关的特征提取出来并注入到多个不同等级的音频特征中，从而赋予了单声道音频以空间信息，将其转化为立体声信号。

(2)、本发明还设计了额外的副视听融合系统进一步对生成立体声质量进行优化。

(3)、本发明的多重注意力融合模型克服了现有方案中的音视频特征融合方式较为简单，从而对两种模态的特征融合不充分的缺陷。从理论上分析，本发明的多重注意力融合模型的主要功能模块视听注意力融合模块是基于自注意力机制而设计的。视听注意力融合模块可以很好地模仿人体视听机制，能够通过注意力机制提取出视频帧中与声源高度相关的视觉特征，忽略掉那些与声源无关的视觉特征，比如场景中的杂物以及背景等，然后将有用的视觉特征注入到音频张量中。

(4)、多重注意力融合模型通过堆叠数个视听注意力融合模块，能将有用的视觉特征注入到不同级别的音频特征中，获得了很好的视听特征融合效果，从而能够生成理想质量的立体声。

(5)本发明设计了一个简单的迭代网络框架(即副视听融合系统所在部分)，通过对已有的网络进行简单迭代，不引入其他复杂的网络结构，网络模型可以通过迭代不断地对生成的两个声道信号进行微调和优化，从而进一步提升立体声的生成质量。

附图说明

图1为一种基于多重注意力视听融合的音频立体化方法的流程图；

图2为一种基于多重注意力视听融合的音频立体化方法详细的流程图；

图3为主视听融合系统的结构示意图；

图4为副视听融合系统的结构示意图；

图5为多重注意力融合模型的结构示意图；

图6为第一视听注意力融合模块对数据处理的流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

基于视频的音频立体化任务的关键点在于如何有效地提取出视频帧中与声源高度相关的空间信息并将其有效地注入音频信号中，从而生成相应的立体声信号。当人身处在一个含有发声源的场景中时，由于人类自身的生理结构特点，我们能够迅速地注意到场景中与发声源高度相关的视觉信息，比如声源的外观形状、在空间中所处位置以及与自身的距离等等。受到人体视听生理机制的启发，本发明设计了基于自注意力机制的视听融合模块，命名为视听注意力融合模块(audio-visual attention fusion module,AVAFM)。

该模块很好地模仿了上述的人体视听机制，能够通过注意力机制提取出视频帧中与声源高度相关的视觉特征，忽略掉那些与声源无关的视觉特征，比如场景中的杂物以及背景等，然后将有用的视觉特征注入到音频张量中。

在此基础上设计了多重注意力融合模型(multi-attention fusion model,MAFM)，该模型按类似金字塔形结构堆叠了多个视听注意力融合模块，其能够将视觉信息融合到多级音频特征张量中，从而得到了更好的视听特征融合效果。

音频立体化任务的主要原理为在视觉特征的引导下从单声道音频的基础上生成立体声音频，另一方面也可以将该任务看作是一种特殊的音频信号分离任务，即在视觉特征的引导下将原本一个声道的单声道音频分离为两个声道的信号，且这两个声道的信号之间满足立体声特征。基于此，本发明从相关的音源信号分离工作中获得启发，设计了一个迭代网络框架，通过对已有的网络进行简单迭代，网络模型可以通过迭代不断地对生成的两个声道信号进行微调和优化，从而进一步提升立体声的生成质量，具体方案如下：

如图1～2所示，一种基于多重注意力视听融合的音频立体化方法，包括以下步骤：

步骤S1包括以下分步骤：

S11、从目标视频上提取音频信号片段和对应的视频帧；

步骤S11包括以下分步骤：

S111、对目标视频中的音频进行下采样，得到音频采样信号；

S114、从各视频帧中选取与音频信号片段时间对应的视频帧。

在本实施例中，步骤S1的具体内容为：对目标视频中的音频以16kHz的频率进行下采样以降低数据量，将视频按照每秒十帧的速率抽帧，然后从音频中随机抽取固定时长的片段，并选取在时间上与该段音频相对应的视频帧。

如图3所示，步骤S2包括以下分步骤：

U-Net依次由五个普通卷积层和四个反卷积层构成，其中普通卷积层的卷积核大小为4，步长为2，用于对张量进行下采样，反卷积层的卷积核大小为4，步长为2，用于对张量进行上采样，并且在卷积层和反卷积层之间存在跨层连接。

S5、将残差频谱和原始视觉特征张量输入副视听融合系统中，得到左声道补充频谱和右声道补充频谱；如图4所示，主视听融合系统和副视听融合系统的结构相同，仅仅是输入的音频信号数据不同。具体来说，主视听融合系统的音频输入是原始音频二维频谱图和原始视觉特征张量，副视听融合系统的输入是残差频谱和原始视觉特征张量。

步骤S23中四个不同级别的视听特征张量具体为：第一级张量、第二级张量、第三级张量和第四级张量；

如图5所示，步骤S24中多重注意力融合模型包括：第一视听注意力融合模块、第二视听注意力融合模块、第三视听注意力融合模块、第四视听注意力融合模块、第一反卷积层、第二反卷积层、第三反卷积层、第四反卷积层、第五反卷积层、第一连接层、第二连接层、第三连接层、第一激活层和第二激活层；

所述第一视听注意力融合模块、第二视听注意力融合模块、第三视听注意力融合模块和第四视听注意力融合模块均包括：第一输入端和第二输入端；所述第一视听注意力融合模块的第一输入端用于输入第一级张量；所述第二视听注意力融合模块的第一输入端用于输入第二级张量；所述第三视听注意力融合模块的第一输入端用于输入第三级张量；所述第四视听注意力融合模块的第一输入端用于输入第四级张量；所述第一视听注意力融合模块、第二视听注意力融合模块、第三视听注意力融合模块和第四视听注意力融合模块的第二输入端均用于输入视觉特征张量；所述第一视听注意力融合模块的输出端与第一反卷积层的输入端连接；所述第一连接层的第一输入端与第一反卷积层的输出端连接，其第二输入端与第二视听注意力融合模块的输出端连接，其输出端与第二反卷积层的输入端连接；所述第二连接层的第一输入端与第二反卷积层的输出端连接，其第二输入端与第三视听注意力融合模块的输出端连接，其输出端与第三反卷积层的输入端连接；所述第三连接层的第一输入端与第三反卷积层的输出端连接，其第二输入端与第四视听注意力融合模块的输出端连接，其输出端分别与第四反卷积层的输入端和第五反卷积层的输入端连接；所述第四反卷积层的输出端与第一激活层的输入端连接；所述第五反卷积层的输出端与第二激活层的输入端连接；所述第一激活层的输出端用于输出左声道掩码；所述第二激活层的输出端用于输出右声道掩码。

较低级别的视听注意力融合模块输出的视听特征融合张量经过一个反卷积层进行上采样，将尺寸放大到与下一级的张量相同。然后将其与下一级的视听注意力融合模块输出的视听特征融合张量在通道维度进行连接。在将四级张量最终融合为一个整体的张量之后，使用两个独立的反卷积层对其进行处理，并使用Sigmoid激活函数将输出元素值约束在[-1,1]范围内，得到左右声道各自的频谱掩码。

第一视听注意力融合模块对数据的处理方法与第二视听注意力融合模块、第三视听注意力融合模块和第四视听注意力融合模块对数据的处理方法相同，每个视听注意力融合模块能将原始视觉特征张量中与音频信号高度相关的那部分特征提取出来并注入到相应的音频特征张量中；

如图6所示，第一视听注意力融合模块对第一级张量和原始视觉特征张量的处理方法包括以下分步骤：

A1、对第一级张量进行降维处理，得到视听特征向量；

A3、将视觉特征向量的转置向量与视听特征向量相乘；

步骤S2中主视听融合系统和步骤S5中副视听融合系统结构相同，对主视听融合系统和副视听融合系统进行训练时的损失函数Loss为：

其中，

和

分别为左声道频谱和右声道频谱，

和

在音频立体化这一任务中广泛使用的FAIR-Play数据集和YT-MUSIC数据集上对本发明进行了效果测试，并将其与现有的方法进行比较，结果列于表1。

表1与现有方法的实验结果对比

上表中的MONO2BINAURAL是Gao和Grauma在文献“RuohanGao and KristenGrauman.2019.2.5D Visual Sound.In IEEE Conference on Computer Vision andPattern Recognition,CVPR 2019,Long Beach,CA,USA,June 16-20,2019.324–333”中提出的方法，APNet和Sep-stereo是Zhou等人在文献“Hang Zhou,XudongXu,Dahua Lin,Xiaogang Wang,and Ziwei Liu.2020.SepStereo:Visually Guided Stereophonic AudioGeneration by Associating Source Separation.In Computer Vision-ECCV 2020-16thEuropean Conference,Glasgow,UK,August 23-28,2020,Proceedings,Part XII.52–69”中提出的方法，其中APNet模型只使用了相应数据集中的视频数据进行训练，Sep-stereo模型使用了额外的单声道音频数据进行训练。上表中的STFT_D指标指的是模型生成的频谱与真实频谱之间的欧氏距离，ENV_D指的是将模型生成的频谱进行傅里叶逆变换之后得到的波形信号的包络线与真实的波形信号包络线之间的欧式距离，这两个指标的值越小表明模型输出值与真值之间的距离越小，从而表示模型生成的立体声信号越接近于真实的立体声信号，即模型的性能越好。从表中的实验结果可以看到，本发明的主视听融合系统在两个数据集上表现出的性能都比现有工作的方法性能好，说明本发明的多重注意力融合模型具有十分优秀的性能。进一步地，在添加副视听融合系统后模型的性能还得到了进一步的提高。