WO2024160038A1

WO2024160038A1 - 一种动作识别方法、装置、设备、存储介质及产品

Info

Publication number: WO2024160038A1
Application number: PCT/CN2024/072044
Authority: WO
Inventors: 井雪; 陈德健; 项伟
Original assignee: 百果园技术(新加坡)有限公司; 井雪
Priority date: 2023-02-02
Filing date: 2024-01-12
Publication date: 2024-08-08
Also published as: CN116129936A

Abstract

本申请实施例提供了一种动作识别方法、装置、设备、存储介质及产品。本申请实施例提供的技术方案通过获取待识别视频中各个音频帧的声谱图，并基于声谱图提取音频帧的音频特征，以及提取待识别视频中各个视频帧的视频特征，将音频特征和视频特征映射到相同维度后，对音频特征和视频特征进行融合处理得到融合特征，并对融合特征进行动作识别得到动作识别结果，通过对待识别视频中的音频特征和视频特征进行多模态的特征融合，丰富进行动作识别的维度，有效提高对待识别视频的动作识别精度。

Description

一种动作识别方法、装置、设备、存储介质及产品

本申请要求在2023年02月02日提交中国专利局，申请号为202310124729.9的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种动作识别方法、装置、设备、存储介质及产品。

背景技术

随着互联网和图像处理技术的发展，视频直播的用户也越来越多，直播中的精彩画面的识别和记录可吸引大量用户进行观看，从而提升用户使用感与主播的活跃度。

随着直播业务以及用户的增加，对于直播内容或者视频内容的自动识别越来越重要。传统的动作识别方法一般是利用深度学习对视频流或视频中的图片进行动作识别，但是这样的动作识别方法只考虑了视频流或视频中的图像信息，动作识别精度较低。

发明内容

本申请实施例提供一种动作识别方法、装置、设备、存储介质及产品，以解决相关技术中只考虑图像信息，动作识别精度较低的技术问题，有效提高动作识别精度。

在第一方面，本申请实施例提供了一种动作识别方法，包括：

获取待识别视频中各个音频帧的声谱图，并基于所述声谱图提取各个所述音频帧的音频特征；

获取待识别视频中各个视频帧的视频特征；

将所述音频特征和所述视频特征映射到相同维度，并对所述音频特征和所述视频特征进行融合处理得到多个融合特征；

基于所述融合特征进行动作识别得到动作识别结果。

在第二方面，本申请实施例提供了一种动作识别装置，包括音频分析模块、视频分析模块、特征融合模块和动作识别模块，其中：

所述音频分析模块，配置为获取待识别视频中各个音频帧的声谱图，并基于所述声谱图提取各个所述音频帧的音频特征；

所述视频分析模块，配置为获取待识别视频中各个视频帧的视频特征；

所述特征融合模块，配置为将所述音频特征和所述视频特征映射到相同维度，并对所述音频特征和所述视频特征进行融合处理得到多个融合特征；

所述动作识别模块，配置为基于所述融合特征进行动作识别得到动作识别结果。

在第三方面，本申请实施例提供了一种动作识别设备，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的动作识别方法。

在第四方面，本申请实施例提供了一种存储计算机可执行指令的非易失性存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的动作识别方法。

在第五方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中，设备的至少一个处理器从计算机可读存储介质读取并执行计算机程序，使得设备执行如第一方面所述的动作识别方法。

本申请实施例通过获取待识别视频中各个音频帧的声谱图，并基于声谱图提取音频帧的音频特征，以及提取待识别视频中各个视频帧的视频特征，将音频特征和视频特征映射到相同维度后，对音频特征和视频特征进行融合处理得到融合特征，并对融合特征进行动作识别得到动作识别结果，通过对待识别视频中的音频特征和视频特征进行多模态的特征融合，丰富进行动作识别的维度，有效提高对待识别视频的动作识别精度。

附图说明

图1是本申请实施例提供的一种动作识别方法的流程图；

图2是本申请实施例提供的另一种动作识别方法的流程图；

图3是本申请实施例提供的一种音频特征提取网络结构示意图；

图4是本申请实施例提供的一种视频特征提取网络结构示意图；

图5是本申请实施例提供的一种茎部卷积块的结构示意图；

图6是本申请实施例提供的一种残差块组结构示意图；

图7是本申请实施例提供的一种动作识别模型示意图；

图8是本申请实施例提供的一种动作识别装置的结构示意图；

图9是本申请实施例提供的一种动作识别设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时上述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。上述处理可以对应于方法、函数、规程、子例程、子程序等等。

本申请提供的动作识别方法可应用于直播、视频贴等场景的动作识别，例如对直播场景中直播间唱歌、跳舞等动作类型的实时识别，对视频贴场景中用户上传视频的内容识别推荐等，旨在通过对待识别视频中的音频特征和视频特征进行多模态的特征融合，丰富进行动作识别的维度，提高对待识别视频的动作识别精度。对于传统的视频动作识别方案，一般是通过深度学习网络对视频中的图像进行动作识别，但是这种动作识别方式只考虑了图像信息对动作识别的影响，忽略了视频中的动作时序性信息，对视频的动作识别精度较低。基于此，提供本申请实施例的一种动作识别方法，以解决现有动作识别方案只考虑视频中的图像信息，动作识别精度较低的技术问题。

图1给出了本申请实施例提供的一种动作识别方法的流程图，本申请实施例提供的动作识别方法可以由动作识别装置来执行，该动作识别装置可以通过硬件和/或软件的方式实现，并集成在动作识别设备(例如直播平台、视频服务平台等)中。

下述以动作识别装置执行动作识别方法为例进行描述。参考图1，该动作识别方法包括：

S101：获取待识别视频中各个音频帧的声谱图，并基于声谱图提取各个音频帧的音频特征。

S102：获取待识别视频中各个视频帧的视频特征。

本方案提供的待识别视频可理解为需要进行动作识别的视频，例如对视频中任务的动作进行识别，其中动作识别得到的动作识别结果可以是舞蹈、唱歌、游戏等不同动作类型。其中，待识别信息可以是视频流数据(例如主播端在直播期间实时上传的视频流数据)或完整的视频数据(例如用户在视频贴中上传的完整视频)。可选的，对于视频流数据，可基于设定的时间间隔内收集的视频流数据作为待识别视频。本方案提供的待识别信息中记录有多个连续的音频帧和多个连续的视频帧。

示例性的，获取需要识别动作的待识别视频，提取出待识别视频中的音频帧和视频帧。对于待识别信息中的每个音频帧，确定每个音频帧的声谱图，并基于声谱图提取音频帧对应的音频特征。例如将每个音频帧对应的声谱图输入至训练好的音频特征提取网络中，由音频特征提取网络对各个声谱图进行处理分析并输出对应的音频特征。

对于待识别信息中的每个视频帧，分别提取每个视频帧的视频特征。例如，将各个视频帧依次输入至训练好的视频特征提取网络中，由视频网络对各个视频帧进行处理分析并输出对应的视频特征。

S103：将音频特征和视频特征映射到相同维度，并对音频特征和视频特征进行融合处理得到多个融合特征。

示例性的，在得到各个音频帧的音频特征以及各个视频帧的视频特征后，将音频特征和视频特征映射到相同维度。可选的，可分别通过全连接层实现音频特征和视频特征映射到设定的维度映射。需要进行解释的是，由于存在音频特征的维度与视频特征的维度不一致的情况，需要将音频特征和视频特征映射到相同的维度，使得音频帧和视频帧的特征权重保持一致，使得音频帧和视频帧可共同在动作识别中发挥作用，提高动作识别精度。

在一个实施例中，对音频特征和视频特征进行融合处理得到多个融合特征。其中，一个待识别视频中的音频帧的数量与视频帧的数量一致，对各个音频特征和视频特征融合得到的融合特征的数量，与音频帧或视频帧的数量一致。

可选的，对音频特征和视频特征的融合处理，可以是在帧间融合音频特征和视频特征，例如一帧的音频帧对应的音频特征与一帧的视频帧对应的视频特征进行融合。在其他实施例中，也可以是在视频级别对音频特征和视频特征进行整体的多模态融合，例如将整个待识别视频的音频特征和视频特征进行融合处理。

S104：基于融合特征进行动作识别得到动作识别结果。

示例性的，在得到待识别视频在音频和视频模态上的融合特征后，可基于这些融合特征进行动作识别，得到待识别视频对应的动作识别结果。例如，将上述得到的多个融合特征输入至训练好的动作识别模型中，由动作识别模型对接收到的多个融合特征进行分析处理，并输出对应的动作识别结果。

在一个实施例中，动作识别结果可表示为不同的动作类型对应的概率，可将动作识别结果中最大概率对应的动作类型确定为待识别视频对应的动作类型，或者是将概率达到设定阈值的动作类型确定为待识别视频对应的动作类型(在多个动作类型的概率均达到设定阈值时，可将最大概率对应的动作类型确定为待识别视频对应的动作类型，或者是将多个动作类型均确定为待识别视频对应的动作类型)。

在一个可能的实施例中，在本方案按提供的识别视频为主播端提供的视频流数据时，本方案在基于融合特征进行动作识别得到动作识别结果之后，还可基于待识别视频的时间信息以及动作识别结果，对主播端的直播间进行直播间推荐处理。

示例性的，按照设定的时间间隔收集主播端提供的视频流数据，并将每个时间间隔对应的视频流数据作为待识别视频依次进行动作识别，得到每个时间间隔的待识别视频对应的动作识别结果。其中，待识别视频的时间信息可基于视频流数据的时间戳确定，例如，可将待识别视频中第一个视频帧、中间视频帧或最后一个视频帧的时间戳作为待识别视频的时间信息，也可以是将待识别视频中各个帧视频帧的时间戳的平均时间作为待识别视频的时间信息。

在一个实施例中，根据待识别视频的时间信息以及动作识别结果，对主播端的直播间进行直播间推荐处理。其中，对直播间的直播间推荐处理可以是对直播间在对应频道中的权重进行加权或降权处理，并基于直播间的权重在对应频道中对各个直播间进行排序，还可以是基于直播间的权重在全频道中对各个直播间进行排序，观众端可在对应频道或全频道优先看到推荐的直播间，提升观众直播观看体验以及主播直播间热度。本方案通过基于时间信息和动作识别结果对直播间进行直播间推荐处理，使得观众可优先看到感兴趣的直播内容的直播间，提升观众直播观看体验以及主播直播间热度。

例如动作识别结果开始指示识别到设定的动作类型(概率达到设定阈值)时，将对应的时间信息确定为对应动作类型的开始时间，并对直播间进行加权处理，提高对直播间的推荐度。在动作识别结果开始指示未识别到设定的动作类型(概率小于设定阈值)时，将对应的时间信息确定为对应动作类型的结束时间，并对直播间进行降权处理，优先推荐其他进行对应动作类型的直播间。例如在检测到直播间中的主播开始跳舞和/或唱歌时，对直播间在舞蹈频道和/或唱歌频道中的权重进行加权处理，提高在舞蹈频道和/或唱歌频道对该直播间的推荐度。而在检测到直播间中的主播结束跳舞和/或唱歌时，对直播间在舞蹈频道和/或唱歌频道中的权重进行降权处理，降低在舞蹈频道和/或唱歌频道对该直播间的推荐度，使得观众端可优先看到相应直播内容的直播间，提升观众直播观看体验以及主播直播间热度。

在一个可能的实施例中，在本方案按提供的识别视频为完整的视频数据时，本方案在基于融合特征进行动作识别得到动作识别结果之后，还可基于动作识别结果对待识别视频进行视频推荐处理。

其中，用户端或主播端可向直播平台或视频服务平台上传完整的视频数据，其中视频数据可以是直播期间的录屏视频，也可以是另外制作的视频。示例性的，获取用户端或主播端上传的视频数据，并将视频数据作为待识别视频进行动作识别，得到待识别视频的动作识别结果。在一个实施例中，根据动作识别结果对该待识别视频进行视频推荐处理。其中，对待识别视频的视频推荐处理方式可以是标记待识别视频的动作类型，并基于动作类型将待识别视频推荐给感兴趣的用户。本方案通过根据动作识别结果对用户上传的视频数据进行视频推荐处理，使得用户可优先看到感兴趣的视频数据，提升观众视频播观看体验。

上述，通过获取待识别视频中各个音频帧的声谱图，并基于声谱图提取音频帧的音频特征，以及提取待识别视频中各个视频帧的视频特征，将音频特征和视频特征映射到相同维度后，对音频特征和视频特征进行融合处理得到融合特征，并对融合特征进行动作识别得到动作识别结果，通过对待识别视频中的音频特征和视频特征进行多模态的特征融合，丰富进行动作识别的维度，有效提高对待识别视频的动作识别精度。

在上述实施例的基础上，图2给出了本申请实施例提供的另一种动作识别方法的流程图，该动作识别方法是对上述动作识别方法的具体化。参考图2，该动作识别方法包括：

S201：将待识别视频中的各个音频帧重采样为设定频率的单声道音频。

S202：对重采样后的各个音频帧进行短时傅里叶变换得到音频帧的频谱图。

S203：将频谱图映射到梅尔滤波器组中计算各个频谱图对应的声谱图。

示例性的，在得到待识别视频后，基于设定频率对待识别视频中的各个音频帧进行重采样处理，从而将待识别视频中的各个音频帧重采样为设定频率的单声道音频。例如，假设待识别视频中的音频文件为wav格式的音频文件，音频文件中包括多个连续的音频帧，可将这些音频帧重采样为16kHz的单声道音频。

在一个实施例中，对重采样后的各个音频帧进行短时傅里叶变换得到，得到每个音频帧的频谱图。并将上述得到的每个音频帧的频谱图映射到梅尔滤波器组(mel滤波器组)中，通过梅尔滤波器组计算各个频谱图对应的声谱图(mel声谱)。

可选的，对音频帧的短时傅里叶变换可利用设定尺寸的时间窗口，以设定的移帧幅度进行，例如使用25ms的Hann时窗，以10ms的帧移对音频帧进行短时傅里叶变换得到音频帧的频谱图。在得到各个音频帧的频谱图后，可将频谱图映射到64阶的梅尔滤波器组中计算mel声谱，并计算log(mel声谱+0.01)得到稳定的mel声谱(即声谱图)。其中，0.01作为偏置项，可有效减少计算对0取对数的情况，保证得到有效的声谱图。

本方案通过对重采样后的音频帧进行短时傅里叶变换得到频谱图，并将频谱图映射到梅尔滤波器组中计算声谱图，准确计算各个音频帧的声谱图，提高音频特征的提取质量以及对待识别视频的动作识别精度。

S204：将各个声谱图输入至训练好的音频特征提取网络中，通过音频特征提取网络基于依次连接的第一数量的卷积层和第二数量的全连接层提取各个音频帧的音频特征。

本方案通过训练好的音频特征提取网络从声谱图中提取音频特征，其中音频特征提取网络包括依次连接的第一数量的卷积层和第二数量的全连接层。例如，第一数量和第二数量可分别设置为6和3，即音频特征提取网络可包括依次连接的6个卷积层和3个全连接层。

示例性的，在得到各个频谱图对应的声谱图后，将各个声谱图输入至训练好的音频特征提取网络中，以通过该音频特征提取网络基于依次连接的第一数量的卷积层和第二数量的全连接层提取各个音频帧的音频特征。本方案通过音频特征提取网络基于依次连接的第一数量的卷积层和第二数量的全连接层提取音频帧的音频特征，准确提取各个音频帧的声音特征，有效提高对待识别视频的动作识别精度。

在一个实施例中，本方案提供的音频特征提取网络可以是基于VGGish模型进行搭建，声谱图可直接输入音频特征提取网络中提取音频特征，其中，VGGish模型作为基于tensorflow的VGG模型，支持从声谱图中提取具有语义的128维embedding特征向量作为音频特征。

如图3提供的一种音频特征提取网络结构示意图所示，其中音频特征提取网络包括依次连接的6个卷积层(包括由通道数为64的单个卷积层构成的conv1、由通道数为128的单个卷积层构成的conv2、由通道数为256的两个卷积层构成的conv3和由通道数为512的两个卷积层构成的conv4，conv1-4之间通过通过激活函数连接)和3个全连接层(包括由通道数为4096的两个全连接层构成的fc1和由通道数为128的单个全连接层构成的fc2，conv4和fc1之间通过激活函数连接)，将96×64的声谱图输入音频特征提取网络中，音频特征提取网络可输出128维的音频特征。

S205：将待识别视频中的各个视频帧输入至训练好的视频特征提取网络中，通过视频特征提取网络提取各个视频帧的视频特征。

本方案通过训练好的视频特征提取网络提取视频帧的视频特征。其中，本方案提供的视频特征提取网络包括依次连接的基于多个卷积层组成的茎部卷积块、第三数量的基于卷积层的残差块组以及带注意力机制的池化层。其中，茎部卷积块可提取视频帧中包含图像语义信息的特征图，带注意力机制的池化层可应用注意力机制降低提取到的特征的信息冗余，增大网络感受野，防止网络出现过拟合的情况，保证视频特征提取质量。

示例性的，将待识别视频中的各个视频帧依次输入到视频特征提取网络中，由视频特征提取网络提取各个视频帧的视频特征。其中，视频特征提取网络在提取视频特征时，视频帧依次经过茎部卷积块、残差块组以及池化层进行处理并得到视频特征。本方案通过视频特征提取网络基于依次连接的茎部卷积块、残差块组以及池化层提取视频帧的视频特征，准确提取各个视频帧的视频特征，有效提高对待识别视频的动作识别精度。

如图4提供的一种视频特征提取网络结构示意图所示，其中视频特征提取网络包括依次连接的茎部卷积块、第三数量的残差块组(图中设置为4个残差块组)以及带注意力机制的池化层(attention pool，1×1024)，可将224×224的视频帧输入视频特征提取网络中，得到1024维的视频特征。可选的，本方案提供的视频特征提取网络可基于ResNet50网络(50层的残差神经网络)进行搭建得到。

在一个可能的实施例中，如图5提供的一种茎部卷积块的结构示意图所示，本方案提供的视频特征提取网络中的茎部卷积块包括依次连接的三层3×3的卷积层(包括依次连接的“3×3conv，32，/2”的卷积层、“3×3conv，32，/1”的卷积层以及“3×3conv，64，1”的卷积层)以及池化层，并且本方案提供的茎部卷积块中的池化层为平均池化层(“avgpool，/2”的池化层)。

需要进行解释的是，相对于原始的ResNet50网络中设置为一层的7×7的卷积层，本方案将7×7的卷积层调整为三层3×3的卷积层，通多个小卷积层可实现更好的堆积效果，小卷积层堆积更能更有效地提取视频帧中的图像语义信息。并且原始的ResNet50网络中的池化层为最大池化层，本方案将最大池化层调整为平均池化层，可有效保留视频帧中的背景信息，提取出来的视频特征会包含更多的背景信息，对视频的动作判断更精准，提高对待识别视频的动作识别精度。同时，原始的ResNet50网络中最后接入的池化层为平均池化层，本方案将平均池化层调整为注意力池化层，可有效降低提取到的特征的信息冗余，增大网络感受野，防止网络出现过拟合的情况。其中，注意力机制将查询向量Query与一组键值对(Key-Value)映射到输出，其中Query(查询矩阵)、Key(键值矩阵)、Value(键值矩阵)和注意力池化层的输出都是向量。输出可以通过值的加权和计算得出，其中分配到每一个值的权重可通过Query和对应Key的适应度函数计算。通过可学习的权重WQ、WK、WV从输入向量中创建查询矩阵Query、键值矩阵Key和值矩阵Value。注意力机制的计算就是对Query、 Key和Value这三个矩阵计算得到最终的结果。相较于平均池化和最大池化通过平均或者最大挤压到最终分类层的一维特征，注意力机制池化可以选择最佳的二维特征转换为最终分类层的一维特征，提高视频特征提效果。本方案采用多层小卷积核构建的茎部卷积块代替单层大卷积核，茎部卷积块输出用平均池化层代替最大池化层，将提取后的特征到分类层，并利用注意力机制的池化层代替平均池化，基于改进的ResNet50模型，有效提升视频特征的感受野，提取视频帧中更高维的语义信息，使得提取的视频特征和动作具有更好的匹配性。

在一个可能的实施例中，如图6提供的一种残差块组结构示意图所示，图中提供了4个依次连接的残差块组，本方案提供的视频特征提取网络包括4个依次连接的残差块组，其中残差块组包括多个残差块，残差块包括依次连接的1×1的卷积层、3×3的卷积层以及1×1的卷积层。同时，本方案提供的视频特征提取网络在每个残差块组入口的残差块处旁路连接有1×1的卷积层。

其中，视频特征提取网络中设置为4个残差块组(stage)，共13个使用卷积的残差块。其中第一个残差块组包括3个残差块，最后2个残差块结构相同；第二个残差块组包括4个残差块，最后3个残差块结构相同；第三个残差块组包括4个残差块，最后3个残差块结构相同；第四个残差块组包括2个残差块。其中每个残差块组入口的第一个残差块旁路连接1×1的卷积层。

本方案提供的每个残差块都使用了基于bottleneck的设计方式，即每个残差块都由3个卷积层组成(卷积核参数分别为1×1、3×3和1×1)，其中进出口的两个1×1卷积层分别用于压缩和还原特征图的通道数(原始的特征图由茎部卷积块输出)，有效减少卷积层运算的通道数，减少计算过程中的参数量，提高视频特征提取效率。另外，由于特征图每经过一个残差块组，需要把特征图的尺寸缩小至四分之一、通道扩大为两倍，本方案在每个残差块组的入口处都使用了2D投影残差块，即在每个残差块组入口的残差块处旁路连接1×1的卷积层，以保证在对特征图做逐像素相加操作时，特征图的尺寸和通道数保持一致。同时，只在每个残差块组的入口处使用2D投影残差块可进一步减少网络参数，提高视频特征提取效率。

S206：分别通过全连接层将音频特征和视频特征映射到相同维度。

S207：基于特征拼接融合方式、特征叠加融合方式或加权叠加融合方式，对音频特征和视频特征进行融合处理得到多个融合特征。

示例性的，在得到音频特征和视频特征后，分别通过一个全连接层将音频特征和视频特征映射到相同维度。在一个实施例中，可通过设定的融合方式对音频特征和视频特征进行融合处理，得到多个融合特征。

本方案提供的融合方式可以是特征拼接融合方式、特征叠加融合方式和加权叠加融合方式中的一种，其中特征拼接融合方式可以是将音频特征和视频特征进行拼接得到融合特征，例如将384维的音频特征和384维的视频特征拼接为768维的融合特征。特征叠加融合方式可以是将音频特征和视频特征相加得到融合特征，例如将384维的音频特征和384维的视频特征相加得到384维的融合特征。加权叠加融合方式可以是基于设定的权值系数对音频特征和视频特征进行加权求和得到融合特征，例如将384维的音频特征和384维的视频特征加权求和得到384维的融合特征。本方案通过将音频特征和视频特征映射到相同维度后，基于设定的融合方式将音频特征和视频特征融合为融合特征，使得音频帧和视频帧可共同在动作识别中发挥作用，提高动作识别精度。

在一个实施例中，在进行融合处理时，可以是将一帧音频帧的音频特征与一帧视频帧的视频特征进行融合处理。可选的，可在对音频特征和视频特征进行融合处理之前，或者是在得到待识别视频后，基于时间戳对音频特征和视频特征进行对齐，在行融合处理时，可以是将一帧音频帧的音频特征和与其对齐的视频帧的视频特征进行融合处理，提高融合处理效果。

S208：基于融合特征进行动作识别得到动作识别结果。

本方案可通过基于vision transformer模型搭建的动作识别模型对融合特征进行动作识别。基于此，本方案在基于融合特征进行动作识别得到动作识别结果时，可以是将多个融合特征输入至训练好的动作识别模型中，通过动作识别模型基于transformer编码器获取各个融合特征的特征向量，并将各个特征向量输入全连接层，由全连接层输出动作识别结果。

如图7提供的一种动作识别模型示意图所示，本方案提供的动作识别模型包括transformer编码器(基于vision transformer模型的Transformer Decoder)和全连接层(MLP Head)，对应输出的动作识别结果对应的动作类型(Class)可以是跳舞、唱歌等。其中transformer编码器的数量设置有多个，可选的，可根据视频帧数量设置transformer编码器数量。其中，transformer编码器包括依次连接的归一化层(Norm)、多头注意力层(Multi-Head Attention)、归一化层(Norm)和全连接层(MLP)。可选的，本法难提供的动作识别模型可使用pytorch作为底层支持库实现。

示例性的，将上述确定的各个融合特征输入到动作识别模型中，动作识别模型将分别通过一个transformer编码器获取对应融合特征的特征向量，并将每个融合特征对应的特征向量输入到全连接层(MLP Head)中，由全连接层输出动作识别结果。本方案通过基于vision transformer模型搭建的动作识别模型对融合特征进行动作识别，其中vision transformer模型把NLP领域的transformer编码器算法应用到视觉领域，把每一帧的特征当作NLP的token，直接将NLP的标准transformer编码器应用于这些token，并可据此进行视频分类，有效提高对视频的动作识别精度。

上述，通过获取待识别视频中各个音频帧的声谱图，并基于声谱图提取音频帧的音频特征，以及提取待识别视频中各个视频帧的视频特征，将音频特征和视频特征映射到相同维度后，对音频特征和视频特征进行融合处理得到融合特征，并对融合特征进行动作识别得到动作识别结果，通过对待识别视频中的音频特征和视频特征进行多模态的特征融合，丰富进行动作识别的维度，有效提高对待识别视频的动作识别精度。同时，通过音频特征提取网络准确提取各个音频帧的声音特征，以及通过视频特征提取网络基提取视频帧的视频特征，准确提取各个视频帧的视频特征，并过基于vision transformer模型搭建的动作识别模型对融合特征进行动作识别，有效提高对待识别视频的动作识别精度。

图8是本申请实施例提供的一种动作识别装置的结构示意图。参考图3，该动作识别装置包括音频分析模块81、视频分析模块82、特征融合模块83和动作识别模块84。

其中，音频分析模块81，配置为获取待识别视频中各个音频帧的声谱图，并基于声谱图提取各个音频帧的音频特征；视频分析模块82，配置为获取待识别视频中各个视频帧的视频特征；特征融合模块83，配置为将音频特征和视频特征映射到相同维度，并对音频特征和视频特征进行融合处理得到多个融合特征；动作识别模块84，配置为基于融合特征进行动作识别得到动作识别结果。

在一个可能的实施例中，音频分析模块81在获取待识别视频中各个音频帧的声谱图时，配置为：

将待识别视频中的各个音频帧重采样为设定频率的单声道音频；

对重采样后的各个音频帧进行短时傅里叶变换得到音频帧的频谱图；

将频谱图映射到梅尔滤波器组中计算各个频谱图对应的声谱图。

在一个可能的实施例中，音频分析模块81在基于声谱图提取各个音频帧的音频特征时，配置为：

将各个声谱图输入至训练好的音频特征提取网络中，通过音频特征提取网络基于依次连接的第一数量的卷积层和第二数量的全连接层提取各个音频帧的音频特征。

在一个可能的实施例中，视频分析模块82在获取待识别视频中各个视频帧的视频特征时，配置为：

将待识别视频中的各个视频帧输入至训练好的视频特征提取网络中，通过视频特征提取网络提取各个视频帧的视频特征，其中，视频特征提取网络包括依次连接的基于多个卷积层组成的茎部卷积块、第三数量的基于卷积层的残差块组以及带注意力机制的池化层。

在一个可能的实施例中，视频特征提取网络中的茎部卷积块包括三层3×3的卷积层以及池化层，茎部卷积块中的池化层为平均池化层。

在一个可能的实施例中，视频特征提取网络包括4个依次连接的残差块组，残差块组包括多个残差块，残差块包括依次连接的1×1的卷积层、3×3的卷积层以及1×1的卷积层，视频特征提取网络在每个残差块组入口的残差块处旁路连接有1×1的卷积层。

在一个可能的实施例中，特征融合模块83在将音频特征和视频特征映射到相同维度，并对音频特征和视频特征进行融合处理得到多个融合特征时，配置为：

分别通过全连接层将音频特征和视频特征映射到相同维度；

基于特征拼接融合方式、特征叠加融合方式或加权叠加融合方式，对音频特征和视频特征进行融合处理得到多个融合特征。

在一个可能的实施例中，动作识别模块84在基于融合特征进行动作识别得到动作识别结果时，配置为：

将多个融合特征输入至训练好的动作识别模型中，通过动作识别模型基于transformer编码器获取各个融合特征的特征向量，并将各个特征向量输入全连接层，由全连接层输出动作识别结果。

在一个可能的实施例中，待识别视频为主播端提供的视频流数据，动作识别装置还包括第一处理模块，配置为在动作识别模块84基于融合特征进行动作识别得到动作识别结果之后，基于待识别视频的时间信息以及动作识别结果，对主播端的直播间进行直播间推荐处理。

在一个可能的实施例中，待识别视频为完整的视频数据，动作识别装置还包括第二处理模块，配置为在动作识别模块84基于融合特征进行动作识别得到动作识别结果之后，基于动作识别结果对待识别视频进行视频推荐处理。

值得注意的是，上述动作识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请实施例的保护范围。

本申请实施例还提供了一种动作识别设备，该动作识别设备可集成本申请实施例提供的动作识别装置。图9是本申请实施例提供的一种动作识别设备的结构示意图。参考图9，该动作识别设备包括：输入装置93、输出装置94、存储器92以及一个或多个处理器91；存储器92，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器91执行，使得一个或多个处理器91实现如上述实施例提供的动作识别方法。上述提供的动作识别装置、设备和计算机可用于执行上述任意实施例提供的动作识别方法，具备相应的功能和有益效果。

本申请实施例还提供一种存储计算机可执行指令的非易失性存储介质，计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的动作识别方法。当然，本申请实施例所提供的一种存储计算机可执行指令的非易失性存储介质，其计算机可执行指令不限于如上提供的动作识别方法，还可以执行本申请任意实施例所提供的动作识别方法中的相关操作。上述实施例中提供的动作识别装置、设备及存储介质可执行本申请任意实施例所提供的动作识别方法，未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的动作识别方法。

在上述实施例的基础上，本申请实施例还提供一种计算机程序产品，本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机程序产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备、移动终端或其中的处理器执行本申请各个实施例所提供的动作识别方法的全部或部分步骤。

Claims

一种动作识别方法，其中，包括：

获取待识别视频中各个音频帧的声谱图，并基于所述声谱图提取各个所述音频帧的音频特征；

获取待识别视频中各个视频帧的视频特征；

将所述音频特征和所述视频特征映射到相同维度，并对所述音频特征和所述视频特征进行融合处理得到多个融合特征；

基于所述融合特征进行动作识别得到动作识别结果。
根据权利要求1所述的动作识别方法，其中，所述获取待识别视频中各个音频帧的声谱图，包括：

将待识别视频中的各个音频帧重采样为设定频率的单声道音频；

对重采样后的各个音频帧进行短时傅里叶变换得到所述音频帧的频谱图；

将所述频谱图映射到梅尔滤波器组中计算各个频谱图对应的声谱图。
根据权利要求1所述的动作识别方法，其中，所述基于所述声谱图提取各个所述音频帧的音频特征，包括：

将各个所述声谱图输入至训练好的音频特征提取网络中，通过所述音频特征提取网络基于依次连接的第一数量的卷积层和第二数量的全连接层提取各个所述音频帧的音频特征。
根据权利要求1所述的动作识别方法，其中，所述获取待识别视频中各个视频帧的视频特征，包括：

将待识别视频中的各个视频帧输入至训练好的视频特征提取网络中，通过所述视频特征提取网络提取各个所述视频帧的视频特征，其中，所述视频特征提取网络包括依次连接的基于多个卷积层组成的茎部卷积块、第三数量的基于卷积层的残差块组以及带注意力机制的池化层。
根据权利要求4所述的动作识别方法，其中，所述视频特征提取网络中的茎部卷积块包括三层3×3的卷积层以及池化层，所述茎部卷积块中的池化层为平均池化层。
根据权利要求4所述的动作识别方法，其中，所述视频特征提取网络包括4个依次连接的残差块组，所述残差块组包括多个残差块，所述残差块包括依次连接的1×1的卷积层、3×3的卷积层以及1×1的卷积层，所述视频特征提取网络在每个所述残差块组入口的残差块处旁路连接有1×1的卷积层。
根据权利要求1所述的动作识别方法，其中，所述将所述音频特征和所述视频特征映射到相同维度，并对所述音频特征和所述视频特征进行融合处理得到多个融合特征，包括：

分别通过全连接层将所述音频特征和所述视频特征映射到相同维度；

基于特征拼接融合方式、特征叠加融合方式或加权叠加融合方式，对所述音频特征和所述视频特征进行融合处理得到多个融合特征。
根据权利要求1所述的动作识别方法，其中，所述基于所述融合特征进行动作识别得到动作识别结果，包括：

将多个所述融合特征输入至训练好的动作识别模型中，通过所述动作识别模型基于transformer编码器获取各个所述融合特征的特征向量，并将各个所述特征向量输入全连接层，由所述全连接层输出动作识别结果。
根据权利要求1-8任一项所述的动作识别方法，其中，所述待识别视频为主播端提供的视频流数据，所述基于所述融合特征进行动作识别得到动作识别结果之后，还包括：

基于所述待识别视频的时间信息以及所述动作识别结果，对所述主播端的直播间进行直播间推荐处理。
根据权利要求1-8任一项所述的动作识别方法，其中，所述待识别视频为完整的视频数据，所述基于所述融合特征进行动作识别得到动作识别结果之后，还包括：

基于所述动作识别结果对所述待识别视频进行视频推荐处理。
一种动作识别装置，其中，包括音频分析模块、视频分析模块、特征融合模块和动作识别模块，其中：

所述音频分析模块，配置为获取待识别视频中各个音频帧的声谱图，并基于所述声谱图提取各个所述音频帧的音频特征；

所述视频分析模块，配置为获取待识别视频中各个视频帧的视频特征；

所述特征融合模块，配置为将所述音频特征和所述视频特征映射到相同维度，并对所述音频特征和所述视频特征进行融合处理得到多个融合特征；

所述动作识别模块，配置为基于所述融合特征进行动作识别得到动作识别结果。
一种动作识别设备，其中，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10任一项所述的动作识别方法。
一种存储计算机可执行指令的非易失性存储介质，其中，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10任一项所述的动作识别方法。
一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1-10任一项所述的动作识别方法。