CN113128261B

CN113128261B - 数据处理方法及装置、视频处理方法及装置

Info

Publication number: CN113128261B
Application number: CN201911398728.3A
Authority: CN
Inventors: 汪玲; 刘超; 刘重阳; 张士伟; 夏朱荣; 唐铭谦
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2024-06-07
Anticipated expiration: 2039-12-30
Also published as: CN113128261A

Abstract

本申请提供数据处理方法及装置、视频处理方法及装置，其中，所述数据处理方法包括：获取待处理视频；获取所述待处理视频中，时序排列的第一视频片段和第二视频片段；获取第一视频片段的至少一个关键帧；对所述关键帧，进行图像动作语义识别，得到至少一个第一动作标签；基于所述第一动作标签，对所述第二视频片段，进行视频动作语义识别，得到至少一个第二动作标签。

Description

数据处理方法及装置、视频处理方法及装置

技术领域

本申请涉及视频处理技术领域，特别涉及数据处理方法及装置、视频处理方法及装置。

背景技术

随着网络技术和多媒体技术的迅速发展，网络上涌现出各种各样的视频，这些视频在丰富用户生活的同时，但也使用户在网络上浏览视频的时候面临选择困难，在面临各类视频的时候很难快速定位和找到想要的视频，这就使得视频理解技术应用而生，通过视频理解技术对网络上传播的视频的内容进行解构，解构出视频当中包含的人物、背景等标签，解构出的标签可以用于视频搜索，而视频搜索准确率的提升则是依赖于视频标签解构的准确性的提高。

发明内容

有鉴于此，本申请提供了一种数据处理方法、一种视频处理方法、一种数据处理装置、一种视频处理装置、两种计算设备以及两种计算机可读存储介质。

本申请提供一种数据处理方法，包括：

获取待处理视频；

获取所述待处理视频中，时序排列的第一视频片段和第二视频片段；

获取第一视频片段的至少一个关键帧；

对所述关键帧，进行图像动作语义识别，得到至少一个第一动作标签；

基于所述第一动作标签，对所述第二视频片段，进行视频动作语义识别，得到至少一个第二动作标签。

可选的，所述数据处理方法，还包括：

基于所述第一动作标签和第二动作标签，获取所述待处理视频的结构化动作数据，其中，所述结构化动作数据适于按照时序表征动作变化。

可选的，所述对所述关键帧，进行图像动作语义识别，得到至少一个第一动作标签步骤执行之后，且所述基于所述第一动作标签，对所述第二视频片段，进行视频动作语义识别，得到至少一个第二动作标签步骤执行之前，还包括：

展示所述至少一个第一动作标签；

接收针对所述至少一个第一动作标签中至少一者的选择指令；

确定所述选择指令对应的第一动作标签；

相应的，所述基于所述第一动作标签，对所述第二视频片段，进行视频动作语义识别，得到至少一个第二动作标签，包括：

基于所述选择指令对应的第一动作标签，对所述第二视频片段，进行视频动作语义识别，得到至少一个第二动作标签。

本申请提供一种视频处理方法，包括：

获取待处理视频；

对所述待处理视频进行分割处理，得到一个或多个视频片段；

提取所述一个或多个视频片段中至少一个视频片段的一个或多个关键帧；

对所述一个或多个关键帧中至少一个关键帧进行动作语义识别，得到与关键帧对应的一个或多个第一动作数据；

根据所述一个或多个第一动作数据，对所述至少一个视频片段进行动作语义识别，获得与视频片段对应的一个或多个第二动作数据；

根据至少一个所述第一动作数据和至少一个所述第二动作数据，生成所述待处理视频的目标数据，其中，所述目标数据适于按照时序表征动作变化。

可选的，所述对所述待处理视频进行分割处理，得到一个或多个视频片段，包括：

按照预设分割时长将所述待处理视频分割为一个或多个一级视频片段；

采用分镜算法对所述一个或多个一级视频片段中包含多个镜头片段的一级视频片段进行二次分割，将二次分割获得的一个或者多个分镜片段中至少一者以及未被二次分割的一级视频片段中至少一者作为所述一个或多个视频片段。

可选的，所述关键帧采用如下方式提取：

提取所述视频片段中包含的多个图像帧；

利用图像处理算法分别对所述多个图像帧进行图像处理；

将图像处理后获得的多个图像帧融合为所述关键帧；

或者，

随机提取所述视频片段中任意一个图像帧作为所述关键帧。

可选的，所述对所述一个或多个关键帧中至少一个关键帧进行动作语义识别，得到与关键帧对应的一个或多个第一动作数据，包括：

对所述至少一个关键帧进行动作语义识别，得到与关键帧对应的一个或者多个第一动作类型；

检测所述至少一个关键帧中的一个或者多个动作主体和/或动作对象；

将至少一个所述第一动作类型与至少一个所述动作主体和/或所述动作对象融合为所述与关键帧对应的一个或多个第一动作数据。

可选的，所述根据所述一个或多个第一动作数据，对所述至少一个视频片段进行动作语义识别，获得与视频片段对应的一个或多个第二动作数据，包括：

按照预设帧频从所述至少一个视频片段中分别抽取一个或者多个图像帧；

基于抽取的一个或者多个图像帧组成与视频片段对应的至少一个帧序列；

基于所述与关键帧对应的一个或多个第一动作数据，确定所述视频片段的关键帧对应的一个或多个第一动作数据中包含的至少一个第一动作类型；

判断所述至少一个第一动作类型的置信度是否小于预设置信度阈值；

若是，对所述关键帧所属的视频片段对应的至少一个帧序列进行动作语义识别，得到与帧序列对应的一个或者多个第二动作类型；

根据所述一个或多个第一动作数据中包含的至少一个动作主体，检测所述一个或者多个帧序列中所述至少一个动作主体的动作轨迹；

基于所述至少一个动作主体的动作轨迹以及所述与帧序列对应的一个或者多个第二动作类型，确定至少一个所述第二动作类型与至少一个所述动作主体的对应关系；

根据至少一个所述第二动作类型、至少一个所述动作主体以及二者对应关系确定所述一个或多个第二动作数据。

可选的，若所述判断所述至少一个第一动作类型的置信度是否小于预设置信度阈值子步骤的执行结果为否，执行如下操作：

根据所述一个或多个第一动作数据中包含的至少一个动作主体，检测所述关键帧所属的视频片段对应的至少一个帧序列中所述至少一个动作主体的动作轨迹；

基于所述至少一个动作主体的动作轨迹以及所述一个或多个第一动作数据中包含的至少一个第一动作类型，确定至少一个所述第一动作类型与至少一个所述动作主体的对应关系；

根据至少一个所述第一动作类型、至少一个所述动作主体以及二者对应关系确定所述一个或多个第二动作数据。

判断所述一个或多个第一动作数据中包含的至少一个第一动作类型是否为预设动作类型；

若是，针对所述一个或多个第一动作数据对应的关键帧所属的视频片段，按照预设帧频从所述视频片段中抽取一个或者多个图像帧组成至少一个帧序列；

对所述至少一个帧序列进行动作语义识别，得到与帧序列对应的一个或者多个第二动作类型；

判断所述一个或者多个第一动作数据中包含的至少一个动作主体和/或动作对象是否为空；

若是，检测所述关键帧中的至少一个动作主体和/或动作对象，并检测所述至少一个动作主体和/或所述动作对象的动作轨迹；

基于所述动作轨迹以及至少一个所述第二动作类型，确定至少一个所述第二动作类型与至少一个所述动作主体的对应关系；

可选的，根据至少一个所述第一动作数据和至少一个所述第二动作数据，生成所述待处理视频的目标数据，包括：

根据所述第一动作数据中包含的第一动作类型在所述关键帧对应的第一时间信息以及所述第二动作数据中包含的第二动作类型在所述视频片段对应的第二时间信息，确定所述视频片段的动作类型及其对应的动作执行时间；

根据所述视频片段的动作主体和/或动作对象，确定所述动作主体之间的主体关系和/或所述动作对象之间的对象关系；

基于所述动作类型、所述动作执行时间以及所述主体关系和/或所述对象关系，生成所述目标数据。

可选的，所述根据所述一个或多个第一动作数据，对所述至少一个视频片段进行动作语义识别，获得与视频片段对应的一个或多个第二动作数据步骤执行之后，且所述根据至少一个所述第一动作数据和至少一个所述第二动作数据，生成所述待处理视频的目标数据步骤执行之前，包括：

采用图像语义识别算法对所述待处理视频中包含的图像帧进行图像语义识别；

根据图像语义识别获得的静态信息确定所述待处理视频的视频类型；

判断所述视频类型与所述第一动作数据中包含的第一动作类型和/或所述第二动作数据中包含的第二动作类型是否匹配；

若是，执行所述根据至少一个所述第一动作数据和至少一个所述第二动作数据，生成所述待处理视频的目标数据步骤；

若否，生成携带有所述视频类型以及所述第一动作类型和/或所述第二动作数据的提醒信息。

可选的，所述对所述一个或多个关键帧中至少一个关键帧进行动作语义识别，得到与关键帧对应的一个或多个第一动作数据步骤，基于图像动作语义识别模型实现；

其中，所述图像动作语义识别模型的输入包括所述一个或多个关键帧，输出包括对所述一个或多个关键帧进行动作语义识别得到置信度最高的至少一个动作类型标签，以及在所述一个或多个关键帧中识别到的一个或者多个动作主体和/或动作对象。

可选的，所述根据所述一个或多个第一动作数据，对所述至少一个视频片段进行动作语义识别，获得与视频片段对应的一个或多个第二动作数据步骤，基于视频动作语义识别模型实现；其中，所述视频动作语义识别模型的输入包括所述至少一个视频片段、所述视频片段对应的一个或多个关键帧输入所述图像动作语义识别模型之后的输出，输出包括至少一个第二动作类型标签以及对应的一个或者多个动作主体和/或动作对象。

可选的，所述目标数据按照时序表征的动作变化，包括：动作参与方在至少一个时间节点的动作变化。

本申请还提供一种数据处理装置，包括：

待处理视频获取模块，被配置为获取待处理视频；

获取视频片段模块，被配置为获取所述待处理视频中，时序排列的第一视频片段和第二视频片段；

关键帧获取模块，被配置为获取第一视频片段的至少一个关键帧；

图像动作语义识别模块，被配置为对所述关键帧，进行图像动作语义识别，得到至少一个第一动作标签；

视频动作语义识别模块，被配置为基于所述第一动作标签，对所述第二视频片段，进行视频动作语义识别，得到至少一个第二动作标签。

本申请还提供一种视频处理装置，包括：

待处理视频获取模块，被配置为获取待处理视频；

视频分割处理模块，被配置为对所述待处理视频进行分割处理，得到一个或多个视频片段；

关键帧提取模块，被配置为提取所述一个或多个视频片段中至少一个视频片段的一个或多个关键帧；

第一语义识别模块，被配置为对所述一个或多个关键帧中至少一个关键帧进行动作语义识别，得到与关键帧对应的一个或多个第一动作数据；

第二语义识别模块，被配置为根据所述一个或多个第一动作数据，对所述至少一个视频片段进行动作语义识别，获得与视频片段对应的一个或多个第二动作数据；

目标数据生成模块，被配置为根据至少一个所述第一动作数据和至少一个所述第二动作数据，生成所述待处理视频的目标数据，其中，所述目标数据适于按照时序表征动作变化。

本申请还提供一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

获取待处理视频；

获取第一视频片段的至少一个关键帧；

本申请还提供另一种计算设备，包括：

存储器和处理器；

获取待处理视频；

本申请还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述数据处理方法的步骤。

本申请还提供另一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述视频处理方法的步骤。

本申请提供的数据处理方法，在图像语义识别维度对待处理视频进行图像动作语义识别，获得图像语义识别维度的动作标签，在图像动作标签的基础上，进一步在视频语义识别维度进行视频动作语义识别，获得视频语义识别维度的动作标签，实现了图像语义识别维度和视频语义识别维度进行动作语义识别的互补，对视频内容的理解更加精准和全面。

本申请提供的视频处理方法，将待处理视频分割处理为进行视频动作语义识别的视频片段，并从视频片段中提取进行图像动作语义识别的关键帧，在对待处理视频的关键帧进行图像动作语义识别得到的第一动作数据的基础上，进一步对待处理视频的视频片段进行视频动作语义识别得到第二动作数据，最终通过对图像动作语义识别和视频动作语义识别的识别结果进行融合的方式，对待处理视频进行更加深入和更加全面的分析理解，从而实现了更加全面和精准的视频内容表达。

附图说明

图1是本申请实施例提供的一种数据处理方法处理流程图；

图2是本申请实施例提供的一种数据处理场景示意图；

图3是本申请实施例提供的一种视频处理方法处理流程图；

图4是本申请实施例提供的一种视频处理场景示意图；

图5是本申请实施例提供的一种足球比赛视频处理场景示意图；

图6是本申请实施例提供的一种应用于足球比赛视频处理场景的视频处理方法的处理流程图；

图7是本申请实施例提供的一种数据处理装置的示意图；

图8是本申请实施例提供的一种视频处理装置的示意图；

图9是本申请实施例提供的一种计算设备的结构框图；

图10是本申请实施例提供的另一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请一个实施例提供一种数据处理方法、一种视频处理方法、一种数据处理装置、一种视频处理装置、两种计算设备以及两种计算机可读存储介质。以下分别结合本说明书提供的实施例的附图逐一进行详细说明，并且对方法的各个步骤进行说明。

本申请提供的一种数据处理方法实施例如下：

参照附图1，其示出了本实施例提供的一种数据处理方法处理流程图，参见附图2，其示出了本实施例提供的一种数据处理场景示意图。

步骤S102，获取待处理视频。

实际应用中，视频平台或者视频网站面向用户提供视频浏览访问的过程中，为使用户获得更加高效、快捷的视频浏览体验，通过视频理解技术对视频内容进行识别以对视频进行标签化处理，对用户而言，能够通过视频标签进行更加快速和有效的视频查找和浏览；同时，还可以向视频平台或者视频网站的下游任务提供视频标签，比如向下游进行视频集锦生成、视频搜索、广告植入、视频生产的任务方提供视频标签，从而与下游任务一起为用户提供更加丰富多样的视频服务。

站在用户的视角，用户在视频平台或者视频网站进行视频浏览访问的过程中，面临的难题是如何在海量的视频资源中快速找到想要浏览访问的视频，其中一个重要影响因素是视频标签对视频内容的表达存在局限性，视频标签虽然在一定程度能够体现视频中包含的主要人物对象或者背景，只能“静态”的表达视频的部分特征，缺乏对视频内容更加深入的“动态”表达，无法对人物对象以及背景之间深入的关系进行分析，比如影视剧中发生动作冲突的双方的角色以及二者在剧中的人物关系。

可见，要对视频进行更加全面和精确的内容表达，不仅需要视频内容识别的全面性和精准性，还需在视频内容识别的基础上进行深入分析，本申请提供的视频处理方法，如附图2所示，首先在图像语义识别维度对待处理视频进行图像动作语义识别，获得图像语义识别维度的动作标签，然后在图像动作标签的基础上，进一步在视频语义识别维度进行视频动作语义识别，获得视频语义识别维度的动作标签，实现了图像语义识别维度和视频语义识别维度进行动作语义识别的互补，对视频内容的理解更加精准和全面。

具体实施时，首先获取待处理视频，比如获取视频网站的视频管理维人员上传的需进行处理的体育视频或者影视剧视频，再比如获取视频提供用户上传的个人记录视频等。

步骤S104，获取所述待处理视频中，时序排列的第一视频片段和第二视频片段。

例如，在对影视剧视频进行处理过程中，以视频片段为处理单位对影视剧视频进行动作语义识别，具体的，获取影视剧视频中时序连续的两个时长为10s的视频片段：第一视频片段和第二视频片段。

步骤S106，获取第一视频片段的至少一个关键帧。

基于上述获取的所述第一视频片段，从所述第一视频片段中提取关键帧，作为在图像语义识别维度进行图像动作语义识别的识别基础，具体在提取关键帧的过程中，为了使提取的关键帧能够代表或者接近所述第一视频片段中动作变化最关键的一帧，本实施例提供的一种可选实施方式中，提取所述第一视频片段中包含的多个图像帧，并利用图像处理算法分别对所述多个图像帧进行图像处理，最终将图像处理后获得的多个图像帧融合为所述关键帧，通过这种方式融合生成的关键帧对所述第一视频片段中动作变化的表达更为全面。

例如，针对上述在影视剧视频中获取的时长为10s的第一视频片段，首先提取第一视频片段的头部第一个图像帧、尾部最后一个图像帧以及居中的关键帧，然后利用图像处理算法对这3个图像帧进行处理，最终将处理后的3个图像帧融合后获得的图像帧作为第一视频片段的关键帧。

步骤S108，对所述关键帧，进行图像动作语义识别，得到至少一个第一动作标签。

在上述提取到的所述第一视频片段中关键帧的基础上，本步骤在图像语义识别维度对所述关键帧进行图像动作语义识别，获得所述关键帧的至少一个第一动作标签。

本实施例所述图像动作语义识别，是指在图像语义识别维度进行动作语义识别，且动作语义识别的对象为图像，即：上述获取到的所述第一视频片段的至少一个关键帧。对所述关键帧进行图像动作语义识别得到的所述第一动作标签，用于表征所述关键帧中动作主体所发出动作的动作类型。

例如，在获取到影视剧视频中时长为10s的第一视频片段的关键帧之后，对获取到的关键帧进行图像语义动作识别，获得的第一动作标签为“握手”动作标签，则表明第一视频片段中人物发生的关键动作为“握手”动作。

具体实施时，在对所述关键帧进行图像动作语义识别过程中，对计算资源的需求较大，本实施例提供的一种可选实施方式中，采用图像动作语义识别模型对所述关键帧进行图像动作语义识别，以此来提升图像动作语义识别的识别效率，具体的，所述图像动作语义识别模型的输入包括所述一个或多个关键帧，输出包括对所述一个或多个关键帧进行图像动作语义识别得到至少一个动作类型标签。

实际应用中，为了增强视频处理过程的可交互性，提升视频平台或者视频网站等对视频处理过程的用户体验，本实施例提供的一种可选实施方式中，在进行图像动作语义识别获得至少一个第一动作标签之后，展示获得的所述至少一个第一动作标签，展示的目的是使视频平台或者视频网站的视频维护人员能够感知生成的所述至少一个第一动作标签，并在展示的基础上进行选择；并通过接收针对所述至少一个第一动作标签中至少一者的选择指令，来确定所述选择指令对应的第一动作标签，即：确定视频维护人员针对图像帧选择的第一动作标签；相应的，后续在基于所述第一动作标签对所述第二视频片段进行视频动作语义识别处理过程中，也是在视频维护人员选择的第一动作标签的基础上进行。

步骤S110，基于所述第一动作标签，对所述第二视频片段，进行视频动作语义识别，得到至少一个第二动作标签。

在上述提取到的所述第二视频片段，以及对所述第一视频片段进行图像动作语义识别获得的所述第一动作标签的基础上，本步骤中，基于所述待处理视频中前一时序的视频片段(第一视频片段)中的关键帧进行图像动作语义识别获得的所述第一动作标签，在视频语义识别维度对与前一时序的视频片段具有时序连续的后一时序的视频片段(第二视频片段)进行视频动作语义识别，获得所述第二视频片段的至少一个第二动作标签。

本实施例所述视频动作语义识别，是指在视频语义识别维度进行动作语义识别，且动作语义识别的对象为视频片段，即：上述在所述待处理视频中获取到的所述第二视频片段。对所述第二视频片段进行视频动作语义识别得到的所述第二动作标签，用于表征所述第二视频片段中动作主体所发出动作的动作类型。

例如，在获取到影视剧视频中时长为10s的第二视频片段之后，对获取到的第二视频片段进行视频语义动作识别，获得的第二动作标签为“抽烟”动作标签，则表明该时长为10s的第二视频片段中人物发生的关键动作为“抽烟”动作，结合对第一视频片段中关键帧进行图像语义动作识别获得的“握手”动作标签，可见，影视剧视频中第一视频片段和第二视频片段所表达的场景可能是：人物在见面时进行握手，并在握手之后一起抽烟。

具体实施时，为实现对所述待处理视频更加深入的语义识别和更加全面的理解，还可以对所述第一动作标签和所述第二动作标签进行进一步分析处理，从而来对所述待处理视频的动作变化进行深入刻画，本实施例提供的一种可选实施方式中，基于所述第一动作标签和第二动作标签，获取所述待处理视频的结构化动作数据，其中，所述结构化动作数据适于按照时序表征动作变化。

本实施例所述结构化动作数据，适于按照时序表征至少一个时间节点的动作变化，具体在本实施例中，所述结构化动作数据是指用于表达待处理视频在各个关键时间节点的动作变化的数据集，并且是按照时序聚集为数据集。

本实施例提供的上述实施例中，首先在图像语义识别维度对待处理视频进行图像动作语义识别，然后在获得的第一动作标签的基础上，进一步在视频语义识别维度进行视频动作语义识别，获得第二视频标签。除此之外，还可以首先在视频语义识别维度对待处理视频进行视频动作语义识别，然后在获得的视频动作标签的基础上，进一步在图像语义识别维度进行图像动作语义识别，获得最终的图像动作标签，具体实现过程中本实施例提供的上述实现方式类似，在此不再赘述。

综上所述，本申请提供的数据处理方法，首先在图像语义识别维度对待处理视频进行图像动作语义识别，获得图像语义识别维度的动作标签，然后在图像动作标签的基础上，进一步在视频语义识别维度进行视频动作语义识别，获得视频语义识别维度的动作标签，实现了图像语义识别维度和视频语义识别维度进行动作语义识别的互补，对视频内容的理解更加精准和全面。

本申请提供的一种视频处理方法实施例如下：

参照附图3，其示出了本实施例提供的一种视频处理方法处理流程图，参见附图4，其示出了本实施例提供的一种视频处理场景示意图，图5是本实施例提供的一种足球比赛视频处理场景示意图，图6是本实施例提供的一种应用于足球比赛视频处理场景的视频处理方法的处理流程图。

步骤S302，获取待处理视频。

可见，要对视频进行更加全面和精确的内容表达，不仅需要视频内容识别的全面性和精准性，还需在视频内容识别的基础上进行深入分析，本申请提供的视频处理方法，如附图4所示，首先在图像语义识别维度对待处理视频进行动作语义识别，获得相应的动作语义识别结果，然后在图像语义识别维度进行动作语义识别获得的动作语义识别结果的基础上，进一步在视频语义识别维度进行动作语义识别，最终通过将两个维度的动作语义识别结果进行融合的方式对待处理视频进行深入的分析理解，实现了图像语义识别维度和视频语义识别维度进行动作语义识别的互补，对视频内容的理解更加深入和全面，从而实现更加全面和精准的视频内容表达。

具体实施时，首先获取待处理视频，比如获取视频网站的视频维护人员上传的需进行处理的体育视频或者影视剧视频，再比如获取视频提供用户上传的个人记录视频等。

步骤S304，对所述待处理视频进行分割处理，得到一个或多个视频片段。

具体实施时，在图像语义识别维度对视频进行语义动作识别的过程中，需要对视频进行分割处理，本步骤通过对所述待处理视频进行分割处理得到一个或多个视频片段，后续步骤在分割处理获得的所述一个或者多个视频片段的基础上提取关键帧，从而能够从所述关键帧出发进行相应的动作语义识别。

具体的，在对视频进行分割处理过程中，为了降低视频分割处理后获得的视频片段所包含内容的动作复杂度，本实施例提供的一种可选实施方式中，首先按照预设分割时长将所述待处理视频分割为一个或多个一级视频片段，然后采用分镜算法对所述一个或多个一级视频片段中包含多个镜头片段的一级视频片段进行二次分割，最后将二次分割获得的一个或者多个分镜片段中至少一者以及未被二次分割的一级视频片段中至少一者作为所述一个或多个视频片段。

本实施例针对所述视频进行的两个层次的视频分割处理，其中第一个层次按照预先设置的固定分割时长将所述视频分割为一级视频片段，此处固定分割时长的设置可以根据视频类型或者所属的业务领域来确定，比如在对纪录片类型的视频进行分割时，由于这类型视频在拍摄时的镜头切换间隔较长，每个镜头片段的持续时长较长，因此采用较大的分割时长(5s～10s)进行分割处理；再比如对篮球类视频进行分割时，由于这类型视频在拍摄时的镜头切换较为频繁，每个镜头片段的持续时长较短，因此采用较小的分割时长(1s～5s)进行分割处理；

第二层次通过分镜算法检测第一层次分割处理后获得的一级视频片段中是否包含多个分镜片段，如果包含多个分镜片段，则进一步采用分镜算法将一级视频片段切分为多个分镜片段，从而通过二次分割的方式来降低每个视频片段包含的动作复杂度。

步骤S306，提取所述一个或多个视频片段中至少一个视频片段的一个或多个关键帧。

基于上述对所述视频进行分割处理获得的所述一个或多个视频片段，从所述一个或多个视频片段中提取关键帧，作为在图像语义识别维度进行动作语义识别的识别基础，具体在提取关键帧的过程中，为了使提取的关键帧能够代表或者接近所述视频片段中动作变化最关键的一帧，本实施例提供的一种可选实施方式中，提取所述视频片段中包含的多个图像帧，并利用图像处理算法分别对所述多个图像帧进行图像处理，最终将图像处理后获得的多个图像帧融合为所述关键帧，通过这种方式融合生成的关键帧对所述视频片段中动作变化的表达更为全面。

例如，在对视频平台中的足球比赛视频进行处理场景中，首先将90分钟的足球比赛视频拆分为时长为10s的一级视频片段，然后利用分镜算法检测一级视频片段中是否包含两个或者两个以上的分镜片段，如果包含，则采用分镜算法对一级视频片段中包含的分镜片段进行二次切分割得到分镜片段，通过两个层次的视频分割，分割出分镜片段和仅包含一个分镜片段的一级视频片段，统称为待处理视频片段；

进一步，对待处理视频片段进行关键帧提取的过程中，首先提取每个待处理视频片段的头部第一个图像帧、尾部最后一个图像帧以及居中的关键帧，采用图像处理算法对这3个图像帧进行图像处理，将图像处理之后的3个图像帧融合获得的图像帧作为待处理视频片段的关键帧。

除此之外，在所述视频片段中仅包含一个分镜片段或者所述视频片段的时长较短的情况下，还可以随机提取所述视频片段中任意一个图像帧作为所述视频片段的关键帧。

步骤S308，对所述一个或多个关键帧中至少一个关键帧进行动作语义识别，得到与关键帧对应的一个或多个第一动作数据。

在上述提取到的所述视频片段中的关键帧的基础上，本步骤在图像语义识别维度对所述关键帧进行动作语义识别，获得所述关键帧的第一动作数据。在对所述关键帧进行动作语义识别过程中，为了提升对所述关键帧的动作语义识别的精准性和全面性，本实施例提供的一种可选实施方式中，首先对所述至少一个关键帧进行动作语义识别，得到与关键帧对应的一个或者多个第一动作类型，然后检测所述至少一个关键帧中的一个或者多个动作主体和/或动作对象，最后将至少一个所述第一动作类型与至少一个所述动作主体和/或所述动作对象融合为所述与关键帧对应的一个或多个第一动作数据。

实际应用中，在对所述关键帧进行动作语义识别时，对计算资源的需求较大，尤其是在视频的时长较长的情况下，对视频进行理解处理的耗时也比较长。本实施例提供的一种可选实施方式中，采用图像动作语义识别模型对所述关键帧进行动作语义识别，以此来提升在图像语义识别维度对所述关键帧进行动作语义识别的效率，具体的，所述图像动作语义识别模型的输入包括所述一个或多个关键帧，输出包括对所述一个或多个关键帧进行动作语义识别得到置信度最高的至少一个动作类型标签，以及在所述一个或多个关键帧中识别到的一个或者多个动作主体和/或动作对象。

沿用上例，针对提取到的每个待处理视频片段的关键帧，将关键帧输入图像动作语义识别模型进行动作语义识别，输出关键帧的置信度最高的3个动作类型标签，以及在关键帧识别到的动作主体(发出动作的人物)和动作对象(动作针对的物体)，输出形式为动作主体-动作对象-动作类型标签，其中输出动作类型标签包括进球动作标签、进攻动作标签和庆祝动作标签，动作主体包括进球者的检测框信息和进球者的关键点信息，动作对象包括足球的检测框信息以及进球区域的位置信息，这3部分数据共同构成第一动作数据。

此处，需要说明的是，图像动作语义识别模型在对关键帧进行动作类型识别时，识别得到的关键帧的动作类型可能有多个，且图像动作语义识别模型以往对历史关键帧各动作类型的识别准确度也有所不同，因此，图像动作语义识别模型在对关键帧进行动作语义识别时，输出的各种动作类型标签的置信度不同，而图像动作语义识别模型只输出置信度最高的3个动作类型标签。

步骤S310，根据所述一个或多个第一动作数据，对所述至少一个视频片段进行动作语义识别，获得与视频片段对应的一个或多个第二动作数据。

如上所述，在图像动作语义识别维度对视频的关键帧进行动作语义识别时，往往会维护一个较大的动作类型标签集，而在动作类型标签的广度较广的情况下，同时要精度更高的动作类型标签识别的难度较高，针对于此，本实施例中，从视频动作语义识别维度出发对视频的视频片段进行精度更高的动作语义识别，并且是有选择的针对图像动作语义识别的置信度较低的关键帧所属的视频片段，在视频动作语义识别维度进行精度更高的动作语义识别。

在对所述视频片段进行动作语义识别过程中，为了提升对所述视频片段的动作语义识别的精准性和全面性，本实施例提供的一种可选实施方式中，采用如下方式对所述至少一个视频片段进行动作语义识别：

1)按照预设帧频从所述至少一个视频片段中分别抽取一个或者多个图像帧；

2)基于抽取的一个或者多个图像帧组成与视频片段对应的至少一个帧序列；

3)基于所述与关键帧对应的一个或多个第一动作数据，确定所述视频片段的关键帧对应的一个或多个第一动作数据中包含的至少一个第一动作类型；

4)判断所述至少一个第一动作类型的置信度是否小于预设置信度阈值；

若是，表明在图像语义识别维度进行动作语义识别的识别结果的可信度较低，需在视频语义识别维度进行进一步的动作语义识别，参见下述步骤5)至步骤8)；

若否，表明在图像语义识别维度进行动作语义识别的识别结果的可信度较高，则在视频语义识别维度对图像语义识别维度的识别结果进行进一步完善，参见下述步骤9)和步骤11)；

5)对所述关键帧所属的视频片段对应的至少一个帧序列进行动作语义识别，得到与帧序列对应的一个或者多个第二动作类型；

6)根据所述一个或多个第一动作数据中包含的至少一个动作主体，检测所述一个或者多个帧序列中所述至少一个动作主体的动作轨迹；

7)基于所述至少一个动作主体的动作轨迹以及所述与帧序列对应的一个或者多个第二动作类型，确定至少一个所述第二动作类型与至少一个所述动作主体的对应关系；

8)根据至少一个所述第二动作类型、至少一个所述动作主体以及二者对应关系确定所述一个或多个第二动作数据；

9)根据所述一个或多个第一动作数据中包含的至少一个动作主体，检测所述关键帧所属的视频片段对应的至少一个帧序列中所述至少一个动作主体的动作轨迹；

10)基于所述至少一个动作主体的动作轨迹以及所述一个或多个第一动作数据中包含的至少一个第一动作类型，确定至少一个所述第一动作类型与至少一个所述动作主体的对应关系；

11)根据至少一个所述第一动作类型、至少一个所述动作主体以及二者对应关系确定所述一个或多个第二动作数据。

仍以上述对视频平台中的足球比赛视频进行处理场景为例，针对每个待处理视频片段进行图像帧抽取，并按照每秒抽取20帧这一抽样率在待处理视频片段中抽取图像帧组成帧序列，根据从待处理视频片段中提取的关键帧在图像语义识别维度进行动作语义识别之后获得的3个动作类型标签(进球动作标签、进攻动作标签和庆祝动作标签)的置信度，判断这3个动作类型标签的置信度是否小于置信度阈值80％，如果均小于置信度阈值80％，则表明在图像语义识别维度进行的动作语义识别的可信度较低，需在视频语义识别维度进行更加准确的动作语义识别，具体过程如下：

首先，对动作类型标签的置信度小于置信度阈值80％的关键帧所属的待处理视频片段的帧序列进行动作语义识别得到第二动作类型，第二动作类型为进球动作类型；

然后，根据第一动作数据中包含的进球者的检测框信息和进球者的关键点信息，检测帧序列中进球者的动作轨迹、进球动作类型，确定执行该进球动作的动作主体为进球者A，即二者具有执行对应关系，据此确定待处理视频片段的动作类型为进球动作类型，执行该进球动作对应的动作主体为进球者A。

需要说明的是，在视频语义识别维度对视频片段进行动作语义识别的识别粒度小于在图像语义识别维度对视频片段进行动作语义识别的识别粒度，其目的在于，首先在图像语义识别维度对所述视频片段中提取的关键帧进行动作语义识别，如果识别结果满足预期，则将图像语义识别维度对视频片段进行动作语义识别获得的识别结果中包含的第一动作类型作为关键帧所属的视频片段的动作类型，以此来提升识别效率；

另一方面，如果在图像语义识别维度对所述视频片段中提取的关键帧进行动作语义识别的识别结果不满足预期，则进一步从视频语义识别维度出发对关键帧所属的视频片段进行识别粒度更小的动作语义识别，从而来保证动作语义识别的准确度。

此外，在具体实施时，所述视频片段中提取出的关键帧还可能存在其中并不包含动作主体或者动作对象的情况，本实施例中，如果所述关键帧中不包含动作主体或者动作对象，则将这一类关键帧的动作类型设为背景类型，并且，通过在视频语义识别维度对这一类关键帧所属的视频片段进行动作语义识别，来避免这一类关键帧中动作类型识别无效对其所属的视频片段的影响，以此实现对所述视频片段的动作语义识别的精准性和全面性，具体采用如下可选实施方式实现：

若为空，检测所述关键帧中的至少一个动作主体和/或动作对象，并检测所述至少一个动作主体和/或所述动作对象的动作轨迹；

根据至少一个所述第二动作类型、至少一个所述动作主体以及二者对应关系确定所述一个或多个第二动作数据；

若不为空，根据所述关键帧的第一动作数据中包含的动作主体，检测所述关键帧所属的视频片段的帧序列中所述动作主体的动作轨迹；

基于所述动作轨迹以及所述第二动作类型，确定所述第二动作类型与所述动作主体的对应关系，并根据所述第二动作类型、所述动作主体以及二者对应关系确定所述第二动作数据；

若否，根据所述一个或者多个第一动作数据中包含的至少一个动作主体，检测所述关键帧所属的视频片段的帧序列中所述动作主体的动作轨迹；

基于所述动作主体的动作轨迹以及所述第一动作数据中包含的第一动作类型，确定所述第一动作类型与所述动作主体的对应关系，并根据所述第一动作类型、所述动作主体以及二者对应关系确定所述第二动作数据。

实际应用中，在对所述视频片段进行动作语义识别时，对计算资源的需求较大，尤其是在视频的时长较长的情况下，对视频进行理解处理的耗时也比较长。本实施例提供的一种可选实施方式中，采用视频动作语义识别模型对所述视频片段进行动作语义识别，以此来提升在视频语义识别维度对所述视频片段进行动作语义识别的效率，具体的，所述视频动作语义识别模型的输入包括所述至少一个视频片段、所述视频片段对应的一个或多个关键帧输入所述图像动作语义识别模型之后的输出，输出包括至少一个第二动作类型标签以及对应的一个或者多个动作主体和/或动作对象。

众所周知，实际应用中的每种视频都有其所属的视频类型，比如足球比赛视频所属的视频类型为体育赛事类型，网络播放剧视频和纪录片视频所属的视频类型为影视剧类型，新闻视频所属的视频类型为新闻时政类型，而视频类型与视频内容具有相互对应关系并存在相互限制，比如体育赛事类型的视频中出现烹饪动作的可能性较小，网络播放剧视频中出现两只足球队伍长时间比赛的可能性也很小，新闻视频中出现抽烟动作的可能性同样也比较小，本实施例提供的一种可选实施方式从这一角度出发，在识别视频的视频类型的基础上，通过检测所述第二动作数据与所述视频类型是否匹配的方式对所述第二动作数据进行进一步验证，进一步来提升对视频进行的动作语义识别的准确性，具体实现如下：

若是，表明对视频进行动作语义识别的识别结果与所述视频类型不冲突，执行下述步骤S312即可；

若否，则表明视频进行动作语义识别的结果与所述视频类型相冲突，生成携带有所述视频类型以及所述第一动作类型和/或所述第二动作数据的提醒信息。

步骤S312，根据至少一个所述第一动作数据和至少一个所述第二动作数据，生成所述待处理视频的目标数据。

本实施例以时序为主线，将针对所述视频中关键帧进行动作语义识别得到的所述第一动作数据与针对所述视频中视频片段进行动作语义识别得到的所述第二动作数据进行融合，从而对所述视频实现更加有效的内容表达，本实施例提供的一种可选实施方式中，采用如下方式对所述第一动作数据和所述第二动作数据进行融合：

本实施例所述目标数据，适于按照时序表征动作参与方在至少一个时间节点的动作变化，具体在本实施例中，所述目标数据是指用于表达视频在各个关键时间节点的动作变化以及与之对应的动作主体和/或动作对象的数据集，并且是按照时序聚集为数据集。在视频展示或者播放过程中，所述目标数据也会随之进行展示，相比视频标签的展示方式，所述目标数据能够围绕视频的时间线展示其中关键的动作变化以及相应的动作主体和动作对象，实现了更加有效和全面的视频内容表达，用户不管是在查找还是浏览视频的过程中，都能够通过所述目标数据快速获知视频的关键信息从而做出是否浏览播放的决策。

仍以上述对视频平台中的足球比赛视频进行处理场景为例，该足球比赛视频在视频平台中的播放页面如附图5的页面下部区域所示，其中播放页面上部为视频播放区域530，下部为该足球比赛视频的目标数据展示；

具体的，该足球比赛视频中第27分钟(第一时间节点，00:27:00)发生进球，该第一时间节点对应的进球场景如510所示，其中，球员A(511)以点球的方式进球，进球时的守门员为512，进球时所使用的足球为513，则在足球比赛视频的目标数据中，第一时间节点(00:27:00)对应的动作类型为进球动作类型，进球动作对应的动作主体包括球员A(511)和守门员512，进球动作对应的动作对象为足球513；

该足球比赛视频中第62分钟(第二时间节点，01:02:00)球员B(521)取得进球，并且在进球后发出进球庆祝动作，该第二时间节点对应的进球庆祝场景如520所示，动作主体为球员B(521)。

下述结合附图6，以本实施例提供的视频处理方法在足球比赛视频处理场景中的应用为例，对本实施例提供的视频处理方法进行进一步说明。参照附图6，应用于足球比赛视频处理场景的视频处理方法具体包括步骤S602至步骤S618。

步骤S602，按照预设分割时长将足球比赛视频分割为一级视频片段。

其中，预设分割时长为10s，则将90分钟的足球比赛视频拆分为时长为10s的一级视频片段。

步骤S604，采用分镜算法对包含多个镜头片段的一级视频片段进行二次分割获得分镜片段，将分镜片段和未被二次分割的一级视频片段作为视频片段。

具体的，利用分镜算法检测一级视频片段中是否包含两个或者两个以上的分镜片段，如果包含，则采用分镜算法对一级视频片段中包含的分镜片段进行二次切分割得到分镜片段，通过两个层次的视频分割，分割出分镜片段和仅包含一个分镜片段的一级视频片段，统称为待处理视频片段。

步骤S606，提取视频片段中包含的3个图像帧进行图像融合，融合之后生成视频片段的关键帧。

对待处理视频片段进行关键帧提取的过程中，提取每个待处理视频片段的头部第一个图像帧、尾部最后一个图像帧以及居中的关键帧，将这三个图像帧融合后获得的图像帧作为待处理视频片段的关键帧。

步骤S608，将关键帧输入图像动作语义识别模型进行动作语义识别得到第一动作数据。

针对提取到的每个待处理视频片段的关键帧，将关键帧输入图像动作语义识别模型进行动作语义识别，输出关键帧的置信度最高的3个动作类型标签，以及在关键帧识别到的动作主体(发出动作的人物)和动作对象(动作针对的物体)，输出形式为动作主体-动作对象-动作类型标签，其中输出动作类型标签包括进球动作标签、进攻动作标签和庆祝动作标签，动作主体包括进球者的检测框信息和进球者的关键点信息，动作对象包括足球的检测框信息以及进球区域的位置信息，这3部分数据共同构成第一动作数据。

步骤S610，将第一动作数据和待处理视频片段输入视频动作语义识别模型进行动作语义识别，获得第二动作数据。

具体在对待处理视频片段进行动作语义识别过程中，针对每个待处理视频片段进行图像帧抽取，并按照每秒抽取20帧这一抽样率在待处理视频片段中抽取图像帧组成帧序列，根据从待处理视频片段中提取的关键帧在图像语义识别维度进行动作语义识别之后获得的3个动作类型标签(进球动作标签、进攻动作标签和庆祝动作标签)的置信度，判断这3个动作类型标签的置信度是否小于置信度阈值80％，如果均小于置信度阈值80％，则表明在图像语义识别维度进行的动作语义识别的可信度较低，需在视频语义识别维度进行更加准确的动作语义识别，具体过程如下：

然后，根据第一动作数据中包含的进球者的检测框信息和进球者的关键点信息，检测帧序列中进球者的动作轨迹、进球动作类型，确定执行该进球动作的动作主体为进球者A，即二者具有执行对应关系，据此确定待处理视频片段的动作类型为进球动作类型，执行该进球动作对应的动作主体为进球者A，可见，视频动作语义识别模型输出的待处理视频片段的第二动作数据包括3部分：第二动作类型、动作主体以及二者是否具有对应关系。

步骤S612，采用图像语义识别算法对足球比赛视频中包含的图像帧进行图像语义识别。

步骤S614，根据图像语义识别获得的静态信息确定足球比赛视频的视频类型。

步骤S616，判断视频类型与第二动作数据中包含的第二动作类型是否匹配；

若是，表明对视频进行动作语义识别的识别结果与视频类型不冲突，执行下述步骤S618；

若否，则表明视频进行动作语义识别的结果与视频类型相冲突，生成携带有视频类型、第一动作类型和所述第二动作数据的提醒信息。

步骤S618，按照时序将第一动作数据和第二动作数据融合为足球比赛视频的目标数据。

足球比赛视频在视频平台中的播放页面如附图5的页面下部区域所示，其中播放页面上部为视频播放区域530，下部为该足球比赛视频的目标数据展示；

综上所述，所述视频处理方法，将待处理视频分割处理为进行视频动作语义识别的视频片段，并从视频片段中提取进行图像动作语义识别的关键帧，在对待处理视频的关键帧进行图像动作语义识别得到的第一动作数据的基础上，进一步对待处理视频的视频片段进行视频动作语义识别得到第二动作数据，最终通过对图像动作语义识别和视频动作语义识别的识别结果进行融合的方式，对待处理视频进行更加深入和更加全面的分析理解，从而实现了更加全面和精准的视频内容表达。

本说明书提供的一种数据处理装置实施例如下：

在上述的实施例中，提供了一种数据处理方法，与之相对应的，还提供了一种数据处理装置，下面结合附图进行说明。

参照附图7，其示出了本实施例提供的一种数据处理装置的示意图。

由于装置实施例对应于方法实施例，所以描述得比较简单，相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。

本说明书提供一种数据处理装置，包括：

待处理视频获取模块702，被配置为获取待处理视频；

获取视频片段模块704，被配置为获取所述待处理视频中，时序排列的第一视频片段和第二视频片段；

关键帧获取模块706，被配置为获取第一视频片段的至少一个关键帧；

图像动作语义识别模块708，被配置为对所述关键帧，进行图像动作语义识别，得到至少一个第一动作标签；

视频动作语义识别模块710，被配置为基于所述第一动作标签，对所述第二视频片段，进行视频动作语义识别，得到至少一个第二动作标签。

可选的，所述数据处理装置，还包括：

结构化动作数据获取模块，被配置为基于所述第一动作标签和第二动作标签，获取所述待处理视频的结构化动作数据，其中，所述结构化动作数据适于按照时序表征动作变化。

可选的，所述数据处理装置，还包括：

第一动作标签展示模块，被配置为展示所述至少一个第一动作标签；

选择指令接收模块，被配置为接收针对所述至少一个第一动作标签中至少一者的选择指令；

第一动作标签确定模块，被配置为确定所述选择指令对应的第一动作标签；

相应的，所述视频动作语义识别模块710，具体被配置为基于所述选择指令对应的第一动作标签，对所述第二视频片段，进行视频动作语义识别，得到至少一个第二动作标签。

本说明书提供的一种视频处理装置实施例如下：

在上述的实施例中，提供了一种视频处理方法，与之相对应的，还提供了一种视频处理装置，下面结合附图进行说明。

参照附图8，其示出了本实施例提供的一种视频处理装置的示意图。

本说明书提供一种视频处理装置，包括：

待处理视频获取模块802，被配置为获取待处理视频；

视频分割处理模块804，被配置为对所述待处理视频进行分割处理，得到一个或多个视频片段；

关键帧提取模块806，被配置为提取所述一个或多个视频片段中至少一个视频片段的一个或多个关键帧；

第一语义识别模块808，被配置为对所述一个或多个关键帧中至少一个关键帧进行动作语义识别，得到与关键帧对应的一个或多个第一动作数据；

第二语义识别模块810，被配置为根据所述一个或多个第一动作数据，对所述至少一个视频片段进行动作语义识别，获得与视频片段对应的一个或多个第二动作数据；

目标数据生成模块812，被配置为根据至少一个所述第一动作数据和至少一个所述第二动作数据，生成所述待处理视频的目标数据，其中，所述目标数据适于按照时序表征动作变化。

可选的，所述视频分割处理模块804，包括：

第一分割子模块，被配置为按照预设分割时长将所述待处理视频分割为一个或多个一级视频片段；

第二分割子模块，被配置为采用分镜算法对所述一个或多个一级视频片段中包含多个镜头片段的一级视频片段进行二次分割，将二次分割获得的一个或者多个分镜片段中至少一者以及未被二次分割的一级视频片段中至少一者作为所述一个或多个视频片段。

可选的，所述关键帧通过运行如下子模块提取：

图像帧提取子模块，被配置为提取所述视频片段中包含的多个图像帧；

图像处理子模块，被配置为利用图像处理算法分别对所述多个图像帧进行图像处理；

关键帧融合子模块，被配置为将图像处理后获得的多个图像帧融合为所述关键帧。

可选的，所述第一语义识别模块808，包括：

第一动作语义识别子模块，被配置为对所述至少一个关键帧进行动作语义识别，得到与关键帧对应的一个或者多个第一动作类型；

第一检测子模块，被配置为检测所述至少一个关键帧中的一个或者多个动作主体和/或动作对象；

第一融合子模块，被配置为将至少一个所述第一动作类型与至少一个所述动作主体和/或所述动作对象融合为所述与关键帧对应的一个或多个第一动作数据。

可选的，所述第二语义识别模块810，包括：

第一图像帧抽取子模块，被配置为按照预设帧频从所述至少一个视频片段中分别抽取一个或者多个图像帧；

第一帧序列抽取子模块，被配置为基于抽取的一个或者多个图像帧组成与视频片段对应的至少一个帧序列；

第一动作类型确定子模块，被配置为基于所述与关键帧对应的一个或多个第一动作数据，确定所述视频片段的关键帧对应的一个或多个第一动作数据中包含的至少一个第一动作类型；

第一置信度判断子模块，被配置为判断所述至少一个第一动作类型的置信度是否小于预设置信度阈值；

若是，运行第二动作语义识别子模块、第二检测子模块、对应关系确定子模块以及第二动作数据确定子模块；

所述第二动作语义识别子模块，被配置为对所述关键帧所属的视频片段对应的至少一个帧序列进行动作语义识别，得到与帧序列对应的一个或者多个第二动作类型；

所述第二检测子模块，被配置为根据所述一个或多个第一动作数据中包含的至少一个动作主体，检测所述一个或者多个帧序列中所述至少一个动作主体的动作轨迹；

对应关系确定子模块，被配置为基于所述至少一个动作主体的动作轨迹以及所述与帧序列对应的一个或者多个第二动作类型，确定至少一个所述第二动作类型与至少一个所述动作主体的对应关系；

第二动作数据确定子模块，被配置为根据至少一个所述第二动作类型、至少一个所述动作主体以及二者对应关系确定所述一个或多个第二动作数据。

可选的，若所述第一置信度判断子模块运行后输出的判断结果为否，运行动作轨迹检测子模块、第二对应关系确定子模块和第二确定子模块；

所述动作轨迹检测子模块，被配置为根据所述一个或多个第一动作数据中包含的至少一个动作主体，检测所述关键帧所属的视频片段对应的至少一个帧序列中所述至少一个动作主体的动作轨迹；

所述第二对应关系确定子模块，被配置为基于所述至少一个动作主体的动作轨迹以及所述一个或多个第一动作数据中包含的至少一个第一动作类型，确定至少一个所述第一动作类型与至少一个所述动作主体的对应关系；

所述第二确定子模块，被配置为根据至少一个所述第一动作类型、至少一个所述动作主体以及二者对应关系确定所述一个或多个第二动作数据。

可选的，所述第二语义识别模块810，包括：

动作类型判断子模块，被配置为判断所述一个或多个第一动作数据中包含的至少一个第一动作类型是否为预设动作类型；

若是，运行第二帧序列抽取子模块、第三动作语义识别子模块以及动作数据判断子模块；

所述第二帧序列抽取子模块，被配置为针对所述一个或多个第一动作数据对应的关键帧所属的视频片段，按照预设帧频从所述视频片段中抽取一个或者多个图像帧组成至少一个帧序列；

所述第三动作语义识别子模块，被配置为对所述至少一个帧序列进行动作语义识别，得到与帧序列对应的一个或者多个第二动作类型；

所述动作数据判断子模块，被配置为判断所述一个或者多个第一动作数据中包含的至少一个动作主体和/或动作对象是否为空；

若是，运行第二动作轨迹检测子模块、第三对应关系确定子模块和第三确定子模块；

所述第二动作轨迹检测子模块，被配置为检测所述关键帧中的至少一个动作主体和/或动作对象，并检测所述至少一个动作主体和/或所述动作对象的动作轨迹；

所述第三对应关系确定子模块，被配置为基于所述动作轨迹以及至少一个所述第二动作类型，确定至少一个所述第二动作类型与至少一个所述动作主体的对应关系；

所述第三确定子模块，被配置为根据至少一个所述第二动作类型、至少一个所述动作主体以及二者对应关系确定所述一个或多个第二动作数据。

可选的，所述目标数据生成模块812，包括：

动作信息确定子模块，被配置为根据所述第一动作数据中包含的第一动作类型在所述关键帧对应的第一时间信息以及所述第二动作数据中包含的第二动作类型在所述视频片段对应的第二时间信息，确定所述视频片段的动作类型及其对应的动作执行时间；

动作关系确定子模块，被配置为根据所述视频片段的动作主体和/或动作对象，确定所述动作主体之间的主体关系和/或所述动作对象之间的对象关系；

目标数据生成子模块，被配置为基于所述动作类型、所述动作执行时间以及所述主体关系和/或所述对象关系，生成所述目标数据。

可选的，所述视频处理装置，还包括：

图像语义识别模块，被配置为采用图像语义识别算法对所述待处理视频中包含的图像帧进行图像语义识别；

视频类型确定模块，被配置为根据图像语义识别获得的静态信息确定所述待处理视频的视频类型；

视频类型判断模块，被配置为判断所述视频类型与所述第一动作数据中包含的第一动作类型和/或所述第二动作数据中包含的第二动作类型是否匹配；

若是，运行所述目标数据生成模块812；

若否，运行提醒信息生成模块；所述提醒信息生成模块，被配置为生成携带有所述视频类型以及所述第一动作类型和/或所述第二动作数据的提醒信息。

可选的，所述第一语义识别模块808基于图像动作语义识别模型实现；其中，所述图像动作语义识别模型的输入包括所述一个或多个关键帧，输出包括对所述一个或多个关键帧进行动作语义识别得到置信度最高的至少一个动作类型标签，以及在所述一个或多个关键帧中识别到的一个或者多个动作主体和/或动作对象。

可选的，所述第二语义识别模块810基于视频动作语义识别模型实现；其中，所述视频动作语义识别模型的输入包括所述至少一个视频片段、所述视频片段对应的一个或多个关键帧输入所述图像动作语义识别模型之后的输出，输出包括至少一个第二动作类型标签以及对应的一个或者多个动作主体和/或动作对象。

本说明书提供的一种计算设备实施例如下：

图9是示出了根据本说明书一个实施例提供的计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接，数据库950用于保存数据。

计算设备900还包括接入设备940，接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图9所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备900可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备900还可以是移动式或静止式的服务器。

本说明书提供一种计算设备，包括存储器910、处理器920及存储在存储器上并可在处理器上运行的计算机指令，所述处理器920用于执行如下计算机可执行指令：

获取待处理视频；

获取第一视频片段的至少一个关键帧；

本说明书提供的另一种计算设备实施例如下：

图10是示出了根据本说明书一个实施例提供的计算设备1000的结构框图。该计算设备1000的部件包括但不限于存储器1010和处理器1020。处理器1020与存储器1010通过总线1030相连接，数据库1050用于保存数据。

计算设备1000还包括接入设备1040，接入设备1040使得计算设备1000能够经由一个或多个网络1060通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1040可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备1000的上述部件以及图10中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图10所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1000可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1000还可以是移动式或静止式的服务器。

本说明书提供另一种计算设备，包括存储器1010、处理器1020及存储在存储器上并可在处理器上运行的计算机指令，所述处理器1020用于执行如下计算机可执行指令：

获取待处理视频；

本说明书提供的一种计算机可读存储介质实施例如下：

本说明书一个实施例提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述数据处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

本说明书提供的另一种计算机可读存储介质实施例如下：

本说明书一个实施例提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述视频处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的视频处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种视频处理方法，包括：

获取待处理视频；

对所述一个或多个关键帧中至少一个关键帧进行动作语义识别，得到与关键帧对应的一个或多个第一动作数据，其中，所述对所述一个或多个关键帧中至少一个关键帧进行动作语义识别，得到与关键帧对应的一个或多个第一动作数据，包括：对所述至少一个关键帧进行动作语义识别，得到与关键帧对应的一个或者多个第一动作类型，检测所述至少一个关键帧中的一个或者多个动作主体和/或动作对象，将至少一个所述第一动作类型与至少一个所述动作主体和/或所述动作对象融合为所述与关键帧对应的一个或多个第一动作数据；

根据所述一个或多个第一动作数据，对所述至少一个视频片段进行动作语义识别，获得与视频片段对应的一个或多个第二动作数据，其中，所述根据所述一个或多个第一动作数据，对所述至少一个视频片段进行动作语义识别，获得与视频片段对应的一个或多个第二动作数据，包括：按照预设帧频从所述至少一个视频片段中分别抽取一个或者多个图像帧，

基于抽取的一个或者多个图像帧组成与视频片段对应的至少一个帧序列，

基于所述与关键帧对应的一个或多个第一动作数据，确定所述视频片段的关键帧对应的一个或多个第一动作数据中包含的至少一个第一动作类型，

判断所述至少一个第一动作类型的置信度是否小于预设置信度阈值，

若是，对所述关键帧所属的视频片段对应的至少一个帧序列进行动作语义识别，得到与帧序列对应的一个或者多个第二动作类型，

根据所述一个或多个第一动作数据中包含的至少一个动作主体，检测所述一个或者多个帧序列中所述至少一个动作主体的动作轨迹，

基于所述至少一个动作主体的动作轨迹以及所述与帧序列对应的一个或者多个第二动作类型，确定至少一个所述第二动作类型与至少一个所述动作主体的对应关系，

2.根据权利要求1所述的视频处理方法，所述对所述待处理视频进行分割处理，得到一个或多个视频片段，包括：

3.根据权利要求2所述的视频处理方法，所述关键帧采用如下方式提取：

提取所述视频片段中包含的多个图像帧；

利用图像处理算法分别对所述多个图像帧进行图像处理；

将图像处理后获得的多个图像帧融合为所述关键帧；

或者，

随机提取所述视频片段中任意一个图像帧作为所述关键帧。

4.根据权利要求1所述的视频处理方法，若所述判断所述至少一个第一动作类型的置信度是否小于预设置信度阈值子步骤的执行结果为否，执行如下操作：

5.根据权利要求1所述的视频处理方法，所述根据所述一个或多个第一动作数据，对所述至少一个视频片段进行动作语义识别，获得与视频片段对应的一个或多个第二动作数据，包括：

6.根据权利要求1至5任意一项所述的视频处理方法，根据至少一个所述第一动作数据和至少一个所述第二动作数据，生成所述待处理视频的目标数据，包括：

7.根据权利要求1所述的视频处理方法，所述根据所述一个或多个第一动作数据，对所述至少一个视频片段进行动作语义识别，获得与视频片段对应的一个或多个第二动作数据步骤执行之后，且所述根据至少一个所述第一动作数据和至少一个所述第二动作数据，生成所述待处理视频的目标数据步骤执行之前，包括：

8.根据权利要求1所述的视频处理方法，所述对所述一个或多个关键帧中至少一个关键帧进行动作语义识别，得到与关键帧对应的一个或多个第一动作数据步骤，基于图像动作语义识别模型实现；

9.根据权利要求8所述的视频处理方法，所述根据所述一个或多个第一动作数据，对所述至少一个视频片段进行动作语义识别，获得与视频片段对应的一个或多个第二动作数据步骤，基于视频动作语义识别模型实现；其中，所述视频动作语义识别模型的输入包括所述至少一个视频片段、所述视频片段对应的一个或多个关键帧输入所述图像动作语义识别模型之后的输出，输出包括至少一个第二动作类型标签以及对应的一个或者多个动作主体和/或动作对象。

10.根据权利要求1所述的视频处理方法，所述目标数据按照时序表征的动作变化，包括：动作参与方在至少一个时间节点的动作变化。

11.一种视频处理装置，包括：

待处理视频获取模块，被配置为获取待处理视频；

第一语义识别模块，被配置为对所述一个或多个关键帧中至少一个关键帧进行动作语义识别，得到与关键帧对应的一个或多个第一动作数据，其中，所述对所述一个或多个关键帧中至少一个关键帧进行动作语义识别，得到与关键帧对应的一个或多个第一动作数据，包括：对所述至少一个关键帧进行动作语义识别，得到与关键帧对应的一个或者多个第一动作类型，检测所述至少一个关键帧中的一个或者多个动作主体和/或动作对象，将至少一个所述第一动作类型与至少一个所述动作主体和/或所述动作对象融合为所述与关键帧对应的一个或多个第一动作数据；

第二语义识别模块，被配置为根据所述一个或多个第一动作数据，对所述至少一个视频片段进行动作语义识别，获得与视频片段对应的一个或多个第二动作数据，其中，所述根据所述一个或多个第一动作数据，对所述至少一个视频片段进行动作语义识别，获得与视频片段对应的一个或多个第二动作数据，包括：按照预设帧频从所述至少一个视频片段中分别抽取一个或者多个图像帧，

12.一种计算设备，包括：

存储器和处理器；

获取待处理视频；

13.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至10任意一项所述视频处理方法的步骤。