CN113920585A

CN113920585A - 行为识别方法及装置、设备和存储介质

Info

Publication number: CN113920585A
Application number: CN202111234621.2A
Authority: CN
Inventors: 苏海昇
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2022-01-11

Abstract

本申请实施例公开了一种行为识别方法，包括：获取所述待识别视频序列中每一帧图像中每一对象的检测框；基于所述每一帧图像中所述检测框的分布情况，确定所述待识别视频序列的第一识别结果；在所述第一识别结果满足第一条件的情况下，对群体对象的轨迹序列进行行为识别，得到第四识别结果；其中，所述群体对象的轨迹序列是基于所述待识别视频序列生成的；所述群体对象包括空间距离小于距离阈值的至少两个目标对象；至少基于所述第一识别结果或所述第四识别结果，确定所述待识别视频序列的目标识别结果。本申请实施例还同时提供了一种行为的识别装置、设备及存储介质。

Description

行为识别方法及装置、设备和存储介质

技术领域

本申请涉及计算机视觉领域，涉及但不限定于行为识别方法及装置、设备和存储介质。

背景技术

视频源中的行为识别是计算机视觉领域的一个重要应用，识别视频源中的异常事件是极其困难的。可能的挑战包括由于小概率事件导致标注数据的稀缺、类间/类内方差大、异常事件的主观定义差别、视频采集设备的低分辨率等。

在实际中存在的问题主要包括：事件的动作执行主体的数目不定(根据事件的动作执行主体的数目通常可以分为单个对象行为和群体对象行为)；不同类型的行为事件识别需要不同的空间感受野(在识别场景下可能存在不同位置和视野的行为主体，而真正需要检测的行为事件发生位置通常只占据画面的一小块区域)；未发生预设行为的行为主体和发生预设行为的行为主体之间可能存在空间位置上的重叠等，以上问题均会对行为识别结果造成干扰。

发明内容

本申请实施例提供一种行为识别方法及装置、设备和存储介质。

本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供一种行为识别方法，所述方法包括：

获取所述待识别视频序列中每一帧图像中每一对象的检测框；

基于所述每一帧图像中所述检测框的分布情况，确定所述待识别视频序列的第一识别结果；

在所述第一识别结果满足第一条件的情况下，对群体对象的轨迹序列进行行为识别，得到第四识别结果；其中，所述群体对象的轨迹序列是基于所述待识别视频序列生成的；所述群体对象包括空间距离小于距离阈值的至少两个目标对象；

至少基于所述第一识别结果或所述第四识别结果，确定所述待识别视频序列的目标识别结果。

在一些可能的实施方式中，所述至少基于所述第一识别结果或所述第四识别结果，确定所述待识别视频序列的目标识别结果，包括：在所述第一识别结果表征所述待识别视频序列中未发生异常行为的情况下，基于所述第一识别结果，确定所述待识别视频序列的目标识别结果；或者，在所述第一识别结果表征所述待识别视频序列中发生异常行为的情况下，基于所述第四识别结果，确定所述待识别视频序列的目标识别结果。

这样，通过逻辑预判出待视频视频序列的第一识别结果表征待识别视频序列未发生异常行为时，直接以第一识别结果作为最终的目标识别结果，可以直接确定出明显不存在异常行为的待识别视频序列；同时对于逻辑判断的待识别视频序列中可能存在异常行为的情况，进一步结合神经网络进行识别，以第四识别结果作为目标识别结果，提升行为识别的鲁棒性。

在一些可能的实施方式中，所述基于所述每一帧图像中所述检测框的分布情况，确定所述待识别视频序列的第一识别结果，包括：基于所述每一帧图像中所述检测框的分布情况，确定所述每一帧图像中的密集区域；所述密集区域中包括与所述每一帧图像中其他检测框重叠次数大于等于第一次数阈值的中心检测框；基于所述每一帧图像中的密集区域所包括的对象数目，确定所述待识别视频序列的第一识别结果。

这样，通过启发式检测框密度分布和密集群体位置估计的方法指导局部密集区域的推理，可以增大模型的有效感知区域，减少了对无关背景的检索范围。同时结合逻辑预判提升纯神经网络识别鲁棒性和准确性不足的问题

在一些可能的实施方式中，在所述第一识别结果表征所述待识别视频序列中发生异常行为的情况下，对群体对象的轨迹序列进行行为识别，得到所述第四识别结果，包括：在所述第一识别结果表征所述待识别视频序列中发生异常行为的情况下，确定所述待识别视频序列中相邻帧之间所述密集区域的面积变化值；基于所述密集区域的面积变化值和变化阈值，确定所述待识别视频序列的第二识别结果；在所述第二识别结果表征所述待识别视频序列未发生异常行为的情况下，对群体对象的轨迹序列进行行为识别，得到所述第四识别结果。

这样，针对第一识别结果表征待识别视频序列中发生异常行为的情况，进一步基于相邻帧之间密集区域的面积变化值确定第二识别结果，从而结合两阶段启发式的逻辑方法提升神经网络识别方案的鲁棒性和准确性。

在一些可能的实施方式中，在所述第二识别结果表征所述待识别视频序列未发生异常行为的情况下，对群体对象的轨迹序列进行行为识别，得到所述第四识别结果，包括：在所述第二识别结果表征所述待识别视频序列未发生异常行为的情况下，对基于所述待识别视频序列中所述每一帧图像中的密集区域的覆盖范围，确定所述待识别视频序列中每一帧图像中的包围框区域；所述每一帧图像中的包围框区域所在的位置一致、尺寸相同且包围所述密集区域；基于所述待识别视频序列中相邻帧之间的所述包围框区域的像素变化情况，确定所述待识别视频序列的第三识别结果；在所述第三识别结果表征所述待识别视频序列未发生异常行为的情况下，对群体对象的轨迹序列进行行为识别，得到所述第四识别结果。

这样，同时通过密集区域的面积变化和取并集后的包围框区域的像素变化对待识别视频序列进行启发式逻辑判断后，再借助行为识别模型进行行为识别，可以提升神经网络识别方案的鲁棒性和准确性。

在一些可能的实施方式中，所述方法还包括：在所述第二识别结果表征所述待识别视频序列发生异常行为的情况下，确定所述待识别视频序列发生异常行为；或者，在所述第三识别结果表征所述待识别视频序列发生异常行为的情况下，确定所述待识别视频序列发生异常行为。

这样，在逻辑规则判断的第二识别结果或第三识别结果表征待识别视频序列发生异常行为的情况下，直接将第二识别结果或第三识别结果作为待识别视频序列的目标识别结果，从而对于明显发生异常行为的待识别视频序列，缩短识别流程，提升行为识别的效率。

在一些可能的实施方式中，所述基于所述待识别视频序列中相邻帧之间的所述包围框区域的像素变化情况，确定所述待识别视频序列的第三识别结果，包括：在所述待识别视频序列中相邻帧之间所述包围框区域的像素差值大于等于像素阈值的情况下，确定所述待识别视频序列的第三识别结果为发生异常行为；在所述待识别视频序列中相邻帧之间所述包围框区域的像素差值小于所述像素阈值的情况下，确定所述待识别视频序列的第三识别结果为未发生异常行为。

这样，通过对比待识别视频序列中相邻帧之间包围框区域的像素变化程度，判定待识别视频序列是否发生异常行为，得到第三识别结果。从而实现了通过逻辑规则快速确定出明显发生异常行为的待识别视频序列，缩短了识别流程，增强了识别方法的准确性。

在一些可能的实施方式中，所述基于所述密集区域的面积变化值和变化阈值，确定所述待识别视频序列的第二识别结果，包括：在所述相邻帧之间所述密集区域的面积变化值均大于等于所述变化阈值的情况下，确定所述待识别视频序列的第二识别结果为发生异常行为；在所述相邻帧之间所述密集区域的面积变化值小于所述变化阈值的情况下，确定所述待识别视频序列的第二识别结果为未发生异常行为。

这样，通过对比待识别视频序列中相邻帧之间密集区域的面积变化程度，判定待识别视频序列是否发生异常行为，得到第二识别结果。从而实现了针对运动剧烈情况快速确定出明显发生异常行为的待识别视频序列，缩短了识别流程，增强了识别方法的准确性。

在一些可能的实施方式中，所述基于所述每一帧图像中所述密集区域所包括的对象数目，确定所述待识别视频序列的第一识别结果，包括：在所述每一帧图像中所述密集区域包括的对象数目大于等于2的情况下，确定所述待识别视频序列的第一识别结果为发生异常行为；在所述每一帧图像中所述密集区域包括的对象数目小于2的情况下，确定所述待识别视频序列的第一识别结果未发生异常行为。

这样，通过确定待识别视频序列中每一帧图像中密集区域所包括的对象数目是否大于等于2，判定待识别视频序列是否发生异常行为，得到第一识别结果。从而实现了针对包含对象数目不满足要求的情况，快速确定出明显不会发生群体对象的异常行为的待识别视频序列，缩短了识别流程，增强了识别方法的准确性。

在一些可能的实施方式中，所述基于所述每一帧图像中所述检测框的分布情况，确定所述每一帧图像中的密集区域，包括：根据所述每一帧图像中每两个所述检测框之间的交并比，生成所述每一帧图像对应的邻接矩阵；将所述邻接矩阵中匹配次数大于等于第二次数阈值的检测框作为所述每一帧图像中的中心检测框；其中，所述第二次数阈值大于所述第一次数阈值；将所述每一帧图像中的中心检测框按特定比例向外扩展，得到所述每一帧图像中的密集区域。

这样，首先利用每一帧图像中检测框的分布情况确定出中心检测框，然后对预测容易发生群体对象行为的中心检测框进行向外扩展，使得扩展后的密集区域包括以中心检测框为中心且尽可能包围群体对象行为的所有对象。从而减小了动作执行主体的行为感受野，能够解决对全视野的待识别视频序列进行识别时有效感知范围小的问题。

在一些可能的实施方式中，所述方法还包括：基于所述每一帧图像中的密集区域，生成所述群体对象的轨迹序列。

这样，对每一帧图像中的密集区域进行处理得到群体对象的轨迹序列，以便通过行为识别模型进行群体对象的行为识别。同时群体对象的轨迹序列减小了动作执行主体的行为感受野，能够解决对全视野的待识别视频序列进行识别时有效感知范围小的问题。

在一些可能的实施方式中，所述基于所述每一帧图像中的密集区域，生成所述群体对象的轨迹序列，包括：基于所述待识别视频序列中所述每一帧图像中的密集区域的覆盖范围，确定所述每一帧图像中的包围框区域；所述每一帧图像中的包围框区域所在的位置一致、尺寸相同且包围所述密集区域；基于所述每一帧图像的时间戳和所述每一帧图像中的包围框区域，生成所述群体对象的轨迹序列。

这样，通过确定每一帧图像中的包围框区域并进一步生成群体对象的轨迹序列，能够减小群体对象行为事件的感受野，进而提升行为识别的准确度和效率。同时避免群体对象行为的相对位置丢失，对于空间相似但运动节奏不同的行为检测有较好的性能提升。

第二方面，本申请实施例提供一种行为的识别装置，包括：

获取模块，用于获取所述待识别视频序列中每一帧图像中每一对象的检测框；

第一确定模块，用于基于所述每一帧图像中所述检测框的分布情况，确定所述待识别视频序列的第一识别结果；

识别模块，用于在所述第一识别结果满足第一条件的情况下，对群体对象的轨迹序列进行行为识别，得到第四识别结果；其中，所述群体对象的轨迹序列是基于所述待识别视频序列生成的；所述群体对象包括空间距离小于距离阈值的至少两个目标对象；

第二确定模块，用于至少基于所述第一识别结果或所述第四识别结果，确定所述待识别视频序列的目标识别结果。

第三方面，本申请实施例提供一种设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述行为识别方法中的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述行为识别方法中的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

在本申请实施例中，首先获取每一帧图像中每一对象的检测框，再基于每一帧图像中检测框的分布情况确定待识别视频序列的第一识别结果，然后在所述第一识别结果满足第一条件的情况下，对基于待识别视频序列生成的群体对象的轨迹序列进行行为识别，得到第四识别结果；最后至少基于所述第一识别结果或所述第四识别结果，确定所述待识别视频序列的目标识别结果。本申请实施例提出了一种基于启发式逻辑和深度学习融合的行为识别方法，能够支持群体对象的异常行为检测需求，提升纯神经网络识别方案的鲁棒性和准确性。同时区别于基于全图图像序列的行为识别方法，本申请实施例将视频分类问题转换成群体对象轨迹序列的识别问题，有效提升了模型对视频源中目标区域的感知能力，大大减少了检索范围和计算量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1A为本申请实施例提供的行为识别方法的一种网络架构示意图；

图1B为本申请实施例提供的一种行为识别方法的流程示意图；

图2为本申请实施例提供的一种行为识别方法的流程示意图；

图3为本申请实施例提供的一种行为识别方法的流程示意图；

图4为本申请实施例提供的一种行为识别方法的流程示意图；

图5为本申请实施例提供的生成群体对象的轨迹序列的流程示意图；

图6为本申请实施例提供的多人行为识别方法的逻辑流程图；

图7为本申请实施例提供的多人的轨迹序列示意图；

图8为本申请实施例提供的一种行为的识别装置的组成结构示意图；

图9为本申请实施例提供的一种行为的识别设备的硬件实体示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。以下实施例用于说明本申请，但不用来限制本申请的范围。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

需要指出，本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请实施例所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

视频中的行为检测是计算机视觉领域的一个重要问题，在智慧城市领域有着广泛的应用，例如检测非法行为、交通事故和一些不常见的事件等等。大多数采集视频源的设备仅仅只是记录每刻的动态，而没有起到自动识别的能力(往往需要特殊人员来负责人工察看)。由于巨大的视频数量，仅靠人力去过滤视频中的内容显然是不太现实的。需要利用计算机视觉和深度学习的技术来自动检测发生在视频中的行为事件。

图1A为本申请实施例提供的行为识别方法的一种网络架构示意图，如图1A所示，该网络架构中包括：摄像头101、对象检测模块102、逻辑识别模块103和模型识别模块104：其中，对象检测模块102、逻辑识别模块103和模型识别模块104可以设置于服务器100中，为实现支撑一个示例性应用，摄像头101通过网络和服务器100建立通信连接。通过摄像头101采集特定场景下的视频，然后采样得到待识别视频序列11即包含群体对象的多帧图像，将待识别视频序列11输入到对象检测模块102中；对象检测模块102可以充分利用相关检测算法如帧间差分法、背景减除法、光流法等等实现对待识别视频序列11中每一对象的定位和分析，得到带检测结果(标注每一对象的检测框)的多帧图像12；然后通过逻辑识别模块103对带检测结果的多帧图像12进行基于检测框密度分布和启发式密集群体位置估计的方法指导密集区域的推理，初步检测出待识别视频序列11中明显的群体对象的异常行为，或者从一些表观层面的几何信息来过滤一些不太可能的情况，提高视频序列的识别效率，同时提升行为识别的准确性；最后，对于不符合逻辑检出规则的待识别视频序列11，基于每一帧图像中的密集区域生成群体对象的轨迹序列13；将轨迹序列13一起输入到模型识别模块104中；模型识别模块104可以充分利用相关视频理解模型对轨迹序列13进行行为识别，最后输出视频层面的识别结果。从而对于不符合逻辑检出规则的待识别视频序列，借助神经网络做进一步的确认和判断，增强了整套识别方案的鲁棒性。基于该网络架构，可以设计一种基于逻辑规则和深度学习的群体对象行为的识别方法框架。

本申请实施例提供一种行为识别方法，应用于服务器、终端设备或其他设备。其中，所述终端设备包括但不限于手机、笔记本电脑、平板电脑和掌上上网设备、多媒体设备、流媒体设备、移动互联网设备、可穿戴设备或其他类型的设备。

图1B为本申请实施例提供的一种行为识别方法的流程示意图，如图1B所示，所述方法至少包括以下步骤：

步骤S110，获取待识别视频序列中每一帧图像中每一对象的检测框；

这里，可以通过对特定视频源进行采样得到所述待识别视频序列。如固定角度下拍摄的视频往往覆盖的视野比较广阔，包含较多的信息，如行人、车辆、动物、建筑物以及其他复杂的背景信息。

可以理解的，待识别视频序列为由多帧图像构成的帧序列，其中每一帧图像中可以能包含至少一个对象或者未包含对象，不同的帧图像包含的对象也不一定相同，但是待识别视频序列的所有帧图像中包含可能发生群体对象行为事件的至少两个对象。这里的对象可以是行人，也可以是移动车辆、动物等，在实施中根据实际场景确定，本申请实施例对此不作限定。

可以通过相关图像或视频处理技术实现对视频图像中对象的检测和定位分析，例如对象检测算法对该待识别视频序列进行预处理，得到多帧带检测框的图像，然后提取每一帧图像中所述对象的检测框。其中，检测算法比如模板匹配，对于视频中运动目标检测，可以通过帧间差分法、背景减除法、光流法等等实现，本申请实施例对此不作限定。

对于待识别视频序列中出现的不同对象，通过对象检测后会得到每一对象的检测框和与检测框关联的唯一对象标识。即不同对象的检测框通过相应的对象标识区分，以便后续自动识别发生行为的主体对象并及时处理。

步骤S120，基于所述每一帧图像中所述检测框的分布情况，确定所述待识别视频序列的第一识别结果；

这里，基于所述每一帧图像中检测框的分布情况可以将每一帧图像划分为稀疏区域和密集区域，其中稀疏区域包括空间位置独立的检测框或者无检测框，密集区域包括相互重叠的至少两个检测框。

可以理解的是，每一帧图像中的密集区域可以认为是潜在的容易发生群体对象行为的目标区域，从而可以对密集区域进行分析处理，初步判断密集区域中是否存在“打架”、“推搡”、“环抱”等群体对象的异常行为，确定待识别视频序列的第一识别结果。

这样通过启发式密集群体位置估计的方法指导局部密集区域的推理，可以增大模型的有效感知区域，减少了对无关背景的检索范围。

步骤S130，在所述第一识别结果满足第一条件的情况下，对群体对象的轨迹序列进行行为识别，得到第四识别结果；

这里，所述群体对象的轨迹序列是基于所述待识别视频序列生成的，轨迹序列即群体对象在待识别视频序列中每一帧图像中的活动区域序列；其中，群体对象包括空间距离小于距离阈值的至少两个目标对象。

在实施中，首先对通过步骤S120判定第一识别结果为可能发生异常行为的待识别视频序列进行预处理，生成群体对象的轨迹序列；然后将群体对象的轨迹序列输入到已训练的行为识别模型中进一步识别判断，得到第四识别结果：如果行为识别模型输出的判别分数高于某个给定的阈值，则确定该轨迹序列存在异常行为并输出具体的群体对象行为类型。

示例地，以行人为检测对象，群体对象的异常行为类型可以包括“踩踏”、“双人互殴”、“多人群殴”、“推搡”、“持械”以及“环抱”等行为；如果模型输出的判别分数不满足给定的阈值，则确定第四识别结果为该待识别视频序列中未发生群体对象的异常行为。

步骤S140，至少基于所述第一识别结果或所述第四识别结果，确定所述待识别视频序列的目标识别结果。

这里，所述第一识别结果为基于逻辑规则判断的待识别视频序列中是否发生异常行为的结果，所述第三识别结果为经逻辑规则判断待识别视频序列可能发生异常行为时，进一步通过神经网络识别的结果。结合启发式逻辑判断方法得到的第一识别结果和深度学习方法得到的第四识别结果，确定待识别视频序列的目标识别结果，提升异常行为识别的准确性和效率。

在一些实施方式中，在所述第一识别结果表征所述待识别视频序列中未发生异常行为的情况下，基于所述第一识别结果，确定所述待识别视频序列的目标识别结果。这样，通过逻辑预判出待视频视频序列的第一识别结果表征待识别视频序列未发生异常行为时，直接以第一识别结果作为最终的目标识别结果，可以直接确定出明显不存在异常行为的待识别视频序列，缩短识别流程。

在另一些实施方式中，在所述第一识别结果表征所述待识别视频序列中发生异常行为的情况下，基于所述第四识别结果，确定所述待识别视频序列的目标识别结果。这样，对于逻辑判断的待识别视频序列中可能存在异常行为的情况，进一步结合神经网络进行识别，以第四识别结果作为目标识别结果，提升行为识别的鲁棒性。

需要说明的是，步骤S110中可以灵活的使用相关检测算法进行行为主体的准确定位和分析；步骤S120中则通过每一帧图像中检测框的分布情况初步确定出待识别视频序列是否发生明显的异常行为，或者从一些表观层面的几何信息来过滤一些不太可能的情况，提高视频序列的识别效率，同时提升行为识别的准确性；步骤S130中的行为识别过程中可以充分利用现有视频理解模型，从而构建了基于逻辑规则和深度学习的行为识别算法框架，提升行为识别的准确性和鲁棒性。通过将整图的待识别视频序列转换为群体对象的轨迹序列，即准确的行为发生区域，缩小了输入模型的图像范围，使得模型仅针对每帧图像中的群体对象所在区域进行识别，能够提升行为识别的效率和精度。从而本申请实施例可以适应于更多覆盖视野大、包含更多信息的视频信息，如室外的城市街道场景以及室内的轨道交通等场景下获取的视频源。

在一些可实施方式中，经过逻辑预判和模型识别两阶段分析得到待识别视频序列的目标识别结果之后，还可以向相关部门或平台发出告警通知，以实现对危害自身及他人安全行为的及时处理。一种可能的实施方式如下：在所述待识别视频序列中存在群体对象的异常行为的情况下，确定所述异常行为发生的空间位置和行为类别；根据所述空间位置和行为类别，确定告警内容；根据所述告警内容向所述空间位置对应的终端设备发送告警通知，以使持有所述终端设备的管理人员处理所述异常行为。

可以理解的，不同的位置区域有对应的持有终端设备的管理人员，通过终端设备接收告警系统的通知，可以快速定位和处理该位置区域内发生的多个对象行为。在室外的城市街道场景以及室内的轨道交通等场景下发生危害自身及他人安全行为后，系统就会自动识别出行为主体并告警，给相关需求的人员提供了一个高效而便捷的检测能力。

在本申请实施例中，首先获取每一帧图像中每一对象的检测框，再基于每一帧图像中检测框的分布情况确定待识别视频序列的第一识别结果，然后在所述第一识别结果满足第一条件的情况下，对基于待识别视频序列生成的群体对象的轨迹序列进行行为识别，得到第四识别结果。本申请实施例提出了一种基于启发式逻辑和深度学习融合的行为识别方法，能够支持群体对象的异常行为检测需求，提升纯神经网络识别方案的鲁棒性和准确性。同时区别于基于全图图像序列的行为识别方法，本申请实施例将视频分类问题转换成群体对象轨迹序列的识别问题，有效提升了模型对视频源中目标区域的感知能力，大大减少了检索范围和计算量。

图2为本申请实施例提供的一种行为识别方法的流程示意图，如图2所示，所述方法至少包括以下步骤：

步骤S210，获取待识别视频序列中每一帧图像中每一对象的检测框；

步骤S220，基于所述每一帧图像中所述检测框的分布情况，确定所述每一帧图像中的密集区域；

这里，所述密集区域(patch)中包括与所述每一帧图像中其他检测框重叠次数大于等于第一次数阈值的中心检测框。也就是说，对于待识别视频序列中的每一帧图像，本申请实施例期望找出其中与其他检测框重叠较多的检测框作为中心检测框以生成包括群体对象的密集区域。

所述密集区域中至少包括两个对象，其中一个对象为所述中心检测框关联的对象；并且将与中心检测框关联的对象标识作为所述密集区域关联的对象标识。

步骤S230，基于所述每一帧图像中的密集区域所包括的对象数目，确定所述待识别视频序列的第一识别结果；

这里，通过判断每一帧图像中密集区域中的对象数目是否满足要求，初步判断待识别视频序列是否可能发生异常行为，得到第一识别结果，即第一识别结果包括待识别视频序列发生异常行为和待识别视频序列未发生异常行为两种情况。通常认为发生群体对象行为时所涉及的对象数目大于等于两个。这样，通过启发式检测框密度分布和密集群体位置估计的方法指导局部密集区域的推理，可以增大模型的有效感知区域，减少了对无关背景的检索范围。

在一些实施方式中，在所述每一帧图像中所述密集区域包括的对象数目大于等于2的情况下，确定所述待识别视频序列的第一识别结果为发生异常行为；在另一些实施方式中，在所述每一帧图像中所述密集区域包括的对象数目小于2的情况下，确定所述待识别视频序列的第一识别结果为未发生异常行为。

步骤S240，在所述第一识别结果表征所述待识别视频序列中发生异常行为的情况下，对群体对象的轨迹序列进行行为识别，得到所述第四识别结果；

这里，对于基于每一帧图像中的密集区域所包括的对象数目确定为待识别视频序列发生异常行为的情况，需要进一步利用神经网络识别具体的行为类型，从而得到待识别视频序列的第四识别结果。这样结合逻辑预判提升纯神经网络识别鲁棒性和准确性不足的问题。

步骤S250，至少基于所述第一识别结果或所述第四识别结果，确定所述待识别视频序列的目标识别结果。

在一些实施方式中，在所述第一识别结果表征所述待识别视频序列中未发生异常行为的情况下，基于所述第一识别结果，确定所述待识别视频序列的目标识别结果；在另一些实施方式中，在所述第一识别结果表征所述待识别视频序列中发生异常行为的情况下，基于所述第四识别结果，确定所述待识别视频序列的目标识别结果。

在本申请实施例中，基于每一帧图像中的密集区域所包括的对象数目，初步检测出明显不存在异常行为的轨迹序列，从而避免输入行为识别模型中继续检测，提升待识别视频序列的识别效率。对于基于密集区域所包括的对象数目确定待识别视频序列中发生异常行为的情况，需要进一步利用神经网络识别具体的行为类型，从而增强了整体识别过程的准确性和鲁棒性。

图3为本申请实施例提供的一种行为识别方法的流程示意图，如图3所示，所述方法至少包括以下步骤：

步骤S310，获取所述待识别视频序列中每一帧图像中每一对象的检测框；

步骤S320，基于所述每一帧图像中所述检测框的分布情况，确定所述待识别视频序列的第一识别结果；

步骤S330，在所述第一识别结果表征所述待识别视频序列中发生异常行为的情况下，确定所述待识别视频序列中相邻帧之间所述密集区域的面积变化值；

这里，针对第一识别结果表征待识别视频序列中发生异常行为的情况，进一步对比相邻帧之间的密集区域的面积变化值。

示例地，第n-1帧中密集区域的面积为0.6平方厘米，第n帧中同一密集区域的面积为0.8平方厘米，则第n-1帧与第n帧之间的密集区域的面积变化值为0.2平方厘米，表示群体对象的位置范围增大了，运动幅度发生剧烈变化。

步骤S340，基于所述密集区域的面积变化值和变化阈值，确定所述待识别视频序列的第二识别结果；

这里，对比所述密集区域在相邻帧之间的面积变化值是否大于等于变化阈值，判断所述待识别视频序列是否发生异常行为，得到第二识别结果，即所述第二识别结果包括待识别视频序列发生异常行为和待识别视频序列未发生异常行为两种情况。通常认为密集区域的面积发生大幅度变化时，该密集区域所包括的多个对象的运动剧烈，容易发生群体对象的异常行为。

如果待识别视频序列中连续相邻帧间的密集区域的面积变化值均小于变化阈值，则判断待识别视频序列的第二识别结果为未发生异常行为；如果存在任意相邻帧间的密集区域的面积变化值大于变化阈值，则判断待识别视频序列的第二识别结果为发生异常行为。

其中，变化阈值为预先设定的经验值。例如可以根据对象类型和行为类型预先设定，在检测对象为行人且检测行为为打架类型时，密集区域面积的变化阈值可以设定为行人检测框的特定百分比等。本申请实施例对此不作限定。

在一些实施方式中，所述基于所述密集区域的面积变化值和变化阈值，确定所述待识别视频序列的第二识别结果，包括：在所述相邻帧之间所述密集区域的面积变化值均大于等于所述变化阈值的情况下，确定所述待识别视频序列的第二识别结果为发生异常行为；在所述相邻帧之间所述密集区域的面积变化值小于所述变化阈值的情况下，确定所述待识别视频序列的第二识别结果为未发生异常行为。

步骤S350，在所述第二识别结果表征所述待识别视频序列未发生异常行为的情况下，对群体对象的轨迹序列进行行为识别，得到所述第四识别结果；

这里，对于基于每一帧图像中的密集区域的面积确定为待识别视频序列未发生异常行为的情况，需要进一步利用神经网络识别具体的行为类型，从而得到待识别视频序列的第四识别结果。这样结合逻辑预判提升纯神经网络识别鲁棒性和准确性不足的问题。

步骤S360，至少基于所述第一识别结果或所述第四识别结果，确定所述待识别视频序列的目标识别结果。

这里，基于所述第一识别结果、第二识别结果或第四识别结果，确定所述待识别视频序列的目标识别结果。

在一些实施方式中，在所述第一识别结果表征所述待识别视频序列中未发生异常行为的情况下，基于所述第一识别结果，确定所述待识别视频序列的目标识别结果；在一些实施方式中，在所述第二识别结果表征待识别视频序列中发生异常行为的情况下，基于所述第二识别结果，确定所述待识别视频序列的目标识别结果；在一些实施方式中，在所述第一识别结果表征所述待识别视频序列中发生异常行为且所述第二识别结果表征待识别视频序列中未发生异常行为的情况下，基于所述第四识别结果，确定所述待识别视频序列的目标识别结果。

在本申请实施例中，针对第一识别结果表征待识别视频序列中发生异常行为的情况，进一步基于相邻帧之间密集区域的面积变化值确定第二识别结果，从而结合两阶段启发式的逻辑方法提升神经网络识别方案的鲁棒性和准确性。

图4为本申请实施例提供的一种行为识别方法的流程示意图，如图4所示，所述方法至少包括以下步骤：

步骤S410，获取所述待识别视频序列中每一帧图像中每一对象的检测框；

步骤S420，基于所述每一帧图像中所述检测框的分布情况，确定所述待识别视频序列的第一识别结果；

步骤S430，在所述第一识别结果表征所述待识别视频序列中发生所述异常行为的情况下，确定所述待识别视频序列中相邻帧之间所述密集区域的面积变化值；

步骤S440，基于所述密集区域的面积变化值和变化阈值，确定所述待识别视频序列的第二识别结果；

上述步骤S410至步骤S440的实施过程类似上述步骤S310至步骤S340，对于本申请实施例中未披露的技术细节，请参照上一实施例的描述而理解。

步骤S450，在所述第二识别结果表征所述待识别视频序列未发生异常行为的情况下，基于所述待识别视频序列中所述每一帧图像中的密集区域的覆盖范围，确定所述待识别视频序列中每一帧图像中的包围框区域；

这里，针对第二识别结果表征待识别视频序列未发送异常行为的情况，进一步确定比密集区域更大范围的包围框区域。

可以通过对待识别视频序列内不同帧图像中的密集区域的范围在空间位置上合并，得到更大范围的包围框，并截取每一帧图像得到相应帧图像中的包围框区域。

步骤S460，基于所述待识别视频序列中相邻帧之间的所述包围框区域的像素变化情况，确定所述待识别视频序列的第三识别结果；

这里，在通过密集区域的面积变化情况初步判定待识别视频序列存在异常行为的情况下，进一步对比更大范围的包围框区域在相邻帧之间的像素是否发生变化，以便通过多阶段逻辑规则判定待识别视频序列中是否发生异常行为，得到第三识别结果。

在实施中，可以通过相关技术中的图像处理算法确定待识别视频序列中相邻帧之间的像素变化情况。通常设定相邻帧图像的大小和尺寸相同，对于灰度图像，因为只有单通道，所以直接进行相应位置的像素减法即可，对于彩色图像，则应该将对应的颜色的分量分别进行相减。

在一些可能的实施方式中，所述基于所述待识别视频序列中相邻帧之间的所述包围框区域的像素变化情况，确定所述待识别视频序列的第三识别结果，包括：在所述待识别视频序列中相邻帧之间所述包围框区域的像素差值的累加和大于等于像素阈值的情况下，确定所述待识别视频序列的第三识别结果为发生异常行为；在所述待识别视频序列中相邻帧之间所述包围框区域的像素差值的累加和小于所述像素阈值的情况下，确定所述待识别视频序列的第三识别结果为未发生异常行为。

这里，针对待识别视频序列的每相邻两帧确定像素差值或像素差值的累加和是否满足像素阈值，确定相应待识别视频序列中是否发生异常行为。从而实现了通过逻辑规则快速确定出明显发生异常行为的待识别视频序列，缩短了识别流程，增强了识别方法的准确性。

步骤S470，在所述第三识别结果表征所述待识别视频序列未发生异常行为的情况下，对群体对象的轨迹序列进行行为识别，得到所述第四识别结果；

这里，对于基于每一帧图像中的包围框区域的像素变化确定为待识别视频序列中未发生异常行为的情况，需要进一步利用神经网络识别具体的行为类型，从而得到待识别视频序列的第四识别结果。这样结合逻辑预判提升纯神经网络识别鲁棒性和准确性不足的问题。

步骤S480，至少基于所述第一识别结果或所述第四识别结果，确定所述待识别视频序列的目标识别结果。

这里，基于所述第一识别结果、第二识别结果、第三识别结果或所述第四识别结果，确定所述待识别视频序列的目标识别结果。

在一些实施方式中，在所述第一识别结果表征所述待识别视频序列中未发生异常行为的情况下，基于所述第一识别结果，确定所述待识别视频序列的目标识别结果；在一些实施方式中，在所述第二识别结果表征所述待识别视频序列中发生异常行为的情况下，基于所述第二识别结果，确定所述待识别视频序列的目标识别结果；在一些实施方式中，在所述第三识别结果表征所述待识别视频序列中发生异常行为的情况下，基于所述第三识别结果，确定所述待识别视频序列的目标识别结果；在一些实施方式中，在所述第一识别结果表征所述待识别视频序列中发生异常行为，且所述第二识别结果和所述第三识别结果均表征待识别视频序列中未发生异常行为的情况下，基于所述第四识别结果，确定所述待识别视频序列的目标识别结果。

在本申请实施例中，针对第二识别结果表征待识别视频序列未发送异常行为的情况，进一步基于相邻帧图像之间的包围框区域的像素变化情况，确定待识别视频序列的第三识别结果，在第三识别结果表征待识别视频序列未发送异常行为时，再利用行为识别模型对群体对象的轨迹序列进行识别。从而同时通过密集区域的面积变化和取并集后的包围框区域的像素变化对待识别视频序列进行启发式逻辑判断后，再借助行为识别模型进行行为识别，可以提升神经网络识别方案的鲁棒性和准确性。

图5为本申请实施例提供的生成群体对象的轨迹序列的流程示意图，如图5所示，所述方法至少包括以下步骤：

步骤S510，基于所述每一帧图像中所述检测框的分布情况，确定所述每一帧图像中的密集区域；

这里，所述密集区域中包括与所述每一帧图像中其他检测框重叠次数大于等于第一次数阈值的中心检测框。不同帧图像中的中心检测框可以是同一个对象的，也可以是不同对象的，某一对象的中心检测框可以在待识别视频序列中的每一帧图像中出现，也可以只在一部分帧中出现。

在实施中，可以通过构建邻接矩阵的方式确定每一帧图像中与其他检测框匹配次数最多的中心检测框，通常认为中心检测框所在空间位置容易发送群体对象行为。因此，以中心检测框为中心向外扩展一定范围即可得到每一帧图像的密集区域。

在一些实施方式中，通过以下过程确定每一帧图像中的密集区域：基于所述每一帧图像中所述检测框的分布情况，确定所述每一帧图像中的中心检测框；将所述每一帧图像中的中心检测框按特定比例向外扩展，得到所述每一帧图像中的密集区域。

其中，特定比例为经验值，一般设为2倍，特定比例也可以为根据实际拍摄的应用场景画面确定的，以尽可能使得扩展后的密集区域能包围发生群体对象行为的所有执行主体。

这样，首先利用每一帧图像中检测框的分布情况确定出中心检测框，然后对中心检测框进行向外扩展，使得扩展后的密集区域包括以中心检测框为中心且尽可能包围群体对象行为的所有对象。从而减小了动作执行主体的行为感受野，能够解决对全视野的待识别视频序列进行识别时有效感知范围小的问题。

在一些实施方式中，所述每一帧图像所包括的检测框的数量大于或等于2，所述基于所述每一帧图像中所述检测框的分布情况，确定所述每一帧图像中的中心检测框，包括：根据所述每一帧图像中每两个所述检测框之间的交并比，生成所述每一帧图像对应的邻接矩阵；将所述邻接矩阵中匹配次数大于等于第二次数阈值的检测框作为所述每一帧图像中的中心检测框；其中，所述第二次数阈值大于所述第一次数阈值。

这里，每两个检测框之间的交并比(Intersection over Union，IoU)是两个区域重叠的部分除以两个区域的集合部分得出的结果。邻接矩阵中(i,j)的值代表帧图像中检测框i和检测框j的交并比。将第i行中数值大于0的数量(除了自身)作为检测框i的匹配次数。如果某个检测框j与多个其他检测框之间的重复次数较多，以该检测框j所在位置周围存在多个对象的检测框，容易发生群体对象行为，因此可以将检测框j作为所在帧图像的中心检测框。

这样，对于每一帧图像中包括多个检测框的情况，通过计算任意两个检测框之间的交并比，并统计每一检测框的匹配次数，从而能够准确筛选出与其他检测框重叠次数最多的中心检测框，以方便后续生成密集区域以及群体对象的轨迹序列，有效提取待识别视频中的有用信息。

在一些其他的实施例中，在所述每一帧图像中包括至少两个检测框的情况下，首先对每一所述对象的检测框，向外扩展固定比例，得到扩展后的检测框；从所述扩展后的检测框中筛选至少两个第一检测框；其中，所述第一检测框的面积大于所述扩展后的检测框中其他检测框；然后，确定所述至少两个第一检测框之间的交并比。例如，在所述固定比例为1.5倍的情况下，将每一所述对象的检测框的长和宽都扩展1.5倍。这样能够增大图像分辨率，从而能更好地计算相互重叠的检测框之间的交并比。

步骤S520，基于所述每一帧图像中的密集区域，生成所述群体对象的轨迹序列。

这里，首先基于每一帧图像中的密集区域，确定各帧图像中更大的包括同一组群体对象的最小包围框，并基于最小包围框抠取每一帧图像中的包围框区域，组成该组群体对象的轨迹序列。从而便于后续通过行为识别模型进行群体对象的行为识别。

可以通过以下过程生成群体对象的轨迹序列：

步骤S5201，对基于所述待识别视频序列中所述每一帧图像中的密集区域的覆盖范围，确定所述每一帧图像中的包围框区域；

这里，可以先对待识别视频序列中各个密集区域的覆盖范围取并集，并结合各个密集区域的边界点的坐标最大值，确定可以包括所有与中心检测框有重叠的检测框的最小包围框，然后采用相关技术中的图像分割技术或其他图像处理技术，截取每一帧图像中与最小包围框的空间位置对应的包围框区域，本申请实施例对此不作限定。

应注意，将中心检测框对应的区域按照特定比例进行自适应的向外扩展后，得到的密集区域仍然是矩形区域。为了方便后续处理，可以将对各帧密集区域取并集后的包围框区域进行尺寸归一化。例如，将包围框区域的长边尺寸调整到224像素，包围框区域的短边随长边等比例缩放，对缩放后不足224像素的短边进行上下补黑边处理。

步骤S5202，基于所述每一帧图像的时间戳和所述每一帧图像中的包围框区域，生成所述群体对象的轨迹序列。

这里，待识别视频序列中的每一帧图像都携带各自的时间戳，可以是摄像机等采集设备采集时设置的时间戳，也可以是后续采样原始图像序列的过程中设置的时间戳，还可以是其他可以实现的方式设置的时间戳，本申请实施例对此不作限定。

以包围框区域按照时间戳顺序生成的轨迹序列代替全图视频序列能够减小群体对象行为事件的感受野，进而提升行为识别的准确度和效率。同时避免群体对象行为的相对位置丢失，对于空间相似但运动节奏不同的行为检测有较好的性能提升。

在本申请实施例中，首先利用获取的帧图像中检测框的分布情况确定出密集区域，然后对每一帧图像中的密集区域进行预处理得到群体对象的轨迹序列，从而解决群体对象行为的识别问题。同时群体对象的轨迹序列减小了动作执行主体的行为感受野，能够解决对全视野的待识别视频序列进行识别时有效感知范围小的问题。

下面结合一个具体实施例对上述行为识别方法进行说明，然而值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

本申请实施例以群体对象为一组行人且群体对象的异常行为打架为例进行说明。传统的行为识别方法通常对输入视频序列进行全图的数据增强或其他预处理后送入到分类模型中进行预测，然而这种方式只适用于以人为中心的视频行为识别，该类数据常见于公开的视频学术数据集中。对于在线视频流来说，往往包含更多的信息，覆盖的视野也更大。同时，目标的事件发生位置和人体尺度也具有随机性。因此，简单地以全图作为模型输入显然是不合理的。此外，仅依赖于神经网络进行识别存在不确定性和不准确性。

对于在线视频流中的打架异常行为识别，需要能在视频序列中的整张图像(尤其是高视角)中定位到打架的大致区域，增大机器对于输入视频流的有效感知范围，且能准确识别涵盖“双人互殴”，“多人群殴”，“推搡”，“持械”以及“环抱“等姿态的打架事件。同时支持城市街道和轨道交通等室内外通用场景，使得视频内容中行为事件的自动分析为相关部门提供便捷和取证的能力。

本申请实施例提供一种基于启发式和深度学习融合的打架异常行为识别方法。首先，在数据处理层面，区别于传统的基于全图图像序列的视频行为识别方法，本申请实施例提出了基于检测框密度分布和启发式密集群体位置估计的方法指导局部密集区域的推理，增大了模型的有效感知区域，减少了对无关背景的检索范围。

其次，在行为识别算法层面：先通过预处理步骤确定视频序列中群体对象的最小包围框，并确定每一帧图像中的包围框区域。对满足包含行人个数要求的视频序列，计算相邻帧间包围框区域的面积变化程度，如果面积变化程度大则确定相应视频序列发生打架行为；否则进一步计算相邻帧间的像素差值。对于像素变化幅度大即对象剧烈运动的情况直接输出相应视频序列发生打架行为；而对于像素变化幅度小即运动强度不满足阈值的情况则需要进一步送入到行为识别模型中进行最后的判断。

图6为本申请实施例提供的多人行为识别方法的逻辑流程图，如图6所示，该流程包括以下步骤：

步骤S601，分别提取待识别视频序列中每一行人的检测框；

这里，获取图像采集设备拍摄的全图视频序列，并通过调用上游检测组件获取视频图像中行人的检测框。

步骤S602，对每一行人的检测框按固定比例外扩，并按面积排序；

这里，对当前帧所有的检测结果外扩固定比例倍(默认为1.5倍)，然后按面积进行降序排列。

步骤S603，根据检测框之间的交并比构建邻接矩阵，确定匹配次数最多的中心检测框；

这里，排序后，选取面积较大的若干检测框确定交并比，并构建邻接矩阵；基于邻接矩阵计算匹配次数最多的检测框作为中心检测框。

步骤S604，对中心检测框恢复其分辨率，并计算包含行人的密集区域；

这里，对上述获得的中心检测框缩小至原始分辨率，并定义一个更大的扩展比例，按照该扩展比例进行自适应的向外扩展，得到更大的矩形框，作为当前帧的密集区域。

通常认为密集区域中容易发生多人行为，且中心检测框为该多人行为的中心。因此，将中心检测框向外扩展得到的矩形框即密集区域应尽可能包围发生多人行为的群体。

步骤S605，判断密集区域内是否大于等于2个人；

这里，如果密集区域内的行人数量大于等于2，则执行步骤S607；否则执行步骤S606，结束判断。

步骤S606，确定无打架发生；

步骤S607，判断相邻帧之间密集区域的面积是否剧烈变化；

这里，如果相邻帧之间密集区域的面积发生剧烈变化，则执行步骤S608，结束判断；否则继续执行步骤S609。

步骤S608，确定有打架发生；

步骤S609，所有帧序列的密集区域取并集得到更大的包围框区域，并计算相邻帧之间包围框区域的像素差值；

根据密集区域截取每一帧图像中更大的包围框区域的过程如下：首先对按照最小包围框的尺寸大小截取每一帧图像中的包围框区域，然后对包围框区域的长边进行改变大小(resize)到224像素，然后对包围框区域的短边等比例缩放，不足224像素的上下补黑边。

步骤S610，判断像素差值的累加和是否大于像素阈值；

这里，如果各帧像素差值的累加和大于像素阈值，则执行步骤S611，结束判断；否则，继续执行步骤S612。

步骤S611，确定有打架发生；

步骤S612，输入已训练的行为识别网络进一步识别。

这里，将各帧中指定的包围框区域分别扣取出来组成该组行人的运动轨迹序列，送入到神经网络中进行打架事件的识别。通过上述过程获得的轨迹序列如图7所示，该组行人的轨迹序列包括5帧包围框区域图像，且每一包围框区域图像均包括由两个行为主体发生的异常行为组成的密集区域。

本申请实施例通过启发式的可扩展的多人密集群体位置的估计方案，有效提升了模型对视频序列中密集区域的感知能力，大大减少了检索范围和计算量；同时结合两阶段启发式的逻辑方法提升纯神经网络识别方案的鲁棒性和准确性。

本申请实施例可以适用于室外的城市街道场景以及室内的轨道交通等场景，在这些场景中发生群体对象的异常行为事件后，采集视频源的设备就会自动识别出事件发生的区域和类型，并报警给和相关需求的人员提供了一个高效而便捷的检测能力。

基于前述的实施例，本申请实施例再提供一种行为的识别装置，所述识别装置包括所包括的各模块、各模块所包括的子模块以及各子模块所包括的各单元，可以通过设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(Central Processing Unit，CPU)、微处理器(Micro Processing Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(FieldProgrammable Gate Array，FPGA)等。

图8为本申请实施例提供的一种行为的识别装置的组成结构示意图，如图8所示，所述识别装置800包括获取模块810、第一确定模块820、识别模块830和第二确定模块840，其中：

所述获取模块810，用于获取所述待识别视频序列中每一帧图像中每一对象的检测框；

所述第一确定模块820，用于基于所述每一帧图像中所述检测框的分布情况，确定所述待识别视频序列的第一识别结果；

所述识别模块830，用于在所述第一识别结果满足第一条件的情况下，对群体对象的轨迹序列进行行为识别，得到第四识别结果；其中，所述群体对象的轨迹序列是基于所述待识别视频序列生成的；所述群体对象包括空间距离小于距离阈值的至少两个目标对象；

所述第二确定模块840，用于至少基于所述第一识别结果或所述第四识别结果，确定所述待识别视频序列的目标识别结果。

在一些可能的实施方式中，所述第二确定模块840包括：第五确定子模块，用于在所述第一识别结果表征所述待识别视频序列中未发生异常行为的情况下，基于所述第一识别结果，确定所述待识别视频序列的目标识别结果；或者，在所述第一识别结果表征所述待识别视频序列中发生异常行为的情况下，基于所述第四识别结果，确定所述待识别视频序列的目标识别结果。

在一些可能的实施方式中，所述第一确定模块820包括：第一确定子模块，用于基于所述每一帧图像中所述检测框的分布情况，确定所述每一帧图像中的密集区域；所述密集区域中包括与所述每一帧图像中其他检测框重叠次数大于等于第一次数阈值的中心检测框；第二确定子模块，用于基于所述每一帧图像中的密集区域所包括的对象数目，确定所述待识别视频序列的第一识别结果。

在一些可能的实施方式中，所述识别模块830包括：第三确定子模块，用于在所述第一识别结果表征所述待识别视频序列中发生异常行为的情况下，确定所述待识别视频序列中相邻帧之间所述密集区域的面积变化值；第四确定子模块，用于基于所述密集区域的面积变化值和变化阈值，确定所述待识别视频序列的第二识别结果；识别子模块，用于在所述第二识别结果表征所述待识别视频序列未发生异常行为的情况下，对群体对象的轨迹序列进行行为识别，得到所述第四识别结果。

在一些可能的实施方式中，所述识别子模块包括：第一确定单元，在所述第二识别结果表征所述待识别视频序列未发生异常行为的情况下，对基于所述待识别视频序列中所述每一帧图像中的密集区域的覆盖范围，确定所述待识别视频序列中每一帧图像中的包围框区域；所述每一帧图像中的包围框区域所在的位置一致、尺寸相同且包围所述密集区域；第二确定单元，用于基于所述待识别视频序列中相邻帧之间的所述包围框区域的像素变化情况，确定所述待识别视频序列的第三识别结果；识别单元，用于在所述第三识别结果表征所述待识别视频序列未发生异常行为的情况下，对群体对象的轨迹序列进行行为识别，得到所述第四识别结果。

在一些可能的实施方式中，所述识别子模块还包括第五确定单元，用于在所述第二识别结果表征所述待识别视频序列发生异常行为的情况下，确定所述待识别视频序列的目标识别结果为发生异常行为；或者，在所述第三识别结果表征所述待识别视频序列发生异常行为的情况下，确定所述待识别视频序列的目标识别结果为发生异常行为。

在一些可能的实施方式中，所述第二确定单元还用于在所述待识别视频序列中相邻帧之间所述包围框区域的像素差值大于等于像素阈值的情况下，确定所述待识别视频序列的第三识别结果为发生异常行为；在所述待识别视频序列中相邻帧之间所述包围框区域的像素差值小于所述像素阈值的情况下，确定所述待识别视频序列的第三识别结果为未发生异常行为。

在一些可能的实施方式中，所述第四确定子模块还用于在所述相邻帧之间所述密集区域的面积变化值大于等于所述变化阈值的情况下，确定所述待识别视频序列的第二识别结果为发生异常行为；在所述相邻帧之间所述密集区域的面积变化值小于所述变化阈值的情况下，确定所述待识别视频序列的第二识别结果为未发生异常行为。

在一些可能的实施方式中，所述第二确定子模块还用于在所述每一帧图像中所述密集区域包括的对象数目大于等于2的情况下，确定所述待识别视频序列的第一识别结果为发生异常行为；在所述每一帧图像中所述密集区域包括的对象数目小于2的情况下，确定所述待识别视频序列的第一识别结果未发生异常行为。

在一些可能的实施方式中，所述第一确定子模块包括：第一生成单元，用于根据所述每一帧图像中每两个所述检测框之间的交并比，生成所述每一帧图像对应的邻接矩阵；第三确定单元，用于将所述邻接矩阵中匹配次数大于等于第二次数阈值的检测框作为所述每一帧图像中的中心检测框；其中，所述第二次数阈值大于所述第一次数阈值；扩展单元，用于将所述每一帧图像中的中心检测框按特定比例向外扩展，得到所述每一帧图像中的密集区域。

在一些可能的实施方式中，所述第一确定模块820还包括生成子模块，用于基于所述每一帧图像中的密集区域，生成所述群体对象的轨迹序列。

在一些可能的实施方式中，所述生成子模块包括：第四确定单元，用于对基于所述待识别视频序列中所述每一帧图像中的密集区域的覆盖范围，确定所述每一帧图像中的包围框区域；所述每一帧图像中的包围框区域所在的位置一致、尺寸相同且包围所述密集区域；第二生成单元，基于所述每一帧图像的时间戳和所述每一帧图像中的包围框区域，生成所述群体对象的轨迹序列。

这里需要指出的是：以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述行为识别方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得设备(可以是具有摄像头的智能手机、平板电脑等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中任一所述行为识别方法中的步骤。对应地，本申请实施例中，还提供了一种芯片，所述芯片包括可编程逻辑电路和/或程序指令，当所述芯片运行时，用于实现上述实施例中任一所述行为识别方法中的步骤。对应地，本申请实施例中，还提供了一种计算机程序产品，当该计算机程序产品被设备的处理器执行时，其用于实现上述实施例中任一所述行为识别方法中的步骤。

基于同一技术构思，本申请实施例提供一种行为的识别设备，用于实施上述方法实施例记载的行为识别方法。图9为本申请实施例提供的一种行为的识别设备的硬件实体示意图，如图9所示，所述识别设备900包括存储器910和处理器920，所述存储器910存储有可在处理器920上运行的计算机程序，所述处理器920执行所述程序时实现本申请实施例任一所述行为识别方法中的步骤。

存储器910配置为存储由处理器920可执行的指令和应用，还可以缓冲待处理器920以及设备中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random Access Memory，RAM)实现。

处理器920执行程序时实现上述任一项的行为识别方法的步骤。处理器920通常控制识别设备900的总体操作。

上述处理器可以为特定用途集成电路(Application Specific IntegratedCircuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(Programmable LogicDevice，PLD)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述计算机存储介质/存储器可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本申请实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得设备自动测试线执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种行为识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述至少基于所述第一识别结果或所述第四识别结果，确定所述待识别视频序列的目标识别结果，包括：

在所述第一识别结果表征所述待识别视频序列中未发生异常行为的情况下，基于所述第一识别结果，确定所述待识别视频序列的目标识别结果；或者，

在所述第一识别结果表征所述待识别视频序列中发生异常行为的情况下，基于所述第四识别结果，确定所述待识别视频序列的目标识别结果。

3.如权利要求1或2所述的方法，其特征在于，所述基于所述每一帧图像中所述检测框的分布情况，确定所述待识别视频序列的第一识别结果，包括：

基于所述每一帧图像中所述检测框的分布情况，确定所述每一帧图像中的密集区域；所述密集区域中包括与所述每一帧图像中其他检测框重叠次数大于等于第一次数阈值的中心检测框；

基于所述每一帧图像中的密集区域所包括的对象数目，确定所述待识别视频序列的第一识别结果。

4.如权利要求1至3任一项所述的方法，其特征在于，所述在所述第一识别结果满足第一条件的情况下，对群体对象的轨迹序列进行行为识别，得到第四识别结果，包括：

在所述第一识别结果表征所述待识别视频序列中发生异常行为的情况下，确定所述待识别视频序列中相邻帧之间所述密集区域的面积变化值；

基于所述密集区域的面积变化值和变化阈值，确定所述待识别视频序列的第二识别结果；

在所述第二识别结果表征所述待识别视频序列未发生异常行为的情况下，对群体对象的轨迹序列进行行为识别，得到所述第四识别结果。

5.如权利要求4所述的方法，其特征在于，所述在所述第二识别结果表征所述待识别视频序列未发生异常行为的情况下，对群体对象的轨迹序列进行行为识别，得到所述第四识别结果，包括：

在所述第二识别结果表征所述待识别视频序列未发生异常行为的情况下，基于所述待识别视频序列中所述每一帧图像中的密集区域的覆盖范围，确定所述待识别视频序列中每一帧图像中的包围框区域；所述每一帧图像中的包围框区域所在的位置一致、尺寸相同且包围所述密集区域；

基于所述待识别视频序列中相邻帧之间的所述包围框区域的像素变化情况，确定所述待识别视频序列的第三识别结果；

在所述第三识别结果表征所述待识别视频序列未发生异常行为的情况下，对群体对象的轨迹序列进行行为识别，得到所述第四识别结果。

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

在所述第二识别结果表征所述待识别视频序列发生异常行为的情况下，确定所述待识别视频序列的目标识别结果为发生异常行为；或者，

在所述第三识别结果表征所述待识别视频序列发生异常行为的情况下，确定所述待识别视频序列的目标识别结果为发生异常行为。

7.如权利要求5或6所述的方法，其特征在于，所述基于所述待识别视频序列中相邻帧之间的所述包围框区域的像素变化情况，确定所述待识别视频序列的第三识别结果，包括：

在所述待识别视频序列中相邻帧之间所述包围框区域的像素差值大于等于像素阈值的情况下，确定所述待识别视频序列的第三识别结果为发生异常行为；或者，

在所述待识别视频序列中相邻帧之间所述包围框区域的像素差值小于所述像素阈值的情况下，确定所述待识别视频序列的第三识别结果为未发生异常行为。

8.如权利要求4至7任一项所述的方法，其特征在于，所述基于所述密集区域的面积变化值和变化阈值，确定所述待识别视频序列的第二识别结果，包括：

在所述相邻帧之间所述密集区域的面积变化值均大于等于所述变化阈值的情况下，确定所述待识别视频序列的第二识别结果为发生异常行为；或者，

在所述相邻帧之间所述密集区域的面积变化值小于所述变化阈值的情况下，确定所述待识别视频序列的第二识别结果为未发生异常行为。

9.如权利要求3至8任一项所述的方法，其特征在于，所述基于所述每一帧图像中的密集区域所包括的对象数目，确定所述待识别视频序列的第一识别结果，包括：

在所述每一帧图像中所述密集区域包括的对象数目大于等于2的情况下，确定所述待识别视频序列的第一识别结果为发生异常行为；

在所述每一帧图像中所述密集区域包括的对象数目小于2的情况下，确定所述待识别视频序列的第一识别结果未发生异常行为。

10.如权利要求3至9任一项所述的方法，其特征在于，所述基于所述每一帧图像中所述检测框的分布情况，确定所述每一帧图像中的密集区域，包括：

根据所述每一帧图像中每两个所述检测框之间的交并比，生成所述每一帧图像对应的邻接矩阵；

将所述邻接矩阵中匹配次数大于等于第二次数阈值的检测框作为所述每一帧图像中的中心检测框；其中，所述第二次数阈值大于所述第一次数阈值；

将所述每一帧图像中的中心检测框按特定比例向外扩展，得到所述每一帧图像中的密集区域。

11.如权利要求3至10任一项所述的方法，其特征在于，所述方法还包括：

基于所述每一帧图像中的密集区域，生成所述群体对象的轨迹序列。

12.如权利要求11所述的方法，其特征在于，所述基于所述每一帧图像中的密集区域，生成所述群体对象的轨迹序列，包括：

基于所述待识别视频序列中所述每一帧图像中的密集区域的覆盖范围，确定所述每一帧图像中的包围框区域；所述每一帧图像中的包围框区域所在的位置一致、尺寸相同且包围所述密集区域；

基于所述每一帧图像的时间戳和所述每一帧图像中的包围框区域，生成所述群体对象的轨迹序列。

13.一种行为的识别装置，其特征在于，所述装置包括获取模块、第一确定模块、识别模块和第二确定模块，其中：

所述获取模块，用于获取所述待识别视频序列中每一帧图像中每一对象的检测框；

所述第一确定模块，用于基于所述每一帧图像中所述检测框的分布情况，确定所述待识别视频序列的第一识别结果；

所述识别模块，用于在所述第一识别结果满足第一条件的情况下，对群体对象的轨迹序列进行行为识别，得到第四识别结果；其中，所述群体对象的轨迹序列是基于所述待识别视频序列生成的；所述群体对象包括空间距离小于距离阈值的至少两个目标对象；

所述第二确定模块，用于至少基于所述第一识别结果或所述第四识别结果，确定所述待识别视频序列的目标识别结果。

14.一种行为的识别设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至12任一项所述方法中的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至12中任一项所述方法中的步骤。