CN117237418B

CN117237418B - 一种基于深度学习的运动目标检测方法和系统

Info

Publication number: CN117237418B
Application number: CN202311518688.8A
Authority: CN
Inventors: 王强; 刘明鑫; 江森; 戴升鑫
Original assignee: Chengdu Aeronautic Polytechnic
Current assignee: Chengdu Aeronautic Polytechnic
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-01-23
Anticipated expiration: 2043-11-15
Also published as: CN117237418A

Abstract

本发明涉及计算机信息技术领域，具体涉及一种基于深度学习的运动目标检测方法和系统，将初始视频输入视频拓扑模型进行映射，得到与初始视频的地理位置相邻的其他视频的集合，对集合中的视频进行分帧处理，将检测目标的特征向量与分帧后的视频图像输入SIFT目标检测模型进行特征对比，当所有特征对比结果为特征不一致时，产生反馈信号，当特征对比结果中存在特征一致时，将特征对比结果为一致的视频作为初始视频再次进行视频映射和目标检测，直到产生反馈信号，根据检测到检测目标的视频对应监控的地理位置，对检测目标的运动轨迹进行绘制，提高了运动目标检测的效率。

Description

一种基于深度学习的运动目标检测方法和系统

技术领域

本发明涉及计算机信息技术领域，具体涉及一种基于深度学习的运动目标检测方法和系统。

背景技术

随着人们对社会治安的期望和要求逐渐提高，视频监控和网络传输技术得到快速普及和发展，全国各级城市在街道、建筑物等部署的众多视频监控与安防系统已经成为维护社会治安的一种有效辅助手段，利用视频监控对特定运动目标进行检测的应用场景也愈发广泛，例如，寻找走失的老人、儿童和宠物，追踪犯罪嫌疑人和定位肇事车辆等。

当前，对监控视频内容进行回查时常采用人工回查的方式进行，即对监控拍摄并保存的视频进行人工判断。在人工回查过程中，目标筛查的质量极易受到视频播放速度、相关人员注意力集中程度和视频画面质量等因素的影响，在追踪运动目标时容易对关键细节和线索产生遗漏。同时，视频监控范围的扩大化和监控环境的复杂化使得相关人员在进行运动目标的跟踪过程中难以兼顾海量的监控视频，从而导致筛查质量难以保证、目标追踪效率低等问题。

专利号为CN201710486487.2的目标追踪方法与目标追踪装置利用与检测目标具有固定相对位置的参考区域辅助进行目标追踪，当检测目标被遮蔽时，通过对参考区域的追踪从而提高追踪准确度，但此方法主要在单视频中对检测目标的运动轨迹进行追踪，没有涉及在多视频中对检测目标进行追踪。

发明内容

本发明的目的在于解决现有技术中存在的难以在多视频中对运动目标进行检测跟踪的技术问题，本发明请求保护一种基于深度学习的运动目标检测方法，将初始视频输入视频拓扑模型进行映射，得到与初始视频的地理位置相邻的其他视频的集合，对集合中的视频进行分帧处理，将检测目标的特征向量与分帧后的视频图像输入SIFT目标检测模型进行特征对比，当所有特征对比结果为特征不一致时，产生反馈信号，当特征对比结果中存在特征一致时，将特征对比结果为一致的视频作为初始视频再次进行视频映射和目标检测，直到产生反馈信号，根据检测到检测目标的视频对应监控的地理位置，对检测目标的运动轨迹进行绘制，提高了运动目标检测的效率。

根据本发明的第一方面，本发明请求保护一种基于深度学习的运动目标检测方法，包括：

S1：获取检测目标的特征图像；

S2：获取初始视频，其中，所述初始视频为待检视频集中所述检测目标在初始位置的视频；

S3：将所述初始视频对应监控的地理位置输入视频拓扑模型，得到第一视频集；

其中，所述视频拓扑模型为根据所述待检视频集对应监控的地理位置关系建立的拓扑模型，所述第一视频集为所述待检视频集中与所述初始视频对应监控的地理位置相邻的视频的集合；

S4：对所述第一视频集进行分帧处理，得到若干个对应的第一图像集；

S5：根据所述特征图像对所述检测目标进行目标检测，分别将所述第一图像集输入目标检测模型，判断第一视频是否存在所述检测目标，其中，所述第一视频为所述第一视频集的元素，当所有所述第一视频都不存在所述检测目标时产生反馈信号，所述反馈信号用于表示所述目标检测已经结束，当一个或多个所述第一视频存在所述检测目标时，将所述第一视频作为所述初始视频，重复S3-S5。

在本申请一实施例中，将所述初始视频对应监控的地理位置输入所述视频拓扑模型，得到所述第一视频集之前，还包括：

获取所述检测目标从所述初始视频消失前的最后一帧图像，得到第二图像；

将所述第二图像输入所述视频拓扑模型，根据所述检测目标在所述第二图像中的位置，得到所述第一视频集；

其中，所述视频拓扑模型包括结点和链路，建立方法具体如下：

采集所述待检视频集在相同时间点处截取的图像，得到第三图像集；

分别对所述第三图像集进行图像预处理，得到第四图像集；

获取所述待检视频集对应监控的地理位置；

分别对所有第四图像进行特征识别和提取，得到有效区域，其中，所述第四图像为所述第四图像集中的元素，所述有效区域为每一个所述第四图像中与其他所述第四图像表现出地理位置相邻的图像区域；

以所有待检视频为所述结点，将每一个所述有效区域与其他所述第四图像的对应关系作为所述结点之间的所述链路，得到所述视频拓扑模型。

在本申请一实施例中，分别对所有所述第四图像进行特征识别和提取，得到所述有效区域之后，所述视频拓扑模型的所述建立方法还包括根据预设重叠率建立视频组，其中，所述预设重叠率为将两个及以上的所述待检视频作为视频组建立所述结点的重叠率阈值，所述视频组的建立方法具体如下：

判断所述有效区域是否属于视域重叠区域，所述视域重叠区域为两个及以上的所述待检视频之间出现视域重叠的区域，当所述有效区域属于所述视域重叠区域时，计算得到当前所述第四图像的实际重叠率，将所述实际重叠率与所述预设重叠率进行对比，当所述实际重叠率大于所述预设重叠率时，将所述两个及以上的所述待检视频作为所述视频组建立所述结点，当所述有效区域不属于所述视域重叠区域，或所述实际重叠率不大于所述预设重叠率时不建立所述视频组，分别将所述两个及以上的所述待检视频作为所述结点建立所述视频拓扑模型。

在本申请一实施例中，将所述第二图像输入所述视频拓扑模型之前，还包括获取所述第二图像对应的时间点，得到消失时间。

在本申请一实施例中，还包括按照时间轴的逆向顺序获取所述第二图像。

在本申请一实施例中，获取所述检测目标的所述特征图像之后，还包括：

对所述特征图像进行特征提取，得到第一向量，所述第一向量为所述检测目标在所述特征图像中的特征向量；

获取所述第一向量中每一项分量对应的第一权重，所述第一权重用于对所述分量的期望关注度进行排序，所述期望关注度越高的所述分量对应的所述第一权重越高。

在本申请一实施例中，当一个或多个所述第一视频存在所述检测目标时，还包括对疑似目标进行人工校验，其中，所述疑似目标为根据所述第一向量在所述第一图像集中检测到可能为所述检测目标的对象，所述人工校验方法具体如下：

判断所述疑似目标与所述检测目标是否一致，当所述疑似目标与所述检测目标一致时，所述第一视频集存在所述检测目标，当所述疑似目标与所述检测目标不一致时，所述第一视频集不存在所述检测目标，产生所述反馈信号。

在本申请一实施例中，当所述疑似目标与所述检测目标一致时，还包括对所述第一向量进行特征更新，具体如下：

对所述疑似目标进行所述特征向量的提取，得到第二向量；

将所述第二向量和所述第一向量进行特征融合，得到第三向量；

将所述第三向量用于作为所述第一向量输入所述目标检测模型。

在本申请一实施例中，所述目标检测模型为SIFT目标检测模型，所述SIFT目标检测模型用于利用SIFT算法对所述检测目标与所述第一图像进行特征对比，所述目标检测模型的输入是所述特征图像和所述第一图像，输出为所述第一图像是否存在与所述第一向量对应的所述检测目标，当所述第一图像存在与所述第一向量对应的所述检测目标时，输出所述疑似目标，当所述第一图像不存在与所述第一向量对应的所述检测目标时，输出所述反馈信号。

根据本发明第二方面，本发明请求保护一种基于深度学习的运动目标检测系统，包括：

特征提取模块：所述特征提取模块用于获取检测目标的特征图像；

视频采集模块；所述视频采集模块用于获取初始视频，其中，所述初始视频为待检视频集中所述检测目标在初始位置的视频；

图像处理模块：所述图像处理模块用于对第一视频集进行分帧处理，得到若干个对应的第一图像集；

目标检测模块：所述目标检测模块用于根据所述特征图像对所述检测目标进行目标检测，分别将所述第一图像集输入目标检测模型，判断所有第一视频是否存在所述检测目标，其中，所述第一视频为所述第一视频集的元素，当所有所述第一视频都不存在所述检测目标时产生反馈信号，所述反馈信号用于表示所述目标检测已经结束，当一个或多个所述第一视频存在所述检测目标时，将所述第一视频作为所述初始视频，将所述初始视频发送给数据处理模块；

数据处理模块，所述数据处理模块用于将所述初始视频对应监控的地理位置输入视频拓扑模型，得到第一视频集；

其中，所述视频拓扑模型为根据所述待检视频集对应监控的地理位置关系建立的拓扑模型，所述第一视频集为所述待检视频集中与所述初始视频对应监控的地理位置相邻的视频的集合。

在本申请一实施例中，所述图像处理模块还包括用于获取所述检测目标从所述初始视频消失前的最后一帧图像，得到第二图像；

所述图像处理模块将所述第二图像发送给所述数据处理模块，所述数据处理模块将所述第二图像输入所述视频拓扑模型，根据所述检测目标在所述第二图像中的位置，得到所述第一视频集；

分别对所述第三图像集进行图像预处理，得到第四图像集；

获取所述待检视频集对应监控的地理位置；

在本申请一实施例中，所述数据处理模块将所述第二图像输入所述视频拓扑模型之前，还包括获取所述第二图像对应的时间点，得到消失时间。

在本申请一实施例中，所述数据处理模块按照时间轴的逆向顺序获取所述第二图像。

在本申请一实施例中，所述特征提取模块获取所述检测目标的所述特征图像之后，还包括：

在本申请一实施例中，所述目标检测模块还包括当一个或多个所述第一视频存在所述检测目标时，对疑似目标进行人工校验，其中，所述疑似目标为根据所述第一向量在所述第一图像集中检测到可能为所述检测目标的对象，所述人工校验方法具体如下：

与现有技术相比，本发明的有益效果：

1、视频拓扑模型利用待检视频对应监控的地理位置建立视频拓扑网络，视频拓扑网络中的待检视频通过地理位置产生连接关系，利用连接关系能够在进行多视频联动检测的过程中排除大量无需进行目标检测的待检视频，将所有视频遍历转化为区域普查，降低了目标检测的难度，减少了检测工作量，提高了目标检测的效率。

2、根据检测目标在第二图像中位置的最低点对视域子区域进行区域匹配，将概率向量与视域子区域进行结合，优先对出现概率高的所述第一视频进行目标检测，减低了目标检测的工作量，提高了检测效率。

3、若对第一视频集进行遍历后，仍然未检测到检测目标，初始视频与第一视频集之间存在监控盲区，可以通过人工排查的方式寻找检测目标，从而减小人力排查成本。

4、根据出现概率对部分第一视频进行筛选，提高了目标检测效率。

5、当检测目标在所述第二图像中的位置不属于有效区域，则检测目标在当前第一图像中出现异常消失，产生第二反馈信号，第二反馈信号表示所述检测目标的运动轨迹异常，需要人工介入，从而实现对不同应用场景的适应。

6、视频组将部分视域重叠率高的待检视频进行合并检测，能够节约计算资源，提高对检测目标的轨迹追踪效率。

7、将消失时间作为对第一视频集进行目标检测的起始时间，根据起始时间对第一图像集进行筛选，舍弃起始时间点之前的第一图像，将目标检测的计算资源集中在所述消失时间之后，能够减少所述目标检测的检测量，提高检测效率。

8、检测目标的运动轨迹可能多次重复出现在同一个待检视频中，在需要对检测目标的当前位置进行快速定位时，目标检测按照倒序的顺序对第一图像集进行检测，能够快速获取所述检测目标最后一次出现在第一视频时的所述第二图像，能够减少由于路径重复导致对同一个第一视频进行重复检测，并且在需要进行快速定位的应用场景下，可以舍弃路径重叠部分，减少目标检测工作量和时间，提高检测效率。

9、通过第一向量将不同的特征向量进行整合，能够在进行目标检测时贴合实际应用场景，提高目标检测的准确率和召回率，减少漏检率。

10、通过人工校验对疑似目标进行二次验证，能够提高目标检测的准确率。同时，对每次目标检测后的结果都增加人工校验，能够增加目标检测的可靠性，当根据第一向量在第一图像集中检测到的疑似目标与所述检测目标不一致时，能够通过人工校验进行及时纠正，避免根据某次检测的错误结果继续进行检测，从而导致最终检测结果朝向不可控的方向继续发展。

11、经过人工校验的所述检测目标的所述第二向量用于对所述第一向量进行特征修正，使得用于进行特征比对的特征向量更贴合当前所述检测目标的特征，提高目标检测的准确率。

附图说明

图1为本申请的一种基于深度学习的运动目标检测方法流程图；

图2为本申请的视频拓扑模型整体结构示意图；

图3为本申请的根据视域信息建立的视频拓扑模型结构示意图；

图4为本申请的一个可行的实施例示意图；

图5为本申请的一种基于深度学习的运动目标检测系统结构示意图；

图中标识：1-结点，2-链路，3-视频组对应结点，4-第二图像，5-第一边缘区域，6-第二边缘区域，7-第三边缘区域，8-出口区域，9-运动轨迹，10-结点对应的待检视频图像。

具体实施方式

本发明请求保护一种基于深度学习的运动目标检测方法，将初始视频输入视频拓扑模型进行映射，得到与初始视频的地理位置相邻的其他视频的集合，对集合中的视频进行分帧处理，将检测目标的特征向量与分帧后的视频图像输入SIFT目标检测模型进行特征对比，当所有特征对比结果为特征不一致时，产生反馈信号，当特征对比结果中存在特征一致时，将特征对比结果为一致的视频作为初始视频再次进行视频映射和目标检测，直到产生反馈信号，根据检测到检测目标的视频对应监控的地理位置，对检测目标的运动轨迹进行绘制，提高了运动目标检测的效率。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。

在本发明的描述中，参考术语“一个可行的实施方式”、“本实施方式”、“实施例”、“示例”等的描述并非旨在限制要求保护的本发明的范围，而是仅仅表示结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

根据本发明的第一方面，参照附图1和附图2，本发明请求保护一种基于深度学习的运动目标检测方法，包括：

S1：获取检测目标的特征图像；

需要说明的是，所述检测目标为监控视频中的运动对象，包括人物、车辆和宠物等，不同类型的所述检测目标关注的所述特征向量不同，从而会得到不同的所述第一向量，例如，所述检测目标为人物时，所述特征图像应当优先考虑人脸特征图像，将所述检测目标的人脸图像作为所述特征图像进行检测，但所述检测目标为车辆时，所述特征图像则会优先根据车牌信息进行定位追踪，在对特定信息特征，如车牌等进行特征对比时，可以选择对所述第一图像中车辆的车牌信息进行识别，得到车牌号，将检测目标的车牌号与检测到的车牌号进行对比。

同时，所述特征图像用于提取所述检测目标的特征向量，所述特征向量为本领域的技术人员所知，应当解释为本公开所属领域的普通技术人员共同理解的相同含义，本发明不再进行详细解释。在获取所述特征向量时，可以选择所述检测目标的近期照片，也可以选择辅助特征的图片，例如衣服特征图像等，或者利用自然语言处理和图像处理相结合的方式生成所述特征图像，根据不同的应用场景选择不同类型的所述特征图像进行特征对比，本申请不对获取所述特征图像的方式进行进一步限制，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与组合等，一切不脱离本发明的精神和范围的技术方案及其改进，均仍属于本发明技术方案的保护范围之内。

需要说明的是，对所述检测目标可能出现的一个或多个所述初始位置的视频进行特征匹配。当且仅当一个所述视频存在所述检测目标时，则所述待检视频为所述初始视频；当两个及以上所述视频存在所述检测目标时，可选择任意一个所述视频作为所述初始视频，或者可以将存在所述检测目标的所有视频分别作为所述初始视频，在计算机设备上通过并行和/或串行的方式对所有所述初始视频进行所述目标检测；当所有所述视频都不存在所述检测目标时，则根据地理位置扩大所述视频的搜寻范围，并对扩大后的所述搜寻范围中新增的所述视频继续进行目标检测，直到得到所述初始视频。另外，还可以利用所述检测目标在检测初始时间之前的已知路径进行辅助检测，其中，所述初始时间为对所述待检视频进行所述目标检测的起始时间点，以所述已知路径中途径的所述待检视频作为所述初始视频进行目标检测，从而提高了目标检测的效率。本申请不对所述获取所述初始视频的方法进行限制，所述获取所述初始视频的目的在于以所述初始视频为起始点对所述检测目标进行所述目标检测，不脱离本发明的精神和范围的技术方案及其改进，均仍属于本发明技术方案的保护范围之内。

在本实施方式中，参照附图2，所述视频拓扑模型利用所述待检视频对应监控的地理位置建立视频拓扑网络，所述视频拓扑网络中的所述待检视频通过地理位置产生连接关系，利用所述连接关系能够在进行多视频联动检测的过程中排除大量无需进行目标检测的所述待检视频，将视频遍历转化为区域普查，降低了目标检测的难度，减少了检测工作量，提高了目标检测的效率。所述视频拓扑模型的建立方法具体如下：

将所述待检视频集记为V，即V={v₁，v₂，v₃…v_i…v_n}，其中，i∈[1，n]，且i为正整数，n为所述待检视频集的元素数量，v_i为所述待检视频集中的第i个所述待检视频。对结点进行编号，得到一级标识，记为T，即T={t₁,t₂,t₃…t_i…t_n}，t_i为v_i对应的所述结点，所述一级标识用于区分不同的所述结点，所述一级标识与所述结点一一对应，由此可知，所述一级标识与所述待检视频集中的所述待检视频一一对应，所述一级标识与所述待检视频对应的监控也是一一对应。t_i对应的链路向量记为L_i，即L_i=[l_i1，l_i2，l_i3…l_ij…l_in]，其中，j∈[1，n]，且j为正整数，l_ij表示t_i与t_j对应监控的地理位置是否相邻，当l_ij的取值为1时，则t_i和t_j对应监控的地理位置相邻，即t_i与t_j对应，当l_ij的取值为0时，则t_i和t_j对应监控的地理位置不相邻，即t_i与t_j不对应。特殊地，当i=j时，l_ij表示t_i与t_i的对应关系，将l_ij设为0。由此可知，某个特定的所述结点t_i对应所述链路的数量为1-n中任意一项，当且仅当T中不存在与t_i对应的所述结点时，L_i为零向量。

在目标检测过程中，获取所述初始视频v_i对应结点t_i，在所述链路向量L_i中取l_ij≠0时对应的所述结点t_j，将所述结点t_j对应的v_j整合得到所述第一视频集A_i，即A_i={v_j|v_j∈V，且l_ij≠0}，由此可知，所述第一视频集A为所述待检视频集T的子集，即A⊆T。

需要说明的是，在实际应用场景中，所述第一图像集的特征对比质量会受到所述第一图像拍摄所述第一视频集时环境因素的干扰，例如所述检测目标的检测时间为晚上，自然光照不足、路灯光线过强等因素容易造成所述第一图像的局部过曝，增加所述目标检测的难度，减低所述目标检测的准确率。所述图像预处理可以选择局部直方图均衡化，对所述第一图像进行图像增强。具体地，将所述第一图像分为若干子区域，分别根据每一个所述子区域的灰度级分布情况进行统计和归一化处理，从而使所述第一图像整体的对比度更加均匀，减少光照对所述目标检测的影响。所述图像预处理的目的在于降低环境因素对目标检测的影响，本申请不对所述图像预处理的具体方法进行限制，不脱离本发明的精神和范围的技术方案及其改进，均仍属于本发明技术方案的保护范围之内。

在本实施方式中，参照附图1，将所述特征图像分别与所述第一图像集进行特征对比，通过如下操作，得到所述检测目标的运动轨迹，其中，所述第一图像为所述第一图像集中的元素：

S1：获取所述特征图像；

S2：获取所述初始视频；

S3：根据所述初始视频在所述视频拓扑模型中的映射得到所述第一视频集A，N为所述第一视频集A中元素的数量，将flag和k的取值设置都为1；

S31：判断k的取值是否不大于N，若是，从S4继续执行，若否，从S51继续执行；

S4：对第k段所述第一视频进行分帧处理，得到对应的所述第一图像集，M为所述第一图像集中元素的数量，将b的取值设置都为1；

S41：判断b的取值是否不大于M，若是，从S5继续执行，若否，将k的取值加1，并返回S31继续执行；

S5：判断第b张所述第一图像的图像特征与所述特征图像是否一致，

若是，在电子地图上标注所述第一视频对应监控的地理位置，并将k的取值加1，返回S31继续执行

若否，将b的取值加1，返回S41继续执行；

S51：判断flag的取值是否等于1，

若是，将产生反馈信号，

若否，将在电子地图上标注的地理位置对应的所述第一视频作为所述初始视频，返回S3继续执行。

需要说明的是，flag用于表示所述第一视频集中是否存在检测到所述检测目标的视频，在S51中判断flag是否等于1，当flag的取值为1时，所述目标检测已经完成，将电子地图上所有标注的地理位置按照标注顺序进行连线，得到所述检测目标的运动轨迹，当flag不为1时，flag的取值可能为2或者大于2，若flag的取值为2，所述第一视频集中仅有一个视频存在所述检测目标，则将所述视频作为初始视频，返回S3继续进行所述目标检测，若flag的取值大于2时，则所述第一视频集中有两个及以上视频存在所述检测目标，可以根据不同的应用场景采用不同的决策方式继续进行目标检测，例如可以通过串行和/或并行的方式对所有所述视频进行遍历，也可根据在所述视频中第一次检测到所述检测目标的时间点进行排序，取时间点最小值对应的所述视频作为所述初始视频，或者选取时间点最大值对应的所述视频作为初始视频，在上述三种决策方式中，第一种方式得到的运动轨迹的准确度最高，与所述检测目标的实际运动轨迹匹配度最高，第二种方式在保证运动轨迹准确度较高的同时，在检测速度上得到了提升，第三种方式在检测过程中由于舍弃了一部分运动轨迹，在三种决策方式中检测速度最高，能够适用于需要尽快获取所述检测目标当前的位置，例如寻找走失的儿童。

在一个可行的实施方式中，参照附图3，将所述初始视频对应监控的地理位置输入所述视频拓扑模型，得到所述第一视频集之前，还包括：

在本实施方式中，在根据所述待检视频对应监控的地理位置建立所述视频拓扑模型的基础上，利用所述待检视频集的视域信息对所述视频拓扑模型进行改造。在地理位置相邻的基础上，将所述待检视频的视域分为若干个视域子区域，不同所述视域子区域对应不同的概率向量P，即P=[p_i1，p_i2，p_i3…p_ij…p_in]，其中pij∈[0，1]，p_ij为l_ij对应的概率分量，表示所述检测目标在离开初始视频v_i的视域后，出现在所述待检视频v_j的概率。根据所述概率向量对所述第一视频集A中的元素进行排序，根据排序结果对所述第一视频集进行所述目标检测。所述概率分量p_ij的具体取值根据地理位置进行设置，例如：对于某个特定的所述结点t_i而言，将所述待检视频集V中不属于所述第一视频集A中的元素对应的p_ij设置为0，将取值区间[0，1]均分为N份，根据地理位置关系将每一份取值区间的中间值作为所述视频集A中的元素对应的p_ij。具体地示例，若所述第一视频集A中存在2个所述第一视频，将取值区间[0，1]均分为2份，分别为(0，0.5]和(0.5，1]，则当前所述视域子区域对应的概率向量P=[0，0,…0.25…0.75…0]，表示所述检测目标从当前所述视域子区域消失后，出现在所述第一视频集中的第二个元素的概率大于第一个元素。同时，另一个所述视域子区域对应的概率向量P=[0，0,…0.75…0.25…0]，表示所述检测目标从当前所述视域子区域消失后，出现在所述第一视频集中的第一个元素的概率大于第二个元素。

另外，所述视域子区域可能为视域重叠区域，所述视域重叠区域为多个所述待检视频之间在视域中出现重叠的区域，当所述检测目标在所述第二图像中的位置属于所述视域重叠区域，则所述检测目标在离开初始视频的视域后，出现在所述视域重叠区域对应的其他所述待检视频的概率相较于仅地理位置相邻的其他所述待检视频而言最高，例如可以选择将对应的所述概率分量设置为1。

需要说明的是，根据概率分量的排序结果对所述第一视频集进行所述目标检测时，可以采用按照概率分量降序确定检测优先级，概率分量越大对应的优先级越高，根据优先级依次对所述第一视频集进行目标检查，直到检测到所述检测目标时，停止对余下的所述第一视频进行目标检测，将当前所述第一视频作为初始视频继续进行目标检测。根据所述检测目标在所述第二图像中位置的最低点对所述视域子区域进行区域匹配，例如人物的脚底中心点在所述第二图像中的位置，将所述概率向量与所述视域子区域进行结合，优先对出现概率高的所述第一视频进行目标检测，减低了目标检测的工作量，提高了检测效率。若对所述所述第一视频集进行遍历后，仍然未检测到所述检测目标，所述初始视频与所述第一视频集之间存在监控盲区，可以通过人工排查的方式寻找所述检测目标，从而减小了人力排查成本。

需要说明的是，同一个监控的视域是保持不变的，从所述待检视频截取某一时间点的图像能够代表对应监控的视域，选择相同时间点的图像能够减少由于环境因素导致对所述视域子区域的识别误差，最好选择视域信息清楚的时间点的图像，例如：避免选择夜晚的图像。

分别对所述第三图像集进行图像预处理，得到第四图像集；

需要说明的是，所述图像预处理为本领域的技术人员所公知的，其目的在于便于对图像特征进行识别和提取，本申请不对具体处理方法进行限制，不脱离本发明的精神和范围的技术方案及其改进，均仍属于本发明技术方案的保护范围之内。

获取所述待检视频集对应监控的地理位置；

在本实施方式中，所述有效区域包括边缘区域和出口区域，其中，所述边缘区域为在所述第四图像距离边缘一定距离的区域范围中，所述检测目标从当前所述待测视频离开时可能途径的区域，所述边缘区域可能包含一个或多个所述视域子区域，所述出口区域为除所述边缘区域以外，所述待检视频的视域通过特定道路类型与其他所述待检视频表现出地理位置相邻的图像区域，例如楼梯等。当所述检测目标在所述第二图像中的位置不属于所述有效区域，则所述检测目标在当前所述第一图像中出现异常消失，产生第二反馈信号，所述反馈信号表示所述检测目标的运动轨迹异常，需要人工介入，例如，对某一特定人物进行目标检测时，所述检测目标从步行移动改为乘坐公共汽车继续移动，在对所述检测目标进行检测时，所述检测目标在所述第二图像中的位置不属于所述有效区域，可以人为将所述检测目标改变为对应的公共汽车，将当前视频作为所述初始视频继续进行检测。

需要说明的是，获取所述有效区域的方法可以采用人工识别和标记，也可以利用SIFT算法对地理位置相邻的所述待检视频进行特征对比，所述SIFT算法为本领域的技术人员所公知的，其目的在于将所述结点t_i与所述结点t_j的链路对应关系替换为所述结点t_i中的所述有效区域与所述结点t_j的链路对应关系，本申请不对具体处理方法进行限制，不脱离本发明的精神和范围的技术方案及其改进，均仍属于本发明技术方案的保护范围之内。

在本实施方式中，所述有效区域可以视为所述视域子区域，对所有所述有效区域进行编号，得到二级标识，记为E_i，即E_i={e_i1，e_i2，e_i3…e_ih…e_iq}，其中，q为t_i对应的所述有效区域记的总数，h∈[1，q]，且h为正整数，e_ih表示结点ti对应的第h个所述有效区域。所述有效区域与所述概率向量对应，即结点ti同时对应有q个所述有效区域，其中编号为e_ih的所述有效区域对应一个概率向量P=[p_i1，p_i2，p_i3…p_ij…p_in]，概率向量P_ij表示所述检测目标从结点t_i的视域消失后，出现在结点t_j视域的概率，根据出现概率排序结果划分目标检索范围，从而实现对所述第一视频集遍历检索，其中，所述目标检索范围可以根据实际应用场景进行选择，例如仅对出现概率大于概率阈值的所述第一视频进行遍历，或者仅对出现概率降序排序的前三个所述第一视频进行遍历，或者按照出现概率降序顺序依次进行遍历，当检测到所述检测目标时停止对剩余所述第一视频进行检测，提高了目标检测效率。

在一个可行的实施方式中，参照附图2，分别对所有所述第四图像进行特征识别和提取，得到所述有效区域之后，所述视频拓扑模型的所述建立方法还包括根据预设重叠率建立视频组，其中，所述预设重叠率为将两个及以上的所述待检视频作为视频组建立所述结点的重叠率阈值，所述视频组的建立方法具体如下：

在本实施方式中，在实际应用场景中，对于同一个场景会利用多个监控进行多角度的视频拍摄，得到相似度高的所述待检视频，所述待检视频的视域重叠区域较大，所述检测目标进入所述场景时，可能同时出现在多个所述待检视频中，在进行后续的目标检测时，需要串行和/或并行地对多个所述待检视频进行检测，检测工作量大。将所述实际重叠率大于所述预设重叠率的多个所述待检视频作为视频组，将所述视频组作为结点建立所述视频拓扑模型，所述视频组中的所有所述待检视频共享同一个所述结点，所述视频组对应结点与其他所述结点之间的所述链路的获取方法为：将所述视频组中的所述有效区域中除多个所述待检视频之间的所述视域重叠区域以外的区域，作为所述视频组的所述有效区域，将所有所述有效区域统一编号，得到所述视频组对应的所述链路。在进行目标检测过程中，当所述第一视频集中包含所述视频组，将所述视频组中所有所述待检视频对应的所述第二图像进行图像融合算法处理后在进行目标检测，所述视频组将部分视域重叠率高的所述待检视频进行合并检测，能够节约计算资源，提高对所述检测目标的轨迹追踪效率。其中，所述图像融合算法的目的在于利用两张或两张以上所述第二图像在空间上的相关性和信息互补性，使得融合后得到的图像对所属场景有更加全面、清晰的描述，该算法为本领域的技术人员所公知的，本申请不再对其进行阐述，并且不对具体的算法选择进行进一步限制，不脱离本发明的精神和范围的技术方案及其改进，均仍属于本发明技术方案的保护范围之内。

在一个可行的实施方式中，将所述第二图像输入所述视频拓扑模型之前，还包括获取所述第二图像对应的时间点，得到消失时间。

在本实施方式中，将所述消失时间作为对所述第一视频集进行目标检测的起始时间，根据所述起始时间对所述第一图像集进行筛选，舍弃所述起始时间点之前的所述第一图像，将目标检测的计算资源集中在所述消失时间之后，能够减少所述目标检测的检测量，提高检测效率。

在一个可行的实施方式中，还包括按照时间轴的逆向顺序获取所述第二图像。

在本实施方式中，参照附图4，R1-R11共同组成所述检测目标的运动轨迹，在实际应用场景中，所述检测目标的运动轨迹可能多次重复出现在同一个所述待检视频中，参照附图4中的路径R2和R10，在需要对所述检测目标的当前位置进行快速定位时，所述目标检测按照倒序的顺序对所述第一图像集进行检测，能够快速获取所述检测目标在第二离开时间的所述第二图像，能够减少由于路径重复导致对同一个所述第一视频进行重复检测（从第一进入时间到第一离开时间，从第二进入时间到第二离开时间），并且在需要进行快速定位的应用场景下，可以舍弃部分路径R2-R10，减少目标检测工作量和时间，提高检测效率。

在一个可行的实施方式中，获取所述检测目标的所述特征图像之后，还包括：

在本实施方式中，所述第一向量包含的所述特征向量的类型可能不同，例如，在监控视频细节特征明显的条件下，如监控视频的分辨率高、场景无遮蔽等，对某一特定的人物进行检测可以通过人脸特征进行特征匹配，在监控视频细节特征不明显的条件下，如监控视频的分辨率低、场景遮蔽严重等，对所述人物的检测除了所述人脸特征，还可以通过辅助特征进行匹配，所述辅助特征包括人物的着装特征等。另外，对于不同的应用场景，需要进行的目标检测也不相同，例如，在寻找走失的儿童时，除了关注所述检测目标的人脸信息，在短时间内，还可以重点根据着装特征进行特征匹配，增大对着装特征对应的权重值，但是，对犯罪嫌疑人的检测，所述检测目标会主动改变着装特征，减小着装特征的权重值。另外，所述第一权重还可以根据获取所述检测目标的特征向量的方法进行设置，例如，同时获取到多个所述特征向量：从近期照片中获取的特征向量，所述待检视频中获取的特征向量和着装图片的特征向量，在所述待检视频分辨率高的条件下，对所述待检视频中获取的特征向量设置较高的权重，同时人脸特征容易识别，对从近期照片中获取的特征向量设置较高的权重，优先根据所述待检视频中获取的特征向量和/或从近期照片中获取的特征向量进行特征比对，在所述待检视频分辨率低的条件下，人脸特征模糊，对从近期照片中获取的特征向量设置较低的权重。在实际应用场景中，所述特征向量的获取方式较多，需要综合考虑不同的特征向量，通过所述第一向量将不同的特征向量进行整合，能够在进行目标检测时贴合实际应用场景，提高目标检测的准确率和召回率，减少漏检率。

在一个可行的实施方式中，当一个或多个所述第一视频存在所述检测目标时，还包括对疑似目标进行人工校验，其中，所述疑似目标为根据所述第一向量在所述第一图像集中检测到可能为所述检测目标的对象，所述人工校验方法具体如下：

在本实施方式中，通过所述人工校验对所述疑似目标进行二次验证，能够提高目标检测的准确率。同时，对每次目标检测后的结果都增加所述人工校验，能够增加目标检测的可靠性，当根据所述第一向量在所述第一图像集中检测到的疑似目标与所述检测目标不一致时，能够通过人工校验进行及时纠正，避免根据某次检测的错误结果继续进行检测，从而导致最终检测结果朝向不可控的方向继续发展。

在一个可行的实施方式中，当所述疑似目标与所述检测目标一致时，还包括对所述第一向量进行特征更新，具体如下：

对所述疑似目标进行所述特征向量的提取，得到第二向量；

在本实施方式中，将经过人工校验的所述检测目标在所述第一图像集中的所述第二向量反馈至所述第一向量中，可以取所述第一向量和所述第二向量的平均值得到所述第三向量，将所述第三向量用于进行下一次的目标检测。在实际应用场景中，同一个所述第一向量在不同的所述第一视频集的检测中，检测结果可能会出现误差，尤其是在所述第一向量标识的特征向量较为模糊，例如用于特征向量提取的照片不是近期，与目前本人有较大变化，或者所述特征向量为文字描述的特征等，经过人工校验的所述检测目标的所述第二向量用于对所述第一向量进行特征修正，使用于进行特征比对的特征向量跟贴合当前所述检测目标的特征，提高目标检测的准确率。

在一个可行的实施方式中，所述目标检测模型为SIFT目标检测模型，所述SIFT目标检测模型用于利用SIFT算法对所述检测目标与所述第一图像进行特征对比，所述目标检测模型的输入是所述特征图像和所述第一图像，输出为所述第一图像是否存在与所述第一向量对应的所述检测目标，当所述第一图像存在与所述第一向量对应的所述检测目标时，输出所述疑似目标，当所述第一图像不存在与所述第一向量对应的所述检测目标时，输出所述反馈信号。

需要说明的是，采用SIFT算法对所述检测目标与所述第一图像进行特征对比，SIFT算法为本领域的技术人员公知的处理方法，其目的对提取所述检测目标的局部特征，根据局部特征进行特征对比，该算法在进行特征对比过程中，具有旋转、尺度缩放和亮度的不变性，同时在噪声存在的情况下也能保持稳定性。所述SIFT算法的主要步骤包括寻找潜在特征点、过滤特征点、计算特征点的方向和构建特征点描述符。

根据本发明的第二方面，参照附图5，本发明请求保护一种基于深度学习的运动目标检测系统，包括：

在一个可行的实施方式中，所述图像处理模块还包括用于获取所述检测目标从所述初始视频消失前的最后一帧图像，得到第二图像；

分别对所述第三图像集进行图像预处理，得到第四图像集；

获取所述待检视频集对应监控的地理位置；

在一个可行的实施方式中，分别对所有所述第四图像进行特征识别和提取，得到所述有效区域之后，所述视频拓扑模型的所述建立方法还包括根据预设重叠率建立视频组，其中，所述预设重叠率为将两个及以上的所述待检视频作为视频组建立所述结点的重叠率阈值，所述视频组的建立方法具体如下：

在一个可行的实施方式中，所述数据处理模块将所述第二图像输入所述视频拓扑模型之前，还包括获取所述第二图像对应的时间点，得到消失时间。

在一个可行的实施方式中，所述数据处理模块按照时间轴的逆向顺序获取所述第二图像。

在一个可行的实施方式中，所述特征提取模块获取所述检测目标的所述特征图像之后，还包括：

在一个可行的实施方式中，所述目标检测模块还包括当一个或多个所述第一视频存在所述检测目标时，对疑似目标进行人工校验，其中，所述疑似目标为根据所述第一向量在所述第一图像集中检测到可能为所述检测目标的对象，所述人工校验方法具体如下：

本领域内的技术人员应理解，本发明的实施例所披露的内容可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式实现。

本领域内普通技术人员可以理解，上述方法中的全部或部分步骤中可通过计算机程序指令相关硬件完成，这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

本公开中使用了流程图用来说明通过本公开的实施例的方法的步骤。应当理解的是，前面或后面的步骤不一定按照顺序来精确的进行。相反，可以按照倒序或同时评价各种步骤。同时，也可以将其他操作添加到这些过程中。

除非另有定义，这里使用的所有术语具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案，尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明，但本发明不局限于上述具体实施方式，本领域的普通技术人员可以理解：依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，而一切不脱离本发明的精神和范围的技术方案及其改进，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种基于深度学习的运动目标检测方法，其特征在于，包括：

S1：获取检测目标的特征图像；

S5：根据所述特征图像对所述检测目标进行目标检测，分别将所述第一图像集输入目标检测模型，判断第一视频是否存在所述检测目标，其中，所述第一视频为所述第一视频集的元素，当所有所述第一视频都不存在所述检测目标时产生反馈信号，所述反馈信号用于表示所述目标检测已经结束，当一个或多个所述第一视频存在所述检测目标时，将所述第一视频作为所述初始视频，重复S3-S5；

若所述第一视频集中仅有一个视频存在所述检测目标时，则将所述视频作为初始视频；若所述第一视频集中有两个及以上视频存在所述检测目标时，则采用决策方式继续进行目标检测，所述决策方式包括通过串行和/或并行的方式对所有所述视频进行遍历，或者根据在所述视频中第一次检测到所述检测目标的时间点进行排序，取时间点最小值对应的所述视频作为所述初始视频，或者根据在所述视频中第一次检测到所述检测目标的时间点进行排序，选取时间点最大值对应的所述视频作为初始视频；

其中，将所述初始视频对应监控的地理位置输入所述视频拓扑模型，得到所述第一视频集之前，还包括：

其中，按照时间轴的逆向顺序获取所述第二图像；

分别对所述第三图像集进行图像预处理，得到第四图像集；

获取所述待检视频集对应监控的地理位置；

以所有待检视频为所述结点，将每一个所述有效区域与其他所述第四图像的对应关系作为所述结点之间的所述链路，得到所述视频拓扑模型；

其中，将所述第二图像输入所述视频拓扑模型之前，还包括获取所述第二图像对应的时间点，得到消失时间。

2.如权利要求1所述的一种基于深度学习的运动目标检测方法，其特征在于，分别对所有所述第四图像进行特征识别和提取，得到所述有效区域之后，所述视频拓扑模型的所述建立方法还包括根据预设重叠率建立视频组，其中，所述预设重叠率为将两个及以上的所述待检视频作为视频组建立所述结点的重叠率阈值，所述视频组的建立方法具体如下：

3.如权利要求2所述的一种基于深度学习的运动目标检测方法，其特征在于，获取所述检测目标的所述特征图像之后，还包括：

4.如权利要求3所述的一种基于深度学习的运动目标检测方法，其特征在于，当一个或多个所述第一视频存在所述检测目标时，还包括对疑似目标进行人工校验，其中，所述疑似目标为根据所述第一向量在所述第一图像集中检测到可能为所述检测目标的对象，所述人工校验方法具体如下：

5.如权利要求4所述的一种基于深度学习的运动目标检测方法，其特征在于，当所述疑似目标与所述检测目标一致时，还包括对所述第一向量进行特征更新，具体如下：

对所述疑似目标进行所述特征向量的提取，得到第二向量；

6.如权利要求5所述的一种基于深度学习的运动目标检测方法，其特征在于，所述目标检测模型为SIFT目标检测模型，所述SIFT目标检测模型用于利用SIFT算法对所述检测目标与所述第一图像进行特征对比，所述目标检测模型的输入是所述特征图像和所述第一图像，输出为所述第一图像是否存在与所述第一向量对应的所述检测目标，当所述第一图像存在与所述第一向量对应的所述检测目标时，输出所述疑似目标，当所述第一图像不存在与所述第一向量对应的所述检测目标时，输出所述反馈信号。

7.一种基于深度学习的运动目标检测系统，其特征在于，包括：

图像处理模块：所述图像处理模块用于对第一视频集进行分帧处理，得到若干个对应的第一图像集；获取所述检测目标从所述初始视频消失前的最后一帧图像，得到第二图像；

所述图像处理模块将所述第二图像发送给数据处理模块，所述数据处理模块将所述第二图像输入视频拓扑模型，根据所述检测目标在所述第二图像中的位置，得到所述第一视频集；

分别对所述第三图像集进行图像预处理，得到第四图像集；

获取所述待检视频集对应监控的地理位置；

其中，将所述第二图像输入所述视频拓扑模型之前，还包括获取所述第二图像对应的时间点，得到消失时间；

所述数据处理模块按照时间轴的逆向顺序获取所述第二图像。