CN113158803A - 一种教室空座查询系统、实时视频分析系统及方法 - Google Patents
一种教室空座查询系统、实时视频分析系统及方法 Download PDFInfo
- Publication number
- CN113158803A CN113158803A CN202110306777.0A CN202110306777A CN113158803A CN 113158803 A CN113158803 A CN 113158803A CN 202110306777 A CN202110306777 A CN 202110306777A CN 113158803 A CN113158803 A CN 113158803A
- Authority
- CN
- China
- Prior art keywords
- network
- characteristic diagram
- real
- feature map
- video analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 15
- 238000007726 management method Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000010223 real-time analysis Methods 0.000 claims abstract description 7
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 claims description 56
- 238000001514 detection method Methods 0.000 claims description 31
- 230000004913 activation Effects 0.000 claims description 19
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 18
- 238000005516 engineering process Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 claims 1
- 239000010410 layer Substances 0.000 description 42
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 102100030148 Integrator complex subunit 8 Human genes 0.000 description 1
- 101710092891 Integrator complex subunit 8 Proteins 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于视频分析技术领域,公开了一种教室空座查询系统、实时视频分析系统及方法。一种实时视频分析系统,采用YOLOv4‑Tiny网络对多路视频流数据进行实时分析,YOLOv4‑Tiny网络包括CSPDarknet53‑Tiny网络、FPN网络和yolov3网络;首先通过CSPDarknet53‑Tiny网络提取输入图片的特征,得到两个不同大小的特征图,然后通过FPN网络进行特征融合和处理,最后连接yolov3网络输出结果。本发明的系统不需要在座位上安装任何复杂的硬性设备,只需要获取每个教室的摄像头信息,然后传入实时视频分析系统进行分析,获得教室空位信息;本发明还开发了方便用户使用的小程序平台和后台管理系统,可以实时查询教室情况。
Description
技术领域
本发明涉及视频分析技术领域,特别涉及一种教室空座查询系统、实时视频分析系统及方法。
背景技术
目前,随着大学生数量增多,高校的教室资源越来越紧张,大学生上自习而找不到合适的教室,是目前普遍存在的问题,尤其是期末复习的时候,自习室的空座很难找,可能跑了几个教室都找不到合适的位置,浪费了时间还影响学习心情,对学生来说是极大的不方便。
现有的自习室空座系统,大多采用软硬件结合的方式,需要每个座位安装传感器,通过物理传压的方式感知座位是否有人,然后通过单片机与显示器相连,传输结果。或者在座位上安装校园读卡器计数传给数据显示中心。这些方式一是耗费资源,大范围推广也不方便,二是从学生角度使用起来也不方便。
随着深度学习的发展日趋成熟,很多深度学习的算法可以用于工业生产,因此,如何提出了一种基于实时视频分析的教室空座查询方法及系统,不需要安装各种硬件系统,是目前亟待解决的问题。
发明内容
本发明实施例提供了一种教室空座查询系统,以解决现有技术中需要软硬件结合检测自习室空座的问题。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本发明实施例的第一方面,提供了一种实时视频分析系统。
在一些可选实施例中,实时视频分析系统采用YOLOv4-Tiny网络对多路视频流数据进行实时分析,YOLOv4-Tiny网络包括CSPDarknet53-Tiny网络、FPN网络和yolov3网络;首先通过CSPDarknet53-Tiny网络提取输入图片的特征,得到两个不同大小的特征图,然后通过FPN网络进行特征融合和处理,最后连接yolov3网络输出结果。
可选地,输入到YOLOV4-Tiny网络的图像经过卷积层、正则化和激活层操作,得到第一特征图;
将第一特征图再经过卷积层、正则化和激活层操作,得到第二特征图;将第二特征图经过残差块的操作后得到第三特征图,接着经过残差块的操作后变换成第四特征图,然后分成两路,第一路直接进入FPN模块,通过卷积层进行候选框的选取;第二路继续经过一个残差块的操作后得到第五特征图,再经过卷积层、正则化和激活层的操作后得到第六特征图,然进入FPN模块的卷积层进行候选框的选择,然后又分成两路,一路直接进入yolov3网络预测结果,另一路通过卷积和上采样操作,与第一路直接进入FPN的第四特征图进行张量拼接,扩充张量的维度,拼接后获得的第七特征图再进行卷积操作,最后进入Yolov3网络预测结果。
可选地,所述Yolov3网络将未经过张量拼接处理的特征图分成13*13个gridcells,如果ground truth中某个目标的中心坐标落在某个grid cell中,那么就由该gridcell来预测该目标;每个gridc cell都会预测3个固定数量的边界框,13*13特征图的感受野最大,因此其anchor box的尺寸最大,分别为116*90,156*198,373*326,适合检测较大的目标;对经过张量拼接处理的特征图应用较小的anchor box,分别为30*61,62*45,59*119,适合检测小目标。
可选地,对于训练图片中的ground truth,若其中心点落在某个cell内,那么该cell内的3个anchor box负责预测该ground truth,由与ground truth的IOU最大的anchorbox预测该ground truth,而剩余的2个anchor box不与该ground truth匹配。
可选地,所述Yolov3网络假定每个cell至多含有一个ground truth,与groundtruth匹配的anchor box计算坐标误差、置信度误差以及分类误差,而其它的anchor box只计算置信度误差。
可选地,所述Yolov3网络使用逻辑回归预测每个先验边界框的目标性得分,通过计算先验边界框与ground truth的重叠面积来进行目标评分;通过阈值来筛选先验边界框,对于重叠面积小于阈值的先验边界框直接去掉,如果先验边界框与ground truth目标比其他目标重叠多,则相应的目标性得分应为1。
根据本发明实施例的第二方面,提供了一种实时视频分析方法。
在一些可选实施例中,所述实时视频分析方法,基于DeepStream SDK开发,运行在Jetson Nano平台上,Jetson Nano平台内置CUDA、OpenCV和TensorRT模块,包括以下步骤:
步骤(1),捕获视频流数据;
步骤(2),解码视频流数据;
步骤(3),解码之后,对视频流数据进行预处理;
步骤(4),将多路视频流数据组合到一起进行批处理;
步骤(5),采用YOLOV4-Tiny网络对多路视频流数据进行实时分析,执行目标检测,将推理结果沿管道传递到下一个插件;
步骤(6),将推理结果对应的文字等信息附加到元数据上,可显示在屏幕上;
步骤(7),获取最终的推理结果。
可选地,输入到YOLOV4-Tiny网络的图像经过卷积层、正则化和激活层操作,得到第一特征图;
将第一特征图再经过卷积层、正则化和激活层操作,得到第二特征图;
将第二特征图经过残差块的操作后得到第三特征图,接着经过残差块的操作后变换成第四特征图,然后分成两路,第一路直接进入FPN模块,通过卷积层进行候选框的选取;第二路继续经过一个残差块的操作后得到第五特征图,再经过卷积层、正则化和激活层的操作后得到第六特征图,然进入FPN模块的卷积层进行候选框的选择,然后又分成两路,一路直接进入yolov3网络预测结果,另一路通过卷积和上采样操作,与第一路直接进入FPN的第四特征图进行张量拼接,扩充张量的维度,拼接后获得的第七特征图再进行卷积操作,最后进入Yolov3网络预测结果。
根据本发明实施例的第三方面,提供了一种教室空座查询系统。
在一些可选实施例中,教室空座查询系统,包括上述的实时视频分析系统,还包括后台管理系统和微信小程序;
所述实时视频分析系统通过YOLOV4-tiny网络得到的检测结果,存放在数据库中,在后台管理系统进行可视化展示;
后台管理系统包括用户管理模块、校区管理模块、教室管理模块、摄像头管理模块和用户反馈管理模块;
微信小程序展示教室的名称和相对应的分布图,每隔固定时间实时更新一次数据。
可选地,所述后台管理系统接口采用java语言进行编写,使用Maven技术进行项目系统构建,系统整体框架基于Spring boot框架进行接口开发,所有接口完成与前端进行数据交互任务,数据均采用JSON结构;利用反向代理nginx技术将接口系统部署到云服务器上与前端进行交互;利用git技术进行代码管理。
本发明实施例提供的技术方案可以包括以下有益效果:
(1)不需要在座位上安装任何复杂的硬性设备,只需要获取每个教室的摄像头信息,然后传入实时视频分析系统进行分析,获得教室空位信息;
(2)开发了方便用户使用的小程序平台和后台管理系统,可以实时查询教室情况。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的YOLOV4-Tiny网络结构的示意图;
图2是根据一示例性实施例示出的视频分析方法的流程示意图。
具体实施方式
以下描述和附图充分地示出本文的具体实施方案,以使本领域的技术人员能够实践它们。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本文的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。本文中,术语“第一”、“第二”等仅被用来将一个元素与另一个元素区分开来,而不要求或者暗示这些元素之间存在任何实际的关系或者顺序。实际上第一元素也能够被称为第二元素,反之亦然。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的结构、装置或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种结构、装置或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的结构、装置或者设备中还存在另外的相同要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中的术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本文和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。在本文的描述中,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本文中,除非另有说明,术语“多个”表示两个或两个以上。
本文中,字符“/”表示前后对象是一种“或”的关系。例如,A/B表示:A或B。
本文中,术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,A和/或B,表示:A或B,或,A和B这三种关系。
本发明提出了一种实时视频分析系统,解决了目前教室空座查询方法的复杂性、不便捷性,不需要在座位上安装任何复杂的硬性设备,只需要获取每个教室的摄像头信息,然后传入实时视频分析系统进行分析,获得教室空位信息。
在一些可选实施例中,本发明的实时视频分析系统,其采用YOLOv4-Tiny网络对多路视频流数据进行实时分析,YOLOv4-Tiny网络的精确度更高,其速度也提升了不少,是一个适用于工业开发的深度学习算法。YOLOv4-Tiny网络结构主要包括三部分,CSPDarknet53-Tiny网络、FPN网络和yolov3网络,首先通过CSPDarknet53-Tiny网络提取输入图片的特征,得到两个不同大小的特征图,然后通过FPN网络进行特征融合和处理,最后连接yolov3网络输出结果。
图1给出了YOLOV4-Tiny网络结构的一个可选实施例。
如图1所示,输入到YOLOV4-Tiny网络的图像(416*416*3)经过卷积层、正则化和激活层操作,得到第一特征图;将第一特征图再经过卷积层、正则化和激活层操作,得到第二特征图;将第二特征图经过残差块的操作后得到第三特征图,接着经过残差块的操作后变换成第四特征图,然后分成两路,第一路直接进入FPN模块,通过卷积层进行候选框的选取。第二路继续经过一个残差块的操作后得到第五特征图,再经过卷积层、正则化和激活层的操作后得到第六特征图,然后进入FPN模块的卷积层进行候选框的选择,然后又分成两路,一路直接进入yolov3网络预测结果,另一路通过卷积和上采样操作,与第一路直接进入FPN的第四特征图进行张量拼接,这两个特征图具有相同的长宽尺寸,而高度不同,两个特征图拼接在一起,拼接的操作和传统的add操作是不一样的,拼接会扩充张量的维度,而add只是直接相加不会导致张量维度的改变。拼接后获得的第七特征图再进行卷积操作,最后进入Yolov3网络预测结果。
图1所示实施例中,输入到网络的图像(416*416*3)经过卷积层、正则化和激活层操作,得到一个208*208*32的特征图;将此208*208*32的特征图再经过卷积层、正则化和激活层操作,得到一个104*104*64的特征图;将此104*104*64的特征图经过残差块的操作后得到一个52*52*128的特征图,接着经过残差块的操作后变换成26*26*256的特征图,然后分成两路,第一路直接进入FPN模块,通过卷积层进行候选框的选取。第二路继续经过一个残差块的操作后得到一个13*13*512的特征图,再经过卷积层正则化激活层的操作后得到一个13*13*512的特征图,然进入FPN模块卷积层进行候选框的选择,结果又分成两路,一路直接进入yolov3网络预测结果,另一路通过卷积和上采样操作,与第一路直接进入FPN的特征图进行张量拼接,拼接后的特征图再进行卷积操作,最后进入Yolov3网络预测结果。Yolov3网络预测物体的类别和位置。
Yolov3网络用于预测教室内的人和空座,以及人的抬头低头情况。Yolov3网络负责对得到的特征图进行预测或训练处理,训练时分别计算坐标损失和分类损失,使用均方差损失函数。
Yolov3网络用于预测图片中物体(空座,人,抬头,低头)的位置和类别,每个物体产生一个检测框(bounding box),用来标注物体的位置,每个检测框包括4个坐标,tx、ty、tw、th,分别对应着检测框的左上角的坐标为(tx,ty)以及检测框的长宽(tw,th)。此外,Yolov3网络为每个检测框设置了置信度,物体置信度表示该检测框包含物体的概率,包含物体则置信度为1,否则为0。
Yolov3网络采用了yolov3 head的结构,输入到Yolov3网络的特征图紧接着一个1*1的卷积层,再经过正则化及激活层,然后连接全连接层(检测层)进行分类预测。
图1所示实施例中,对于FPN中输出的特征图,Yolov3网络将未经过张量拼接处理的特征图13*13(相当于416*416图片大小),分成13*13个grid cells,接着如果groundtruth中某个目标的中心坐标落在某个grid cell中,那么就由该grid cell来预测该目标。每个gridc cell都会预测3个固定数量的边界框,13*13特征图的感受野最大,因此其anchor box的尺寸最大,分别为116*90,156*198,373*326,适合检测较大的目标。经过张量拼接处理的特征图26*26,由于其感受野较小,故应用较小的anchor box(30*61),(62*45),(59*119),适合检测小目标。
Yolov3网络使用逻辑回归预测每个先验边界框(anchor box)的目标性得分,即这块位置是目标的可能性有多大,通过计算先验边界框与ground truth的重叠面积来进行目标评分,本发明实施例提前设置了一定的阈值来筛选先验边界框,一般阈值设置为0.5,对于重叠面积小于阈值0.5的先验边界框直接去掉,如果先验边界框与ground truth目标比其他目标重叠多,则相应的目标性得分应为1。如果先验边界框不是最佳的结果,即使其超过设定的阈值,还是不会对其进行预测。这样就可以筛选出一个最接近的先验边界框,便于后续步骤的微调。对于训练图片中的ground truth,若其中心点落在某个cell内,那么该cell内的3个anchor box负责预测该ground truth,具体是哪个anchor box预测它,在学习过程中,这个grid cell会逐渐学会如何选择哪个大小的anchor box,以及对这个anchorbox进行微调。本发明实施例定义了一个规则来使grid cell选取某个anchor box,即由那个与ground truth的IOU最大的anchor box预测该ground truth,而剩余的2个anchor box不与该ground truth匹配。Yolov3需要假定每个cell至多含有一个ground truth,而在实际上基本不会出现多于1个的情况。与ground truth匹配的anchor box计算坐标误差、置信度误差(此时置信度为1)以及分类误差,而其它的anchor box只计算置信度误差(此时置信度为0)。
预测的坐标点tx、ty、tw、th,其中(tx,ty)为平移尺度,(tw,th)为缩放尺度,anchor box经过平移加尺度缩放进行微调与grand truth重合。当输入的anchor box与ground truth相差较小时,即IOU很大时,可以认为这种变换是一种线性变换,那么就可以用线性回归(线性回归就是给定输入的特征向量X,学习一组参数W,使得经过线性回归后的值跟真实值Y(Ground Truth)非常接近.即Y≈WX)来建模对窗口进行微调,否则会导致训练的回归模型不匹配。
最终Yolov3网络会输出一个检测框,预测物体的检测框,及物体的类别,包括空座,人,抬头和低头。类别预测使用独立的logistic分类器,非softmax,训练过程中使用binary交叉熵损失。
可选地,所述YOLOV4-Tiny目标检测算法采用多尺度特征图用于检测,即采用大小不同尺度的特征图进行检测,特征图一较大,由于后面逐渐采用卷积和池化降低特征图大小,特征图二通过上采样与前面的特征图结合,因此特征图二较小,大特征图(即特征图一)用来检测相对较小的目标,而小特征图(即特征图二)用来检测相对较大目标。对于监控场景中人物远近不同的特点,采用该实施例中的YOLOV4-Tiny目标检测算法非常适合该场景的检测,即大特征图用来检测相对较小的目标,而小特征图用来检测相对较大目标,对于不同大小的目标都能实现精确检测。
采用该实施例中的YOLOV4-Tiny目标检测算法非常适合教室内物体的检测,大尺度特征图属于底层级特征图,语义含义不够丰富但是精度高。而小尺度特征图属于高层级特征图,语义含义丰富,但是精度低。在特征提取过程,将小尺度特征图经过上采样放大之后与大尺度特征图拼接,输出特征图既有较高的精度,又具有较丰富的语义含义,可以针对场景中物体大小不一的情况,提高检测精度。
分辨率信息直接反映的是构成目标的像素的数量。一个目标的像素数量越多,其对目标的细节表现就越丰富越具体,也就是说分辨率信息越丰富。因此,大尺度特征图提供的是分辨率信息。语义信息在目标检测中指的是让目标区分于背景的信息,即语义信息是让用户知道这个是目标,其余是背景。在不同类别中语义信息并不需要很多细节信息,分辨率信息大,反而会降低语义信息,因此,小尺度特征图在提供必要的分辨率信息下语义信息会提供的更好。而对于小目标,小尺度特征图无法提供必要的分辨率信息,所以还需结合大尺度特征图。本发明实施例中YOLOV4-Tiny更进一步采用了2个不同尺度的特征图来进行对象检测,能够检测到更高细粒度的特征。嫁接网络的最终输出有2个尺度分别为大特征图一,小特征图;这里小尺度特征图的感受野比较大,因此适合检测图像中尺寸比较大的对象。然后这个结果通过上采样与前面的特征图张量拼接,拼接的操作和残差层加的操作是不一样的,拼接会扩充张量的维度,而加只是直接相加不会导致张量维度的改变。大尺度特征图的感受野小,适合检测小尺度的对象,比如小目标摄像头远处的人和桌子在大尺度特征图中的尺寸较大,检测框并不能完全框住物体,而在小尺度特征图中可以较好的检测出人和桌子。同理,大目标在小尺度特征图中较小,检测框会包含背景,而在大特征图中能较好的包围大目标。
在另一些可选实施例中,本发明还提出了一种视频分析方法,将上述YOLOV4-tiny网络与Jetson Nano平台绑定在一起,部署方便,操作灵活,可应用于教室监控场景。图2给出了本发明的结合Jetson Nano平台的视频分析方法的一个可选实施例。
在该可选实施例中,所述视频分析方法基于DeepStream SDK开发,运行在JetsonNano平台上,Jetson Nano平台内置CUDA、OpenCV和TensorRT模块。
该可选实施例中,视频分析方法包括以下步骤:
步骤(1),捕获视频流数据。可选地,该视频流数据来自摄像机的RTSP流或者USB或CSI摄像机;
步骤(2),解码视频流数据。可选地,解码器插件采用NIVIDIA的硬件加速解码引擎。
步骤(3),解码之后,对视频流数据进行预处理,例如,图像的放缩、裁剪、格式转换等。
步骤(4),将多路视频流数据组合到一起进行批处理。
步骤(5),采用图1所示YOLOV4-Tiny网络对多路视频流数据进行实时分析,执行目标检测,将推理结果沿管道传递到下一个插件。YOLOV4-Tiny网络对多路视频流数据进行实时分析,在保证检测精度的同时,又能满足视频实时分析的要求。
步骤(6),将推理结果对应的文字等信息附加到元数据上,可显示在屏幕上。
步骤(7),获取最终的推理结果。
TensorRT的5个主要作用:
1、对权重参数类型进行优化。参数类型有FP32,FP16,INT8三种类型,使用较低的数据精度会降低内存占用和延迟,使模型体积更小,推理速度会有很大提升。
2、层间融合。在部署模型推理时,每一层的运算由GPU完成,GPU启动不同的CUDA(Compute unified device architecture)核心进行计算,由于CUDA进行运算的速度很快,大量的时间浪费在CUDA核心的启动和对每一层输入输出的读写操作上,造成了内存宽带的瓶颈和GPU资源的浪费。TensorRT对层间进行横向或纵向融合,大大减少了层的数量。横向合并可以把卷积、偏置和激活层合并成一个CBR结构,只占用一个CUDA核心。纵向合并可以把结构相同,但是权值不同的层合并成一个更宽的层,也只占用一个CUDA核心。合并之后的计算图的层次更少了,占用的CUDA核心数也少了,因此整个模型结构会更小,更快,更高效。
3、多流的执行。GPU擅长并行计算,除了不同的多个线程、Block以外,还有不同的Stream,多流的执行可以隐藏数据传输的时间。GPU把一大块数据切分成不同的小块进行计算,第一块数据在传输的时候,后面所有任务都在等待,当第一块传输完了之后第二块开始传输。与此同时,第一块数据开始计算,就可以把传输时间隐藏在计算时间里。
4、动态的Tensor Memory。在每个Tensor的使用期间,TensorRT会为其指定显存,这样可以避免显存重复申请,减少内存占用,提高重复使用效率。
5、内核调用。TensorRT可以针对不同的算法、不同的网络模型、不同的GPU平台,进行CUDA核的调整,以保证当前模型在特定平台上以最优性能计算。
本发明还提出了一种教室空座查询系统,包括上述实时视频分析系统,还包括后台管理系统和微信小程序,实时视频分析系统通过YOLOV4-tiny得到的检测结果,存放在数据库中,在后台管理系统进行可视化展示。后台管理系统是相对于管理员而言的,包括用户管理模块、校区管理模块、教室管理模块、摄像头管理模块和用户反馈管理模块。用户一开始使用微信小程序需要进行注册信息和微信绑定,进入小程序,切换不同的教学楼来查看该教学楼空座排名前十的教室,小程序展示教室的名称和相对应的分布图,每隔固定时间实时更新一次数据,例如每2分钟实时更新一次数据。
用户管理模块分为管理员和学生,管理员的权限高于学生,记录用户的学号/工号,姓名,用户权限,所属校区,创建时间等信息。此模块下可以添加,查看,编辑和删除用户,也可以批量导入用户信息。校区管理模块是针对多校区情况做的分类。每个学校分为几个校区,每个校区对应着几个教学楼,都会列出对应关系,也可以修改,删除,新增校区和教学楼信息。教室管理模块包括所属校区、所属教区、教室名称、行、列、空列、摄像头、创建时间等信息,也可以查看、编辑和删除教室信息,每个教室对应着相应的教学楼和校区,同时也可以通过校区名称,教区名称和教室名称查询教室。摄像头管理模块包括所属校区、所属教区、所属教室、自习室位置总数、rtsp地址、停用状态、检测时间段等信息,摄像头与教室对应,也可以查看、编辑、删除和停用摄像头。用户反馈管理模块反映用户提出的意见,包括用户名、创建时间、状态等信息,也可以通过用户名和创建时间进行查询反馈信息。
后台管理系统接口采用java语言进行编写,java版本为java 1.8,使用Maven技术进行项目系统构建,系统整体框架基于Spring boot框架进行接口开发,而且使用了springboot jpa、redis、Mysql、spring MVC等技术,所有接口完成与前端进行数据交互任务,数据均采用JSON结构。开发完成后利用反向代理nginx技术将接口系统部署到云服务器上与前端进行交互。在开发过程完成后利用git技术进行代码管理。
管理员进行登录时,请求信息与Mysql数据库中的数据进行验证,若验证成功则利用jwt协议生成token,之后使用redis系统将用户信息、验证token进行存储,保证接下来的操作可以使用token进行操作(token放于请求头中)。
后台管理系统对后台进行管理时,首先添加校区教学楼,以后根据校区教学楼添加教室,再根据教室配备摄像头,根据此种逻辑关系完成数据管理,均通过被依赖表的主键进行关联。
数据存储在Mysql数据库中,用户管理模块、校区管理模块、教室管理模块、摄像头管理模块和用户反馈管理模块中,每个管理模块对应一张表,每个表中均还有主键及其他必要属性,但不涉及外键,依赖关系均在程序代码中实现。在对后台管理系统中数据的添加或修改时,在接口函数中会进行数据库数据实体完整性、数据参照完整性以及用户定义的完整性的验证,不符合要求则不会进行数据库数据添加或修改。删除时,会优先判断是否符合要求,根据实际需求进行级联删除。数据增、删、改、查均基于Spring boot jpa技术。
用户反馈管理模块用于对小程序中用户反馈信息的管理,其在Mysql数据库中对应一张表。在小程序端用户提交反馈,反馈内容存于数据库中,后台管理系统分页显示并进行相关操作。其中反馈的状态为已读、未读,通过标志位进行判断;反馈发布者通过用户主键进行关联。
小程序包括空位查询模块、教室巡查模块。其中,教室巡查模块将教室中的摄像头捕获的照片地址(利用nginx服务器反向代理后的url系统地址)告知前端,通过url系统进行显示。空位查询模块包括分析模块、后端模块、前端模块。后端模块将分析模块分析的结果存于数据库中,并利用相对位置计算对应的空位位置以及空位率。前端调用相关接口时,后端只需要利用spring boot jpa将数据进行读取,根据空位率进行排序后将数据传给前端。
微信小程序实现分析数据的展示,采用canvas 2d实现虚拟教室的绘制,使用echarts绘制折线图等实现数据的可视化,采用vant作为ui框架。登录采用学号以及手机号短信验证,第一次登录后与微信绑定,在不解除绑定的情况下可免验证登录。
本发明公开了一种教室空座查询系统,基于深度学习网络YOLOV4-tiny算法实现了实时视频分析,视频图像截取,视频导出的功能。本发明从用户的角度出发,开发了方便用户使用的小程序平台和后台管理系统,可以实时查询教室情况。本系统和Jetson Nano平台结合在一起,具有成本低、部署方便,操作灵活的特点,便于推广,从而具有较高的产业使用价值。
本发明并不局限于上面已经描述并在附图中示出的结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种实时视频分析系统,其特征在于,采用YOLOv4-Tiny网络对多路视频流数据进行实时分析,YOLOv4-Tiny网络包括CSPDarknet53-Tiny网络、FPN网络和yolov3网络;首先通过CSPDarknet53-Tiny网络提取输入图片的特征,得到两个不同大小的特征图,然后通过FPN网络进行特征融合和处理,最后连接yolov3网络输出结果。
2.如权利要求1所述的一种实时视频分析系统,其特征在于,
输入到YOLOV4-Tiny网络的图像经过卷积层、正则化和激活层操作,得到第一特征图;
将第一特征图再经过卷积层、正则化和激活层操作,得到第二特征图;将第二特征图经过残差块的操作后得到第三特征图,接着经过残差块的操作后变换成第四特征图,然后分成两路,第一路直接进入FPN模块,通过卷积层进行候选框的选取;第二路继续经过一个残差块的操作后得到第五特征图,再经过卷积层、正则化和激活层的操作后得到第六特征图,然进入FPN模块的卷积层进行候选框的选择,然后又分成两路,一路直接进入yolov3网络预测结果,另一路通过卷积和上采样操作,与第一路直接进入FPN的第四特征图进行张量拼接,扩充张量的维度,拼接后获得的第七特征图再进行卷积操作,最后进入Yolov3网络预测结果。
3.如权利要求2所述的一种实时视频分析系统,其特征在于,
所述Yolov3网络将未经过张量拼接处理的特征图分成13*13个grid cells,如果ground truth中某个目标的中心坐标落在某个grid cell中,那么就由该grid cell来预测该目标;每个gridc cell都会预测3个固定数量的边界框,13*13特征图的感受野最大,因此其anchor box的尺寸最大,分别为116*90,156*198,373*326,适合检测较大的目标;对经过张量拼接处理的特征图应用较小的anchor box,分别为30*61,62*45,59*119,适合检测小目标。
4.如权利要求3所述的一种实时视频分析系统,其特征在于,
对于训练图片中的ground truth,若其中心点落在某个cell内,那么该cell内的3个anchor box负责预测该ground truth,由与ground truth的IOU最大的anchor box预测该ground truth,而剩余的2个anchor box不与该ground truth匹配。
5.如权利要求4所述的一种实时视频分析系统,其特征在于,
所述Yolov3网络假定每个cell至多含有一个ground truth,与ground truth匹配的anchor box计算坐标误差、置信度误差以及分类误差,而其它的anchor box只计算置信度误差。
6.如权利要求2所述的一种实时视频分析系统,其特征在于,
所述Yolov3网络使用逻辑回归预测每个先验边界框的目标性得分,通过计算先验边界框与ground truth的重叠面积来进行目标评分;通过阈值来筛选先验边界框,对于重叠面积小于阈值的先验边界框直接去掉,如果先验边界框与ground truth目标比其他目标重叠多,则相应的目标性得分应为1。
7.一种视频分析方法,其特征在于,基于DeepStream SDK开发,运行在Jetson Nano平台上,Jetson Nano平台内置CUDA、OpenCV和TensorRT模块,包括以下步骤:
步骤(1),捕获视频流数据;
步骤(2),解码视频流数据;
步骤(3),解码之后,对视频流数据进行预处理;
步骤(4),将多路视频流数据组合到一起进行批处理;
步骤(5),采用YOLOV4-Tiny网络对多路视频流数据进行实时分析,执行目标检测,将推理结果沿管道传递到下一个插件;
步骤(6),将推理结果对应的文字等信息附加到元数据上,可显示在屏幕上;
步骤(7),获取最终的推理结果。
8.如权利要求7所述的一种视频分析方法,其特征在于,
输入到YOLOV4-Tiny网络的图像经过卷积层、正则化和激活层操作,得到第一特征图;
将第一特征图再经过卷积层、正则化和激活层操作,得到第二特征图;
将第二特征图经过残差块的操作后得到第三特征图,接着经过残差块的操作后变换成第四特征图,然后分成两路,第一路直接进入FPN模块,通过卷积层进行候选框的选取;第二路继续经过一个残差块的操作后得到第五特征图,再经过卷积层、正则化和激活层的操作后得到第六特征图,然进入FPN模块的卷积层进行候选框的选择,然后又分成两路,一路直接进入yolov3网络预测结果,另一路通过卷积和上采样操作,与第一路直接进入FPN的第四特征图进行张量拼接,扩充张量的维度,拼接后获得的第七特征图再进行卷积操作,最后进入Yolov3网络预测结果。
9.一种教室空座查询系统,其特征在于,包括如权利要求1至6任一项所述的实时视频分析系统,还包括后台管理系统和微信小程序;
所述实时视频分析系统通过YOLOV4-tiny网络得到的检测结果,存放在数据库中,在后台管理系统进行可视化展示;
后台管理系统包括用户管理模块、校区管理模块、教室管理模块、摄像头管理模块和用户反馈管理模块;
微信小程序展示教室的名称和相对应的分布图,每隔固定时间实时更新一次数据。
10.如权利要求9所述的一种教室空座查询系统,其特征在于,所述后台管理系统接口采用java语言进行编写,使用Maven技术进行项目系统构建,系统整体框架基于Springboot框架进行接口开发,所有接口完成与前端进行数据交互任务,数据均采用JSON结构;利用反向代理nginx技术将接口系统部署到云服务器上与前端进行交互;利用git技术进行代码管理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110306777.0A CN113158803A (zh) | 2021-03-23 | 2021-03-23 | 一种教室空座查询系统、实时视频分析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110306777.0A CN113158803A (zh) | 2021-03-23 | 2021-03-23 | 一种教室空座查询系统、实时视频分析系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113158803A true CN113158803A (zh) | 2021-07-23 |
Family
ID=76888028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110306777.0A Pending CN113158803A (zh) | 2021-03-23 | 2021-03-23 | 一种教室空座查询系统、实时视频分析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158803A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674188A (zh) * | 2021-08-04 | 2021-11-19 | 深圳中兴网信科技有限公司 | 视频分析方法、装置、电子设备和可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6157044B1 (ja) * | 2017-02-08 | 2017-07-05 | 株式会社バカン | 座席表示装置、座席表示プログラム及び座席表示システム |
CN110941984A (zh) * | 2019-09-25 | 2020-03-31 | 西南科技大学 | 基于深度学习的自习室座位状态检测方法与座位管理系统 |
WO2020145085A1 (ja) * | 2019-01-08 | 2020-07-16 | 株式会社日立国際電気 | 画像認識装置、画像認識プログラム、および画像認識方法 |
CN112528961A (zh) * | 2020-12-28 | 2021-03-19 | 山东巍然智能科技有限公司 | 一种基于Jetson Nano的视频分析方法 |
-
2021
- 2021-03-23 CN CN202110306777.0A patent/CN113158803A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6157044B1 (ja) * | 2017-02-08 | 2017-07-05 | 株式会社バカン | 座席表示装置、座席表示プログラム及び座席表示システム |
WO2020145085A1 (ja) * | 2019-01-08 | 2020-07-16 | 株式会社日立国際電気 | 画像認識装置、画像認識プログラム、および画像認識方法 |
CN110941984A (zh) * | 2019-09-25 | 2020-03-31 | 西南科技大学 | 基于深度学习的自习室座位状态检测方法与座位管理系统 |
CN112528961A (zh) * | 2020-12-28 | 2021-03-19 | 山东巍然智能科技有限公司 | 一种基于Jetson Nano的视频分析方法 |
Non-Patent Citations (2)
Title |
---|
JIANG ZICONG,ET AL: "Real-time object detection method based on improved YOLOv4-tiny", 《ARXIV》 * |
赖润平: "基于Jetson Nano的目标跟踪小车的设计与实现", 《现代信息科技 》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674188A (zh) * | 2021-08-04 | 2021-11-19 | 深圳中兴网信科技有限公司 | 视频分析方法、装置、电子设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102635987B1 (ko) | 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하기 위한 방법, 장치, 디바이스 및 저장 매체 | |
CN110472531B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN115129848B (zh) | 一种视觉问答任务的处理方法、装置、设备和介质 | |
CN108537269B (zh) | 一种弱交互式的物体检测深度学习方法及其系统 | |
CN109993102B (zh) | 相似人脸检索方法、装置及存储介质 | |
CN114519302B (zh) | 基于数字孪生的公路交通态势仿真方法 | |
CN111708913B (zh) | 一种标签生成方法、设备及计算机可读存储介质 | |
CN110689012A (zh) | 一种端到端的自然场景文本识别方法及系统 | |
CN112215171B (zh) | 目标检测方法、装置、设备及计算机可读存储介质 | |
KR101617649B1 (ko) | 영상의 관심 구간 추천 시스템 및 방법 | |
CN112528961B (zh) | 一种基于Jetson Nano的视频分析方法 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN113570867B (zh) | 一种城市交通状态预测方法、装置、设备及可读存储介质 | |
CN113516113A (zh) | 一种图像内容识别方法、装置、设备及存储介质 | |
CN115221369A (zh) | 视觉问答的实现方法和基于视觉问答检验模型的方法 | |
CN115131849A (zh) | 图像生成方法以及相关设备 | |
CN114550051A (zh) | 一种车损检测方法、装置、计算机设备及存储介质 | |
CN112242002B (zh) | 基于深度学习的物体识别和全景漫游方法 | |
CN113850135A (zh) | 一种基于时间移位框架的动态手势识别方法及系统 | |
CN116935170A (zh) | 视频处理模型的处理方法、装置、计算机设备和存储介质 | |
Sun et al. | Automatic building age prediction from street view images | |
CN113705293A (zh) | 图像场景的识别方法、装置、设备及可读存储介质 | |
CN111539390A (zh) | 一种基于Yolov3的小目标图像识别方法、设备和系统 | |
CN113158803A (zh) | 一种教室空座查询系统、实时视频分析系统及方法 | |
CN118115952B (zh) | 一种城市低空复杂背景下无人机图像全天候检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210723 |
|
RJ01 | Rejection of invention patent application after publication |