CN111626120A - 工业环境下基于改进的yolo-6d算法的目标检测方法 - Google Patents
工业环境下基于改进的yolo-6d算法的目标检测方法 Download PDFInfo
- Publication number
- CN111626120A CN111626120A CN202010330520.4A CN202010330520A CN111626120A CN 111626120 A CN111626120 A CN 111626120A CN 202010330520 A CN202010330520 A CN 202010330520A CN 111626120 A CN111626120 A CN 111626120A
- Authority
- CN
- China
- Prior art keywords
- target
- yolo
- network
- industrial environment
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种工业环境下基于改进的YOLO‑6D算法的目标检测方法,包括以下步骤:采集包含待检测目标的若干图像;构建YOLO‑6D网络的训练数据集;对YOLO‑6D网络进行改进,包括:利用ResNet‑53代替ResNet‑19的深度残差神经网络,将回归函数以及激活函数中的Softmax替换为Sigmoid;利用训练数据集对YOLO‑6D网络进行训练,获得目标检测模型;利用目标检测模型对工业环境中的待检测目标进行检测,获取目标的空间信息和分类信息。本发明通过使用层数更深的深度残差网络、增加多梯度尺寸特征图、改进回归函数和激活函数,提高了目标检测的速度和精度,特别是增强了对工业环境下的多目标与小目标物体的检测识别能力,且相对于传统算法,普适性更优。
Description
技术领域
本发明涉及人工智能领域,具体涉及目标检测领域,特别涉及一种工业环境下基于改进的YOLO-6D算法的目标检测方法。
背景技术
现代社会的发展离不开各科基础科学的积淀,而在计算机视觉中,目标检测算法正如数学在基础科学中的重要性。一种高速、高精度、高识别率的目标检测算法是对整个计算机视觉领域的绝对提升。早期目标检测算法的工作原理是通过拼接强分类器从而达到区分的效果,它的缺点是无法检测到人物等一些系列非刚性目标。基于此问题,有学者提出了HOG+SVM结构,这种结构算法在早期针对道路检测以及过往行人检测的方向取得了较大的成功,但在实际使用环境下始终无法达到要求的实时性与准确性,从而导致计算机视觉的发展一度停滞。但随着深度学习的逐步发展,深度神经网络识别算法开始出现,大幅提高了目标检测算法的精度。
其中YOLO是一种全新的深度神经网络识别算法,相比初代深度学习中RCNN系列需要生成建议框后再进行分类与回归,其通过自有的结构,解决了RCNN系列步骤过多的问题。但是YOLO算法针对小物体以及对物体邻近时所进行的特征检测效果较差;其次,如果当划分的小格中出现不止一个物体时,小格子会由于设计原因而无法正确分类从而使其识别效果欠佳。此外,在之后的发展中,因为对立体物体抓取的同时需要判断目标物体的空间6D姿态,传统方法将该过程分为两步,先对物体的外形进行种类识别,但这个过程会造成计算资源浪费与时间损失,大大降低了检测的速度,实时性差。
综上所述,现阶段所采用的物体空间信息与分类识别方法主要应用于平面信息识别和6D姿态传统识别。针对平面信息识别,现有方法对立体物体的识别效果较差;针对6D姿态传统识别,现有方法会造成较长的检测时间以及较大的计算资源浪费。
发明内容
本发明的目的在于提供一种具有检测精度高、普适性高等特点的工业环境下的目标检测方法。
实现本发明目的的技术解决方案为:工业环境下基于改进的YOLO-6D算法的目标检测方法,所述方法包括以下步骤:
采集包含待检测目标的若干图像;
构建YOLO-6D网络的训练数据集;
对YOLO-6D网络进行改进,包括:利用ResNet-53代替ResNet-19的深度残差神经网络;
利用所述训练数据集对YOLO-6D网络进行训练,获得目标检测模型;
利用所述目标检测模型对工业环境中的待检测目标进行检测,获取目标的空间信息和分类信息。
进一步地,所述训练数据集包括:所述包含待检测目标的若干图像和自定义添加的若干噪声图像,以及每一幅图像对应的标注信息,所述标注信息包括:图像中是否包含待检测目标、待检测目标的空间信息和分类信息。
进一步地,所述ResNet-53包括三个输出:32倍降采样后的特征图作为第一输出,对32倍降采样后的特征图进行步长为2的上采样,获得的16倍降采样后的特征图作为第二输出,对16倍降采样后的特征进行步长为2的上采样,获得的8倍降采样后的特征作为第三输出。
进一步地,所述对YOLO-6D网络进行改进,还包括:将回归函数以及激活函数中的Softmax替换为Sigmoid。
进一步地,所述对YOLO-6D网络进行训练的过程中,所采用的置信度函数为:
式中,DT(x)为预测的平面图片2D点的坐标值与3D空间中的实际值之间的欧式距离,dth为预设的阈值,α为超参,取值范围为0.1~10。
进一步地,所述获取目标的分类信息,包括:
获取目标分别在ResNet-53三个尺度输出图像中所属分类的概率;
利用所述回归函数对所述概率进行多标签分类,获得目标的分类信息。
进一步地,在所述利用所述训练数据集对YOLO-6D网络进行训练、利用所述目标检测模型对工业环境中的待检测目标进行检测之前,还包括:进行坐标偏移,保证目标处于图像划分后的一个小格子cell中,所述坐标偏移公式为:
gx=f(x)+cx
gy=f(y)+cy
式中,gx、gy分别表示x,y方向的偏移量,cx,cy表示划分的小格子的坐标;针对目标物体的中心点,函数f(·)表示Sigmoid函数,针对目标物体的八个角点,函数f(·)则表示恒等函数。
本发明与现有技术相比,其显著优点为:1)采用层数更深的深度残差网络作为算法的主体网络,增强了检测物的细节特征,提高了检测速度和精度;2)改进ResNet-53网络,增加了多梯度尺寸的特征图来进行目标检测,能获得不同尺寸下在先验框中目标检测后不同分类的概率,提高了目标检测能力,特别是增强了对工业环境下的多目标与小目标物体的检测识别能力;3)通过改进回归函数和激活函数,提升了检测算法对检测物的标签分类能力和精度;4)适用范围广,普适性高。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为一个实施例中工业环境下基于改进的YOLO-6D算法的目标检测方法的流程图。
图2为一个实施例中改进的YOLO-6D网络模型结构示意图。
图3为一个实施例中的置信函数图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在一个实施例中,结合图1,提供了一种工业环境下基于改进的YOLO-6D算法的目标检测方法,该方法包括以下步骤:
采集包含待检测目标的若干图像;
构建YOLO-6D网络的训练数据集;
对YOLO-6D网络进行改进,包括:利用ResNet-53代替ResNet-19的深度残差神经网络;
利用训练数据集对YOLO-6D网络进行训练,获得目标检测模型;
这里,在训练开始时,将损失函数中目标物体的置信度λconf设置为0,即不训练置信度,之后等坐标预测的结果精度达到预设标准时,将存在物体的小格子cell设置λconf=5,不存在物体的cell设置λconf=0.1,以保证训练网络过拟合现象的出现。
利用目标检测模型对工业环境中的待检测目标进行检测,获取目标的空间信息和分类信息。
进一步地,在其中一个实施例中,上述训练数据集包括:包含待检测目标的若干图像和自定义添加的若干噪声图像,以及每一幅图像对应的标注信息,该标注信息包括:图像中是否包含待检测目标、待检测目标的空间信息和分类信息。
这里,标注信息可以通过LabelImg软件进行标注,能够形成YOLO-6D网络训练适用格式的标注文件。
进一步地,在其中一个实施例中,结合图2,上述ResNet-53包括三个输出:32倍降采样后的特征图作为第一输出,对32倍降采样后的特征图进行步长为2的上采样,获得的16倍降采样后的特征图作为第二输出,对16倍降采样后的特征进行步长为2的上采样,获得的8倍降采样后的特征作为第三输出。
进一步地,在其中一个实施例中,上述对YOLO-6D网络进行改进,还包括:将回归函数以及激活函数中的Softmax替换为Sigmoid。
进一步地,在其中一个实施例中,结合图3,上述对YOLO-6D网络进行训练的过程中,所采用的置信度函数为:
式中,DT(x)为预测的平面图片2D点的坐标值与3D空间中的实际值之间的欧式距离,dth为预设的阈值,α为超参,设置为2。
进一步地,在其中一个实施例中,上述获取目标的分类信息,包括:
获取目标分别在ResNet-53三个尺度输出图像中所属分类的概率;
利用上述回归函数对概率进行多标签分类,获得目标的分类信息。
进一步地,在其中一个实施例中,上述在利用训练数据集对YOLO-6D网络进行训练、利用目标检测模型对工业环境中的待检测目标进行检测之前,还包括:进行坐标偏移,保证目标处于图像划分后的一个小格子cell中,坐标偏移公式为:
gx=f(x)+cx
gy=f(y)+cy
式中,gx、gy分别表示x,y方向的偏移量,cx,cy表示划分的小格子cell的坐标;针对目标物体的中心点,函数f(·)表示Sigmoid函数,针对目标物体的八个角点,函数f(·)则表示恒等函数。
本发明对传统算法中的网络结构和回归函数进行优化改进,设计了一种端到端的工业环境下的改进YOLO-6D算法。该算法使用层数更深的深度残差网络,增强了检测物的细节特征,提高了检测速度和精度;改进ResNet-53网络,增加了多梯度尺寸特征图来进行目标检测,能获得不同尺寸下在先验框中目标检测后不同分类的概率,提高了目标检测能力,特别是增强了对工业环境下的多目标与小目标物体的检测识别能力;通过改进回归函数和激活函数,提升了检测算法对检测物的标签分类能力和精度。综上,本发明的算法相对于传统算法而言,检测效率和精度更高,普适性也更好。
Claims (7)
1.工业环境下基于改进的YOLO-6D算法的目标检测方法,其特征在于,所述方法包括以下步骤:
采集包含待检测目标的若干图像;
构建YOLO-6D网络的训练数据集;
对YOLO-6D网络进行改进,包括:利用ResNet-53代替ResNet-19的深度残差神经网络;
利用所述训练数据集对YOLO-6D网络进行训练,获得目标检测模型;
利用所述目标检测模型对工业环境中的待检测目标进行检测,获取目标的空间信息和分类信息。
2.根据权利要求1所述的工业环境下基于改进的YOLO-6D算法的目标检测方法,其特征在于,所述训练数据集包括:所述包含待检测目标的若干图像和自定义添加的若干噪声图像,以及每一幅图像对应的标注信息,所述标注信息包括:图像中是否包含待检测目标、待检测目标的空间信息和分类信息。
3.根据权利要求1所述的工业环境下基于改进的YOLO-6D算法的目标检测方法,其特征在于,所述ResNet-53包括三个输出:32倍降采样后的特征图作为第一输出,对32倍降采样后的特征图进行步长为2的上采样,获得的16倍降采样后的特征图作为第二输出,对16倍降采样后的特征进行步长为2的上采样,获得的8倍降采样后的特征作为第三输出。
4.根据权利要求1或3所述的工业环境下基于改进的YOLO-6D算法的目标检测方法,其特征在于,所述对YOLO-6D网络进行改进,还包括:将回归函数以及激活函数中的Softmax替换为Sigmoid。
6.根据权利要求4所述的工业环境下基于改进的YOLO-6D算法的目标检测方法,其特征在于,所述获取目标的分类信息,具体包括:
获取目标分别在ResNet-53三个尺度输出图像中所属分类的概率;
利用所述回归函数对所述概率进行多标签分类,获得目标的分类信息。
7.根据权利要求1所述的工业环境下基于改进的YOLO-6D算法的目标检测方法,其特征在于,在所述利用所述训练数据集对YOLO-6D网络进行训练、利用所述目标检测模型对工业环境中的待检测目标进行检测之前,还包括:进行坐标偏移,保证目标处于图像划分后的一个小格子cell中,所述坐标偏移公式为:
gx=f(x)+cx
gy=f(y)+cy
式中,gx、gy分别表示x,y方向的偏移量,cx,cy表示划分的小格子cell的坐标;针对目标物体的中心点,函数f(·)表示Sigmoid函数,针对目标物体的八个角点,函数f(·)则表示恒等函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010330520.4A CN111626120B (zh) | 2020-04-24 | 2020-04-24 | 工业环境下基于改进的yolo-6d算法的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010330520.4A CN111626120B (zh) | 2020-04-24 | 2020-04-24 | 工业环境下基于改进的yolo-6d算法的目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111626120A true CN111626120A (zh) | 2020-09-04 |
CN111626120B CN111626120B (zh) | 2023-08-22 |
Family
ID=72260532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010330520.4A Active CN111626120B (zh) | 2020-04-24 | 2020-04-24 | 工业环境下基于改进的yolo-6d算法的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626120B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861987A (zh) * | 2021-03-03 | 2021-05-28 | 德鲁动力科技(成都)有限公司 | 暗光环境下的目标检测方法 |
CN113255837A (zh) * | 2021-06-29 | 2021-08-13 | 南昌工程学院 | 工业环境下基于改进的CenterNet网络目标检测方法 |
CN113487550A (zh) * | 2021-06-30 | 2021-10-08 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于改进激活函数的目标检测方法及装置 |
CN113971667A (zh) * | 2021-11-02 | 2022-01-25 | 上海可明科技有限公司 | 一种仓储环境手术器械目标检测模型训练及优化方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180341702A1 (en) * | 2017-05-25 | 2018-11-29 | J.W. Pepper & Son, Inc. | Sheet Music Search and Discovery System |
CN109934222A (zh) * | 2019-03-01 | 2019-06-25 | 长沙理工大学 | 一种基于迁移学习的绝缘子串自爆识别方法 |
CN110765865A (zh) * | 2019-09-18 | 2020-02-07 | 北京理工大学 | 基于改进的yolo算法的水下目标检测方法 |
-
2020
- 2020-04-24 CN CN202010330520.4A patent/CN111626120B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180341702A1 (en) * | 2017-05-25 | 2018-11-29 | J.W. Pepper & Son, Inc. | Sheet Music Search and Discovery System |
CN109934222A (zh) * | 2019-03-01 | 2019-06-25 | 长沙理工大学 | 一种基于迁移学习的绝缘子串自爆识别方法 |
CN110765865A (zh) * | 2019-09-18 | 2020-02-07 | 北京理工大学 | 基于改进的yolo算法的水下目标检测方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861987A (zh) * | 2021-03-03 | 2021-05-28 | 德鲁动力科技(成都)有限公司 | 暗光环境下的目标检测方法 |
CN112861987B (zh) * | 2021-03-03 | 2024-04-16 | 德鲁动力科技(成都)有限公司 | 暗光环境下的目标检测方法 |
CN113255837A (zh) * | 2021-06-29 | 2021-08-13 | 南昌工程学院 | 工业环境下基于改进的CenterNet网络目标检测方法 |
CN113487550A (zh) * | 2021-06-30 | 2021-10-08 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于改进激活函数的目标检测方法及装置 |
CN113487550B (zh) * | 2021-06-30 | 2024-01-16 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于改进激活函数的目标检测方法及装置 |
CN113971667A (zh) * | 2021-11-02 | 2022-01-25 | 上海可明科技有限公司 | 一种仓储环境手术器械目标检测模型训练及优化方法 |
CN113971667B (zh) * | 2021-11-02 | 2022-06-21 | 上海可明科技有限公司 | 一种仓储环境手术器械目标检测模型训练及优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111626120B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN107563372B (zh) | 一种基于深度学习ssd框架的车牌定位方法 | |
CN108288088B (zh) | 一种基于端到端全卷积神经网络的场景文本检测方法 | |
CN111626120A (zh) | 工业环境下基于改进的yolo-6d算法的目标检测方法 | |
CN108647694B (zh) | 基于上下文感知和自适应响应的相关滤波目标跟踪方法 | |
CN110909666A (zh) | 一种基于改进型YOLOv3卷积神经网络的夜间车辆检测方法 | |
Tang et al. | HIC-YOLOv5: Improved YOLOv5 for small object detection | |
CN112528845B (zh) | 一种基于深度学习的物理电路图识别方法及其应用 | |
CN111178451A (zh) | 一种基于YOLOv3网络的车牌检测方法 | |
CN113255837A (zh) | 工业环境下基于改进的CenterNet网络目标检测方法 | |
Cui et al. | Vehicle re-identification by fusing multiple deep neural networks | |
Liang et al. | Deep infrared pedestrian classification based on automatic image matting | |
CN106815323A (zh) | 一种基于显著性检测的跨域视觉检索方法 | |
CN113408584A (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
Khellal et al. | Pedestrian classification and detection in far infrared images | |
Tripathi et al. | Object detection using YOLO: A survey | |
CN105893941A (zh) | 一种基于区域图像的人脸表情识别方法 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN116486238B (zh) | 联合点集表示与图分类的目标细粒度识别方法 | |
CN118230286A (zh) | 一种基于改进YOLOv7的车辆与行人识别方法 | |
CN116994034A (zh) | 一种基于特征金字塔的小目标检测算法 | |
Zhang et al. | Contextual and Multi-Scale Feature Fusion Network for Traffic Sign Detection | |
Li et al. | RaP-Net: A region-wise and point-wise weighting network to extract robust features for indoor localization | |
Shi et al. | Fast classification and detection of marine targets in complex scenes with YOLOv3 | |
CN113792785A (zh) | 一种基于wgan-gp和yolo的船体附着物快速识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |