Nothing Special   »   [go: up one dir, main page]

CN114973199A - 一种基于卷积神经网络的轨道交通列车障碍物检测方法 - Google Patents

一种基于卷积神经网络的轨道交通列车障碍物检测方法 Download PDF

Info

Publication number
CN114973199A
CN114973199A CN202210604033.1A CN202210604033A CN114973199A CN 114973199 A CN114973199 A CN 114973199A CN 202210604033 A CN202210604033 A CN 202210604033A CN 114973199 A CN114973199 A CN 114973199A
Authority
CN
China
Prior art keywords
image
obstacle detection
module
network
rail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210604033.1A
Other languages
English (en)
Inventor
贺德强
邱晔枫
邹智恒
靳震震
苗剑
秦语梁
沈奕欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University
Original Assignee
Guangxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University filed Critical Guangxi University
Priority to CN202210604033.1A priority Critical patent/CN114973199A/zh
Publication of CN114973199A publication Critical patent/CN114973199A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于卷积神经网络的轨道列车障碍物检测方法,包括以下步骤:通过安装在列车前端的摄像机,拍摄获取列车前方轨道的视频信息,在视频信号中挑选多个关键帧组,得到不同场景的图像,作为建立轨道列车障碍物检测的图像数据集;将图像数据集进行增强处理;构建ME MaskR‑CNN轨道列车障碍物检测模型,训练ME Mask R‑CNN轨道列车障碍物检测模型,使用轨道交通障碍物的图像数据集对ME Mask R‑CNN进行训练,根据识别结果判断检测障碍物是否在轨道危险区域内,将危险区域与障碍物进行着色,以显示危险区域和障碍物所在的具体位置。本发明可以实现对列车轨道危险区域障碍物的智能检测,准确率高,误检率低,检测速度快,并且能提高识别效率。

Description

一种基于卷积神经网络的轨道交通列车障碍物检测方法
技术领域
本发明属于轨道交通图像识别领域,尤其涉及一种基于卷积神经网络的轨道交通列车障碍物检测方法。
背景技术
随着轨道交通的迅速发展,数字化、网络化、智能化等新型信息技术的应用,智慧列车被视为列车交通技术发展的主要方向,全自动驾驶列车已成为发展趋势。而列车障碍物检测作为全自动驾驶列车的一个重要安全保障,受到越来越多学者的关注。相比汽车自动驾驶,列车障碍物检测在场景设置,危险等级划分,车辆制动控制等方面具有显著差异。列车障碍物检测场景具有类别少,检测精度要求高的特点,在危险等级划分上,更关注轨道内部和沿线的障碍物情况。由于列车运行速度高,制动距离远,对中远距离障碍物检测精度有更高要求。
截至2020年底,全国铁路运营里程达到14.63万公里,全年客运量达22.03亿次,铁路货运量达45.52亿吨,发生事故13起。列车轨道沿线的异物侵限问题和行人的非法进入是造成轨道安全事故的主要原因,因此对精确、快速的障碍物检测系统的需要变得越来越迫切。新型障碍物检测系统可以弥补传统人工检测效率低,劳动强度大等问题。随着深度学习等技术的进步,基于计算机视觉目标检测算法逐渐在轨道交通领域广泛应用。近年来,基于多传感器融合的障碍物检测技术成为研究热点,摄像机易受极端天气影响,缺少空间信息,而雷达对中远距离障碍物的检测效果不佳。通过融合相机、激光雷达、毫米波雷达组成障碍物检测系统可以获得二维和三维信息。欧盟Shift2rail铁路计划中的SMART项目开发基于多传感器融合的自主障碍探测系统原型。SMART2在此基础上开发先进的障碍物和轨道入侵检测系统创新解决方案,通过障碍物检测和跟踪入侵检测系统自动化,将提高铁路交通的竞争力、效率和运营可靠性。而基于机器视觉的障碍物检测是目前最常用的列车实时检测方法。
发明内容
本发明的目的在于:针对上述存在的问题,提供一种基于卷积神经网络的轨道交通列车障碍物检测方法,本发明能提高列车轨道障碍物检测的精度,并对障碍物检测的技术框架进行了改进,有效提高检测速度。为了实现上述目的,本发明采用以下技术方案:
根据本发明的一个方面,本发明提供了一种基于卷积神经网络的轨道列车障碍物检测方法,所述障碍物检测包括以下步骤:
步骤1:通过安装在列车前端的摄像机,拍摄获取列车前方轨道的视频信息,在视频信号中挑选多个关键帧组,在每关键帧组中选取一张图像经处理后得到不同场景的图像,作为建立轨道列车障碍物检测的图像数据集;
步骤2:将图像数据集进行增强处理,然后采用图像标注软件Labelme对图像数据集进行像素级标注,从而得到标签数据,标签数据包括所有检测目标的位置和类别信息,并将标签数据作成COCO数据集格式;
步骤3:构建ME Mask R-CNN轨道列车障碍物检测模型,该ME Mask R-CNN轨道列车障碍物检测模型以Mask R-CNN作为基线模型、以SSwin-Le Transformer作为特征提取网络、ME-PAFPN作为特征融合网络、以PrIme Sample Attention为采样方法,并使用RPN区域建议网络对图像数据集进行前景和背景的二值分类和边界框回归,生成提议框;在区域建议网络中,先对提议框的大小和比率在列车障碍物检测场景中进行适配以及对提议框进行ROIAlign操作,再进入ROI Head进行类别分类和回归提议,最后生成边界框和分割掩码;
步骤4:训练ME Mask R-CNN轨道列车障碍物检测模型,使用轨道交通障碍物的图像数据集对ME Mask R-CNN进行训练,先设置好训练参数和优化器参数,然后对输入数据进行迭代计算,通过计算损失值,将损失值反向传播到网络参数中,更新网络模型的权重值,完成训练周期后,利用模型权重文件将待检测的障碍物图像输入训练好的模型进行测试,输出障碍物图像数据集的识别结果,完成轨道危险区域障碍物的检测和识别;
步骤5:根据识别结果判断检测障碍物是否在轨道危险区域内,将危险区域与障碍物进行着色,以显示危险区域和障碍物所在的具体位置,根据位置判断示危险区域和障碍物是否重叠,从而进行来检测判断危险区域内是否有障碍物。
上述方案进一优选的,所述SSwin-Le Transformer特征提取网络由SSwin-LeTransformer Block模块构成,SSwin-Le Transformer Block模块满足公式:
Figure BDA0003670627160000021
Figure BDA0003670627160000022
Figure BDA0003670627160000023
Figure BDA0003670627160000024
其中
Figure BDA0003670627160000025
和zl代表第l个W-MSA模块、SSW-MSA模块和LeFF模块的输出,W-MSA模块表示使用规则的窗口分割的多头注意力模块,SSW-MSA模块表示使用Shuffle Shift的窗口分割的多头注意力模块。
上述方案进一优选的,在SSwin-Le Transformer特征提取网络的计算过程中,通过不同维度的信息交流,获得对图像的强有力表征,首先将输入H×W×3的图像通过PatchPartition分割成非重叠patch,每个patch视作一个“token”作为序列输入,patch大小为7×7;之后使用Linear Embedding用于调整输入维度,并生成不同层次的特征表示,其中,整个SSwin-Le Transforme特征提取网络由四个block组成,每个相邻的block之间采用Patchmerging进行扫描操作,减少tokens的数量和增加特征维度。
上述方案进一优选的,将Patch Partition分割成非重叠的图像使用基于窗口的多头注意力机制再分割成非重叠的图像块,以降低计算复杂度,在非重叠的图像中进行局部自注意力计算,获得局部上下文信息,对于一张H×W×3的图像,窗口将图像分割成非重叠的图像块,每个窗口包含了M×M的patch,对MSA和基于窗口的W-MSA的计算复杂度分别如下:
Ω(MSA)=4hwC2+2(hw)2C;
Figure BDA0003670627160000031
其中h为图像的长,w为图像的宽,C为图像的通道数,M默认为7,M4是每个窗口的计算量。
上述方案进一优选的,在所述SSwin-Le Transformer Block模块中增加空间Shuffle操作,让SSwin-Le Transformer Block中的第二个基于窗口的自注意力机制从不同的窗口获取数据,实现不同窗口之间的信息交互,空间Shuffle操作为首先把输入SSwin-Le Transformer Block模块中多头自注意力机制的H×W×C图像,变成一个N×(M2×C)的序列展开块,该序列展开块中一共有N=HW/M2个展平块,每个块的维度为(M2C),其中M是块大小,C是通道数,将序列展开块的空域维度重塑为(M,N/M),然后改变维度并平展后送入下一层。
上述方案进一优选的,在所述步骤3中,以ME-PAFPN作为特征融合网络进行融合具体包括以下步骤:
步骤31:将对图像数据集输入到ME-PAFPN特征融合网络中的三个特征层,各自使用1×1卷积生成256通道的输出,然后通过线性插值上采样到原来的尺度,然后将处理后的三个特征层拼接,通过1×1卷积和3×3卷积进行融合,使用Sigmoid转化成3个概率图,并将这3个概率图分别应用于3个上采样后的特征图,生成多尺度信息;
步骤32:ME-PAFPN特征融合网络经过ASPP卷积模块,在ASPP卷积模块中一共有四个并行分支,将特征图作为分支的输入,其中三个分支使用不同的卷积和Relu;输出的通道数目是输入通道的1/4,最后一个分支使用全局平均化来压缩特征,然后使用1×1卷积和Relu来将压缩特征转换为1/4输入通道的特征,调整最后一个分支的输出图像大小后与其他分支拼接起来。。
步骤33:特征图和自上而下的融合分支中经过BSF模块,进行上采样和自适应最大池化后经过Refine模块,Refine模块的处理流程为:首先将输入为B×H×W×C的图像分别用数量为C/2,尺寸为1×1×1的卷积核进行卷积得到三条支路的输出,维度都是B×H×W×C/2,然后经过展开和转换维度得到BHW×C/2、C/2×BHW和BHW×C/2的输出,将前两条支路的两个输出进行矩阵乘法得到BHW×BHW的输出,该输出经过Softmax归一化函数处理后和第三条支路的输出做矩阵乘法得到BHW×C/2的输出,将该输出重塑成B×H×W×C/2维度后经过卷积核数量为C,尺寸为1×1×1的卷积层并和原来的B×H×W×C做逐像素相加得到最后的输出结果。
上述方案进一优选的,在所述步骤3中的PrIme Sample Attention的采样过程:主要运用分层局部IoU排序和分层局部得分排序,分别针对检测目标的正样本和负样本的重要性进行排序;
其中:所述分层局部IoU排序先将所有样本根据不同的真实值GT分配在不同的组,然后在每一组内以IoU为指标进行降序排序,得到IoU-LR,再根据IoU-LR进行采样,将每组排第一的样本放到一起,然后以此类推进行排列,之后对每个组进行降序排序,得到IoU-HLR。
所述分层局部得分排序是先使用非极大值抑制NMS将负样本分组到不同的群集中,将所有提议框中的最高分数用作负样本的得分,先将所有样本根据不同的类别分配到不同的组里面,然后在每一组内以得分为指标进行降序排序,得到Score-LR,再根据Score-LR进行采样,将每组排第一的样本放到一起,然后以此类推进行排列,之后对每个组进行降序排序,得到Score-HLR。
上述方案进一优选的,所述的步骤4中,在对ME Mask R-CNN进行训练时,每隔几个周期便改变ME Mask R-CNN轨道列车障碍物检测模型的输入尺寸,通过对不同尺度的图像进行训练,在一定程度上提高检测模型对物体大小的鲁棒性
综上所述,由于本发明采用了上述技术方案,本发明具有以下有益技术效果是:本发明采用了上述的基于深度学习的卷积神经网络结构设计,改进障碍物检测的技术框架,可以实现列车轨道障碍物的智能检测,准确率高,误检率低,检测速度快,相对于现有的其他检测方法优势明显,并且能提高识别效率,能够极大地减少列车驾驶员的工作量,同时在其他领域中也具有广阔的应用潜力。
附图说明
图1是本发明的ME Mask R-CNN网络模型的总体结构示意图;
图2是本发明的SSwin-Le Transformert网络的结构示意图;
图3是本发明的ME-PAFPN网络的结构示意图。
图4中(a)是本发明的RFA模块的结构图,(b)是ASPP卷积模块的结构图;
图5中(a)是本发明的BSF模块的结构图,(b)是Refine模块的结构图;
图6是本发明的IoU-HLR排序和Score-HLR的排序计算示意图;
图7是本发明对轨道上障碍物的检测结果对比示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
根据本发明的基于卷积神经网络的轨道交通列车障碍物检测方法,所述障碍物检测方法包括以下步骤:
步骤1:通过安装在列车前端的摄像机,拍摄获取列车前方轨道的视频信息,在视频信号中挑选多个关键帧组,在每关键帧组中选取一张图像经处理后得到不同场景的图像,作为建立轨道列车障碍物检测的图像数据集;采集的图像数据是由站台视频、试车线视频和隧道视频中挑选关键帧组成,为了增加模型的泛化能力,每50帧选取一张图像用以获得不同的障碍物位置。经过选取得到3000张不同场景的图像,作为样本用于建立轨道交通障碍物检测的数据集;
步骤2:将图像数据集进行增强处理,提高模型的泛化性能。采用图像标注软件Labelme对图像进行像素级标注,得到的标签包括所有检测目标的位置和类别信息,将标签和图像制作成COCO数据集格式。
步骤3:构建ME Mask R-CNN轨道交通列车障碍物检测模型。所述ME Mask R-CNN如图1所示。该ME Mask R-CNN轨道列车障碍物检测模型以Mask R-CNN作为基线模型、以SSwin-Le Transformer作为特征提取网络、ME-PAFPN作为特征融合网络、以PrIme SampleAttention为采样方法,并使用区域建议网络对图像数据集进行前景和背景的二值分类和边界框回归,生成提议框;特征提取网络为SSwin-Le Transformer,它类似于传统卷积特征提取网络网络的分层形式可以更好的融入Mask R-CNN检测框架;SSwin-Le Transformer中的主要操作是维度变换,基于窗口的图像划分,Shuffle Shift Window-based Multi-headSelf-Attention(SSW-MSA)和Locally-enhanced Feed-Forward Network(LeFF)。之后通过特征融合网络ME-PAFPN,加强多尺度表示,生成特征图。ME-PAFPN通过多种方式来改善原有PAFPN的缺点,在原来Top-Down分支和Botton-up分支加入Residual FeatureAugmentation(RFA)模块,Atrous Spatial Pyramid Pooling(ASPP)模块和BalancedSemantic Feature(BSF)模块以增加特征融合网络的多尺度表现能力,提高小目标检测性能。之后特征图经过RPN(Region Proposal Network)进行前景和背景的二值分类和边界框的回归,生成提议框。在RPN区域建议网络中,对提议框的大小和比率在列车障碍物检测场景中进行适配。对提议框进行ROIAlign操作,再进入ROI Head进行类别分类和回归提议框,最后生成边界框和分割掩码。使用的采样方法为PrIme Sample Attention(PISA),对主要样本进行加权处理,提高检测精度。特征提取网络SSwin-Le Transformer如图2所示,所述SSwin-Le Transformer特征提取网络由SSwin-Le Transformer Block模块构成,SSwin-LeTransformer Block模块满足公式:
Figure BDA0003670627160000061
Figure BDA0003670627160000062
Figure BDA0003670627160000063
Figure BDA0003670627160000064
其中
Figure BDA0003670627160000065
和zl代表第l个W-MSA模块、SSW-MSA模块和LeFF模块的输出,W-MSA模块表示使用规则的窗口分割的多头注意力模块,SSW-MSA模块表示使用Shuffle Shift的窗口分割的多头注意力模块
在本发明中,在SSwin-Le Transformer特征提取网络的计算过程中,通过不同维度的信息交流,获得对图像的强有力表征:首先将输入H×W×3的图像通过PatchPartition(图像块划分模块)分割成非重叠patches,将Patch Partition分割成非重叠的图像使用基于窗口的多头注意力机制再分割成非重叠的图像块,降低计算复杂度(计算量),在非重叠的图像中进行局部自注意计算,获得局部上下文信息,对于一张H×W×3的图像,窗口将图像分割成不重叠的图像块,每个窗口包含了M×M的patch,对于MSA(Multi-head self-attention)和基于窗口的W-MSA的计算复杂度如下:
Ω(MSA)=4hwC2+2(hw)2C;
Figure BDA0003670627160000066
其中,Ω是通用的复杂度计算的标志,h为图像的长,w为图像的宽,C为图像的通道数,M默认为7,M4是每个窗口的计算量,相对于全局注意力对计算的负担,通过将MSA和W-MSA进行对比,从而可清楚地知道W-MSA的计算复杂度减少了,可以看出基于窗口的自注意力具有线性计算复杂性。
每个patch视作一个“token”作为序列输入,patch大小为7×7。之后使用LinearEmbedding(线性嵌入层)用于调整输入维度,使SSwin-Le Transformer Block通过稳定的特征维度输入实现特征学习,并生成不同层次的特征表示。整个网络由四个block组成,每个相邻的block之间采用Patch merging进行扫描操作,以便达到减少tokens的数量和增加特征维度;所述SSwin-Le Transformer特征提取网络生成的特征图有四个不同的特征维度,和传统的CNN网络Resnet类似,具有在不同尺度下建模的灵活性。
在所述SSwin-Le Transformer Block模块中增加空间Shuffle操作,让SSwin-LeTransformer Block中的第二个基于窗口的自注意力机制从不同的窗口获取数据,实现不同窗口之间的信息交互,空间Shuffle操作为首先把输入SSwin-Le Transformer Block模块中多头自注意力机制的H×W×C图像,变成一个N×(M2×C)的序列展开块,将图像从原始图变换为一列图像块,从而方便对空间维度进行进行变换,该序列展开块中一共有N=HW/M2个展平块,每个块的维度为(M2C),其中M是块大小,C是通道数,将序列展开块的空域维度重塑为(M,N/M),然后改变维度并平展后送入下一层。这种操作将来自不同窗口的输入打包,有助于构建长距离跨窗口连接。
在本发明中,特征融合方法为ME-PAFPN特征融合网络的结构示意图,如图3所示,是基于PAFPN的改进方法,如图4(a)所示,RFA模块以ME-PAFPN作为特征融合网络进行融合具体包括以下步骤:
首先,将对图像数据集输入到ME-PAFPN特征融合网络中的三个特征层,
输入到ME-PAFPN中的特征图为前面SSwin-Le Transformer中4个block所产生的4层特征图,此处只选取的特征图的前三层;各自使用1×1卷积生成256通道的输出,然后通过线性插值上采样到原来的尺度,然后将处理后的三个特征层拼接,通过1×1卷积和3×3卷积进行融合,使用Sigmoid转化成3个概率图,并将这3个概率图分别应用于3个上采样后的特征图,生成多尺度信息;
其次,ME-PAFPN特征融合网络经过ASPP卷积模块,该卷积模块对同一张图像应用不同的卷积达到扩大感受野的效果,如图4(b)所示,在ASPP卷积模块中,一共有四个并行分支,将特征图作为分支的输入。其中三个分支使用卷积核不同的卷积和Relu,Relu是搭配卷积使用的一种激活函数,用于缓解网络的过拟合,卷积和Relu主要作用为提取图像信息,输出结果可以使检测更准确,这三个卷积分支的配置为:kernel size=[1,3,3],atrousrate=[1,3,6],padding=[0,3,6],卷积核不同的卷积,感受野(单步运算的图像大小)不同,这样就可以获取多尺度的信息,输出的通道数目是输入通道的1/4,最后一个分支使用全局平均化来压缩特征,然后使用1×1卷积和Relu来将压缩特征转换为1/4输入通道的特征,调整最后一个分支的输出图像大小后与其他分支拼接起来。。
最后,特征图和自上而下的融合分支中经过BSF(平衡语义特征:BalancedSemantic Feature)模块,如图5(a)所示。其中的Refine模块如图5(b)所示,Refine模块的处理流程为:首先将输入为B×H×W×C的图像分别用数量为C/2,B为一次输入的图像张数,H为图像的长,W为图像的宽,C为图像的通道数(也叫维度,如正常图片的C为3,分别为R,G,B),尺寸为1×1×1的卷积核进行卷积得到三条支路的输出,维度都是B×H×W×C/2,然后经过展开和转换维度得到BHW×C/2、C/2×BHW和BHW×C/2的输出,BHW×BHW为前两条支路得到的输出。前两条支路的两个输出进行矩阵乘法得到BHW×BHW的输出,该输出经过Softmax归一化函数处理后和第三条支路的输出做矩阵乘法得到BHW×C/2的输出,将该输出重塑成B×H×W×C/2维度后经过卷积核数量为C,尺寸为1×1×1的卷积层并和原来的B×H×W×C做逐像素相加得到最后的输出结果。
在本发明中,运用的PISA(PrIme Sample Attention)采样方法,如图6所示,ABCDE为假设的目标类别,左侧的数值为IoU数值,右侧的为Score得分。主要运用分层局部IoU排序(IoU(Intersection over Union)-HLR(Hierarchical Local Rank)和分层局部得分排序(Score-HLR),分别针对检测目标的正样本和负样本的重要性进行排序;其中:所述分层局部IoU排序,该方法的流程主要是:先将所有样本根据不同的真实值GT(Ground truth)分配在不同的组,GT在目标检测领域当中代表真实值,即为人工标注的区域,然后在每一组内以IoU为指标进行降序排序,得到IoU Local Rank(IoU-LR)。之后根据IoU-LR进行采样,将IoU-LR进行采样后放到样本组中,只采样排名第一的图像,采样的是图像,样本为被检测框覆盖的图像,将每组排第一的样本放到一起,然后以此类推进行排列。之后对每个组进行降序排序,得到IoU-HLR。所述的分层局部得分排序(Score-HLR),以类似于IoU-HLR的方式计算负样本的Score-HLR。首先使用非极大抑制NMS(non-maximum suppression)将负样本分组到不同的群集中,将所有提议框中的最高分数用作负样本的得分,然后执行与计算IoU-HLR相同的步骤;即为:先将所有样本根据不同的类别分配到不同的组里面,然后在每一组内以得分为指标进行降序排序,得到Score Local Rank(Score-LR),再根据Score-LR进行采样,将每组排第一的样本放到一起,然后以此类推进行排列,之后对每个组进行降序排序,得到Score-HLR。
步骤4:训练ME Mask R-CNN轨道列车障碍物检测模型,使用轨道交通障碍物的图像数据集对ME Mask R-CNN进行训练,先设置好训练参数和优化器参数,然后对输入的图像数据集进行迭代计算,通过计算损失值,将损失值反向传播到网络参数中,更新网络模型的权重值,损失值为损失函数的值(即损失函数是预测结果和实际结果之间的区别),根据损失值的大小,运用反向传播更新权重来减少损失值,获得权重值,即为训练完成,完成训练周期后,利用模型权重文件将待检测的障碍物图像输入训练好的模型进行测试,输出障碍物图像数据集的识别结果,完成轨道危险区域障碍物的检测和识别,在对ME Mask R-CNN进行训练时,每隔几个周期便改变ME Mask R-CNN轨道列车障碍物检测模型的输入尺寸,通过对不同尺度的图像进行训练,在一定程度上提高检测模型对物体大小的鲁棒性;
步骤5:根据识别结果判断检测障碍物是否在轨道危险区域内,将危险区域与障碍物进行着色,以显示危险区域和障碍物所在的具体位置,无论障碍物在不在危险区域内都会进行着色,根据位置判断示危险区域和障碍物是否重叠,从而进行来检测判断危险区域内是否有障碍物;
图7所示为部分检测结果的对比图:(a)为测试线场景(即最左边的这两幅),(b)为夜间场景(中间的两幅图),(c)为隧道场景(最右边两幅图)。实验采用迁移学习思想,使用MS COCO数据集上预训练好的权重参数初始化ME Mask R-CNN模型,然后经过一系列对参数地调试与试验,训练的重要参数如表1所示:
表1 ME Mask R-CNN的主要训练参数
Figure BDA0003670627160000091
训练完成后进行模型评估,ME Mask R-CNN在mAP上表现最优,达到了91.3%,比一阶段网络YOLOV4准确率高25.2%,比二阶段网络Mask R-CNN,Cascade R-CNN和Faster R-CNN准确率分别高出11.1%,10.1%和12.1%。对比实验分别在ME Mask R-CNN框架下进行特征提取网络、特征融合网络、采样方法的对比,以证明设计部件的有效性。选择CNN特征提取网络Resnet50、Resnet101,Transformer的特征提取网络Swin Transformer和SSwin-LeTransformer进行特征提取网络对比,准确率分别增加了5.5%,4.1%和3.2%。选择FPN,PAFPN,BFP进行特征融合网络对比,PAFPN的性能为85.7%mAP、4.5FPS,BFP的性能为85.4%mAP、4.7FPS。可以看出PAFPN、BFP相对FPN的性能优势相当。而ME PAFPN用多种多尺度手段增加模型的表现能力,对各个类别的精度提升明显,主要是通过生成多尺度信息,加强图像金字塔的信息交流和聚合浅层特征和深度特征。采样方法的对比结果,主要包括随机采样,在线难例挖掘,主样本采样(PISA),选取性能最好的主样本采样作为采样方法以满足对障碍物检测的性能要求。综上所述,ME Mask R-CNN在优化改进检测技术框架后,在检测精度与检测时间方面都好于常用目标检测网络,能满足列车障碍物检测场景的需求。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于卷积神经网络的轨道列车障碍物检测方法,其特征在于,所述障碍物检测包括以下步骤:
步骤1:通过安装在列车前端的摄像机,拍摄获取列车前方轨道的视频信息,在视频信号中挑选多个关键帧组,在每关键帧组中选取一张图像经处理后得到不同场景的图像,作为建立轨道列车障碍物检测的图像数据集;
步骤2:将图像数据集进行增强处理,然后采用图像标注软件Labelme对图像数据集进行像素级标注,从而得到标签数据,标签数据包括所有检测目标的位置和类别信息,并将标签数据作成COCO数据集格式;
步骤3:构建ME Mask R-CNN轨道列车障碍物检测模型,该ME Mask R-CNN轨道列车障碍物检测模型以Mask R-CNN作为基线模型、以SSwin-Le Transformer作为特征提取网络、ME-PAFPN作为特征融合网络、以PrIme Sample Attention为采样方法,并使用RPN区域建议网络对图像数据集进行前景和背景的二值分类和边界框回归,生成提议框;在区域建议网络中,先对提议框的大小和比率在列车障碍物检测场景中进行适配以及对提议框进行ROIAlign操作,再进入ROI Head进行类别分类和回归提议,最后生成边界框和分割掩码;
步骤4:训练ME Mask R-CNN轨道列车障碍物检测模型,使用轨道交通障碍物的图像数据集对ME Mask R-CNN进行训练,先设置好训练参数和优化器参数,然后对输入数据进行迭代计算,通过计算损失值,将损失值反向传播到网络参数中,更新网络模型的权重值,完成训练周期后,利用模型权重文件将待检测的障碍物图像输入训练好的模型进行测试,输出障碍物图像数据集的识别结果,完成轨道危险区域障碍物的检测和识别;
步骤5:根据识别结果判断检测障碍物是否在轨道危险区域内,将危险区域与障碍物进行着色,以显示危险区域和障碍物所在的具体位置,根据位置判断示危险区域和障碍物是否重叠,从而进行来检测判断危险区域内是否有障碍物。
2.根据权利要求1所述的一种基于卷积神经网络的轨道交通列车障碍物检测方法,其特征在于:所述SSwin-Le Transformer特征提取网络由SSwin-Le Transformer Block模块构成,SSwin-Le Transformer Block模块满足公式:
Figure FDA0003670627150000011
Figure FDA0003670627150000012
Figure FDA0003670627150000013
Figure FDA0003670627150000014
其中
Figure FDA0003670627150000015
和zl代表第l个W-MSA模块、SSW-MSA模块和LeFF模块的输出,W-MSA模块表示使用规则的窗口分割的多头注意力模块,SSW-MSA模块表示使用Shuffle Shift的窗口分割的多头注意力模块。
3.根据权利要求2所述的一种基于卷积神经网络的轨道交通列车障碍物检测方法,其特征在于:在SSwin-Le Transformer特征提取网络的计算过程中,通过不同维度的信息交流,获得对图像的强有力表征,首先将输入H×W×3的图像通过Patch Partition分割成非重叠patch,每个patch视作一个“token”作为序列输入,patch大小为7×7;之后使用LinearEmbedding用于调整输入维度,并生成不同层次的特征表示,其中,整个SSwin-LeTransforme特征提取网络由四个block组成,每个相邻的block之间采用Patch merging进行扫描操作,减少tokens的数量和增加特征维度。
4.根据权利要求3所述的一种基于卷积神经网络的轨道交通列车障碍物检测方法,其特征在于:将Patch Partition分割成非重叠的图像使用基于窗口的多头注意力机制再分割成非重叠的图像块,以降低计算复杂度,在非重叠的图像中进行局部自注意力计算,获得局部上下文信息,对于一张H×W×3的图像,窗口将图像分割成非重叠的图像块,每个窗口包含了M×M的patch,对MSA和基于窗口的W-MSA的计算复杂度分别如下:
Ω(MSA)=4hwC2+2(hw)2C;
Figure FDA0003670627150000021
其中h为图像的长,w为图像的宽,C为图像的通道数,M默认为7,M4是每个窗口的计算量。
5.根据权利要求2所述的一种基于卷积神经网络的轨道交通列车障碍物检测方法,其特征在于:在所述SSwin-Le Transformer Block模块中增加空间Shuffle操作,让SSwin-LeTransformer Block中的第二个基于窗口的自注意力机制从不同的窗口获取数据,实现不同窗口之间的信息交互,空间Shuffle操作为首先把输入SSwin-Le Transformer Block模块中多头自注意力机制的H×W×C图像,变成一个N×(M2×C)的序列展开块,该序列展开块中一共有N=HW/M2个展平块,每个块的维度为(M2C),其中M是块大小,C是通道数,将序列展开块的空域维度重塑为(M,N/M),然后改变维度并平展后送入下一层。
6.根据权利要求1所述的一种基于卷积神经网络的轨道交通列车障碍物检测方法,其特征在于:在所述步骤3中,以ME-PAFPN作为特征融合网络进行融合具体包括以下步骤:
步骤31:将对图像数据集输入到ME-PAFPN特征融合网络中的三个特征层,各自使用1×1卷积生成256通道的输出,然后通过线性插值上采样到原来的尺度,然后将处理后的三个特征层拼接,通过1×1卷积和3×3卷积进行融合,使用Sigmoid转化成3个概率图,并将这3个概率图分别应用于3个上采样后的特征图,生成多尺度信息;
步骤32:ME-PAFPN特征融合网络经过ASPP卷积模块,在ASPP卷积模块中一共有四个并行分支,将特征图作为分支的输入,其中三个分支使用不同的卷积和Relu;输出的通道数目是输入通道的1/4,最后一个分支使用全局平均化来压缩特征,然后使用1×1卷积和Relu来将压缩特征转换为1/4输入通道的特征,调整最后一个分支的输出图像大小后与其他分支拼接起来。
步骤33:特征图和自上而下的融合分支中经过BSF模块,进行上采样和自适应最大池化后经过Refine模块,Refine模块的处理流程为:首先将输入为B×H×W×C的图像分别用数量为C/2,尺寸为1×1×1的卷积核进行卷积得到三条支路的输出,维度都是B×H×W×C/2,然后经过展开和转换维度得到BHW×C/2、C/2×BHW和BHW×C/2的输出,将前两条支路的两个输出进行矩阵乘法得到BHW×BHW的输出,该输出经过Softmax归一化函数处理后和第三条支路的输出做矩阵乘法得到BHW×C/2的输出,将该输出重塑成B×H×W×C/2维度后经过卷积核数量为C,尺寸为1×1×1的卷积层并和原来的B×H×W×C做逐像素相加得到最后的输出结果。
7.根据权利要求1所述的一种基于卷积神经网络的轨道交通列车障碍物检测方法,其特征在于:在所述步骤3中的PrIme Sample Attention的采样过程:主要运用分层局部IoU排序和分层局部得分排序,分别针对检测目标的正样本和负样本的重要性进行排序;其中:所述分层局部IoU排序先将所有样本根据不同的真实值GT分配在不同的组,然后在每一组内以IoU为指标进行降序排序,得到IoU-LR,再根据IoU-LR进行采样,将每组排第一的样本放到一起,然后以此类推进行排列,之后对每个组进行降序排序,得到IoU-HLR;所述分层局部得分排序是先使用非极大值抑制NMS将负样本分组到不同的群集中,将所有提议框中的最高分数用作负样本的得分,先将所有样本根据不同的类别分配到不同的组里面,然后在每一组内以得分为指标进行降序排序,得到Score-LR,再根据Score-LR进行采样,将每组排第一的样本放到一起,然后以此类推进行排列,之后对每个组进行降序排序,得到Score-HLR。
8.根据权利要求1所述的一种基于卷积神经网络的轨道交通列车障碍物检测方法,其特征在于:所述的步骤4中,在对ME Mask R-CNN进行训练时,每隔几个周期便改变ME MaskR-CNN轨道列车障碍物检测模型的输入尺寸,通过对不同尺度的图像进行训练,在一定程度上提高检测模型对物体大小的鲁棒性。
CN202210604033.1A 2022-05-31 2022-05-31 一种基于卷积神经网络的轨道交通列车障碍物检测方法 Pending CN114973199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210604033.1A CN114973199A (zh) 2022-05-31 2022-05-31 一种基于卷积神经网络的轨道交通列车障碍物检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210604033.1A CN114973199A (zh) 2022-05-31 2022-05-31 一种基于卷积神经网络的轨道交通列车障碍物检测方法

Publications (1)

Publication Number Publication Date
CN114973199A true CN114973199A (zh) 2022-08-30

Family

ID=82957840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210604033.1A Pending CN114973199A (zh) 2022-05-31 2022-05-31 一种基于卷积神经网络的轨道交通列车障碍物检测方法

Country Status (1)

Country Link
CN (1) CN114973199A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711330A (zh) * 2018-12-25 2019-05-03 山东雷诚电子科技有限公司 一种主动毫米波人体成像威胁物检测方法
CN117152719A (zh) * 2023-11-01 2023-12-01 锐驰激光(深圳)有限公司 除草障碍物检测方法、设备、存储介质及装置
CN118552860A (zh) * 2024-07-30 2024-08-27 南京农业大学 一种障碍物检测方法、装置、电子设备以及存储介质
CN118587426A (zh) * 2024-08-06 2024-09-03 成都理工大学 一种轻量化双通道铁路异物入侵检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553916A (zh) * 2021-06-30 2021-10-26 广西大学 一种基于卷积神经网络的轨道危险区域障碍物检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553916A (zh) * 2021-06-30 2021-10-26 广西大学 一种基于卷积神经网络的轨道危险区域障碍物检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DEQIANG HE 等: "Improved Mask R-CNN for obstacle detection of rail transit", 《MEASUREMENT 》, 13 January 2022 (2022-01-13), pages 1 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711330A (zh) * 2018-12-25 2019-05-03 山东雷诚电子科技有限公司 一种主动毫米波人体成像威胁物检测方法
CN117152719A (zh) * 2023-11-01 2023-12-01 锐驰激光(深圳)有限公司 除草障碍物检测方法、设备、存储介质及装置
CN117152719B (zh) * 2023-11-01 2024-03-26 锐驰激光(深圳)有限公司 除草障碍物检测方法、设备、存储介质及装置
CN118552860A (zh) * 2024-07-30 2024-08-27 南京农业大学 一种障碍物检测方法、装置、电子设备以及存储介质
CN118552860B (zh) * 2024-07-30 2024-10-29 南京农业大学 一种障碍物检测方法、装置、电子设备以及存储介质
CN118587426A (zh) * 2024-08-06 2024-09-03 成都理工大学 一种轻量化双通道铁路异物入侵检测方法

Similar Documents

Publication Publication Date Title
CN112418236B (zh) 一种基于多任务神经网络的汽车可行驶区域规划方法
He et al. Improved Mask R-CNN for obstacle detection of rail transit
CN110263786B (zh) 一种基于特征维度融合的道路多目标识别系统及方法
He et al. Rail transit obstacle detection based on improved CNN
Ghasemieh et al. 3D object detection for autonomous driving: Methods, models, sensors, data, and challenges
CN114973199A (zh) 一种基于卷积神经网络的轨道交通列车障碍物检测方法
CN114445430B (zh) 轻量级多尺度特征融合的实时图像语义分割方法及系统
CN113920499A (zh) 一种面向复杂交通场景的激光点云三维目标检测模型及方法
CN105260712A (zh) 一种车辆前方行人检测方法及系统
CN113269133A (zh) 一种基于深度学习的无人机视角视频语义分割方法
Dewangan et al. Towards the design of vision-based intelligent vehicle system: methodologies and challenges
Shojaiee et al. EFASPP U-Net for semantic segmentation of night traffic scenes using fusion of visible and thermal images
Kapoor et al. An intelligent railway surveillance framework based on recognition of object and railway track using deep learning
CN114764856A (zh) 图像语义分割方法和图像语义分割装置
Zhang et al. Road marking segmentation based on siamese attention module and maximum stable external region
Nguyen et al. A robust triangular sigmoid pattern-based obstacle detection algorithm in resource-limited devices
Wang et al. Vehicle type classification via adaptive feature clustering for traffic surveillance video
Rani et al. ShortYOLO-CSP: a decisive incremental improvement for real-time vehicle detection
CN114495050A (zh) 一种面向自动驾驶前向视觉检测的多任务集成检测方法
Zaman et al. A CNN-based path trajectory prediction approach with safety constraints
Qin et al. An improved deep learning algorithm for obstacle detection in complex rail transit environments
CN117058641A (zh) 一种基于深度学习的全景驾驶感知方法
Ye et al. Neural network‐based semantic segmentation model for robot perception of driverless vision
Chen et al. Vehicle detection based on yolov3 in adverse weather conditions
CN113869239A (zh) 一种交通信号灯倒计时识别系统及其构建方法、应用方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination