CN111325203B - 一种基于图像校正的美式车牌识别方法及系统 - Google Patents
一种基于图像校正的美式车牌识别方法及系统 Download PDFInfo
- Publication number
- CN111325203B CN111325203B CN202010069950.5A CN202010069950A CN111325203B CN 111325203 B CN111325203 B CN 111325203B CN 202010069950 A CN202010069950 A CN 202010069950A CN 111325203 B CN111325203 B CN 111325203B
- Authority
- CN
- China
- Prior art keywords
- text
- image
- license plate
- information
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003702 image correction Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000013528 artificial neural network Methods 0.000 claims abstract description 33
- 238000007689 inspection Methods 0.000 claims abstract description 28
- 238000012360 testing method Methods 0.000 claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000009466 transformation Effects 0.000 claims description 31
- 238000013527 convolutional neural network Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 20
- 230000007246 mechanism Effects 0.000 claims description 16
- 230000002457 bidirectional effect Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 12
- 125000004122 cyclic group Chemical group 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 9
- 238000013518 transcription Methods 0.000 claims description 8
- 230000035897 transcription Effects 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000005452 bending Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 2
- 230000011218 segmentation Effects 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 241000221535 Pucciniales Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
发明涉及一种基于图像校正的美式车牌识别方法及系统,文本检测、图像校正、文本识别、文本分类模块,包括以下步骤:对数据集的图像文件进行预处理,并进行数据增强,生成训练集和测试集;设计文本检测模块,对图像中的文本信息进行检测,实现对图像中的文本与背景分割,得到仅包含文本信息的文本图像;采用图像校正模块对文本图像进行校正,将原本扭曲或倾斜的文本图像转换到水平方向;对校正后的文本图像进行识别,得到文本图像内包含的字母、数字等信息;构建文本分类模块,从所有的文本信息中筛选出车牌号、洲名、年检日期,完成车牌识别。本发明解决了对美式车牌识别时存在背景图案复杂、目标文本图像变形模糊、文本信息复杂以及使用神经网络进行离线训练时计算量大的问题。
Description
技术领域
本发明涉及图像识别和人工智能领域,特别是一种基于图像校正的美式车牌识别方法及系统。
背景技术
车牌识别技术是智慧城市交通建设中的重要技术,准确度和实时性是衡量车牌识别技术的两个重要指标。车牌图像属于自然场景图像,采集车牌图像时易受光线影响,车牌自身也会因拍摄角度不同,带来倾斜、运动模糊以及车牌出现褪色和污点,这些不确定的干扰都会直接影响到车牌信息识别的准确度。不同于国内车牌拥有蓝底白字、黄底黑字、白底黑字等统一样式,美式车牌包含复杂的背景图案,文本字体风格各异,不同州之间的车牌设计完全不同,每个车牌都可以进行个性化定制,因此直接将普通车牌识别技术应用到美式车牌识别中是不可行的,这也给美式车牌识别带来较大的困难和挑战。
自然场景图像中的文本包含高级的重要语义信息,这些信息对于分析和理解场景有着重要意义。随着摄像机和计算机的迅速普及,在日常生活中能够大量地获取带有文本信息的图像。因此,场景文本识别已成为计算机视觉中的活跃研究课题,其相关应用包括图像检索,视频安防,智慧交通和人机交互等。车牌识别方法主要涉及文本检测和文本识别两个方面,文本检测旨在根据输入图像确定文本的位置,并且该位置通常由边界框表示。文本识别旨在将包含文本的图像区域转换为机器可读的字符串。
传统车牌识别方法包括根据纹理特征分析、颜色特征、图像边缘变化剧烈程度对车牌区域进行定位。近来使用神经网络进行车牌识别的方案主要有OpenALPR、easyPR、HyperLPR等。虽然车牌识别技术已得到很大发展,目前我国车牌识别技术主要针对国内标准车牌设计,还没有相关技术对复杂的美式车牌进行识别,美式车牌识别仍然存在难点。难点主要集中体现在以下几个方面,首先美式车牌的图案背景复杂,加上光照、大雾、沙尘暴等天气影响,导致采集到的图像质量较低,美式车牌有些使用年限长,车牌上的文本产生污点或锈迹,造成部分目标图像被背景图像掩盖,在进行文本检测时,容易将背景图案和文本混淆;其次,美式车牌的英文字体包括印刷体和手写体,没有统一风格,采集到的车牌图像存在倾斜、弯曲、透视变形的问题,降低了车牌字符识别的准确率;最后,在对车牌字符识别时,需要对英文字母和数字进行混合识别,车牌上的文本信息复杂,包括车牌名、洲名、年检日期、宣传标语等,需要在全部的文本信息中筛选出车牌名、洲名和年检日期,由于年检日期的年份和月份是分开粘贴在车牌上,因此在判断年检日期时要区分年份和月份。
发明内容
有鉴于此,本发明的目的是提供一种基于图像校正的美式车牌识别方法及系统,以解决对美式车牌识别时背景图案复杂、目标文本图像变形模糊、文本信息复杂以及使用神经网络进行离线训练时计算量大的问题。
本发明采用以下方案实现:一种基于图像校正的美式车牌识别方法,包括以下步骤:
步骤S1:数据集预处理:对原始的美式车牌图像数据集进行清理筛选,对图像进行标注,标注内容包括文本框以及文本框内的文本信息,将标注好的图像分为训练集和测试集,用于神经网络训练和实验测试;
步骤S2:构造基于卷积神经网络和循环神经网络的文本检测模块:使用卷积神经网络对训练集图像进行特征提取,利用滑动卷积将特征图转换为特征序列,设计锚点机制对每次滑动卷积的结果进行检测;通过比较文本框x轴和y轴方向的长度得到多组连续文本框,采用循环神经网络对文本框进行排序得到文本框序列信息,每组文本框即预测的文本图像;
步骤S3:经预测得到的文本图像存在弯曲、倾斜情况,设计图像校正模块对图像进行校正,该模块包含一个线拟合变换,线拟合变换通过多项式对场景文本的中线和一组垂直于文本中线的线段建模,即估计文本的方向和边界;利用迭代校正网络学习线段方程参数,调整文本图像到水平方向;
步骤S4:加载经步骤S3校正后的文本图像,将文本图像输入文本识别模块,文本识别模块通过特征提取层、序列回归层、转录层实现对文本图像的识别,获得文本信息;
步骤S5:采用文本分类模块对文本信息进行分类处理,由于每个预测得到的文本信息与文本框一一对应,根据文本框的长、宽以及位置信息,能够判断出文本信息中的车牌号、洲名、年检日期。
进一步地,所述步骤S1具体包括以下步骤:
步骤S11:对原始数据集进行数据筛选,剔除模糊、文本信息缺失的图像,使用LabelImg标注软件对筛选后的图像进行框选标注,标注内容包括框选文本图像的4个端点坐标以及文本框内的文本信息,将图像序号、端点坐标、文本信息存入txt文件,生成训练集和测试集,训练集占2/3,测试集占1/3,训练集和测试集均包括车牌图像及txt文件;
步骤S12:采取双线性插值的方法将训练集中的原始图像像素按比例缩放至指定大小;
步骤S13:对训练集图像进行随机的水平翻转;
步骤S14:对训练集图像进行随机的角度旋转;
步骤S15:对训练集中的单目原始图像进行图像亮度、对比度及饱和度变换;
步骤S16:将训练集和测试集文件转换为LMDB(Lightning Memory-MappedDatabase)数据,用以提高文件读取速度。
进一步地,所述步骤S2具体包括以下步骤:
步骤S21:所述构造基于卷积神经网络和循环神经网络的文本检测模块时使用MobileNetV2作为卷积神经网络对图像进行特征提取;使用深度可分离卷积代替传统卷积,深度可分离卷积依次使用1*1点卷积、ReLU6激活函数、3*3深度卷积、ReLU6激活函数、1*1点卷积、线性激活函数,卷积神经网络的损失函数L(ei,gj,rk)为:
其中,分别为计算文本/非文本分数、坐标、边界细化的3个损失函数,ei表示第i个锚正确预测的概率,e* i为真实值,取0-1,j为锚i在y轴的索引,k为锚i在x轴的索引,gj和g* j分别为第i个锚的在y轴方向的预测值和真实值,rk和r* k分别为第i个锚的在x轴方向的预测值和真实值,λ1和λ2为权值,Ne、Ng和Nr为归一化参数;
步骤S22:采用3*3的滑动卷积对得到的特征图进行卷积;步长为1,通道数为512,通过滑动卷积将特征图转化为特征序列,每次卷积的结果依次输入锚点机制,进行文本框匹配;
步骤S23:所述锚点机制为x轴方向长度固定,y轴方向长度变换的文本检测框;设计k个锚点,则y轴方向长度变换表示为:
y=ck,y∈(11,273)
其中,c为常量,通过k值的变换对每个文本框序列进行文本框匹配,依次形成多个文本框;
锚点机制首先对每次滑动卷积的结果,使用文本检测框匹配,依次得到图像中所有文本的文本框,之后通过比较相邻文本框之间的距离b,从x轴方向判断相邻文本框是否属于同一文本行,若b<50,则认为属于同一文本行;在y轴方向,将第一个文本框的高度设为初始值,对该文本框进行匹配,得到k值及高度h,若后续检测的文本框高度在(0.9h,1.1h)范围内,则认为属于同一文本行;通过x和y轴方向的同时定位,将同一类的多个文本框合并成一组文本框,得到多组仅包含文本信息的文本图案。
步骤S24:所述循环神经网络采用深度堆叠双向LSTM(Bi-directional LongShort-Term Memory,BLSTM)网络,将文本图案中的文本框视为序列进行处理,得到每个文本框序列信息;循环神经网络为256维的双向LSTM网络,包括2个128维的LSTM网络,特征输入BLSTM网络后,再经过一个全连接层,得到带有序列信息的多组文本框图案。
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:所述线拟合变换对图像文本的位置进行建模,用以矫正图像透视和曲率变形;拟合线段以图像中心点作为原点,建立x-y坐标系,拟合线段包括两部分,第一部分为水平方向上对文本中线拟合的多项式,使用K阶多项式表示,包含K+1个参数:
f1(x)=aK*xK+aK-1*xK-1+…+a1*x+a0
第二部分为水平中线的法线和垂直于水平中线的边界线段,共L个线段,有3L个参数,表示为:
f2(x)=b1,l*x+b0,l|rl,l=1,2,…,L
其中rl表示文本中线两侧的线段长度;其中,所述建模的中线即文本方向,垂直于中线的线段即边界;
步骤S32:所述的迭代校正网络共5层,第一层Block1使用3*3大小的卷积核,输出通道数为32,步长为2,第二层Block2使用3*3大小的卷积核,输出通道数为64,步长为2,第三层Block3使用3*3大小的卷积核,输出通道数为128,步长为2,第四层FC4全连接层,输出通道数为512,第五层FC5全连接层,输出通道数为线拟合变换的参数数量,即3L+K+1;
步骤S33:经步骤S32得到拟合线段参数,可确定垂直于文本中线的L条线段的端点坐标P=[t1,t2,…,t2L]T,使用薄板样条插值(Thin Plate Spline Transformation,TPS)计算校正后的端点坐标P'=[t'1,t'2,…,t'2L]T,则薄板样条插值的参数表示为:
其中S=[U(t-t1),U(t-t2),…,U(t-t2L)]T,U(r)=r2logr2,对于原始图像中每个像素点t,通过TPS变换得到矫正后的像素点t',即t=C·t';
步骤S34:经步骤S33得到矫正后的线段端点,使用采样器学习从校正后的端点到原始图像的映射关系,在训练过程中不断迭代步骤S33;由于采样器是完全可微的,拟合线段不需要人工标注,采样器通过反向传播文本识别模块的图像梯度进行训练,完成文本图像的校正。
进一步地,所述步骤S4的具体内容为:
所述的特征提取层使用ResNet-50编码器,编码器最后一层卷积的通道数为512,卷积核大小为3*3,步长为1,并进行maxpooling操作,将大小为(32,100,3)的图像转换为(1,25,512)大小的特征图,再使用一次通道数为512,卷积核大小为2*2,步长为1的卷积操作,将特征图按列切分成特征序列输入下一层;
所述的序列回归层使用深度堆叠双向LSTM网络,将得到的特征序列输入深度堆叠双向LSTM网络,BLSTM网络包含2组256维的LSTM网络,对每组特征序列进行正向和反向排序,得到每组特征的序列信息;
所述的转录层采用连接时序分类(Connectionist Temporal Classification,CTC)作为条件概率,使用负对数似然概率作为训练损失,使序列回归层得到的序列信息与每帧图像的文本信息内的像素一一对应,最后得到预测的文本信息。
进一步地,所述步骤S5的具体内容为:由文本检测和图像校正模块预测得到带有序列信息的多组检测框,每个检测框记为box,确定y轴方向上最大的检测框的高度为boxmax,对于高度值在(boxmax-20,boxmax)的检测框作为车牌候选框,然后通过将每个检测框用对应x轴坐标位置由小到大进行排列,确定车牌数字和字母的前后关系,坐标为小在前;采用文本识别模块识别出框内文本即为车牌号;计算除车牌候选框以外的box中的文本和50个洲的编辑距离,匹配距离最小的洲即为洲名;在剩下的box中检测数字并自动补齐为四位数,若在1950-2019范围内,则选最大的为年检日期,没有则为0,最后输出车牌号、洲名和年检日期。
进一步地,本发明提供一种基于图像校正的美式车牌识别系统,包括文本检测模块、图像校正模块、文本识别模块和文本分类模块;所述文本检测模块用于对预处理后图像中的文本信息进行检测,实现对图像中的文本与背景分割,得到仅包含文本信息的文本图像;所述图像校正模块用于对文本图像进行校正,将原本扭曲或倾斜的文本图像转换到水平方向;所述文本识别模块用于对校正后的文本图像进行识别,得到文本图像内包含的字母、数字信息;所述文本分类模块用于从所有的文本信息中筛选出车牌号、洲名、年检日期,完成车牌识别。
与现有技术相比,本发明具有以下有益效果:
(1)由于美式车牌的背景图案复杂、目标文本图像变形模糊、文本信息复杂难以识别,本发明通过结合深度学习方法和图像识别技术,实现了端到端的美式车牌识别。
(2)本发明采用轻量化网络结构设计,结合卷积神经网络和循环神经网络,将文本检测和文本识别转化为序列处理,提高了美式车牌识别速度和精度,可用于实时车牌识别。
(3)本发明使用图像校正模块,对存在倾斜和曲率变换的车牌进行矫正处理,通过线拟合变换迭代拟合文本中线,实现文本矫正,提高了倾斜变形文本的识别精度。
(4)本发明文本分类模块根据车牌的位置和大小特征分类,筛选有用信息,完成了对美式车牌的车牌号、洲名和年检日期的识别,使识别更准确完善。
附图说明
图1为本发明实施例的整体流程示意图。
图2为本发明实施例的对美式车牌识别的神经网络结构示意图。
图3为本发明实施例的文本检测神经网络示意图。
图4为本发明实施例的图像校正神经网络示意图。
图5为本发明实施例的文本识别神经网络示意图。
图6为本发明实施例的美式车牌识别效果示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供一种基于图像校正的美式车牌识别方法,包括以下步骤:
步骤S1:数据集预处理:对原始的美式车牌图像数据集进行清理筛选,对图像进行标注,标注内容包括文本框以及文本框内的文本信息,将标注好的图像分为训练集和测试集,用于神经网络训练和实验测试;
步骤S2:构造基于卷积神经网络和循环神经网络的文本检测模块:使用卷积神经网络对训练集图像进行特征提取,利用滑动卷积将特征图转换为特征序列,设计锚点机制对每次滑动卷积的结果进行检测;通过比较文本框x轴和y轴方向的长度得到多组连续文本框,采用循环神经网络对文本框进行排序得到文本框序列信息,每组文本框即预测的文本图像;
步骤S3:经预测得到的文本图像存在弯曲、倾斜情况,设计图像校正模块对图像进行校正,该模块包含一个线拟合变换,线拟合变换通过多项式对场景文本的中线和一组垂直于文本中线的线段建模,即估计文本的方向和边界;利用迭代校正网络学习线段方程参数,调整文本图像到水平方向;
步骤S4:加载经步骤S3校正后的文本图像,将文本图像输入文本识别模块,文本识别模块通过特征提取层、序列回归层、转录层实现对文本图像的识别,获得文本信息;
步骤S5:采用文本分类模块对文本信息进行分类处理,由于每个预测得到的文本信息与文本框一一对应,根据文本框的长、宽以及位置信息,能够判断出文本信息中的车牌号、洲名、年检日期。
在本实施例中,所述步骤S1具体包括以下步骤:
步骤S11:对原始数据集进行数据筛选,剔除模糊、文本信息缺失的图像,使用LabelImg标注软件对筛选后的图像进行框选标注,标注内容包括框选文本图像的4个端点坐标以及文本框内的文本信息,将图像序号、端点坐标、文本信息存入txt文件,生成训练集和测试集,训练集占2/3,测试集占1/3,训练集和测试集均包括车牌图像及txt文件;
步骤S12:采取双线性插值的方法将训练集中的原始图像像素按比例缩放至指定大小;
步骤S13:对训练集图像进行随机的水平翻转;
步骤S14:对训练集图像进行随机的角度旋转;
步骤S15:对训练集中的单目原始图像进行图像亮度、对比度及饱和度变换;
步骤S16:将训练集和测试集文件转换为LMDB(Lightning Memory-MappedDatabase)数据,用以提高文件读取速度。
在本实施例中,所述步骤S2具体包括以下步骤:
步骤S21:所述构造基于卷积神经网络和循环神经网络的文本检测模块时使用MobileNetV2作为卷积神经网络对图像进行特征提取;使用深度可分离卷积代替传统卷积,深度可分离卷积依次使用1*1点卷积、ReLU6激活函数、3*3深度卷积、ReLU6激活函数、1*1点卷积、线性激活函数,卷积神经网络的损失函数L(ei,gj,rk)为:
其中,分别为计算文本/非文本分数、坐标、边界细化的3个损失函数,ei表示第i个锚正确预测的概率,e* i为真实值,取0-1,j为锚i在y轴的索引,k为锚i在x轴的索引,gj和g* j分别为第i个锚的在y轴方向的预测值和真实值,rk和r* k分别为第i个锚的在x轴方向的预测值和真实值,λ1和λ2为权值,Ne、Ng和Nr为归一化参数;
步骤S22:采用3*3的滑动卷积对得到的特征图进行卷积;步长为1,通道数为512,通过滑动卷积将特征图转化为特征序列,每次卷积的结果依次输入锚点机制,进行文本框匹配;
步骤S23:所述锚点机制为x轴方向长度固定,y轴方向长度变换的文本检测框;设计k个锚点,则y轴方向长度变换表示为:
y=ck,y∈(11,273)
其中,c为常量,通过k值的变换对每个文本框序列进行文本框匹配,依次形成多个文本框;
锚点机制首先对每次滑动卷积的结果,使用文本检测框匹配,依次得到图像中所有文本的文本框,之后通过比较相邻文本框之间的距离b,从x轴方向判断相邻文本框是否属于同一文本行,若b<50,则认为属于同一文本行;在y轴方向,将第一个文本框的高度设为初始值,对该文本框进行匹配,得到k值及高度h,若后续检测的文本框高度在(0.9h,1.1h)范围内,则认为属于同一文本行;通过x和y轴方向的同时定位,将同一类的多个文本框合并成一组文本框,得到多组仅包含文本信息的文本图案。
步骤S24:所述循环神经网络采用深度堆叠双向LSTM(Bi-directional LongShort-Term Memory,BLSTM)网络,将文本图案中的文本框视为序列进行处理,得到每个文本框序列信息;循环神经网络为256维的双向LSTM网络,包括2个128维的LSTM网络,特征输入BLSTM网络后,再经过一个全连接层,得到带有序列信息的多组文本框图案。
在本实施例中,所述步骤S3具体包括以下步骤:
步骤S31:所述线拟合变换对图像文本的位置进行建模,用以矫正图像透视和曲率变形;拟合线段以图像中心点作为原点,建立x-y坐标系,拟合线段包括两部分,第一部分为水平方向上对文本中线拟合的多项式,使用K阶多项式表示,包含K+1个参数:
f1(x)=aK*xK+aK-1*xK-1+…+a1*x+a0
第二部分为水平中线的法线和垂直于水平中线的边界线段,共L个线段,有3L个参数,表示为:
f2(x)=b1,l*x+b0,l|rl,l=1,2,…,L
其中rl表示文本中线两侧的线段长度;其中,所述建模的中线即文本方向,垂直于中线的线段即边界;
步骤S32:所述的迭代校正网络共5层,第一层Block1使用3*3大小的卷积核,输出通道数为32,步长为2,第二层Block2使用3*3大小的卷积核,输出通道数为64,步长为2,第三层Block3使用3*3大小的卷积核,输出通道数为128,步长为2,第四层FC4全连接层,输出通道数为512,第五层FC5全连接层,输出通道数为线拟合变换的参数数量,即3L+K+1;
步骤S33:经步骤S32得到拟合线段参数,可确定垂直于文本中线的L条线段的端点坐标P=[t1,t2,…,t2L]T,使用薄板样条插值(Thin Plate Spline Transformation,TPS)计算校正后的端点坐标P'=[t'1,t'2,…,t'2L]T,则薄板样条插值的参数表示为:
其中S=[U(t-t1),U(t-t2),…,U(t-t2L)]T,U(r)=r2logr2,对于原始图像中每个像素点t,通过TPS变换得到矫正后的像素点t',即t=C·t';
步骤S34:经步骤S33得到矫正后的线段端点,使用采样器学习从校正后的端点到原始图像的映射关系,在训练过程中不断迭代步骤S33;由于采样器是完全可微的,拟合线段不需要人工标注,采样器通过反向传播文本识别模块的图像梯度进行训练,完成文本图像的校正。
在本实施例中,所述步骤S4的具体内容为:
所述的特征提取层使用ResNet-50编码器,编码器最后一层卷积的通道数为512,卷积核大小为3*3,步长为1,并进行maxpooling操作,将大小为(32,100,3)的图像转换为(1,25,512)大小的特征图,再使用一次通道数为512,卷积核大小为2*2,步长为1的卷积操作,将特征图按列切分成特征序列输入下一层;
所述的序列回归层使用深度堆叠双向LSTM网络,将得到的特征序列输入深度堆叠双向LSTM网络,BLSTM网络包含2组256维的LSTM网络,对每组特征序列进行正向和反向排序,得到每组特征的序列信息;
所述的转录层采用连接时序分类(Connectionist Temporal Classification,CTC)作为条件概率,使用负对数似然概率作为训练损失,使序列回归层得到的序列信息与每帧图像的文本信息内的像素一一对应,最后得到预测的文本信息。
在本实施例中,所述步骤S5的具体内容为:由文本检测和图像校正模块预测得到带有序列信息的多组检测框,每个检测框记为box,确定y轴方向上最大的检测框的高度为boxmax,对于高度值在(boxmax-20,boxmax)的检测框作为车牌候选框,然后通过将每个检测框用对应x轴坐标位置由小到大进行排列,确定车牌数字和字母的前后关系,坐标为小在前;采用文本识别模块识别出框内文本即为车牌号;计算除车牌候选框以外的box中的文本和50个洲的编辑距离,匹配距离最小的洲即为洲名;在剩下的box中检测数字并自动补齐为四位数,若在1950-2019范围内,则选最大的为年检日期,没有则为0,最后输出车牌号、洲名和年检日期。
较佳的,本实施例还提供一种基于图像校正的美式车牌识别系统,包括文本检测模块、图像校正模块、文本识别模块和文本分类模块;所述文本检测模块用于对预处理后图像中的文本信息进行检测,实现对图像中的文本与背景分割,得到仅包含文本信息的文本图像;所述图像校正模块用于对文本图像进行校正,将原本扭曲或倾斜的文本图像转换到水平方向;所述文本识别模块用于对校正后的文本图像进行识别,得到文本图像内包含的字母、数字信息;所述文本分类模块用于从所有的文本信息中筛选出车牌号、洲名、年检日期,完成车牌识别。
较佳的,本实施例包括以下设计要点:1)对数据集的图像文件进行预处理,生成训练集和测试集,进行数据增强;2)设计文本检测模块,对图像中的文本信息进行检测,实现对图像中的文本与背景分割,得到仅包含文本信息的文本图像;3)采用图像校正模块对文本图像进行校正,将原本扭曲或倾斜的文本图像转换到水平方向;4)对校正后的文本图像进行识别,得到文本图像内包含的字母、数字等信息;5)构建文本分类模块,从所有的文本信息中筛选出车牌号、洲名和年检日期,完成车牌识别。
较佳的,本实施例通过使用轻量级卷积神经网络MobileNetV2对原始图像进行特征,将特征序列输入循环神经网络,并采用锚点机制实现对文本框的连接,形成最终的文本行,完成文本检测;对存在倾斜和曲率变换的文本,采用图像校正模块对文本图像进行校正,将原本扭曲或倾斜的文本图像转换到水平方向;通过文本识别模块对校正后的文本图像进行识别,得到文本图像内包含的字母、数字等信息;最后,构建文本信息分类模块,从所有的文本信息中筛选出车牌号、洲名和年检日期,完成车牌识别。该方法结合深度学习方法,将美式车牌图像输入已训练好的网络模型,即可完成对车牌号、洲名和年检日期的识别,其准确度高,鲁棒性强,对于复杂背景的车牌图像中的多方向、多尺寸的文本对象也能很好地予以检测识别,且模型参数小,可用于实时车牌检测。
较佳的,本实施例的具体应用示例如下:
1)数据集预处理,对原始的美式车牌进行清理筛选,对图像进行标注,将标注好的图像分为训练集和测试集,用于神经网络训练和实验测试,具体步骤如下:
1-1)对原始数据集进行数据筛选,剔除模糊、文本信息缺失的图片,使用LabelImg标注软件对图像进行框选标注,标注内容包括框选文本图像的4个端点坐标以及文本框内的文本信息,将图像序号、端点坐标、文本信息存入txt文件,生成训练集和测试集,训练集和测试集均包括车牌图像及txt文件,其中训练集包含4000张图片,测试集包含2000张图片,共计6000张;
1-2)将训练集中的原始图像调整至统一大小,分辨率均为800*400;
1-3)对训练集图像进行随机的水平翻转,翻转的概率是0.5;
1-4)对训练集图像进行随机的角度旋转,旋转角的取值范围为(-5°,5°);
1-5)对训练集中的单目原始图像进行图像亮度、对比度及饱和度变换,取值分别为0.4,0.4,0.4;;
1-6)将训练集和测试集文件转换为LMDB(Lightning Memory-Mapped Database)数据,提高文件读取速度。
2)如图2所示,设计用于美式车牌识别的无监督卷积神经网络结构,该网络包括文本检测、图像校正、文本识别、文本分类四个单元,整个神经网络完成对图像的特征提取、文本检测和字符识别,是一个端到端的无监督学习过程。
如图3所示,构造基于卷积神经网络和循环神经网络的文本检测模块,从输入的美式车牌图像中得到连续文本行,即预测的文本图像,完成对文本图像的框选,具体步骤如下:
2-1)文本检测模块使用MobileNetV2作为卷积神经网络对图像进行特征提取,从图像中获取特征图。MobileNetV2作为轻量级网路,利用深度可分离卷积代替传统卷积,深度可分离卷积依次使用1*1点卷积、ReLU6激活函数、3*3深度卷积、ReLU6激活函数、1*1点卷积、线性激活函数,卷积神经网络的损失函数L(ei,gj,rk)为:
其中分别为计算文本/非文本分数、坐标、边界细化的3个损失函数,ei表示第i个锚正确预测的概率,e* i为真实值,取0-1,j为锚i在y轴的索引,k为锚i在x轴的索引,gj和g* j分别为第i个锚的在y轴方向的预测值和真实值,rk和r* k分别为第i个锚的在x轴方向的预测值和真实值,λ1和λ2为权值,分别取1.0和2.0,Ne、Ng和Nr为归一化参数,取值分别为128、20、32;
2-2)采用3*3的滑动卷积对得到的特征图进行卷积,步长为1,通道数为512,通过滑动卷积将特征图转化为特征序列,每次卷积的结果依次输入锚点机制,进行文本框匹配;
2-3)锚点机制为x轴方向长度固定,y轴方向长度变换的文本检测框。设计k个锚点,则y轴方向长度变换表示为:
y=ck,y∈(11,273)
其中c为常量,通过k值的变换对每个文本框序列进行文本框匹配,依次形成多个文本框。实施例中k值为20,c值为13.1。
锚点机制首先对每次滑动卷积的结果,使用文本检测框匹配,依次得到图像中所有文本的文本框,之后通过比较相邻文本框之间的距离b,从x轴方向判断相邻文本框是否属于同一文本行,若b<50,则认为属于同一文本行;在y轴方向,将第一个文本框的高度设为初始值,对该文本框进行匹配,得到k值及高度h,若后续检测的文本框高度在(0.9h,1.1h)范围内,则认为属于同一文本行。通过x和y轴方向的同时定位,将同一类的多个文本框合并成一组文本框,得到多组仅包含文本信息的文本图案;
2-4)循环神经网络采用深度堆叠双向LSTM(Bi-directional Long Short-TermMemory,BLSTM)网络,将文本图案中的文本框视为序列进行处理,得到每个文本框序列信息。循环神经网络为256维的双向LSTM网络,包括2个128维的LSTM网络,特征输入BLSTM网络后,再经过一个通道数为512的全连接层,得到带有序列信息的多组文本框图案;
3)如图4所示,经预测得到的文本图像存在弯曲、倾斜情况,设计图像校正模块对图像进行校正,该模块包含一个线拟合变换,线拟合变换通过一个多项式对场景文本的中线建模,并使用一组垂直于文本中线的线段估计文本的方向和边界,利用迭代校正网络学习线段方程参数,调整文本图像到水平方向,具体步骤如下:
3-1)先使用线拟合变换用于对图像文本的位置进行建模,以矫正透视图和曲率变形。拟合线段以图像中心点作为原点,建立x-y坐标系,拟合线段包括两部分,第一部分为水平方向上对文本中线拟合的多项式,使用K阶多项式表示,包含K+1个参数:
f1(x)=aK*xK+aK-1*xK-1+…+a1*x+a0
第二部分为水平中线的法线和垂直于水平中线的边界线段,共L个线段,有3L个参数,可表示为:
f2(x)=b1,l*x+b0,l|rl,l=1,2,…,L
其中rl表示文本中线两侧的线段长度,本实施例中K=4,L=20;
3-2)完成对图像文本的位置建模后,利用迭代校正网络对拟合线段进行调整优化。迭代校正网络共5层,第一层Block1使用3*3大小的卷积核,输出通道数为32,步长为2,第二层Block2使用3*3大小的卷积核,输出通道数为64,步长为2,第三层Block3使用3*3大小的卷积核,输出通道数为128,步长为2,第四层FC4全连接层,输出通道数为512,第五层FC5全连接层,输出通道数为线拟合变换的参数数量,即3L+K+1,迭代矫正次数n=5;
3-3)经以上步骤得到拟合线段参数,可确定垂直于文本中线的L条线段的端点坐标P=[t1,t2,…,t2L]T,使用薄板样条插值(ThinPlate Spline Transformation,TPS)计算校正后的端点坐标P'=[t'1,t'2,…,t'2L]T,则薄板样条插值的参数可以表示为:
其中S=[U(t-t1),U(t-t2),…,U(t-t2L)]T,U(r)=r2logr2,对于原始图像中每个像素点t,可以通过TPS变换得到矫正后的像素点t',即t=C·t';
3-4)经步骤S32得到矫正后的线段端点,使用一个采样器学习从校正后的端点到原始图像的映射关系,在训练过程中不断迭代步骤3-3)。由于采样器是完全可微的,拟合线段不需要人工标注,采样器通过反向传播文本识别模块的图像梯度进行训练,完成文本图像的校正;
4)加载经步骤3)校正后的文本图像,将文本图像输入文本识别模块。如图5所示,文本识别模块通过特征提取层、序列回归层、转录层实现对文本图像的识别,获得文本信息。
4-1)文本识别模块的特征提取层使用ResNet-50编码器,编码器最后一层卷积的通道数为512,卷积核大小为3*3,步长为1,并进行maxpooling操作,将大小为(32,100,3)的图像转换为(1,25,512)大小的特征图,再使用一次通道数为512,卷积核大小为2*2,步长为1的卷积操作,将特征图按列切分成特征序列输入下一层;
4-2)将得到的特征序列输入深度堆叠双向LSTM网络,BLSTM网络包含2组256维的LSTM网络,对每组特征序列进行正向和反向排序,得到每组特征的序列信息;
4-3)转录层采用连接时序分类(Connectionist Temporal Classification,CTC)作为条件概率,使用负对数似然概率作为训练损失,使序列回归层得到的序列信息与每帧图像的文本信息内的像素一一对应,最后得到预测的文本信息;
5)采用文本分类模块对文本信息进行分类处理,由于每个预测得到的文本信息与文本框一一对应,根据文本框的长、宽以及位置等信息,可判断出文本信息中的车牌号、洲名和年检日期。
文本识别模块预测得到多组检测框,记为box,确定y轴方向上最大的检测框的高度为boxmax,对于高度值在(boxmax-20,boxmax)的检测框作为车牌候选框,然后通过坐标确定车牌前后关系,采用文本识别模块识别出框内文本即为车牌号;计算除车牌候选框以外的box中的文本和50个洲的编辑距离,匹配距离最小的洲即为洲名;在剩下的box中检测数字并自动补齐为四位数,若在1950-2019范围内,则选最大的为年检日期,没有则为0,最后输出车牌号、洲名和年检日期。
实验结果如图6所示,本实施例提出的基于图像校正的美式车牌识别方法,通过算法优化和模型改进,能对美式车牌进行快速准确的识别,使用测试集的验证结果表明,本实施例对车牌和洲名的整体识别率达到90%以上,由于年检日期的格式、位置差异大,且存在年份和月份混淆的情况,因此年检日期的识别率仅为10%。本实施例提出的神经网络的参数模型大小不超过100M,可进行在线识别,能更好地满足实际应用需求。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (6)
1.一种基于图像校正的美式车牌识别方法,其特征在于:包括以下步骤:
步骤S1:数据集预处理:对原始的美式车牌图像数据集进行清理筛选,对图像进行标注,标注内容包括文本框以及文本框内的文本信息,将标注好的图像分为训练集和测试集,用于神经网络训练和实验测试;
步骤S2:构造基于卷积神经网络和循环神经网络的文本检测模块:使用卷积神经网络对训练集图像进行特征提取,利用滑动卷积将特征图转换为特征序列,设计锚点机制对每次滑动卷积的结果进行检测;通过比较文本框x轴和y轴方向的长度得到多组连续文本框,采用循环神经网络对文本框进行排序得到文本框序列信息,每组文本框即预测的文本图像;
步骤S3:经预测得到的文本图像存在弯曲、倾斜情况,设计图像校正模块对图像进行校正,该模块包含一个线拟合变换,线拟合变换通过多项式对场景文本的中线和一组垂直于文本中线的线段建模,即估计文本的方向和边界;利用迭代校正网络学习线段方程参数,调整文本图像到水平方向;
步骤S4:加载经步骤S3校正后的文本图像,将文本图像输入文本识别模块,文本识别模块通过特征提取层、序列回归层、转录层实现对文本图像的识别,获得文本信息;
步骤S5:采用文本分类模块对文本信息进行分类处理,由于每个预测得到的文本信息与文本框一一对应,根据文本框的长、宽以及位置信息,能够判断出文本信息中的车牌号、洲名、年检日期;
所述步骤S2具体包括以下步骤:
步骤S21:所述构造基于卷积神经网络和循环神经网络的文本检测模块时使用MobileNetV2作为卷积神经网络对图像进行特征提取;使用深度可分离卷积代替传统卷积,深度可分离卷积依次使用1*1点卷积、ReLU6激活函数、3*3深度卷积、ReLU6激活函数、1*1点卷积、线性激活函数,卷积神经网络的损失函数L(ei,gj,rk)为:
其中,分别为计算文本/非文本分数、坐标、边界细化的3个损失函数,ei表示第i个锚正确预测的概率,e* i为真实值,取0-1,j为锚i在y轴的索引,k为锚i在x轴的索引,gj和g* j分别为第i个锚的在y轴方向的预测值和真实值,rk和r* k分别为第i个锚的在x轴方向的预测值和真实值,λ1和λ2为权值,Ne、Ng和Nr为归一化参数;
步骤S22:采用3*3的滑动卷积对得到的特征图进行卷积;步长为1,通道数为512,通过滑动卷积将特征图转化为特征序列,每次卷积的结果依次输入锚点机制,进行文本框匹配;
步骤S23:所述锚点机制为x轴方向长度固定,y轴方向长度变换的文本检测框;设计k个锚点,则y轴方向长度变换表示为:
y=ck,y∈(11,273)
其中,c为常量,通过k值的变换对每个文本框序列进行文本框匹配,依次形成多个文本框;
锚点机制首先对每次滑动卷积的结果,使用文本检测框匹配,依次得到图像中所有文本的文本框,之后通过比较相邻文本框之间的距离b,从x轴方向判断相邻文本框是否属于同一文本行,若b<50,则认为属于同一文本行;在y轴方向,将第一个文本框的高度设为初始值,对该文本框进行匹配,得到k值及高度h,若后续检测的文本框高度在(0.9h,1.1h)范围内,则认为属于同一文本行;通过x和y轴方向的同时定位,将同一类的多个文本框合并成一组文本框,得到多组仅包含文本信息的文本图案;
步骤S24:所述循环神经网络采用深度堆叠双向LSTM网络,将文本图案中的文本框视为序列进行处理,得到每个文本框序列信息;循环神经网络为256维的双向LSTM网络,包括2个128维的LSTM网络,特征输入BLSTM网络后,再经过一个全连接层,得到带有序列信息的多组文本框图案。
2.根据权利要求1所述的一种基于图像校正的美式车牌识别方法,其特征在于:所述步骤S1具体包括以下步骤:
步骤S11:对原始数据集进行数据筛选,剔除模糊、文本信息缺失的图像,使用LabelImg标注软件对筛选后的图像进行框选标注,标注内容包括框选文本图像的4个端点坐标以及文本框内的文本信息,将图像序号、端点坐标、文本信息存入txt文件,生成训练集和测试集,训练集占2/3,测试集占1/3,训练集和测试集均包括车牌图像及txt文件;
步骤S12:采取双线性插值的方法将训练集中的原始图像像素按比例缩放至指定大小;
步骤S13:对训练集图像进行随机的水平翻转;
步骤S14:对训练集图像进行随机的角度旋转;
步骤S15:对训练集中的单目原始图像进行图像亮度、对比度及饱和度变换;
步骤S16:将训练集和测试集文件转换为LMDB数据,用以提高文件读取速度。
3.根据权利要求1所述的一种基于图像校正的美式车牌识别方法,其特征在于:所述步骤S3具体包括以下步骤:
步骤S31:所述线拟合变换对图像文本的位置进行建模,用以矫正图像透视和曲率变形;拟合线段以图像中心点作为原点,建立x-y坐标系,拟合线段包括两部分,第一部分为水平方向上对文本中线拟合的多项式,使用K阶多项式表示,包含K+1个参数:
f1(x)=aK*xK+aK-1*xK-1+…+a1*x+a0
第二部分为水平中线的法线和垂直于水平中线的边界线段,共L个线段,有3L个参数,表示为:
f2(x)=b1,l*x+b0,l|rl,l=1,2,…,L
其中rl表示文本中线两侧的线段长度;其中,所述建模的中线即文本方向,垂直于中线的线段即边界;
步骤S32:所述的迭代校正网络共5层,第一层Block1使用3*3大小的卷积核,输出通道数为32,步长为2,第二层Block2使用3*3大小的卷积核,输出通道数为64,步长为2,第三层Block3使用3*3大小的卷积核,输出通道数为128,步长为2,第四层FC4全连接层,输出通道数为512,第五层FC5全连接层,输出通道数为线拟合变换的参数数量,即3L+K+1;
步骤S33:经步骤S32得到拟合线段参数,可确定垂直于文本中线的L条线段的端点坐标P=[t1,t2,…,t2L]T,使用薄板样条插值计算校正后的端点坐标P'=[t'1,t'2,…,t'2L]T,则薄板样条插值的参数表示为:
其中S=[U(t-t1),U(t-t2),…,U(t-t2L)]T,U(r)=r2logr2,对于原始图像中每个像素点t,通过TPS变换得到矫正后的像素点t',即t=C·t';
步骤S34:经步骤S33得到矫正后的线段端点,使用采样器学习从校正后的端点到原始图像的映射关系,在训练过程中不断迭代步骤S33;由于采样器是完全可微的,拟合线段不需要人工标注,采样器通过反向传播文本识别模块的图像梯度进行训练,完成文本图像的校正。
4.根据权利要求1所述的一种基于图像校正的美式车牌识别方法,其特征在于:所述步骤S4的具体内容为:
所述的特征提取层使用ResNet-50编码器,编码器最后一层卷积的通道数为512,卷积核大小为3*3,步长为1,并进行maxpooling操作,将大小为(32,100,3)的图像转换为(1,25,512)大小的特征图,再使用一次通道数为512,卷积核大小为2*2,步长为1的卷积操作,将特征图按列切分成特征序列输入下一层;
所述的序列回归层使用深度堆叠双向LSTM网络,将得到的特征序列输入深度堆叠双向LSTM网络,BLSTM网络包含2组256维的LSTM网络,对每组特征序列进行正向和反向排序,得到每组特征的序列信息;
所述的转录层采用连接时序分类作为条件概率,使用负对数似然概率作为训练损失,使序列回归层得到的序列信息与每帧图像的文本信息内的像素一一对应,最后得到预测的文本信息。
5.根据权利要求1所述的一种基于图像校正的美式车牌识别方法,其特征在于:所述步骤S5的具体内容为:由文本检测和图像校正模块预测得到带有序列信息的多组检测框,每个检测框记为box,确定y轴方向上最大的检测框的高度为boxmax,对于高度值在(boxmax-20,boxmax)的检测框作为车牌候选框,然后通过将每个检测框用对应x轴坐标位置由小到大进行排列,确定车牌数字和字母的前后关系,坐标为小在前;采用文本识别模块识别出框内文本即为车牌号;计算除车牌候选框以外的box中的文本和50个洲的编辑距离,匹配距离最小的洲即为洲名;在剩下的box中检测数字并自动补齐为四位数,若在1950-2019范围内,则选最大的为年检日期,没有则为0,最后输出车牌号、洲名和年检日期。
6.一种基于图像校正的美式车牌识别系统,其特征在于采用了权利要求1所述的一种基于图像校正的美式车牌识别方法:包括文本检测模块、图像校正模块、文本识别模块和文本分类模块;所述文本检测模块用于对预处理后图像中的文本信息进行检测,实现对图像中的文本与背景分割,得到仅包含文本信息的文本图像;所述图像校正模块用于对文本图像进行校正,将原本扭曲或倾斜的文本图像转换到水平方向;所述文本识别模块用于对校正后的文本图像进行识别,得到文本图像内包含的字母、数字信息;所述文本分类模块用于从所有的文本信息中筛选出车牌号、洲名、年检日期,完成车牌识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010069950.5A CN111325203B (zh) | 2020-01-21 | 2020-01-21 | 一种基于图像校正的美式车牌识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010069950.5A CN111325203B (zh) | 2020-01-21 | 2020-01-21 | 一种基于图像校正的美式车牌识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325203A CN111325203A (zh) | 2020-06-23 |
CN111325203B true CN111325203B (zh) | 2022-07-05 |
Family
ID=71170961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010069950.5A Active CN111325203B (zh) | 2020-01-21 | 2020-01-21 | 一种基于图像校正的美式车牌识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325203B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898597A (zh) * | 2020-06-24 | 2020-11-06 | 泰康保险集团股份有限公司 | 处理文本图像的方法、装置、设备和计算机可读介质 |
CN113869306B (zh) * | 2020-06-30 | 2024-10-29 | 北京搜狗科技发展有限公司 | 一种文本定位方法、装置及电子设备 |
CN111783763A (zh) * | 2020-07-07 | 2020-10-16 | 厦门商集网络科技有限责任公司 | 基于卷积神经网络的文本定位框校正方法及其系统 |
CN111814736B (zh) * | 2020-07-23 | 2023-12-29 | 上海东普信息科技有限公司 | 快递面单信息的识别方法、装置、设备及存储介质 |
CN111914838B (zh) * | 2020-07-28 | 2024-05-31 | 同济大学 | 一种基于文本行识别的车牌识别方法 |
CN111985465B (zh) * | 2020-08-17 | 2024-09-06 | 中移(杭州)信息技术有限公司 | 文本识别方法、装置、设备及存储介质 |
CN112070048B (zh) * | 2020-09-16 | 2022-08-09 | 福州大学 | 基于RDSNet的车辆属性识别方法 |
CN112364883B (zh) * | 2020-09-17 | 2022-06-10 | 福州大学 | 基于单阶段目标检测和deeptext识别网络的美式车牌识别方法 |
CN112183307B (zh) * | 2020-09-25 | 2024-09-20 | 上海眼控科技股份有限公司 | 文本识别方法、计算机设备和存储介质 |
CN111882004B (zh) * | 2020-09-28 | 2021-01-05 | 北京易真学思教育科技有限公司 | 模型训练方法、判题方法及装置、设备、存储介质 |
CN112016315B (zh) * | 2020-10-19 | 2021-02-02 | 北京易真学思教育科技有限公司 | 模型训练、文本识别方法及装置、电子设备、存储介质 |
CN112308092B (zh) * | 2020-11-20 | 2023-02-28 | 福州大学 | 一种基于多尺度注意力机制的轻量型车牌检测与识别方法 |
CN112528994B (zh) * | 2020-12-18 | 2024-03-29 | 南京师范大学 | 一种自由角度车牌检测方法、车牌识别方法和识别系统 |
CN112784836A (zh) * | 2021-01-22 | 2021-05-11 | 浙江康旭科技有限公司 | 一种文本图形偏移角度预测及其校正方法 |
CN112818823B (zh) * | 2021-01-28 | 2024-04-12 | 金科览智科技(北京)有限公司 | 一种基于票据内容和位置信息的文本抽取方法 |
CN112801095A (zh) * | 2021-02-05 | 2021-05-14 | 广东工业大学 | 一种基于注意力机制的图神经网络集装箱文本识别方法 |
CN112990197A (zh) * | 2021-03-17 | 2021-06-18 | 浙江商汤科技开发有限公司 | 车牌识别方法及装置、电子设备和存储介质 |
CN112883973A (zh) * | 2021-03-17 | 2021-06-01 | 北京市商汤科技开发有限公司 | 车牌识别方法、装置、电子设备和计算机存储介质 |
CN113343903B (zh) * | 2021-06-28 | 2024-03-26 | 成都恒创新星科技有限公司 | 一种自然场景下的车牌识别方法及系统 |
CN113240058B (zh) * | 2021-07-13 | 2021-09-17 | 北京文安智能技术股份有限公司 | 车牌图像训练集构造方法和车牌字符检测模型训练方法 |
CN113723402B (zh) * | 2021-08-24 | 2024-07-16 | 北京市商汤科技开发有限公司 | 图像处理及网络训练方法、装置、设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016197381A1 (en) * | 2015-06-12 | 2016-12-15 | Sensetime Group Limited | Methods and apparatus for recognizing text in an image |
CN108985137A (zh) * | 2017-06-02 | 2018-12-11 | 杭州海康威视数字技术股份有限公司 | 一种车牌识别方法、装置及系统 |
CN109034152A (zh) * | 2018-07-17 | 2018-12-18 | 广东工业大学 | 基于lstm-cnn组合模型的车牌定位方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2472179B (en) * | 2008-05-06 | 2013-01-30 | Compulink Man Ct Inc | Camera-based document imaging |
-
2020
- 2020-01-21 CN CN202010069950.5A patent/CN111325203B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016197381A1 (en) * | 2015-06-12 | 2016-12-15 | Sensetime Group Limited | Methods and apparatus for recognizing text in an image |
CN108985137A (zh) * | 2017-06-02 | 2018-12-11 | 杭州海康威视数字技术股份有限公司 | 一种车牌识别方法、装置及系统 |
CN109034152A (zh) * | 2018-07-17 | 2018-12-18 | 广东工业大学 | 基于lstm-cnn组合模型的车牌定位方法及装置 |
Non-Patent Citations (2)
Title |
---|
"A Real-Time Chinese Traffic Sign Detection Algorithm Based on Modified YOLOv2";Jianming Zhang等;《Algorithms》;20171231;第10卷(第4期);全文 * |
"车牌识别系统中车牌定位与字符分割算法的研究";谢光俊;《中国优秀硕士学位论文全文数据库·信息科技辑》;20190115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111325203A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
CN110399845A (zh) | 一种图像中连续成段文本检测与识别方法 | |
CN107609549A (zh) | 一种自然场景下证件图像的文本检测方法 | |
CN113158977B (zh) | 改进FANnet生成网络的图像字符编辑方法 | |
CN111738055B (zh) | 多类别文本检测系统和基于该系统的票据表单检测方法 | |
CN111783757A (zh) | 一种基于ocr技术的复杂场景下身份证识别方法 | |
CN113128442A (zh) | 基于卷积神经网络的汉字书法风格识别方法和评分方法 | |
CN109886978B (zh) | 一种基于深度学习的端到端告警信息识别方法 | |
CN112052845A (zh) | 图像识别方法、装置、设备及存储介质 | |
CN111626292B (zh) | 一种基于深度学习技术的楼宇指示标识的文字识别方法 | |
CN112052852A (zh) | 一种基于深度学习的手写气象档案资料的字符识别方法 | |
CN112580507A (zh) | 一种基于图像矩矫正的深度学习文本字符检测方法 | |
CN111523622B (zh) | 基于特征图像自学习的机械臂模拟手写笔迹方法 | |
CN110929746A (zh) | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 | |
CN114038004A (zh) | 一种证件信息提取方法、装置、设备及存储介质 | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN115116074A (zh) | 一种手写体文字识别、及模型训练方法和装置 | |
CN111652273A (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN113033558B (zh) | 一种用于自然场景的文本检测方法及装置、存储介质 | |
CN106709474A (zh) | 一种手写电话号码识别、校验及信息发送系统 | |
CN111340032A (zh) | 一种基于金融领域应用场景的字符识别方法 | |
CN116030396A (zh) | 一种用于视频结构化提取的精确分割方法 | |
CN115393861B (zh) | 一种手写体文本精准分割方法 | |
CN113657377B (zh) | 一种机打票据图像结构化识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |