CN112101386B - 文本检测方法、装置、计算机设备和存储介质 - Google Patents
文本检测方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112101386B CN112101386B CN202011020108.9A CN202011020108A CN112101386B CN 112101386 B CN112101386 B CN 112101386B CN 202011020108 A CN202011020108 A CN 202011020108A CN 112101386 B CN112101386 B CN 112101386B
- Authority
- CN
- China
- Prior art keywords
- character
- picture
- scale
- frame
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 141
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000004044 response Effects 0.000 claims description 47
- 238000010586 diagram Methods 0.000 claims description 35
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 18
- 238000012549 training Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000001629 suppression Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
本申请涉及一种文本检测方法、装置、计算机设备和存储介质,所述方法包括:获取待检测图片;基于不同尺度提取所述待检测图片的图片特征;分别根据各尺度的图片特征确定各尺度对应的所述待检测图片中各字符的字符相关信息;整合各尺度对应的各所述字符相关信息,得到所述待检测图片中各字符的字符检测结果。上述方法通过从不同尺度提取图片特征来实现字符的检测,可以适应自然场景中不同尺度的文字,从而避免因图片尺寸等不一致导致的文本检测不准确的问题。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种文本检测方法、装置、计算机设备和存储介质。
背景技术
自然场景下的文本检测方法可以用于定位图像中的文本信息,以便于后续对检测到的包含文字的文本框图片进行文字识别,最终获得结构化信息。文本检测方法广泛应用于图像检索、视频分析、自动驾驶等领域,而且文本检测的准确率影响着后续文本识别及信息结构化等流程的准确率,因此开发一种有效的自然场景下的文本检测算法显得至关重要。
然而在实际自然场景中,通常会存在各种不可控的干扰因素,如图像亮度变化、拍摄图像存在畸变、文字尺度不一、文字弯曲、异物遮挡等问题,这些问题使得自然场景下的文本检测方法依然是一项艰巨的任务。近年来,随着深度学习技术的快速发展,自然场景下的文本检测技术也取得了飞跃式进步。
目前,较为常用的文本检测可通过人工智能技术实现,主要包括文本检测和文字识别模型,然而这种方法通常对精细程度要求很高,如果某个字符的位置定位错误,将严重影响后续文字识别和信息结构化的性能,而现实场景中由于拍摄条件的局限性和复杂性,不同使用者使用不同硬件拍摄的文字图像存在较大差异,主要存在着亮度不一、尺寸不一、角度不一、存在遮挡物等问题,如此容易导致文本检测的结果不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高检测结果准确性的文本检测方法、装置、计算机设备和存储介质。
一种文本检测方法,所述方法包括:
获取待检测图片;
基于不同尺度提取所述待检测图片的图片特征;
分别根据各尺度的图片特征确定各尺度对应的所述待检测图片中各字符的字符相关信息;
整合各尺度对应的各所述字符相关信息,得到所述待检测图片中各字符的字符检测结果。
一种文本检测装置,所述装置包括:
获取模块,用于获取待检测图片;
特征提取模块,用于基于不同尺度提取所述待检测图片的图片特征;
字符信息确定模块,用于分别根据各尺度的图片特征确定各尺度对应的所述待检测图片中各字符的字符相关信息;
结果整合模块,用于整合各尺度对应的各所述字符相关信息,得到所述待检测图片中各字符的字符检测结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待检测图片;
基于不同尺度提取所述待检测图片的图片特征;
分别根据各尺度的图片特征确定各尺度对应的所述待检测图片中各字符的字符相关信息;
整合各尺度对应的各所述字符相关信息,得到所述待检测图片中各字符的字符检测结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待检测图片;
基于不同尺度提取所述待检测图片的图片特征;
分别根据各尺度的图片特征确定各尺度对应的所述待检测图片中各字符的字符相关信息;
整合各尺度对应的各所述字符相关信息,得到所述待检测图片中各字符的字符检测结果。
上述文本检测方法、装置、计算机设备和存储介质,在获取到待检测图片之后,从不同尺度提取待检测图片的图片特征,并分别根据各尺度的图片特征确定对应尺度下待检测图片中的字符相关信息,最后通过整合各尺度对应的各字符相关信息,得到待检测图片中各字符的字符检测结果。上述方法通过从不同尺度提取图片特征来实现字符的检测,可以适应自然场景中不同尺度的文字,从而避免因图片尺寸等不一致导致的文本检测不准确的问题。
附图说明
图1为一个实施例中文本检测方法的应用环境图;
图2为一个实施例中文本检测方法的流程示意图;
图3为一个实施例中对待检测图片进行多尺度特征提取的流程示意图;
图4为一个实施例中整合各尺度对应的各字符相关信息,得到待检测图片中各字符的字符检测结果的流程示意图;
图5为另一个实施例中文本检测方法的流程示意图;
图6为一个实施例中字符间的关联框的示意图;
图7为一个实施例中高斯热力图的示例图;
图8为一个实施例中相邻两字符的位置生成关联矩阵的示意图;
图9为一个实施例中基于各尺度对应的字符间关联信息,确定待检测图片中的字段检测结果的流程示意图;
图10为一个具体实施例中的文本检测网络的结构示意图;
图11为一个具体实施例中文本检测方法的流程示意图;
图12(1)为一个实施例中对自然场景中的图片进行文本检测输出的检测结果示意图;
图12(2)为一个实施例中对自然场景中的图片进行文本检测输出的检测结果示意图;
图12(3)为一个实施例中对自然场景中的图片进行文本检测输出的检测结果示意图;
图13为一个实施例中文本检测装置的结构框图;
图14为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文本检测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104在获取到待检测图片之后,从不同尺度提取待检测图片的图片特征,并分别根据各尺度的图片特征确定对应尺度下待检测图片中的字符相关信息,最后通过整合各尺度对应的各字符相关信息,得到待检测图片中各字符的字符检测结果。在一些实施例中,终端102可采集得到图片,服务器104从终端102获取待检测图片。其中,终端102可以但不限于是各种具有拍照功能的设备,如相机等,但并不局限于此。服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
在一个实施例中,如图2所示,提供了一种文本检测方法,本实施例以该方法应用于图1中的服务器进行举例说明,本实施例中,该方法包括以下步骤:
步骤S210,获取待检测图片。
在本实施例中,将需要进行文本检测的图片记为待检测图片;在一个实施例中,可以获取用户输入的待检测图片;也可以从连接的图片采集装置直接获取图片作为待检测图片;或者还可以从数据库中读取相应图片作为待检测图片。
步骤S220,基于不同尺度提取待检测图片的图片特征。
多尺度实际上就是对信号的不同粒度的采样,通常在不同的尺度下可以观察到不同的特征,从而完成不同的任务;通常来说粒度更小/更密集的采样可以看到更多的细节,粒度更大/更稀疏的采样可以看到整体的趋势;例如在本实施例中,可以不同尺寸和分辨率对待检测图片进行多尺度的特征提取,其中,小尺寸的特征图对大物体的表征能力较强,大尺寸的特征图对小物体的表征能力较强。在本实施例中,在不同尺度下分别提取待检测图片的特征,得到不同尺度下的图片特征。图片特征是表征一个图片最基本的属性或特征,图片特征可以是人类视觉能够识别的自然特征,也可以是人为定义的特征。
在一个实施例中,通过训练确定的神经网络模型对待识别图片进行不同尺度的特征提取,得到不同尺度下的图片特征。在一个具体实施例中,如图3所示为对待检测图片进行多尺度特征提取的流程示意图。它同时提取多个尺度上的特征信息,可大幅提升网络性能。随着神经网络层数的增加,特征图的尺寸不断减小,小尺寸的特征图对大物体的表征能力较强,大尺寸的特征图对小物体的表征能力较强,所以同时利用高分辨率和低分辨率的特征图是可以更好的提取到图片中的字符的特征。
步骤S230,分别根据各尺度的图片特征确定各尺度对应的待检测图片中各字符的字符相关信息。
对于提取到的每一尺度的图片特征,可以分别根据这些图片特征得到图片中与字符相关的信息,本实施例中记为字符相关信息。在一个实施例中,字符相关信息包括:单个字符的位置信息;需要说明的是,本步骤中所涉及的字符位置信息为各尺度对应的字符位置信息。在另一个实施例中,字符相关信息包括:各尺度的图片特征中各像素点是否为前景,以及各像素点相对于所在字符边框的距离。在其他实施例中,字符相关信息也可以是指与字符相关的其他信息。
在一个实施例中,分别根据各尺度的图片特征确定各尺度对应的待检测图片中各字符的字符相关信息,包括:针对任一尺度对应的图片特征,分别确定各像素点的前景分类结果以及各像素点相对于所在字符边框的距离;其中,字符相关信息包括:各像素点的前景分类结果以及各像素点相对于所在字符边框的距离。
在一个实施例中,针对每一尺度,根据图片特征确定对应的字符相关信息可通过神经网络实现;神经网络包括两个分支:像素类别分类分支和位置回归分支,像素类别分类分支被训练用于根据图片特征确定各像素点属于前景的概率,位置回归分支被训练用于根据图片特征确定各像素点与所在字符边框的距离。其中,像素点与所在字符边框的距离包括像素点与所在字符边框的4条边框的距离;在一个具体实施例中,可利用所在字符的边框的角点确定像素点与4条边框的距离。
进一步地,在一个实施例中,像素类别分类分支是一个像素级别的二分类算法,训练过程包括步骤:像素类别分类分支的训练过程采用标准的交叉熵损失,如式(1)。如果某个像素点位于标注的字符边框累,这该像素点的类别分类为前景类。本实施例中有更多的前景样本,可以很大程度上避免前景和背景数目不均衡的问题。
其中,N为训练样本的总个数,xyc表示对所有像素点进行遍历。Yxyc表示每个像素点的真实标签,取值为0或1,为每个像素点预测为1的概率,取值范围为[0,1]。
像素位置回归分支学习每个像素相对于4条字符边框的距离,利用边框的4个角点的信息,可以取得更精确的边缘检测结果。像素位置回归分支的训练过程采用IoU损失,定义如式(2),如果预测值与实际值的交并比比较小,则损失函数较大。
其中,IOU_Vaule表示预测文字边框与实际文字边框的交并比,其定义为:两个文字边框的交集面积/两个文字边框的并集面积。Npos为真实文字边框的个数,用于归一化损失值。
在一个实施例中,所有尺度的图片特征信息经过同一个像素类别分类分支和位置回归分支,对于位置回归分支而言,在训练时为每个尺度的图片特征单独学习一个尺度值,每个尺度特征经过尺度变换后再输入到位置回归分支。
步骤S240,整合各尺度对应的各字符相关信息,得到待检测图片中各字符的字符检测结果。
在得到字符相关信息之后,由于字符相关信息分别为不同尺度下的信息,因此需对字符相关信息进行尺度变换,得到字符原始待检测图片的尺度下的字符检测结果。此外,在得到字符相关信息时,字符相关信息仅为与字符相关的一些信息,因此需要对得到的与字符相关的信息进行整合,得到字符的边框位置等信息。
在一个实施例中,字符相关信息包括各像素点的前景分类结果和各像素点与所在字符边框的距离,在本实施例中,如图4所示,整合各尺度对应的各字符相关信息,得到待检测图片中各字符的字符检测结果,包括步骤S141至步骤S145。
步骤S141,选择任一未被选择过的尺度为当前尺度。
步骤S142,根据当前尺度下各像素点的前景分类结果,确定属于前景的目标像素点集合。
在本实施例中将属于前景的像素点所组成的集合即为目标像素点集合,即属于字符的像素点集合;在一个实施例中,当前尺度下各像素点的前景分类结果包括各像素点属于前景的概率值,根据各像素点的前景分类结果确定属于前景的目标像素点集合包括:将概率值大于预设前景概率阈值的像素点确定为属于前景的像素点,得到目标像素点集合。其中,预设前景概率阈值可以根据实际情况进行设置。
步骤S143,根据各像素点相对于所在字符边框的距离,从目标像素点集合中确定潜在边框像素点,得到当前尺度下潜在边框像素点对应的潜在字符边框位置。
在步骤S142中筛选出所有属于前景的像素点,结合目标像素点集合中各像素点距离所在字符边框的距离,可以确定可能属于字符边框的像素点,在本实施例中记为潜在边框像素点,获取潜在边框像素点对应的位置信息可得到潜在字符边框位置。
步骤S144,从潜在字符边框位置中筛选出当前尺度下的精确字符边框位置,返回选择任一未被选择过的尺度为当前尺度的步骤,直至所有尺度均被选中。
在一个实施例中,从潜在字符边框中筛选去除重复的字符边框信息可采用非极大值抑制法实现,通过非极大值抑制法去除属于前景的概率值相对较小,且与属于前景概率值较大的字符边框的重叠度大于预设重叠度阈值的字符边框,针对每一个字符输出一个精确字符边框。
其中,非极大值抑制法(Non-Maximum Suppression,NMS),顾名思义就是抑制不是极大值的元素,可以理解为局部最大搜索。这个局部代表的是一个邻域,邻域有两个参数可变,一是邻域的维数,二是邻域的大小。在一个实施例中,通过非极大值抑制法去除属于前景的概率值相对较小,且与属于前景概率值较大的字符边框的重叠度大于预设重叠度阈值的字符边框,包括:针对任一字符,从潜在字符边框中选取第一字符边框,第一字符边框为属于前景的概率值最大的像素点对应的字符边框;获取同一字符的其它潜在字符边框,与第一字符边框进行重叠度计算,将重叠度大于预设重叠度阈值的潜在字符边框删除,得到该字符的精确字符边框。其中,计算字符边框与字符边框的重叠度可通过计算字符边框所包围的面积的重叠度确定;预设重叠度阈值可根据实际情况进行设置。
步骤S145,分别将各尺度对应的精确字符边框位置映射至待检测图片,得到待检测图片中各字符的字符检测结果。
由于上述步骤中确定的每一字符的精确字符边框为不同尺度上的,因此需将各尺度得到的精确字符边框信息进行字符变换,映射至原始的待检测图片对应尺度中,即可得到待检测图片中各字符的字符检测结果。在一个实施例中,将各尺度对应的精确字符边框位置映射至待检测图片包括:对各尺度下的字符边框位置乘以对应尺度的特征步长,得到待检测图片的字符检测结果。
上述实施例中在得到字符相关信息之后,通过对字符相关信息进行分析和整合,得到待检测图片中的字符的边框信息,并将各尺度下获得的字符边框信息映射至原始图片尺度,得到各字符的字符边框在待检测图片中的位置信息,即待检测图片中各字符的字符检测结果;将上述实施例中的方法与深度学习技术结合,使得上述文本检测方法有更高的准确性和鲁棒性,对低质量图像有更强的适应性。
上述文本检测方法,在获取到待检测图片之后,从不同尺度提取待检测图片的图片特征,并分别根据各尺度的图片特征确定对应尺度下待检测图片中的字符相关信息,最后通过整合各尺度对应的各字符相关信息,得到待检测图片中各字符的字符检测结果。上述方法通过从不同尺度提取图片特征来实现字符的检测,可以适应自然场景中不同尺度的文字,从而避免因图片尺寸等不一致导致的文本检测不准确的问题。
进一步地,在一个实施例中,如图5所示,在基于不同尺度提取待检测图片的图片特征之后,还包括步骤S510和步骤S520。
步骤S510,分别根据各尺度的图片特征确定各尺度对应的字符间关联信息。
其中,字符间关联信息表示图片中各字符之间的关联关系,例如包括两个字符是否相邻、两个字符之间的距离以及两个字符属于同一字段的概率等等信息。
在一个实施例中,分别根据各尺度的图片特征确定各尺度对应的字符间关联信息,包括:分别根据各尺度的图片特征确定各尺度对应的相邻两字符间的关联矩阵;分别基于不同尺度下相邻两字符间的关联矩阵生成对应的字符关联关系响应图,字符间关联信息包括字符关联关系响应图。
其中,两字符间的关联矩阵包括两字符间的关联框。在得到两字符间的关联矩阵之后,根据关联矩阵可生成两字符间的字符关联关系响应图;在一个实施例中,字符关联关系响应图包括高斯热力图。
在一个实施例中,通过训练好的字符关联性分支根据不同尺度下的图片特征确定对应的字符间关联矩阵,即相邻两字符间的关联框,如图6所示为字符间的关联框的示意图,图中实线框表示两字符间的关联框;以关联框的中心为原点,以字符边框的宽度/2,字符边框的高度/2为两轴半径生成椭圆,并且根据原点和椭圆中各点与原点的距离生成字符关联关系响应图。在一个具体实施例中,字符关联关系响应图为高斯热力图;通过python函数生成高斯热力图,如图7所示为高斯热力图的简易示意图;每个关联框对应一个高斯图,高斯热力图中颜色越深表示字符是属于同一字段的可能性越大。
进一步地,在一个实施例中,在字符关联性分支的训练过程中:根据单个字符的坐标位置生成相邻字符间的关联矩阵,以关联矩阵的中心点为原点生成字符关联关系响应图,作为学习目标对预设神经网络进行训练得到字符关联性分支。字符关联性分支的训练过程采用最小方差损失函数,定义如式(3)所示。同时,为了避免前景与背景数目的不均衡问题,考虑所有前景像素的损失,在背景像素中筛选出损失值较大的像素,使得筛选的背景像素和前景像素的总数保持一致。如此不仅可以解决正负例数目不均衡的问题,还可以实现在线的难例挖掘,提升网络性能。
其中,N为参与损失梯度回传的像素点个数,Gx,y为样本中每个像素点的真实标签,Px,y为样本中每个像素点的预测标签。
在一个实施例中,在字符关联性分支的训练过程中获取的样本图片中包含哪些字符是属于同一字段的标注信息,然后对该字段中的相邻字符生成字符间的关联矩阵;在本实施例中,根据单个字符的坐标位置生成相邻字符间的关联矩阵包括:选取各字符的字符边框(标注信息)同一对角线上两个顶点为目标顶点,以及字符边框的中心点;基于相邻两个字符的目标顶点和中心点,确定相邻两个字符之间的关联矩阵。
在一个具体实施例中,样本中包含字符是属于同一字段的标注信息,然后对该字段中的相邻字符生成关联信息。进一步地,根据单个字符的坐标位置生成相邻字符间的关联矩阵包括步骤:假设字符1的2点坐标(左上角和右下角坐标)为:[(x1,y1),(x2,y2)],字符2的2点坐标为[(x3,y3),(x4,y4)],如图8所示,这两个字符的关联边框的4点坐标(左上、右上、右下、左下点坐标)分别为:
[(x1+x2+c1)/3,(y1+y1+d1)/3],
[(x3+x4+c2)/3,(y3+y3+d2)/3],
[(x3+x4+c2)/3,(y4+y4+d2)/3],
[(x1+x2+c1)/3,(y2+y2+d1)/3]
其中(c1,c2),(d1,d2)分别为字符1和字符2的中心点坐标,如图8中十字架位置处的点。
步骤S520,基于各尺度对应的字符间关联信息,确定待检测图片中的字段检测结果。
在一个实施例中,字符间关联信息包括两个字符属于同一字段的概率,基于各尺度对应的字符间关联信息确定字段检测结果包括:根据字符间关联信息中两两相邻的字符的关联关系确定待检测图片中的字段,得到图片中所有字段的边框位置信息。在一个实施例中,对待检测图片进行字符检测和字段检测可以是并行的。
更进一步地,在一个实施例中,基于各尺度对应的字符间关联信息,确定待检测图片中的字段检测结果,如图9所示,包括步骤S311至步骤S314:
步骤S311,根据预设响应阈值将各尺度的字符关联关系响应图转换为黑白关联关系响应图。
在一个实施例中,根据预设响应阈值将各尺度的字符关联关系响应图转换为黑白关联关系响应图,包括:将字符关联关系响应图中响应值小于预设响应阈值的像素点置为0,否则将像素点置为1。将所有像素点进行转换后,得到对应的黑白关联关系响应图。其中,预设响应阈值可根据实际情况进行设置。
步骤S312,基于黑白关联关系响应图进行连通域分析,得到各尺度对应的连通域信息。
连通域一般指连通区域。在一个具体实施例中,基于各尺度的黑白关联关系响应图,通过调用OPENCV开源库的connectedComponentsWithStats函数可获得各尺度对应的连通域信息。
步骤S313,根据各尺度对应的连通域信息确定所在尺度的字段边框位置信息。
在本实施例中,基于黑白关联关系响应图进行连通域分析后得到的连通域,实际上对应的是待检测图片中的字段;因此获取连通域信息中的连通域边缘信息,将连通域边缘信息确定所在尺度的字段边框位置信息。
步骤S314,将各尺度的字段边框位置信息映射至待检测图片,得到待检测图片中的字段检测结果。
与字符检测类似地,在得到各尺度对应的字段边框位置信息之后,分别将各尺度的字段边框位置信息映射至原始的待检测图片的尺度中,得到字段在待检测图片中的位置信息,即字段检测结果。
上述实施例中,不仅对待检测图片中的字符进行字符检测,还对待检测图片中的字段进行检测得到字段检测结果,字段级别的输出也可以大幅减轻后续信息结构化过程的压力。
在另一个实施例中,上述方法在得到各尺度的字符相关信息之后,还包括根据各尺度的图片特征进行文字识别,得到文字识别结果;进一步地,文字识别结果与后续的字符检测结果一同输出。在一个实施例中,通过一种统一的网络,结合多模态学习,同时处理图像信息和文本信息,以获得更精确的字段输出结果。
在另一个实施例中,对待检测图片从不同尺度提取图片特征通过一个多分辨率网络完成,基于各尺度的图片特征完成字符检测和字段检测分别通过训练好的神经网络模型中的多个不同分支来实现,例如包括像素类别分类分支、像素位置回归分支以及字符关联性分支;如图10所示为一个具体实施例中的文本检测网络的结构示意图。在本实施例中,通过一个训练好的神经网络模型分别实现字符的检测和字段的检测,可以使得不同分支之间相互促进,使训练得到的模型准确率更高。在本实施例中,文本检测网络包括多尺度特征提取网络、像素类别分类分支、像素位置回归分支以及字符关联性分支。其中多尺度特征提取网络包括卷积层(conv)和多个残差块(ResBlock);像素类别分类分支和像素位置回归分支分别为卷积层(conv);字符关联性分支包括融合层(merge)和卷积层(conv)。
进一步地,在一个实施例中,上述方法还包括:将待检测图片中的各字符检测结果与各字段检测结果进行匹配,得到待检测图片的字符与字段的对应关系。
在上述实施例中已经确定待检测图片中的各字符的字符边框位置(字符检测结果),以及各字段的字段边框位置(字段检测结果),通过计算各字符边框与字段边框的重叠度,实现字符与字段的匹配,可确定待检测图片中的哪些字符是属于同一字段的,从而输出字符与字段的对应关系的文本检测结果。
在一个实施例中,假设根据字符检测结果得到的单个字符信息的集合为C,根据字段检测结果得到的字段信息的集合为W,将每个字符和各字段进行匹配。我们遍历W集合中的每个字段,计算每个字符与该字段的重叠程度,如果重叠程度大于预设重叠阈值(在一个具体实施例中设为0.8),则表明字符与该字段匹配成功。可以理解地,在其它实施例中,预设重叠阈值可根据实际情况设置为其它值。
本实施例中,通过对得到的待检测图片中的字符检测结果和字段检测结果基于重叠度进行匹配,能够输出待检测图片中字符与字段之间的关联关系,丰富了检测结果,可以减轻后续信息结构化的压力。
本申请还提供一种应用场景,该应用场景应用上述的文本检测方法。具体地,该文本检测方法在该应用场景的应用如下:
如图11所示为本实施例中的文本检测方法的流程示意图,包括步骤:获取待检测图片,多待检测图片进行多尺度特征提取;根据多尺度的图片特征进行单个字符类别分类、单个字符位置回归以及计算字符间关联性;结合各尺度的字符类别分类、字符位置回归以及字符间关联性的结果输出字符和字段级别的文本检测结果。
首先获取需要进行文字检测的图像,即待检测图片,作为网络模型的输入数据。
其次,将待检测图片输入多分辨率网络,可同时提取多个尺度上的图片特征信息,随着神经网络层数的增加,特征图的尺寸不断减小。
然后,基于多尺度的图片特征信息,采用多任务学习的准则,通过2个独立的分支分别输出单个字符的位置信息和字符间关联性信息。具体地,对于特征图的每个像素,单个字符分支网络通过不断地训练学习可以输出各像素为字符(前景)的概率以及各像素距离所在字符4条边框的距离。对于字符间关联信息分支的输出特征图,每个像素上的值表示该像素为字符间有关联性的概率。
其中,对于单个字符检测分支,所有尺度的特征信息经过同一个像素类别分类分支和像素位置回归分支,这样不仅可以减少模型的参数量和计算量,而且可以提升检测效果。值得一提的是,每个尺度的特征信息的分布是存在一定差异的,如果共用一个输出分支,很有可能使得训练过程出现异常。因此本实施例中为每个尺度特征单独学习一个尺度值,每个尺度特征经过尺度变换后再输入到最终的位置回归分支。单个字符的类别分类分支是一个像素级别的二分类算法,输出每个像素为字符前景的概率。像素的位置回归分支输出各像素与所在字符4条边框的距离,同时利用边框4个角点的信息可以取得更精确的边缘检测结果。
对于字符关联性分支,输出各尺度的图片特征中相邻字符间的关联矩阵,进而以关联矩阵的中心点为原点生成字符间关联关系响应图,在一个具体实施例中字符间关联关系响应图即高斯热力图。
最后,通过对单个字符分支和字符关联性分支的输出结果进行后处理,可以获得每个字符在待检测图片中的具体位置信息,以及哪些字符是属于同一字段的。其中,基于像素类别分类图获得那些前景概率值大于指定阈值(通常设为0.5)的像素点,这些像素点(用集合P表示)被认为是极有可能存在字符的位置点;
对集合P中的每个点,基于像素位置回归图获得这些点离字符边框的距离信息,从而确定该点所属字符的边框位置,用集合B表示所有的字符边框信息;
集合B中很有可能存在重复的字符边框,我们采用非极大值抑制技术来去除那些前景概率值相对较小且和概率值大的字符边框有较多重叠的边框。最终,对于每个字符,只输出一个最精确的边框信息。
获得每个尺度上检测到的字符边框后,根据该尺度的特征步长等信息,可将边框信息映射回原图。例如某尺度的特征步长为2,那么该尺度下的字符坐标相应地需要乘以系数2。基于字符关联关系响应图,将响应值小于指定阈值(设为0.2)的像素点置0,否则置为1;对上述步骤输出的响应图,进行连通域分析,获得n个连通域。针对每个连通域,获得其边缘信息,即每个字段的边框坐标。
在得到单个字符的位置信息以及字段的位置信息之后,假设单个字符信息的集合为C,字段信息的集合为W,还对每个字符确定其所属字段。遍历W集合中的每个字段,计算每个字符与该字段的重叠程度,如果重叠程度大于指定阈值(设为0.8)则表明字符与该字段匹配成功。
在一个具体实施例中,将上述文本检测方法应用于集装箱字符分析系统和文档图像的版面分析系统,字符和字段定位结果的召回率和准确率均超过97%。
上述应用场景中的文本检测方法,结合传统图像处理技术和深度学习技术对拍摄的图像进行文字检测,具有更高的准确性和鲁棒性,对低质量图像有更强的适应性。同时设计了一种有效的多分辨率网络结构,可以对输入图像提取多尺度特征,以适应不同尺度的文字,可适用于自然场景中的各种形状的文本,如水平文本和竖直文本。此外,上述方法同时输出单个字符的坐标信息和字段级别的信息,不仅可以使得双分支相互促进,字段级别的输出也可以大幅减轻后续信息结构化过程的压力。
进一步地,在一个实施例中,如图12(1)、图12(2)、图12(3)所示分为对自然场景中的图片进行文本检测输出的检测结果示意图,其中,虚线框所表示字段检测结果,实线框所示表示字符检测结果。
应该理解的是,虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图13所示,提供了一种文本检测装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块1310、特征提取模块1320、字符信息确定模块1330和结果整合模块1340,其中:
获取模块1310,用于获取待检测图片。
特征提取模块1320,用于基于不同尺度提取待检测图片的图片特征。
字符信息确定模块1330,用于分别根据各尺度的图片特征确定各尺度对应的待检测图片中各字符的字符相关信息。
结果整合模块1340,用于整合各尺度对应的各字符相关信息,得到待检测图片中各字符的字符检测结果。
上述文本检测装置,在获取到待检测图片之后,从不同尺度提取待检测图片的图片特征,并分别根据各尺度的图片特征确定对应尺度下待检测图片中的字符相关信息,最后通过整合各尺度对应的各字符相关信息,得到待检测图片中各字符的字符检测结果。上述方法通过从不同尺度提取图片特征来实现字符的检测,可以适应自然场景中不同尺度的文字,从而避免因图片尺寸等不一致导致的文本检测不准确的问题。
在一个实施例中,上述装置的字符信息确定模块1330具体用于:针对任一尺度对应的图片特征,分别确定各像素点的前景分类结果以及各像素点相对于所在字符边框的距离;其中,字符相关信息包括:各像素点的前景分类结果以及各像素点相对于所在字符边框的距离。
在一个实施例中,上述装置还包括:字符间关联信息确定模块,用于分别根据各尺度的图片特征确定各尺度对应的字符间关联信息;字段检测结果输出模块,用于基于各尺度对应的字符间关联信息,确定待检测图片中的字段检测结果。
在一个实施例中,上述装置的字符间关联信息确定模块,包括:关联矩阵生成模块,用于分别根据各尺度的图片特征确定各尺度对应的相邻两字符间的关联矩阵;字符关联关系响应图生成模块,用于分别基于不同尺度下相邻两字符间的关联矩阵生成对应的字符关联关系响应图;字符间关联信息包括字符关联关系响应图。
在一个实施例中,上述装置的结果整合模块1340,包括:尺度选择单元,用于选择任一未被选择过的尺度为当前尺度;前景筛选单元,用于根据当前尺度下各像素点的前景分类结果,确定属于前景的目标像素点集合;潜在边框筛选单元,用于根据各像素点相对于所在字符边框的距离,从目标像素点集合中确定潜在边框像素点,得到当前尺度下潜在边框像素点对应的潜在字符边框位置;精确边框筛选单元,用于从潜在字符边框位置中筛选出当前尺度下的精确字符边框位置,返回选择任一未被选择过的尺度为当前尺度的步骤,直至所有尺度均被选中;映射单元,用于分别将各尺度对应的精确字符边框位置映射至待检测图片,得到待检测图片中各字符的字符检测结果。
在一个实施例中,上述装置的字段检测结果输出模块,包括:转换单元,用于根据预设响应阈值将各尺度的字符关联关系响应图转换为黑白关联关系响应图;连通域分析单元,用于基于黑白关联关系响应图进行连通域分析,得到各尺度对应的连通域信息;边框位置确定单元,用于根据各尺度对应的连通域信息确定所在尺度的字段边框位置信息;字段检测结果输出单元,用于将各尺度的字段边框位置信息映射至待检测图片,得到待检测图片中的字段检测结果。
在一个实施例中,上述装置还包括:对应关系输出模块,用于将待检测图片中的各字符检测结果与各字段检测结果进行匹配,得到待检测图片的字符与字段的对应关系。
关于文本检测装置的具体限定可以参见上文中对于文本检测方法的限定,在此不再赘述。上述文本检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储字符检测结果、字段检测结果等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本检测方法。
本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (14)
1.一种文本检测方法,其特征在于,所述方法包括:
获取待检测图片;
基于不同尺度提取所述待检测图片的图片特征;
分别根据各尺度的图片特征确定各尺度对应的所述待检测图片中各字符的字符相关信息;所述字符相关信息包括:各像素点的前景分类结果以及各像素点相对于所在字符边框的距离;
选择任一未被选择过的尺度为当前尺度;
根据所述当前尺度下各像素点的前景分类结果,确定属于前景的目标像素点集合;
根据各像素点相对于所在字符边框的距离,从所述目标像素点集合中确定潜在边框像素点,得到所述当前尺度下所述潜在边框像素点对应的潜在字符边框位置;
从所述潜在字符边框位置中筛选出所述当前尺度下的精确字符边框位置,返回所述选择任一未被选择过的尺度为当前尺度的步骤,直至所有尺度均被选中;
分别将各尺度对应的精确字符边框位置映射至所述待检测图片,得到所述待检测图片中各字符的字符检测结果;
分别根据各尺度的图片特征确定各尺度对应的相邻两字符间的关联矩阵;
分别基于不同尺度下相邻两字符间的关联矩阵生成对应的字符关联关系响应图;
基于各尺度对应的字符关联关系响应图,确定所述待检测图片中的字段检测结果。
2.根据权利要求1所述的文本检测方法,其特征在于,分别根据各尺度的图片特征确定各尺度对应的所述待检测图片中各字符的字符相关信息,包括:
针对任一尺度对应的图片特征,分别确定各像素点的前景分类结果以及各像素点相对于所在字符边框的距离。
3.根据权利要求2所述的文本检测方法,其特征在于,针对每一所述尺度,根据所述尺度的图片特征确定对应的字符相关信息通过神经网络实现;
所述神经网络包括像素类别分类分支和位置回归分支;所述像素类别分类分支被训练用于根据图片特征确定各像素点属于前景的概率,所述位置回归分支被训练用于根据图片特征确定各像素点与所在字符边框的距离。
4.根据权利要求1所述的文本检测方法,其特征在于,所述从所述潜在字符边框位置中筛选出所述当前尺度下的精确字符边框位置,包括:
从所述潜在字符边框位置对应的各潜在字符边框中选取第一字符边框;所述第一字符边框为属于前景的概率值最大的像素点对应的字符边框;
将同一字符的其它潜在字符边框分别与所述第一字符边框进行重叠度计算,将重叠度大于预设重叠度阈值的潜在字符边框删除,得到所述字符的精确字符边框;
确定所述精确字符边框对应的精确字符边框位置。
5.根据权利要求1所述的文本检测方法,其特征在于,所述基于各尺度对应的字符关联关系响应图,确定所述待检测图片中的字段检测结果,包括:
根据预设响应阈值将各尺度的字符关联关系响应图转换为黑白关联关系响应图;
基于所述黑白关联关系响应图进行连通域分析,得到各尺度对应的连通域信息;
根据各尺度对应的所述连通域信息确定所在尺度的字段边框位置信息;
将各尺度的所述字段边框位置信息映射至所述待检测图片,得到所述待检测图片中的字段检测结果。
6.根据权利要求1所述的文本检测方法,其特征在于,还包括:
将所述待检测图片中的各字符检测结果与各字段检测结果进行匹配,得到所述待检测图片的字符与字段的对应关系。
7.一种文本检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测图片;
特征提取模块,用于基于不同尺度提取所述待检测图片的图片特征;
字符信息确定模块,用于分别根据各尺度的图片特征确定各尺度对应的所述待检测图片中各字符的字符相关信息;所述字符相关信息包括:各像素点的前景分类结果以及各像素点相对于所在字符边框的距离;
尺度选择单元,用于选择任一未被选择过的尺度为当前尺度;
前景筛选单元,用于根据所述当前尺度下各像素点的前景分类结果,确定属于前景的目标像素点集合;
潜在边框筛选单元,用于根据各像素点相对于所在字符边框的距离,从所述目标像素点集合中确定潜在边框像素点,得到所述当前尺度下所述潜在边框像素点对应的潜在字符边框位置;
精确边框筛选单元,用于从所述潜在字符边框位置中筛选出所述当前尺度下的精确字符边框位置,返回所述选择任一未被选择过的尺度为当前尺度的步骤,直至所有尺度均被选中;
映射单元,用于分别将各尺度对应的精确字符边框位置映射至所述待检测图片,得到所述待检测图片中各字符的字符检测结果;
关联矩阵生成模块,用于分别根据各尺度的图片特征确定各尺度对应的相邻两字符间的关联矩阵;
字符关联关系响应图生成模块,用于分别基于不同尺度下相邻两字符间的关联矩阵生成对应的字符关联关系响应图;
字段检测结果输出模块,用于基于各尺度对应的字符关联关系响应图,确定所述待检测图片中的字段检测结果。
8.根据权利要求7所述的文本检测装置,其特征在于,所述字符信息确定模块具体用于:
针对任一尺度对应的图片特征,分别确定各像素点的前景分类结果以及各像素点相对于所在字符边框的距离。
9.根据权利要求8所述的文本检测装置,其特征在于,所述字符信息确定模块通过神经网络实现;所述神经网络包括像素类别分类分支和位置回归分支;所述像素类别分类分支被训练用于根据图片特征确定各像素点属于前景的概率,所述位置回归分支被训练用于根据图片特征确定各像素点与所在字符边框的距离。
10.根据权利要求7所述的文本检测装置,其特征在于,所述精确边框筛选单元具体用于:
从所述潜在字符边框位置对应的各潜在字符边框中选取第一字符边框;所述第一字符边框为属于前景的概率值最大的像素点对应的字符边框;
将同一字符的其它潜在字符边框分别与所述第一字符边框进行重叠度计算,将重叠度大于预设重叠度阈值的潜在字符边框删除,得到所述字符的精确字符边框;
确定所述精确字符边框对应的精确字符边框位置。
11.根据权利要求7所述的文本检测装置,其特征在于,所述字段检测结果输出模块包括:
转换单元,用于根据预设响应阈值将各尺度的字符关联关系响应图转换为黑白关联关系响应图;
连通域分析单元,用于基于所述黑白关联关系响应图进行连通域分析,得到各尺度对应的连通域信息;
边框位置确定单元,用于根据各尺度对应的所述连通域信息确定所在尺度的字段边框位置信息;
字段检测结果输出单元,用于将各尺度的所述字段边框位置信息映射至所述待检测图片,得到所述待检测图片中的字段检测结果。
12.根据权利要求7所述的文本检测装置,其特征在于,所述装置还包括:
对应关系输出模块,用于将所述待检测图片中的各字符检测结果与各字段检测结果进行匹配,得到所述待检测图片的字符与字段的对应关系。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
14.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011020108.9A CN112101386B (zh) | 2020-09-25 | 2020-09-25 | 文本检测方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011020108.9A CN112101386B (zh) | 2020-09-25 | 2020-09-25 | 文本检测方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101386A CN112101386A (zh) | 2020-12-18 |
CN112101386B true CN112101386B (zh) | 2024-04-23 |
Family
ID=73756243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011020108.9A Active CN112101386B (zh) | 2020-09-25 | 2020-09-25 | 文本检测方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101386B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712080B (zh) * | 2021-01-08 | 2021-09-28 | 北京匠数科技有限公司 | 一种用于走字屏采集图像的文字识别处理方法 |
CN112381183B (zh) * | 2021-01-12 | 2021-05-07 | 北京易真学思教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN112418199B (zh) * | 2021-01-25 | 2022-03-01 | 北京明略昭辉科技有限公司 | 多模态信息提取方法、装置、电子设备及存储介质 |
CN113269102B (zh) * | 2021-05-28 | 2024-08-23 | 中邮信息科技(北京)有限公司 | 一种印章信息识别方法、装置、计算机设备和存储介质 |
CN113989814B (zh) * | 2021-11-23 | 2024-08-20 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、计算机设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014085841A (ja) * | 2012-10-24 | 2014-05-12 | Glory Ltd | 文字切出装置及び文字切出方法並びに文字認識装置 |
US9245205B1 (en) * | 2013-10-16 | 2016-01-26 | Xerox Corporation | Supervised mid-level features for word image representation |
CN108304835A (zh) * | 2018-01-30 | 2018-07-20 | 百度在线网络技术(北京)有限公司 | 文字检测方法和装置 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
KR102089298B1 (ko) * | 2019-10-21 | 2020-03-16 | 가천대학교 산학협력단 | 범용 문자 시퀀스 검출을 통한 다국적 차량번호판 인식 시스템 및 그 방법 |
CN110895695A (zh) * | 2019-07-31 | 2020-03-20 | 上海海事大学 | 用于文本图片字符切分的深度学习网络、切分方法 |
CN110929727A (zh) * | 2020-02-12 | 2020-03-27 | 成都数联铭品科技有限公司 | 图像标注方法及装置、文字检测方法及系统、电子设备 |
CN111340028A (zh) * | 2020-05-18 | 2020-06-26 | 创新奇智(北京)科技有限公司 | 一种文本定位方法、装置、电子设备及存储介质 |
CN111461114A (zh) * | 2020-03-03 | 2020-07-28 | 华南理工大学 | 一种基于分割的多尺度特征金字塔文本检测方法 |
CN111476067A (zh) * | 2019-01-23 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 图像的文字识别方法、装置、电子设备及可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG10201510667SA (en) * | 2012-06-27 | 2016-01-28 | Agency Science Tech & Res | Text detection devices and text detection methods |
US20150347860A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Systems And Methods For Character Sequence Recognition With No Explicit Segmentation |
US10489644B2 (en) * | 2018-03-15 | 2019-11-26 | Sureprep, Llc | System and method for automatic detection and verification of optical character recognition data |
-
2020
- 2020-09-25 CN CN202011020108.9A patent/CN112101386B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014085841A (ja) * | 2012-10-24 | 2014-05-12 | Glory Ltd | 文字切出装置及び文字切出方法並びに文字認識装置 |
US9245205B1 (en) * | 2013-10-16 | 2016-01-26 | Xerox Corporation | Supervised mid-level features for word image representation |
CN108304835A (zh) * | 2018-01-30 | 2018-07-20 | 百度在线网络技术(北京)有限公司 | 文字检测方法和装置 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN111476067A (zh) * | 2019-01-23 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 图像的文字识别方法、装置、电子设备及可读存储介质 |
CN110895695A (zh) * | 2019-07-31 | 2020-03-20 | 上海海事大学 | 用于文本图片字符切分的深度学习网络、切分方法 |
KR102089298B1 (ko) * | 2019-10-21 | 2020-03-16 | 가천대학교 산학협력단 | 범용 문자 시퀀스 검출을 통한 다국적 차량번호판 인식 시스템 및 그 방법 |
CN110929727A (zh) * | 2020-02-12 | 2020-03-27 | 成都数联铭品科技有限公司 | 图像标注方法及装置、文字检测方法及系统、电子设备 |
CN111461114A (zh) * | 2020-03-03 | 2020-07-28 | 华南理工大学 | 一种基于分割的多尺度特征金字塔文本检测方法 |
CN111340028A (zh) * | 2020-05-18 | 2020-06-26 | 创新奇智(北京)科技有限公司 | 一种文本定位方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112101386A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
KR101896357B1 (ko) | 객체를 검출하는 방법, 디바이스 및 프로그램 | |
CN109753953B (zh) | 图像中定位文本的方法、装置、电子设备和存储介质 | |
CN110569721A (zh) | 识别模型训练方法、图像识别方法、装置、设备及介质 | |
CN112381104B (zh) | 一种图像识别方法、装置、计算机设备及存储介质 | |
CN111680690A (zh) | 一种文字识别方法及装置 | |
CN114359932B (zh) | 文本检测方法、文本识别方法及装置 | |
CN110942456B (zh) | 篡改图像检测方法、装置、设备及存储介质 | |
CN112418195A (zh) | 一种人脸关键点检测方法、装置、电子设备及存储介质 | |
CN114511041A (zh) | 模型训练方法、图像处理方法、装置、设备和存储介质 | |
CN113469092B (zh) | 字符识别模型生成方法、装置、计算机设备和存储介质 | |
Feng et al. | A novel saliency detection method for wild animal monitoring images with WMSN | |
CN109977875A (zh) | 基于深度学习的手势识别方法及设备 | |
CN110210480A (zh) | 文字识别方法、装置、电子设备和计算机可读存储介质 | |
CN110516731B (zh) | 一种基于深度学习的视觉里程计特征点检测方法及系统 | |
CN108875501B (zh) | 人体属性识别方法、装置、系统及存储介质 | |
Belhedi et al. | Adaptive scene‐text binarisation on images captured by smartphones | |
CN112883827A (zh) | 图像中指定目标的识别方法、装置、电子设备和存储介质 | |
CN112087661A (zh) | 视频集锦生成方法、装置、设备及存储介质 | |
CN117541546A (zh) | 图像裁剪效果的确定方法和装置、存储介质及电子设备 | |
KR102026280B1 (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
WO2023160061A1 (zh) | 图像中运动对象的确定方法、装置、电子设备和存储介质 | |
CN116798041A (zh) | 图像识别方法、装置和电子设备 | |
CN112712080B (zh) | 一种用于走字屏采集图像的文字识别处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |