CN110059685A - 文字区域检测方法、装置及存储介质 - Google Patents
文字区域检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110059685A CN110059685A CN201910344670.8A CN201910344670A CN110059685A CN 110059685 A CN110059685 A CN 110059685A CN 201910344670 A CN201910344670 A CN 201910344670A CN 110059685 A CN110059685 A CN 110059685A
- Authority
- CN
- China
- Prior art keywords
- pixel point
- pixel
- map
- image
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000010586 diagram Methods 0.000 claims description 43
- 238000012360 testing method Methods 0.000 claims description 38
- 238000013507 mapping Methods 0.000 claims description 26
- 230000003321 amplification Effects 0.000 claims description 25
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 25
- 238000012549 training Methods 0.000 description 12
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种文字区域检测方法、装置及存储介质,属于图像处理领域。方法包括:基于预设网络模型,获取待检测的目标图像的概率图和位置图,且位置编码与像素点与所属文字区域的中心点之间的距离呈负相关关系;根据概率图和位置图中每个像素点的像素值,生成参考图像;将参考图像中相互连通的目标像素点进行组合,得到参考图像中的连通区域,将连通区域的轮廓进行放大,得到参考轮廓;确定参考轮廓在目标图像中对应的目标轮廓,将目标轮廓对应的区域确定为文字区域。区分出不同文字所属的文字区域,防止出现将相互连接的文字划分至同一个文字区域的情况,减小了文字连接对文字区域检测造成的影响,提高文字区域的准确率,提升了检测效果。
Description
技术领域
本发明涉及图像处理领域,特别涉及一种文字区域检测方法、装置及存储介质。
背景技术
随着图像处理技术的快速发展和日常生活中图像的广泛传播,文字识别技术已成为一种常用的图像处理技术,通过文字识别能够识别图像中的文字,更加深入地理解图像的语义信息。而文字区域检测是文字识别的关键步骤,只有准确地检测出图像中的文字区域,才能准确地识别文字区域中的文字。
相关技术中提出了一种利用网络模型进行文字区域检测的方式,参见图1,获取网络模型,该网络模型用于获取任一图像中的每个像素点属于文字的概率。则基于该网络模型,获取目标图像中每个像素点属于文字的概率,从而根据每个像素点属于文字的概率,区分开目标图像中的文字像素点和非文字像素点,根据目标图像中的文字像素点确定文字区域。
目标图像中可能会存在连接在一起的文字,采用上述方案难以将连接在一起的文字区分开来,很容易将这些文字划分至同一个文字区域,准确率低下,检测效果不佳。
发明内容
本发明实例提供了一种文字区域检测方法、装置及存储介质,解决了相关技术存在的问题。所述技术方案如下:
一方面,提供了一种文字区域检测方法,所述方法包括:
基于预设网络模型,获取目标图像的概率图和位置图,所述概率图中每个像素点的像素值表示所述目标图像中对应的像素点属于文字的概率,所述位置图中每个像素点的像素值表示所述目标图像中对应的像素点在所属文字区域中的位置编码,且所述像素点与所属文字区域的中心像素点之间的距离与所述像素点在所属文字区域中的位置编码呈负相关关系;
根据所述概率图和所述位置图中每个像素点的像素值,生成参考图像,所述参考图像中目标像素点的像素值为第一数值,其他像素点的像素值为第二数值,所述目标像素点为所述概率大于第一预设阈值且所述位置编码大于第二预设阈值的像素点;
将所述参考图像中相互连通的目标像素点进行组合,得到所述参考图像中的连通区域,将所述连通区域的轮廓进行放大,得到参考轮廓,且放大幅度与所述第二预设阈值呈正相关关系;
确定所述参考轮廓在所述目标图像中对应的目标轮廓,将所述目标轮廓对应的区域确定为文字区域。
另一方面,提供了一种文字区域检测装置,所述装置包括:
第一获取模块,用于基于预设网络模型,获取目标图像的概率图和位置图,所述概率图中每个像素点的像素值表示所述目标图像中对应的像素点属于文字的概率,所述位置图中每个像素点的像素值表示所述目标图像中对应的像素点在所属文字区域中的位置编码,且所述像素点与所属文字区域的中心像素点之间的距离与所述像素点在所属文字区域中的位置编码呈负相关关系;
生成模块,用于根据所述概率图和所述位置图中每个像素点的像素值,生成参考图像,所述参考图像中目标像素点的像素值为第一数值,其他像素点的像素值为第二数值,所述目标像素点为所述概率大于第一预设阈值且所述位置编码大于第二预设阈值的像素点;
区域组合模块,用于将所述参考图像中相互连通的目标像素点进行组合,得到所述参考图像中的连通区域;
放大模块,用于将所述连通区域的轮廓进行放大,得到参考轮廓,且放大幅度与所述第二预设阈值呈正相关关系;
确定模块,用于确定所述参考轮廓在所述目标图像中对应的目标轮廓,将所述目标轮廓对应的区域确定为文字区域。
另一方面,提供了一种文字区域检测装置,所述装置包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如所述文字区域检测方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如所述文字区域检测方法中所执行的操作。
本发明实施例提供的文字区域检测方法、装置及存储介质,获取目标图像,基于预设网络模型得到的概率图和位置图,对概率图进行二值化处理得到第一图像,对位置图进行二值化处理得到第二图像,根据第一图像和第二图像确定参考图像,且该参考图像中目标像素点的概率大于第一预设阈值且位置编码大于第二预设阈值,可以将属于文字且距离所属文字区域较近的像素点保留,将其他像素点滤除,从而能够将相互连接的文字分割开。再将参考图像中相互连通的目标像素点进行组合,将得到的连通区域的轮廓进行放大,得到参考轮廓,确定参考轮廓在目标图像中对应的目标轮廓,得到准确的文字区域轮廓,防止文字丢失,则将目标轮廓对应的区域确定为文字区域,可以区分出不同文字所属的文字区域,防止出现将相互连接的文字划分至同一个文字区域的情况,减小了文字连接对文字区域检测造成的影响,提高文字区域的准确率,提升了检测效果。
并且,将目标图像的概率图和位置图进行二值化处理,降低了数据量,方便计算。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是相关技术中提出的一种识别文字的流程图;
图2是本发明实施例提供的一种实施环境的结构示意图;
图3是本发明实施例提供的一种训练预设网络模型的方法流程图;
图4是本发明实施例提供的一种确定的位置编码的示意图;
图5是本发明实施例提供的一种根据模板位置图确定位置编码的示意图;
图6是本发明实施例提供的一种文字区域检测方法的流程图;
图7是本发明实施例提供的一种预设网络模型输出概率图和位置图的示意图;
图8是本发明实施例提供的一种文字区域检测方法的流程图;
图9是本发明实施例提供的一种文字区域检测装置的结构示意图;
图10是本发明实施例提供的另一种文字区域检测装置的结构示意图;
图11是本发明实施例提供的一种终端的结构示意图;
图12是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在对本发明实施例进行详细地解释说明之前,首先对本发明实施例涉及到的图像进行如下解释:
1、概率图:
像素点的像素值:表示目标图像中对应的像素点属于文字的概率;
作用:用于区分像素点是否属于文字;
来源:目标图像输入至预设网络模型后,由预设网络模型输出。
2、位置图:
像素点的像素值:表示目标图像中对应的像素点在所属文字区域中的位置编码;
作用:用于衡量像素点更为靠近文字区域的中心还是边缘;
来源:目标图像输入至预设网络模型后,由预设网络模型输出。
3、模板位置图:
像素点的像素值:表示像素点在模板位置图中的位置编码;
作用:用于衡量像素点更为靠近模板位置图的中心还是边缘,并且还能作为任一图像的位置图的模板,根据模板位置图与该图像的位置图之间的映射关系能够得到该图像的位置图;
来源:根据每个像素点在模板位置图中的坐标计算得到。
4、参考图像:
像素点的像素值为第一数值或第二数值;
像素值为第一数值,表示目标图像中对应的像素点的概率大于第一预设阈值且位置编码大于第二预设阈值,即该像素点为更为靠近文字区域的中心的文字像素点;
像素值为第二数值,表示目标图像中对应的像素点的概率不大于第一预设阈值或者位置编码不大于第二预设阈值,即该像素点不是文字像素点,或者是更为靠近文字区域的边缘的像素点;
作用:能够区分出更为靠近文字区域的中心的文字像素点与其他的像素点;
来源:综合考虑概率图和位置图中每个像素点的像素值生成。
本发明实施例提供了一种文字区域检测方法,应用于检测设备,该检测设备能够对目标图像进行文字区域检测,确定目标图像中的文字区域。
其中,该检测设备可以包括服务器、终端或者其他具有处理功能的设备。该终端可以为手机、平板电脑以及计算机等多种类型的终端,该服务器可以为一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
图2是本发明实施例提供的一种实施环境的结构示意图。参见图2,该实施环境包括服务器201和终端202,服务器201与终端202通过网络连接。
在一种可能实现方式中,检测设备为服务器201。终端202向服务器201上传待检测的目标图像,由服务器201对该目标图像进行文字区域检测。
在另一种可能实现方式中,检测设备为终端202,终端202访问服务器201提供的目标图像,对该目标图像进行文字区域检测。
本发明实施例提供的文字区域检测方法可以应用于多种场景中。
在证件识别场景下,当获取到拍摄证件得到的目标图像时,采用本发明实施例提供的文字区域检测方法,确定该目标图像中的文字区域,从而识别该文字区域中的文字,也即是识别到了证件包含的文字。例如当该证件为身份证时,可以确定该身份证中的姓名、性别、住址、证件号码等。
在文档电子化场景下,当获取到图片格式的文档时,采用本发明实施例提供的文字区域检测方法,确定该文档中的文字区域,从而识别该文字区域中的文字,创建包含这些文字的电子文档,实现了将图片格式的文档转换为可编辑的电子文档,后续用户可以对该电子文档进行编辑操作。
在舆情图片监测场景下,当获取到包含文字的目标图像时,采用本发明实施例提供的文字区域检测方法,确定该目标图像中的文字区域,从而识别该文字区域中包含的文字,当确定识别的文字中包括敏感文字时,将敏感文字过滤或者将该目标图像过滤,以避免敏感文字的传播。
本发明提供的文字区域检测方法中,能够基于预设网络模型,获取任一图像的概率图和位置图,从而根据概率图和位置图进行文字区域检测。因此需要先对预设网络模型进行训练,具体过程详见下述实施例。
图3是本发明实施例提供的一种训练预设网络模型的方法流程图。该方法应用于训练设备中,该训练设备可以为终端或服务器。参见图3,该方法包括:
301、获取样本图像及该样本图像的样本概率图和样本位置图。
训练设备对预设网络模型进行训练的过程中,会先获取样本图像及该样本图像的样本概率图和样本位置图。其中,该样本概率图即为该样本图像的真实概率图,该样本位置图即为该样本图像的真实位置图。
关于该样本概率图:
该样本概率图的尺寸与该样本图像的尺寸相同,该样本概率图中的每个像素点与该样本图像中的每个像素点相互对应,该样本概率图中每个像素点的像素值代表该样本图像中的像素点是否属于文字,根据该样本概率图可以区分该样本图像中属于文字的像素点和不属于文字的像素点。
可选地,该样本概率图中像素点的像素值包括第一像素值和第二像素值,该第一像素值与该第二像素值不同,第一像素值表示像素点属于文字,第二像素值表示像素点不属于文字。例如第一像素值为1,第二像素值为0。
其中,该样本概率图可以采用人工标注的方式确定,或者采用其他方式确定。
关于该样本位置图:
该样本位置图的尺寸与该样本图像的尺寸相同,该样本位置图中的每个像素点与该样本图像中的每个像素点相互对应,该样本位置图中每个像素点的像素值代表该样本图像中的像素点在所属文字区域中的位置编码。且该样本位置图中,像素点与样本位置图的中心像素点之间的距离与该像素点在模板位置图中的位置编码呈负相关关系,即像素点距离中心像素点越近,位置编码越大,像素点距离中心像素点越远,位置编码越小。根据该样本位置图可以区分该样本图像中距离中心像素点较近的像素点和距离中心像素点较远的像素点。
其中,该样本位置图可以采用人工标注的方式确定,或者采用其他方式确定。
可选地,获取样本图像的样本位置图可以包括以下步骤3011-3015:
3011、获取模板位置图。
其中,模板位置图中包括按照预设规则确定的多个参考像素点,该预设规则可以默认设置或者根据一般的文字区域所满足的规则设置。
例如,考虑到中文文字一般为方形,所属的文字区域也为方形,因此该预设规则可以为选取左上角、右上角、左下角、右下角的四个顶点,作为参考像素点。或者,选取左上角、右上角、左下角、右下角的四个顶点,以及每两个顶点的中点,作为参考像素点。
并且,模板位置图中每个像素点的像素值表示每个像素点在模板位置图中的位置编码,像素点与模板位置图的中心像素点之间的距离与像素点在模板位置图中的位置编码呈负相关关系,即像素点距离中心像素点越近,位置编码越大,像素点距离中心像素点越远,位置编码越小。根据该模板位置图可以区分该模板位置图中距离中心像素点较近的像素点和距离中心像素点较远的像素点。
在一种可能实现方式中,对于模板位置图中的每个指定像素点,根据模板位置图的尺寸、指定像素点的坐标和模板位置图的中心像素点的坐标,采用以下公式,获取指定像素点的位置编码:
其中,v表示指定像素点在模板位置图中的位置编码,x表示指定像素点的横坐标,y表示指定像素点的纵坐标,xc表示中心像素点的横坐标,yc表示中心像素点的纵坐标,w表示模板位置图的宽度,h表示模板位置图的高度。
如图4所示,采用上述公式获取文字区域中每个像素点的位置编码,该位置编码属于[0,1]的范围,其中文字区域的中心像素点的位置编码为1,边缘上的像素点的位置编码为0。
3012、按照预设规则,确定样本图像中的多个控制像素点。
对于该样本图像,也采用预设规则提取样本图像中的多个像素点,作为控制像素点。
例如,基于步骤3011的举例,该预设规则为选取左上角、右上角、左下角、右下角的四个顶点,则从样本图像中选取左上角、右上角、左下角、右下角的四个顶点,作为控制像素点。
3013、根据多个参考像素点在模板位置图中的坐标,以及多个控制像素点在样本图像中的坐标进行插值运算,得到模板位置图与样本图像之间的映射关系。
本发明实施例中,将样本图像看做是模板位置图发生形变后的图像,按照相同的预设规则,分别确定模板位置图中的参考像素点,以及样本图像中的控制像素点,则可以认为控制像素点即为参考像素点发生形变后的像素点。因此,将参考像素点在模板位置图中的坐标作为输入,将控制像素点在样本图像中的坐标作为输出,根据多组相互对应的输入和输出进行插值运算,即可得到模板位置图与样本图像之间的映射关系。
3014、对于样本图像中的每个指定像素点,根据映射关系确定指定像素点在模板位置图中的映射像素点,将映射像素点在模板位置图中的位置编码确定为指定像素点在样本图像中的位置编码。
将样本图像中的像素点称为指定像素点,获取指定像素点在样本图像中的坐标,则根据该映射关系进行逆映射,即可得到该坐标映射的另一坐标,即为指定像素点在模板位置图中的映射像素点的坐标,也即是确定了指定像素点在模板位置图中的映射像素点。
由于该指定像素点可以看做是映射像素点发生形变之后得到的像素点,两者在各自的图像中的位置编码应当相同,因此将映射像素点在模板位置图中的位置编码确定为指定像素点在样本图像中的位置编码。
3015、根据样本图像中的每个像素点的位置编码,生成样本位置图。
将样本图像中每个像素点的位置编码作为样本位置图中对应像素点的像素值,获取到样本位置图中每个像素点的像素值后,即可得到样本位置图。
采用上述方式生成样本位置图时,可以保证无论该样本图像是何种形状、何种尺寸,均可利用该样本图像与该模板位置图之间的映射关系获取到该样本图像的样本位置图,该样本位置图中每个位置编码都具有尺度不变性、形状不变性的特点,也即是上述方式适用于任意形状、任意尺寸的图像。
例如,如图5所示,样本图像为左边倾斜的图片,模板位置图为右边水平的图片,该两个图片中分别设置有6个控制点,采用上述方式即可确定两个图片之间的sample grid(样本网格),作为两个图片中各个像素点之间的映射关系。由于模板位置图中每个像素点的位置编码已知,因此根据该映射关系和模板位置图,即可获取到样本图像中每个像素点的位置编码。
302、基于预设网络模型,获取该样本图像的测试概率图和测试位置图。
检测设备获取当前的预设网络模型,该预设网络模型为初始化的模型,也可以为经过一次或者多次调整后得到的预设网络模型。将样本图像输入该预设网络模型,基于该预设网络模型,获取样本图像的测试概率图和测试位置图。
其中,该测试概率图中每个像素点的像素值代表由该预设网络模型确定的、该样本图像中的像素点是否属于文字的概率,可以看做是预设网络模型的预测概率。
该测试位置图中每个像素点的像素值代表由该预设网络模型确定的、该样本图像中的像素点在所属文字区域中的位置编码,可以看做是预设网络模型的预测位置编码。
其中,该预设网络模型可以为FCN(Fully Convolutional Network,全卷积网络)模型、卷积神经网络模型或者其他类型的神经网络模型。
303、获取样本概率图与测试概率图之间的误差,以及样本位置图与测试位置图之间的误差。
304、根据获取到的误差,对预设网络模型的模型参数进行调整,以使基于调整后的预设网络模型获取到的概率图误差和位置图误差收敛。
预设网络模型获取到的测试概率图与样本概率图之间可能会存在误差,获取到的测试位置图与样本位置图之间也可能会存在误差。误差越小,表示预设网络模型的准确性越高。
因此,可以获取样本概率图与测试概率图之间的误差,以及样本位置图与测试位置图之间的误差,根据获取到的两种误差,对预设网络模型的模型参数进行调整,以使本次调整后,预设网络模型获取到的概率图误差和位置图误差收敛。也即是,以使基于本次调整后的预设网络模型获取的样本图像的测试概率图与样本概率图之间的误差,比基于本次调整前的预设网络模型获取的样本图像的测试概率图与样本概率图之间的误差更小,且基于本次调整后的预设网络模型获取的样本图像的测试位置图与样本位置图之间的误差,比基于本次调整前的预设网络模型获取的样本图像的测试位置图与样本位置图之间的误差更小。
对于任一个模型来说,误差收敛是指,通过对模型进行一次调整,使基于调整后的模型进行处理时得到的误差与基于调整前的模型进行处理时得到的误差相比更小。通过一次或多次调整,模型的误差逐渐减小,直至模型的误差小于预设阈值时,误差收敛,可以认为模型的准确率满足要求,模型训练完成。
在一种可能实现方式中,为该预设网络模型设置预设损失函数,按照该预设损失函数对预设网络模型进行训练,该预设损失函数的输出值,与基于预设网络模型获取的测试概率图与对应的样本概率图之间的误差,以及基于预设网络模型获取的测试位置图与对应的样本位置图之间的误差呈正相关关系。
因此,获取样本概率图与测试概率图之间的误差,以及样本位置图与测试位置图之间的误差,采用预设损失函数,对获取到的误差进行计算,得到预设损失函数的输出值。则调整预设网络模型的模型参数,以使预设损失函数的输出值收敛。
例如,预设损失函数为:
L=Lc+Lr
其中,L为预设损失函数,Lc为概率图的损失函数,Lr为位置图的损失函数,xci为测试概率图中像素点x的概率,yci为样本概率图中像素点x的概率,xri为测试位置图中像素点x的位置编码,yri为样本位置图中像素点x的位置编码。i∈[1,n],i为正整数,n为样本图像中像素点的个数。
需要说明的是,本发明实施例提供的预设网络模型包括两个任务:分类任务和位置编码任务,分类任务是指预设网络模型需要根据任一图像获取每个像素点属于文字的概率,对属于文字的像素点和不属于文字的像素点进行分类,位置编码任务是指预设网络模型需要根据任一图像获取每个像素点在所属文字区域中的位置编码。且通过上述训练过程,两个任务相互作用,共同学习。分类任务根据任一图像获取到每个像素点属于文字的概率后,即可根据每个像素点属于文字的概率,确定每个像素点属于文字还是不属于文字,从而确定图像中的一个或多个文字区域,之后位置编码任务即可以文字区域为单位,获取每个像素点在所属文字区域内的位置编码,对于不属于任一文字区域的像素点则无需获取位置编码。
本发明实施例提供的方法,通过获取样本图像的样本概率图和样本位置图,基于预设网络模型获取测试概率图和测试位置图,根据该样本概率图与测试概率图之间的误差、样本位置图和测试位置图之间的误差,对该预设网络模型的模型参数进行调整,从而可以使调整后的预设网络模型获取到的概率图误差和位置图误差收敛,训练出准确率满足要求的预设网络模型,该预设网络模型能够学习到图像与其概率图和位置图之间的关系,从而能够基于该预设网络模型获取到任一图像的概率图和位置图,提高了准确率。
需要说明的是,文字字体的不同、字号的不同、分布区域的不同,对文字检测的影响较大,并且,外界的光照、遮挡、阴影也对文字的检测影响较大,因此不同的文字区域检测方法,检测出来的文字区域的准确率也大不相同。对文字区域检测方法的影响主要体现为:
1、文字的形状多样,例如文字包括水平文字、任意方向的文字、弯曲形状的文字等。
2、文字的长宽比变化大,例如,文字字符与文字的行高之间存在不同的长宽比。
本发明实施例训练出能够获取位置图的预设网络模型,应用该预设网络模型可以确定图像中的每个像素点的位置编码,针对不同文字区域内的文字,无论该文字的形状和长宽比如何,都可以对文字区域内的每个像素点赋予一个位置编码,从而可以利用该位置编码来表示每个像素点在文字区域内的位置,也即是提供了每个像素点相对文字区域的位置信息,根据该位置编码可以确定任意形状、任意方向以及任意长宽比的文字,确定任意方向的文字,也即是提供了文字的方向信息,确定任意长宽比的文字,也即是提供了文字的尺度信息,且根据该位置编码可以确定文字区域,也即是提供了文字区域的位置信息,且该文字区域中包括文字,提供了文字的位置信息,解决了不同文字的形状和长宽比对文字检测的影响,提高了文字检测的准确率,后续还可以根据确定的文字区域检测文字,也即是提供了文字实例信息。
预设网络模型训练完成后,检测设备即可基于该预设网络模型,获取任一图像的概率图和位置图,进而根据该图像的概率图和位置图进行文字检测。其中,该检测设备可以与该训练设备相同,或者该检测设备可以与该训练设备不同,即该训练设备训练预设网络模型后,提供给该检测设备,由该检测设备应用该预设网络模型。
图6是本发明实施例提供的一种文字区域检测方法的流程图。该文字区域检测方法应用于检测设备中,参见图6,该方法包括:
601、基于预设网络模型,获取目标图像的概率图和位置图。
该目标图像中包括文字,且文字的形状可以为弯曲形状、水平形状、竖直形状等。例如,当该目标图像为拍摄的路牌时,由于拍摄角度不同,该路牌上的文字出现倾斜,而当该目标图像为拍摄的书籍时,由于拍摄时该书籍可能为弯曲形状,导致拍摄的图像中的文字也为弯曲形状。目标图像中的文字的内容可以包括新闻、广告、书籍等。
该目标图像可以通过摄像头拍摄得到,如拍摄路牌得到的图像、拍摄书籍得到的图像、拍摄广告牌得到的图像等。或者,其他用户拍摄目标图像后,可以将目标图像上传至网络,检测设备从网络中下载目标图像,或者其他用户拍摄得到目标图像后,将该目标图像发送给检测设备,检测设备接收到该目标图像。
本发明实施例中,预设网络模型用于确定任一图像的概率图和位置图。当获取到待检测的目标图像时,基于预设网络模型获取目标图像的概率图和位置图。
其中,该概率图的尺寸与目标图像的尺寸相同,该概率图中每个像素点与目标图像中每个像素点相互对应,且该概率图中每个像素点的像素值表示目标图像中对应的像素点属于文字的概率。
其中,该位置图的尺寸与目标图像的尺寸相同,该位置图中每个像素点与目标图像中每个像素点相互对应,该位置图中每个像素点的像素值表示目标图像中对应的像素点在所属文字区域中的位置编码。且,对于该位置图中的每个像素点,像素点与该位置图的中心像素点之间的距离与该像素点在该位置图中的位置编码呈负相关关系,即像素点距离中心像素点越近,位置编码越大,像素点距离中心像素点越远,位置编码越小。
如图7所示,将目标图像输入至该预设网络模型,基于该预设网络模型,可以输出该目标图像对应的概率图和位置图。其中,概率图中的数字表示每个像素点属于文字的概率。位置图中包括的4个矩形框表示该目标图像中的4个文字区域,每个矩形框中按照不同的阴影来表示像素点在所属文字区域中的位置编码,与中心像素点之间的距离不同,则位置编码也不同。
602、对概率图进行二值化处理得到第一图像,对位置图进行二值化处理得到第二图像。
概率图中每个像素点的像素值用于表示目标图像中对应的像素点属于文字的概率,通过将该概率图进行二值化处理,可以得到第一图像,且该第一图像中像素点的像素值包括两种:第一像素值和第二像素值,第一像素值表示像素点属于文字,第二像素值表示像素点不属于文字。例如第一像素值为1,第二像素值为0。
在一种可能实现方式中,对该概率图进行二值化处理,得到第一图像,以使第一图像中概率大于第一预设阈值的像素点的像素值为第三数值,概率不大于第一预设阈值的像素点的像素值为0。
也即是,对该概率图进行二值化处理,将该概率图中大于第一预设阈值的像素值调整为第三数值,将概率图中不大于第一预设阈值的像素值调整为0,根据每个像素点调整后的像素值,生成第一图像。
其中,该第一图像中像素值为第三数值的像素点即为属于文字的像素点,而该第一图像中像素值为0的像素点即为不属于文字的像素点,通过进行二值化处理可以将不属于文字的像素点滤除,保留属于文字的像素点。该第一预设阈值可以为0.6、0.7或者其他数值,且该第一预设阈值可以由用户设置,也可以由检测设备设置。
本公开实施例中的位置图中每个像素点的像素值表示目标图像中对应的像素点在所属文字区域中的位置编码,由于该位置图中每个像素点与所属文字区域的中心像素点之间的距离与该像素点的位置编码呈负相关关系,通过将该位置图进行二值化处理,可以将距离文字区域的中心像素点较远的像素点的像素值调整为第三像素值,将距离文字区域的中心像素点较近的像素点的像素值调整为第四像素值,从而可以得到第二图像,且该第二图像中每个像素点的像素值可以表示该像素点是否距离所属文字区域的中心像素点较近。
在一种可能实现方式中,对该位置图进行二值化处理,得到第二图像,以使第二图像中位置编码大于第二预设阈值的像素点的像素值为第四数值,位置编码不大于第二预设阈值的像素点的像素值为0。
也即是,对该位置图进行二值化处理,将位置图中大于第二预设阈值的像素值调整为第四数值,将位置图中不大于第二预设阈值的像素值调整为0,根据每个像素点调整后的像素值,生成第二图像。
其中,以位置编码是否大于第二预设阈值作为距离所属文字区域的中心像素点远近的划分标准,对像素点进行划分后得到了第二图像,该第二图像中像素值为第四数值的像素点即为距离所属文字区域的中心像素点较近的像素点,而该第二图像中像素值为0的像素点即为距离所属文字区域的中心像素点较远的像素点。通过进行二值化处理可以将距离所属文字区域的中心像素点较远的像素点滤除,保留距离所属文字区域的中心像素点较近的像素点。该第二预设阈值可以为0.1、0.2或者其他数值,且该第二预设阈值可以由用户设置,也可以由检测设备设置。
603、将第一图像与第二图像进行乘法处理,得到参考图像。
该第一图像中每个像素点的像素值均为第三数值或0,该第二图像中每个像素点的像素值均为第四数值或0,将该第一图像与第二图像进行乘法处理,从而可以得到处理后的参考图像。其中,该参考图像中目标像素点的像素值为第一数值,且该目标像素点为概率大于第一预设阈值且位置编码大于第二预设阈值的像素点,其他像素点的像素值为第二数值,且该第一数值为第三数值和第四数值的乘积,第二数值为0。
由于该第一图像与第二图像的尺寸相同,且该第一图像中每个像素点与第二图像中每个像素点相互对应,对第一图像与第二图像进行乘法处理包括:计算第一图像中每个像素点的像素值与第二图像中对应的像素点的像素值的乘积,作为参考图像中对应像素点的像素值,根据参考图像中每个像素点的像素值,生成参考图像。
本公开实施例中,将第一图像与第二图像进行乘法处理,可以保证不属于文字的像素点,或者为距离所属文字区域中心像素点较远的像素点的像素值为0,,也即是将这种像素点滤除。而既属于文字且距离所属文字区域中心像素点距离较近的像素点的像素值为第一数值,也即是将这种像素点保留,将这种像素点作为参考图像中的目标像素点,后续通过这些目标像素点即可确定目标图像中的文字区域。
需要说明的是,在本公开实施例中仅是以将概率图和位置图进行二值化处理后得到的第一图像和第二图像进行乘法处理为例进行说明,在另一实施例中,可以将概率图进行二值化处理,得到第一图像,确定位置图中位置编码小于第二预设阈值的像素点,将第一图像中与确定的像素点对应的像素点的像素值设置为0,得到参考图像。采用上述方式也可以保证该参考图像中距离中心像素点较远和不属于文字的像素点的像素值均为0。
本公开实施例中根据概率图和位置图可以生成参考图像,从而可以将不属于文字的像素点或距离文字区域的中心像素点较远的像素点滤除,仅保留属于文字且距离文字区域的中心像素点较近的像素点。那么,当目标图像中包括相互连接的文字时,能够将每个文字的边缘切除,从而将连接的文字分割开。并且,分别将概率图和位置图进行二值化处理,可以减少数据量,方便计算。
604、将参考图像中相互连通的目标像素点进行组合,得到参考图像中的至少一个连通区域。
由于参考图像中的目标像素点为属于文字且距离所属文字区域的中心像素点距离较近的像素点,因此目标像素点的连通区域即为属于文字且距离所属文字区域的中心像素点距离较近的像素点构成的文字区域。
在一种可能实现方式中,在确定相互连通的目标像素点的过程中,可以根据4连通方法确定相互连通的目标像素点,确定任一目标像素点的左侧、上侧、下侧、右侧是否存在目标像素点,当该目标像素点的左侧、上侧、下侧、右侧中的任一侧存在目标像素点时,确定该目标像素点与任一侧的目标像素点相互连通,按照此种方式,可以确定该参考图像中的至少一个连通区域。
在另一种可能实现方式中,在确定相互连通的目标像素点的过程中,可以根据8连通的方法确定相互连通的目标像素点,确定任一目标像素点的左侧、左上侧、上侧、右上侧、右侧、右下侧、下侧、左下侧是否存在目标像素点,当该目标像素点的左侧、左上侧、上侧、右上侧、右侧、右下侧、下侧、左下侧中的任一侧存在目标像素点时,确定该目标像素点与任一侧的目标像素点相互连通,按照此种方式,可以确定该参考图像中的至少一个连通区域。
在另一种可能实现方式中,还可通过其他方式确定相互连通的目标像素点,在此不再赘述。
由于目标图像中可能会包括相互连接的文字,如果直接根据目标图像确定属于文字的像素点构成的连通区域(文字区域)时,则会将相互连接的文字划分到同一个连通区域(文字区域)。而本发明实施例中,通过执行上述步骤602-603,可以将每个文字的边缘切除,则在确定连通区域时,可以将相互连接的文字分割开。
605、将连通区域的轮廓进行放大,得到参考轮廓,且放大幅度与第二预设阈值呈正相关关系。
由于之前将文字的边缘切除,因此参考图像中的至少一个连通区域并不是真实的文字区域,而是文字区域的边缘被切除后的区域。因此,为了获取到准确的文字区域,获取连通区域的轮廓,将连通区域的轮廓进行放大,得到参考轮廓,该参考轮廓可以认为是文字的边缘未被切除的情况下的文字区域的轮廓。
其中,提取该连通区域的轮廓时,采用的提取算法可以为最小区域矩形算法、提取包络的算法或者其他算法。
对参考图像中的连通区域的轮廓进行放大时,采用的放大幅度与第二预设阈值呈正相关关系,也即是第二预设阈值越大,放大幅度越大,第二预设阈值越小,放大幅度越小。这是由于:如果第二预设阈值选取较大的数值,会导致文字较多的边缘被切除,相对于真实的文字区域,所确定的连通区域的尺寸减小的更多,因此需要较大的放大幅度对连通区域的轮廓进行放大,才能得到真实的文字区域的轮廓。如果第二预设阈值选取较小的数值,会导致文字较少的边缘被切除,相对于真实的文字区域,所确定的连通区域的尺寸减小的更少,因此需要较小的放大幅度对连通区域的轮廓进行放大,即可得到真实的文字区域的轮廓。
在一种可能实现方式中,该放大幅度包括放大比例,根据第二预设阈值确定放大比例,按照放大比例对参考图像的连通区域的轮廓进行放大,且该放大比例与第二预设阈值呈正相关关系。
例如,根据第二预设阈值,采用以下公式确定放大比例:
其中,α表示放大比例,β表示第二预设阈值。
在另一种可能实现方式中,由于文字区域的边缘像素点与位置编码为第二预设阈值的像素点之间的距离,即为连通区域的轮廓与真实的文字区域的轮廓之间的距离,因此可以获取边缘像素点与位置编码为第二预设阈值的像素点之间的距离,作为放大距离,在参考图像的连通区域的轮廓进行放大时,将轮廓中的每个轮廓线均向外侧移动与该放大距离相等的距离,得到参考轮廓。如,将连通区域的上侧轮廓线向上移动与该放大距离相等的距离,将连通区域的下侧轮廓线向下移动与该放大距离相等的距离,将连通区域的左侧轮廓线向左移动与该放大距离相等的距离,将连通区域的右侧轮廓线向右移动与该放大距离相等的距离。
606、确定参考轮廓在目标图像中对应的目标轮廓,将目标轮廓对应的区域确定为文字区域。
得到参考轮廓之后,将参考轮廓对应标注在目标图像中,得到与该参考轮廓在目标图像中对应的目标轮廓,将该目标轮廓在目标图像中对应的区域确定为文字区域。
如图8所示,当获取到目标图像时,可以得到该目标图像对应的参考图像,将文字的边缘切除,仅保留属于文字且距离中心像素点较近的像素点,根据该参考图像确定连通区域以及该连通区域的轮廓,将该连通区域的轮廓进行扩大,得到参考轮廓,根据该参考轮廓可以确定目标图像中的目标轮廓,该目标轮廓中的区域即为目标图像中的文字区域。
本发明实施例中,先将文字的边缘切除后获取连通区域的轮廓,再对连通区域的轮廓进行放大,得到的轮廓即为文字区域的轮廓。采用这种先缩小再放大的方式,既可以将相互连接的文字分割开,又可以得到准确的文字区域轮廓,防止文字丢失,因此可以减小文字连接对文字区域检测造成的影响,提高文字区域的准确率。
607、对文字区域进行文字检测,得到该文字区域中的文字。
确定文字区域之后,可以对该文字区域进行文字识别,得到该文字区域中的文字。例如,确定该文字区域中概率大于第一预设阈值的像素点,将确定的像素点进行组合,得到该文字区域中的文字,后续可以对识别出的文字进行处理。
本发明实施例提供的文字区域检测方法,可以应用于OCR(Optical CharacterRecognition,光学字符识别)技术中,OCR技术中可以先采用本发明实施例提供的文字区域检测方法检测出目标图像中的文字区域,再对文字区域进行文字识别,从而识别出目标图像中的文字。
需要说明的是,该步骤607为可选步骤,当通过步骤601-606确定文字区域后,还可以不执行步骤607,而是将该文字区域发送给其他设备,由其他设备对该文字区域进行文字识别,从而可以得到该文字区域中的文字,后续对识别出的文字进行处理。
本发明实施例提供的方法,获取目标图像,基于预设网络模型得到的概率图和位置图,对概率图进行二值化处理得到第一图像,对位置图进行二值化处理得到第二图像,根据第一图像和第二图像确定参考图像,且该参考图像中目标像素点的概率大于第一预设阈值且位置编码大于第二预设阈值,可以将属于文字且距离所属文字区域较近的像素点保留,将其他像素点滤除,从而能够将相互连接的文字分割开。再将参考图像中相互连通的目标像素点进行组合,将得到的连通区域的轮廓进行放大,得到参考轮廓,确定参考轮廓在目标图像中对应的目标轮廓,得到准确的文字区域轮廓,防止文字丢失,则将目标轮廓对应的区域确定为文字区域,可以区分出不同文字所属的文字区域,防止出现将相互连接的文字划分至同一个文字区域的情况,减小了文字连接对文字区域检测造成的影响,提高文字区域的准确率,提升了检测效果。
并且,将目标图像的概率图和位置图进行二值化处理,降低了数据量,方便计算。
图9是本发明实施例提供的一种文字区域检测装置的结构示意图。参见图9,该装置包括:
第一获取模块901,用于基于预设网络模型,获取目标图像的概率图和位置图,概率图中每个像素点的像素值表示目标图像中对应的像素点属于文字的概率,位置图中每个像素点的像素值表示目标图像中对应的像素点在所属文字区域中的位置编码,且像素点与所属文字区域的中心像素点之间的距离与像素点在所属文字区域中的位置编码呈负相关关系;
生成模块902,用于根据概率图和位置图中每个像素点的像素值,生成参考图像,参考图像中目标像素点的像素值为第一数值,其他像素点的像素值为第二数值,目标像素点为概率大于第一预设阈值且位置编码大于第二预设阈值的像素点;
区域组合模块903,用于将参考图像中相互连通的目标像素点进行组合,得到参考图像中的连通区域;
放大模块904,用于将连通区域的轮廓进行放大,得到参考轮廓,且放大幅度与第二预设阈值呈正相关关系;
确定模块905,用于确定参考轮廓在目标图像中对应的目标轮廓,将目标轮廓对应的区域确定为文字区域。
在一种可能实现方式中,参见图10,装置还包括:
第二获取模块906,用于获取样本图像的样本概率图和样本位置图;
第三获取模块907,还用于基于预设网络模型,获取样本图像的测试概率图和测试位置图;
第四获取模块908,用于获取样本概率图与测试概率图之间的误差,以及样本位置图与测试位置图之间的误差;
调整模块909,用于根据获取到的误差,对预设网络模型的模型参数进行调整,以使基于调整后的预设网络模型获取到的概率图误差和位置图误差收敛。
在另一种可能实现方式中,第二获取模块906,包括:
获取单元9061,用于获取模板位置图,模板位置图中包括按照预设规则确定的多个参考像素点,且模板位置图中每个像素点的像素值表示每个像素点在模板位置图中的位置编码,像素点与模板位置图的中心像素点之间的距离与像素点在模板位置图中的位置编码呈负相关关系;
第一确定单元9062,用于按照预设规则,确定样本图像中的多个控制像素点;
运算单元9063,用于根据多个参考像素点在模板位置图中的坐标,以及多个控制像素点在样本图像中的坐标进行插值运算,得到模板位置图与样本图像之间的映射关系;
第二确定单元9064,用于对于样本图像中的每个指定像素点,根据映射关系确定指定像素点在模板位置图中的映射像素点,将映射像素点在模板位置图中的位置编码确定为指定像素点在样本图像中的位置编码;
生成单元9065,用于根据样本图像中的每个像素点的位置编码,生成样本位置图。
在另一种可能实现方式中,获取单元9061,还用于对于模板位置图中的每个指定像素点,根据模板位置图的尺寸、指定像素点的坐标和模板位置图的中心像素点的坐标,采用以下公式,获取指定像素点的位置编码:
其中,v表示指定像素点在模板位置图中的位置编码,x表示指定像素点的横坐标,y表示指定像素点的纵坐标,xc表示中心像素点的横坐标,yc表示中心像素点的纵坐标,w表示模板位置图的宽度,h表示模板位置图的高度。
在另一种可能实现方式中,生成模块902,包括:
第一处理单元9021,用于对概率图进行二值化处理,得到第一图像,以使第一图像中概率大于第一预设阈值的像素点的像素值为第三数值,概率不大于第一预设阈值的像素点的像素值为0;
第一处理单元9021,还用于对位置图进行二值化处理,得到第二图像,以使第二图像中位置编码大于第二预设阈值的像素点的像素值为第四数值,位置编码不大于第二预设阈值的像素点的像素值为0;
第二处理单元9022,用于将第一图像与第二图像进行乘法处理,得到参考图像,第三数值与第四数值的乘积为第一数值,第二数值为0。
在另一种可能实现方式中,放大模块904,还用于根据第二预设阈值,采用以下公式获取放大比例:
其中,α表示放大比例,β表示第二预设阈值。
在另一种可能实现方式中,参见图10,装置还包括:
像素点组合模块910,用于将文字区域中概率大于第一预设阈值的像素点进行组合,得到文字区域中的文字。
本发明实施例提供的文字区域检测装置,获取目标图像,基于预设网络模型得到的概率图和位置图,对概率图进行二值化处理得到第一图像,对位置图进行二值化处理得到第二图像,根据第一图像和第二图像确定参考图像,且该参考图像中目标像素点的概率大于第一预设阈值且位置编码大于第二预设阈值,可以将属于文字且距离所属文字区域较近的像素点保留,将其他像素点滤除,从而能够将相互连接的文字分割开。再将参考图像中相互连通的目标像素点进行组合,将得到的连通区域的轮廓进行放大,得到参考轮廓,确定参考轮廓在目标图像中对应的目标轮廓,得到准确的文字区域轮廓,防止文字丢失,则将目标轮廓对应的区域确定为文字区域,可以区分出不同文字所属的文字区域,防止出现将相互连接的文字划分至同一个文字区域的情况,减小了文字连接对文字区域检测造成的影响,提高文字区域的准确率,提升了检测效果。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的文字区域检测装置在检测文字区域时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将检测设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文字区域检测装置的实施例与文字区域检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图11是本发明实施例提供的一种终端的结构示意图。该终端1100可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备,或其他任意智能终端。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1100包括有:处理器1101和存储器1102。
处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1101所具有以实现本申请中方法实施例提供的文字区域检测方法。
在一些实施例中,终端1100还可选包括有:外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地,外围设备包括:射频电路1104、触摸显示屏1105、摄像头1106、音频电路1107、定位组件1108和电源1109中的至少一种。
外围设备接口1103可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中,处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上;在一些其他实施例中,处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1104用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1104包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及8G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1104还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1105用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时,显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时,显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1105可以为一个,设置终端1100的前面板;在另一些实施例中,显示屏1105可以为至少两个,分别设置在终端1100的不同表面或呈折叠设计;在再一些实施例中,显示屏1105可以是柔性显示屏,设置在终端1100的弯曲表面上或折叠面上。甚至,显示屏1105还可以设置成非矩形的不规则图形,也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1106用于采集图像或视频。可选地,摄像头组件1106包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1101进行处理,或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1107还可以包括耳机插孔。
定位组件1108用于定位终端1100的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1108可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于:加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。
加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号,控制触摸显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1112可以检测终端1100的机体方向及转动角度,陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1113可以设置在终端1100的侧边框和/或触摸显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时,可以检测用户对终端1100的握持信号,由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在触摸显示屏1105的下层时,由处理器1101根据用户对触摸显示屏1105的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1114用于采集用户的指纹,由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份,或者,由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1101授权该用户具有相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置终端1100的正面、背面或侧面。当终端1100上设置有物理按键或厂商Logo时,指纹传感器1114可以与物理按键或厂商标志集成在一起。
光学传感器1115用于采集环境光强度。在一个实施例中,处理器1101可以根据光学传感器1115采集的环境光强度,控制触摸显示屏1105的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1105的显示亮度;当环境光强度较低时,调低触摸显示屏1105的显示亮度。在另一个实施例中,处理器1101还可以根据光学传感器1115采集的环境光强度,动态调整摄像头组件1106的拍摄参数。
接近传感器1116,也称距离传感器,通常设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中,当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时,由处理器1101控制触摸显示屏1105从亮屏状态切换为息屏状态;当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时,由处理器1101控制触摸显示屏1105从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图11中示出的结构并不构成对终端1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图12是本发明实施例提供的一种服务器的结构示意图,该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)1201和一个或一个以上的存储器1202,其中,所述存储器1202中存储有至少一条指令,所述至少一条指令由所述处理器1201加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
服务器1200可以用于执行上述文字区域检测方法中检测设备所执行的步骤。
本发明实施例还提供了一种文字区域检测装置,该装置包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,指令、程序、代码集或指令集由处理器加载并具有以实现上述实施例的文字区域检测方法中所具有的操作。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该指令、该程序、该代码集或该指令集由处理器加载并具有以实现上述实施例的文字区域检测方法中所具有的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (15)
1.一种文字区域检测方法,其特征在于,所述方法包括:
基于预设网络模型,获取目标图像的概率图和位置图,所述概率图中每个像素点的像素值表示所述目标图像中对应的像素点属于文字的概率,所述位置图中每个像素点的像素值表示所述目标图像中对应的像素点在所属文字区域中的位置编码,且所述像素点与所属文字区域的中心像素点之间的距离与所述像素点在所属文字区域中的位置编码呈负相关关系;
根据所述概率图和所述位置图中每个像素点的像素值,生成参考图像,所述参考图像中目标像素点的像素值为第一数值,其他像素点的像素值为第二数值,所述目标像素点为所述概率大于第一预设阈值且所述位置编码大于第二预设阈值的像素点;
将所述参考图像中相互连通的目标像素点进行组合,得到所述参考图像中的连通区域,将所述连通区域的轮廓进行放大,得到参考轮廓,且放大幅度与所述第二预设阈值呈正相关关系;
确定所述参考轮廓在所述目标图像中对应的目标轮廓,将所述目标轮廓对应的区域确定为文字区域。
2.根据权利要求1所述的方法,其特征在于,所述基于预设网络模型,获取目标图像的概率图和位置图之前,所述方法还包括:
获取样本图像的样本概率图和样本位置图;
基于所述预设网络模型,获取所述样本图像的测试概率图和测试位置图;
获取所述样本概率图与所述测试概率图之间的误差,以及所述样本位置图与所述测试位置图之间的误差;
根据获取到的误差,对所述预设网络模型的模型参数进行调整,以使基于调整后的预设网络模型获取到的概率图误差和位置图误差收敛。
3.根据权利要求2所述的方法,其特征在于,所述获取样本图像的样本位置图,包括:
获取模板位置图,所述模板位置图中包括按照预设规则确定的多个参考像素点,且所述模板位置图中每个像素点的像素值表示所述每个像素点在所述模板位置图中的位置编码,所述像素点与所述模板位置图的中心像素点之间的距离与所述像素点在所述模板位置图中的位置编码呈负相关关系;
按照所述预设规则,确定所述样本图像中的多个控制像素点;
根据所述多个参考像素点在所述模板位置图中的坐标,以及所述多个控制像素点在所述样本图像中的坐标进行插值运算,得到所述模板位置图与所述样本图像之间的映射关系;
对于所述样本图像中的每个指定像素点,根据所述映射关系确定所述指定像素点在所述模板位置图中的映射像素点,将所述映射像素点在所述模板位置图中的位置编码确定为所述指定像素点在所述样本图像中的位置编码;
根据所述样本图像中的每个像素点的位置编码,生成所述样本位置图。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对于所述模板位置图中的每个指定像素点,根据所述模板位置图的尺寸、所述指定像素点的坐标和所述模板位置图的中心像素点的坐标,采用以下公式,获取所述指定像素点的位置编码:
其中,v表示所述指定像素点在所述模板位置图中的位置编码,x表示所述指定像素点的横坐标,y表示所述指定像素点的纵坐标,xc表示所述中心像素点的横坐标,yc表示所述中心像素点的纵坐标,w表示所述模板位置图的宽度,h表示所述模板位置图的高度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述概率图和所述位置图中每个像素点的像素值,生成参考图像,包括:
对所述概率图进行二值化处理,得到第一图像,以使所述第一图像中所述概率大于所述第一预设阈值的像素点的像素值为第三数值,所述概率不大于所述第一预设阈值的像素点的像素值为0;
对所述位置图进行二值化处理,得到第二图像,以使所述第二图像中所述位置编码大于所述第二预设阈值的像素点的像素值为第四数值,所述位置编码不大于所述第二预设阈值的像素点的像素值为0;
将所述第一图像与所述第二图像进行乘法处理,得到所述参考图像,所述第三数值与所述第四数值的乘积为所述第一数值,所述第二数值为0。
6.根据权利要求1所述的方法,其特征在于,所述放大幅度包括放大比例,所述将所述连通区域的轮廓进行放大,得到参考轮廓之前,所述方法还包括:
根据所述第二预设阈值,采用以下公式获取所述放大比例:
其中,α表示所述放大比例,β表示所述第二预设阈值。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述将所述目标轮廓对应的区域确定为文字区域之后,所述方法还包括:
将所述文字区域中所述概率大于所述第一预设阈值的像素点进行组合,得到所述文字区域中的文字。
8.一种文字区域检测装置,其特征在于,所述装置包括:
第一获取模块,用于基于预设网络模型,获取目标图像的概率图和位置图,所述概率图中每个像素点的像素值表示所述目标图像中对应的像素点属于文字的概率,所述位置图中每个像素点的像素值表示所述目标图像中对应的像素点在所属文字区域中的位置编码,且所述像素点与所属文字区域的中心像素点之间的距离与所述像素点在所属文字区域中的位置编码呈负相关关系;
生成模块,用于根据所述概率图和所述位置图中每个像素点的像素值,生成参考图像,所述参考图像中目标像素点的像素值为第一数值,其他像素点的像素值为第二数值,所述目标像素点为所述概率大于第一预设阈值且所述位置编码大于第二预设阈值的像素点;
区域组合模块,用于将所述参考图像中相互连通的目标像素点进行组合,得到所述参考图像中的连通区域;
放大模块,用于将所述连通区域的轮廓进行放大,得到参考轮廓,且放大幅度与所述第二预设阈值呈正相关关系;
确定模块,用于确定所述参考轮廓在所述目标图像中对应的目标轮廓,将所述目标轮廓对应的区域确定为文字区域。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取样本图像的样本概率图和样本位置图;
第三获取模块,还用于基于所述预设网络模型,获取所述样本图像的测试概率图和测试位置图;
第四获取模块,用于获取所述样本概率图与所述测试概率图之间的误差,以及所述样本位置图与所述测试位置图之间的误差;
调整模块,用于根据获取到的误差,对所述预设网络模型的模型参数进行调整,以使基于调整后的预设网络模型获取到的概率图误差和位置图误差收敛。
10.根据权利要求9所述的装置,其特征在于,所述第二获取模块,包括:
获取单元,用于获取模板位置图,所述模板位置图中包括按照预设规则确定的多个参考像素点,且所述模板位置图中每个像素点的像素值表示所述每个像素点在所述模板位置图中的位置编码,所述像素点与所述模板位置图的中心像素点之间的距离与所述像素点在所述模板位置图中的位置编码呈负相关关系;
第一确定单元,用于按照所述预设规则,确定所述样本图像中的多个控制像素点;
运算单元,用于根据所述多个参考像素点在所述模板位置图中的坐标,以及所述多个控制像素点在所述样本图像中的坐标进行插值运算,得到所述模板位置图与所述样本图像之间的映射关系;
第二确定单元,用于对于所述样本图像中的每个指定像素点,根据所述映射关系确定所述指定像素点在所述模板位置图中的映射像素点,将所述映射像素点在所述模板位置图中的位置编码确定为所述指定像素点在所述样本图像中的位置编码;
生成单元,用于根据所述样本图像中的每个像素点的位置编码,生成所述样本位置图。
11.根据权利要求10所述的装置,其特征在于,所述获取单元,还用于对于所述模板位置图中的每个指定像素点,根据所述模板位置图的尺寸、所述指定像素点的坐标和所述模板位置图的中心像素点的坐标,采用以下公式,获取所述指定像素点的位置编码:
其中,v表示所述指定像素点在所述模板位置图中的位置编码,x表示所述指定像素点的横坐标,y表示所述指定像素点的纵坐标,xc表示所述中心像素点的横坐标,yc表示所述中心像素点的纵坐标,w表示所述模板位置图的宽度,h表示所述模板位置图的高度。
12.根据权利要求8所述的装置,其特征在于,所述生成模块,包括:
第一处理单元,用于对所述概率图进行二值化处理,得到第一图像,以使所述第一图像中所述概率大于所述第一预设阈值的像素点的像素值为第三数值,所述概率不大于所述第一预设阈值的像素点的像素值为0;
所述第一处理单元,还用于对所述位置图进行二值化处理,得到第二图像,以使所述第二图像中所述位置编码大于所述第二预设阈值的像素点的像素值为第四数值,所述位置编码不大于所述第二预设阈值的像素点的像素值为0;
第二处理单元,用于将所述第一图像与所述第二图像进行乘法处理,得到所述参考图像,所述第三数值与所述第四数值的乘积为所述第一数值,所述第二数值为0。
13.根据权利要求8所述的装置,其特征在于,所述放大模块,还用于根据所述第二预设阈值,采用以下公式获取所述放大比例:
其中,α表示所述放大比例,β表示所述第二预设阈值。
14.一种文字区域检测装置,其特征在于,所述装置包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至7任一权利要求所述的文字区域检测方法中所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至7任一权利要求所述的文字区域检测方法中所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910344670.8A CN110059685B (zh) | 2019-04-26 | 2019-04-26 | 文字区域检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910344670.8A CN110059685B (zh) | 2019-04-26 | 2019-04-26 | 文字区域检测方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110059685A true CN110059685A (zh) | 2019-07-26 |
CN110059685B CN110059685B (zh) | 2022-10-21 |
Family
ID=67321166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910344670.8A Active CN110059685B (zh) | 2019-04-26 | 2019-04-26 | 文字区域检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110059685B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242120A (zh) * | 2020-01-03 | 2020-06-05 | 中国科学技术大学 | 文字检测方法及系统 |
CN111291720A (zh) * | 2020-03-10 | 2020-06-16 | 孔华 | 基于云计算网络的建筑物广告辨识系统 |
CN111597956A (zh) * | 2020-05-12 | 2020-08-28 | 四川久远银海软件股份有限公司 | 基于深度学习模型和相对方位标定的图片文字识别方法 |
CN111859001A (zh) * | 2020-07-06 | 2020-10-30 | Oppo(重庆)智能科技有限公司 | 图像相似度检测方法、装置、存储介质与电子设备 |
CN112348023A (zh) * | 2020-10-28 | 2021-02-09 | 南阳柯丽尔科技有限公司 | 背景与文字分离方法、装置、设备及存储介质 |
CN112801232A (zh) * | 2021-04-09 | 2021-05-14 | 苏州艾隆科技股份有限公司 | 一种应用于处方录入的扫描识别方法及系统 |
CN112926420A (zh) * | 2021-02-09 | 2021-06-08 | 海信视像科技股份有限公司 | 一种显示设备和菜单文字识别方法 |
CN113076814A (zh) * | 2021-03-15 | 2021-07-06 | 腾讯科技(深圳)有限公司 | 文本区域的确定方法、装置、设备及可读存储介质 |
CN113610866A (zh) * | 2021-07-28 | 2021-11-05 | 上海墨说科教设备有限公司 | 练字图像的裁剪方法、装置、设备和存储介质 |
WO2021227058A1 (zh) * | 2020-05-15 | 2021-11-18 | 京东方科技集团股份有限公司 | 文本处理方法、装置、电子设备及存储介质 |
WO2022089236A1 (zh) * | 2020-11-02 | 2022-05-05 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像处理方法、装置、计算机设备和存储介质 |
CN116055766A (zh) * | 2023-01-31 | 2023-05-02 | 北京达佳互联信息技术有限公司 | 弹幕防遮挡方法、装置、设备及存储介质 |
CN116563840A (zh) * | 2023-07-07 | 2023-08-08 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于弱监督跨模态对比学习的场景文本检测与识别方法 |
CN119007181A (zh) * | 2024-09-09 | 2024-11-22 | 国家电网有限公司信息通信分公司 | 一种用于音视频的ocr识别方法及系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8326051B1 (en) * | 2008-02-22 | 2012-12-04 | Teradici Corporation | Method and apparatus for progressive encoding for text transmission |
EP2701098A2 (en) * | 2012-08-23 | 2014-02-26 | Xerox Corporation | Region refocusing for data-driven object localization |
US20140092438A1 (en) * | 2012-09-28 | 2014-04-03 | Interactive Memories, Inc. | Method for Optimizing Printing Quality for Image-Laden PDF Files at Lower File Sizes |
CN103888775A (zh) * | 2012-12-20 | 2014-06-25 | 索尼公司 | 图像处理装置、图像处理方法和程序 |
CN104463138A (zh) * | 2014-12-19 | 2015-03-25 | 深圳大学 | 基于视觉结构属性的文本定位方法及系统 |
US20150116782A1 (en) * | 2013-10-24 | 2015-04-30 | Canon Kabushiki Kaisha | Method, apparatus and system for generating an attribute map for processing an image |
US20150366546A1 (en) * | 2014-06-18 | 2015-12-24 | Siemens Medical Solutions Usa, Inc. | System and method for real-time ultrasound guided prostate needle biopsies using a compliant robotic arm |
CN105574513A (zh) * | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
CN106599900A (zh) * | 2015-10-20 | 2017-04-26 | 华中科技大学 | 一种识别图像中的字符串的方法和装置 |
WO2017140233A1 (zh) * | 2016-02-18 | 2017-08-24 | 腾讯科技(深圳)有限公司 | 文字检测方法及系统、设备、存储介质 |
WO2018019124A1 (zh) * | 2016-07-29 | 2018-02-01 | 努比亚技术有限公司 | 一种图像处理方法及电子设备、存储介质 |
CN107677282A (zh) * | 2017-10-30 | 2018-02-09 | 成都九壹通智能科技股份有限公司 | 一种高精度线路电子地图生成装置及方法 |
CN107977960A (zh) * | 2017-11-24 | 2018-05-01 | 南京航空航天大学 | 一种基于改进的susan算子的轿车表面划痕检测算法 |
CN108171104A (zh) * | 2016-12-08 | 2018-06-15 | 腾讯科技(深圳)有限公司 | 一种文字检测方法及装置 |
CN108345850A (zh) * | 2018-01-23 | 2018-07-31 | 哈尔滨工业大学 | 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法 |
CN109657673A (zh) * | 2017-10-11 | 2019-04-19 | 阿里巴巴集团控股有限公司 | 图像识别方法和终端 |
-
2019
- 2019-04-26 CN CN201910344670.8A patent/CN110059685B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8326051B1 (en) * | 2008-02-22 | 2012-12-04 | Teradici Corporation | Method and apparatus for progressive encoding for text transmission |
EP2701098A2 (en) * | 2012-08-23 | 2014-02-26 | Xerox Corporation | Region refocusing for data-driven object localization |
US20140092438A1 (en) * | 2012-09-28 | 2014-04-03 | Interactive Memories, Inc. | Method for Optimizing Printing Quality for Image-Laden PDF Files at Lower File Sizes |
CN103888775A (zh) * | 2012-12-20 | 2014-06-25 | 索尼公司 | 图像处理装置、图像处理方法和程序 |
US20150116782A1 (en) * | 2013-10-24 | 2015-04-30 | Canon Kabushiki Kaisha | Method, apparatus and system for generating an attribute map for processing an image |
US20150366546A1 (en) * | 2014-06-18 | 2015-12-24 | Siemens Medical Solutions Usa, Inc. | System and method for real-time ultrasound guided prostate needle biopsies using a compliant robotic arm |
CN104463138A (zh) * | 2014-12-19 | 2015-03-25 | 深圳大学 | 基于视觉结构属性的文本定位方法及系统 |
CN106599900A (zh) * | 2015-10-20 | 2017-04-26 | 华中科技大学 | 一种识别图像中的字符串的方法和装置 |
CN105574513A (zh) * | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
WO2017140233A1 (zh) * | 2016-02-18 | 2017-08-24 | 腾讯科技(深圳)有限公司 | 文字检测方法及系统、设备、存储介质 |
WO2018019124A1 (zh) * | 2016-07-29 | 2018-02-01 | 努比亚技术有限公司 | 一种图像处理方法及电子设备、存储介质 |
CN108171104A (zh) * | 2016-12-08 | 2018-06-15 | 腾讯科技(深圳)有限公司 | 一种文字检测方法及装置 |
CN109657673A (zh) * | 2017-10-11 | 2019-04-19 | 阿里巴巴集团控股有限公司 | 图像识别方法和终端 |
CN107677282A (zh) * | 2017-10-30 | 2018-02-09 | 成都九壹通智能科技股份有限公司 | 一种高精度线路电子地图生成装置及方法 |
CN107977960A (zh) * | 2017-11-24 | 2018-05-01 | 南京航空航天大学 | 一种基于改进的susan算子的轿车表面划痕检测算法 |
CN108345850A (zh) * | 2018-01-23 | 2018-07-31 | 哈尔滨工业大学 | 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法 |
Non-Patent Citations (8)
Title |
---|
N NAYEF等: ""Semantic Text Detection in Born-Digital Images via Fully Convolutional Networks"", 《IEEE COMPUTER SOCIETY》 * |
T LI等: ""Text Detection in Natural Scenes Based on Maximally Stable External Region and Deep Convolutional Network"", 《THE 5TH INTERNATIONAL CONFERENCE ON COMPUTER ENGINEERING AND NETWORKS》 * |
W HE等: ""Multi-Oriented and Multi-Lingual Scene Text Detection with Direct Regression"", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
Y BAEK等: ""Character Region Awareness for Text Detection"", 《ARXIV》 * |
李敏等: ""基于文本像素颜色聚类的场景文本检测算法"", 《激光与光电子学进展》 * |
杨国亮等: ""基于垂直区域回归网络的自然场景文本检测"", 《计算机工程与科学》 * |
王润民等: ""自然场景图像中的文本检测综述"", 《自动化学报》 * |
马尽文等: ""文本检测算法的发展与挑战"", 《信号处理》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242120B (zh) * | 2020-01-03 | 2022-07-29 | 中国科学技术大学 | 文字检测方法及系统 |
CN111242120A (zh) * | 2020-01-03 | 2020-06-05 | 中国科学技术大学 | 文字检测方法及系统 |
CN111291720A (zh) * | 2020-03-10 | 2020-06-16 | 孔华 | 基于云计算网络的建筑物广告辨识系统 |
CN111291720B (zh) * | 2020-03-10 | 2020-12-08 | 嘉兴瑞知环保科技有限公司 | 基于云计算网络的建筑物广告辨识系统 |
CN111597956A (zh) * | 2020-05-12 | 2020-08-28 | 四川久远银海软件股份有限公司 | 基于深度学习模型和相对方位标定的图片文字识别方法 |
WO2021227058A1 (zh) * | 2020-05-15 | 2021-11-18 | 京东方科技集团股份有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN111859001B (zh) * | 2020-07-06 | 2022-05-31 | Oppo(重庆)智能科技有限公司 | 图像相似度检测方法、装置、存储介质与电子设备 |
CN111859001A (zh) * | 2020-07-06 | 2020-10-30 | Oppo(重庆)智能科技有限公司 | 图像相似度检测方法、装置、存储介质与电子设备 |
CN112348023A (zh) * | 2020-10-28 | 2021-02-09 | 南阳柯丽尔科技有限公司 | 背景与文字分离方法、装置、设备及存储介质 |
WO2022089236A1 (zh) * | 2020-11-02 | 2022-05-05 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像处理方法、装置、计算机设备和存储介质 |
CN112926420A (zh) * | 2021-02-09 | 2021-06-08 | 海信视像科技股份有限公司 | 一种显示设备和菜单文字识别方法 |
CN113076814A (zh) * | 2021-03-15 | 2021-07-06 | 腾讯科技(深圳)有限公司 | 文本区域的确定方法、装置、设备及可读存储介质 |
CN112801232A (zh) * | 2021-04-09 | 2021-05-14 | 苏州艾隆科技股份有限公司 | 一种应用于处方录入的扫描识别方法及系统 |
CN113610866A (zh) * | 2021-07-28 | 2021-11-05 | 上海墨说科教设备有限公司 | 练字图像的裁剪方法、装置、设备和存储介质 |
CN113610866B (zh) * | 2021-07-28 | 2024-04-23 | 上海墨说科教设备有限公司 | 练字图像的裁剪方法、装置、设备和存储介质 |
CN116055766A (zh) * | 2023-01-31 | 2023-05-02 | 北京达佳互联信息技术有限公司 | 弹幕防遮挡方法、装置、设备及存储介质 |
CN116563840A (zh) * | 2023-07-07 | 2023-08-08 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于弱监督跨模态对比学习的场景文本检测与识别方法 |
CN116563840B (zh) * | 2023-07-07 | 2023-09-05 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于弱监督跨模态对比学习的场景文本检测与识别方法 |
CN119007181A (zh) * | 2024-09-09 | 2024-11-22 | 国家电网有限公司信息通信分公司 | 一种用于音视频的ocr识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110059685B (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059685B (zh) | 文字区域检测方法、装置及存储介质 | |
CN109829456B (zh) | 图像识别方法、装置及终端 | |
CN112749613B (zh) | 视频数据处理方法、装置、计算机设备及存储介质 | |
CN110490179B (zh) | 车牌识别方法、装置及存储介质 | |
CN111091132A (zh) | 基于人工智能的图像识别方法、装置、计算机设备及介质 | |
CN110807361A (zh) | 人体识别方法、装置、计算机设备及存储介质 | |
CN111325699B (zh) | 图像修复方法和图像修复模型的训练方法 | |
CN111541907A (zh) | 物品显示方法、装置、设备及存储介质 | |
CN111857793B (zh) | 网络模型的训练方法、装置、设备及存储介质 | |
CN112581358B (zh) | 图像处理模型的训练方法、图像处理方法及装置 | |
CN110991457B (zh) | 二维码处理方法、装置、电子设备及存储介质 | |
CN110503159B (zh) | 文字识别方法、装置、设备及介质 | |
CN110290426B (zh) | 展示资源的方法、装置、设备及存储介质 | |
CN112135191A (zh) | 视频编辑方法、装置、终端及存储介质 | |
CN110647881A (zh) | 确定图像对应的卡片类型的方法、装置、设备及存储介质 | |
CN108305262A (zh) | 文件扫描方法、装置及设备 | |
CN111325220B (zh) | 图像生成方法、装置、设备及存储介质 | |
CN111586279B (zh) | 确定拍摄状态的方法、装置、设备及存储介质 | |
CN113343709B (zh) | 意图识别模型的训练方法、意图识别方法、装置及设备 | |
CN110675473A (zh) | 生成gif动态图的方法、装置、电子设备及介质 | |
CN112308103A (zh) | 生成训练样本的方法和装置 | |
CN112053360B (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
CN111444749B (zh) | 路面导向标志的识别方法、装置及存储介质 | |
CN112990424A (zh) | 神经网络模型训练的方法和装置 | |
CN111639639A (zh) | 检测文本区域的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |