CN111382734B - 电话号码的检测及识别方法、装置及存储介质 - Google Patents
电话号码的检测及识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111382734B CN111382734B CN201811640552.3A CN201811640552A CN111382734B CN 111382734 B CN111382734 B CN 111382734B CN 201811640552 A CN201811640552 A CN 201811640552A CN 111382734 B CN111382734 B CN 111382734B
- Authority
- CN
- China
- Prior art keywords
- candidate
- telephone number
- area
- region
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及电话号码的检测及识别方法、装置及存储介质。该电话号码的检测及识别方法包括:检测目标图像中的电话号码候选区域;对所述电话号码候选区域进行校正,得到待识别区域;确定所述待识别区域所属的类别;在所述待识别区域所属的类别为电话号码类别的情况下,对所述待识别区域进行识别,得到所述待识别区域对应的候选电话号码以及所述候选电话号码对应的概率;根据电话号码的标准结构信息,以及所述候选电话号码对应的概率,确定所述目标图像对应的电话号码识别结果。本公开能够避免对非电话号码的区域进行识别,能够避免漏掉电话号码的边缘数字或者外扩包含过多背景,从而能够提高电话号码识别的准确率及有效性。
Description
技术领域
本公开涉及图像识别技术领域,尤其涉及一种电话号码的检测及识别方法、装置及存储介质。
背景技术
电话号码大量地出现在人们生活的周围,比如信封、快递包裹和商店门匾等。自动检测并识别图像中的电话号码是图像识别技术的一个重要应用。
目前,深度学习算法在图像处理的各个方面得到了广泛应用。在众多应用场景中,深度学习算法的效果优于传统的图像算法。近几年,目标检测领域出现了Faster R-CNN(Faster Region-based Convolutional Neural Networks,更快速的基于区域的卷积神经网络)、YOLO(You Only Look Once,你只需要看一眼)和R-FCN(Region-based FullyConvolutional Networks,基于区域的全卷积网络)等性能较优的技术,也有众多基于它们的改进版本,其可以应用于电话号码区域的检测。相关技术中,在检测过程中,可以通过优化多尺寸和多宽高比的基准框,来提升Faster R-CNN或者YOLO的检测性能。然而,实际中检测得到的矩形框并不利于后期的识别任务,导致相关技术中电话号码的检测及识别的准确性较低。
发明内容
有鉴于此,本公开提出了一种电话号码的检测及识别方法、装置及存储介质。
根据本公开的一方面,提供了一种电话号码的检测及识别方法,包括:
检测目标图像中的电话号码候选区域;
对所述电话号码候选区域进行校正,得到待识别区域;
确定所述待识别区域所属的类别;
在所述待识别区域所属的类别为电话号码类别的情况下,对所述待识别区域进行识别,得到所述待识别区域对应的候选电话号码以及所述候选电话号码对应的概率;
根据电话号码的标准结构信息,以及所述候选电话号码对应的概率,确定所述目标图像对应的电话号码识别结果。
在一种可能的实现方式中,检测目标图像中的电话号码候选区域,包括:
通过候选区域网络检测所述目标图像中的候选区域;
通过基于区域的卷积神经网络的分类层确定所述候选区域所属的类别;
将所属的类别为电话号码类别的候选区域确定为所述电话号码候选区域。
在一种可能的实现方式中,对所述电话号码候选区域进行校正,得到待识别区域,包括:
按照指定比例扩大所述电话号码候选区域,得到外扩区域;
通过基于区域的卷积神经网络的回归层确定所述外扩区域中电话号码区域的最小外接四边形的四个端点;
根据所述外扩区域中电话号码区域的最小外接四边形的四个端点,确定待识别区域。
在一种可能的实现方式中,确定所述待识别区域所属的类别,包括:
采用二分类网络确定所述待识别区域所属的类别,其中,所述二分类网络根据正样本,以及需要过滤的负样本训练得到。
在一种可能的实现方式中,根据电话号码的标准结构信息,以及所述候选电话号码对应的概率,确定所述目标图像对应的电话号码识别结果,包括:
在第一候选电话号码的结构信息符合所述电话号码的标准结构信息,所述第一候选电话号码对应的概率在所有符合所述电话号码的标准结构信息的候选电话号码中最大,且所述第一候选电话号码对应的概率大于第一阈值的情况下,将所述第一候选电话号码作为所述目标图像对应的电话号码识别结果。
在一种可能的实现方式中,根据电话号码的标准结构信息,以及所述候选电话号码对应的概率,确定所述目标图像对应的电话号码识别结果,包括:
在第一候选电话号码的结构信息符合所述电话号码的标准结构信息,所述第一候选电话号码对应的概率在所有符合所述电话号码的标准结构信息的候选电话号码中最大,所述第一候选电话号码对应的概率大于第一阈值,且所述第一候选电话号码对应的概率与第二候选电话号码对应的概率的差值大于第二阈值的情况下,将所述第一候选电话号码作为所述目标图像对应的电话号码识别结果,其中,所述第二候选电话号码为所有符合所述电话号码的标准结构信息的候选电话号码中概率仅次于所述第一候选电话号码的候选电话号码。
根据本公开的另一方面,提供了一种电话号码的检测及识别装置,包括:
检测模块,用于检测目标图像中的电话号码候选区域;
校正模块,用于对所述电话号码候选区域进行校正,得到待识别区域;
第一确定模块,用于确定所述待识别区域所属的类别;
识别模块,用于在所述待识别区域所属的类别为电话号码类别的情况下,对所述待识别区域进行识别,得到所述待识别区域对应的候选电话号码以及所述候选电话号码对应的概率;
第二确定模块,用于根据电话号码的标准结构信息,以及所述候选电话号码对应的概率,确定所述目标图像对应的电话号码识别结果。
在一种可能的实现方式中,所述检测模块包括:
检测子模块,用于通过候选区域网络检测所述目标图像中的候选区域;
第一确定子模块,用于通过基于区域的卷积神经网络的分类层确定所述候选区域所属的类别;
第二确定子模块,用于将所属的类别为电话号码类别的候选区域确定为所述电话号码候选区域。
在一种可能的实现方式中,所述校正模块包括:
扩大子模块,用于按照指定比例扩大所述电话号码候选区域,得到外扩区域;
第三确定子模块,用于通过基于区域的卷积神经网络的回归层确定所述外扩区域中电话号码区域的最小外接四边形的四个端点;
第四确定子模块,用于根据所述外扩区域中电话号码区域的最小外接四边形的四个端点,确定待识别区域。
在一种可能的实现方式中,所述第一确定模块用于:
采用二分类网络确定所述待识别区域所属的类别,其中,所述二分类网络根据正样本,以及需要过滤的负样本训练得到。
在一种可能的实现方式中,所述第二确定模块用于:
在第一候选电话号码的结构信息符合所述电话号码的标准结构信息,所述第一候选电话号码对应的概率在所有符合所述电话号码的标准结构信息的候选电话号码中最大,且所述第一候选电话号码对应的概率大于第一阈值的情况下,将所述第一候选电话号码作为所述目标图像对应的电话号码识别结果。
在一种可能的实现方式中,所述第二确定模块用于:
在第一候选电话号码的结构信息符合所述电话号码的标准结构信息,所述第一候选电话号码对应的概率在所有符合所述电话号码的标准结构信息的候选电话号码中最大,所述第一候选电话号码对应的概率大于第一阈值,且所述第一候选电话号码对应的概率与第二候选电话号码对应的概率的差值大于第二阈值的情况下,将所述第一候选电话号码作为所述目标图像对应的电话号码识别结果,其中,所述第二候选电话号码为所有符合所述电话号码的标准结构信息的候选电话号码中概率仅次于所述第一候选电话号码的候选电话号码。
根据本公开的另一方面,提供了一种电话号码的检测及识别装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述方法。
根据本公开的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
本公开的各方面的电话号码的检测及识别方法、装置通过对电话号码候选区域进行校正得到待识别区域,确定待识别区域所属的类别,在待识别区域所属的类别为电话号码类别的情况下,进一步进行电话号码的识别,并根据电话号码的标准结构信息,确定电话号码识别结果,由此能够避免对非电话号码的区域进行识别,能够避免漏掉电话号码的边缘数字或者外扩包含过多背景,从而能够提高电话号码识别的准确率及有效性。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例的电话号码的检测及识别方法的流程图。
图2示出根据本公开一实施例的电话号码的检测及识别方法步骤S11的一示例性的流程图。
图3示出根据本公开一实施例的电话号码的检测及识别方法步骤S12的一示例性的流程图。
图4示出根据本公开一实施例的电话号码的检测及识别方法中对所述电话号码候选区域进行校正的示意图。
图5a示出根据本公开一实施例的电话号码的检测及识别方法中的目标图像的示意图。
图5b示出根据本公开一实施例的电话号码的检测及识别方法中的电话号码候选区域的示意图。
图5c示出根据本公开一实施例的电话号码的检测及识别方法中的外扩区域的示意图。
图5d示出根据本公开一实施例的电话号码的检测及识别方法中的待识别区域的示意图。
图6示出根据本公开一实施例的电话号码的检测及识别装置的框图。
图7是根据一示例性实施例示出的一种用于电话号码的检测及识别的装置800的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1示出根据本公开一实施例的电话号码的检测及识别方法的流程图。如图1所示,该方法包括步骤S11至步骤S15。
在步骤S11中,检测目标图像中的电话号码候选区域。
其中,目标图像可以为需要进行电话号码检测及识别的图像。
在一种可能的实现方式中,可以采用Faster R-CNN(Faster Region-basedConvolutional Neural Networks,更快速的基于区域的卷积神经网络)检测目标图像中的电话号码候选区域。
在其他可能的实现方式中,还可以采用YOLO(You Only Look Once,你只需要看一眼)、YOLO9000或者R-FCN(Region-based Fully Convolutional Networks,基于区域的全卷积网络)等检测目标图像中的电话号码候选区域。
在另一种可能的实现方式中,可以采用FCN(Fully Convolutional Networks,全卷积网络)、DeepLab或者DeepLab-Crf等分割方法对目标图像进行分割,得到包含电话号码的多边形区域,并将该包含电话号码的多边形区域作为电话号码候选区域。
在步骤S12中,对电话号码候选区域进行校正,得到待识别区域。
在一种可能的实现方式中,可以通过Faster R-CNN的回归层对电话号码候选区域进行校正,得到待识别区域。
在本实施例中,通过对电话号码候选区域进行校正,能够避免漏掉电话号码的边缘数字,或者外扩包含过多背景,从而能够提高电话号码识别的准确率。
在步骤S13中,确定待识别区域所属的类别。
在本实施例中,在得到待识别区域之后,再次确定待识别区域所属的类别,由此能够避免对非电话号码(例如英文、汉字或者符号等)的区域进行识别,从而能够降低误检测的可能性,能够提高电话号码识别的有效性。
在一种可能的实现方式中,确定待识别区域所属的类别,包括:采用二分类网络确定待识别区域所属的类别,其中,二分类网络根据正样本,以及需要过滤的负样本训练得到。其中,正样本指属于电话号码类别的样本,需要过滤的负样本指的是需要过滤掉的不属于电话号码类别的样本。在该实现方式中,根据正、负样本训练得到二分类网络,并采用二分类网络确定待识别区域所属的类别,能够降低误检测的可能性。
在步骤S14中,在待识别区域所属的类别为电话号码类别的情况下,对待识别区域进行识别,得到待识别区域对应的候选电话号码以及候选电话号码对应的概率。
在本实施例中,可以通过RNN(Recurrent Neural Networks,循环神经网络)、LRCN(Long-Term Recurrent Convolutional Networks,长序列循环卷积网络)和LSTM(Long-Short Term Memory,长短期记忆)神经网络等中的一种或多种对待识别区域进行识别,得到待识别区域对应的候选电话号码以及候选电话号码对应的概率。
在一种可能的实现方式中,可以通过LRCN中的CNN(Convolutional Networks,卷积神经网络)提取待识别区域的特征图,将该特征图划分为多个子图,并按照指定顺序将多个子图输入RNN中进行识别,得到各个子图对应的数字识别结果。根据各个子图对应的数字识别结果,可以得到待识别区域对应的候选电话号码。例如,将概率最大的M个电话号码作为候选电话号码,其中,M为正整数。
在另一种可能的实现方式中,可以采用OCR(Optical Character Recognition,光学字符识别)方法识别待识别区域中的电话号码。
在步骤S15中,根据电话号码的标准结构信息,以及候选电话号码对应的概率,确定目标图像对应的电话号码识别结果。
其中,电话号码的标准结构信息可以包括电话号码的位数、区号、移动接入码、识别码和移动用户号等信息中的一种或多种。若电话号码为手机号码,则电话号码需要符合MDN(Mobile Directory Number,移动用户号码簿号码)的标准结构信息。MDN的标准结构信息包括3位移动接入码、4位识别码和4位移动用户号,其中,移动接入码的第一位为1。
在一种可能的实现方式中,根据电话号码的标准结构信息,以及候选电话号码对应的概率,确定目标图像对应的电话号码识别结果,可以包括:在第一候选电话号码的结构信息符合电话号码的标准结构信息,第一候选电话号码对应的概率在所有符合电话号码的标准结构信息的候选电话号码中最大,且第一候选电话号码对应的概率大于第一阈值的情况下,将第一候选电话号码作为目标图像对应的电话号码识别结果。
在另一种可能的实现方式中,根据电话号码的标准结构信息,以及候选电话号码对应的概率,确定目标图像对应的电话号码识别结果,可以包括:在第一候选电话号码的结构信息符合电话号码的标准结构信息,第一候选电话号码对应的概率在所有符合电话号码的标准结构信息的候选电话号码中最大,第一候选电话号码对应的概率大于第一阈值,且第一候选电话号码对应的概率与第二候选电话号码对应的概率的差值大于第二阈值的情况下,将第一候选电话号码作为目标图像对应的电话号码识别结果,其中,第二候选电话号码为所有符合电话号码的标准结构信息的候选电话号码中概率仅次于第一候选电话号码的候选电话号码。
在另一种可能的实现方式中,根据电话号码的标准结构信息,以及候选电话号码对应的概率,确定目标图像对应的电话号码识别结果,可以包括:在多个候选电话号码的结构信息均符合电话号码的标准结构信息,该多个候选电话号码对应的概率均大于第一阈值,且该多个候选电话号码对应的概率差异较小的情况下,可以将该多个候选电话号码作为目标图像对应的电话号码识别结果,供用户根据该多个候选电话号码进行人工验证。
本实施例通过对电话号码候选区域进行校正得到待识别区域,确定待识别区域所属的类别,在待识别区域所属的类别为电话号码类别的情况下,进一步进行电话号码的识别,并根据电话号码的标准结构信息,确定电话号码识别结果,由此能够避免对非电话号码的区域进行识别,能够避免漏掉电话号码的边缘数字或者外扩包含过多背景,从而能够提高电话号码识别的准确率及有效性。
另外,本实施例将检测和识别统一在一套框架内,通过优化检测结果,可以提高识别的准确率;根据识别结果中的负样本训练二分类网络,有助于提高检测的准确率。
图2示出根据本公开一实施例的电话号码的检测及识别方法步骤S11的一示例性的流程图。如图2所示,步骤S11可以包括步骤S111至步骤S113。
在步骤S111中,通过候选区域网络检测目标图像中的候选区域。
在一种可能的实现方式中,可以通过Faster R-CNN的候选区域网络(RegionProposal Network,RPN)检测目标图像中的候选区域。
作为该实现方式的一个示例,候选区域网络可以根据实际应用场景调准基准框的尺寸和宽高比。例如,基准框可以包括5个尺寸,分别为16像素、32像素、64像素、128像素和256像素;基准框可以包括3个宽高比,分别为5:1、2:1和1:1。
在一种可能的实现方式中,可以采用VGGNet提取待识别区域的特征。由于VGGNet等深层网络提取的特征更为丰富,因此检测得到的候选区域较为准确。
在步骤S112中,通过基于区域的卷积神经网络的分类层确定候选区域所属的类别。
在一种可能的实现方式中,该基于区域的卷积神经网络(Region-basedConvolutional Neural Networks,R-CNN)可以为Faster R-CNN。
在一种可能的实现方式中,在候选区域网络提供大量的候选区域后,可以通过Faster R-CNN的分类层确定各个候选区域所属的类别是否为电话号码候选区域。
在步骤S113中,将所属的类别为电话号码类别的候选区域确定为电话号码候选区域。
图3示出根据本公开一实施例的电话号码的检测及识别方法步骤S12的一示例性的流程图。如图3所示,步骤S12可以包括步骤S121至步骤S123。
在步骤S121中,按照指定比例扩大电话号码候选区域,得到外扩区域。
图4示出根据本公开一实施例的电话号码的检测及识别方法中对电话号码候选区域进行校正的示意图。如图4所示,可以将电话号码候选区域41的高度扩大至原高度的2倍,将电话号码候选区域41的宽度扩大至原宽度的1.2倍,得到外扩区域42。通过按照指定比例扩大电话号码候选区域,得到外扩区域,可以避免漏掉电话号码的边缘数字。
在步骤S122中,通过基于区域的卷积神经网络的回归层确定外扩区域中电话号码区域的最小外接四边形的四个端点。
如图4所示,回归层可以提取外扩区域的特征,从而确定电话号码区域43的最小外接四边形的四个端点A、B、C和D。其中,端点的坐标可以等于端点与原点的距离与象限长度的比值。例如,端点A的坐标可以为(w/W,h/H),其中,w表示端点A与原点的水平距离,W表示象限的水平长度,h表示端点A与原点的竖直距离,H表示象限的竖直高度。
在步骤S123中,根据外扩区域中电话号码区域的最小外接四边形的四个端点,确定待识别区域。
在本实施例中,可以将待识别区域确定为矩形,将外扩区域中电话号码区域的最小外接四边形的四个端点分别作为待识别区域的四个端点,从而确定待识别区域。
本实施例提出的电话号码的检测及识别方法能够高效地检测并识别自然场景中的电话号码。本实施例通过检测目标图像中是否包含电话号码,可以过滤不包含电话号码的图像,保留包含电话号码的图像。通过确定目标图像对应的电话号码识别结果,可以提取目标图像中的电话号码为后期的数据应用提供支持。本实施例结合检测和识别两个过程,在保证高召回的前提下,能够满足工业可用精度的要求。
应用示例:
以街景照片中的商铺电话号码识别为例,图5a示出根据本公开一实施例的电话号码的检测及识别方法中的目标图像的示意图。图5b示出根据本公开一实施例的电话号码的检测及识别方法中的电话号码候选区域的示意图。图5c示出根据本公开一实施例的电话号码的检测及识别方法中的外扩区域的示意图。图5d示出根据本公开一实施例的电话号码的检测及识别方法中的待识别区域的示意图。如图5a-5d所示,可以采用Faster R-CNN得到目标图像中的电话号码候选区域51。按照指定比例扩大电话号码候选区域51,可以得到外扩区域52。采用回归层确定外扩区域52中电话号码区域的最小外接四边形的四个端点,可以确定待识别区域53。由图5d可知,所确定的待识别区域53能够降低背景干扰,且能够避免漏掉电话号码的边缘数字,有利于提高电话号码识别的准确率。在确定该待识别区域53所属的类别为电话号码类别后,对该待识别区域53进行识别,得到最大概率的3个候选电话号码为“75027279508”“15027279508”和“16027279508”。根据电话号码的标准结构信息,移动接入码的第一位为1,因此过滤掉“75027279508”,选择剩下的两个候选电话号码中具有较高概率的“15027279508”作为目标图像对应的电话号码识别结果。
图6示出根据本公开一实施例的电话号码的检测及识别装置的框图。如图6所示,该装置包括:检测模块61,用于检测目标图像中的电话号码候选区域;校正模块62,用于对电话号码候选区域进行校正,得到待识别区域;第一确定模块63,用于确定待识别区域所属的类别;识别模块64,用于在待识别区域所属的类别为电话号码类别的情况下,对待识别区域进行识别,得到待识别区域对应的候选电话号码以及候选电话号码对应的概率;第二确定模块65,用于根据电话号码的标准结构信息,以及候选电话号码对应的概率,确定目标图像对应的电话号码识别结果。
在一种可能的实现方式中,检测模块61包括:检测子模块,用于通过候选区域网络检测目标图像中的候选区域;第一确定子模块,用于通过基于区域的卷积神经网络的分类层确定候选区域所属的类别;第二确定子模块,用于将所属的类别为电话号码类别的候选区域确定为电话号码候选区域。
在一种可能的实现方式中,校正模块62包括:扩大子模块,用于按照指定比例扩大电话号码候选区域,得到外扩区域;第三确定子模块,用于通过基于区域的卷积神经网络的回归层确定外扩区域中电话号码区域的最小外接四边形的四个端点;第四确定子模块,用于根据外扩区域中电话号码区域的最小外接四边形的四个端点,确定待识别区域。
在一种可能的实现方式中,第一确定模块63用于:采用二分类网络确定待识别区域所属的类别,其中,二分类网络根据正样本,以及需要过滤的负样本训练得到。
在一种可能的实现方式中,第二确定模块65用于:在第一候选电话号码的结构信息符合电话号码的标准结构信息,第一候选电话号码对应的概率在所有符合电话号码的标准结构信息的候选电话号码中最大,且第一候选电话号码对应的概率大于第一阈值的情况下,将第一候选电话号码作为目标图像对应的电话号码识别结果。
在一种可能的实现方式中,第二确定模块65用于:在第一候选电话号码的结构信息符合电话号码的标准结构信息,第一候选电话号码对应的概率在所有符合电话号码的标准结构信息的候选电话号码中最大,第一候选电话号码对应的概率大于第一阈值,且第一候选电话号码对应的概率与第二候选电话号码对应的概率的差值大于第二阈值的情况下,将第一候选电话号码作为目标图像对应的电话号码识别结果,其中,第二候选电话号码为所有符合电话号码的标准结构信息的候选电话号码中概率仅次于第一候选电话号码的候选电话号码。
本实施例通过对电话号码候选区域进行校正得到待识别区域,确定待识别区域所属的类别,在待识别区域所属的类别为电话号码类别的情况下,进一步进行电话号码的识别,并根据电话号码的标准结构信息,确定电话号码识别结果,由此能够避免对非电话号码的区域进行识别,能够避免漏掉电话号码的边缘数字或者外扩包含过多背景,从而能够提高电话号码识别的准确率及有效性。
图7是根据一示例性实施例示出的一种用于电话号码的检测及识别的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器804,上述计算机程序指令可由装置800的处理器820执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (8)
1.一种电话号码的检测及识别方法,其特征在于,包括:
检测目标图像中的电话号码候选区域;
对所述电话号码候选区域进行校正,得到待识别区域;
确定所述待识别区域所属的类别;
在所述待识别区域所属的类别为电话号码类别的情况下,对所述待识别区域进行识别,得到所述待识别区域对应的候选电话号码以及所述候选电话号码对应的概率;
根据电话号码的标准结构信息,以及所述候选电话号码对应的概率,确定所述目标图像对应的电话号码识别结果;
所述对所述电话号码候选区域进行校正,得到待识别区域,包括:
按照指定比例扩大所述电话号码候选区域,得到外扩区域;
通过基于区域的卷积神经网络的回归层确定所述外扩区域中电话号码区域的最小外接四边形的四个端点;
根据所述外扩区域中电话号码区域的最小外接四边形的四个端点,确定待识别区域。
2.根据权利要求1所述的方法,其特征在于,检测目标图像中的电话号码候选区域,包括:
通过候选区域网络检测所述目标图像中的候选区域;
通过基于区域的卷积神经网络的分类层确定所述候选区域所属的类别;
将所属的类别为电话号码类别的候选区域确定为所述电话号码候选区域。
3.根据权利要求1所述的方法,其特征在于,根据电话号码的标准结构信息,以及所述候选电话号码对应的概率,确定所述目标图像对应的电话号码识别结果,包括:
在第一候选电话号码的结构信息符合所述电话号码的标准结构信息,所述第一候选电话号码对应的概率在所有符合所述电话号码的标准结构信息的候选电话号码中最大,且所述第一候选电话号码对应的概率大于第一阈值的情况下,将所述第一候选电话号码作为所述目标图像对应的电话号码识别结果。
4.根据权利要求1所述的方法,其特征在于,根据电话号码的标准结构信息,以及所述候选电话号码对应的概率,确定所述目标图像对应的电话号码识别结果,包括:
在第一候选电话号码的结构信息符合所述电话号码的标准结构信息,所述第一候选电话号码对应的概率在所有符合所述电话号码的标准结构信息的候选电话号码中最大,所述第一候选电话号码对应的概率大于第一阈值,且所述第一候选电话号码对应的概率与第二候选电话号码对应的概率的差值大于第二阈值的情况下,将所述第一候选电话号码作为所述目标图像对应的电话号码识别结果,其中,所述第二候选电话号码为所有符合所述电话号码的标准结构信息的候选电话号码中概率仅次于所述第一候选电话号码的候选电话号码。
5.一种电话号码的检测及识别装置,其特征在于,包括:
检测模块,用于检测目标图像中的电话号码候选区域;
校正模块,用于对所述电话号码候选区域进行校正,得到待识别区域;
第一确定模块,用于确定所述待识别区域所属的类别;
识别模块,用于在所述待识别区域所属的类别为电话号码类别的情况下,对所述待识别区域进行识别,得到所述待识别区域对应的候选电话号码以及所述候选电话号码对应的概率;
第二确定模块,用于根据电话号码的标准结构信息,以及所述候选电话号码对应的概率,确定所述目标图像对应的电话号码识别结果;
其中,所述校正模块包括:
扩大子模块,用于按照指定比例扩大所述电话号码候选区域,得到外扩区域;
第三确定子模块,用于通过基于区域的卷积神经网络的回归层确定所述外扩区域中电话号码区域的最小外接四边形的四个端点;
第四确定子模块,用于根据所述外扩区域中电话号码区域的最小外接四边形的四个端点,确定待识别区域。
6.根据权利要求5所述的装置,其特征在于,所述检测模块包括:
检测子模块,用于通过候选区域网络检测所述目标图像中的候选区域;
第一确定子模块,用于通过基于区域的卷积神经网络的分类层确定所述候选区域所属的类别;
第二确定子模块,用于将所属的类别为电话号码类别的候选区域确定为所述电话号码候选区域。
7.一种电话号码的检测及识别装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1至4中任意一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至4任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811640552.3A CN111382734B (zh) | 2018-12-29 | 2018-12-29 | 电话号码的检测及识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811640552.3A CN111382734B (zh) | 2018-12-29 | 2018-12-29 | 电话号码的检测及识别方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111382734A CN111382734A (zh) | 2020-07-07 |
CN111382734B true CN111382734B (zh) | 2022-08-23 |
Family
ID=71216625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811640552.3A Active CN111382734B (zh) | 2018-12-29 | 2018-12-29 | 电话号码的检测及识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382734B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780043A (zh) * | 2020-11-27 | 2021-12-10 | 北京京东尚科信息技术有限公司 | 目标检测方法、系统、计算机系统和计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102761668A (zh) * | 2012-07-13 | 2012-10-31 | 青岛海信传媒网络技术有限公司 | 基于图片中的电话号码信息拨打电话的方法及装置 |
CN107862251A (zh) * | 2017-10-20 | 2018-03-30 | 惠州Tcl移动通信有限公司 | 一种电话号码录入处理的方法、移动终端及存储介质 |
CN108229267A (zh) * | 2016-12-29 | 2018-06-29 | 北京市商汤科技开发有限公司 | 对象属性检测、神经网络训练、区域检测方法和装置 |
CN109034266A (zh) * | 2018-08-16 | 2018-12-18 | 新智数字科技有限公司 | 一种目标图像检测方法、装置及系统 |
-
2018
- 2018-12-29 CN CN201811640552.3A patent/CN111382734B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102761668A (zh) * | 2012-07-13 | 2012-10-31 | 青岛海信传媒网络技术有限公司 | 基于图片中的电话号码信息拨打电话的方法及装置 |
CN108229267A (zh) * | 2016-12-29 | 2018-06-29 | 北京市商汤科技开发有限公司 | 对象属性检测、神经网络训练、区域检测方法和装置 |
CN107862251A (zh) * | 2017-10-20 | 2018-03-30 | 惠州Tcl移动通信有限公司 | 一种电话号码录入处理的方法、移动终端及存储介质 |
CN109034266A (zh) * | 2018-08-16 | 2018-12-18 | 新智数字科技有限公司 | 一种目标图像检测方法、装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111382734A (zh) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339846B (zh) | 图像识别方法及装置、电子设备和存储介质 | |
US20210042474A1 (en) | Method for text recognition, electronic device and storage medium | |
CN110287874B (zh) | 目标追踪方法及装置、电子设备和存储介质 | |
CN112001321B (zh) | 网络训练、行人重识别方法及装置、电子设备和存储介质 | |
US10157326B2 (en) | Method and device for character area identification | |
CN113538407B (zh) | 锚点确定方法及装置、电子设备和存储介质 | |
US10216976B2 (en) | Method, device and medium for fingerprint identification | |
CN109934275B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN109615006B (zh) | 文字识别方法及装置、电子设备和存储介质 | |
CN110990801B (zh) | 信息校验方法及装置、电子设备和存储介质 | |
CN110781813B (zh) | 图像识别方法及装置、电子设备和存储介质 | |
CN108062547B (zh) | 文字检测方法及装置 | |
CN112465843A (zh) | 图像分割方法及装置、电子设备和存储介质 | |
CN110532956B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN111126108B (zh) | 图像检测模型的训练和图像检测方法及装置 | |
US20210326649A1 (en) | Configuration method and apparatus for detector, storage medium | |
CN110569835A (zh) | 一种图像识别方法、装置和电子设备 | |
CN111523599B (zh) | 目标检测方法及装置、电子设备和存储介质 | |
CN112085097A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN113538310A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN111382734B (zh) | 电话号码的检测及识别方法、装置及存储介质 | |
CN110929545A (zh) | 人脸图像的整理方法及装置 | |
CN113283343A (zh) | 人群定位方法及装置、电子设备和存储介质 | |
CN110826463B (zh) | 人脸识别方法及装置、电子设备和存储介质 | |
CN113506324B (zh) | 图像处理方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |