CN111582085B

CN111582085B - 单据拍摄图像识别方法及装置

Info

Publication number: CN111582085B
Application number: CN202010337450.5A
Authority: CN
Inventors: 张瀚文
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2023-10-10
Anticipated expiration: 2040-04-26
Also published as: CN111582085A

Abstract

本申请实施例提供一种单据拍摄图像识别方法及装置，方法包括：应用预获取的目标单据拍摄图像中的各个文本区域框以及预设的图像坐标系，确定各个所述文本区域框各自对应的顶点坐标；基于各个所述文本区域框各自对应的顶点坐标获取所述目标单据拍摄图像中的单据所在区域的位置信息，并根据该单据区域的位置信息自所述目标单据拍摄图像中提取对应的目标单据图像；根据预定义的版式信息将所述目标单据图像切割为多个子区域，并对各个所述子区域分别进行文字识别。本申请能够有效简化单据拍摄图像识别的过程，并能够提高单据所在区域的位置信息的获取效率及准确性，进而能够有效提高对单据拍摄图像中的单据文字识别的准确性及识别效率。

Description

单据拍摄图像识别方法及装置

技术领域

本申请涉及文本识别技术领域，具体涉及单据拍摄图像识别方法及装置。

背景技术

在从使用手机摄像头等移动设备拍摄的图像中识别表格单据等类型的信息时，首先需要将目标单据从图像中提取出来，进而对其进行板式划分，接着再识别、提取目标字段。

传统的计算机视觉算法通过使用边缘轮廓检测算法等方式手动设计特征，在对单据拍摄图像进行单据图像提取时，对于图像扭曲、线条干扰光线强度、角度变化等问题时可靠性较差，对于较复杂场景泛化能力不佳。有一些使用深度学习模型直接检测提取目标单据的新方法，对于同样的单据、表格在不同的场景下往往具有较好的准确、泛化性，但是这类方法高度依赖训练数据样本，对于图像特征与训练集中的单据、表格区域较大的、新的单据及表格等，往往效果不佳，需要收集、准备数据重新调整模型，部署上线的成本较大。

发明内容

针对现有技术中的问题，本申请提供一种单据拍摄图像识别方法及装置，能够有效简化单据拍摄图像识别的过程，并能够提高单据所在区域的位置信息的获取效率及准确性，进而能够有效提高对单据拍摄图像中的单据文字识别的准确性及识别效率。

为解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种单据拍摄图像识别方法，包括：

应用预获取的目标单据拍摄图像中的各个文本区域框以及预设的图像坐标系，确定各个所述文本区域框各自对应的顶点坐标；

基于各个所述文本区域框各自对应的顶点坐标获取所述目标单据拍摄图像中的单据所在区域的位置信息，并根据该单据区域的位置信息自所述目标单据拍摄图像中提取对应的目标单据图像；

根据预定义的版式信息将所述目标单据图像切割为多个子区域，并对各个所述子区域分别进行文字识别。

进一步地，在所述应用预获取的目标单据拍摄图像中的各个文本区域框以及预设的图像坐标系，确定各个所述文本区域框各自对应的顶点坐标之前，还包括：

接收目标单据拍摄图像；

应用预设的文本区域框检测模型识别得到所述目标单据拍摄图像中的各个文本区域框。

进一步地，所述文本区域框检测模型为应用预设的advanced EAST算法获取的文本检测模型；

所述文本检测模型包括依次连接的输入模块、特征提取模块、特征融合模块和输出模块；

所述输入模块用于输入单据拍摄图像；

所述特征提取模块包括多个卷积层；

所述特征融合模块包括多个特征融合层和一全连接层；

所述输出模块仅包含有一用于输出单据拍摄图像中各个像素的激活分值的激活得分层。

进一步地，所述应用预设的文本区域框检测模型识别得到所述目标单据拍摄图像中的各个文本区域框，包括：

将所述目标单据拍摄图像输入所述文本区域框检测模型，并获取该文本区域框检测模型输出的所述目标单据拍摄图像中的各个所述像素的激活分值；

将所述激活分值大于预设激活阈值的像素选定为激活像素；

应用各个所述激活像素生成对应的激活像素分布图；

基于预设的图像轮廓检测算法获取所述激活像素分布图对应的各个文本区域框。

进一步地，所述图像坐标系的原点为内部文字处于正序排列状态下的目标单据拍摄图像的左上角顶点；

所述图像坐标系的横坐标正方向为自所述左上角顶点沿所述目标单据拍摄图像的横向边缘延伸的水平方向；

所述图像坐标系的纵坐标正方向为自所述左上角顶点沿所述目标单据拍摄图像的纵向边缘延伸的垂直方向；

相对应的，所述应用预获取的目标单据拍摄图像中的各个文本区域框以及预设的图像坐标系，确定各个所述文本区域框各自对应的顶点坐标，包括：

将所述目标单据拍摄图像中的各个文本区域框与所述图像坐标系中的横坐标和纵坐标相对应，得到每个所述文本区域框的各个角的顶点坐标。

进一步地，所述基于各个所述文本区域框各自对应的顶点坐标获取所述目标单据拍摄图像中的单据所在区域的位置信息，包括：

在各个所述文本区域框的各个角的顶点坐标中筛选一横坐标及纵坐标均为最小值的第一坐标，并筛选一横坐标及纵坐标均为最大值的第二坐标；

将所述第一坐标对应的顶点作为目标左上角顶点，并将所述第二坐标对应的顶点作为目标右下角顶点；

基于所述目标左上角顶点和目标右下角顶点生成对应的矩形框，并将该矩形框的位置信息确认为所述目标单据拍摄图像中的单据所在区域的位置信息。

进一步地，所述根据预定义的版式信息将所述目标单据图像切割为多个子区域，包括：

在各个所述文本区域框的各个角的顶点坐标中筛选一横坐标及纵坐标均为最小值的目标文本区域框；

根据与所述目标文本区域框横向相邻的第一文本区域框的顶点坐标，确定该第一文本区域框与所述目标文本区域框之间的横向相邻距离值；

以及，根据与所述目标文本区域框纵向相邻的第二文本区域框的顶点坐标，确定该第二文本区域框与所述目标文本区域框之间的纵向相邻距离值；

基于所述横向相邻距离值和所述纵向相邻距离值在预设的单据模板表中确定对应的版式信息，其中，所述单据模板表用于存储横向相邻距离阈值范围、纵向相邻距离阈值范围与版式信息之间的对应关系，且所述版式信息用于存储单据的子区域切割方式；

基于所述版式信息中的所述子区域切割方式将所述目标单据图像切割为多个子区域。

进一步地，在所述根据预定义的版式信息将所述目标单据图像切割为多个子区域之后，还包括：

将已切割为多个子区域的目标单据图像进行存储；

若接收到目标单据图像提取请求，则对应输出已切割为多个子区域的目标单据图像。

进一步地，所述接收目标单据拍摄图像，包括：

接收具有拍摄功能的客户端设备采集的目标单据拍摄图像；

相对应的，所述对各个所述子区域分别进行文字识别，包括：

应用预设的OCR方式将已切割为多个子区域的目标单据图像进行文字识别；

将所述目标单据图像对应的文字识别结果发送至所述客户端设备进行显示。

第二方面，本申请提供一种单据拍摄图像识别装置，包括：

坐标获取模块，用于应用预获取的目标单据拍摄图像中的各个文本区域框以及预设的图像坐标系，确定各个所述文本区域框各自对应的顶点坐标；

单据提取模块，用于基于各个所述文本区域框各自对应的顶点坐标获取所述目标单据拍摄图像中的单据所在区域的位置信息，并根据该单据区域的位置信息自所述目标单据拍摄图像中提取对应的目标单据图像；

单据切割模块，用于根据预定义的版式信息将所述目标单据图像切割为多个子区域，并对各个所述子区域分别进行文字识别。

进一步地，还包括：

图像接收模块，用于接收目标单据拍摄图像；

文本区域框识别模块，用于应用预设的文本区域框检测模型识别得到所述目标单据拍摄图像中的各个文本区域框。

所述输入模块用于输入单据拍摄图像；

所述特征提取模块包括多个卷积层；

所述特征融合模块包括多个特征融合层和一全连接层；

进一步地，所述文本区域框识别模块包括：

激活分值获取单元，用于将所述目标单据拍摄图像输入所述文本区域框检测模型，并获取该文本区域框检测模型输出的所述目标单据拍摄图像中的各个所述像素的激活分值；

激活像素确定单元，用于将所述激活分值大于预设激活阈值的像素选定为激活像素；

激活像素分布图生成单元，用于应用各个所述激活像素生成对应的激活像素分布图；

文本区域框获取单元，用于基于预设的图像轮廓检测算法获取所述激活像素分布图对应的各个文本区域框。

相对应的，所述坐标获取模块包括：

顶点坐标生成单元，用于将所述目标单据拍摄图像中的各个文本区域框与所述图像坐标系中的横坐标和纵坐标相对应，得到每个所述文本区域框的各个角的顶点坐标。

进一步地，所述单据提取模块包括：

坐标筛选单元，用于在各个所述文本区域框的各个角的顶点坐标中筛选一横坐标及纵坐标均为最小值的第一坐标，并筛选一横坐标及纵坐标均为最大值的第二坐标；

目标顶点选取单元，用于将所述第一坐标对应的顶点作为目标左上角顶点，并将所述第二坐标对应的顶点作为目标右下角顶点；

单据所在区域确定单元，用于基于所述目标左上角顶点和目标右下角顶点生成对应的矩形框，并将该矩形框的位置信息确认为所述目标单据拍摄图像中的单据所在区域的位置信息。

进一步地，所述单据切割模块包括：

目标文本区域框选取单元，用于在各个所述文本区域框的各个角的顶点坐标中筛选一横坐标及纵坐标均为最小值的目标文本区域框；

横向相邻距离确定单元，用于根据与所述目标文本区域框横向相邻的第一文本区域框的顶点坐标，确定该第一文本区域框与所述目标文本区域框之间的横向相邻距离值；

纵向相邻距离确定单元，用于根据与所述目标文本区域框纵向相邻的第二文本区域框的顶点坐标，确定该第二文本区域框与所述目标文本区域框之间的纵向相邻距离值；

版式信息确定单元，用于基于所述横向相邻距离值和所述纵向相邻距离值在预设的单据模板表中确定对应的版式信息，其中，所述单据模板表用于存储横向相邻距离阈值范围、纵向相邻距离阈值范围与版式信息之间的对应关系，且所述版式信息用于存储单据的子区域切割方式；

子区域切割单元，用于基于所述版式信息中的所述子区域切割方式将所述目标单据图像切割为多个子区域。

进一步地，还包括：

子区域存储单元，用于将已切割为多个子区域的目标单据图像进行存储；

单据图像输出单元，用于若接收到目标单据图像提取请求，则对应输出已切割为多个子区域的目标单据图像。

进一步地，所述图像接收模块包括：

图像接收单元，用于接收具有拍摄功能的客户端设备采集的目标单据拍摄图像；

相对应的，所述单据切割模块包括：

OCR识别单元，用于应用预设的OCR方式将已切割为多个子区域的目标单据图像进行文字识别；

识别结果发送单元，用于将所述目标单据图像对应的文字识别结果发送至所述客户端设备进行显示。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的单据拍摄图像识别方法的步骤。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的单据拍摄图像识别方法的步骤。

由上述技术方案可知，本申请提供的一种单据拍摄图像识别方法及装置，方法包括：应用预获取的目标单据拍摄图像中的各个文本区域框以及预设的图像坐标系，确定各个所述文本区域框各自对应的顶点坐标；基于各个所述文本区域框各自对应的顶点坐标获取所述目标单据拍摄图像中的单据所在区域的位置信息，并根据该单据区域的位置信息自所述目标单据拍摄图像中提取对应的目标单据图像；根据预定义的版式信息将所述目标单据图像切割为多个子区域，并对各个所述子区域分别进行文字识别，克服了现有技术中应用传统计算机视觉算法进行单据拍摄图像中文字识别的准确性不高、易受干扰的缺点，同时在部分场景下，在保证高准确度、可接受的响应时间的前提下，克服了一些深度学习方法在面对新类型的单据时，开发上线、部署所需时间成本较高的问题，通过图像坐标系的应用，能够有效提高单据所在区域的位置信息获取的效率及便捷性，还能够有效简化单据拍摄图像识别的过程，并能够保证单据所在区域的位置信息的准确性，并通过版式信息的应用，能够快速且准确地将目标单据图像切割为多个子区域，进而能够有效提高对单据拍摄图像中的单据文字识别的准确性及识别效率，进而能够有效提高企业或个人用户进行线上票据内容存储及处理的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中的单据拍摄图像识别方法的流程示意图。

图2是本申请实施例中的目标单据拍摄图像中的文本区域框示意图。

图3是本申请实施例中的包含有步骤010和步骤020的单据拍摄图像识别方法的流程示意图。

图4是本申请实施例中的文本区域框检测模型的结构示意图。

图5是本申请实施例中的单据拍摄图像识别方法中步骤020的具体流程示意图。

图6是本申请实施例中的目标单据拍摄图像中的图像坐标系的示意图。

图7是本申请实施例中的包含有步骤110的单据拍摄图像识别方法的流程示意图。

图8是本申请实施例中的单据拍摄图像识别方法中步骤200的具体流程示意图。

图9是本申请实施例中的单据拍摄图像识别方法中步骤300的第一种具体流程示意图。

图10是本申请实施例中的单据拍摄图像识别方法中步骤300的第二种具体流程示意图。

图11是本申请实施例中的包含有步骤011的单据拍摄图像识别方法的流程示意图。

图12是本申请实施例中的单据拍摄图像识别方法中步骤300的第三种具体流程示意图。

图13是本申请应用实例提供的单据拍摄图像识别过程的流程示意图。

图14是本申请应用实例提供的文本检测模块的具体检测流程示意图。

图15是本申请实施例中的单据拍摄图像识别装置的第一种结构示意图。

图16是本申请实施例中的单据拍摄图像识别装置的第二种结构示意图。

图17是本申请实施例中的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决现有的单据拍摄图像识别过程存在的无法同时兼顾识别效率及识别准确性的问题，本申请实施例提供一种单据拍摄图像识别方法、单据拍摄图像识别装置、电子设备和计算机可读存储介质，通过应用预获取的目标单据拍摄图像中的各个文本区域框以及预设的图像坐标系，确定各个所述文本区域框各自对应的顶点坐标；基于各个所述文本区域框各自对应的顶点坐标获取所述目标单据拍摄图像中的单据所在区域的位置信息，并根据该单据区域的位置信息自所述目标单据拍摄图像中提取对应的目标单据图像；根据预定义的版式信息将所述目标单据图像切割为多个子区域，并对各个所述子区域分别进行文字识别，克服了现有技术中应用传统计算机视觉算法进行单据拍摄图像中文字识别的准确性不高、易受干扰的缺点，同时在部分场景下，在保证高准确度、可接受的响应时间的前提下，克服了一些深度学习方法在面对新类型的单据时，开发上线、部署所需时间成本较高的问题，通过图像坐标系的应用，能够有效提高单据所在区域的位置信息获取的效率及便捷性，还能够有效简化单据拍摄图像识别的过程，并能够保证单据所在区域的位置信息的准确性，并通过版式信息的应用，能够快速且准确地将目标单据图像切割为多个子区域，进而能够有效提高对单据拍摄图像中的单据文字识别的准确性及识别效率。

具体通过下述多个实施例分别进行说明。

在本申请的一个或多个实施例中，光学字符识别OCR(OpticalCharacterRecognition)是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。亦即将图像中的文字进行识别，并以文本的形式返回。在使用OCR技术从使用手机摄像头等移动设备拍摄的图像中识别表格单据等类型的信息时，首先需要将目标单据从图像中提取出来，进而对其进行板式划分，接着再识别、提取目标字段。

在本申请的一个或多个实施例中，场景文本识别STR(Scene TextRecognition)相对于OCR，STR特指识别自然场景图片中的文字信息，可以被分割成两个独立的子问题：检测和识别。前者的目标是从图片中尽可能准确的找出文字所在区域，后者的目标则是在前者的基础上，将区域中的单个字符识别出来。

在本申请的一个或多个实施例中，所述单据是指用作任意凭证的且包含有证明文字内容的单据，可以包含有借条、收条、收条、欠条、收据、发票及工资单等等。

在本申请的一个或多个实施例中，所述单据拍摄图像是指由拍摄设备采集的包含有背景区域和单据所在区域的单据照片，相对应的，所述目标单据拍摄图像是指当前待处理或处理中的单据拍摄图像。

在本申请的一个或多个实施例中，所述单据图像是指自单据拍摄图像中去除背景区域后剩下的单据所在区域的图像，相对应的，所述目标单据图像是指当前待处理或处理中的单据图像。

为了有效简化单据拍摄图像识别的过程，并能够提高单据所在区域的位置信息的获取效率及准确性，进而能够有效提高对单据拍摄图像中的单据文字识别的准确性及识别效率，本申请实施例提供一种单据拍摄图像识别方法，参见图1，所述单据拍摄图像识别方法具体包含有如下内容：

步骤100：应用预获取的目标单据拍摄图像中的各个文本区域框以及预设的图像坐标系，确定各个所述文本区域框各自对应的顶点坐标。

可以理解的是，所述文本区域框是指用于将相邻且衔接在一起的一组文字框起的矩形框，所述文本区域框参见图2。由于所述文本区域框为矩形，因此一个所述文本区域框的四个角分别各自对应顶点坐标，也就是说，一个文本区域框对应四个顶点坐标。

步骤200：基于各个所述文本区域框各自对应的顶点坐标获取所述目标单据拍摄图像中的单据所在区域的位置信息，并根据该单据区域的位置信息自所述目标单据拍摄图像中提取对应的目标单据图像。

步骤300：根据预定义的版式信息将所述目标单据图像切割为多个子区域，并对各个所述子区域分别进行文字识别。

从上述描述可知，本申请实施例提供的单据拍摄图像识别方法，通过图像坐标系的应用，能够有效提高单据所在区域的位置信息获取的效率及便捷性，还能够有效简化单据拍摄图像识别的过程，并能够保证单据所在区域的位置信息的准确性，并通过版式信息的应用，能够快速且准确地将目标单据图像切割为多个子区域，进而能够有效提高对单据拍摄图像中的单据文字识别的准确性及识别效率。

为了有效提高目标单据拍摄图像中的各个文本区域框检测的效率及准确性，在本申请提供的单据拍摄图像识别方法的一实施例中，参见图3，所述单据拍摄图像识别方法的步骤100之前还具体包含有如下内容：

步骤010：接收目标单据拍摄图像。

步骤020：应用预设的文本区域框检测模型识别得到所述目标单据拍摄图像中的各个文本区域框。

从上述描述可知，本申请实施例提供的单据拍摄图像识别方法，通过文本区域框检测模型的应用，能够有效提高目标单据拍摄图像中的各个文本区域框检测的效率及准确性，进而能够有效提高对单据拍摄图像中的单据文字识别的准确性及识别效率。

为了在较为复杂的自然场景下有较好的准确性和效率，在本申请提供的单据拍摄图像识别方法的一实施例中，参见图4，所述文本区域框检测模型为应用预设的advancedEAST算法获取的文本检测模型；

所述输入模块用于输入单据拍摄图像；

所述特征提取模块包括多个卷积层；

所述特征融合模块包括多个特征融合层和一全连接层；

可以理解的是，advanced EAST是一种用于场景图像文本检测的算法，主要基于EAST:An Efficient and Accurate Scene Text Detector，并且还能够使得长文本预测更加准确。

从上述描述可知，本申请实施例提供的单据拍摄图像识别方法，无需获取输入图像中的所有文本的准确位置信息，故而在训练时裁剪了原本模型结构中的部分输出模块，只保留内部像素激活分值计算，能够在较为复杂的自然场景下有较好的准确性和效率。

为了提高目标单据拍摄图像中的各个文本区域框的获取效率及便捷性，在本申请提供的单据拍摄图像识别方法的一实施例中，参见图5，所述单据拍摄图像识别方法的步骤020具体包含有如下内容：

步骤021：将所述目标单据拍摄图像输入所述文本区域框检测模型，并获取该文本区域框检测模型输出的所述目标单据拍摄图像中的各个所述像素的激活分值。

步骤022：将所述激活分值大于预设激活阈值的像素选定为激活像素。

步骤023：应用各个所述激活像素生成对应的激活像素分布图。

步骤024：基于预设的图像轮廓检测算法获取所述激活像素分布图对应的各个文本区域框。

可以理解的是，所述图像轮廓检测算法可以采用Robert、Laplacian或canny等算法，Robert算法的边缘定位精度较高，对于陡峭边缘且噪声低的图像效果较好，但没有进行平滑处理，没有抑制噪声的能力。Laplacian算法对噪声较为敏感，使噪声能力成分得到加强，容易丢失部分边缘方向信息，造成一些不连续的检测边缘，同时抗噪声能力较差。canny算法的最优化思想的边缘检测算子，同时采用高斯函数对图像进行平滑处理，但会造成将高频边缘平滑掉，造成边缘丢失，采用双阈值算法检测和连接边缘。

为了有效降低文本区域框的识别难度，在本申请提供的单据拍摄图像识别方法的一实施例中，参见图6，所述图像坐标系的原点为内部文字处于正序排列状态下的目标单据拍摄图像的左上角顶点；

所述图像坐标系的纵坐标正方向为自所述左上角顶点沿所述目标单据拍摄图像的纵向边缘延伸的垂直方向。

相对应的，参见图7，所述单据拍摄图像识别方法的步骤100具体包含有如下内容：

步骤110：将所述目标单据拍摄图像中的各个文本区域框与所述图像坐标系中的横坐标和纵坐标相对应，得到每个所述文本区域框的各个角的顶点坐标。

从上述描述可知，本申请实施例提供的单据拍摄图像识别方法，通过图像坐标系的建立，能够有效降低顶点坐标的获取难度，无需对单据拍摄图像中的各个文本进行准确地位置识别，仅需识别文本区域框即可，也就是说，该方式能够有效降低文本区域框的识别难度，进而能够进一步提高单据拍摄图像中的单据文字识别的效率。

为了有效降低单据所在区域的位置信息的检测难度，在本申请提供的单据拍摄图像识别方法的一实施例中，参见图8，所述单据拍摄图像识别方法的步骤200具体包含有如下内容：

步骤210：在各个所述文本区域框的各个角的顶点坐标中筛选一横坐标及纵坐标均为最小值的第一坐标，并筛选一横坐标及纵坐标均为最大值的第二坐标。

步骤220：将所述第一坐标对应的顶点作为目标左上角顶点，并将所述第二坐标对应的顶点作为目标右下角顶点。

步骤230：基于所述目标左上角顶点和目标右下角顶点生成对应的矩形框，并将该矩形框的位置信息确认为所述目标单据拍摄图像中的单据所在区域的位置信息。

从上述描述可知，本申请实施例提供的单据拍摄图像识别方法，通过顶点坐标的筛选，能够有效降低单据所在区域的位置信息的检测难度，进而能够进一步简化单据文字识别的过程，并能够进一步提高单据拍摄图像中的单据文字识别的效率，

为了有效提高目标单据图像切割的可靠性及智能化程度，在本申请提供的单据拍摄图像识别方法的一实施例中，参见图9，所述单据拍摄图像识别方法的步骤300具体包含有如下内容：

步骤310：在各个所述文本区域框的各个角的顶点坐标中筛选一横坐标及纵坐标均为最小值的目标文本区域框。

步骤320：根据与所述目标文本区域框横向相邻的第一文本区域框的顶点坐标，确定该第一文本区域框与所述目标文本区域框之间的横向相邻距离值。

步骤330：根据与所述目标文本区域框纵向相邻的第二文本区域框的顶点坐标，确定该第二文本区域框与所述目标文本区域框之间的纵向相邻距离值。

步骤340：基于所述横向相邻距离值和所述纵向相邻距离值在预设的单据模板表中确定对应的版式信息，其中，所述单据模板表用于存储横向相邻距离阈值范围、纵向相邻距离阈值范围与版式信息之间的对应关系，且所述版式信息用于存储单据的子区域切割方式。

步骤350：基于所述版式信息中的所述子区域切割方式将所述目标单据图像切割为多个子区域。

从上述描述可知，本申请实施例提供的单据拍摄图像识别方法，能够有效提高目标单据图像切割的可靠性及智能化程度，应用前述已经获取的各个文本区域框的顶点坐标确定单据的子区域切割方式，无需再采用其他方式，进而还能够有效降低目标单据图像切割的数据处理量及难度，能够进一步提高目标单据图像切割的效率及便捷性。

为了便于其他需求方随时提取切割好的目标单据图像，提高其他需求进行单据文字识别的便捷性及效率，在本申请提供的单据拍摄图像识别方法的一实施例中，参见图10，所述单据拍摄图像识别方法的步骤350之后还具体包含有如下内容：

步骤360：将已切割为多个子区域的目标单据图像进行存储；

步骤370：若接收到目标单据图像提取请求，则对应输出已切割为多个子区域的目标单据图像。

为了有效提高用户进行目标单据拍摄图像的文字识别请求的获取便捷性，在本申请提供的单据拍摄图像识别方法的一实施例中，参见图11，所述单据拍摄图像识别方法的步骤010具体包含有如下内容：

步骤011：接收具有拍摄功能的客户端设备采集的目标单据拍摄图像。

相对应的，参见图12，所述单据拍摄图像识别方法的步骤370之后还具体包含有如下内容：

步骤380：应用预设的OCR方式将已切割为多个子区域的目标单据图像进行文字识别。

步骤390：将所述目标单据图像对应的文字识别结果发送至所述客户端设备进行显示。

从上述描述可知，本申请实施例提供的单据拍摄图像识别方法，能够有效提高用户进行目标单据拍摄图像的文字识别请求的获取便捷性，并能有效提高用户获取目标单据拍摄图像结果的便捷性及可靠性。

为了进一步说明本方案，本申请还提供一种单据拍摄图像识别方法的具体应用实例，本申请的具体应用实例从使用手机等设备拍摄的图片中，将所需识别的单据区域与背景区域区分出来，进一步划分板式，克服了现有技术中传统计算机视觉算法的准确性不高、易受干扰的缺点，同时在部分场景下，在保证高准确度、可接受的响应时间的前提下，克服了一些深度学习方法在面对新类型的单据时，开发上线、部署所需时间成本较高的问题。所述单据拍摄图像识别方法具体包含有如下内容：

1)一般情况下，待检测图片中只有待检测单据内有文字，本申请的具体应用实例通过深度学习模型检测拍摄原图中的所有文字的位置信息，即以原图左上角为坐标原点，水平向右为横坐标正方向，垂直向下为纵坐标正方向建立坐标系，检测出所有文本区域矩形的顶点坐标。

2)筛选出所有顶点的横坐标最小值Xmin,纵坐标最小值Ymin,横坐标最大值Xmax,纵坐标最大值Ymax,以坐标(Xmin,Ymin)为左上角顶点，(Xmax,Ymax)为右下角顶点，确定一个矩形的坐标，从而认为该矩形即为单据所在区域。

3)根据单据所在区域的矩形坐标切割、统一缩放图片，去除背景区域，获取固定大小的单据图像。

4)根据预定义的版式信息，按固定坐标值切割划分单据图像，得到各子区域的图像。

参见图13，基于上述方式，本申请应用实例提供的单据拍摄图像识别过程，首先向服务器输入拍摄原图，将该拍摄原图输入至一包含有文本区域框检测模型的文本检测模块，而后所述文本检测模块输出文本区域矩形(也即本申请一个或多个实施例中提及的文本区域框)，然后对文本区域矩形进行文本区域区域矩形坐标筛选处理，得到票据((也即本申请一个或多个实施例中提及的单据)所在矩形坐标(也即本申请一个或多个实施例中提及的单据所在区域的位置信息)，而后根据单据所在矩形坐标对拍摄原图进行图像切割与缩放处理，得到统一大小的票据图像，而后应用预定义版式划分方式将票据图像进行子区域划分，并输出对应的版式子区域图像。

其中，参见图14所示的文本检测模块的具体实施过程，首先将拍摄原图输入深度学习检测模型，得到像素激活得分，然后进行激活像素筛选，得到激活像素分布图，并用图像轮廓检测算法确定激活像素分布图对应的文本区域矩形，并输出该文本区域矩形。

其中，内部像素激活得分是该像素位于文本所在区域内部的可能性。内部激活像素是指将构成文本区域的像素分为文本区域头部像素、文本区域尾部像素以及文本区域内部像素，即认为内部激活像素位于文本区域的中间。

Advanced EAST是检测自然场景图片中的文字位置信息的检测模型算法，在较为复杂的自然场景下有较好的准确性和效率。由于在本申请的具体应用实例的运用场景中，无需获取输入图像中的所有文本的准确位置信息，故而在训练时裁剪了原本模型结构中的部分输出模块，只保留内部像素激活分值计算，计算图像中所有像素的激活分值，将分值大于某阈值的像素划分为激活像素，绘制激活像素布图，最后通过图像轮廓检测算法获取文本区域矩形。

参见图4，基于advanced EAST的文本检测模型，保留原算法的特征提取模块和特征融合模块不变，修改输出模块，只保留内部点激活得分。

从上述描述可知，本申请应用实例提供的单据拍摄图像识别方法，在从基于手机等移动设备拍摄的图片中，识别单据内容的场景下：

1.由于拍摄设备、环境等因素变影响，图像特征化很大，特别是当图片背景中有直线边缘或单据内部有表格框时，基于传统计算机视觉边缘检测算法的方案受干扰较大，准确性大大下降。

2.当待识别单据存在套打的情况时，单据内字符往往会出现字符行间距过小，甚至相邻两行字符部分重合的情况，此时基于深度学习的全图文本检测模型往往无法将两行字符区分开来，导致最终无法识别单据内容。本申请的具体应用实例可将待识别单据从拍摄原图中提取出来，并按预定义板式精准切分成子区域，方便后续采取其它方法检测待识别文本。

3.由于本申请的具体应用实例应用场景下无需精确地检测到所有文本的位置信息，本申请的具体应用实例改进了advanced EAST文本检测模型，保证其一定程度的准确度的同时降低了模型复杂度，加快了检测速度。

4.一些基于深度学习模型直接检测目标单据的方法，在面对新单据种类时很多情况下都会降低其检测准确率，需要收集数据重新训练，由于本申请的具体应用实例以文本区域界定单据所在区域，无需重新训练模型就可应用到新的单据类型上。

从软件层面来说，为了有效简化单据拍摄图像识别的过程，并能够提高单据所在区域的位置信息的获取效率及准确性，进而能够有效提高对单据拍摄图像中的单据文字识别的准确性及识别效率，本申请提供一种用于实现所述单据拍摄图像识别方法中全部或部分内容的单据拍摄图像识别装置的实施例，参见图15，所述单据拍摄图像识别装置具体包含有如下内容：

坐标获取模块10，用于应用预获取的目标单据拍摄图像中的各个文本区域框以及预设的图像坐标系，确定各个所述文本区域框各自对应的顶点坐标。

单据提取模块20，用于基于各个所述文本区域框各自对应的顶点坐标获取所述目标单据拍摄图像中的单据所在区域的位置信息，并根据该单据区域的位置信息自所述目标单据拍摄图像中提取对应的目标单据图像。

单据切割模块30，用于根据预定义的版式信息将所述目标单据图像切割为多个子区域，并对各个所述子区域分别进行文字识别。

从上述描述可知，本申请实施例提供的单据拍摄图像识别装置，通过图像坐标系的应用，能够有效提高单据所在区域的位置信息获取的效率及便捷性，还能够有效简化单据拍摄图像识别的过程，并能够保证单据所在区域的位置信息的准确性，并通过版式信息的应用，能够快速且准确地将目标单据图像切割为多个子区域，进而能够有效提高对单据拍摄图像中的单据文字识别的准确性及识别效率。

为了有效提高目标单据拍摄图像中的各个文本区域框检测的效率及准确性，在本申请提供的单据拍摄图像识别装置的一实施例中，参见图16，所述单据拍摄图像识别装置还具体包含有如下内容：

图像接收模块01，用于接收目标单据拍摄图像。

文本区域框识别模块02，用于应用预设的文本区域框检测模型识别得到所述目标单据拍摄图像中的各个文本区域框。

从上述描述可知，本申请实施例提供的单据拍摄图像识别装置，通过文本区域框检测模型的应用，能够有效提高目标单据拍摄图像中的各个文本区域框检测的效率及准确性，进而能够有效提高对单据拍摄图像中的单据文字识别的准确性及识别效率。

为了在较为复杂的自然场景下有较好的准确性和效率，在本申请提供的单据拍摄图像识别装置的一实施例中，所述文本区域框检测模型为应用预设的advanced EAST算法获取的文本检测模型；

所述输入模块用于输入单据拍摄图像；

所述特征提取模块包括多个卷积层；

所述特征融合模块包括多个特征融合层和一全连接层；

从上述描述可知，本申请实施例提供的单据拍摄图像识别装置，无需获取输入图像中的所有文本的准确位置信息，故而在训练时裁剪了原本模型结构中的部分输出模块，只保留内部像素激活分值计算，能够在较为复杂的自然场景下有较好的准确性和效率，

为了提高目标单据拍摄图像中的各个文本区域框的获取效率及便捷性，在本申请提供的单据拍摄图像识别装置的一实施例中，所述单据拍摄图像识别装置的文本区域框识别模块02具体包含有如下内容：

为了有效降低文本区域框的识别难度，在本申请提供的单据拍摄图像识别装置的一实施例中，所述图像坐标系的原点为内部文字处于正序排列状态下的目标单据拍摄图像的左上角顶点；

相对应的，所述单据拍摄图像识别装置的坐标获取模块10具体包含有如下内容：

从上述描述可知，本申请实施例提供的单据拍摄图像识别装置，通过图像坐标系的建立，能够有效降低顶点坐标的获取难度，无需对单据拍摄图像中的各个文本进行准确地位置识别，仅需识别文本区域框即可，也就是说，该方式能够有效降低文本区域框的识别难度，进而能够进一步提高单据拍摄图像中的单据文字识别的效率。

为了有效降低单据所在区域的位置信息的检测难度，在本申请提供的单据拍摄图像识别装置的一实施例中，所述单据拍摄图像识别装置的单据提取模块20具体包含有如下内容：

从上述描述可知，本申请实施例提供的单据拍摄图像识别装置，通过顶点坐标的筛选，能够有效降低单据所在区域的位置信息的检测难度，进而能够进一步简化单据文字识别的过程，并能够进一步提高单据拍摄图像中的单据文字识别的效率，

为了有效提高目标单据图像切割的可靠性及智能化程度，在本申请提供的单据拍摄图像识别装置的一实施例中，所述单据拍摄图像识别装置的单据切割模块30具体包含有如下内容：

从上述描述可知，本申请实施例提供的单据拍摄图像识别装置，能够有效提高目标单据图像切割的可靠性及智能化程度，应用前述已经获取的各个文本区域框的顶点坐标确定单据的子区域切割方式，无需再采用其他方式，进而还能够有效降低目标单据图像切割的数据处理量及难度，能够进一步提高目标单据图像切割的效率及便捷性。

为了便于其他需求方随时提取切割好的目标单据图像，提高其他需求进行单据文字识别的便捷性及效率，在本申请提供的单据拍摄图像识别装置的一实施例中，所述单据拍摄图像识别装置的单据切割模块30还具体包含有如下内容：

为了有效提高用户进行目标单据拍摄图像的文字识别请求的获取便捷性，在本申请提供的单据拍摄图像识别装置的一实施例中，所述单据拍摄图像识别装置的图像接收模块01具体包含有如下内容：

相对应的，所述单据切割模块30还包括：

识别结果发送单元，用于将所述目标单据图像对应的文字识别结果发送至所述客户端设备进行显示。从上述描述可知，本申请实施例提供的单据拍摄图像识别装置，能够有效提高用户进行目标单据拍摄图像的文字识别请求的获取便捷性，并能有效提高用户获取目标单据拍摄图像结果的便捷性及可靠性。

从硬件层面来说，为了有效简化单据拍摄图像识别的过程，并能够提高单据所在区域的位置信息的获取效率及准确性，进而能够有效提高对单据拍摄图像中的单据文字识别的准确性及识别效率，本申请提供一种用于实现所述单据拍摄图像识别方法中的全部或部分内容的电子设备的实施例，所述电子设备具体包含有如下内容：

处理器(processor)、存储器(memory)、通信接口(CommunicationsInterface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述通信接口用于实现电子设备与用户终端以及相关数据库等相关设备之间的信息传输；该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照实施例中的单据拍摄图像识别方法的实施例，以及，单据拍摄图像识别装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图17为本申请实施例的电子设备9600的系统构成的示意框图。如图17所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图17是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在一实施例中，单据拍摄图像识别功能可以被集成到中央处理器中。其中，中央处理器可以被配置为进行如下控制：

从上述描述可知，本申请实施例提供的电子设备，通过图像坐标系的应用，能够有效提高单据所在区域的位置信息获取的效率及便捷性，还能够有效简化单据拍摄图像识别的过程，并能够保证单据所在区域的位置信息的准确性，并通过版式信息的应用，能够快速且准确地将目标单据图像切割为多个子区域，进而能够有效提高对单据拍摄图像中的单据文字识别的准确性及识别效率。

在另一个实施方式中，单据拍摄图像识别装置可以与中央处理器9100分开配置，例如可以将单据拍摄图像识别装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现单据拍摄图像识别功能。

如图17所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图17中所示的所有部件；此外，电子设备9600还可以包括图17中没有示出的部件，可以参考现有技术。

如图17所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

本申请的实施例还提供能够实现上述实施例中的单据拍摄图像识别方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的单据拍摄图像识别方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

从上述描述可知，本申请实施例提供的计算机可读存储介质，通过图像坐标系的应用，能够有效提高单据所在区域的位置信息获取的效率及便捷性，还能够有效简化单据拍摄图像识别的过程，并能够保证单据所在区域的位置信息的准确性，并通过版式信息的应用，能够快速且准确地将目标单据图像切割为多个子区域，进而能够有效提高对单据拍摄图像中的单据文字识别的准确性及识别效率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种单据拍摄图像识别方法，其特征在于，包括：

根据预定义的版式信息将所述目标单据图像切割为多个子区域，并对各个所述子区域分别进行文字识别；

在所述应用预获取的目标单据拍摄图像中的各个文本区域框以及预设的图像坐标系，确定各个所述文本区域框各自对应的顶点坐标之前，还包括：

接收目标单据拍摄图像；

应用预设的文本区域框检测模型识别得到所述目标单据拍摄图像中的各个文本区域框，所述文本区域框检测模型输出所述目标单据拍摄图像中的各个像素的激活分值。

2.根据权利要求1所述的单据拍摄图像识别方法，其特征在于，所述文本区域框检测模型为应用预设的advanced EAST算法获取的文本检测模型；

所述输入模块用于输入单据拍摄图像；

所述特征提取模块包括多个卷积层；

所述特征融合模块包括多个特征融合层和一全连接层；

3.根据权利要求2所述的单据拍摄图像识别方法，其特征在于，所述应用预设的文本区域框检测模型识别得到所述目标单据拍摄图像中的各个文本区域框，包括：

将所述激活分值大于预设激活阈值的像素选定为激活像素；

应用各个所述激活像素生成对应的激活像素分布图；

4.根据权利要求1所述的单据拍摄图像识别方法，其特征在于，所述图像坐标系的原点为内部文字处于正序排列状态下的目标单据拍摄图像的左上角顶点；

5.根据权利要求4所述的单据拍摄图像识别方法，其特征在于，所述基于各个所述文本区域框各自对应的顶点坐标获取所述目标单据拍摄图像中的单据所在区域的位置信息，包括：

6.根据权利要求4所述的单据拍摄图像识别方法，其特征在于，所述根据预定义的版式信息将所述目标单据图像切割为多个子区域，包括：

7.根据权利要求4所述的单据拍摄图像识别方法，其特征在于，在所述根据预定义的版式信息将所述目标单据图像切割为多个子区域之后，还包括：

将已切割为多个子区域的目标单据图像进行存储；

8.根据权利要求1所述的单据拍摄图像识别方法，其特征在于，所述接收目标单据拍摄图像，包括：

接收具有拍摄功能的客户端设备采集的目标单据拍摄图像；

9.一种单据拍摄图像识别装置，其特征在于，包括：

单据切割模块，用于根据预定义的版式信息将所述目标单据图像切割为多个子区域，并对各个所述子区域分别进行文字识别；

还包括：

图像接收模块，用于接收目标单据拍摄图像；

文本区域框识别模块，用于应用预设的文本区域框检测模型识别得到所述目标单据拍摄图像中的各个文本区域框，所述文本区域框检测模型输出所述目标单据拍摄图像中的各个像素的激活分值。

10.根据权利要求9所述的单据拍摄图像识别装置，其特征在于，所述文本区域框检测模型为应用预设的advanced EAST算法获取的文本检测模型；

所述输入模块用于输入单据拍摄图像；

所述特征提取模块包括多个卷积层；

所述特征融合模块包括多个特征融合层和一全连接层；

11.根据权利要求10所述的单据拍摄图像识别装置，其特征在于，所述文本区域框识别模块包括：

12.根据权利要求9所述的单据拍摄图像识别装置，其特征在于，所述图像坐标系的原点为内部文字处于正序排列状态下的目标单据拍摄图像的左上角顶点；

相对应的，所述坐标获取模块包括：

13.根据权利要求12所述的单据拍摄图像识别装置，其特征在于，所述单据提取模块包括：

14.根据权利要求12所述的单据拍摄图像识别装置，其特征在于，所述单据切割模块包括：

15.根据权利要求12所述的单据拍摄图像识别装置，其特征在于，还包括：

16.根据权利要求9所述的单据拍摄图像识别装置，其特征在于，所述图像接收模块包括：

相对应的，所述单据切割模块包括：

17.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8任一项所述的单据拍摄图像识别方法的步骤。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8任一项所述的单据拍摄图像识别方法的步骤。