CN110210480A

CN110210480A - 文字识别方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN110210480A
Application number: CN201910488332.1A
Authority: CN
Inventors: 万昭祎; 刘毅博; 谢锋明; 姚聪; 杨沐
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-09-06
Anticipated expiration: 2039-06-05
Also published as: CN110210480B

Abstract

本发明提供了一种文字识别方法、装置、电子设备和计算机可读存储介质，该方法包括：获取待检测图像，通过采用二维CTC模型训练之后的全卷积神经网络提取待检测图像的特征信息，得到第一特征信息；第一特征信息包括以下至少之一：表示待检测图像的第一二维空间特征分布中各个特征点属于第一文字序列的第一字符分布概率；表示在第一二维空间特征分布中高度维度上的第一路径转移概率；表示第一二维空间特征分布的各个特征点为第一路径上的起始特征点的第一初始路径概率；利用待检测图像的第一特征信息确定待检测图像中的第一文字序列。本申请缓解了现有的图像序列识别方法由于出现注意力偏移导致的序列预测准确度低的技术问题。

Description

文字识别方法、装置、电子设备和计算机可读存储介质

技术领域

本发明涉及图像处理的技术领域，尤其是涉及一种文字识别方法、装置、电子设备和计算机可读存储介质。

背景技术

自然场景中文字的识别，以下简称场景文字识别，是指对自然场景图片中的文字利用计算机算法识别其内容的技术，被广泛运用在自动驾驶、视障辅助、身份认证等多个领域。不同于扫描文件中的文字识别，自然场景中的文字识别面临更大的挑战：复杂的自然背景，不确定的文字方向和排列和大量的颜色变化等，这些都让自然场景中的文字识别的识别精度和实现难度远高于扫描文件的识别。

在现有技术中，广泛使用的基于图像的序列识别方法是基于注意力的模型。在这些注意力模型中，通常使用带有注意力机制的循环神经网络来产生序列预测。具体来说，即在每一个时间步骤使用注意力机制聚焦到一个字符区域，从而产生一个字符预测。基于这种框架的模型本质上也是一个每帧输出的算法，注意力机制提供了一种特征表示和序列预测之间的对齐方式。不过这种模型通常会面临比较严重的注意力偏移的问题：由于上一步的输出和隐状态直接参与下一步预测的计算，序列前面的错误预测往往会导致后续的注意力区域偏移进而带来连续的错误识别。

发明内容

有鉴于此，本发明的目的在于提供一种文字识别方法、装置、电子设备和计算机可读存储介质，以缓解了现有的图像序列识别方法由于出现注意力偏移导致的序列预测准确度低的技术问题。

第一方面，本发明实施例提供了一种文字识别方法，包括：获取待检测图像，并通过采用二维CTC模型训练之后的全卷积神经网络提取所述待检测图像的特征信息，得到第一特征信息；其中，所述第一特征信息包括以下至少之一：第一字符分布概率、第一路径转移概率和第一初始路径概率；所述第一字符分布概率为所述待检测图像的第一二维空间特征分布中各个特征点属于第一文字序列的概率，所述第一路径转移概率表示在第一二维空间特征分布中高度维度上的路径选择概率；所述第一初始路径概率表示第一二维空间特征分布的各个特征点为第一路径上的起始特征点的概率，所述第一路径为在第一二维空间特征分布中预测出的能够对齐到第一文字序列的路径；利用所述待检测图像的第一特征信息确定所述待检测图像中的所述第一文字序列。

进一步地，所述全卷积神经网络包括：第一卷积网络、金字塔池化模块和第二卷积网络。

进一步地，所述第一卷积网络为残差卷积神经网络，所述残差卷积神经网络中包括多个卷积模块，且所述多个卷积模块中的部分卷积模块包含空洞卷积层。

进一步地，通过采用二维CTC模型训练之后的全卷积神经网络提取所述待检测图像的特征信息，得到第一特征信息包括：利用所述第一卷积网络对所述待检测图像进行特征提取，得到第一卷积特征信息；利用所述金字塔池化模块对所述第一卷积特征信息进行池化计算，得到不同尺度的池化特征，并对所述不同尺度的池化特征进行级联处理，得到池化特征信息；利用所述第二卷积网络对所述池化特征信息进行卷积计算，得到所述待检测图像的第一特征信息。

进一步地，所述方法还包括：获取训练样本图像；通过初始全卷积神经网络提取所述训练样本图像的特征信息，得到第二特征信息；所述第二特征信息包括以下至少之一：第二字符分布概率、第二路径转移概率和第二初始路径概率，所述第二字符分布概率为所述训练样本图像的第二二维空间特征分布中各个特征点属于第二文字序列中的字符的概率，所述第二路径转移概率表示在第二二维空间特征分布中高度维度上的路径选择概率；所述第二初始路径概率表示第二二维空间特征分布的各个特征点为第二路径上的起始特征点的概率，所述第二路径为在第二二维空间特征分布中预测出的能够对齐到第二文字序列的有效路径；利用所述二维CTC模型对所述训练样本图像的第二特征信息进行处理，得到目标损失函数；通过所述目标损失函数训练所述初始全卷积神经网络，得到所述全卷积神经网络。

进一步地，利用所述二维CTC模型对所述训练样本图像的第二特征信息进行处理，得到目标损失函数包括：利用所述二维CTC模型对所述第二特征信息进行处理，得到第二路径的条件概率；基于所述第二路径的条件概率确定所述目标损失函数。

进一步地，利用所述二维CTC模型对所述第二特征信息进行计算，得到第二路径的条件概率包括：结合动态规划算法和所述第二特征信息中的信息，计算得到目标条件概率β_s,h,w，其中，β_s,h,w表示从第二二维空间特征分布的位置(h,w)上到达第二文字序列中位于第s个位置的字符的所有子路径的概率和，所述第二二维空间特征分布为所述训练样本图像的空间特征分布；利用所述目标条件概率β_s,h,w计算所述第二路径的条件概率。

进一步地，结合动态规划算法和所述第二特征信息中的信息，计算得到目标条件概率包括：利用目标公式计算所述目标条件概率β_s,h,w，所述目标公式表示为：

其中，

Ψ_j,w-1,h表示所述第二路径转移概率，表示从所述第二二维空间特征分布中的特征点(j，w-1)到所述第二二维空间特征分布中的特征点(h，w)的转移概率，j表示所述第二二维空间特征分布中的一个高度坐标，Y^*和X'分别表示所述第二文字序列扩展后的标注文字序列和所述第二二维空间特征分布，s表示Y^*中字符的序号，h表示所述第二二维空间特征分布中的另一个高度坐标，w表示所述第二二维空间特征分布中的宽度坐标；h∈[1,2,…H],w∈[1,2,…,W-1]，H表示所述第二二维空间特征分布中的高度信息，W表示所述第二二维空间特征分布中的宽度信息；属于所述第二字符分布概率，表示在位置(h,w)处的特征点属于第二文字序列中的字符的概率；Ψ_j,0,h是根据所述第二初始路径概率Ψ_j,-1,h计算得到的。

进一步地，基于所述第二路径的条件概率确定所述目标损失函数包括：利用公式确定所述目标损失函数，其中，为所述第二路径的条件概率，为所述目标损失函数。

第二方面，本发明实施例还提供了一种文字识别装置，包括：获取单元，用于获取待检测图像；提取单元，用于通过采用二维CTC模型训练之后的全卷积神经网络提取所述待检测图像的特征信息，得到第一特征信息；其中，所述第一特征信息包括以下至少之一：第一字符分布概率、第一路径转移概率和第一初始路径概率；所述第一字符分布概率为所述待检测图像的第一二维空间特征分布中各个特征点属于第一文字序列的概率，所述第一路径转移概率表示在第一二维空间特征分布中高度维度上的路径选择概率；所述第一初始路径概率表示第一二维空间特征分布的各个特征点为第一路径上的起始特征点的概率，所述第一路径为在第一二维空间特征分布中预测出的能够对齐到第一文字序列的路径；确定单元，用于利用所述待检测图像的第一特征信息确定所述待检测图像中的所述第一文字序列。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面中任一项所述的方法的步骤。

在本发明实施例中，首先，获取待检测图像，并通过采用二维CTC模型训练之后的全卷积神经网络提取待检测图像的特征信息，得到第一特征信息，其中，第一特征信息包括以下至少之一：第一字符分布概率、第一路径转移概率和第一初始路径概率；最后，利用待检测图像的第一特征信息确定待检测图像中的所述第一文字序列。通过上述描述可知，在现有技术中，通过注意力模型来识别图像中的序列识别，但是这种模型通常会面临比较严重的注意力偏移的问题从而导致后续的注意力区域偏移进而带来连续的错误识别。然而，在本申请中，所选用的二维CTC模型在训练全卷积神经网络的过程中，保留了图像的第一特征信息，并基于该第一特征信息直接预测出文字序列。二维CTC模型保留图像的第一特征信息，并利用第一特征信息预测文字序列的方式提高了全卷积网络的识别精度，进而缓解了现有的图像序列识别方法由于出现注意力偏移导致的序列预测准确度低的技术问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种电子设备的结构示意图；

图2是根据本发明实施例的一种文字识别方法的流程图；

图3是根据本发明实施例的一种二维特征分布的结构示意图；

图4是根据本发明实施例的一种二维特征分布的结构示意图中的子分布图；

图5是根据本发明实施例的一种全卷积神经网络结构示意图；

图6是根据本发明实施例的一种预测序列的结构示意图；

图7是根据本发明实施例的一种文字识别装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

首先，参照图1来描述用于实现本发明实施例的文字识别方法的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102以及一个或多个存储装置104。可选地，电子设备还可以包括输入装置106、输出装置108以及摄像机110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(Digital Signal Processing，简称DSP)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)、可编程逻辑阵列(Programmable logic arrays，简称PLA)和ASIC(Application Specific IntegratedCircuit)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CentralProcessing Unit，简称CPU)、图形处理单元(Graphics Processing Unit，GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述摄像机110用于进行获取待检测图像，其中，摄像机所获取的待处理图像经过所述文字识别方法进行处理之后得到待检测图像中的文字序列，例如，摄像机可以拍摄用户期望的图像(例如照片、视频等)，然后，将该图像经过所述文字识别方法进行处理之后得到待检测图像中的文字序列，摄像机还可以将所拍摄的图像存储在所述存储器104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的文字识别方法的示例电子设备可以被实现为诸如智能手机、平板电脑等移动终端上。

实施例2：

根据本发明实施例，提供了一种文字识别方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本发明实施例的一种文字识别方法的流程图，如图2所示，该方法包括如下步骤：

步骤S202，获取待检测图像。

在本实施例中，该待检测图像可以为上述实施例一所描述的电子设备中摄像机110拍摄到的图像，也可以是从其他电子设备中接收到的。

步骤S204，通过采用二维CTC模型训练之后的全卷积神经网络提取所述待检测图像的特征信息，得到第一特征信息。

其中，所述第一特征信息包括以下至少之一：第一字符分布概率、第一路径转移概率和第一初始路径概率；所述第一字符分布概率为所述待检测图像的第一二维空间特征分布中各个特征点属于第一文字序列的概率，所述第一路径转移概率表示在第一二维空间特征分布中高度维度上的路径选择概率；所述第一初始路径概率表示第一二维空间特征分布的各个特征点为第一路径上的起始特征点的概率，所述第一路径为在第一二维空间特征分布中预测出的能够对齐到第一文字序列的路径。

通过上述描述可知，在现有技术中，通过注意力的模型来识别图像中的文字序列。除此之外，发明人还想到，可以将连接时序分类(Connectionist TemporalClassification，CTC)应用到文字识别方法中。然而CTC模型最初是为语音识别而设计，由于待识别的语音信号为一维信号，因此，传统的CTC模型的处理公式所能够处理的信号为类似于语音信号的一维信号。对于基于图像的文字识别问题，则会产生图像二维特征和CTC模型需要一维分布的矛盾，因此将CTC模型直接应用在文字识别中可能损失重要的特征，并且引入额外的噪声。

基于此，在本申请中，发明人对传统的CTC模型进行了拓展，提出了新的CTC模型(即，二维CTC模型)，该二维CTC模型能够对图像的二维特征进行处理，使得图像的二维特征能够得到保留，并使得全卷积神经网络预测出更加准确的文字序列，其中，图像的二维特征可以表示为一个二维的矩阵，该矩阵中的每个向量用于表征图像中每个像素点的特征信息。

通过上述描述可知，在本申请中，可以通过该全卷积神经网络对待检测图像进行特征提取，得到第一特征信息。其中，第一特征信息包括：第一字符分布概率、第一路径转移概率和第一初始路径概率。

需要说明的是，在本实施例中，第一二维空间特征分布为待检测图像的特征分布，第一二维空间特征分布可以为如图3所示的分布结构。也就是说，在本申请中，待检测图像的二维空间特征分布可以为高度为H，宽度为W的特征分布结构。

在本实施例中，第一字符分布概率表示第一二维空间特征分布中的各个特征点包含第一文字序列中文字的概率。例如，若包含，则概率值设置为1，否则设置为0。第一路径转移概率表示在第一二维空间特征分布中高度维度上的路径选择概率，第一路径转移概率还可以理解为表示第一二维空间特征分布中各个特征点位于第一路径上的概率，其中，第一路径为预测出的能够对齐到第一文字序列的路径。第一初始路径概率表示第一二维空间特征分布的各个特征点为第一路径上的起始特征点的概率，其中，第一初始路径概率还可以理解为第一二维空间特征分布中的各个特征点的字符分布概率中最左位置的值。

步骤S206，利用所述待检测图像的第一特征信息确定所述待检测图像中的所述第一文字序列。

在本实施例中，在确定出上述第一特征信息之后，就可以结合第一特征信息确定所述待检测图像中所包含的文字序列(即，第一文字序列)。

在本实施例中，可以根据第一特征信息计算条件概率P(Y/X)，其中，之后，可以利用贪心搜索(Greedy Search)或段搜索等方法寻找概率最大的路径，并将该概率最大的路径确定为第一文字序列，A_X,Y为标注序列Y在预测分布X下所有可能的路径，t指X的长度。其中，贪心搜索(Greedy Search)方法的计算公式为：表示路径π上的所有字符的概率相乘之后的结果。

需要说明的是，在本实施例中，条件概率表示一条路径中所有字符概率相乘，表示全部路径A_X,Y的概率乘积的总和。

通过上述描述可知，在现有技术中，通过注意力模型来识别图像中的序列，但是这种模型通常会面临比较严重的注意力偏移的问题从而导致后续的注意力区域偏移进而带来连续的错误识别。然而，在本申请中，所选用的二维CTC模型在训练全卷积神经网络的过程中，保留了图像的第一特征信息，并基于该第一特征信息直接预测出文字序列。二维CTC模型保留图像的第一特征信息，并利用第一特征信息预测文字序列的方式提高了全卷积网络的识别精度，进而缓解了现有的图像序列识别方法由于出现注意力偏移导致的序列预测准确度低的技术问题。

进一步地，发明人想到可以结合CTC模型来识别图像中的序列，但是，传统的CTC模型的处理公式也只能处理一维信号。基于此，在本申请中，对传统的CTC模型进行了拓展，通过拓展之后的二维CTC模型对图像的二维特征进行处理，使得图像的二维特征能够得到保留，使得全卷积神经网络预测出更加准确的文字序列。

通过上述描述可知，在本申请中，通过全卷积神经网络提取待检测图像的特征信息。

在一个可选的实施方式中，所述全卷积神经网络包括：第一卷积网络、金字塔池化模块和第二卷积网络。在本实施例中，全卷积神经网络为类金字塔的结构。

在本申请中，第一卷积网络可以为多层残差卷积神经网络，例如，50层残差卷积神经网络。该多层残差卷积神经网络中包括多个卷积模块，且所述多个卷积模块中的部分卷积模块包含空洞卷积层。

需要说明的是，在本实施例中，多层残差卷积神经网络中包括多个阶段的卷积模块，多个阶段的卷积模块中部分卷积模块包括空洞卷积层。可选地，可以将多个阶段的卷积模块中最后两个阶段的卷积模块中设置空洞卷积层。除此之外，还可以在其他阶段的卷积模块中设置空洞卷积层，本实施例对此不作具体限定。

如图5所示的即为一种可选的全卷积神经网络的示意性结构图。在如图5所示的全卷积神经网络中，待检测图像依次经过第一卷积网络(即图中所示的多层残差卷积神经网络)、金字塔池化模块和第二卷积网络，最终得到待检测图像的特征信息，即第一特征信息。

如图5所示，在本实施例中，第一卷积网络选择的是包含5个阶段的卷积模块的多层残差卷积神经网络(例如，50层残差卷积神经网络)。需要说明的是，本实施例中，在第四、第五这两个阶段的卷积模块中可以使用空洞卷积，以防止待检测图像的特征表示的分辨率过快地下降。经过数个阶段的卷积模块之后，待检测图像的特征表示获得了足够的感受野。与大部分分割模型一样，全卷积神经网络的计算算法使用了类金字塔结构，即在最后一层卷积之后，待检测图像的特征表示被平均池化到不同的尺寸，之后不同尺度的特征再被串联到一起，通过共享的卷积操作得到统一的特征。通过得到的特征，三种不同的输出再分别经过一层3x3和一层1x1的卷积得到最终的输出。

需要说明的是，在本实施例中，第二卷积网络中可以包括两个卷积层，这两个卷积层的卷积核可以分别选择为：3x3的卷积核和1x1的卷积核，除此之外，还可以选择其他大小的卷积核，本实施例对此不作具体限定。

基于此，在本实施例中，步骤S204，通过采用二维CTC模型训练之后的全卷积神经网络提取所述待检测图像的特征信息，得到第一特征信息包括如下步骤：

步骤S2041，利用所述第一卷积网络对所述待检测图像进行特征提取，得到第一卷积特征信息；

步骤S2042，利用所述金字塔池化模块对所述第一卷积特征信息进行池化计算，得到不同尺度的池化特征，并对所述不同尺度的池化特征进行级联处理，得到池化特征信息；

步骤S2043，利用所述第二卷积网络对所述池化特征信息进行卷积计算，得到所述待检测图像的第一特征信息。

具体地，在本实施例中，可以采用图5所示的全卷积神经网络中的50层残差卷积神经网络对待检测图像进行特征提取，得到第一卷积特征信息。由于在50层残差卷积神经网络的第4阶段和第5阶段中设置了空洞卷积，该空洞卷积能够防止待检测图像的特征表示的分辨率过快地下降，使得待检测图像的特征表示获得了足够的感受野。

在利用50层残差卷积神经网络得到第一卷积特征信息之后，就可以利用金字塔池化模块对第一卷积特征信息进行池化计算，得到的池化特征为多尺度的特征。在得到多尺度的池化特征之后，就可以对各个尺度的池化特征进行级联处理，得到池化特征信息。

在得到池化特征信息之后，就可以利用第二卷积网络对池化特征信息进行卷积计算，得到待检测图像的第一特征信息。若第二卷积网络中包括两个卷积层(即3x3的卷积层和1x1的卷积层)，则可以利用3x3的卷积层和1x1的卷积层依次对池化特征信息进行卷积计算，得到待检测图像的第一特征信息。

在本实施例中，在通过采用二维CTC模型训练之后的全卷积神经网络提取所述待检测图像的特征信息之前，还可以利用二维CTC模型对初始全卷积神经网络进行训练，得到步骤S204中所描述的全卷积神经网络。

在介绍初始全卷积神经网络的训练过程之前，首先介绍传统的一维CTC。在传统一维CTC模型中引入了“∈”来描述序列中的空白，并通过在预测序列和标注序列中填补空白和重复来对二者进行对齐。其中，标注序列为图像中已标注的文字序列，预测序列该为图像预测出的可能为该文字序列的序列。在如图6所示的序列中，每行序列为预测序列。在该预测序列中，符号“□”表示“∈”，后续实施例中不再进行介绍。如图6所示，第1、3、4行预测序列可以被正确对齐为目标序列“FREE”，第二行的预测序列无法被对齐为目标序列“FREE”。在预测序列中对于指定位置i，i能被跳过当且仅当i处预测为∈或与上一步预测相同。例如，图6中的第一个预测序列“F□R E□E E E”，假设，i为该预测序列中的第2个字符“□”，那么该预测序列在进行对齐处理时，由于第2个字符为“□”，表示∈，因此，第2个字符可以被跳过。又例如，假设，i为该预测序列“F□R E□E E E”中的第7个字符“E”，那么该预测序列在进行对齐处理时，由于第7个字符与第6个字符相同，均为“E”，因此，第7个字符可以被跳过。同理，第8个字符与第7个字符相同，因此，第8个字符可以被跳过。最终，预测序列“F□R E□EE E”的对齐结果为“FREE”。当去除预测中所有可被跳过的位置后，即得到对齐的预测序列。

如上文所述，CTC模型通过计算标注在预测分布上的条件概率来衡量标注序列和预测序列的相似度。从定义出发，这个条件概率为：

具体地，Y和X分别为标注序列和预测分布，A_X,Y为标注序列Y在预测分布X下所有可能的路径，t指X的长度。由于所有可能的路径是一个非常巨大的数量级，遍历地计算所有路径的概率并求和是非常低效的，因此，在本申请的实施例中可以使用动态规划来解决这类问题。

首先，由于目标序列中各个符号前后是否带有∈的情况是等价的，对目标序列Y进行如下扩展以使描述更加清楚：Y^*＝[∈,y₁,∈,y₂,∈,…,y_L,∈]。其中，Y^*是扩展之后的目标序列，即在每个符号前后各插入一个∈，则原来长度为L的目标序列Y被扩展为长度为2L+1的Y*。

对于给定的s∈[1,2,…,2L+1]，设Y*[1:s]为Y*的前s个字符，则定义α_s,t为Y*[1:s]在时刻t的概率，该概率表示在t时刻到达序列Y*的第s个位置的所有可能子路径的概率和。

因此，对于第s-1个符号不可以被忽略的情况，即Y_s ^*＝∈或者的情况，α_s,t满足以下公式：

对于其他不可以忽略第s-1个符号的情况，即若Y_s ^*≠∈且则α_s,t可由如下公式计算：

其中，Y_s ^*表示扩展之后的目标序列中的第s个字符，表示扩展之后的目标序列中的第s-2个字符。

总结起来，CTC模型的动态规划状态转移方程可以表示为如下公式：

基于传统的一维CTC模型，本申请所提供的实施例在高度维对该一维CTC模型进行扩展。类似地，对于给定的二维分布X'，其高度信息和宽度信息分别为H和W，定义路径转移概率ψ∈R^H×(W-1)×H。路径转移概率ψ_h,w,h'表示从预测分布的位置(h,w)到位置(h',w+1)的路径转移概率，其中，h,h'∈[1,2,…H]，w∈[1,2,…,W-1]。

以图3所示的二维空间特征分布为例来进行说明。如图3所示的为一个Q*H*W大小的空间特征分布图，以图3中的任意一个H*W大小的子分布图来说，即如图4所示的子分布图。假设，坐标为(h,w)为图4中符号“1”所示的位置，那么坐标(h',w+1)为图4中符号“2”、“3”、“4”和“5”所示的位置。

由此易得，该公式表示从预测分布的一个位置到该预测分布中所有高度的路径转移概率之和为1。因此，由图4可知，表示符号“1”所示的位置到符号“2”、“3”、“4”和“5”所示位置的路径转移概率之和为1。

与一维CTC类似地，对目标序列进行同样的扩展得到扩展之后的目标序列Y*。于是使用类似的推导过程可得二维CTC模型的状态转移方程：

具体地，Ψ_j,w-1,h表示所述第二路径转移概率，表示从所述第二二维空间特征分布中的特征点(j，w-1)到所述第二二维空间特征分布中的特征点(h，w)的转移概率，j表示所述第二二维空间特征分布中的一个高度坐标，Y^*和X'分别表示所述第二文字序列扩展后的标注文字序列和所述第二二维空间特征分布，s表示Y^*中字符的序号，h表示所述第二二维空间特征分布中的另一个高度坐标，w表示所述第二二维空间特征分布中的宽度坐标，h∈[1,2,…H],w∈[1,2,…,W-1]，H表示所述第二二维空间特征分布中的高度信息，W表示所述第二二维空间特征分布中的宽度信息；属于所述第二字符分布概率，表示在位置(h,w)处的特征点属于第二文字序列中的字符Y_s ^*的概率；β_s,h,w表示从第二二维空间特征分布的位置(h,w)上到达第二文字序列中位于第s个位置的字符的所有子路径的概率和。

最后，由于二维CTC模型在二维空间特征分布的高度维上有H个点可以作为起始点，基于此，β的起始状态可以被定义为：

其中，Γ_h∈R^H，且R^H表示实数域上的H维向量。

通过如上所述公示，二维CTC模型可以通过序列标注端到端地对初始全卷积神经网络进行训练。在测试阶段，可以通过与一维CTC模型类似的方式，即通过贪心算法或段搜索来寻找概率最大的路径，其中，寻找概率最大的路径的过程即为寻找第二文字序列的过程。

基于上述所描述的内容，在本实施例中，对初始全卷积神经网络进行训练的过程描述如下：

步骤S301，获取训练样本图像；

步骤S302，通过初始全卷积神经网络提取所述训练样本图像的特征信息，得到第二特征信息；

步骤S303，利用所述二维CTC模型对所述训练样本图像的第二特征信息进行处理，得到目标损失函数；

步骤S304，通过所述目标损失函数训练所述初始全卷积神经网络，得到所述全卷积神经网络。

具体地，在本实施例中，在训练初始全卷积神经网络时，首先获取训练样本图像，然后，通过初始全卷积神经网络提取该训练样本图像的特征信息，得到第二特征信息。第二特征信息中同样包括：第二字符分布概率，第二路径转移概率和第二初始路径概率。

其中，第二字符分布概率为所述训练样本图像的第二二维空间特征分布中各个特征点属于第二文字序列中的字符的概率，第二路径转移概率表示在第二二维空间特征分布中高度维度上的路径选择概率；第二初始路径概率表示第二二维空间特征分布的各个特征点为第二路径上的起始特征点的概率，所述第二路径为在第二二维空间特征分布中预测出的能够对齐到第二文字序列的有效路径。

在按照上述所描述的方式得到第二特征信息之后，就可以利用二维CTC模型对训练样本图像的第二特征信息进行计算，得到目标损失函数。之后，就可以通过该目标损失函数训练该初始全卷积神经网络，得到步骤S204中所描述的全卷积神经网络。

在一个可选的实施方式中，可以通过以下步骤，利用所述二维CTC模型对所述训练样本图像的第二特征信息进行处理，得到目标损失函数，具体包括如下步骤：

首先，利用所述二维CTC模型对所述第二特征信息进行处理，得到第二路径的条件概率；所述第二路径为所述初始全卷积神经网络在所述训练样本图像的二维空间特征分布中预测出的能够对齐到所述训练样本图像中第二文字序列的有效路径。

在计算第二路径的条件概率时，可以首先，结合动态规划算法和所述第二特征信息中的信息，计算得到目标条件概率β_s,h,w，其中，β_s,h,w表示从第二二维空间特征分布的位置(h,w)上到达第二文字序列中位于第s个位置的字符的所有子路径的概率和，所述第二二维空间特征分布为所述训练样本图像的空间特征分布。

具体地，计算目标条件概率β_s,h,w的过程可以描述为：利用目标公式计算所述目标条件概率β_s,h,w，所述目标公式表示为：在得到条件概率β_s,h,w之后，就可以利用所述目标条件概率β_s,h,w计算所述第二路径的条件概率。

其中，

Ψ_j,w-1,h表示第二路径转移概率，表示从所述第二二维空间特征分布中的特征点(j，w-1)到所述第二二维空间特征分布中的特征点(h，w)的转移概率，j表示所述第二二维空间特征分布中的一个高度序号，Y*和X'分别表示所述第二文字序列扩展后的标注文字序列和所述第二二维空间特征分布，s表示Y^*中字符的序号，h表示所述第二二维空间特征分布中的另一个高度坐标，w表示所述第二二维空间特征分布中的宽度坐标；h∈[1,2,…H],w∈[1,2,…,W-1]，H表示所述第二二维空间特征分布中的高度信息，W表示所述第二二维空间特征分布中的宽度信息；属于所述第二字符分布概率，表示在位置(h,w)处的特征点属于第二文字序列中的字符的概率；Ψ_j,0,h是根据所述第二初始路径概率Ψ_j,-1,h计算得到的。

需要说明的是，在本实施例中，可以根据公式计算第二路径的条件概率，该公式表示为：

其中，L＝|Y|，Y为Y^*扩展之前用于表征目标序列的向量，L为向量Y取模长之后的数值。

在按照上述所描述的方式得到第二路径的条件概率P(Y/X')之后，就可以按照如下公式计算目标损失函数。

然后，基于所述第二路径的条件概率确定所述目标损失函数Loss。其中，该公式为：Loss＝-lnP(Y/X')。为所述第二路径的条件概率，为所述目标损失函数。

通过上述描述可知，在本实施例中，结合了CTC模型来实现图像中序列的识别，同时，发明人为了解决现有的传统CTC模型的限制，发明人还拓展了传统的CTC模型，提出新的二维CTC模型以直接从二维概率分布计算目标序列的条件概率。更具体地说，在传统CTC模型的基础上，本申请所提供的方法在搜索路径中除时间维之外加入了高度维，路径搜索可以在在不同高度之间进行。搜索路径在不同高度上的选择依然可以指向同一个目标序列，同样地，所有路径的条件概率之和为目标序列的条件概率。

通过将传统一维CTC模型拓展到二维，基于图像的序列识别可以保留图像的二维特征，从二维分布直接计算和标注的相似度，从而大幅提高识别准确率。此外，由于二维信息的存在，这种扩展还提供了处理曲形、偏转和透视变形文字的能力。本申请中二维CTC模型的提出给文字识别方法带来了新的角度，以更加自然的方式处理基于图像的序列识别问题，使得该问题中保留图像的二维分布成为可能。

此外，对于CTC概率的计算过程，简单地计算所有路径的概率再求和的计算方式计算代价非常大，本发明提出了一种动态规划算法，大幅降低了计算二维条件概率的计算复杂度，使得在识别网络中使用二维CTC的计算代价可以几乎不计。

实施例3：

本发明实施例还提供了一种文字识别装置，该文字识别装置主要用于执行本发明实施例上述内容所提供的文字识别方法，以下对本发明实施例提供的文字识别装置做具体介绍。

图7是根据本发明实施例的一种文字识别装置的示意图，如图7所示，该文字识别装置主要包括获取单元10、提取单元20和确定单元30，其中：

获取单元10，用于获取待检测图像；

提取单元20，用于通过采用二维CTC模型训练之后的全卷积神经网络提取所述待检测图像的特征信息，得到第一特征信息；

其中，所述第一特征信息包括以下至少之一：第一字符分布概率、第一路径转移概率和第一初始路径概率；所述第一字符分布概率为所述待检测图像的第一二维空间特征分布中各个特征点属于第一文字序列的概率，所述第一路径转移概率表示在第一二维空间特征分布中高度维度上的路径选择概率；所述第一初始路径概率表示第一二维空间特征分布的各个特征点为第一路径上的起始特征点的概率，所述第一路径为在第一二维空间特征分布中预测出的能够对齐到第一文字序列的路径；

确定单元30，用于利用所述待检测图像的第一特征信息确定所述待检测图像中的所述第一文字序列。

在本发明实施例中，首先，获取待检测图像，并通过采用二维CTC模型训练之后的全卷积神经网络提取待检测图像的特征信息，得到第一特征信息，其中，第一特征信息包括以下至少之一：字符分布概率、路径转移概率和初始路径概率；最后，利用待检测图像的第一特征信息确定待检测图像中的所述第一文字序列。通过上述描述可知，本申请采用二维CTC模型对全卷积神经网络进行训练，并利用训练之后的全卷积神经网络对待检测图像进行序列识别的方式，能够提高全卷积网络的识别精度，进而缓解了现有的图像序列识别方法由于出现注意力偏移导致的序列预测准确度低的技术问题。

可选地，所述全卷积神经网络包括：第一卷积网络、金字塔池化模块和第二卷积网络。

可选地，所述第一卷积网络为残差卷积神经网络，所述残差卷积神经网络中包括多个卷积模块，且所述多个卷积模块中的部分卷积模块包含空洞卷积层。

可选地，提取单元20用于：利用所述第一卷积网络对所述待检测图像进行特征提取，得到第一卷积特征信息；利用所述金字塔池化模块对所述第一卷积特征信息进行池化计算，得到不同尺度的池化特征，并对所述不同尺度的池化特征进行级联处理，得到池化特征信息；利用所述第二卷积网络对所述池化特征信息进行卷积计算，得到所述待检测图像的第一特征信息。

可选地，所述装置还用于：获取训练样本图像；通过初始全卷积神经网络提取所述训练样本图像的特征信息，得到第二特征信息；所述第二特征信息包括以下至少之一：第二字符分布概率、第二路径转移概率和第二初始路径概率，所述第二字符分布概率为所述训练样本图像的第二二维空间特征分布中各个特征点属于第二文字序列中的字符的概率，所述第二路径转移概率表示在第二二维空间特征分布中高度维度上的路径选择概率；所述第二初始路径概率表示第二二维空间特征分布的各个特征点为第二路径上的起始特征点的概率，所述第二路径为在第二二维空间特征分布中预测出的能够对齐到第二文字序列的有效路径；利用所述二维CTC模型对所述训练样本图像的第二特征信息进行处理，得到目标损失函数；通过所述目标损失函数训练所述初始全卷积神经网络，得到所述全卷积神经网络。

可选地，所述装置还用于：利用所述二维CTC模型对所述第二特征信息进行处理，得到第二路径的条件概率；基于所述第二路径的条件概率确定所述目标损失函数。

可选地，所述装置还用于：结合动态规划算法和所述第二特征信息，计算得到目标条件概率β_s,h,w，其中，β_s,h,w表示从第二二维空间特征分布的位置(h,w)上到达第二文字序列中位于第s个位置的字符的所有子路径的概率和，所述第二二维空间特征分布为所述训练样本图像的空间特征分布；利用所述目标条件概率β_s,h,w计算所述第二路径的条件概率。

可选地，所述装置还用于：利用目标公式计算所述目标条件概率β_s,h,w，所述目标公式表示为：

其中，

Ψ_j,w-1,h表示第二路径转移概率，表示从所述第二二维空间特征分布中的特征点(j，w-1)到所述第二二维空间特征分布中的特征点(h，w)的转移概率，j表示所述第二二维空间特征分布中的一个高度序号，Y^*和X'分别表示所述第二文字序列扩展后的标注文字序列和所述第二二维空间特征分布，s表示Y^*中字符的序号，h表示所述第二二维空间特征分布中的另一个高度坐标，w表示所述第二二维空间特征分布中的宽度坐标，h∈[1,2,…H],w∈[1,2,…,W-1]，H表示所述第二二维空间特征分布中的高度信息，W表示所述第二二维空间特征分布中的宽度信息；属于所述第二字符分布概率，表示在位置(h,w)处的特征点属于第二文字序列中的字符Y_s ^*的概率；Ψ_j,0,h是根据所述第二初始路径概率Ψ_j,-1,h计算得到的。

可选地，所述装置还用于：利用公式Loss＝-lnP(Y/X')确定所述目标损失函数，其中，P(Y/X')为所述第二路径的条件概率，Loss为所述目标损失函数。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法实施例中任一实施例所述的方法的步骤。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

此外，本实施例提供了一种处理设备，该设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例提供的姿势识别方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统具体工作过程，可以参考前述实施例中的对应过程，在此不再赘述。

本发明实施例所提供的一种文字识别方法、装置、电子设备和存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对齐限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对齐中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文字识别方法，其特征在于，包括：

获取待检测图像，并通过采用二维CTC模型训练之后的全卷积神经网络提取所述待检测图像的特征信息，得到第一特征信息；

其中，所述第一特征信息包括以下至少之一：第一字符分布概率、第一路径转移概率和第一初始路径概率；所述第一字符分布概率为所述待检测图像的第一二维空间特征分布中各个特征点属于第一文字序列的概率，所述第一路径转移概率表示在第一二维空间特征分布中高度维度上的路径选择概率；所述第一初始路径概率表示第一二维空间特征分布的各个特征点为第一路径上的起始特征点的概率；所述第一路径为在第一二维空间特征分布中预测出的能够对齐到第一文字序列的路径；

利用所述待检测图像的第一特征信息确定所述待检测图像中的所述第一文字序列。

2.根据权利要求1所述的方法，其特征在于，所述全卷积神经网络包括：第一卷积网络、金字塔池化模块和第二卷积网络。

3.根据权利要求2所述的方法，其特征在于，所述第一卷积网络为残差卷积神经网络，所述残差卷积神经网络中包括多个卷积模块，且所述多个卷积模块中的部分卷积模块包含空洞卷积层。

4.根据权利要求2或3所述的方法，其特征在于，通过采用二维CTC模型训练之后的全卷积神经网络提取所述待检测图像的特征信息，得到第一特征信息包括：

利用所述第一卷积网络对所述待检测图像进行特征提取，得到第一卷积特征信息；

利用所述金字塔池化模块对所述第一卷积特征信息进行池化计算，得到不同尺度的池化特征，并对所述不同尺度的池化特征进行级联处理，得到池化特征信息；

利用所述第二卷积网络对所述池化特征信息进行卷积计算，得到所述待检测图像的第一特征信息。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取训练样本图像；

通过初始全卷积神经网络提取所述训练样本图像的特征信息，得到第二特征信息；所述第二特征信息包括以下至少之一：第二字符分布概率、第二路径转移概率和第二初始路径概率，所述第二字符分布概率为所述训练样本图像的第二二维空间特征分布中各个特征点属于第二文字序列中的字符的概率，所述第二路径转移概率表示在第二二维空间特征分布中高度维度上的路径选择概率；所述第二初始路径概率表示第二二维空间特征分布的各个特征点为第二路径上的起始特征点的概率，所述第二路径为在第二二维空间特征分布中预测出的能够对齐到第二文字序列的有效路径；

利用所述二维CTC模型对所述训练样本图像的第二特征信息进行处理，得到目标损失函数；

通过所述目标损失函数训练所述初始全卷积神经网络，得到所述全卷积神经网络。

6.根据权利要求5所述的方法，其特征在于，利用所述二维CTC模型对所述训练样本图像的第二特征信息进行处理，得到目标损失函数包括：

利用所述二维CTC模型对所述第二特征信息进行处理，得到第二路径的条件概率；

基于所述第二路径的条件概率确定所述目标损失函数。

7.根据权利要求6所述的方法，其特征在于，利用所述二维CTC模型对所述第二特征信息进行处理，得到第二路径的条件概率包括：

结合动态规划算法和所述第二特征信息，计算得到目标条件概率β_s,h,w，其中，β_s,h,w表示从第二二维空间特征分布的位置(h,w)上到达第二文字序列中位于第s个位置的字符的所有子路径的概率和，所述第二二维空间特征分布为所述训练样本图像的空间特征分布；

利用所述目标条件概率β_s,h,w计算所述第二路径的条件概率。

8.根据权利要求7所述的方法，其特征在于，结合动态规划算法和所述第二特征信息，计算得到目标条件概率包括：

利用目标公式计算所述目标条件概率β_s,h,w，所述目标公式表示为：

其中，

Ψ_j,w-1,h表示所述第二路径转移概率，表示从所述第二二维空间特征分布中的特征点(j，w-1)到所述第二二维空间特征分布中特征点(h，w)的转移概率；j表示所述第二二维空间特征分布中的一个高度坐标，Y^*和X'分别表示第二文字序列扩展后的标注文字序列和所述第二二维空间特征分布，s表示Y^*中字符的序号，h表示所述第二二维空间特征分布中的另一个高度坐标，w表示所述第二二维空间特征分布中的宽度坐标；h∈[1,2,…H],w∈[1,2,…,W-1]，H表示所述第二二维空间特征分布中的高度信息，W表示所述第二二维空间特征分布中的宽度信息；属于所述第二字符分布概率，表示在位置(h,w)处的特征点属于第二文字序列中的字符的概率；Ψ_j,0,h是根据所述第二初始路径概率Ψ_j,-1,h计算得到的。

9.根据权利要求6所述的方法，其特征在于，基于所述第二路径的条件概率确定所述目标损失函数包括：

利用公式Loss＝-lnP(Y/X')确定所述目标损失函数，其中，P(Y/X')为所述第二路径的条件概率，Loss为所述目标损失函数。

10.一种文字识别装置，其特征在于，包括：

获取单元，用于获取待检测图像；

提取单元，用于通过采用二维CTC模型训练之后的全卷积神经网络提取所述待检测图像的特征信息，得到第一特征信息；

确定单元，用于利用所述待检测图像的第一特征信息确定所述待检测图像中的所述第一文字序列。

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至9中任一项所述的方法的步骤。

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至9任一项所述的方法的步骤。