CN111062376A

CN111062376A - 基于光学字符识别与纠错紧耦合处理的文本识别方法

Info

Publication number: CN111062376A
Application number: CN201911310793.6A
Authority: CN
Inventors: 韦建; 周异; 陈凯; 何建华
Original assignee: Shanghai Shenyao Intelligent Technology Co ltd; Xiamen Shangji Network Technology Co ltd
Current assignee: Shanghai Shenyao Intelligent Technology Co ltd; Xiamen Shangji Network Technology Co ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-24

Abstract

本发明涉及基于光学字符识别与纠错紧耦合处理的文本识别方法，通过神经网络模型识别文本图像，利用识别文本图像时产生的内部信息，通过文字束搜索转录和词库选择处理，选择最优的候选文本句子，通过神经网络模型进行纠错，输出更准确的文本识别结果。将光学字符识别与文本纠错紧密耦合，相对现有松耦合的文本识别方法能有效地提高文本纠错的性能，提高文本识别的准确度。

Description

基于光学字符识别与纠错紧耦合处理的文本识别方法

技术领域

本发明涉及基于光学字符识别与纠错紧耦合处理的文本识别方法，属于 OCR识别领域。

背景技术

随着近几年来信息处理技术，基于机器深度学习进行文字定位和文字识别的光学字符识别(OCR)系统的性能得到极大提高，在某些领域文字识别的准确率接近人工识别的水平，帮助实现多种场景应用的落地，比如身份证的识别、车牌的识别。在一些商业应用领域，比如票据报销和银行交易等方面，OCR技术也在发挥重要的作用。OCR识别需要针对识别结果进行纠错确保结果的正确性，利用机器自动文本纠错是一种重要的途径，目前主要有两种主流方法：将语言错误归类然后采用分类方法对这些错误类别进行识别方法，以及借鉴统计机器翻译的思想将语言纠错视为机器翻译过程的方法。

现有技术中，基于机器深度学习的OCR识别与纠错的处理两个环节是松耦合的，如图2所示，OCR识别模块输出一串文字，文本纠错模块以该文字串作为输入，纠正其中可能存在的识别错误，除了文本纠错模块以OCR识别模块的输出作为输入之外，两个模块之间没有其它关联，这种松耦合的关系使得识别的精确度不高，难以胜任复杂的识别场景。

发明内容

为了解决上述技术问题，本发明提供基于光学字符识别与纠错紧耦合处理的文本识别方法，利用识别文本图像时产生的内部信息，通过文字束搜索转录和词库选择处理，选择最优的候选文本句子进行纠错，输出最终文本识别结果，有效地提高文本纠错的性能，提高文本识别的准确度

本发明的技术方案：

基于光学字符识别与纠错紧耦合处理的文本识别方法，包括如下步骤：

S1：输入待识别的文本图像。

S2：接收所述文本图像，通过神经网络识别模型对所述文本图像进行光学字符识别，输出经过识别的文本信息和字符概率矩阵，其中，所述字符概率矩阵记录不同时序不同字符出现的概率，是神经网络识别模型识别文本过程中产生的辅助信息。

S3：对所述字符概率矩阵执行束搜索转录得到候选文本集合，其中，束是对每个时间步下的某个字符组成的字符序列进行处理后得到的文本结果，束搜索转录通过迭代式的寻找候选文字的束集合并对其进行评分排序。

S4：对所述候选文本集合执行词库选择操作，将所述候选文本集合中的文本按顺序与预先设置的词库进行文字比对，输出经过选择的最优文本句子。

S5：通过神经网络纠错模型对所述最优文本句子进行纠错，对输入的最优文本句子进行语义判断和词库匹配处理，纠正句子里面可能存在的字符识别错误，输出经过纠错的最终文本信息。

所述S2步骤中，所述神经网络识别模型为CRNN文字识别模型，所述 CRNN文字识别模型的骨干网络为卷积神经网络，所述CRNN文字识别模型的工作步骤具体为：

S21：所述卷积神经网络对所述文本图像提取文字特征，通过卷积层、池化层，获得文字特征图，再将文字特征图按列切分转化生成文本特征序列，每一列的数据表示该列所表示的字符的特征。

S22：LSTM网络接收所述文本特征序列，执行序列建模处理并输出建模序列。

S23：SoftMax分类器接收所述建模序列，对所述建模序列上的每一个时间步长预测可能出现的字符及其概率，所述SoftMax分类器的输出为一个矩阵，所述矩阵表示所有字符在每个时间步长上出现的概率，记为字符概率矩阵 Ppred，大小为Nc×T，其中，Nc表示文本可能出现的字符个数，T表示文本的时间步长。

S24；对SoftMax分类器输出的信息进行整合处理，得到经过识别的文本信息。

所述CRNN文字识别模型采用的卷积神经网络为残差网络ResNet-34。

所述CRNN文字识别模型在训练过程中采用CTC损失函数计算模型损失，并执行校正操作。

S2步骤中，通过深度学习文本检测模型进行文本位置定位，所述神经网络识别模型根据文本位置进行文本识别。

所述S3步骤中的束搜索转录具体为：

S31：接收所述字符概率矩阵，从第一个时间步开始，按照时间步的顺序迭代寻找、扩大以及合并不同的字符路径，得到包含不同文字束的候选文字集合。

S32：对每个文字束，计算其当前时间步的分数，并以此对候选文字集合进行排序，一个文字束b在时间步t(t>＝1)的分数公式为：

Pscore(b,t)＝Pd(b,t)+Pnd(b,t)，

其中，Pd(b,t)代表所有属于b的以‘-’为末尾字符的路径的概率和，Pnd(b,t)代表其他不以‘-’为末尾字符的路径的概率和。

S33：所述文字束b的所属路径进入下一个时间步，在其末尾加入一个新的字符，并根据字符情况更新文字束b分数公式中或的数值。

当加入的新的字符是‘-’的时候，相应的束不会变化，该文字束的分数更新如下：

Pd(b,t+1)＝Pd(b,t+1)+Pscore(b,t)×Ppred(′blank′,t+1)，

其中，Pd(b,t+1)为在t+1时刻所有属于b的以‘-’为末尾字符的路径的概率和，Ppred('blank',t+1)为‘blank’字符在t+1时刻出现的概率，即非字符标记‘-’的概率。

当加入的新字符和该束的末尾字符相同且该字符不是‘-’，相应的文字束也不会发生变化，该文字束的分数更新如下：

Pnd(b,t+1)＝Pnd(b,t+1)+Pnd(b,t)×Ppred(b,t+1)，

其中，Pnd(b,t+1)为在t+1时刻其他不以‘-’为末尾字符的路径的概率和， Ppred(b,t+1)为字符‘b’在t+1时刻出现的概率。

当加入的字符c和该束的末尾字符不同，则文字束发生变化，该文字束的分数更新如下：

Pnd(b+c,t+1)＝Pnd(b+c,t+1)+Pscore(b,t)×Ppred(c,t+1)，

其中，Pnd(b+c,t+1)为在t+1时刻代表所有不属于b+c的以‘-’为末尾字符的路径的概率和，Pnd(b+c,t)为在t时刻代表所有不属于b+c的以‘-’为末尾字符的路径的概率和，Ppred(c,t+1)为字符c在t+1时刻出现的概率。

当加入的字符c和原束的末尾字符相同且相关路径的末尾是‘-’，则文字束发生变化，该文字束的分数更新如下：

Pnd(b+c,t+1)＝Pnd(b+c,t+1)+Pd(b,t)×Ppred(c,t+1)；

S34：完成所有的时间步，得到最终的候选文本集合，终止束搜索转录。

S33步骤中，预先设置一个字符概率阈值，加入新字符时，从当前时间步下概率大于所述字符概率阈值的字符中进行选择。

所述S4步骤中的词库选择具体为：

S41：接收候选文本集合，所述候选文本集合里面的文本句子按分数排序。

S42：从所述候选文本集合里面选择第一个文本句子作为待处理文本句子。

S43：判断待处理文本句子是否含有词库未收录的词：

当待处理文本句子里面没有词库未收录的单词，则所述待处理文本句子通过词库检查，将句子作为最优的文本句子，并进入步骤S46。

当待处理文本句子里面含有词库未收录的单词，则进入下一步。

S44：如果候选文本集合里面还有未处理的文本句子，则选择未处理句子里面分数最高的一个作为待处理文本句子，并转入S43；否则，进入下一步。

S45：如果所有候选文本句子都没有通过词库检查，则将候选文本集合里面分数最高的文本句子作为最优的文本句子，转入下一步。

S46：输出选择的最优的文本句子。

所述S5步骤中，所述神经网络纠错模型为基于Seq2Seq的语言模型，所述 Seq2Seq语言模型内部采用的神经网络纠错器，其包含一个内置编码器和对应解码器的LSTM序列模型，具体的纠错步骤为：

S51：搜集训练样本，所述训练文本包含错误的OCR识别文本和对应的正确的纠错文本。

S52：对错误的OCR识别文本进行字粒度分割，逐个字符传入LSTM序列模型的编码器，并输入所述文本的特征序列，经过编码和对应解码操作，解码器逐个解码输出相应的纠错字符。

S53：计算解码输出的结果和正确的目标纠错文本之间的误差，采用后向误差传递和优化器去修正模型内部的参数，最终达到收敛，完成模型的训练。

S54：将最优文本句子输入训练好的Seq2Seq语言模型，通过编码器生成一个固定长度的编码特征，然后将从编码器得到的编码特征传入解码器，解码器对编码特征进行解码，输出经过纠错的最终文本信息。

采用候选文本句子文字集监督机制进行纠错后处理，在S5步骤中，当完成步骤S54的纠错后，所述经过纠错的最终文本有至少一个字不在所述候选文本集合里所有字组成的集合里时，则重新进行纠错。

本发明具有如下有益效果：

1、本发明提供基于光学字符识别与纠错紧耦合处理的文本识别方法，通过光学字符识别与文字纠错紧耦合处理，充分利用识别文本过程中产生的识别信息，通过文字束搜索转录和词库选择处理，选择最优的候选文本句子进行纠错处理，使得识别结果更精确；

2、进一步地，使用基于深度学习的神经网络，尤其是CRNN文字识别模型进行文本识别，识别结果精度高，模型更成熟；

3、进一步地，利用基于Seq2Seq语言模型纠错语义的纠错方法进行纠错，纠错速度快，精度高，模型更成熟；

4、进一步地，采用候选文本句子文字集监督机制进行纠错后处理，用以避免误纠问题，可以有效地增加纠错模块的可靠性，提高整体纠错模块的灵活度。

5、进一步地，本发明可以针对不同的场景，选择合适的各类模型进行文本识别和纠错，适用范围广。

附图说明

图1为本发明基于光学字符识别与纠错紧耦合处理的文本识别方法的流程示意图；

图2为现有技术的文本识别方法流程图；

图3为本发明基于光学字符识别与纠错紧耦合处理的文本识别方法的一个实施例的流程示意图；

图4为本发明基于光学字符识别与纠错紧耦合处理的文本识别方法的一个实施例中的待识别文字片段样本示意图；

图5为本发明基于光学字符识别与纠错紧耦合处理的文本识别方法的一个实施例中束搜索转录文字束公式计算示意图；

图6为本发明基于光学字符识别与纠错紧耦合处理的文本识别方法的一个实施例中采用的Seq2Seq语言模型的字粒度的编码-解码纠错示意图；

图7为本发明基于光学字符识别与纠错紧耦合处理的文本识别方法的一个实施例中采用的Seq2Seq语言模型的编码-解码纠错示意图。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一

如图1所示，基于光学字符识别与纠错紧耦合处理的文本识别方法，包括如下步骤：

S1：输入待识别的文本图像。

所述神经网络模型为CRNN文字识别模型，其输出的字符概率矩阵是模型在对文字依次进行识别时，预测到当前位置可能出现的字符的概率，也即按时序运行时的字符预测概率，简单来说，模型预测时取各时间序列上概率最大的字符组成预测结果。在本实施例中，输入图4的文本图像，“无锡亿特不锈钢有限公司”，CRNN模型可能输出预测的文本“大锡亿特个锈钢有限公同”。在传统的松耦合文本识别方法里，OCR预测的文本“大锡亿特个锈钢有限公同”将被直接输入纠错模块进行纠错处理。在紧耦合方法里面，OCR预测将字符概率矩阵输出给负责耦合处理的部分。字符概率矩阵具有如表1所示的形式。

表1：文字识别模型输出字符概率矩阵Ppred示例

表1显示了字符概率矩阵中的部分序列,省略了后续几个时间步的概率，只用来说明矩阵的构成。其中，横列表示各个时间步上所述字符出现的概率。纵列表示模型在预测过程中判断出现的字符。比如在时间步t0，模型预测当前字符识“大”的概率为0.55，而正确的字符“无”为0.38，神经网络识别模型输出的文本信息第一位置为“大”，而这明显是错误的，原因在于图片中有一条横线干扰，导致识别错误，这就需要后续进行纠错。表中“-”符号是模型判断当前可能出现的空符。

CRNN识别模型运用现有技术，卷积层负责提取图象特征，池化层负责缩小特征图大小，一个神经网络包含多个卷积层和池化层，层数根据使用的残差网络而有所不同，最终将一个文本图像，转化为一个序列，或者也可以理解为一个矩阵(这个矩阵和后面的字符概率矩阵不是一个矩阵)，这个序列每一列上的数字表示机器所理解的字符特征，一般为512维的数组。下文LSTM网络负责将这个特征序列处理成Softmax分类器所能理解的规格序列，所以需要进行建模处理。

这里NC和T是描述矩阵的大小，结合表一理解，NC就是所有预测的字符，不同字符在不同位置预测概率不同，T就是预测文本时进行的时间步，每一步预测一个位置上的字符。

文字识别模块的任务是对文本进行文字识别，输出识别的文本以及选择好的识别器内部的信息。具体选择哪些类型的识别器内部的信息，取决于所采用的文本纠错模块和耦合模块以及相应的纠错性能。在文字识别任务方面，同样有几种比较成熟的深度学习模型可以选择，比如主流的采用卷积神经网络和长短时记忆网络(long short term memory,LSTM)以及CTC的CRNN模型，以及基于注意力机制的模型。

在CRNN模型中，卷积神经网络具有多个阶段(stage)，每个阶段都包含一定数目的卷积模块(提取图象特征)和池化层(缩小特征图大小)等。

CRNN模型的训练和预测均可以采用传统的处理，收集一定数量的定位好的文字片段训练样本，比如200000张。每个训练样本包括文字片段图片和文字片段中文字的标注。

CRNN模型经过训练后，可以用于文本的识别。在对SoftMax分离器输出进行处理后，可以直接得到预测的文本。

根据待处理的扫描的文档图片里面文字的分布情况，可以按照需要选择文本定位子模块。如果待处理的文档图片里面的文字分布已经适合神经网络识别模型处理，可以不需要使用文本定位子模块。如果需要，可以使用很多已经成熟的深度学习模型用于文本定位任务，比如CTPN、EAST、FastText等。

束搜索技术的功能是从文字识别模型输出的字符预测概率矩阵获取多个识别文本句子，并按照句子的出现概率排序，组成候选集。先介绍下路径和束的概念，路径是以每个时间步下的某个字符组成的字符序列，如‘无无’、‘无- 锡’等。束是对路径进行处理后得到的最终的文本结果。一般地，对路径的处理方式包括去除重复字符和背景字符‘-’(blank)。比如‘无无’经过处理后得到“无”，‘无-锡’经过处理后得到“无锡”。为了方便区分，后续用单引号标注路径，双引号标注文字束。文字束搜索是一种迭代式的寻找候选文字束集合并对其进行评分的过程，简单来说，通过遍历所有时间步上的字符，组成理论上的全部文字集合，并计算所有文字的分数，按照分数大小进行排序，分数越高一定程度上可以认为这组文字的可信度越高，分数计算公式在下文详述。

所述S3步骤中的束搜索转录具体为：

Pscore(b,t)＝Pd(b,t)+Pnd(b,t)，

其中，Pd(b,t)代表所有属于b的以‘-’为末尾字符的路径的概率和， Pnd(b,t)代表其他不以‘-’为末尾字符的路径的概率和。

Pd(b,t+1)＝Pd(b,t+1)+Pscore(b,t)×Ppred(′blank′,t+1)，

Pnd(b,t+1)＝Pnd(b,t+1)+Pnd(b,t)×Ppred(b,t+1)，

其中，Pnd(b,t+1)为在t+1时刻其他不以‘-’为末尾字符的路径的概率和，Ppred(b,t+1)为字符‘b’在t+1时刻出现的概率。

Pnd(b+c,t+1)＝Pnd(b+c,t+1)+Pscore(b,t)×Ppred(c,t+1)，

Pnd(b+c,t+1)＝Pnd(b+c,t+1)+Pd(b,t)×Ppred(c,t+1)；

这里是给束搜索转录设置条件，减少计算量和候选文本量，剔除可能性很小的候选文本：选字的时候不是把这一步所有可能出现的字都包含进去，这计算可能性较大的那几个字，比如最后一步从公到司，只计算司，同，冈这些大几率的字，而其他的不计算。

对于文字束搜索转录的计算方法进行举例说明，以图4所示文字片段“无锡亿特不锈钢有限公司”，带入表1中的数据计算t0到t1束“无”的分数，如图5所示，包括两个时间步(t0,t1)，两个字符'大','无'以及blank标记(图中用'-' 表示)。然后圆球上的数字表示相应字符在当前时间步上出现的概率。

第一个时间步t0,可以得到束“大”的概率为：

Pscore(大,t0)＝0.55，其中Pd(大,t0)＝0,Pnd(大,t0)＝0.55。

束“无”的概率为：

Pscore(无,t0)＝0.38,其中Pd(无,t0)＝0,Pnd(无,t0)＝0.38。

束“-”的概率为：

Pscore(blank,t0)＝0.02,Pd(blank,t0)＝0.02,Pnd(blank,t0)＝0。

进入下一个时间步t1,当想要计算束“无”的概率：

Pscore(无,t1)＝Pd(无,t1)+Pnd(无,t1)，

其中，

Pd(无,t1)＝Pscore(无,t0)*Ppred(blank,t1)＝0.38*0.80＝0.304，

Pnd(无,t1)＝Pscore(blank,t0)*Ppred(无,t1)+Pnd(无,t0)*Ppred(无,t1) ＝0.02*0.04+0.38*0.04＝0.016。

最终Pscore(无,t1)＝0.304+0.016＝0.32。

按照字符概率矩阵中的数值继续进行计算，直至完成所有束的分数计算。

经过文字束搜索之后，输出一个候选束集合。在本实施例中，候选束集合里面的文字束(以下称为文本句子)按照分数从高到低排列分别为：

“大锡亿特个锈钢有限公同”，

“大锡亿特个锈钢有限公司”，

“大锡亿特不锈钢有限公同”，

“无锡亿特个锈钢有限公同”等。

词库选择算法的目的就是从候选的文本句子集合里面选择出最优的一个文本句子，词库算法选择的文本句子将作为输出送到神经网络纠错模型进行纠错处理。

词库可以从目前公开的大规模文本语料中直接获取，比如人民日报、维基百科数据等等。另外也可以根据应用场景收集领域内的相关文本数据作为词库的来源。得到原始的语料之后，采用常用的分词工具对文本进行分词、去重，得到最终的词库。在本实施例中，词库根据目标公司财务系统中的数据进行获取，将财务系统中所有的账务往来公司的名称作为词库构成组件，分词一般选择保留常见的名词，比如地名，商品名，组织结构名称等，再根据百科数据等常见数据库扩充词组范围，例如增加全国城市名称。

在实施例中，首先对第一个候选文本“大锡亿特个锈钢有限公同”进行分词，得到‘大锡’、‘亿’、‘特’、‘个’、‘锈钢’、‘有限’、‘公同’，逐个判断是否收录于词库里。当所有词语都在词库里出现，则相应的候选文本通过词库检查，作为结果输出。如果第一个候选文本没有通过检查，则顺延到下一个文本。

在本实例中，第一个候选文本中的‘大锡’，‘公同’未通过词库检查，顺延至下一文本继续检查。因为所有的候选文本都没有通过检查，所以仍旧把第一个候选文本“大锡亿特个锈钢有限公同”作为结果输出。

所述S4步骤中的词库选择具体为：

S43：判断待处理文本句子是否含有词库未收录的词：

S46：输出选择的最优的文本句子。

耦合是将神经网络识别模型输出的更丰富的信息进行适当的处理，将信息有效地转换成神经网络纠错模型可以处理的内容和格式。神经网络识别模型可以根据需要输出不同种类的内部处理信息，比如特征图以及字符预测概率矩阵 Ppred等。针对选择的不同的神经网络识别模型输出的内部处理信息，负责耦合处理的部分将相应地设计和采用不同的处理方法。在具体工程实现上，负责耦合处理的部分可以作为一个单独的模块独立实现，也可以和文本纠错一起实现。在本实施例中，负责耦合处理的部分主要是束搜索转录和词库选择。

语义判断是通过神经网络模型学习大量的常见语句，使得模型能够理解不同词语组合中的意义，配合上常用词库中的近义词，同义词等词组，可以在基本理解输入的词句所表达的意义，并且替换错误的词句，达到纠错的目的。在本实施例中，神经网络模型的训练样本来自目标公司的财务系统，收录大量公司，单位，商品名录词条，并按照各种公开企业名录和商品列表进行扩充。

所述神经网络纠错模型采用Seq2Seq语言模型，其结构是一个编码-解码的 LSTM序列模型。其主要思路是把最优文本句子看作成待翻译的源语句，将纠错后的文本看作是翻译后的目标语句。

如图6和图7所示，将最优文本句子“大锡亿特个锈钢有限公同”输入至 Seq2Seq语言模型中，进行字粒度分割后得到11个单字符，分别送入LSTM序列模型的编码器中，LSTM序列模型是长短期记忆网络(LSTM，Long Short-Term Memory)，是一种时间循环神经网络。LSTM序列模型的编码器负责将输入的11个字符序列压缩成指定长度的向量，即图7中的一列数组，这个向量看成是这个序列的语义，是模型经过语义识别后的分析结果，这个过程称为编码。语义向量是模型内部的机器语言，可以理解为模型认为的当前语句可能要表达几种含义。

解码器接收语义向量，经过LSTM序列模型的依次翻译，每一次翻译都将上一个翻译字符结合语义向量整合作为输入进入下一个字符翻译过程，最终输出经过纠错的正确文本“无锡亿特不锈钢有限公司”。

文本纠错的功能是对输入的文本句子进行处理，纠正句子里面可能存在的字符识别错误，提高文本识别的正确率。对文本句子进行纠错的方法有很多，比如基于规则的词库匹配方法和基于深度学习的RNN序列模型等等。本发明提出一种基于Seq2Seq语言模型纠错语义的纠错方法为例，以下将描述基于 Seq2Seq语言模型的文本纠错的处理过程。需要指出的是，文本纠错模块可以采用其它的纠错方法。基于Seq2Seq语言模型的纠错器，训练可以选择地利用 OCR识别器的识别结果，可以看作是专门为识别器定制而成。

本发明提出的Seq2Seq语言模型纠错方法里面采用的神经网络纠错器，其结构是一个编码-解码的LSTM序列模型。其主要思路是把OCR或者耦合模块输出的文本句子看作成待翻译的源语句，将纠错后的文本看作是翻译后的目标语句。

首先候选文本集合包含了所有可能的字，即所有正确的字和相似的字，当纠错后的句子里出现了没有的字，说明出现了纠错模型自己生造的字，比如图4 这个文本最后一个字“司”，可能是同，司，冈等等，但是纠错后这个位置变成了“会”，说明纠错明显错误，需要重新纠错。

如图3所示，神经网络纠错模型还可以接受神经网络识别模型输出的识别文本，作为对照，进行纠错。

本发明提供基于光学字符识别与纠错紧耦合处理的文本识别方法，通过OCR识别模块与纠错模块紧耦合处理，充分利用OCR识别模块识别文本过程中产生的识别信息，通过包含文字束搜索和词库选择的耦合模块进行处理，选择最优的候选文本句子，输入到纠错模块进行纠错处理，使得识别结果更精确； OCR识别模块使用CRNN文字识别模型进行文本识别，识别结果精度高，模型更成熟；纠错模块利用基于Seq2Seq语言模型纠错语义的纠错方法进行纠错，纠错速度快，精度高，模型高成熟；采用候选文本句子文字集监督机制进行纠错后处理，用以避免误纠问题，可以有效地增加纠错模块的可靠性，提高整体纠错模块的灵活度；本发明可以针对不同的场景，选择合适的各类模型进行文本识别和纠错，适用范围广。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包含在本发明的专利保护范围内。

Claims

1.基于光学字符识别与纠错紧耦合处理的文本识别方法，其特征在于，包括如下步骤：

S1：输入待识别的文本图像；

S2：接收所述文本图像，通过神经网络识别模型对所述文本图像进行光学字符识别，输出经过识别的文本信息和字符概率矩阵，其中，所述字符概率矩阵记录不同时序不同字符出现的概率，是神经网络识别模型识别文本过程中产生的辅助信息；

S3：对所述字符概率矩阵执行束搜索转录得到候选文本集合，其中，束是对每个时间步下的某个字符组成的字符序列进行处理后得到的文本结果，束搜索转录通过迭代式的寻找候选文字的束集合并对其进行评分排序；

S4：对所述候选文本集合执行词库选择操作，将所述候选文本集合中的文本按顺序与预先设置的词库进行文字比对，输出经过选择的最优文本句子；

2.根据权利要求1所述的基于光学字符识别与纠错紧耦合处理的文本识别方法，其特征在于：所述S2步骤中，所述神经网络识别模型为CRNN文字识别模型，所述CRNN文字识别模型的骨干网络为卷积神经网络，所述CRNN文字识别模型的工作步骤具体为：

S21：所述卷积神经网络对所述文本图像提取文字特征，通过卷积层、池化层，获得文字特征图，再将文字特征图按列切分转化生成文本特征序列，每一列的数据表示该列所表示的字符的特征；

S22：LSTM网络接收所述文本特征序列，执行序列建模处理并输出建模序列；

S23：SoftMax分类器接收所述建模序列，对所述建模序列上的每一个时间步长预测可能出现的字符及其概率，所述SoftMax分类器的输出为一个矩阵，所述矩阵表示所有字符在每个时间步长上出现的概率，记为字符概率矩阵Ppred，大小为Nc×T，其中，Nc表示文本可能出现的字符个数，T表示文本的时间步长；

3.根据权利要求2所述的基于光学字符识别与纠错紧耦合处理的文本识别方法，其特征在于：所述CRNN文字识别模型采用的卷积神经网络为残差网络ResNet-34。

4.根据权利要求2所述的基于机器学习的文本识别方法，其特征在于：所述CRNN文字识别模型在训练过程中采用CTC损失函数计算模型损失，并执行校正操作。

5.根据权利要求1所述的基于机器学习的文本识别方法，其特征在于：S2步骤中，通过深度学习文本检测模型进行文本位置定位，所述神经网络识别模型根据文本位置进行文本识别。

6.根据权利要求2所述的基于光学字符识别与纠错紧耦合处理的文本识别方法，其特征在于：所述S3步骤中的束搜索转录具体为：

S31：接收所述字符概率矩阵，从第一个时间步开始，按照时间步的顺序迭代寻找、扩大以及合并不同的字符路径，得到包含不同文字束的候选文字集合；

Pscore(b,t)＝Pd(b,t)+Pnd(b,t)，

其中，Pd(b,t)代表所有属于b的以‘-’为末尾字符的路径的概率和，Pnd(b,t)代表其他不以‘-’为末尾字符的路径的概率和；

S33：所述文字束b的所属路径进入下一个时间步，在其末尾加入一个新的字符，并根据字符情况更新文字束b分数公式中或的数值：

Pd(b,t+1)＝Pd(b,t+1)+Pscore(b,t)×Ppred(′blank′,t+1)，

其中，Pd(b,t+1)为在t+1时刻所有属于b的以‘-’为末尾字符的路径的概率和，Ppred('blank',t+1)为‘blank’字符在t+1时刻出现的概率，即非字符标记‘-’的概率；

Pnd(b,t+1)＝Pnd(b,t+1)+Pnd(b,t)×Ppred(b,t+1)，

其中，Pnd(b,t+1)为在t+1时刻其他不以‘-’为末尾字符的路径的概率和，Ppred(b,t+1)为字符‘b’在t+1时刻出现的概率；

Pnd(b+c,t+1)＝Pnd(b+c,t+1)+Pscore(b,t)×Ppred(c,t+1)，

其中，Pnd(b+c,t+1)为在t+1时刻代表所有不属于b+c的以‘-’为末尾字符的路径的概率和，Pnd(b+c,t)为在t时刻代表所有不属于b+c的以‘-’为末尾字符的路径的概率和，Ppred(c,t+1)为字符c在t+1时刻出现的概率；

Pnd(b+c,t+1)＝Pnd(b+c,t+1)+Pd(b,t)×Ppred(c,t+1)；

7.根据权利要求6所述的基于光学字符识别与纠错紧耦合处理的文本识别方法，其特征在于：S33步骤中，预先设置一个字符概率阈值，加入新字符时，从当前时间步下概率大于所述字符概率阈值的字符中进行选择。

8.根据权利要求1所述的基于光学字符识别与纠错紧耦合处理的文本识别方法，其特征在于：所述S4步骤中的词库选择具体为：

S41：接收候选文本集合，所述候选文本集合里面的文本句子按分数排序；

S42：从所述候选文本集合里面选择第一个文本句子作为待处理文本句子；

S43：判断待处理文本句子是否含有词库未收录的词：

当待处理文本句子里面没有词库未收录的单词，则所述待处理文本句子通过词库检查，将句子作为最优的文本句子，并进入步骤S46；

当待处理文本句子里面含有词库未收录的单词，则进入下一步；

S44：如果候选文本集合里面还有未处理的文本句子，则选择未处理句子里面分数最高的一个作为待处理文本句子，并转入S43；否则，进入下一步；

S45：如果所有候选文本句子都没有通过词库检查，则将候选文本集合里面分数最高的文本句子作为最优的文本句子，转入下一步；

S46：输出选择的最优的文本句子。

9.根据权利要求1所述的基于光学字符识别与纠错紧耦合处理的文本识别方法，其特征在于：所述S5步骤中，所述神经网络纠错模型为基于Seq2Seq的语言模型，所述Seq2Seq语言模型内部采用的神经网络纠错器，其包含一个内置编码器和对应解码器的LSTM序列模型，具体的纠错步骤为：

S51：搜集训练样本，所述训练文本包含错误的OCR识别文本和对应的正确的纠错文本；

S52：对错误的OCR识别文本进行字粒度分割，逐个字符传入LSTM序列模型的编码器，并输入所述文本的特征序列，经过编码和对应解码操作，解码器逐个解码输出相应的纠错字符；

S53：计算解码输出的结果和正确的目标纠错文本之间的误差，采用后向误差传递和优化器去修正模型内部的参数，最终达到收敛，完成模型的训练；

10.根据权利要求9所述的基于光学字符识别与纠错紧耦合处理的文本识别方法，其特征在于，采用候选文本句子文字集监督机制进行纠错后处理，在S5步骤中，当完成步骤S54的纠错后，所述经过纠错的最终文本有至少一个字不在所述候选文本集合里所有字组成的集合里时，则重新进行纠错。