CN110598566A

CN110598566A - 图像处理方法、装置、终端和计算机可读存储介质

Info

Publication number: CN110598566A
Application number: CN201910760632.0A
Authority: CN
Inventors: 贺涛; 欧阳一村; 曾志辉; 邢军华; 许文龙
Original assignee: ZTE ICT Technologies Co Ltd
Current assignee: ZTE ICT Technologies Co Ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2019-12-20

Abstract

本发明提供了一种图像处理方法、装置、终端、和计算机可读存储介质，其中，图像处理方法包括：将指定格式的图像输入到文本检测模型中，文本检测模型输出图像中的文本内容和文本内容对应的坐标位置信息；统计分析坐标位置信息，根据坐标位置信息设立阈值，根据阈值确定文字信息对应的位置框，过滤掉位置框以外的非文字信息。通过本发明的技术方案将文本检测模型当作过滤器对图像中的非文字信息进行过滤，提升对文本内容检测的准确性和计算速度。

Description

图像处理方法、装置、终端和计算机可读存储介质

技术领域

本发明涉及图像处理领域，具体而言，涉及一种图像处理方法、一种图像处理装置、一种终端和一种计算机可读存储介质。

背景技术

随着目前基于图像的文字识别的广泛应用，基于图像的OCR(光学字符识别，Optical Character Recognition)在商业领域被广泛使用，如票据识别，身份证识别等的文本信息识别。在现有教育行业中，考试是老师了解学生知识点掌握情况的重要手段，对于学生的考试情况的分析统计占据了老师很大的一部分工作量，考试试卷不同于身份证、银行卡以及发票等具有相对固定的版式和内容，各个学校或者是各个教育机构的考试试卷都有各自的排版。

相关技术中，在扫描试卷提取特定的文本信息时，使用传统图像处理方法存在以下技术问题：其一，传统行检测方法受扫描图像质量的影响较大，如纸张颜色以及质量以及扫描仪造成的图像成像质量差。其二，试卷的文本结构多样，其中可能包含文字、公式、表格、图像等众多信息，在使用传统的图像文本行检测方法时，使用文本行检测方法作为检测器进行文本内容的识别，需要加入大量的文本行筛选过程去除表格图形这些干扰信息，这些预处理方法大都比较繁琐，且针对不同版式的试卷需要不同的筛选过程，导致识别准确度和计算速度受到影响，降低了开发效率。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明的一个目的在于提供一种图像处理方法。

本发明的另一个目的在于提供一种图像处理装置。

本发明的另一个目的在于提供一种终端。

本发明的另一个目的在于提供一种计算机可读存储介质。

为了实现上述目的，根据本发明的第一方面的技术方案，提供了一种图像处理方法，包括：将指定格式的图像输入到文本检测模型中，文本检测模型输出图像中的文本内容和文本内容对应的坐标位置信息；统计分析坐标位置信息，根据坐标位置信息设立阈值，根据阈值确定文字信息对应的位置框，过滤掉位置框以外的非文字信息。

在该技术方案中，指定格式的图像对应于待识别的图像，待识别的图像经预处理可转换为指定格式的图像，指定格式的图像输入到文本检测模型中能够获取图像的文本内容和文本的坐标位置信息，根据坐标位置信息对图像进行过滤，可以过滤掉文本内容中的非文字信息。本申请将深度学习的文本检测模型作为过滤器使用，这与传统方案刚好相反(传统方案将文本检测模型当作检测器使用)。本申请使用基于深度学习的文本行检测算法作为过滤器，对过滤之后的图像还能够进一步进行传统文本行检测，将基于深度学习的文本行检测算法的文本定位结果与传统算法结果做统计融合，经倾斜矫正，并根据图像中的字符的宽度、高度和字符间距等阈值提取到最终结果(坐标位置信息)。

其中，文本检测模型为基于深度学习的目标检测算法的相关模型，例如：CTPN、Faster-RCNN和SSD等，其中，CTPN(全称“Detecting Text in Natural Image withConnectionist Text Proposal Network”，基于连接预选框网络的文本检测)，Faster-RCNN(全称“Faster Region-CNN”，CNN全称“Convolutional Neural Networks”，快速域-卷积神经网络)，SSD(全称“Single Shot MultiBox Detector”，一种直接预测目标类别和bounding box的多目标检测算法)。

此外，还有一些专门用于文字检测的模型也能够取得类似的技术效果，例如：EAST、textboxes++和SegLink等算法模型，其中，EAST(全称“an Efficient and AccuracyScene Text detection pipeline”，高效准确的场景文本识别管道)，textboxes++(ASingle-Shot Oriented scene Text Detector，一种基于SSD的端到端可训练快速场景文本检测器)，SegLink(segment-link，一种场景定向文字检测算法)。

可以理解的是，传统文本行检测方法需要设置多个固定阈值，这种阈值的设定会要求扫描图像成像质量稳定，如果成像质量有波动则设置的阈值需要进行调整，会影响后期项目使用的效率和项目维护的成本。利用深度学习文本行检测算法的鲁棒性能有效弥补传统文本行检测方法无法解决的环境适应性低的问题，如试卷纸张质量、扫描仪成像质量都对传统文本行检测方法有较大影响，配合使用深度学习的方法就能有效降低这些因素的影响。

根据上述技术方案的图像处理方法，可选地，还包括：利用图像连通区域检测方法对过滤图像进行识别，识别出图像中的文本内容。

在该技术方案中，基于深度学习文本检测模型对图像的处理，结合图像连通区域检测方法对过滤后的图像进行识别。由于基于深度学习的文本检测模型过滤掉了图像中的非文字杂质信息，将基于深度学习的文本行检测算法的文本定位结果与图像连通区域检测方法的结果做统计融合，提升了图像识别的准确度。

根据上述任一项技术方案的图像处理方法，可选地，文本检测模型对应于一种先确定图像中文本区域再确定文本区域中的文本行的文字识别网络模型，将指定格式的图像输入到文本检测模型中，具体包括：将指定格式的图像输入到已经过训练的文字识别网络模型中进行检测。

在该技术方案中，文本检测模型为CTPN模型，经过训练的CTPN模型具有较高的鲁棒性能够弥补传统文本行检测方法无法解决的环境适应性低的问题，如试卷纸张质量、扫描仪成像质量都对传统文本行检测方法有较大影响，使用基于深度学习进行训练的CTPN模型，能够有效降低这些因素的影响。

根据上述任一项技术方案的图像处理方法，可选地，文本检测模型输出图像中的文本内容和文本内容对应的坐标位置信息，具体包括：根据图像的载体的纸张型号确定缩放阈值，对超出缩放阈值的图像进行缩放，文本检测模型对缩放后的图像进行文本识别，以输出图像中的文本内容和文本内容对应的坐标位置信息。

在该技术方案中，根据待识别的图像的载体(如试卷、卷宗、调查表等规范化纸张)的纸张型号设定缩放阈值，缩放后的图像更有利于实施文本检测，提高了文字识别网络模型的处理速度和准确度。

根据上述任一项技术方案的图像处理方法，可选地，文本检测模型输出图像中的文本内容和文本内容对应的坐标位置信息，具体还包括：根据图像中字符的排列方向，调整文字识别网络模型的宽高比例参数的取值，以使文字识别网络模型对排列方向上的信息提取能力增强，调整宽高比例参数之后的文本检测模型对图像进行文本识别，以输出图像中的文本内容和文本内容对应的坐标位置信息。

在该技术方案中，文本排列方向不同会导致文字识别网络模型对文本的识别能力不同，根据文本的排列方向调整文字识别网络模型的宽高比例参数，使文字识别网络模型能够适应文本的排列方向有利于提高识别准确度和识别速度。例如，将宽高比例参数中的SCALES_BASE＝(0.25,0.5,1.0,2.0,3.0)修改为SCALES_BASE＝(1.0,2.0,3.0，5.0,10.0)，能够使文字识别网络模型在水平方向上信息提取能力增强。

根据上述任一项技术方案的图像处理方法，可选地，文本检测模型输出图像中的文本内容和文本内容对应的坐标位置信息，具体还包括：调整文字识别网络模型的预测框像素高度的取值，获得多个不同高度的预测框，以使预测框能够检测到正文字符和标点符号，确定多个能够检测到正文字符和标点符号的预测框后，文本检测模型对图像进行文本识别，以输出图像中的文本内容和文本内容对应的坐标位置信息。

在该技术方案中，预测框用于选取文本(文字)，预测框的高度决定其能够识别的文本(文字)的高度，为保证能够准确识别出高度较高的正文字符和高度较低的标点符号，本申请提出调整文字识别网络模型的预测框像素高度的取值，获得多个不同高度的预测框，预测框高度的具体数值根据图像中的字符字号和标点符号高度确定。例如，设置预测框的高度从8个像素点开始，以每次加上4个像素点的方式，得到10个可能的预测框，即第一个预测框高度为8像素，第十个预测框的高度为44像素，以保证能够检测包括正文到标点符号在内的有效正文文本信息。

根据上述任一项技术方案的图像处理方法，可选地，还包括：将待识别的图像的扫描图像转换为灰度图像；根据图像去噪算法和图像增强算法增强灰度图像的图像质量，得到增强图像；根据自适应阈值分割算法处理增强图像，得到二值化分割阈值；根据二值化分割阈值将增强图像转化为指定格式的图像。

在该技术方案中，指定格式的图像即二值化图像，通过扫描获取待识别图像的扫描图像，将扫描图像转换为灰度图像，对灰度图像进行去噪和增强后确定其二值化分割阈值，根据二值化分割阈值得到二值化图像，从而完成对图像的预处理。图像二值化能够降低彩色图像中干扰因素对文本检测模型的影响，提高检测准确度。图像去噪和图像增强能够尽可能的保留文字中的笔画信息提高检测准确度。此外，上述预处理过程中可以使用的预处理去噪算法包括均值滤波、中值滤波等，图像增强算法包括线性变换增强、直方图均衡变换等方法。实施时首先将原始彩色图像转化为灰度图像，为了有效去除图像中的椒盐噪声可使用中值滤波算法去除图像中的噪声，优选地，在中值滤波算法中仅使用3*3的模板。在图像增强的过程中，为了满足图像算法的鲁棒性，可使用直方图均衡变换的方法来增强图像的全局对比度，以此解决试卷扫描过程中可能的光照造成的问题。

根据上述任一项技术方案的图像处理方法，可选地，统计分析坐标位置信息，根据坐标位置信息设立阈值，根据阈值确定文字信息对应的位置框，过滤掉位置框以外的非文字信息，具体包括：根据坐标位置信息确定文本框，统计文本框的高度信息，求取高度信息的均值，根据均值设置高度阈值；根据高度阈值，提取到正常位置框，以及提取到高度大于高度阈值或高度小于高度阈值的异常位置框；将正常位置框以外的图像像素过滤掉，得到第一过滤图像。

在该技术方案中，由坐标位置信息可确定文本框，统计文本框的高度均值，在均值附近设置阈值以提取高度过大或高度过小的异常位置框的信息以及正常位置框的信息，异常位置框内包含的是图标、公式、噪声等非文字信息。根据异常位置框可以将框内的图标、公式等非文字信息识别出来。此外，将正常位置框以外的图像像素过滤掉，可得到文字信息(文本行)的图像，在该过程中，文本检测模型结合统计分析方法完成图像中文本行信息的提取，提升识别文本内容的准确性和定位的准确性。

根据上述任一项技术方案的图像处理方法，可选地，得到第一过滤图像之后还包括：统计水平方向上位置框的长度的均值，并根据长度均值设置长度阈值，以及统计垂直方向上各个行的起始位置和结束位置的均值，并根据起始位置和结束位置的均值设置行阈值；根据长度阈值提取到水平方向上的多个水平位置框，以及根据行阈值提取到垂直方向上的多个垂直位置框；将水平位置框和垂直位置框以外的图像像素过滤掉，得到第二过滤图像。

在该技术方案中，通过统计水平方向上位置框的长度的均值以及统计垂直方向上各个行的起始位置和结束位置的均值，设立相应的阈值，并根据阈值确定水平位置框和垂直位置框，此时，水平位置框和垂直位置框以外的像素均可以被过滤掉，进一步过滤掉了图像中的非文本信息，提高检测准确度。

根据上述任一项技术方案的图像处理方法，可选地，得到第二过滤图像之后还包括：根据形态学处理算法以及连通区域矩形框位置检测算法求第二过滤图像的各个文本行中心的直线段的倾斜角度；根据水平位置框和垂直位置框确定文本的版面信息；根据版面信息在第一过滤图像中提取文本区域图像；根据倾斜角度矫正文本区域图像，得到矫正图像，其中，矫正图像对应于过滤图像。

在该技术方案中，根据形态学处理算法以及连通区域矩形框位置检测算法对图像进行倾斜检测和倾斜矫正，并确定文本的版面信息，结合基于深度学习的文本检测模型与传统的形态学处理算法以及连通区域矩形框位置检测算法准确获取文本信息，提高了识别准确度。

根据上述任一项技术方案的图像处理方法，可选地，还包括：对矫正图像进行连通区域检测并扩展检测得到字符的矩形框信息，根据预设的打印字体的宽高信息以及字符之间的距离信息聚合各行的矩形框得到文本行的坐标位置信息。

在该技术方案中，通过文本检测模型过滤掉了图像中的非文本杂质信息，使用深度学习文本检测模型作为过滤器过滤之后的图像进行传统文本行检测，将基于深度学习的文本检测模型的文本定位结果与传统算法结果做统计融合校正倾斜文本，并根据图像中正文字符宽高和字符间距等阈值提取到最终结果(即待识别文本内容在图像中的位置坐标信息)。

根据上述任一项技术方案的图像处理方法，可选地，文本检测模型由根据考试题库生成的文本行图片制作的数据集进行训练。

根据本发明的第二方面的技术方案，提供了一种图像处理装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的程序，程序被处理器执行时实现如上述任一项技术方案的图像处理方法的步骤。该图像处理装置包括如上述任一项技术方案的图像处理方法的全部有益效果，在此不再赘述。

根据本发明的第三方面的技术方案，还提供了一种终端，包括：上述第二方面技术方案所述的图像处理装置。该终端包括如上述任一项技术方案的图像处理方法的全部有益效果，在此不再赘述。

根据本发明的第四方面的技术方案，还提供了一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被执行时实现上述第一方面的任一项技术方案限定的图像处理方法。

本发明的附加方面和优点将在下面的描述部分中给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了根据本发明的一个实施例的图像处理方法的示意流程图；

图2示出了根据本发明的另一个实施例的图像处理方法的示意图；

图3示出了根据本发明的一个实施例的图像处理装置的示意框图；

图4示出了根据本发明的一个实施例的终端的示意框图；

图5示出了根据本发明的一个实施例的计算机可读存储介质的示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例一

如图1所示，根据本发明的一个实施例的图像处理方法，包括：

步骤102，将指定格式的图像输入到文本检测模型中，文本检测模型输出图像中的文本内容和文本内容对应的坐标位置信息；

步骤104，统计分析坐标位置信息，根据坐标位置信息设立阈值，根据阈值确定文字信息对应的位置框，过滤掉位置框以外的非文字信息。

在该实施例中，指定格式的图像对应于待识别的图像，待识别的图像经预处理可转换为指定格式的图像，指定格式的图像输入到文本检测模型中能够获取图像的文本内容和文本的坐标位置信息，根据坐标位置信息对图像进行过滤，可以过滤掉文本内容中的非文字信息。本申请将深度学习的文本检测模型作为过滤器使用，这与传统方案刚好相反(传统方案将文本检测模型当作检测器使用)。本申请使用基于深度学习的文本行检测算法作为过滤器，对过滤之后的图像还能够进一步进行传统文本行检测，将基于深度学习的文本行检测算法的文本定位结果与传统算法结果做统计融合，经倾斜矫正，并根据图像中的字符的宽度、高度和字符间距等阈值提取到最终结果(坐标位置信息)。

其中，文本检测模型为基于深度学习的目标检测算法的相关模型，例如：CTPN、Faster-RCNN和SSD等。

此外，还有一些专门用于文字检测的模型也能够取得类似的技术效果，例如：EAST、textboxes++和SegLink等算法模型。

根据上述实施例的图像处理方法，可选地，还包括：利用图像连通区域检测方法对过滤图像进行识别，识别出图像中的文本内容。

在该实施例中，基于深度学习文本检测模型对图像的处理，结合图像连通区域检测方法对过滤后的图像进行识别。由于基于深度学习的文本检测模型过滤掉了图像中的非文字杂质信息，将基于深度学习的文本行检测算法的文本定位结果与图像连通区域检测方法的结果做统计融合，提升了图像识别的准确度。

根据上述实施例的图像处理方法，可选地，文本检测模型对应于一种先确定图像中文本区域再确定文本区域中的文本行的文字识别网络模型，将指定格式的图像输入到文本检测模型中，具体包括：将指定格式的图像输入到已经过训练的文字识别网络模型中进行检测。

在该实施例中，文字识别网络模型为CTPN模型，经过训练的CTPN模型具有较高的鲁棒性能够弥补传统文本行检测方法无法解决的环境适应性低的问题，如试卷纸张质量、扫描仪成像质量都对传统文本行检测方法有较大影响，使用基于深度学习进行训练的CTPN模型，能够有效降低这些因素的影响。

根据上述实施例的图像处理方法，可选地，文本检测模型输出图像中的文本内容和文本内容对应的坐标位置信息，具体包括：根据图像的载体的纸张型号确定缩放阈值，对超出缩放阈值的图像进行缩放，文本检测模型对缩放后的图像进行文本识别，以输出图像中的文本内容和文本内容对应的坐标位置信息。

在该实施例中，根据待识别的图像的载体(如试卷、卷宗、调查表等规范化纸张)的纸张型号设定缩放阈值，缩放后的图像更有利于实施文本检测，提高了文字识别网络模型的处理速度和准确度。

根据上述实施例的图像处理方法，可选地，文本检测模型输出图像中的文本内容和文本内容对应的坐标位置信息，具体还包括：根据图像中字符的排列方向，调整文字识别网络模型的宽高比例参数的取值，以使文字识别网络模型对排列方向上的信息提取能力增强，调整宽高比例参数之后的文本检测模型对图像进行文本识别，以输出图像中的文本内容和文本内容对应的坐标位置信息。

在该实施例中，文本排列方向不同会导致文字识别网络模型对文本的识别能力不同，根据文本的排列方向调整文字识别网络模型的宽高比例参数，使文字识别网络模型能够适应文本的排列方向有利于提高识别准确度和识别速度。例如，将宽高比例参数中的SCALES_BASE＝(0.25,0.5,1.0,2.0,3.0)修改为SCALES_BASE＝(1.0,2.0,3.0，5.0,10.0)，能够使文字识别网络模型在水平方向上信息提取能力增强。

根据上述实施例的图像处理方法，可选地，文本检测模型输出图像中的文本内容和文本内容对应的坐标位置信息，具体还包括：调整文字识别网络模型的预测框像素高度的取值，获得多个不同高度的预测框，以使预测框能够检测到正文字符和标点符号，确定多个能够检测到正文字符和标点符号的预测框后，文本检测模型对图像进行文本识别，以输出图像中的文本内容和文本内容对应的坐标位置信息。

在该实施例中，预测框用于选取文本(文字)，预测框的高度决定其能够识别的文本(文字)的高度，为保证能够准确识别出高度较高的正文字符和高度较低的标点符号，本申请提出调整文字识别网络模型的预测框像素高度的取值，获得多个不同高度的预测框，预测框高度的具体数值根据图像中的字符字号和标点符号高度确定。例如，设置预测框的高度从8个像素点开始，以每次加上4个像素点的方式，得到10个可能的预测框，即第一个预测框高度为8像素，第十个预测框的高度为44像素，以保证能够检测包括正文到标点符号在内的有效正文文本信息。

根据上述实施例的图像处理方法，可选地，还包括：将待识别的图像的扫描图像转换为灰度图像；根据图像去噪算法和图像增强算法增强灰度图像的图像质量，得到增强图像；根据自适应阈值分割算法处理增强图像，得到二值化分割阈值；根据二值化分割阈值将增强图像转化为指定格式的图像。

在该实施例中，指定格式的图像即二值化图像，通过扫描获取待识别图像的扫描图像，将扫描图像转换为灰度图像，对灰度图像进行去噪和增强后确定其二值化分割阈值，根据二值化分割阈值得到二值化图像，从而完成对图像的预处理。图像二值化能够降低彩色图像中干扰因素对文本检测模型的影响，提高检测准确度。图像去噪和图像增强能够尽可能的保留文字中的笔画信息提高检测准确度。此外，上述预处理过程中可以使用的预处理去噪算法包括均值滤波、中值滤波等，图像增强算法包括线性变换增强、直方图均衡变换等方法。实施时首先将原始彩色图像转化为灰度图像，为了有效去除图像中的椒盐噪声可使用中值滤波算法去除图像中的噪声，优选地，在中值滤波算法中仅使用3*3的模板。在图像增强的过程中，为了满足图像算法的鲁棒性，可使用直方图均衡变换的方法来增强图像的全局对比度，以此解决试卷扫描过程中可能的光照造成的问题。

根据上述实施例的图像处理方法，可选地，统计分析坐标位置信息，根据坐标位置信息设立阈值，根据阈值确定文字信息对应的位置框，过滤掉位置框以外的非文字信息，具体包括：根据坐标位置信息确定文本框，统计文本框的高度信息，求取高度信息的均值，根据均值设置高度阈值；根据高度阈值，提取到正常位置框，以及提取到高度大于高度阈值或高度小于高度阈值的异常位置框；将正常位置框以外的图像像素过滤掉，得到第一过滤图像。

在该实施例中，由坐标位置信息可确定文本框，统计文本框的高度均值，在均值附近设置阈值以提取高度过大或高度过小的异常位置框的信息以及正常位置框的信息，异常位置框内包含的是图标、公式、噪声等非文字信息。根据异常位置框可以将框内的图标、公式等非文字信息识别出来。此外，将正常位置框以外的图像像素过滤掉，可得到文字信息(文本行)的图像，在该过程中，文本检测模型结合统计分析方法完成图像中文本行信息的提取，提升识别文本内容的准确性和定位的准确性。

根据上述实施例的图像处理方法，可选地，得到第一过滤图像之后还包括：统计水平方向上位置框的长度的均值，并根据长度均值设置长度阈值，以及统计垂直方向上各个行的起始位置和结束位置的均值，并根据起始位置和结束位置的均值设置行阈值；根据长度阈值提取到水平方向上的多个水平位置框，以及根据行阈值提取到垂直方向上的多个垂直位置框；将水平位置框和垂直位置框以外的图像像素过滤掉，得到第二过滤图像。

在该实施例中，通过统计水平方向上位置框的长度的均值以及统计垂直方向上各个行的起始位置和结束位置的均值，设立相应的阈值，并根据阈值确定水平位置框和垂直位置框，此时，水平位置框和垂直位置框以外的像素均可以被过滤掉，进一步过滤掉了图像中的非文本信息，提高检测准确度。

根据上述实施例的图像处理方法，可选地，得到第二过滤图像之后还包括：根据形态学处理算法以及连通区域矩形框位置检测算法求第二过滤图像的各个文本行中心的直线段的倾斜角度；根据水平位置框和垂直位置框确定文本的版面信息；根据版面信息在第一过滤图像中提取文本区域图像；根据倾斜角度矫正文本区域图像，得到矫正图像，其中，矫正图像对应于过滤图像。

在该实施例中，根据形态学处理算法以及连通区域矩形框位置检测算法对图像进行倾斜检测和倾斜矫正，并确定文本的版面信息，结合基于深度学习的文本检测模型与传统的形态学处理算法以及连通区域矩形框位置检测算法准确获取文本信息，提高了识别准确度。

根据上述实施例的图像处理方法，可选地，还包括：对矫正图像进行连通区域检测并扩展检测得到字符的矩形框信息，根据预设的打印字体的宽高信息以及字符之间的距离信息聚合各行的矩形框得到文本行的坐标位置信息。

在该实施例中，通过文本检测模型过滤掉了图像中的非文本杂质信息，使用深度学习文本检测模型作为过滤器过滤之后的图像进行传统文本行检测，将基于深度学习的文本检测模型的文本定位结果与传统算法结果做统计融合校正倾斜文本，并根据图像中正文字符宽高和字符间距等阈值提取到最终结果(即待识别文本内容在图像中的位置坐标信息)。

根据上述实施例的图像处理方法，可选地，文本检测模型由根据考试题库生成的文本行图片制作的数据集进行训练。

实施例二

根据本发明的另一个实施例的图像处理方法，该方法应用于试卷的版面分析以及文字信息提取的场景，该图像处理方法包括：

步骤1：将扫描图像转换为灰度图像，然后利用图像去噪算法以及图像增强算法，增强图像质量。

步骤2：使用自适应阈值分割算法处理上述增强后的试卷图像得到二值化分割阈值，将图像转化为二值化图像(指定格式的图像)。

步骤3：将上述图像送入到预训练的CTPN模型中检测(文本检测模型)，得到CTPN模型检测结果中包括文本行的坐标位置信息L_original。

试卷中字体大小以及文本行具有固定的特征，如扫描试卷的单个字的宽和高一般为32个像素点左右，对于两个版面的试卷每一行文本字数一般在45个字以内，对于4个版面的试卷每一行文字字数一般在25左右。因通用CTPN模型是用于检测照片中的文本内容，对于试卷这类字体大小较为固定的文本内容，我们针对性的进行了算法上的修改，以提高CTPN的处理速度以及准确性，修改包括以下内容：

①根据考试试卷用纸的型号最大为A3型，设置图像缩放长边的最大阈值设置为3400像素点，缩放短边的最大阈值设置为2400像素点。

②因试卷中文本信息为横向排列，因而我们去除通用算法中特征提取，宽高比例参数中的SCALES_BASE＝(0.25,0.5,1.0,2.0,3.0)中的部分取值，修改为SCALES_BASE＝(1.0,2.0,3.0，5.0,10.0，使得水平方向上信息提取能力增强。

③因试卷中正文才是题目的有效信息因而我们改进算法设置为从8个像素点开始，以每次加上4个像素点的方式得到10个可能的预测框。即第一个预测框高度为8像素，第二个预测框高度为12像素，第三个预测框高度为16像素，第四个预测框高度为20像素，第五个预测框高度为24像素，第六个预测框高度为28像素，第七个预测框高度为32像素，第八个预测框高度为36像素，第九个预测框高度为40像素，第十个预测框的高度为44像素，保证检测正文到标点符号在内的有效正文文本信息，检测结果参阅图2。

步骤4：根据上述检测结果L_original，统计检测结果中文本框的高度信息，求取高度信息的均值，在均值附近设置合理阈值提取到高度过大或者过小的异常框位置信息L_abnormal和正常位置框信息L_normal，这些框内区域的图像中包含的是试卷中的图标、公式、噪声等非文字信息。

步骤5：对上述步骤2中的图像使用图像处理的方法将上述提取到的正常位置区域L_normal以外的图像像素值重置为255(即填充为白色)，得到新的过滤后的试卷图像A，该图像为过滤掉了试卷中的非文本信息的图像。由上述步骤4中经过过滤得到的非异常位置框，统计水平方向上框的长度的均值以及垂直方向上各个行的起始位置和结束位置的均值，然后设置阈值找到水平方向均值附近的多个框的位置框信息L_{H_mean}以及垂直方向均值附近的多个框的位置框信息L_{V_mean}。

使用传统文本行检测方法需要设置多个固定阈值，这种阈值的设定会要求扫描图像成像质量稳定，如果成像质量有波动则设置的阈值需要进行调整，会影响后期项目使用的效率和项目维护的成本。上述步骤3至步骤5正是基于这种情况提出的解决办法。之所以使用这种实现方式，主要是利用深度学习文本行检测算法的鲁棒性去弥补传统文本行检测方法无法解决的环境适应性低的问题，如试卷纸张质量、扫描仪成像质量都对传统文本行检测方法有较大影响，但配合使用深度学习的方法就能有效降低这些因素的影响。

步骤6：对上述步骤5中的图像A使用图像处理的方法将上述步骤5中提取的均值附近的位置框区域内的图像像素值保留，其它区域像素值设置为255(即填充为白色)，得到新的图像B。

步骤7：对上述步骤6得到的图像B使用形态学处理以及连通区域矩形框位置检测等传统的图像处理算法求得各个文本行中心的直线段，求得各个直线的斜率k，进一步计算得到直线的倾斜角度

步骤8：根据上述步骤6中得到的水平方向均值附近的多个框的位置框信息L_{H_mean}以及垂直方向均值附近的多个框的位置框信息L_{V_mean}合并分析得到试卷中文本的版面位置信息L_section，根据版面位置信息L_section在试卷图像A上提取得到多张题目文本区域图像C。

步骤9：对上述由一张试卷得到的多张图像C，进行倾斜校正，校正角度为步骤7中计算得到的倾斜角度得到多张图像D。

步骤10：对校正之后的图像D使用图像处理方法进行连通区域检测并扩展检测得到字符的矩形框信息，按照预设的试卷打印字体的宽高信息以及字符之间的距离信息聚合各行的矩形框信息得到最终的待识别文本行位置坐标信息。

步骤1到步骤5使用基于深度学习的文本行检测算法过滤掉了试卷中的非文本杂质信息，后续的步骤6到步骤10使用深度学习文本行检测算法作为过滤器过滤之后的图像进行传统文本行检测，将基于深度学习的文本行检测算法的文本定位结果与传统算法结果做统计融合校正倾斜文本，并根据试卷中正文字符宽高和字符间距等阈值提取到最终结果(即待识别文本内容在试卷扫描图像中的位置坐标信息)。

实施例三

如图3所示，根据本发明的一个实施例的图像处理装置300，包括：存储器302、处理器304及存储在存储器302上并可在处理器304上运行的程序，程序被处理器304执行时实现如上述任一实施例的图像处理方法的步骤。该图像处理装置300包括如上述任一项实施例的图像处理方法的全部有益效果，在此不再赘述。

实施例四

如图4所示，根据本发明的一个实施例的终端400，包括：实施例三所述的图像处理装置300。该终端400运行时能够实现：将指定格式的图像输入到文本检测模型中，文本检测模型输出图像中的文本内容和文本内容对应的坐标位置信息；根据坐标位置信息，过滤掉文本内容中的非文字信息。该终端400包括如上述任一实施例的图像处理方法的全部有益效果，在此不再赘述。

实施例五

如图5所示，根据本发明的一个实施例，还提供了一种计算机可读存储介质500，其上存储有计算机程序502，上述计算机程序502被执行时实现上述任一实施例限定的图像处理方法。

在该实施例中，计算机程序502被执行时实现：将指定格式的图像输入到文本检测模型中，文本检测模型输出图像中的文本内容和文本内容对应的坐标位置信息；统计分析坐标位置信息，根据坐标位置信息设立阈值，根据阈值确定文字信息对应的位置框，过滤掉位置框以外的非文字信息。

指定格式的图像对应于待识别的图像，待识别的图像经预处理可转换为指定格式的图像，指定格式的图像输入到文本检测模型中能够获取图像的文本内容和文本的坐标位置信息，根据坐标位置信息对图像进行过滤，可以过滤掉文本内容中的非文字信息。本申请将深度学习的文本检测模型作为过滤器使用，这与传统方案刚好相反(传统方案将文本检测模型当作检测器使用)。本申请使用基于深度学习的文本行检测算法作为过滤器，对过滤之后的图像还能够进一步进行传统文本行检测，将基于深度学习的文本行检测算法的文本定位结果与传统算法结果做统计融合，经倾斜矫正，并根据图像中的字符的宽度、高度和字符间距等阈值提取到最终结果(坐标位置信息)。

根据上述技术方案的计算机程序502，可选地，还包括：利用图像连通区域检测方法对过滤图像进行识别，识别出图像中的文本内容。

根据上述任一项技术方案的计算机程序502，可选地，文本检测模型对应于一种先确定图像中文本区域再确定文本区域中的文本行的文字识别网络模型，将指定格式的图像输入到文本检测模型中，具体包括：将指定格式的图像输入到已经过训练的文字识别网络模型中进行检测。

在该技术方案中，文字识别网络模型为CTPN模型，经过训练的CTPN模型具有较高的鲁棒性能够弥补传统文本行检测方法无法解决的环境适应性低的问题，如试卷纸张质量、扫描仪成像质量都对传统文本行检测方法有较大影响，使用基于深度学习进行训练的CTPN模型，能够有效降低这些因素的影响。

根据上述任一项技术方案的计算机程序502，可选地，文本检测模型输出图像中的文本内容和文本内容对应的坐标位置信息，具体包括：根据图像的载体的纸张型号确定缩放阈值，对超出缩放阈值的图像进行缩放，文本检测模型对缩放后的图像进行文本识别，以输出图像中的文本内容和文本内容对应的坐标位置信息。

根据上述任一项技术方案的计算机程序502，可选地，文本检测模型输出图像中的文本内容和文本内容对应的坐标位置信息，具体还包括：根据图像中字符的排列方向，调整文字识别网络模型的宽高比例参数的取值，以使文字识别网络模型对排列方向上的信息提取能力增强，调整宽高比例参数之后的文本检测模型对图像进行文本识别，以输出图像中的文本内容和文本内容对应的坐标位置信息。

根据上述任一项技术方案的计算机程序502，可选地，文本检测模型输出图像中的文本内容和文本内容对应的坐标位置信息，具体还包括：调整文字识别网络模型的预测框像素高度的取值，获得多个不同高度的预测框，以使预测框能够检测到正文字符和标点符号，确定多个能够检测到正文字符和标点符号的预测框后，文本检测模型对图像进行文本识别，以输出图像中的文本内容和文本内容对应的坐标位置信息。

在该技术方案中，预测框用于选取文本(文字)，预测框的高度决定其能够识别的文本(文字)的高度，为保证能够准确识别出高度较高的正文字符和高度较低的标点符号，本申请提出调整文字识别网络模型的预测框像素高度的取值，获得多个不同高度的预测框，预测框高度的具体数值根据图像中的字符字号和标点符号高度确定。例如，设置预测框的高度从8个像素点开始，以每次加上4个像素点的方式，得到10个可能的预测框，即第一个预测框高度为8像素，第二个预测框高度为12像素，第三个预测框高度为16像素，第四个预测框高度为20像素，第五个预测框高度为24像素，第六个预测框高度为28像素，第七个预测框高度为32像素，第八个预测框高度为36像素，第九个预测框高度为40像素，第十个预测框的高度为44像素，以保证能够检测包括正文到标点符号在内的有效正文文本信息。

根据上述任一项技术方案的计算机程序502，可选地，还包括：将待识别的图像的扫描图像转换为灰度图像；根据图像去噪算法和图像增强算法增强灰度图像的图像质量，得到增强图像；根据自适应阈值分割算法处理增强图像，得到二值化分割阈值；根据二值化分割阈值将增强图像转化为指定格式的图像。

根据上述任一项技术方案的计算机程序502，可选地，根据坐标位置信息，过滤掉文本内容中的非文字信息，具体包括：根据坐标位置信息确定文本框，统计文本框的高度信息，求取高度信息的均值，根据均值设置高度阈值；根据高度阈值，提取到正常位置框，以及提取到高度过大或高度过小的异常位置框；将正常位置框以外的图像像素过滤掉，得到第一过滤图像。

根据上述任一项技术方案的计算机程序502，可选地，得到第一过滤图像之后还包括：统计水平方向上位置框的长度的均值，并根据长度均值设置长度阈值，以及统计垂直方向上各个行的起始位置和结束位置的均值，并根据起始位置和结束位置的均值设置行阈值；根据长度阈值提取到水平方向上的多个水平位置框，以及根据行阈值提取到垂直方向上的多个垂直位置框；将水平位置框和垂直位置框以外的图像像素过滤掉，得到第二过滤图像。

根据上述任一项技术方案的计算机程序502，可选地，得到第二过滤图像之后还包括：根据形态学处理算法以及连通区域矩形框位置检测算法求第二过滤图像的各个文本行中心的直线段的倾斜角度；根据水平位置框和垂直位置框确定文本的版面信息；根据版面信息在第一过滤图像中提取文本区域图像；根据倾斜角度矫正文本区域图像，得到矫正图像，其中，矫正图像对应于过滤图像。

根据上述任一项技术方案的计算机程序502，可选地，还包括：对矫正图像进行连通区域检测并扩展检测得到字符的矩形框信息，根据预设的打印字体的宽高信息以及字符之间的距离信息聚合各行的矩形框得到文本行的坐标位置信息。

根据上述任一项技术方案的计算机程序502，可选地，文本检测模型由根据考试题库生成的文本行图片制作的数据集进行训练。

根据上述实施例，为了解决试卷分析系统中文本行检测问题，保证能准确提取到文本行并能够准确定位出文本的位置便于进行文本内容的识别。本申请实施例针对扫描试卷中光学字符本身的特性和试卷内容的复杂程度提供了一种基于图像深度学习的文本行检测算法(文本检测模型)的试卷版面分析以及校正方法，将基于深度学习的文本行检测算法以及基于传统图像处理算法轮廓提取算法使用统计分析方法结合完成试卷中文本行信息的提取，提高了提取内容的准确性和定位的准确性。基于相似的原理上述实施例不仅能够用于对试卷进行检测和识别，还能够用于对任意图像进行检测和识别。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程图像处理设备的处理器以产生一个机器，使得通过计算机或其他可编程图像处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程图像处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程图像处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种图像处理方法，其特征在于，包括：

将指定格式的图像输入到文本检测模型中，所述文本检测模型输出所述图像中的文本内容和所述文本内容对应的坐标位置信息；

统计分析所述坐标位置信息，根据所述坐标位置信息设立阈值，根据所述阈值确定文字信息对应的位置框，过滤掉所述位置框以外的非文字信息。

2.根据权利要求1所述的图像处理方法，其特征在于，所述文本检测模型输出所述图像中的文本内容和所述文本内容对应的坐标位置信息，具体包括：

根据所述图像的载体的纸张型号确定缩放阈值，对超出所述缩放阈值的图像进行缩放，所述文本检测模型对缩放后的所述图像进行文本识别，以输出所述图像中的文本内容和所述文本内容对应的坐标位置信息。

3.根据权利要求1所述的图像处理方法，其特征在于，所述文本检测模型输出所述图像中的文本内容和所述文本内容对应的坐标位置信息，具体还包括：

根据所述图像中字符的排列方向，调整所述文字识别网络模型的宽高比例参数的取值，以使所述文字识别网络模型对所述排列方向上的信息提取能力增强，调整所述宽高比例参数之后的所述文本检测模型对所述图像进行文本识别，以输出所述图像中的文本内容和所述文本内容对应的坐标位置信息。

4.根据权利要求1所述的图像处理方法，其特征在于，所述文本检测模型输出所述图像中的文本内容和所述文本内容对应的坐标位置信息，具体还包括：

调整所述文字识别网络模型的预测框像素高度的取值，获得多个不同高度的预测框，以使所述预测框能够检测到正文字符和标点符号，确定多个能够检测到所述正文字符和所述标点符号的预测框后，所述文本检测模型对所述图像进行文本识别，以输出所述图像中的文本内容和所述文本内容对应的坐标位置信息。

5.根据权利要求1至4中任一项所述的图像处理方法，其特征在于，所述统计分析所述坐标位置信息，根据所述坐标位置信息设立阈值，根据所述阈值确定文字信息对应的位置框，过滤掉所述位置框以外的非文字信息，具体包括：

根据所述坐标位置信息确定文本框，统计所述文本框的高度信息，求取所述高度信息的均值，根据所述均值设置高度阈值；

根据所述高度阈值，提取到正常位置框，以及提取到高度大于所述高度阈值或高度小于所述高度阈值的异常位置框；

将所述正常位置框以外的图像像素过滤掉，得到第一过滤图像。

6.根据权利要求5所述的图像处理方法，其特征在于，得到第一过滤图像之后还包括：

统计水平方向上位置框的长度的均值，并根据长度均值设置长度阈值，以及统计垂直方向上各个行的起始位置和结束位置的均值，并根据起始位置和结束位置的均值设置行阈值；

根据所述长度阈值提取到水平方向上的多个水平位置框，以及根据所述行阈值提取到垂直方向上的多个垂直位置框；

将所述水平位置框和所述垂直位置框以外的图像像素过滤掉，得到第二过滤图像。

7.根据权利要求6所述的图像处理方法，其特征在于，得到第二过滤图像之后还包括：

根据形态学处理算法以及连通区域矩形框位置检测算法求所述第二过滤图像的各个文本行中心的直线段的倾斜角度；

根据所述水平位置框和所述垂直位置框确定文本的版面信息；

根据所述版面信息在所述第一过滤图像中提取文本区域图像；

根据所述倾斜角度矫正所述文本区域图像，得到矫正图像。

8.根据权利要求1至4中任一项所述的图像处理方法，其特征在于，

所述文本检测模型由根据考试题库生成的文本行图片制作的数据集进行训练。

9.一种图像处理装置，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时能够实现如权利要求1至8中任一项所述的图像处理方法限定的步骤。

10.一种终端，其特征在于，包括：

如权利要求9所述的图像处理装置。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时，实现如权利要求1至8中任一项所述的图像处理方法的步骤。