CN113989814B - 图像生成方法、装置、计算机设备及存储介质 - Google Patents
图像生成方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113989814B CN113989814B CN202111410506.6A CN202111410506A CN113989814B CN 113989814 B CN113989814 B CN 113989814B CN 202111410506 A CN202111410506 A CN 202111410506A CN 113989814 B CN113989814 B CN 113989814B
- Authority
- CN
- China
- Prior art keywords
- character
- image
- flow
- patterns
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 120
- 238000000605 extraction Methods 0.000 claims abstract description 77
- 238000012545 processing Methods 0.000 claims abstract description 44
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 50
- 238000012015 optical character recognition Methods 0.000 claims description 48
- 238000001914 filtration Methods 0.000 claims description 45
- 230000008569 process Effects 0.000 claims description 26
- 230000000877 morphologic effect Effects 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 17
- 230000009466 transformation Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 11
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000007797 corrosion Effects 0.000 claims description 6
- 238000005260 corrosion Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 16
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 230000000007 visual effect Effects 0.000 abstract description 12
- 230000000694 effects Effects 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 20
- 238000010801 machine learning Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 244000181917 Rubus leucodermis Species 0.000 description 2
- 235000011036 Rubus leucodermis Nutrition 0.000 description 2
- 235000003942 Rubus occidentalis Nutrition 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
Abstract
本申请关于一种图像生成方法、装置、计算机设备及存储介质,涉及图像处理技术领域。本申请涉及的方案可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。所述方法包括:从第一样本图像中截取出目标区域图像;通过n个不同的字符提取流程分别对所述目标区域图像进行字符提取,获得n个字符图案;对n个所述字符图案分别进行字符识别,获得n个所述字符图案各自的字符识别结果;基于n个所述字符图案各自的字符识别结果,从n个所述字符图案中获取目标字符图案;将所述目标字符图案与模板图像融合,生成融合图像。本申请所示的方案能够兼顾生成的融合图像中的字符图案的准确性和视觉效果,从而提高图像生成的效果。
Description
技术领域
本申请涉及图像处理技术领域,特别涉及一种图像生成方法、装置、计算机设备及存储介质。
背景技术
在光学字符识别(Optical Character Recognition,OCR)模型的训练过程中,通常需要在原始样本图像的基础上生成新的样本图像,以扩展训练数据集。
在相关技术中,对光学字符识别模型进行训练所使用的样本图像进行扩展时,通常通过字符生成工具自动生成随机的字符,并将随机生成的字符叠加到原始样本图像上,得到新的样本图像。
然而,相关技术中的字符是字符生成工具自动合成的,其真实性较差,从而导致生成的图像的视觉效果较差,影响图像生成的效果。
发明内容
本申请实施例提供了一种图像生成方法、装置、计算机设备及存储介质,可以提高生成的图像中的字符的真实性,从而提高图像生成效果,该技术方案如下:
一方面,提供了一种图像生成方法,所述方法包括:
从第一样本图像中截取出目标区域图像,所述目标区域图像是包含字符的区域图像;
通过n个不同的字符提取流程分别对所述目标区域图像进行字符提取,获得n个字符图案,所述字符图案是所述目标区域图像中的字符所在的像素组成的图案;n为大于或者等于2的整数;
对n个所述字符图案分别进行字符识别,获得n个所述字符图案各自的字符识别结果;所述字符识别结果用于指示所述字符图案中包含的字符;
基于n个所述字符图案各自的字符识别结果,从n个所述字符图案中获取目标字符图案;
将所述目标字符图案与模板图像融合,生成融合图像。
另一方面,提供了一种图像生成装置,所述装置包括:
图像截取模块,用于从第一样本图像中截取出目标区域图像,所述目标区域图像是包含字符的区域图像;
图案提取模块,用于通过n个不同的字符提取流程分别对所述目标区域图像进行字符提取,获得n个字符图案,所述字符图案是所述目标区域图像中的字符所在的像素组成的图案;n为大于或者等于2的整数;
识别模块,用于对n个所述字符图案分别进行字符识别,获得n个所述字符图案各自的字符识别结果;所述字符识别结果用于指示所述字符图案中包含的字符;
字符图案获取模块,用于基于n个所述字符图案各自的字符识别结果,从n个所述字符图案中获取目标字符图案;
图像生成模块,用于将所述目标字符图案与模板图像融合,生成融合图像。
在一种可能的实现方式中,所述字符提取流程包含至少两个子流程;至少两个所述子流程中的每个所述子流程具有至少一种流程算法;
不同的所述字符提取流程分别对应不同的流程信息;所述流程信息包括子流程的流程算法以及子流程的执行参数中的至少一种。
在一种可能的实现方式中,响应于所述字符提取流程包含去噪子流程,所述去噪子流程的流程算法包括均值滤波、中值滤波、以及高斯滤波中的至少一种;
响应于所述去噪子流程的流程算法包括均值滤波,所述去噪子流程的执行参数包括滤波器的大小;
响应于所述去噪子流程的流程算法包括中值滤波,所述去噪子流程的执行参数包括滤波器的大小;
响应于所述去噪子流程的流程算法包括高斯滤波,所述去噪子流程的执行参数包括滤波器的大小以及滤波器的数值中的至少一种。
在一种可能的实现方式中,响应于所述字符提取流程包含二值化子流程,所述二值化子流程的流程算法包括固定阈值二值化、自适应阈值二值化、三角法二值化以及区域阈值二值化中的至少一种;
响应于所述二值化子流程的流程算法包括固定阈值二值化,所述二值化子流程的执行参数包括阈值以及超过阈值时的处理方式;
响应于所述二值化子流程的流程算法包括自适应阈值二值化,所述二值化子流程的执行参数包括超过阈值时的处理方式;
响应于所述二值化子流程的流程算法包括三角形二值化,所述二值化子流程的执行参数包括超过阈值时的处理方式;
响应于所述二值化子流程的流程算法包括区域阈值二值化,所述二值化子流程的执行参数包括超过阈值时的处理方式以及滤波器的大小中的至少一种。
在一种可能的实现方式中,响应于所述字符提取流程包含形态学运算子流程,所述形态学运算子流程的流程算法包括开运算、闭运算、顶帽运算以及黑帽运算中的至少一种;
所述形态学运算子流程的执行参数包括膨胀滤波器的大小以及腐蚀滤波器的大小中的至少一种。
在一种可能的实现方式中,所述识别模块,用于,
通过光学字符识别OCR模型对n个所述字符图案分别进行字符识别,获得n个所述字符图案各自包含的字符,以及n个所述字符图案各自的识别置信度;
所述基于n个所述字符图案各自的字符识别结果,从n个所述字符图案中获取目标字符图案,包括:
将n个所述字符图案中,字符识别正确的各个图案获取为各个候选字符图案;
基于各个所述候选字符图案的识别置信度,从各个所述候选字符图案中获取所述目标字符图案。
在一种可能的实现方式中,所述装置还包括:
透视变换模块,用于在所述识别模块通过n个不同的字符提取流程分别对所述目标区域图像进行字符提取,获得n个字符图案之前,对所述目标区域图像进行透视变换处理,以将所述目标区域图像的形状变换为矩形。
在一种可能的实现方式中,所述图像生成模块,用于将所述目标字符图案叠加在所述模板图像中的非字符区域,生成所述融合图像。
在一种可能的实现方式中,所述图像生成模块,用于,
基于所述模板图像的深度信息,检测所述模板图像中的非字符区域的物体表面;
在检测到的物体表面上叠加所述目标字符图案,生成所述融合图像。
在一种可能的实现方式中,所述图像生成模块,还用于在将所述目标字符图案叠加在所述模板图像中的非字符区域,生成所述融合图像之前,
确定所述模板图像中的字符区域;
将所述模板图像中除了所述字符区域之外的其他区域,获取为所述模板图像中的非字符区域。
在一种可能的实现方式中,所述模板图像对应有标注信息;所述图像生成模块,用于基于所述标注信息,确定所述模板图像中的字符区域。
在一种可能的实现方式中,所述图像生成模块,用于通过字符区域识别模型对所述模板图像进行识别处理,获得所述模板图像中的字符区域;所述字符区域识别模型是通过标注有字符区域的第二样本图像训练得到的模型。
在一种可能的实现方式中,所述图像生成模块,用于,
对所述目标字符图案进行旋转;
将旋转后的所述目标字符图像叠加在所述模板图像中的非字符区域,生成所述融合图像。
在一种可能的实现方式中,所述图像生成模块,用于,
获取所述模板图像的字符区域中的字符的排列方向;
基于所述模板图像的字符区域中的字符的排列方向,对所述目标字符图案进行旋转。
再一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条计算机指令,所述至少一条计算机指令由所述处理器加载并执行以实现上述的图像生成方法。
又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条计算机指令,所述至少一条计算机指令由处理器加载并执行以实现上述的图像生成方法。
又一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图像生成方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过在样本图像中截取出包含字符的图像区域,并通过不同的字符提取流程提取出多个字符图案,然后再通过对多个字符图案的字符识别结果,从多个字符图案中选择准确的字符图案,并与模板图像进行融合,得到叠加有字符图案的融合图像;一方面,通过多种不同的字符提取流程从目标区域图像中提取出多个字符图案,并通过字符识别的方式从中选择出目标字符图案,提高了字符图案的准确性;另一方面,上述字符图案是从样本图像中提取出的,能够保证字符图案的视觉效果;因此,本申请所示的方案能够兼顾生成的融合图像中的字符图案的准确性和视觉效果,从而提高图像生成的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种图像生成方法的流程示意图;
图2是图1所示实施例涉及的一种图像生成的流程图;
图3是根据一示例性实施例示出的一种OCR模型训练系统的系统框架图;
图4是根据一示例性实施例示出的一种图像生成方法的流程示意图;
图5是图4所示实施例涉及的区域图像截取的示意图;
图6是图4所示实施例涉及的透视变换的示意图;
图7是图4所示实施例涉及的一种图像去噪的示意图;
图8是图4所示实施例涉及的一种图像二值化的示意图;
图9是图4所示实施例涉及的字符图案的示意图;
图10是图4所示实施例涉及的图像融合前后的示意图;
图11是根据一示例性实施例示出的一种OCR模型训练系统的系统框架图;
图12是根据一示例性实施例示出的图像生成装置的结构方框图;
图13是根据一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在对本申请所示的各个实施例进行说明之前,首先对本申请涉及到的几个概念进行介绍:
1)AI(Artificial Intelligence,人工智能)
AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
2)OCR
OCR是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。
深度学习的OCR模型是指通过机器学习的方法,基于训练数据集训练出的深度学习机器模型。OCR模型一般分为两个部分:一是检测模型,用于确定文字区域的位置,比如,确定出图像中包含文字的区域的边界;二是识别模型,用于判断检测模型输出的区域图像中的字符信息,如字符文本。
3)ML(Machine Learning,机器学习)
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
图1是根据一示例性实施例示出的一种图像生成方法的流程示意图。该方法可以由计算机设备执行。比如,该计算机设备可以是终端或者服务器;或者,该计算机设备可以包括终端和服务器。如图1所示,该图像生成方法可以包括如下步骤:
步骤101,从第一样本图像中截取出目标区域图像,目标区域图像是包含字符的区域图像。
在本申请实施例中,上述第一样本图像是原生包含真实字符的图像。
其中,上述目标区域图像可以是指包围一个或多个字符的包围框所围成的区域。
其中,上述包围框可以是规则的图形,比如上述包围框可以是圆形包围框,或者矩形包围框、正方形包围框、菱形包围框等平行四边形包围框。
或者,上述包围框也可以是不规则的图形,比如由曲线或者折线所围成的包围框等等。
其中,上述目标图像区域中除了包含字符所在的像素之外,还包含背景所在的像素。
步骤102,通过n个不同的字符提取流程分别对目标区域图像进行字符提取,获得n个字符图案,字符图案是目标区域图像中的字符所在的像素组成的图案;n为大于或者等于2的整数。
在一种可能的实现方式中,上述字符提取流程可以是基于非机器学习方式的字符提取流程(也可以称为传统字符提取流程,该流程中所使用的算法,以及算法的参数可以是由开发人员预先设置的)。
在本申请实施例中,字符提取流程可以是指从目标区域图像中确定字符所在的像素,并提取得到字符所在的像素构成的图案的过程。也就是说,字符提取流程是从目标区域图像中提取出字符部分的图案的过程。
在本申请实施例中,上述不同的字符提取流程,可以是字符提取过程中所使用的算法,以及算法中的参数中的至少一种存在区别的字符提取流程。
相应的,对于给定的目标区域图像,通过上述不同的字符提取流程提取出的字符图案,在细节上通常存在一定的差别。比如,对于给定的目标图像区域,通过某些字符提取流程提取出的字符图案较为准确,即漏提取或者多提取的像素较少;而通过另一些字符提取流程提取出的字符图案可能不够准确,即漏提取或者多提取的像素较多。
步骤103,对n个字符图案分别进行字符识别,获得n个字符图案各自的字符识别结果;字符识别结果用于指示字符图案中包含的字符。
在一种可能的实现方式中,上述字符识别结果可以包含字符图案中的字符对应的字符文本。
在一种可能的实现方式中,计算机设备可以通过机器学习模型对n个字符图案分别进行字符识别。
步骤104,基于n个字符图案各自的字符识别结果,从n个字符图案中获取目标字符图案。
由于不同的字符提取流程提取出的字符图案在细节上可能存在差异,相应的,对于某些提取不准确的字符图案,其后续的识别结果也可能出错,基于此,本申请实施例所示的方案,通过对n个字符图案的字符识别结果,从n个字符图案中挑选出相对准确的字符图案。
步骤105,将目标字符图案与模板图像融合,生成融合图像。
请参考图2,其示出了本申请实施例涉及的一种图像生成的流程图。如图2所示,本申请实施例涉及的图像生成流程可以包括以下步骤:
S21,输入图像,该输入的图像中包含字符。
S22,提取输入的图像中字符所在区域的区域图像。
S23,通过多种字符提取流程对提取到的区域图像进行处理,得到每种字符提取流程输出的,字符像素区域的字符图案。
S24,通过对字符像素区域的字符图案的字符识别结果,评估筛选合适的字符图案。
S25,将筛选出的字符图案融合到新图像中,得到融合图像。
综上所述,本申请实施例所示的方案,通过在样本图像中截取出包含字符的图像区域,并通过不同的字符提取流程提取出多个字符图案,然后再通过对多个字符图案的字符识别结果,从多个字符图案中选择准确的字符图案,并与模板图像进行融合,得到叠加有字符图案的融合图像;一方面,通过多种不同的字符提取流程从目标区域图像中提取出多个字符图案,并通过字符识别的方式从中选择出目标字符图案,提高了字符图案的准确性;另一方面,上述字符图案是从样本图像中提取出的,能够保证字符图案的视觉效果;因此,本申请所示的方案能够兼顾生成的融合图像中的字符图案的准确性和视觉效果,从而提高图像生成的效果。
在一种可能的应用场景中,上述图1所示的方案可以应用于对ORC模型的训练数据集进行扩展,以便进一步提高OCR模型的准确性。
图3是根据一示例性实施例示出的一种OCR模型训练系统的系统框架图。如图3所示,上述系统包括模型训练设备301以及数据增强设备302。
对于第一训练数据集303,该第一训练数据集303中包含若干原始包含字符的样本图像。
在训练数据增强阶段,数据增强设备302,首先对第一训练数据集303中的样本图像(对应上述第一样本图像)进行图像截取,得到包含字符的目标区域图像304。之后,数据增强设备302通过若干个字符提取流程分别目标区域图像304进行字符提取,得到每个字符提取流程分别输出的字符图案305;对于每个字符图案305,数据增强设备302通过字符识别模型进行字符识别,得到每个字符图案305分别对应的字符识别结果306,该字符识别结果指示的是字符图案305中的字符文本。然后,数据增强设备302在通过字符识别结果306进行字符图案的筛选,得到一个或多个相对准确的目标字符图像307,并将目标字符图案307与模板图像308进行融合,得到融合图像309,作为OCR模型的补充训练数据。
在模型训练阶段,模型训练设备301通过第一训练数据集303,以及融合图像309进行OCR模型的训练。
在本申请实施例所示的方案中,上述模型训练设备301以及数据增强设备302可以是同一个实体计算机设备,比如,可以时同一台个人电脑或者同一台服务器。或者,上述模型训练设备301以及数据增强设备302也可以是不同的实体计算机设备。
其中,上述图3所示的方案仅以应用于OCR模型的训练场景为例,对本申请实施例提供的图像生成方法进行介绍,可选的,本申请实施例提供的图像生成方法也可以应用于OCR模型训练场景之外的其它图像应用场景,比如,应用于对其它模型的训练数据的增强场景,或者,应用于图像合成展示场景等等,本申请实施例对于上述图像生成方法的应用场景不做限定。
本申请各个实施例所示的方案中,计算机设备可以包括但不限于手机、电脑、智能语音交互设备、智能家电、服务器等等。本申请各个实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
图4是根据一示例性实施例示出的一种图像生成方法的流程示意图。该方法可以由计算机设备执行。比如,该计算机设备可以是终端或者服务器;或者,该计算机设备可以包括终端和服务器。例如,该计算机设备可以是图3所示系统中的数据增强设备302。如图4所示,该图像生成方法可以包括如下步骤:
步骤401,从第一样本图像中截取出目标区域图像,目标区域图像是包含字符的区域图像。
在一种可能的实现方式中,上述第一样本图像对应有预先设置的标注信息,该标注信息中包含上述目标区域图像的位置信息(比如目标区域图像的包围框的像素坐标),以及上述目标区域图像中包含的字符对应的字符文本。相应的,在截取目标区域图像时,计算机设备可以根据上述标注信息中的目标区域图像的位置信息,从第一样本图像中直接截取出目标区域图像。
比如,请参考图5,其示出了本申请实施例涉及的区域图像截取的示意图。如图5所示,在目标区域图像51中,包含预先标注好的字符区域51a,计算机设备根据标注好的字符区域51a,从目标区域图像51截取出目标区域图像。
在另一种可能的实现方式中,计算机设备也可以通过字符区域识别模型,对第一样本图像进行处理,获得字符区域识别模型输出的字符区域的位置信息,然后,字符区域识别模型输出的位置信息,从第一样本图像中截取出目标区域图像。
其中,上述字符区域识别模型可以是预先训练好的机器学习模型。在一种示例性的方案中,上述字符区域识别模型可以对输入的第一样本图像的图像特征进行提取,并将提取到的图像特征映射到标注空间,得到第一样本图像中各个像素是否属于字符区域的概率,然后根据上述第一样本图像中各个像素是否属于字符区域的概率,输出字符区域的位置信息。
可选的,上述字符区域识别模型是通过标注有字符区域的第二样本图像训练得到的模型。
例如,上述第二样本图像对应有标注信息,该标注信息中包含第二样本图像中的字符区域的位置信息。在训练过程中,计算机设备将第二样本图像输入至字符区域识别模型,由字符区域识别模型输出第二样本图像中各个字符是否属于字符区域的预测概率,然后,根据第二样本图像中各个字符是否属于字符区域的预测概率,以及上述第二样本图像中的字符区域的位置信息,计算出损失函数值,并通过该损失函数值对字符区域识别模型的模型参数进行更新,比如,通过梯度下降算法对字符区域识别模型的模型参数进行更新,迭代上述过程,直至字符区域识别模型达到收敛状态(或者说满足收敛条件)。
步骤402,对目标区域图像进行透视变换处理,以将目标区域图像的形状变换为矩形。
透视变换(Perspective Transformation)也称作投影映射(ProjectiveMapping),是指将图片投影到一个新的视平面(Viewing Plane)上的过程。在本申请实施例中,透视变换可以通过在原始的目标区域图像上乘以一个变换矩阵来实现,该变换矩阵可以对目标区域图像进行视平面的投影,使得投影后的图像呈矩形,以方便进行后续的字符图案的提取处理。
比如,请参考图6,其示出了本申请实施例涉及的透视变换的示意图。如图6所示,对于从图5所示的目标区域图像51中截取出的目标区域图像51a,计算机设备对其乘以一个变换矩阵,得到矩形的目标区域图像62。
步骤403,通过n个不同的字符提取流程分别对目标区域图像进行字符提取,获得n个字符图案,字符图案是目标区域图像中的字符所在的像素组成的图案;n为大于或者等于2的整数。
在一种可能的实现方式中,字符提取流程包含至少两个子流程;至少两个子流程中的每个子流程具有至少一种流程算法;
不同的字符提取流程分别对应不同的流程信息;流程信息包括子流程的流程算法以及子流程的执行参数中的至少一种。
在一种可能的实现方式中,响应于字符提取流程包含去噪子流程,去噪子流程的流程算法包括均值滤波、中值滤波、以及高斯滤波中的至少一种;
响应于去噪子流程的流程算法包括均值滤波,去噪子流程的执行参数包括滤波器的大小;
响应于去噪子流程的流程算法包括中值滤波,去噪子流程的执行参数包括滤波器的大小;
响应于去噪子流程的流程算法包括高斯滤波,去噪子流程的执行参数包括滤波器的大小以及滤波器的数值中的至少一种。
在一种可能的实现方式中,响应于字符提取流程包含二值化子流程,二值化子流程的流程算法包括固定阈值二值化、自适应阈值二值化、三角法二值化以及区域阈值二值化中的至少一种;
响应于二值化子流程的流程算法包括固定阈值二值化,二值化子流程的执行参数包括阈值以及超过阈值时的处理方式;
响应于二值化子流程的流程算法包括自适应阈值二值化,二值化子流程的执行参数包括超过阈值时的处理方式;
响应于二值化子流程的流程算法包括三角形二值化,二值化子流程的执行参数包括超过阈值时的处理方式;
响应于二值化子流程的流程算法包括区域阈值二值化,二值化子流程的执行参数包括超过阈值时的处理方式以及滤波器的大小中的至少一种。
在一种可能的实现方式中,响应于字符提取流程包含形态学运算子流程,形态学运算子流程的流程算法包括开运算、闭运算、顶帽运算以及黑帽运算中的至少一种;
形态学运算子流程的执行参数包括膨胀滤波器的大小以及腐蚀滤波器的大小中的至少一种。
接下来我们需要将包含文字的像素区域分割出来,一般来说为了方便识别,绝大部分真实世界中的文字和文字后面的背景都会有较大的颜色和亮度上的差异(如各种证件各种标牌各种图书),因此传统的图像分割方法可以解决这个问题,用传统方法对图像进行OCR字符分割一般有如下三个主要步骤:
1)去噪
去噪一般是传统的用于字符的图像分割方法的第一步,用于将图像中的噪声(异常亮点或暗点)去掉以更好地找到字符像素区域,传统数字图像处理中的去噪方法主要包括均值滤波(平滑图像),高斯滤波(适用于高斯噪声),中值滤波(适用于椒盐噪声)等。具体来说,均值滤波和中值滤波的参数主要是滤波器的大小,高斯滤波的参数除了滤波器的大小还有滤波器具体的值。
均值滤波是一种线性滤波算法,其处理思路是对一个窗口区域中的像素计算平均值,然后将窗口中计算得到的均值设置为锚点上的像素值。该算法具有效率高的优点。
计算均值滤波时可以采用很多优化手段,例如使用积分图的方法对图像进行预处理,处理过后的图像可以通过时间复杂度获取窗口区域中的像素和。
均值滤波可以使用卷积方案来实现,图像的边界部分可以采用padding操作处理。另外,均值滤波得到的锚点像素值要可以进行归一化,即除以窗口尺寸的大小。
中值滤波是一种非线性滤波,在处理脉冲噪声以及椒盐噪声时效果极佳,能够有效的保护好图像的边缘信息。中值滤波的处理思路为:取卷积核所覆盖像素中的中值作为锚点的像素值。
高斯滤波是一种线性滤波,是常用的一种滤波算法,其可以利用二维高斯函数的分布方式来对图像进行平滑。
高斯滤波可以具有以下优点:
第一,二维高斯函数是旋转对称的,在各个方向上平滑程度相同,不会改变原图像的边缘走向。
第二,高斯函数是单值函数,高斯卷积核的锚点为极值,在所有方向上单调递减,锚点像素不会受到距离锚点较远的像素影响过大,保证了特征点和边缘的特性。
第三,在频域上,滤波过程中不会被高频信号污染。
对于同一个图像,使用不同的滤波算法或者不同的滤波算法参数,可以得到不同的滤波结果。比如。请参考图7,其示出了本申请实施例涉及的一种图像去噪的示意图。如图7所示,通过不同的去噪算法/参数对图像71进行去噪处理,可以得到不同的去噪图像72以及去噪图像73。
2)二值化处理
在字符像素区域分割中,二值化处理用于将图像分为字符部分所在区域和非字符所在区域,常见的方法包括但不限于固定阈值二值化(高过一定阈值是字符区域,低于一定阈值则不是),自适应阈值二值化(如最大类间方差法(或者称为大津法),可以将双波峰的图像很好的分为两部分),三角法(用于处理单波峰图像)以及区域阈值二值化(图像不同部分亮度不同,通过滑动窗口为每个像素选取一个阈值)等,固定阈值二值化参数主要为阈值和超过阈值的处理方式;自适应二值化的参数因为阈值是根据已有数据求出来的所以参数只有超过阈值的处理方式;区域二值化类似自适应二值化,但多了一个滤波器大小,也就是区域大小的参数。
对于同一个图像,使用不同的二值化算法或者不同的二值化算法参数,可以得到不同的二值化结果。比如。请参考图8,其示出了本申请实施例涉及的一种图像二值化的示意图。如图8所示,通过不同的二值化算法/参数对图像81进行二值化处理,可以得到不同的二值化图像82以及二值化图像83。
3)形态学运算
在字符像素区域分割中,形态学运算可以将二值化过程中错误区分的部分去掉,只留下主体,形态学运算主要涉及开运算和闭运算两种,其中开运算是先腐蚀后膨胀,闭运算则是先膨胀再腐蚀,主要的参数是膨胀和腐蚀的滤波器或者说核的大小。
在进行形态学运算之后,计算机设备即可以根据形态学运算的结果中的字符像素的位置信息,得到最终的字符像素区域,对原图进行截取即可得到对应的字符图案。
请参考图9,其示出了本申请实施例涉及的字符图案的示意图。
步骤404,对n个字符图案分别进行字符识别,获得n个字符图案各自的字符识别结果;字符识别结果用于指示字符图案中包含的字符。
在一种可能的实现方式中,对n个字符图案分别进行字符识别,获得n个字符图案各自的字符识别结果,包括:
通过光学字符识别OCR模型对n个字符图案分别进行字符识别,获得n个字符图案各自包含的字符,以及n个字符图案各自的识别置信度。
步骤405,基于n个字符图案各自的字符识别结果,从n个字符图案中获取目标字符图案。
在本申请实施例中,计算机设备可以将n个字符图案中,字符识别正确的各个图案获取为各个候选字符图案;
基于各个候选字符图案的识别置信度,从各个候选字符图案中获取目标字符图案。
在本申请实施例中,计算机设备可以将候选字符图案中,置信度高于阈值的字符图案获取为目标字符图案;或者,计算机设备也可以将候选字符图案中,置信度排名前m位的字符图案获取为目标字符图案。其中,m为大于或者等于1的整数。
在上述步骤403中,字符分割的三个步骤中每个步骤都有不同的算法,适用于不同类型的图像,每个算法都可能有不同的超参数(如滤波器大小等),对于输入的目标区域图像来说,可能有些字符提取流程是不合适的,不能得到准确的分割结果;或者,可能存在多个字符提取流程都能够提取到准确的分割结果,但是并不清楚这些分割结果的准确程度。对此,本申请实施例所示的方案,将上述字符分割的三个步骤中每种算法以及算法参数的组合都进行尝试,比如,对每个目标区域图像执行3(降噪)*4(二值化)*4(是否使用开闭运算)*p(参数数量)=z个不同的字符提取流程进行图像预处理,得到不同的z张字符图案,然后将每张字符图案都输入到OCR识别模型(比如基于卷积递归神经网络(ConvolutionalRecurrent Neural Network,CRNN)的OCR模型,该OCR模型可以是通过第一样本图像所在的训练数据集训练得到的OCR模型,也可以是通过其它训练数据集训练得到的OCR模型)中,OCR识别模型会输出识别结果(即字符文本)和识别结果的置信度(范围在0-1之间,表示识别结果的可信程度),由于预先已经获取了目标区域图像的标注信息,因此,计算机设备可以获得字符图案的真实字符文本,因此可以判断OCR识别模型的识别结果是否正确(也就是由机器从上百张图片中进行大范围的自动筛选),如果OCR识别模型能够正确识别(同时置信度越高越好)某一字符图案,那么计算机设备就可以认为这是一个很好的分割结果,可以用于后续的图像合成,从而从z张图像中挑选出一些准确性较高的分割结果。
在获得目标字符图案之后,计算机设备即可以将目标字符图案与模板图像融合,生成融合图像。上述融合图像生成过程可以参考后续步骤。
步骤406,将目标字符图案叠加在模板图像中的非字符区域,生成融合图像。
在一种可能的实现方式中,计算机设备可以在预先设置的模板图像中的非字符区域,直接叠加上述目标字符图案,从而得到融合图像。
也就是说,在本申请实施例中,计算机设备将筛选出的准确性较高的字符图案,与新的图像融合起来,即可以得到生成的融合图像。
请参考图10,其示出了本申请实施例涉及的图像融合前后的示意图。如图10所示,计算机设备在模板图像1001上叠加筛选出的准确性较高的字符图案,得到融合图像1002。通过图10所示的图像融合结果,可以扩展OCR模型的训练数据集,从而实现数据增强的目的。
在一种可能的实现方式中,将目标字符图案叠加在模板图像中的非字符区域,生成融合图像,包括:
基于模板图像的深度信息,检测模板图像中的非字符区域的物体表面;
在检测到的物体表面上叠加目标字符图案,生成融合图像。
在本申请实施例中,当模板图像具有深度信息时,计算机设备还可以基于该深度信息,检测模板图像中的非字符区域的物体表面(比如某个立柱的表面或者地面),然后将字符图案以贴合的方式叠加到物体表面上,从而生成融合图像,从而使得字符图案更加贴近模板图像中的地面等平面。
在一种可能的实现方式中,将目标字符图案叠加在模板图像中的非字符区域,生成融合图像之前,还包括:
确定模板图像中的字符区域;
将模板图像中除了字符区域之外的其他区域,获取为模板图像中的非字符区域。
在本申请实施例中,模板图像中可能包含原生的字符区域,为了避免字符图案被叠加到模板图像中的字符区域而影响图像生成的效果,计算机设备可以先确定模板图像中的字符区域,然后在字符区域之外的其他区域叠加上述字符图案。
在一种可能的实现方式中,模板图像对应有标注信息;上述确定模板图像中的字符区域的步骤包括:
基于标注信息,确定模板图像中的字符区域。
在本申请实施例中,开发人员可以预先在模板图像中标注出字符区域的位置信息,计算机设备可以直接根据标注信息确定出模板图像中的字符区域。
在一种可能的实现方式中,确定模板图像中的字符区域,包括:
通过字符区域识别模型对模板图像进行识别处理,获得模板图像中的字符区域。
在另一种示例性的方案中,计算机设备也可以通过字符区域识别模型对模板图像进行处理,得到字符区域识别模型输出的,各个像素属于字符区域的概率分布,然后根据字符区域识别模型的输出结果,确定模板图像中的字符区域。
在一种可能的实现方式中,将目标字符图案与模板图像融合,生成融合图像,包括:
对目标字符图案进行旋转;
将旋转后的目标字符图像叠加在模板图像中的非字符区域,生成融合图像。
在本申请实施例中,为了进一步扩展可生成的图像,计算机设备可以对目标字符图案进行旋转,并将旋转后的目标字符图案叠加到模板图像中。
比如,计算机设备可以对某一个目标字符图案进行多次随机旋转,得到若干个旋转后的目标字符图案,从而扩展了可叠加的目标字符图案的数量,继而可以提高生成的融合图像的数量,提高数据增强的效果。
在一种可能的实现方式中,对目标字符图案进行旋转,包括:
获取模板图像的字符区域中的字符的排列方向;
基于模板图像的字符区域中的字符的排列方向,对目标字符图案进行旋转。
在本申请实施例中,由于目标字符图案的排列方向是固定的,且目标字符图案的排列方向与模板图像的字符区域中的字符的排列方向可能不同,如果直接将目标字符图案叠加在模板图像中,则可能导致生成的融合图像的视觉真实性较差,对此,本申请实施例所示的方案可以对模板图像的字符区域中的字符的排列方向进行识别,比如,通过模板图像的字符区域的形状和角度,确定模板图像的字符区域中的字符的排列方向,然后对目标字符图案进行旋转,使得目标字符图案的排列方向与模板图像的字符区域中的字符的排列方向一致,然后再将旋转后的目标字符图案叠加到模板图像中,以提高生成的融合图像的视觉真实性。
综上所述,本申请实施例所示的方案,通过在样本图像中截取出包含字符的图像区域,并通过不同的字符提取流程提取出多个字符图案,然后再通过对多个字符图案的字符识别结果,从多个字符图案中选择准确的字符图案,并与模板图像进行融合,得到叠加有字符图案的融合图像;一方面,通过多种不同的字符提取流程从目标区域图像中提取出多个字符图案,并通过字符识别的方式从中选择出目标字符图案,提高了字符图案的准确性;另一方面,上述字符图案是从样本图像中提取出的,能够保证字符图案的视觉效果;因此,本申请所示的方案能够兼顾生成的融合图像中的字符图案的准确性和视觉效果,从而提高图像生成的效果。
本申请上述实施例提出了一种结合深度学习和传统计算机数字图像处理方法的图像生成方法,可以用于OCR模型训练数据的增强,其基本思路是使用已有的标注数据,在了解标注数据真值的情况下,用多个传统的数字图像处理方法得到可能的字符像素区域,再通过一个OCR模型,结合真值判断这些字符像素区域的准确性后,将字符像素区域通过透射变换映射到其他原始图像中不存在字符的空白区域,从而实现OCR模型的训练数据增强的目的。
图11是根据一示例性实施例示出的一种OCR模型训练系统的系统框架图。如图11所示,上述系统包括模型训练设备1101以及数据增强设备1102。
如图11所示,该OCR模型训练系统训练OCR模型的过程可以分为如下三个阶段。
第一,OCR模型初训练阶段。
在OCR模型初训练阶段,对于第一训练数据集1103,模型训练设备1101通过该第一训练数据集1103中的各个样本图像,以及各个样本图像的标注信息(可以包括字符区域的位置信息以及字符区域对应的字符文本),对OCR模型进行训练,得到初训练的OCR模型。其中,该OCR模型中包含检测子模型(用于检测字符区域)和识别子模型(用于识别字符区域中的字符)。
第二,训练数据增强阶段。
在训练数据增强阶段,数据增强设备1102,对第一训练数据集1103中的样本图像(对应上述第一样本图像)进行图像截取,得到包含字符的目标区域图像1104。之后,数据增强设备1102通过若干个字符提取流程分别目标区域图像1104进行字符提取,得到每个字符提取流程分别输出的字符图案1105;对于每个字符图案1105,数据增强设备1102通过初训练的字符识别模型中的识别子模型进行字符识别,得到每个字符图案1105分别对应的字符识别结果1106。然后,数据增强设备1102在通过字符识别结果1106进行字符图案的筛选,得到一个或多个相对准确的目标字符图像1107,并将目标字符图案1107与模板图像1108进行融合,得到融合图像1109,作为OCR模型的补充训练数据。
第三,OCR模型再训练阶段。
在OCR模型再训练阶段,模型训练设备1101通过融合图像1109,以及融合图像1109的标注信息,进行OCR模型的再训练。
本方案通过深度学习和传统数字图像处理相结合的方式很好的根据标注数据生成了新的合成数据,相较其他常用方法在使用门槛更低的同时弥补了生成数据较为不真实的缺点,适用于大部分OCR数据集,能够很好的提升模型在实际任务中的表现,具有较强的实用价值。
图12是根据一示例性实施例示出的一种图像生成装置的结构方框图。该图像生成装置可以实现图1或图4所示实施例提供的方法中的全部或部分步骤,该图像生成装置包括:
图像截取模块1201,用于从第一样本图像中截取出目标区域图像,所述目标区域图像是包含字符的区域图像;
图案提取模块1202,用于通过n个不同的字符提取流程分别对所述目标区域图像进行字符提取,获得n个字符图案,所述字符图案是所述目标区域图像中的字符所在的像素组成的图案;n为大于或者等于2的整数;
识别模块1203,用于对n个所述字符图案分别进行字符识别,获得n个所述字符图案各自的字符识别结果;所述字符识别结果用于指示所述字符图案中包含的字符;
字符图案获取模块1204,用于基于n个所述字符图案各自的字符识别结果,从n个所述字符图案中获取目标字符图案;
图像生成模块1205,用于将所述目标字符图案与模板图像融合,生成融合图像。
在一种可能的实现方式中,所述字符提取流程包含至少两个子流程;至少两个所述子流程中的每个所述子流程具有至少一种流程算法;
不同的所述字符提取流程分别对应不同的流程信息;所述流程信息包括子流程的流程算法以及子流程的执行参数中的至少一种。
在一种可能的实现方式中,响应于所述字符提取流程包含去噪子流程,所述去噪子流程的流程算法包括均值滤波、中值滤波、以及高斯滤波中的至少一种;
响应于所述去噪子流程的流程算法包括均值滤波,所述去噪子流程的执行参数包括滤波器的大小;
响应于所述去噪子流程的流程算法包括中值滤波,所述去噪子流程的执行参数包括滤波器的大小;
响应于所述去噪子流程的流程算法包括高斯滤波,所述去噪子流程的执行参数包括滤波器的大小以及滤波器的数值中的至少一种。
在一种可能的实现方式中,响应于所述字符提取流程包含二值化子流程,所述二值化子流程的流程算法包括固定阈值二值化、自适应阈值二值化、三角法二值化以及区域阈值二值化中的至少一种;
响应于所述二值化子流程的流程算法包括固定阈值二值化,所述二值化子流程的执行参数包括阈值以及超过阈值时的处理方式;
响应于所述二值化子流程的流程算法包括自适应阈值二值化,所述二值化子流程的执行参数包括超过阈值时的处理方式;
响应于所述二值化子流程的流程算法包括三角形二值化,所述二值化子流程的执行参数包括超过阈值时的处理方式;
响应于所述二值化子流程的流程算法包括区域阈值二值化,所述二值化子流程的执行参数包括超过阈值时的处理方式以及滤波器的大小中的至少一种。
在一种可能的实现方式中,响应于所述字符提取流程包含形态学运算子流程,所述形态学运算子流程的流程算法包括开运算、闭运算、顶帽运算以及黑帽运算中的至少一种;
所述形态学运算子流程的执行参数包括膨胀滤波器的大小以及腐蚀滤波器的大小中的至少一种。
在一种可能的实现方式中,所述识别模块1203,用于,
通过光学字符识别OCR模型对n个所述字符图案分别进行字符识别,获得n个所述字符图案各自包含的字符,以及n个所述字符图案各自的识别置信度;
所述基于n个所述字符图案各自的字符识别结果,从n个所述字符图案中获取目标字符图案,包括:
将n个所述字符图案中,字符识别正确的各个图案获取为各个候选字符图案;
基于各个所述候选字符图案的识别置信度,从各个所述候选字符图案中获取所述目标字符图案。
在一种可能的实现方式中,所述装置还包括:
透视变换模块,用于在所述识别模块1203通过n个不同的字符提取流程分别对所述目标区域图像进行字符提取,获得n个字符图案之前,对所述目标区域图像进行透视变换处理,以将所述目标区域图像的形状变换为矩形。
在一种可能的实现方式中,所述图像生成模块1205,用于将所述目标字符图案叠加在所述模板图像中的非字符区域,生成所述融合图像。
在一种可能的实现方式中,所述图像生成模块1205,用于,
基于所述模板图像的深度信息,检测所述模板图像中的非字符区域的物体表面;
在检测到的物体表面上叠加所述目标字符图案,生成所述融合图像。
在一种可能的实现方式中,所述图像生成模块1205,还用于在将所述目标字符图案叠加在所述模板图像中的非字符区域,生成所述融合图像之前,
确定所述模板图像中的字符区域;
将所述模板图像中除了所述字符区域之外的其他区域,获取为所述模板图像中的非字符区域。
在一种可能的实现方式中,所述模板图像对应有标注信息;所述图像生成模块1205,用于基于所述标注信息,确定所述模板图像中的字符区域。
在一种可能的实现方式中,所述图像生成模块1205,用于通过字符区域识别模型对所述模板图像进行识别处理,获得所述模板图像中的字符区域;所述字符区域识别模型是通过标注有字符区域的第二样本图像训练得到的模型。
在一种可能的实现方式中,所述图像生成模块1205,用于,
对所述目标字符图案进行旋转;
将旋转后的所述目标字符图像叠加在所述模板图像中的非字符区域,生成所述融合图像。
在一种可能的实现方式中,所述图像生成模块1205,用于,
获取所述模板图像的字符区域中的字符的排列方向;
基于所述模板图像的字符区域中的字符的排列方向,对所述目标字符图案进行旋转。
综上所述,本申请实施例所示的方案,通过在样本图像中截取出包含字符的图像区域,并通过不同的字符提取流程提取出多个字符图案,然后再通过对多个字符图案的字符识别结果,从多个字符图案中选择准确的字符图案,并与模板图像进行融合,得到叠加有字符图案的融合图像;一方面,通过多种不同的字符提取流程从目标区域图像中提取出多个字符图案,并通过字符识别的方式从中选择出目标字符图案,提高了字符图案的准确性;另一方面,上述字符图案是从样本图像中提取出的,能够保证字符图案的视觉效果;因此,本申请所示的方案能够兼顾生成的融合图像中的字符图案的准确性和视觉效果,从而提高图像生成的效果。
图13是根据一示例性实施例示出的一种计算机设备的结构示意图。该计算机设备可以实现为上述各个方法实施例中的模型训练设备和/或信号处理设备。所述计算机设备1300包括中央处理单元(CPU,Central Processing Unit)1301、包括随机存取存储器(Random Access Memory,RAM)1302和只读存储器(Read-Only Memory,ROM)1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述计算机设备1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统1306,和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。
所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说,所述大容量存储设备1307可以包括诸如硬盘或者光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、闪存或其他固态存储其技术,CD-ROM、或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。
计算机设备1300可以通过连接在所述系统总线1305上的网络接口单元1309连接到互联网或者其它网络设备。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器1301通过执行该一个或一个以上程序来实现图2或图4任一所示的方法的全部或者部分步骤。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括计算机程序(指令)的存储器,上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法。例如,所述非临时性计算机可读存储介质可以是只读存储器、随机存取存储器、只读光盘、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例所示的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (18)
1.一种图像生成方法,其特征在于,所述方法包括:
从第一样本图像中截取出目标区域图像,所述目标区域图像是包含字符的区域图像;
通过n个不同的字符提取流程分别对所述目标区域图像进行字符提取,获得n个字符图案,所述字符图案是所述目标区域图像中的字符所在的像素组成的图案;n为大于或者等于2的整数;
对n个所述字符图案分别进行字符识别,获得n个所述字符图案各自的字符识别结果;所述字符识别结果用于指示所述字符图案中包含的字符;
将n个所述字符图案中,字符识别正确的各个图案获取为各个候选字符图案;
基于各个所述候选字符图案的识别置信度,从各个所述候选字符图案中获取目标字符图案;
将所述目标字符图案与模板图像融合,生成融合图像。
2.根据权利要求1所述的方法,其特征在于,所述字符提取流程包含至少两个子流程;至少两个所述子流程中的每个所述子流程具有至少一种流程算法;
不同的所述字符提取流程分别对应不同的流程信息;所述流程信息包括子流程的流程算法以及子流程的执行参数中的至少一种。
3.根据权利要求2所述的方法,其特征在于,响应于所述字符提取流程包含去噪子流程,所述去噪子流程的流程算法包括均值滤波、中值滤波、以及高斯滤波中的至少一种;
响应于所述去噪子流程的流程算法包括均值滤波,所述去噪子流程的执行参数包括滤波器的大小;
响应于所述去噪子流程的流程算法包括中值滤波,所述去噪子流程的执行参数包括滤波器的大小;
响应于所述去噪子流程的流程算法包括高斯滤波,所述去噪子流程的执行参数包括滤波器的大小以及滤波器的数值中的至少一种。
4.根据权利要求2所述的方法,其特征在于,响应于所述字符提取流程包含二值化子流程,所述二值化子流程的流程算法包括固定阈值二值化、自适应阈值二值化、三角法二值化以及区域阈值二值化中的至少一种;
响应于所述二值化子流程的流程算法包括固定阈值二值化,所述二值化子流程的执行参数包括阈值以及超过阈值时的处理方式;
响应于所述二值化子流程的流程算法包括自适应阈值二值化,所述二值化子流程的执行参数包括超过阈值时的处理方式;
响应于所述二值化子流程的流程算法包括三角形二值化,所述二值化子流程的执行参数包括超过阈值时的处理方式;
响应于所述二值化子流程的流程算法包括区域阈值二值化,所述二值化子流程的执行参数包括超过阈值时的处理方式以及滤波器的大小中的至少一种。
5.根据权利要求2所述的方法,其特征在于,响应于所述字符提取流程包含形态学运算子流程,所述形态学运算子流程的流程算法包括开运算、闭运算、顶帽运算以及黑帽运算中的至少一种;
所述形态学运算子流程的执行参数包括膨胀滤波器的大小以及腐蚀滤波器的大小中的至少一种。
6.根据权利要求1所述的方法,其特征在于,所述对n个所述字符图案分别进行字符识别,获得n个所述字符图案各自的字符识别结果,包括:
通过光学字符识别OCR模型对n个所述字符图案分别进行字符识别,获得n个所述字符图案各自包含的字符,以及n个所述字符图案各自的识别置信度。
7.根据权利要求1所述的方法,其特征在于,所述通过n个不同的字符提取流程分别对所述目标区域图像进行字符提取,获得n个字符图案之前,还包括:
对所述目标区域图像进行透视变换处理,以将所述目标区域图像的形状变换为矩形。
8.根据权利要求1所述的方法,其特征在于,所述将所述目标字符图案与模板图像融合,生成融合图像,包括:
将所述目标字符图案叠加在所述模板图像中的非字符区域,生成所述融合图像。
9.根据权利要求8所述的方法,其特征在于,所述将所述目标字符图案叠加在所述模板图像中的非字符区域,生成所述融合图像,包括:
基于所述模板图像的深度信息,检测所述模板图像中的非字符区域的物体表面;
在检测到的物体表面上叠加所述目标字符图案,生成所述融合图像。
10.根据权利要求8所述的方法,其特征在于,所述将所述目标字符图案叠加在所述模板图像中的非字符区域,生成所述融合图像之前,还包括:
确定所述模板图像中的字符区域;
将所述模板图像中除了所述字符区域之外的其他区域,获取为所述模板图像中的非字符区域。
11.根据权利要求10所述的方法,其特征在于,所述模板图像对应有标注信息;
所述确定所述模板图像中的字符区域,包括:
基于所述标注信息,确定所述模板图像中的字符区域。
12.根据权利要求10所述的方法,其特征在于,所述确定所述模板图像中的字符区域,包括:
通过字符区域识别模型对所述模板图像进行识别处理,获得所述模板图像中的字符区域;所述字符区域识别模型是通过标注有字符区域的第二样本图像训练得到的模型。
13.根据权利要求8所述的方法,其特征在于,所述将所述目标字符图案与模板图像融合,生成融合图像,包括:
对所述目标字符图案进行旋转;
将旋转后的所述目标字符图案叠加在所述模板图像中的非字符区域,生成所述融合图像。
14.根据权利要求13所述的方法,其特征在于,所述对所述目标字符图案进行旋转,包括:
获取所述模板图像的字符区域中的字符的排列方向;
基于所述模板图像的字符区域中的字符的排列方向,对所述目标字符图案进行旋转。
15.一种图像生成装置,其特征在于,所述装置包括:
图像截取模块,用于从第一样本图像中截取出目标区域图像,所述目标区域图像是包含字符的区域图像;
图案提取模块,用于通过n个不同的字符提取流程分别对所述目标区域图像进行字符提取,获得n个字符图案,所述字符图案是所述目标区域图像中的字符所在的像素组成的图案;n为大于或者等于2的整数;
识别模块,用于对n个所述字符图案分别进行字符识别,获得n个所述字符图案各自的字符识别结果;所述字符识别结果用于指示所述字符图案中包含的字符;
字符图案获取模块,用于将n个所述字符图案中,字符识别正确的各个图案获取为各个候选字符图案;基于各个所述候选字符图案的识别置信度,从各个所述候选字符图案中获取目标字符图案;
图像生成模块,用于将所述目标字符图案与模板图像融合,生成融合图像。
16.一种计算机设备,其特征在于,计算机设备包含处理器和存储器,所述存储器中存储有至少一条计算机指令,所述至少一条计算机指令由所述处理器加载并执行以实现如权利要求1至14任一所述的图像生成方法。
17.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条计算机指令,所述至少一条计算机指令由处理器加载并执行以实现如权利要求1至14任一所述的图像生成方法。
18.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令由计算机设备的处理器读取并执行,使得所述计算机设备执行如权利要求1至14任一所述的图像生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111410506.6A CN113989814B (zh) | 2021-11-23 | 2021-11-23 | 图像生成方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111410506.6A CN113989814B (zh) | 2021-11-23 | 2021-11-23 | 图像生成方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113989814A CN113989814A (zh) | 2022-01-28 |
CN113989814B true CN113989814B (zh) | 2024-08-20 |
Family
ID=79750463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111410506.6A Active CN113989814B (zh) | 2021-11-23 | 2021-11-23 | 图像生成方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113989814B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116797500B (zh) * | 2022-03-14 | 2024-09-06 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质、电子设备及产品 |
CN116486418B (zh) * | 2023-06-19 | 2023-10-03 | 恒银金融科技股份有限公司 | 钞票冠字号图像的生成方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255826A (zh) * | 2018-10-11 | 2019-01-22 | 平安科技(深圳)有限公司 | 中文训练图像生成方法、装置、计算机设备及存储介质 |
CN110135413A (zh) * | 2019-05-08 | 2019-08-16 | 深圳前海达闼云端智能科技有限公司 | 一种字符识别图像的生成方法、电子设备和可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10089523B2 (en) * | 2016-10-05 | 2018-10-02 | Intuit Inc. | Automating creation of accurate OCR training data using specialized UI application |
CN106650721B (zh) * | 2016-12-28 | 2019-08-13 | 吴晓军 | 一种基于卷积神经网络的工业字符识别方法 |
CN108830857B (zh) * | 2018-05-29 | 2021-04-23 | 南昌工程学院 | 一种自适应的汉字碑帖图像二值化分割方法 |
CN112101386B (zh) * | 2020-09-25 | 2024-04-23 | 腾讯科技(深圳)有限公司 | 文本检测方法、装置、计算机设备和存储介质 |
CN112949754B (zh) * | 2021-03-29 | 2022-10-14 | 中国科学院合肥物质科学研究院 | 一种基于图像融合的文本识别数据合成方法 |
CN112949755B (zh) * | 2021-03-29 | 2022-09-13 | 中国科学院合肥物质科学研究院 | 一种基于图像结构信息的ocr数据合成方法 |
-
2021
- 2021-11-23 CN CN202111410506.6A patent/CN113989814B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255826A (zh) * | 2018-10-11 | 2019-01-22 | 平安科技(深圳)有限公司 | 中文训练图像生成方法、装置、计算机设备及存储介质 |
CN110135413A (zh) * | 2019-05-08 | 2019-08-16 | 深圳前海达闼云端智能科技有限公司 | 一种字符识别图像的生成方法、电子设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113989814A (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107229932B (zh) | 一种图像文本的识别方法和装置 | |
CN110232713B (zh) | 一种图像目标定位修正方法及相关设备 | |
JP6435740B2 (ja) | データ処理システム、データ処理方法およびデータ処理プログラム | |
CN111259878A (zh) | 一种检测文本的方法和设备 | |
CN109426814A (zh) | 一种发票图片特定板块的定位、识别方法、系统、设备 | |
CN113989814B (zh) | 图像生成方法、装置、计算机设备及存储介质 | |
CN109146832B (zh) | 一种视频图像的拼接方法、装置、终端设备及存储介质 | |
CN113807301B (zh) | 一种新增建设用地自动提取方法及自动提取系统 | |
CN113537037A (zh) | 路面病害识别方法、系统、电子设备及存储介质 | |
CN112052907A (zh) | 基于图像边缘信息的目标检测方法、装置及存储介质 | |
EP3859673A1 (en) | Model generation | |
KR20080058366A (ko) | 피처 추출을 위한 마이크로구조의 모델링을 위한 방법 및시스템 | |
CN110532938B (zh) | 基于Faster-RCNN的纸质作业页码识别方法 | |
CN117237493A (zh) | 基于拓扑分析与边缘检测融合技术的三维动漫 | |
CN112560584A (zh) | 一种人脸检测方法及装置、存储介质、终端 | |
CN111062347A (zh) | 一种自动驾驶中交通要素分割方法、电子设备及存储介质 | |
CN109523570A (zh) | 运动参数计算方法及装置 | |
CN112330659B (zh) | 结合lsd直线检测和连通域标记法的几何公差符号分割方法 | |
CN113837015A (zh) | 一种基于特征金字塔的人脸检测方法及系统 | |
CN117541546A (zh) | 图像裁剪效果的确定方法和装置、存储介质及电子设备 | |
CN113743218B (zh) | 一种车牌识别方法、车牌识别装置和计算机可读存储介质 | |
KR20190093752A (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
CN114926635A (zh) | 与深度学习方法相结合的多焦图像中目标分割方法 | |
CN114882229A (zh) | 一种目标检测图片生成方法、装置、设备及介质 | |
CN114581876A (zh) | 构建复杂场景下车道检测模型的方法和检测车道线方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40064951 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |