CN111144394A - 基于人工智能的自动审核方法、装置、设备及存储介质 - Google Patents
基于人工智能的自动审核方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111144394A CN111144394A CN201911279556.8A CN201911279556A CN111144394A CN 111144394 A CN111144394 A CN 111144394A CN 201911279556 A CN201911279556 A CN 201911279556A CN 111144394 A CN111144394 A CN 111144394A
- Authority
- CN
- China
- Prior art keywords
- image
- artificial intelligence
- data
- preset
- target data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012550 audit Methods 0.000 claims abstract description 42
- 230000011218 segmentation Effects 0.000 claims description 37
- 238000012795 verification Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 19
- 239000000284 extract Substances 0.000 description 10
- 238000007781 pre-processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013499 data model Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 239000000969 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000011430 maximum method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Character Input (AREA)
Abstract
本发明涉及人工智能领域,公开了一种基于人工智能的自动审核方法、装置、设备及存储介质,本发明利用集群模式与预置人工智能识别模型将证件信息与信息单相应的信息进行快速比对,完成业务数据的自动审核,提高了自动审核数据的准确性以及审核的效率。本发明方法包括:获取预处理后的证件图像;根据预置规则将所述预处理后的证件图像进行分割,获取分割图像;根据集群模式,将所述分割图像的文字数据与目标数据进行比对,得到比对结果,所述目标数据为预置人工智能识别模型中相关联的数据;根据所述比对结果,自动反馈审核结果。
Description
技术领域
本发明涉及人工智能领域,尤其涉及基于人工智能的自动审核方法、装置、设备及存储介质。
背景技术
随着科技不断的进步与发展,用户信息的真实性得到了越来越多的关注。一般情况下,用户会将证件信息录入终端或服务器中,再由终端或服务器对录入信息进行调用,或者对录入的信息进行处理,这样便于终端或服务器进行系统的操作,因此,只有保证用户信息的真实性才能便于终端或服务器的操作。
在审核信息单方面,用户需要上传证件信息与已录入系统中的用户信息单进行比对,将相同的用户信息进行比对,确认信息的真实性,以保证用户的信息安全。目前,在用户上传证件信息之后,会采用人工的方式进行信息单的审核,完成用户基本信息的校对。
但是,采用人工审核信息单的方式浪费了大量的审核时间,与此同时,采用人工审核的方式在一定程度上会发生信息的错误审核的情况,导致信息单无法通过审核。
发明内容
本发明的提供一种基于人工智能的自动审核方法、装置、设备及存储介质,用于解决审核信息单时效率不高的问题,提高了审核信息单检测的准确率以及效率。
本发明实施例的第一方面提供一种基于人工智能的自动审核方法,包括:获取预处理后的证件图像;根据预置规则将所述预处理后的证件图像进行分割,获取分割图像;根据集群模式,将所述分割图像的文字数据与目标数据进行比对,得到比对结果,所述目标数据为预置人工智能识别模型中相关联的数据;根据所述比对结果,自动反馈审核结果。
可选的,在本发明实施例第一方面的第一种实现方式中,将所述分割图像与预置人工智能识别模型进行匹配,每个所述预置人工智能识别模型对应一种类型的所述分割图像;将所述分割图像传输至匹配后的所述预置人工智能识别模型中;提取所述分割图像上的文字数据;在所述预置人工智能识别模型中,将所述文字数据与目标数据进行对比,得到比对结果,所述目标数据为对应的所述预置人工智能识别模型中相关联的数据。
可选的,在本发明实施例第一方面的第二种实现方式中,框选出所述分割图像上的文本区域;将所述文本区域内的文字行进行分割,得到文字符;以所述文字符为基础建立标准模板;将标准模板与预置模板进行匹配,提取到文字数据,所述文字数据是所述预置模板上的数据。
可选的,在本发明实施例第一方面的第三种实现方式中,获取上传的证件图像;将所述证件图像进行归一化,得到预处理后的证件图像。
可选的,在本发明实施例第一方面的第四种实现方式中,将所述证件图像转化为灰度图像;将所述灰度图像转化为黑白图像;将所述黑白图像进行梯度锐化,得到锐化图像;将所述锐化图像去除离散噪声,得到处理后的证件图像。
可选的,在本发明实施例第一方面的第五种实现方式中,提取所述预处理后的证件图像上的特征像素;将不同的所述特征像素分配不同的特征标签;将带有相同所述特征标签的所述特征像素进行整合,获取到分割图像。
可选的,在本发明实施例第一方面的第六种实现方式中,当所述比对结果为所述文字数据与所述目标数据完全相同时,自动反馈审核成功的字样;当所述比对结果为所述文字数据与所述目标数据不完全相同时,自动反馈审核失败的字样。
本发明实施例的第二方面提供一种基于人工智能的自动审核装置,包括:获取单元,用于获取预处理后的证件图像;处理单元,用于根据预置规则将所述预处理后的证件图像进行分割,获取分割图像;比对单元,用于根据集群模式,将所述分割图像的文字数据与目标数据进行比对,得到比对结果,所述目标数据为预置人工智能识别模型中相关联的数据;反馈单元,用于根据所述比对结果,自动反馈审核结果。
可选的,在本发明实施例第二方面的第一种实现方式中,比对单元包括:匹配模块,用于将所述分割图像与预置人工智能识别模型进行匹配,每个所述预置人工智能识别模型对应一种类型的所述分割图像;传输模块,用于将所述分割图像传输至匹配后的所述预置人工智能识别模型中;提取模块,用于提取所述分割图像上的文字数据;比对模块,用于在所述预置人工智能识别模型中,将所述文字数据与目标数据进行对比,得到比对结果,所述目标数据为对应的所述预置人工智能识别模型中相关联的数据。
可选的,在本发明实施例第二方面的第二种实现方式中,提取模块具体用于:框选出所述分割图像上的文本区域;将所述文本区域内的文字行进行分割,得到文字符;以所述文字符为基础建立标准模板;将标准模板与预置模板进行匹配,提取到文字数据,所述文字数据是所述预置模板上的数据。
可选的,在本发明实施例第二方面的第三种实现方式中,获取单元包括:获取模块,用于获取上传的证件图像;预处理模块,用于将所述证件图像进行归一化,得到预处理后的证件图像。
可选的,在本发明实施例第二方面的第四种实现方式中,预处理模块具体用于:将所述证件图像转化为灰度图像;将所述灰度图像转化为黑白图像;将所述黑白图像进行梯度锐化,得到锐化图像;将所述锐化图像去除离散噪声,得到处理后的证件图像。
可选的,在本发明实施例第二方面的第五种实现方式中,处理单元具体用于:提取所述预处理后的证件图像上的特征像素;将不同的所述特征像素分配不同的特征标签;将带有相同所述特征标签的所述特征像素进行整合,获取到分割图像。
可选的,在本发明实施例第二方面的第六种实现方式中,反馈单元具体用于:当所述比对结果为所述文字数据与所述目标数据完全相同时,自动反馈审核成功的字样;当所述比对结果为所述文字数据与所述目标数据不完全相同时,自动反馈审核失败的字样。
本发明实施例的第三方面提供了一种基于人工智能的自动审核设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施方式所述的基于人工智能的自动审核方法。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明利用集群模式与预置人工智能识别模型将证件信息与信息单相应的信息进行快速比对,完成业务数据的自动审核,提高了自动审核数据的准确性以及审核的效率。
附图说明
图1为本发明基于人工智能的自动审核方法的一个实施例示意图;
图2为本发明基于人工智能的自动审核方法的另一个实施例示意图;
图3为本发明基于人工智能的自动审核装置的一个实施例示意图;
图4为本发明基于人工智能的自动审核装置的另一个实施例示意图;
图5为本发明基于人工智能的自动审核设备的一个实施例示意图。
具体实施方式
本发明的提供一种基于人工智能的自动审核方法、装置、设备及存储介质,用于解决审核信息单时效率不高的问题,提高了审核信息单检测的准确率以及效率。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,本发明实施例中基于人工智能的自动审核方法一个实施例包括:
101、获取预处理后的证件图像。
服务器获取预处理后的证件图像。这里的证件图像的种类有很多,例如投保保单,保单的类型就会有很多种,但这里并不对获取的证件图像做限定。
以自动审核保单信息为例:保单有多种类型,比如车险、财产险、意外险等,这些类型的保单模型是共用的,但在保单模型中会挂载不同的用户信息,比如以外限保单模型中挂载投保人信息,这里的投保人信息包括投保人姓名,投保人年龄,投保人生日,投保人身份证号码,在进行保单信息核对时,保单信息相匹配要与身份证的信息一致,这样服务器才能完成审核;而车辆保单模型中会挂载有车辆信息、车主信息,意外险保单模型中会挂载有受益人信息,这样获取的保单模型要包含驾驶证或行驶证上的信息。
可以理解的是,本发明的执行主体可以为终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
102、根据预置规则将预处理后的证件图像进行分割,获取分割图像。
服务器根据预置规则将预处理后的证件图像进行分割,获取分割图像。服务器将获取到的证件图像进行预处理,这里的预处理是指在处于最低抽象层理的图像上所进行的操作,预处理目的是改善证件图像的图像数据,抑制不需要的变形或者增强某些对后续处理重要的图像特征。
服务器根据人工智能图像识别技术,利用卷积化以及上采样提取处理后的证件图像上的特征像素,并利用池化将特征像素进行优化。这里的上采样即为反卷积,反卷积与卷积类似,均为相乘相加的运算,卷积是一对多进行卷积,而反卷积是多对一进行卷积,反卷积的前向和后向传播,只需颠倒卷积的前后传播即可,再利用池化对特征像素进行优化。
103、根据集群模式,将分割图像的文字数据与目标数据进行比对,得到比对结果,目标数据为预置人工智能识别模型中相关联的数据。
服务器根据集群模式,将分割图像的文字数据与目标数据进行比对,得到比对结果,目标数据为预置人工智能识别模型中相关联的数据。
服务器利用负载均衡(loadbalance,LB)将文字信息分摊到不同的预置目标数据模型中。LB是一种集群技术,它将特定的业务如网络服务、网络流量等,分担给多台网络设备如服务器、防火墙等或多条链路,即将负载(工作任务)进行平衡、分摊到多个操作单元上进行执行,进而提高了业务处理能力,保证了业务的高可靠性。
在这里,服务器利用负载均衡将分割图像与多个预置人工智能识别模型进行匹配,每个预置人工智能识别模型分别对应一种类别的分割图像,且有多个不同类型的预置人工智能识别模型,若分割图像与预置人工智能识别模型相匹配,就将该分割图片传输至与其相匹配的预置人工智能识别模型中,在预置人工智能识别模型中,对传输进来的分割图像进行处理,提取出分割图片上的文字数据,再将提取过后的文字数据与目标数据进行比对,来实现证件信息与信息单的数据核对。
104、根据比对结果,自动反馈审核结果。
服务器根据文字数据与目标数据的比对结果,自动反馈审核结果。服务器根据判断文字数据与目标数据是否相同的判断结果,自动反馈审核结果,当比对结果为文字数据与目标数据完全相同时,服务器自动反馈审核成功的字样;当比对结果为文字数据与目标数据不完全相同时,服务器自动反馈审核失败的字样。
本发明利用集群模式与预置人工智能识别模型将证件信息与信息单相应的信息进行快速比对,完成业务数据的自动审核,提高了自动审核数据的准确性以及审核的效率。
请参阅图2,本发明实施例中基于人工智能的自动审核方法另一个实施例包括:
201、获取上传的证件图像。
服务器获取上传的证件图像。这里的证件图像的种类有很多,例如投保保单,保单的类型就会有很多种,但这里并不对获取的证件图像做限定。
以自动审核保单信息为例:保单有多种类型,比如车险、财产险、意外险等,这些类型的保单模型是共用的,但在保单模型中会挂载不同的用户信息,比如以外限保单模型中挂载投保人信息,这里的投保人信息包括投保人姓名,投保人年龄,投保人生日,投保人身份证号码,在进行保单信息核对时,保单信息相匹配要与身份证的信息一致,这样服务器才能完成审核;而车辆保单模型中会挂载有车辆信息、车主信息,意外险保单模型中会挂载有受益人信息,这样获取的保单模型要包含驾驶证或行驶证上的信息。
可以理解的是,本发明的执行主体可以为终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
202、将证件图像进行归一化,得到预处理后的证件图像。
服务器将证件图像进行归一化,得到预处理后的证件图像。具体的:服务器将证件图像转化为灰度图像;服务器将灰度图像转化为黑白图像;服务器将黑白图像进行梯度锐化,得到锐化图像;服务器将锐化图像去除离散噪声,得到处理后的证件图像。
服务器将获取到的证件图像进行归一化处理,这里的处理是指在处于最低抽象层理的图像上所进行的操作,处理目的是改善证件图像的图像数据,抑制不需要的变形或者增强某些对后续处理重要的图像特征,使得服务器更好的进行证件上信息的提取。
需要说明的是,服务器将证件图像转换为灰度图像,其中有三种方法:最大值法、平均值法和各比例法。最大值法:服务器获取证件图像中的每一个像素值,并且分别获得每个像素值的RGB分量值,分别为:R(红),G(绿),B(蓝),然后服务器取三个分量的中最大的一个作为像素的分量值。平均值法:服务器取R(红),G(绿),B(蓝)三个分量的平均值作为像素的分量值。各比例法:设当前像素的三分量分别为R(红),G(绿),B(蓝),服务器利用如下公式得到转换后的像素分量值:0.30×R+0.59×G+0.11×B。这里并不对服务器将证件图像转化为灰度图像的方法做限定。
服务器利用阈值转换算法将灰度图像转换为黑白图像,并将黑白图像进行梯度锐化,使得图像更加突出,便于分析。具体的算法如下:服务器计算当前点像素值与其下一个像素值之差的绝对值,加上当前点像素值与其下一行当前像素值之差的绝对值,如果结果大于阈值,则服务器将当前像素值设置为计算后的结果。服务器将黑白图像进行锐化后再将其去除离散噪声,利用递归方法查找当前像素的八个方向上是否存在黑色像素,服务器设置像素的连续长度为15,如果服务器用递归方法获得连续像素值大于15,则当前像素不为噪声,相反则认为是噪声,并将当前像素设置为白色像素,这样就得到了处理后的证件图像。
203、根据预置规则将预处理后的证件图像进行分割,获取分割图像。
服务器根据预置规则将预处理后的证件图像进行分割,获取分割图像。具体的:服务器提取预处理后的证件图像上的特征像素;服务器将不同的特征像素分配不同的特征标签;服务器将带有相同特征标签的特征像素进行整合,获取到分割图像。
用户上传的证件图像类型有很多,证件图像中包含用户信息,对于不同的用户信息需要进行分类处理,服务器需要用图像分割技术对图像进行分割,根据图像的颜色、形状、灰度和纹理等特征把图像分成一些互不重叠而又具有各自特征的子区域,然后通过图像分类技术把这些切割好的子区域进行分析分类,以便与同类型的目标数据进行对比。
服务器根据人工智能图像识别技术,利用卷积化以及上采样提取处理后的证件图像上的特征像素,并利用池化将特征像素进行优化。这里的上采样即为反卷积,反卷积与卷积类似,均为相乘相加的运算,卷积是一对多进行卷积,而反卷积是多对一进行卷积,反卷积的前向和后向传播,只需颠倒卷积的前后传播即可,再利用池化对特征像素进行优化。
对于每个特征像素i具有类别标签xi还有对应的观测值yi,服务器将每个像素点作为节点,像素与像素间的关系作为边,这样构成了一个条件随机场,而且服务器通过观测变量yi来推测像素i对应的特征类别标签xi。这里的条件随机场符合吉布斯分布:
式中E(x|I)是能量函数,为了简便,省略全局观测I,则有:
这里的ψp(xi,xj)为描述像素点与像素点之间的关系,鼓励相似像素分配相同的特征标签,而相差较大的像素则分配不同的特征标签,这样服务器将相同的特征标签进行融合,便获取到了分割图像。
为了便于理解,下面以分割身份证的图像为例,服务器提取身份证上的特征像素,获取到身份证上所有的像素特征,将姓名、身份证号、民族、出生以及住址标上的特征像素标记上不同类别的特征标签,最后将相同特征标签的特征像素进行整合,得到带有不同文字数据的分割图像。
204、根据集群模式,将分割图像的文字数据与目标数据进行比对,得到比对结果,目标数据为预置人工智能识别模型中相关联的数据。
服务器根据集群模式,将分割图像的文字数据与目标数据进行比对,得到比对结果,目标数据为预置人工智能识别模型中相关联的数据。具体的:服务器将分割图像与预置人工智能识别模型进行匹配,每个预置人工智能识别模型对应一种类型的分割图像;服务器将分割图像传输至匹配后的预置人工智能识别模型中;服务器提取分割图像上的文字数据;服务器在预置人工智能识别模型中,将文字数据与目标数据进行对比,得到比对结果,目标数据为对应的预置人工智能识别模型中相关联的数据。
服务器利用负载均衡(Load Balance,LB)将文字信息分摊到不同的预置目标数据模型中。LB是一种集群技术,它将特定的业务如网络服务、网络流量等,分担给多台网络设备如服务器、防火墙等或多条链路,即将负载(工作任务)进行平衡、分摊到多个操作单元上进行执行,进而提高了业务处理能力,保证了业务的高可靠性。
在这里,服务器利用负载均衡将分割图像与多个预置人工智能识别模型进行匹配,每个预置人工智能识别模型分别对应一种类别的分割图像,且有多个不同类型的预置人工智能识别模型,若分割图像与预置人工智能识别模型相匹配,就将该分割图片传输至与其相匹配的预置人工智能识别模型中,在预置人工智能识别模型中,对传输进来的分割图像进行处理,提取出分割图片上的文字数据,再将提取过后的文字数据与目标数据进行比对,来实现证件信息与信息单的数据核对。
需要说明的是,服务器提取分割图像上的文字数据,具体的包括:服务器框选出分割图像上的文本区域;服务器将文本区域内的文字行进行分割,得到文字符;服务器以文字符为基础建立标准模板;服务器将标准模板与预置模板进行匹配,提取到文字数据,文字数据是预置模板上的数据。
服务器在同一类型的分割图像中提取文本数据时,在同一类型的分割图像上框选出文本区域,服务器通过滑动窗口遍历分割图像,对特征标签进行判断,将相同的特征标签利用矩形框框选出来,得到文本区域;服务器再对文字区域内进行矩形分割,拆分成不同的文字符,服务器在文本区域内做一维滑动窗口移动,通过字符间间距的判断,对字符进行划分;服务器为每个文字符建立标准模板,将标准模板与预置模板进行匹配,进一步的提取到文字数据,这里的预置模板包括图形模板、笔画模板、几何模板,服务器将每个标准模板与预置模板相匹配,相匹配的模板即为提取的文字数据。
服务器在这里利用光学字符识别(optical character recognition,OCR)进行文字信息的提取,OCR是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程,是将图像中的文字进行识别,并以文本的形式返回的处理过程。服务器对于文字行,只能通过识别出每一个字符来确定最终文字行从内容。因此服务器可以通过滑动窗口对每一个可能的字符进行匹配,这种方法的准确率依赖于滑动窗口的滑动窗尺寸,如果滑动窗尺寸过大会造成信息丢失,而太小则会使计算力需求大幅增加。
205、根据比对结果,自动反馈审核结果。
服务器根据文字数据与目标数据的比对结果,自动反馈审核结果。具体的:当比对结果为文字数据与目标数据完全相同时,服务器自动反馈审核成功的字样;当比对结果为文字数据与目标数据不完全相同时,服务器自动反馈审核失败的字样。
以自动审核保单信息为例:若文字数据的类型为保单中投保人身份证的身份证号码,则服务器将投保人身份证号码利用负载均衡传输至不同的预置识别数据模型中,例如身份证识别模型,行驶证识别模型,驾驶证识别模型等等,将投保人身份证号码与预置识别模型中相同类型的目标数据进行对比,判断这两个身份证号码是否相同,若两者相同时,则服务器生成审核成功的字样,若两者不相同时,则服务器生成审核失败的字样。
本发明利用集群模式与预置人工智能识别模型将证件信息与信息单相应的信息进行快速比对,完成业务数据的自动审核,提高了自动审核数据的准确性以及审核的效率。
上面对本发明实施例中基于人工智能的自动审核方法进行了描述,下面对本发明实施例中基于人工智能的自动审核装置进行描述,请参阅图3,本发明实施例中基于人工智能的自动审核装置一个实施例包括:
获取单元301,用于获取预处理后的证件图像;
处理单元302,用于根据预置规则将所述预处理后的证件图像进行分割,获取分割图像;
比对单元303,用于根据集群模式,将所述分割图像的文字数据与目标数据进行比对,得到比对结果,所述目标数据为预置人工智能识别模型中相关联的数据;
反馈单元304,用于根据所述比对结果,自动反馈审核结果。
本发明实施例中,获取单元301获取预处理后的证件图像;处理单元302根据预置规则将所述预处理后的证件图像进行分割,获取分割图像;比对单元303根据集群模式,将所述分割图像的文字数据与目标数据进行比对,得到比对结果,所述目标数据为预置人工智能识别模型中相关联的数据;反馈单元304根据所述比对结果,自动反馈审核结果。
本发明利用集群模式与预置人工智能识别模型将证件信息与信息单相应的信息进行快速比对,完成业务数据的自动审核,提高了自动审核数据的准确性以及审核的效率。
请参阅图4,本发明实施例中基于人工智能的自动审核装置另一个实施例包括:
获取单元301,用于获取预处理后的证件图像;
处理单元302,用于根据预置规则将所述预处理后的证件图像进行分割,获取分割图像;
比对单元303,用于根据集群模式,将所述分割图像的文字数据与目标数据进行比对,得到比对结果,所述目标数据为预置人工智能识别模型中相关联的数据;
反馈单元304,用于根据所述比对结果,自动反馈审核结果。
可选的,比对单元303包括:
匹配模块3031,用于将所述分割图像与预置人工智能识别模型进行匹配,每个所述预置人工智能识别模型对应一种类型的所述分割图像;
传输模块3032,用于将所述分割图像传输至匹配后的所述预置人工智能识别模型中;
提取模块3033,用于提取所述分割图像上的文字数据;
比对模块3034,用于在所述预置人工智能识别模型中,将所述文字数据与目标数据进行对比,得到比对结果,所述目标数据为对应的所述预置人工智能识别模型中相关联的数据。
可选的,提取模块3033具体用于:
框选出所述分割图像上的文本区域;
将所述文本区域内的文字行进行分割,得到文字符;
以所述文字符为基础建立标准模板;
将标准模板与预置模板进行匹配,提取到文字数据,所述文字数据是所述预置模板上的数据。
可选的,获取单元301包括:
获取模块3011,用于获取上传的证件图像;
预处理模块3012,用于将所述证件图像进行归一化,得到预处理后的证件图像。
可选的,预处理模块3012具体用于:
将所述证件图像转化为灰度图像;
将所述灰度图像转化为黑白图像;
将所述黑白图像进行梯度锐化,得到锐化图像;
将所述锐化图像去除离散噪声,得到处理后的证件图像。
可选的,处理单元302具体用于:
提取所述预处理后的证件图像上的特征像素;
将不同的所述特征像素分配不同的特征标签;
将带有相同所述特征标签的所述特征像素进行整合,获取到分割图像。
可选的,反馈单元304具体用于:
当比对结果为所述文字数据与所述目标数据完全相同时,自动反馈审核成功的字样;
当比对结果为所述文字数据与所述目标数据不完全相同时,自动反馈审核失败的字样。
本发明实施例中,获取单元301获取预处理后的证件图像,其中,获取模块3011,用于获取上传的证件图像,预处理模块3012,用于将所述证件图像进行归一化,得到预处理后的证件图像;处理单元302根据预置规则将所述预处理后的证件图像进行分割,获取分割图像;比对单元303根据集群模式,将所述分割图像的文字数据与目标数据进行比对,得到比对结果,所述目标数据为预置人工智能识别模型中相关联的数据,其中,匹配模块3031,用于将所述分割图像与预置人工智能识别模型进行匹配,每个所述预置人工智能识别模型对应一种类型的所述分割图像;传输模块3032,用于将所述分割图像传输至匹配后的所述预置人工智能识别模型中;提取模块3033,用于提取所述分割图像上的文字数据;比对模块3034,用于在所述预置人工智能识别模型中,将所述文字数据与目标数据进行对比,得到比对结果,所述目标数据为对应的所述预置人工智能识别模型中相关联的数据;反馈单元304根据所述比对结果,自动反馈审核结果。
本发明利用集群模式与预置人工智能识别模型将证件信息与信息单相应的信息进行快速比对,完成业务数据的自动审核,提高了自动审核数据的准确性以及审核的效率。
上面图3至图4从模块化功能实体的角度对本发明实施例中的基于人工智能的自动审核装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于人工智能的自动审核设备进行详细描述。
下面结合图5对基于人工智能的自动审核设备的各个构成部件进行具体的介绍:
图5是本发明实施例提供的一种基于人工智能的自动审核设备的结构示意图,该基于人工智能的自动审核的设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)501(例如,一个或一个以上处理器)和存储器509,一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储设备)。其中,存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对签到管理设备中的一系列指令操作。更进一步地,处理器501可以设置为与存储介质508通信,在基于人工智能的自动审核设备500上执行存储介质508中的一系列指令操作。
基于人工智能的自动审核设备500还可以包括一个或一个以上电源502,一个或一个以上有线或无线网络接口503,一个或一个以上输入输出接口504,和/或,一个或一个以上操作系统505,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5中示出的基于人工智能的自动审核设备结构并不构成对基于人工智能的自动审核设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图5对基于人工智能的自动审核设备的各个构成部件进行具体的介绍:
处理器501是基于人工智能的自动审核设备的控制中心,可以按照基于人工智能的自动审核方法进行处理。处理器501利用各种接口和线路连接整个基于人工智能的自动审核设备的各个部分,通过运行或执行存储在存储器509内的软件程序和/或模块,以及调用存储在存储器509内的数据,利用集群模式与预置人工智能识别模型将证件信息与信息单相应的信息进行快速比对,提高了自动审核数据的准确性以及审核的效率。存储介质508和存储器509都是存储数据的载体,本发明实施例中,存储介质508可以是指储存容量较小,但速度快的内存储器,而存储器509可以是储存容量大,但储存速度慢的外存储器。
存储器509可用于存储软件程序以及模块,处理器501通过运行存储在存储器509的软件程序以及模块,从而执行基于人工智能的自动审核设备500的各种功能应用以及数据处理。存储器509可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据基于人工智能的自动审核设备的使用所创建的数据等。此外,存储器509可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在本发明实施例中提供的基于人工智能的自动审核程序和接收到的数据流存储在存储器中,当需要使用时,处理器501从存储器509中调用。
在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,光盘)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于人工智能的自动审核方法,其特征在于,包括:
获取预处理后的证件图像;
根据预置规则将所述预处理后的证件图像进行分割,获取分割图像;
根据集群模式,将所述分割图像的文字数据与目标数据进行比对,得到比对结果,所述目标数据为预置人工智能识别模型中相关联的数据;
根据所述比对结果,自动反馈审核结果。
2.根据权利要求1所述的基于人工智能的自动审核方法,其特征在于,所述根据集群模式,将所述分割图像的文字数据与目标数据进行比对,得到比对结果,所述目标数据为预置人工智能识别模型中相关联的数据包括:
将所述分割图像与预置人工智能识别模型进行匹配,每个所述预置人工智能识别模型对应一种类型的所述分割图像;
将所述分割图像传输至匹配后的所述预置人工智能识别模型中;
提取所述分割图像上的文字数据;
在所述预置人工智能识别模型中,将所述文字数据与目标数据进行对比,得到比对结果,所述目标数据为对应的所述预置人工智能识别模型中相关联的数据。
3.根据权利要求2所述的基于人工智能的自动审核方法,其特征在于,所述提取所述分割图像上的文字数据包括:
框选出所述分割图像上的文本区域;
将所述文本区域内的文字行进行分割,得到文字符;
以所述文字符为基础建立标准模板;
将标准模板与预置模板进行匹配,提取到文字数据,所述文字数据是所述预置模板上的数据。
4.根据权利要求1所述的基于人工智能的自动审核方法,其特征在于,所述获取预处理后的证件图像包括:
获取上传的证件图像;
将所述证件图像进行归一化,得到预处理后的证件图像。
5.根据权利要求4所述的基于人工智能的自动审核方法,其特征在于,所述将所述证件图像进行归一化,得到预处理后的证件图像包括:
将所述证件图像转化为灰度图像;
将所述灰度图像转化为黑白图像;
将所述黑白图像进行梯度锐化,得到锐化图像;
将所述锐化图像去除离散噪声,得到处理后的证件图像。
6.根据权利要求1所述的基于人工智能的自动审核方法,其特征在于,所述根据预置规则将所述预处理后的证件图像进行分割,获取分割图像包括:
提取所述预处理后的证件图像上的特征像素;
将不同的所述特征像素分配不同的特征标签;
将带有相同所述特征标签的所述特征像素进行整合,获取到分割图像。
7.根据权利要求1-6中任一项所述的基于人工智能的自动审核方法,其特征在于,所述根据所述比对结果,自动反馈审核结果包括:
当所述比对结果为所述文字数据与所述目标数据完全相同时,自动反馈审核成功的字样;
当所述比对结果为所述文字数据与所述目标数据不完全相同时,自动反馈审核失败的字样。
8.一种基于人工智能的自动审核装置,其特征在于,包括:
获取单元,用于获取预处理后的证件图像;
处理单元,用于根据预置规则将所述预处理后的证件图像进行分割,获取分割图像;
比对单元,用于根据集群模式,将所述分割图像的文字数据与目标数据进行比对,得到比对结果,所述目标数据为预置人工智能识别模型中相关联的数据;
反馈单元,用于根据所述比对结果,自动反馈审核结果。
9.一种基于人工智能的自动审核设备,其特征在于,包括:
存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互联;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于人工智能的自动审核设备执行如权利要求1-7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1-7中任意一项所述的基于人工智能的自动审核方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911279556.8A CN111144394A (zh) | 2019-12-13 | 2019-12-13 | 基于人工智能的自动审核方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911279556.8A CN111144394A (zh) | 2019-12-13 | 2019-12-13 | 基于人工智能的自动审核方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111144394A true CN111144394A (zh) | 2020-05-12 |
Family
ID=70518225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911279556.8A Pending CN111144394A (zh) | 2019-12-13 | 2019-12-13 | 基于人工智能的自动审核方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144394A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708794A (zh) * | 2020-06-22 | 2020-09-25 | 中国平安财产保险股份有限公司 | 基于大数据平台的数据比对方法、装置和计算机设备 |
CN111783562A (zh) * | 2020-06-12 | 2020-10-16 | 万翼科技有限公司 | 智能审图方法及相关装置 |
CN112330469A (zh) * | 2020-11-04 | 2021-02-05 | 阳光保险集团股份有限公司 | 一种医疗保险理赔材料的预审方法及装置 |
CN112508717A (zh) * | 2020-12-01 | 2021-03-16 | 中国人寿保险股份有限公司 | 一种影像信息的审核方法、装置、电子设备及存储介质 |
CN112926095A (zh) * | 2021-01-20 | 2021-06-08 | 厦门海西医药交易中心有限公司 | 数字证书办理方法、系统、移动终端及存储介质 |
CN113610649A (zh) * | 2021-08-10 | 2021-11-05 | 平安国际智慧城市科技股份有限公司 | 基于图像识别的审核方法、装置、设备及存储介质 |
CN113743902A (zh) * | 2021-09-08 | 2021-12-03 | 未鲲(上海)科技服务有限公司 | 基于人工智能的信息审核方法、装置、终端设备及介质 |
CN114639173A (zh) * | 2022-05-18 | 2022-06-17 | 国网浙江省电力有限公司 | 基于ocr技术的稽查佐证材料智能审核方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268814A (zh) * | 2014-10-11 | 2015-01-07 | 北京网秦天下科技有限公司 | 生成电子病历的方法和装置 |
CN106874909A (zh) * | 2017-01-18 | 2017-06-20 | 深圳怡化电脑股份有限公司 | 一种图像字符的识别方法及其装置 |
CN110222695A (zh) * | 2019-06-19 | 2019-09-10 | 拉扎斯网络科技(上海)有限公司 | 一种证件图片处理方法及装置、介质、电子设备 |
-
2019
- 2019-12-13 CN CN201911279556.8A patent/CN111144394A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268814A (zh) * | 2014-10-11 | 2015-01-07 | 北京网秦天下科技有限公司 | 生成电子病历的方法和装置 |
CN106874909A (zh) * | 2017-01-18 | 2017-06-20 | 深圳怡化电脑股份有限公司 | 一种图像字符的识别方法及其装置 |
CN110222695A (zh) * | 2019-06-19 | 2019-09-10 | 拉扎斯网络科技(上海)有限公司 | 一种证件图片处理方法及装置、介质、电子设备 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783562A (zh) * | 2020-06-12 | 2020-10-16 | 万翼科技有限公司 | 智能审图方法及相关装置 |
CN111783562B (zh) * | 2020-06-12 | 2024-04-26 | 万翼科技有限公司 | 智能审图方法及相关装置 |
CN111708794A (zh) * | 2020-06-22 | 2020-09-25 | 中国平安财产保险股份有限公司 | 基于大数据平台的数据比对方法、装置和计算机设备 |
CN111708794B (zh) * | 2020-06-22 | 2024-05-03 | 中国平安财产保险股份有限公司 | 基于大数据平台的数据比对方法、装置和计算机设备 |
CN112330469A (zh) * | 2020-11-04 | 2021-02-05 | 阳光保险集团股份有限公司 | 一种医疗保险理赔材料的预审方法及装置 |
CN112508717A (zh) * | 2020-12-01 | 2021-03-16 | 中国人寿保险股份有限公司 | 一种影像信息的审核方法、装置、电子设备及存储介质 |
CN112926095A (zh) * | 2021-01-20 | 2021-06-08 | 厦门海西医药交易中心有限公司 | 数字证书办理方法、系统、移动终端及存储介质 |
CN113610649A (zh) * | 2021-08-10 | 2021-11-05 | 平安国际智慧城市科技股份有限公司 | 基于图像识别的审核方法、装置、设备及存储介质 |
CN113743902A (zh) * | 2021-09-08 | 2021-12-03 | 未鲲(上海)科技服务有限公司 | 基于人工智能的信息审核方法、装置、终端设备及介质 |
CN114639173A (zh) * | 2022-05-18 | 2022-06-17 | 国网浙江省电力有限公司 | 基于ocr技术的稽查佐证材料智能审核方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111144394A (zh) | 基于人工智能的自动审核方法、装置、设备及存储介质 | |
CN110084135B (zh) | 人脸识别方法、装置、计算机设备及存储介质 | |
EP2806374B1 (en) | Method and system for automatic selection of one or more image processing algorithm | |
US11256737B2 (en) | Image retrieval methods and apparatuses, devices, and readable storage media | |
US8593478B2 (en) | Extraction of a color palette model from an image of a document | |
CN110378249B (zh) | 文本图像倾斜角度识别方法、装置及设备 | |
WO2020143325A1 (zh) | 一种电子文档的生成方法及设备 | |
CN106203356B (zh) | 一种基于卷积网络特征提取的人脸识别方法 | |
CN108090511B (zh) | 图像分类方法、装置、电子设备及可读存储介质 | |
CN102254188B (zh) | 掌纹识别方法及装置 | |
US8805067B2 (en) | Scalable feature descriptor extraction and matching method and system | |
CN110175170B (zh) | 数据优化处理方法、装置、计算机设备及存储介质 | |
US20150371100A1 (en) | Character recognition method and system using digit segmentation and recombination | |
Priyankara et al. | Computer assisted plant identification system for Android | |
US9117132B2 (en) | System and method facilitating designing of classifier while recognizing characters in a video | |
CN109635637A (zh) | 一种车牌识别方法、装置和计算设备 | |
Mishchenko et al. | Model-based chart image classification | |
CN111507119B (zh) | 标识码识别方法、装置、电子设备及计算机可读存储介质 | |
CN112966687B (zh) | 图像分割模型训练方法、装置及通信设备 | |
CN107368847B (zh) | 一种作物叶部病害识别方法及系统 | |
CN111950562A (zh) | 图片处理方法、装置、终端设备和存储介质 | |
CN111428732B (zh) | Yuv图像识别方法、系统和计算机设备 | |
CN111259894B (zh) | 一种证件信息鉴别方法、装置及计算机设备 | |
CN113172002A (zh) | 一种基于图像识别的输煤线矸石识别方法及分选系统 | |
US20240193929A1 (en) | Target identification method, device and computer-readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |