CN109740417A - 发票类型识别方法、装置、存储介质和计算机设备 - Google Patents
发票类型识别方法、装置、存储介质和计算机设备 Download PDFInfo
- Publication number
- CN109740417A CN109740417A CN201811389293.1A CN201811389293A CN109740417A CN 109740417 A CN109740417 A CN 109740417A CN 201811389293 A CN201811389293 A CN 201811389293A CN 109740417 A CN109740417 A CN 109740417A
- Authority
- CN
- China
- Prior art keywords
- invoice
- schema
- standard
- sorted
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种发票类型识别方法、装置、存储介质和计算机设备。该发票类型识别方法包括:获取待分类发票,并采用光学字符识别技术提取待分类发票的发票模式;将待分类发票的发票模式与所有标准发票模式进行相似度匹配,得到与每个标准发票模式相对应的相似度;将相似度最高的标准发票模式作为待分类发票的目标发票模式;根据目标发票模式获取对应的分布状况,其中,分布状况包括字段分布位置和字段分布内容;根据字段分布位置获取待分类发票的关键内容;根据关键内容和字段分布内容确定待分类发票的发票类型。采用该发票类型识别方法能够精确地识别发票类型。
Description
【技术领域】
本发明涉及计算机领域,尤其涉及一种发票类型识别方法、装置、存储介质和计算机设备。
【背景技术】
目前市场上对于票据的分类通常是针对大类别进行分类,没有细分票据子类。对于发票来说,发票有各种各样的类型,同种发票类型的发票可以是不同公司的,同一公司的发票也可以是不同类型。发票的类型较多且发票类型之间的差别较小,使得无法对发票类型进行精确识别。
【发明内容】
有鉴于此,本发明实施例提供了一种发票类型识别方法、装置、存储介质和计算机设备,用以解决目前发票类型识别不够精确的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种发票类型识别方法,所述方法包括:
获取待分类发票,并采用光学字符识别技术提取所述待分类发票的发票模式;
将所述待分类发票的发票模式与所有标准发票模式进行相似度匹配,得到与每个所述标准发票模式相对应的相似度;
将所述相似度最高的所述标准发票模式作为所述待分类发票的目标发票模式;
根据所述目标发票模式获取对应的分布状况,其中,所述分布状况包括字段分布位置和字段分布内容;
根据所述字段分布位置获取所述待分类发票的关键内容;
根据所述关键内容和所述字段分布内容确定所述待分类发票的发票类型。
进一步地,在所述将所述待分类发票的发票模式与所有标准发票模式进行相似度匹配之前,所述方法还包括:
获取训练发票样本;
采用所述光学字符识别技术提取所述训练发票样本的发票模式;
将所述训练发票样本按照发票模式进行聚类,得到至少两个聚类簇,其中,所述聚类簇包括簇心;
将距离目标聚类簇的簇心最近的训练发票样本的发票模式作为所述目标聚类簇的标准发票模式。
进一步地,所述发票模式采用像素矩阵的形式表示,所述将所述待分类发票的发票模式与所有标准发票模式进行相似度匹配,得到与每个所述标准发票模式相对应的相似度,包括:
获取所有所述标准发票模式,其中,所述标准发票模式采用像素矩阵的形式表示;
计算表示所述待分类发票的发票模式的像素矩阵和所有表示所述标准发票模式的像素矩阵之间的余弦相似度,得到与每个所述标准发票模式相对应的相似度。
进一步地,在根据所述目标发票模式获取对应的分布状况之前,还包括:
将所有所述标准发票模式导入预设的坐标系中,获取每个所述标准发票模式在所述坐标系中的坐标;
根据所述坐标确定每个所述标准发票模式对应的所述分布状况;
建立每个所述标准发票模式与对应的所述分布状况之间的映射关系,并将所述映射关系存储在数据库中,
所述根据所述目标发票模式获取对应的分布状况,包括:
查询所述数据库中存储的所述映射关系,根据所述映射关系获取所述目标发票模式对应的分布状况。
进一步地,所述根据所述关键内容和所述字段分布内容确定所述待分类发票的发票类型,包括:
将所述关键内容和所述字段分布内容按照字段进行比较;
当所述关键内容和所述字段分布内容的字段的顺序和内容都相同时,根据所述关键内容或所述字段分布内容确定所述待分类发票的所述发票类型。
为了实现上述目的,根据本发明的一个方面,提供了一种发票类型识别装置,所述装置包括:
发票模式提取模块,用于获取待分类发票,并采用光学字符识别技术提取所述待分类发票的发票模式;
相似度获取模块,用于将所述待分类发票的发票模式与所有标准发票模式进行相似度匹配,得到与每个所述标准发票模式相对应的相似度;
目标发票模式确定模块,用于将所述相似度最高的所述标准发票模式作为所述待分类发票的目标发票模式;
分布状况获取模块,用于根据所述目标发票模式获取对应的分布状况,其中,所述分布状况包括字段分布位置和字段分布内容;
关键内容获取模块,用于根据所述字段分布位置获取所述待分类发票的关键内容;
发票类型确定模块,用于根据所述关键内容和所述字段分布内容确定所述待分类发票的发票类型。
进一步地,所述装置还包括:
训练发票样本获取单元,用于获取训练发票样本;
发票模式提取单元,用于采用所述光学字符识别技术提取所述训练发票样本的发票模式;
聚类簇获取单元,用于将所述训练发票样本按照发票模式进行聚类,得到至少两个聚类簇,其中,所述聚类簇包括簇心;
标准发票模式确定单元,用于将距离目标聚类簇的簇心最近的训练发票样本的发票模式作为所述目标聚类簇的标准发票模式。
进一步地,所述发票模式采用像素矩阵的形式表示,所述相似度获取模块,包括:
标准发票模式获取单元,用于获取所有所述标准发票模式,其中,所述标准发票模式采用像素矩阵的形式表示;
相似度获取单元,用于计算表示所述待分类发票的发票模式的像素矩阵和所有表示所述标准发票模式的像素矩阵之间的余弦相似度,得到与每个所述标准发票模式相对应的相似度。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述的发票类型识别方法。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的发票类型识别方法的步骤。
本发明实施例中,将待分类发票的发票模式与所有标准发票模式进行相似度匹配,可以根据最高的相似度确定发票模式最接近的标准发票模式,从而根据该标准发票模式得到字段位置和字段分布内容,通过字段位置得到待分类发票的关键内容,并根据该关键内容和字段分布内容确定待分类发票的发票类型。本发明实施例将种类繁多的发票类型分成若干种标准发票模式,并基于标准发票模式进一步地进行细分类;从发票模式和发票模式对应的字段位置和字段分布内容的角度出发,准确描述发票类型的特征,实现发票类型的精确识别。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一实施例中发票类型识别方法的一流程图;
图2是本发明一实施例中发票类型识别装置的一示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等,但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一预设范围也可以被称为第二预设范围,类似地,第二预设范围也可以被称为第一预设范围。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1示出本实施例中发票类型识别方法的一流程图。该发票类型识别方法可应用在系统、平台或应用程序中,用于实现对发票类型进行精确识别的功能,具体可应用在安装在计算机设备上的发票类型识别的应用程序中。其中,该计算机设备是可与用户进行人机交互的设备,包括但不限于电脑、智能手机和平板等设备。如图1所示,该发票类型识别方法包括如下步骤:
S10:获取待分类发票,并采用光学字符识别技术提取待分类发票的发票模式。
其中,发票模式是指除发票内容外发票的整体结构,包括发票采用的模板、轮廓等。光学字符识别(Optical Character Recognition,简称OCR)可以通过电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状。
在一实施例中,获取待分类发票,待分类发票上包括发票内容以及发票内容外发票的整体结构(即发票模式),采用光学字符识别技术可以将待分类发票的明暗、粗细等的整体结构体现出来。具体地,采用光学字符识别技术将待分类发票转换为以图片的形式表示,采用图片的像素点以及各个像素点对应的像素值表示待分类发票,然后对图片形式表示的待分类发票进行二值化处理,即用黑白(分别采用1和0表示)的像素点对待分类发票进行表示,可以使得待分类发票更简单、清晰和易于处理,最后可以采用光学字符识别中的腐蚀膨胀方法,将待分类发票中比较细的线条(包括文字)去掉,将比较粗的线条保留下来,得到待分类发票的发票模式。
需要说明的是,这里不把文字也直接进行识别,是因为要利用发票模式先筛选掉大部分的发票,如果直接进行文字识别,计算量会比较大,不利于实时识别,并且,发票内容的位置不是根据坐标的方式精准确定的,这样识别的准确率会低很多。
S20:将待分类发票的发票模式与所有标准发票模式进行相似度匹配,得到与每个标准发票模式相对应的相似度。
其中,发票模式多种多样,标准发票模式是指将发票模式统一划分成若干类参照标准的发票模式。例如,原本发票模式可以细分成1000种,在统一划分后变成50种标准发票模式。
S30:将相似度最高的标准发票模式作为待分类发票的目标发票模式。
可以理解地,相似度最高的标准发票模式表明待分类发票的发票模式最有可能属于该标准发票模式,因此,将该相似度最高的标准发票模式作为待分类发票的目标发票模式。
S40:根据目标发票模式获取对应的分布状况,其中,分布状况包括字段分布位置和字段分布内容。
其中,分布状况采用字段分布位置和字段分布内容进行表示。字段分布位置是指字段在发票中分布的相对位置,该相对位置可以通过建立坐标的方式进行定义。字段分布内容即在字段分布位置上对应的文本内容。可以理解地,不同发票类型的发票模式可能是相同的,也就是说采用的轮廓、模板相同,但是在发票的内容上是不同的,因此可以通过字段分布位置和字段分布内容判别发票类型。
S50:根据字段分布位置获取待分类发票的关键内容。
其中,待分类发票的关键内容是根据目标发票模式的字段分布位置获取的内容,该关键内容决定了发票类型。
S60:根据关键内容和字段分布内容确定待分类发票的发票类型。
在一实施例中,将待分类发票的关键内容和目标发票模式的字段分布内容进行内容上的比较,即可以确定待分类发票的发票类型。
进一步地,在步骤S10之前,即在将待分类发票的发票模式与所有标准发票模式进行相似度匹配之前,方法还包括:获取训练发票样本;采用光学字符识别技术提取训练发票样本的发票模式;将训练发票样本按照发票模式进行聚类,得到至少两个聚类簇,其中,聚类簇包括簇心;将距离目标聚类簇的簇心最近的训练发票样本的发票模式作为目标聚类簇的标准发票模式。
在一实施例中,采用光学字符识别检测并提取训练发票样本的发票模式,并采用聚类算法得到至少两个聚类簇,根据聚类簇对标准发票模式进行定义,其中,聚类算法包括但限于K-means和DBSCAN等算法。聚类簇可以体现不同发票模式之间的相似程度,簇心是该簇的中心,可以作为设置标准发票模式的参考标准,具体地,可以将距离目标聚类簇的簇心最近的训练发票样本的发票模式作为目标聚类簇的标准发票模式。
采用该方式确定的标准发票模式具有较强的代表性,可以作为一类发票模式的参考标准,有利于提高后续对发票类型进行分类的准确性。
进一步地,发票模式采用像素矩阵的形式表示,在步骤S20中,将待分类发票的发票模式与所有标准发票模式进行相似度匹配,得到与每个标准发票模式相对应的相似度,包括:获取所有标准发票模式,其中,标准发票模式采用像素矩阵的形式表示;计算表示待分类发票的发票模式的像素矩阵和所有表示标准发票模式的像素矩阵之间的余弦相似度,得到与每个标准发票模式相对应的相似度。可以理解地,发票模式可以用黑白(分别采用1和0表示)的像素点进行表示,采用由1,0组成的像素矩阵表示的发票模式,能够有效地减少计算量,有利于计算机设备进行识别和做进一步的操作。其中,余弦相似度的表达式为 其中,式中的U表示发票模式的像素矩阵,式中的I表示标准整体模式的像素矩阵。
在一实施例中,相似度匹配具体可以采用余弦相似度的方式进行衡量,本质上就是计算两个向量之间的距离,如果距离越近,发票模式就与标准发票模式越接近。通过该余弦相似度的匹配方式可以确定发票模式最有可能所属的标准发票模式。
进一步地,在步骤S40之前,即在根据目标发票模式获取对应的分布状况之前,还包括:将所有标准发票模式导入预设的坐标系中,获取每个标准发票模式在坐标系中的坐标;根据坐标确定每个标准发票模式对应的分布状况;建立每个标准发票模式与对应的分布状况之间的映射关系,并将映射关系存储在数据库中。
根据目标发票模式获取对应的分布状况,包括:查询数据库中存储的映射关系,根据映射关系获取目标发票模式对应的分布状况。
在一实施例中,每个标准发票模式对应的分布状况具体可以通过坐标的方式获取,通过将标准发票模式导入预设的坐标系中,采用坐标定义每个标准发票模式的分布状况,即根据坐标可以定位到目标发票模式的字段分布位置和字段分布内容。采用坐标定义分布状况可以精确、快速地根据标准发票模式得到对应的分布状况。
进一步地,在步骤S60中,根据关键内容和字段分布内容确定待分类发票的发票类型,包括:将关键内容和字段分布内容按照字段进行比较;当关键内容和字段分布内容的字段的顺序和内容都相同时,根据关键内容或字段分布内容确定待分类发票的发票类型。可以理解地,当关键内容和字段分布内容的字段的顺序和内容都相同时也即关键内容和字段分布内容是相同的时候,就可以确定具体的发票类型,在本发明实施例中,发票类型由发票模式和关键内容决定,当在结构(发票模式)和内容(关键内容)都确定时,发票类型也就确定了。
本发明实施例中,将待分类发票的发票模式与所有标准发票模式进行相似度匹配,可以根据最高的相似度确定发票模式最接近的标准发票模式,从而根据该标准发票模式得到字段位置和字段分布内容,通过字段位置得到待分类发票的关键内容,并根据该关键内容和字段分布内容确定待分类发票的发票类型。本发明实施例将种类繁多的发票类型分成若干种标准发票模式,并基于标准发票模式进一步地进行细分类;从发票模式和发票模式对应的字段位置和字段分布内容的角度出发,准确描述发票类型的特征,实现发票类型的精确识别。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本发明实施例提供了一种发票类型识别装置,该发票类型识别装置用于执行上述发票类型识别方法,如图2所示,该装置包括:发票模式提取模块10、相似度获取模块20、目标发票模式确定模块30、分布状况获取模块40、关键内容获取模块50和发票类型确定模块60。
发票模式提取模块10,用于获取待分类发票,并采用光学字符识别技术提取待分类发票的发票模式。
相似度获取模块20,用于将待分类发票的发票模式与所有标准发票模式进行相似度匹配,得到与每个标准发票模式相对应的相似度。
目标发票模式确定模块30,用于将相似度最高的标准发票模式作为待分类发票的目标发票模式。
可以理解地,相似度最高的标准发票模式表明待分类发票的发票模式最有可能属于该标准发票模式,因此,将该相似度最高的标准发票模式作为待分类发票的目标发票模式。
分布状况获取模块40,用于根据目标发票模式获取对应的分布状况,其中,分布状况包括字段分布位置和字段分布内容。
可以理解地,不同发票类型的发票模式可能是相同的,也就是说采用的轮廓、模板相同,但是在发票的内容上是不同的,因此可以通过字段分布位置和字段分布内容判别发票类型。
关键内容获取模块50,用于根据字段分布位置获取待分类发票的关键内容。
发票类型确定模块60,用于根据关键内容和字段分布内容确定待分类发票的发票类型。
在一实施例中,将待分类发票的关键内容和目标发票模式的字段分布内容进行内容上的比较,即可以确定待分类发票的发票类型。
可选地,发票类型识别装置还包括训练发票样本获取单元、发票模式提取单元、聚类簇获取单元和标准发票模式确定单元。
训练发票样本获取单元,用于获取训练发票样本。
发票模式提取单元,用于采用光学字符识别技术提取训练发票样本的发票模式。
聚类簇获取单元,用于将训练发票样本按照发票模式进行聚类,得到至少两个聚类簇,其中,聚类簇包括簇心。
标准发票模式确定单元,用于将距离目标聚类簇的簇心最近的训练发票样本的发票模式作为目标聚类簇的标准发票模式。
在一实施例中,采用光学字符识别检测并提取训练发票样本的发票模式,并采用聚类算法得到至少两个聚类簇,根据聚类簇对标准发票模式进行定义,其中,聚类算法包括但限于K-means和DBSCAN等算法。聚类簇可以体现不同发票模式之间的相似程度,簇心是该簇的中心,可以作为设置标准发票模式的参考标准,具体地,可以将距离目标聚类簇的簇心最近的训练发票样本的发票模式作为目标聚类簇的标准发票模式。
采用该方式确定的标准发票模式具体较强的代表性,可以作为一类发票模式的参考标准,有利于提高后续对发票类型进行分类的准确性。
可选地,发票模式采用像素矩阵的形式表示。
可选地,相似度获取模块20包括标准发票模式获取单元和相似度获取单元。
标准发票模式获取单元,用于获取所有标准发票模式,其中,标准发票模式采用像素矩阵的形式表示。
相似度获取单元,用于计算表示待分类发票的发票模式的像素矩阵和所有表示标准发票模式的像素矩阵之间的余弦相似度,得到与每个标准发票模式相对应的相似度。
可以理解地,发票模式可以用黑白(分别采用1和0表示)的像素点进行表示,采用由1,0组成的像素矩阵表示的发票模式,能够有效地减少计算量,有利于计算机设备进行识别和做进一步的操作。其中,余弦相似度的表达式为其中,式中的U表示发票模式的像素矩阵,式中的I表示标准整体模式的像素矩阵。
可选地,发票类型识别装置还包括坐标表示获取单元、分布状况确定单元和映射关系存储单元。
坐标表示获取单元,用于将所有标准发票模式导入预设的坐标系中,获取每个标准发票模式在坐标系中的坐标。
分布状况确定单元,用于根据坐标确定每个标准发票模式对应的分布状况。
映射关系存储单元,用于建立每个标准发票模式与对应的分布状况之间的映射关系,并将映射关系存储在数据库中。
分布状况获取模块,具体用于查询数据库中存储的映射关系,根据映射关系获取目标发票模式对应的分布状况。
具体地,每个标准发票模式对应的分布状况具体可以采用坐标的方式进行表示,通过将标准发票模式导入预设的坐标系中,采用坐标定义每个标准发票模式的分布状况,即根据坐标可以定位到目标发票模式的字段分布位置和字段分布内容。采用坐标定义分布状况可以精确、快速地根据标准发票模式得到对应的分布状况。
可选地,发票类型确定模块包括字段比较单元和发票类型确定单元。
字段比较单元,用于将关键内容和字段分布内容按照字段进行比较。
发票类型确定单元,用于当关键内容和字段分布内容的字段的顺序和内容都相同时,根据关键内容或字段分布内容确定待分类发票的发票类型。
可以理解地,当关键内容和字段分布内容的字段的顺序和内容都相同时也即关键内容和字段分布内容是相同的时候,就可以确定具体的发票类型,在本发明实施例中,发票类型由发票模式和关键内容决定,当在结构(发票模式)和内容(关键内容)都确定时,发票类型也就确定了。
本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质包括计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行以下步骤:
获取待分类发票,并采用光学字符识别技术提取待分类发票的发票模式。
将待分类发票的发票模式与所有标准发票模式进行相似度匹配,得到与每个标准发票模式相对应的相似度。
将相似度最高的标准发票模式作为待分类发票的目标发票模式。
根据目标发票模式取对应的分布状况,其中,分布状况包括字段分布位置和字段分布内容。
根据字段分布位置获取待分类发票的关键内容。
根据关键内容和字段分布内容确定待分类发票的发票类型。
可选地,在计算机程序运行时控制计算机可读存储介质所在设备还执行以下步骤:在将待分类发票的发票模式与所有标准发票模式进行相似度匹配之前,获取训练发票样本;采用光学字符识别技术提取训练发票样本的发票模式;将训练发票样本按照发票模式进行聚类,得到至少两个聚类簇,其中,聚类簇包括簇心;将距离目标聚类簇的簇心最近的训练发票样本的发票模式作为目标聚类簇的标准发票模式。
可选地,发票模式采用像素矩阵的形式表示,在计算机程序运行时控制计算机可读存储介质所在设备还执行以下步骤:获取所有标准发票模式,其中,标准发票模式采用像素矩阵的形式表示;计算表示待分类发票的发票模式的像素矩阵和所有表示标准发票模式的像素矩阵之间的余弦相似度,得到与每个标准发票模式相对应的相似度。
可选地,在计算机程序运行时控制计算机可读存储介质所在设备还执行以下步骤:在根据目标发票模式获取对应的分布状况之前,将所有标准发票模式导入预设的坐标系中,获取每个标准发票模式在坐标系中的坐标;根据坐标确定每个标准发票模式对应的分布状况;建立每个标准发票模式与对应的分布状况之间的映射关系,并将映射关系存储在数据库中,根据目标发票模式获取对应的分布状况,包括:查询数据库中存储的映射关系,根据映射关系获取目标发票模式对应的分布状况。
可选地,在计算机程序运行时控制计算机可读存储介质所在设备还执行以下步骤:将关键内容和字段分布内容按照字段进行比较;当关键内容和字段分布内容的字段的顺序和内容都相同时,根据关键内容或字段分布内容确定待分类发票的发票类型。
本发明实施例提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待分类发票,并采用光学字符识别技术提取待分类发票的发票模式。
将待分类发票的发票模式与所有标准发票模式进行相似度匹配,得到与每个标准发票模式相对应的相似度。
将相似度最高的标准发票模式作为待分类发票的目标发票模式。
根据目标发票模式取对应的分布状况,其中,分布状况包括字段分布位置和字段分布内容。
根据字段分布位置获取待分类发票的关键内容。
根据关键内容和字段分布内容确定待分类发票的发票类型。
可选地,处理器执行计算机程序时还实现以下步骤:在将待分类发票的发票模式与所有标准发票模式进行相似度匹配之前,获取训练发票样本;采用光学字符识别技术提取训练发票样本的发票模式;将训练发票样本按照发票模式进行聚类,得到至少两个聚类簇,其中,聚类簇包括簇心;将距离目标聚类簇的簇心最近的训练发票样本的发票模式作为目标聚类簇的标准发票模式。
可选地,处理器执行计算机程序时还实现以下步骤:获取所有标准发票模式,其中,标准发票模式采用像素矩阵的形式表示;计算表示待分类发票的发票模式的像素矩阵和所有表示标准发票模式的像素矩阵之间的余弦相似度,得到与每个标准发票模式相对应的相似度。
可选地,处理器执行计算机程序时还实现以下步骤:在根据目标发票模式获取对应的分布状况之前,将所有标准发票模式导入预设的坐标系中,获取每个标准发票模式在坐标系中的坐标;根据坐标确定每个标准发票模式对应的分布状况;建立每个标准发票模式与对应的分布状况之间的映射关系,并将映射关系存储在数据库中,根据目标发票模式获取对应的分布状况,包括:查询数据库中存储的映射关系,根据映射关系获取目标发票模式对应的分布状况。
可选地,处理器执行计算机程序时还实现以下步骤:将关键内容和字段分布内容按照字段进行比较;当关键内容和字段分布内容的字段的顺序和内容都相同时,根据关键内容或字段分布内容确定待分类发票的发票类型。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种发票类型识别方法,其特征在于,所述方法包括:
获取待分类发票,并采用光学字符识别技术提取所述待分类发票的发票模式;
将所述待分类发票的发票模式与所有标准发票模式进行相似度匹配,得到与每个所述标准发票模式相对应的相似度;
将所述相似度最高的所述标准发票模式作为所述待分类发票的目标发票模式;
根据所述目标发票模式获取对应的分布状况,其中,所述分布状况包括字段分布位置和字段分布内容;
根据所述字段分布位置获取所述待分类发票的关键内容;
根据所述关键内容和所述字段分布内容确定所述待分类发票的发票类型。
2.根据权利要求1所述的方法,其特征在于,在所述将所述待分类发票的发票模式与所有标准发票模式进行相似度匹配之前,所述方法还包括:
获取训练发票样本;
采用所述光学字符识别技术提取所述训练发票样本的发票模式;
将所述训练发票样本按照发票模式进行聚类,得到至少两个聚类簇,其中,所述聚类簇包括簇心;
将距离目标聚类簇的簇心最近的训练发票样本的发票模式作为所述目标聚类簇的标准发票模式。
3.根据权利要求1所述的方法,其特征在于,所述发票模式采用像素矩阵的形式表示,所述将所述待分类发票的发票模式与所有标准发票模式进行相似度匹配,得到与每个所述标准发票模式相对应的相似度,包括:
获取所有所述标准发票模式,其中,所述标准发票模式采用像素矩阵的形式表示;
计算表示所述待分类发票的发票模式的像素矩阵和所有表示所述标准发票模式的像素矩阵之间的余弦相似度,得到与每个所述标准发票模式相对应的相似度。
4.根据权利要求1至3任一项所述的方法,其特征在于,在根据所述目标发票模式获取对应的分布状况之前,还包括:
将所有所述标准发票模式导入预设的坐标系中,获取每个所述标准发票模式在所述坐标系中的坐标;
根据所述坐标确定每个所述标准发票模式对应的所述分布状况;
建立每个所述标准发票模式与对应的所述分布状况之间的映射关系,并将所述映射关系存储在数据库中,
所述根据所述目标发票模式获取对应的分布状况,包括:
查询所述数据库中存储的所述映射关系,根据所述映射关系获取所述目标发票模式对应的分布状况。
5.根据权利要求1所述的方法,其特征在于,所述根据所述关键内容和所述字段分布内容确定所述待分类发票的发票类型,包括:
将所述关键内容和所述字段分布内容按照字段进行比较;
当所述关键内容和所述字段分布内容的字段的顺序和内容都相同时,根据所述关键内容或所述字段分布内容确定所述待分类发票的所述发票类型。
6.一种发票类型识别装置,其特征在于,所述装置包括:
发票模式提取模块,用于获取待分类发票,并采用光学字符识别技术提取所述待分类发票的发票模式;
相似度获取模块,用于将所述待分类发票的发票模式与所有标准发票模式进行相似度匹配,得到与每个所述标准发票模式相对应的相似度;
目标发票模式确定模块,用于将所述相似度最高的所述标准发票模式作为所述待分类发票的目标发票模式;
分布状况获取模块,用于根据所述目标发票模式获取对应的分布状况,其中,所述分布状况包括字段分布位置和字段分布内容;
关键内容获取模块,用于根据所述字段分布位置获取所述待分类发票的关键内容;
发票类型确定模块,用于根据所述关键内容和所述字段分布内容确定所述待分类发票的发票类型。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
训练发票样本获取单元,用于获取训练发票样本;
发票模式提取单元,用于采用所述光学字符识别技术提取所述训练发票样本的发票模式;
聚类簇获取单元,用于将所述训练发票样本按照发票模式进行聚类,得到至少两个聚类簇,其中,所述聚类簇包括簇心;
标准发票模式确定单元,用于将距离目标聚类簇的簇心最近的训练发票样本的发票模式作为所述目标聚类簇的标准发票模式。
8.根据权利要求6所述的装置,其特征在于,所述发票模式采用像素矩阵的形式表示,所述相似度获取模块,包括:
标准发票模式获取单元,用于获取所有所述标准发票模式,其中,所述标准发票模式采用像素矩阵的形式表示;
相似度获取单元,用于计算表示所述待分类发票的发票模式的像素矩阵和所有表示所述标准发票模式的像素矩阵之间的余弦相似度,得到与每个所述标准发票模式相对应的相似度。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述发票类型识别方法的步骤。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述发票类型识别方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811269785 | 2018-10-29 | ||
CN2018112697857 | 2018-10-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109740417A true CN109740417A (zh) | 2019-05-10 |
CN109740417B CN109740417B (zh) | 2023-05-16 |
Family
ID=66356956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811389293.1A Active CN109740417B (zh) | 2018-10-29 | 2018-11-21 | 发票类型识别方法、装置、存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109740417B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490246A (zh) * | 2019-08-15 | 2019-11-22 | 中云信安(深圳)科技有限公司 | 垃圾类别确定方法、装置、存储介质及电子设备 |
CN110866495A (zh) * | 2019-11-14 | 2020-03-06 | 杭州睿琪软件有限公司 | 票据图像识别方法及装置和设备、训练方法和存储介质 |
CN113780116A (zh) * | 2021-08-26 | 2021-12-10 | 众安在线财产保险股份有限公司 | 发票分类方法、装置、计算机设备和存储介质 |
WO2022105524A1 (zh) * | 2020-11-17 | 2022-05-27 | 深圳壹账通智能科技有限公司 | 票据分类的方法、装置和计算机设备 |
CN114637845A (zh) * | 2022-03-11 | 2022-06-17 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
CN115169335A (zh) * | 2022-09-07 | 2022-10-11 | 深圳高灯计算机科技有限公司 | 发票数据校准方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020194174A1 (en) * | 2001-04-11 | 2002-12-19 | International Business Machines Corporation | System and method for identifying invoices that may be duplicate prior to payment |
US20080144881A1 (en) * | 2006-12-13 | 2008-06-19 | Bottomline Technologies (De) Inc. | Electronic transaction processing server with automated transaction evaluation |
CN204576535U (zh) * | 2014-12-22 | 2015-08-19 | 深圳中兴网信科技有限公司 | 一种票据识别装置 |
CN107292823A (zh) * | 2017-08-20 | 2017-10-24 | 平安科技(深圳)有限公司 | 电子装置、发票分类的方法及计算机可读存储介质 |
CN107633239A (zh) * | 2017-10-18 | 2018-01-26 | 江苏鸿信系统集成有限公司 | 基于深度学习和ocr的票据分类及票据字段提取方法 |
-
2018
- 2018-11-21 CN CN201811389293.1A patent/CN109740417B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020194174A1 (en) * | 2001-04-11 | 2002-12-19 | International Business Machines Corporation | System and method for identifying invoices that may be duplicate prior to payment |
US20080144881A1 (en) * | 2006-12-13 | 2008-06-19 | Bottomline Technologies (De) Inc. | Electronic transaction processing server with automated transaction evaluation |
CN204576535U (zh) * | 2014-12-22 | 2015-08-19 | 深圳中兴网信科技有限公司 | 一种票据识别装置 |
CN107292823A (zh) * | 2017-08-20 | 2017-10-24 | 平安科技(深圳)有限公司 | 电子装置、发票分类的方法及计算机可读存储介质 |
CN107633239A (zh) * | 2017-10-18 | 2018-01-26 | 江苏鸿信系统集成有限公司 | 基于深度学习和ocr的票据分类及票据字段提取方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490246A (zh) * | 2019-08-15 | 2019-11-22 | 中云信安(深圳)科技有限公司 | 垃圾类别确定方法、装置、存储介质及电子设备 |
CN110866495A (zh) * | 2019-11-14 | 2020-03-06 | 杭州睿琪软件有限公司 | 票据图像识别方法及装置和设备、训练方法和存储介质 |
CN110866495B (zh) * | 2019-11-14 | 2022-06-28 | 杭州睿琪软件有限公司 | 票据图像识别方法及装置和设备、训练方法和存储介质 |
WO2022105524A1 (zh) * | 2020-11-17 | 2022-05-27 | 深圳壹账通智能科技有限公司 | 票据分类的方法、装置和计算机设备 |
CN113780116A (zh) * | 2021-08-26 | 2021-12-10 | 众安在线财产保险股份有限公司 | 发票分类方法、装置、计算机设备和存储介质 |
CN114637845A (zh) * | 2022-03-11 | 2022-06-17 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
CN114637845B (zh) * | 2022-03-11 | 2023-04-14 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
CN115169335A (zh) * | 2022-09-07 | 2022-10-11 | 深圳高灯计算机科技有限公司 | 发票数据校准方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109740417B (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740417A (zh) | 发票类型识别方法、装置、存储介质和计算机设备 | |
Lu et al. | Dense and sparse reconstruction error based saliency descriptor | |
US11837017B2 (en) | System and method for face recognition based on dynamic updating of facial features | |
CN110348441B (zh) | 增值税发票识别方法、装置、计算机设备及存储介质 | |
Kumar et al. | Leafsnap: A computer vision system for automatic plant species identification | |
Li et al. | Towards 3D face recognition in the real: a registration-free approach using fine-grained matching of 3D keypoint descriptors | |
RU2668717C1 (ru) | Генерация разметки изображений документов для обучающей выборки | |
Khan et al. | Painting-91: a large scale database for computational painting categorization | |
CN112052186B (zh) | 目标检测方法、装置、设备以及存储介质 | |
CN105404886B (zh) | 特征模型生成方法和特征模型生成装置 | |
Treiber | An introduction to object recognition: selected algorithms for a wide variety of applications | |
CN104123534B (zh) | 生物识别 | |
CN106384126B (zh) | 基于轮廓曲率特征点和支持向量机的服装款式识别方法 | |
CN113515988B (zh) | 掌纹识别方法、特征提取模型训练方法、设备及介质 | |
CN104915673B (zh) | 一种基于视觉词袋模型的目标分类方法和系统 | |
CN106529559A (zh) | 一种指针式圆形多仪表盘实时读数识别方法 | |
US10866984B2 (en) | Sketch-based image searching system using cell-orientation histograms and outline extraction based on medium-level features | |
WO2017088537A1 (zh) | 一种元件分类方法及装置 | |
CN107610177B (zh) | 一种同步定位与地图构建中确定特征点的方法和设备 | |
CN109947273B (zh) | 一种点读定位方法及装置 | |
CN105718552A (zh) | 基于服装手绘草图的服装图像检索方法 | |
CN109376717A (zh) | 人脸对比的身份识别方法、装置、电子设备及存储介质 | |
CN110222660B (zh) | 一种基于动态与静态特征融合的签名鉴伪方法及系统 | |
CN115690803A (zh) | 数字图像的识别方法、装置、电子设备及可读存储介质 | |
JP2012230501A (ja) | 画像処理装置、画像処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |