Nothing Special   »   [go: up one dir, main page]

CN110674396A - 文本信息处理方法、装置、电子设备及可读存储介质 - Google Patents

文本信息处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110674396A
CN110674396A CN201910804709.XA CN201910804709A CN110674396A CN 110674396 A CN110674396 A CN 110674396A CN 201910804709 A CN201910804709 A CN 201910804709A CN 110674396 A CN110674396 A CN 110674396A
Authority
CN
China
Prior art keywords
result
text
matching
corrected
splicing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910804709.XA
Other languages
English (en)
Other versions
CN110674396B (zh
Inventor
王雷
张睿
宋祺
周锴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910804709.XA priority Critical patent/CN110674396B/zh
Publication of CN110674396A publication Critical patent/CN110674396A/zh
Application granted granted Critical
Publication of CN110674396B publication Critical patent/CN110674396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例提供了一种文本信息处理方法、装置、存储介质和电子设备,所述方法包括:对待修正的文本识别结果进行分词处理,得到多个文本条目;将所述待修正的文本识别结果输入搜索引擎,得到至少一条搜索结果;将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果;将所述多个文本条目中的每个文本条目对应的匹配结果进行拼接,以得到所述至少一条搜索结果中每条搜索结果的拼接结果,各条所述拼接结果的集合形成候选结果集;将所述待修正的文本识别结果与所述候选结果集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果。以提高文本识别结果纠错的准确率。

Description

文本信息处理方法、装置、电子设备及可读存储介质
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种文本信息处理方法、装置、电子设备及可读存储介质。
背景技术
随着社会经济的发展,目前越来越多的智能设备具备图片识别功能,用于将图像中的文本进行检测、提取和识别,转换为可编辑的文本,简化人们日常生活中的身份证、营业执照、票证以及银行卡等信息录入。但现有图像识别的相关技术中,由于存在以下情况:待识别图像中的文本具有生僻字或待识别图像不清晰,从而导致图像识别后的文本识别结果存在错误,降低了图像识别结果的准确率,因此,如何提高图像识别后的文本识别结果纠错的准确率成为本领域技术人员亟待解决的技术问题。
发明内容
本申请实施例提供一种文本信息处理方法、装置、电子设备及可读存储介质,以提高图像识别后的文本识别结果纠错的准确率。
本申请实施例第一方面提供了一种文本信息处理方法,所述方法包括:对待修正的文本识别结果进行分词处理,得到多个文本条目;
将所述待修正的文本识别结果输入搜索引擎,得到至少一条搜索结果;
针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果;
按照所述多个文本条目在所述待修正的文本识别结果中的条目顺序,将所述多个文本条目中的每个文本条目对应的匹配结果进行拼接,以得到所述至少一条搜索结果中每条搜索结果的拼接结果,各条所述拼接结果的集合形成候选结果集;
将所述待修正的文本识别结果与所述候选结果集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果。
可选地,所述方法还包括:
获得所述待修正的文本识别结果的置信度;
对所述待修正的文本识别结果进行分词处理,包括:
在所述置信度小于第一阈值的情况下,对所述待修正的文本识别结果进行分词处理。
可选地,所述方法还包括:
获得所述多个文本条目中每个文本条目的置信度;
将所述待修正的文本识别结果输入搜索引擎,包括:
在所述多个文本条目中每个文本条目的置信度均未超过各自对应的阈值的情况下,将所述待修正的文本识别结果输入搜索引擎。
可选地,针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果,包括:
针对所述至少一条搜索结果中的每条搜索结果,提取该条搜索结果中的文本;
针对所述多个文本条目中的每个文本条目,分别确定该文本条目与该条搜索结果中的文本的编辑距离,并将编辑距离最小的文本确定为该文本条目在该条搜索结果中的匹配结果。
可选地,针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果,包括:
针对所述多个文本条目中的每个文本条目:
在所述编辑距离小于第二阈值的情况下,将编辑距离最小的文本确定为该文本条目在该条搜索结果中的匹配结果;
在所述编辑距离不小于第二阈值的情况下,将该文本条目本身确定为该文本条目在该条搜索结果中的匹配结果。
可选地,针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果,包括:
针对所述多个文本条目中的每个文本条目,该文本条目在当前条搜索结果中的匹配结果有多个的情况下:
针对该文本条目的每个匹配结果,在当前条搜索结果中的文本包含该文本条目之前的至少一个文本条目的条件下,计算该匹配结果与所述至少一个文本条目的字符串距离,将字符串距离最小的文本条目与所述该匹配结果进行关联,该匹配结果作为所述该文本条目在当前条搜索结果中的匹配结果;
在当前条搜索结果中的文本不包含该文本条目之前的任一文本条目的条件下,保留该匹配结果,该匹配结果作为所述该文本条目在当前条搜索结果中的匹配结果。
可选地,在将所述待修正的文本识别结果与所述候选结果集中的各条拼接结果分别进行匹配之前,还包括:
对所述候选结果集按照预设规则进行筛选,得到有效数据集;
将所述待修正的文本识别结果与所述有效数据集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果;
对所述候选结果集按照预设规则进行筛选,得到有效数据集,包括:
确定所述候选结果集中各条拼接结果的匹配完整度;
按照匹配完整度高优先的规则,将匹配完整度最高的拼接结果添加到所述有效数据集中;
针对匹配完整度相同的多条拼接结果,将相对距离最小的拼接结果添加到所述有效数据集中,所述相对距离为所述拼接结果中各个文本条目在对应的搜索结果中的位置距离;
针对匹配完整度和相对距离均相同的多个拼接结果,将与所述待修正的文本识别结果的字符特征最接近的拼接结果添加到所述有效数据集中。
可选地,将所述待修正的文本识别结果与所述有效数据集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果,包括:
确定所述待修正的文本识别结果与所述有效数据集中的各条拼接结果之间的编辑距离;
在所述编辑距离最小的拼接结果有一个的情况下,将该拼接结果确定为所述修正后的文本识别结果;
在所述编辑距离最小的拼接结果有多个的情况下,将出现次数最多的拼接结果确定为所述修正后的文本识别结果;
在所述出现次数最多的拼接结果有多个的情况下,将图像特征得分最高的拼接结果确定为所述修正后的文本识别结果。
本申请实施例第二方面提供一种文本信息处理装置,所述装置包括:
分词模块,用于对待修正的文本识别结果进行分词处理,得到多个文本条目;
搜索模块,用于将所述待修正的文本识别结果输入搜索引擎,得到至少一条搜索结果;
匹配模块,用于针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果;
拼接模块,用于按照所述多个文本条目在所述待修正的文本识别结果中的条目顺序,将所述多个文本条目中的每个文本条目对应的匹配结果进行拼接,以得到所述至少一条搜索结果中每条搜索结果的拼接结果,各条所述拼接结果的集合形成候选结果集;
确定模块,用于将所述待修正的文本识别结果与所述候选结果集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果。
可选地,所述装置还包括:
第一置信度模块,用于获得所述待修正的文本识别结果的置信度;
所述分词模块包括:分词子模块,用于在所述置信度小于第一阈值的情况下,对所述待修正的文本识别结果进行分词处理。
可选地,所述装置还包括:
第二置信度模块,用于获得所述多个文本条目中每个文本条目的置信度;
所述搜索模块包括:搜索子模块,用于在所述多个文本条目中每个文本条目的置信度均未超过各自对应的阈值的情况下,将所述待修正的文本识别结果输入搜索引擎。
可选地,所述匹配模块包括:
提取子模块,用于针对所述至少一条搜索结果中的每条搜索结果,提取该条搜索结果中的文本;
匹配子模块,用于针对所述多个文本条目中的每个文本条目,分别确定该文本条目与该条搜索结果中的文本的编辑距离,并将编辑距离最小的文本确定为该文本条目在该条搜索结果中的匹配结果。
可选地,所述匹配模块包括:
第一匹配子模块,用于针对所述多个文本条目中的每个文本条目:在所述编辑距离小于第二阈值的情况下,将编辑距离最小的文本确定为该文本条目在该条搜索结果中的匹配结果;
第二匹配子模块,用于针对所述多个文本条目中的每个文本条目:在所述编辑距离不小于第二阈值的情况下,将该文本条目本身确定为该文本条目在该条搜索结果中的匹配结果。
可选地,所述匹配模块包括:
第一关联子模块,用于针对所述多个文本条目中的每个文本条目,该文本条目在当前条搜索结果中的匹配结果有多个的情况下:针对该文本条目的每个匹配结果,在当前条搜索结果中的文本包含该文本条目之前的至少一个文本条目的条件下,计算该匹配结果与所述至少一个文本条目的字符串距离,将字符串距离最小的文本条目与所述该匹配结果进行关联,该匹配结果作为所述该文本条目在当前条搜索结果中的匹配结果;
第二关联子模块,用于针对所述多个文本条目中的每个文本条目,该文本条目在当前条搜索结果中的匹配结果有多个的情况下:在当前条搜索结果中的文本不包含该文本条目之前的任一文本条目的条件下,保留该匹配结果,该匹配结果作为所述该文本条目在当前条搜索结果中的匹配结果。
可选地,所述装置还包括:
有效数据集确定模块,用于对所述候选结果集按照预设规则进行筛选,得到有效数据集;
第一确定子模块,将所述待修正的文本识别结果与所述有效数据集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果;
所述有效数据集确定模块包括:
匹配完整度确定模块,用于确定所述候选结果集中各条拼接结果的匹配完整度;
第一有效数据集确定子模块,用于按照匹配完整度高优先的规则,将匹配完整度最高的拼接结果添加到所述有效数据集中;
第二有效数据集确定子模块,用于针对匹配完整度相同的多条拼接结果,将相对距离最小的拼接结果添加到所述有效数据集中,所述相对距离为所述拼接结果中各个文本条目在对应的搜索结果中的位置距离;
第三有效数据集确定子模块,用于针对匹配完整度和相对距离均相同的多个拼接结果,将与所述待修正的文本识别结果的字符特征最接近的拼接结果添加到所述有效数据集中。
可选地,所述确定模块包括:
编辑距离确定子模块,用于确定所述待修正的文本识别结果与所述有效数据集中的各条拼接结果之间的编辑距离;
第一编辑距离确定子模块,用于在所述编辑距离最小的拼接结果有一个的情况下,将该拼接结果确定为所述修正后的文本识别结果;
第二编辑距离确定子模块,用于在所述编辑距离最小的拼接结果有多个的情况下,将出现次数最多的拼接结果确定为所述修正后的文本识别结果;
第三编辑距离确定子模块,用于在所述出现次数最多的拼接结果有多个的情况下,将图像特征得分最高的拼接结果确定为所述修正后的文本识别结果。
本申请实施例第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请第一方面所述的方法的步骤。
采用本申请实施例提供的一种文本信息处理方法,调用搜索引擎的网络数据库,利用网络数据库对待修正的文本识别结果进行纠错,不同于相关技术,无需额外储备线下的本地数据库,也无需考虑本地数据库的更新问题。且网络数据库的时效性高以及覆盖范围广泛,增加了待修正的文本识别结果的纠错准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的一种文本信息处理方法的流程图;
图2是本申请一实施例提出的一种文本信息处理方法的流程图中步骤S13的流程图;
图3是本申请一实施例提出的一种文本信息处理方法的流程图;
图4是本申请一实施例提出的一种文本信息处理方法的流程图中步骤S31的流程图;
图5是本申请一实施例提出的一种文本信息处理方法的流程图中步骤S32的流程图;
图6是本申请一实施例提出的一种文本信息处理装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请发明人在实现本申请的过程中发现,在基于OCR识别技术(光学字符识别技术)的图像识别的应用场景中,例如:对地址类文本的OCR识别、对名称类文本的OCR识别以及对文学类文本的OCR识别;由于待识别图像中的文本可能存在生僻字或者不清晰的情况,导致OCR识别结果不可避免的存在一些错误。
以地址类文本的OCR识别为例,相关技术中,对OCR识别结果的纠错采用的技术方案为:将OCR识别结果采用语言模型进行分词处理,结合已有的线下数据库进行模糊匹配,进而得到纠错后的OCR识别结果。
但相关技术中,OCR识别结果的纠错采用的技术方案存在以下缺陷:
(1)没有考虑OCR识别结果本身的可靠性,直接进行纠错处理,可能进一步增加OCR识别结果的错误率;
(2)基于语言模型和线下数据库进行纠错,需要额外的数据储备,且时效性较低;
(3)纠错的可靠性完全依赖于线下数据库,鲁棒性较低。
因此,为了提高OCR识别结果的准确率,申请人提出本申请的技术方案:
参考图1,图1是本申请一实施例提出的一种文本信息处理方法的流程图。如图1所示,该方法包括以下步骤:
步骤S11:对待修正的文本识别结果进行分词处理,得到多个文本条目。
在本实施例中,待修正的文本识别结果是指:经过OCR识别处理后,需要对其输出结果进行纠错处理的文本识别结果。
在本实施例中,分词处理是一种对文本进行词组拆分的操作,具体地,对待修正的文本识别结果可以采用语言模型进行分词,也可以采用预设的分词规则进行分词,以得到多个文本条目;其中,文本条目是指分词处理后获得的各个词组。
示例地,以对地址类文本的OCR识别结果采用预设的分词规则进行分词为例,若待修正的文本识别结果为:“北京市昌平区马池口镇奋查屯村”,则分词后得到的多个文本条目分别为:“北京市”、“昌平区”、“马池口镇”以及“奋查屯村”。
其中,地址类文本采用的预设的分词规则为自身存在的分词规则,由于地址类文本具有固定格式:其按照省、市、区、县等层级进行依次排列,因此,地址类文本自身存在分词规则。
在本实施例中,对待修正的文本识别结果采用预设的分词规则进行分词,无需额外使用大量的数据训练语言模型,简化对待修正的文本识别结果进行纠错的前期准备。
步骤S12:将所述待修正的文本识别结果输入搜索引擎,得到至少一条搜索结果。
在本实施例中,搜索引擎是指搜索网站,例如相关技术中的百度、谷歌、腾讯等浏览器;通过将待修正的文本识别结果输入搜索引擎,调用搜索引擎的网络数据库,利用网络数据库对待修正的文本识别结果进行纠错,不同于相关技术,无需额外储备线下的本地数据库,也无需考虑本地数据库的更新问题,且网络数据库的时效性高,增加了待修正的文本识别结果的纠错准确率。
步骤S13:针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果。
在本实施例中,针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配为一个独立的过程。
示例地,仍以上述待修正的文本识别结果为:“北京市昌平区马池口镇奋查屯村”,多个条目分别为:“北京市”、“昌平区”、“马池口镇”以及“奋查屯村”为例,将“北京市昌平区马池口镇奋查屯村”输入搜索引擎后,得到三条搜索结果,分别为搜索结果1、搜索结果2以及搜索结果3,即“北京市”、“昌平区”、“马池口镇”以及“奋查屯村”这四个条目分别在搜索结果1、搜索结果2以及搜索结果3中进行匹配,具备三个独立的匹配过程。
步骤S14:按照所述多个文本条目在所述待修正的文本识别结果中的条目顺序,将所述多个文本条目中的每个文本条目对应的匹配结果进行拼接,以得到所述至少一条搜索结果中每条搜索结果的拼接结果,各条所述拼接结果的集合形成候选结果集。
步骤S15:将所述待修正的文本识别结果与所述候选结果集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果。
在本实施例中,条目顺序是指分词处理之前各个文本条目的原始位置顺序。
在本实施例中,首先,按照多个文本条目在待修正的文本识别结果中的条目顺序,将所述多个文本条目的每个文本条目对应的匹配结果进行拼接。其中,拼接是指将匹配结果按照条目顺序进行组合连接。
示例地,仍以上述待修正的文本识别结果为:“北京市昌平区马池口镇奋查屯村”,多个文本条目分别为:“北京市”、“昌平区”、“马池口镇”以及“奋查屯村”为例,若上述多个文本条目在搜索结果1的匹配结果分别为:“北京市”、“昌平区”、“马池口镇”以及“奤夿屯村”,则按照条目顺序拼接后得到的拼接结果1为:“北京市昌平区马池口镇奤夿屯村”。
然后,将待修正的文本识别结果与候选结果集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果。在实际情况中,由于搜索结果大部分为多条,因此,候选结果集中的拼接结果可能也为很多条,同时,由于搜索结果中存在大量的干扰信息,即由搜索结果得到的拼接结果中也存在干扰信息,将待修正的文本识别结果与各条拼接结果分别进行匹配,确定修正后的文本识别结果,可以提高文本识别结果的纠错准确率。
示例地,仍以上述待修正的文本识别结果为:“北京市昌平区马池口镇奋查屯村”,搜索结果分别为搜索结果1、搜索结果2以及搜索结果3为例,若搜索结果1中的拼接结果1为:“北京市昌平区马池口镇奤夿屯村”、搜索结果2中的拼接结果2为:“北京市昌平区马池口镇面巴屯村”、搜索结果3中的拼接结果3为:“北京市昌平区马池口镇乃干屯村”,实际情况中,待修正的文本识别结果对应的正确文本识别结果为搜索结果1中的拼接结果1。由上述示例可知,拼接结果2和拼接结果3为错误的结果,因此,将待修正的文本识别结果与各条拼接结果分别进行匹配,确定修正后的文本识别结果,即拼接结果1。
在本申请的实施例中,所述方法除步骤S11-步骤S15以外,还包括以下步骤:
获得所述待修正的文本识别结果的置信度。
步骤S11包括:在所述置信度小于第一阈值的情况下,对所述待修正的文本识别结果进行分词处理。
在本实施例中,待修正的文本识别结果的置信度是指待修正的文本识别结果的整体置信度,置信度即指准确度。其中,置信度是OCR识别结果本身的概率值,置信度值越高代表待修正的文本识别结果的准确度越高。通过考虑OCR识别结果本身的可靠性,提高了待修正的文本识别结果纠错的准确率。
在本实施例中,第一阈值可以预设一个较大的阈值,对于置信度小于第一阈值的待修正的文本识别结果,才进行分词处理,执行后续纠错的处理,防止将原本正确的文本识别结果纠正为错误的结果,简化了整个文本识别的流程,相反地,对于置信度大于第一阈值的待修正的文本识别结果,说明该待修正的文本识别结果的准确率已经很高了,此时,直接输出待修正的文本识别结果。
在本申请的实施例中,所述方法除步骤S11-步骤S15以外,还包括以下步骤:
获得所述多个文本条目中每个文本条目的置信度;
步骤S12包括:在所述多个文本条目中每个文本条目的置信度均未超过各自对应的阈值的情况下,将所述待修正的文本识别结果输入搜索引擎。
在本实施例中,多个文本条目中每个文本条目各自对应的置信度阈值可以相同,也可以不相同,一般地,各个文本条目对应的置信度阈值不相同。
在本实施例中,多个文本条目中每个文本条目的置信度均设置一个较高的阈值。通过在多个文本条目中每个文本条目的置信度均未超过各自对应的阈值的情况下,将所述待修正的文本识别结果输入搜索引擎,进行后续的纠错过程,进一步防止将原本正确的文本识别结果纠正为错误的结果,简化了整个文本识别的流程。
参考图2,图2是本申请一实施例提出的一种文本信息处理方法的流程图中步骤S13的流程图。如图2所示,步骤S13包括:
步骤S21:针对所述至少一条搜索结果中的每条搜索结果,提取该条搜索结果中的文本。
步骤S22:针对所述多个文本条目中的每个文本条目,分别确定该文本条目与该条搜索结果中的文本的编辑距离,并将编辑距离最小的文本确定为该文本条目在该条搜索结果中的匹配结果。
在本实施例中,编辑距离是指由文本条目的字串转换成该搜索结果中的文本的字串所需的最少编辑操作次数。其中,编辑操作包括:将一个字符替换成另一个字符、插入一个字符或者删除一个字符,编辑距离越小,两个字串的相似度越大。
示例地,仍以上述待修正的文本识别结果为:“北京市昌平区马池口镇奋查屯村”,多个文本条目分别为:“北京市”、“昌平区”、“马池口镇”以及“奋查屯村”为例,若搜索结果1的中提取的文本为:“北京市昌平区马池口镇奤夿屯村民委员会”,则分别确定多个文本条目与提取文本的编辑距离,以“北京市”这个条目为例,在提取的文本中计算与“北京市”这个条目编辑距离最小的文本,由于搜索结果1中包含“北京市”的文本,该文本与“北京市”这个条目的编辑距离为0,此时编辑距离最小,即在搜索结果1中,确定“北京市”的文本为“北京市”的文本条目的匹配结果。
在本申请的实施例中,步骤S13包括:
针对所述多个文本条目中的每个文本条目:
在所述编辑距离小于第二阈值的情况下,将编辑距离最小的文本确定为该文本条目在该条搜索结果中的匹配结果。
在所述编辑距离不小于第二阈值的情况下,将该文本条目本身确定为该文本条目在该条搜索结果中的匹配结果。
在本实施例中,针对所述多个文本条目中的每个文本条目:在所述编辑距离小于第二阈值的情况下,将编辑距离最小的文本确定为该文本条目在该条搜索结果中的匹配结果,并记录该匹配结果在该条搜索结果的文本中的位置。其中,第二阈值为预设的经验值。
示例地,仍以上述待修正的文本识别结果为:“北京市昌平区马池口镇奋查屯村”,多个文本条目:“北京市”、“昌平区”、“马池口镇”以及“奋查屯村”中的“北京市”这个文本条目,在搜索结果1中存在“北京市”的文本为例,若第二阈值为2,由于“北京市”这个文本条目与搜索结果1中的文本“北京市”的编辑距离为0,编辑距离小于第二阈值,则将“北京市”的文本确定为“北京市”这个文本条目在搜索结果1中的匹配结果,并记录“北京市”的文本在搜索结果1中的位置。
在本实施例中,针对所述多个文本条目中的每个文本条目:在所述编辑距离不小于第二阈值的情况下,将该文本条目本身确定为该文本条目在该条搜索结果中的匹配结果。
示例地,以上述多个文本条目分别为:“北京市”、“昌平区”、“马池口镇”以及“奋查屯村”中的“奋查屯村”这个文本条目为例,若设置的第二阈值为2,在搜索结果3中提取的文本为:“北京市昌平区马池口镇马池口村为什么叫马池口”,此时“奋查屯村”这个文本条目与搜索结果3中的“马池口村”的编辑距离为3,则编辑距离不小于第二阈值,此时将“奋查屯村”这个文本条目本身确定为该文本条目在搜索结果3中的匹配结果。
在本申请的实施例中,步骤S13包括:
针对所述多个文本条目中的每个文本条目,该文本条目在当前条搜索结果中的匹配结果有多个的情况下:
针对该文本条目的每个匹配结果,在当前条搜索结果中的文本包含该文本条目之前的至少一个文本条目的条件下,计算该匹配结果与所述至少一个文本条目的字符串距离,将字符串距离最小的文本条目与所述该匹配结果进行关联,该匹配结果作为所述该文本条目在当前条搜索结果中的匹配结果。
在本实施例中,该文本条目之前的至少一个文本条目是指:该文本条目在待修正的文本识别结果中之前的至少一个文本条目。字符串距离是指该匹配结果在搜索结果中的字符串位置与所述至少一个文本条目在搜索结果中的字符串位置的相对距离。
示例地,仍以上述待修正的文本识别结果为:“北京市昌平区马池口镇奋查屯村”,多个文本条目:“北京市”、“昌平区”、“马池口镇”以及“奋查屯村”中的“奋查屯村”这个文本条目为例,若在搜索结果1中提取的文本为:“北京市昌平区马池口镇奤夿屯村民委员会……奤夿屯村”,此时,“奋查屯村”的匹配结果有两个,分别是马池口镇后的奤夿屯村1和委员会后的奤夿屯村2。
由于在搜索结果1中的文本包含“奋查屯村”这个文本条目之前的“北京市”、“昌平区”以及“马池口镇”中的至少一个文本条目,则分别计算奤夿屯村1和奤夿屯村2这两个匹配结果与“北京市”、“昌平区”以及“马池口镇”中的至少一个文本条目的字符串距离。若奤夿屯村1在搜索结果中的字符串位置为100,奤夿屯村2在搜索结果中的字符串位置为150,则奤夿屯村1与“马池口镇”的字符串距离最小为1,将奤夿屯村1与马池口镇”这个文本条目进行关联。奤夿屯村1为“奋查屯村”唯一的匹配结果。
针对所述多个文本条目中的每个文本条目,该文本条目在当前条搜索结果中的匹配结果有多个的情况下:在当前条搜索结果中的文本不包含该文本条目之前的任一文本条目的条件下,保留该匹配结果,该匹配结果作为所述该文本条目在当前条搜索结果中的匹配结果。
通过上述实施例,由于每条搜索结果中包含有大量的干扰信息,将文本条目在当前条搜索结果的多个匹配结果进行筛选,得到该文本条目唯一的匹配结果,便于后续得到唯一的拼接结果,提高识别结果纠错的速率。
参考图3,图3是本申请一实施例提出的一种文本信息处理方法的流程图。如图3所示,所述方法除步骤S11-步骤S15以外,还包括以下步骤:
步骤S31:对所述候选结果集按照预设规则进行筛选,得到有效数据集。
在本实施例中,预设规则是指预设的匹配完整度、相对距离以及字符特征的预设规则。
参考图4,图4是本申请一实施例提出的一种文本信息处理方法的流程图中步骤S31的流程图。如图4所示,步骤S31包括以下步骤:
步骤S311:确定所述候选结果集中各条拼接结果的匹配完整度。
步骤S312:按照匹配完整度高优先的规则,将匹配完整度最高的拼接结果添加到所述有效数据集中。
在本实施例中,匹配完整度是指待修正的文本识别结果的多个文本条目在对应的拼接结果中具备匹配结果的文本条目数量,多个文本条目中在对应的拼接结果中具备匹配结果的文本条目数量越多,则匹配完整度越高,最优地,多个文本条目中的每个文本条目均在该拼接结果中具有匹配结果。
示例地,仍以上述待修正的文本识别结果为:“北京市昌平区马池口镇奋查屯村”,多个文本条目为“北京市”、“昌平区”、“马池口镇”以及“奋查屯村”为例,若该待修正的文本识别结果的拼接结果1为“北京市昌平区马池口镇面巴屯村”,拼接结果2为“北京市昌平区马池口镇奋查屯村”,拼接结果1中每个条目都具备匹配结果,拼接结果2中“奋查屯村”这个文本条目不具备匹配结果,其对应的匹配结果是该文本条目本身,则拼接结果1的匹配完整度高于拼接结果2,将拼接结果1添加到所述有效数据集。
步骤S313:针对匹配完整度相同的多条拼接结果,将相对距离最小的拼接结果添加到所述有效数据集中,所述相对距离为所述拼接结果中各个文本条目在对应的搜索结果中的位置距离。
在本实施例中,相对距离是指所述拼接结果中各个文本条目在对应的搜索结果中的字符串的位置距离,具体地,字符串的位置距离是指该文本条目在搜索结果中的网页文字行中出现的位置。其中,拼接结果中的各个文本条目指该拼接结果中的各个匹配结果。
示例地,仍以上述待修正的文本识别结果为:“北京市昌平区马池口镇奋查屯村”为例,若该待修正的文本识别结果的拼接结果1为:“北京市昌平区马池口镇面巴屯村”,拼接结果2为:“北京市昌平区马池口镇奤夿屯村”,其中,拼接结果1中的“马池口镇”的字符串位置为100,“面巴屯村”的字符串位置为101,则“马池口镇”与“面巴屯村”的相对距离为1;拼接结果2中的马池口镇”的字符串位置为100,“奤夿屯村”的字符串位置为110,则“马池口镇”与“奤夿屯村”的相对距离为10;此时,拼接结果1的相对距离小于拼接结果2,将拼接结果1添加到有效数据集中。
步骤S314:针对匹配完整度和相对距离均相同的多个拼接结果,将与所述待修正的文本识别结果的字符特征最接近的拼接结果添加到所述有效数据集中。
在本实施例中,字符特征是指OCR识别本身的文字图像特征。通过字符特征筛选有效数据集,便于找到有效的拼接结果,提高待修正的文本识别结果与有效数据集的匹配准确度。
步骤S32:将所述待修正的文本识别结果与所述有效数据集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果。
参考图5,图5是本申请一实施例提出的一种文本信息处理方法的流程图中步骤S32的流程图。如图5所示,步骤S32包括以下步骤:
步骤S321:确定所述待修正的文本识别结果与所述有效数据集中的各条拼接结果之间的编辑距离。
步骤S322:在所述编辑距离最小的拼接结果有一个的情况下,将该拼接结果确定为所述修正后的文本识别结果。
在本实施例中,首先,确定待修正的文本识别结果与有效数据集中的各条拼接结果之间的编辑距离;然后,在编辑距离最小的拼接结果只有一个的情况下,将该拼接结果确定为所述修正后的文本识别结果。
示例地,仍以上述待修正的文本识别结果为:“北京市昌平区马池口镇奋查屯村”为例,若有效数据集中有两条拼接结果,分别为拼接结果1:“北京市昌平区马池口镇马池口村”以及拼接结果2:“北京市昌平区马池口镇奤夿屯村”,此时,拼接结果1与待修正的文本识别结果的编辑距离为3,拼接结果2与待修正的文本识别结果的编辑距离为2,则拼接结果2的编辑距离最小且唯一,拼接结果2为修正后的文本识别结果。
步骤S323:在所述编辑距离最小的拼接结果有多个的情况下,将出现次数最多的拼接结果确定为所述修正后的文本识别结果。
在本实施例中,在所述编辑距离最小的拼接结果有多个的情况下,将在有效数据集中出现次数最多的拼接结果确定为修正后的文本识别结果。
示例地,仍以上述待修正的文本识别结果为:“北京市昌平区马池口镇奋查屯村”为例,若有效数据集中有五条拼接结果,分别为拼接结果1:“北京市昌平区马池口镇奤夿屯村”、拼接结果2:“北京市昌平区马池口镇奤夿屯村”、拼接结果3:“北京市昌平区马池口镇奤夿屯村”、拼接结果4:“北京市昌平区马池口镇面巴屯村”以及拼接结果5:“北京市昌平区马池口镇乃干屯村”。
上述拼接结果1-拼接结果5与待修正的文本识别结果的编辑距离均为2,编辑距离最小的拼接结果有多个,此时“北京市昌平区马池口镇奤夿屯村”这个拼接结果在有效数据集中出现次数最多,将“北京市昌平区马池口镇奤夿屯村”这个拼接结果确定为修正后的文本识别结果。
步骤S324:在所述出现次数最多的拼接结果有多个的情况下,将图像特征得分最高的拼接结果确定为所述修正后的文本识别结果。
在本实施例中,图像特征得分是OCR识别本身的文字图像特征,拼接结果的图像特征得分是指:拼接结果整体的字符特征得分。通过图像特征得分确定修正后的文本识别结果,使得识别结果的纠错结果不仅依靠于待修正的文本识别结果与有效数据集的匹配结果,也依靠于OCR识别结果本身的置信度和文字图像特征,不同于相关技术中,对于纠错结果完全取决于与线下数据库的匹配结果,进一步提高了纠错的准确率。
示例地,仍以上述待修正的文本识别结果为:“北京市昌平区马池口镇奋查屯村”为例,若有效数据集中有四条拼接结果,分别为拼接结果1:“北京市昌平区马池口镇奤夿屯村”、拼接结果2:“北京市昌平区马池口镇奤夿屯村”、拼接结果3:“北京市昌平区马池口镇面巴屯村”以及拼接结果4:“北京市昌平区马池口镇面巴屯村”。
上述“北京市昌平区马池口镇奤夿屯村”的拼接结果出现次数为2,“北京市昌平区马池口镇面巴屯村”的拼接结果出现次数也为2,若“北京市昌平区马池口镇奤夿屯村”的拼接结果的图像特征得分为90,“北京市昌平区马池口镇面巴屯村”的拼接结果的图像特征得分为60;此时,将图像特征得分最高的拼接结果:“北京市昌平区马池口镇奤夿屯村”确定为修正后的文本识别结果。
基于同一发明构思,本申请一实施例提供一种文本信息处理装置。参考图6,图6是本申请一实施例提供的一种文本信息处理装置的示意图。如图6所示,该装置包括:
分词模块601,用于对待修正的文本识别结果进行分词处理,得到多个文本条目;
搜索模块602,用于将所述待修正的文本识别结果输入搜索引擎,得到至少一条搜索结果;
匹配模块603,用于针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果;
拼接模块604,用于按照所述多个文本条目在所述待修正的文本识别结果中的条目顺序,将所述多个文本条目中的每个文本条目对应的匹配结果进行拼接,以得到所述至少一条搜索结果中每条搜索结果的拼接结果,各条所述拼接结果的集合形成候选结果集;
确定模块605,用于将所述待修正的文本识别结果与所述候选结果集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果。
可选地,所述装置还包括:
第一置信度模块,用于获得所述待修正的文本识别结果的置信度;
所述分词模块包括:分词子模块,用于在所述置信度小于第一阈值的情况下,对所述待修正的文本识别结果进行分词处理。
可选地,所述装置还包括:
第二置信度模块,用于获得所述多个文本条目中每个文本条目的置信度;
所述搜索模块包括:搜索子模块,用于在所述多个文本条目中每个文本条目的置信度均未超过各自对应的阈值的情况下,将所述待修正的文本识别结果输入搜索引擎。
可选地,所述匹配模块包括:
提取子模块,用于针对所述至少一条搜索结果中的每条搜索结果,提取该条搜索结果中的文本;
匹配子模块,用于针对所述多个文本条目中的每个文本条目,分别确定该文本条目与该条搜索结果中的文本的编辑距离,并将编辑距离最小的文本确定为该文本条目在该条搜索结果中的匹配结果。
可选地,所述匹配模块包括:
第一匹配子模块,用于针对所述多个文本条目中的每个文本条目:在所述编辑距离小于第二阈值的情况下,将编辑距离最小的文本确定为该文本条目在该条搜索结果中的匹配结果;
第二匹配子模块,用于针对所述多个文本条目中的每个文本条目:在所述编辑距离不小于第二阈值的情况下,将该文本条目本身确定为该文本条目在该条搜索结果中的匹配结果。
可选地,所述匹配模块包括:
第一关联子模块,用于针对所述多个文本条目中的每个文本条目,该文本条目在当前条搜索结果中的匹配结果有多个的情况下:针对该文本条目的每个匹配结果,在当前条搜索结果中的文本包含该文本条目之前的至少一个文本条目的条件下,计算该匹配结果与所述至少一个文本条目的字符串距离,将字符串距离最小的文本条目与所述该匹配结果进行关联,该匹配结果作为所述该文本条目在当前条搜索结果中的匹配结果;
第二关联子模块,用于针对所述多个文本条目中的每个文本条目,该文本条目在当前条搜索结果中的匹配结果有多个的情况下:在当前条搜索结果中的文本不包含该文本条目之前的任一文本条目的条件下,保留该匹配结果,该匹配结果作为所述该文本条目在当前条搜索结果中的匹配结果。
可选地,所述装置还包括:
有效数据集确定模块,用于对所述候选结果集按照预设规则进行筛选,得到有效数据集;
第一确定子模块,将所述待修正的文本识别结果与所述有效数据集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果;
所述有效数据集确定模块包括:
匹配完整度确定模块,用于确定所述候选结果集中各条拼接结果的匹配完整度;
第一有效数据集确定子模块,用于按照匹配完整度高优先的规则,将匹配完整度最高的拼接结果添加到所述有效数据集中;
第二有效数据集确定子模块,用于针对匹配完整度相同的多条拼接结果,将相对距离最小的拼接结果添加到所述有效数据集中,所述相对距离为所述拼接结果中各个文本条目在对应的搜索结果中的位置距离;
第三有效数据集确定子模块,用于针对匹配完整度和相对距离均相同的多个拼接结果,将与所述待修正的文本识别结果的字符特征最接近的拼接结果添加到所述有效数据集中。
可选地,所述确定模块包括:
编辑距离确定子模块,用于确定所述待修正的文本识别结果与所述有效数据集中的各条拼接结果之间的编辑距离;
第一编辑距离确定子模块,用于在所述编辑距离最小的拼接结果有一个的情况下,将该拼接结果确定为所述修正后的文本识别结果;
第二编辑距离确定子模块,用于在所述编辑距离最小的拼接结果有多个的情况下,将出现次数最多的拼接结果确定为所述修正后的文本识别结果;
第三编辑距离确定子模块,用于在所述出现次数最多的拼接结果有多个的情况下,将图像特征得分最高的拼接结果确定为所述修正后的文本识别结果。
基于同一发明构思,本申请另一实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种文本信息处理方法、装置、存储介质和电子设备,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种文本信息处理方法,其特征在于,所述方法包括:
对待修正的文本识别结果进行分词处理,得到多个文本条目;
将所述待修正的文本识别结果输入搜索引擎,得到至少一条搜索结果;
针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果;
按照所述多个文本条目在所述待修正的文本识别结果中的条目顺序,将所述多个文本条目中的每个文本条目对应的匹配结果进行拼接,以得到所述至少一条搜索结果中每条搜索结果的拼接结果,各条所述拼接结果的集合形成候选结果集;
将所述待修正的文本识别结果与所述候选结果集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得所述待修正的文本识别结果的置信度;
对所述待修正的文本识别结果进行分词处理,包括:
在所述置信度小于第一阈值的情况下,对所述待修正的文本识别结果进行分词处理。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得所述多个文本条目中每个文本条目的置信度;
将所述待修正的文本识别结果输入搜索引擎,包括:
在所述多个文本条目中每个文本条目的置信度均未超过各自对应的阈值的情况下,将所述待修正的文本识别结果输入搜索引擎。
4.根据权利要求1所述的方法,其特征在于,针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果,包括:
针对所述至少一条搜索结果中的每条搜索结果,提取该条搜索结果中的文本;
针对所述多个文本条目中的每个文本条目,分别确定该文本条目与该条搜索结果中的文本的编辑距离,并将编辑距离最小的文本确定为该文本条目在该条搜索结果中的匹配结果。
5.根据权利要求4所述的方法,其特征在于,针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果,包括:
针对所述多个文本条目中的每个文本条目:
在所述编辑距离小于第二阈值的情况下,将编辑距离最小的文本确定为该文本条目在该条搜索结果中的匹配结果;
在所述编辑距离不小于第二阈值的情况下,将该文本条目本身确定为该文本条目在该条搜索结果中的匹配结果。
6.根据权利要求4所述的方法,其特征在于,针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果,包括:
针对所述多个文本条目中的每个文本条目,该文本条目在当前条搜索结果中的匹配结果有多个的情况下:
针对该文本条目的每个匹配结果,在当前条搜索结果中的文本包含该文本条目之前的至少一个文本条目的条件下,计算该匹配结果与所述至少一个文本条目的字符串距离,将字符串距离最小的文本条目与所述该匹配结果进行关联,该匹配结果作为所述该文本条目在当前条搜索结果中的匹配结果;
在当前条搜索结果中的文本不包含该文本条目之前的任一文本条目的条件下,保留该匹配结果,该匹配结果作为所述该文本条目在当前条搜索结果中的匹配结果。
7.根据权利要求1所述的方法,其特征在于,在将所述待修正的文本识别结果与所述候选结果集中的各条拼接结果分别进行匹配之前,还包括:
对所述候选结果集按照预设规则进行筛选,得到有效数据集;
将所述待修正的文本识别结果与所述有效数据集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果;
对所述候选结果集按照预设规则进行筛选,得到有效数据集,包括:
确定所述候选结果集中各条拼接结果的匹配完整度;
按照匹配完整度高优先的规则,将匹配完整度最高的拼接结果添加到所述有效数据集中;
针对匹配完整度相同的多条拼接结果,将相对距离最小的拼接结果添加到所述有效数据集中,所述相对距离为所述拼接结果中各个文本条目在对应的搜索结果中的位置距离;
针对匹配完整度和相对距离均相同的多个拼接结果,将与所述待修正的文本识别结果的字符特征最接近的拼接结果添加到所述有效数据集中。
8.根据权利要求7所述的方法,其特征在于,将所述待修正的文本识别结果与所述有效数据集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果,包括:
确定所述待修正的文本识别结果与所述有效数据集中的各条拼接结果之间的编辑距离;
在所述编辑距离最小的拼接结果有一个的情况下,将该拼接结果确定为所述修正后的文本识别结果;
在所述编辑距离最小的拼接结果有多个的情况下,将出现次数最多的拼接结果确定为所述修正后的文本识别结果;
在所述出现次数最多的拼接结果有多个的情况下,将图像特征得分最高的拼接结果确定为所述修正后的文本识别结果。
9.一种文本信息处理装置,其特征在于,所述装置包括:
分词模块,用于对待修正的文本识别结果进行分词处理,得到多个文本条目;
搜索模块,用于将所述待修正的文本识别结果输入搜索引擎,得到至少一条搜索结果;
匹配模块,用于针对所述至少一条搜索结果中的每条搜索结果,将所述多个文本条目中的每个文本条目与该条搜索结果分别进行匹配,以得到该文本条目在所述该条搜索结果中的匹配结果;
拼接模块,用于按照所述多个文本条目在所述待修正的文本识别结果中的条目顺序,将所述多个文本条目中的每个文本条目对应的匹配结果进行拼接,以得到所述至少一条搜索结果中每条搜索结果的拼接结果,各条所述拼接结果的集合形成候选结果集;
确定模块,用于将所述待修正的文本识别结果与所述候选结果集中的各条拼接结果分别进行匹配,确定修正后的文本识别结果。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8任一所述的方法中的步骤。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行时实现如权利要求1-8任一所述的方法的步骤。
CN201910804709.XA 2019-08-28 2019-08-28 文本信息处理方法、装置、电子设备及可读存储介质 Active CN110674396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910804709.XA CN110674396B (zh) 2019-08-28 2019-08-28 文本信息处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910804709.XA CN110674396B (zh) 2019-08-28 2019-08-28 文本信息处理方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110674396A true CN110674396A (zh) 2020-01-10
CN110674396B CN110674396B (zh) 2021-04-27

Family

ID=69075632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910804709.XA Active CN110674396B (zh) 2019-08-28 2019-08-28 文本信息处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110674396B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582169A (zh) * 2020-05-08 2020-08-25 腾讯科技(深圳)有限公司 图像识别数据纠错方法、装置、计算机设备和存储介质
CN112052672A (zh) * 2020-08-28 2020-12-08 丰图科技(深圳)有限公司 基于地址文本的单元区域识别方法、装置和计算机设备
CN112232080A (zh) * 2020-10-20 2021-01-15 大唐融合通信股份有限公司 命名实体识别方法、装置及电子设备
CN112395874A (zh) * 2020-11-25 2021-02-23 商汤国际私人有限公司 订单信息的校正方法、装置、设备及存储介质
CN113269126A (zh) * 2021-06-10 2021-08-17 上海云扩信息科技有限公司 一种基于坐标转换的关键信息提取方法
CN113505593A (zh) * 2021-07-23 2021-10-15 北京中科凡语科技有限公司 相似语句检索方法、装置、电子设备及可读存储介质
CN113780267A (zh) * 2020-08-07 2021-12-10 北京京东尚科信息技术有限公司 文字识别的方法、装置、设备和计算机可读介质
CN114445842A (zh) * 2022-01-25 2022-05-06 杭州海量信息技术有限公司 一种用于医疗票据ocr的医保目录匹配方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1755671A (zh) * 2004-09-30 2006-04-05 北京大学 搜索引擎中的查询词自动纠错方法
CN101443787A (zh) * 2006-02-17 2009-05-27 徕美股份公司 用于ocr系统中的不确定识别单词的验证的方法和系统
CN104462085A (zh) * 2013-09-12 2015-03-25 腾讯科技(深圳)有限公司 检索关键词纠错方法及装置
CN107992484A (zh) * 2017-11-23 2018-05-04 网易有道信息技术(北京)有限公司 一种评测ocr系统的性能的方法、设备及存储介质
CN109711412A (zh) * 2018-12-27 2019-05-03 信雅达系统工程股份有限公司 一种基于字典的光学字符识别纠错方法
CN109710826A (zh) * 2018-11-29 2019-05-03 淮河水利委员会水文局(信息中心) 一种互联网信息人工智能采集方法及其系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1755671A (zh) * 2004-09-30 2006-04-05 北京大学 搜索引擎中的查询词自动纠错方法
CN101443787A (zh) * 2006-02-17 2009-05-27 徕美股份公司 用于ocr系统中的不确定识别单词的验证的方法和系统
CN104462085A (zh) * 2013-09-12 2015-03-25 腾讯科技(深圳)有限公司 检索关键词纠错方法及装置
CN107992484A (zh) * 2017-11-23 2018-05-04 网易有道信息技术(北京)有限公司 一种评测ocr系统的性能的方法、设备及存储介质
CN109710826A (zh) * 2018-11-29 2019-05-03 淮河水利委员会水文局(信息中心) 一种互联网信息人工智能采集方法及其系统
CN109711412A (zh) * 2018-12-27 2019-05-03 信雅达系统工程股份有限公司 一种基于字典的光学字符识别纠错方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582169A (zh) * 2020-05-08 2020-08-25 腾讯科技(深圳)有限公司 图像识别数据纠错方法、装置、计算机设备和存储介质
CN111582169B (zh) * 2020-05-08 2023-10-10 腾讯科技(深圳)有限公司 图像识别数据纠错方法、装置、计算机设备和存储介质
CN113780267A (zh) * 2020-08-07 2021-12-10 北京京东尚科信息技术有限公司 文字识别的方法、装置、设备和计算机可读介质
CN112052672A (zh) * 2020-08-28 2020-12-08 丰图科技(深圳)有限公司 基于地址文本的单元区域识别方法、装置和计算机设备
CN112052672B (zh) * 2020-08-28 2024-09-13 丰图科技(深圳)有限公司 基于地址文本的单元区域识别方法、装置和计算机设备
CN112232080A (zh) * 2020-10-20 2021-01-15 大唐融合通信股份有限公司 命名实体识别方法、装置及电子设备
CN112395874A (zh) * 2020-11-25 2021-02-23 商汤国际私人有限公司 订单信息的校正方法、装置、设备及存储介质
CN113269126A (zh) * 2021-06-10 2021-08-17 上海云扩信息科技有限公司 一种基于坐标转换的关键信息提取方法
CN113505593A (zh) * 2021-07-23 2021-10-15 北京中科凡语科技有限公司 相似语句检索方法、装置、电子设备及可读存储介质
CN113505593B (zh) * 2021-07-23 2024-03-29 北京中科凡语科技有限公司 相似语句检索方法、装置、电子设备及可读存储介质
CN114445842A (zh) * 2022-01-25 2022-05-06 杭州海量信息技术有限公司 一种用于医疗票据ocr的医保目录匹配方法
CN114445842B (zh) * 2022-01-25 2022-09-20 杭州海量信息技术有限公司 一种用于医疗票据ocr的医保目录匹配方法

Also Published As

Publication number Publication date
CN110674396B (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN110674396B (zh) 文本信息处理方法、装置、电子设备及可读存储介质
CN113139387B (zh) 语义纠错方法、电子设备及存储介质
KR102048638B1 (ko) 콘텐츠 인식 방법 및 시스템
CN110276071B (zh) 一种文本匹配方法、装置、计算机设备及存储介质
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
CN106708799B (zh) 一种文本纠错方法、装置及终端
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
CN109597983B (zh) 一种拼写纠错方法及装置
CN111274785A (zh) 一种文本纠错方法、装置、设备及介质
CN110110325B (zh) 一种重复案件查找方法和装置、计算机可读存储介质
CN112214984A (zh) 内容抄袭识别方法、装置、设备及存储介质
JP2018194919A (ja) 学習プログラム、学習方法及び学習装置
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
CN112579466A (zh) 测试用例的生成方法、装置及计算机可读存储介质
CN114330319A (zh) 实体处理方法、装置、电子设备及存储介质
CN112287071A (zh) 一种文本关系提取方法、装置及电子设备
CN115858773A (zh) 适用于长文档的关键词挖掘方法、装置及介质
CN114065762A (zh) 一种文本信息的处理方法、装置、介质及设备
CN113128224B (zh) 一种中文纠错方法、装置、设备以及可读存储介质
CN117636368A (zh) 批改方法、装置、设备及介质
CN113761137A (zh) 一种提取地址信息的方法及装置
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN116028626A (zh) 文本匹配方法、装置、存储介质以及电子设备
CN111310442B (zh) 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
CN114281942A (zh) 问答处理方法、相关设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant