CN109614621B - 一种校正文本的方法、装置及设备 - Google Patents
一种校正文本的方法、装置及设备 Download PDFInfo
- Publication number
- CN109614621B CN109614621B CN201811509815.7A CN201811509815A CN109614621B CN 109614621 B CN109614621 B CN 109614621B CN 201811509815 A CN201811509815 A CN 201811509815A CN 109614621 B CN109614621 B CN 109614621B
- Authority
- CN
- China
- Prior art keywords
- unit
- processed
- error correction
- text
- correction unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种校正文本的方法、装置及设备,包括:根据获取到的目标文本,确定至少一个纠错单元;对至少一个纠错单元进行关键词搜索,确定待处理单元;利用循环迭代对待处理单元进行处理,确定备选单元,至少一个备选单元为与每个待处理单元的匹配度符合第二预设条件的词组;将至少一个备选单元标注在对应的待处理单元上,以便于根据备选单元对目标文本进行校正。本申请中,能够将文本分解成最小的纠错单元,然后分别和预设词汇库、网络数据库进行比较,对疑似错别字进行校正,实现了业务支撑系统中各种文本的自动核稿和纠错,在提高校正文本正确率和效率的同时,达到节省校正文本的时间以及降低人力成本的目的。
Description
技术领域
本发明属于文字处理技术领域,尤其涉及一种校正文本的方法、装置、设备和计算机存储介质。
背景技术
随着通信技术的迅速发展,用户端的数量不断增加,新业务也层出不穷,业务支撑系统变得越来越重要,而在业务支撑系统中,基于短信、互联网等多种媒体形式的使用文字进行表达的文本数量呈现爆炸式的增长,广泛应用在业务宣传、反馈、用户申告、投诉处理、互联网舆情分析、或者上网行为大数据分析等各个层面。由于文字的撰写者越来越多元化,写作水平也参差不齐,导致不少文本中出现了大量错别字。现有的文本核稿方法还是主要以人工核稿和互联网检索为主,首先通过人工进行初步筛选,对于特别有疑问的词组,再通过互联网进行搜索核实。但是,该种方法中人工核稿需要耗费大量的时间和精力,而且文章核稿质量完全依赖于核稿人员的个人能力水平,容易出现遗漏。
因此,需要提供一种更加合理的校正文本的方案,在提高校正文本的正确率和效率的同时,提高用户体验感。
发明内容
本申请实施例提供一种校正文本的方法、装置、设备和计算机存储介质,能够识别疑似包含错别字的纠错单元并对其进行校正,在提高校正文本正确率和效率的同时,达到节省校正文本的时间以及降低人力成本的目的。
第一方面,本申请实施例提供了一种校正文本的方法,该方法可以包括:
根据获取到的目标文本,确定至少一个纠错单元,纠错单元为在预设词汇库中没有匹配到的词组;
对至少一个纠错单元进行关键词搜索,确定待处理单元,待处理单元为在网络数据库中搜索结果符合第一预设条件的纠错单元;
利用循环迭代对待处理单元进行处理,确定备选单元,每个待处理单元对应至少一个备选单元,至少一个备选单元为与每个待处理单元的匹配度符合第二预设条件的词组;
将至少一个备选单元标注在对应的待处理单元上,以便于根据备选单元对目标文本进行校正。
本申请中,能够将文本分解成最小的纠错单元,然后分别和预设词汇库、网络数据库进行比较,对疑似错别字进行校正,实现了业务支撑系统中各种文本的自动核稿和纠错,在提高校正文本正确率和效率的同时,达到节省校正文本的时间以及降低人力成本的目的。
在一种可能的实施方式中,在上述“根据获取到的目标文本,确定至少一个纠错单元”的步骤中,具体可以包括:
根据获取到的目标文本分成多个段落,多个段落中包括至少一个语句;利用预设语句分隔库将每个语句分成至少一个词组;将至少一个词组分别与预设词汇库中的词组进行匹配,确定至少一个纠错单元,纠错单元为在预设词汇库中没有匹配到的词组。
在另一种可能的实施方式中,在上述“根据获取到的目标文本分成多个段落”的步骤中,具体可以包括:
利用分隔符将获取到的目标文本分成多个段落,分隔符包括:至少一种标点符号。
在又一种可能的实施方式中,在上述“利用预设语句分隔库将至少一个语句中的每个语句分成至少一个词组”的步骤中,具体可以包括:利用预设语句分隔库中的语句特征,将至少一个语句中的每个语句分成至少一个词组。
在再一种可能的实施方式中,上述“语句特征”可以具体包括:主语、语气动词、谓语或者宾语中的至少一种。
在再一种可能的实施方式中,在上述“将至少一个词组与预设词汇库中的词组进行匹配,确定至少一个纠错单元”的步骤中,具体可以包括:
通过循环迭代的方式将至少一个词组与预设词汇库中的词组进行匹配,确定至少一个纠错单元。
在再一种可能的实施方式中,在上述“对至少一个纠错单元进行关键词搜索,确定待处理单元”的步骤中,具体可以包括:
通过循环迭代的方式利用互联网搜索引擎,对至少一个纠错单元进行关键词搜索;确定搜索结果符合第一预设条件的纠错单元为待处理单元。
在再一种可能的实施方式中,在上述“利用循环迭代对待处理单元进行处理,确定备选单元”的步骤中,具体可以包括:
将待处理单元转化为待处理拼音信息;通过循环迭代的方式利用互联网搜索引擎,确定待处理拼音信息的匹配度符合第二预设条件;确定符合第二预设条件的待处理拼音信息,对应的待处理单元为备选单元。
在再一种可能的实施方式中,在上述“根据获取到的目标文本,确定至少一个纠错单元”的步骤之前,还可以包括:
建立文本数据库,文本数据库用于存储已校正的目标文本。
在再一种可能的实施方式中,在上述“将至少一个备选单元标注在对应的待处理单元上”的步骤之后,还可以包括:
根据至少一个备选单元对带处理单元进行校正,确定已校正的目标文本;将已校正的目标文本存入文本数据库中。
第二方面,本申请实施例提供了一种校正文本的装置,该装置可以包括:
分组模块,用于根据获取到的目标文本,确定至少一个纠错单元,纠错单元为在预设词汇库中没有匹配到的词组;
搜索模块,用于对至少一个纠错单元进行关键词搜索,确定待处理单元,待处理单元为在网络数据库中搜索结果符合第一预设条件的纠错单元;
处理模块,用于利用循环迭代对待处理单元进行处理,确定备选单元,每个待处理单元对应至少一个备选单元,至少一个备选单元为与每个待处理单元的匹配度符合第二预设条件的词组;
校正模块,用于将至少一个备选单元标注在对应的待处理单元上,以便于根据备选单元对目标文本进行校正。
本申请中,能够将文本分解成最小的纠错单元,然后分别和预设词汇库、网络数据库进行比较,对疑似错别字进行校正,实现了业务支撑系统中各种文本的自动核稿和纠错,在提高校正文本正确率和效率的同时,达到节省校正文本的时间以及降低人力成本的目的。
在一种可能的实施方式中,上述“分组模块”具体可以用于,根据获取到的目标文本分成多个段落,多个段落中包括至少一个语句;利用预设语句分隔库将每个语句分成至少一个词组;将至少一个词组分别与预设词汇库中的词组进行匹配,确定至少一个纠错单元,纠错单元为在预设词汇库中没有匹配到的词组。
在另一种可能的实施方式中,上述“分组模块”具体可以用于,利用分隔符将获取到的目标文本分成多个段落,分隔符包括:至少一种标点符号。
在又一种可能的实施方式中,上述“分组模块”具体可以用于,利用预设语句分隔库中的语句特征,将至少一个语句中的每个语句分成至少一个词组。
在再一种可能的实施方式中,上述“语句特征”可以具体包括:主语、语气动词、谓语或者宾语中的至少一种。
在再一种可能的实施方式中,上述“分组模块”具体可以用于,通过循环迭代的方式将至少一个词组与预设词汇库中的词组进行匹配,确定至少一个纠错单元。
在再一种可能的实施方式中,上述“搜索模块”具体可以用于,通过循环迭代的方式利用互联网搜索引擎,对至少一个纠错单元进行关键词搜索;确定搜索结果符合第一预设条件的纠错单元为待处理单元。
在再一种可能的实施方式中,上述“处理模块”具体可以用于,将待处理单元转化为待处理拼音信息;通过循环迭代的方式利用互联网搜索引擎,确定待处理拼音信息的匹配度符合第二预设条件;确定符合第二预设条件的待处理拼音信息,对应的待处理单元为备选单元。
在再一种可能的实施方式中,上述“处理模块”还可以用于,建立文本数据库,文本数据库用于存储已校正的目标文本。
在再一种可能的实施方式中,该装置还可以包括:输出模块;
上述“校正模块”具体可以用于,根据至少一个备选单元对带处理单元进行校正,确定已校正的目标文本;上述“输出模块”,用于将已校正的目标文本存入文本数据库中。
第三方面,本申请实施例提供了一种校正文本的设备,该设备包括处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如第一方面任意一项的校正文本的方法。
本申请中,能够将文本分解成最小的纠错单元,然后分别和预设词汇库、网络数据库进行比较,对疑似错别字进行校正,实现了业务支撑系统中各种文本的自动核稿和纠错,在提高校正文本正确率和效率的同时,达到节省校正文本的时间以及降低人力成本的目的。
第四方面,本申请实施例提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如第一方面任意一项的方法。
第五方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如第一方面任意一项的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的一种校正文本的方法的流程图;
图2是本申请一个实施例提供的一种校正文本的第一界面示意图;
图3是本申请一个实施例提供的一种校正文本的第二界面示意图;
图4是本申请一个实施例提供的一种校正文本的第三界面示意图;
图5是本申请一个实施例提供的一种校正文本的装置的结构示意图;
图6是本申请一个实施例提供的一种校正文本的设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本申请,并不被配置为限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
首先,为了方便理解本申请中涉及的内容,介绍一下在本申请中出现的“校正”一词,在分申请中改词指代两个动作,第一个是检测文本中是否出现应该校正的内容,第二个是根据检测出的结果,进行校正处理。具体方法将结合图1对本申请提供的校正文本的方法进行详细说明。
图1是本申请一个实施例提供的一种校正文本的方法的流程图。
如图1所示,该方法具体可以包括S110-S140,详细步骤如下所示:
S110:根据获取到的目标文本,确定至少一个纠错单元。其中,纠错单元为在预设词汇库中没有匹配到的词组。
具体地,获取目标文本可以通过接收人工输入的指令确定;或者,通过接收扫描文档确定。
在一种可能的实施例中,该步骤之前还可以包括:建立文本数据库,该文本数据库用于存储已校正的目标文本。
在该种可能的实施例的情况下,或者,在另一种可能的实施例中,S110中还可以具体划分为3个小步骤,具体如下所示:
S10:根据获取到的目标文本分成多个段落,多个段落中包括至少一个语句。
具体地,利用分隔符将获取到的目标文本分成多个段落(P1、P2、P3……Pn),分隔符包括:至少一种标点符号。例如:如图2所示,利用句号(一种分隔符的表现形式)将获取到的目标文本分成4的段落。
S11:利用预设语句分隔库V将每个语句分成至少一个词组。
具体地,利用预设语句分隔库V中的语句特征,将至少一个语句中的每个语句分成至少一个词组(W1、W2、W3……Wn)。其中,语句特征可以包括:主语、语气动词、谓语或者宾语中的至少一种。
例如:如图3所示,利用属于主语、谓语和宾语的语句特征,将第一段中的第一个语句分成三个词组,其中,主语为“我”,谓语“打随了”,宾语“玻璃”。
需要说明的是,上述一个方式中,是将段落分成语句,在将语句分为多个词组,但是该方法还可以包括另外一种方式,是将段落直接分成多个词组。两种方法,本申请都可以实现。
S12:将至少一个词组分别与预设词汇库中的词组进行匹配,确定至少一个纠错单元Q[Q1、Q2、Q3……Qn],纠错单元为在预设词汇库中没有匹配到的词组。
具体地,通过循环迭代的方式将至少一个词组与预设词汇库中的词组进行匹配,确定至少一个纠错单元。其中,预设词汇库可以是汉语大词典中的词组录入的,或者也可以是新华大字典中的词组录入,或者是两者都包含的。其中,循环迭代可以理解为,是重复循环的进行匹配。
例如:通过将Q[我Q1、打随了Q2、玻璃Q3……Qn]在预设词汇库中进行匹配,确定“打随了”在预设词汇库中没有匹配到,所以将“打随了”确定为一个纠错单元。
S120:对至少一个纠错单元进行关键词搜索,确定待处理单元,待处理单元为在网络数据库中搜索结果符合第一预设条件的纠错单元。
具体的,通过循环迭代的方式利用互联网搜索引擎,对至少一个纠错单元进行关键词搜索;确定搜索结果符合第一预设条件的纠错单元为待处理单元。
例如:通过循环迭代的方式,将词组“打随了”作为关键词在互联网搜索引擎中进行搜索,找出完全匹配搜索的结果数量小于设定的阈值的词组(即待处理单元)的集合S[打随了S1、打碎了S2、……Sp]。
需要说明的是,上述涉及到的互联网搜索引擎一般指多个互联网搜索引擎的集合。
S130:利用循环迭代对待处理单元进行处理,确定备选单元,每个待处理单元对应至少一个备选单元,至少一个备选单元为与每个待处理单元的匹配度符合第二预设条件的词组。
具体地,在一种可能的实施例中,该步骤可以具体分为两个小步骤:
S30:将待处理单元转化为待处理拼音信息;
S31:通过循环迭代的方式利用互联网搜索引擎,确定待处理拼音信息的匹配度符合第二预设条件;确定符合第二预设条件的待处理拼音信息,对应的待处理单元为备选单元。
例如:将打随了S1、打碎了S2转化为拼音录入互联网搜索引擎中进行搜索,找出出现次数最多的词组(即备选单元)集合R[打碎了R1]。需要说明的是,该步骤仅以一个词组为例,若在一种可能的情况下,出现较多词组的可能性,则该词组集合R可以为R[R1、R2、R3……Rp]。
S140:将至少一个备选单元标注在对应的待处理单元上。
具体地,根据至少一个备选单元对带处理单元进行校正,确定已校正的目标文本。
例如:如图4所示,输出目标文本,对词组集合S[打随了S1、S2、S3……Sp]中的元素进行标红,并再后面对应标注词组集合R[打碎了R1、R2、R3……Rp]。
在一种可能的实施方式中,在上述S110-S140之后,还可以包括:
将已校正的目标文本存入文本数据库中。
本申请能够通过分段和分词组,或者分段、分句和分词组的两种方式将文本分解成最小的纠错单元,然后通过循环迭代分别和预设词汇库、搜索互联网引擎进行比较,对疑似错别字通过拼音方式进行纠错,实现了业务支撑系统中各种文本的自动核稿和纠错,在提高校正文本正确率和效率的同时,达到节省校正文本的时间以及降低人力成本的目的。
图5是本申请一个实施例提供的一种校正文本的装置的结构示意图。
如图5所示,该装置50可以包括:
分组模块501,用于根据获取到的目标文本,确定至少一个纠错单元,纠错单元为在预设词汇库中没有匹配到的词组;
搜索模块502,用于对至少一个纠错单元进行关键词搜索,确定待处理单元,待处理单元为在网络数据库中搜索结果符合第一预设条件的纠错单元;
处理模块503,用于利用循环迭代对待处理单元进行处理,确定备选单元,每个待处理单元对应至少一个备选单元,至少一个备选单元为与每个待处理单元的匹配度符合第二预设条件的词组;
校正模块504,用于将至少一个备选单元标注在对应的待处理单元上,以便于根据备选单元对目标文本进行校正。
具体地,分组模块501具体可以用于,根据获取到的目标文本分成多个段落,多个段落中包括至少一个语句;利用预设语句分隔库将每个语句分成至少一个词组;将至少一个词组分别与预设词汇库中的词组进行匹配,确定至少一个纠错单元,纠错单元为在预设词汇库中没有匹配到的词组。
分组模块501具体可以用于,利用分隔符将获取到的目标文本分成多个段落,分隔符包括:至少一种标点符号。利用预设语句分隔库中的语句特征,将至少一个语句中的每个语句分成至少一个词组。
其中,语句特征可以具体包括:主语、语气动词、谓语或者宾语中的至少一种。
分组模块501具体可以用于,通过循环迭代的方式将至少一个词组与预设词汇库中的词组进行匹配,确定至少一个纠错单元。
搜索模块502具体可以用于,通过循环迭代的方式利用互联网搜索引擎,对至少一个纠错单元进行关键词搜索;确定搜索结果符合第一预设条件的纠错单元为待处理单元。
处理模块503具体可以用于,将待处理单元转化为待处理拼音信息;通过循环迭代的方式利用互联网搜索引擎,确定待处理拼音信息的匹配度符合第二预设条件;确定符合第二预设条件的待处理拼音信息,对应的待处理单元为备选单元。
处理模块503还可以用于,建立文本数据库,文本数据库用于存储已校正的目标文本。
该装置50还可以包括:输出模块505;
校正模块504具体可以用于,根据至少一个备选单元对带处理单元进行校正,确定已校正的目标文本;上述输出模块505,用于将已校正的目标文本存入文本数据库中。
图6是本申请一个实施例提供的一种校正文本的设备的结构示意图。
如图6所示,该消息处理的设备可以包括处理器601以及存储有计算机程序指令的存储器602。
具体地,上述处理器601可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在综合网关设备的内部或外部。在特定实施例中,存储器602是非易失性固态存储器。在特定实施例中,存储器602包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现上述实施例中的任意一种消息处理的方法。
收发器603,主要用于实现本发明实施例中各模块、装置、单元、用户端或者服务器中的至少两个之间的通信。
在一个示例中,该设备还可包括总线604。其中,如图6所示,处理器601、存储器602和收发器603通过总线604连接并完成相互间的通信。
总线604包括硬件、软件或两者,将在业务开通和编排设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线604可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的校正文本的方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种校正文本的方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (12)
1.一种校正文本的方法,其特征在于,包括:
根据获取到的目标文本,确定至少一个纠错单元,所述纠错单元为在预设词汇库中没有匹配到的词组;
对至少一个所述纠错单元进行关键词搜索,确定待处理单元,所述待处理单元为在网络数据库中搜索结果符合第一预设条件的词组;
将所述待处理单元转化为待处理拼音信息,通过循环迭代的方式利用互联网搜索引擎,确定所述待处理拼音信息的出现次数,确定出现次数大于预设阈值的所述待处理拼音信息,对应的所述待处理单元为备选单元,每个所述待处理单元对应至少一个所述备选单元;
将至少一个所述备选单元标注在对应的所述纠错单元上,以便于根据所述备选单元对所述目标文本进行校正。
2.根据权利要求1所述的方法,其特征在于,所述根据获取到的目标文本,确定至少一个纠错单元,包括:
根据获取到的目标文本分成多个段落,所述多个段落中包括至少一个语句;
利用预设语句分隔库将每个所述语句分成至少一个词组;
将至少一个所述词组分别与所述预设词汇库中的词组进行匹配,确定至少一个纠错单元,所述纠错单元为在所述预设词汇库中没有匹配到的词组。
3.根据权利要求2所述的方法,其特征在于,所述根据获取到的目标文本分成多个段落,包括:
利用分隔符将获取到的目标文本分成多个段落,所述分隔符包括:至少一种标点符号。
4.根据权利要求2或3所述的方法,其特征在于,所述利用预设语句分隔库将所述至少一个语句中的每个语句分成至少一个词组,包括:
利用所述预设语句分隔库中的语句特征,将所述至少一个语句中的每个语句分成至少一个词组。
5.根据权利要求4所述的方法,其特征在于,所述语句特征包括:主语、语气动词、谓语或者宾语中的至少一种。
6.根据权利要求2所述的方法,其特征在于,所述将至少一个所述词组与所述预设词汇库中的词组进行匹配,确定至少一个纠错单元,包括:
通过循环迭代的方式将至少一个所述词组与所述预设词汇库中的词组进行匹配,确定至少一个纠错单元。
7.根据权利要求1所述的方法,其特征在于,所述对至少一个所述纠错单元进行关键词搜索,确定待处理单元,包括:
通过循环迭代的方式利用互联网搜索引擎,对至少一个所述纠错单元进行关键词搜索;
确定搜索结果符合所述第一预设条件的词组为所述待处理单元。
8.根据权利要求1所述的方法,其特征在于,在所述根据获取到的目标文本,确定至少一个纠错单元的步骤之前,还包括:
建立文本数据库,所述文本数据库用于存储已校正的目标文本。
9.根据权利要求8所述的方法,其特征在于,在所述将至少一个所述备选单元标注在对应的所述纠错单元上的步骤之后,还包括:
根据至少一个所述备选单元对所述待处理单元进行校正,确定已校正的目标文本;
将所述已校正的目标文本存入所述文本数据库中。
10.一种校正文本的装置,其特征在于,包括:
分组模块,用于根据获取到的目标文本,确定至少一个纠错单元,所述纠错单元为在预设词汇库中没有匹配到的词组;
搜索模块,用于对至少一个所述纠错单元进行关键词搜索,确定待处理单元,所述待处理单元为在网络数据库中搜索结果符合第一预设条件的词组;
处理模块,用于将所述待处理单元转化为待处理拼音信息,通过循环迭代的方式利用互联网搜索引擎,确定所述待处理拼音信息的出现次数,确定出现次数大于预设阈值的所述待处理拼音信息,对应的所述待处理单元为备选单元,每个所述待处理单元对应至少一个所述备选单元;
校正模块,用于将至少一个所述备选单元标注在对应的所述纠错单元上,以便于根据所述备选单元对所述目标文本进行校正。
11.一种校正文本的设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-9任意一项所述的校正文本的方法。
12.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-9任意一项所述的校正文本的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811509815.7A CN109614621B (zh) | 2018-12-11 | 2018-12-11 | 一种校正文本的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811509815.7A CN109614621B (zh) | 2018-12-11 | 2018-12-11 | 一种校正文本的方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109614621A CN109614621A (zh) | 2019-04-12 |
CN109614621B true CN109614621B (zh) | 2023-09-19 |
Family
ID=66006939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811509815.7A Active CN109614621B (zh) | 2018-12-11 | 2018-12-11 | 一种校正文本的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109614621B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674633A (zh) * | 2019-09-18 | 2020-01-10 | 平安科技(深圳)有限公司 | 文书评审的校对方法及装置、存储介质、电子设备 |
CN113591456A (zh) * | 2021-07-23 | 2021-11-02 | 北京小米移动软件有限公司 | 文本纠错方法及装置、电子设备及存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101568918A (zh) * | 2006-12-05 | 2009-10-28 | 微软公司 | 基于web的搭配错误证明 |
CN101989282A (zh) * | 2009-07-31 | 2011-03-23 | 中国移动通信集团公司 | 对中文查询词进行纠错的方法及其装置 |
CN102789504A (zh) * | 2012-07-19 | 2012-11-21 | 姜赢 | 一种基于xml规则的中文语法校正方法与系统 |
CN103514236A (zh) * | 2012-06-30 | 2014-01-15 | 重庆新媒农信科技有限公司 | 检索应用中基于拼音的检索条件纠错提示处理方法 |
CN103678674A (zh) * | 2013-12-25 | 2014-03-26 | 乐视网信息技术(北京)股份有限公司 | 通过拼音进行纠错搜索的方法、装置及系统 |
CN105550173A (zh) * | 2016-02-06 | 2016-05-04 | 北京京东尚科信息技术有限公司 | 文本校正方法和装置 |
CN105956053A (zh) * | 2016-04-27 | 2016-09-21 | 海信集团有限公司 | 一种基于网络信息的搜索方法及装置 |
CN106202153A (zh) * | 2016-06-21 | 2016-12-07 | 广州智索信息科技有限公司 | 一种es搜索引擎的拼写纠错方法及系统 |
CN107291730A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 对查询词提供校正建议的方法、装置、及概率词典构建方法 |
CN107679032A (zh) * | 2017-09-04 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 语音转换纠错方法和装置 |
CN108021554A (zh) * | 2017-11-14 | 2018-05-11 | 无锡小天鹅股份有限公司 | 语音识别方法、装置以及洗衣机 |
CN108037837A (zh) * | 2017-11-07 | 2018-05-15 | 朗坤智慧科技股份有限公司 | 一种搜索词的智能提示方法 |
CN108304385A (zh) * | 2018-02-09 | 2018-07-20 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN108804414A (zh) * | 2018-05-04 | 2018-11-13 | 科沃斯商用机器人有限公司 | 文本修正方法、装置、智能设备及可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009016631A2 (en) * | 2007-08-01 | 2009-02-05 | Ginger Software, Inc. | Automatic context sensitive language correction and enhancement using an internet corpus |
US10579729B2 (en) * | 2016-10-18 | 2020-03-03 | International Business Machines Corporation | Methods and system for fast, adaptive correction of misspells |
-
2018
- 2018-12-11 CN CN201811509815.7A patent/CN109614621B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101568918A (zh) * | 2006-12-05 | 2009-10-28 | 微软公司 | 基于web的搭配错误证明 |
CN101989282A (zh) * | 2009-07-31 | 2011-03-23 | 中国移动通信集团公司 | 对中文查询词进行纠错的方法及其装置 |
CN103514236A (zh) * | 2012-06-30 | 2014-01-15 | 重庆新媒农信科技有限公司 | 检索应用中基于拼音的检索条件纠错提示处理方法 |
CN102789504A (zh) * | 2012-07-19 | 2012-11-21 | 姜赢 | 一种基于xml规则的中文语法校正方法与系统 |
CN103678674A (zh) * | 2013-12-25 | 2014-03-26 | 乐视网信息技术(北京)股份有限公司 | 通过拼音进行纠错搜索的方法、装置及系统 |
CN105550173A (zh) * | 2016-02-06 | 2016-05-04 | 北京京东尚科信息技术有限公司 | 文本校正方法和装置 |
CN107291730A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 对查询词提供校正建议的方法、装置、及概率词典构建方法 |
CN105956053A (zh) * | 2016-04-27 | 2016-09-21 | 海信集团有限公司 | 一种基于网络信息的搜索方法及装置 |
CN106202153A (zh) * | 2016-06-21 | 2016-12-07 | 广州智索信息科技有限公司 | 一种es搜索引擎的拼写纠错方法及系统 |
CN107679032A (zh) * | 2017-09-04 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 语音转换纠错方法和装置 |
CN108037837A (zh) * | 2017-11-07 | 2018-05-15 | 朗坤智慧科技股份有限公司 | 一种搜索词的智能提示方法 |
CN108021554A (zh) * | 2017-11-14 | 2018-05-11 | 无锡小天鹅股份有限公司 | 语音识别方法、装置以及洗衣机 |
CN108304385A (zh) * | 2018-02-09 | 2018-07-20 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN108804414A (zh) * | 2018-05-04 | 2018-11-13 | 科沃斯商用机器人有限公司 | 文本修正方法、装置、智能设备及可读存储介质 |
Non-Patent Citations (5)
Title |
---|
A Large Scale Ranker-Based System for Search Query Spelling Correction;Jianfeng Gao等;《Proceedings of the 23rd International Conference on Computational Linguistics》;20100831;358-366 * |
Spelling correction as an iterative process that exploits the collective knowledge of web users;Silviu Cucerzan 等;《Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing》;20040731;293-300 * |
基于N-gram统计模型的搜索引擎中文纠错;陈智鹏等;《中国电子科学研究院学报》;20090620;第04卷(第03期);323-326 * |
基于统计和特征相结合的查询纠错方法研究;段建勇 等;《现代图书情报技术》;20160225(第2期);34-42 * |
搜索引擎查询纠错的关键技术研究;窦光辉;《中国优秀硕士学位论文全文数据库信息科技辑》;20140915(第09期);I138-1339 * |
Also Published As
Publication number | Publication date |
---|---|
CN109614621A (zh) | 2019-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN112541095B (zh) | 视频标题生成方法、装置、电子设备及存储介质 | |
CN111708909B (zh) | 视频标签的添加方法及装置、电子设备、计算机可读存储介质 | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
CN109614621B (zh) | 一种校正文本的方法、装置及设备 | |
CN110069769A (zh) | 应用标签生成方法、装置及存储设备 | |
CN107798004B (zh) | 关键词查找方法、装置及终端 | |
CN113934848B (zh) | 一种数据分类方法、装置和电子设备 | |
CN111930949B (zh) | 搜索串处理方法、装置、计算机可读介质及电子设备 | |
CN106407332B (zh) | 基于人工智能的搜索方法和装置 | |
CN104615681B (zh) | 文本选取方法及装置 | |
CN110705258A (zh) | 文本实体识别方法及装置 | |
CN108021918B (zh) | 文字识别方法及装置 | |
CN103092838A (zh) | 一种获取英文词的方法及装置 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN111625619A (zh) | 查询省略方法、装置、计算机可读介质及电子设备 | |
CN116029290A (zh) | 文本匹配方法、装置、设备、介质及产品 | |
CN115150354A (zh) | 一种生成域名的方法、装置、存储介质及电子设备 | |
CN115455416A (zh) | 一种恶意代码检测方法、装置、电子设备及存储介质 | |
CN109344254B (zh) | 一种地址信息分类方法及装置 | |
CN113868379A (zh) | 面向开放域问答的段落选择方法、装置、设备及存储介质 | |
CN114186552B (zh) | 文本分析方法、装置、设备及计算机存储介质 | |
CN114661917B (zh) | 文本扩增方法、系统、计算机设备及可读存储介质 | |
CN114139541B (zh) | 命名实体识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |