Nothing Special   »   [go: up one dir, main page]

CN108052499B - 基于人工智能的文本纠错方法、装置及计算机可读介质 - Google Patents

基于人工智能的文本纠错方法、装置及计算机可读介质 Download PDF

Info

Publication number
CN108052499B
CN108052499B CN201711159880.7A CN201711159880A CN108052499B CN 108052499 B CN108052499 B CN 108052499B CN 201711159880 A CN201711159880 A CN 201711159880A CN 108052499 B CN108052499 B CN 108052499B
Authority
CN
China
Prior art keywords
segment
original
target
frequency
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711159880.7A
Other languages
English (en)
Other versions
CN108052499A (zh
Inventor
肖求根
詹金波
郑利群
邓卓彬
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711159880.7A priority Critical patent/CN108052499B/zh
Publication of CN108052499A publication Critical patent/CN108052499A/zh
Application granted granted Critical
Publication of CN108052499B publication Critical patent/CN108052499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于人工智能的文本纠错方法、装置及计算机可读介质。其方法包括:获取纠错文本中已纠错的目标片段和目标片段在原文本中对应的原始片段;目标片段为基于预先训练的片段打分模型对原文本进行纠错处理时,从原始片段的多个候选片段中选出的;获取用户对基于纠错文本而反馈的目标结果的反馈信息;根据目标片段、原始片段以及反馈信息,对片段打分模型进行增量训练;基于训练后的片段打分模型,对后续的原文本进行纠错处理。本发明的技术方案,使用训练后的片段打分模型进行文本纠错时,可以有效地提高文本的纠错准确率。

Description

基于人工智能的文本纠错方法、装置及计算机可读介质
【技术领域】
本发明涉及计算机应用技术领域,尤其涉及一种基于人工智能的文本纠错方法、装置及计算机可读介质。
【背景技术】
人工智能(Artificial Intelligence;AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
随着科技的发展,各种场景下的人机交互的模式越来越多,能够极大地提高用户的体验度。例如,在搜索场景中,用户通过输入搜索query,搜索服务器可以根据用户输入的搜索query的文本,获取相应的搜索结果并反馈给用户。或者在其他的由智能设备提供在线咨询服务或者导购服务的场景中,智能设备也可以接收用户输入的文本,并基于用户输入的文本做出一定的反馈。在上述所有的场景中,用户输入的文本可能都会存在一定的错误,获取到用户输入的文本之后,均需要对文本进行纠错,以更加准确地了解用户的需求。为了有效地对文本进行纠错,目前现有技术中通过预先训练非常智能的网络模型,并基于训练的网络模型实现对文本的纠错。
但是现有技术中,网络模型训练好之后,便固定不变,使用一段时间之后,可能无法准确地对文本进行纠错,从而导致文本纠错的准确性较差。
【发明内容】
本发明提供了一种基于人工智能的文本纠错方法、装置及计算机可读介质,用于提高文本纠错的准确性。
本发明提供一种基于人工智能的文本纠错方法,所述方法包括:
获取纠错文本中已纠错的目标片段和所述目标片段在原文本中对应的原始片段;所述目标片段为基于预先训练的片段打分模型对所述原文本进行纠错处理时,从所述原始片段的多个候选片段中选出的;
获取用户对基于所述纠错文本而反馈的目标结果的反馈信息;
根据所述目标片段、所述原始片段以及所述反馈信息,对所述片段打分模型进行增量训练;
基于训练后的所述片段打分模型,对后续的原文本进行纠错处理。
进一步可选地,如上所述的方法中,根据所述目标片段、所述原始片段以及所述反馈信息,对所述片段打分模型进行增量训练,具体包括:
获取所述目标片段和所述原始片段之间的相对特征信息;
根据所述反馈信息确定所述目标片段的理想打分;
根据所述相对特征信息和所述目标片段的理想打分,对所述片段打分模型进行训练。
进一步可选地,如上所述的方法中,获取所述目标片段和所述原始片段之间的相对特征信息,包括如下至少一种:
获取所述目标片段和所述原始片段之间的相对质量特征;
获取所述目标片段和所述原始片段之间的相对历史行为特征;和
获取所述目标片段和所述原始片段之间的语义相似度特征。
进一步可选地,如上所述的方法中,获取所述目标片段和所述原始片段之间的相对质量特征,具体包括:
获取所述原始片段在语料库中出现的频次、所述原始片段与在所述原文本中的上下文片段的组合在所述语料库中一起出现的频次;
获取所述目标片段在所述语料库中出现的频次、所述目标片段与所述上下文片段的组合在所述语料库中一起出现的频次;
根据所述原始片段在所述语料库中出现的频次、所述原始片段与所述上下文片段的组合在所述语料库中一起出现的频次、所述目标片段在所述语料库中出现的频次以及所述目标片段与所述上下文片段的组合在所述语料库中出现的频次,获取所述目标片段与所述原始片段在所述语料库中出现的频次比以及所述目标片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次比,和/或所述目标片段与所述原始片段在所述语料库中出现的频次差以及所述目标片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次差。
进一步可选地,如上所述的方法中,获取所述目标片段和所述原始片段之间的相对历史行为特征,具体包括:
获取PT表中所述原始片段修改为所述目标片段的第一修改频次;
获取PT表中所述原始片段与所述上下文片段的组合修改为所述目标片段与所述上下文片段的组合的第二修改频次;
根据所述第一修改频次和所述第二修改频次,得到频次比和/或频次差,所述频次比等于所述第二修改频次除以所述第一修改频次,所述频次差等于所述第二修改频次减去所述第一修改频次。
进一步可选地,如上所述的方法中,获取所述目标片段和所述原始片段之间的语义相似度特征,具体包括:
获取所述目标片段与所述原始片段的语义相似度;和/或
获取所述目标片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合的语义相似度。
进一步可选地,如上所述的方法中,获取所述目标片段和所述原始片段之间的相对特征信息,还包括如下至少一种;
根据预设的专用名词库,分别获取所述原始片段和所述目标片段的专用名词特征;以及
获取所述目标片段与所述原始片段的拼音编辑距离特征。
进一步可选地,如上所述的方法中,根据所述反馈信息确定所述目标片段的理想打分,具体包括:
根据所述反馈信息,推测所述用户是否接受所述纠错文本中采用所述目标片段替换所述原始片段;
若推测所述用户接受,则将所述目标片段的理想打分设置为1;否则,若推测所述用户不接受,则将所述目标片段的理想打分设置为0。
进一步可选地,如上所述的方法中,根据所述相对特征信息和所述目标片段的理想打分,对所述片段打分模型进行训练,具体包括:
将所述相对特征信息输入至所述片段打分模型,获取所述片段打分模型的预测打分;
获取所述预测打分和所述理想打分的大小关系;
若所述预测打分小于所述理想打分,调整所述片段打分模型的参数,使得所述片段打分模型输出的所述预测打分朝增大的方向变动;
若所述预测打分大于所述理想打分,调整所述片段打分模型的参数,使得所述片段打分模型输出的所述预测打分朝减小的方向变动。
本发明提供一种基于人工智能的文本纠错装置,所述装置包括:
片段信息获取模块,用于获取纠错文本中已纠错的目标片段和所述目标片段在原文本中对应的原始片段;所述目标片段为基于预先训练的片段打分模型对所述原文本进行纠错处理时,从所述原始片段的多个候选片段中选出的;
反馈信息获取模块,用于获取用户对基于所述纠错文本而反馈的目标结果的反馈信息;
增量训练模块,用于根据所述目标片段、所述原始片段以及所述反馈信息,对所述片段打分模型进行增量训练;
纠错模块,用于基于训练后的所述片段打分模型,对后续的原文本进行纠错处理。
进一步可选地,如上所述的装置中,所述增量训练模块,具体包括:
相对特征信息获取单元,用于获取所述目标片段和所述原始片段之间的相对特征信息;
确定单元,用于根据所述反馈信息确定所述目标片段的理想打分;
训练单元,用于根据所述相对特征信息和所述目标片段的理想打分,对所述片段打分模型进行训练。
进一步可选地,如上所述的装置中,所述相对特征信息获取单元,用于执行如下至少一种操作:
获取所述目标片段和所述原始片段之间的相对质量特征;
获取所述目标片段和所述原始片段之间的相对历史行为特征;和
获取所述目标片段和所述原始片段之间的语义相似度特征。
进一步可选地,如上所述的装置中,所述相对特征信息获取单元,具体用于:
获取所述原始片段在语料库中出现的频次、所述原始片段与在所述原文本中的上下文片段的组合在所述语料库中一起出现的频次;
获取所述目标片段在所述语料库中出现的频次、所述目标片段与所述上下文片段的组合在所述语料库中一起出现的频次;
根据所述原始片段在所述语料库中出现的频次、所述原始片段与所述上下文片段的组合在所述语料库中一起出现的频次、所述目标片段在所述语料库中出现的频次以及所述目标片段与所述上下文片段的组合在所述语料库中出现的频次,获取所述目标片段与所述原始片段在所述语料库中出现的频次比以及所述目标片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次比,和/或所述目标片段与所述原始片段在所述语料库中出现的频次差以及所述目标片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次差。
进一步可选地,如上所述的装置中,所述相对特征信息获取单元,具体用于:
获取PT表中所述原始片段修改为所述目标片段的第一修改频次;
获取PT表中所述原始片段与所述上下文片段的组合修改为所述目标片段与所述上下文片段的组合的第二修改频次;
根据所述第一修改频次和所述第二修改频次,得到频次比和/或频次差,所述频次比等于所述第二修改频次除以所述第一修改频次,所述频次差等于所述第二修改频次减去所述第一修改频次。
进一步可选地,如上所述的装置中,所述相对特征信息获取单元,具体用于:
获取所述目标片段与所述原始片段的语义相似度;和/或
获取所述目标片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合的语义相似度。
进一步可选地,如上所述的装置中,所述相对特征信息获取单元,还用于执行如下至少一种;
根据预设的专用名词库,分别获取所述原始片段和所述目标片段的专用名词特征;以及
获取所述目标片段与所述原始片段的拼音编辑距离特征。
进一步可选地,如上所述的装置中,所述确定单元,具体用于:
根据所述反馈信息,推测所述用户是否接受所述纠错文本中采用所述目标片段替换所述原始片段;
若推测所述用户接受,则将所述目标片段的理想打分设置为1;否则,若推测所述用户不接受,则将所述目标片段的理想打分设置为0。
进一步可选地,如上所述的装置中,所述训练单元,具体用于:
将所述相对特征信息输入至所述片段打分模型,获取所述片段打分模型的预测打分;
获取所述预测打分和所述理想打分的大小关系;
若所述预测打分小于所述理想打分,调整所述片段打分模型的参数,使得所述片段打分模型输出的所述预测打分朝增大的方向变动;
若所述预测打分大于所述理想打分,调整所述片段打分模型的参数,使得所述片段打分模型输出的所述预测打分朝减小的方向变动。
本发明还提供一种计算机设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的基于人工智能的文本纠错方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的基于人工智能的文本纠错方法。
本发明的基于人工智能的文本纠错方法、装置及计算机可读介质,通过获取纠错文本中已纠错的目标片段和目标片段在原文本中对应的原始片段;目标片段为基于预先训练的片段打分模型对原文本进行纠错处理时,从原始片段的多个候选片段中选出的;获取用户对基于纠错文本而反馈的目标结果的反馈信息;根据目标片段、原始片段以及反馈信息,对片段打分模型进行增量训练;基于训练后的片段打分模型,对后续的原文本进行纠错处理。本发明的技术方案,通过根据目标片段、原始片段以及反馈信息,对片段打分模型进行增量训练,可以提高片段打分模型的预测准确性,使用训练后的片段打分模型进行文本纠错时,可以有效地提高文本的纠错准确率。例如将本发明的技术方案应用在长文本编辑中,可以辅助提升长文本的内容生产质量,提升用户体验。
【附图说明】
图1为本发明的基于人工智能的文本纠错方法实施例一的流程图。
图2为本发明的基于人工智能的文本纠错方法实施例二的流程图。
图3为本发明的基于人工智能的长文本纠错方法实施例一的流程图。
图4为本实施例的一种搜索界面示意图。
图5为本发明基于人工智能的长文本纠错方法实施例二的流程图。
图6为本实施例提供的混淆音的映射表的示例图。
图7为本实施例的基于人工智能的长文本纠错方法的一种纠错结果示意图。
图8为本发明的基于人工智能的文本纠错装置实施例一的结构图。
图9为本发明的基于人工智能的文本纠错装置实施例二的结构图。
图10为本发明的计算机设备实施例的结构图。
图11为本发明提供的一种计算机设备的示例图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明的基于人工智能的文本纠错方法实施例一的流程图。如图1所示,本实施例的基于人工智能的文本纠错方法,具体可以包括如下步骤:
100、获取纠错文本中已纠错的目标片段和目标片段在原文本中对应的原始片段;目标片段为基于预先训练的片段打分模型对原文本进行纠错处理时,从原始片段的多个候选片段中选出的;
本实施例的基于人工智能的文本纠错方法的执行主体为基于人工智能的文本纠错装置,该装置可以为独立的一电子实体,用于对文本进行纠错。本实施例的文本可以为query之类的短文本,也可以为文本编辑系统中的长文本,长文本的长度通常大于query的长度,可以为一个较长的句子。也就是说,本实施例的基于人工智能的文本纠错方法可以应用在搜索场景中,也可以用在涉及到长文本编辑的各种场景中。
本实施例的基于人工智能的文本纠错处理中,需要对原文本进行纠错,具体纠错时,可以先对原文本进行分词处理,得到多个分词。其中的分词策略可以参考相关现有技术的分词策略,在此不做限制。然后可以设置一个预设大小的窗口,将该窗口应用在原文本中,从前往后滑动窗口,选取到各个原始片段。本实施例中的预设窗口的大小可以设置为1个分词的大小或者2个分词的大小或者3个分词的大小。因此,本实施例的原始片段可以由各个分词单独构成,或者由连续的分词组合构成。
根据上述方式,得到原文本中的各个原始片段之后。然后对于每个原始片段,获取可以替换该原始片段的多个候选片段,获取过程可以基于预先统计的短语替换(PhaseTable;PT)表来获取原始片段对应的替换片段,或者还可以基于原始片段的读音,召回更多的读音相同或者相似的候选片段。然后可以使用片段打分模型对各个候选片段打分,并进一步根据各个片段的打分,从多个候选片段中获取用于替换原始片段的目标片段。例如在较短的query中,可能仅包括一个原始片段,此时可以采用打分最高的候选片段作为目标片段。而对于较差的文本,其中包括的原始片段多于两个时,此时对于每个原始片段,可以获取打分最高的候选片段作为其对应的目标片段。或者对于某个原始片段,考虑到与上下文的连通性等因素,还可以从打分较高的前N个中取打分次高或者次次高的候选片段最为目标片段,在此不做限定。无论采用哪种方式获取目标片段,均需要参考片段打分模型对候选片段的打分。因此,本实施例中,片段打分模型对候选片段的打分是文本纠错中非常重要的一个环节,如果片段打分模型对候选片段的打分准确性较差,将会导致文本纠错的准确性较差。
本实施例中,采用上述方法对原文本纠错得到纠错文本之后,可以获取到纠错文本中已纠错的目标片段和目标片段在原文本中对应的原始片段。
101、获取用户对基于纠错文本而反馈的目标结果的反馈信息;
本实施例中,场景不同,基于纠错文本而向用户反馈的目标结果的形式和内容可以不相同。例如,搜索场景中,基于纠错文本而向用户反馈的目标结果可以为基于纠错文本的搜索结果。在长文本编辑中,基于纠错文本而向用户反馈的目标结果可以表现为同意修改或者不同意修改。在其他场景中,可能还会有其他的形式,在此不再一一赘述。无论基于纠错文本而向用户反馈的目标结果是什么样的形式,均可以获取到用户的反馈信息。例如在搜索场景中,基于纠错文本向用户反馈搜索结果之后,若用户同意纠错后的搜索结果,则会直接点击搜索结果阅读。而若用户不同意纠错后的搜索结果,则会忽略本次的搜索结果,并重新进行搜索。再例如,在长文本编辑场景中,对用户输入的原文本进行纠错之后,在纠错的位置会给用户一定的提示,同意或者不同意,用户可以根据该纠错位置的真实情况,点击同意或者不同意。所以,无论在什么样的场景下,都可以获取到用户对基于纠错文本而反馈的目标结果的反馈信息。
102、根据目标片段、原始片段以及反馈信息,对片段打分模型进行增量训练;
本实施例的增量训练可以为在线学习过程,也就是说,在每一次纠错之后,直接根据纠错结果对片段打分模型进行在线学习,以提高片段打分模型的预测准确性。
或者,本实施例的增量训练也可以为离线进行,每隔一定的时间周期,采集该时间周期的所有纠错数据,并使用这些纠错数据再对片段打分模型进行增量训练,以提高片段打分模型的预测准确性。
本实施例的增量训练过程中,需要根据目标片段、原始片段以及反馈信息,对片段打分模型进行增量训练。
103、基于训练后的片段打分模型,对后续的原文本进行纠错处理。
基于上述增量训练后的片段打分模型,来对后续的原文本进行纠错处理时,准确度会更高。
实际应用中,单纯的GBRank的模型结构无法进行增量训练,本实施例中,为了提高片段打分模型的准确性,对片段打分模型进行增量训练。本实施例的片段打分模型可以采用在GBRank的模型中应用逻辑回归功能,用以支持增量训练。例如训练时需要先训练gbrank模型,得到树模型后,在此基础上,采用同样的训练数据上结合逻辑回归来训练,得到本实施例的片段打分模型。
本实施例的基于人工智能的文本纠错方法,通过获取纠错文本中已纠错的目标片段和目标片段在原文本中对应的原始片段;目标片段为基于预先训练的片段打分模型对原文本进行纠错处理时,从原始片段的多个候选片段中选出的;获取用户对基于纠错文本而反馈的目标结果的反馈信息;根据目标片段、原始片段以及反馈信息,对片段打分模型进行增量训练;基于训练后的片段打分模型,对后续的原文本进行纠错处理。本实施例的技术方案,通过根据目标片段、原始片段以及反馈信息,对片段打分模型进行增量训练,可以提高片段打分模型的预测准确性,使用训练后的片段打分模型进行文本纠错时,可以有效地提高文本的纠错准确率。例如将本实施例的技术方案应用在长文本编辑中,可以辅助提升长文本的内容生产质量,提升用户体验。
图2为本发明的基于人工智能的文本纠错方法实施例二的流程图。如图2所示,本实施例的基于人工智能的文本纠错方法在上述图1所示实施例的技术方案的基础上,进一步更加详细地介绍本发明的技术方案。如图2所示,本实施例的基于人工智能的文本纠错方法,具体可以包括如下步骤:
200、获取纠错文本中已纠错的目标片段和目标片段在原文本中对应的原始片段;目标片段为基于预先训练的片段打分模型对原文本进行纠错处理时,从原始片段的多个候选片段中选出的;
201、获取用户对基于纠错文本而反馈的目标结果的反馈信息;
步骤200和步骤201的实施具体可以参考上述图1所示实施例的步骤100和步骤101,在此不再赘述。
202、获取目标片段和原始片段之间的相对特征信息;
例如,步骤202具体可以包括如下至少一种:
第一、获取目标片段和原始片段之间的相对质量特征;
该步骤具体可以包括如下步骤:
(a1)获取原始片段在语料库中出现的频次、原始片段与在原文本中的上下文片段的组合在语料库中一起出现的频次;
该步骤(a1)为获取原始片段的质量特征的具体获取方式。由于本实施例中已经获取到纠错文本,可以确定本实施例的应用领域。具体地,在该应用领域的语料库中获取该原始片段的质量特征。
本实施例中原始片段的上下文片段为原文本中位于原始片段之前或者之后紧相邻的片段。例如当原始片段包括1个分词时,对应的上下文片段可以包括位于该分词前的1个分词或者2个分词、以及位于该分词后的1个分词或者2个分词。而若原始片段包括2个分词时,对应的上下文片段可以包括为原文本中位于该原始片段前的1个分词以及位于该原始片段后的1个分词。而若原始片段包括3个分词时,对应的上下文片段可以仅包括原文本中位于该原始片段前的1个分词以及位于该原始片段后的1个分词。或者考虑到包括较多分词的片段在原文本中出现的概率较小,本实施例中还可以限定:若原始片段已经包括3个或以上分词时,可以不取其上下文片段。也就是说,当需要取原始片段的上下文片段时,对应原始片段与上下文片段的组合会存在原始片段加上文片段、原始片段加下文片段以及上文片段加原始片段再加下文片段共三个组合。在获取原始片段的质量特征时,需要获取原始片段、原始片段加上文片段的组合、原始片段加下文片段的组合以及上文片段加原始片段再加下文片段的组合各自在语料库中出现的频率。
另外,可选地,当原始片段不需要取上下文片段时,此时对应的原始片段的质量特征,可以仅包括原始片段在语料库中出现的频次。
(b1)获取目标片段在语料库中出现的频次、目标片段与上下文片段的组合在语料库中一起出现的频次;
对应地,该步骤(b1)为目标片段的质量特征的获取方式,具体获取方式同上述步骤(a1)相同,在此不再赘述。
另外,考虑到数据的对齐,目标片段作为原始片段的替换片段,与原始片段具有相同的性质,如果步骤(a1)中原始片段不取上下文片段,对应地步骤(b1)中的目标片段也不取上下文片段。而当需要取上下文片段时,且原始片段为原文本的句首或者句尾,对应的空上下文片段可以设置预设的句首特征或者句尾特征来表示,以保证数据的对齐。
(c1)根据原始片段在语料库中出现的频次、原始片段与上下文片段的组合在语料库中一起出现的频次、目标片段在语料库中出现的频次以及目标片段与上下文片段的组合在语料库中出现的频次,获取目标片段与原始片段在语料库中出现的频次比以及目标片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次比,和/或目标片段与原始片段在语料库中出现的频次差以及目标片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次差。
该步骤(c1)为目标片段和原始片段之间的相对质量特征的具体获取方式。具体地,通过获取目标片段与原始片段在语料库中出现的频次比以及目标片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次比,和/或目标片段与原始片段在语料库中出现的频次差以及目标片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次差,可以体现目标片段与上下文片段的融合性,如果目标片段与原始片段在语料库中出现的频次比较大,而目标片段和上下文片段的组合,与原始片段和上下文片段的组合在语料库中出现的频次比非常小,则说明该目标片段与上下文片段兼容性较差,不适宜替换原始片段。反之亦然。
同理,如果目标片段与原始片段在语料库中出现的频次差较小,即使用概率差不多,但是目标片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次差非常大,说明目标片段和上下文片段的组合,比始片段和上下文片段的组合在预料库中使用更频繁,则可以认为目标片段与上下文片段具有很强的兼容性,可以采用目标片段替换原始片段,反之亦然。
另外,若原始片段不需要取上下文片段时,此时对应的相对质量特征仅包括:根据原始片段在语料库中出现的频次和目标片段在语料库中出现的频次,获取目标片段与原始片段在语料库中出现的频次比,和/或目标片段与原始片段在语料库中出现的频次差。与上述需要取上下文片段相比,获取特征内容不够丰富,因此,本实施例中,优选地,需要获取上下文片段。
第二、获取目标片段和原始片段之间的相对历史行为特征;
该步骤具体可以包括如下步骤:
(a2)获取PT表中原始片段修改为目标片段的第一修改频次;
(b2)获取PT表中原始片段与上下文片段的组合修改为目标片段与上下文片段的组合的第二修改频次;
(c2)根据第一修改频次和第二修改频次,得到频次比和/或频次差,频次比等于第二修改频次除以第一修改频次,频次差等于第二修改频次减去第一修改频次。
另外,需要说明的是,若原始片段包括3个分词,未取上下文片段时,此时无法采用上述步骤(a2)-(c2)实现目标片段和原始片段之间的相对历史行为特征的获取,可以直接设置相对历史行为特征为空或者一个预设的特征符号。当然,由于取上下文片段时,包括特征内容丰富,本实施例中优选取上下文片段的情况,采取上述步骤(a2)-(c2)实现目标片段和原始片段之间的相对历史行为特征的获取。
第三、获取目标片段和原始片段之间的语义相似度特征。
同理,本实施例的获取目标片段和原始片段之间的语义相似度特征,可以包括:获取目标片段与原始片段的语义相似度;和/或获取目标片段和上下文片段的组合与原始片段和上下文片段的组合的语义相似度。
本实施例中,可以采用预设的词典,获取目标片段的词向量以及原始片段的词向量,然后计算目标片段的词向量和原始片段的词向量之间的余弦距离,作为该候选片段与原始片段的语义相似度。对应地,如果本实施例中原始片段包括的分词数量为3个或以上时,此时将取目标片段与原始片段的语义相似度,作为目标片段与原始片段的语义相似度特征。如果本实施例中原始片段包括的分词数量小于3个,还需要取原始片段的上下文片段,此时,还需要获取目标片段与上下文片段的组合与原始片段和上下文片段的组合的语义相似度。同理,获取目标片段和上下文片段的组合的词向量以及原始片段和上下文片段的组合的词向量,然后计算词向量之间的余弦距离,作为该候选片段和上下文片段的组合与原始片段和上下文片段的组合的语义相似度特征。对应地,原始片段加上下文片段的组合包括原始片段加上文片段、原始片段加下文片段以及上文片段加原始片段再加下文片段共三个组合。此时对应地,候选片段与原始片段的语义相似度特征包括:目标片段与原始片段的语义相似度、该候选片段和上文片段的组合与原始片段和上文片段的组合的语义相似度、该候选片段和下文片段的组合与原始片段和下文片段的组合的语义相似度、以及上文片段、该候选片段和下文片段的组合与上文片段、原始片段和下文片段的组合的语义相似度一起拼接构成的候选片段与原始片段的语义相似度特征。
为了特征的丰富性以及片段打分模型打分的准确性,本实施例中优选地,相对特征信息同时包括相对质量特征、相对历史行为特征以及语义相似度特征。为了进一步丰富相对特征信息的内容,本实施例中,获取目标片段和原始片段之间的相对特征信息,还可以包括如下至少一种;根据预设的专用名词库,分别获取原始片段和目标片段的专用名词特征;以及获取目标片段与原始片段的拼音编辑距离特征。
具体地,目标片段的专用名词特征用于标识该目标片段是否属于专用名词。例如根据专用名词库判断某目标片段是否属于专用名词,若属于,则对应的专用名词特征为1,否则对应的专用名词特征为0。对应地,如果目标片段为专用名词,则该目标片段替换原始片段的概率越高;而若不是专用名词,则目标片段替换原始片段的概率越低。同理,也可以根据专用名词库设置原始片段的专用名词特征,在此不再赘述。而且,需要说明的是,实际应用中,原始片段和目标片段同时为专用名词的概率非常小。
另外目标片段与原始片段的读音编辑距离,具体为将目标片段的读音编辑为原始片段的读音需要调整的拼音中字母的数量,对应地,目标片段与原始片段的读音编辑距离越大,说明采用目标片段替换该原始片段的概率越小;而若目标片段与原始片段的读音编辑距离越小,说明采用目标片段替换该原始片段的概率越大。
203、根据反馈信息确定目标片段的理想打分;
参考上述步骤101的记载,可以知道,无论基于纠错文本而向用户反馈的目标结果是什么样的形式,均可以获取到用户的反馈信息。而用户的反馈信息最终体现为同意纠错文本或者不同意纠错文本。因此,本实施例中可以先根据反馈信息,推测用户是否接受纠错文本中采用目标片段替换原始片段;若推测用户接受,可以认为目标片段到原始片段的替换是正确的,则将目标片段的理想打分设置为1;否则,若推测用户不接受,可以认为目标片段到原始片段的替换是不正确的,则将目标片段的理想打分设置为0。
204、根据获取的上述相对特征信息和目标片段的理想打分,对片段打分模型进行训练;
本实施例的步骤202-步骤204为上述图1所示实施例的步骤102“根据目标片段、原始片段以及反馈信息,对片段打分模型进行增量训练”的一种具体实现方式。
本实施例的训练为增量训练,可以在每次纠错之后进行一次类似的在线训练,也可以每隔一定的时间周期,采集该时间周期内的所有文本纠错数据,进行离线训练,无论采用哪种方式,均为对现有的已训练的片段打分模型进行再学习,以提高片段打分模型的后续预测的精准度。训练时,可以将上述获取的所有相对特征信息输入至片段打分模型,获取片段打分模型的预测打分;获取预测打分和理想打分的大小关系;若预测打分小于理想打分,调整片段打分模型的参数,使得片段打分模型输出的预测打分朝增大的方向变动;若预测打分大于理想打分,调整片段打分模型的参数,使得片段打分模型输出的预测打分朝减小的方向变动。本实施例的调整仅为一次微调,只要保证片段打分模型输出的预测打分能够朝着增大或者减小的方向变动即可。
另外,可选地,本实施例中,也可以不再执行将上述获取的所有相对特征信息输入至片段打分模型,获取片段打分模型的预测打分,可以直接获取纠错时片段打分模型对该目标片段的打分。
205、基于训练后的片段打分模型,对后续的原文本进行纠错处理。
本实施例的基于人工智能的文本纠错方法,采用上述技术方案,通过根据目标片段、原始片段以及反馈信息,对片段打分模型进行增量训练,可以提高片段打分模型的预测准确性,使用训练后的片段打分模型进行文本纠错时,可以有效地提高文本的纠错准确率。例如将本实施例的技术方案应用在长文本编辑中,可以辅助提升长文本的内容生产质量,提升用户体验。
上述图1和图2所示实施例的基于人工智能的文本纠错方法不仅可以适用于query搜索等短文本的纠错处理中,也可以适用于长文本的纠错处理中。下述实施例介绍本实施例的技术方案所应用的长文本纠错的场景。
图3为本发明的基于人工智能的长文本纠错方法实施例一的流程图。如图3所示,本实施例的基于人工智能的长文本纠错方法,具体可以包括如下步骤:
300、当长文本中存在非专用名词的原始片段时,根据长文本的领域中预先设置的PT表,对需要纠错的原始片段进行PT片段召回,得到原始片段的候选片段集合,该候选片段集合中包括多个候选片段;
本实施例的长文本可以为用户编辑的长度大于通常的query长度的各种长文本信息,例如可以为一篇文章的摘要,或者一篇文章中的一个句子等等。采用本实实例的技术方案,可以对一篇文章中的每一个句子进行长文本纠错,从而实现对整篇文章的纠错。
同理,本实施例中,在对长文本进行纠错时,需要先对长文本进行分词处理,得到多个分词。其中的分词策略可以参考相关现有技术的分词策略,在此不做限制。本实施例的原始片段可以由各个分词单独构成,或者由连续的分词组合构成,详细参考上述实施例的记载,在此不再赘述。得到长文本中的多个原始片段之后,判断各原始片段是否为专用名词。例如可以根据预设的专用名词库来判断长文本中的各原始片段是否均属于专用名词,若均属于,确定长文本中不存在需要纠错的原始片段;否则若存在不属于专用名词的原始片段,确定长文本中存在需要纠错的原始片段。本实施例的专用名词库可以为预先对该长文本的领域中的数据进行统计,抽取专用名词,并生成的包括该领域的所有专用名词的数据库。
经过上述判断,若长文本中存储非专用名词,则根据长文本的领域中预先设置的PT表,对需要纠错的原始片段进行PT片段召回,并将召回的多个候选片段集合在一候选片段集合中。
本实施例中,在该步骤300之前,还可以预先设置该长文本领域的PT表,例如具体可以包括如下至少一种方式:
一、根据长文本领域中用户主动修改搜索词行为的大数据统计,得到原始片段到替换片段的改动频次。将原始片段、替换片段以及原始片段到替换片段的改动频次,存入PT表中;
例如:用户连续输入“青华大学”,“清华大学”,可以采集到“青华->清华”的改动;“青华大学->清华大学”的改动;由于用户在输入过程中,若发现前一次输入错误,会主动修改搜索词为正确的,根据用户的该行为,可以知道后一次的修改的搜索词为正确的。例如,经过预设时间周期的统计,可以得知“青华->清华”的改动频次为100次,“青华大学->清华大学”的改动频次为70次。
二、根据长文本领域中用户输入的搜索词以及搜索服务器搜索的搜索结果的标题之间的片段对齐映射,获取原始片段到替换片段的改动频次。将原始片段、替换片段以及原始片段到替换片段的改动频次,存入PT表中;例如,图4为本实施例的一种搜索界面示意图。如图4所示,用户某次输入的搜索词是“青华大学”,但是,搜索服务器的搜索结果包括“清华大学”,又包括“青华大学”。这样,对于搜索结果的标题中包括清华大学的,可以记录青华大学->清华大学”的改动1次;对于搜索结果的标题中包括青华大学的,可以记录青华大学->青华大学”的改动1次。如果共搜索到30个结果,其中28个标题是清华大学的,2个标题是关于青华大学的,则认为“青华大学->清华大学”的改动频次为28次,“青华大学->青华大学”的改动频次为2次。
三、根据长文本领域中用户输入的搜索词与搜索服务器主动纠错之间的用户反馈数据对齐映射,获取原始片段到替换片段的改动频次。将原始片段、替换片段以及原始片段到替换片段的改动频次,存入PT表中;与上述第2种情况不同的是,该种情况中,需要根据用户的反馈,确定替换片段。例如,用户某次输入的搜索词是“青华大学”,但是,搜索服务器的搜索结果既包括“清华大学”,又包括“青华大学”;若用户每点击一个标题包括“清华大学”的搜索结果,则认为“青华大学->清华大学”的改动1次;用户点击一个标题包括“青华大学”的搜索结果,则认为“青华大学->青华大学”的改动1次。
按照上述实施例的方式,本实施例的PT表可以为预设时间周期采集并统计的。该PT表可以采用上述三种方式中任一种方式生成,也可以采用上述任意两种方式或者三种方式组合生成。根据上述实施例,可以知道本实施例的PT表中记录的是,多组原始片段、替换片段以及对应的改动频次,例如每组数据采用的存储形式可以为“原始片段->替换片段,改动频次”。对于同一个原始片段,可以对应多个替换片段,每个替换片段对应的改动频次可以不相同。根据PT表,对需要纠错的原始片段进行PT片段召回时,具体可以从该PT表中获取该原始片段对应的所有替换片段,同时获取每个替换片段对应的改动频率。然后从多个替换片段中获取改动频率最大的TOP n个替换片段作为该原始片段对应的候选片段。并由多个候选片段构成一个候选片段集合。
301、利用预先训练的片段打分模型,分别为候选片段集合中的各候选片段进行打分;
本实施例中,可以预先训练一个片段打分模型,用于对候选片段集合中的每个候选片段进行打分。本实施例中,对于同一原始片段,使用打分高的候选片段来纠错长文本中的原始片段的概率,高于使用打分低的候选片段来纠错长文本中的原始片段的概率。但是纠正长文本时,还需要考虑原始片段与上下文的通顺性等因素,所以最终得到的纠正文本中,未必采用打分最高的候选片段来替换原始片段。本实施例的片段打分模型可以采用GBRank网络模型。
例如,该步骤301具体可以包括如下步骤:
(a3)获取原始片段在长文本的领域中的质量特征和候选片段集合中的各候选片段在长文本的领域中的质量特征;
例如,其中获取原始片段在长文本的领域中的质量特征,具体可以包括:获取原始片段在长文本领域的语料库中出现的频次、原始片段与上下文片段的组合在长文本领域的语料库中一起出现的频次。
对应地,获取候选片段集合中的各候选片段在长文本的领域中的质量特征,具体包括:获取候选片段集合中的各候选片段在语料库中出现的频次、各候选片段与上下文片段的组合在语料库中出现的频次。
本实施例中原始片段的上下文片段为长文本中位于原始片段之前或者之后紧相邻的片段,详细可以参考上述图2所示实施例的相关记载,在此不再赘述。或者考虑到包括较多分词的片段在长文本中出现的概率较小,本实施例中还可以限定:若原始片段已经包括3个或以上分词时,可以不取其上下文片段。当需要取原始片段的上下文片段时,在获取原始片段的质量特征时,需要获取原始片段、原始片段加上文片段的组合、原始片段加下文片段的组合以及上文片段加原始片段再加下文片段的组合各自在语料库中出现的频率。对应地,各候选片段的质量特征获取方式同理,在此不再赘述。
(b3)根据原始片段在长文本的领域中的质量特征和各候选片段在长文本的领域中的质量特征,获取各候选片段与原始片段的相对质量特征;
例如,该步骤(b3),具体可以包括:根据原始片段在语料库中出现的频次、原始片段与上下文片段的组合在语料库中一起出现的频次、各候选片段在语料库中出现的频次以及各候选片段与上下文片段的组合在语料库中出现的频次,获取各候选片段与原始片段在语料库中出现的频次比以及各候选片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次比,和/或各候选片段与原始片段在语料库中出现的频次差以及各候选片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次差。
具体地,通过获取各候选片段与原始片段在语料库中出现的频次比以及各候选片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次比,和/或各候选片段与原始片段在语料库中出现的频次差以及各候选片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次差,可以体现候选片段与上下文片段的融合性,如果候选片段与原始片段在语料库中出现的频次比较大,而候选片段和上下文片段的组合,与原始片段和上下文片段的组合在语料库中出现的频次比非常小,则说明该候选片段与上下文片段兼容性较差,不适宜替换原始片段。反之亦然。
同理,如果候选片段与原始片段在语料库中出现的频次差较小,即使用概率差不多,但是候选片段和上下文片段的组合,与原始片段和上下文片段的组合在语料库中出现的频次差非常大,说明候选片段和上下文片段的组合,比始片段和上下文片段的组合在预料库中使用更频繁,则可以认为候选片段与上下文片段具有很强的兼容性,可以采用候选片段替换原始片段,反之亦然。
需要说明的是,若原始片段已经包括3个或以上分词时,可以不取其上下文片段,此时可以仅根据在语料库中出现的频次、各候选片段在语料库中出现的频次,获取各候选片段与原始片段在语料库中出现的频次比,和/或各候选片段与原始片段在语料库中出现的频次差,作为各候选片段与原始片段的相对质量特征。与上述需要取上下文片段相比,获取特征内容不够丰富,因此,本实施例中,优选地,需要获取上下文片段。
另外,需要说明的是,当需要取上下文片段。而原始片段为长文本的句首或者句尾,对应的空上下文片段可以设置预设的句首特征或者句尾特征来表示,以保证数据的对齐。
(c3)获取原始片段替换为各候选片段的相对历史行为特征;
由于PT表记录有历史的修改信息,因此本实施例的历史行为特征可以为PT表中的修改频次相关的特征。例如该步骤(c3)具体可以包括如下步骤:
(a4)获取PT表中原始片段修改为各候选片段的第一修改频次;
(b4)获取PT表中原始片段与上下文片段的组合修改为各候选片段与上下文片段的组合的第二修改频次;
(c4)根据第一修改频次和第二修改频次,得到频次比和/或频次差,频次比等于所述第二修改频次除以第一修改频次,频次差等于第二修改频次减去第一修改频次。
另外,需要说明的是,若原始片段包括3个分词,未取上下文片段时,此时可以设置相对历史行为特征为空或者一个预设的特征符号。
(d3)获取各候选片段与原始片段的语义相似度特征;
本实施例中,可以采用预设的词典,获取各候选片段的词向量以及原始片段的词向量,然后计算各候选片段的词向量和原始片段的词向量之间的余弦距离,作为该候选片段与原始片段的语义相似度。对应地,如果本实施例中原始片段包括的分词数量为3个或以上时,此时将取各候选片段与原始片段的语义相似度,作为各候选片段与原始片段的语义相似度特征。如果本实施例中原始片段包括的分词数量小于3个,还需要取原始片段的上下文片段,此时,还需要获取各候选片段与上下文片段的组合与原始片段和上下文片段的组合的语义相似度。同理,获取各候选片段和上下文片段的组合的词向量以及原始片段和上下文片段的组合的词向量,然后计算词向量之间的余弦距离,作为该候选片段和上下文片段的组合,与原始片段和上下文片段的组合的语义相似度特征。对应地,原始片段加上下文片段的组合包括原始片段加上文片段、原始片段加下文片段以及上文片段加原始片段再加下文片段共三个组合。此时对应地,候选片段与原始片段的语义相似度特征包括:各候选片段与原始片段的语义相似度、该候选片段和上文片段的组合与原始片段和上文片段的组合的语义相似度、该候选片段和下文片段的组合与原始片段和下文片段的组合的语义相似度、以及上文片段、该候选片段和下文片段的组合与上文片段、原始片段和下文片段的组合的语义相似度一起拼接构成的候选片段与原始片段的语义相似度特征。
另外,上述各候选片段与原始片段的相对质量特征、相对历史行为特征以及语义相似度特征的获取,也可以分别参考上述图2所示中的目标片段与原始片段的相对质量特征、相对历史行为特征以及语义相似度特征的获取。
(e3)根据各候选片段与原始片段的相对质量特征、各候选片段与原始片段的相对历史行为特征、各候选片段与原始片段的语义相似度特征、以及片段打分模型,分别获取各候选片段的打分。
然后将上述步骤得到的各候选片段与原始片段的相对质量特征、各候选片段与原始片段的相对历史行为特征、各候选片段与原始片段的语义相似度特征,输入至预先训练的片段打分模型中,该片段打分模型可以预测到该候选片段的打分。
例如片段打分模型训练时,可以采集作为正例和负例的训练原始片段和训练替换片段,如果为正确的替换,对应的打分为1,此时训练数据为正例;否则如果为错误的替换,对应的打分为0;此时训练数据为负例。训练数据中正负例的比例大于1,例如可以为5:1或者4:1。训练之前,预先为该片段打分模型的参数设置初始值,然后依次输入训练数据,若片段打分模型预测的打分与已知打分不一致,调整片段打分模型的参数,使得预测结果与已知结果趋于一致。采用上述方式,不断地采用数千万条的训练数据训练片段打分模型,直到片段打分模型预测的结果与已知结果一致,则确定片段训练打分模型的参数,从而确定片段打分模型,则片段打分模型训练完毕。训练时采用的训练数据的数量越多,训练的片段打分模型越准确,后续使用片段打分模型对候选片段所预测的打分越准确。根据上述方式,预测的打分可以为0-1之间。实际应用中,也可以设置片段打分模型位于其他数值范围内,如0-100之间,原理类似,在此不再赘述。
进一步可选地,在为各候选片打分之前,还可以包括如下步骤:根据预设的专用名词库和各候选片段,获取各候选片段的专用名词特征;和/或获取各候选片段与原始片段的拼音编辑距离特征。
具体地,各候选片段的专用名词特征用于标识该候选片段是否属于专用名词。例如根据专用名词库判断某候选片段是否属于专用名词,若属于,则对应的专用名词特征为1,否则对应的专用名词特征为0。对应地,如果候选片段为专用名词,则片段打分模型为该候选片段输出的打分较高;而若不是专用名词,则对应输出的打分较低。另外候选片段与原始片段的读音编辑距离,具体为将候选片段的读音编辑为原始片段的读音需要调整的拼音中字母的数量,对应地,候选片段与原始片段的读音编辑距离越大,说明采用候选片段替换该原始片段的概率越小,此时对应的片段打分模型为该候选片段输出的打分可以较小;而若候选片段与原始片段的读音编辑距离越小,说明采用候选片段替换该原始片段的概率越大,此时对应的片段打分模型为该候选片段输出的打分可以较大。
基于以上原理,对应地,步骤(e1)具体可以包括:根据各候选片段与原始片段的相对质量特征、各候选片段与原始片段的相对历史行为特征、各候选片段与原始片段的语义相似度特征、以及片段打分模型,并结合各候选片段的专用名词特征和各候选片段与原始片段的拼音编辑距离特征,分别获取各候选片段的打分。此时对应地,训练该片段打分模型的时候,也需要获取训练数据中训练替换片段的专用名词特征以及训练原始片段和训练替换片段的拼音编辑距离特征,结合之前的特征一起对片段打分模型进行训练。
302、根据各候选片段的打分,通过解码的方式,从长文本的需要纠错的各原始片段的候选片段集合中,获取各原始片段对应的目标片段,从而得到长文本的纠正文本。
最后,基于各候选片段的打分,从需要纠错的各原始片段的候选片段集合中获取各原始片段的目标片段,得到长文本的纠正文本。例如,可以直接获取打分最高的候选片段作为目标片段。或者若打分次高的候选片段与长文本中的上下文结合较好,也可以采用打分次高的候选片段作为纠正文本中的目标片段。或者还可以采用其他方式来获取纠正文本。
例如长文本中的不同原始片段都进行片段召回之后,每个原始片段可以得到多个候选片段结果,这样,不同的原始片段可以对应有多种候选片段组合的可能,形成片段候选网络。例如若某长文本中包括原始片段A、B和C,原始片段A对应的候选片段有1、2和3;原始片段B对应的候选片段有4、5和6;原始片段C对应的候选片段有7、8和9;此时每一个原始片段的候选片段都可以用于替换原始片段,即候选片段1可以分别与候选片段4、5或者6组合,候选片段2也可以分别与候选片段4、5或者6组合,候选片段3也可以分别与候选片段4、5或者6组合,形成片段候选网络。此时可以采用解码算法从片段候选网络中获取各原始片段对应的最佳的候选片段,得到最佳的纠正文本。例如解码算法可以包括不限于:维特比算法(viterbi),束搜索(beam search),或者贪心搜索(greedy search)等解码算法。
或者,例如该步骤302,具体可以包括如下步骤:对于各原始片段,根据候选片段集合中各候选片段的打分,从候选片段集合中获取该原始片段对应的至少两个预选片段;通过解码的方式,从长文本的需要纠错的各原始片段对应的至少两个预选片段中获取各原始片段对应的目标片段,从而得到长文本的纠正文本。
具体地,若每一个原始片段对应的候选片段数量较多时,可以按照打分高低的顺序取打分较高的至少一个候选片段作为预选片段,然后通过解码的方式,从长文本的需要纠错的各原始片段对应的至少两个预选片段中获取各原始片段对应的目标片段,从而得到长文本的纠正文本。
本实施例的基于人工智能的长文本纠错方法,能够对长文本中的错误片段进行纠正,有效地提高长文本的编辑质量。本实施例的技术方案基于长文本纠错场景提出,可以适用于正文场景下的纠错行为,且能够快速有效的产出纠错结果,纠错效率较高,可以便于辅助提升长文本的内容生产质量,提升用户体验。
图5为本发明基于人工智能的长文本纠错方法实施例二的流程图。如图5所示,本实施例的基于人工智能的长文本纠错方法,在上述图3所示实施例的技术方案的基础上,进一步增加了对需要纠错的原始片段进行编辑距离(Edit Distance;ED)片段召回,详细介绍本发明的技术方案。如图5所示,本实施例的基于人工智能的长文本纠错方法,具体可以包括如下步骤:
400、根据专用名词库判断长文本中的各原始片段是否均属于专用名词;若均属于,执行步骤401;否则,执行步骤402;
401、确定长文本中包括的原始片段均为专用名词,该长文本不需要纠错,结束;
402、确定该长文本中存在不属于专用名词的原始片段,确定需要对该长文本中非专用名词的原始片段进行纠错;执行步骤403;
403、根据长文本的领域中预先设置的PT表,对需要纠错的原始片段进行PT片段召回,得到原始片段的候选片段集合,该候选片段集合中包括多个候选片段;执行步骤404;
步骤400-403的实施详细可以参考上述图3所示实施例的记载,在此不再赘述。
404、获取原始片段在长文本的领域对应的语料库中出现的频次、原始片段和上下文片段的组合在语料库中出现的频次、原始片段在PT表中的改动频次、原始片段与上下文片段的组合在PT表中的改动频次以及原始片段与上下文片段的语义相似度;执行步骤405;
同理,本实施例的原始片段与上下文片段的组合可以参考上述图1所示实施例的相关记载,在此不再赘述。原始片段在长文本的领域对应的语料库中出现的频次可以通过统计语料库中该原始片段的出现次数得到。原始片段在PT表中的改动频次可以为PT表中该原始片段被被替换为自身之外的其他片段的总次数。如“青华”被替换为“清华”,以及“青华”被替换为“青花”等所有被替换的“青华”的总次数。原始片段与上下文片段的组合在PT表中的改动频次可以为PT表中该原始片段被替换为自身之外的其他片段的总次数。如“青华大学”被替换为“清华大学”、以及被替换成“青华大学”之外的所有替换片段的总次数。
本实施例中的原始片段与上下文片段的语义相似度具体可以通过获取原始片段的词向量和上下文片段的词向量,并计算原始片段的词向量和上下文片段的词向量之间的余弦相似性,得到原始片段与上下文片段的语义相似度。其中上下文片段的词向量为上文片段加下文片段的组合的词向量。或者本实施例中,还可以采用原始片段与长文本中原始片段之外的其他所有片段的语义相似度,替换本实施例中的原始片段与上下文片段的语义相似度,形成新的可选方案。
405、根据原始片段在长文本的领域对应的语料库中出现的频次、原始片段和在长文本中的上下文片段的组合在语料库中出现的频次、原始片段在PT表中的改动频次、原始片段与上下文片段的组合在PT表中的改动频次、原始片段与上下文片段的语义相似度、以及预设的语言通顺度打分模型,获取原始片段的置信度;执行步骤406;
例如,本实施例中该步骤405具体包括如下两种实现方式:
第一种实现方式中,采用置信度打分模型来判断置信度,具体可以包括如下步骤:
(a5)根据原始片段在长文本的领域对应的语料库中出现的频次、原始片段和在长文本中的上下文片段的组合在语料库中出现的频次、以及语言通顺度打分模型,预测原始片段的通顺度;
本实施例的语言通顺度打分模型用于对长文本中该原始片段的通顺度进行打分。将原始片段在长文本的领域对应的语料库中出现的频次、原始片段和在长文本中的上下文片段的组合在语料库中出现的频次,该语言通顺度打分模型可以预测该原始片段的通顺度。例如该通顺度的分值可以为0-1之间,可以限定数值越大越通顺,数值越小越不通顺。或者也可以采用其他数值范围来表示通顺序,如0-100。
本实施例的语言通顺度打分模型也可以经过预先训练得到,例如预先采集数个训练数据,每个训练数据中对应一个训练长文本,包括训练长文本中的训练原始片段在语料库中出现的频次、训练原始片段和在训练长文本中的训练上下文片段的组合在语料库中出现的频次,以及该训练原始片段的已知通顺度。采集的各训练数据中可以包括有已知通顺度为1的正例训练数据,还可以包括有已知通顺度为0的负例训练数据。正负例的比例可以大于1,例如,优选为5:1或者4:1。训练之前,为语言通顺度打分模型的参数设置初始值,训练时,依次将各训练数据输入至该语言通顺度打分模型中,该语言通顺度打分模型为该训练数据预测通顺度,然后判断预测的通顺度与已知的通顺度是否一致,若不一致,调整该语言通顺度打分模型的参数,使得预测的通顺度与已知的通顺度趋于一致。采用上述方式,使用数千万条的训练数据对该语言通顺度打分模型继续训练,直至预测的通顺度与已知的通顺度一致,则确定该语言通顺度打分模型的参数,从而确定该语言通顺度打分模型,该语言通顺度打分模型训练完毕。
(b5)根据原始片段的通顺度、原始片段在PT表中的改动频次、原始片段与上下文片段的组合在PT表中的改动频次、以及原始片段与上下文片段的语义相似度,并结合预先训练的置信度打分模型,获取原始片段的置信度;
同理,本实施例中,还预先训练有置信度打分模型,该置信度打分模型用于获取原始片段的置信度。本实施例中可以设置置信度位于0-1之间,置信度数值越大,表示置信度越高,置信度数值越小,表示置信度越低。实际应用中,也可以将置信度设置在其他数值范围之间,如0-100之间。使用时,将原始片段的通顺度、原始片段在PT表中的改动频次、原始片段与上下文片段的组合在PT表中的改动频次、以及原始片段与上下文片段的语义相似度输入至训练的置信度打分模型,该置信度打分模型可以输出原始片段的置信度。
同理,本实施例的置信度打分模型也可以经过预先训练得到,例如预先采集数个训练数据,每个训练数据中包括训练原始片段的通顺度、训练原始片段在PT表中的改动频次、训练原始片段与训练上下文片段的组合在PT表中的改动频次、训练原始片段与训练上下文片段的语义相似度以及每个训练原始片段对应的置信度,每个参数获取方式同上述实施例的相关记载。采集的各训练数据中可以包括有已知置信度为1的正例训练数据,还可以包括有已知置信度为0的负例训练数据。正负例的比例可以大于1,例如,优选为5:1或者4:1。训练之前,为置信度打分模型的参数设置初始值,训练时,依次将各训练数据输入至该置信度打分模型中,该置信度打分模型为该训练数据预测置信度,然后判断预测的置信度与已知的置信度是否一致,若不一致,调整该置信度打分模型的参数,使得预测的置信度与已知的置信度趋于一致。采用上述方式,使用数千万条的训练数据对该置信度打分模型继续训练,直至预测的置信度与已知的置信度一致,则确定该置信度打分模型的参数,从而确定该置信度打分模型,该置信度打分模型训练完毕。
而且需要说明的时,本实施例中涉及到的所有模型的训练和预测,输入模型中的特征数据可以预先经过归一化处理,归一化处理的方式不做限定。
第二种实现方式中,采用阈值来判断置信度,具体可以包括如下步骤:
(a6)根据原始片段在长文本的领域对应的语料库中出现的频次、原始片段和在长文本中的上下文片段的组合在语料库中出现的频次、以及语言通顺度打分模型,预测原始片段的通顺度;
步骤(a6)的实现方式与上述步骤(a5)相同,详细可以参考上述步骤(a5)的记载,在此不再赘述。
(b6)分别判断原始片段的通顺度是否大于预设的通顺度阈值、原始片段在PT表中的改动频次和原始片段与上下文片段的组合在PT表中的改动频次是否均大于预设的频次阈值、以及原始片段与上下文片段的语义相似度是否大于预设的相似度阈值;若是,将原始片段的置信度设置为大于预设的置信度阈值;否则将原始片段的置信度设置为小于或者等于预设的置信度阈值。
本实施例中,通过对原始片段的通顺度、原始片段在PT表中的改动频次和原始片段与上下文片段的组合在PT表中的改动频次、原始片段与上下文片段的语义相似度分别预先设置对应的阈值,如通顺度阈值、频次阈值以及置信度阈值。然后分别判断每个参数是都大于对应的阈值,若每个参数均大于对应的阈值,则可以认为此时置信度较大,可以设置置信度大于预设的置信度阈值,此时可以确定原始片段不需要进行ED召回。否则只有其中一个参数不大于对应的阈值,则可以认为此时置信度较小,可以设置置信度小于预设的置信度阈值,此时可以确定原始片段需要进行ED召回。本实施例的置信度阈值可以根据实际经验预先设置有一个恰当数值。
406、判断原始片段的置信度是否大于预设的置信度阈值;若是,执行步骤407;否则确定原始片段不需要进行ED片段召回;执行步骤408;
407、确定原始片段需要进行ED片段召回;并根据原始片段的读音,利用长文本领域中的语料库和/或拼音输入法为原始片段提供的输入提示信息,对原始片段进行ED片段召回,并将召回的候选片段追加至候选片段集合中;执行步骤408;
本实施例的ED召回为通过从原始片段的注音串即pinyin上,通过混合声母韵母双删除的方法召回候选片段。召回时的候选片段可以来自语料库中,通过根据原始片段的拼音,通过混合声母韵母双删除取高频部分,进行注音,通过拼音进行倒排索引。例如“中华”,注音为“zhonghua”,为了扩大召回,对声母韵母进行部分删除得到索引,对应生成key-value可以为{“zhonghua”,“zhhua”,“onghua”,”zhongua”,“zhong h”}_-->{“中华”}。然后根据“zhonghua”,“zhhua”,“onghua”,”zhongua”,“zhong h”从语料库中召回对应的候选片段。其中“zhonghua”由于拼音完整,非常容易召回对应的候选片段。而“zhhua”,“onghua”,”zhongua”,“zhong h”可以通过补充声母或者韵母的方式召回对应拼音的候选片段。因此,ED召回的候选片段与原始片段的读音相同或者相似。
另外,本实施例的ED召回的候选片段还可以来自拼音输入法的召回结果,具体可以根据拼音输入法为原始片段提供的输入提示信息。根据用户的常用键入习惯,以当前词的声母韵母顺序方式进行召回,“zhonghua”“zhongh”,“zhhua”得到拼音输入法的候选词列表。实际应用中,也可以引入混淆音进行扩大召回结果。例如图6为本实施例提供的混淆音的映射表的示例图。如图6所示,提供部分混淆音。在根据拼音输入法的召回候选片段时,可以参考图6所示的混淆音,扩大找回结果。
408、利用预先训练的片段打分模型,分别为候选片段集合中的各候选片段进行打分;执行步骤409;
409、根据候选片段集合中各候选片段的打分,从候选片段集合中获取原始片段对应的至少两个预选片段;执行步骤410;
410、通过解码的方式,从长文本的需要纠错的各原始片段对应的至少两个预选片段中获取各原始片段对应的目标片段,从而得到长文本的纠正文本;执行步骤411;
步骤408-410的具体实现方式可以参考上述图3所示实施例的相关记载,在此不再赘述。
411、对纠正文本中发生纠正的片段进行纠错干预,确定最终的纠正文本,结束。
例如,本实施例中对纠正文本中发生纠正的片段进行纠错干预,具体包括如下至少一种:
判断纠正文本中发生纠正的目标片段和对应的原始片段是否命中预设的黑名单中的纠错对;若命中,则将目标片段还原为原始片段;和
判断纠正文本中发生纠正的目标片段和对应的原始片段是否属于同义词;若属于,则将目标片段还原为原始片段。
本实施例中的黑名单中可以根据之前纠正错误的纠错对进行采集。例如对原始片段纠正为某目标片段之后,用户根据纠正的结果,又将目标片段还原为原始片段,则可以确定纠错了。此时可以采集该目标片段和原始片段,形成纠错对。实际应用中,可以采用数个类似的纠错对,形成黑名单。并根据该黑名单地纠错文本中的发送纠正的片段进行干预,例如检测纠正的目标片段和原始片段是否为一对纠错对,若时,则将目标片段还原为原始片段;否则保留纠正文本。
另外,长文本纠错主要对错误的信息进行纠正,而不用纠正同义词。本实施例中,还可以预先存储有同义词表,存储每一个词语片段及其对应的同义词片段。然后根据同义词表检测发生纠正的目标片段和对应的原始片段是否属于同义词,若属于,则目标片段还原为原始片段;否则保留纠正文本。
图7为本实施例的基于人工智能的长文本纠错方法的一种纠错结果示意图。例如采用本实施例的基于人工智能的长文本纠错方法,对长文本“这师夫干的又快又好”,进行纠错之后,可以得到的纠错文本为“这师父干得又快又好”,可以得知,本实施例的技术方案可以高质量地对长文本进行纠错。
本实施例的基于人工智能的长文本纠错方法,能够对长文本中的错误片段进行纠正,有效地提高长文本的编辑质量。本实施例的技术方案基于长文本纠错场景提出,可以适用于正文场景下的纠错行为,且能够快速有效的产出纠错结果,纠错效率较高,可以便于辅助提升长文本的内容生产质量,提升用户体验。且本实施例的技术方案,还可以继续进行错误片段替换干预,进一步优化纠错结果。
上述图3和图5所示实施例为本发明的文本纠错方案所应用的长文本纠错场景。实际应用中,上述图3、图5所示实施例可以使用在上述图1和图2所示实施例之后,实现根据纠错文本的反馈信息以及纠错文本中的目标片段和原始片段,对片段打分模型进行增量训练,从而进一步提高片段打分模型的预测打分的精准度。
图8为本发明的基于人工智能的文本纠错装置实施例一的结构图。如图8所示,本实施例的基于人工智能的文本纠错装置,具体可以包括:
片段信息获取模块10用于获取纠错文本中已纠错的目标片段和目标片段在原文本中对应的原始片段;目标片段为基于预先训练的片段打分模型对原文本进行纠错处理时,从原始片段的多个候选片段中选出的;
反馈信息获取模块11用于获取用户对基于纠错文本而反馈的目标结果的反馈信息;
增量训练模块12用于根据片段信息获取模块10获取的目标片段、原始片段以及反馈信息获取模块11获取的反馈信息,对片段打分模型进行增量训练;
纠错模块13用于基于增量训练模块12训练后的片段打分模型,对后续的原文本进行纠错处理。
本实施例的基于人工智能的文本纠错装置,通过采用上述模块实现基于人工智能的文本纠错处理的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图9为本发明的基于人工智能的文本纠错装置实施例二的结构图。如图9所示,本实施例的基于人工智能的文本纠错装置在上述图8所示实施例的技术方案的基础上,进一步还可以包括如下技术方案。
如图9所示,本实施例的基于人工智能的文本纠错装置中,增量训练模块12,具体包括:
相对特征信息获取单元121用于获取片段信息获取模块10获取的目标片段和原始片段之间的相对特征信息;
确定单元122用于根据反馈信息获取模块11获取的反馈信息确定目标片段的理想打分;
训练单元123用于根据相对特征信息获取单元121获取的相对特征信息和确定单元122确定的目标片段的理想打分,对片段打分模型进行训练。
进一步可选地,本实施例的基于人工智能的文本纠错装置中,相对特征信息获取单元121用于执行如下至少一种操作:
获取片段信息获取模块10获取的目标片段和原始片段之间的相对质量特征;
获取片段信息获取模块10获取的目标片段和原始片段之间的相对历史行为特征;和
获取片段信息获取模块10获取的目标片段和原始片段之间的语义相似度特征。
进一步可选地,相对特征信息获取单元121具体用于:
获取片段信息获取模块10获取的原始片段在语料库中出现的频次、原始片段与在原文本中的上下文片段的组合在语料库中一起出现的频次;
获取片段信息获取模块10获取的目标片段在语料库中出现的频次、目标片段与上下文片段的组合在语料库中一起出现的频次;
根据原始片段在语料库中出现的频次、原始片段与上下文片段的组合在语料库中一起出现的频次、目标片段在语料库中出现的频次以及目标片段与上下文片段的组合在语料库中出现的频次,获取目标片段与原始片段在语料库中出现的频次比以及目标片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次比,和/或目标片段与原始片段在语料库中出现的频次差以及目标片段和上下文片段的组合与原始片段和上下文片段的组合在语料库中出现的频次差。
进一步可选地,相对特征信息获取单元121具体用于:
获取PT表中片段信息获取模块10获取的原始片段修改为片段信息获取模块10获取的目标片段的第一修改频次;
获取PT表中片段信息获取模块10获取的原始片段与上下文片段的组合修改为目标片段与上下文片段的组合的第二修改频次;
根据第一修改频次和第二修改频次,得到频次比和/或频次差,频次比等于第二修改频次除以第一修改频次,频次差等于第二修改频次减去第一修改频次。
进一步可选地,相对特征信息获取单元121具体用于:
获取片段信息获取模块10获取的目标片段与原始片段的语义相似度;和/或
获取片段信息获取模块10获取的目标片段和上下文片段的组合与原始片段和上下文片段的组合的语义相似度。
进一步可选地,相对特征信息获取单元121具体还用于执行如下至少一种;
根据预设的专用名词库,分别获取原始片段和目标片段的专用名词特征;以及
获取目标片段与原始片段的拼音编辑距离特征。
进一步可选地,本实施例的基于人工智能的文本纠错装置中,确定单元122具体用于:
根据反馈信息获取模块11获取的反馈信息,推测用户是否接受纠错文本中采用目标片段替换原始片段;
若推测用户接受,则将目标片段的理想打分设置为1;否则,若推测用户不接受,则将目标片段的理想打分设置为0。
进一步可选地,本实施例的基于人工智能的文本纠错装置中,训练单元123具体用于:
将相对特征信息输入至片段打分模型,获取片段打分模型的预测打分;
获取预测打分和理想打分的大小关系;
若预测打分小于理想打分,调整片段打分模型的参数,使得片段打分模型输出的预测打分朝增大的方向变动;
若预测打分大于理想打分,调整片段打分模型的参数,使得片段打分模型输出的预测打分朝减小的方向变动。
本实施例的基于人工智能的文本纠错装置,通过采用上述模块实现基于人工智能的文本纠错处理的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图10为本发明的计算机设备实施例的结构图。如图10所示,本实施例的计算机设备,包括:一个或多个处理器30,以及存储器40,存储器40用于存储一个或多个程序,当存储器40中存储的一个或多个程序被一个或多个处理器30执行,使得一个或多个处理器30实现如上图1-图7所示实施例的信息处理方法。图10所示实施例中以包括多个处理器30为例。
例如,图11为本发明提供的一种计算机设备的示例图。图11示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图11显示的计算机设备12a仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图11所示,计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于:一个或者多个处理器16a,系统存储器28a,连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。
总线18a表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28a可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34a可以用于读写不可移动的、非易失性磁介质(图11未显示,通常称为“硬盘驱动器”)。尽管图11中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明上述图1-图9各实施例的功能。
具有一组(至少一个)程序模块42a的程序/实用工具40a,可以存储在例如系统存储器28a中,这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图9各实施例中的功能和/或方法。
计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信,还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信,和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且,计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12a使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16a通过运行存储在系统存储器28a中的程序,从而执行各种功能应用以及数据处理,例如实现上述实施例所示的基于人工智能的文本纠错方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所示的基于人工智能的文本纠错方法。
本实施例的计算机可读介质可以包括上述图11所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。
随着科技的发展,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载,或者采用其他方式获取。因此,本实施例中的计算机可读介质不仅可以包括有形的介质,还可以包括无形的介质。
本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (20)

1.一种基于人工智能的文本纠错方法,其特征在于,所述方法包括:
获取纠错文本中已纠错的目标片段和所述目标片段在原文本中对应的原始片段;所述目标片段为基于预先训练的片段打分模型对所述原文本进行纠错处理时,从所述原始片段的多个候选片段中选出的;
获取用户对基于所述纠错文本而反馈的目标结果的反馈信息;
根据所述目标片段、所述原始片段以及所述反馈信息,对所述片段打分模型进行增量训练;
基于训练后的所述片段打分模型,对后续的原文本进行纠错处理。
2.根据权利要求1所述的方法,其特征在于,根据所述目标片段、所述原始片段以及所述反馈信息,对所述片段打分模型进行增量训练,具体包括:
获取所述目标片段和所述原始片段之间的相对特征信息;
根据所述反馈信息确定所述目标片段的理想打分;
根据所述相对特征信息和所述目标片段的理想打分,对所述片段打分模型进行训练。
3.根据权利要求2所述的方法,其特征在于,获取所述目标片段和所述原始片段之间的相对特征信息,包括如下至少一种:
获取所述目标片段和所述原始片段之间的相对质量特征;
获取所述目标片段和所述原始片段之间的相对历史行为特征;和
获取所述目标片段和所述原始片段之间的语义相似度特征。
4.根据权利要求3所述的方法,其特征在于,获取所述目标片段和所述原始片段之间的相对质量特征,具体包括:
获取所述原始片段在语料库中出现的频次、所述原始片段与在所述原文本中的上下文片段的组合在所述语料库中一起出现的频次;
获取所述目标片段在所述语料库中出现的频次、所述目标片段与所述上下文片段的组合在所述语料库中一起出现的频次;
根据所述原始片段在所述语料库中出现的频次、所述原始片段与所述上下文片段的组合在所述语料库中一起出现的频次、所述目标片段在所述语料库中出现的频次以及所述目标片段与所述上下文片段的组合在所述语料库中出现的频次,获取所述目标片段与所述原始片段在所述语料库中出现的频次比以及所述目标片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次比,和/或所述目标片段与所述原始片段在所述语料库中出现的频次差以及所述目标片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次差。
5.根据权利要求4所述的方法,其特征在于,获取所述目标片段和所述原始片段之间的相对历史行为特征,具体包括:
获取短语替换表中所述原始片段修改为所述目标片段的第一修改频次;
获取短语替换表中所述原始片段与所述上下文片段的组合修改为所述目标片段与所述上下文片段的组合的第二修改频次;
根据所述第一修改频次和所述第二修改频次,得到频次比和/或频次差,所述频次比等于所述第二修改频次除以所述第一修改频次,所述频次差等于所述第二修改频次减去所述第一修改频次。
6.根据权利要求4所述的方法,其特征在于,获取所述目标片段和所述原始片段之间的语义相似度特征,具体包括:
获取所述目标片段与所述原始片段的语义相似度;和/或
获取所述目标片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合的语义相似度。
7.根据权利要求3-6任一所述的方法,其特征在于,获取所述目标片段和所述原始片段之间的相对特征信息,还包括如下至少一种;
根据预设的专用名词库,分别获取所述原始片段和所述目标片段的专用名词特征;以及
获取所述目标片段与所述原始片段的拼音编辑距离特征。
8.根据权利要求2所述的方法,其特征在于,根据所述反馈信息确定所述目标片段的理想打分,具体包括:
根据所述反馈信息,推测所述用户是否接受所述纠错文本中采用所述目标片段替换所述原始片段;
若推测所述用户接受,则将所述目标片段的理想打分设置为1;否则,若推测所述用户不接受,则将所述目标片段的理想打分设置为0。
9.根据权利要求2所述的方法,其特征在于,根据所述相对特征信息和所述目标片段的理想打分,对所述片段打分模型进行训练,具体包括:
将所述相对特征信息输入至所述片段打分模型,获取所述片段打分模型的预测打分;
获取所述预测打分和所述理想打分的大小关系;
若所述预测打分小于所述理想打分,调整所述片段打分模型的参数,使得所述片段打分模型输出的所述预测打分朝增大的方向变动;
若所述预测打分大于所述理想打分,调整所述片段打分模型的参数,使得所述片段打分模型输出的所述预测打分朝减小的方向变动。
10.一种基于人工智能的文本纠错装置,其特征在于,所述装置包括:
片段信息获取模块,用于获取纠错文本中已纠错的目标片段和所述目标片段在原文本中对应的原始片段;所述目标片段为基于预先训练的片段打分模型对所述原文本进行纠错处理时,从所述原始片段的多个候选片段中选出的;
反馈信息获取模块,用于获取用户对基于所述纠错文本而反馈的目标结果的反馈信息;
增量训练模块,用于根据所述目标片段、所述原始片段以及所述反馈信息,对所述片段打分模型进行增量训练;
纠错模块,用于基于训练后的所述片段打分模型,对后续的原文本进行纠错处理。
11.根据权利要求10所述的装置,其特征在于,所述增量训练模块,具体包括:
相对特征信息获取单元,用于获取所述目标片段和所述原始片段之间的相对特征信息;
确定单元,用于根据所述反馈信息确定所述目标片段的理想打分;
训练单元,用于根据所述相对特征信息和所述目标片段的理想打分,对所述片段打分模型进行训练。
12.根据权利要求11所述的装置,其特征在于,所述相对特征信息获取单元,用于执行如下至少一种操作:
获取所述目标片段和所述原始片段之间的相对质量特征;
获取所述目标片段和所述原始片段之间的相对历史行为特征;和
获取所述目标片段和所述原始片段之间的语义相似度特征。
13.根据权利要求12所述的装置,其特征在于,所述相对特征信息获取单元,具体用于:
获取所述原始片段在语料库中出现的频次、所述原始片段与在所述原文本中的上下文片段的组合在所述语料库中一起出现的频次;
获取所述目标片段在所述语料库中出现的频次、所述目标片段与所述上下文片段的组合在所述语料库中一起出现的频次;
根据所述原始片段在所述语料库中出现的频次、所述原始片段与所述上下文片段的组合在所述语料库中一起出现的频次、所述目标片段在所述语料库中出现的频次以及所述目标片段与所述上下文片段的组合在所述语料库中出现的频次,获取所述目标片段与所述原始片段在所述语料库中出现的频次比以及所述目标片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次比,和/或所述目标片段与所述原始片段在所述语料库中出现的频次差以及所述目标片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合在所述语料库中出现的频次差。
14.根据权利要求13所述的装置,其特征在于,所述相对特征信息获取单元,具体用于:
获取短语替换表中所述原始片段修改为所述目标片段的第一修改频次;
获取短语替换表中所述原始片段与所述上下文片段的组合修改为所述目标片段与所述上下文片段的组合的第二修改频次;
根据所述第一修改频次和所述第二修改频次,得到频次比和/或频次差,所述频次比等于所述第二修改频次除以所述第一修改频次,所述频次差等于所述第二修改频次减去所述第一修改频次。
15.根据权利要求13所述的装置,其特征在于,所述相对特征信息获取单元,具体用于:
获取所述目标片段与所述原始片段的语义相似度;和/或
获取所述目标片段和所述上下文片段的组合与所述原始片段和所述上下文片段的组合的语义相似度。
16.根据权利要求12-15任一所述的装置,其特征在于,所述相对特征信息获取单元,还用于执行如下至少一种;
根据预设的专用名词库,分别获取所述原始片段和所述目标片段的专用名词特征;以及
获取所述目标片段与所述原始片段的拼音编辑距离特征。
17.根据权利要求11所述的装置,其特征在于,所述确定单元,具体用于:
根据所述反馈信息,推测所述用户是否接受所述纠错文本中采用所述目标片段替换所述原始片段;
若推测所述用户接受,则将所述目标片段的理想打分设置为1;否则,若推测所述用户不接受,则将所述目标片段的理想打分设置为0。
18.根据权利要求11所述的装置,其特征在于,所述训练单元,具体用于:
将所述相对特征信息输入至所述片段打分模型,获取所述片段打分模型的预测打分;
获取所述预测打分和所述理想打分的大小关系;
若所述预测打分小于所述理想打分,调整所述片段打分模型的参数,使得所述片段打分模型输出的所述预测打分朝增大的方向变动;
若所述预测打分大于所述理想打分,调整所述片段打分模型的参数,使得所述片段打分模型输出的所述预测打分朝减小的方向变动。
19.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
20.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。
CN201711159880.7A 2017-11-20 2017-11-20 基于人工智能的文本纠错方法、装置及计算机可读介质 Active CN108052499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711159880.7A CN108052499B (zh) 2017-11-20 2017-11-20 基于人工智能的文本纠错方法、装置及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711159880.7A CN108052499B (zh) 2017-11-20 2017-11-20 基于人工智能的文本纠错方法、装置及计算机可读介质

Publications (2)

Publication Number Publication Date
CN108052499A CN108052499A (zh) 2018-05-18
CN108052499B true CN108052499B (zh) 2021-06-11

Family

ID=62118964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711159880.7A Active CN108052499B (zh) 2017-11-20 2017-11-20 基于人工智能的文本纠错方法、装置及计算机可读介质

Country Status (1)

Country Link
CN (1) CN108052499B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831212B (zh) * 2018-06-28 2020-10-23 深圳语易教育科技有限公司 一种口语教学辅助装置及方法
CN109032375B (zh) * 2018-06-29 2022-07-19 北京百度网讯科技有限公司 候选文本排序方法、装置、设备及存储介质
CN109766538B (zh) * 2018-11-21 2023-12-15 北京捷通华声科技股份有限公司 一种文本纠错方法、装置、电子设备以及存储介质
CN111339755A (zh) * 2018-11-30 2020-06-26 中国移动通信集团浙江有限公司 一种局数据自动纠错方法及装置
CN109376362A (zh) * 2018-11-30 2019-02-22 武汉斗鱼网络科技有限公司 一种纠错文本的确定方法以及相关设备
CN110399607B (zh) * 2019-06-04 2023-04-07 深思考人工智能机器人科技(北京)有限公司 一种基于拼音的对话系统文本纠错系统及方法
CN112733529B (zh) * 2019-10-28 2023-09-29 阿里巴巴集团控股有限公司 文本纠错方法和装置
CN112905023B (zh) * 2019-12-03 2024-12-27 北京搜狗科技发展有限公司 一种输入纠错方法、装置和用于输入纠错的装置
CN111160013B (zh) * 2019-12-30 2023-11-24 北京百度网讯科技有限公司 文本纠错方法及装置
CN111832288B (zh) * 2020-07-27 2023-09-29 网易有道信息技术(北京)有限公司 文本修正方法及装置、电子设备、存储介质
CN112541342B (zh) * 2020-12-08 2022-07-22 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备及存储介质
CN113159035B (zh) * 2021-05-10 2022-06-07 北京世纪好未来教育科技有限公司 图像处理方法、装置、设备及存储介质
CN114328798B (zh) * 2021-11-09 2024-02-23 腾讯科技(深圳)有限公司 搜索文本的处理方法、装置、设备、存储介质和程序产品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003083858A1 (en) * 2002-03-28 2003-10-09 Koninklijke Philips Electronics N.V. Time domain watermarking of multimedia signals
EP1593049A1 (en) * 2003-02-11 2005-11-09 Telstra Corporation Limited System for predicting speec recognition accuracy and development for a dialog system
CN101866336A (zh) * 2009-04-14 2010-10-20 华为技术有限公司 获取评价单元、建立句法路径词典的方法、装置及系统
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和系统
CN105374356A (zh) * 2014-08-29 2016-03-02 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
CN106528597A (zh) * 2016-09-23 2017-03-22 百度在线网络技术(北京)有限公司 兴趣点的标注方法以及装置
CN106598939A (zh) * 2016-10-21 2017-04-26 北京三快在线科技有限公司 一种文本纠错方法及装置、服务器、存储介质
CN107133209A (zh) * 2017-03-29 2017-09-05 北京百度网讯科技有限公司 基于人工智能的评论生成方法及装置、设备与可读介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3899290B2 (ja) * 2002-06-10 2007-03-28 富士通株式会社 発信者特定方法、プログラム、装置及び記録媒体
CN107239446B (zh) * 2017-05-27 2019-12-03 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法
CN107357775A (zh) * 2017-06-05 2017-11-17 百度在线网络技术(北京)有限公司 基于人工智能的循环神经网络的文本纠错方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003083858A1 (en) * 2002-03-28 2003-10-09 Koninklijke Philips Electronics N.V. Time domain watermarking of multimedia signals
EP1593049A1 (en) * 2003-02-11 2005-11-09 Telstra Corporation Limited System for predicting speec recognition accuracy and development for a dialog system
CN101866336A (zh) * 2009-04-14 2010-10-20 华为技术有限公司 获取评价单元、建立句法路径词典的方法、装置及系统
CN105374356A (zh) * 2014-08-29 2016-03-02 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和系统
CN106528597A (zh) * 2016-09-23 2017-03-22 百度在线网络技术(北京)有限公司 兴趣点的标注方法以及装置
CN106598939A (zh) * 2016-10-21 2017-04-26 北京三快在线科技有限公司 一种文本纠错方法及装置、服务器、存储介质
CN107133209A (zh) * 2017-03-29 2017-09-05 北京百度网讯科技有限公司 基于人工智能的评论生成方法及装置、设备与可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Vector representation of non-standard spelling using dynamic time warping and a denoising autoencoder";Mehdi Ben Lazreg;《2017 IEEE Congress on Evolutionary Computation》;20140608;第1-4页 *

Also Published As

Publication number Publication date
CN108052499A (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
CN108052499B (zh) 基于人工智能的文本纠错方法、装置及计算机可读介质
CN108091328B (zh) 基于人工智能的语音识别纠错方法、装置及可读介质
KR102577514B1 (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN107678561A (zh) 基于人工智能的语音输入纠错方法及装置
CN106534548B (zh) 语音纠错方法和装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
CN106202153A (zh) 一种es搜索引擎的拼写纠错方法及系统
CN113948066B (zh) 一种实时转译文本的纠错方法、系统、存储介质和装置
Chien et al. Topic-based hierarchical segmentation
CN113705237B (zh) 融合关系短语知识的关系抽取方法、装置和电子设备
CN112347241A (zh) 一种摘要提取方法、装置、设备及存储介质
CN114154487A (zh) 文本自动纠错方法、装置、电子设备及存储介质
CN116468009A (zh) 文章生成方法、装置、电子设备和存储介质
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
CN117973372A (zh) 一种基于拼音约束的中文语法纠错方法
CN112257456A (zh) 基于文本编辑技术的文本生成模型的训练方法及装置
CN112447172B (zh) 一种语音识别文本的质量提升方法和装置
CN114757203A (zh) 基于对比学习的中文句子精简方法和系统
CN112364666B (zh) 文本表征方法、装置及计算机设备
CN113128224B (zh) 一种中文纠错方法、装置、设备以及可读存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN114707489B (zh) 标注数据集获取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant