Nothing Special   »   [go: up one dir, main page]

CN114692639A - 一种文本纠错方法和电子设备 - Google Patents

一种文本纠错方法和电子设备 Download PDF

Info

Publication number
CN114692639A
CN114692639A CN202011565185.2A CN202011565185A CN114692639A CN 114692639 A CN114692639 A CN 114692639A CN 202011565185 A CN202011565185 A CN 202011565185A CN 114692639 A CN114692639 A CN 114692639A
Authority
CN
China
Prior art keywords
error correction
confidence value
text
intention
confidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011565185.2A
Other languages
English (en)
Inventor
陈开济
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202011565185.2A priority Critical patent/CN114692639A/zh
Priority to PCT/CN2021/137440 priority patent/WO2022135206A1/zh
Publication of CN114692639A publication Critical patent/CN114692639A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)

Abstract

本申请提供了一种文本纠错方法和电子设备,该方法及电子设备接收第一文本;利用意图识别模型识别所述第一文本的意图和槽位;根据所述意图选择对应的纠错模型进行纠错,所述纠错模型包括通用纠错模型和/或领域纠错模型;输出纠错后的目标文本。本申请提供的方案可以解决当识别后的文本中存在多字、漏字和错字问题导致无法纠错时或当识别到的属性信息范围不准确导致无法纠错时,仍然可以对识别后的信息进行高准确率的文本纠错,保证识别的意图和槽位的准确性。

Description

一种文本纠错方法和电子设备
技术领域
本申请涉及纠错技术领域,尤其涉及一种文本纠错方法和电子设备。
背景技术
随着智能设备的普及和自然语言处理技术的发展,语音输入因其方便、快捷的特性而成为越来越重要的人机交互手段。但是由于语言的复杂多样和周围噪声影响,语音识别的结果往往与用户实际想输入的内容有较大的偏差,这就需要针对语音识别后的文本做进一步的纠错处理,才能应用到实际系统中。
针对语音识别后的文本进行进一步纠错处理,一种方案是针对语音识别后的文本执行搜索意图识别,确定对应的属性信息后,通过计算该属性信息与候选词库中词的相似度来进行纠错。候选词库维护格式为易错词到纠错词的映射词表,通过文本相似度函数依次针对词库中的易错词进行匹配,选择相似度最高的易错词所对应的纠错词作为纠错结果。但是,当文本错误导致意图识别发生错误时,该方案无法正确执行纠错逻辑。同时该方案通过易错词典的方式做错误词的定界,当意图识别方法提取到的属性信息范围不准确导致提取到的词未包含在易错词典中时,无法提供纠错能力。
另一种方案是针对经过意图识别后的文本进行词典匹配,同时识别词典匹配词的前缀词,定义前缀词和词典匹配词所属领域组合对应的可能意图结果作为纠错规则,通过执行该规则判断通过词典识别出来的可能意图结果与模型输出的意图是否匹配。当结果不匹配时,修改意图识别结果并将正确的识别结果输出。同样地,当识别后的文本中存在错字、多字、漏字导致词典无法匹配时,该方案针对意图的纠错能力也无法生效。
发明内容
本申请提供一种文本纠错方法和电子设备,可以解决当识别后的文本中存在多字、漏字和错字问题导致无法纠错时或当识别到的属性信息范围不准确导致无法纠错时,仍然可以对识别后的信息进行高准确率的文本纠错,保证识别的意图和槽位的准确性。
第一方面,提供一种文本纠错方法,所述方法应用于电子设备,包括:接收第一文本;利用意图识别模型识别所述第一文本的意图和槽位;根据所述意图选择对应的纠错模型进行纠错,所述纠错模型包括通用纠错模型和/或领域纠错模型;输出纠错后的目标文本。
本申请提供的方案,电子设备基于意图识别模型识别的意图选择对应的纠错模型进行纠错,可以在识别后的文本中存在多字、漏字和错字问题导致无法纠错或当识别到的属性信息范围不准确导致无法纠错时,仍然可以对意图和槽位进行统一纠错,保证识别的意图和槽位的准确性。
结合第一方面,在一些可能的实现方式中,所述根据所述意图选择对应的纠错模型进行纠错,包括:
若所述意图无对应的领域纠错模型,利用所述通用纠错模型进行纠错;
若所述意图有对应的领域纠错模型,利用所述领域纠错模型进行纠错。
本申请的领域纠错模型可以包括多个领域的纠错模型,对于不同的领域可以利用对应的领域纠错模型进行纠错。例如,该领域纠错模型中包括的多个领域为:音视频领域、地点领域、人名领域等,不予限制。
当然,在一些实施例中,领域纠错模型也可以是根据类别或类型划分得到的,不予限制。
还需要说明的是,对于上述领域的划分可以不进行限制,可以将音视频领域划分为一类,对于意图属于音视频领域的均可以利用音视频领域纠错模型进行纠错;也可以将音频领域和视频领域划分为单独的两类,对于意图属于音频领域的可以利用音频领域纠错模型进行纠错,对于意图属于视频领域的可以利用视频领域纠错模型进行纠错;不予限制。此外,该领域纠错模型中包括的领域可以定期或不定期进行更新,以提高纠错能力。
本申请提供的方案,在电子设备识别的第一文本的意图无对应的领域纠错模型时,利用通用纠错模型进行纠错,在电子设备识别的第一文本的意图有对应的领域纠错模型时,利用对应的领域纠错模型进行纠错,可以进一步保证识别的意图和槽位的准确性。
结合第一方面,在一些可能的实现方式中,所述方法还包括:输出所述目标文本的响应。
本申请中的目标文本的响应可以为与该目标文本有关的信息,如本申请实施例中的目标文本为“播放流浪地球”,该目标文本的响应即为与流浪地球有关的视频,如视频1:流浪地球的电影;视频2:有关流浪地球的花絮;视频3:有关流浪地球的明星资讯;视频4:有关流浪地球的MV;视频5:有关流浪地球的纪录片等。
本申请提供的方案,除了输出上述纠错后的目标文本外,还可以输出该目标文本的响应,即与该目标文本有关的信息,用户可以从中选择所需的信息,从而提高用户体验。
结合第一方面,在一些可能的实现方式中,所述输出纠错后的目标文本,包括:
根据纠错结果和置信度值输出所述目标文本。
本申请提供的方案,电子设备可以根据纠错结果和置信度值输出目标文本,可以进一步保证识别的意图和槽位的准确性。
结合第一方面,在一些可能的实现方式中,所述利用意图识别模型识别所述第一文本的意图和槽位,包括:
利用所述意图识别模型识别所述第一文本的意图和槽位,并获得第一置信度值;
所述根据所述意图选择对应的纠错模型进行纠错,包括:
根据所述意图选择对应的纠错模型进行纠错,并获得第二置信度值;
所述根据纠错结果和置信度值输出所述目标文本,包括:
利用意图识别模型识别第二文本的意图和槽位,并获得第三置信度值,所述第二文本为对所述第一文本进行纠错后的文本或对纠错后的所述第一文本进行槽位替换后的文本;
根据所述第一置信度值、所述第二置信度值和所述第三置信度值输出所述目标文本。
本申请提供的方案,电子设备根据利用意图识别模型识别第一文本所对应的第一置信度值、利用纠错模型纠错第一文本所对应的第二置信度值以及利用意图识别模型识别第二文本所对应的第三置信度值输出目标文本,可以进一步保证识别的意图和槽位的准确性。
结合第一方面,在一些可能的实现方式中,若选择利用所述领域纠错模型进行纠错,所述根据所述第一置信度值、所述第二置信度值和所述第三置信度值输出所述目标文本,包括:
若所述第三置信度值大于或等于所述第一置信度值,根据所述第一置信度值和所述第二置信度值确定所述第二文本的第一联合纠错置信度值,所述第二文本为对纠错后的所述第一文本进行槽位替换后的文本,所述第一联合纠错置信度值包括多个置信度值;
输出所述第一联合纠错置信度值中最大的置信度值所对应的目标文本。
本申请提供的方案,电子设备选择利用领域纠错模型进行纠错时,若第三置信度值大于或等于第一置信度值,输出第一联合纠错置信度值中最大的置信度值所对应的目标文本。由于第三置信度值大于或等于第一置信度值,即可以认为对第一文本进行纠错后的纠错结果是正确的,因此,可以利用第二置信度值和第一置信度值确定第二文本的第一联合纠错置信度值,并输出其中最大的置信度值所对应的目标文本,以保证识别的意图和槽位的准确性。
结合第一方面,在一些可能的实现方式中,所述第一联合纠错置信度值包括的多个置信度值由所述第一置信度值和所述第二置信度值中具有相同意图的置信度值相乘得到。
结合第一方面,在一些可能的实现方式中,所述方法还包括:
若所述第三置信度值小于所述第一置信度值,减小所述第二置信度值;
根据所述第一置信度值和减小后的所述第二置信度值确定所述第二文本的第二联合纠错置信度值,所述第二联合纠错置信度值包括多个置信度值;
输出所述第二联合纠错置信度值中最大的置信度值所对应的目标文本。
本申请提供的方案,电子设备选择利用领域纠错模型进行纠错时,若第三置信度值小于第一置信度值,输出第二联合纠错置信度值中最大的置信度值所对应的目标文本,且该第二联合纠错置信度是根据第一置信度值和减小后的第二置信度值确定的。由于第三置信度值小于第一置信度值,即可以认为对第一文本进行纠错后的纠错结果是不正确的,因此,可以利用减小后的第二置信度值和第一置信度值确定第二文本的第二联合纠错置信度值,并输出其中最大的置信度值所对应的目标文本,以尽量避免由于错误纠错而导致的识别错误问题。
结合第一方面,在一些可能的实现方式中,所述第二联合纠错置信度值包括的多个置信度值由所述第一置信度值和减小后的所述第二置信度值具有相同意图的置信度值相乘得到。
结合第一方面,在一些可能的实现方式中,若选择利用所述通用纠错模型进行纠错,所述根据所述第一置信度值、所述第二置信度值和所述第三置信度值输出所述目标文本,包括:
根据所述第二置信度值和所述第三置信度值确定所述第二文本的第三联合纠错置信度值,所述第二文本为对所述第一文本进行纠错后的文本;
输出所述第一置信度值和所述第三联合纠错置信度值中最大的置信度值所对应的目标文本。
本申请提供的方案,电子设备选择利用通用纠错模型进行纠错,根据第二置信度值和第三置信度值确定第二文本的第三联合纠错置信度值,并输出其中最大的置信度值所对应的目标文本,可以实现在识别后的意图无对应的领域纠错模型时也能够进行纠错,以进一步提高识别的意图和槽位的准确性。
结合第一方面,在一些可能的实现方式中,所述第三联合纠错置信度值由所述第二置信度值和所述第三置信度值相乘得到。
结合第一方面,在一些可能的实现方式中,若所述第二置信度值和所述第三置信度值分别包括多个置信度值,则所述第三联合纠错置信度值包括多个置信度值,所述第三联合纠错置信度值包括的多个置信度值由所述第二置信度值和所述第三置信度值中具有相同意图的置信度值相乘得到。
本申请提供的方案,在第二置信度值和第三置信度值分别包括多个置信度值时,第三联合纠错置信度值包括的多个置信度值由第二置信度值和第三置信度值中具有相同意图的置信度值相乘得到,可以进一步保证识别的意图和槽位的准确性。
第二方面,提供了一种装置,该装置包含在电子设备中,该装置具有实现上述方面及上述方面的可能实现方式中电子设备行为的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。
第三方面,提供了一种电子设备,包括:一个或多个处理器;存储器;一个或者多个应用程序;以及一个或多个计算机程序。其中,一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令。当指令被电子设备执行时,使得电子设备执行上述第一方面任一项可能的实现中的文本纠错方法。
第四方面,提供了一种芯片系统,包括至少一个处理器,当程序指令在所述至少一个处理器中执行时,使得上述第一方面任一项可能的实现中的文本纠错方法在所述电子设备上的功能得以实现。
第五方面,提供了一种计算机存储介质,包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行上述第一方面任一项可能的实现中的文本纠错方法。
第六方面,提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面任一项可能的设计中的文本纠错方法。
附图说明
图1是是本申请实施例提供的一种电子设备的硬件结构示意图。
图2是本申请实施例提供的一种电子设备的软件结构示意图。
图3是本申请实施例提供的一组GUI的示意图。
图4是本申请实施例提供的一种文本纠错方法的示意性流程图。
图5是本申请实施例提供的另一种文本纠错方法的示意性流程图。
图6是本申请实施例提供的又一种文本纠错方法的示意性流程图。
图7是本申请实施例提供的另一种电子设备的示意性框图。
图8是本申请实施例提供的又一种电子设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
本申请提供了一种文本纠错方法,电子设备通过结合意图识别模型和纠错模型识别用户输入的内容,可以在识别后的文本中存在多字、漏字和错字问题导致无法纠错或当识别到的属性信息范围不准确导致无法纠错时,仍然可以对意图和槽位进行统一纠错,保证识别的意图和槽位的准确性。
本申请实施例提供的文本纠错方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等电子设备上,本申请实施例对电子设备的具体类型不作任何限制。
示例性的,图1示出了电子设备100的结构示意图。电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。本申请实施例中的利用意图识别模型对原始文本的意图和槽位的识别、利用纠错模型对识别的意图和槽位进行的纠错以及对纠错结果进行的处理均可由该处理器110实现。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据,例如,可以用于存储本申请中的意图识别模型或纠错模型(包括领域纠错模型和通用纠错模型)等。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等,本申请实施例中可以显示用户输入的语音经过识别后的文本,以及与该文本有关的信息。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C(如本申请实施例中用户可以通过该麦克风170C输入语音)。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
电子设备100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android系统为例,示例性说明电子设备100的软件结构。
图2是本申请实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。应用程序层可以包括一系列应用程序包。
如图2所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息,语音助手(也可以称为智慧语音)等应用程序。
可选地,在一些实施例中,该语音助手也可以为应用程序框架层,通过预设接口可以调用该语音助手。
如图2所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频(如本申请中的有关流浪地球的视频),图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(media libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
为了便于理解本申请的方案,下文先对本申请涉及到的术语进行说明。
1、文本纠错
文本纠错(text error correction),其主要目的是对输入的原始文本进行错误检测(error detection),并根据自然语言处理技术对错误进行纠正(error correction)。原始文本可以是书籍报刊上文字内容的扫描识别结果、社交网络如新浪微博、微信朋友圈中的内容,也可以是经过自动语音识别(automatic speech recognition,ASR)模块识别的用户输入语音。这些文本难以避免地会含有一定错误(或者是不规范用语),这些错误会导致后续处理(如文本翻译、文本实体识别、意图识别等)的准确率下降。
从纠错的目标对象来区分,纠错模型大致可以分为两大类:通用纠错模型和领域纠错模型。
通用纠错模型的纠错对象为不限定领域的文本,主要通过引入读音、字形、语法、知识库和语言模型特征进行错误检测和纠错。
领域纠错模型的纠错对象为限定领域的文本,主要通过构建领域词典或领域库,利用模糊匹配的算法获取纠错文本。
2、意图识别
意图识别(广义上即自然语言理解,(natural language understanding,NLU))是语音助手的重要基础能力之一,其主要目的是理解用户输入的自然语言文本描述所对应的用户希望执行的操作,并将该操作用意图(intent,该操作在目标系统中对应的动作或所属领域)和槽位(slot,完成该操作需要的参数)来描述,并通过任务执行模型转换为对应系统上的接口调用或应用执行动作,返回对应的执行结果,以达成通过自然语言发起操作的效果。
意图识别依赖于对用户输入的自然语言句子中语义信息的理解,由于用户用语不规范或ASR识别出错导致该文本出现错字、多字、漏字等问题时,会影响意图识别的准确率,语音助手也就无法正确处理用户希望执行的操作。
为了便于理解,本申请以下实施例将以具有图1和图2所示结构的手机为例,结合附图对本申请实施例提供的文本纠错方法进行具体阐述。
图3示出了手机的一组GUI,其中,从图3中的(a)到图3中的(d)示出了手机中的语音助手识别用户发出的语音错误时的纠错方法。
参见图3中的(a)所示的GUI,该GUI为手机的桌面。当手机检测到用户点击桌面上的语音助手的图标301的操作后,可以启动该语音助手,显示如图3中的(b)所示的GUI,该GUI可以称为语音输入界面。
参见图3中的(b)所示的GUI,图中所示的带有多个竖条的矩形框可以称为“语音识别框”,用于识别用户输入的语音。
在实际场景中,该“语音识别框”中的多个竖条可以持续处于动态变化中,图中所示的竖条仅为示例性表示,不应对本申请造成特别限定。
图3中的(b)还示出了用户可能或用户经常使用语音助手识别的文本,如图中所示的“明天早上8点叫醒我”、“打开手电筒”、“声音调到最大”等。
在启动该语音助手后,用户可以语音输入“播放流浪地球”,若该用户的发音比较标准且清晰,则语音助手可以准确地识别用户输入的语音,即识别后的文本为“播放流浪地球”,则显示如图3中的(c)所示的GUI;若该用户的发音偏方言或不清晰,则语音助手可能会错误地识别该用户输入的语音,如识别后的文本可能为“播方流浪地球”或“播放流囊地球”,则显示如图3中的(d)所示的GUI。
参见图3中的(c)所示的GUI,图中的右上角显示识别正确后的文本,此时,由于该语音助手识别后的文本是正确的,手机界面可以显示为用户找到的有关流浪地球的多个视频(如视频1:流浪地球的电影;视频2:有关流浪地球的花絮;视频3:有关流浪地球的明星资讯;视频4:有关流浪地球的MV;视频5:有关流浪地球的纪录片等)。对于显示的多个视频,用户可以进一步选择想要播放的视频。
参见图3中的(d)所示的GUI,图中的右上角显示识别错误后的文本,如“播方流浪地球”或“播放流囊地球”,此时,语音助手基于识别后的文本进行查找,并未找到相关内容,手机界面可以显示:“未找到相关内容,试试我找到的播放流浪地球吧”,以及为用户找到的有关流浪地球的多个视频(如视频1:流浪地球的电影;视频2:有关流浪地球的花絮;视频3:有关流浪地球的明星资讯;视频4:有关流浪地球的MV;视频5:有关流浪地球的纪录片等)。对于显示的多个视频,用户可以进一步选择想要播放的视频。
下面结合附图4介绍本申请实施例中电子设备识别用户输入的语音的内部实现过程与判断逻辑。图4示出了本申请实施例提供的一种电子设备的内部算法流程图。
S410、接收用户输入的原始文本。
本申请实施例中的原始文本可以为用户输入的语音经过ASR模块识别后的文本,也可以是对书籍报刊上的文字经过扫描后的文本,还可以是社交网络(如微博、微信朋友圈)的文本,不予限制。
对于用户语音输入的内容,ASR模块识别该用户输入的语音的过程中,可能会正确识别用户语音输入的内容,也可能由于用户的发音问题导致识别错误。
例如,假设用户输入的语音为:“播放流浪地球”,若该用户发音标准且清晰,则ASR模块正确识别后的文本为“播放流浪地球”;若用户的发音不标准或不清晰,ASR模块可能错误地将其识别为:“播方流浪地球”或“播放流囊地球”。
S420、利用意图识别模型识别该原始文本的意图和槽位。
本申请中的意图识别模型可以是训练模型或统计模型或网络模型等,对此不作限制。
如上所述,对于用户输入的文本可以描述为用户希望执行的操作。该操作可以用意图和槽位来表示,且意图可以理解为该操作对应的动作或领域,槽位可以理解为完成该操作需要的参数。
例如,若用户输入的语音为:“播放流浪地球”,且ASR模块正确识别了该用户输入的语音,则利用意图识别模型识别后对应的意图可能为播放视频或播放音乐,对应的槽位为流浪地球。
再如,若用户输入的语音仍然为:“播放流浪地球”,但是ASR模块错误地将其识别为:“播方流浪地球”,则利用意图识别模型识别后对应的意图可能为网页搜索或打电话,对应的槽位为流浪地球。
又如,若用户输入的语音仍然为:“播放流浪地球”,但是ASR模块错误地将其识别为:“播放流囊地球”,则利用意图识别模型识别后对应的意图为播放视频或播放音乐,对应的槽位为流囊地球。
S430、利用纠错模型对识别的意图和槽位进行纠错,得到纠错结果。
本申请中的纠错模型可以包括通用纠错模型和领域纠错模型。如上所述,通用纠错模型的纠错对象为不限定领域的文本,领域纠错模型的对象为限定领域的文本。
需要说明的是,领域纠错模型中可以包括多个领域的纠错模型,对于不同的领域可以利用对应的领域纠错模型进行纠错。例如,该领域纠错模型中包括的多个领域为:音视频领域、地点领域、人名领域等,不予限制。
当然,在一些实施例中,领域纠错模型也可以是根据类别或类型划分得到的,不予限制。
若意图识别模型识别后的意图为音视频领域,则利用音视频领域的纠错模型对其纠错;若意图识别模型识别后的意图为地点领域,则利用地点领域的纠错模型对其纠错。当然,在一些实施例中,若意图识别模型识别后的意图为网页搜索,则无可用的领域纠错模型。
还需要说明的是,对于上述领域的划分可以不进行限制,可以将音视频领域划分为一类,对于意图属于音视频领域的均可以利用音视频领域纠错模型进行纠错;也可以将音频领域和视频领域划分为单独的两类,对于意图属于音频领域的可以利用音频领域纠错模型进行纠错,对于意图属于视频领域的可以利用视频领域纠错模型进行纠错;不予限制。
此外,该领域纠错模型中包括的领域可以定期或不定期进行更新,以提高纠错能力。
如图5所示,该步骤S430中利用纠错模型对识别的意图和槽位进行纠错时,可以包括步骤S431~S433。
S431,确定利用意图识别模型识别的原始文本的意图是否有对应的领域纠错模型。
若有,则执行步骤S432,即可以利用领域纠错模型进行纠错;若无,则执行步骤S433,即可以利用通用纠错模型进行纠错。
下文将对上述两种可能的情况分别进行说明。
方案一:有可用的领域纠错模型,利用领域纠错模型进行纠错
假设用户输入的语音为“播放流浪地球”,ASR模块将其识别为“播放流囊地球”。利用意图识别模型对ASR模块识别后的文本进行意图和槽位的识别。
利用意图识别模型在识别的过程中,匹配到关键词“播放”,可能会将意图识别为音乐播放或视频播放,并且给出对应的置信度值。
例如,若识别的意图为音乐播放,则识别结果为:<意图:音乐播放,槽位:流囊地球,置信度值:0.7>;
若识别的意图为视频播放,则识别结果为:<意图:视频播放,槽位:流囊地球,置信度值:0.7>。
在意图识别模型识别完成后,纠错模型对识别上述结果进行纠错,此时识别的意图包括音乐播放和视频播放,有可用的领域纠错模型,因此,可以选择利用领域纠错模型进行纠错。
对于意图为音乐播放的,将其对应的槽位输入至音频领域纠错模型,音频领域纠错模型输出纠错结果:“流浪地球主题曲”以及对应的置信度值0.5。
对于意图为视频播放的,将其对应的槽位输入至视频领域纠错模型,视频领域纠错模型输出纠错结果:“流浪地球”以及对应的置信度值0.9。
方案二:无可用的领域纠错模型,利用通用纠错模型进行纠错
假设用户输入的语音为“播放流浪地球”,ASR模块将其识别为“播方流浪地球”。利用意图识别模型对ASR模块识别后的文本进行意图和槽位的识别。
利用意图识别模型在识别的过程中,未匹配到关键词“播放”,可能会错误地将意图识别为网页搜索或打电话,并且给出对应的置信度值。
例如,若识别的意图为网页搜索,则识别结果为:<意图:网页搜索,槽位:播方流浪地球,置信度值:0.5>;
若识别的意图为打电话,则识别结果为:<意图:打电话,槽位:方流浪地球,置信度值:0.3>。
在意图识别模型识别完成后,纠错模型对上述识别结果进行纠错,此时由于识别的意图为网页搜索或打电话,没有可用的领域纠错模型,因此,可以选择利用通用纠错模型进行纠错。
通用纠错模型采用易错词典实现方式,对ASR模块识别后的文本进行纠错,并给出纠错后的文本以及对应的置信度值,如:纠错后的文本为“播放流浪地球”以及对应的置信度值为0.9。
应理解,方案一和方案二中的数值仅为举例说明,还可以为其它数值,不应对本申请造成特别限定。
S440、利用后处理模块对纠错结果进行处理,获得判断结果。
S450、对获得的结果进行重排序。
本申请实施例中,对于上述方案一中利用领域纠错模型进行的纠错和上述方案二中利用通用纠错模型进行的纠错,后处理模块处理的方式不同,具体请参见下文。
方案一:
针对利用领域纠错模型进行的纠错,由于领域纠错模型对槽位进行了纠错,因此,可以用该领域中的随机实体替换纠错后的文本中的槽位,并重新输入至意图识别模型进行意图和槽位的识别。若重新识别后的置信度值大于或等于利用领域纠错模型对原始文本的槽位进行纠错获得的置信度值,则可以认为上述纠错结果是正确的;否则,可以认为上述纠错结果是错误的。
如上述步骤S430中所述的,针对意图为音乐领域的,音频领域纠错模型纠错后的文本为“播放流浪地球主题曲”,则可以利用音乐领域中的随机实体(如七里香)替换“流浪地球主题曲”,并将“播放七里香”输入至意图识别模型重新进行识别。
上述利用音频领域纠错模型对原始文本的槽位进行纠错获得的置信度值为0.5,若意图识别模型重新识别的“播放七里香”的置信度值为大于或等于0.5的数值(如意图识别模型重新识别的“播放七里香”的置信度值为0.6),则认为上述将“播放流囊地球”纠为“播放流浪地球的主题曲”是正确的。
针对意图为视频领域的,视频领域纠错模型纠错后的文本为“播放流浪地球”,则可以利用视频领域中的随机实体(战狼)替换“流浪地球”,并将“播放战狼”输入至意图识别模型重新进行识别。若重新识别后的置信度值大于或等于利用领域纠错模型对原始文本的槽位进行纠错的置信度值,则可以认为上述纠错结果是正确的;否则,可以认为上述纠错结果是错误的。
类似地,上述利用视频领域纠错模型对原始文本的槽位进行纠错获得的置信度值为0.9,若意图识别模型重新识别的“播放战狼”的置信度值为大于或等于0.9的数值(如意图识别模型重新识别的“播放战狼”的置信度值为1.0),则认为上述将“播放流囊地球”纠为“播放流浪地球”是正确的。
在确定上述过程是正确的条件下,对于不同的领域,将各自领域的原始文本的置信度值和纠错后的文本的置信度值进行处理,并获得联合纠错结果。
类似地,本申请中的处理可以理解为将利用纠错模型对原始文本的槽位进行纠错获得的置信度值和对利用意图识别模型对原始文本进行识别获得的置信度值进行处理。该处理可以包括对这两个置信度值取均值(包括算术平均值、均方根平均值、加权平均值等),或者,将这两个置信度值相乘等,不予限制。
示例性地,以将这两个置信度值相乘为例,对于意图是音乐播放的,利用纠错模型获得的置信度值为0.5,利用意图识别模型对原始文本进行识别获得的置信度值为0.7,则联合纠错后的置信度值为0.35。
对于意图是视频播放的,利用纠错模型获得的置信度值为0.9,利用意图识别模型对原始文本进行识别获得的置信度值为0.7,则联合纠错后的置信度值为0.63。
最后,可以对获得结果进行排序,将置信度值最高的意图和槽位结果输出。
此处的结果可以理解为联合纠错后的置信度值,包括:意图为音乐播放的联合纠错后的置信度值0.35,意图为视频播放的联合纠错后的置信度值0.63。由于置信度值排序为0.63>0.35,因此,可以输出意图为视频播放、槽位为流浪地球的文本和相关视频。
上述实施例说明了纠错的结果是正确的这一情况,在一些实施例中,有可能纠错的结果是错误的。对于纠错的结果是错误的这一情况,可以根据预设规则调整纠错后的置信度值的权重,再进行排序处理。
示例性地,针对意图为音乐领域的,音频领域纠错模型纠错后的文本为“播放流浪地球主题曲”,则可以利用音乐领域中的随机实体(如七里香)替换“流浪地球主题曲”,并将“播放七里香”输入至意图识别模型重新进行识别。
上述利用音频领域纠错模型对原始文本的槽位进行纠错获得的置信度值为0.5,若意图识别模型重新识别的“播放七里香”的置信度值为小于0.5的数值(如意图识别模型重新识别的“播放七里香”的置信度值为0.4),则认为上述将“播放流囊地球”纠为“播放流浪地球的主题曲”是错误的。
因此,可以将利用音频领域纠错模型对原始文本进行纠错所获得的置信度值0.5的权重减少,例如,将其权重减少至0.8,则此时联合纠错后的结果为(1.0*0.7)*(0.8*0.5)=0.28。
类似地,针对意图为视频领域的,视频领域纠错模型纠错后的文本为“播放流浪地球”,则可以利用视频领域中的随机实体(如战狼)替换“流浪地球”,并将“播放战狼”输入至意图识别模型重新进行识别。
上述利用视频领域纠错模型对原始文本进行纠错获得的置信度值为0.9,若意图识别模型重新识别的“播放战狼”的置信度值为小于0.9的数值(如意图识别模型重新识别的“播放战狼”的置信度值为0.8),则认为上述将“播放流囊地球”纠为“播放流浪地球”是错误的。
因此,可以将利用视频领域纠错模型对原始文本进行纠错所获得的置信度值0.9的权重减少,例如,将其权重减少至0.8,则此时联合纠错后的结果为(1.0*0.7)*(0.8*0.9)=0.504。
最后,可以对获得结果进行排序,将置信度值最高的意图和槽位结果输出,由于0.504>0.28,因此,输出意图为视频播放、槽位为流浪地球的文本和相关视频。
方案二:
针对利用通用纠错模型进行的纠错,由于通用纠错模型对意图进行了纠错,因此,需要将纠错后的文本重新输入至意图识别模型进行意图和槽位识别。
如上所述,通用纠错模型纠错后的文本为“播放流浪地球”,将纠错后的文本输入至意图识别模型中进行识别,得到识别结果。例如,识别后的结果为:<意图:视频播放,槽位:流浪地球,置信度值:0.9>。
获得纠错后的文本的识别结果(即置信度值)后,可以对该结果与上述利用通用纠错模型纠错后的结果进行处理,并获得联合纠错结果。
本申请实施例中的处理可以理解为将利用意图识别模型对纠错后的文本进行识别获得的置信度值0.9和利用通用纠错模型获得的置信度值0.9进行处理。该处理可以包括对这两个置信度值取均值(包括算术平均值、均方根平均值、加权平均值等),或者,将这两个置信度值相乘等,不予限制。
示例性地,以将这两个置信度值相乘为例,则联合纠错后的结果为0.81。
最后,可以对获得结果进行排序,将置信度值最高的意图和槽位结果输出。
此处的结果可以理解为识别过程中的所有置信度值,包括:意图为网页搜索的置信度值0.5,意图为打电话的置信度值0.3,意图为视频播放的联合纠错后的置信度值0.81。由于置信度值排序为:0.81>0.5>0.3,因此,可以输出意图为视频播放、槽位为流浪地球的文本和相关视频。
上文示出了ASR模块识别的文本中存在错字的情况下进行的纠错处理,本申请实施例也可以应用于ASR模块识别的文本相对于用户输入的语音存在多字或漏字的情况,具体纠错过程与上述类似,这里不再赘述。
本申请提供的文本纠错方法,电子设备基于意图识别模型识别的意图选择对应的纠错模型进行纠错,即,在识别的意图无对应的领域纠错模型时选择通用纠错模型进行纠错,在识别的意图有对应的领域纠错模型时选择领域纠错模型和通用纠错模型进行纠错,可以在识别后的文本中存在多字、漏字和错字问题导致无法纠错或当识别到的属性信息范围不准确导致无法纠错时,仍然可以对意图和槽位进行统一纠错,保证识别的意图和槽位的准确性。
下面介绍本申请提供的一种文本纠错方法的流程。
请参见图6,图6示出了一种文本纠错方法600的示意性流程图。该方法流程图可以由图1所示的电子设备执行。
如图6所示,该方法600可以包括:
S610,接收第一文本。
本申请实施例中的第一文本可以为上述步骤S410中的原始文本。如步骤S410中所述,原始文本(即第一文本)可以为用户输入的语音经过ASR模块识别后的文本,也可以是对书籍报刊上的文字经过扫描后的文本,还可以是社交网络(如微博、微信朋友圈)的文本,不予限制。
S620,利用意图识别模型识别所述第一文本的意图和槽位。
本申请实施例中利用意图识别模型识别第一文本的意图和槽位,可以参考上述步骤S420的描述,为了简洁,这里不再赘述。
S630,根据所述意图选择对应的纠错模型进行纠错,所述纠错模型包括通用纠错模型和/或领域纠错模型。
可选地,在一些实施例中,若所述意图有对应的领域纠错模型,利用所述领域纠错模型进行纠错;若所述意图无对应的领域纠错模型,利用所述通用纠错模型进行纠错。
若利用所述领域纠错模型进行纠错,具体纠错过程可以参考上述步骤S431中方案一的内容;若利用所述通用纠错模型进行纠错,具体纠错过程可以参考上述步骤S431中方案二的内容;这里不再赘述。
此外,在纠错完成后,利用后处理模块可以对纠错结果进行处理,对于利用不同的纠错模型其处理的方式不同。
方案一:
若选择利用所述领域纠错模型进行纠错,所述根据所述第一置信度值、所述第二置信度值和所述第三置信度值输出所述目标文本,包括:
若所述第三置信度值大于或等于所述第一置信度值,根据所述第一置信度值和所述第二置信度值确定所述第二文本的第一联合纠错置信度值,所述第二文本为对纠错后的所述第一文本进行槽位替换后的文本,所述第一联合纠错置信度值包括多个置信度值;输出所述第一联合纠错置信度值中最大的置信度值所对应的目标文本。
可选地,在一些实施例中,所述第一联合纠错置信度值包括的多个置信度值由所述第一置信度值和所述第二置信度值中具有相同意图的置信度值相乘得到。
可选地,在一些实施例中,所述方法还包括:
若所述第三置信度值小于所述第一置信度值,减小所述第二置信度值;根据所述第一置信度值和减小后的所述第二置信度值确定所述二文本的第二联合纠错置信度值,所述第二联合纠错置信度值包括多个置信度值;输出所述第二联合纠错置信度中最大的置信度值所对应的目标文本。
可选地,在一些实施例中,所述第二联合纠错置信度值包括的多个置信度值由所述第一置信度值和减小后的所述第二置信度值具有相同意图的置信度值相乘得到。
本申请实施例中,对于利用领域纠错模型进行的纠错,可以基于第三置信度值和第一置信度值的大小以及联合纠错置信度值(如上述第一联合纠错置信度值和第二联合纠错置信度值)确定输出的目标文本,具体过程可以参考上述步骤S440和S450中的方案一的内容,这里不再赘述。
方案二:
若选择利用所述通用纠错模型进行纠错,所述根据所述第一置信度值、所述第二置信度值和所述第三置信度值输出所述目标文本,包括:
根据所述第二置信度值和所述第三置信度值确定所述第二文本的第三联合纠错置信度值,所述第二文本为对所述第一文本进行纠错后的文本;输出所述第一置信度值和所述第三联合纠错置信度值中最大的置信度值所对应的目标文本。
可选地,在一些实施例中,所述第三联合纠错置信度值由所述第二置信度值和所述第三置信度值相乘得到。
可选地,在一些实施例中,若所述第二置信度值和所述第三置信度值分别包括多个置信度值,则所述第三联合纠错置信度值包括多个置信度值,所述第三联合纠错置信度值包括的多个置信度值由所述第二置信度值和所述第三置信度值中具有相同意图的置信度值相乘得到。
本申请实施例中,对于利用通用纠错模型进行的纠错,可以基于第三联合纠错置信度值和第一置信度值的大小确定输出的目标文本,具体过程可以参考上述步骤S440和S450中的方案二的内容,这里不再赘述。
S640,输出纠错后的目标文本。
该纠错后的目标文本即为最大的置信度值所对应的文本。如上述方案一中利用领域纠错模型进行纠错后其置信度值为0.63所对应的目标文本“播放流浪地球”;上述方案二中利用通用纠错模型进行纠错后其置信度值为0.81所对应的目标文本“播放流浪地球”。
S650,输出所述目标文本的响应。
该目标文本的响应可以为与该目标文本相关的信息,如上述图3中的(c)或图3中的(d)的目标文本为“播放流浪地球”,该目标文本的响应即为与流浪地球有关的视频,如图3中的(c)或图3中的(d)中所示的:视频1:流浪地球的电影;视频2:有关流浪地球的花絮;视频3:有关流浪地球的明星资讯;视频4:有关流浪地球的MV;视频5:有关流浪地球的纪录片等。
本申请提供的方案,电子设备基于意图识别模型识别的意图选择对应的纠错模型进行纠错,可以在识别后的文本中存在多字、漏字和错字问题导致无法纠错或当识别到的属性信息范围不准确导致无法纠错时,仍然可以对意图和槽位进行统一纠错,保证识别的意图和槽位的准确性。
可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本实施例可以根据上述方法示例对电子设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是,本实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图7示出了上述实施例中涉及的电子设备700的一种可能的组成示意图,如图7所示,该电子设备700可以包括:接收单元710、识别单元720、选择单元730和输出单元740。
其中,接收单元710可以用于支持电子设备700执行上述步骤S610等,和/或用于本文所描述的技术的其他过程。
识别单元720可以用于支持电子设备700执行上述步骤S620等,和/或用于本文所描述的技术的其他过程。
选择单元730可以用于支持电子设备700执行上述步骤S630等,和/或用于本文所描述的技术的其他过程。
输出单元740可以用于支持电子设备700执行上述步骤S640、S650等,和/或用于本文所描述的技术的其他过程。
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
本实施例提供的电子设备,用于执行上述文本纠错方法,因此可以达到与上述实现方法相同的效果。
在采用集成的单元的情况下,电子设备可以包括处理模块、存储模块和通信模块。其中,处理模块可以用于对电子设备的动作进行控制管理,例如,可以用于支持电子设备执行上述各个单元执行的步骤。存储模块可以用于支持电子设备执行存储程序代码和数据等。通信模块,可以用于支持电子设备与其他设备的通信。
其中,处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理(digital signal processing,DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。
在一个实施例中,当处理模块为处理器,存储模块为存储器时,本实施例所涉及的电子设备可以为具有图1所示结构的设备。
图8示出了上述实施例涉及的电子设备800的另一种可能的组成示意图,如图8所示,该电子设备800可以包括通信单元810、输入单元820、处理单元830、输出单元840、外设接口850、存储单元860以及电源870。
通信单元810用于建立通信信道,使电子设备800通过所述通信信道以连接至远程服务器,并从所述远程服务器下媒体数据。所述通信单元810可以包括WLAN模块、蓝牙模块、NFC模块、基带模块等通信模块,以及所述通信模块对应的射频(Radio Frequency,简称RF)电路,用于进行无线局域网络通信、蓝牙通信、NFC通信、红外线通信及/或蜂窝式通信系统通信,例如宽带码分多重接入(wideband code division multiple access,W-CDMA)及/或高速下行封包存取(high speed downlink packet access,HSDPA)。所述通信模块810用于控制电子设备中的各组件的通信,并且可以支持直接内存存取。
输入单元820可以用于实现用户与电子设备的交互和/或信息输入到电子设备中。在本发明具体实施方式中,输入单元可以是触控面板,也可以是其他人机交互界面,例如实体输入键、麦克风等,还可是其他外部信息撷取装置,例如摄像头等。
处理单元830为电子设备的控制中心,可以利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储单元内的软件程序和/或模块,以及调用存储在存储单元内的数据,以执行电子设备的各种功能和/或处理数据。
输出单元840包括但不限于影像输出单元和声音输出单元。影像输出单元用于输出文字、图片和/或视频。在本发明的具体实施方式中,上述输入单元820所采用的触控面板亦可同时作为输出单元840的显示面板。例如,当触控面板检测到在其上的触摸或接近的手势操作后,传送给处理单元以确定触摸事件的类型,随后处理单元根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图8中,输入单元820与输出单元840是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板与显示面板集成一体而实现电子设备的输入和输出功能。例如,所述影像输出单元可以显示各种图形化用户接口以作为虚拟控制组件,包括但不限于窗口、卷动轴、图标及剪贴簿,以供用户通过触控方式进行操作。
上述实施例中步骤S640中输出纠错后的目标文本以及步骤S650中输出该目标文本的响应可以通过输出单元840实现。
存储单元860可用于存储软件程序以及模块,处理单元通过运行存储在存储单元的软件程序以及模块,从而执行电子设备的各种功能应用以及实现数据处理。
本实施例还提供一种计算机存储介质,该计算机存储介质中存储有计算机指令,当该计算机指令在电子设备上运行时,使得电子设备执行上述相关方法步骤实现上述实施例中的文本纠错方法。
本实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的文本纠错方法。
另外,本申请的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的文本纠错方法。
其中,本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上实施方式的描述,所属领域的技术人员可以了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (16)

1.一种文本纠错方法,其特征在于,所述方法应用于电子设备,包括:
接收第一文本;
利用意图识别模型识别所述第一文本的意图和槽位;
根据所述意图选择对应的纠错模型进行纠错,所述纠错模型包括通用纠错模型和/或领域纠错模型;
输出纠错后的目标文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述意图选择对应的纠错模型进行纠错,包括:
若所述意图无对应的领域纠错模型,利用所述通用纠错模型进行纠错;
若所述意图有对应的领域纠错模型,利用所述领域纠错模型进行纠错。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
输出所述目标文本的响应。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述输出纠错后的目标文本,包括:
根据纠错结果和置信度值输出所述目标文本。
5.根据权利要求4所述的方法,其特征在于,所述利用意图识别模型识别所述第一文本的意图和槽位,包括:
利用所述意图识别模型识别所述第一文本的意图和槽位,并获得第一置信度值;
所述根据所述意图选择对应的纠错模型进行纠错,包括:
根据所述意图选择对应的纠错模型进行纠错,并获得第二置信度值;
所述根据纠错结果和置信度值输出所述目标文本,包括:
利用意图识别模型识别第二文本的意图和槽位,并获得第三置信度值,所述第二文本为对所述第一文本进行纠错后的文本或对纠错后的所述第一文本进行槽位替换后的文本;
根据所述第一置信度值、所述第二置信度值和所述第三置信度值输出所述目标文本。
6.根据权利要求5所述的方法,其特征在于,若选择利用所述领域纠错模型进行纠错,所述根据所述第一置信度值、所述第二置信度值和所述第三置信度值输出所述目标文本,包括:
若所述第三置信度值大于或等于所述第一置信度值,根据所述第一置信度值和所述第二置信度值确定所述第二文本的第一联合纠错置信度值,所述第二文本为对纠错后的所述第一文本进行槽位替换后的文本,所述第一联合纠错置信度值包括多个置信度值;
输出所述第一联合纠错置信度值中最大的置信度值所对应的目标文本。
7.根据权利要求6所述的方法,其特征在于,所述第一联合纠错置信度值包括的多个置信度值由所述第一置信度值和所述第二置信度值中具有相同意图的置信度值相乘得到。
8.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:
若所述第三置信度值小于所述第一置信度值,减小所述第二置信度值;
根据所述第一置信度值和减小后的所述第二置信度值确定所述第二文本的第二联合纠错置信度值,所述第二联合纠错置信度值包括多个置信度值;
输出所述第二联合纠错置信度值中最大的置信度值所对应的目标文本。
9.根据权利要求8所述的方法,其特征在于,所述第二联合纠错置信度值包括的多个置信度值由所述第一置信度值和减小后的所述第二置信度值具有相同意图的置信度值相乘得到。
10.根据权利要求5所述的方法,其特征在于,若选择利用所述通用纠错模型进行纠错,所述根据所述第一置信度值、所述第二置信度值和所述第三置信度值输出所述目标文本,包括:
根据所述第二置信度值和所述第三置信度值确定所述第二文本的第三联合纠错置信度值,所述第二文本为对所述第一文本进行纠错后的文本;
输出所述第一置信度值和所述第三联合纠错置信度值中最大的置信度值所对应的目标文本。
11.根据权利要求10所述的方法,其特征在于,所述第三联合纠错置信度值由所述第二置信度值和所述第三置信度值相乘得到。
12.根据权利要求10或11所述的方法,其特征在于,若所述第二置信度值和所述第三置信度值分别包括多个置信度值,则所述第三联合纠错置信度值包括多个置信度值,所述第三联合纠错置信度值包括的多个置信度值由所述第二置信度值和所述第三置信度值中具有相同意图的置信度值相乘得到。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
一个或多个存储器;
所述一个或多个存储器存储有一个或多个计算机程序,所述一个或多个计算机程序包括指令,当所述指令被所述一个或多个处理器执行时,使得所述电子设备执行如权利要求1至12中任一项所述的方法。
14.一种芯片系统,其特征在于,所述芯片系统包括至少一个处理器,当程序指令在所述至少一个处理器中执行时,使得如权利要求1至12中任一所述的方法在所述电子设备上的功能得以实现。
15.一种计算机存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1至12中任一项所述的方法。
16.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1至12中任一项所述的方法。
CN202011565185.2A 2020-12-25 2020-12-25 一种文本纠错方法和电子设备 Pending CN114692639A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011565185.2A CN114692639A (zh) 2020-12-25 2020-12-25 一种文本纠错方法和电子设备
PCT/CN2021/137440 WO2022135206A1 (zh) 2020-12-25 2021-12-13 一种文本纠错方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011565185.2A CN114692639A (zh) 2020-12-25 2020-12-25 一种文本纠错方法和电子设备

Publications (1)

Publication Number Publication Date
CN114692639A true CN114692639A (zh) 2022-07-01

Family

ID=82129105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011565185.2A Pending CN114692639A (zh) 2020-12-25 2020-12-25 一种文本纠错方法和电子设备

Country Status (2)

Country Link
CN (1) CN114692639A (zh)
WO (1) WO2022135206A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129906A (zh) * 2023-02-14 2023-05-16 新声科技(深圳)有限公司 语音识别文本修订方法、装置、计算机设备以及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189664B (zh) * 2022-12-12 2023-07-28 北京数美时代科技有限公司 Asr文本纠错训练样本集的构造方法、系统和电子设备
CN116432693B (zh) * 2023-03-15 2024-02-09 北京擎盾信息科技有限公司 大规模预训练语言模型的构建方法、装置、存储介质及电子装置
CN116136957B (zh) * 2023-04-18 2023-07-07 之江实验室 一种基于意图一致性的文本纠错方法、装置和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0107263A2 (en) * 1982-03-29 1984-05-02 Gould Inc. Man-machine interface
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107220235A (zh) * 2017-05-23 2017-09-29 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及存储介质
CN109800407A (zh) * 2017-11-15 2019-05-24 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机设备和存储介质
CN110555096A (zh) * 2018-06-01 2019-12-10 深圳狗尾草智能科技有限公司 用户意图识别方法、系统、终端及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106489148A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于用户画像的意图场景识别方法及系统
CN107807915B (zh) * 2017-09-27 2021-03-09 北京百度网讯科技有限公司 基于纠错平台的纠错模型建立方法、装置、设备和介质
CN112002311A (zh) * 2019-05-10 2020-11-27 Tcl集团股份有限公司 文本纠错方法、装置、计算机可读存储介质及终端设备
US11302330B2 (en) * 2019-06-03 2022-04-12 Microsoft Technology Licensing, Llc Clarifying questions for rewriting ambiguous user utterance
CN110232129B (zh) * 2019-06-11 2020-09-29 北京百度网讯科技有限公司 场景纠错方法、装置、设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0107263A2 (en) * 1982-03-29 1984-05-02 Gould Inc. Man-machine interface
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107220235A (zh) * 2017-05-23 2017-09-29 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及存储介质
CN109800407A (zh) * 2017-11-15 2019-05-24 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机设备和存储介质
CN110555096A (zh) * 2018-06-01 2019-12-10 深圳狗尾草智能科技有限公司 用户意图识别方法、系统、终端及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129906A (zh) * 2023-02-14 2023-05-16 新声科技(深圳)有限公司 语音识别文本修订方法、装置、计算机设备以及存储介质

Also Published As

Publication number Publication date
WO2022135206A1 (zh) 2022-06-30

Similar Documents

Publication Publication Date Title
US10956771B2 (en) Image recognition method, terminal, and storage medium
CN110111787B (zh) 一种语义解析方法及服务器
CN114692639A (zh) 一种文本纠错方法和电子设备
CN107210033B (zh) 基于众包来更新用于数字个人助理的语言理解分类器模型
CN111724775B (zh) 一种语音交互方法及电子设备
WO2022052776A1 (zh) 一种人机交互的方法、电子设备及系统
RU2718154C1 (ru) Способ и устройство для отображения возможного слова и графический пользовательский интерфейс
US9773101B2 (en) Method for displaying contents and electronic device thereof
JP7252327B2 (ja) 人間とコンピュータとの相互作用方法および電子デバイス
CN111261144A (zh) 一种语音识别的方法、装置、终端以及存储介质
CN112470217A (zh) 用于确定要执行语音识别的电子装置的方法及电子装置
CN116415594A (zh) 问答对生成的方法和电子设备
CN112269853B (zh) 检索处理方法、装置及存储介质
CN103702297A (zh) 短信增强方法、装置及系统
CN113806473A (zh) 意图识别方法和电子设备
CN111209377B (zh) 基于深度学习的文本处理方法、装置、设备及介质
US20210405767A1 (en) Input Method Candidate Content Recommendation Method and Electronic Device
KR20190122457A (ko) 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
CN112232059B (zh) 文本纠错方法、装置、计算机设备及存储介质
CN110502126B (zh) 输入方法及电子设备
CN112740148A (zh) 一种向输入框中输入信息的方法及电子设备
CN113076397A (zh) 意图识别方法、装置、电子设备及存储介质
US20230154463A1 (en) Method of reorganizing quick command based on utterance and electronic device therefor
US20220270604A1 (en) Electronic device and operation method thereof
CN117808015B (zh) 翻译方法、电子设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination