CN107564526B - 处理方法、装置和机器可读介质 - Google Patents
处理方法、装置和机器可读介质 Download PDFInfo
- Publication number
- CN107564526B CN107564526B CN201710632930.2A CN201710632930A CN107564526B CN 107564526 B CN107564526 B CN 107564526B CN 201710632930 A CN201710632930 A CN 201710632930A CN 107564526 B CN107564526 B CN 107564526B
- Authority
- CN
- China
- Prior art keywords
- replacement
- text
- target
- current
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种处理方法、装置和机器可读介质,其中的方法具体包括:从语音信号对应的源文本中获取标点符号对应的目标词;将所述源文本包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本;将所述目标文本作为所述语音信号对应的语音识别结果输出。本发明实施例可以可以使语音识别结果符合用户的标点意图,因此可以提高语音识别服务的智能性。
Description
技术领域
本发明涉及语音识别技术领域,特别是涉及一种处理方法和装置、一种用于处理的装置、以及一种机器可读介质。
背景技术
语音识别技术是机器通过识别和理解过程将人发出的声音转换为相应的文字或符号,或者给出响应,如执行控制、做出回答等。语音识别技术的应用领域非常广泛,几乎涉及生活的每个领域,比如语音输入、语音转写、语音控制、智能对话查询等领域。以语音输入领域为例,可以对用户输入的语音信号进行语音到文本的转换,并向用户提供转换得到的语音识别结果。
在实际应用中,为了克服现有的语音识别结果不添加标点符号、或者现有的语音识别结果添加的标点符号不准确的问题,有些用户在通过语音信号输入文本的同时,还会尝试通过语音信号输入文本对应的标点符号。例如,用户欲要输入“你好,你叫什么名字?”,则会输入“你好逗号你叫什么名字问号”对应的语音信号。
然而,现有方案并未考虑用户的上述输入意图,其通常针对用户输入的语音信号提供完全一致的语音识别结果;例如,针对“你好逗号你叫什么名字问号”对应的语音信号,提供的语音识别结果通常为“你好逗号你叫什么名字问号”对应的语音信号,然而此种情况下的语音识别结果将无法符合用户的输入意图。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的处理方法、处理装置、用于处理的装置、机器可读介质,本发明实施例可以使语音识别结果符合用户的标点意图,因此可以提高语音识别服务的智能性。
为了解决上述问题,本发明公开了一种处理方法,包括:
从语音信号对应的源文本中获取标点符号对应的目标词;
将所述源文本包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本;
将所述目标文本作为所述语音信号对应的语音识别结果输出。
可选地,在所述将所述目标文本作为所述语音信号对应的语音识别结果输出之前,所述方法还包括:
确定所述目标文本对应的语言模型得分与所述源文本对应的语言模型得分之间的比较结果符合第一预置条件。
可选地,所述目标词的数量为多个,所述将所述源文本包括的目标词替换为对应的标点符号,包括:
按照预设顺序,从多个所述目标词中获取当前需要替换的一个目标词,作为当前目标词;
将当前目标词替换为对应的标点符号,所述当前目标词包括在当前次替换对应的替换前文本中;以得到当前次替换对应的替换后文本,在完成所有当前目标词对应的替换后,得到所述语音信号对应的目标文本。
可选地,当前次替换成功的条件包括:当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件。
可选地,若当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件,则将下一次替换对应的替换前文本为当前次替换对应的替换后文本;或者
若当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分不符合第二预置条件,则将下一次替换对应的替换前文本为当前次替换对应的替换前文本。
可选地,所述第一预置条件包括:目标文本对应的语言模型得分不低于所述源文本对应的语言模型得分;或者
所述第二预置条件包括:当前次替换所对应替换后文本的语言模型得分不低于当前次替换所对应替换前文本的语言模型得分。
可选地,所述第一预置条件包括:目标文本对应的语言模型得分相对于所述源文本对应的语言模型得分的增加幅度超过第一幅度阈值;或者
所述第二预置条件包括:当前次替换所对应替换后文本的语言模型得分相对于当前次替换所对应替换前文本的语言模型得分的增加幅度超过第二幅度阈值。
可选地,所述第一幅度阈值或者所述第二幅度阈值为依据所述源文本所包括的字词数量得到。
可选地,在所述将所述目标文本作为所述语音信号对应的语音识别结果输出之前,所述方法还包括:
确定所述目标文本对应的句法分析结果符合预设规则。
另一方面,本发明公开了一种处理装置,包括:
目标词获取模块,用于从语音信号对应的源文本中获取标点符号对应的目标词;
目标词替换模块,用于将所述源文本包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本;以及
识别结果输出模块,用于将所述目标文本作为所述语音信号对应的语音识别结果输出。
可选地,所述装置还包括:
第一确定模块,用于在所述识别结果输出模块将所述目标文本作为所述语音信号对应的语音识别结果输出之前,确定目标文本对应的语言模型得分与所述源文本对应的语言模型得分之间的比较结果符合第一预置条件。
可选地,所述目标词的数量为多个,所述目标词替换模块包括:
顺序获取子模块,用于按照预设顺序,从多个所述目标词中获取当前需要替换的一个目标词,作为当前目标词;
顺序替换子模块,用于将当前目标词替换为对应的标点符号,以得到当前次替换对应的替换后文本,所述当前目标词包括在当前次替换对应的替换前文本中,在完成所有当前目标词对应的替换后,得到所述语音信号对应的目标文本。
可选地,当前次替换成功的条件包括:当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件。
可选地,若当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件,则将下一次替换对应的替换前文本为当前次替换对应的替换后文本;或者
若当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分不符合第二预置条件,则将下一次替换对应的替换前文本为当前次替换对应的替换前文本。
可选地,所述第一预置条件包括:目标文本对应的语言模型得分不低于所述源文本对应的语言模型得分;或者
所述第二预置条件包括:当前次替换所对应替换后文本的语言模型得分不低于当前次替换所对应替换前文本的语言模型得分。
可选地,所述第一预置条件包括:目标文本对应的语言模型得分相对于所述源文本对应的语言模型得分的增加幅度超过第一幅度阈值;或者
所述第二预置条件包括:当前次替换所对应替换后文本的语言模型得分相对于当前次替换所对应替换前文本的语言模型得分的增加幅度超过第二幅度阈值。
可选地,所述第一幅度阈值或者所述第二幅度阈值为依据所述源文本所包括的字词数量得到。
可选地,所述装置还包括:
第二确定模块,用于在所述识别结果输出模块将所述目标文本作为所述语音信号对应的语音识别结果输出之前,确定所述目标文本对应的句法分析结果符合预设规则。
再一方面,本发明公开了一种用于处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:从语音信号对应的源文本中获取标点符号对应的目标词;将所述源文本包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本;将所述目标文本作为所述语音信号对应的语音识别结果输出。
又一方面,本发明公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行前述的处理方法。
本发明实施例包括以下优点:
本发明实施例将语音信号所对应源文本包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本,并将所述目标文本作为所述语音信号对应的语音识别结果输出;这样,可以使语音识别结果符合用户的标点意图,因此可以提高语音识别服务的智能性。并且,本发明实施例可以节省用户手动编辑不符合标点意图的语音识别结果所花费的操作成本,提高用户的处理效率。
附图说明
图1是本发明的一种处理方法的应用环境的示意;
图2是本发明的一种处理方法实施例的步骤流程图;
图3是本发明实施例的一种语音识别结果对应的标点添加处理过程的示意图;
图4是本发明的一种处理方法实施例的步骤流程图;
图5是本发明的一种处理装置实施例的结构框图;
图6是根据一示例性实施例示出的一种用于处理的装置作为终端时的框图;及
图7是根据一示例性实施例示出的一种用于处理的装置作为服务器时的框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例提供了一种处理方案,该方案可以从语音信号对应的源文本中获取标点符号对应的目标词;将所述源文本包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本;将所述目标文本作为所述语音信号对应的语音识别结果输出。
本发明实施例中,标点符号对应的目标词可用于表征符合用户的标点意图的词汇,在实际应用中,标点符号对应的目标词可以为标点符号的标识词,如名称、别名等,甚至该目标词可以为通过用户设置得到,本发明实施例对于某标点符号对应的具体目标词不加以限制。
本发明实施例将语音信号所对应源文本包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本,并将所述目标文本作为所述语音信号对应的语音识别结果输出;这样,可以使语音识别结果符合用户的标点意图,因此可以提高语音识别服务的智能性。并且,本发明实施例可以节省用户手动编辑不符合标点意图的语音识别结果所花费的操作成本,提高用户的处理效率。
本发明实施例可以应用于语音输入、语音转写等任意的与语音识别技术相关的场景中,尤其地,可以应用于需要对语音识别结果进行展现的场景中。并且,本发明实施例可以应用于网站和/或应用程序的应用环境中,以通过这些应用环境向用户提供语音识别服务,且可以通过向用户符合用户的标点意图的语音识别结果、提高语音识别服务的智能性,可以理解,本发明实施例对于具体的应用环境不加以限制。
本发明实施例提供的处理方法可应用于图1所示的应用环境中,如图1所示,客户端100与服务器200位于有线或无线网络中,通过该有线或无线网络,客户端100与服务器200进行数据交互。
本发明实施例的处理方法可由客户端100和服务器200的任一执行:
例如,客户端100可以接收用户输入的语音信号,具体地,客户端100可以通过麦克风等其他语音采集器件接收用户输入的语音信号,或者,可以从用户指定的语音文件中获取用户输入的语音信号;接着,客户端100可以采用语音识别技术获取该语音信号对应的源文本;从语音信号对应的源文本中获取标点符号对应的目标词;将所述源文本包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本;并将所述目标文本作为所述语音信号对应的语音识别结果进行展现。
又如,客户端100在采集用户输入的语音信号之后,还可以向服务器200发送该语音信号,以使服务器200采用语音识别技术获取该语音信号对应的源文本;从语音信号对应的源文本中获取标点符号对应的目标词;将所述源文本包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本;并向客户端100发送目标文本;而客户端100可以向用户展现该目标文本。
如果将用户的语音信号记作S,对S进行一系列处理后得到与之相对应的语音特征序列O,记作O={O1,O2,…,Oi,…,OT},其中Oi是第i个语音特征,T为语音特征总个数。语音信号S对应的句子可看作是由许多词组成的一个词串,记作W={w1,w2,…,wn}。语音识别的过程就是根据已知的语音特征序列O,求出最可能的词串W。
具体来说,语音识别是一个模型匹配的过程,在这个过程中,可以首先根据人的语音特点建立语音模型,通过对输入的语音信号的分析,抽取所需的特征,来建立语音识别所需的模板;对用户所输入语音进行识别的过程即是将用户所输入语音的特征与所述模板比较的过程,最后确定与所述用户所输入语音匹配的最佳模板,从而获得语音识别的结果。具体的语音识别算法,可采用基于统计的隐含马尔可夫模型的训练和识别算法,也可采用基于神经网络的训练和识别算法、基于动态时间归整匹配的识别算法等等其他算法,本发明实施例对于具体的语音识别过程不加以限制。
可选地,客户端100可以运行在智能终端上,上述智能终端具体包括但不限:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving PictureExperts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,MovingPicture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
方法实施例
参照图2,示出了本发明的一种处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤201、从语音信号对应的源文本中获取标点符号对应的目标词;
步骤202、将所述源文本包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本;
步骤203、将所述目标文本作为所述语音信号对应的语音识别结果输出。
本发明实施例提供的处理方法所包括的步骤201至步骤203可由客户端和服务器的任一执行。
本发明实施例的源文本可以为对语音信号进行识别得到的文本。其中,该语音信号可以为用户实时输入的语音,也可以为用户指定的语音文件中包括的语音,例如,该语音文件可以为用户的通话录音文件,也可以为从录音笔设备接收的语音文件等。在实际应用中,可以从对语音信号进行识别以得到该源文本,也可以从其他设备接收该源文本,可以理解,本发明实施例对于语音信号所对应源文本的具体获取方式不加以限制。
在实际应用中,可以通过标点标识词集合保存标点符号对应的标点标识词。并且,考虑到不同语言中标点符号的差异性,可以针对不同的语言建立不同的标点标识词集合。例如,中文对应的标点标识词集合中,针对“。”保存的标点标识词可以包括:“句号”、“句点”等;又如,英文对应的标点标识词集合中,针对“.”保存的标点标识词可以包括:“句号”、“句点”等。可以理解,本发明实施例对于标点标识词集合所适用的具体语言不加以限制。
需要说明的是,可以通过标点添加处理为语音识别结果添加标点符号,然而,标点添加处理添加的标点符号通常仅仅限于逗号、问号、句号、感叹号、空格等常用的标点符号,也即,标点添加处理添加的标点符号是有限的。参照图3,示出了本发明实施例的一种语音识别结果对应的标点添加处理过程的示意图,其中,语音识别结果对应的词序列为“你好/我是/小明/很高兴/认识你”,则“你好/我是/小明/很高兴/认识你”的相邻词之间均有可能被添加标点符号;图3中,“你好”、“我是”、“小明”、“很高兴”、“认识你”等词分别用矩形表示,逗号、空格、叹号、问号、句号等标点符号分别用圆形表示,则语音识别结果对应的词序列的首个词“你好”和末尾词“认识你”之后的标点符号之间可以具备多条路径。
而本发明实施例中,标点符号对应的目标词可以为标点符号的标识词,如名称、别名等,甚至该目标词可以为通过用户设置得到,因此,本发明实施例可以通过该目标词在语音识别结果中灵活地添加更加丰富的标点符号。例如,用户可以通过目标词“破折号”、或者目标词“双引号”在语音识别结果中添加对应的标点符号,这样可以实现用户的突出表达等输入意图。
在本发明的一种可选实施例中,标点标识词集合保存的标点标识词可由用户设置得到。可选地,用户还可以设置标点标识词与标点符号之间的映射关系,这样本发明实施例可以通过该映射关系,在语音识别结果中灵活地添加更加丰富的标点符号。
在本发明的一种实施例中,步骤201从语音信号对应的源文本中获取标点符号对应的目标词的过程,可以包括:将源文本包括的字符与标点标识词集合中的标点标识词进行匹配,若匹配成功,则可以将源文本包括的与标点标识词匹配成功的字符作为目标词。假设源文本为“你好逗号你叫什么名字问号”,则可以从中获取标点符号对应的目标词,如“逗号”、“问号”等。
在实际应用中,源文本包括的目标词的数量可以为一个或者多个,也即,源文本中可以包括一个目标词或者多个目标词,甚至还可以不包括任何目标词。本发明实施例对于源文本包括的目标词的具体数量不加以限制。
在实际应用汇总,步骤202将所述源文本包括的目标词替换为对应的标点符号,其中,一次替换可以涉及一个或者多个目标词。在一次替换涉及一个目标词的情况下,一次替换可以将源文本包括的一个目标词替换为对应的标点符号;在一次替换涉及多个目标词的情况下,一个替换可以将源文本包括的多个目标词替换为对应的标点符号。
假设源文本为“你好逗号你叫什么名字问号”,则在从中获取标点符号对应的目标词,如“逗号”、“问号”之后,可以通过一次替换或者多次替换将其中包括的目标词替换为对应的标点符号,最终可以得到目标文本“你好,你叫什么名字?”。
在本发明的一种可选实施例中,所述目标文本对应的语言模型得分与所述源文本对应的语言模型得分之间的比较结果可以符合第一预置条件。相应地,上述步骤203将所述目标文本作为所述语音信号对应的语音识别结果输出的过程,可以包括:若目标文本对应的语言模型得分与所述源文本对应的语言模型得分之间的比较结果符合第一预置条件,则将所述目标文本作为所述语音信号对应的语音识别结果输出。
由于语言模型是根据语言客观事实而进行的语言抽象数学建模,语言模型得分可以反映文本(包括源文本或者目标文本等)对应的语言质量,因此本发明实施例可以在一定程度上避免由于将所述源文本包括的目标词替换为对应的标点符号而导致语言质量下降的情况,进而可以提高语音信号对应的语音识别结果的质量。
本发明实施例中,语言模型可以包括:N-gram(N元文法)语言模型,和/或,神经网络语言模型,其中,神经网络语言模型可以进一步包括:RNNLM(循环神经网络语言模型,Recurrent neural Network Language Model)、CNNLM(卷积神经网络语言模型,Convolutional Neural Networks Language Model)、DNNLM(深度神经网络语言模型,DeepNeural Networks Language Model)等。
其中,N-gram语言模型基于这样一种假设,即第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。
由于N-gram语言模型利用有限的N-1个词(上文)来预测第N个词,故N-gram语言模型可以具备长度为N的语义片段的语言模型得分的描述能力,例如,N可以为3、5等较为固定的且数值小于第一长度阈值的正整数。而相对于N-gram语言模型,例如RNNLM的神经网络语言模型的一个优势在于:可以真正充分地利用所有上文来预测下一个词,故RNNLM可以具备长度可变的语义片段的语言模型得分的描述能力,也即,RNNLM适用于较宽长度范围的语义片段,例如,RNNLM对应的语义片段的长度范围可以为:1~第二长度阈值,其中,第二长度阈值大于第一长度阈值。
本发明实施例中,语义片段可用于表示添加有或者未添加有标点符号(包括预置标记等标点符号)的词序列。其中,词序列可以包括若干个词汇,该词汇可以为对文本(包括源文本或者目标文本)进行分词得到,词序列可以为文本的全部或者部分。例如,对于源文本“你好%我是%小明%很高兴%认识你”而言,其对应的语义片段可以包括:“你好%,%我是”、“我是%小明%很高兴”等,其中,“%”是为了方便申请文件的说明而设置的符号,“%”用于表示词汇之间的界限、和/或、词汇与标点符号之间的界限,在实际应用中,“%”可以不具备任何意义。
根据一种实施例,由于RNNLM适用于较宽长度范围的语义片段,故可以将源文本或者目标文本对应的所有语义片段作为一个整体,由RNNLM确定源文本或者目标文本对应的语言模型得分,例如,将源文本或者目标文本包括的所有字符单元输入RNNLM,则RNNLM可输出对应的语言模型得分。所述字符单元可以包括:词汇和/或标点符号。
根据另一种实施例,源文本或者目标文本对应的语言模型得分的确定过程可以包括:针对源文本或者目标文本包含的各语义片段,确定对应的语言模型得分;对源文本或者目标文本包含的所有语义片段对应的语言模型得分进行融合,以得到对应的语言模型得分。
可选地,可以按照从前到后的顺序,通过移动方式从源文本或者目标文本中获取对应的语义片段,不同语义片段所包含字符单元的数量可以相同,相邻的语义片段可以存在重复的字符单元。此种情况下,可由N-gram语言模型和/或神经网络语言模型确定语义片段对应的语言模型得分。假设N=5,首字符单元的编号为1,则可以按照编号的如下顺序:1-5、2-6、3-7、4-8等从所述标点添加结果中获取对应的长度为5的语义片段,并利用N-gram语言模型确定各语义片段对应的语言模型得分,例如,将各语义片段输入N-gram,则N-gram可输出对应的语言模型得分。
在本发明的一种可选实施例中,上述第一预置条件包括:目标文本对应的语言模型得分不低于所述源文本对应的语言模型得分,也即,目标文本对应的语言模型得分与所述源文本对应的语言模型得分之间的比较结果可以大于0。
在本发明的另一种可选实施例中,上述第一预置条件可以包括:目标文本对应的语言模型得分相对于所述源文本对应的语言模型得分的增加幅度超过第一幅度阈值。其中,该增加幅度可以表示为:(new_lm_score-old_lm_score)/old_lm_score,其中,new_lm_score表示目标文本对应的语言模型得分,old_lm_score表示源文本对应的语言模型得分,可以理解,本发明实施例对于上述增加幅度的具体表征方式不加以限制。
其中,本领域技术人员可以根据实际应用需求,确定上述第一幅度阈值。例如,上述第一幅度阈值可以为经验值。
可选地,所述第一幅度阈值可以为依据所述源文本所包括的字词数量得到,这样,可以在一定程度上避免目标词的错误替换,进而可以提高语音识别结果的准确率。进一步可选地,所述第一幅度阈值与所述源文本所包括的字词数量之间可以为负相关关系,也即,上述第一幅度阈值可以随着上述字词数量的增加而减小。其中,字词数量可以为源文本所包括字符的数量,具体到中文,字词数量可以为源文本所包括单字的数量,具体到英文,字词数量可以为源文本所包括单词的数量。
在本发明的一种可选实施例中,可以将上述字词数量划分为若干个字词数量等级,其中,不同字词数量等级可以对应不同的第一幅度阈值。假设按照字词数量从小到大的顺序,字词数量等级可以包括:第一字词数量等级、第二字词数量等级、…第N字词数量等级,其中,N为自然数,则第(i+1)字词数量等级对应的第一幅度阈值可以小于第i字词数量等级对应的第一幅度阈值,其中,i为自然数,i≤N。
参照表1,示出了本发明实施例的一种字词数量等级与第一幅度阈值之间的映射关系的示例,其具体可以包括:第一字词数量等级、第二字词数量等级、第三字词数量等级和第二字词数量等级。作为一种示例,表1中,第一阈值、第二阈值、第三阈值的值可以分别为2、10、20,可以理解,本发明实施例对于具体的字词数量等级、以及字词数量等级与第一幅度阈值之间的映射关系不加以限制。
表1
在本发明的另一种可选实施例中,在所述将所述目标文本作为所述语音信号对应的语音识别结果输出之前,本发明实施例的方法还可以包括:确定所述目标文本对应的句法分析结果符合预设规则。
句法分析是的基本任务是确定句子的句法结构,比如“我来晚了”,这里“我”是主语,“来”是谓语,“晚了”是补语。可选地,句法结构可以用树状数据结构表示,完成这种分析过程的程序模块可以称为句法分析器。
由于目标文本相对于源文本发生了变化,该变化具体为:源文本中目标词变为标点符号,上述变化将会导致句法分析结果的变化。
本发明实施例可以对目标文本进行句法分析,并判断句法分析结果是否符合对应语言的预设规则,若是,则可以将目标文本作为语音信号对应的语音识别结果进行输出,这样,可以在一定程度上避免因目标词替换导致的句法不合理的现象,提高语音识别结果的合理性。可以理解,若句法分析结果不符合对应语言的预设规则,则可以将源文本作为语音信号对应的语音识别结果进行输出。
在实际应用中,上述预设规则可以包括预设的语法规则。语法是语言学的一个分支,研究按确定用法来运用的"词类"、"词"的屈折变化或表示相互关系的其他手段以及词在句中的功能和关系。语法规则可以包含词的构词、构形的规则和组词成句的规则,可以理解,本发明实施例对于具体的预设规则不加以限制。
需要说明的是,本发明的实施例的源文本可以经过了标点添加处理,此种情况下,步骤203可以直接向用户展现目标文本。或者,本发明的实施例的源文本可以未经过标点添加处理,此种情况下,步骤203可以首先对目标文本进行标点添加处理,然后输出经过标点添加处理的目标文本。
本发明实施例中,标点添加处理可用于为文本添加标点。在本发明的一种可选实施例中,对文本进行标点添加处理,具体可以包括:对文本进行分词,以得到所述语音识别结果对应的词序列;通过语言模型对所述文本对应的词序列进行标点添加处理,以得到作为标点添加结果的文本。可以理解,本领域技术人员可以根据实际应用需求,采用所需的标点添加处理方式,本发明实施例对于具体的标点添加处理方式不加以限制。
本发明实施例中,所述文本对应的词序列中相邻词汇之间可被添加对应的多种候选标点符号,也即,可以依据文本对应的词序列中相邻分词词汇之间被添加多种候选标点符号的情形,对所述词序列进行标点添加处理,这样,所述文本对应的词序列将对应有多种标点添加方案及其对应的标点添加结果。可选地,可以通过语言模型对词序列进行标点添加处理,这样,最终可以得到语言模型得分最优的最优标点添加结果。
需要说明的是,本领域技术人员可以根据实际应用需求,确定需要添加的候选标点符号,可选地,上述候选标点符号可以包括:逗号、问号、句号、感叹号、空格等,其中,空格可以起到词分割的作用或者不起任何作用,例如,对于英文而言,空格可用于分割不同的词,对于中文而言,空格可以为不起任何作用的标点符号,可以理解,本发明实施例对于具体的候选标点符号不加以限制。
综上,本发明实施例的处理方法,将语音信号所对应源文本包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本,并将所述目标文本作为所述语音信号对应的语音识别结果输出;这样,可以使语音识别结果符合用户的标点意图,因此可以提高语音识别服务的智能性。并且,本发明实施例可以节省用户手动编辑不符合标点意图的语音识别结果所花费的操作成本,提高用户的处理效率。
并且,上述目标文本对应的语言模型得分与所述源文本对应的语言模型得分之间的比较结果可以符合第一预置条件;由于语言模型是根据语言客观事实而进行的语言抽象数学建模,语言模型得分可以反映文本(包括源文本或者目标文本等)对应的语言质量,因此本发明实施例可以在一定程度上避免由于将所述源文本包括的目标词替换为对应的标点符号而导致语言质量下降的情况,进而可以提高语音信号对应的语音识别结果的质量。
参照图4,示出了本发明的一种处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤401、从语音信号对应的源文本中获取标点符号对应的目标词;所述目标词的数量可以为多个;
步骤402、按照预设顺序,从多个所述目标词中获取当前需要替换的一个目标词,作为当前目标词;
步骤403、将当前目标词替换为对应的标点符号,以得到当前次替换对应的替换后文本,所述当前目标词包括在当前次替换对应的替换前文本中,在完成所有当前目标词对应的替换后,得到所述语音信号对应的目标文本;
步骤404、将所述目标文本作为所述语音信号对应的语音识别结果输出。
在实际应用中,在目标词的数量为一个的情况下,本发明实施例可以通过一次替换,将所述源文本包括的目标词替换为对应的标点符号,进而得到对应的目标文本。
相对于图2所示实施例,本实施例的目标词涉及目标词的数量为多个的情况下的处理,具体地,本发明实施例可以通过多次替换,将所述源文本包括的目标词替换为对应的标点符号,其中,一次替换可以涉及一个目标词的替换,也即,将替换前文本包括的当前目标词替换为对应的标点符号。
在实际应用中,可以按照预设顺序,从多个所述目标词中获取当前需要替换的一个目标词,作为当前目标词,并按照预设顺序进行当前目标词的替换。其中,上述预设顺序可由本领域技术人员依据实际应用需求确定,例如,上述预设顺序可以包括:从前往后、从后往前、或者从中间往两端等任意顺序。
本发明实施例中,第一次替换对应的替换前文本可以为源文本,第(j+1)次替换对应的替换前文本可以为第j次替换对应的替换后文本,其中,j为自然数。其中,第(j+1)次替换对应的替换前文本为第j次替换对应的替换后文本,可以实现每次替换对应的替换后文本的更新。
当然,第(j+1)次替换对应的替换前文本为第j次替换对应的替换后文本只是作为可选实施例,实际上,第(j+1)次替换对应的替换前文本可以为源文本。
假设源文本为“你好逗号你叫什么名字问号”,则在从中获取标点符号对应的目标词,如“逗号”、“问号”之后,可以通过两次替换将其中包括的目标词替换为对应的标点符号;其中,第一次替换可以将源文本中的一个目标词替换为对应的标点符号,以得到第一替换后文本;第二次替换可以将第一替换后文本中的一个目标词替换为对应的标点符号,以得到目标文本;最终可以得到目标文本“你好,你叫什么名字?”。
在本发明的一种可选实施例中,当前次替换成功的条件可以包括:当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件。若不满足当前次替换成功的条件,则可以认为当前次替换失败、或者放弃当前次替换,并继续进行下一次替换,直至完成所有当前目标词对应的替换。由于语言模型是根据语言客观事实而进行的语言抽象数学建模,语言模型得分可以反映文本(包括替换前文本、或者替换后文本等)对应的语言质量,因此本发明实施例可以在一定程度上避免由于将所述替换前文本包括的当前目标词替换为对应的标点符号而导致语言质量下降的情况,进而可以提高语音信号对应的语音识别结果的质量。
可选地,所述第二预置条件可以包括:当前次替换所对应替换后文本的语言模型得分不低于当前次替换所对应替换前文本的语言模型得分。进一步可选地,所述第二预置条件可以包括:当前次替换所对应替换后文本的语言模型得分相对于当前次替换所对应替换前文本的语言模型得分的增加幅度超过第二幅度阈值。
对于替换后文本的语言模型得分的确定过程、以及替换前文本的语言模型得分的确定过程而言,由于其与源文本或者目标文本对应的语言模型得分的确定过程类似,故在此不作赘述,相互参照即可。
对于第二预置条件而言,由于其与第一预置条件类似,故在此不作赘述,相互参照即可。具体地,第二预置条件对应的第二幅度阈值可以为依据所述源文本所包括的字词数量得到。这样,可以在一定程度上避免目标词的错误替换,进而可以提高语音识别结果的准确率。进一步可选地,所述第二幅度阈值与所述源文本所包括的字词数量之间可以为负相关关系,也即,上述第二幅度阈值可以随着上述字词数量的增加而减小。
在本发明的一种可选实施例中,当前次替换成功的条件可以包括:当前次替换所对应替换后文本对应的句法分析结果符合预设规则,这样,可以在一定程度上避免因目标词替换导致的句法不合理的现象,提高语音识别结果的合理性。对于当前次替换所对应替换后文本对应的句法分析结果的获取过程与判断过程而言,由于其与目标文本对应的句法分析结果的获取过程与判断过程类似,故在此不作赘述,相互参照即可。
在当前次替换成功的条件包括:当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件的情况下,可以对当前次替换进行有效的校验,相应地,下一次替换对应的替换前文本可以包括如下两种情形:
情形1、若当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件,则将下一次替换对应的替换前文本为当前次替换对应的替换后文本;或者
情形2、若当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分不符合第二预置条件,则将下一次替换对应的替换前文本为当前次替换对应的替换前文本。
情形1可以对应当前次替换成功的情况,此种情况下,可以通过当前次替换对下一次替换对应的替换前文本进行了更新,故下一次替换对应的替换前文本可以为当前次替换对应的替换后文本。
情形2可以对应当前次替换失败的情况,此种情况下,可以当前次替换未对下一次替换对应的替换前文本进行更新,故下一次替换对应的替换前文本可以为当前次替换对应的替换前文本。
在本发明的一种应用示例中,第一次替换对应的替换前文本为源文本,若第一次替换失败,则第二次替换对应的替换前文本可以为源文本,或者,若第一次替换成功,则第二次替换对应的替换前文本可以为第一次替换对应的替换后文本;进一步,若第二次替换失败,则第三次替换对应的替换前文本可以为第一次替换对应的替换后文本,或者,若第二次替换成功,则第三次替换对应的替换前文本可以为第二次替换对应的替换后文本。
综上,本发明实施例的处理方法,可以通过多次替换,将所述源文本包括的目标词替换为对应的标点符号,其中,一次替换可以涉及一个目标词的替换,也即,将替换前文本包括的当前目标词替换为对应的标点符号。
并且,本发明实施例中,当前次替换成功的条件可以包括:当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件。若不满足当前次替换成功的条件,则可以认为当前次替换失败、或者放弃当前次替换,并继续进行下一次替换,直至完成所有当前目标词对应的替换。由于语言模型是根据语言客观事实而进行的语言抽象数学建模,语言模型得分可以反映文本(包括替换前文本、或者替换后文本等)对应的语言质量,因此本发明实施例可以在一定程度上避免由于将所述替换前文本包括的当前目标词替换为对应的标点符号而导致语言质量下降的情况,进而可以提高语音信号对应的语音识别结果的质量。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图5,示出了本发明的一种处理装置实施例的结构框图,具体可以包括:
目标词获取模块501,用于从语音信号对应的源文本中获取标点符号对应的目标词;
目标词替换模块502,用于将所述源文本可以包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本;以及
识别结果输出模块503,用于将所述目标文本作为所述语音信号对应的语音识别结果输出。
可选地,所述目标文本对应的语言模型得分与所述源文本对应的语言模型得分之间的比较结果符合第一预置条件;相应地,所述装置还可以包括:
第一确定模块,用于在识别结果输出模块503将所述目标文本作为所述语音信号对应的语音识别结果输出之前,确定目标文本对应的语言模型得分与所述源文本对应的语言模型得分之间的比较结果符合第一预置条件。
可选地,所述目标词的数量可以为多个,目标词替换模块402可以包括:
顺序获取子模块,用于按照预设顺序,从多个所述目标词中获取当前需要替换的一个目标词,作为当前目标词;
顺序替换子模块,用于将当前目标词替换为对应的标点符号,以得到当前次替换对应的替换后文本,所述当前目标词包括在当前次替换对应的替换前文本中,在完成所有当前目标词对应的替换后,得到所述语音信号对应的目标文本。
可选地,当前次替换成功的条件可以包括:当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件。
可选地,若当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件,则将下一次替换对应的替换前文本为当前次替换对应的替换后文本;或者
若当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分不符合第二预置条件,则将下一次替换对应的替换前文本为当前次替换对应的替换前文本。
可选地,所述第一预置条件可以包括:目标文本对应的语言模型得分不低于所述源文本对应的语言模型得分;或者
所述第二预置条件可以包括:当前次替换所对应替换后文本的语言模型得分不低于当前次替换所对应替换前文本的语言模型得分。
可选地,所述第一预置条件可以包括:目标文本对应的语言模型得分相对于所述源文本对应的语言模型得分的增加幅度超过第一幅度阈值;或者
所述第二预置条件可以包括:当前次替换所对应替换后文本的语言模型得分相对于当前次替换所对应替换前文本的语言模型得分的增加幅度超过第二幅度阈值。
可选地,所述第一幅度阈值或者所述第二幅度阈值为依据所述源文本所可以包括的字词数量得到。
可选地,所述装置还可以包括:
第二确定模块,用于在识别结果输出模块503将所述目标文本作为所述语音信号对应的语音识别结果输出之前,确定所述目标文本对应的句法分析结果符合预设规则。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例还提供了一种处理装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:从语音信号对应的源文本中获取标点符号对应的目标词;将所述源文本包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本;将所述目标文本作为所述语音信号对应的语音识别结果输出。
可选地,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
在所述将所述目标文本作为所述语音信号对应的语音识别结果输出之前,确定所述目标文本对应的语言模型得分与所述源文本对应的语言模型得分之间的比较结果符合第一预置条件。
可选地,所述目标词的数量为多个,所述将所述源文本包括的目标词替换为对应的标点符号,包括:
按照预设顺序,从多个所述目标词中获取当前需要替换的一个目标词,作为当前目标词;
将当前目标词替换为对应的标点符号,所述当前目标词包括在当前次替换对应的替换前文本中;以得到当前次替换对应的替换后文本,在完成所有当前目标词对应的替换后,得到所述语音信号对应的目标文本。
可选地,当前次替换成功的条件包括:当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件。
可选地,若当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件,则将下一次替换对应的替换前文本为当前次替换对应的替换后文本;或者
若当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分不符合第二预置条件,则将下一次替换对应的替换前文本为当前次替换对应的替换前文本。
可选地,所述第一预置条件包括:目标文本对应的语言模型得分不低于所述源文本对应的语言模型得分;或者
所述第二预置条件包括:当前次替换所对应替换后文本的语言模型得分不低于当前次替换所对应替换前文本的语言模型得分。
可选地,所述第一预置条件包括:目标文本对应的语言模型得分相对于所述源文本对应的语言模型得分的增加幅度超过第一幅度阈值;或者
所述第二预置条件包括:当前次替换所对应替换后文本的语言模型得分相对于当前次替换所对应替换前文本的语言模型得分的增加幅度超过第二幅度阈值。
可选地,所述第一幅度阈值或者所述第二幅度阈值为依据所述源文本所包括的字词数量得到。
可选地,所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
在所述将所述目标文本作为所述语音信号对应的语音识别结果输出之前,确定所述目标文本对应的句法分析结果符合预设规则。
图6是根据一示例性实施例示出的一种用于处理的装置作为终端时的框图。例如,终端900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,终端900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制终端900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为终端900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当终端900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为终端900提供各个方面的状态评估。例如,传感器组件914可以检测到终端900的打开/关闭状态,组件的相对定位,例如所述组件为终端900的显示器和小键盘,传感器组件914还可以检测终端900或终端900一个组件的位置改变,用户与终端900接触的存在或不存在,终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由终端900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图7是根据一示例性实施例示出的一种用于处理的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1932,上述指令可由服务器1900的处理器执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行一种处理方法,所述方法包括:从语音信号对应的源文本中获取标点符号对应的目标词;将所述源文本包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本;将所述目标文本作为所述语音信号对应的语音识别结果输出。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种处理方法、一种处理装置、一种用于处理的装置、以及一种机器可读介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (25)
1.一种处理方法,其特征在于,包括:
从语音信号对应的源文本中获取标点符号对应的目标词;
将所述源文本包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本;
在所述目标文本对应的语言模型得分与所述源文本对应的语言模型得分之间的比较结果符合第一预置条件的情况下,将所述目标文本作为所述语音信号对应的语音识别结果输出;
所述第一预置条件包括:目标文本对应的语言模型得分相对于所述源文本对应的语言模型得分的增加幅度超过第一幅度阈值;所述第一幅度阈值为依据所述源文本所包括的字词数量得到;所述字词数量对应的数量等级包括:第一字词数量等级和第二字词数量等级;所述第一字词数量等级对应的字词数量小于第二字词数量等级对应的字词数量,所述第一字词数量等级对应的第一幅度阈值大于第二字词数量等级对应的第一幅度阈值。
2.根据权利要求1所述的方法,其特征在于,所述目标词的数量为多个,所述将所述源文本包括的目标词替换为对应的标点符号,包括:
按照预设顺序,从多个所述目标词中获取当前需要替换的一个目标词,作为当前目标词;
将当前目标词替换为对应的标点符号,所述当前目标词包括在当前次替换对应的替换前文本中;以得到当前次替换对应的替换后文本,在完成所有当前目标词对应的替换后,得到所述语音信号对应的目标文本。
3.根据权利要求2所述的方法,其特征在于,当前次替换成功的条件包括:当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件。
4.根据权利要求2所述的方法,其特征在于,若当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件,则将下一次替换对应的替换前文本为当前次替换对应的替换后文本;或者
若当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分不符合第二预置条件,则将下一次替换对应的替换前文本为当前次替换对应的替换前文本。
5.根据权利要求3或4所述的方法,其特征在于,所述第二预置条件包括:当前次替换所对应替换后文本的语言模型得分不低于当前次替换所对应替换前文本的语言模型得分。
6.根据权利要求5所述的方法,其特征在于,所述第二预置条件包括:当前次替换所对应替换后文本的语言模型得分相对于当前次替换所对应替换前文本的语言模型得分的增加幅度超过第二幅度阈值。
7.根据权利要求6所述的方法,其特征在于,所述第二幅度阈值为依据所述源文本所包括的字词数量得到。
8.根据权利要求1所述的方法,其特征在于,在所述将所述目标文本作为所述语音信号对应的语音识别结果输出之前,所述方法还包括:
确定所述目标文本对应的句法分析结果符合预设规则。
9.一种处理装置,其特征在于,包括:
目标词获取模块,用于从语音信号对应的源文本中获取标点符号对应的目标词;
目标词替换模块,用于将所述源文本包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本;以及
识别结果输出模块,用于在所述目标文本对应的语言模型得分与所述源文本对应的语言模型得分之间的比较结果符合第一预置条件的情况下,将所述目标文本作为所述语音信号对应的语音识别结果输出;
所述第一预置条件包括:目标文本对应的语言模型得分相对于所述源文本对应的语言模型得分的增加幅度超过第一幅度阈值;所述第一幅度阈值为依据所述源文本所包括的字词数量得到;所述字词数量对应的数量等级包括:第一字词数量等级和第二字词数量等级;所述第一字词数量等级对应的字词数量小于第二字词数量等级对应的字词数量,所述第一字词数量等级对应的第一幅度阈值大于第二字词数量等级对应的第一幅度阈值。
10.根据权利要求9所述的装置,其特征在于,所述目标词的数量为多个,所述目标词替换模块包括:
顺序获取子模块,用于按照预设顺序,从多个所述目标词中获取当前需要替换的一个目标词,作为当前目标词;
顺序替换子模块,用于将当前目标词替换为对应的标点符号,以得到当前次替换对应的替换后文本,所述当前目标词包括在当前次替换对应的替换前文本中,在完成所有当前目标词对应的替换后,得到所述语音信号对应的目标文本。
11.根据权利要求10所述的装置,其特征在于,当前次替换成功的条件包括:当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件。
12.根据权利要求10所述的装置,其特征在于,若当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件,则将下一次替换对应的替换前文本为当前次替换对应的替换后文本;或者
若当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分不符合第二预置条件,则将下一次替换对应的替换前文本为当前次替换对应的替换前文本。
13.根据权利要求11或者12所述的装置,其特征在于,所述第二预置条件包括:当前次替换所对应替换后文本的语言模型得分不低于当前次替换所对应替换前文本的语言模型得分。
14.根据权利要求11或12所述的装置,其特征在于,所述第二预置条件包括:当前次替换所对应替换后文本的语言模型得分相对于当前次替换所对应替换前文本的语言模型得分的增加幅度超过第二幅度阈值。
15.根据权利要求14所述的装置,其特征在于,所述第二幅度阈值为依据所述源文本所包括的字词数量得到。
16.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于在所述识别结果输出模块将所述目标文本作为所述语音信号对应的语音识别结果输出之前,确定所述目标文本对应的句法分析结果符合预设规则。
17.一种用于处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
从语音信号对应的源文本中获取标点符号对应的目标词;
将所述源文本包括的目标词替换为对应的标点符号,以得到所述语音信号对应的目标文本;
在所述目标文本对应的语言模型得分与所述源文本对应的语言模型得分之间的比较结果符合第一预置条件的情况下,将所述目标文本作为所述语音信号对应的语音识别结果输出;
所述第一预置条件包括:目标文本对应的语言模型得分相对于所述源文本对应的语言模型得分的增加幅度超过第一幅度阈值;所述第一幅度阈值为依据所述源文本所包括的字词数量得到;所述字词数量对应的数量等级包括:第一字词数量等级和第二字词数量等级;所述第一字词数量等级对应的字词数量小于第二字词数量等级对应的字词数量,所述第一字词数量等级对应的第一幅度阈值大于第二字词数量等级对应的第一幅度阈值。
18.根据权利要求17所述的装置,其特征在于,所述目标词的数量为多个,所述将所述源文本包括的目标词替换为对应的标点符号,包括:
按照预设顺序,从多个所述目标词中获取当前需要替换的一个目标词,作为当前目标词;
将当前目标词替换为对应的标点符号,所述当前目标词包括在当前次替换对应的替换前文本中;以得到当前次替换对应的替换后文本,在完成所有当前目标词对应的替换后,得到所述语音信号对应的目标文本。
19.根据权利要求18所述的装置,其特征在于,当前次替换成功的条件包括:当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件。
20.根据权利要求18所述的装置,其特征在于,若当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分之间的比较结果符合第二预置条件,则将下一次替换对应的替换前文本为当前次替换对应的替换后文本;或者
若当前次替换所对应替换后文本的语言模型得分与当前次替换所对应替换前文本的语言模型得分不符合第二预置条件,则将下一次替换对应的替换前文本为当前次替换对应的替换前文本。
21.根据权利要求19或20所述的装置,其特征在于,所述第二预置条件包括:当前次替换所对应替换后文本的语言模型得分不低于当前次替换所对应替换前文本的语言模型得分。
22.根据权利要求19或20所述的装置,其特征在于,所述第二预置条件包括:当前次替换所对应替换后文本的语言模型得分相对于当前次替换所对应替换前文本的语言模型得分的增加幅度超过第二幅度阈值。
23.根据权利要求22所述的装置,其特征在于,所述第二幅度阈值为依据所述源文本所包括的字词数量得到。
24.根据权利要求17所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
在所述将所述目标文本作为所述语音信号对应的语音识别结果输出之前,确定所述目标文本对应的句法分析结果符合预设规则。
25.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至8中任一所述的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710632930.2A CN107564526B (zh) | 2017-07-28 | 2017-07-28 | 处理方法、装置和机器可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710632930.2A CN107564526B (zh) | 2017-07-28 | 2017-07-28 | 处理方法、装置和机器可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107564526A CN107564526A (zh) | 2018-01-09 |
CN107564526B true CN107564526B (zh) | 2020-10-27 |
Family
ID=60973895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710632930.2A Active CN107564526B (zh) | 2017-07-28 | 2017-07-28 | 处理方法、装置和机器可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107564526B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108538292B (zh) * | 2018-04-26 | 2020-12-22 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及可读存储介质 |
CN110020190B (zh) * | 2018-07-05 | 2021-06-01 | 中国科学院信息工程研究所 | 一种基于多示例学习的可疑威胁指标验证方法及系统 |
US10789955B2 (en) * | 2018-11-16 | 2020-09-29 | Google Llc | Contextual denormalization for automatic speech recognition |
CN111460836B (zh) * | 2019-01-18 | 2024-04-19 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110321532A (zh) * | 2019-06-06 | 2019-10-11 | 数译(成都)信息技术有限公司 | 语言预处理断句方法、计算机设备及计算机可读存储介质 |
CN112445453B (zh) * | 2020-11-10 | 2024-09-13 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11126091A (ja) * | 1997-10-22 | 1999-05-11 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声言語処理単位変換装置 |
CN1235312A (zh) * | 1998-05-13 | 1999-11-17 | 国际商业机器公司 | 连续语音识别中的标点符号自动生成装置及方法 |
US6067514A (en) * | 1998-06-23 | 2000-05-23 | International Business Machines Corporation | Method for automatically punctuating a speech utterance in a continuous speech recognition system |
CN103247291A (zh) * | 2013-05-07 | 2013-08-14 | 华为终端有限公司 | 一种语音识别设备的更新方法、装置及系统 |
CN105074817A (zh) * | 2013-03-15 | 2015-11-18 | 高通股份有限公司 | 用于使用手势来切换处理模式的系统和方法 |
CN106484134A (zh) * | 2016-09-20 | 2017-03-08 | 深圳Tcl数字技术有限公司 | 基于安卓系统的语音输入标点符号的方法及装置 |
-
2017
- 2017-07-28 CN CN201710632930.2A patent/CN107564526B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11126091A (ja) * | 1997-10-22 | 1999-05-11 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声言語処理単位変換装置 |
CN1235312A (zh) * | 1998-05-13 | 1999-11-17 | 国际商业机器公司 | 连续语音识别中的标点符号自动生成装置及方法 |
US6067514A (en) * | 1998-06-23 | 2000-05-23 | International Business Machines Corporation | Method for automatically punctuating a speech utterance in a continuous speech recognition system |
CN105074817A (zh) * | 2013-03-15 | 2015-11-18 | 高通股份有限公司 | 用于使用手势来切换处理模式的系统和方法 |
CN103247291A (zh) * | 2013-05-07 | 2013-08-14 | 华为终端有限公司 | 一种语音识别设备的更新方法、装置及系统 |
CN106484134A (zh) * | 2016-09-20 | 2017-03-08 | 深圳Tcl数字技术有限公司 | 基于安卓系统的语音输入标点符号的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107564526A (zh) | 2018-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291690B (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN107632980B (zh) | 语音翻译方法和装置、用于语音翻译的装置 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN106098060B (zh) | 语音的纠错处理方法和装置、用于语音的纠错处理的装置 | |
CN111145756B (zh) | 一种语音识别方法、装置和用于语音识别的装置 | |
CN107102746B (zh) | 候选词生成方法、装置以及用于候选词生成的装置 | |
CN107291704B (zh) | 处理方法和装置、用于处理的装置 | |
CN108628813B (zh) | 处理方法和装置、用于处理的装置 | |
CN107274903B (zh) | 文本处理方法和装置、用于文本处理的装置 | |
CN111831806A (zh) | 语义完整性确定方法、装置、电子设备和存储介质 | |
CN111369978B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN110069624B (zh) | 文本处理方法及装置 | |
CN112036195A (zh) | 机器翻译方法、装置及存储介质 | |
CN110633017A (zh) | 一种输入方法、装置和用于输入的装置 | |
CN107424612B (zh) | 处理方法、装置和机器可读介质 | |
CN111400443B (zh) | 信息处理方法、装置及存储介质 | |
CN109979435B (zh) | 数据处理方法和装置、用于数据处理的装置 | |
CN110780749B (zh) | 一种字符串纠错方法和装置 | |
CN108073294B (zh) | 一种智能组词方法和装置、一种用于智能组词的装置 | |
CN113589954B (zh) | 一种数据处理方法、装置和电子设备 | |
CN114462410A (zh) | 实体识别方法、装置、终端及存储介质 | |
CN108073566B (zh) | 分词方法和装置、用于分词的装置 | |
CN108345590B (zh) | 一种翻译方法、装置、电子设备以及存储介质 | |
CN112149432A (zh) | 篇章机器翻译方法及装置、存储介质 | |
CN113515618A (zh) | 语音处理方法、装置和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |