CN110192250A

CN110192250A - 语音中的符号序列估计

Info

Publication number: CN110192250A
Application number: CN201780083738.0A
Authority: CN
Inventors: 铃木雅之; 仓田岳人; 立花隆辉; K·W·彻尔彻; B·拉马巴哈德兰; A·瑟西
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-01-18
Filing date: 2017-12-04
Publication date: 2019-08-30
Anticipated expiration: 2037-12-04
Also published as: CN110192250B; GB2573462B; US20190139550A1; WO2018134655A1; US10229685B2; US11145308B2; US20180204567A1; JP6986287B2; US10529337B2; GB201910678D0; GB2573462A; JP2020509397A; US20200013408A1

Abstract

使用计算机实现的方法估计符号序列，包括从语音到文本数据中检测目标符号序列的一个或多个候选，从语音到文本数据中提取每个候选的相关部分(S140)，检测相应候选的相关部分内每个候选的至少部分序列的重复(S150)，用重复指示标记检测到的重复(S160)，并使用包括每个候选者的重复指示的相应相关部分来估计每个候选是否是目标符号序列(S170)。

Description

语音中的符号序列估计

技术领域

本发明涉及语音中的符号序列估计。

语音识别系统在称为语音到文本的过程中从音频数据(例如记录的口头对话)生成文本。从口头对话中搜索符号序列对于利用从语音到文本处理生成的文本(称为语音到文本数据)是重要的。现有的符号序列搜索技术在美国专利公开2008/0221882A1、美国专利公开2014/0222419A1和美国专利公开2011/0046953A1中公开。然而，在语音到文本数据中区分一种类型的符号序列(例如，电话号码)与其他类型的符号序列(例如，客户ID)仍然存在困难。

发明内容

根据本发明的第一方面，提供了一种计算机实现的方法，包括从语音到文本数据中检测目标符号序列的一个或多个候选；从语音到文本数据中提取每个候选的相关部分；检测相应候选的相关部分内每个候选的至少部分序列的重复；用重复指示标记检测到的重复；和使用包括每个候选的重复指示的相应相关部分来估计每个候选是否是目标符号序列。根据第一方面，该方法能够通过利用重复指示以较少的计算资源准确识别目标符号序列。

根据本发明的第二方面，可选地提供了第一方面的方法，其中，从语音到文本数据中检测目标符号序列的一个或多个候选包括从语音到文本数据中提取构成每个候选的两个或更多个符号序列，其中两个或更多个符号序列在语音到文本数据中彼此分离。根据第二方面，该方法能够检测来自语音到文本数据中的远程位置的候选。

根据本发明的第三方面，可选地提供了第二方面的方法，其中检测所述相应候选的相关部分内的每个候选的至少部分序列的重复包括检测构成相应候选的相关部分内的相应候选的两个或更多个符号序列中的至少一个。根据第三方面，该方法能够检测与符号序列相对应的重复，从而提高估计的准确性。

根据本发明的第四方面，可选地提供了第二方面的方法，其中，通过提取预定数量的符号序列来执行提取两个或更多个符号序列，所述两个或更多个符号序列不重叠，并且所述两个或更多个符号序列的级联形成每个候选。根据第四方面，该方法能够检测来自语音到文本数据中的远程位置的候选。

根据本发明的第五方面，可选地提供了第四方面的方法，其中每个候选的相关部分包括与每个候选相邻的部分。根据第五方面，该方法能够检测与符号序列相对应的重复，从而提高估计的准确性。

根据本发明的第六方面，可选地提供了第五方面的方法，其中，基于每个对应候选的重复指示估计每个候选是否是目标符号序列包括通过将具有重复指示的每个候选的相关部分输入到递归神经网络来估计每个候选是目标符号序列的概率。根据第六方面，该方法能够以更高的准确度和更少的计算资源来检测目标符号序列。

根据本发明的第七方面，可选地提供了第六方面的方法，其中，基于每个对应候选的重复指示估计每个候选是否是目标符号序列还包括：确定哪个候选从候选中的递归神经网络输出最高概率。根据第七方面，该方法能够以更高的准确度和更少的计算资源来检测目标符号序列。

根据本发明的第八方面，可选地提供了第六方面的方法，其中从语音到文本数据中提取每个候选的相关部分包括从语音到文本数据中提取候选的多个相关部分，其中，通过将具有标记重复的每个候选的相关部分输入到递归神经网络来估计每个候选是目标符号序列的概率包括将具有标记重复的每个候选的多个相关部分中的每一个输入到多个递归神经网络中的一个递归神经网络，以及其中，每个具有重复指示的候选的多个相关部分中的每一个在取决于每个候选的多个相关部分中的每一个的位置的方向上被输入到多个递归神经网络中的一个递归神经网络。根据第八方面，该方法通过利用候选与语音到文本数据中的相关部分之间的相对位置，能够以更高的准确度和更少的计算资源来检测目标符号序列。

根据本发明的第九方面，可选地提供了方法还包括响应于确定候选的概率低于阈值，需要附加的语音到文本数据。根据第九方面，如果认为对现有语音到文本数据的估计不够可靠，则该方法能够从新的语音到文本数据中另外估计目标符号序列。

根据本发明的第十方面，可选地提供了第一方面的方法，其中用重复指示标记检测到的重复包括用重复指示替换检测到的重复。根据第十方面，该方法能够通过删除不必要的信息以更高的准确度和更少的计算资源来检测目标符号序列。

根据本发明的第十一方面，可选地提供了第一方面的方法，其中用重复指示标记检测到的重复包括用检测到的重复的符号长度的指示来标记检测到的重复。根据第十一方面，该方法能够通过利用重复的符号长度的信息，以更高的准确度和更少的计算资源来检测目标符号序列。

根据本发明的第十二方面，可选地提供了第一方面的方法，其中用重复指示标记检测到的重复包括通过指示每个候选中检测到的重复的位置来标记检测到的重复。根据第十二方面，该方法能够通过利用重复位置的信息，以更高的准确度和更少的计算资源来检测目标符号序列。

根据本发明的第十三方面，可选地提供了第一方面的方法，还包括：检测与每个候选的相关部分中的每个候选的至少部分序列类似的相似部分，和用指示相似性的信息标记检测到的相似部分，和其中，使用包括每个候选的重复指示的相应相关部分来估计每个候选是否是目标符号序列包括基于每个候选的重复指示和相似部分来估计每个候选是否是目标符号序列。根据第十三方面，该方法能够通过利用与候选相似的部分的信息，以更高的准确度和更少的计算资源来检测目标符号序列。

上述第一至第十三方面还可以包括执行所描述的方法的装置和使计算机或可编程电路执行所描述的方法的计算机程序产品。发明内容并不一定描述本发明实施例的所有特征。本发明的实施例还可以包括上述特征的子组合。

通过以下对结合附图来阅读的说明性实施例的详细描述，这些和其他特征和优点将变得显而易见。

附图说明

以下描述将参考以下附图提供优选实施例的细节，其中：

图1示出了根据本发明实施例的装置的示例性配置；

图2示出了根据本发明实施例的操作流程；

图3示出了示出了根据本发明实施例的候选；

图4示出了示出了根据本发明另一实施例的候选；

图5示出了根据本发明实施例的相关部分；

图6示出了根据本发明实施例的标记；

图7示出了根据本发明另一实施例的标记；

图8示出了根据本发明实施例的递归神经网络(RNN)；

图9示出了根据本发明实施例的长短期存储器(LSTM)；

图10根据本发明实施例的估计模型；

图11示出了根据本发明的实施例的第二操作流程；以及

图12示出了根据本发明实施例的用作系统的计算机的示例性硬件配置。

具体实施方式

在下文中，将描述本发明的示例实施例。示例实施例不应限制根据权利要求的本发明，并且实施例中描述的特征的组合不一定是本发明必不可少的。

图1示出了根据本发明实施例的设备10(例如，计算机、可编程电路等)的示例性配置。设备10可以确定语音到文本数据中的目标符号序列。由设备10确定的目标符号序列可以是电话号码。

设备10可包括处理器和共同包括指令的一个或多个计算机可读介质。当由处理器或可编程电路执行时，指令可以使处理器或可编程电路作为多个操作部分操作。因此，设备10可以表示为存储部100、获取部110、检测部130、提取部140、搜索部150、标记部160、估计部170和训练部190。

存储部100可以存储用于设备10的操作的各种数据。存储部100可以包括易失性或非易失性存储器。设备10中的一个或多个其他元件(例如，获取部110、检测部130、提取部140、搜索部150、标记部160、估计部170、训练部190等)可以直接或通过存储部100传送必要的数据。

获取部110可以获取语音到文本数据。获取部110可以获取一个或多个训练数据，每个训练数据包括与正确的符号序列配对的语音到文本数据。获取部110可以从数据库20获取语音到文本数据和/或训练数据，并且可以将它们存储在存储部100中。获取部110可以从连接到设备的麦克风或其他音频输入设备获取语音到文本数据和/或训练数据。语音到文本数据和/或训练数据可以是被捕获人类语音或机械合成的人类语音。

检测部130可以从由获取部110获取的语音到文本数据中检测目标符号序列的一个或多个候选。检测部130可以通过提取两个或更多符号序列来执行对一个或多个候选的检测，该两个或更多符号序列构成来自语音到文本数据的每个候选者。两个或更多个符号序列在语音到文本数据中彼此分离。

提取部140可以从语音到文本数据中提取由检测部130检测到的每个候选的一个或多个相关部分。在一些实施例中，相关部分可以是与语音到文本数据中的每个候选相邻的文本。

搜索部150可以搜索由提取部140提取的相关部分中的重复。搜索部150可以检测相应候选的相关部分内的每个候选的至少部分序列的重复。

标记部160可以用重复指示标记由搜索部150检测到的检测到的重复。

估计部170可以使用包括由标记部160标记的每个候选的重复指示的相应相关部分来估计每个候选是否是目标符号序列。在一些实施例中，估计部170可以通过利用诸如递归神经网络的估计模型，估计每个候选是否是目标符号序列的可能性。

训练部190可以训练用于估计部170的估计的估计模型。训练部190可以通过使用由获取部110获得的训练数据来执行训练。

图2示出了根据本发明的实施例的第一操作流程。本实施例描述了一个例子，其中诸如设备10的设备执行从S110到S190的操作，如图2所示。该设备可以通过执行S110-S190的操作从语音到文本数据估计目标符号序列。

目标符号序列可以是包括例如数字、字母和/或其他字符的符号序列，其本身可以是无意义的。在一些实施例中，目标符号序列可以是电话号码、客户ID、卡号、人/人群的标识、产品/服务的标识，以及物理/电子邮件地址等。

在S110，诸如获取部110的获取部可以获取语音到文本数据。在其他实施例中，获取部110可以获取从口头会话或独白或者文本消息的文本数据(例如，在线聊天)转录的文本数据作为语音到文本数据。

在S130，诸如检测部130的检测部可以从语音到文本数据中检测目标符号序列的一个或多个候选(下文中可以称为“候选”)。检测部可以检测具有与目标符号序列相同数量的符号的候选。当目标符号序列是具有11个符号序列(或被视为11位)的电话号码时，检测部可以从语音到文本数据中检测具有11个符号序列的一个或多个候选。

检测部可以从语音到文本数据中提取构成每个候选的两个或更多个符号序列，使得两个或更多个符号序列在语音到文本数据中彼此分离。检测部可以将从语音到文本数据中提取预定数量的符号序列的一个或多个模板应用到语音到文本数据。两个或更多个符号序列的级联形成每个候选。

图3示出了根据本发明的实施例的候选。在图3的实施例中，目标符号序列是11位电话号码。表中所示的“候选”(例如，08008012551，08008012513......)表示由检测部检测的目标符号序列的候选。检测部从语音到文本数据“My phone number is...hmm5131right”检测候选，如图3顶部所示。

在图3的实施例中，检测部利用8位模板和3位模板检测候选。对于图3的实施例，检测部可以通过使用8位模板从语音到文本数据中提取具有8位的所有符号序列(例如，08008012，80080123...)。检测部可以通过使用3位模板从语音到文本数据中提取具有3位数(例如，551，513......)的所有符号序列，使得8位符号序列不同时与3位符号序列重叠。例如，当检测到“08008012”时，检测部不能从语音到文本数据中检测“080”，“800”，......，“234”作为3位符号序列。符号序列(例如，08008012)和(例如，551)的级联形成候选(例如，08008012551)。

检测部可以检测从语音到文本数据中的不同部分提取的相同符号序列，作为两个或更多个候选。在图3的实施例中，如第二候选和第四候选中所示，检测部检测“08008012513”。例如，检测部从语音到文本数据中的相同部分检测候选“08008012”，而检测部从语音到文本数据“...is 55131hmm...”中检测第二候选的“513”，并从语音到文本数据中的“...hmm 5131right”中检测第四候选的“513”。

在这种情况下，检测部可以将两个候选“08008012513”视为不同的候选。在替换实施例中，检测部可以保持具有相同符号序列的多个候选中的一些候选，同时放弃其他候选。

图4示出了根据本发明另一实施例的候选。在图4的实施例中。检测部利用3位模板和两个4位模板检测候选。对于图4中的实施例，检测部可以通过使用3位模板从语音到文本数据中提取具有3位(例如，080，800，008......)的所有符号序列。检测部可以通过使用第一个4位模板从语音到文本数据中提取具有4位(例如，0801，8012......)的所有符号序列，使得3位符号序列同时不与任何4位符号序列重叠。检测部还可以通过使用第二个4位模板从语音到文本数据中提取具有4位(例如，5513，5131......)的所有符号序列，从而使得由第一个4位模板提取的3位符号序列和4位符号序列不会同时与由第二个4位模板提取的任何4位符号序列重叠。

在一些实施例中，检测部可以使用模板的所有可能组合来检测符号序列。例如，检测部可以使用11位模板、10-1位模板，9-2位模板，......，1-10位模板，9-1-1位模板，......，1-1-9位模板，8-1-1-1位模板，...，1-1-1-8位模板，......，以及1-1-1-1-1-1-1-1-1-1-1-1-1位模板，用于具有11位电话号码的目标符号。在一个实施例中，检测部可以仅使用模板的所有可能组合中的一些来检测符号序列，这可以由设备的用户预先确定。

如关于前述实施例所解释的，检测部可以执行检测，使得由模板提取的两个或更多个符号序列不重叠。在替代实施例中，由模板提取的两个或更多个符号序列可以重叠。

在S140，诸如提取部140的提取部可以从语音到文本数据中提取在S130检测到的每个候选的相关部分。每个候选的相关部分包括与构成候选的两个或更多个符号序列中的任何一个直接或间接相邻的部分。

在一个实施例中，提取部可以从语音到文本数据中提取候选的多个相关部分。提取部可以提取在S130提取的第一符号序列的在前部分(或左词)，在S130提取的最后符号序列的后续部分(或右词)和在S130提取的夹在两个相邻符号序列之间的部分(或中间词)的至少一个。

在一些实施例中，提取部可以从语音到文本数据中提取指定数量的单词(例如，10个单词)或字符(例如，100个字符)作为相关部分。在另一个实施例中，提取部可以提取语音到文本的开头和第一个提取的符号序列之间的所有单词，语音到文本的结尾和最后提取的符号序列之间的所有单词，和/或者两个相邻符号序列之间的所有单词作为相关部分。

图5示出了根据本发明的实施例的相关部分。图5示出了根据图3的实施例检测到的候选。在图5的实施例中，提取部提取了“My phone number is”，其在语音到文本数据中的第一符号序列“08008012”之前作为第一相关部分(显示为“左词”)。提取部还在语音到文本数据中提取在第二符号序列“551”之后的“31hmm 5131 right”作为第二相关部分(显示为“右词”)。

在S150，诸如搜索部150的搜索部可以检测相应候选的相关部分内的每个候选的至少部分序列的重复。搜索部可以在相应候选的相关部分内检测构成相应候选的两个或更多个符号序列中的至少一个作为重复。在一些实施例中，搜索部可以检测与在S130处检测到的符号序列相同的符号序列，作为与检测到的符号序列相邻的相关部分中的候选的一部分。

在替代实施例中，搜索部可以检测与在S130处检测到的符号序列相同的符号序列，作为候选的一部分/所有相关部分中的一个候选的一部分。在另外的替换实施例中，搜索部可以检测与一个候选的所有相关部分中的一个候选的任何部分相同的符号序列。当搜索部没有检测到候选的重复时，设备可以继续进行S170的操作而不对候选执行S160。

在S160，标记部(例如标记部160)可以用重复指示标记在S150检测到的重复。标记部可以通过用重复指示替换检测到的重复来执行标记。

在一些实施例中，标记部可以用检测到的重复的符号长度的指示来标记检测到的重复。例如，重复指示可以包括检测到的重复的符号数量的信息。

在其他实施例中，标记部可以用检测到的重复在相应候选中的位置的指示来标记检测到的重复。例如，重复指示可以包括相关部分包括检测到的重复的位置的信息(例如，检测到的重复存在于相关部分中的最后4位中的信息)。

图6显示了根据本发明的一个实施例的标记。图6示出了根据图5的实施例检测到的相关部分的重复指示。在图6的实施例中，搜索部检测到图5中第二候选中的右字下的3位符号序列“513”的重复，并且作为响应，标记部用重复指示“Rep(3)”代替重复“513”。“Rep(3)”中的“(3)”表示重复内的符号数，如图6所示。搜索部还检测图5中第三候选中右字下的3位符号序列“131”的重复，并且标记部用重复指示“Rep(3)”代替重复“131”。

响应于候选或相关部分中的两个或更多个重复指示，标记部可以用不同的重复指示标记检测到的重复。例如，如果有两个“Rep(3)”指示，标签部分可以将第一个“Rep(3)”标记为“Rep(3)_1”，将第二个“Rep(3)”标记为“Rep(3)_2”。

图7显示了根据本发明另一个实施例的标记。在图7的实施例中，相关部分包括从候选中提取的左词、中间词和右词以及图3中所示的语音到文本数据。中间词可以是夹在分别由8位模板检测到的8位符号序列和由3位模板检测到的3位符号序列之间的部分。在该实施例中，第二和第三候选的右词下的重复被重复指示替换。

在图7的实施例中，搜索部可以从中间词(例如，“34oh...is”)检测8位符号序列(例如，“08008012”)和3位符号序列(例如，“551”)的重复。标记部可以标记重复，使得不同符号序列(3位/8位符号序列)的重复是可区分的。

在S170，估计部(例如估计部170)可以估计每个候选是否是目标符号序列。在一些实施例中，估计部可以通过将具有重复指示的每个候选的相关部分输入到估计模型来计算每个候选是目标符号序列的概率。估计部可以使用诸如长短期记忆(LSTM)的递归神经网络作为估计模型。估计部可以采用各种类型的LSTM中的至少一种(例如，在Gers&Schmidhuber(2000)、Cho等人(2014)，Koutnik等人(2014)，Yao等人、Greff等人(2015)或Jozefowicz等人(2015)中公开的LSTM)。估计部可以采用GRU作为LSTM的类型，如Junyoung Chung，CaglarGulcehre，KyungHyun Cho，YoshuaBengio，“关于序列建模的门控递归神经网络的经验评估”所公开的。在替代实施例中，估计部可以采用另一种类型的递归神经网络作为估计模型。

估计部可以将具有重复指示的全部或至少部分相关部分输入到LSTM中。当在S150搜索部未检测到相关部分中的任何重复时，估计部可以将没有任何重复指示的相关部分输入到LSTM中。

在S170，估计部可以按照作为目标符号序列的概率的升序/降序列出多个候选，并且可以在设备的显示器上显示候选列表及其概率。

设备可以针对检测部在S130检测到的多个候选中的每一个执行操作S140-S170。如果设备使用两个或更多个模板(例如，8-3位模板以及4-4-3位模板)，则设备可以对从所有模板检测到的多个候选中的每一个执行操作S140-S170。

由此，估计部可以针对在S130检测到的多个候选中的每个候选计算目标符号序列的概率。

在S190，估计部可以选择一个候选作为多个候选中的目标符号序列。在一个实施例中，估计部可以确定哪个候选从多个候选中的递归神经网络输出最高概率。估计部可以选择被确定为输出最高概率的候选作为目标符号序列。

响应于估计部确定每个候选的概率低于阈值，获取部可以采用附加的语音到文本数据。如果多个候选的最高概率低于阈值，则获取部可以利用附加的语音到文本数据。如果多个候选的最高概率与多个候选的第二高概率之间的差异低于阈值，则获取部可以利用附加的语音到文本数据。因此，例如，呼叫中心的操作员可以使用该设备输入顾客的信息，并且可以响应于对估计的符号序列不确信的设备再次请求来自顾客的符号序列(例如，顾客ID)。

如上所述，该设备可以通过利用重复指示以较少的计算资源准确地检测目标符号序列。特别地，该设备可以通过利用重复指示，以较少的计算资源将目标符号序列(例如，电话号码)与语音到文本数据内的其他混淆符号序列(例如，产品ID)区分开。

说话者有时在对话中重复对于对话来说重要的符号序列的至少一部分用于确认。该设备可以利用这种重复来识别目标符号序列。具体地，在代理和客户之间的对话期间，代理可以完全或部分地确认客户的信息(例如，客户ID，电话号码等)。因此，该设备可以在代理和客户之间的整个会话中仅使用与代理的语音相对应的语音到文本数据的部分，并且基于语音到文本数据的该部分来确定目标符号序列。

图8示出了根据本发明的实施例的递归神经网络(RNN)。在一个实施例中，RNN包括硬件实现。在另一个实施例中，RNN包括复现层210和输出层220。如图2所示，复现层210可以迭代地接收新输入并基于新输入和每个时间点的当前状态计算下一状态。换句话说，复现层210可以更新每个输入的状态。

复现层210可以为输出层220提供候选数据的复现层210的输出(例如，最后状态)。根据实施例的复现层210可以由诸如估计部170的估计部和/或诸如训练部190的训练部来实现。

输出层220可以基于来自复现层210的输出来处理结果输出数据。输出层220可以是softmax层或分层softmax层。输出层220可以由估计部和/或训练部实现。

图9示出了根据本发明的实施例的LSTM。例如，RNN中的复现层(例如复现层210)可以由图9中表示的LSTM实现。在这样的实施例中，状态(上面称为“当前状态”和“下一个状态”)包括时间点t的隐藏状态h_t和单元状态c_t，其中t＝1，...，T。

在图9的实施例中，LSTM可以输入(c₀，h₀，x₁)，计算(c₁，h₁)，并在时间点1输出y₁，...，输入(c_t-1，h_t-1，x_t)并在时间点t计算(c_t，h_t)，输入(c_t，h_t，x_t+1)并在时间点t+1计算(c_t+1，h_t+1)，...，输入(c_T-1，h_T-1，x_T)并在时间点T计算(c_T，h_T)。LSTM可以为时间点t输出y_t，其可以与隐藏状态h_t相同。LSTM可以在最后时间点T输出y_T作为复现层的最后状态。

图10示出了根据本发明的实施例的估计模型。估计部可以使用多个递归神经网络来处理候选。在一个实施例中，估计部可以将具有标记重复的每个候选的多个相关部分中的每一个输入到多个递归神经网络中的一个中，每个递归神经网络具有独立的权重。估计部可以将相关部分中的每个词(或重复指示)输入到文本顺序(即，从左到右)方向上或文本逆顺序方向上(即，从右到左)的循环神经网络中。

具有重复指示的每个候选的多个相关部分中的每一个在取决于每个候选的多个相关部分或构成每个候选的符号序列中的每一个的位置的方向上被输入到多个递归神经网络中的一个。因此，估计部可以通过考虑相关部分和候选/符号序列的相对位置来减少计算资源并实现目标符号序列的高精度估计。

在图10的实施例中，语音到文本数据与图3相同，并且候选是包括由8位模板检测包括符号序列“08008012”的候选“08008012513”，以及由3位模板检测的符号序列“513”。相关部分包括左词“My phone number is”，中间词“34oh cool it’s easy to rememberyeah and the number is 5”，和具有重复指示“rep(3)的右词“1hmm rep(3)1right”。

在图10的实施例中，估计部可以将LSTM1用于左词，对于中间词使用LSTM2和LSTM3，并且对于右词使用LSTM4。估计部可以按左词的原始顺序将左词输入LSTM1。例如，估计部可以首先将左词的第一个单词“My”输入LSTM1并计算第一个词的第一个输出，然后将第一个输出和第二个词“phone”输入LSTM1并计算第二个输出然后将第二个输出和第三个词“number”输入LSTM1并计算第三个输出，将第三个输出和第四个词“is”输入LSTM1并计算第四个输出，并输入第四个输出(即最后一个)输出)到softmax层。

估计部可以以中间词的原始顺序将中间词输入到LSTM2中。估计部可以首先将中间词的第一个字“3”输入LSTM2并计算第一个词的第一个输出，然后将第一个输出和第二个词“4”输入LSTM2并计算第二个输出......，将第十三输出和第十四个词“5”输入LSTM2并计算第十四输出(即，最后输出)，并将第十四输出输入到softmax层。

估计部还可以以中间词的逆序将中间词输入到LSTM3中。估计部可以首先将第一个词“5”输入LSTM3并计算第一个词的第一个输出，然后将第一个输出和第二个词“is”输入LSTM3并计算第二个输出，......，输入第十三个输出第十四个字“3”进入LSTM3并计算第十四输出(即最后输出)，并将第十四输出输入到softmax层。因此，估计部可以将两个符号序列之间的相关部分输入到双向LSTM中。

估计部还可以以右词的相反顺序将右词输入LSTM4。估计部可以首先将第一个词“right”输入LSTM4并计算第一个词的第一个输出，然后将第一个输出和第二个词“1”输入LSTM4并计算第二个输出，然后输入第二个输出和第三个词(或重复指示)“rep(3)”进入LSTM4并计算第三个输出，然后将第三个输出和第四个词“hmm”输入LSTM4并计算第四个输出，然后将第四个输出和第五个词“1”输入LSTM4并计算第五个输出(即最后一个输出)，并将第五个输出输入到softmax层。

估计部可以基于从LSTM1、LSTM2、LSTM3和LSTM4接收的输出，通过执行softmax层的计算来估计目标符号序列的概率。因此，根据图10的实施例，与仅使用一个LSTM作为估计模型的实施例相比，估计部可以用更少的计算资源来维持目标符号序列的估计精度。

图11示出了根据本发明的实施例的第二操作流程。本实施例描述了一个例子，其中诸如设备10的设备执行从S310到S350的操作，如图11所示。该设备可以通过执行S310-S350的操作来训练递归神经网络以估计目标符号序列。

在S310，诸如获取部110的获取部可以获取用于训练诸如递归神经网络的估计模型的一个或多个训练数据。每个训练数据可以包括与用作正确符号序列的符号序列配对的语音到文本数据。正确的符号序列可以由对语音到文本数据评论的人预先确定。

在S330，该设备可以处理在S310获取的训练数据，以针对两个或更多个训练数据的每个语音到文本数据提取具有重复指示的相关部分。在一些实施例中，该设备可以针对两个或更多个训练数据的每个语音到文本数据执行S110-S160的操作。

在S350，诸如训练部190的训练部可以通过反向传播训练诸如结合S170解释的LSTM的递归神经网络。在这样的实施例中，训练部可以通过更新LSTM的权重(或参数)来执行训练，以便减少分配的概率与每个语音到文本数据的候选的LSTM的输出之间的误差。在该实施例中，训练部可以将1(或100％)的概率分配给与正确的符号序列相同的候选，并且将概率0(或0％)分配给其他候选。

训练部分可以迭代更新每个LSTM的权重，直到从两个或更多个语音到文本数据的多个候选获得的误差之和低于阈值，或者不减少阈值。

在图10的实施例中，训练部可以训练四个LSTM(LSTM 1-4)和softmax层。因此，该设备可以优化LSTM以在文本的两个方向上检测目标符号序列。

在许多实施例中，该设备可以检测与候选的一部分相同的部分作为重复。在替换实施例中，搜索部可以检测与来自每个候选的相关部分的每个候选的至少部分序列类似的相似部分。相似部分在一个或两个符号中可以与每个候选的至少部分序列(例如，由模板检测的符号序列)不同。标记部可以用指示相似性的信息(例如，“SIM(3)”)标记检测到的相似部分。估计部可以基于所指示的重复和每个候选的相似部分来估计每个候选是否是目标符号序列。

在一些实施例中，该设备可以基于训练的结果确定在图2的S130使用的一个或多个模板。例如，该设备可以通过训练数据的一部分为每个可能的模板执行图11的操作，以生成对应于每个可能模板的多个估计模型。该设备可以通过训练数据的其他部分评估每个估计模型，并且基于评估的结果选择可能模板的一部分。

尽管上面解释了利用递归神经网络的许多实施例，但是在一些实施例中，该设备可以使用支持向量机(SVM)代替递归神经网络作为估计模型。在实施例中，估计部可以将词袋(Bag of Words)而不是文本本身输入到估计模型中作为相关部分。例如，在图2的S170的操作中，估计部可以生成与在S160生成的重复指示的相关部分对应的词袋，然后将词袋输入到SVM中。在S350的操作中，训练部可以通过利用从训练数据生成的词袋来训练SVM而不是递归神经网络。在备选实施例中，训练部可以通过利用词袋来训练任何其他判别模型作为估计模型。根据这些实施例，相关部分由固定长度矢量表示。

图12示出了根据本发明实施例的配置用于云服务利用的计算机的示例性硬件配置。安装在计算机800中的程序可以使计算机800用作或执行与本发明实施例的装置或其一个或多个部分(包括模块、组件、元件等)相关联的操作，和/或或者使计算机800执行本发明实施例或其步骤的过程。这样的程序可以由CPU 800-12执行，以使计算机800执行与本文描述的流程图和框图的一些或全部块相关联的某些操作。

根据本实施例的计算机800包括CPU 800-12、RAM 800-14、图形控制器800-16、声音控制器和显示设备800-18，它们由主机控制器800-10相互连接。计算机800还包括诸如通信接口800-22的输入/输出单元、硬盘驱动器800-24、DVD-ROM驱动器800-26和IC卡驱动器，通过输入/输出控制器800-20连接到主机控制器800-10。计算机还包括诸如ROM 800-30和键盘800-42的传统的输入/输出单元，通过输入/输出芯片800-40连接到输入/输出控制器800-20。

CPU 800-12根据存储在ROM 800-30和RAM 800-14中的程序进行操作，从而控制每个单元。图形控制器800-16获得由CPU 800-12在RAM 800-14中或其自身中提供的帧缓冲器等上生成的图像数据，并使图像数据显示在显示设备800-18上。声音控制器可以从连接的麦克风或其他音频输入设备获得声音。声音控制器可以在连接的扬声器或其他音频输出设备上生成声音。

通信接口800-22经由网络800-50与其他电子设备通信。硬盘驱动器800-24存储CPU 800-12在计算机800内使用的程序和数据。DVD-ROM驱动器800-26从DVD-ROM 800-01读取程序或数据，并通过RAM 800-14提供硬盘磁盘驱动器800-24与程序或数据。IC卡驱动器从IC卡读取程序和数据，和/或将程序和数据写入IC卡。

ROM800-30在其中存储由计算机800在激活时执行的引导程序等，和/或取决于计算机800的硬件的程序。输入/输出芯片800-40可以还通过并行端口、串行端口、键盘端口、鼠标端口等将各种输入/输出单元连接到输入/输出控制器800-20。

程序由计算机程序产品(例如，诸如DVD-ROM 800-01或IC卡的计算机可读介质)提供。从计算机可读介质读取程序，该计算机可读介质安装在硬盘驱动器800-24、RAM 800-14或ROM 800-30中，它们也是计算机可读介质的示例，并且由CPU 800-12执行。这些程序中描述的信息处理被读入计算机800，导致程序与上述各种类型的硬件资源之间的协作。可以通过根据计算机800的使用实现信息的操作或处理来构成装置或方法。

例如，当在计算机800和外部设备之间执行通信时，CPU 800-12可以执行加载到RAM 800-14上的通信程序，以基于通信程序中描述的处理指示到通信接口800-22的通信处理。通信接口800-22在CPU 800-12的控制下，读取存储在诸如RAM 800-14、硬盘驱动器800-24、DVD-ROM800-01或IC卡等记录介质中提供的传输缓冲区域上的传输数据，并将读取的发送数据发送到网络800-50，或者将从网络800-50接收的接收数据写入设置在记录介质上的接收缓冲区域等。

此外，CPU 800-12可以使文件或数据库的全部或必要部分被读入RAM 800-14，该文件或数据库已经存储在诸如外部记录介质的外部记录介质硬盘驱动器800-24、DVD-ROM驱动器800-26(DVD-ROM 800-01)、IC卡等中，并对RAM 800-14上的数据执行各种类型的处理。然后，CPU 800-12可以将处理后的数据写回外部记录介质。

各种类型的信息，例如各种类型的程序、数据、表格和数据库，可以存储在记录介质中以进行信息处理。CPU 800-12可以对从RAM 800-14读取的数据执行各种类型的处理，包括各种类型的操作、信息处理、条件判断、条件分支、无条件分支、信息的搜索/替换等。如在整个本公开中所描述的并且由指令序列的程序指定，并且将结果写回到RAM 800-14。

另外，CPU 800-12可以在记录介质中搜索文件、数据库等中的信息。例如，当多个条目(每个条目具有第一属性的属性值，与第二属性的属性值相关联)存储在记录介质中，CPU 800-12可以搜索匹配条件的条目。从多个条目中指定第一属性的属性值，并读取存储在条目中的第二属性的属性值，从而获得与满足预定条件的第一属性相关联的第二属性的属性值。

上述程序或软件模块可以存储在计算机800上或附近的计算机可读介质中。此外，诸如硬盘或RAM之类的记录介质连接到专用通信的服务器系统中。网络或因特网可以用作计算机可读介质，从而通过网络将程序提供给计算机800。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

虽然已经描述了本发明的实施例，但是本发明的技术范围不限于上述实施例。对于本领域技术人员显而易见的是，可以对上述实施例添加各种改变和改进。从权利要求的范围中还显而易见的是，添加有这种改变或改进的实施例可以包括在本发明的技术范围内。

由权利要求、实施例或图中所示的装置、系统、程序和方法执行的每个过程的操作、过程、步骤和阶段可以以任何顺序执行，只要该顺序未由“之前”、“先前”等等，并且只要先前过程的输出未在后续过程中使用。即使在权利要求，实施例或图中使用诸如“第一”或“下一个”的短语来描述处理流程，也不一定意味着必须以该顺序执行该处理。

如上所述，本发明的实施例使学习装置能够学习与时间序列输入数据相对应的模型，以具有更高的表达能力和学习能力，并且更简单地执行学习操作。

Claims

1.一种计算机实现的方法，包括：

从语音到文本数据中检测目标符号序列的一个或多个候选；

从语音到文本数据中提取每个候选的相关部分；

检测相应候选的相关部分内每个候选的至少部分序列的重复；

用重复指示标记检测到的重复；和

使用包括每个候选的重复指示的相应相关部分来估计每个候选是否是目标符号序列。

2.如权利要求1所述的方法，其中，从语音到文本数据中检测目标符号序列的一个或多个候选包括

从语音到文本数据中提取构成每个候选的两个或更多个符号序列，其中两个或更多个符号序列在语音到文本数据中彼此分离。

3.如权利要求2所述的方法，其中检测所述相应候选的相关部分内的每个候选的至少部分序列的重复包括

检测构成相应候选的相关部分内的相应候选的两个或更多个符号序列中的至少一个。

4.如权利要求2所述的方法，其中，通过提取预定数量的符号序列来执行提取两个或更多个符号序列，所述两个或更多个符号序列不重叠，并且所述两个或更多个符号序列的级联形成每个候选。

5.如权利要求1所述的方法，其中每个候选的相关部分包括与每个候选相邻的部分。

6.如权利要求5所述的方法，其中，基于每个对应候选的重复指示估计每个候选是否是目标符号序列包括

通过将具有重复指示的每个候选的相关部分输入到递归神经网络来估计每个候选是目标符号序列的概率。

7.根据权利要求6所述的方法，其中，基于每个对应候选的重复指示估计每个候选是否是目标符号序列还包括：

确定哪个候选从候选中的递归神经网络输出最高概率。

8.如权利要求6所述的方法，其中

从语音到文本数据中提取每个候选的相关部分包括从语音到文本数据中提取候选的多个相关部分，

其中，通过将具有标记重复的每个候选的相关部分输入到递归神经网络来估计每个候选是目标符号序列的概率包括将具有标记重复的每个候选的多个相关部分中的每一个输入到多个递归神经网络中的一个递归神经网络，以及

其中，每个具有重复指示的候选的多个相关部分中的每一个在取决于每个候选的多个相关部分中的每一个的位置的方向上被输入到多个递归神经网络中的一个递归神经网络。

9.如权利要求6所述的方法，还包括：

响应于确定候选的概率低于阈值，需要附加的语音到文本数据。

10.如权利要求1所述的方法，其中用重复指示标记检测到的重复包括

用重复指示替换检测到的重复。

11.如权利要求1所述的方法，其中用重复指示标记检测到的重复包括

用检测到的重复的符号长度的指示来标记检测到的重复。

12.如权利要求1所述的方法，其中用重复指示标记检测到的重复包括

通过指示每个候选中检测到的重复的位置来标记检测到的重复。

13.如权利要求1所述的方法，还包括：

检测与每个候选的相关部分中的每个候选的至少部分序列类似的相似部分，和

用指示相似性的信息标记检测到的相似部分，和

其中，使用包括每个候选的重复指示的相应相关部分来估计每个候选是否是目标符号序列包括基于每个候选的重复指示和相似部分来估计每个候选是否是目标符号序列。

14.一种设备，包括：

处理器；和

一个或多个计算机可读介质，共同包括指令，当由处理器执行时，使得处理器执行以下操作：

从语音到文本数据中检测目标符号序列的一个或多个候选；

从语音到文本数据中提取每个候选的相关部分；

用重复指示标记检测到的重复；和

基本包括每个候选的重复指示的相应相关部分来估计每个候选是否是目标符号序列。

15.如权利要求14所述的设备，其中，从语音到文本数据中检测目标符号序列的一个或多个候选包括

16.如权利要求15所述的设备，其中检测所述相应候选的相关部分内的每个候选的至少部分序列的重复包括

17.如权利要求15所述的设备，其中，通过提取预定数量的符号序列来执行提取两个或更多个符号序列，所述两个或更多个符号序列不重叠，并且所述两个或更多个符号序列的级联形成每个候选。

18.根据权利要求17所述的设备，其中每个候选的相关部分包括与每个候选相邻的部分。

19.根据权利要求18所述的设备，其中，基于每个对应候选的重复指示估计每个候选是否是目标符号序列包括

20.一种非暂时性计算机可读存储介质，具有与其一起实现的指令，所述指令可由处理器或可编程电路执行以使所述处理器或可编程电路执行以下操作：

从语音到文本数据中检测目标符号序列的一个或多个候选；

从语音到文本数据中提取每个候选的相关部分；

用重复指示标记检测到的重复；和

21.根据权利要求20所述的非暂时性计算机可读存储介质，其中，从语音到文本数据中检测目标符号序列的一个或多个候选包括

22.根据权利要求21所述的非暂时性计算机可读存储介质，其中检测所述相应候选的相关部分内的每个候选的至少部分序列的重复包括

23.根据权利要求21所述的非暂时性计算机可读存储介质，其中，通过提取预定数量的符号序列来执行提取两个或更多个符号序列，所述两个或更多个符号序列不重叠，并且所述两个或更多个符号序列的级联形成每个候选。

24.根据权利要求23所述的非暂时性计算机可读存储介质，其中每个候选的相关部分包括与每个候选相邻的部分。

25.根据权利要求24所述的非暂时性计算机可读存储介质，其中，基于每个对应候选的重复指示估计每个候选是否是目标符号序列包括