CN106328127A

CN106328127A - 语音识别设备，语音识别方法和电子装置

Info

Publication number: CN106328127A
Application number: CN201610510741.3A
Authority: CN
Inventors: 柳尚贤; 崔喜烈
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-06-30
Filing date: 2016-06-30
Publication date: 2017-01-11
Anticipated expiration: 2036-06-30
Also published as: EP3113176A1; JP6637848B2; US20170004824A1; EP3113176B1; JP2017016131A; CN106328127B; KR102371188B1; US20210272551A1; KR20170003246A

Abstract

提供一种语音识别设备、语音识别方法和电子装置。一种语音识别设备包括：概率计算器，被配置为使用声学模型计算音频信号的音素概率；候选集合提取器，被配置为从识别目标列表提取候选集合；以及结果返回器，被配置为基于计算的音素概率和提取的候选集合返回音频信号的识别结果。

Description

语音识别设备，语音识别方法和电子装置

本申请要求2015年6月30日向韩国知识产权局提交的第10-2015-0093653号韩国专利申请的利益，其全部公开通过所有目的的引用包含于此。

技术领域

本申请涉及一种语音识别技术。

背景技术

当语音识别系统被嵌入电视机、机顶盒、家用电器和其他装置时，存在没有足够的计算资源用于嵌入式语音识别系统的缺点。然而，因为在嵌入式环境中针对有限数量的命令语音识别被执行，所以这种缺陷是微不足道的，而在一般语音识别环境中，解码器使用许多计算资源来识别人们可以使用的所有单词及其组合。与此相对，在嵌入式环境中，仅几个单词到几千个单词的给定命令需要被识别。

在一般语音识别系统中，在声学模型从音频信号获得语音概率之后，隐马尔可夫模型(HMM)解码器组合这些概率，并且将概率转换成单词序列。然而，HMM解码器需要许多计算资源和操作，并且在HMM解码器中使用的维特比解码方法可能会导致庞大的信息损失。

发明内容

提供本发明内容以简化形式引入对构思的选择，其将在下面的具体实施方式中进一步描述。本发明构思并不旨在识别所要求保护的主题的关键特征或必要特征，也不旨在帮助确定所要求保护的主题的范围。

在一总体方面，一种语音识别设备包括：概率计算器，被配置为使用声学模型计算音频信号的音素概率；候选集合提取器，被配置为从目标序列的识别目标列表提取候选集合；以及结果返回器，被配置为基于计算的音素概率和提取的候选集合返回音频信号的识别结果。

可以使用包括连接时间分类(CTC)的学习算法训练声学模型。

结果返回器还可以被配置为基于计算的音素概率计算生成候选集合中包括的每个目标序列的概率，并且返回计算的生成每个目标序列的概率之中具有最高概率的候选目标序列，作为识别结果。

所述设备还可以包括序列获取器，被配置为基于计算的音素概率获取音素序列。

候选集合提取器还可以被配置为计算获取的音素序列与识别目标列表中包括的每个目标序列之间的相似度，并且基于计算的相似度提取候选集合。

候选集合提取器还可以被配置为使用包括编辑距离算法的相似度算法计算相似度。

序列获取器还可以被配置为使用最佳路径解码算法或前缀搜索解码算法基于计算的音素概率获取音素序列。

在另一总体方面，一种语音识别方法包括：使用声学模型计算音频信号的音素概率；从目标序列的识别目标列表提取候选集合；以及基于计算的音素概率和提取的候选集合返回音频信号的识别结果。

可以使用包括连接时间分类(CTC)的学习算法训练声学模型。

返回识别结果的步骤可以包括：基于计算的音素概率计算生成候选集合中包括的每个目标序列的概率；以及返回计算的生成每个目标序列的概率之中具有最高概率的候选目标序列，作为识别结果。

所述方法还可以包括基于计算的音素概率获取音素序列。

提取候选集合的步骤可以包括：计算获取的音素序列与识别目标列表中包括的每个目标序列之间的相似度；以及基于计算的相似度提取候选集合。

计算相似度的步骤可以包括：使用包括编辑距离算法的相似度算法计算相似度。

获取音素序列的步骤可以包括：使用最佳路径解码算法或前缀搜索解码算法基于计算的音素概率获取音素序列。

在另一总体方面，一种电子装置包括：语音接收器，被配置为接收用户的音频信号；语音识别器，被配置为使用声学模型计算接收的音频信号的音素概率，并且基于计算的音素概率，返回识别目标列表中包括的任何一个目标序列作为识别结果；以及处理器，被配置为基于返回的识别结果执行特定操作。

语音识别器还可以被配置为：从识别目标列表提取候选集合，基于计算的音素概率计算生成候选集合中包括的每个候选目标序列的概率，并且返回计算的生成每个目标序列的概率之中具有最高概率的候选目标序列，作为识别结果。

语音识别器还可以被配置为：通过对音素概率进行解码来获取音素序列，基于获取的音素序列与识别目标列表中包括的每个目标序列之间的相似度提取候选集合。

处理器还可以被配置为：从扬声器以声音输出识别结果，或者在显示器上以文本格式输出识别结果。

处理器还可以被配置为：将识别结果翻译成另一种语言，并且从扬声器以声音输出翻译结果，或者在显示器上以文本格式输出翻译结果。

处理器还可以被配置为响应于识别结果处理命令，所述命令包括通电/断电命令、音量控制命令、频道改变命令和目的地搜索命令中的一个或多个。

在另一总体方面，语音识别方法，包括：计算音频信号的一部分与语音单位相应的概率；从语音单位的序列的列表获得候选语音单位的序列的集合；以及基于概率将候选语音单位的候选序列中的一个候选序列识别为与音频信号相应。

计算概率的步骤可以包括使用声学模型计算概率。

语音单位可以是音素。

语音单位的候选序列可以是短语。

短语可以是控制电子装置的命令。

识别语音单位的候选序列中的一个候选序列的步骤可以包括：基于音频信号的一部分与语音单位相应的概率计算生成语音单位的每个候选序列的概率；以及将生成语音单位的每个候选序列的概率之中具有最高概率的语音单位的候选序列中的一个候选序列识别为与音频信号相应。

根据下面的详细描述，附图和权利要求，其他特征和方面将是明显的。

附图说明

图1是示出语音识别设备的示例的框图。

图2是示出语音识别设备的另一示例的框图。

图3是示出语音识别方法的示例的流程图。

图4是示出语音识别方法的另一示例的流程图。

图5是示出电子装置的示例的框图。

图6是示出电子装置中的语音识别方法的示例的流程图。

在整个附图和详细描述中，相同的附图标号指代相同的元件。为了清楚，说明和方便，这些元件的相对尺寸、比例和描绘可以被夸大。

具体实施方式

提供下面的详细描述以帮助读者获得本文所描述的方法，设备和/或系统的全面理解。然而，本文所描述的方法，设备和/或系统的各种改变、修改和等同物对本领域的普通技术人员将是显而易见的。本文所描述的操作的顺序仅是示例，并且不限于本文阐述的那些顺序，而是对本领域的普通技术人员将显而易见的是，除了必然以特定顺序发生的操作之外，本文所描述的操作的顺序可以改变。另外，为了更加清楚和简明可以省略本领域的普通技术人员公知的功能和结构的描述，。

本文所描述的特征可以体现在不同的形式，并且不应当被解释为限于本文所描述的示例。相反，提供本文所描述的示例使得本公开将是彻底和完整的，并且将向本领域的普通技术人员传达本公开的全部范围。

图1是示出语音识别设备的示例的框图。

参照图1，语音识别设备100包括概率计算器110、候选集合提取器120和结果返回器130。

概率计算器110使用声学模型计算音频信号的每个音素的概率(即，音频信号被识别为每个音素的概率)。音素是语言中有效的最小声音单位。

在一个示例中，通过提取特性的预处理过程音频信号被转换成音频帧，并且被输入到声学模型。声学模型将音频帧划分成音素，并且输出每个音素的概率。

以最大化作为答案输出的每个帧的音素的概率的方式训练基于高斯混合模型(GMM)、深度神经网络(DNN)或递归神经网络(RNN)的通用声学模型。

然而，由于很难构造可以在嵌入式环境中操作的HMM解码器，因此使用递归神经网络(RNN)和连接时间分类(CTC)构建此示例的声学模型。在这种情况下，使用诸如CTC学习算法的各种学习算法，针对可以构成答案序列的所有音素的组合，以最大化每个音频帧的音素的概率的方式训练声学模型。在下文中，为了便于说明，将利用使用CTC学习算法(即，基于CTC网络的声学模型)训练的声学模型描述示例。

下面的等式1是基于GMM、DNN或RNN训练声学模型的算法的示例。

p (z | x) = Π_{k = 1}^{K} y_{k}^{z_{k}} - - - (1)

在等式1中，k为音频帧的序号，x表示输入音频信号，y表示使用声学模型针对音频帧k计算的每个音素的概率，z表示音频帧k的答案，p(z|x)为音频信号x被识别为答案z的概率，“K”为音频帧的最大数量，为音频帧k被识别为答案z的概率。

如上所述，以最大化作为答案输出的每个音频帧的音素的概率的方式训练一般声学模型。

与此相对，下面的等式2和3是根据本申请的示例训练声学模型的算法的示例。

p (π | x) = Π_{t = 1}^{T} y_{π_{t}}^{t} - - - (2)

在上述等式2和等式3中，t为音频帧的序号，为音素序列的序号，π表示可以是答案的任何一个音素序列，“T”为音频帧t的最大数量，为音频信号x被识别为答案音素序列π的概率，为音频信号x被识别为答案音素序列t的概率。

是将神经网络的输出序列π转换为音素序列的多对一函数。例如，如果用户在一秒(sec)中说出“apple”，从0至0.5秒发出音素/ae/，从0.5秒至0.8秒发出音素/p/，从0.5秒至0.8秒发出音素/l/，则以帧单位产生音素被重复的输出序列π“ae ae ae ae...p pp p...l l l l”。是从输出序列π移除重复音素并将输出序列π映射到音素序列/aep l/的函数。

以这样的方式执行声学模型训练：使用利用声学模型计算的音频帧t的音素概率y根据等式2计算生成任何一个音素序列π的概率p(π|x)，并且通过组合根据等式2计算的概率p(π|x)根据等式3计算生成答案的概率在这种情况下，使用反向传播学习方法执行声学模型训练。

候选集合提取器120从识别目标列表140提取候选集合。识别目标列表包括由音素序列构成的多个单词或短语。根据包括语音识别设备100的多种类型的装置预定义识别目标列表140。例如，在TV中安装语音识别设备100的情况下，识别目标列表140包括操作TV的各种命令，诸如通电/断电命令、音量控制命令、频道改变命令和将要运行的特定节目的名称。

候选集合提取器120根据用户操作的生成候选集合的装置从识别目标列表140提取一个或多个目标序列。

结果返回器130使用利用声学模型计算的音素概率计算生成候选集合中每个候选目标序列的概率，并且返回具有最高概率的候选目标序列作为输入音频信号的识别结果。

结果返回器130通过应用上述作为用于训练声学模型的算法的等式2和3计算候选集合的每个候选目标序列的概率。

在此示例中，由于已经知道可能是答案的候选目标序列，因此可以使用利用声学模型计算的每个音素概率计算生成候选目标序列的概率。也就是说，由于不需要使用一般解码算法(诸如CTC)对音素概率进行解码，因此可以最小化解码处理中发生的信息损失。相比之下，由于在一般语音识别环境中不知道可能作为答案的候选目标序列，因此有必要使用等式1执行解码处理，从而导致语音识别处理中的信息损失。

图2是示出语音识别设备的另一示例的框图。

参照图2，语音识别设备200包括概率计算器210、序列获取器220、候选集合提取器230和结果返回器240。

概率计算器210使用声学模型计算音频信号的每个音素的概率。如上所述，使用RNN和CTC学习算法，针对可以由答案序列构成的音素的所有组合，以最大化每个音频帧的音素的概率的方式训练声学模型。

序列获取器220基于概率计算器210计算的音素概率获取一系列音素的音素序列。在这种情况下，序列获取器220通过使用解码算法(诸如最佳路径解码算法或前缀搜索解码算法)对计算的音素的概率进行解码来获取一个或多个音素序列。然而，解码算法不限于这些示例。

候选集合提取器230通过基于音素序列从识别目标列表250提取一个或多个候选目标序列生成候选集合。如上所述，识别目标列表250包括根据包括语音识别设备200的多种类型的电子装置预定义的目标序列，诸如单词/短语/命令。此外，识别目标列表250还可以包括与目标序列的使用排名(例如，使用频率、使用概率等)相关联的信息。

在一个示例中，候选集合提取器230根据识别目标列表250中包括的目标序列的数量，提取目标序列的部分或全部作为候选集合。在这种情况下，可以基于与目标序列的使用排名相关联的信息提取特定数量的目标序列作为候选集合。

在另一示例中，候选集合提取器230通过将序列获取器200获取的一个或多个音素序列与识别目标列表250中包括的每个目标序列进行比较计算相似度，并且基于相似度，提取特定数量的音素序列作为候选目标序列。在一个示例中，候选集合提取器230使用包括编辑距离算法的相似度计算算法计算音素序列和目标序列之间的相似度，并且基于相似度，按照相似度顺序提取特定数量的音素序列(例如，前20个序列)作为候选目标序列。

以这种方式，通过使用相似度算法控制包括在候选集合中的候选目标序列的数量，结果返回器240以减少的时间计算生成每个候选目标序列的概率，从而能够快速返回最终识别结果。

结果返回器240使用利用声学模型计算的音素概率返回候选集合中的至少一个候选目标序列作为音频信号的识别结果。

在一个示例中，结果返回器240使用包括编辑距离算法的相似度计算算法计算一个或多个获取的音素序列和每个候选目标序列之间的相似度，并且返回具有最高相似度的候选目标序列作为识别结果。

在另一示例中，结果返回器240通过将概率计算器210计算的音素概率应用到诸如等式2和3的概率计算算法计算生成候选集合中的每个候选目标序列的概率，并且返回具有最高概率的候选目标序列作为最终识别结果。

图3是示出语音识别方法的示例的流程图。

图3是图1所示的语音识别设备执行的语音识别方法的示例。

参照图3，在310，语音识别设备100使用声学模型计算音频信号的音素的概率。在这种情况下，通过预处理过程将音频信号转换成音频帧，并且将音频帧输入到声学模型。声学模型将每个音频帧划分成音素，并且输出每个音素的概率。如上所述，通过组合递归神经网络(RNN)和连接时间分类(CTC)训练声学模型。使用上述等式2和等式3的算法训练声学模型。

接着，在320，从识别目标列表提取包括一个或多个候选目标序列的候选集合。识别目标列表包括根据各种装置预定义的目标序列，诸如单词或短语。例如，在TV中，目标序列可以包括用于控制TV的命令诸如通电/断电命令、音量控制命令和频道改变命令。另外，在导航装置中，目标序列可以包括用于控制导航装置的命令，诸如通电/断电命令、音量控制命令以及目的地检索命令。另外，目标序列可以包括控制安装在车辆中的各种电子装置的命令。然而，目标序列不限于这些示例，并且可以被应用于用户控制的包括语音识别技术的任何电子装置。

然后，在330，基于计算的音素概率和提取的候选集合返回输入音频信号的识别结果。在一个示例中，基于使用声学模型和上述等式2和等式3的算法计算的音素概率计算生成每个候选目标序列的概率。此外，返回具有最高概率的候选目标序列作为最终识别结果。

图4是示出语音识别方法的示例的流程图。

参照图4，在410，使用声学模型计算音频信号的音素的概率。针对使用各种学习算法(例如，CTC学习算法)可以构成作为答案的音素序列的音素的所有组合，以最大化每个音频帧的音素的概率的方式训练声学模型。

接着，在420，基于计算的音素概率获取作为一系列音素的音素序列。例如，使用解码算法(诸如最佳路径解码算法或前缀搜索解码算法)获取一个或多个音素序列。

然后，在430，通过基于音素序列从识别目标列表提取一个或多个候选目标序列生成候选集合。根据包括语音识别技术的各种类型的电子装置预定义识别目标列表。在这种情况下，识别目标列表还包括与每个目标序列的使用排名(例如，使用频率、使用概率等)相关联的信息。

在一个示例中，语音识别设备根据包括在识别目标列表中的目标序列的总数提取目标序列的一部分或全部作为候选集合。在存在与目标序列的使用排名相关联的信息的情况下，可以基于该信息提取预定义数量的目标序列作为候选集合。

在另一示例中，语音识别设备通过将由序列获取器200获取的一个或多个音素序列与包括在识别目标列表中的每个目标序列进行比较计算相似度，并且基于相似度提取特定数量的音素序列作为候选目标序列。例如，语音识别设备使用包括编辑距离算法的相似度计算算法计算音素序列和目标序列之间的相似度，并且基于相似度，按照相似度的顺序提取特定数量的音素序列(例如，前20个序列)作为候选目标序列。

然后，在440，基于使用声学模型和候选集合计算的音素概率返回音频信号的识别结果。

在一个示例中，语音识别设备使用包括编辑距离算法的相似度计算算法计算一个或多个获取的音素序列与候选集合中的每个候选目标序列之间的相似度，并且返回具有最高相似度的候选目标序列作为识别结果。

在另一示例中，语音识别设备通过将计算的音素概率应用到诸如上述等式2和等式3的概率计算算法计算生成候选集合中的每个候选目标序列的概率，并且返回具有最高概率的候选目标序列作为最终识别结果。

图5是示出电子装置的示例的框图。

电子装置500包括上述语音识别设备100或200。电子装置500可以是电视机、机顶盒、台式计算机、膝上型计算机、电子翻译器、智能电话、平板电脑、车辆的电子控制装置或用户控制的通过嵌入式语音识别技术处理用户的各种命令的任何其他装置。然而，电子装置500不限于这些示例，并且可以是由用户控制的并且包括语音识别技术的任何电子装置。

参照图5，电子装置500包括语音接收器510、语音识别器520和处理器530。语音识别器520是被制造为在电子装置500中实现的硬件的图1中的语音识别设备100或图2中的语音识别设备200。

语音接收器510通过电子装置500的麦克风接收用户的音频信号输入。如图5所示，用户的音频信号可以是被翻译成另一种语言的短语，或可以是用于控制电视机、驾驶车辆或控制受用户控制的任何其他装置的命令。

在一个示例中，语音接收器510执行预处理过程，其中，用户输入的模拟音频信号被转换成数字信号，该信号被划分成多个音频帧，音频帧被发送到语音识别器520。

语音识别器520将音频信号(例如，音频帧)输入到声学模型，并且计算每个音频帧的音素的概率。一旦计算出音频帧的音素概率，语音识别器520基于计算的音素概率从识别目标列表提取候选集合，并且基于计算的音素概率和提取的候选集合返回最终识别结果。声学模型是基于递归神经网络(RNN)或深层神经网络(DNN)的网络，并且针对使用CTC学习算法可以构成答案序列的音素的所有组合以最大化每个音频帧的音素的概率的方式训练声学模型。

根据包括语音识别技术的电子装置500的类型和目的预定义识别目标列表。例如，在语音识别设备100安装在电视机中的情况下，在识别目标列表中定义经常用于电视的各种单词或命令，诸如通电/断电命令、音量控制命令和频道改变命令。此外，在电子装置500是安装在车辆上的导航装置的情况下，在识别目标列表中定义用于控制导航装置的各种命令，诸如通电/断电命令、音量控制命令以及目的地搜索命令。

语音识别器520使用语音识别的一般解码算法(例如，CTC)基于音素概率获取音素序列，并且通过将获取的音素序列与识别目标列表进行比较提取候选集合。在这种情况下，语音识别器520使用包括编辑距离算法的相似度计算算法计算获取的音素序列和识别目标列表中包括的每个目标序列之间的相似性，以及基于相似性，通过按照相似度顺序提取特定数量的音素序列作为候选目标序列生成候选集合。

语音识别器520返回基于计算的音素概率提取的候选集合中的一个候选目标序列作为最终识别结果。在这种情况下，语音识别器520返回生成候选集合的每个候选目标序列的概率之中具有最高概率的候选目标序列作为最终识别结果。在一个示例中，语音识别器520以文本格式输出最终识别结果。

处理器530响应于最终识别结果执行操作。例如，处理器530从扬声器、耳机或任何其他音频输出装置输出用户以声音输入的语音的识别结果，或在显示器上以文本格式提供识别结果。此外，处理器530执行处理命令(例如，通电/断电命令、音量控制命令等)的操作来控制电视、机顶盒、家用电器，车辆的电子控制装置或由用户控制的任何其他装置。

此外，在将最终识别结果翻译成另一种语言的情况下，处理器530将以文本形式输出的最终识别结果翻译成另一种语言，并且以声音或文本格式输出翻译结果。然而，处理器530不限于这些示例，并且可以在各种应用中使用。

图6是示出电子装置中的语音识别方法的示例的流程图。

在610，电子装置500通过麦克风或任何其他音频输入装置接收将被翻译成另一种语言的包含短语的用户音频信号，或用于控制电视或驾驶车辆的命令。此外，一旦接收到用户音频信号，电子装置500将模拟音频信号转换成数字信号，并且执行将数字信号转换成多个音频帧的预处理过程。

然后，在620，电子装置500基于预存储的声学模型和预定义的识别目标列表返回输入音频信号的最终识别结果。

例如，电子装置500将音频帧输入到声学模型来计算音频帧的音素的概率。此外，一旦已经计算音频帧的音素的概率，电子装置500基于计算的音素概率从识别目标列表提取候选集合，并且基于计算的音素概率和提取的候选集合返回最终识别结果。声学模型是基于递归神经网络(RNN)或深层神经网络(DNN)的网络，并且使用CTC学习算法进行训练。根据包括语音识别技术的电子装置500的类型和目的预定义识别目标列表。

在一个示例中，电子装置500从计算的音素概率获取音素序列，并且通过将获取的音素序列与识别对象列表进行比较提取候选集合。在这种情况下，电子装置500使用包括编辑距离算法的相似度计算算法计算获取的音素序列和识别目标列表中包括的每个目标序列之间的相似性，以及基于相似性，通过按照相似度顺序提取特定数量的音素序列作为候选目标序列生成候选集合。

电子装置500使用上述等式2和等式3计算生成每个候选目标序列的概率，并且返回具有最高概率的候选目标序列作为最终识别结果，最终识别结果可以由电子装置500转换成文本格式。

接着，在630，电子装置500响应于返回的最终识别结果执行操作。

例如，电子装置500可以从扬声器、耳机或任何其他音频输出装置输出用户以声音输入的语音的识别结果，或在显示器上以文本格式提供识别结果。此外，电子装置500可以执行处理命令的操作来控制电视、机顶盒、家用电器、车辆的电子控制装置或由用户控制的任何其他装置。另外，电子装置500可以将以文本格式输出的最终识别结果翻译成另一种语言，并且可以以声音或文本格式输出翻译结果。然而，电子装置500不限于这些示例，并且可以在各种应用中使用。

通过硬件组件实现执行本文针对图1至图6描述的操作的图1所示的语音识别设备100、概率计算器110、候选集合提取器120和结果返回器130，图1所示的语音识别设备100、概率计算器110、候选集合提取器120和结果返回器130，图2所示的语音识别设备200、概率计算器210、序列获取器220、候选集合提取器230和结果返回器240，图5所示的电子装置500、语音接收器510、语音识别器520和处理器530。硬件组件的示例包括控制器、传感器、产生器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、集成器以及本领域普通技术人员已知的任何其他电子组件。在一个示例中，通过计算硬件(例如，通过一个或多个处理器或计算机)来实现硬件组件。通过一个或多个处理元件(诸如逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或本领域的普通技术人员已知的能够以定义的方式响应并执行指令以实现期望结果的任何其他装置或装置的组合实现处理器或计算机。在一个示例中，处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件执行指令或软件，(诸如操作系统(OS)和在OS上运行的一个或多个软件应用程序)以执行本文针对图1至图6描述的操作。硬件组件还可以响应于指令或软件的执行访问、操纵、处理、创建和存储数据。为简单起见，可以在本文描述的示例的描述中使用单数术语“处理器”或“计算机”，但是在其他示例中，使用多个处理器或计算机，或处理器或计算机包括多个处理元件，或多种类型的处理元件，或者两者兼而有之。在一个示例中，硬件组件包括多个处理器，在另一示例中，硬件组件包括处理器和控制器。硬件组件具有任何一个或多个不同处理结构，其示例包括单一处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理和多指令多数据(MIMD)多处理。

通过如上所述执行用于执行本文描述的操作的指令或软件的计算硬件(例如，通过一个或多个处理器或计算机)执行执行本文针对图1至图6描述的操作的图3、图4和图6中示出的方法。

控制处理器或计算机实现硬件组件并执行如上所述的方法的指令或软件作为计算机程序、代码段、指令或其任何组合被写入，用于单独地或共同地指示或配置处理器或计算机作为机器或专用计算机操作来执行由如上所述的硬件组件和方法执行的操作。在一个示例中，指令或软件包括直接由处理器或计算机执行的机器代码，诸如由编译器产生的机器代码。在另一示例中，指令或软件包括由处理器或计算机使用解释器执行的更高级代码。本领域的普通技术人员可以基于附图中所示的框图和流程图以及说明书中的相应描述容易地编写指令或软件，附图中所示的框图和流程图以及说明书中的相应描述公开了用于执行如上所述的硬件组件和方法执行的操作的算法。

在一个或多个非暂时性计算机可读存储介质中或个或多个非暂时性计算机可读存储介质上记录、存储或固定控制处理器或计算机实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构。非暂时性计算机可读存储介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、本领域的普通技术人员已知的能够以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构并且向处理器或计算机提供指令或软件以及任何相关联的数据、数据文件和数据结构以使处理器或计算机可以执行指令的任何装置。在一个示例中，指令或软件以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得处理器或计算机可以以分布方式存储、访问和执行指令和软件以及任何相关联的数据、数据文件和数据结构。

虽然本公开包括特定示例，但是在不脱离权利要求及其等同物的精神和范围的情况下，对本领域的普通技术人员明显的是，可以在这些示例中进行形式和细节上的各种改变。本文所描述的示例被认为仅是描述性的意义，而不是为了限制的目的。每个示例中的特征或方面的描述将被认为是适用于其他示例中的类似特征或方面。如果以不同的顺序执行描述的技术，和/或如果以不同的方式组合描述的系统、架构、装置或电路中的组件，和/或由其他组件或等同物替代或补充描述的系统、架构、装置或电路中的组件，则可以实现合适的结果。因此，本公开的范围不是由具体实施方式限定，而是由权利要求及其等价物来限定，权利要求及其等同物的范围之内的所有变型被解释为包括在本公开中。

Claims

1.一种语音识别设备，包括：

概率计算器，被配置为使用声学模型计算音频信号的音素概率；

候选集合提取器，被配置为从目标序列的识别目标列表提取候选集合；以及

结果返回器，被配置为基于计算的音素概率和提取的候选集合返回音频信号的识别结果。

2.如权利要求1所述的语音识别设备，其中，使用包括连接时间分类(CTC)的学习算法训练声学模型。

3.如权利要求1所述的语音识别设备，其中，结果返回器还被配置为：基于计算的音素概率计算生成候选集合中包括的每个目标序列的概率，并且返回计算的生成每个目标序列的概率之中具有最高概率的候选目标序列，作为识别结果。

4.如权利要求1所述的语音识别设备，还包括：序列获取器，被配置为基于计算的音素概率获取音素序列。

5.如权利要求4所述的语音识别设备，其中，候选集合提取器还被配置为：计算获取的音素序列与识别目标列表中包括的每个目标序列之间的相似度，并且基于计算的相似度提取候选集合。

6.如权利要求5所述的语音识别设备，其中，候选集合提取器还被配置为：使用包括编辑距离算法的相似度算法计算相似度。

7.如权利要求4所述的语音识别设备，其中，序列获取器还被配置为：使用最佳路径解码算法或前缀搜索解码算法基于计算的音素概率获取音素序列。

8.一种语音识别方法，包括：

使用声学模型计算音频信号的音素概率；

从目标序列的识别目标列表提取候选集合；以及

基于计算的音素概率和提取的候选集合返回音频信号的识别结果。

9.如权利要求8所述的语音识别方法，其中，使用包括连接时间分类(CTC)的学习算法训练声学模型。

10.如权利要求8所述的语音识别方法，其中，返回识别结果的步骤包括：

基于计算的音素概率计算生成候选集合中包括的每个目标序列的概率；以及

返回计算的生成每个目标序列的概率之中具有最高概率的候选目标序列，作为识别结果。

11.如权利要求8所述的语音识别方法，还包括：基于计算的音素概率获取音素序列。

12.如权利要求11所述的语音识别方法，其中，提取候选集合的步骤包括：

计算获取的音素序列与识别目标列表中包括的每个目标序列之间的相似度；以及

基于计算的相似度提取候选集合。

13.如权利要求12所述的语音识别方法，其中，计算相似度的步骤包括：使用包括编辑距离算法的相似度算法计算相似度。

14.如权利要求11所述的语音识别方法，其中，获取音素序列的步骤包括：使用最佳路径解码算法或前缀搜索解码算法基于计算的音素概率获取音素序列。

15.一种电子装置，包括：

语音接收器，被配置为接收用户的音频信号；

语音识别器，被配置为使用声学模型计算接收的音频信号的音素概率，并且基于计算的音素概率，返回识别目标列表中包括的目标序列中的任何一个目标序列作为识别结果；以及

处理器，被配置为基于返回的识别结果执行特定操作。

16.如权利要求15所述的电子装置，其中，语音识别器还被配置为：从识别目标列表提取候选集合，基于计算的音素概率计算生成候选集合中包括的每个候选目标序列的概率，并且返回计算的生成每个目标序列的概率之中具有最高概率的候选目标序列，作为识别结果。

17.如权利要求15所述的电子装置，其中，语音识别器还被配置为：通过对音素概率进行解码来获取音素序列，并且基于获取的音素序列与识别目标列表中包括的每个目标序列之间的相似度提取候选集合。

18.如权利要求15所述的电子装置，其中，处理器还被配置为：从扬声器以声音输出识别结果，或者在显示器上以文本格式输出识别结果。

19.如权利要求18所述的电子装置，其中，处理器还被配置为：将识别结果翻译成另一种语言，并且从扬声器以声音输出翻译结果，或者在显示器上以文本格式输出翻译结果。

20.如权利要求15所述的电子装置，其中，处理器还被配置为：响应于识别结果处理命令，所述命令包括通电/断电命令、音量控制命令、频道改变命令和目的地搜索命令中的一个或多个。

21.一种语音识别方法，包括：

计算音频信号的部分与语音单位相应的概率；

从语音单位的序列的列表获得语音单位的候选序列的集合；以及

基于所述概率将语音单位的候选序列之一识别为与音频信号相应。

22.如权利要求21所述的语音识别方法，其中，计算概率的步骤包括使用声学模型计算概率。

23.如权利要求21所述的语音识别方法，其中，语音单位是音素。

24.如权利要求21所述的语音识别方法，其中，语音单位的候选序列是短语。

25.如权利要求24所述的语音识别方法，其中，所述短语是控制电子装置的命令。

26.如权利要求21所述的语音识别方法，其中，识别语音单位的候选序列之一的步骤包括：

基于音频信号的部分与语音单位相应的概率计算生成语音单位的每个候选序列的概率；以及

将生成语音单位的每个候选序列的概率之中具有最高概率的语音单位的候选序列之一识别为与音频信号相应。