CN101334997A

CN101334997A - 与扬声器无关的语音识别装置

Info

Publication number: CN101334997A
Application number: CN200810125358.1A
Authority: CN
Inventors: O·维基; K·劳里拉
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2001-04-17
Filing date: 2002-04-17
Publication date: 2008-12-31
Also published as: US20020152067A1; EP1251492A1; US7392184B2; FI20010792A; EP1251492B1; CN1381831A; DE60201939D1; DE60201939T2; ATE282882T1; FI20010792A0

Abstract

本发明涉及与扬声器无关的语音识别装置，公开了一种在包括至少一个便携式电子设备和一个服务器的远程通信系统中为组成发音模型的语音识别中所需的方法。电子设备被安排成将用户的语音信息与包括声音单元并被存入电子设备的发音模型作比较。字符序列被从电子设备传送到服务器。在服务器中，字符序列被转换成声音单元序列。声音单元序列被从服务器传送到电子设备。

Description

与扬声器无关的语音识别装置

本申请是分案申请，母案申请号为：02105569.4，母案申请日为：2002年4月17日；母案申请的发明名称为：“与扬声器无关的语音识别装置”。

技术领域

本发明涉及在远程通信系统中与扬声器无关的语音识别，尤其是涉及用于语音识别的发音模型化。

技术背景

近年来已经开发了不同的语音识别应用，例如，用于汽车的用户接口和移动站等。用于移动站的已知方法包括通过对移动站的话筒大声地说出他的/她的名字并建立对依据用户所说的名字号码的呼叫来呼叫一个特定人的方法。然而，为了识别每个名字的发音，本方法通常需要对网络中的移动站或系统进行培训。与扬声器无关的语音识别改进了语音控制的用户接口的可用性，因为可以省略这个培训阶段。在扬声器无关的名字选择中，可以对联系信息中的名字的发音模型化，可以将由用户说出的名字与所规定的发音模型，如一种音素序列，作比较。

多种与扬声器无关的语音识别方法是已知的，由此可以实现发音的模型化。例如，为此目的可以使用音素词汇。基于音素词汇的一种方法公开在WO 9 926 232中。然而，音素词汇的规模是如此之大，以致目前移动站的存储器容量是不够的。其它的问题是由在词汇中未找到的名字和字引起的。不同的统计方法，如神经网络和判定树，使较少的存储器花费成为可能。虽然利用判定树比利用需要较少存储器空间的神经网络可以达到更精确的结果，但两种方法都是有丢失的。这样就降低了模型的精度，也就使语音识别精度的性能下降。因此，关于精度和存储器的花费必须要作折衷。尽管有高的压缩度，判定树和神经网络的存储器要求仍然是相当高的。典型情况下，一种基于判定树的模型系统对每种模型化的语言需要大约100至250KB的存储器，当实施移动站时，这可能是太多了。另一种可选方案是发送由用户的语音组成的声频信号到一个网络，并在网络中实现语音识别。在网络中实现语音识别需要对一种服务建立连接，这将引起过分的延时，并且无线电路径上的干扰降低后继工作的前景。

发明概述

因此，本发明的一个目的是提供一种方法和实现该方法的设备，使得精确的发音模型化成为可能并减轻以上的问题。本发明的目的是利用其特征被描述在独立的权利要求中的方法，远程通信系统，电子设备，服务器，计算机程序产品和数据媒体实现的。本发明的优选实施方案被公开在从属的权利要求中。

本发明是基于这样的构思，即用于便携式电子设备的发音模型化是在一种分离的服务器设备中实现的。因此，要将用于语音识别的字符序列从一个电子设备发送到一个比电子设备拥有更多的可用的存储器容量的服务器。字符序列在服务器中被变换成至少一种声音单元序列。将该声音单元序列从该服务器发送到该电子设备以便在语音识别中使用。任何包括远程通信装置的数据处理设备可起着该服务器的作用，将该数据处理设备安排成实施对从一个或多个电子设备接收到的字符序列变换成一种声音单元序列。字符序列是指字符的任何组合。典型情况下，它是一种字母序列，但也可以是标点符号(例如逗号或空格字符)。字符序列也可以由多数在亚洲人的语言中使用的象形字符组成。声音单元包括任何声音事件，例如20ms语音样本，音节，音素或音素的部分。典型情况下，实现语音识别的设备将音素分成三部分(开始，中间，结束)，可以据此实施与语音信息的比较。应该指出，一个音素也可以是指一个音素群(在不同的语言中发音形式可以相互非常接近)。

因为服务器本来就比该电子设备拥有更多的可用的存储器容量，在依据本发明的解决方案中，对发音模型化精度的折衷是不需要的。因为没有存储器约束，也可以支持比在电子设备中实施的模型化更多的语言。

依据本发明的优选实施方案，将从电子设备接收到的字符序列用作搜索与所述的序列有关的信息(例如电话号码)的基础。除了声音单元序列以外，将该信息发送到电子设备。这对用户是有利的，因为可以容易地提供与字符序列有关的附加信息用于电子设备中。

依据本发明的另一种优选实施方案，在一种声音合成器中用声音单元序列组成一个声音模型。将该声音模型存储在电子设备中，将它与字符序列或它的标记相联系。至少作为对基本上对应于从字符序列接收到的声音单元序列的用户语音命令的一种响应，对电子设备的用户重复该声音模型。这样就改进了可用性，因为用户也接收与字符序列有关的声音反馈。

附图简述

现在将参考附图，结合优选实施方案更详细地描述本发明，其中：

图1a示出一种可以应用本发明的远程通信系统方框图；

图1b示出一种电子设备和服务器的方框图；

图2示出一种依据本发明的第一优选实施方案的方法的流程图；

图3示出一种依据本发明的第二优选实施方案的方法的流程图；和

图4示出一种依据本发明的实施方案的流程图，在其中组成一个声音模型。

发明详述

本发明可应用到任何远程通信系统，该系统包括一个含有语音识别应用的电子设备，和一个服务器，可以在它们之间传送数据。以下，描述使用音素序列作为发音模型，然而，并没有将本发明局限于此。

图1a示出几个可以应用本发明的不同例子。一个连到局域网LAN的电子设备TE包括数据传输装置和控制数据传输的软件，以便与网络LAN中的设备通信。TE可以包括一个无线局域网的网络接口卡，该卡是基于IEEE.11标准之一或基于BRAN(宽带无线电接入网)标准化工程的标准。电子设备TE可被连到局域网LAN并进一步通过接入点AP或通过因特网和防火墙连到服务器S。TE也可以直接与服务器S通信，例如，利用电缆，红外或一种在射频上起作用的数据传输解决方案，如蓝牙发送接收机。如图1a中所示，TE可以是任何实施语音识别的便携式电子设备，例如，PDA设备，遥控器或耳机和话筒的组合。TE可以是由计算机或移动站使用的一个辅助设备，在这种情况下，可以安排通过计算机或移动站对服务器S数据传输。

依据本发明的一种优选实施方案，TE是一个与公共陆地移动网PLMN通信的移动站，在功能上服务器S也被，例如通过因特网连在其上。连到网PLMN的电子设备TE包括用于与网PLMN无线方式通信的移动站功能。移动网PLMN可以是任何已知的无线网，例如，支持GSM服务的网，支持GPRS(通用分组无线电服务)的网，或第三代移动网，如依据3GPP(第三代合作项目)标准的UMTS(通用移动远程通信系统)网。也可以在移动网PLMN中实现服务器S的功能。电子设备TE可以是一个只供说话的移动电话，或者也可以包含PDA(个人数字助手)功能。

如图1b中所示，电子设备TE(在有线网LAN和无线网PLMN中)和服务器S包括存储器MEM；SMEM，用户接口UI；SUI，I/O装置I/O；用于在S和TE之间直接地或通过网络(PLMN，LAN，因特网)安排数据传输的SI/O，和中央处理单元CPU；包括一个或多个处理器的SCPU。存储器MEM；SMEM包含一个非挥发性部分，用于存储控制中央处理单元CPU；SCPU的应用程序；和一个用于数据处理的随机存取存储器。最好通过在CPU中执行存储在存储器MEM中的计算机程序代码实现语音识别方框SRB。服务器S最好通过在SCPU中执行存储在存储器SMEM中的计算机程序代码提供文本到音素转换方框TPB。在中央处理单元CPU和SCPU中执行的计算机程序代码使电子设备TE和服务器S实现本发明的特征，某些实施方案被示于图2和3中。可以通过网络接收计算机程序和/或存储在存储器装置中，例如存储在盘上，CD-ROM盘或其他的外部存储器装置，可将它们由此加载到存储器MEM，SMEM中。也可以使用集成电路来实现SRB和TPB。

图2示出一种依据本发明第一优选实施方案的方法，在其中由服务器S实现的文本音素方框TPB也包括一个语音选择器，也就是一种语言选择算法。典型情况下TE通过用户接口UI接收201字符序列。字符序列通常是由用户送入的，例如要增加到联系详情中的一个正确的名字。在电子设备TE中执行的某些应用程序产生201字符序列，例如一种控制命令串，以后用户能够通过说出该序列来控制该应用程序，这也是可能的。利用I/O装置I/O，TE(SRB)发送202字符序列到服务器S，在其中借助于装置SI/O接收203该序列。服务器S所需的识别信息，例如ISDN-基的号码或TE将字符序列指向的IP地址，已经事先存储在电子设备TE的存储器MEM中。如果服务器S是在移动网PLMN中，PLMN经营者，例如，可以将识别信息存储在一种IC卡上，可由此对它检索。

服务器S的文本音素转换方框TPB包括一个语言选择器，确定204字符序列的语言。例如可以利用被称为N grams(带有字母N的组合)的方法或根据短字出现的概率来确定语言。也可以借助于判定树来确定语言：根据不同语言的词汇，字符专有的判定树受培训，根据每个字符的字符环境，判定树表示至少一种语言的概率。这些判定树被存储在服务器S中(存储器SMEM中)。对于接收到的字符序列逐个字符查看判定树，然后对于字符序列确定语言。需要指出，如果服务器S只在特定的语言中的对字符序列实施文本音素转换，则步骤204是不需要的。当在服务器S中确定语言时，可以利用服务器较大的资源，语言的成功选择是高概率的。

依据所确定的语言TBP将字符序列转换成205音素序列。例如，字符序列‘James Bond’可得到音素序列‘/jh//ey//m//z//b//oh//n//d/’。典型情况下，利用一种检查表或自动的文本音素映射实现文本音素转换。映射是典型的与语言有关的，而检查表始终是语言有关的；换句话说，对于不同的语言有分离的文本音素源。可以利用任何技术实现文本音素转换，例如，利用采用HMM(隐蔽的马尔柯夫模型)技术，神经网络或判定树的各种词汇。出版物‘SELF-ORGANIZINGLETTER CODE-BOOK FOR TEXT-TO-PHONEME NEURAL NETWORK MODEL’by

Jean Jensen and S φren Riis presented in the 6thInternational Conference on Spoken Language Processing(ICSLP)，16-20 October 2000，Beijing，China，公开了一种利用神经网络的方法，和出版物‘DECISION TREE BASEDTEXT-TO-PHONEME MAPPING FOR SPEECH RECOGNITION’by JanneSuontausta and Juha

公开了一种利用判定树的方法。因为服务器S的存储器容量并不象电子设备TE那样受到限制，可以选择一种使尽可能精确的音素转换成为可能的技术。

服务器S发送206音素序列到电子设备TE。在电子设备中，音素序列被存储207在存储器MEM中(也可以是一种分离的附属于设备的存储器卡或IC卡的存储器)，将该序列与已存储入存储器MEM的原始的字符序列或它的标志相联系。例如，音素序列被附到联系详情的名字标志上。当语音识别方框SRB被激活时，从用户经话筒接收到的语音信息208与所存储的音素序列相比较209。如果基本上与语音信息匹配的音素序列被找到，与它有联系的字符序列被选取210用于一项服务。字符序列也可被表示在TE的用户接口UI的显示器上。在此以后，根据字符序列或进一步与它有关联的信息可以激活该项服务。如果TE是一个移动站，一种典型的服务是选择一个名字并对与该名字有关的号码建立呼叫。然而，服务可以包括执行电子设备中的一个控制命令，例如，激活键板锁。因此，命令可被模型化为一个音素序列，用户可以利用他的/她的语音控制电子设备TE。服务也可以是从用户的语音确定到显示器上的文本，用以实现回放口述的自动识别。服务的几个其他的例子包括根据导航系统中的语音搜索街道地址和城市名称，或根据作者的名字检索数据库。

可以完全自动地实施以上所描述的步骤201到210，所以为了对输入的字符实施语音识别，用户不需要采取任何额外的措施。音素转换可被存储在，例如，TE中，它是例如，一个支持GSM标准的移动站，然而，联系详情已被存储在包括SIM(用户身份模块)应用程序的IC卡上：如果用户将IC卡调换到一个新的移动站上，可对IC卡的联系详情自动地实施文本音素转换。如果在服务器S和TE之间的数据传输对用户产生成本，例如用于在公共陆地移动网PLMN中传送短消息的费用，在传送字符序列202以前，可以请求用户认付。

图3示出一种依据第二优选实施方案的方法，其中语言的选择是在电子设备TE中执行的。最好语音识别方框SRB包括一个语言选择器。接收到的301字符序列被送到语言选择器，语言选择器用以上关于步骤204所描述的方法之一确定302语言，在此以后，TE发送303字符序列和语言标志到服务器S。S(TPB)实施305文本音素转换，并可用以上描述的方法实施步骤306至310。用户选择302语言也是可能的。这种第二实施方案有这样的优点，电子设备的设置可用在语言选择中(例如选择用户接口UI的语言)，或者由语言选择器建议的一种语言或最有可能的几种语言可提供给用户供选择。

依据本发明的一种实施方案，在步骤203和204以后，服务器S在存储器SMEM或另一个网络部件，例如，GSM网的主位置寄存器(HLR)，或连到因特网的联系目录中搜索可能与接收到的字符序列有关的信息。S利用接收到的字符序列作为它的搜索标志执行数据库搜索。各种可替换的电话号码(家庭号码，移动电话号码，办公室号码，传真号码)或电子邮件地址可以与字符序列相联系。除了音素序列外，S发送信息206，306到电子设备TE最好是利用相同的消息。因此，在网络中的附加信息可容易地发送到电子设备而不需要用户为此分开请求。也可由附加的信息组成205，305一个或多个音素序列，并被发送206，306。可以用电子设备的存储器MEM中的信息存储(207)这些音素序列。用这种方法，更多的信息变得容易在电子设备中得到，用户能够依靠语音选择信息。例如，原先发送的字符序列‘Peter’可用在网络中找到的工作号码加以补充，也就是字符序列‘Peterwork’和字符序列‘Peter work’的音素序列。

要指出的是，字符序列，例如名字‘Peter’可被用在多种语言中，在这种情况下对于字符序列204，302获得几种语言。这样，TBP根据几种语言组成205，305音素序列，所有所获得的音素序列被发送到电子设备206。音素序列可被自动地存储207，307在存储器MEM中，或者在存储207，307以前可以请求用户选择/确认音素序列。

图4示出一种实施方案，依据这种方案从电子设备TE的声音合成器中的服务器S接收到的(206，306)音素序列组成一种声音模型。因为声音模型是与语言有关的，声音模型的形成401是依据所确定的语言(204，302)实现的。可以借助于语音合成或以前存储的声音模型组成该声音模型。声音模型被存储在402电子设备TE的存储器MEM中，将它与字符序列或它的标志相关联。如果用户的语音信息基本上与声音模型有关联的字符序列的音素序列匹配，也就是在步骤209或309以后，声音模型被播放到403电子设备的用户。当它从服务器S接收到时，声音模型也可被播放到用户。如果用只在显示器上根据语音识别选取的字符序列提供给用户，用户必须移动电子设备TE远离他的/她的耳朵，看看所选的字符序列如何。播放声音模型消除了这个缺点，并提供用户声音反馈，进一步增加用户在与扬声器无关的语音识别中的便利。可按这样一种方式进一步利用这个实施方案，使用户可以根据几种所建议的声音模型选择一个或多个音素序列(也就是所建议的发音形式)。用户也可以根据所播放的声音模型拒绝所建议的发音，从而可在网络中实施新的文本音素转换，一个新的音素序列可被发送到电子设备TE。用这种方法，可以进一步改进语音识别。

依据一种优选实施方案，在服务器S和电子设备TE(移动站)之间的数据传输是通过公共陆地移动网PLMN进行的。短消息服务SMS的短消息，特别适合于传送短的文本和音素序列。S可被连接到SMS消息服务SMS-SC，将从TE接收到的并对服务器S寻址的短消息数据发送到服务器，到I/O装置SI/O，反过来也一样。关于SMS服务的操作的更准确的描述，一本书‘The GSM System for MobileCommunications’by M.Mouly and M.Pautet，Palaiseau，France1992，ISBN：2-9507190-0-7，Chapter 8.3的内容，引入在此供参考。数据传输也可基于电路交换的数据呼叫或分组交换的数据传输服务，例如，GPRS服务或UMTS系统的分组交换数据传输服务。无线应用协议WAP也可用在文本和音素序列的传送中。

很明显，对于本领域的技术人员，随着技术的进步，可以用多种方法实现本发明的基本构思。不仅可用音素，同样也可用其他的声音单元序列将发音模型化。因此本发明及其实施方案并不限于上述的例子而是可以在权利要求的范围内变化。

Claims

1.一种在电信系统中为语音识别形成发音模型的方法，所述电信系统包括至少一个便携式电子设备和服务器，所述方法包括：

在服务器中接收来自电子设备(202，203；303，304)的字符序列；

在服务器中将字符序列转换(205；305)为至少一个声音单元序列；和

将至少一个声音单元序列从服务器转送(206；306)到电子设备，其特征在于，所述声音单元序列是文本格式的音素序列，

在服务器的语言选择器中确定字符序列的语言，其中，借助字符特定的决策树来确定所述语言，所述字符特定的决策树根据每个字符的字符环境来表示至少一种语言的概率，和

根据在语言选择器中确定的语言，在服务器中将字符序列转换为文本格式的至少一个音素序列。

2.如权利要求1所述的方法，其特征在于：

根据接收到的字符序列，在服务器中搜索与字符序列相关的信息，例如，电话号码；和

除了向电子设备发送所述信息之外，还发送声音单元序列。

3.如权利要求2所述的方法，其特征在于：

服务器利用接收到的字符序列作为搜索标签来执行数据库搜索。

4.如前述权利要求中任何一项所述的方法，其特征在于：

所述电子设备是移动站，并且通过经由移动网接发消息来安排在服务器和电子设备之间的数据传输。

5.一种电信系统，包括至少一个电子设备和服务器，其中电子设备被安排为将用户的语音信息与存储在电子设备中的声音单元序列进行比较(209；309)，

电子设备被安排为向服务器发送(202；303)旨在语音识别的字符序列；

服务器被安排为将字符序列转换(205；305)为至少一个声音单元序列；并且

服务器被安排为向电子设备发送(206；306)至少一个声音单元序列，

其特征在于，所述声音单元序列是文本格式的音素序列，

电子设备或服务器中的语言选择器被安排为确定字符序列的语言，语言选择器被安排为借助字符特定的决策树来确定所述语言，所述字符特定的决策树根据每个字符的字符环境来表示至少一种语言的概率，并且

服务器被安排为根据在语言选择器中确定的语言将字符序列转换为文本格式的至少一个音素序列。

6.一种电子设备，包括：

用于比较(209；309)语音信息与声音单元序列的装置；

用于向服务器发送(202；303)旨在语音识别的字符序列的装置；

用于从服务器接收由字符序列形成的声音单元序列的装置；和

用于存储(207；307)声音单元序列的装置，

其特征在于，所述声音单元序列是文本格式的音素序列，

所述电子设备包括用于确定字符序列的语言的语言选择器，语言选择器被安排为借助字符特定的决策树来确定语言，所述字符特定的决策树根据每个字符的字符环境来表示至少一种语言的概率，并且

用于发送(202；203)字符序列的装置被进一步安排为向服务器发送与由语言选择器所确定的字符序列的语言有关的信息。

7.如权利要求6所述的电子设备，其特征在于，所述电子设备还包括：

用于把从服务器接收到的声音单元序列与存储在电子设备的存储器中的字符序列或其标签相关联(207；307)的装置；

用于基本上根据用户的语音信息来选择(210；310)声音单元序列并且进一步根据所述声音单元序列选择字符序列的装置；和

用于根据所述字符序列来激活服务的装置。

8.如权利要求6所述的电子设备，其特征在于：

电子设备被安排为在音频合成器中形成(401)声音单元序列的音频模型；

电子设备被安排为在电子设备中存储(402)音频模型，将所述音频模型与字符序列或其标签相关联；和

电子设备被安排成向电子设备的用户播放(403)音频模型作为对用户的语音命令基本上与从字符序列接收的声音单元序列相匹配的响应。

9.如权利要求6所述的电子设备，其特征在于：

所述电子设备是移动站。

10.如权利要求6所述的电子设备，其特征在于：

所述电子设备被安排为向服务器传送语言标签。

11.如权利要求6所述的电子设备，其特征在于：

电子设备被安排为除了接收声音单元序列之外还从服务器接收与字符序列相关的附加信息，例如电话号码。

12.一种服务器，其中所述服务器包括：

用于从至少一个电子设备接收(203；304)字符序列的装置；

用于将字符序列转换(205；305)为至少一个声音单元序列的装置；和

用于向电子设备发送(205；306)至少一个声音单元序列的装置，

其特征在于，所述声音单元序列是文本格式的音素序列，

所述服务器包括用于确定字符序列的语言的语言选择器，语言选择器被安排为借助字符特定的决策树来确定语言，所述字符特定的决策树根据每个字符的字符环境来表示至少一种语言的概率，和

用于转换(205；305)的装置被安排为根据在语言选择器中确定的语言将字符序列转换为至少一个声音单元序列。

13.如权利要求12所述的服务器，其特征在于：

服务器被安排为根据接收到的字符序列来搜索与字符序列相关的信息，例如电话号码；并且

服务器被安排为除了向电子设备发送声音单元序列之外还发送所述信息。

14.如权利要求13所述的服务器，其特征在于：

服务器被安排为利用接收到的字符序列作为其搜索标签来执行数据库搜索。

15.一种在电信系统中为语音识别形成发音模型的方法，所述电信系统包括至少一个便携式电子设备和服务器，所述电子设备被安排为将用户的语音信息与包括声音单元并且被存储在电子设备中的发音模型进行比较(209；309)，所述方法包括步骤：

传送(202，203；303，304)字符序列至服务器，以在服务器中将字符序列转换(205；305)为至少一个声音单元序列；和

从服务器接收(206；306)至少一个声音单元序列，

其特征在于：所述声音单元序列是文本格式的音素序列，

在语言选择器中确定字符序列的语言，其中借助字符特定的决策树来确定所述语言，所述字符特定的决策树根据每个字符的字符环境来表示至少一种语言的概率，并且

与由语言选择器所确定的字符序列的语言有关的信息被发送到服务器。

16.如权利要求15所述的方法，其特征在于：

在电子设备中把从服务器接收到的声音单元序列与存储在电子设备的存储器中的字符序列或其标签相关联(207；307)；

在电子设备中将用户的语音信息与所存储的声音单元序列相比较(209；309)；

选择(210；310)基本上与用户的语音信息相匹配的声音单元序列并且进一步根据来自联系人信息的所述声音单元序列来选择字符序列；和

根据所述字符序列来激活服务。

17.如权利要求15或16所述的方法，其特征在于：

除了接收声音单元序列之外，还从服务器接收与字符序列相关的附加信息，例如电话号码。

18.如权利要求15或16所述的方法，其特征在于：

在音频合成器中形成(401)声音单元序列的音频模型；

在电子设备中存储(402)音频模型，将所述音频模型与字符序列或其标签相关联；和

向电子设备的用户播放(403)音频模型作为对用户的语音命令基本上与从字符序列接收到的声音单元序列相匹配的响应。

19.如权利要求15或16所述的方法，其特征在于：

所述电子设备是移动站，并且通过经由移动网接发消息来安排服务器和电子设备之间的数据传输。