CN103151041B

CN103151041B - 一种自动语音识别业务的实现方法、系统和媒体服务器

Info

Publication number: CN103151041B
Application number: CN201310032134.7A
Authority: CN
Inventors: 张伟; 程佳佳; 崔飞
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2013-01-28
Filing date: 2013-01-28
Publication date: 2016-02-10
Anticipated expiration: 2033-01-28
Also published as: CN103151041A; WO2013189430A2; WO2013189430A3

Abstract

本发明公开了一种ASR业务的实现方法，包括：媒体服务器收到APP服务器的访问请求后，确定自身支持的音频编解码类型集；媒体服务器收到APP服务器发送的ASR业务请求后，根据ASR业务类型向ASR服务器申请ASR业务资源；媒体服务器根据所述音频编解码类型集与ASR服务器进行协商，通过协商所得的音频编解码类型对媒体业务数据包进行转码，并将转码后的媒体业务数据包发送给ASR服务器。本发明还同时公开了一种ASR业务的实现系统和媒体服务器，因此本发明可解决媒体服务器与终端协商的音频编解码能力无法满足ASR服务器时，ASR服务器无法访问媒体业务数据包数据的问题，保证ASR业务的实现。

Description

一种自动语音识别业务的实现方法、系统和媒体服务器

技术领域

本发明涉及通信领域中的自动语音识别(ASR)技术，尤其涉及一种ASR业务的实现方法、系统和媒体服务器。

背景技术

媒体服务器(MediaServer，MS)是软交换体系中提供专用媒体资源功能的独立设备，也是分组网络中的重要设备，提供基本、增强业务中的媒体处理功能，并用于所有与音视频相关的媒体处理操作，所述媒体处理操作包括：视频和音频实时传输协议(RTP)的数据与视、音频文件的相互转换。同时，媒体服务器也用于接收用户通过终端双音多频(DTMF)的输入、播放业务的引导语音以及显示动态的引导画面。媒体服务器具有的会话初始协议(SIP)和MSML/MOML协议能力，使得媒体服务器能在应用服务器(APPServer)的控制下完成整个会话过程，实现与用户的交互。

媒体控制模块(MSCU)是媒体服务器中的一个重要模块，主要用于与其他实体进行能力协商，提供资源本身的管理、维护，以及控制其他业务资源模块执行复杂的业务。

媒体存储传输音频模块(MSTU)是媒体服务器中的业务资源模块，用于存储海量的音频数据，并实现音频文件的播放功能。媒体存储传输音频模块上设置有对外网口，可以直接通过所述对外网口收发音频数据。

现有技术中，媒体服务器的应用范围很广，主要可以归纳为音视频播放、收号和会议等功能。

ASR功能是对输入的音频信息进行识别，转化为文字，并将文字信息通过消息上报给用户。目前，在电信领域中，ASR应用通常是通过专门配置的ASR服务器来实现的，通过信令指定ASR服务器将文字发送到用户端，如发送到用户的终端来完成一次ASR业务。

图1为现有技术中实现ASR业务的系统结构示意图，如图1所示，该系统包括：终端、APP服务器、媒体服务器和ASR服务器。基于图1所述系统的方法实现流程包括如下步骤：

步骤101：终端发起一次呼叫，触发APP服务器以激活APP业务；

步骤102：APP服务器通过SIP信令向媒体服务器请求ASR业务；

步骤103：媒体服务器通过SIP信令向ASR服务器请求ASR资源，并通过媒体资源控制协议(MRCP)控制ASR服务器执行相应业务；

步骤104：终端向ASR服务器发送媒体业务数据包，并且ASR服务器将识别出的文本信息上报给媒体服务器。

以上便是目前典型的ASR业务组网结构图和业务实现流程。其中，ASR服务器为媒体服务器的外置装置。APP服务器在请求ASR业务时只是向媒体服务器发起请求，媒体服务器判断当前业务类型，当业务类型为ASR应用时，媒体服务器再向ASR服务器发起请求，申请资源，并控制ASR服务器的行为，ASR服务器在收到信令后等待媒体信息的输入，并自动将媒体信息识别成文字，通过MRCP发送给媒体服务器。

但是，随着业务应用的扩展，上述现有实现方法存在一定缺陷，比如：ASR服务器的音频能力集与终端的音频能力集不匹配，将导致ASR业务失败。因为APP服务器在同媒体服务器进行会话描述协议(SDP)协商时，媒体服务器并不知道当前的业务类型是否为ASR，所以会按照自身的能力范围同终端协商音频参数。当APP服务器向媒体服务器下发信息(INFO)指令时，媒体服务器才能识别出ASR业务类型，此时，媒体服务器通过终端SDP信息向ASR服务器申请资源。但是，如果ASR服务器的音频编解码能力范围与媒体服务器同终端协商的结果不相同时，比如：媒体服务器同终端协商的音频编解码类型为AMR格式，但ASR服务器只支持G711的音频格式时，将导致ASR服务器访问媒体业务数据包的数据失败，最终导致ASR业务失败。

发明内容

有鉴于此，本发明的主要目的在于提供一种ASR业务的实现方法、系统和媒体服务器，可解决媒体服务器与终端协商的音频编解码能力无法满足ASR服务器时，ASR服务器无法访问媒体业务数据包数据的问题，保证ASR业务的实现。

为达到上述目的，本发明的技术方案是这样实现的：

本发明提供了一种自动语音识别ASR业务的实现方法，该方法包括：

媒体服务器收到APP服务器的访问请求后，确定自身支持的音频编解码类型集；

媒体服务器收到APP服务器发送的ASR业务请求后，根据ASR业务类型向ASR服务器申请ASR业务资源；

媒体服务器根据所述音频编解码类型集与ASR服务器进行协商，通过协商所得的音频编解码类型对媒体业务数据包进行转码，并将转码后的媒体业务数据包发送给ASR服务器。

其中，所述媒体服务器与ASR服务器进行协商，通过协商所得的音频编解码类型对媒体业务数据包进行转码，并将转码后的媒体业务数据包发送给ASR服务器，为：

媒体服务器中的媒体控制模块MSCU向ASR服务器发送会话初始协议SIP信令进行协商，并指定媒体服务器与ASR服务器匹配的音频编解码类型；

媒体服务器中的语音中心交互模块MRU接收终端所发的媒体业务数据包，并将所述媒体业务数据包按所述协商的音频编解码类型进行转码，并将转码后的媒体业务数据包发送到媒体服务器中的媒体存储传输音频模块MSTU；

MSCU控制MSTU将转码后的媒体业务数据包发送至ASR服务器。

其中，所述媒体服务器根据所述音频编解码类型集与ASR服务器进行协商得到音频编解码类型，为：

媒体服务器向ASR服务器发送SIP信令，ASR服务器收到SIP信令后，判断自身支持的音频编解码类型是否存在于媒体服务器支持的音频编解码能力集中，如果存在匹配的音频编解码类型，则通知媒体服务器，双方指定所述匹配的音频编解码类型作为后续对媒体业务数据包进行转码的音频编解码类型；如果不存在匹配的音频编解码类型，则结束当前ASR业务流程。

上述方案中，所述媒体服务器收到APP服务器的访问请求之后，该方法还包括：

终端向APP服务器发送媒体业务数据包请求；APP服务器根据所述媒体业务数据包请求向媒体服务器发送访问请求的信令，之后媒体服务器指定自身与终端进行交互的地址。

其中，所述媒体服务器对媒体业务数据包进行转码，并将转码后的媒体业务数据包发送给ASR服务器，为：

媒体服务器中的MSCU通知MSTU打开NAT通道；

媒体服务器中的MSCU向MRU下发转码命令；

媒体服务器中的MSCU同ASR服务器建立链接，并通知ASR服务器等待音频输入，并进行音频识别；

媒体服务器中的MRU将终端所发的媒体业务数据包中的数据进行转码，并将转码后的媒体业务数据包通过MRU内口发送到MSTU的接收端口；

媒体服务器中的MSTU对转码后的媒体业务数据包进行NAT，并发送到ASR服务器。

本发明还提供了一种ASR业务的实现系统，该系统包括：媒体服务器、APP服务器和ASR服务器；其中，

所述媒体服务器，用于收到APP服务器的访问请求后，确定自身支持的音频编解码类型集；收到APP服务器发送的ASR业务请求后，根据ASR业务类型向ASR服务器申请ASR业务资源；根据所述音频编解码类型集与ASR服务器进行协商，通过协商所得的音频编解码类型对媒体业务数据包进行转码，并将转码后的媒体业务数据包发送给ASR服务器；

所述APP服务器，用于向媒体服务器发送访问请求和ASR业务请求；

所述ASR服务器，用于与媒体服务器进行协商，并接收媒体服务器所发的转码后的媒体业务数据包。

进一步地，该系统还包括终端，用于媒体服务器收到APP服务器的访问请求之后，向APP服务器发送媒体业务数据包请求；相应的，

所述APP服务器，还用于根据所述媒体业务数据包请求向媒体服务器发送访问请求的信令；

所述媒体服务器，还用于收到所述访问请求的信令后，指定自身与终端进行交互的地址。

其中，所述媒体服务器根据所述音频编解码类型集与ASR服务器进行协商，通过协商所得的音频编解码类型对媒体业务数据包进行转码，并将转码后的媒体业务数据包发送给ASR服务器，为：

媒体服务器中的MSCU向ASR服务器发送SIP信令进行协商，并指定媒体服务器与ASR服务器匹配的音频编解码类型；

媒体服务器中的MRU接收终端所发的媒体业务数据包，并将所述媒体业务数据包按所述协商的音频编解码类型进行转码，并将转码后的媒体业务数据包发送到媒体服务器中的MSTU；

MSCU控制MSTU将转码后的媒体业务数据包发送至ASR服务器。

进一步地，所述媒体服务器还包括：MSCU、MRU和MSTU；其中，

所述MSCU，用于向ASR服务器发送SIP信令进行协商，并指定媒体服务器与ASR服务器匹配的音频编解码类型；控制MSTU发送转码后的媒体业务数据包；

所述MRU，用于接收终端所发的媒体业务数据包，并将所述媒体业务数据包按所述协商的音频编解码类型进行转码，并将转码后的媒体业务数据包发送到媒体服务器中的MSTU；

所述MSTU，用于在MSCU的控制下将转码后的媒体业务数据包发送至ASR服务器。

本发明还提供了一种媒体服务器，所述媒体服务器，用于收到APP服务器的访问请求后，确定自身支持的音频编解码类型集；收到APP服务器发送的ASR业务请求后，根据ASR业务类型向ASR服务器申请ASR业务资源；根据所述音频编解码类型集与ASR服务器进行协商，通过协商所得的音频编解码类型对媒体业务数据包进行转码，并将转码后的媒体业务数据包发送给ASR服务器。

本发明提供的ASR业务的实现方法、系统和媒体服务器，媒体服务器收到APP服务器的访问请求后，确定自身支持的音频编解码类型集；媒体服务器收到APP服务器发送的ASR业务请求后，根据ASR业务类型向ASR服务器申请ASR业务资源；媒体服务器根据所述音频编解码类型集与ASR服务器进行协商，通过协商所得的音频编解码类型对媒体业务数据包进行转码，并将转码后的媒体业务数据包发送给ASR服务器。本发明通过媒体服务器与ASR服务器的协商，可确定两者匹配的音频编解码类型，通过协商所得的音频编解码类型进行编码后的媒体业务数据包被发送到ASR服务器。在所述协商过程中，媒体服务器不是以终端支持的音频编解码类型作为协商所依据的音频编解码能力集，而以媒体服务器支持的所有音频编解码类型作为协商所依据的音频编解码能力集。因此，本发明可解决媒体服务器的音频编解码能力集无法满足ASR服务器时，ASR服务器访问媒体业务数据包失败的问题，进而达到了提高ASR服务器访问媒体业务数据包成功率的效果，可保证ASR业务的实现。

附图说明

图1为现有技术中实现ASR业务的系统结构示意图；

图2为本发明ASR业务实施例的实现方法流程示意图；

图3为本发明媒体服务器与ASR服务器进行协商，媒体服务器通过协商的音频编解码类型对媒体业务数据包进行转码，并将转码后的媒体业务数据包发送给ASR服务器的方法实施例的实现流程示意图；

图4为本发明实现ASR业务的系统结构示意图；

图5为本发明所述媒体服务器实施例的结构示意图。

具体实施方式

本发明的基本思想是：媒体服务器收到APP服务器的访问请求后，确定自身支持的音频编解码类型集；媒体服务器收到APP服务器发送的ASR业务请求后，根据ASR业务类型向ASR服务器申请ASR业务资源；媒体服务器根据所述音频编解码类型集与ASR服务器进行协商，通过协商所得的音频编解码类型对媒体业务数据包进行转码，并将转码后的媒体业务数据包发送给ASR服务器。

下面结合附图及具体实施例对本发明作进一步详细说明。

图2为本发明ASR业务实施例的实现方法流程示意图，如图2所示，包括如下步骤：

步骤201：媒体服务器收到APP服务器的访问请求后，确定自身支持的音频编解码类型集；

具体为：APP服务器向媒体服务器发送邀请(INVITE)信令进行媒体协商，媒体服务器从自身支持的音频编解码能力集中选定与终端相同的音频编解码类型集，用于与终端进行媒体业务数据包的有效传输。该步骤可采用现有技术实现，此处不再详述。

进一步地，该步骤中所述媒体服务器收到APP服务器的访问请求之后，该方法还包括：终端向APP服务器发送媒体业务数据包请求；APP服务器根据所述媒体业务数据包请求向媒体服务器发送访问请求的信令，之后媒体服务器指定自身与终端进行交互的地址。所述交互地址为：MSTU的外口地址。

步骤202：媒体服务器收到APP服务器发送的ASR业务请求后，根据ASR业务类型向ASR服务器申请ASR业务资源；

具体为：APP服务器向媒体服务器发送INFO指令，媒体服务器根据所述INFO指令确定APP服务器向自身申请的业务类型为ASR，之后根据ASR业务类型向ASR服务器申请ASR业务资源。

步骤203：媒体服务器根据所述音频编解码类型集与ASR服务器进行协商，通过协商所得的音频编解码类型对媒体业务数据包进行转码，并将转码后的媒体业务数据包发送给ASR服务器；

具体的，媒体服务器中的MSCU向ASR服务器发送SIP信令进行协商并指定媒体服务器与ASR服务器匹配的音频编解码类型；媒体服务器中的MRU接收终端所发的媒体业务数据包，并将所述媒体业务数据包按所述协商的音频编解码类型进行转码，并将转码后的媒体业务数据包发送到媒体服务器中的MSTU；MSCU控制MSTU将转码后的媒体业务数据包发送至ASR服务器。

在实际运行过程中，如图3所示，步骤203中所述方法的实现可包括如下步骤：

步骤301：媒体服务器中的MSCU向ASR服务器发送SIP信令，与ASR服务器协商音频编解码类型；

这里，所述SIP信令中携带媒体服务器支持的音频编解码能力集，即：SIP信令中携带媒体服务器中所述语音中心交互模块(MRU)支持的所有音频编解码类型。ASR服务器收到SIP信令后，判断自身支持的音频编解码类型是否存在于媒体服务器支持的音频编解码能力集中，如果存在匹配的音频编解码类型，则通知媒体服务器，双方指定所述匹配的音频编解码类型作为后续对媒体业务数据包进行转码的音频编解码类型，这里，如果存在两种以上匹配的音频编解码类型，则从中人选一种作为后续对媒体业务数据包进行转码的音频编解码类型；如果不存在匹配的音频编解码类型，则结束当前ASR业务流程。

本发明所述实施例中，媒体服务器不以终端支持的音频编解码类型作为协商所依据的音频编解码能力集，而以媒体服务器支持的所有音频编解码类型作为协商所依据的音频编解码能力集。

步骤302：媒体服务器中的MSCU通知MSTU打开网络地址转换(NAT)通道；

这里，MSCU向MSTU下发打开NAT通道的命令。

步骤303：媒体服务器中的MSCU向MRU下发转码命令；

具体的，媒体服务器中的MSCU通知MRU接收终端所发的媒体业务数据包，并指定MRU同ASR服务器相连的端口的音频编解码类型为步骤301中已协商的音频编解码类型，并指定MRU转码所依据的音频编解码类型为步骤301中已协商的音频编解码类型。

步骤304：媒体服务器中的MSCU同ASR服务器建立链接，并通知ASR服务器等待音频输入，并进行音频识别；

这里，MSCU同ASR服务器建立TCP/IP链接，MSCU通过MRCP向ASR服务器发送MRCP指令来通知ASR服务器等待音频输入，并进行音频识别。

步骤305：媒体服务器中的MRU将终端所发的媒体业务数据包中的数据进行转码，并将转码后的媒体业务数据包，也就是将音频媒体业务数据通过MRU内口发送到MSTU的接收端口；

步骤306：媒体服务器中的MSTU收到MRU发送的转码后的媒体业务数据包后进行NAT，并发送到ASR服务器。

所述步骤203之后，该方法还包括：ASR服务器将收到的媒体业务数据包解析成文字，并通过MRCP将所述文字发送到媒体服务器；媒体服务器向APP服务器上报INFO执行结果，同时，APP服务器向媒体服务器发送BYE信令，以释放资源；媒体服务器向ASR服务器请求释放资源，之后向APP服务器返回结果，ASR业务结束。

本发明还提供了一种ASR业务的实现系统，如图4所示，该系统包括：媒体服务器、APP服务器和ASR服务器；其中，

MSCU控制MSTU将转码后的媒体业务数据包发送至ASR服务器。

相应的，如图5所示，所述媒体服务器还包括：MSCU、MRU和MSTU；其中，

本发明还提供了一种媒体服务器，用于收到APP服务器的访问请求后，确定自身支持的音频编解码类型集；收到APP服务器发送的ASR业务请求后，根据ASR业务类型向ASR服务器申请ASR业务资源；根据所述音频编解码类型集与ASR服务器进行协商，通过协商所得的音频编解码类型对媒体业务数据包进行转码，并将转码后的媒体业务数据包发送给ASR服务器。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种自动语音识别ASR业务的实现方法，其特征在于，该方法包括：

2.根据权利要求1所述的ASR业务的实现方法，其特征在于，所述媒体服务器与ASR服务器进行协商，通过协商所得的音频编解码类型对媒体业务数据包进行转码，并将转码后的媒体业务数据包发送给ASR服务器，为：

MSCU控制MSTU将转码后的媒体业务数据包发送至ASR服务器。

3.根据权利要求1所述的ASR业务的实现方法，其特征在于，所述媒体服务器根据所述音频编解码类型集与ASR服务器进行协商得到音频编解码类型，为：

4.根据权利要求1、2或3所述的ASR业务的实现方法，其特征在于，所述媒体服务器收到APP服务器的访问请求之后，该方法还包括：

5.根据权利要求2所述的ASR业务的实现方法，其特征在于，所述媒体服务器对媒体业务数据包进行转码，并将转码后的媒体业务数据包发送给ASR服务器，为：

媒体服务器中的MSCU通知MSTU打开NAT通道；

媒体服务器中的MSCU向MRU下发转码命令；

6.一种ASR业务的实现系统，其特征在于，该系统包括：媒体服务器、APP服务器和ASR服务器；其中，

7.根据权利要求6所述的ASR业务的实现系统，其特征在于，该系统还包括终端，用于媒体服务器收到APP服务器的访问请求之后，向APP服务器发送媒体业务数据包请求；相应的，

8.根据权利要求6或7所述的ASR业务的实现系统，其特征在于，所述媒体服务器根据所述音频编解码类型集与ASR服务器进行协商，通过协商所得的音频编解码类型对媒体业务数据包进行转码，并将转码后的媒体业务数据包发送给ASR服务器，为：

MSCU控制MSTU将转码后的媒体业务数据包发送至ASR服务器。

9.根据权利要求8所述的ASR业务的实现系统，其特征在于，所述媒体服务器还包括：MSCU、MRU和MSTU；其中，

10.一种媒体服务器，其特征在于，所述媒体服务器，用于收到APP服务器的访问请求后，确定自身支持的音频编解码类型集；收到APP服务器发送的ASR业务请求后，根据ASR业务类型向ASR服务器申请ASR业务资源；根据所述音频编解码类型集与ASR服务器进行协商，通过协商所得的音频编解码类型对媒体业务数据包进行转码，并将转码后的媒体业务数据包发送给ASR服务器。