Nothing Special   »   [go: up one dir, main page]

CN103151041B - 一种自动语音识别业务的实现方法、系统和媒体服务器 - Google Patents

一种自动语音识别业务的实现方法、系统和媒体服务器 Download PDF

Info

Publication number
CN103151041B
CN103151041B CN201310032134.7A CN201310032134A CN103151041B CN 103151041 B CN103151041 B CN 103151041B CN 201310032134 A CN201310032134 A CN 201310032134A CN 103151041 B CN103151041 B CN 103151041B
Authority
CN
China
Prior art keywords
server
asr
media
data packet
service data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310032134.7A
Other languages
English (en)
Other versions
CN103151041A (zh
Inventor
张伟
程佳佳
崔飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201310032134.7A priority Critical patent/CN103151041B/zh
Publication of CN103151041A publication Critical patent/CN103151041A/zh
Priority to PCT/CN2013/082219 priority patent/WO2013189430A2/zh
Application granted granted Critical
Publication of CN103151041B publication Critical patent/CN103151041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种ASR业务的实现方法,包括:媒体服务器收到APP服务器的访问请求后,确定自身支持的音频编解码类型集;媒体服务器收到APP服务器发送的ASR业务请求后,根据ASR业务类型向ASR服务器申请ASR业务资源;媒体服务器根据所述音频编解码类型集与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器。本发明还同时公开了一种ASR业务的实现系统和媒体服务器,因此本发明可解决媒体服务器与终端协商的音频编解码能力无法满足ASR服务器时,ASR服务器无法访问媒体业务数据包数据的问题,保证ASR业务的实现。

Description

一种自动语音识别业务的实现方法、系统和媒体服务器
技术领域
本发明涉及通信领域中的自动语音识别(ASR)技术,尤其涉及一种ASR业务的实现方法、系统和媒体服务器。
背景技术
媒体服务器(MediaServer,MS)是软交换体系中提供专用媒体资源功能的独立设备,也是分组网络中的重要设备,提供基本、增强业务中的媒体处理功能,并用于所有与音视频相关的媒体处理操作,所述媒体处理操作包括:视频和音频实时传输协议(RTP)的数据与视、音频文件的相互转换。同时,媒体服务器也用于接收用户通过终端双音多频(DTMF)的输入、播放业务的引导语音以及显示动态的引导画面。媒体服务器具有的会话初始协议(SIP)和MSML/MOML协议能力,使得媒体服务器能在应用服务器(APPServer)的控制下完成整个会话过程,实现与用户的交互。
媒体控制模块(MSCU)是媒体服务器中的一个重要模块,主要用于与其他实体进行能力协商,提供资源本身的管理、维护,以及控制其他业务资源模块执行复杂的业务。
媒体存储传输音频模块(MSTU)是媒体服务器中的业务资源模块,用于存储海量的音频数据,并实现音频文件的播放功能。媒体存储传输音频模块上设置有对外网口,可以直接通过所述对外网口收发音频数据。
现有技术中,媒体服务器的应用范围很广,主要可以归纳为音视频播放、收号和会议等功能。
ASR功能是对输入的音频信息进行识别,转化为文字,并将文字信息通过消息上报给用户。目前,在电信领域中,ASR应用通常是通过专门配置的ASR服务器来实现的,通过信令指定ASR服务器将文字发送到用户端,如发送到用户的终端来完成一次ASR业务。
图1为现有技术中实现ASR业务的系统结构示意图,如图1所示,该系统包括:终端、APP服务器、媒体服务器和ASR服务器。基于图1所述系统的方法实现流程包括如下步骤:
步骤101:终端发起一次呼叫,触发APP服务器以激活APP业务;
步骤102:APP服务器通过SIP信令向媒体服务器请求ASR业务;
步骤103:媒体服务器通过SIP信令向ASR服务器请求ASR资源,并通过媒体资源控制协议(MRCP)控制ASR服务器执行相应业务;
步骤104:终端向ASR服务器发送媒体业务数据包,并且ASR服务器将识别出的文本信息上报给媒体服务器。
以上便是目前典型的ASR业务组网结构图和业务实现流程。其中,ASR服务器为媒体服务器的外置装置。APP服务器在请求ASR业务时只是向媒体服务器发起请求,媒体服务器判断当前业务类型,当业务类型为ASR应用时,媒体服务器再向ASR服务器发起请求,申请资源,并控制ASR服务器的行为,ASR服务器在收到信令后等待媒体信息的输入,并自动将媒体信息识别成文字,通过MRCP发送给媒体服务器。
但是,随着业务应用的扩展,上述现有实现方法存在一定缺陷,比如:ASR服务器的音频能力集与终端的音频能力集不匹配,将导致ASR业务失败。因为APP服务器在同媒体服务器进行会话描述协议(SDP)协商时,媒体服务器并不知道当前的业务类型是否为ASR,所以会按照自身的能力范围同终端协商音频参数。当APP服务器向媒体服务器下发信息(INFO)指令时,媒体服务器才能识别出ASR业务类型,此时,媒体服务器通过终端SDP信息向ASR服务器申请资源。但是,如果ASR服务器的音频编解码能力范围与媒体服务器同终端协商的结果不相同时,比如:媒体服务器同终端协商的音频编解码类型为AMR格式,但ASR服务器只支持G711的音频格式时,将导致ASR服务器访问媒体业务数据包的数据失败,最终导致ASR业务失败。
发明内容
有鉴于此,本发明的主要目的在于提供一种ASR业务的实现方法、系统和媒体服务器,可解决媒体服务器与终端协商的音频编解码能力无法满足ASR服务器时,ASR服务器无法访问媒体业务数据包数据的问题,保证ASR业务的实现。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种自动语音识别ASR业务的实现方法,该方法包括:
媒体服务器收到APP服务器的访问请求后,确定自身支持的音频编解码类型集;
媒体服务器收到APP服务器发送的ASR业务请求后,根据ASR业务类型向ASR服务器申请ASR业务资源;
媒体服务器根据所述音频编解码类型集与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器。
其中,所述媒体服务器与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器,为:
媒体服务器中的媒体控制模块MSCU向ASR服务器发送会话初始协议SIP信令进行协商,并指定媒体服务器与ASR服务器匹配的音频编解码类型;
媒体服务器中的语音中心交互模块MRU接收终端所发的媒体业务数据包,并将所述媒体业务数据包按所述协商的音频编解码类型进行转码,并将转码后的媒体业务数据包发送到媒体服务器中的媒体存储传输音频模块MSTU;
MSCU控制MSTU将转码后的媒体业务数据包发送至ASR服务器。
其中,所述媒体服务器根据所述音频编解码类型集与ASR服务器进行协商得到音频编解码类型,为:
媒体服务器向ASR服务器发送SIP信令,ASR服务器收到SIP信令后,判断自身支持的音频编解码类型是否存在于媒体服务器支持的音频编解码能力集中,如果存在匹配的音频编解码类型,则通知媒体服务器,双方指定所述匹配的音频编解码类型作为后续对媒体业务数据包进行转码的音频编解码类型;如果不存在匹配的音频编解码类型,则结束当前ASR业务流程。
上述方案中,所述媒体服务器收到APP服务器的访问请求之后,该方法还包括:
终端向APP服务器发送媒体业务数据包请求;APP服务器根据所述媒体业务数据包请求向媒体服务器发送访问请求的信令,之后媒体服务器指定自身与终端进行交互的地址。
其中,所述媒体服务器对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器,为:
媒体服务器中的MSCU通知MSTU打开NAT通道;
媒体服务器中的MSCU向MRU下发转码命令;
媒体服务器中的MSCU同ASR服务器建立链接,并通知ASR服务器等待音频输入,并进行音频识别;
媒体服务器中的MRU将终端所发的媒体业务数据包中的数据进行转码,并将转码后的媒体业务数据包通过MRU内口发送到MSTU的接收端口;
媒体服务器中的MSTU对转码后的媒体业务数据包进行NAT,并发送到ASR服务器。
本发明还提供了一种ASR业务的实现系统,该系统包括:媒体服务器、APP服务器和ASR服务器;其中,
所述媒体服务器,用于收到APP服务器的访问请求后,确定自身支持的音频编解码类型集;收到APP服务器发送的ASR业务请求后,根据ASR业务类型向ASR服务器申请ASR业务资源;根据所述音频编解码类型集与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器;
所述APP服务器,用于向媒体服务器发送访问请求和ASR业务请求;
所述ASR服务器,用于与媒体服务器进行协商,并接收媒体服务器所发的转码后的媒体业务数据包。
进一步地,该系统还包括终端,用于媒体服务器收到APP服务器的访问请求之后,向APP服务器发送媒体业务数据包请求;相应的,
所述APP服务器,还用于根据所述媒体业务数据包请求向媒体服务器发送访问请求的信令;
所述媒体服务器,还用于收到所述访问请求的信令后,指定自身与终端进行交互的地址。
其中,所述媒体服务器根据所述音频编解码类型集与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器,为:
媒体服务器中的MSCU向ASR服务器发送SIP信令进行协商,并指定媒体服务器与ASR服务器匹配的音频编解码类型;
媒体服务器中的MRU接收终端所发的媒体业务数据包,并将所述媒体业务数据包按所述协商的音频编解码类型进行转码,并将转码后的媒体业务数据包发送到媒体服务器中的MSTU;
MSCU控制MSTU将转码后的媒体业务数据包发送至ASR服务器。
进一步地,所述媒体服务器还包括:MSCU、MRU和MSTU;其中,
所述MSCU,用于向ASR服务器发送SIP信令进行协商,并指定媒体服务器与ASR服务器匹配的音频编解码类型;控制MSTU发送转码后的媒体业务数据包;
所述MRU,用于接收终端所发的媒体业务数据包,并将所述媒体业务数据包按所述协商的音频编解码类型进行转码,并将转码后的媒体业务数据包发送到媒体服务器中的MSTU;
所述MSTU,用于在MSCU的控制下将转码后的媒体业务数据包发送至ASR服务器。
本发明还提供了一种媒体服务器,所述媒体服务器,用于收到APP服务器的访问请求后,确定自身支持的音频编解码类型集;收到APP服务器发送的ASR业务请求后,根据ASR业务类型向ASR服务器申请ASR业务资源;根据所述音频编解码类型集与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器。
本发明提供的ASR业务的实现方法、系统和媒体服务器,媒体服务器收到APP服务器的访问请求后,确定自身支持的音频编解码类型集;媒体服务器收到APP服务器发送的ASR业务请求后,根据ASR业务类型向ASR服务器申请ASR业务资源;媒体服务器根据所述音频编解码类型集与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器。本发明通过媒体服务器与ASR服务器的协商,可确定两者匹配的音频编解码类型,通过协商所得的音频编解码类型进行编码后的媒体业务数据包被发送到ASR服务器。在所述协商过程中,媒体服务器不是以终端支持的音频编解码类型作为协商所依据的音频编解码能力集,而以媒体服务器支持的所有音频编解码类型作为协商所依据的音频编解码能力集。因此,本发明可解决媒体服务器的音频编解码能力集无法满足ASR服务器时,ASR服务器访问媒体业务数据包失败的问题,进而达到了提高ASR服务器访问媒体业务数据包成功率的效果,可保证ASR业务的实现。
附图说明
图1为现有技术中实现ASR业务的系统结构示意图;
图2为本发明ASR业务实施例的实现方法流程示意图;
图3为本发明媒体服务器与ASR服务器进行协商,媒体服务器通过协商的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器的方法实施例的实现流程示意图;
图4为本发明实现ASR业务的系统结构示意图;
图5为本发明所述媒体服务器实施例的结构示意图。
具体实施方式
本发明的基本思想是:媒体服务器收到APP服务器的访问请求后,确定自身支持的音频编解码类型集;媒体服务器收到APP服务器发送的ASR业务请求后,根据ASR业务类型向ASR服务器申请ASR业务资源;媒体服务器根据所述音频编解码类型集与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器。
下面结合附图及具体实施例对本发明作进一步详细说明。
图2为本发明ASR业务实施例的实现方法流程示意图,如图2所示,包括如下步骤:
步骤201:媒体服务器收到APP服务器的访问请求后,确定自身支持的音频编解码类型集;
具体为:APP服务器向媒体服务器发送邀请(INVITE)信令进行媒体协商,媒体服务器从自身支持的音频编解码能力集中选定与终端相同的音频编解码类型集,用于与终端进行媒体业务数据包的有效传输。该步骤可采用现有技术实现,此处不再详述。
进一步地,该步骤中所述媒体服务器收到APP服务器的访问请求之后,该方法还包括:终端向APP服务器发送媒体业务数据包请求;APP服务器根据所述媒体业务数据包请求向媒体服务器发送访问请求的信令,之后媒体服务器指定自身与终端进行交互的地址。所述交互地址为:MSTU的外口地址。
步骤202:媒体服务器收到APP服务器发送的ASR业务请求后,根据ASR业务类型向ASR服务器申请ASR业务资源;
具体为:APP服务器向媒体服务器发送INFO指令,媒体服务器根据所述INFO指令确定APP服务器向自身申请的业务类型为ASR,之后根据ASR业务类型向ASR服务器申请ASR业务资源。
步骤203:媒体服务器根据所述音频编解码类型集与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器;
具体的,媒体服务器中的MSCU向ASR服务器发送SIP信令进行协商并指定媒体服务器与ASR服务器匹配的音频编解码类型;媒体服务器中的MRU接收终端所发的媒体业务数据包,并将所述媒体业务数据包按所述协商的音频编解码类型进行转码,并将转码后的媒体业务数据包发送到媒体服务器中的MSTU;MSCU控制MSTU将转码后的媒体业务数据包发送至ASR服务器。
在实际运行过程中,如图3所示,步骤203中所述方法的实现可包括如下步骤:
步骤301:媒体服务器中的MSCU向ASR服务器发送SIP信令,与ASR服务器协商音频编解码类型;
这里,所述SIP信令中携带媒体服务器支持的音频编解码能力集,即:SIP信令中携带媒体服务器中所述语音中心交互模块(MRU)支持的所有音频编解码类型。ASR服务器收到SIP信令后,判断自身支持的音频编解码类型是否存在于媒体服务器支持的音频编解码能力集中,如果存在匹配的音频编解码类型,则通知媒体服务器,双方指定所述匹配的音频编解码类型作为后续对媒体业务数据包进行转码的音频编解码类型,这里,如果存在两种以上匹配的音频编解码类型,则从中人选一种作为后续对媒体业务数据包进行转码的音频编解码类型;如果不存在匹配的音频编解码类型,则结束当前ASR业务流程。
本发明所述实施例中,媒体服务器不以终端支持的音频编解码类型作为协商所依据的音频编解码能力集,而以媒体服务器支持的所有音频编解码类型作为协商所依据的音频编解码能力集。
步骤302:媒体服务器中的MSCU通知MSTU打开网络地址转换(NAT)通道;
这里,MSCU向MSTU下发打开NAT通道的命令。
步骤303:媒体服务器中的MSCU向MRU下发转码命令;
具体的,媒体服务器中的MSCU通知MRU接收终端所发的媒体业务数据包,并指定MRU同ASR服务器相连的端口的音频编解码类型为步骤301中已协商的音频编解码类型,并指定MRU转码所依据的音频编解码类型为步骤301中已协商的音频编解码类型。
步骤304:媒体服务器中的MSCU同ASR服务器建立链接,并通知ASR服务器等待音频输入,并进行音频识别;
这里,MSCU同ASR服务器建立TCP/IP链接,MSCU通过MRCP向ASR服务器发送MRCP指令来通知ASR服务器等待音频输入,并进行音频识别。
步骤305:媒体服务器中的MRU将终端所发的媒体业务数据包中的数据进行转码,并将转码后的媒体业务数据包,也就是将音频媒体业务数据通过MRU内口发送到MSTU的接收端口;
步骤306:媒体服务器中的MSTU收到MRU发送的转码后的媒体业务数据包后进行NAT,并发送到ASR服务器。
所述步骤203之后,该方法还包括:ASR服务器将收到的媒体业务数据包解析成文字,并通过MRCP将所述文字发送到媒体服务器;媒体服务器向APP服务器上报INFO执行结果,同时,APP服务器向媒体服务器发送BYE信令,以释放资源;媒体服务器向ASR服务器请求释放资源,之后向APP服务器返回结果,ASR业务结束。
本发明还提供了一种ASR业务的实现系统,如图4所示,该系统包括:媒体服务器、APP服务器和ASR服务器;其中,
所述媒体服务器,用于收到APP服务器的访问请求后,确定自身支持的音频编解码类型集;收到APP服务器发送的ASR业务请求后,根据ASR业务类型向ASR服务器申请ASR业务资源;根据所述音频编解码类型集与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器;
所述APP服务器,用于向媒体服务器发送访问请求和ASR业务请求;
所述ASR服务器,用于与媒体服务器进行协商,并接收媒体服务器所发的转码后的媒体业务数据包。
进一步地,该系统还包括终端,用于媒体服务器收到APP服务器的访问请求之后,向APP服务器发送媒体业务数据包请求;相应的,
所述APP服务器,还用于根据所述媒体业务数据包请求向媒体服务器发送访问请求的信令;
所述媒体服务器,还用于收到所述访问请求的信令后,指定自身与终端进行交互的地址。
其中,所述媒体服务器根据所述音频编解码类型集与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器,为:
媒体服务器中的MSCU向ASR服务器发送SIP信令进行协商,并指定媒体服务器与ASR服务器匹配的音频编解码类型;
媒体服务器中的MRU接收终端所发的媒体业务数据包,并将所述媒体业务数据包按所述协商的音频编解码类型进行转码,并将转码后的媒体业务数据包发送到媒体服务器中的MSTU;
MSCU控制MSTU将转码后的媒体业务数据包发送至ASR服务器。
相应的,如图5所示,所述媒体服务器还包括:MSCU、MRU和MSTU;其中,
所述MSCU,用于向ASR服务器发送SIP信令进行协商,并指定媒体服务器与ASR服务器匹配的音频编解码类型;控制MSTU发送转码后的媒体业务数据包;
所述MRU,用于接收终端所发的媒体业务数据包,并将所述媒体业务数据包按所述协商的音频编解码类型进行转码,并将转码后的媒体业务数据包发送到媒体服务器中的MSTU;
所述MSTU,用于在MSCU的控制下将转码后的媒体业务数据包发送至ASR服务器。
本发明还提供了一种媒体服务器,用于收到APP服务器的访问请求后,确定自身支持的音频编解码类型集;收到APP服务器发送的ASR业务请求后,根据ASR业务类型向ASR服务器申请ASR业务资源;根据所述音频编解码类型集与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种自动语音识别ASR业务的实现方法,其特征在于,该方法包括:
媒体服务器收到APP服务器的访问请求后,确定自身支持的音频编解码类型集;
媒体服务器收到APP服务器发送的ASR业务请求后,根据ASR业务类型向ASR服务器申请ASR业务资源;
媒体服务器根据所述音频编解码类型集与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器。
2.根据权利要求1所述的ASR业务的实现方法,其特征在于,所述媒体服务器与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器,为:
媒体服务器中的媒体控制模块MSCU向ASR服务器发送会话初始协议SIP信令进行协商,并指定媒体服务器与ASR服务器匹配的音频编解码类型;
媒体服务器中的语音中心交互模块MRU接收终端所发的媒体业务数据包,并将所述媒体业务数据包按所述协商的音频编解码类型进行转码,并将转码后的媒体业务数据包发送到媒体服务器中的媒体存储传输音频模块MSTU;
MSCU控制MSTU将转码后的媒体业务数据包发送至ASR服务器。
3.根据权利要求1所述的ASR业务的实现方法,其特征在于,所述媒体服务器根据所述音频编解码类型集与ASR服务器进行协商得到音频编解码类型,为:
媒体服务器向ASR服务器发送SIP信令,ASR服务器收到SIP信令后,判断自身支持的音频编解码类型是否存在于媒体服务器支持的音频编解码能力集中,如果存在匹配的音频编解码类型,则通知媒体服务器,双方指定所述匹配的音频编解码类型作为后续对媒体业务数据包进行转码的音频编解码类型;如果不存在匹配的音频编解码类型,则结束当前ASR业务流程。
4.根据权利要求1、2或3所述的ASR业务的实现方法,其特征在于,所述媒体服务器收到APP服务器的访问请求之后,该方法还包括:
终端向APP服务器发送媒体业务数据包请求;APP服务器根据所述媒体业务数据包请求向媒体服务器发送访问请求的信令,之后媒体服务器指定自身与终端进行交互的地址。
5.根据权利要求2所述的ASR业务的实现方法,其特征在于,所述媒体服务器对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器,为:
媒体服务器中的MSCU通知MSTU打开NAT通道;
媒体服务器中的MSCU向MRU下发转码命令;
媒体服务器中的MSCU同ASR服务器建立链接,并通知ASR服务器等待音频输入,并进行音频识别;
媒体服务器中的MRU将终端所发的媒体业务数据包中的数据进行转码,并将转码后的媒体业务数据包通过MRU内口发送到MSTU的接收端口;
媒体服务器中的MSTU对转码后的媒体业务数据包进行NAT,并发送到ASR服务器。
6.一种ASR业务的实现系统,其特征在于,该系统包括:媒体服务器、APP服务器和ASR服务器;其中,
所述媒体服务器,用于收到APP服务器的访问请求后,确定自身支持的音频编解码类型集;收到APP服务器发送的ASR业务请求后,根据ASR业务类型向ASR服务器申请ASR业务资源;根据所述音频编解码类型集与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器;
所述APP服务器,用于向媒体服务器发送访问请求和ASR业务请求;
所述ASR服务器,用于与媒体服务器进行协商,并接收媒体服务器所发的转码后的媒体业务数据包。
7.根据权利要求6所述的ASR业务的实现系统,其特征在于,该系统还包括终端,用于媒体服务器收到APP服务器的访问请求之后,向APP服务器发送媒体业务数据包请求;相应的,
所述APP服务器,还用于根据所述媒体业务数据包请求向媒体服务器发送访问请求的信令;
所述媒体服务器,还用于收到所述访问请求的信令后,指定自身与终端进行交互的地址。
8.根据权利要求6或7所述的ASR业务的实现系统,其特征在于,所述媒体服务器根据所述音频编解码类型集与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器,为:
媒体服务器中的MSCU向ASR服务器发送SIP信令进行协商,并指定媒体服务器与ASR服务器匹配的音频编解码类型;
媒体服务器中的MRU接收终端所发的媒体业务数据包,并将所述媒体业务数据包按所述协商的音频编解码类型进行转码,并将转码后的媒体业务数据包发送到媒体服务器中的MSTU;
MSCU控制MSTU将转码后的媒体业务数据包发送至ASR服务器。
9.根据权利要求8所述的ASR业务的实现系统,其特征在于,所述媒体服务器还包括:MSCU、MRU和MSTU;其中,
所述MSCU,用于向ASR服务器发送SIP信令进行协商,并指定媒体服务器与ASR服务器匹配的音频编解码类型;控制MSTU发送转码后的媒体业务数据包;
所述MRU,用于接收终端所发的媒体业务数据包,并将所述媒体业务数据包按所述协商的音频编解码类型进行转码,并将转码后的媒体业务数据包发送到媒体服务器中的MSTU;
所述MSTU,用于在MSCU的控制下将转码后的媒体业务数据包发送至ASR服务器。
10.一种媒体服务器,其特征在于,所述媒体服务器,用于收到APP服务器的访问请求后,确定自身支持的音频编解码类型集;收到APP服务器发送的ASR业务请求后,根据ASR业务类型向ASR服务器申请ASR业务资源;根据所述音频编解码类型集与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器。
CN201310032134.7A 2013-01-28 2013-01-28 一种自动语音识别业务的实现方法、系统和媒体服务器 Active CN103151041B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310032134.7A CN103151041B (zh) 2013-01-28 2013-01-28 一种自动语音识别业务的实现方法、系统和媒体服务器
PCT/CN2013/082219 WO2013189430A2 (zh) 2013-01-28 2013-08-23 一种自动语音识别业务的实现方法、系统和媒体服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310032134.7A CN103151041B (zh) 2013-01-28 2013-01-28 一种自动语音识别业务的实现方法、系统和媒体服务器

Publications (2)

Publication Number Publication Date
CN103151041A CN103151041A (zh) 2013-06-12
CN103151041B true CN103151041B (zh) 2016-02-10

Family

ID=48549063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310032134.7A Active CN103151041B (zh) 2013-01-28 2013-01-28 一种自动语音识别业务的实现方法、系统和媒体服务器

Country Status (2)

Country Link
CN (1) CN103151041B (zh)
WO (1) WO2013189430A2 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103151041B (zh) * 2013-01-28 2016-02-10 中兴通讯股份有限公司 一种自动语音识别业务的实现方法、系统和媒体服务器
CN105206273B (zh) * 2015-09-06 2019-05-10 上海智臻智能网络科技股份有限公司 语音传输控制方法及系统
CN107659415B (zh) * 2016-07-25 2021-05-18 中兴通讯股份有限公司 一种云会议的媒体资源管理方法及装置
CN109429068B (zh) * 2017-09-01 2020-09-29 成都鼎桥通信技术有限公司 视频编解码业务处理方法和设备
CN107820324A (zh) * 2017-10-30 2018-03-20 铱方科技(深圳)有限公司 移动终端接收固定电话通话的方法、系统及其绑定方法、系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1606772A (zh) * 2002-04-10 2005-04-13 三菱电机株式会社 用于分布式自动语音识别的方法以及分布式自动语音识别系统
CN1633129A (zh) * 2005-01-12 2005-06-29 北京邮电大学 一种基于软交换的媒体服务器
CN1764190A (zh) * 2004-10-22 2006-04-26 微软公司 分布式语音服务
CN1801322A (zh) * 2004-11-19 2006-07-12 国际商业机器公司 使用转录门户组件随需转录语音的方法和系统
CN101437047A (zh) * 2008-12-09 2009-05-20 中兴通讯股份有限公司 对用户终端进行放音/录音的方法、系统及媒体服务器
CN102231734A (zh) * 2011-06-22 2011-11-02 中兴通讯股份有限公司 实现从文本到语音tts的音频转码方法、装置及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8451823B2 (en) * 2005-12-13 2013-05-28 Nuance Communications, Inc. Distributed off-line voice services
CN103151041B (zh) * 2013-01-28 2016-02-10 中兴通讯股份有限公司 一种自动语音识别业务的实现方法、系统和媒体服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1606772A (zh) * 2002-04-10 2005-04-13 三菱电机株式会社 用于分布式自动语音识别的方法以及分布式自动语音识别系统
CN1764190A (zh) * 2004-10-22 2006-04-26 微软公司 分布式语音服务
CN1801322A (zh) * 2004-11-19 2006-07-12 国际商业机器公司 使用转录门户组件随需转录语音的方法和系统
CN1633129A (zh) * 2005-01-12 2005-06-29 北京邮电大学 一种基于软交换的媒体服务器
CN101437047A (zh) * 2008-12-09 2009-05-20 中兴通讯股份有限公司 对用户终端进行放音/录音的方法、系统及媒体服务器
CN102231734A (zh) * 2011-06-22 2011-11-02 中兴通讯股份有限公司 实现从文本到语音tts的音频转码方法、装置及系统

Also Published As

Publication number Publication date
CN103151041A (zh) 2013-06-12
WO2013189430A2 (zh) 2013-12-27
WO2013189430A3 (zh) 2014-02-20

Similar Documents

Publication Publication Date Title
EP2779579B1 (en) Method and apparatuses for realizing voip call in cloud computing environment
US20100082824A1 (en) Program network recording method, media processing server and network recording system
CN101682642B (zh) 改进的编解码器协商
US8582726B2 (en) Method and an apparatus for handling multimedia calls
CN101895569B (zh) 视频浏览的实现方法、ims视频监控系统及监控前端
CN101924772B (zh) 支持跨网络、跨终端实现多媒体会话合并的通信方法
CN103151041B (zh) 一种自动语音识别业务的实现方法、系统和媒体服务器
CN106921843B (zh) 数据传输方法及装置
US8457116B2 (en) Mobile technology
US20240244093A1 (en) Communication method, signaling control network element, media control network element and communication system
CN115334273A (zh) 一种协议转换音视频通信方法及系统
WO2012174908A1 (zh) 实现从文本到语音的音频转码方法、装置及系统
WO2021073155A1 (zh) 视频会议方法、装置、设备及存储介质
CN103684970B (zh) 媒体数据流的传输方法和瘦终端
CN101453446B (zh) 一种建立mrcp控制与承载通道的方法、装置与系统
CN111131743A (zh) 基于浏览器的视频通话方法、装置、电子设备及存储介质
US9100412B2 (en) Method and apparatus for transmitting media resources
CN105429964B (zh) 一种媒体服务器资源控制分配方法
US9398254B2 (en) Method for implementing telepresence technology and telepresence device
US9143726B2 (en) Video media server for realizing video intercommunication gateway function and video intercommunication method
JP7009509B2 (ja) ネットワーク装置の管理
CN108809911A (zh) VoLTE网络中实现二次拨号的方法、装置及存储介质
CN111726885B (zh) 一种通信方法、核心网设备及通信系统
CN108206923A (zh) 多路视频通话的实现方法、装置及多通终端
US20140010229A1 (en) Data communication system, data communication terminal, data communicatin method, and computer program

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant