CN1514995A - 话音识别对话选择装置,话音识别对话系统,话音识别选择方法及程序 - Google Patents
话音识别对话选择装置,话音识别对话系统,话音识别选择方法及程序 Download PDFInfo
- Publication number
- CN1514995A CN1514995A CNA038003465A CN03800346A CN1514995A CN 1514995 A CN1514995 A CN 1514995A CN A038003465 A CNA038003465 A CN A038003465A CN 03800346 A CN03800346 A CN 03800346A CN 1514995 A CN1514995 A CN 1514995A
- Authority
- CN
- China
- Prior art keywords
- dispensing device
- interface
- speech recognition
- data
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010187 selection method Methods 0.000 title 1
- 238000000034 method Methods 0.000 claims description 112
- 230000008569 process Effects 0.000 claims description 78
- 238000004891 communication Methods 0.000 claims description 43
- 230000000052 comparative effect Effects 0.000 claims description 22
- 230000005540 biological transmission Effects 0.000 claims description 13
- 238000012546 transfer Methods 0.000 claims description 8
- 230000008676 import Effects 0.000 claims description 3
- 238000013404 process transfer Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 claims 1
- 230000006835 compression Effects 0.000 abstract 1
- 238000007906 compression Methods 0.000 abstract 1
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
在具有多个识别对话服务器的话音识别对话系统中,不用主机选择和确定识别对话服务器。客户机10向识别对话选择服务器20发送在终端信息存储器140中存储的它自己的性能信息。客户机10的性能包括CODEC性能(CODEC类型、CODEC压缩模式等),话音数据格式(压缩的话音数据、特征向量等),录制的话音I/O函数,合成的话音I/O函数(不具备合成引擎、具备中间表现输入引擎、具备字符串输入引擎等),和服务内容等。识别对话选择服务器20接收客户机10发送的性能信息,然后根据识别对话服务器信息存储器230中存储的多个识别对话服务器的性能信息和请求的服务内容的信息确定最佳的识别对话服务器。
Description
技术领域
本发明涉及话音识别对话装置,话音识别对话选择方法,话音识别对话选择装置,以及话音识别对话选择程序的记录介质,利用话音识别对话选择方法,装置和程序,把输入到如移动电话、汽车用终端之类的终端(客户机)的话音数据通过网络发送到识别对话服务器,并且通过话音识别和应答在识别对话服务器执行话音对话。
背景技术
按常规,利用VoIP(Voiceover Internet Protocol(网络电话))的话音识别对话系统常被称为客户机-服务器型的话音识别对话装置,利用该装置将从客户机输出的话音数据通过分组网被发送到识别对话服务器,然后在识别对话服务器执行话音识别对话处理。例如,在1998年3月的Nikkei互联网技术第130-137页中对这种类型的话音识别对话系统进行了详细的说明。
在利用VoIP的系统中,通过话音识别和应答(合成的、录制的话音等)的话音识别或话音对话在客户机和识别对话服务器的IP地址已知的主机(framework)中执行。在这种主机中,在客户机和识别对话服务器利用IP地址互连以便能够进行分组通信的条件下执行话音识别对话,并且话音数据的分组从客户机发送到识别对话服务器。
在日本专利公开No.10-333693中揭示了能够提供自动语音识别服务的方法及其系统。该系统的构造使得通过在分组网上从客户机将话音数据发送到话音识别服务器来识别话音数据。
但是,在上述利用VoIP的常规系统中,需要在客户机和识别对话服务器的IP地址都已知的主机中执行话音识别和话音对话。因此,当存在多个识别对话服务器时,需要开发用于选择对客户机服务器最佳的识别对话服务器并且将识别对话服务器关联到客户机的新系统。
与此类似,对于日本专利公开No.10-333693中揭示的能够提供自动语音识别服务的方法及其系统,当存在多个识别对话服务器时,也需要开发用于选择对于客户机最佳的识别对话服务器和将识别对话服务器关联到客户机的新系统。
本发明的一个目的是提供话音识别对话装置,话音识别对话选择方法,话音识别对话选择装置,以及用于在存在多个识别对话服务器时,能够通过指出客户机的性能和识别对话服务器的性能,选出最佳识别对话服务器,并且能够在确定的识别对话服务器和客户机之间执行话音识别对话的话音识别对话选择程序的记录介质。
发明内容
为了获得上述目的,本发明的话音识别对话装置包括:用于执行话音识别对话的多个对话装置;用于向对话装置发送话音信息的发送装置;连接发送装置和对话装置的网络;以及根据发送装置的性能(ability)和多个对话装置的性能在多个对话装置中选出一个对话装置的选择装置。
另外,本发明的话音识别对话装置可以包括:用于执行话音识别对话的多个对话装置;用于向对话装置请求服务的请求装置;用于向对话装置发送话音信息的发送装置;连接发送装置,请求装置和对话装置的网络;以及根据发送装置的服务和性能以及多个对话装置的性能在多个对话装置中选出一个对话装置的选择装置。
另外,本发明的话音识别对话装置可以包括:用于执行话音识别对话的多个对话装置;用于保留向对话装置请求的服务内容的服务保留装置;用于向对话装置发送话音信息的发送装置;连接服务保留装置,发送装置和对话装置的网络;以及根据发送装置的服务和性能以及多个对话装置的性能在多个对话装置中选出一个对话装置的选择装置。
在上述话音识别对话装置中使用的选择装置最好具备向发送装置发送用于指定所选对话装置的信息,以及交换用于在对话装置和发送装置之间执行话音识别对话所需的信息的功能。可以使用另一个具有向发送装置发送用于指定所选对话装置的信息,并且在所选对话装置与请求和发送装置之间交换服务内容和话音信息功能的选择装置来代替上述的选择装置。此外,作为选择装置,可以使用具有将一个所选的对话装置改变为另一个所选的对话装置功能的选择装置。
作为选择装置,可以使用具有下列功能的另一个选择装置,即,能够比较发送装置和多个对话装置的性能,并且根据比较结果确定具有输入到对话装置的话音信息的输入格式和输出到发送装置的话音信息的输出格式一致的这种所需性能的对话装置。作为选择装置,可以使用具有下列功能的另一个选择装置,即,能够比较发送装置的服务和性能与多个对话装置的性能,并且根据比较结果确定具有输入到对话装置的话音信息的输入格式和输出到发送装置的话音信息的输出格式一致的这种所需性能的对话装置。
作为从发送装置输出的话音信息,最好使用由数字化话音数据,压缩话音数据或特征向量数据形成的话音信息。另外,用于确定发送装置性能的数据最好包括CODEC性能,话音数据格式和录制/合成话音I/O函数的数据。用于确定对话装置性能的数据最好包括CODEC性能,话音数据格式,录制/合成话音输出函数,服务内容,识别性能和操作信息的数据。
更具体地讲,本发明的话音识别对话装置可以包括:用于执行话音识别对话的多个话音识别对话服务器;用于发送向话音识别对话服务器请求的内容服务和话音信息的客户机;用于在多个对话装置中选择一个对话装置的话音识别对话选择服务器;以及连接客户机,话音识别对话服务器和话音识别对话选择服务器的网络。
客户机可以包括:用于输入话音信息和服务内容数据的数据输入单元,用于存储客户机性能数据的终端信息存储器,用于通过网络在话音识别对话服务器和话音识别选择服务器之间进行通信并且向所选话音识别对话服务器发送话音信息的数据通信单元,以及用于控制客户机的操作的控制器。
话音识别对话选择服务器可以包括:用于通过网络在客户机和话音识别对话服务器之间进行通信的数据通信单元,用于存储每个话音识别对话服务器性能的识别对话服务器信息存储器,以及用于读出终端信息存储器中存储的客户机的性能数据,比较该性能数据与识别对话服务器信息存储器中存储的话音识别对话服务器的性能数据,在多个话音识别对话服务器中确定至少一个话音识别对话服务器,然后向客户机发送用于指定确定的话音识别对话服务器所需的信息的识别对话服务器确定单元。
话音识别对话服务器可以包括:用于根据从客户机输入的话音信息执行话音识别对话的话音识别对话执行单元,用于通过网络在客户机和话音识别对话选择服务器之间进行通信的数据通信单元,以及用于控制话音识别对话服务器的操作的控制器。
在这种情况下,话音识别对话装置可以包括:连接到网络并且保留从客户机请求的服务内容的服务内容保留服务器,和设置在话音识别对话服务器中的、并读入服务内容保留服务器中保留的服务内容的读单元。另外,话音识别对话装置还可以包括设置在话音识别对话服务器中的、用于向话音识别对话选择服务器输出将话音识别对话处理转移给另一个话音识别对话服务器的请求的过程转移装置。客户机输出的话音信息最好是由数字化话音数据,压缩话音数据或特征向量数据形成的。
另外,用于确定客户机性能的数据最好包括:CODEC性能,话音数据格式,和录制/合成话音I/O函数的数据。另外用于确定话音识别对话服务器性能的数据最好包括:CODEC性能,话音数据格式,录制/合成话音输出函数,服务内容,识别能力和操作信息的数据。
本发明的话音识别对话选择方法用于通过网络在发送装置和多个对话装置之间进行数据通信,以及用于执行将从发送装置输出的话音信息数据发送到指定对话装置的处理,它包括:从发送装置接收话音信息数据的第一步骤;向发送装置请求发送装置的性能数据的第二步骤;从发送装置发送该发送装置的性能数据的第三步骤;比较来自发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果确定指定对话装置的第四步骤;通知发送装置指定所确定的对话装置的信息的第五步骤;和在发送装置和确定的对话装置之间执行话音识别对话处理的第六步骤。在这种情况下,话音识别对话选择方法还可以包括:在发送装置和对话装置之间的话音识别对话处理期间,发送从对话装置向另一个对话装置转移发送装置的副本的请求的第七步骤;向发送装置请求发送装置的性能数据的第八步骤;响应第八步骤中的请求,从该发送装置发送该发送装置的性能数据的第九步骤;比较发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果确定新的对话装置的第十步骤;通知发送装置用于指定第十步骤中确定的对话装置所需的信息的第十一步骤;和在第十步骤中确定的对话装置和发送装置之间执行话音识别对话处理的第十二步骤。
另外,可以构成本发明的话音识别对话选择方法,通过网络在发送装置,多个对话装置和服务保留装置之间执行数据通信,执行将从发送装置输出的话音信息数据发送到指定的对话装置的过程,该方法可以包括:接收包括从发送装置输出的话音识别对话处理的内容服务的请求的第一步骤;向发送装置请求该发送装置的性能数据的第二步骤;从发送装置发送该发送装置的性能数据的第三步骤;比较发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果在多个对话装置中确定指定的对话装置的第四步骤;通知发送装置指定在第四步骤中确定的对话装置所需的信息的第五步骤;执行发送装置和在第四步骤中确定的对话装置之间的话音识别对话处理的第六步骤;从第四步骤中确定的对话装置向服务保留装置请求从发送装置请求的服务内容的第七步骤;向第四步骤中确定的对话装置发送在第七步骤中请求的服务内容的第八步骤;由第四步骤中确定的对话装置读入在第八步骤中发送的服务内容的第九步骤;和根据读入的服务内容执行发送装置和第四步骤中确定的对话装置之间的话音识别对话处理的第十步骤。
在这种情况下,话音识别对话选择装置还可以包括:在发送装置和对话装置之间的话音识别对话处理期间,发送从对话装置向另一个对话装置转移发送装置的副本的请求的第十一步骤;向发送装置请求该发送装置的性能数据的第十二步骤;从发送装置发送该发送装置的性能数据的第十三步骤;比较发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果确定出一个新的对话装置的第十四步骤;通知发送装置指定第十四步骤中确定的对话装置所需的信息的第十五步骤;和执行第十四步骤中确定的对话装置和发送装置之间的话音识别对话处理的第十六步骤。
作为话音信息,最好使用包括数字化话音数据,压缩话音数据、或特征向量数据的话音信息。另外,用于确定发送装置的性能的数据最好包括:CODEC性能,话音数据格式,录制/合成话音I/O函数和服务内容的数据。用于确定对话装置性能的数据最好包括:CODEC性能,话音数据格式,录制/合成话音输出函数,服务内容,识别能力和操作信息的数据。
本发明的话音识别对话选择装置可以配置成通过网络执行发送装置和多个对话装置之间的数据通信,并且包括用于选择指定对话装置和向指定的对话装置发送从发送装置输出的话音信息数据的选择装置,当选择时,选择装置根据发送装置的性能和多个对话装置的性能指定对话装置。
另外,本发明的话音识别对话选择装置可以配置成通过网络执行发送装置和多个对话装置之间的数据通信,执行选择指定的对话装置并且向指定的对话装置发送从发送装置输出的话音信息数据的过程,它包括:用于接收来自发送装置的话音信息和表示对话装置要被改变的数据的第一装置;用于向发送装置请求该发送装置的性能数据的第二装置;响应来自第二装置的请求用于从发送装置发送性能数据的第三装置;用于比较发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果确定对话装置的第四装置;通知发送装置用于指定由第四装置确定的对话装置的信息的第五装置。
在这种情况下,话音信息最好包括数字话音数据,压缩话音数据,或特征向量数据。另外,用于确定发送装置性能的数据最好包括:CODEC性能,话音数据格式,录制/合成话音I/O函数和服务内容的数据。用于确定对话装置性能的数据也最好包括:CODEC性能,话音数据格式,录制/合成话音输出函数,服务内容,识别能力和操作信息的数据。
本发明可以通过在记录介质上记录话音识别对话选择程序来实现。也就是说,可以配置用于根据本发明的话音识别对话选择程序的记录介质,通过网络执行发送装置和多个对话装置之间的数据通信,执行向指定对话装置发送从发送装置输出的话音信息数据的过程,并且记录话音识别对话选择程序的步骤包括:从发送装置接收话音信息数据的第一步骤;向发送装置请求该发送装置的性能数据的第二步骤;从发送装置发送该发送装置性能数据第三步骤;比较发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果确定指定对话装置的第四步骤;通知发送装置指定已确定对话装置的信息的第五步骤;和执行发送装置和确定的对话装置之间的话音识别对话处理的第六步骤。
在这种情况下,记录介质可以记录的话音识别对话选择程序还包括:在发送装置和对话装置之间的话音识别对话处理期间,发送用于从对话装置向另一个对话装置转移发送装置的副本的请求的第七步骤;向发送装置请求发送装置的性能数据的第八步骤;响应第八步骤中的请求从发送装置发送该发送装置的性能数据的第九步骤;比较发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果确定新的对话装置的第十步骤;通知发送装置指定第十步骤中确定的对话装置所需的信息的第十一步骤;和执行第十步骤中确定的对话装置和发送装置之间的话音识别对话处理的第十二步骤。
对于记录介质中记录的话音识别对话选择程序,最好使用用于通过网络执行发送装置,多个对话装置和服务保留装置之间的数据通信,和执行向指定对话装置发送从发送装置输出的话音信息数据的过程的话音识别对话选择程序,该程序包括:接收包括从发送装置输出的话音识别对话处理的服务内容的请求的第一步骤;向发送装置请求该发送装置的性能数据的第二步骤;从发送装置发送该发送装置的性能数据的第三步骤;比较发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果确定指定对话装置的第四步骤;通知发送装置指定第四步骤中确定的对话装置所需的信息的第五步骤;执行发送装置和第四步骤中确定的对话装置之间的话音识别对话过程的第六步骤;从第四步骤中确定的对话装置向服务保留装置请求从发送装置请求的服务内容的第七步骤;向在第四步骤中确定的对话装置发送在第七步骤中请求的服务内容的第八步骤;由第四步骤中确定的对话装置读入在第八步骤发送的服务内容的第九步骤;和根据读入的服务内容执行发送装置和第四步骤中确定的对话装置之间的话音识别对话处理的第十步骤。
在这种情况下,话音识别对话选择程序最好还包括:在发送装置和对话装置之间的话音识别对话处理期间,发送请求从对话装置向另一个对话装置转移发送装置的副本的第十一步骤;向发送装置请求该发送装置的性能数据的第十二步骤;从发送装置发送该发送装置的性能数据的第十三步骤;比较发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果确定新的对话装置的第十四步骤;通知发送装置指定第十四步骤中确定的对话装置所需的信息的第十五步骤;和执行第十四步骤中确定的对话装置和发送装置之间的话音识别对话处理的第十六步骤。作为话音信息,最好使用包括数字化话音数据,压缩话音数据、或特征向量数据的话音信息。另外,用于确定发送装置性能的数据最好包括:CODEC性能,话音数据格式,录制/合成话音I/O函数和服务内容的数据。用于确定对话装置性能的数据最好包括:CODEC性能,话音数据格式,录制/合成话音输出函数,服务内容,识别能力和操作信息的数据。
根据本发明的话音识别对话系统是通过网络连接客户机和多个识别对话服务器组成的系统。即使在存在多个识别对话服务器的情况下,也可以在这些服务器中选择和确定最佳的识别对话服务器,从在最佳的识别对话服务器上执行话音识别对话。
一种用于确定最佳识别对话服务器的方法实例是,比较客户机和识别对话服务器的性能数据,从而在客户机10和识别对话服务器30的输出/输入一致的这些识别对话服务器中选择出性能最高且运转着的识别对话服务器的确定方法。
用于确定客户机性能的数据包括:CODEC性能(CODEC类型、CODEC压缩模式等),话音数据格式(压缩的话音数据,特征向量等),录制的话音I/O函数,合成的话音I/O函数(不具备合成引擎、具备中间表现输入引擎、具备字符串输入引擎等),服务内容等的数据。用于确定识别对话服务器性能的数据包括:CODEC性能(CODEC类型、CODEC扩展模式等),录制的话音输出函数,合成的话音输出函数(不具备合成引擎、具备中间表现输出引擎、具备波形输出引擎等),服务内容,识别引擎的性能(任务专用引擎、指令引擎、命令识别引擎等),操作信息的等数据。CODEC的类型可以是AMR-NB、AMR-WB等。合成话音的中间表现的实例是当字符串转换为语音符号串后的表现。服务内容包括象地址识别、姓名识别、呼入音调的称呼识别、电话号码识别、和信用卡号码识别之类的服务。
确定识别对话服务器的处理单元可以包含在web服务器,识别对话选择服务器,或识别对话服务器中,也可以包含在在web服务器,或识别对话选择服务器和识别对话服务器中。
根据本发明,可以利用最佳识别对话服务器执行话音识别对话。另外,由于识别对话服务器自身具有确定识别对话服务器的能力,因此终端可以在对话期间自动访问另一个合适的识别对话服务器。
根据本发明,还可以从识别对话服务器以外的其它服务器(例如,web服务器或内容提供商的服务器)接收服务内容,从而根据接收到的服务内容执行话音识别对话。服务内容的形式可以是,例如VoiceXML文档或服务名称。
附图说明
图1示出了根据本发明实施例的话音识别对话系统的结构图。
图2示出了根据本发明的客户机10的结构的方框图。
图3示出了根据本发明实施例的识别对话服务器30的结构的方框图。
图4示出了根据本发明的识别对话选择服务器20的结构的方框图。
图5示出了在根据本发明实施例的话音识别对话系统中,在识别对话选择服务器20中确定识别对话服务器的过程的流程图。
图6示出了在根据本发明实施例的话音识别对话方法中的话音识别对话过程的流程图。
图7示出了在根据本发明实施例的话音识别对话系统中,在识别对话服务器30执行识别对话处理期间,在识别对话选择服务器20确定新的识别对话服务器80时的过程流程图。
图8显示了根据本发明实施例识别对话表现服务器40的结构方框图。
图9示出了在根据本发明实施例的话音识别对话方法中在识别对话处理期间,在识别对话表现服务器40确定新的识别对话服务器80时的过程流程图。
图10示出了根据本发明实施例在图4所示的装置中增加话音识别对话开始单元和服务内容读单元后的识别对话服务器C50的示意图。图11示出了在根据本发明实施例的话音识别对话方法中,识别对话服务器C50从服务内容保留服务器60读入服务内容时的过程流程图。
图12示出了在计算机服务器901和记录程序的记录介质902上执行的根据本发明实施例的话音识别对话方法的程序简图。
具体实施方式
下面参考附图详细解释本发明的实施例。
本发明是利用网络提供话音识别对话服务的话音识别对话系统,该系统具有当存在多个识别对话服务器时,能够选择并确定最佳识别对话服务器的功能。
接下来,参考附图详细说明本发明的实施例。图1示出了根据本发明实施例的话音识别对话系统的结构图。客户机10通过网络1与识别对话选择服务器20,识别对话服务器30,识别对话表现服务器40,识别对话服务器C50,新的识别对话服务器80和服务内容保留服务器60连接。在此,客户机10作为发送话音信息的发送装置和请求服务内容的请求装置。
网络1的类型可以是互连网(Internet)(包括有线和无线)或内部网(Intranet)。
图2示出了本发明的客户机10的结构方框图。客户机10可以是移动终端,PDA,汽车用终端,个人计算机或家用终端。客户机10由用于控制客户机10的控制器120,用于保留客户机10性能的终端信息存储器140,和通过网络1执行通信的数据通信单元130组成。
对于判断客户机10性能的数据,使用CODEC性能(CODEC类型、CODEC压缩模式等),话音数据格式(压缩的话音数据、特征向量等),录制的话音I/O函数,合成的话音I/O函数(不具备合成引擎、具备中间表现输入引擎、具备字符串输入引擎等),服务内容的数据。
应该注意,可以向客户机10提供互联网浏览器作为用户界面。服务内容的数据包括如地址识别,姓名识别,呼入音调的标题识别,电话号码识别,和信用卡号码识别等的服务数据。
图3示出了根据本发明实施例的识别对话服务器30的结构方框图。识别对话服务器30由用于控制识别对话服务器30的控制器320,用于执行话音识别和对话的话音识别对话执行单元330,和用于通过网络1执行的数据通信单元310组成。
图4示出了根据本发明的识别对话选择服务器20的结构方框图。识别对话选择服务器20由通过网络1执行通信的数据通信单元210,当存在多个识别对话服务器时,用于选择并确定最佳识别对话服务器的识别对话服务器确定单元220,和用于存储被选择和确定的识别对话服务器的性能信息的识别对话服务器信息存储器230组成。在此,识别对话选择服务器20包括根据作为发送装置和请求装置的客户机10的性能和作为对话装置的识别服务器的性能,在多个对话服务器中选择指定对话装置的选择装置。
对于判断识别对话服务器性能的数据,使用CODEC性能(CODEC类型、CODEC扩展模式等),话音数据格式(压缩的话音数据、特征向量等)、录制的话音输出函数,合成的话音输出函数(不具备合成引擎、具备中间表现输入引擎、具备波形输出引擎等),服务内容,识别引擎性能(任务专用引擎、指令引擎、命令识别引擎等),操作信息的数据。
新的识别对话服务器80与识别对话服务器30,识别对话表现服务器40,或识别对话服务器C50中的任何一个相同。
识别对话选择服务器20,识别对话服务器30,识别对话表现服务器40,识别对话服务器C50和新的识别对话服务器80可以是基于WindowsNT(注册商标)或Windows 2000(注册商标)操作系统的计算机,或是基于Solaris(注册商标)操作系统的服务器。后面将说明识别对话表现服务器40和识别对话服务器C50的结构。识别对话选择服务器20,识别对话服务器30,识别对话表现服务器40,识别对话服务器C50和新的识别对话服务器80等作为上述对话装置工作。
接下来将说明根据本发明实施例的话音识别对话系统的操作。
首先,说明识别对话选择服务器20执行用于确定执行话音识别和对话的识别对话服务器30的过程,和在确定的识别对话服务器30中执行话音识别对话处理的情况。图5示出了在根据本发明实施例的话音识别对话系统中,在识别对话选择服务器20中确定识别对话服务器30的过程的流程图。
首先,客户机10向识别对话选择服务器20请求包括话音识别对话处理的服务(步骤501)。更具体地说,利用象HTTP这样的命令从客户机10中的数据通信单元130向识别对话选择服务器20发送执行服务的程序的CGI URL和处理所需的自变量(argument)。
接下来,当从客户机10接收到服务要求后,识别对话选择服务器20请求客户机10的性能信息(步骤502)。
接下来,当从识别对话选择服务器20接收到对性能信息的请求后,客户机10通过控制器120从数据通信单元130向识别对话选择服务器20发送终端信息存储器140中存储的客户机10的性能信息(步骤503)。客户机10的性能包括CODEC性能(CODEC类型、CODEC 压缩模式等),话音数据格式(压缩的话音数据、特征向量等),录制的话音I/O函数,合成的话音I/O函数(不具备合成引擎、具备中间表现输入引擎、具备字符串输入引擎等),服务内容等。
识别对话选择服务器20接收从客户机10发送的客户机10的性能信息,并且读出识别对话服务器信息存储器230中已经存储的多个识别对话服务器的性能信息。然后,识别对话选择服务器20在识别对话服务器确定单元220比较客户机10的性能信息和多个识别对话服务器的性能信息(步骤504),从而通过额外考虑从客户机10请求的服务内容的信息来确定最佳的识别对话服务器(步骤505)。
对于识别对话服务器的性能,包括CODEC性能(CODEC类型、CODEC扩展模式等),话音数据格式(压缩的话音数据、特征向量等),录制的话音输出函数,合成的话音输出函数(不具备合成引擎、具备中间表现输出引擎、具备波形输出引擎等),服务内容,识别引擎的性能(任务专用引擎、指令引擎、命令识别引擎等),操作信息等。
一个确定最佳识别对话服务器30的方法的实例是比较客户机10的性能和识别对话服务器的性能,从而在客户机10和识别对话服务器30的输出/输入一致的多个识别对话服务器中选择呈现最高性能且运转着的识别对话服务器。另外,在每个服务内容都出现一个识别对话服务器30,例如,存在如地址任务服务器、姓名任务服务器、电话号码任务服务器和卡ID任务服务器的专用服务器的情况下,那么能够执行从客户机10请求的服务内容的识别对话服务器的选择方法可以是另一种确定方法的实例。
接下来,识别对话选择服务器20通知客户机10在识别对话服务器确定单元220确定的识别对话服务器的信息(步骤506)。作为通知方法的实例,一种方法是通过将其嵌入到HTML屏幕等来通知识别对话服务器30的地址或在识别对话服务器30上执行识别对话的执行程序的地址。
接下来,客户机10从识别对话选择服务器20接收识别对话服务器30的信息,然后向识别对话服务器30请求初始化话音识别对话,通知其信息(步骤507)。作为用于初始化话音识别对话的请求方法的实例,一种方法是通过HTTP的POST命令发送用于执行识别对话的执行程序的URL地址和执行话音识别对话所需的自变量。自变量的例子包括描述服务内容的文档(VoiceXML等),服务名称,执行话音识别对话的命令。
接下来,当从客户机10接收到启动话音识别对话的请求时,识别对话服务器30执行话音识别对话(步骤508)。在图5中,连接步骤508和步骤509的虚线显示了终端和识别对话服务器之间的数据交换了数次。后面将参考图6详细说明话音识别对话处理过程。
当要终止话音识别对话时,客户机10请求终止识别对话(步骤509)。请求识别对话终止的例子包括利用HTTP的POST命令发送用于终止识别对话的执行程序地址的方法,和利用HTTP的POST命令发送用于执行识别对话的执行程序的地址和用于终止识别对话的命令的方法。识别对话服务器从客户机10接收终止话音识别对话的请求并且终止识别对话(步骤710)。
接下来,说明话音识别对话处理的过程。图6示出了在根据本发明实施例的话音识别对话方法中话音识别对话的处理流程图。
首先,把输入到客户机10中的数据输入单元110的话音发送到控制器120,然后控制器120执行数据处理。数据处理的例子包括数字化,话音检测,和话音分析。
接下来,处理后的话音数据从数据通信单元210发送到识别对话服务器(步骤601)。话音数据的例子包括数字化的话音数据,压缩的话音数据和特征向量。
在识别对话服务器30中,数据通信单元310接收从客户机10连续发送的话音数据(步骤602),然后控制器320确定该话音数据作为话音数据,并且将它发送到话音识别对话执行单元330。具有话音识别对话所需的识别引擎、识别字典、合成引擎、合成字典的话音识别对话执行单元330继续执行话音识别对话处理(步骤603)。
话音识别对话的处理内容会根据客户机10发送的话音数据的类型而改变。例如,如果发送的话音数据是压缩的话音数据,那么执行压缩数据的扩展、话音分析和识别处理。在发送的是特征向量的情况下,那么只执行话音识别处理。当识别处理完成后,输出的识别结果发送到客户机10(步骤604)。识别结果的格式可以是文本,符合文本的合成/录制话音,反映识别内容的URL屏幕等。客户机10根据识别结果的格式处理从识别对话服务器30接收到的识别结果(步骤605)。例如,当识别结果的格式是合成或录制话音时输出话音,而当识别结果的格式是URL屏幕时显示屏幕。
这样,步骤601到步骤605的过程重复若干次,从而进行话音对话。
第二,给出在根据本发明实施例的话音识别对话系统中,用另一个新的识别对话服务器80代替执行话音识别对话处理的识别对话服务器30的情况的说明。
图7示出了根据本发明实施例的话音识别对话系统中,在识别对话服务器30执行识别对话处理期间,在识别对话选择服务器20确定新的识别对话服务器80的情况下的过程流程图。
在图7中,当客户机10和识别对话服务器30之间的数据经过几次交换后需要在新的识别对话服务器80执行处理时,识别对话服务器30向识别对话选择服务器20请求向新的识别对话服务器80的转移处理(步骤703)。在图7中,连接步骤702和步骤703的虚线显示了终端和识别对话服务器之间的数据被交换若干次。
当对话期间改变服务内容,服务内容和服务器性能之间产生不一致,识别对话服务器发生故障时会出现转移服务器的请求。
接下来,识别对话选择服务器20向客户机10请求客户机10的性能信息(步骤704)。
当从识别对话选择服务器20接收到性能信息的请求后,客户机10通过控制器120将客户机10的信息存储器140中存储的客户机10的性能信息从数据通信单元130发送到识别对话服务器(步骤705)。
识别对话选择服务器20接收从客户机10发送的客户机10的性能信息,读出识别对话服务器信息存储器230中存储的多个识别对话服务器的性能信息,在识别对话服务器确定单元220中比较客户机10的性能信息和多个识别对话服务器的性能信息(步骤706),从而通过额外考虑引起识别对话服务器转移请求的服务内容的信息来确定最佳的识别对话服务器(步骤707)。确定客户机10的性能信息、识别对话服务器的性能信息、和识别对话服务器的方法同上。
接下来,识别对话选择服务器20通知客户机10在识别对话服务器确定单元220确定的新的识别对话服务器80的信息(步骤708)。通知方法的一个实例是通过将其嵌入到HTML屏幕来通知新的识别对话服务器80的地址和在新的识别对话服务器80上执行识别对话的执行程序的地址。
接下来,客户机10接收新的识别对话服务器80的地址信息,并且请求通知的新识别对话服务器80启动话音识别对话(步骤709)。一个请求启动话音识别对话方法的实例是利用HTTP的POST命令发送执行识别对话的执行程序的URL地址和执行话音识别对话所需的参数。
第三,在根据本发明实施例的话音识别对话系统中,上述识别对话选择服务器20和识别对话服务器30可以设置在同一台服务器中,从而形成能够执行话音识别对话和选择合适的话音识别对话服务器的识别对话表现服务器40。
图8示出了根据本发明实施例的识别对话表现服务器40的结构方框图。
如图8所示,在图3中示出的识别对话服务器30上增加识别对话服务器确定单元440和识别对话服务器信息存储器450来形成识别对话表现服务器40。其它部件,即,数据通信单元410,控制器420和话音识别对话执行单元430与图3中的对应部件相同。
控制器420,执行话音识别和对话的话音识别对话执行单元430,和通过网络1执行通信的数据通信单元410分别与控制器320,执行话音识别和对话的话音识别对话执行单元330,和通过网络1执行通信的数据通信单元310相同。
当存在多个识别对话服务器时,识别对话服务器确定单元440选择和确定最佳的识别对话服务器。识别对话服务器信息存储器450存储选择和确定的识别对话服务器的性能信息。识别对话服务器的性能的实例与第一种情况中的相同,包括CODEC性能(CODEC类型、CODEC压缩模式等),话音数据格式(压缩的话音数据、特征向量等),录制的话音输出函数,合成的话音输出函数(不具备合成引擎、具备中间表现输出引擎、具备波形输出引擎等),服务内容,识别引擎的性能(任务专用引擎、指令引擎、命令识别引擎等),操作信息的等。
在这种情况下,识别对话表现服务器40由它自己执行图5中所示的处理过程。
接下来,给出在用另一个执行话音识别对话处理的新的识别对话服务器80代替执行话音识别对话处理的识别对话表现服务器40的情况下的说明。
图9示出了根据本发明实施例的话音识别对话方法中,在识别对话处理期间,在识别对话表现服务器40确定新的识别对话服务器80的处理流程图。
参见图9,当终端和识别对话服务器之间的数据交换数次后需要在新的识别对话服务器80中执行处理时,识别对话表现服务器40向客户机10请求客户机10的性能信息(步骤903)。在图9中,连接步骤902和步骤903的虚线显示终端和识别对话服务器之间的数据交换被执行数次。
当对话期间服务内容被改变,服务内容和服务器性能之间发生不一致,识别对话服务器发生故障等情况时可能会请求客户机10的性能信息。
接下来,当从识别对话表现服务器40接收到性能信息请求后,客户机10通过控制器120将终端信息存储器140中存储的客户机10的性能信息从数据通信单元130发送到识别对话表现服务器40(步骤904)。
识别对话表现服务器40接收客户机10发送的客户机10的性能信息,读出识别对话服务器信息存储器450中存储的多个识别对话服务器的性能信息,在识别对话服务器确定单元440比较客户机10的性能信息和多个识别对话服务器的性能信息(步骤905),从而通过额外考虑从客户机10请求的服务内容的信息来确定最佳的识别对话服务器(步骤906)。客户机10的性能信息,识别对话服务器的性能信息,和确定识别对话服务器的方法与上述的相同。
接下来,识别对话表现服务器40向客户机10通知在识别对话服务器确定单元440中确定的新的识别对话服务器80的信息(步骤907)。通知方法的一个实例是通过将其嵌入HTML屏幕来通知新的识别对话服务器80的地址或在新的识别对话服务器80执行识别对话的执行程序的地址。
接下来,客户机10接收新的识别对话服务器80的地址信息并且请求通知的新的识别对话服务器80启动话音识别对话(步骤908)。一种请求启动话音识别对话的方法的实例是利用HTTP的POST命令发送执行识别对话的执行程序的URL地址和执行话音识别对话所需的参数。
第四,在根据本发明实施例的话音识别对话系统中,给出在识别对话服务器C50从诸如内容提供商这样的服务内容保留服务器60读入服务内容情况下的说明。在这种情况下,服务内容保留服务器60可以设置在识别对话选择服务器20中,从而形成利用web作为向用户提供服务界面的web服务器。另外,在这种情况下,可以向客户机10提供web浏览器作为选择或输入服务内容的界面。
图10示出了根据本发明实施例的识别对话服务器C(识别对话服务器装置)50的示意图。配置图10中所示的识别对话服务器装置50在图8所示的识别对话表现服务器40上增加话音识别对话启动单元530和服务内容读单元540。诸如数据通信单元510,控制器520,话音识别对话执行单元530,识别对话服务器确定单元560和识别对话服务器信息存储器570之类的其它部件与图8中对应的部件相同。
话音识别对话启动单元530根据客户机10发送的服务信息启动话音识别对话处理,并且向用于保留服务内容的服务器请求服务内容。服务内容包括地址识别、姓名识别、呼入音调的标题识别、电话号码识别、和信用卡号码识别。
服务内容读单元540从服务内容保留服务器60读入服务内容。话音识别对话执行单元550,控制器520,和数据通信单元510分别与话音识别对话执行单元430,控制器420,和数据通信单元410相同。可以不提供识别对话服务器信息存储器570和识别对话服务器确定单元560。在这种情况下,由识别对话选择服务器20执行对一个识别对话服务器的确定。如果提供识别对话服务器信息存储器570和识别对话服务器确定单元560,它们分别与识别对话服务器信息存储器450和识别对话服务器确定单元440相同。
图11示出了在根据本发明实施例的话音识别对话方法中,识别对话服务器C50从服务内容保留服务器60读入服务内容的过程的流程图。
图11中步骤1101到步骤1105的处理与上面说明的步骤501到步骤506的处理相同。
接下来,根据从识别对话选择服务器20通知的识别对话服务器C50的信息,客户机10请求识别对话服务器C50启动话音识别对话(步骤1106)。在请求期间发送服务信息。
一种请求启动话音识别对话的方法的实例是利用HTTP的POST命令发送用于执行识别对话的执行程序的URL地址和服务内容信息。服务内容信息包括描述服务内容的文档(VoiceXML等)和服务名称。
接下来,识别对话服务器C50在数据通信单元510从客户机10接收请求,在话音识别对话启动单元530启动话音识别对话处理,并且根据客户机10发送的服务信息向服务内容保留服务器60请求服务内容(步骤1107)。
一种请求服务内容的方法的实例是,在从客户机10发送的服务内容信息是地址的情况下,则访问该地址。在从客户机10发送的服务内容信息是服务名称的情况下,则有另一种获取对应服务名称的地址和访问该地址的方法作为实例。
接下来,服务内容保留服务器60接收来自识别对话服务器C50的请求,并且发送服务内容(步骤1108)。识别对话服务器C50在数据通信单元510接收发送的服务内容,在服务内容读单元540读入服务内容(步骤1109),然后启动话音识别对话处理(步骤1110)。
步骤1110到步骤1112的过程与图11中的步骤507到步骤510的过程相同,连接步骤1110和步骤1111的虚线显示终端和识别对话服务器之间的数据交换被执行数次。
在上述系统中,说明了识别对话选择服务器20和识别对话服务器C50连接到双向网络的例子。但是,也可以接受其中的一个连接到网络的配置。
上述说明的每一步可以通过在服务器计算机901上操作的程序来实现。图12示出了在服务器计算机901上执行根据本发明实施例的话音识别对话方法的程序,以及记录程序的介质902的示意图。
工业实用性
根据如上所述的本发明,即使在存在多个识别对话服务器的情况下,也可以从多个服务器中选择和确定最佳识别对话服务器从而执行话音识别对话。
另外,即使由于多种原因使得在对话期间需要在新的识别对话服务器上执行处理,客户机也可以自动访问另一个适当的识别对话服务器,使得识别对话处理可以继续。
Claims (36)
1.一种话音识别对话装置,包括:
用于执行话音识别对话的多个对话装置;
用于向对话装置发送话音信息的发送装置;
连接发送装置和对话装置的网络;和
根据发送装置的性能和多个对话装置的性能在多个对话装置中选出一个对话装置的选择装置。
2.一种话音识别对话装置,包括:
用于执行话音识别对话的多个对话装置;
用于向对话装置请求服务的请求装置;
用于向对话装置发送话音信息的发送装置;
连接发送装置,请求装置和对话装置的网络;和
根据发送装置的服务和性能以及多个对话装置的性能在多个对话装置中选出一个对话装置的选择装置。
3.一种话音识别对话装置,包括:
用于执行话音识别对话的多个对话装置;
用于保留向对话装置请求的服务内容的服务保留装置;
用于向对话装置发送话音信息的发送装置;
连接服务保留装置,发送装置和对话装置的网络;和
根据发送装置的服务和性能以及多个对话装置的性能在多个对话装置中选出一个对话装置的选择装置。
4.根据权利要求1或3所述的话音识别对话装置,其中选择装置具备向发送装置发送用于指定所选对话装置的信息,以及交换在所选对话装置和发送装置之间执行话音识别对话所需的信息的功能。
5.根据权利要求2所述的话音识别对话装置,其中选择装置具有向发送装置发送用于指定所选对话装置的信息,并且在所选对话装置,请求装置和发送装置之间交换服务内容和话音信息的功能。
6.根据权利要求4或5所述的话音识别对话装置,其中选择装置具有将一个所选对话装置改变为另一个所选对话装置的功能。
7.根据权利要求1、2、3或6中的任何一项所述的话音识别对话装置,其中选择装置具有比较发送装置的性能和多个对话装置的性能,并且根据比较结果确定具有输入到对话装置的话音信息的输入格式和输出到发送装置的话音信息的输出格式一致的这种所需性能的对话装置的功能。
8.根据权利要求2、5或6中的任何一项所述的话音识别对话装置,其中选择装置具有比较发送装置的服务和性能与多个对话装置的性能,并且根据比较结果确定具有输入到对话装置的话音信息的输入格式和输出到发送装置的话音信息的输出格式一致的这种所需性能的对话装置的功能。
9.根据权利要求1所述的话音识别对话装置,其中从发送装置输出的话音信息可以由数字化话音数据,压缩话音数据或特征向量数据形成。
10.根据权利要求1所述的话音识别对话装置,其中用于确定发送装置性能的数据包括CODEC性能,话音数据格式,和录制/合成话音I/O函数的数据。
11.根据权利要求1所述的话音识别对话装置,其中用于确定对话装置性能的数据包括CODEC性能,话音数据格式,录制/合成话音输出函数,服务内容,识别性能和操作信息的数据。
12.一种话音识别对话装置,包括:
用于执行话音识别对话的多个话音识别对话服务器;
用于发送向话音识别对话服务器请求的内容服务和话音信息的客户机;
用于在多个对话装置中选择一个对话装置的话音识别对话选择服务器;和
连接客户机,话音识别对话服务器和话音识别对话选择服务器的网络;其中
客户机包括:用于输入话音信息和服务内容的数据的数据输入单元,用于存储客户机的性能数据的终端信息存储器,用于通过网络执行话音识别对话服务器和话音识别选择服务器之间的通信,并且向所选话音识别对话服务器发送话音信息的数据通信单元,以及用于控制客户机操作的控制器,
话音识别对话选择服务器包括:用于通过网络执行客户机和话音识别对话服务器之间的通信的数据通信单元,用于存储每个话音识别对话服务器的性能的识别对话服务器信息存储器,以及用于读出终端信息存储器中存储的客户机的性能数据,比较该性能数据与识别对话服务器信息存储器中存储的话音识别对话服务器的性能数据,在多个话音识别对话服务器中确定至少一个话音识别对话服务器,然后向客户机发送用于指定所确定的话音识别对话服务器所需的信息的识别对话服务器确定单元,
话音识别对话服务器包括:用于根据客户机输入的话音信息执行话音识别对话的话音识别对话执行单元,用于通过网络执行客户机和话音识别对话选择服务器之间的通信的数据通信单元,以及用于控制话音识别对话服务器的操作的控制器。
13.根据权利要求12所述的话音识别对话装置,还包括:连接到网络上并且保留从客户机请求的服务内容的服务内容保留服务器,和设置在话音识别对话服务器中并读入服务内容保留服务器中保留的服务内容的读单元。
14.根据权利要求12或13所述的话音识别对话装置,还包括:设置在话音识别对话服务器中的,用于向话音识别对话选择服务器输出将话音识别对话处理转移给另一个话音识别对话服务器的请求的过程转移装置。
15.根据权利要求12所述的话音识别对话装置,其中从客户机输出的话音信息可以由数字话音数据,压缩话音数据或特征向量数据形成。
16.根据权利要求12所述的话音识别对话装置,其中用于确定客户机的性能的数据包括:CODEC性能,话音数据格式和录制/合成话音I/O函数的数据。
17.根据权利要求12所述的话音识别对话装置,其中另外用于确定话音识别对话服务器的性能的数据包括CODEC性能,话音数据格式,录制/合成话音输出函数,服务内容,识别能力和操作信息的数据。
18.一种话音识别对话选择方法,用于通过网络执行发送装置和多个对话装置之间的数据通信,以及用于执行把从发送装置输出的话音信息数据发送到指定对话装置的过程,包括:
从发送装置接收话音信息数据的第一步骤;
向发送装置请求该发送装置的性能数据的第二步骤;
从发送装置发送该发送装置的性能数据的第三步骤;
比较发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果确定指定对话装置的第四步骤;
通知发送装置用于指定所确定的对话装置的信息的第五步骤;和
执行发送装置和确定的对话装置之间的话音识别对话处理的第六步骤。
19.根据权利要求18所述的话音识别对话选择方法,还包括:
在发送装置和对话装置之间的话音识别对话处理期间,发送用于从该对话装置向另一个对话装置转移发送装置的副本的请求的第七步骤;
向发送装置请求该发送装置的性能数据的第八步骤;
响应第八步骤中的请求从发送装置发送该发送装置的性能数据的第九步骤;
比较发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果确定新的对话装置的第十步骤;
通知发送装置用于指定第十步骤中确定的对话装置所需的信息的第十一步骤;和
在第十步骤中确定的对话装置和发送装置之间执行话音识别对话处理的第十二步骤。
20.一种话音识别对话选择方法,通过网络在发送装置,多个对话装置和服务保留装置之间执行数据通信,和执行把从发送装置输出的话音信息数据发送到指定的对话装置的过程,该方法包括:
接收包括从发送装置输出的话音识别对话处理的服务内容的请求的第一步骤;
向发送装置请求该发送装置的性能数据的第二步骤;
从发送装置发送该发送装置的性能数据的第三步骤;
比较发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果在多个对话装置中确定指定的对话装置的第四步骤;
通知发送装置用于指定在第四步骤中确定的对话装置的所需的信息的第五步骤;
在发送装置和第四步骤中确定的对话装置之间执行话音识别对话处理的第六步骤;
从第四步骤中确定的对话装置向服务保留装置请求由发送装置请求的服务内容的第七步骤;
向第四步骤中确定的对话装置发送在第七步骤中请求的服务内容的第八步骤;
由第四步骤中确定的对话装置读入在第八步骤中发送的服务内容的第九步骤;和
根据读入的服务内容在发送装置和第四步骤中确定的对话装置之间执行话音识别对话处理的第十步骤。
21.根据权利要求20所述的话音识别对话选择方法,还包括:
在发送装置和对话装置之间的话音识别对话处理期间,发送从该对话装置向另一个对话装置转移发送装置的副本的请求的第十一步骤;
向发送装置请求该发送装置的性能数据的第十二步骤;
从发送装置发送该发送装置的性能数据的第十三步骤;
比较发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果确定新的对话装置的第十四步骤;
通知发送装置用于指定第十四步骤中确定的对话装置所需的信息的第十五步骤;和
在第十四步骤中确定的对话装置和发送装置之间执行话音识别对话处理的第十六步骤。
22.根据权利要求18所述的话音识别对话选择方法,其中作为话音信息,使用包括数字化话音数据,压缩话音数据、或特征向量数据的话音信息。
23.根据权利要求18所述的话音识别对话选择方法,其中用于确定发送装置性能的数据包括CODEC性能,话音数据格式,录制/合成话音I/O函数和服务内容的数据。
24.根据权利要求18所述的话音识别对话选择方法,其中用于确定对话装置的性能的数据包括CODEC性能,话音数据格式,录制/合成话音输出函数,服务内容,识别能力和操作信息的数据。
25.一种通过网络执行发送装置和多个对话装置之间的数据通信的话音识别对话选择装置,所述装置包括,用于选择指定的对话装置和向指定的对话装置发送从发送装置输出的话音信息数据的选择装置,其中
当选择时,选择装置根据发送装置的性能和多个对话装置的性能来指定对话装置。
26.一种话音识别对话选择装置,用于通过网络执行发送装置和多个对话装置之间的数据通信,和执行选择指定的对话装置并且向指定的对话装置发送从发送装置输出的话音信息数据的过程,该装置包括:
用于接收来自发送装置的话音信息和表示对话装置要改变的数据的第一装置;
用于向发送装置请求该发送装置的性能数据的第二装置;
响应第二装置的请求用于从发送装置发送性能数据的第三装置;
用于比较发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果确定对话装置的第四装置;和
通知发送装置用于指定在第四装置中确定的对话装置的信息的第五装置。
27.根据权利要求26所述的话音识别对话选择装置,其中话音信息包括数字化话音数据,压缩话音数据,或特征向量数据。
28.根据权利要求26所述的话音识别对话选择装置,其中用于确定发送装置的性能的数据包括CODEC性能,话音数据格式,录制/合成话音I/O函数和服务内容的数据。
29.根据权利要求26所述的话音识别对话选择装置,其中用于确定对话装置性能的数据包括CODEC性能,话音数据格式,录制/合成话音输出函数,服务内容,识别能力和操作信息的数据。
30.一种话音识别对话选择程序的记录介质,记录有通过网络执行发送装置和多个对话装置之间的数据通信,执行向指定的对话装置发送从该发送装置输出的话音信息数据的过程的话音识别对话选择程序,所述程序包括:
从发送装置接收话音信息数据的第一步骤;
向发送装置请求该发送装置的性能数据的第二步骤;
从发送装置发送该发送装置的性能数据的第三步骤;
比较发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果确定指定的对话装置的第四步骤;
通知发送装置用于指定已确定对话装置的信息的第五步骤;和
执行发送装置和已确定对话装置之间的话音识别对话处理的第六步骤。
31.根据权利要求30所述的用于记录话音识别对话选择程序的记录介质,所述程序还包括:
在发送装置和对话装置之间的话音识别对话处理期间,发送用于从该对话装置向另一个对话装置转移该发送装置的副本的请求的第七步骤;
向发送装置请求该发送装置的性能数据的第八步骤;
响应第八步骤中的请求,从发送装置发送该发送装置的性能数据的第九步骤;
比较该发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果确定新的对话装置的第十步骤;
通知发送装置用于指定第十步骤中确定的对话装置所需的信息的第十一步骤;和
在第十步骤中确定的对话装置和发送装置之间执行话音识别对话处理的第十二步骤。
32.一种话音识别对话选择程序的记录介质,记录有通过网络执行发送装置,多个对话装置和服务保留装置之间的数据通信,和执行向指定的对话装置发送从该发送装置输出的话音信息数据的过程的话音识别对话选择程序,所述程序包括:
接收请求包括从发送装置输出的话音识别对话处理的服务内容的第一步骤;
向发送装置请求该发送装置的性能数据的第二步骤;
从发送装置发送该发送装置的性能数据的第三步骤;
比较发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果确定指定的对话装置的第四步骤;
通知发送装置用于指定第四步骤中确定的对话装置所需的信息的第五步骤;
执行发送装置和第四步骤中确定的对话装置之间的话音识别对话处理的第六步骤;
从第四步骤中确定的对话装置向服务保留装置请求该发送装置请求的服务内容的第七步骤;
向在第四步骤中确定的对话装置发送在第七步骤中请求的服务内容的第八步骤;
由第四步骤中确定的对话装置读入在第八步骤发送的服务内容的第九步骤;和
根据读入的服务内容执行发送装置和第四步骤中确定的对话装置之间的话音识别对话处理的第十步骤。
33.根据权利要求32所述的用于记录话音识别对话选择程序的记录介质,所述程序还包括:
在发送装置和对话装置之间的话音识别对话处理期间,发送请求从该对话装置向另一个对话装置转移发送装置的副本的第十一步骤;
向发送装置请求该发送装置的性能数据的第十二步骤;
从发送装置发送该发送装置的性能数据的第十三步骤;
比较发送装置的性能数据和多个对话装置的性能数据,并且根据比较结果确定新的对话装置的第十四步骤;
通知发送装置用于指定第十四步骤中确定的对话装置所需的信息的第十五步骤;和
执行第十四步骤中确定的对话装置和发送装置之间的话音识别对话处理的第十六步骤。
34.根据权利要求30所述的用于记录话音识别对话选择程序的记录介质,其中作为话音信息,使用包括数字化话音数据,压缩话音数据,或特征向量数据的话音信息。
35.根据权利要求30所述的用于记录话音识别对话选择程序的记录介质,其中用于确定发送装置性能的数据包括CODEC性能,话音数据格式,录制/合成话音I/O函数和服务内容的数据。
36.根据权利要求30所述的用于记录话音识别对话选择程序的记录介质,其中用于确定对话装置的性能的数据包括CODEC性能,话音数据格式,录制/合成话音输出函数,服务内容,识别能力和操作信息的数据。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002102274A JP2003295890A (ja) | 2002-04-04 | 2002-04-04 | 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム |
JP102274/2002 | 2002-04-04 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1514995A true CN1514995A (zh) | 2004-07-21 |
CN1282946C CN1282946C (zh) | 2006-11-01 |
Family
ID=28786256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB038003465A Expired - Fee Related CN1282946C (zh) | 2002-04-04 | 2003-03-12 | 话音识别对话选择装置和方法以及话音识别对话装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20040162731A1 (zh) |
EP (1) | EP1394771A4 (zh) |
JP (1) | JP2003295890A (zh) |
CN (1) | CN1282946C (zh) |
TW (1) | TWI244065B (zh) |
WO (1) | WO2003085640A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079885B (zh) * | 2007-06-26 | 2010-09-01 | 中兴通讯股份有限公司 | 一种提供自动语音识别统一开发平台的系统和方法 |
CN101341532B (zh) * | 2005-12-20 | 2013-03-06 | 国际商业机器公司 | 通过标记共享话音应用处理 |
CN109949817A (zh) * | 2019-02-19 | 2019-06-28 | 一汽-大众汽车有限公司 | 基于双操作系统双语音识别引擎的语音仲裁方法及装置 |
CN110741362A (zh) * | 2018-05-03 | 2020-01-31 | 谷歌有限责任公司 | 音频查询的重叠处理的协调 |
CN113450785A (zh) * | 2020-03-09 | 2021-09-28 | 上海擎感智能科技有限公司 | 车载语音处理的实现方法、系统、介质及云端服务器 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3885523B2 (ja) * | 2001-06-20 | 2007-02-21 | 日本電気株式会社 | サーバ・クライアント型音声認識装置及び方法 |
FR2853126A1 (fr) * | 2003-03-25 | 2004-10-01 | France Telecom | Procede de reconnaissance de parole distribuee |
US8311822B2 (en) * | 2004-11-02 | 2012-11-13 | Nuance Communications, Inc. | Method and system of enabling intelligent and lightweight speech to text transcription through distributed environment |
GB2427500A (en) * | 2005-06-22 | 2006-12-27 | Symbian Software Ltd | Mobile telephone text entry employing remote speech to text conversion |
CA2618626C (en) * | 2005-08-09 | 2016-10-18 | Stephen S. Burns | A voice controlled wireless communication device system |
WO2007050358A2 (en) * | 2005-10-21 | 2007-05-03 | Callminer, Inc. | Method and apparatus for processing heterogeneous units of work |
US20080153465A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Voice search-enabled mobile device |
US20080154612A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Local storage and use of search results for voice-enabled mobile communications devices |
US20080154608A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | On a mobile device tracking use of search results delivered to the mobile device |
US20080154870A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Collection and use of side information in voice-mediated mobile search |
DE102008033056A1 (de) | 2008-07-15 | 2010-01-21 | Volkswagen Ag | Kraftfahrzeug mit einem Mikrofon zur akustischen Eingabe eines Befehls zur Bedienung der Funktion des Kraftfahrzeuges |
US10387140B2 (en) | 2009-07-23 | 2019-08-20 | S3G Technology Llc | Modification of terminal and service provider machines using an update server machine |
CN102237087B (zh) * | 2010-04-27 | 2014-01-01 | 中兴通讯股份有限公司 | 语音控制方法和语音控制装置 |
US20120059655A1 (en) * | 2010-09-08 | 2012-03-08 | Nuance Communications, Inc. | Methods and apparatus for providing input to a speech-enabled application program |
WO2014020835A1 (ja) * | 2012-07-31 | 2014-02-06 | 日本電気株式会社 | エージェント制御システム、方法およびプログラム |
CN103024169A (zh) * | 2012-12-10 | 2013-04-03 | 深圳市永利讯科技股份有限公司 | 一种通讯终端应用程序的语音启动方法和装置 |
WO2015105994A1 (en) | 2014-01-08 | 2015-07-16 | Callminer, Inc. | Real-time conversational analytics facility |
CN103870547A (zh) * | 2014-02-26 | 2014-06-18 | 华为技术有限公司 | 联系人的分组处理方法及装置 |
JP2018037819A (ja) * | 2016-08-31 | 2018-03-08 | 京セラ株式会社 | 電子機器、制御方法及びプログラム |
EP4109375A1 (en) * | 2016-10-03 | 2022-12-28 | Google LLC | Multi computational agent performance of tasks |
US11663535B2 (en) | 2016-10-03 | 2023-05-30 | Google Llc | Multi computational agent performance of tasks |
CN106998359A (zh) * | 2017-03-24 | 2017-08-01 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音识别服务的网络接入方法以及装置 |
JP6843388B2 (ja) * | 2017-03-31 | 2021-03-17 | 株式会社アドバンスト・メディア | 情報処理システム、情報処理装置、情報処理方法及びプログラム |
JP6555838B1 (ja) * | 2018-12-19 | 2019-08-07 | Jeインターナショナル株式会社 | 音声問合せシステム、音声問合せ処理方法、スマートスピーカー運用サーバー装置、チャットボットポータルサーバー装置、およびプログラム。 |
CN110718219B (zh) * | 2019-09-12 | 2022-07-22 | 百度在线网络技术(北京)有限公司 | 一种语音处理方法、装置、设备和计算机存储介质 |
JP7377668B2 (ja) * | 2019-10-04 | 2023-11-10 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 制御装置、制御方法及びコンピュータプログラム |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5708697A (en) * | 1996-06-27 | 1998-01-13 | Mci Communications Corporation | Communication network call traffic manager |
US6292782B1 (en) * | 1996-09-09 | 2001-09-18 | Philips Electronics North America Corp. | Speech recognition and verification system enabling authorized data transmission over networked computer systems |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
WO1998050907A1 (en) * | 1997-05-06 | 1998-11-12 | Speechworks International, Inc. | System and method for developing interactive speech applications |
US7251315B1 (en) * | 1998-09-21 | 2007-07-31 | Microsoft Corporation | Speech processing for telephony API |
US7003463B1 (en) * | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
US6363349B1 (en) * | 1999-05-28 | 2002-03-26 | Motorola, Inc. | Method and apparatus for performing distributed speech processing in a communication system |
US6792086B1 (en) * | 1999-08-24 | 2004-09-14 | Microstrategy, Inc. | Voice network access provider system and method |
US6937977B2 (en) * | 1999-10-05 | 2005-08-30 | Fastmobile, Inc. | Method and apparatus for processing an input speech signal during presentation of an output audio signal |
US6633846B1 (en) * | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
JP2001142488A (ja) * | 1999-11-17 | 2001-05-25 | Oki Electric Ind Co Ltd | 音声認識通信システム |
US6396898B1 (en) * | 1999-12-24 | 2002-05-28 | Kabushiki Kaisha Toshiba | Radiation detector and x-ray CT apparatus |
JP2001222292A (ja) * | 2000-02-08 | 2001-08-17 | Atr Interpreting Telecommunications Res Lab | 音声処理システムおよび音声処理プログラムを記憶したコンピュータ読み取り可能な記録媒体 |
US6505161B1 (en) * | 2000-05-01 | 2003-01-07 | Sprint Communications Company L.P. | Speech recognition that adjusts automatically to input devices |
JP3728177B2 (ja) * | 2000-05-24 | 2005-12-21 | キヤノン株式会社 | 音声処理システム、装置、方法及び記憶媒体 |
US6934756B2 (en) * | 2000-11-01 | 2005-08-23 | International Business Machines Corporation | Conversational networking via transport, coding and control conversational protocols |
CN1266625C (zh) * | 2001-05-04 | 2006-07-26 | 微软公司 | 用于web启用的识别的服务器 |
GB2376394B (en) * | 2001-06-04 | 2005-10-26 | Hewlett Packard Co | Speech synthesis apparatus and selection method |
US6996525B2 (en) * | 2001-06-15 | 2006-02-07 | Intel Corporation | Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience |
US20030078777A1 (en) * | 2001-08-22 | 2003-04-24 | Shyue-Chin Shiau | Speech recognition system for mobile Internet/Intranet communication |
US7146321B2 (en) * | 2001-10-31 | 2006-12-05 | Dictaphone Corporation | Distributed speech recognition system |
US6785654B2 (en) * | 2001-11-30 | 2004-08-31 | Dictaphone Corporation | Distributed speech recognition system with speech recognition engines offering multiple functionalities |
US6898567B2 (en) * | 2001-12-29 | 2005-05-24 | Motorola, Inc. | Method and apparatus for multi-level distributed speech recognition |
GB2389217A (en) * | 2002-05-27 | 2003-12-03 | Canon Kk | Speech recognition system |
US6834265B2 (en) * | 2002-12-13 | 2004-12-21 | Motorola, Inc. | Method and apparatus for selective speech recognition |
US7076428B2 (en) * | 2002-12-30 | 2006-07-11 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
US20050177371A1 (en) * | 2004-02-06 | 2005-08-11 | Sherif Yacoub | Automated speech recognition |
-
2002
- 2002-04-04 JP JP2002102274A patent/JP2003295890A/ja active Pending
-
2003
- 2003-03-12 WO PCT/JP2003/002952 patent/WO2003085640A1/ja active Application Filing
- 2003-03-12 EP EP03708563A patent/EP1394771A4/en not_active Withdrawn
- 2003-03-12 US US10/476,638 patent/US20040162731A1/en not_active Abandoned
- 2003-03-12 CN CNB038003465A patent/CN1282946C/zh not_active Expired - Fee Related
- 2003-04-03 TW TW092107581A patent/TWI244065B/zh not_active IP Right Cessation
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101341532B (zh) * | 2005-12-20 | 2013-03-06 | 国际商业机器公司 | 通过标记共享话音应用处理 |
CN101079885B (zh) * | 2007-06-26 | 2010-09-01 | 中兴通讯股份有限公司 | 一种提供自动语音识别统一开发平台的系统和方法 |
CN110741362A (zh) * | 2018-05-03 | 2020-01-31 | 谷歌有限责任公司 | 音频查询的重叠处理的协调 |
CN110741362B (zh) * | 2018-05-03 | 2024-05-14 | 谷歌有限责任公司 | 音频查询的重叠处理的协调 |
US11989229B2 (en) | 2018-05-03 | 2024-05-21 | Google Llc | Coordination of overlapping processing of audio queries |
CN109949817A (zh) * | 2019-02-19 | 2019-06-28 | 一汽-大众汽车有限公司 | 基于双操作系统双语音识别引擎的语音仲裁方法及装置 |
CN113450785A (zh) * | 2020-03-09 | 2021-09-28 | 上海擎感智能科技有限公司 | 车载语音处理的实现方法、系统、介质及云端服务器 |
CN113450785B (zh) * | 2020-03-09 | 2023-12-19 | 上海擎感智能科技有限公司 | 车载语音处理的实现方法、系统、介质及云端服务器 |
Also Published As
Publication number | Publication date |
---|---|
JP2003295890A (ja) | 2003-10-15 |
EP1394771A1 (en) | 2004-03-03 |
US20040162731A1 (en) | 2004-08-19 |
EP1394771A4 (en) | 2005-10-19 |
TW200307908A (en) | 2003-12-16 |
TWI244065B (en) | 2005-11-21 |
WO2003085640A1 (fr) | 2003-10-16 |
CN1282946C (zh) | 2006-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1282946C (zh) | 话音识别对话选择装置和方法以及话音识别对话装置 | |
CN1199125C (zh) | 网络服务系统和方法 | |
CN1961293A (zh) | 联动方法和移动通信终端 | |
JP5170090B2 (ja) | データ連携システム、データ連携方法およびデータ連携プログラム | |
CN1308823C (zh) | 终端装置 | |
CN101075983A (zh) | 即时语音通信终端、服务器、系统和即时语音通信方法 | |
CN1204091A (zh) | 遥控方法、遥控网络服务器和超文本标记语言文件存储介质 | |
CN1969316A (zh) | 集中式生物测量认证 | |
CN1573928A (zh) | 用语音应用语言标记执行的语义对象同步理解 | |
CN1492656A (zh) | 在多通道上共享应用程序会话信息的方法、装置和系统 | |
CN1556631A (zh) | 一种实现即时通信系统客户间情景聊天的方法 | |
CN1274175C (zh) | 移动通信终端装置及其控制方法 | |
CN1976322A (zh) | 一种实现多媒体即时通讯的方法、系统和控制流程 | |
CN1677418A (zh) | 电子邮件创建装置及其方法、程序和便携式终端 | |
CN1881206A (zh) | 对话系统 | |
CN1792081A (zh) | 经由专用通信设备在选择的用户终端之间建立呼叫的方法 | |
CN1578950A (zh) | 网络上的多个计算机之间进行合作的方法、系统、计算机程序 | |
CN1901707A (zh) | 监控手机及其远程监控方法 | |
CN1109312C (zh) | 具有代理功能的信息处理器 | |
CN1633782A (zh) | 数据通信系统、数据通信装置和数据通信方法 | |
CN1301452C (zh) | 模态同步控制方法及多模态界面系统 | |
CN100342686C (zh) | 因特网电话系统、呼叫连接控制器及终端关联方法 | |
CN1742461A (zh) | 识别消息中的模式并生成操作的方法和装置 | |
US20090315488A1 (en) | Method and system for providing different vibration outputs | |
CN1652543A (zh) | 用于连接异类协议节点的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20061101 Termination date: 20160312 |