JP2004530982A - Webサーバからの音声アプリケーション情報の動的な生成 - Google Patents
Webサーバからの音声アプリケーション情報の動的な生成 Download PDFInfo
- Publication number
- JP2004530982A JP2004530982A JP2002588535A JP2002588535A JP2004530982A JP 2004530982 A JP2004530982 A JP 2004530982A JP 2002588535 A JP2002588535 A JP 2002588535A JP 2002588535 A JP2002588535 A JP 2002588535A JP 2004530982 A JP2004530982 A JP 2004530982A
- Authority
- JP
- Japan
- Prior art keywords
- server
- application
- markup language
- user
- browser
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 claims abstract description 46
- 230000004044 response Effects 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 3
- 150000003839 salts Chemical class 0.000 claims 2
- 230000002452 interceptive effect Effects 0.000 abstract description 3
- 238000011161 development Methods 0.000 description 15
- 230000009471 action Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000009877 rendering Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 235000013550 pizza Nutrition 0.000 description 4
- 238000013515 script Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 235000015220 hamburgers Nutrition 0.000 description 3
- 241001522296 Erithacus rubecula Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 240000009258 Camassia scilloides Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/35—Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
- H04M2203/355—Interactive dialogue design tools, features or methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2207/00—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place
- H04M2207/40—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place terminals with audio html browser
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
Description
【0001】
本発明は、音声対応の対話型音声応答(IVR)システム、および人間とコンピュータの間の対話に関わる同様のシステムの分野に関する。より詳細には、本発明は、サーバから音声アプリケーション情報を動的に生成するシステムおよび方法に関し、詳細には、マークアップ言語ドキュメントを、そのようなマークアップ言語ドキュメントをクライアントコンピュータ上でレンダリングすることができるブラウザに動的に生成することに関する。
【背景技術】
【0002】
本出願は、参照により全体が本明細書に組み込まれている2001年5月4日に出願した「Webサーバからの音声アプリケーション情報の動的な生成(Dynamic Generation of Voice Application Information from a Web Server)」という名称の米国特許仮出願第288,708号明細書の特許出願日の恩典を主張する。
【0003】
本明細書で開示する主題は、「スプレッドシートインターフェースまたはテーブルインターフェースを使用して言語文法を生成するためのシステムおよび方法(System And Method For Creating A Language Grammar Using A Spreadsheet Or Table Interface)」という名称の米国特許第5,995,918号明細書(1999年11月30日に発行された)、「音声対応アプリケーションのためのシステムおよび方法(System and Method for Speech Enabled Application)」という名称の米国特許第6,094,635号明細書(2000年7月25日に発行された)、「対話の設計およびシミュレーションのための装置(Apparatus for Design and Simulation of Dialogue)」という名称の米国特許第6,321,198号明細書(2001年11月20日に発行された)、および2000年10月30日に出願した「対話フローインタプリタ開発ツール(Dialogue Flow Interpreter Development Tool)」という名称の係属中の米国特許出願第09/702,244号明細書に関し、以上のすべてが、本出願の譲受人に譲渡され、以上の明細書の内容は、参照により全体が本明細書に組み込まれている。
【0004】
ここ数年間のインターネットの急激な成長、特にWorld Wide Webの急激な成長は、いくら控えめに言っても控えめになり過ぎることはない。それに対応する世界経済に対する影響も同様に、劇的であった。このコンピュータ網をナビゲートすることにほんのわずかでも親しんでいるユーザには、実質的にあらゆるタイプの情報が入手可能である。それでも、Web上で普通なら入手可能であるはずの、個人にとって重要である、またはクリティカルである可能性さえある情報が、その個人の手に届かない場合が依然として存在する。たとえば、旅行中の個人が、陸線電話機、モバイル電話機、無線パーソナルデジタルアシスタント、または同様のデバイスを使用して自身の現在の目的地からの特定の航空会社による出発航空便に関する情報を得ることを所望する可能性がある。その情報は、航空会社のWebサーバから容易に入手可能である可能性があるが、過去には、旅行者は、電話機からWebサーバへのアクセスを有していなかった。しかし、最近、電話機、および電話ベースの音声アプリケーションをWorld Wide Webと結び付ける進展がみられる。1つのそのような進展が、ボイスエクステンデッドマークアップ言語(Voice Extended Markup Language)(VoiceXML)である。
【0005】
VoiceXMLは、人間/コンピュータ対話を表現するためのWebベースのマークアップ言語である。VoiceXMLは、ハイパーテキストマークアップ言語(HTML)と同様であるが、音声入力と音声出力をともに有する音声ブラウザを想定している。図1に見られるとおり、VoiceXMLシステムに関する通常の構成は、インターネットを介してWebサーバ110に接続されたWebブラウザ160(クライアント上に常駐する)と、インターネットと公衆交換電話網(PSTN)の両方に接続されたVoiceXMLゲートウェイノード140(音声ブラウザを含む)とを含む可能性がある。Webサーバは、Webブラウザ160によって要求された場合、マルチメディアファイルおよびHTMLドキュメント(スクリプト、および同様のプログラムを含む)を提供することができ、音声ブラウザ140からの要求時に、音声/文法情報およびVoiceXMLドキュメント(スクリプト、および同様のプログラムを含む)を提供することができる。
【0006】
VoiceXMLで書かれた音声アプリケーションを展開することへの関心が広がるにつれ、音声ユーザインターフェースフロントエンドとビジネス規則主導(business−rule driven)バックエンドの高度で優美な統合の必要性が、さらに重要になっている。VoiceXML自体、音声ユーザインターフェースを表現するための満足のいく媒体であるが、アプリケーションのビジネス規則を実施するのにはほとんど役立たない。
【0007】
インターネットコミュニティ内で、ユーザインターフェース(HTMLブラウザ)とビジネス規則主導バックエンドを統合することの問題は、アプリケーションとバックエンドデータ操作をともに定義するサーバコードが書かれる動的に生成されたHTMLの使用を介して対処されてきた。ユーザがブラウザを介してアプリケーションを取り出した際、アプリケーションは、Webサーバがhttp応答として伝送するHTML(またはXML)を動的に生成する。ユーザの入力(マウスクリップ、およびキーボードエントリ)がブラウザによって収集され、HTTP要求(GETまたはPOST)の中でサーバに戻され、アプリケーションによって処理される。
【発明の開示】
【発明が解決しようとする課題】
【0008】
この動的な生成モデルが、音声アプリケーションにおいて使用するためにVoiceXMLコミュニティによって拡張されている。サーバ常駐アプリケーションコードが、サーバに見えるデータと対話し、VoiceXMLのストリームを生成する。しかし、この手法は、それぞれの新しいアプリケーションに関してカスタムコードの開発を必要とするか、または(良くても)再使用を容易にするテンプレートとして構造化されることが可能なカスタムコードの再使用可能な構成要素を必要とする。
【0009】
したがって、前述した動的生成アーキテクチャの長所を活用するが、本願特許出願人によって開発されたナチュラルランゲージスピーチアシスタント(Natural Language Speech Assistant)(NLSA)を含む系列のアプリケーション開発ツールなどの統合されたサービス生成環境によって提供されるアプリケーション開発の極度の単純化を利用する音声アプリケーション開発−展開アーキテクチャが求められている。本発明は、この必要を満たす。
【0010】
【特許文献1】
米国特許第5,995,918号明細書
【特許文献2】
米国特許第6,321,198号明細書
【特許文献3】
米国特許出願第09/702,244号明細書
【特許文献4】
米国特許第6,094,635号明細書
【課題を解決するための手段】
【0011】
本発明は、アプリケーション開発者が、統合されたサービス生成環境において既存の音声アプリケーション開発ツールを使用して音声対応アプリケーションを設計し、ユーザとの音声アプリケーション対話が、特定のマークアップ言語でドキュメントを動的に生成すること、および適切なクライアントブラウザによってそのドキュメントをレンダリングすることを介して行われるクライアント−サーバ環境においてその音声アプリケーションを展開することができるようにする。本発明の一実施形態は、クライアント−サーバ環境においてクライアントと通信してユーザとの対話を行うサーバを含み、クライアントは、マークアップ言語の命令を含むドキュメントをサーバから取り出し、そのマークアップ言語命令に従ってそのドキュメントをレンダリングしてユーザとの対話を提供するブラウザを含む。サーバは、ユーザとの対話の様々な状態を表わす情報を含むデータファイルを読み取り、その情報を使用して、対話の所与の状態に関して、ユーザに再生されるべきプロンプトを表わすオブジェクト、ユーザから予期される応答の文法、およびその他の状態情報を生成する対話フローインタプリタ(dialogue flow interpreter(解釈器))を含む。データファイルは、Unisys NLSAなどの統合されたサービス生成環境を使用して音声アプリケーション開発者によって生成される。サーバは、DFIによって生成されるオブジェクトの等価物を表わす命令をクライアントブラウザのマークアップ言語でドキュメント内に生成するマークアップ言語ジェネレータ(生成器)をさらに含む。要するに、マークアップ言語ジェネレータは、一体型の音声アプリケーションで使用するためのDFIによって通常、生成される情報を、ブラウザベースのクライアント−サーバ環境で使用するための動的に生成されたマークアップ言語ドキュメントに変換するDFIのまわりのラッパ(wrapper)の役割をする。サーバアプリケーションが、DFIおよびマークアップ言語ジェネレータをインスタンス化して、音声アプリケーションの全体的なシェルを提供し、アプリケーションの背後の必要なビジネス論理を供給する。サーバアプリケーションは、生成されたマークアップ言語ドキュメントをクライアントブラウザに送達すること、およびブラウザから要求、および関連する情報を受け取ることを担う。アプリケーションサーバ(すなわち、アプリケーションホストソフトウェア(application hosting software))を使用して、1つまたは複数のブラウザと、以上の仕方で展開された1つまたは複数の異なる音声アプリケーションの間の通信を誘導することができる。本発明の音声アプリケーション開発−展開アーキテクチャを使用して、VoiceXML、スピーチアプリケーションランゲージタグ(Speech Application Language Tag)(SALT)、ハイパーテキストマークアップ言語(HTML)、その他を含む様々なマークアップ言語のいずれにおいても、音声アプリケーション情報の動的な生成を可能にすることができる。サーバは、サンマイクロシステムズ社によって開発されたJava(登録商標)サーバページーズ(Java(登録商標)Server Pages)(JSP)/サーブレット(Servlet)モデル(Java(登録商標)サーブレットAPI規格で規定された)、およびマイクロソフトコーポレーションによって開発されたアクティブサーバページーズ(Active Server Pages)(ASP)/インターネットインフォメーションサーバ(Internet Information Server)(IIS)を含む様々なアプリケーションサービスプロバイダモデルで実施することができる。
【0012】
本発明のその他の特徴は、以下で明らかになる。
【0013】
以下の概要、および以下の詳細な説明は、添付の図面と併せ読むことにより、よりよく理解される。本発明を例示するため、図面では、本発明の例示的な構成を示している。ただし、本発明は、開示する特定の方法および手段に限定されない。
【発明を実施するための最良の形態】
【0014】
図2は、一体型音声アプリケーションの設計および展開のための例示的なアーキテクチャを示している。Unisys NLSA系列の音声アプリケーション開発ツールが、音声アプリケーションの開発および展開のこの手法の一例である。以下により詳細に説明するとおり、本発明は、音声アプリケーション開発のこの手法をベースにして、ユーザとの音声アプリケーション対話が、特定のマークアップ言語のドキュメントの動的な生成、および適切なクライアントブラウザによるそのドキュメントのレンダリングを介して行われるクライアント−サーバ環境において、その仕方で開発された音声アプリケーションが展開されることを可能にする。ただし、音声アプリケーション開発者の観点からは、開発プロセスは、基本的に違わない。Unisys NLSAは、図2に示したアーキテクチャを実施する音声アプリケーション設計−開発環境の一例であり、したがって、以下に提供する例示的な説明の基礎の役割をするが、本発明は、Unisys NLSA環境の文脈における実施に全く限定されないものと理解されたい。むしろ、本発明は、このアーキテクチャ、またはそれと等価のアーキテクチャを実施するあらゆる音声アプリケーション設計−開発環境の文脈で使用することができる。
【0015】
図示するとおり、このアーキテクチャは、オフライン環境とランタイム環境の両方から成る。主要なオフライン構成要素は、統合されたサービス生成環境である。この例では、統合されたサービス生成環境は、ナチュラルランゲージスピーチアシスタント、または「NLSA」(ペンシルベニア集ブルーベルの本願特許出願人によって開発された)を含む。Unisys NLSAのような統合されたサービス生成環境により、開発者は、音声アプリケーションの対話フロー(ときとして、「コールフロー」と呼ばれる)、ならびに再生されるべきプロンプト、予期されるユーザ応答、および対話フローの各状態でとられるべきアクションを定義する一連のデータファイル215を生成することができるようになる。データファイル215は、各ノードが対話フローの状態を表わし、各エッジが、ある対話状態から別の対話状態への応答を条件とする遷移(response−contingent transition)を表わす有向グラフを定義しているものと考えることができる。サービス生成環境から出力されたデータファイル215は、以下により十分に説明するとおり、サウンドファイル、文法ファイル(音声認識器から受け取られる予期されるユーザ応答を束縛する)、および対話フローインタプリタ(DFI)220によって使用される形態で対話フロー(たとえば、DFIファイル)を定義するファイルから成ることが可能である。NLSAのケースでは、対話フローを定義するファイルは、対話フローのXML表現を含む。
【0016】
図5は、電話機を介してアプリケーションにアクセスするユーザが「ロビンのレストラン」と呼ばれるベンダからハンバーガーまたはピザなどの食料品を注文することを可能にする例示的な音声アプリケーションに関する対話フローの第1の状態のXML表現を含む例示的なDFIファイルである。図示するとおり、この例示的なアプリケーションにおける第1の状態は、「挨拶」と呼ばれ、この状態に関するXMLファイルは、ユーザに再生されるべきプロンプト(たとえば、「ロビンのレストランへようこそ。ハンバーガーまたはピザはいかがですか」)、アプリケーションがユーザの口頭の応答を理解することができるようにする自動音声認識器(ASR)と併せて使用するための文法を定義する文法ファイル(たとえば、「挨拶文法」)、およびユーザ応答に基づいてとられるべきアクション(たとえば、ユーザがハンバーガーを選択した場合、次の状態=「飲み物注文」、またはユーザがピザを注文した場合、次の状態=「ピザのトッピング(topping)を得る」)を指定する。
【0017】
図2を再び参照すると、音声アプリケーション230のフローを制御するのに対話フローインタプリタが使用するデータファイルを生成することに加えて、サービス生成環境は、音声アプリケーションを実行するのに必要な基本的なコードである音声アプリケーション230のためのシェルコードを生成することも行う。次に、開発者は、データベースと対話して特定のアプリケーションに妥当な情報を記憶し、取得するコードなどのさらなるコードを音声アプリケーション230に追加して、アプリケーションの背後のビジネス論理を実施することができる。たとえば、このビジネス論理コードは、ベンダに関するインベントリを維持すること、またはユーザがアクセスすることを所望する可能性がある情報のデータベースを維持することが可能である。したがって、統合されたサービス生成環境は、ユーザとの音声対話を実施するのに必要なコードを生成し、開発者は、アプリケーションのビジネス規則主導バックエンドを実施するコードを追加することによってアプリケーションを完成させる。
【0018】
Unisys NLSAは、容易に理解されるスプレッドシートの隠喩を用いて、エンドユーザが対話の所与の状態において言うことが予期されることを正確に定義する語および句の間の関係を表現する。このツールにより、変数およびサウンドファイルを管理するための機能、ならびに実際のコードの生成に先立ってアプリケーションをシミュレートするための機構が提供される。また、このツールにより、記録スクリプト(アプリケーションの「音声」の記録を管理するための)、およびアプリケーションのアーキテクチャを要約する対話設計ドキュメントも生成される。NLSA、およびこのツールによるデータファイル215の生成に関するさらなる詳細は、(特許文献1)および(特許文献2)、ならびに本出願と同じ出願人に譲渡された同時係属の(特許文献3)で提供されている。
【0019】
図2の音声アプリケーション開発−展開アーキテクチャのランタイム環境は、音声アプリケーションシェル−ビジネス論理コード230、および音声アプリケーション230がインスタンス化し、呼び出してユーザとのアプリケーション対話を制御する対話フローインタプリタ220の1つまたは複数のインスタンスを含む。音声アプリケーション230は、自動音声認識器(ASR)235とインターフェースをとり、ユーザから受け取られた口頭の発話を音声アプリケーションが使用可能なテキスト形態に変換することができる。また、音声アプリケーション230は、テキスト情報をユーザに再生されるべき音声に変換するテキスト−音声エンジン(TTS)240とインターフェースをとることもできる。音声アプリケーション230は、代替として、TTSエンジン240の使用の代わりに、またはその使用に加えて、あらかじめ記録されたサウンドファイルをユーザに再生することも可能である。また、音声アプリケーション230は、電話インターフェース245を介して公衆交換電話網(PSTN)とインターフェースをとり、ユーザがそのネットワーク上の電話機225から音声アプリケーション230と対話するための手段を提供することも可能である。その他の実施形態では、音声アプリケーションは、コンピュータから直接にユーザと対話することも可能であり、その場合、ユーザは、コンピュータシステムのマイクロホンおよびスピーカを使用してアプリケーションに話しかけ、アプリケーションを聴き取る。さらに別の可能性は、ユーザがボイスオーバーIP(VOIP)接続を介してアプリケーションと対話することである。
【0020】
Unisys NLSA環境では、ランタイム環境は、自然言語インタプリタ(NLI)225の機能がASR235の一環として提供されない場合、自然言語インタプリタ(NLI)225も含むことが可能である。NLIは、有効な発話を表現し、その発話をトークンに関連付け、アプリケーションに妥当なその他の情報を提供するデータファイル215の所与の文法ファイルにアクセスする。NLIは、文法に基づいてユーザ発話を抽出し、処理して、発話の意味を表わすトークンなどのアプリケーションに有用な情報を提供する。次に、このトークンを使用して、たとえば、音声アプリケーションが応答としてどのようなアクションをとるかを決定することができる。例示的なNLIの動作は、(特許文献4)(NLIは、「ランタイムインタプリタ」と呼ばれている)、および(特許文献2)(NLIは、「ランタイムNLI」と呼ばれている)で説明されている。
【0021】
対話フローインタプリタ(DFI)は、音声アプリケーション230によってインスタンス化される。DFIは、サービス生成環境によって生成されたデータファイル215の中に含まれるアプリケーションの表現にアクセスする。DFIは、データファイル215の中の音声アプリケーションの表現を調べることにより、音声アプリケーション対話状態のクリティカルな構成要素をオブジェクトの形態で呼出し側のプログラムに提供する。このプロセスを理解するため、対話状態を構成する構成要素を理解することが不可欠である。
【0022】
基本的に、対話の各状態は、アプリケーションとユーザの間の1つの会話上のやりとりを表わす。状態の構成要素は、以下のテーブルの中で定義されている。
【0023】
【表1】
【0024】
Unisys NLSAでは、サービス生成環境内のツールを使用して各応答が、エンドユーザが言うことが予期される実際の語および句まで純化される。プロンプトおよび応答に、一定のストリングリテラル(literal)の代わりに変数を導入することが可能であり、変数およびアクションをデータストレージ活動に明示的に関連付けることができる。したがって、音声アプリケーションの完全な規定は、すべてのアプリケーションの対話状態の規定、および各状態に関する内部構成要素のそれぞれの規定を必要とする。
【0025】
ランタイムに音声アプリケーション230によって呼び出された際、DFIは、現行の対話状態、ならびに以下のとおり、その状態を機能させるのに必要とされる構成要素またはオブジェクトのそれぞれを提供する。
【0026】
【表2】
【0027】
DFIによって提供される情報のソースは、データファイル215の中でサービス生成環境によって生成されたアプリケーションの表現から引き出される。
【0028】
このように、DFIおよび関連するデータファイル215は、音声アプリケーション対話を実施するのに必要なコードおよび情報を含む。したがって、この単純化された形態では、音声アプリケーション230は、アプリケーションが、単にDFI220上でメソッドを、たとえば、再生されるべきプロンプトについての情報を得るため(たとえば、「DFI.Get_Prompt()」)、ユーザの予期される応答、および関連する文法についての情報を得るため(たとえば、「DFI.Get_Response()」)、および所与の状態の背後で必要なビジネス論理を行った後、対話が次の状態に進むようにするために(たとえば、「DFI。Advance_State」)呼び出すだけでよい。
【0029】
DFIのUnisys実施形態では、開発者がC、Visual Basic、Java(登録商標)などの様々なプログラミング言語のいずれか、または任意の他のプログラミング言語でコード化することができる音声アプリケーション230が、DFI220をインスタンス化し、DFI220を呼び出してデータファイル215の中で指定された設計を解釈させる。DFI220は、アプリケーションの中の対話フローを制御し、開発者が以前に書かなければならなかったすべての基礎にあるコードを供給する。DFI220は、実際上、対話の低レベルの詳細を実施する「標準化された」オブジェクトのライブラリを提供する。DFI220は、音声アプリケーション230の実施をさらに単純化するアプリケーションプログラミングインターフェース(API)として実施される。DFI215は、音声アプリケーション230の対話を始めから終りまで自動的に主導し、これにより、対話管理の重大で、しばしば、複雑なタスクをなくす。従来、そのようなプロセスは、アプリケーションに依存し、したがって、それぞれのアプリケーションに関して実施しなおすことを要する。
【0030】
前述したとおり、音声アプリケーションの対話は、状態間の一連の遷移を含む。各状態は、再生されるべきプロンプト、ロードされるべき音声認識器の文法(音声システムのユーザが何を言うかを聴取するため)、発呼者の応答に対する返答、および各応答に基づいてとられるべきアクションを含む独自の1組のプロパティを有する。DFI220は、アプリケーションの寿命にわたる任意の所与の時点で対話の状態を追跡し、状態プロパティにアクセスする関数を公開する。
【0031】
図3を参照すると、Unisys NLSAにおいて、DFIがアクセスを提供する状態のプロパティ(プロンプト、応答、アクション等)が、オブジェクト310の形態で実現されている。これらのオブジェクトの例には、プロンプトオブジェクト、スニペット(Snippet)オブジェクト、文法オブジェクト、応答オブジェクト、アクションオブジェクト、および変数オブジェクトが含まれるが、以上には限定されない。例示的なDFI関数380は、前述したオブジェクトのいくつかを戻す。例示的な関数には、以下が含まれる。すなわち、
Get_Prompt()320:再生されるべき適切なプロンプトを定義する情報を含むプロンプトオブジェクトを戻す;次に、この情報は、たとえば、TTSエンジン450に送られることが可能であり、TTSエンジン450は、その情報をユーザに再生されるべき音声データに変換することができる;
Get_Grammar()330:現行の状態に対する適切な文法に関する情報を含む文法オブジェクトを戻す;次に、この文法は、音声認識エンジン(ASR)445にロードされて、ユーザからの有効な発話の認識を束縛する;
Get_Response(340):実際のユーザ応答、この応答が含む可能性があるあらゆる変数、およびこの応答に関して定義されたすべての可能なアクションから成る応答オブジェクトを戻す;および
Advance_State350:対話を次の状態に遷移させる。
【0032】
他のDFI関数370を使用して状態非依存のプロパティ(すなわち、グローバルプロパティ)が取得される。これには、音声アプリケーションに関連する様々なデータファイル215に関するディレクトリパスに関する情報、アプリケーションの入力モード(たとえば、DTMFまたは音声)、対話の現在の状態、および対話の前の状態が含まれるが、以上には限定されない。以上の関数のすべてが、音声アプリケーション230コードから呼び出されて、音声アプリケーションの実行中に対話についての情報を提供することが可能である。
【0033】
DFI220の機能および動作に関するさらなる詳細は、2000年10月30日に出願した「対話フローインタプリタ開発ツール(Dialogue Flow Interpreter Development Tool)」という名称の同時係属の、本出願と同じ出願人に譲渡された(特許文献3)で見ることができる。
【0034】
前述し、図2および3で示したとおり、統合されたサービス生成環境210、データファイル215、およびDFI220およびNLI225のランタイム構成要素は、これまで、一体型の音声アプリケーション230の生成において使用されてきた。本発明は、図2および3で示したアーキテクチャをベースにして、ユーザとの音声アプリケーション対話が、特定のマークアップ言語のドキュメントの動的な生成、および適切なクライアントブラウザによるそのドキュメントのレンダリングを介して行われるクライアント−サーバ環境において、その仕方で開発された音声アプリケーションが展開されることを可能にする。
【0035】
本発明の音声アプリケーション開発−展開に関する新しいアーキテクチャを図4に示している。図4は、本発明のランタイム構成要素のアーキテクチャを示している。オフライン構成要素は、基本的に、図2に示したアーキテクチャと同じである。つまり、統合されたサービス生成環境を使用して、音声アプリケーションの対話フローを定義する1組のデータファイル215が生成される。図2のアーキテクチャの場合と同様に、本発明の新しいアーキテクチャは、同じ対話フローインタプリタ(DFI)220(およびオプションとして、自然言語インタプリタ(NLI)225のNLSA実施形態)を利用して、ユーザとの対話を管理し、制御する。ただし、本発明のアーキテクチャは、ユーザとの音声アプリケーション対話が、特定のマークアップ言語のドキュメントの動的な生成、および適切なクライアントブラウザによるそのドキュメントのレンダリングを介して行われるクライアント−サーバ環境において、その対話を実施する音声アプリケーションが展開されることを可能にするように設計されている。
【0036】
図示するとおり、クライアント435は、サーバからマークアップ言語の命令を含むドキュメントを取り出し、そのマークアップ言語命令に従ってドキュメントをレンダリングしてユーザとの対話を提供するブラウザ440を含む。本発明を使用して、VoiceXML、スピーチアプリケーションランゲージタグ(SALT)、ハイパーテキストマークアップ言語(HTML)、ならびに無線アプリケーションプロトコル(Wireless Application Protocol)(WAP)ベースのセル電話アプリケーションのための無線マークアップ言語(Wireless Markup Language)(WML)や、ハンドヘルドデバイスのためのW3プラットフォームなどのその他を含む様々なマークアップ言語のいずれにおいても、音声アプリケーション情報の動的な生成を可能にすることができる。したがって、ブラウザは、VoiceXML対応ブラウザ、SALT対応ブラウザ、HTML対応ブラウザ、WML対応ブラウザ、または任意の他のマークアップ言語対応ブラウザを含むことが可能である。VoiceXML対応ブラウザの例には、PipeBeach ABから市販される「SpeechWeb」、ボイスジニーテクノロジー社(Voice Genie Technology Inc.)から市販される「Voice Genie」、およびニュアンスコミュニケーションズから市販される「Voyager」が含まれる。VoiceXMLブラウザ製品は、一般に、自動音声認識器445と、テキスト−音声合成器450と、電話インターフェース460とを含む。ASR445、TTS450、および電話インターフェースは、異なるベンダから供給されることも可能である。
【0037】
図4に示すとおり、VoiceXML対応ブラウザの場合、ユーザは、公衆交換電話網465に接続された電話機または他のデバイスからブラウザと対話することができる。代替として、ユーザは、ボイスオーバーインターネットIP接続(VOIP)(図示せず)を使用してブラウザと対話することができる。他の音声実施形態では、ユーザが直接アクセスを有するワークステーション上または他のコンピュータ上でクライアントが実行されていることが可能であり、その場合、ユーザは、ワークステーションの入力/出力能力(たとえば、マウス、マイクロホン、スピーカ等)を使用してブラウザ440と対話することができる。HTMLブラウザまたはWMLブラウザなどの非音声のブラウザの場合、ユーザは、たとえば、グラフィックスによってブラウザと対話する。
【0038】
ブラウザ440は、たとえば、インターネット430を介して伝送される標準のWebベースのHTTPコマンド(たとえば、GETおよびPOST)を介して本発明のサーバ410と通信する。ただし、本発明は、インターネットの一部であるか否かにかかわらず、ローカルエリアネットワーク、ワイドエリアネットワーク、および無線網を含む任意の私設ネットワークまたは公共ネットワークを介して展開することができる。
【0039】
好ましくは、アプリケーションサーバ425(すなわち、アプリケーションホストソフトウェア)が、クライアントブラウザ440からの要求を代行受信し、その要求をサーバコンピュータ410上でホストされる適切な音声アプリケーション(たとえば、サーバアプリケーション)415に転送する。このようにして、複数の音声アプリケーションがユーザによる使用に供されることが可能である。
【0040】
前述した対話フローインタプリタ(DFI)220(およびオプションとして、NLI225)、およびデータファイル215に加えて、サーバ410は、DFIによって生成されるオブジェクトの等価物を表わすクライアントブラウザ440によってサポートされるマークアップ言語の命令をドキュメント内で生成するマークアップ言語ジェネレータ420をさらに含む。つまり、マークアップ言語ジェネレータ420は、一体型の音声アプリケーションで使用するためにDFIによって通常、生成される、前述したプロンプト、応答、アクション、およびその他のオブジェクトなどの情報を、クライアントブラウザ440に提供することができるドキュメント内の動的に生成されたマークアップ言語命令に変換するDFI220(およびオプションとして、NLI225)のまわりのラッパの役割をする。
【0041】
単に例として、図5に示した例示的なDFIファイルのXML表現に基づいてDFI220によって戻されるプロンプトオブジェクトは、以下の情報を含むことが可能である。
【0042】
【0043】
プロンプトオブジェクトは、基本的に、この情報のメモリ内の表現である。この例では、マークアップ言語ジェネレータ420は、VoiceXML対応クライアントブラウザによるレンダリングのために以下のVoiceXML命令を生成することができる。
【0044】
【0045】
以上の命令は、クライアントブラウザに伝送して戻されるドキュメントの中に生成される。以下は、図5の例示的な対話の状態に関連するいくつかのオブジェクトのVoiceXML表現を含むより大きいドキュメントの例である。
【0046】
【0047】
図2に示した音声アプリケーション230と同様であるが、図4のクライアント−サーバ環境において展開するために設計されたサーバアプリケーション415が、DFI220およびマークアップ言語ジェネレータ420をインスタンス化して音声アプリケーションの全体的なシェルを提供し、アプリケーションの背後の必要なビジネス論理を供給する。サーバアプリケーション415は、生成されたマークアップ言語ドキュメントをクライアントブラウザ440に送達すること、およびたとえば、アプリケーションサーバ425を介してブラウザ440から要求、および関連する情報を受け取ることを担う。サーバアプリケーション415およびアプリケーションサーバ425は、サンマイクロシステムズ社によって開発されたJava(登録商標)サーバページーズ(JSP)/サーブレットモデル(Java(登録商標)サーブレットAPI規格で規定された)(この場合、サーバアプリケーション415は、このモデルのJava(登録商標)サーブレット規格に準拠し、アプリケーションサーバ425は、たとえば、「The Jakarta Project」によって提供される「Tomcat」リファレンス実施形態を含むことが可能である)、およびマイクロソフトコーポレーションによって開発されたアクティブサーバページーズ(ASP)/インターネットインフォメーションサーバ(IIS)(この場合、アプリケーションサーバ425は、Microsoft IISを含む)を含む様々なアプリケーションサービスプロバイダモデルで実施することができる。
【0048】
一実施形態では、サーバアプリケーション415は、適切な.aspファイルまたは.jspファイル、ならびにDFI220およびマークアップ言語ジェネレータ420のインスタンスとの組合せで、ブラウザ440に戻されるべきマークアップ言語ドキュメントを生成するサーバ410上の実行可能なスクリプトとして実現することができる。
【0049】
好ましくは、サービス生成環境は、音声アプリケーションの対話を定義するデータファイルを生成することに加えて、サーバアプリケーション415の基本的なシェルコードも生成して、特定のクライアント−サーバ仕様(たとえば、JSP/サーブレット、またはASP/IIS)をコーディングしなければならないことからアプリケーション開発者をさらに解放する。開発者が行わなければならないのは、アプリケーションのビジネス論理を実施するのに必要なコードを提供することだけである。他のWeb開発者は、サーバ上でASP/IIS技術およびJSP/サーブレット技術を使用してマークアップ言語コードを動的に生成するが、サーバ上で解釈エンジン(すなわち、DFI220)を使用して、それ自体、オフラインツールによって構築されたアプリケーションを表わす基本的な情報を取得するのは、本発明のアーキテクチャが最初であると考えられる。
【0050】
DFI220は、マークアップ言語ドキュメントを動的に生成することができる情報ソースを提供するのに理想的に適している。ASP/IISモデルまたはJSP/サーブレットモデルを使用して、サーバアプリケーション415は、前述したのと同じDFIメソッドを呼び出すが、戻されるオブジェクトは、マークアップ言語ジェネレータ420によって適切なマークアップ言語タグに翻訳され、マークアップ言語ドキュメントにパッケージ化されて、サーバアプリケーション415が、動的に生成されたマークアップ言語ドキュメントを遠隔のクライアントブラウザにストリーミングすることが可能になる。所与の対話状態におけるアクションが何らかのデータベース読取り活動、またはデータベース書き込み活動を含む場合はいつでも、その活動は、DFI220の制御の下で行われ、トランザクションの結果は、生成されたマークアップ言語命令に反映される。
【0051】
したがって、DFI220は、実質的にサーバアプリケーション415の延長となる。本実施形態では、データファイル215を構成する音声アプリケーション対話、および関連する音声認識文法、音声ファイル、またはアプリケーション特有のデータは、サーバに見えるデータストア(server−visible data store)上に常駐する。対話フローを表わすファイルは、XML(たとえば、図5)で表わされ、文法は、W3C音声インターフェースフレームワークに関する音声認識文法規格(または、必要な場合、ベンダ特有の文法形式で)表わされる。したがって、原則として、単一のサービス生成環境を使用して、開発者が、特定のマークアップ言語、または特定のクライアント−サーバ環境の技術的な複雑さに最小限の注意しか払わずに音声アプリケーションを作成し、展開することを可能にしながら、音声アプリケーション全体を構築することができる。
【0052】
動作の際、本発明のアーキテクチャによるユーザとの対話の制御は、一般に、以下のとおり行われる。
【0053】
1.ユーザがクライアントブラウザ440にアクセスし、特定の音声アプリケーションを選択することを、特定の電話番号をダイヤル呼出ししたことで、またはその音声アプリケーションにマップされる固有ユーザ身元証明を提供したことで選択する。
【0054】
2.ブラウザ440が、サーバからドキュメントを取り出すことによってサーバコンピュータ410から(たとえば、アプリケーションサーバ425を介して)その選択されたアプリケーション415を要求する。
【0055】
3.サーバアプリケーション415は、DFI220上で適切なメソッドを呼び出して、対話の現行の状態に関連するオブジェクト(たとえば、プロンプト、応答、アクション等)を獲得する。マークアップ言語ジェネレータ420が、そのオブジェクトに関する適切なマークアップ言語ドキュメントの中に戻されるべき等価のマークアップ言語命令(たとえば、ブラウザ440がプロンプトを再生し、指定されたユーザ発話を聴取するようにさせる命令)を生成する。
【0056】
4.変数(ASRによって決定された)として表現されたユーザ発話、およびその発話の意味が、ブラウザ440によって(たとえば、HTTP「POST」を介して)サーバアプリケーション415に送り返される。
【0057】
5.サーバアプリケーション415が、発話に関連する変数を使用して音声アプリケーションのビジネス規則を実行し、DFI220に対する適切なコール(たとえば、Advance_State()350)を介して次の状態に遷移する。次の状態は、どのようなプロンプトを再生するか、何を聴取するかなどの情報を含むことが可能であり、この情報は、マークアップ言語ドキュメントの形態でブラウザに再び送り返される。次に、このプロセスが、基本的に繰り返される。
【0058】
ASRが、発話から意味を抽出する備えがない実施形態では、ステップ4で、発話は、サーバアプリケーション415に送り返されることが可能であり、サーバアプリケーション415が、NLI(たとえば、NLI225)を呼び出して意味を抽出することができる。
【0059】
以上のやり方で、アプリケーションが所望のタスクを行い終えるまで、状態が次から次へと実行される。
【0060】
したがって、前述したアーキテクチャにより、サーバ410上でDFI220を使用して、音声アプリケーション対話を表わす基本的な情報(オフラインのサービス生成環境によって生成された)をデータファイル215から取得することが可能になることが理解されよう。ほとんどの解決策は、特定の技術にコミットすることに関わり、「ホスト側技術」が変更された場合、アプリケーションの完全な書換えを要するが、本発明の設計抽象化手法により、いずれの特定のプラットフォームへのコミットメントも最小限に抑えられる。本発明のシステムの下では、ユーザは、特定のマークアップ言語を習得する必要がなく、特定のクライアント−サーバモデル(たとえば、ASP/IISまたはJSP/サーブレット)の複雑さを学ぶ必要もない。
【0061】
前述したアーキテクチャの利点には、JSP/サーブレットやASP/IISなどの競合するインターネット技術「標準」間における移動の容易さが含まれる。さらなる利点は、前述したアーキテクチャにより、進化しているマークアップ言語標準(たとえば、VoiceXML)の変化からユーザおよびアプリケーション設計者が保護されることである。最後に、本明細書で開示した斬新なアーキテクチャにより、複数の送達プラットフォーム(たとえば、話し言葉のためのVoiceXML)、WAPベースのセル電話アプリケーションのためのWML、およびハンドヘルドデバイスのためのW3プラットフォームを提供する。
【0062】
本発明のアーキテクチャは、ハードウェアまたはソフトウェアで、あるいはハードウェアとソフトウェアの組合せで実施することができる。ソフトウェアで実施された場合、プログラムコードは、プロセッサと、プロセッサが読み取ることができる記憶媒体(揮発性および不揮発性のメモリおよび/または記憶要素を含む)と、少なくとも1つの入力デバイスと、少なくとも1つの出力デバイスとをそれぞれが含むプログラマブルコンピュータ(たとえば、サーバ410およびクライアント435)上で実行される。プログラムコードが、入力デバイスを使用して入力されたデータに適用されて、前述した機能が行われ、出力情報が生成される。出力情報は、1つまたは複数の出力デバイスに適用される。そのようなプログラムコードは、好ましくは、高レベルの手続き言語、またはオブジェクト指向プログラミング言語で実装される。ただし、プログラムコードは、所望される場合、アセンブリ言語または機械語で実装することが可能である。いずれにしても、言語は、コンパイルされた言語、または解釈された言語であることが可能である。プログラムコードは、限定としてではなく、フロッピー(登録商標)ディスケット、CD−ROM、CD−RW、DVD−ROM、DVD−RAM、磁気テープ、フラッシュメモリ、ハードディスクドライブを含む磁気記憶媒体、電気記憶媒体、または光記憶媒体などのコンピュータ可読媒体上、あるいは任意の他のマシン可読媒体上に記憶されることが可能であり、プログラムコードが、コンピュータなどのマシンにロードされた際、そのマシンが、本発明を実施するための装置になる。また、プログラムコードは、電気配線またはケーブル配線を介して、光ファイバを介して、インターネットまたはイントラネットを含むネットワークを介して、または任意の他の伝送形態を介してなど、何らかの伝送媒体を介して伝送されることも可能であり、プログラムコードが受信され、コンピュータなどのマシンにロードされて、マシンによって実行された際、そのマシンが、本発明を実施するための装置になる。汎用コンピュータ上に実装される場合、プログラムコードは、プロセッサと組になって特定の論理回路と同様に動作する固有の装置を提供する。
【0063】
以上の説明で、本発明は、アプリケーション開発者が、統合されたサービス生成環境において既存の音声アプリケーション開発ツールを使用して音声対応アプリケーションを設計し、ユーザとの音声アプリケーション対話が、特定のマークアップ言語でドキュメントを動的に生成すること、および適切なクライアントブラウザによってそのドキュメントをレンダリングすることを介して行われるクライアント−サーバ環境においてその音声アプリケーションを展開することができるようにする音声アプリケーションの開発および展開のための新しく有用なアーキテクチャを含むことを見て取ることができよう。実施形態の発明上の概念を逸脱することなく、前述した実施形態に変更を加えることが可能であることを理解されたい。したがって、本発明は、開示した特定の実施形態には限定されず、頭記の特許請求の範囲によって定義される本発明の趣旨および範囲に含まれるすべての変形形態を範囲に含むものとする。
【図面の簡単な説明】
【0064】
【図1】クライアント−サーバ環境において音声対応ブラウザを使用する例示的な従来技術の環境を示すブロック図である。
【図2】一体型音声アプリケーションのための開発−展開環境を示すブロック図である。
【図3】図2に示した環境の対話フローインタプリタのさらなる詳細を示す図である。
【図4】本発明の一実施形態によるユーザとの対話を提供するクライアント−サーバ環境において使用するためのサーバを示すブロック図である。
【図5】音声アプリケーションの対話を誘導するように図2および3の対話フローインタプリタによって使用されるデータファイルの例を示す図である。
Claims (11)
- クライアント−サーバコンピューティングシステムにおいて、マークアップ言語の命令を含むドキュメントをサーバから取り出し、前記マークアップ言語命令に従って前記ドキュメントをレンダリングしてユーザとの対話を提供するブラウザを含むクライアントと通信するサーバであって、
前記対話の様々な状態を表わす情報を含むデータファイルを読み取り、その情報を使用して、前記対話の所与の状態に関して、前記ユーザに再生されるべきプロンプト、および前記ユーザからの予期される応答の文法の少なくとも1つを表わすオブジェクトを生成する対話フローインタプリタ(DFI)と、
前記DFIによって生成された前記オブジェクトの等価物を表わす命令をドキュメント内に前記マークアップ言語で生成するマークアップ言語ジェネレータと、
前記マークアップ言語ジェネレータによって生成された命令を含むドキュメントを前記クライアントブラウザに送達するサーバアプリケーションと
を含むことを特徴とするサーバ。 - 前記マークアップ言語は、VoiceXML、SALT、HTML、およびWMLの1つを含むことを特徴とする請求項1に記載のサーバ。
- 前記マークアップ言語は、VoiceXMLを含み、前記ブラウザは、VoiceXML対応ブラウザを含むことを特徴とする請求項1に記載のサーバ。
- 前記クライアントからの通信を前記サーバの前記サーバアプリケーションに誘導するアプリケーションサーバをさらに含むことを特徴とする請求項1に記載のサーバ。
- 前記アプリケーションサーバおよび前記サーバアプリケーションは、JSP/サーブレットモデルに準拠することを特徴とする請求項4に記載のサーバ。
- 前記アプリケーションサーバおよび前記サーバアプリケーションは、ASP/IISモデルに準拠することを特徴とする請求項4に記載のサーバ。
- クライアントが、マークアップ言語の命令を含むドキュメントをサーバから取り出し、前記マークアップ言語命令に従って前記ドキュメントをレンダリングしてユーザとの対話を提供するブラウザを含むクライアント−サーバコンピューティングシステムにおいて、前記ユーザとコンピュータシステムの間で対話を行うための方法であって、
ユーザからの要求に応答して前記サーバにおいて対話フローインタプリタ(DFI)をインスタンス化し、前記DFIが、前記対話の様々な状態を表わす情報を含むデータファイルを読み取り、その情報を使用して、前記対話の現行の状態に関して、前記ユーザに再生されるべきプロンプト、および前記ユーザからの予期される応答の文法の少なくとも1つを表わすオブジェクトを生成ステップと、
ドキュメント内で、前記DFIによって生成された前記オブジェクトの等価物を表わす前記マークアップ言語の命令を生成ステップと、
前記生成されたマークアップ言語命令を含む前記ドキュメントを前記クライアントブラウザに伝送するステップと
を含むことを特徴とする方法。 - 前記マークアップ言語は、VoiceXML、SALT、HTML、およびWMLの1つを含むことを特徴とする請求項7に記載の方法。
- 前記マークアップ言語は、VoiceXMLを含み、前記ブラウザは、VoiceXML対応ブラウザを含むことを特徴とする請求項7に記載の方法。
- 前記伝送するステップは、JSP/サーブレットモデルに従って行われることを特徴とする請求項7に記載の方法。
- 前記伝送するステップは、ASP/IISモデルに従って行われることを特徴とする請求項7に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US28870801P | 2001-05-04 | 2001-05-04 | |
PCT/US2002/013982 WO2002091364A1 (en) | 2001-05-04 | 2002-05-03 | Dynamic generation of voice application information from a web server |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004530982A true JP2004530982A (ja) | 2004-10-07 |
Family
ID=23108286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002588535A Pending JP2004530982A (ja) | 2001-05-04 | 2002-05-03 | Webサーバからの音声アプリケーション情報の動的な生成 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20050028085A1 (ja) |
EP (1) | EP1410381A4 (ja) |
JP (1) | JP2004530982A (ja) |
WO (1) | WO2002091364A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004355630A (ja) * | 2003-05-29 | 2004-12-16 | Microsoft Corp | 音声アプリケーション言語タグとともに実装される理解同期意味オブジェクト |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030007609A1 (en) * | 2001-07-03 | 2003-01-09 | Yuen Michael S. | Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers |
US7133830B1 (en) * | 2001-11-13 | 2006-11-07 | Sr2, Inc. | System and method for supporting platform independent speech applications |
US7783475B2 (en) * | 2003-01-31 | 2010-08-24 | Comverse, Inc. | Menu-based, speech actuated system with speak-ahead capability |
US20040187090A1 (en) * | 2003-03-21 | 2004-09-23 | Meacham Randal P. | Method and system for creating interactive software |
US8301436B2 (en) | 2003-05-29 | 2012-10-30 | Microsoft Corporation | Semantic object synchronous understanding for highly interactive interface |
US7729919B2 (en) | 2003-07-03 | 2010-06-01 | Microsoft Corporation | Combining use of a stepwise markup language and an object oriented development tool |
WO2005036850A1 (fr) * | 2003-09-30 | 2005-04-21 | France Telecom | Dispositif fournisseur de service a interface vocale pour terminaux de telecommunication, et procede de fourniture de service correspondant |
US20050152344A1 (en) * | 2003-11-17 | 2005-07-14 | Leo Chiu | System and methods for dynamic integration of a voice application with one or more Web services |
US7206391B2 (en) * | 2003-12-23 | 2007-04-17 | Apptera Inc. | Method for creating and deploying system changes in a voice application system |
US7697673B2 (en) * | 2003-11-17 | 2010-04-13 | Apptera Inc. | System for advertisement selection, placement and delivery within a multiple-tenant voice interaction service system |
US8768711B2 (en) * | 2004-06-17 | 2014-07-01 | Nuance Communications, Inc. | Method and apparatus for voice-enabling an application |
GB0415928D0 (en) * | 2004-07-16 | 2004-08-18 | Koninkl Philips Electronics Nv | Communication method and system |
US7739117B2 (en) * | 2004-09-20 | 2010-06-15 | International Business Machines Corporation | Method and system for voice-enabled autofill |
US20060159241A1 (en) * | 2005-01-20 | 2006-07-20 | Sbc Knowledge Ventures L.P. | System and method for providing an interactive voice recognition system |
ATE524806T1 (de) | 2005-03-18 | 2011-09-15 | France Telecom | Verfahren zur bereitstellung eines interaktiven voice-dienstes auf einer einem client-endgerät zugänglichen plattform entsprechender voice- dienst, computerprogramm und server |
US20060230410A1 (en) * | 2005-03-22 | 2006-10-12 | Alex Kurganov | Methods and systems for developing and testing speech applications |
US20060235694A1 (en) * | 2005-04-14 | 2006-10-19 | International Business Machines Corporation | Integrating conversational speech into Web browsers |
WO2006110980A1 (en) * | 2005-04-18 | 2006-10-26 | Research In Motion Limited | System and method for generating a wireless application from a web service definition |
US7899160B2 (en) * | 2005-08-24 | 2011-03-01 | Verizon Business Global Llc | Method and system for providing configurable application processing in support of dynamic human interaction flow |
US8639515B2 (en) * | 2005-11-10 | 2014-01-28 | International Business Machines Corporation | Extending voice-based markup using a plug-in framework |
US20070129950A1 (en) * | 2005-12-05 | 2007-06-07 | Kyoung Hyun Park | Speech act-based voice XML dialogue apparatus for controlling dialogue flow and method thereof |
US9330668B2 (en) | 2005-12-20 | 2016-05-03 | International Business Machines Corporation | Sharing voice application processing via markup |
US7814501B2 (en) | 2006-03-17 | 2010-10-12 | Microsoft Corporation | Application execution in a network based environment |
CN100463472C (zh) * | 2006-06-23 | 2009-02-18 | 北京邮电大学 | 用于语音增值业务系统的预取语音资源的实现方法 |
US8595013B1 (en) * | 2008-02-08 | 2013-11-26 | West Corporation | Open framework definition for speech application design |
CN101527755B (zh) * | 2009-03-30 | 2011-07-13 | 中兴通讯股份有限公司 | 基于VoiceXML移动终端语音交互方法及移动终端 |
US8521513B2 (en) * | 2010-03-12 | 2013-08-27 | Microsoft Corporation | Localization for interactive voice response systems |
WO2015125810A1 (ja) * | 2014-02-19 | 2015-08-27 | 株式会社 東芝 | 情報処理装置および情報処理方法 |
JP2018054790A (ja) * | 2016-09-28 | 2018-04-05 | トヨタ自動車株式会社 | 音声対話システムおよび音声対話方法 |
US10586844B2 (en) * | 2018-01-23 | 2020-03-10 | Texas Instruments Incorporated | Integrated trench capacitor formed in an epitaxial layer |
US20200081939A1 (en) * | 2018-09-11 | 2020-03-12 | Hcl Technologies Limited | System for optimizing detection of intent[s] by automated conversational bot[s] for providing human like responses |
US11501763B2 (en) * | 2018-10-22 | 2022-11-15 | Oracle International Corporation | Machine learning tool for navigating a dialogue flow |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4800681A (en) * | 1986-02-06 | 1989-01-31 | Sheller-Globe, Inc. | Sealing and guiding element for flush mounted movable automobile window |
DE3929159C2 (de) * | 1989-09-02 | 1999-09-23 | Draftex Ind Ltd | Dichtprofilleiste |
IT1281660B1 (it) * | 1996-01-15 | 1998-02-26 | Ilpea Ind Spa | Profilo perfezionato di materia plastica per mobili frigoriferi e simili |
US6125376A (en) * | 1997-04-10 | 2000-09-26 | At&T Corp | Method and apparatus for voice interaction over a network using parameterized interaction definitions |
US6192338B1 (en) * | 1997-08-12 | 2001-02-20 | At&T Corp. | Natural language knowledge servers as network resources |
US6269336B1 (en) * | 1998-07-24 | 2001-07-31 | Motorola, Inc. | Voice browser for interactive services and methods thereof |
US6312378B1 (en) * | 1999-06-03 | 2001-11-06 | Cardiac Intelligence Corporation | System and method for automated collection and analysis of patient information retrieved from an implantable medical device for remote patient care |
US20020077823A1 (en) * | 2000-10-13 | 2002-06-20 | Andrew Fox | Software development systems and methods |
US6832196B2 (en) * | 2001-03-30 | 2004-12-14 | International Business Machines Corporation | Speech driven data selection in a voice-enabled program |
-
2002
- 2002-05-03 JP JP2002588535A patent/JP2004530982A/ja active Pending
- 2002-05-03 US US10/476,746 patent/US20050028085A1/en not_active Abandoned
- 2002-05-03 WO PCT/US2002/013982 patent/WO2002091364A1/en active Application Filing
- 2002-05-03 EP EP02746333A patent/EP1410381A4/en not_active Ceased
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004355630A (ja) * | 2003-05-29 | 2004-12-16 | Microsoft Corp | 音声アプリケーション言語タグとともに実装される理解同期意味オブジェクト |
Also Published As
Publication number | Publication date |
---|---|
WO2002091364A1 (en) | 2002-11-14 |
US20050028085A1 (en) | 2005-02-03 |
EP1410381A1 (en) | 2004-04-21 |
EP1410381A4 (en) | 2005-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004530982A (ja) | Webサーバからの音声アプリケーション情報の動的な生成 | |
KR100431972B1 (ko) | 통상의 계층 오브젝트를 사용한 효과적인 음성네비게이션용 뼈대 구조 시스템 | |
CA2467134C (en) | Semantic object synchronous understanding for highly interactive interface | |
US7609829B2 (en) | Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution | |
US7286985B2 (en) | Method and apparatus for preprocessing text-to-speech files in a voice XML application distribution system using industry specific, social and regional expression rules | |
CA2493533C (en) | System and process for developing a voice application | |
CA2467220C (en) | Semantic object synchronous understanding implemented with speech application language tags | |
US20050234727A1 (en) | Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response | |
US20050091057A1 (en) | Voice application development methodology | |
US20050043953A1 (en) | Dynamic creation of a conversational system from dialogue objects | |
JP2003015860A (ja) | 音声対応プログラムにおける音声主導型データ選択 | |
CA2530867A1 (en) | Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an vxml-compliant voice application | |
US7395206B1 (en) | Systems and methods for managing and building directed dialogue portal applications | |
JP2004513425A (ja) | ダイアログフローインタープリタ開発ツール | |
Melin | ATLAS: A generic software platform for speech technology based applications | |
Demesticha et al. | Aspects of design and implementation of a multi-channel and multi-modal information system | |
Pargellis et al. | A language for creating speech applications. | |
Zhuk | Speech Technologies on the Way to a Natural User Interface | |
Dunn | Speech Server 2007 | |
AU2003245122A1 (en) | System and process for developing a voice application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060728 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060822 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20061120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20061120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061220 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20061220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20061220 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070125 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20070330 |