Nothing Special   »   [go: up one dir, main page]

JP2007219385A - 音声対話システム - Google Patents

音声対話システム Download PDF

Info

Publication number
JP2007219385A
JP2007219385A JP2006042422A JP2006042422A JP2007219385A JP 2007219385 A JP2007219385 A JP 2007219385A JP 2006042422 A JP2006042422 A JP 2006042422A JP 2006042422 A JP2006042422 A JP 2006042422A JP 2007219385 A JP2007219385 A JP 2007219385A
Authority
JP
Japan
Prior art keywords
dialogue
voice
dialog
state
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006042422A
Other languages
English (en)
Other versions
JP4197344B2 (ja
Inventor
Masaru Horioka
堀岡 勝
Yoshinori Atake
義徳 阿竹
Yoshinori Tawara
田原 義則
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2006042422A priority Critical patent/JP4197344B2/ja
Priority to US11/673,126 priority patent/US8095371B2/en
Publication of JP2007219385A publication Critical patent/JP2007219385A/ja
Priority to US12/253,849 priority patent/US8145494B2/en
Application granted granted Critical
Publication of JP4197344B2 publication Critical patent/JP4197344B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】音声対話システムが音声認識に失敗した場合にも効率的にオペレータに転送できるシステムを提供する。
【解決手段】オペレータ転送発生時に、対話履歴ログを利用して、利用者の問い合わせ内容や音声対話システムの状態を推定し、視覚的に理解が容易な形で提示することにより、オペレータが現在の状態を迅速に判断し、利用者への応答をスムーズに行うことを可能にする。すなわち、システムの仕様などからオペレータに表示するための対話状態を定義し、サービス開始から終了までの遷移図を作成する。対話履歴ログから現在の対話状態を判別するモデルを作成する。これらの手順を用いてオペレータ転送発生時に現在の対話状態を推定し、遷移図上で現在の対話状態を強調表示する。入力済の項目に対して対話履歴ログを用いて、その信頼度を計算し、信頼度に応じて色を変えて表示したり、時間的に古いものに関しては、文字サイズを変えて表示する。
【選択図】図1

Description

本発明は、音声対話システムに関する。更に詳しくは、音声対話システムにおける対話状態を直感的に判断するためのシステム、方法、およびプログラムに関する。
電話環境における音声対話システムでは、音声認識に失敗したり、利用者がシステムに対して応答不可能な質問を行った場合など、システムが自動応答を行うことが困難であると判断した場合、利用者からの呼は、オペレータに転送され、オペレータが音声対話システムに代わって、引き続き対応を行う。この場合、オペレータが利用者に対して、最初から用件を聞き直したりするのでは、利用者にとってもオペレータにとっても不便である。
そのため、例えば、特許文献1では、音声認識に失敗した場合に、録音音声ファイルを添付したメールを選択されたSOHO作業者などに送信し、このSOHO作業者が音声ファイルを文字変換することによりサービスを継続するシステムが開示されている。しかし、これらの行為自体に時間がかかるようであれば、利用者が待たされることになるため、利用者にとって不便であるとともに、サービス提供者からの観点から見ても各問い合わせに対する処理時間が長くなるという点で非効率である。
このように、利用者の呼が転送されたときや、利用者がオペレータとの会話を求める場合などにおいて、そのオペレータをサポートするための様々なシステムや手法が開発されている。例えば、利用者がシステムの利用方法を理解できず迷っているときなどに、オペレータを呼び出してオペレータに支援してもらうシステム(特許文献2)、音声認識精度が高く、オペレータの作業の負担を軽減するシステム(特許文献3)、利用者の知識レベルに対応して、オペレータが介在するタイミングを自動的に制御することができるシステム(特許文献4)などが開示されている。また、特許文献5では、音声認識により変換されたテキストについて、その変換がどの程度正確であるかを示すシステム信頼性レベルに従って表示するシステムが開示されている。
特開2002−140243号公報 特開平8−76965号公報 特開平10−322450号公報 特開2002−202882号公報 特開平11−231891号公報
従来、コールセンター業務などで採用されている自動音声対話システムでは、以下の対話例1に示すような、いわゆる「一問一答」形式で、システム主導により対話が進められる。
<対話例1>
システム:列車案内です。問い合わせ内容を、料金、時刻、始発、終電の4つの中よりお選びください。
利用者:時刻。
システム:出発駅をどうぞ。
利用者:東京。
システム:到着駅をどうぞ。
利用者:大阪。
システム:出発時刻、到着時刻のどちらを指定しますか?
利用者:出発時刻。
システム:出発時刻は何時ですか?
このようなシステムでは、認識可能な語彙を処理の段階毎に制限することにより、対話の遷移が制限されている。このようなシステムでは、ある項目(例:到着駅)の入力を完了しないと、次の項目(例:出発時刻、到着時刻の指定)の入力へ進むことが出来ないため、入力済みの項目から対話状態を把握することは容易に可能である。
しかしながら、近年研究開発が進められており、かつ普及が進みつつある自由対話を可能にするシステムにおいては、以下の対話例2に示すような対話が可能である。このようなシステムでは、従来型のシステムにあったような認識可能な語彙の制約は無く、任意の順番で項目の入力が行われたり、一度の発話で複数の項目の入力が行われたり、ある問い合わせの入力中に別の問い合わせに変更するといったことが可能である。
また、自由対話が可能なシステムでは、応答対象となる問い合わせのパターンや入力可能な項目の数が、従来のシステムと比較して多くなる場合があるので、単に入力済みの項目を表示するだけでは、現在の対話状態を短い時間で判断することは難しい。
<対話例2>
システム:列車案内です。ご質問をどうぞ。
利用者:東京から京都までいくらかかりますか? [料金に関する問い合わせ]
システム:東京から京都までの料金でよろしいですか?
利用者:やっぱり大阪までの時刻を調べたいのですが。 [時刻に関する問い合わせ]
システム:出発時刻、または、到着時刻は何時ですか?
利用者:21時ごろ出発で。
システム:東京から大阪まで、21時ごろ出発でよろしいですか?
利用者:新幹線の終電を教えてください。 [終電に関する問い合わせ]
システム:東京から大阪まで、新幹線の終電でよろしいですか?
利用者:はい。
前述の特許文献1にあるように、オペレータへの転送発生時にシステムからオペレータに対して情報を提示するものに関して、既に入力済みの項目をオペレータ転送時に表示するという技術は存在する。しかしながら、音声認識を用いたシステムの場合、音声認識エンジンの精度の問題から、誤認識された結果が表示される可能性もあるので、単に表示するだけでは十分であるとは言えない。また、既に入力済みの項目を表示するだけでは、下記の理由から対話状態の把握という観点からも不十分である。以降、対話状態とは、利用者のシステムに対する問い合わせ内容、および、利用者がシステムを利用して目的を達成するために、サービス開始から終了までに必要な一連の手順において、どの段階にあるかということを指す。
そこで、オペレータが利用者への応答を効率的に行うためには、転送発生時にシステムがオペレータに対して、既に利用者とシステムとの間で行われた対話に関する情報を理解が容易な形で提示する必要があるが、前述の特許文献1〜5には、このような課題に対しては十分な機能を備えたシステムおよび解決のための手法は開示されていない。
本発明は、上記の課題を解決するためになされたものであり、オペレータ転送発生時に、音声対話システムの対話履歴ログを利用して、利用者の問い合わせ内容や、利用者と音声対話システムの対話状態を推定し、転送されたオペレータに視覚的に理解が容易な形で提示することにより、オペレータが現在の対話状態を迅速に判断し、利用者への応答をスムーズに行うことを可能にするものである。
本発明の一つの形態によれば、
(1) 利用者からの音声による問い合わせに応答する音声対話システムであって、
前記利用者からの音声を認識して前記問い合わせに対する応答を行う音声対話部と、
前記音声対話部と前記利用者の対話内容を記憶する対話履歴ログと、
各対話状態をあらかじめ定義する対話状態図定義ファイルと、
前記利用者と前記音声対話部との対話状態を推定するための対話状態判別モデルと、
前記音声対話部が応答不能と判断したことに応じて、前記対話履歴ログ、前記対話状態図定義ファイル、および前記対話状態判別モデルから前記利用者と前記音声対話部との現在の対話状態を推定する対話情報解析部と、
前記推定した対話状態を視覚的にオペレータに提示する対話状態表示部と、
を備える音声対話システムを提供する。
更に、
(2)前記対話履歴ログは、前記利用者との対話内容として、サービス開始からオペレータ転送発生までの音声認識結果、前記音声認識結果に対する信頼度、前記音声認識結果の入力済みとなった項目、応答文またはそのID、サービスの開始、およびサービス終了のうち少なくともいずれか一つを含む、(1)に記載の音声対話システムを提供する。
(3)前記対話状態図定義ファイルは、各対話状態とその表示のための配置情報、表示対象となる入力項目、および各対話状態において表示すべき入力項目を定義する、(1)に記載の音声対話システムを提供する。
(4)前記対話状態判別モデルは、前記対話履歴ログから現在の対話状態を推定するための経験的なデータの集合またはアルゴリズムの集合を含む、(1)に記載の音声対話システムを提供する。
(5)前記対話情報解析部は、前記利用者の入力済みの項目の信頼度の計算、および、入力履歴の推定を行う、(1)に記載の音声対話システムを提供する。
(6)前記対話状態表示部は、前記対話状態の遷移図の上で前記現在の対話状態を強調表示する、(1)に記載の音声対話システムを提供する。
(7)前記対話状態表示部は、前記利用者の入力済みの項目に対して、前記対話履歴ログを用いて前記音声対話部の音声認識結果の信頼度を取得し、前記信頼度に応じて色を変えて表示する、(1)に記載の音声対話システムを提供する。
(8)前記対話状態表示部は、前記利用者の入力済みの項目に対して、前記対話履歴ログを用いて前記利用者の入力履歴を取得し、前記入力履歴の順に応じて文字サイズを変えて表示する、(1)に記載の音声対話システムを提供する。
本発明の別の形態によれば、
利用者からの音声による問い合わせに応答する音声対話のための方法であって、
前記利用者からの音声を認識して前記問い合わせに対する応答を行う音声対話ステップと、
前記音声対話ステップにおける前記利用者との対話履歴を対話履歴ログに記憶する対話履歴ログ記憶ステップと、
前記音声対話ステップにおいて応答不能と判断したことに応じて、前記対話履歴ログと、各対話状態をあらかじめ定義する対話状態図定義ファイルと、前記利用者と前記音声対話ステップにおける対話状態を推定するための対話状態判別モデルと、から前記利用者の前記音声対話ステップにおける現在の対話状態を推定する対話情報解析ステップと、
前記推定した対話状態を視覚的にオペレータに提示する対話状態表示ステップと、
を含む方法を提供する。
本発明の更に別の形態によれば、
利用者からの音声による問い合わせに応答する音声対話のためのコンピュータ・プログラムであって、
前記利用者からの音声を認識して前記問い合わせに対する応答を行う音声対話ステップと、
前記音声対話ステップにおける前記利用者との対話履歴を対話履歴ログに記憶する対話履歴ログ記憶ステップと、
前記音声対話ステップにおいて応答不能と判断したことに応じて、前記対話履歴ログと、前記利用者と前記音声対話ステップにおける対話状態を推定するための対話状態判別モデルと、各対話状態をあらかじめ定義する対話状態図定義ファイルとから、前記利用者の前記音声対話ステップにおける現在の対話状態を推定する対話情報解析ステップと、
前記推定した対話状態を視覚的にオペレータに提示する対話状態表示ステップと、
をコンピュータに実行させる、コンピュータ・プログラムを提供する。
また、本発明は、このようなコンピュータ・プログラムを記録したコンピュータ可読媒体を含むプログラム製品も提供する。
以上の解決手段をまとめると、本発明は、オペレータ転送発生時に、音声対話システムの対話履歴ログを利用して、利用者と対話内容(問い合わせ内容)や音声対話システムの状態を推定し、視覚的に理解が容易な形で提示することにより、オペレータが現在の状態を迅速に判断し、利用者への応答をスムーズに行うことを可能にするものである。具体的には、以下の手順により現在の対話状態を視覚的に表示する。
(1)システムの仕様などからオペレータに表示するための対話状態を定義し、サービス開始から終了までの遷移図を作成する。
(2)システムの対話履歴ログから現在の対話状態を判別するモデルを作成する。
(3) (1)、(2)の手順を用いてオペレータ転送発生時に現在の対話状態を推定し、遷移図上で現在の対話状態を強調表示する。
(4)オペレータ転送発生時に、入力済みの項目に対して、対話履歴ログを用いて、その信頼度を計算し、信頼度に応じて色を変えて表示する。
(5)オペレータ転送発生時に、入力済みの項目に対して、対話履歴ログを用いて、入力履歴を取得し、過去N回(N>1)の履歴に対して、時間的に古いものに関しては、文字サイズを例えば小さく変えて表示する。
本発明によれば、オペレータは転送時の対話状態が、サービスの開始から終了までのどの段階にあるかを、短い時間で知ることができる。また、オペレータは転送時に入力済みの項目について、その信頼度を短い時間で知ることができる。これにより、オペレータは、例えば、信頼度の高いものに対しては確認を省略したり、信頼度の低いものに関しては再度問い合わせて確認するといったことが可能になる。更に、オペレータは転送時に入力済みの項目について、過去N回の入力履歴を短い時間で知ることができる。
以下、本発明の実施形態について図面を参照しながら説明する。
図1は、本発明の好適な実施形態に係る、音声対話システム1の機能ブロック図を示している。
音声対話システム1は、図示するように、音声対話部11、対話履歴ログ12、対話状態判別モデル13、対話状態図定義ファイル14、対話情報解析部15、対話情報表示部16で主に構成される。各構成要素は、通常はネットワークに接続された、一つまたは複数のコンピュータ内に実現される。このような構成は一例であり、同等な機能を有するものであれば、他の構成であってもよい。
音声対話部11は、利用者10からの電話を受信し、利用者の発話による音声を認識して、利用者の問い合わせに対する応答を行う音声対話サービスを提供する。利用者への応答は、音声合成によって行うこともできる。音声認識・合成については、公知の技術を用いてよい。音声対話部11は、なんらかの理由により利用者への自動応答が不可能な場合は、利用者からの呼をオペレータ17へ転送する。
対話履歴ログ12は、サービス開始からオペレータへの転送時までの利用者の音声に対する音声認識の結果やシステム側からの応答文などの情報が記録されたデータの集合である。例えば、対話履歴ログ12には、以下の項目が記録されている。
・音声認識結果
・音声認識結果に対するスコア(音声認識スコア)
・音声認識の結果入力済みとなっている項目(正しく認識されたどうかにはよらない)
・応答文、または応答文を表すID(応答文ID)
・システムのサービス開始、終了を示す情報
以下に対話履歴ログ12の例を示す。
<対話履歴ログ12の例>
20050717 14:30:21 サービス開始
20050717 14:30:22 システム応答文ID:1
20050717 14:30:22 システム応答:列車案内システムにようこそ。質問をどうぞ。
20050717 14:30:29 音声認識結果:料金を教えてください。
20050717 14:30:29 音声認識スコア:料金=0、を=50、教えて=50、ください=70、全体=73
20050717 14:30:29 入力済項目:検索内容=料金、出発駅=指定なし、到着駅=指定なし、時刻=指定なし
20050717 14:30:33 システム応答文ID:2
20050717 14:30:33 システム応答:料金案内ですね。出発駅をどうぞ。
20050717 14:30:40 音声認識結果:出発は東京です。
20050717 14:30:40 音声認識スコア:出発=80、は=50、東京=90、全体=78
20050717 14:30:40 入力済項目:検索内容=料金、出発駅=東京、到着駅=指定なし
20050717 14:31:35 システム応答文ID:99
20050717 14:31:35 システム応答:ご利用ありがとうございました。
20050717 14:31:40 サービス終了
対話状態判別モデル13は、対話履歴ログ12から現在の対話状態を推定するためのモデルである。つまり、対話状態判別モデルとは、現在の対話状態を推定するための経験的なデータの集合、またはアルゴリズムの集合である。ここで、アルゴリズムには規則(ルール)が含まれる。
対話状態図定義ファイル14は、各対話状態とその表示に関する情報(配置情報など)、表示対象となる入力項目の定義、および、各対話状態において表示すべき入力項目が定義されている。詳しくは後述の例で説明する。
対話情報解析部15は、対話履歴ログ12と対話状態判別モデル13を用いて、オペレータへの転送発生時の対話状態の推定を行う。また、対話履歴ログ12から、入力済み項目の信頼度の計算、および、入力履歴の取得を行う。
対話情報表示部16は、対話情報解析部15で得られた対話状態、入力項目に関する情報を、オペレータに対して視覚的に理解が容易な形式(状態図において、強調、色分け、表示する文字サイズの変換など)で表示を行う。
図2は、本音声対話システム1の様々なサービスにおける位置づけを示したものである。音声認識を用いたサービスの例としては、後述の実施例で説明する列車料金・時刻検索システムの他、銀行預金残高照会システム、電話番号案内システム、劇場等チケット予約システム、医療機関予約システム、および、商品問い合わせに応答するヘルプデスク・システム、など広範な分野に応用が可能である。
図2において、利用者からの電話は、公衆回線を利用した電話機2a(固定電話、携帯電話、PHS)の他、パソコン2bなどを用い、インターネット網を利用したいわゆるIP電話であってよい。これらの通話は、回線制御部3を介して、音声対話システム1に接続される。既に述べたように、音声対話システム1は、一般的には一または複数のコンピュータ・システムで構成される。音声対話システム1は、利用者からの音声の認識に失敗した場合、あるいは利用者の求めに応じて、最適なオペレータが使用するオペレータ端末5a〜5cを選択するオペレータ端末選択部4に接続される。図2は、オペレータ端末選択部4を音声対話システム1とは別構成として示したが、音声対話システム1にオペレータ端末選択部4を含む構成としてもよい。
以下では、列車料金・時刻検索システムを一つの実施例として、本発明の[課題を解決する手段]で述べた手順(1)−(5)それぞれについて具体的に説明する。
まず、「(1)システムの仕様などからオペレータに表示するための対話状態を定義し、サービス開始から終了までの遷移図を作成する手順」について説明する。
まず、システムの仕様などから、オペレータに表示するための対話状態を定義する。例えば、列車料金・時刻検索システムの仕様は以下のとおりとする。
列車料金・時刻検索システムは、利用者からの音声による問い合わせに対して、列車の料金案内、発着時刻案内を行う。案内の対象は、料金案内、時刻案内、始発案内、終電案内、定期料金案内の5つである。サービスが開始されるとシステムは「お調べしたい検索内容をどうぞ」などのように、検索条件の入力を促す。利用者は、「料金を調べたい」や「東京から大阪までの料金」のように発話により、検索条件を入力する。各案内において、検索に必要な条件が全て入力されると、システムは「東京から大阪までの料金でよろしいですか?」のように、入力された検索条件の確認を行う。
ここで、利用者が「はい」などのように検索条件が正しいことを発話により入力すると、検索が実行され、「東京から大阪まで新幹線のぞみをご利用の場合、料金は13000円です」などのように結果が返される。
一方、利用者が「いいえ」などのように、検索条件が正しくないことを発話により入力すると、「訂正したい検索条件をどうぞ」などのように、再度検索条件の入力を促す。一旦検索結果が案内されると、システムは「他にお問い合わせはありますか」のように、サービスを継続して利用するかどうかの問い合わせを行う。
ここで、利用者が「はい」などのように利用継続することを発話により入力すると、システムは「お調べしたい検索内容をどうぞ」などのように、検索条件の入力を促す。一方、利用者が「いいえ」などのように利用継続を望まないことを発話により入力すると、システムは「ご利用ありがとうございました」などのように応答し、サービス終了となる。
<対話状態の例>
ここでは、上記列車料金・時刻検索システムの仕様を元に以下のように対話状態を定義する。
・サービス開始
・サービス選択中
・料金検索入力中
・料金検索確認中
・時刻検索入力中
・時刻検索確認中
・始発検索入力中
・始発検索確認中
・終電検索入力中
・終電検索確認中
・定期検索入力中
・定期検索確認中
・サービス継続確認中
・サービス終了
次に、定義した状態を元に対話情報表示部16で表示される表示レイアウトを作成する。図3の上段21に示すように、音声対話アプリケーションのサービスの開始から終了までの間の適切な箇所に対話状態を示すボックスをそれぞれ配置する(これを対話状態図、または対話状態の遷移図と呼ぶこともある)。各対話状態の配置情報は、対話状態図定義ファイル14に保存される。
また、図3の下段22に示すように、オペレータに対して表示すべき入力項目の定義を行う。以下に表示すべき入力項目の例を示す。
<表示すべき入力項目例>
・出発駅
・到着駅
・ご利用日
・時刻
・列車名
・列車種別
・人数
・定期種別
・定期期間
同時に、以下の例に示すように、各状態に対応する表示すべき入力項目の関連付けを行う。
<状態と表示すべき入力項目の関連付けの例>
・時刻検索入力中={出発駅、到着駅、ご利用日、時刻、列車名、列車種別}
・定期検索入力中={出発駅、到着駅、定期種別、定期期間}
次に、「(2)システムの対話履歴ログから現在の対話状態を判別するモデルを作成する手順」について説明する。
まず、ログから現在の対話状態を推定する対話状態判別モデル13を作成する。対話情報解析部15が、オペレータへの転送発生時にそのモデルを用いて、実行時のサービス開始から転送直前までのログより現在の対話状態を算出する。
ここでは例として、現在の対話状態S(t)を、時刻tから遡って直近の2回分の応答文IDと現在より一つ前の対話状態S(t−1)より推定する対話状態判別モデル13を作成する。時刻tにおける応答文IDをResID(t)、現在の対話状態を推定する関数をFとすると、
S(t)=F(ResID(t),ResID(t−1),S(t−1))
と表せる。
ここで、
Pr(Si |ResID(t),ResID(t−1)): 対話ログ履歴より求められた、時刻tにおける応答文IDがResID(t),時刻t−1における応答文IDがResID(t−1)であるときの、対話状態がSiである確率。
Pr(Si | ResID(t)): 対話ログ履歴より求められた、時刻tにおける応答文IDがResID(t)であるときの、対話状態がSiである確率。
対話ログ履歴より推定する関数Fの例としては、図4のフローチャートに示すような関数を考える。
図4では、ステップS11において、Pr(Si |ResID(t),ResID(t−1))>0となるSiが存在するかを判断し、そのようなSiが存在する場合は、ステップS12において、Pr(Si |ResID(t),ResID(t−1))が最大となるSiを出力とし、処理を終了する。
ステップS11の判断がNoの場合は更に、
Pr(Si |ResID(t))>0となるSiが存在するかどうかを判断し(ステップS13)、そのようなSiが存在すれば、Pr(Si |ResID(t))が最大となるSiを出力とし、処理を終了する。
ステップS13の判断がNoの場合、ステップS15において、一つ前の対話状態S(t−1)を現在の対話状態S(t)として処理を終了する。
以上、図4で示した対話状態判別モデル13の動作例は以下のようになる。
<動作例1>
Pr(状態1 |ResID(t),ResID(t−1))=0.5、
Pr(状態2 |ResID(t),ResID(t−1))=0.3、
Pr(状態3 |ResID(t),ResID(t−1))=0.2の場合、
max(0.5,0.3,0.2)=0.5なので、S(t)=状態1となる。
<動作例2>
Pr(Si |ResID(t),ResID(t−1))>0となるSiが存在せず、
Pr(状態1 |ResID(t))=0.2、
Pr(状態2 |ResID(t))=0.7、
Pr(状態3 |ResID(t))=0.2の場合、
max(0.2,0.7,0.2)=0.7なので、S(t)=状態2となる。
一般的には、作成する対話状態判別モデル13は、サービス開始時刻をt0、現在時刻をt、現在の対話状態をS(t)、現在の対話状態を推定する関数をFとすると、
S(t)=F(時刻t0から時刻tまでのログ, 時刻t0から時刻tまでの対話状態)と表すことができる。先の例では、Fの入力パラメータは、ResID(応答文ID)と過去の状態Sであったが、これに利用者の発話の認識結果などを追加することなども考えられる。また、対話状態判別モデル13は、先の例のように既存のログから学習を行う統計モデルでもよいし、後述するようなルールベースであってもよい。
次に、「(3)前述した手順(1)、(2)を用いてオペレータ転送発生時に現在の対話状態を推定し、遷移図上で現在の対話状態を強調表示する手順」について説明する。
対話情報表示部16はシステムの利用開始から終了までの流れを表す対話状態図を表示する。ここで、(2)で作成した対話状態判別モデル13と対話履歴ログ12から対話情報解析部15が出力した現在の対話状態を、状態図上で強調して表示する。この表示例を図5に示す。図5の例の場合、利用者は現在、「時刻検索入力中」43が強調表示(図では白抜きで表示)されているので、現時点(オペレータに転送された時点)の状態が、「時刻検索入力中」での状態であることが容易に判断できる。また、現在の状態に、「サービス開始」41と「サービス選択中」42を経由して至ったことも経由した状態が強調表示(図では太枠で表示)され、容易に判断できる。更に、画面下部の入力済み項目から、「出発駅」51、「ご利用日」53、「時刻」54が既に入力済みであることも判断できる。
一方、対話状態判別モデル13の結果からでは、現在の対話状態があいまいである場合、すなわち図4のステップS12またはS14において、最大確率が同じまたはほぼ同じである複数のSiが見つかった場合は、候補となる状態を強調表示する。これを図6の例で示す。図6の例では、対話状態が時刻検索入力中43と始発検索入力中44のどちらであるのか、あいまいである様子を表している。
次に、「(4)オペレータ転送発生時に、入力済みの項目に対して、対話履歴ログ12を用いて、その信頼度を計算し、信頼度に応じて色を変えて表示する手順」について説明する。
各入力済みの項目に対して、過去の入力履歴と共に、対話履歴ログ12に含まれる音声認識エンジンのスコア、各入力済みの項目の更新回数、対話状態の履歴などから信頼度を算出し、算出された信頼度により表示する。
入力済みの項目の信頼度の定義は、アプリケーションにより異なるが、ここでは、音声対話部11が提供する音声認識のスコア、入力済みの項目の更新履歴、対話状態の履歴より求めることとし、以下の4段階とする。
<入力済み項目の信頼度の定義>
初期値として入力済み: 初期値としてシステムにより入力されている。
入力済み(信頼度低): 音声認識のスコアが閾値以下である。または、入力済みの項
目が直近のN発話において、一定回数以上更新されている。
入力済み(信頼度高): 音声認識のスコアが閾値以上である。
確認済み: 指定された情報が確認済みである。
ここで「情報が確認済みである」とは、音声対話部11の実行中に、「指定された情報に対して確認を行うプロセス」が存在し、利用者により確認が行われた状態を指す。
以下に示す対話例3および対話例4では、音声による列車案内を提供するアプリケーションにおいて、「指定された情報に対して確認を行うプロセス」として「終電検索のための発着駅を確認する」というプロセスが存在し、「出発駅」と「到着駅」は、利用者により確認が行われている。一方、別の発話により入力された「利用日:今日」、システムが初期値として入力した「列車種別:新幹線」、「列車名:のぞみ」は音声対話部11が確認済みではない。
システムに音声入力された情報の対話履歴ログ12から、既に入力された情報の信頼度を算出し、各々の情報を信頼度に従って表示する。図7、図8では、信頼度を色により表示している(緑:初期値として入力済み、黄色:入力済み(信頼度低)、白色:入力済み(信頼度高)、水色:確認済み)としている例である(ただし、図中では、緑色、黄色、白色、水色はそれぞれ異なるハッチングで表現している)。
<対話例3>
システム: 列車案内です。ご用件をどうぞ。
利用者: 東京から神戸までの終電を知りたいんだけど。
システム: 東京から神目までの終電でよろしいですか?
利用者: 神戸までにして。
システム: 東京から神目までの終電でよろしいですか?
利用者: 神戸まで。
システム: 東京から甲奴までの終電でよろしいですか? <対話状態1>
図7は、対話例3で対話状態1での対話状態を表示したものである。対話状態は「終電検索確認中」46であり、入力済みの項目のうち、「出発駅」51は信頼度高、「到着駅」52は信頼度低、「ご利用日」53、「列車名」55、「列車種別」56は初期値として入力済み、であることを表している。また、現在の対話状態「終電検索確認中」46に至るまでの経路として、「サービス開始」41、「サービス選択中」42、「終電検索入力中」45の各状態を経由したことが示されている。この例では、利用者の求める「到着駅」52である「神戸」を、音声対話部11は、「神目」、「神目」、「甲奴」と三度認識している(この例では、入力に対して認識された順に、文字の大きさを変化させて表示している)が、入力回数から誤認識の可能性が高いため、信頼度低として表示されている。この例では、音声対話部11は、音声認識の信頼度が低くなったので、応答不能と判断し、利用者からの呼をオペレータに転送する。
<対話例4>
システム: 列車案内です。ご用件をどうぞ。
利用者: 東京から大阪までの終電を知りたいんだけど。
システム: 東京から大阪までの終電でよろしいですか?
利用者: はい。
システム: ご利用日は今日でよろしいですか?
利用者: 明日でお願いします。
システム: ご利用日は明日、新幹線、のぞみのご利用でよろしいですか?
利用者: オペレータに代わってくれますか? <対話状態2>
図8は、対話例4で対話状態2での対話状態を表示したものである。対話状態は、図7同様、「終電検索確認中」46であり、入力済みの項目のうち、「出発駅」51、「到着駅」52は確認済み、「ご利用日」53は信頼度高、「列車名」55、「列車種別」56は初期値として入力済み、であることを表している。この例では、音声対話部11は、利用者の要求で自動応答が不能になったとして、呼をオペレータに転送する。
これ以外にも、信頼度の表示方法としては、信頼度の低い項目を太枠で強調表示するなど様々な方法が考えられる。これにより、オペレータは、音声認識で失敗した可能性の高い場所を知ることや、既に入力済みの項目に対して確認済みの項目を知ることが可能となる。
最後に、「(5)オペレータ転送発生時に、入力済みの項目に対して、対話履歴ログを用いて、入力履歴を取得し、過去N回(N>1)の履歴に対して、時間的に古いものに関しては、文字サイズを小さく変えて表示する手順」について説明する。
ある入力項目に対して誤認識の訂正などのために複数回入力が行われた場合は、図7の到着駅の項目で示したように、過去N回までの入力履歴を表示する。表示される入力項目は、過去のものであればあるほど小さく表示される。Nは表示領域などの制限などに応じて、適切に設定されるものとする。
<対話状態判別モデルの別の例>
以下、ルールベースの対話状態判別モデル13の例を示す。ルールベースの対話状態判別モデル13では、関数Fは対話状態を決定するルールによりS(t)を得る。以下では単純な例として、転送発生時tの応答文ID(ResID(t))、時刻t−1の対話状態S(t−1)から、転送発生時の対話状態S(t)を得るものを紹介する。図9は、転送発生時の応答文IDと対応する応答文、およびそのときの対話状態の関係を表で表したものである。
ルールベースの対話状態判別モデル13における関数Fの動作を図10に示す。関数Fは、転送発生時刻tにおける応答文ID(ResID(t))に対して、上記表で表される関係をルールとして用い、対話状態S(t)を決定する(ステップS61〜S65)。入力された応答文IDが上記表中に存在しない場合、ステップS65に示すように、対話状態S(t)は、S(t−1)となる(ただし、S(0)すなわち初期対話状態は事前に与えられるものとする)。また例えば、転送発生時の応答文ID(ResID(t))が“2”であった場合は(ステップS63)、図9の表により、関数Fにより出力される対話状態S(t)は“料金検索入力中”となる。
本発明は、ハードウエア、ソフトウエア、またはハードウエアおよびソフトウエアの組み合わせとして実現可能である。ハードウエアとソフトウエアの組み合わせによる実施では、所定のプログラムを有するコンピュータ・システムでの実施が典型的な例として挙げられる。かかる場合、該所定プログラムが該コンピュータ・システムにロードされ実行されることにより、該プログラムは、コンピュータ・システムに本発明にかかる処理を実行させる。このプログラムは、任意の言語、コード、または表記によって表現可能な命令群から構成される。そのような命令群は、システムが特定の機能を直接実行すること、または(1)他の言語、コード、もしくは表記への変換、(2)他の媒体への複製、のいずれか一方もしくは双方が行われた後に、実行することを可能にするものである。もちろん、本発明は、そのようなプログラム自体のみならず、プログラムを記録した媒体を含むプログラム製品もその範囲に含むものである。本発明の機能を実行するためのプログラムは、フレキシブル・ディスク、MO、CD−ROM、DVD、ハード・ディスク装置、ROM、MRAM、RAM等の任意のコンピュータ可読媒体に格納することができる。かかるプログラムは、コンピュータ可読媒体への格納のために、通信回線で接続する他のコンピュータ・システムからダウンロードしたり、他の媒体から複製したりすることができる。また、かかるプログラムは、圧縮し、または複数に分割して、単一または複数の記録媒体に格納することもできる。
以上、本発明を好適な実施形態、および実施例を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲に限定されるものではない。上記実施形態に多様な変更または改良を加えることが可能である。また、そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
本発明の好適な一つの実施形態に係る機能ブロック図を示す図である。 本発明の好適な一つの実施形態に係る音声対話システムのサービスの中の位置づけを示すブロック図である。 本発明の好適な一つの実施例における対話状態および入力項目の表示例を示す図である。 本発明の好適な一つの実施例における対話状態判別モデルの例を示すフローチャート図である。 本発明の好適な一つの実施例における現在の対話状態を強調表示している例を示す図である。 本発明の好適な一つの実施例における現在の対話状態があいまいである様子を表示している例を示す図である。 本発明の好適な一つの実施例における対話例3の対話状態1における対話状態を示す図である。 本発明の好適な一つの実施例における対話例3の対話状態2における対話状態を示す図である。 本発明の好適な一つの実施例における応答文IDから対話状態を決定するルールを示す表である。 本発明の好適な一つの実施例におけるルールによる対話状態判別モデルの例を示すフローチャート図である。
符号の説明
1 音声対話システム
2a 電話機
2b パソコン
3 回線制御部
4 オペレータ端末選択部
5a、5b、5c オペレータ端末
10 利用者
11 音声対話部
12 対話履歴ログ
13 対話状態判別モデル
14 対話状態図定義ファイル
15 対話情報解析部
16 対話情報表示部
17 オペレータ
21 対話状態遷移図の例
22 入力項目

Claims (21)

  1. 利用者からの音声による問い合わせに応答する音声対話システムであって、
    前記利用者からの音声を認識して前記問い合わせに対する応答を行う音声対話部と、
    前記音声対話部と前記利用者の対話内容を記憶する対話履歴ログと、
    各対話状態をあらかじめ定義する対話状態図定義ファイルと、
    前記利用者と前記音声対話部との対話状態を推定するための対話状態判別モデルと、
    前記音声対話部が応答不能と判断したことに応じて、前記対話履歴ログ、前記対話状態図定義ファイル、および前記対話状態判別モデルから前記利用者と前記音声対話部との現在の対話状態を推定する対話情報解析部と、
    前記推定した対話状態を視覚的にオペレータに提示する対話状態表示部と、
    を備える音声対話システム。
  2. 前記対話履歴ログは、前記利用者との対話内容として、サービス開始からオペレータ転送発生までの音声認識結果、前記音声認識結果に対する信頼度、前記音声認識結果の入力済みとなった項目、応答文またはそのID、サービスの開始、およびサービス終了のうち少なくともいずれか一つを含む、請求項1に記載の音声対話システム。
  3. 前記対話状態図定義ファイルは、各対話状態とその表示のための配置情報、表示対象となる入力項目、および各対話状態において表示すべき入力項目を定義する、請求項1に記載の音声対話システム。
  4. 前記対話状態判別モデルは、前記対話履歴ログから現在の対話状態を推定するための経験的なデータの集合またはアルゴリズムの集合を含む、請求項1に記載の音声対話システム。
  5. 前記対話情報解析部は、前記利用者の入力済みの項目の信頼度の計算、および、入力履歴の推定を行う、請求項1に記載の音声対話システム。
  6. 前記対話状態表示部は、前記対話状態の遷移図の上で前記現在の対話状態を強調表示する、請求項1に記載の音声対話システム。
  7. 前記対話状態表示部は、前記利用者の入力済みの項目に対して、前記対話履歴ログを用いて前記音声対話部の音声認識結果の信頼度を取得し、前記信頼度に応じて色を変えて表示する、請求項1に記載の音声対話システム。
  8. 前記対話状態表示部は、前記利用者の入力済みの項目に対して、前記対話履歴ログを用いて前記利用者の入力履歴を取得し、前記入力履歴の順に応じて文字サイズを変えて表示する、請求項1に記載の音声対話システム。
  9. 利用者からの音声による問い合わせに応答する音声対話のための方法であって、
    前記利用者からの音声を認識して前記問い合わせに対する応答を行う音声対話ステップと、
    前記音声対話ステップにおける前記利用者のとの対話履歴を対話履歴ログに記憶する対話履歴ログ記憶ステップと、
    前記音声対話ステップにおいて応答不能と判断したことに応じて、前記対話履歴ログと、各対話状態をあらかじめ定義する対話状態図定義ファイルと、前記利用者と前記音声対話ステップにおける対話状態を推定するための対話状態判別モデルと、から前記利用者の前記音声対話ステップにおける現在の対話状態を推定する対話情報解析ステップと、
    前記推定した対話状態を視覚的にオペレータに提示する対話状態表示ステップと、
    を含む方法。
  10. 前記対話履歴ログは、前記利用者の問い合わせ内容として、サービス開始からオペレータ転送発生までの音声認識結果、前記音声認識結果に対する信頼度、前記音声認識結果の入力済みとなった項目、応答文またはそのID、サービスの開始、およびサービス終了のうち少なくともいずれか一つを含む、請求項9に記載の方法。
  11. 前記対話状態図定義ファイルは、各対話状態とその表示のための配置情報、表示対象となる入力項目、および各対話状態において表示すべき入力項目を定義する、請求項9に記載の方法。
  12. 前記対話状態判別モデルは、前記対話履歴ログから現在の対話状態を推定するための経験的なデータの集合またはアルゴリズムの集合を含む、請求項9に記載の方法。
  13. 前記対話情報解析ステップは、前記利用者の入力済みの項目の信頼度の計算、および、入力履歴の推定を行う、請求項9に記載の方法。
  14. 前記対話状態表示ステップは、前記対話状態の遷移図の上で前記現在の対話状態を強調表示する、請求項9に記載の方法。
  15. 利用者からの音声による問い合わせに応答する音声対話のためのコンピュータ・プログラムであって、
    前記利用者からの音声を認識して前記問い合わせに対する応答を行う音声対話ステップと、
    前記音声対話ステップにおける前記利用者との対話履歴を対話履歴ログに記憶する対話履歴ログ記憶ステップと、
    前記音声対話ステップにおいて応答不能と判断したことに応じて、前記対話履歴ログと、前記利用者と前記音声対話ステップにおける対話状態を推定するための対話状態判別モデルと、各対話状態をあらかじめ定義する対話状態図定義ファイルとから、前記利用者の前記音声対話ステップにおける現在の対話状態を推定する対話情報解析ステップと、
    前記推定した対話状態を視覚的にオペレータに提示する対話状態表示ステップと、
    をコンピュータに実行させる、コンピュータ・プログラム。
  16. 前記対話履歴ログは、前記利用者との対話内容として、サービス開始からオペレータ転送発生までの音声認識結果、前記音声認識結果に対する信頼度、前記音声認識結果の入力済みとなった項目、応答文またはそのID、サービスの開始、およびサービス終了のうち少なくともいずれか一つを含む、請求項15に記載のコンピュータ・プログラム。
  17. 前記対話状態図定義ファイルは、各対話状態とその表示のための配置情報、表示対象となる入力項目、および各対話状態において表示すべき入力項目を定義する、請求項15に記載のコンピュータ・プログラム。
  18. 前記対話状態判別モデルは、前記対話履歴ログから現在の対話状態を推定するための経験的なデータの集合またはアルゴリズムの集合を含む、請求項15に記載のコンピュータ・プログラム。
  19. 前記対話情報解析ステップは、前記利用者の入力済みの項目の信頼度の計算、および、入力履歴の推定を行う、請求項15に記載のコンピュータ・プログラム。
  20. 前記対話状態表示ステップは、前記対話状態の遷移図の上で前記現在の対話状態を強調表示する、請求項15に記載のコンピュータ・プログラム。
  21. 利用者からの音声による問い合わせに応答する音声対話のためのプログラム製品であって、
    コンピュータ・プログラムを記録したコンピュータ可読媒体を含み、
    前記コンピュータ・プログラムは、
    前記利用者からの音声を認識して前記問い合わせに対する応答を行う音声対話コード手段と、
    前記音声対話コード手段における前記利用者との対話履歴を対話履歴ログに記憶する対話履歴ログ記憶コード手段と、
    前記音声対話コード手段において応答不能と判断したことに応じて、前記対話履歴ログと、前記利用者と前記音声対話コード手段における対話状態を推定するための対話状態判別モデルと、各対話状態をあらかじめ定義する対話状態図定義ファイルとから、前記利用者の前記音声対話コード手段における現在の対話状態を推定する対話情報解析コード手段と、
    前記推定した対話状態を視覚的にオペレータに提示する対話状態表示コード手段と、
    を含む、プログラム製品。
JP2006042422A 2006-02-20 2006-02-20 音声対話システム Expired - Fee Related JP4197344B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006042422A JP4197344B2 (ja) 2006-02-20 2006-02-20 音声対話システム
US11/673,126 US8095371B2 (en) 2006-02-20 2007-02-09 Computer-implemented voice response method using a dialog state diagram to facilitate operator intervention
US12/253,849 US8145494B2 (en) 2006-02-20 2008-10-17 Voice response system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006042422A JP4197344B2 (ja) 2006-02-20 2006-02-20 音声対話システム

Publications (2)

Publication Number Publication Date
JP2007219385A true JP2007219385A (ja) 2007-08-30
JP4197344B2 JP4197344B2 (ja) 2008-12-17

Family

ID=38429422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006042422A Expired - Fee Related JP4197344B2 (ja) 2006-02-20 2006-02-20 音声対話システム

Country Status (2)

Country Link
US (2) US8095371B2 (ja)
JP (1) JP4197344B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010091962A (ja) * 2008-10-10 2010-04-22 Denso Corp 情報処理装置,インタフェース提供方法およびプログラム
WO2010117688A2 (en) * 2009-03-30 2010-10-14 Microsoft Corporation Adaptation for statistical language model
JP2015036826A (ja) * 2013-08-12 2015-02-23 日本電気株式会社 コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP2018501721A (ja) * 2014-12-09 2018-01-18 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 音声情報を処理するための方法及び装置
JP2018081444A (ja) * 2016-11-15 2018-05-24 ソフトバンク株式会社 ユーザーサポートシステム、ユーザーサポートプログラム及びユーザーサポート方法
JP2019522914A (ja) * 2016-06-13 2019-08-15 グーグル エルエルシー 人間のオペレータへのエスカレーション
US10827064B2 (en) 2016-06-13 2020-11-03 Google Llc Automated call requests with status updates
US11303749B1 (en) 2020-10-06 2022-04-12 Google Llc Automatic navigation of an interactive voice response (IVR) tree on behalf of human user(s)
US11468893B2 (en) 2019-05-06 2022-10-11 Google Llc Automated calling system
US12080285B2 (en) 2020-03-20 2024-09-03 Google Llc Semi-delegated calling by an automated assistant on behalf of human participant

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9635154B1 (en) * 2008-02-08 2017-04-25 West Corporation Real-time monitoring of caller experience for a group of steps in a call flow
US9094485B1 (en) * 2008-02-08 2015-07-28 West Corporation Real-time adjustment for better caller experience
DE102008046431A1 (de) * 2008-09-09 2010-03-11 Deutsche Telekom Ag Sprachdialogsystem mit Reject-Vermeidungsverfahren
US8943394B2 (en) * 2008-11-19 2015-01-27 Robert Bosch Gmbh System and method for interacting with live agents in an automated call center
US8934618B2 (en) * 2008-12-29 2015-01-13 Avaya Inc. Method for analysing an interactive voice response system
US8379804B2 (en) * 2009-01-07 2013-02-19 International Business Machines Corporation Using a complex events processor (CEP) to direct the handling of individual call sessions by an interactive voice response (IVR) system
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US20110246194A1 (en) * 2010-03-30 2011-10-06 Nvoq Incorporated Indicia to indicate a dictation application is capable of receiving audio
US8694313B2 (en) * 2010-05-19 2014-04-08 Google Inc. Disambiguation of contact information using historical data
US8848882B2 (en) * 2010-07-07 2014-09-30 Verizon Patent And Licensing Inc. System for and method of measuring caller interactions during a call session
US8645136B2 (en) 2010-07-20 2014-02-04 Intellisist, Inc. System and method for efficiently reducing transcription error using hybrid voice transcription
KR101169045B1 (ko) * 2010-08-24 2012-07-26 (주) 콜게이트 음성-화면 ars 서비스 시스템 및 그 제공방법과 컴퓨터 판독 가능한 기록매체
JP5431282B2 (ja) * 2010-09-28 2014-03-05 株式会社東芝 音声対話装置、方法、プログラム
WO2015105994A1 (en) 2014-01-08 2015-07-16 Callminer, Inc. Real-time conversational analytics facility
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US10482184B2 (en) 2015-03-08 2019-11-19 Google Llc Context-based natural language processing
US20170364323A1 (en) * 2015-03-12 2017-12-21 Kabushiki Kaisha Toshiba Dialogue support apparatus, method and terminal
WO2016147400A1 (ja) * 2015-03-19 2016-09-22 株式会社 東芝 対話データ収集システム、対話データ収集方法、対話データ収集プログラム、対話データ収集支援装置、対話データ収集支援方法および対話データ収集支援プログラム
EP3369175B1 (en) * 2015-10-28 2024-01-10 DTS, Inc. Object-based audio signal balancing
US10063702B2 (en) * 2015-12-30 2018-08-28 Shanghai Xiaoi Robot Technology Co., Ltd. Intelligent customer service systems, customer service robots, and methods for providing customer service
US9978367B2 (en) * 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
WO2018179373A1 (ja) * 2017-03-31 2018-10-04 日本電気株式会社 会話支援装置、会話支援方法、及びコンピュータ読み取り可能な記録媒体
US20180314532A1 (en) * 2017-04-26 2018-11-01 Google Inc. Organizing messages exchanged in human-to-computer dialogs with automated assistants
JP6787269B2 (ja) * 2017-07-21 2020-11-18 トヨタ自動車株式会社 音声認識システム及び音声認識方法
JP2019046267A (ja) * 2017-09-04 2019-03-22 トヨタ自動車株式会社 情報提供方法、情報提供システム、および情報提供装置
US11037554B1 (en) * 2017-09-12 2021-06-15 Wells Fargo Bank, N.A. Network of domain knowledge based conversational agents
KR102485253B1 (ko) * 2017-11-10 2023-01-06 현대자동차주식회사 대화 시스템 및 그 제어방법
US10885119B2 (en) 2017-11-24 2021-01-05 Wipro Limited Method and system for processing multimodal user queries
JP7004955B2 (ja) * 2017-12-11 2022-01-21 トヨタ自動車株式会社 サービス提供装置、サービス提供プログラム及び音声認識によるサービスを提供する方法
CN110879837B (zh) * 2018-09-06 2022-01-14 华为技术有限公司 一种信息处理方法及装置
US10908883B2 (en) * 2018-11-13 2021-02-02 Adobe Inc. Voice interaction development tool
US10847156B2 (en) 2018-11-28 2020-11-24 Adobe Inc. Assembled voice interaction
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
US11017771B2 (en) 2019-01-18 2021-05-25 Adobe Inc. Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets
US10964322B2 (en) 2019-01-23 2021-03-30 Adobe Inc. Voice interaction tool for voice-assisted application prototypes
WO2020166183A1 (ja) * 2019-02-13 2020-08-20 ソニー株式会社 情報処理装置及び情報処理方法
US11580970B2 (en) * 2019-04-05 2023-02-14 Samsung Electronics Co., Ltd. System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
US11133006B2 (en) * 2019-07-19 2021-09-28 International Business Machines Corporation Enhancing test coverage of dialogue models
CN111833854B (zh) * 2020-01-08 2024-07-16 北京嘀嘀无限科技发展有限公司 一种人机交互方法与终端、计算机可读存储介质
CN112329907A (zh) * 2020-12-24 2021-02-05 北京百度网讯科技有限公司 对话处理方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05216618A (ja) * 1991-11-18 1993-08-27 Toshiba Corp 音声対話システム
JPH0876965A (ja) * 1994-09-07 1996-03-22 Toshiba Corp 音声認識システム
JP2002202882A (ja) * 2000-12-28 2002-07-19 Fujitsu Ltd 音声対話システム及び音声対話方法

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0543329B1 (en) * 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
CN1097769C (zh) * 1995-01-18 2003-01-01 皇家菲利浦电子有限公司 提供可由操作员干预支持的人机对话的方法和设备
JP3810551B2 (ja) 1997-03-18 2006-08-16 株式会社エヌ・ティ・ティ・データ 音声認識システム、コールセンタシステム、音声認識方法及び記録媒体
WO1998050907A1 (en) * 1997-05-06 1998-11-12 Speechworks International, Inc. System and method for developing interactive speech applications
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
US6047060A (en) * 1998-02-20 2000-04-04 Genesys Telecommunications Laboratories, Inc. Method and apparatus for enabling full interactive monitoring of calls to and from a call-in center
JP3125746B2 (ja) * 1998-05-27 2001-01-22 日本電気株式会社 人物像対話装置及び人物像対話プログラムを記録した記録媒体
DE19830007A1 (de) * 1998-06-24 1999-12-30 Deutsche Telekom Ag Verfahren zum Betreiben eines globalen, virtuellen Call-Centers
US6219643B1 (en) * 1998-06-26 2001-04-17 Nuance Communications, Inc. Method of analyzing dialogs in a natural language speech recognition system
US6377949B1 (en) * 1998-09-18 2002-04-23 Tacit Knowledge Systems, Inc. Method and apparatus for assigning a confidence level to a term within a user knowledge profile
US6278454B1 (en) * 1998-09-24 2001-08-21 Ericsson Inc. Call progress graphical user interface
US6246981B1 (en) * 1998-11-25 2001-06-12 International Business Machines Corporation Natural language task-oriented dialog manager and method
US6356869B1 (en) * 1999-04-30 2002-03-12 Nortel Networks Limited Method and apparatus for discourse management
TW501046B (en) * 1999-06-11 2002-09-01 Ind Tech Res Inst A portable dialogue manager
US6836537B1 (en) * 1999-09-13 2004-12-28 Microstrategy Incorporated System and method for real-time, personalized, dynamic, interactive voice services for information related to existing travel schedule
US6510411B1 (en) * 1999-10-29 2003-01-21 Unisys Corporation Task oriented dialog model and manager
ATE405918T1 (de) * 1999-12-20 2008-09-15 British Telecomm Das lernen von dialogzuständen und sprachmodellen des gesprochenen informationssystems
US6763104B1 (en) * 2000-02-24 2004-07-13 Teltronics, Inc. Call center IVR and ACD scripting method and graphical user interface
US6707904B1 (en) * 2000-02-25 2004-03-16 Teltronics, Inc. Method and system for collecting reports for call center monitoring by supervisor
AU2001245447A1 (en) * 2000-03-06 2001-09-17 Kanisa Inc. A system and method for providing an intelligent multi-step dialog with a user
US7143040B2 (en) * 2000-07-20 2006-11-28 British Telecommunications Public Limited Company Interactive dialogues
US7024348B1 (en) * 2000-09-28 2006-04-04 Unisys Corporation Dialogue flow interpreter development tool
JP2002140243A (ja) 2000-10-31 2002-05-17 Arcadia:Kk ネットワークシステム、処理管理装置
GB0030078D0 (en) * 2000-12-09 2001-01-24 Hewlett Packard Co Voice service system and method
US7003079B1 (en) * 2001-03-05 2006-02-21 Bbnt Solutions Llc Apparatus and method for monitoring performance of an automated response system
US6922466B1 (en) * 2001-03-05 2005-07-26 Verizon Corporate Services Group Inc. System and method for assessing a call center
US6937705B1 (en) * 2001-03-05 2005-08-30 Verizon Corporate Services Group Inc. Apparatus and method for visually representing events in calls handled by an automated response system
US6879685B1 (en) * 2001-03-05 2005-04-12 Verizon Corporate Services Group Inc. Apparatus and method for analyzing routing of calls in an automated response system
WO2002087202A1 (en) * 2001-04-19 2002-10-31 British Telecommunications Public Limited Company Voice response system
EP1255190A1 (en) * 2001-05-04 2002-11-06 Microsoft Corporation Interface control
EP1378886A1 (en) * 2002-07-02 2004-01-07 Ubicall Communications en abrégé "UbiCall" S.A. Speech recognition device
US7177815B2 (en) * 2002-07-05 2007-02-13 At&T Corp. System and method of context-sensitive help for multi-modal dialog systems
EP1525739A1 (en) * 2002-07-29 2005-04-27 British Telecommunications Public Limited Company Improvements in or relating to information provision for call centres
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US7080323B2 (en) * 2002-10-03 2006-07-18 Sbc Properties, L.P. Dynamic and adaptable system and method for selecting a user interface dialogue model
US20040162724A1 (en) * 2003-02-11 2004-08-19 Jeffrey Hill Management of conversations
US7606714B2 (en) * 2003-02-11 2009-10-20 Microsoft Corporation Natural language classification within an automated response system
US7103553B2 (en) * 2003-06-04 2006-09-05 Matsushita Electric Industrial Co., Ltd. Assistive call center interface
US20040264677A1 (en) * 2003-06-30 2004-12-30 Horvitz Eric J. Ideal transfer of call handling from automated systems to human operators based on forecasts of automation efficacy and operator load
US20050010418A1 (en) * 2003-07-10 2005-01-13 Vocollect, Inc. Method and system for intelligent prompt control in a multimodal software application
US20050069122A1 (en) * 2003-09-30 2005-03-31 Xiaofan Lin System and method for operator assisted automated call handling
US8189762B2 (en) * 2003-10-30 2012-05-29 Hewlett-Packard Development Company, L.P. System and method for interactive voice response enhanced out-calling
US7945903B1 (en) * 2004-04-16 2011-05-17 At&T Intellectual Property Ii, L.P. System and method for converting graphical call flows into finite state machines
US7398212B2 (en) * 2004-04-22 2008-07-08 Hewlett-Packard Development Company, L.P. System and method for quality of service management with a call handling system
US8687792B2 (en) * 2004-04-22 2014-04-01 Hewlett-Packard Development Company, L.P. System and method for dialog management within a call handling system
JP3962766B2 (ja) * 2004-10-08 2007-08-22 松下電器産業株式会社 対話支援装置
CN1842787B (zh) * 2004-10-08 2011-12-07 松下电器产业株式会社 对话支援装置
JP4679254B2 (ja) * 2004-10-28 2011-04-27 富士通株式会社 対話システム、対話方法、及びコンピュータプログラム
US20060095267A1 (en) * 2004-10-28 2006-05-04 Fujitsu Limited Dialogue system, dialogue method, and recording medium
US7881440B2 (en) * 2004-12-22 2011-02-01 At&T Intellectual Property Ii, L.P. Method for automatic graphical profiling of a system
JP2006189626A (ja) * 2005-01-06 2006-07-20 Fuji Photo Film Co Ltd 記録装置及び音声記録プログラム
US20060155526A1 (en) * 2005-01-10 2006-07-13 At&T Corp. Systems, Devices, & Methods for automating non-deterministic processes
US8490015B2 (en) * 2005-04-15 2013-07-16 Microsoft Corporation Task dialog and programming interface for same
US7720684B2 (en) * 2005-04-29 2010-05-18 Nuance Communications, Inc. Method, apparatus, and computer program product for one-step correction of voice interaction
JP4680691B2 (ja) * 2005-06-15 2011-05-11 富士通株式会社 対話システム
TWI277948B (en) * 2005-09-02 2007-04-01 Delta Electronics Inc Method and system for template inquiry dialogue system
US20070115920A1 (en) * 2005-10-18 2007-05-24 Microsoft Corporation Dialog authoring and execution framework
US8019057B2 (en) * 2005-12-21 2011-09-13 Verizon Business Global Llc Systems and methods for generating and testing interactive voice response applications
US7924986B2 (en) * 2006-01-27 2011-04-12 Accenture Global Services Limited IVR system manager
US7593522B2 (en) * 2006-03-09 2009-09-22 At&T Intellectual Property I, L.P. Call center user interface and methods of using same
US7872994B2 (en) * 2006-08-11 2011-01-18 Cisco Technology, Inc. SIP out-of-dialog REFER mechanism for handoff between front-end and back-end services
US20080104512A1 (en) * 2006-10-31 2008-05-01 Motorola, Inc. Method and apparatus for providing realtime feedback in a voice dialog system
US9082406B2 (en) * 2006-11-30 2015-07-14 Robert Bosch Llc Method and system for extending dialog systems to process complex activities for applications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05216618A (ja) * 1991-11-18 1993-08-27 Toshiba Corp 音声対話システム
JPH0876965A (ja) * 1994-09-07 1996-03-22 Toshiba Corp 音声認識システム
JP2002202882A (ja) * 2000-12-28 2002-07-19 Fujitsu Ltd 音声対話システム及び音声対話方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010091962A (ja) * 2008-10-10 2010-04-22 Denso Corp 情報処理装置,インタフェース提供方法およびプログラム
WO2010117688A2 (en) * 2009-03-30 2010-10-14 Microsoft Corporation Adaptation for statistical language model
WO2010117688A3 (en) * 2009-03-30 2011-01-13 Microsoft Corporation Adaptation for statistical language model
CN102369567A (zh) * 2009-03-30 2012-03-07 微软公司 用于统计语言模型的自适应
CN102369567B (zh) * 2009-03-30 2013-07-17 微软公司 用于统计语言模型的自适应
US8798983B2 (en) 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
JP2015036826A (ja) * 2013-08-12 2015-02-23 日本電気株式会社 コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP2018501721A (ja) * 2014-12-09 2018-01-18 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 音声情報を処理するための方法及び装置
US10708423B2 (en) 2014-12-09 2020-07-07 Alibaba Group Holding Limited Method and apparatus for processing voice information to determine emotion based on volume and pacing of the voice
US20190306314A1 (en) 2016-06-13 2019-10-03 Google Llc Automated call requests with status updates
JP2019522914A (ja) * 2016-06-13 2019-08-15 グーグル エルエルシー 人間のオペレータへのエスカレーション
US10827064B2 (en) 2016-06-13 2020-11-03 Google Llc Automated call requests with status updates
US10917522B2 (en) 2016-06-13 2021-02-09 Google Llc Automated call requests with status updates
US11563850B2 (en) 2016-06-13 2023-01-24 Google Llc Automated call requests with status updates
US11936810B2 (en) 2016-06-13 2024-03-19 Google Llc Automated call requests with status updates
JP2018081444A (ja) * 2016-11-15 2018-05-24 ソフトバンク株式会社 ユーザーサポートシステム、ユーザーサポートプログラム及びユーザーサポート方法
US11468893B2 (en) 2019-05-06 2022-10-11 Google Llc Automated calling system
US12112755B2 (en) 2019-05-06 2024-10-08 Google Llc Automated calling system
US12080285B2 (en) 2020-03-20 2024-09-03 Google Llc Semi-delegated calling by an automated assistant on behalf of human participant
US11303749B1 (en) 2020-10-06 2022-04-12 Google Llc Automatic navigation of an interactive voice response (IVR) tree on behalf of human user(s)
US20220201119A1 (en) 2020-10-06 2022-06-23 Google Llc Automatic navigation of an interactive voice response (ivr) tree on behalf of human user(s)
US11843718B2 (en) 2020-10-06 2023-12-12 Google Llc Automatic navigation of an interactive voice response (IVR) tree on behalf of human user(s)

Also Published As

Publication number Publication date
US8095371B2 (en) 2012-01-10
JP4197344B2 (ja) 2008-12-17
US20090141871A1 (en) 2009-06-04
US8145494B2 (en) 2012-03-27
US20070198272A1 (en) 2007-08-23

Similar Documents

Publication Publication Date Title
JP4197344B2 (ja) 音声対話システム
US10714086B2 (en) Generating and transmitting invocation request to appropriate third-party agent
US10755713B2 (en) Generic virtual personal assistant platform
US8831186B2 (en) Systems and methods for gathering information
US7318031B2 (en) Apparatus, system and method for providing speech recognition assist in call handover
KR20190011570A (ko) 휴먼 에이전트에 의하여 보조 되는 무인 대화 서비스 제공 방법
US20060095268A1 (en) Dialogue system, dialogue method, and recording medium
EP3545520B1 (en) Voice to text conversion based on third-party agent content
CN111159364B (zh) 对话系统、对话装置、对话方法以及存储介质
US20180113854A1 (en) System for automatic extraction of structure from spoken conversation using lexical and acoustic features
US20060287868A1 (en) Dialog system
JP5532781B2 (ja) 接客業務用サーバ、並びに、当該サーバを用いる接客システム及び接客業務の予測終了時間算出方法
US20060095267A1 (en) Dialogue system, dialogue method, and recording medium
JP2009182433A (ja) コールセンターの情報提供システム、情報提供装置、情報提供方法及び情報提供プログラム
JP3878147B2 (ja) 端末装置
JP2019144400A (ja) 制御装置、制御方法及びコンピュータプログラム
JP2018159729A (ja) 対話システム構築支援装置、方法、及びプログラム
JP6929960B2 (ja) 情報処理装置及び情報処理方法
JP7377668B2 (ja) 制御装置、制御方法及びコンピュータプログラム
JP3783936B2 (ja) 対話型情報提供装置、対話型情報提供処理方法、プログラム及び記録媒体
CN113822029A (zh) 客服辅助方法、装置和系统
US20240321267A1 (en) A system and method for delivering domain or use-case switch suggestion for an ongoing conversation
JP3611533B2 (ja) 対話型情報提供装置、対話型情報提供処理方法、プログラムおよび記録媒体
JP2004029457A (ja) 音声対話装置、および音声対話プログラム
CN111048074A (zh) 一种用于辅助语音识别的上下文信息生成方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071205

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20071226

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20080123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080229

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080909

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20080910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080925

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111010

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4197344

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111010

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111010

Year of fee payment: 3

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111010

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121010

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131010

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees