JPH07219961A

JPH07219961A - 音声対話システム

Info

Publication number: JPH07219961A
Application number: JP6009586A
Authority: JP
Inventors: Toshiyuki Odaka; 俊之小高; Akio Amano; 明雄天野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1994-01-31
Filing date: 1994-01-31
Publication date: 1995-08-18
Anticipated expiration: 2018-10-06
Also published as: JP3454897B2

Abstract

(57)【要約】【目的】利用者がシステムの状態を容易に把握できるよ
うにし、利用者とシステムとが常に円滑な対話を実現で
きる音声対話システムを提供する。【構成】マイク１、音声入力手段２、音声分析手段３、
音声認識手段４、構文解析手段５、意図抽出手段６、対
話管理手段７、問題解決手段８、応答文生成手段１０、
音声合成手段１１、音声出力手段１２、スピーカ１３、
複数の中途応答処理手段（１４、１５、１６、１７、１
８）からなる音声対話システムにおいて、複数の中途応
答処理手段（１４、１５、１６、１７、１８）は、入力
系の手段である音声入力手段２、音声分析手段３、音声
認識手段４、構文解析手段５、意図抽出手段６のうち任
意の１つあるいは複数の手段の処理結果を入力として、
処理結果を出力系の手段である音声出力手段１２、音声
合成手段１１、応答文生成手段１０のうち１つあるいは
複数の手段へ出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、情報検索などを行なう
ために利用する計算機システムに係り、特に、音声入出
力インタフェースを備え、誰でも容易に利用することが
できる音声対話システムに関するものである。

【０００２】

【従来の技術】従来の音声対話システムは、従来の計算
機を用いた対話システムのキーボード入力を音声入力で
置き換え、また、従来の計算機を用いた対話システムの
ディスプレイ出力を音声出力で置き換えただけのものが
多い。例えば、利用者の入力を認識・理解し、利用者の
アプリケーション（例えば、情報検索や情報案内）への
問い合わせに対する回答だけを示す。

【０００３】

【発明が解決しようとする課題】上記のような従来の音
声対話システムにおいて、利用者は、自分が入力した音
声がシステムにおいてどこまで処理されているのか、音
声がうまく受理されなかった場合には、どこがうまく伝
わっていないのか、あるいはその原因が何であるのか、
というようなシステムの処理状態を把握できない。その
ため、次に何を言ったら良いのかとまどったり、不安を
感じたりすることもあり、システムとの円滑な対話を困
難にしていた。

【０００４】本発明の目的は、利用者がシステムの処理
状態を容易に把握できるようにし、利用者とシステムと
の円滑な対話を実現できる音声対話システムを提供する
ことにある。

【０００５】

【課題を解決するための手段】本発明による音声対話シ
ステムは、上記目的を達成するために、利用者の発話し
た音声を入力する音声入力手段と、該音声入力手段によ
り入力された音声を分析する音声分析手段と、該音声分
析手段からの分析結果を基に音声を認識し、一つまたは
複数の単語系列を出力する音声認識手段と、前記一つま
たは複数の単語系列に対して構文解析をし、一つまたは
複数の構文情報を出力する構文解析手段と、前記一つま
たは複数の構文情報から利用者の意図を抽出する意図抽
出手段と、前記利用者の意図に基づいてシステムの応答
内容を生成し、あるいは、システムの応答内容を生成す
るために問題解決が必要な場合には、問題解決するため
のコマンドを生成し、かつ、該コマンドに対して得られ
る解も含めてシステムの応答内容を生成する対話管理手
段と、前記コマンドに含まれる問題の解を求める問題解
決手段と、前記対話管理手段から得られる前記システム
の応答内容より応答文を生成する応答文生成手段と、前
記応答文生成手段から得られる応答文を音声波形に変換
する音声合成手段と、前記音声合成手段より得られる音
声波形を音声として出力する音声出力手段と、前記音声
入力手段、前記音声分析手段、前記音声認識手段、前記
構文解析手段、前記意図抽出手段の少なくとも１つの処
理結果を入力として、該処理結果を前記対話管理手段、
前記音声合成手段および前記音声出力手段の少なくとも
１つへ出力する少なくとも１つの中途応答処理手段とを
備え、前記音声入力手段、前記音声分析手段、前記音声
認識手段、前記構文解析手段、前記意図抽出手段の少な
くとも１つの処理結果に応じて、現在のシステムの処理
状態を利用者に知らしめる応答を発声することを特徴と
する。

【０００６】

【作用】本発明による音声対話システムでは、利用者に
対して、特に利用者の発声した音声に対して、適宜、利
用者が現在のシステムの動作状況を認識できるような音
声出力を利用者にフィードバックする。その際、システ
ムの入力系の各段階（音声入力、音声分析、音声認識、
構文解析、意図抽出等）でのフィードバックを行なうこ
とにより、利用者に対して迅速かつ木目細かな応答を行
なうことが可能になる。

【０００７】システムの応答には、利用者からの問いか
けに対する本来の応答の他に、利用者の発声に対するオ
ウム返し応答もしくは相槌応答、より大きな発声を要求
する応答、入力を促す応答、再発声を要求する応答、利
用者から入力音声の部分的な認識結果の適否（正誤）の
確認のための応答、不足情報を要求する応答、認識でき
た部分を提示するための応答、構文解析不能を通知する
ための応答、意図抽出不能の旨を通知する応答、さらに
は、同義語の表現の言い換えの確認のための応答等が考
えられる。

【０００８】例えば、システムのオウム返し応答もしく
は相槌応答によって、利用者は、自分の発話が音声とし
て入力されていることを認識でき、安心して次の発話を
行なえる。

【０００９】また、部分的な認識結果の適否の確認応答
によれば、利用者は、認識されなかった部分だけを言い
直せばよいため、利用者に再発話の労力を掛けることが
回避できるとともに、利用者−システム間の対話を円滑
に進行させることが可能となる。

【００１０】同義語の言い換え応答によれば、利用者の
省略語等を正規の単語に置き換えてその適否を確認する
ことができるので、より正確な対話が可能になる。

【００１１】

【実施例】以下、図を用いて本発明の実施例を説明す
る。

【００１２】図１は本発明による音声対話システムの一
実施例を示すブロック図である。

【００１３】図１のシステムにおいて、マイク１から入
力された利用者の音声は音声入力手段２においてデジタ
ル化される。音声入力手段２においてデジタル化された
音声は、音声分析手段３において一定時間間隔毎に音響
的な分析が行なわれ、例えば、音声波形のスペクトルや
パワーの時系列パタンが音響分析の結果として出力され
る。音声認識手段４は、音声分析手段３の分析結果か
ら、入力音声を認識し、１つまたは複数の単語系列を出
力する。音声認識手段４から得られた１つまたは複数の
単語系列は、構文解析手段５において解析され、単語系
列の構文的な構造を構文情報として出力する。構文解析
手段５から得られた構文情報は、意図抽出手段６におい
て解析され、利用者の音声に含まれる意図が抽出され
る。

【００１４】対話管理手段７は、意図抽出手段６から得
られる利用者の意図に対するシステムの応答内容（項
目、要点、深層構造）を生成する。ここで、システムの
応答内容を生成するために問題解決が必要な場合は、ま
ず問題解決手段８を利用するためのコマンドを生成す
る。対話管理手段７は、問題解決手段８にコマンドを送
った場合には、問題解決手段８から得られた結果に基づ
いて、システムの応答内容を生成する。

【００１５】問題解決手段８は、対話管理手段７で生成
されたコマンドにより問題解決（例えば、利用者の質問
に対する回答に必要な情報の検索）を行なう。

【００１６】対話管理手段７から得られたシステムの応
答内容は、応答文生成手段１０において応答文に変換さ
れる。応答文生成手段１０から得られた応答文は、音声
合成手段１１において、音声波形に変換される。音声合
成手段１１から得られた音声波形は音声出力手段１２に
おいてアナログ化され、スピーカ１３より音声として出
力される。

【００１７】第１の中途応答処理手段１４、第２の中途
応答処理手段１５、第３の中途応答処理手段１６、第４
の中途応答処理手段１７、第５の中途応答処理手段１８
は、入力系の各手段（音声入力手段２、音声分析手段
３、音声認識手段４、構文解析手段５、意図抽出手段
６）のうち任意の１つまたは複数の手段の処理結果に基
づいて、利用者の発声に対する反復、相槌、確認などの
応答のための処理を行ない、処理結果を出力系の各手段
（応答文生成手段１０、音声合成手段１１、音声出力手
段１２）のうち任意の１つまたは複数の手段に渡す。出
力系の手段を通して、利用者に対する応答が実際になさ
れる。なお、本実施例では中途応答処理手段の数を５つ
としたが、本発明はこれに限定されるものではない。

【００１８】対話管理手段７は、対話の進行状況につい
て各中途応答処理手段（図１では、１５、１６、１７、
および１８）との間でやり取りを行ない、対話の進行状
況を対話履歴として管理しながら、対話の進行を管理す
る。

【００１９】次に本実施例の中で用いている音声認識手
段４について説明する。音声認識手段４の実現方法とし
ては様々な方法が考えられるが、ここではテンプレート
マッチングによる実現方法を説明する。

【００２０】図２に、テンプレートマッチングに基づく
音声認識手段４の一構成例を示す。音声分析手段３から
得られる分析パタンは、照合手段４１において、予め認
識の基準として標準パタン格納手段４２に格納された各
標準パタンとの間で照合され、各標準パタンとの間の類
似度が出力される。照合手段４１から出力された各標準
パタンとの類似度は判定手段４３に送られ、最も類似し
ている標準パタンの一つあるいは上位複数の候補が類似
度に基づくスコアと共に認識結果として出力される。

【００２１】次に本実施例の中で用いている構文解析手
段５について説明する。

【００２２】図３に構文解析手段５の一構成例を示す。
構文解析手段５は、入力文に対してその構文構造を解析
し、構文情報を出力するものである。解析に失敗した場
合は、“構文解析不能”を結果として出力する。音声認
識手段４から得られた単語系列は、構文構造解析手段５
１により解析される。このとき、入力される文を受理す
るために予め文法格納手段５２に格納された文法と、単
語辞書格納手段５３に格納された単語の品詞情報などを
用いて解析する。構文構造解析手段５１の実現方法とし
ては様々な方法が考えられる。本発明はこのアルゴリズ
ムを限定するものではないので、詳しい説明は省略す
る。例えば、ＣＫＹ（Cocke-Kasami-Younger）の方法に
よる実現方法があり、その詳しい説明は例えば、“長尾
真：人工知能シリーズ２、言語工学、昭晃堂”第１２８
頁〜第１３２頁にある。

【００２３】次に本実施例の中で用いている意図抽出手
段６について説明する。本実施例では、予め用意したキ
ーワードと照合した結果によって利用者の意図を抽出す
る方法を説明する。

【００２４】図４に意図抽出手段６の一構成例を示す。
構文解析手段５から得られた構文情報のうち、キーワー
ドになりうる単語（例えば名詞と動詞）のみがキーワー
ド照合手段６１に入力され、ここでキーワード格納手段
６２に予め格納されていた全てのキーワードと比較さ
れ、一致した１つあるいは複数のキーワードがユーザの
意図として出力される。一致するキーワードがない場合
は、“意図抽出不能”を結果として出力する。

【００２５】図５に、一応用例として交通案内を考えた
場合のキーワードの例を示す。この例では、“東京”、
“国分寺”、“横浜”等の地名の他、“所要時間”、
“時間”、“費用”、“交通費”、“経路”、“行き
方”のような交通案内における利用者の問いかけにおい
て出現するであろう用語を予めキーワードとして定めて
いる。

【００２６】次に本実施例の中で用いている対話管理手
段７について説明する。

【００２７】図６は、状態遷移ネットを用いた対話管理
手段７を実現するための一構成例を示している。状態遷
移ネット格納手段７２は状態遷移ネットを格納し、この
状態遷移ネットに基づいて対話進行制御手段７１は対話
を進行させ、システムの応答が決まる。さらに対話の進
行において、問題解決が必要な場合はコマンド生成手段
７４において問題解決手段８へのコマンドが生成され
る。そのコマンドに対して問題解決手段８において得ら
れた解を解答受理手段７５が受けとり、対話進行制御手
段７１においてシステムの応答内容が決定され、決定さ
れたシステムの応答内容（応答の種類とデータ）は応答
文生成手段１０へ送られる。対話状況記憶手段７３は、
対話進行制御手段７１が各中途応答処理手段とやりとり
することにより更新される対話の状況が保持され、対話
進行制御手段７１が管理している。

【００２８】図７に状態遷移ネットの例を示す。図７に
示すように状態遷移ネットは、状態（図では０〜３の４
状態）を表すノードと、ノード間の遷移を表すアークか
らなり、対話の進行は状態間の遷移として考える。

【００２９】図８に状態遷移ネットの基本単位を示す。
各アークには、中途応答処理手段識別番号７２１、中途
応答処理手段内での判定結果７２２、判定結果に基づく
処理の手順７２３（例えば、問題解決手段８に対して発
行されるコマンドを生成するためにコマンド生成手段７
４へ送られる指示）、および処理結果に基づく応答生成
のための指示７２４、の４項目が記述され対応付けられ
ているものとする。但し、不要な部分は空（図７では
“φ”で表わしている）でもよい。中途応答処理手段識
別信号７２１として、図７では、＃ｎが第ｎの中途応答
処理手段を表わすものとする（但し、＃０は対話管理手
段７を表わす）。ある状態において、その状態から出て
いるアークのうち、各アークに付随して記述されている
中途応答処理手段識別番号７２１に対応する中途応答処
理手段あるいは対話管理手段７における判定結果（第２
中途応答処理手段内におけるタイムアウト検出や第４の
中途応答処理手段内における構文解析判定結果、あるい
は意図抽出手段における意図抽出結果）が中途応答処理
手段あるいは対話管理手段７で得られると、そのアーク
が、遷移するアークとして選択される。そのアークの手
順７２３にコマンド生成の指示が与えられていれば、記
述された指示をコマンド生成手段７４に送り、そこでコ
マンドが生成される。さらに、そのアークに記述された
応答生成のための指示７２４を各中途応答処理手段内の
応答文組立手段あるいは応答生成手段１０に送る。ま
た、このとき必要に応じて、遷移したアークの情報を対
話管理手段７内の対話状況記憶手段７３に蓄えておく。
この対話状況記憶手段７３で保持する情報は対話の履歴
情報として次の入力の解析などに使うことができる。

【００３０】例えば、図７の中で状態２において利用者
が時間を問い合わせる発声（“所要時間を教えて”）を
行ない、その意図が意図抽出手段６で抽出されると、対
話進行制御手段７１が状態２からのアークの記述を参照
し、コマンド生成手段７４への指示としては時間問い合
わせを行なうコマンドを生成することが指示され、応答
出力の指示としては時間を答える応答（例えば、「４０
分です」）を生成することが応答文生成手段１０に指示
され、状態２に遷移する。

【００３１】図９にこのときの時間問い合わせ処理のコ
マンドの例を示し、図１０にそれに対して得られる結果
の例を示す。図９の例では、“？”を含んだ部分（時間
のスロット）を問い合わせることを表している。

【００３２】また、問題解決に依存した対話の状況（出
発地はどこか、目的地はどこか、最近応答した内容は何
かなど）や問題解決に依存しない対話の状況（直前に、
認識不良を確認するための応答を利用者に対して行なっ
たことなど）を対話状況記憶手段７３に保存し、必要に
応じてこうした情報を参照する。

【００３３】なお、図７は、対話管理手段７の動作を示
すものであり、各中途応答処理手段が対話管理手段７の
関与なしに実行できる応答については、この図に表われ
ていないことに留意されたい。

【００３４】次に本実施例の中で用いている問題解決手
段８について説明する。図７の場合と同様、交通案内を
例とする。この場合、問題解決の内容は、出発地、目的
地、検索項目（所要時間、費用、あるいは経路）を与え
て、その出発地から目的地までに関する検索項目の情報
を求めることである。本実施例では、問題解決手段８の
実現方法のうち最も簡単な方法のひとつとして、表形式
に作成された交通情報データベースから表引きする方法
を説明する。

【００３５】図１１に問題解決手段８の一構成例を示
す。交通情報データベース８２と、これに基づいて表引
きを行なう情報検索手段８１とからなる。図１２に交通
情報データベース８２の交通情報の表の例を示す。この
表のエントリーの中から出発地と目的地が利用者の意図
と一致するエントリーを探し、そのエントリーの中から
指定された検索項目の情報を取り出すことで本問題解決
は実現される。例えば、出発地が“国分寺”、目的地が
“東京”であり、検索項目が“費用”であれば、図１２
の表中の第２のエントリーが出発地と目的地が利用者の
意図と一致するエントリーとして探し出され、このエン
トリーの“費用”の欄を参照して５３０円という答が得
られる。

【００３６】次に本実施例の中で用いている応答文生成
手段１０について説明する。応答文生成手段１０の実現
方法として、本実施例では予め用意したテンプレート
（文の雛型）に基づいて応答文を生成する方法を説明す
る。本実施例のように応用を交通案内などに限定した場
合は、語彙や文型は限られており、予め用意したテンプ
レートの穴埋めで十分に対応できる。

【００３７】図１３に応答文生成手段１０の一構成例を
示す。応答文テンプレート格納手段１０２に格納されて
いるテンプレートを用いて、応答文組立手段１０１は対
話管理手段７から得られるシステムの応答内容を応答文
に変換する。

【００３８】図１４に応答文テンプレートの例を示す。
対話管理手段７から受けとったシステムの応答内容を参
照しながら“［”と“］”とで囲まれた部分を置き換え
て応答文とする。例えば、時間提示で４０分というデー
タを応答内容として受けとっていれば、“［時間］”を
“４０分”で置き換えて「約４０分です」という応答文
を生成できる。この方法は、スロット法ともいい、例え
ば“長尾真：人工知能シリーズ２、言語工学、昭晃堂”
に詳しく記載されている。

【００３９】次に本実施例の中で用いている音声合成手
段１１について説明する。音声合成手段１１の実現方法
としては録音再生による方法や規則合成による方法など
が考えられる。本実施例では録音再生による方法を説明
する。前記応答文生成手段１０や後で詳しく述べる各中
途応答処理手段の実現方法の説明から明らかなように、
本実施例で生成される応答文を構成する単語は応答文テ
ンプレート格納手段（１０２ほか）に含まれる単語と交
通情報データベース８２に含まれる単語に限られる。し
たがって、これらの単語に対応する音声波形を予め適当
な単位で録音し、適宜連結して出力することで全ての文
に対応できる。例えば、「約４０分です」という応答文
に対しては、「約」「４０」「分」「です」の４つの音
声波形を用意しておき、連結して出力すれば良い。

【００４０】図１５に音声合成手段１１の構成の一構成
例を示す。生成された応答文に沿って、音声波形格納手
段１１２から取り出した音声波形を音声波形連結手段１
１１で連結して音声出力手段１２へ送ることにより実現
できる。

【００４１】次に本実施例の中で用いている中途応答処
理手段（図１の中では１４、１５、１６、１７、１８）
について説明する。

【００４２】図１６は、図１における第１の中途応答処
理手段１４の一構成例を音声入力手段２および音声出力
手段１２と共に示している。音声入力手段２はＡ／Ｄ変
換手段２１であり、音声出力手段１２はＤ／Ａ変換手段
１２１である。この例の場合、第１の中途応答処理手段
１４は、任意の時間のデジタル化された音声を記憶でき
る音声記憶手段１４１であり、任意の遅延時間の後に入
力音声をそのまま出力することができる構成とする。遅
延時間は、利用者の元の発声をなるべく遮らないように
利用者の発声の平均的な長さに設定しても良いし、ある
いは音声分析手段３の結果から音声の終端を検出する手
段を別に設けて、音声終端を検出するまでの時間として
も良い。この中途応答処理手段１４の処理には、対話管
理手段７は全く関与しない。

【００４３】この入力音声の再生、すなわち利用者の発
した言葉のオウム返しにより、利用者は自分の音声が少
なくともシステムに入力されていることがわかる。但
し、この第１の中途応答は、後述する相槌の応答と衝突
するようであれば、なくてもよく、システムに必須のも
のではない。

【００４４】なお、本発明は音声対話システムに関する
ものであり、本実施例は音声入出力について説明してい
るが、言うまでもなく音声以外の他のメディアを用いた
構成にも拡張できる。例えば画像表示を有する音声対話
システムであれば、第１の中途応答処理手段の出力を遅
延時間を設けずに画像出力手段に送り、入力された音声
波形を画面に図形として出力することにより、利用者の
元の発声を遮ることなく利用者の音声がシステムに入力
されていることを示すことができる。

【００４５】図１７は、図１における音声分析手段３に
対応した第２の中途応答処理手段１５の一構成例を示し
ている。ポーズ判定手段１５１でポーズが検出される
と、相槌応答生成手段１５２は相槌の応答文（例えば
「ええ」、「はい」）を出力する。この結果を音声合成
手段１１に渡す。ポーズ判定手段１５１は、音声分析手
段３より得られる結果のうち一定時間間隔毎の短区間パ
ワーをモニタし、パワーがない状態がある時間続いた場
合として音声中のポーズを検出する。この処理は、対話
管理手段７の関与なく行なわれる。

【００４６】図１８は、第２の中途応答処理手段１５の
他の構成例を示している。音声レベル判定手段１５３で
低いレベルの音声らしきものが検出されると、相槌応答
生成手段１５４はより大きな発声を要求する応答文（例
えば「もう少し大きい声でお願いします」）を出力す
る。この結果を音声合成手段１１に渡す。音声レベル判
定手段１５３も、ポーズ判定手段１５１と同様に音声分
析手段３より得られる結果のうち一定時間間隔毎の短区
間パワーをモニタし、音声レベルがある閾値より低い入
力の塊を小さい音声として検出する。この処理は、対話
管理手段７の関与なく行なわれる。

【００４７】これらの相槌応答により、利用者は自分の
音声が少なくとも分析されていることがわかる。

【００４８】図２７に、第２の中途応答処理手段１５の
さらに他の構成例を示す。タイムアウト検出手段１５５
は、分析結果の一部（例えば、音声のパワー）を監視
し、パワーの値がある閾値を越えないままある一定時間
が経過する（タイムアウト）ことを検出する。その出力
により、予め定めた時間利用者の入力がないことがわか
ると、応答文組立手段１５６は応答文テンプレート（図
２８（ａ））を参照して、利用者に対して次の入力の促
進要求をする。具体的な応答文は、対話状況記憶手段７
３に蓄えられている対話状況によって、利用者の発話を
促す応答、例えば「何が知りたいですか？」「他にご希
望はありませんか？」など様々な応答が考えられる。こ
の処理には、対話管理手段７が関与する。

【００４９】図２８（ｂ）は、図２７の第２の中途応答
処理手段１５で処理が行なわれた場合に、対話管理手段
７内の対話状況記憶手段７３に蓄えられる対話状況の一
例を示す。この例の場合、第２の中途応答処理手段１５
内の応答文組立手段１５６から「入力の促進要求」を音
声合成手段１１に出力したことを示している。対話管理
手段７では、この情報を参照することによって、システ
ムに対する次の利用者の入力が予想できる。この例の場
合、もうひとつ前のシステムの応答が「１単語スコア小
の確認応答」であったとすると、ここでも次の利用者の
入力が、システムによる確認応答に対する「はい」か
「いいえ」であることが予想できる。

【００５０】図１９は、図１における音声認識手段４に
対応した第３の中途応答処理手段１６の一構成例を示し
ている。認識不良判定手段１６１は、音声認識手段４に
おける認識結果のうち第１位の候補の単語系列とそのス
コアとを入力とし、主にスコアを検査することで認識不
良を判定して結果を出力するものとする。認識不良とし
ては例えば、１）入力全体のスコアがある基準値より小
さい場合、２）認識結果が一単語分であり、かつそのス
コアがある基準値より小さい場合、３）認識結果が一単
語分であり、かつそのスコアがほぼ等しい候補が２つあ
る場合、などが考えられる。認識不良判定手段１６１に
より認識不良が検出されると、応答文組立手段１６２は
各認識不良に対応した応答を生成する。

【００５１】ここでは、応答文のテンプレートを予め用
意しておき、そのテンプレートを使って応答文を生成す
る方法を説明する。図２０（ａ）に応答文テンプレート
の例を示す。各認識不良に対応した応答文は応答文テン
プレート格納手段１６３に予め格納されている。応答文
中に“＊”が含まれる場合は、そこを認識結果で置き換
え、含まれない場合はそのまま応答文とする。例えば、
１）入力全体のスコアがある基準値より小さい場合、応
答文は「もう一度お願いします」となる。２）認識結果
が一単語でスコアがある基準値より小さい場合は“＊”
部分を認識結果の単語に置き換えて（例えばスコアが低
い認識結果が「東京」のとき「東京ですか」となる）応
答文とする。３）認識結果が１単語分でそのスコアがほ
ぼ等しい候補が２つある場合は、２）の場合と同様にし
て２つの“＊”をそれぞれ２つのスコアが等しかった単
語に置き換えて応答文とする。これらの結果を音声合成
手段１１に渡す。

【００５２】図２０（ｂ）は、図１９の第３の中途応答
処理手段で処理が行なわれた場合に、対話管理手段７内
の対話状況記憶手段７３に蓄えられる対話状況の一例を
示している。この例の場合、第３の中途応答処理手段１
６内の応答文組立手段１６２から「１単語スコア小の確
認応答」を音声合成手段１１に出力したことを示してい
る。対話状況記憶手段７３には、このときのスコア小の
認識候補も格納する。対話管理手段７では、この情報を
参照することによって、システムに対する次の利用者の
入力が確認に対する「はい」か「いいえ」であることが
予想できる。

【００５３】このように、音声認識手段の結果の一部に
認識不良を検出したとき、当該一部の認識候補の適否を
利用者に確認する応答文を音声合成手段１１に出力する
ことにより、利用者は、再度、全文を発声する必要がな
く、その部分のみを再発声すれば済む。

【００５４】また、この中途応答処理により、利用者は
自分の音声が認識されているかどうかわかる。

【００５５】図２９に、第３の応答処理手段１６の他の
構成例を示す。定型文検出手段１６４は、音声認識手段
４の出力から「こんにちわ」「おはよう」「こんばん
は」などの挨拶、「すいません」などの呼び掛け、とい
った定型句や定型文を検出する。その結果を受けて、応
答文組立手段１６５は、応答文テンプレート（図３０
（ａ））を参考にして応答文を出力する。

【００５６】例えば、音声認識手段４の出力からの「こ
んにちは」が検出されれば、「こんにちは」と応答す
る。このような第３の中途応答処理手段１６の働きによ
り、構文解析手段５以降は使わずに効率的な応答ができ
る。

【００５７】また、図示しないが、利用者の発声した音
声の認識結果自体を合成音声で利用者へ提示することも
可能である。これは、システムの音声出力であって、第
１の中途応答手段で説明したオウム返しが利用者の音声
そのものであるのとは異なる。図示しないが、表示手段
（ディスプレイ）が存在する場合には、その画面上に認
識結果を表示するようにしてもよい。

【００５８】次に、「はい」や「いいえ」などの肯定や
否定、あるいは「お願いします」といった依頼、等の定
型句や定型文が検出された場合の処理を説明する。この
場合は、直前にシステムから確認の応答が出力されてい
る筈である。この対話状況は、対話管理手段７へ通知さ
れており、ここで、確認の対象となっている候補（例え
ば、認識スコアが小の単語）は、対話状況記憶手段７３
に記憶されている候補である。例えば、音声認識手段４
でスコアが小さかった単語を利用者に確認することによ
り明確にし、その単語を含んだ、「はい」よりも１つ前
の利用者の入力文の認識結果を構文解析手段５に入力
し、それ以降の処理を再開する。この場合、対話管理手
段７から処理の中断および再開の指示を発行する態様
と、該当する中途応答処理手段からその指示を発行する
態様が考えられる。それぞれの音声対話システムの構成
を図３４および図３５に示す。

【００５９】図２１は、図１における構文解析手段５に
対応した第４の中途応答処理手段１７の一構成例を示し
ている。構文不良判定手段１７１は、構文解析手段５で
得られた結果から構文的な不良を検出する。構文解析手
段５は、構文解析に成功した場合は構文情報を出力し、
失敗した場合は“構文情報なし”の結果を出力する。す
なわち、構文不良判定手段１７１は単に“構文情報な
し”の結果を得た場合に構文的な不良を検出する。応答
文組立手段１７２は、構文不良判定手段１７１より構文
的な不良の検出結果を得ると、応答文テンプレート格納
手段１７３に予め用意されている応答文（図２２（ａ）
に応答文テンプレートの例を示す）から該当する分（例
えば、「そのような言い回しはわかりません」）を出力
する。得られた応答文を音声合成手段１１に渡す。

【００６０】図２２（ｂ）は、第４の中途応答処理手段
１７で処理が行なわれた場合に、対話管理手段７内の対
話状況記憶手段７３に蓄えられる対話状況の一例を示し
ている。この例の場合、第４の中途応答処理手段１７内
の応答文組立手段１７２から「構文解析失敗の通知応
答」を音声合成手段１１に出力したことを示している。
対話管理手段７では、この情報を参照することによっ
て、システムに対する次の利用者の入力が構文的な「言
い直し」であることが予想できる。

【００６１】また、この中途応答処理により、利用者は
自分の音声が構文解析されているか否かわかる。

【００６２】図２３は、図１における第４の中途応答処
理手段１７の他の例を示している。キーワードスコア不
良判定手段１７４は、構文解析手段５で得られた結果か
ら利用者の入力の中でキーワードになりうる単語に対し
て認識スコアの検査をする。そして、認識スコアがある
基準値より小さいキーワードを検出する。（なお、この
ときの前記第３の中途応答処理手段と重複しないように
するために、どちらか片方のみ実現してもよいし、前記
認識不良判定手段１６１で用いる基準値よりキーワード
スコア判定手段で用いる基準値の方を厳しく設定しても
よい。）応答文組立手段１７５は、キーワードスコア不
良判定手段１７４よりスコア不良のキーワード検出の結
果を得ると、応答文テンプレート格納手段１７６に予め
用意されている応答文（図２４に応答文テンプレートの
例を示す）から該当する文を出力する。スコア不良のキ
ーワード（ＫＷ）が１つの場合は、前記第３の中途応答
処理手段１６の場合と同様に、応答文組立手段１７５は
“＊”部分をスコア不良のキーワードに置き換えて確認
の応答文を組み立てる。また、スコア不良のキーワード
が複数の場合は、“＊”を入力文全体で置き換えて、入
力文全体の確認の応答文を組み立てることで対応でき
る。得られた応答文を音声合成手段１１に渡す。

【００６３】この中途応答処理からの応答により、利用
者は自分の音声が認識され、構文解析されているかどう
か分かる。

【００６４】図２４（ｂ）は、第４の中途応答処理手段
１７で処理が行なわれた場合に、対話管理手段７内の対
話状況記憶手段７３に蓄えられる対話状況の一例を示
す。この例の場合、第４の中途処理手段１７内の応答文
組立手段１７５から「１ＫＷの確認応答」を音声合成手
段１１に出力したことを示している。対話管理手段７で
は、この情報を参照することによって、システムに対す
る次の利用者の入力が、確認応答に対する「はい」か
「いいえ」であることが予想できる。

【００６５】図２５は、図１における意図抽出手段６に
対応した第５の中途応答処理手段１８の一構成例を示し
ている。意味不良判定手段１８１は、意図抽出手段６よ
り出力される意図抽出結果に基づいて意図不良を検出す
る。意味不良判定手段１８１で意図不良が検出される
と、生成応答手段１８２は応答文テンプレート格納手段
１８３に予め用意されている応答文（図２６（ａ）に応
答文テンプレートの例を示す）から該当する文（例えば
「おっしゃることがわかりません」）を出力する。得ら
れた応答文を音声合成手段１１に渡す。

【００６６】図２６（ｂ）は第５の中途応答処理手段１
８で処理が行なわれた場合に、対話管理手段７内の対話
状況記憶手段７３に蓄えられる対話状況の一例を示す。
この例の場合、第５の中途応答処理手段１８内の応答文
組立手段１８２から「意図抽出失敗の通知応答」を音声
合成手段１１に出力したことを示している。対話管理手
段７では、この情報を参照することによって、システム
に対する次の利用者の入力が意味的な言い直しであるこ
とが予想できる。

【００６７】この中途応答処理により、利用者は自分の
音声が意味理解されているかどうかわかる。

【００６８】図３１は、第５の応答処理手段の他の例を
示す。同義語検出手段１８４は、同義語辞書格納手段１
８７に格納されている同義語辞書内の表現と、意図抽出
手段６の出力内に含まれる単語の表現を比較することに
より、意図抽出手段６の出力から同義語を持つ単語を検
出する。図３２に同義語辞書の例を示す。ひとつの単語
に対する表現の個数は２つとしているが、これに限定さ
れるものではない。同義語検出手段１８４の結果を受け
て、応答文組立手段１８５は、応答文テンプレート格納
手段１８６に格納されている応答文テンプレート（図３
３（ａ））を参照して、応答文を出力する。このとき、
応答文テンプレートで［＊］で表現された部分は、同義
語辞書を参照して検出された単語の別の表現に置き換え
られる。

【００６９】さらに、この処理の後に、対話管理手段７
に送られ、対話状況記憶手段７３に保持される対話状況
の例を図３３（ｂ）に示す。この対話状況としては、応
答の種類の他に確認の対象となった単語の情報も保持さ
れる。

【００７０】以上説明した各中途応答処理手段の処理の
進行は、対応する入力系の手段からの出力に基づいて動
作するものであるが、両者の動作自体は独立に／並列に
動作可能な構成としている。例えば、第２の中途応答処
理手段が分析手段の結果を受け取って相槌応答を返す処
理を実行中でも、音声分析手段以降の音声認識手段や構
文解析手段、意図抽出手段の処理を続けることが可能で
ある。相槌応答中に、音声分析手段以降の処理が行なわ
れずにいると、応答速度が遅くなってしまい使い勝手が
悪くなるである。

【００７１】図３６に、本発明のシステムのハードウエ
ア構成の一例を示す。その最小構成として、音声入出力
装置の利用可能な計算機１台で実現できる。音声入出力
装置は、マイク１、スピーカ１３、Ａ／Ｄ変換装置２
１、Ｄ／Ａ変換装置１２１から構成される。計算機本体
としては、既存のワークステーション等の基本構成があ
ればよく、ＣＰＵ２１０１により主記憶装置２０２、外
部記憶装置２０３、表示装置２０４が制御できる構成と
なる。主記憶装置２０２は、実行中のプログラムを保持
し、外部記憶装置２０３はプログラムやデータを蓄えて
おくためのハードディスク等の装置である。システム応
答の表示などに必要であれば、表示装置２０４としてデ
ィスプレイなどが使える。

【００７２】なお、図３６は直接示していないが、Ａ／
Ｄ変換装置とＤ／Ａ変換装置は計算機に対して外付けの
ものでもよいし、これらが組み込まれているワークステ
ーションやパーソナルコンピュータでもよい。

【００７３】図３７に、本システムの利用者へのフィー
ドバック処理の内容をまとめて図表として示す。

【００７４】本実施例におけるフィードバック処理は、
対話状況独立型、対話状況準独立型および対話依存型の
３つの種類に分類することができる。対話状況独立型
は、各中途応答処理手段が対話管理手段と情報をやりと
りすることなく、（勝手に）処理できるフィードバック
処理に関するものである。対話状況準独立型は、各中途
応答処理手段が勝手に処理することはできるが、その対
話状況は対話管理手段へ通知するフィードバック処理に
関するものである。この場合、図のシステムブロック図
中では、該当する中途応答処理手段から対話管理部へ一
方向の矢印を用いて、信号（または制御）の流れを示し
ている。対話状況依存型は、各中途応答処理手段が勝手
に処理することのできないフィードバック処理に関する
ものであり、この処理では、対話管理手段７内の対話状
況記憶手段で保持されている対話状況の情報を用いる。
システムブロック図中では双方向の矢印を用いている。

【００７５】本発明の音声対話システムの処理はソフト
ウエアで実現される。そのソフトウエアは、単一のプロ
グラムでもよいが、複数のプログラムを同じに実行で
き、プログラム間でデータの受け渡しができる構成でも
よい。例えば、複数のプログラムを同時に実行できるＯ
Ｓとして「ＵＮＩＸ」（ＡＴ＆Ｔベル研究所の商標）が
あり、ほとんどのワークステーションで使用できる。ま
た、計算機１台あたりの処理能力によっては、複数の計
算機を用いる分散処理の構成でもよい。

【００７６】さらに、前記中途応答処理手段の構成例の
中で複数の応答生成手段を個別に示してきたが、これら
の機能はほぼ同じものとなるので、これらを一つに共通
のものとして用意しても良い。

【００７７】

【発明の効果】本発明によれば、利用者がシステムの処
理状態を容易に把握でき、システムに話しかけ易くな
る。結果的に、利用者とシステムとの間で円滑な対話が
実現され、作業を効率的に完了できる効果が得られる。

【図面の簡単な説明】

【図１】本発明による音声対話システムの構成の一実施
例を示すブロック図である。

【図２】図１の音声認識手段の構成例を示すブロック図
である。

【図３】図１の構文解析手段の構成例を示すブロック図
である。

【図４】図１の意図抽出手段の構成例を示すブロック図
である。

【図５】図４のキーワード格納手段に格納されるキーワ
ードの例の説明図である。

【図６】図１の対話管理手段の構成例を示すブロック図
である。

【図７】図６の状態遷移ネット格納手段に格納される状
態遷移ネットの説明図である。

【図８】図６の状態遷移ネットの基本遷移を示す説明図
である。

【図９】図６のコマンド生成手段が生成するコマンドの
一例の説明図である。

【図１０】図６の解答受理手段が受け取る解の例を示す
説明図である。

【図１１】図１の問題解決手段の構成例を示すブロック
図である。

【図１２】図１１の交通情報データベースの一例を示す
説明図である。

【図１３】図１の応答文生成手段の構成例を示すブロッ
ク図である。

【図１４】図１３の応答文テンプレート格納手段に格納
されるテンプレートの例の説明図である。

【図１５】図１の音声合成手段の構成例を示すブロック
図である。

【図１６】図１の第１の中途応答処理手段の構成例を示
すブロック図である。

【図１７】図１の第２の中途応答処理手段の構成例を示
すブロック図である。

【図１８】図１の第２の中途応答処理手段の他の構成例
を示すブロック図である。

【図１９】図１の第３の中途応答処理手段の構成例を示
すブロック図ある。

【図２０】図１９の応答文テンプレート格納手段に格納
されるテンプレートの例（ａ）および対話状況の一例
（ｂ）の説明図である。

【図２１】図１の第４の中途応答処理手段の構成例を示
すブロック図である。

【図２２】図２１の応答文テンプレート格納手段に格納
されるテンプレートの例（ａ）および対話状況の一例
（ｂ）の説明図である。

【図２３】図１の第４の中途応答処理手段の他の構成例
を示すブロック図である。

【図２４】図２３の応答文テンプレート格納手段に格納
されるテンプレートの例（ａ）および対話状況の一例
（ｂ）の説明図である。

【図２５】図１の第５の中途応答処理手段の構成例を示
すブロック図である。

【図２６】図２５の応答文テンプレート格納手段に格納
されるテンプレートの例（ａ）および対話状況の一例
（ｂ）の説明図である。

【図２７】図１の第２の中途応答処理手段の他の構成例
を示すブロック図である。

【図２８】図２７の応答文テンプレート格納手段に格納
されるテンプレートの例（ａ）および対話状況の一例
（ｂ）の説明図である。

【図２９】図１の第３の中途応答処理手段の他の構成例
を示すブロック図である。

【図３０】図２９の応答文テンプレート格納手段に格納
されるテンプレートの例（ａ）および対話状況の一例
（ｂ）の説明図である。

【図３１】図１の第５の中途応答処理手段のの他の構成
例を示すブロック図である。

【図３２】図３１の同義語辞書の一例の説明図である。

【図３３】図３１の応答文テンプレートの例（ａ）およ
び対話状況の一例（ｂ）の説明図である。

【図３４】本発明の他の音声対話システムのブロック図
である。

【図３５】本発明のさらに他の音声対話システムのブロ
ック図である。

【図３６】図１の実施例のハードウエア構成例を示すブ
ロック図である。

【図３７】本発明の音声対話システムにおけるフィード
バック処理の分類の説明図である。

【符号の説明】

１…マイク、２…音声入力手段、３…音声分析手段、４
…音声認識手段、５…構文解析手段、６…意図抽出手
段、７…対話管理手段、８…問題解決手段、１０…応答
文生成手段、１１…音声合成手段、１２…音声出力手
段、１３…スピーカ、１４・１５・１６・１７・１８…
中途応答処理手段

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ０６Ｆ 3/16 ３３０Ｋ 7323−5Ｂ 17/28 Ｇ１０Ｌ 3/00 Ｒ５３１Ｄ５６１Ｇ５７１Ｈ 9194−5ＬＧ０６Ｆ 15/403 ３３０Ｃ

Claims

【特許請求の範囲】

【請求項１】利用者の発話した音声を入力する音声入力
手段と、該音声入力手段により入力された音声を分析する音声分
析手段と、該音声分析手段からの分析結果を基に音声を認識し、一
つまたは複数の単語系列を出力する音声認識手段と、前記一つまたは複数の単語系列に対して構文解析をし、
一つまたは複数の構文情報を出力する構文解析手段と、前記一つまたは複数の構文情報から利用者の意図を抽出
する意図抽出手段と、前記利用者の意図に基づいてシステムの応答内容を生成
し、あるいは、システムの応答内容を生成するために問
題解決が必要な場合には、問題解決するためのコマンド
を生成し、かつ、該コマンドに対して得られる解も含め
てシステムの応答内容を生成する対話管理手段と、前記コマンドに含まれる問題の解を求める問題解決手段
と、前記対話管理手段から得られる前記システムの応答内容
より応答文を生成する応答文生成手段と、前記応答文生成手段から得られる応答文を音声波形に変
換する音声合成手段と、前記音声合成手段より得られる音声波形を音声として出
力する音声出力手段と、前記音声入力手段、前記音声分析手段、前記音声認識手
段、前記構文解析手段、前記意図抽出手段の少なくとも
１つの処理結果を入力として、該処理結果を前記対話管
理手段、前記音声合成手段および前記音声出力手段の少
なくとも１つへ出力する少なくとも１つの中途応答処理
手段とを備え、前記音声入力手段、前記音声分析手段、前記音声認識手
段、前記構文解析手段、前記意図抽出手段の少なくとも
１つの処理結果に応じて、現在のシステムの処理状態を
利用者に知らしめる応答を発声することを特徴とする音
声対話システム。
【請求項２】前記１つあるいは複数の中途応答処理手段
は、利用者との対話の状態に関する情報を前記対話管理
手段との間で授受し、システムの処理状態に依存して確
認や選択要求の応答を適宜発生可能とする構成としたこ
とを特徴とする請求項１記載の音声対話システム。
【請求項３】前記中途応答処理手段の１つは、前記音声
入力手段により入力された音声データを一時的に保存
し、該保存した音声データをそのまま前記音声出力手段
に出力することにより、前記音声入力手段の処理状態を
利用者に知らしめることを特徴とする請求項１記載の音
声対話システム。
【請求項４】前記中途応答処理手段の１つは、前記音声
分析手段の結果から利用者の発話した音声にポーズを検
出したとき、予め定めた相槌の応答文を前記音声合成手
段に出力することを特徴とする請求項１または２記載の
音声対話システム。
【請求項５】前記中途応答処理手段の１つは、前記音声
分析手段の結果から小さい音声を検出したとき、より大
きな発声を利用者に要求する応答文を前記音声合成手段
に出力することを特徴とする請求項１、２、３または４
記載の音声対話システム。
【請求項６】前記中途応答処理手段の１つは、前記音声
分析手段の結果から予め定めた時間以上、音声の入力を
検出しないとき、利用者に入力を促す応答文を前記音声
合成手段に出力することを特徴とする請求項１、２、
３、４または５記載の音声対話システム。
【請求項７】前記中途応答処理手段の１つは、前記音声
認識手段の結果から認識不良を検出したとき、再発声を
利用者に要求する応答文を前記音声合成手段に出力する
ことを特徴とする請求項１〜６のいずれかに記載の音声
対話システム。
【請求項８】前記中途応答処理手段の１つは、前記音声
認識手段の結果の一部に認識不良を検出したとき、当該
一部の認識候補の適否を利用者に確認する応答文を前記
音声合成手段に出力することを特徴とする請求項１〜７
のいずれかに記載の音声対話システム。
【請求項９】前記中途応答処理手段の１つは、前記構文
解析手段の結果から構文的な不良を検出したき、構文解
析不能を利用者に通知する応答文を前記音声合成手段に
出力することを特徴とする請求項１〜８のいずれかに記
載の音声対話システム。
【請求項１０】前記中途応答処理手段の１つは、前記構
文解析手段の結果から１つあるいは複数の認識スコアの
小さい名詞あるいは動詞を検出したとき、該名詞あるい
は動詞を利用者に確認する応答文を前記音声合成手段に
出力することを特徴とする請求項１〜９のいずれかに記
載の音声対話システム。
【請求項１１】前記中途応答処理手段の１つは、前記意
図抽出手段の結果から意味的な不良を検出したき、意図
抽出不能を利用者に通知する応答文を前記音声合成手段
に出力することを特徴とする請求項１〜１０のいずれか
に記載の音声対話システム。
【請求項１２】前記中途応答処理手段の１つは、同義語
検出手段を有し、前記意図抽出手段の結果から得られた
単語に同義語が存在する場合に、その同義語で前記単語
を言い換えて利用者の意図を確認する応答文を前記音声
合成手段に出力することを特徴とする請求項１〜１１の
いずれかに記載の音声対話システム。