JP2005148342A

JP2005148342A - 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体

Info

Publication number: JP2005148342A
Application number: JP2003384627A
Authority: JP
Inventors: Katsutoshi Ofu; 克年大附; Takaaki Hori; 貴明堀
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-11-14
Filing date: 2003-11-14
Publication date: 2005-06-09
Anticipated expiration: 2023-11-14
Also published as: JP3819896B2

Abstract

【課題】１位の単語と１位の単語と異なる単語の内でスコアの最も高い単語との間のスコア差を用いる音声認識方法、装置、プログラムおよび記録媒体を提供する。
【解決手段】音響特徴パラメータに対して、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識方法において、最も高いスコアを示すモデルが表現するカテゴリの他にスコアの高い認識結果候補を求める過程と、スコアの最も高い認識結果と認識結果候補の中で認識結果と異なるカテゴリであり且つ最も高いスコアを示すカテゴリとの間の音響分析フレーム当たりのスコア差を求める過程と、スコア差を認識結果の連続するフレーム区間において正規化することにより得られる値をその認識結果の信頼度として出力する過程とを具備する音声認識方法。
【選択図】なし

Description

この発明は、音声認識方法、この方法を実施する装置、プログラムおよび記録媒体に関し、特に、入力音声信号に対する音声認識処理により得られる認識結果に付随して、認識結果の信頼度を出力する音声認識方法、この方法を実施する装置、プログラムおよび記録媒体に関する。

音声認識においては、一般に、入力音声を分析して得られる音声特徴パラメータ系列と音声をモデル化した音響モデルとの間の尤度を計算し、認識すべき単語の集合である語彙、単語の接続のし易さ、規則を表す言語モデルという言語的制約の中で、尤度の最も高い候補を認識結果として出力する。しかし、入力音声の発声が曖昧であったり、音声に雑音が重畳していたり、また、音声以外の音響信号が入力された場合は、尤度の最も高い候補であっても誤った認識結果を出力する可能性が高くなる。更に、入力音声が未登録語である場合は正しい認識結果を出力することができない。

以上の問題に対して、音声認識結果に信頼度を付与することにより、信頼度が高い場合はこの音声認識結果を受理し、信頼度が低い場合はこの音声認識結果を棄却し、或いは発声者に対して結果を確認したりすることができるに到り、音声認識を採用する種々の装置において音声認識誤りに起因する発声者の想定しない動作を抑制することができる。
ここで、音声認識結果に信頼度を付与する方法として、対象カテゴリと非対象カテゴリ（対立モデル）からそれぞれ得られる確率の差を用いて得られる確率を認識結果の信頼度とする方法が開示されている（特許文献１参照）。そして、単語グラフ或いは上位Ｎ位までの単語或いは単語列であるＮベスト候補における単語の事後確率に基づいて認識結果の信頼度を求める方法が開示されている（非特許文献１参照）。
特開平１１−８５１８８号公報 Frank Wessel, Ralf Schluter, KIaus Macherey and Hermann Ney,"Confidence Measures for Large Vocabulary Continuous Speech Recognition"、IEEE Transactions on Speech and Audio Processing, Vol.９, No.３,March 2001.

しかし、特許文献１に記載される方法は、対象カテゴリのモデルと非対象カテゴリのモデルとそれぞれについて認識処理を行う必要があるので、通常の認識処理と比較して必要な計算量が多くなるという問題点があった。
また、非特許文献１に記載される方法は、単語の事後確率を求めるに際して、認識結果の中間的表現である単語グラフ（単語ラティス）を求める必要があり、第１パスで粗い探索をしてから第２パスで詳細な探索をする２パス探索においては、第１パスの出力である単語グラフを用いるか、第２パスで単語グラフを生成しなければならない。しかし、第１パスの出力である単語グラフは粗い探索の結果であるので精度が悪く、従って、そこから求められる信頼度の精度も悪くなるという問題点があった。また、第２パスで単語グラフを生成すると最終的なＮベスト候補を出力するために第３パスを実行しなければならず、必要な処理量が多くなるという問題点があった。

非特許文献１に記載されるＮベスト候補を用いた単語の事後確率を求める方法は、得られたＮベスト候補に対して動的計画法を用いてアライメントをとる必要があるので、やはり必要な計算量が多くなるという問題点があった。
この発明は、音声認識結果として得られたＮベスト候補において、１位の単語と１位の単語と異なる単語の内でスコアの最も高い単語との間の、音響分析フレーム当たりのスコア差を求め、そのスコア差を連続するフレーム区間において正規化する構成を採用して、通常の認識処理と同程度の計算量で音声認識結果に対する精度の高い信頼度を求めることができる音声認識方法、この方法を実施する装置、プログラムおよび記録媒体を提供するものである。

請求項１：入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識方法において、最も高いスコアを示すモデルが表現するカテゴリの他にスコアの高い認識結果候補を少なくとも１件以上求める過程と、スコアの最も高い認識結果と認識結果候補の中で認識結果と異なるカテゴリであり且つ最も高いスコアを示すカテゴリとの間の音響分析フレーム当たりのスコア差を求める過程と、スコア差を連続するフレーム区間において正規化することにより得られる値をその認識結果の信頼度スコアとして出力する過程とを具備する音声認識方法を構成した。

そして、請求項２：請求項１に記載される音声認識方法において、認識結果と異なるカテゴリの認識結果候補が存在しない場合は、その認識結果の信頼度として一定の値を信頼度として出力する音声認識方法を構成した。
また、請求項３：請求項１および請求項２の内の何れかに記載される音声認識方法において、認識結果の前後に含まれる非カテゴリ区間のスコアを含めて、認識結果の信頼度を計算する音声認識方法を構成した。

ここで、請求項４：入力される音声信号をディジタル信号に変換し、このディジタル信号を音響特徴パラメータ系列１３０に変換抽出する音響分析部１２０を有し、音響モデルが格納される音響モデル格納部１４０を有し、語彙および言語モデルを格納する辞書・言語モデル格納部１５０を有し、音響モデル格納部１４０および辞書・言語モデル格納部１５０から音響モデルおよび辞書・言語モデルを入力し、入力音声の音響特徴パラメータ系列に対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果として出力する探索部１６０とを有する音声認識装置において、最も高いスコアを示すモデルが表現するカテゴリの他にスコアの高い認識結果候補を少なくとも１件以上求め、スコアの最も高い認識結果と認識結果候補の中で認識結果と異なるカテゴリであり且つ最も高いスコアを示すカテゴリとの間の音響分析フレーム当たりのスコア差を求め、スコア差を連続するフレーム区間において正規化することにより得られる値をその認識結果の信頼度スコアとして出力する信頼度計算部１９０を具備する音声認識装置を構成した。

そして、請求項５：請求項４に記載される音声認識装置において、信頼度計算部１９０は、単語wの各フレームｔにおいて単語wと異なる単語がＮベスト候補中に存在するか否かを検出する対立候補検出部４００を有し、単語wのフレームｔにおけるスコアと対立候補単語のフレームｔにおけるスコアとの間のスコア差D（ｔ）を求めるスコア差計算部４１０を有し、各フレームｔのスコア差D（ｔ）をスコア差累積計算部４２０を有し、以上のスコア差累積計算処理を各単語wについて実行し、正規化処理として累積スコア差Aを単語wのフレーム数で除することにより単語wの区間における信頼度スコアの加算平均を求める信頼度スコア計算部４３０を有し、以上の信頼度スコア計算処理を各単語wについて実行するものである、音声認識装置を構成した。

また、請求項６：入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、最も高いスコアを示すモデルが表現するカテゴリの他にスコアの高い認識結果候補を少なくとも１件以上求め、スコアの最も高い認識結果と認識結果候補の中で認識結果と異なるカテゴリであり且つ最も高いスコアを示すカテゴリとの間の音響分析フレーム当たりのスコア差を求め、スコア差を連続するフレーム区間において正規化することにより得られる値をその認識結果の信頼度スコアとして出力する、指令をＣＰＵに対して実行する音声認識プログラムを構成した。
更に、請求項７：請求項６に記載される音声認識プログラムを記憶した記録媒体を構成した。

この発明によれば、信頼度を求める計算は、Ｎベスト候補におけるフレーム当たりのスコア差の算出およびそれらの正規化であり、これは音声認識処理と比較して非常に少ない計算量で実行することができる。また、実施例の実験結果に示される如く従来の方法と比較して精度の高い信頼度を求めることができる。

発明を実施するための最良の形態を図を参照して説明する。
図１は音声認識装置の実施例を説明する図である。入力音声１１０は、音響分析部１２０において音響特徴パラメータ系列１３０に変換される。音響特徴パラメータ系列とは、入力音声を数十mｓｅｃのフレームと呼ばれる単位で分析して得られるLPCケプストラム、MFCCその他のパラメータ系列である。探索部１６０においては、音響モデル格納部１４０と辞書・言語モデル格納部１５０とを用いて、入力音声に対する認識結果候補の探索を音響特徴パラメータ系列について行う。探索の結果、上位Ｎ位までのＮベスト候補がスコア１８０と共に音声認識結果１７０として出力される。信頼度計算部１９０においては、音声認識結果１７０とスコア１８０に基づいて音声認識結果１７０に対する信頼度スコア２００を計算して出力する。

図２のフローチャートを参照して、信頼度計算部１９０において実行される音声認識結果に対する信頼度スコアを計算する過程を説明する。音声認識処理により入力音声に対する音声認識結果の単語列とスコアが得られると、先ず、ステップ（Ｓ０１）で、単語番号ｗおよびフレーム番号ｔを１に初期化する。そして、ステップ（Ｓ０２）で、単語信頼度スコア累積用変数Ａを０に初期化する。また、ステップ（Ｓ０３）で、フレームｔにおいて単語wと異なる単語がＮベスト候補中に存在するＹｅｓの場合は、ステップ（Ｓ０４）で、単語wのフレームｔにおけるスコアと対立候補単語のフレームｔにおけるスコアとの間のスコア差D（ｔ）を求める。対立候補がNベスト候補中に存在しないＮｏの場合は、ステップ（Ｓ０５）で、D（ｔ）に予め指定しておいた固定値を代入する。この固定値は、対立候補が存在する場合のスコア差D（ｔ）と比較して大きくなる様に設定しておく。ステップ（Ｓ０６）で、単語区間内のフレームにおいて得られたスコア差D（ｔ）を累積する。ステップ（Ｓ０７）でフレームｔが単語ｗの最終フレームではないＮｏの場合は、ステップ（Ｓ０８）でフレームｔを一つ進めて、ステップ（Ｓ０２）へ戻る。ステップ（Ｓ０７）でフレームｔが単語wの最終フレームであるＹｅｓの場合は、正規化処理として、ステップ（Ｓ０９）で累積スコアAを単語wのフレーム数で除することにより単語wの区間における信頼度スコアの加算平均を求める。ステップ（Ｓ１０）で単語wが認識結果単語列の最終単語ではないＮｏの場合は、ステップ（Ｓ１１）で単語wを一つ進めて処理を繰り返す。ステップ（Ｓ１０）で単語wが認識結果単語列の最終単語であるＹｅｓの場合は、ステップ（Ｓ１２）で認識結果の各単語に対する信頼度スコアＣ（ｗ）および単語列全体に対する信頼度スコアＣ（Ｗ）=ΣＣ（ｗ）を出力する。

図２において、ステップ（Ｓ０３）は、単語wの各フレームｔにおいて単語wと異なる単語がＮベスト候補中に存在するか否かを検出する対立候補検出部４００を構成している。ステップ（Ｓ０４）、（Ｓ０５）は、単語wのフレームｔにおけるスコアと対立候補単語のフレームｔにおけるスコアとの間のスコア差D（ｔ）を求めるスコア差計算部４１０を構成している。ステップ（Ｓ０６）は、各フレームｔのスコア差D（ｔ）をスコア差累積計算部４２０を構成している。ステップ（Ｓ０９）は、正規化処理として累積スコア差Aを単語wのフレーム数で除することにより単語wの区間における信頼度スコアの加算平均を求める信頼度スコア計算部４３０を構成している。信頼度計算部１９０は、これら対立候補検出部４００、スコア差計算部４１０、スコア差累積計算部４２０、信頼度スコア計算部４３０をその主要な構成要素としている。

図３は信頼度計算部の動作を説明するブロック図である。
図３を参照して、図１の信頼度計算部１９０における信頼度スコアを計算する過程を説明する。２１０は音声認識結果の第１位候補を示し、２２０は音声認識結果の第２位候補を示し、２３０は音声認識結果の第３位候補を表示している。第１位候補２１０は単語Ａ、単語Ｂ、単語Ｃより成り、第２位候補は単語Ａ、単語Ｄ、単語Ｃより成り、第３位候補は単語Ｅ、単語Ｆ、単語Ｃより成る。ここで、一つの正方形は音響特徴パラメータのフレーム２４０を表している。

先ず、第１位候補の単語Aの信頼度を求める。単語Ａの各フレームにおいて、第２位以下の対立候補の中で単語が異なりスコアの最も高いフレームと単語Ａのフレームとの間のスコア差２５０を計算する。各フレームにおいて計算したスコア差２５０を正規化、即ち、加算平均した値を単語Ａの信頼度とする。同様に、単語Ｂ、単語Ｃについても信頼度を求める。単語Ｃの様に単語の異なる対立候補がない場合には、単語Cの信頼度が高いと考えて、充分に大きい予め定義した固定値をスコア差として与える。
また、単語その他の認識結果として出力したいカテゴリには含まれないポーズ、雑音の如き音より成る非カテゴリ区間についても同様にスコア差を用いて信頼度を求めることができ、これらの信頼度を含めて認識結果の信頼度を求めることもできる。孤立単語認識の場合、連続単語認識の場合と比較して、認識する音声区間全体に占める非カテゴリ区間が大きく、その区間が単語の一部として認識されるか非カテゴリとして認識されるかによってスコアが大きく異なるところから、非カテゴリ区間を含めて信頼度を算出することが望ましい。

従来の対立モデルを用いる信頼度の計算方法は、信頼度を求めるために対立モデルを用いた認識処理を行う必要があったが、この発明の方法によれば、音声認識結果として得られるＮベスト候補およびそれらのスコアの単純なスコア差と加算平均の計算のみで認識結果の信頼度を求めることができる。
また、従来の事後確率を用いる信頼度の計算方法は、精度の低い単語グラフを用いるか、精度の高い単語グラフを信頼度の計算のために用意する必要があったが、この発明の方法によれば、通常の２パス認識の結果として得られるNベスト候補を利用して少ない処理量により音声認識結果の信頼度を求めることができる。Nベスト候補から事後確率を求める従来の方法は、結果の単語列のアライメントをとるために少なくとも、
（単語数（文長））²×Ｎベスト候補数
に比例する計算量、即ち、文の長さの２乗に比例する計算量を必要とするのに対して、この発明の方法によれば、
（フレーム数（文長））×Ｎベスト候補数
に比例する計算量、即ち、文の長さに比例する計算量となり、文の長さが長い程この発明の方法による計算量削減効果は大きくなる。

上述した音声認識方法は、ＣＰＵに対してプログラムを介して指令を実行させて実施することができる。例えば、図４を参照するに、３３０はＣＰＵである。１４０は音響モデルが格納される音響モデル格納部である。１５０は語彙および言語モデルを格納する辞書・言語モデル格納部である。３２０は音声認識プログラムメモリであり、音声認識プログラムがCD・ROM、ハードディスクその他の記憶媒体からインストールされ、或いは通信回線を介してインストールされている。３４０は音響分析、探索、信頼度スコア計算時に一時的にデータを記憶しておく記憶部である。この発明を実施する音声認識装置は、以上の構成部材をバス３１０を介して相互接続して構成される。この音声認識装置は、入力音声信号１１０に対する音声認識結果１７０とスコア１８０を求め、その後、上述の方法で信頼度スコア２００を求める。

この発明による効果を孤立単語認識実験において評価した。語彙サイズを５１１４語とする会社名認識タスクにおいて、従来の対立モデルを用いた信頼度とこの実施例による信頼度とを比較した。先ず、認識結果に対する信頼度を各方法により求め、その信頼度が閾値より大きい場合は受理とし、小さい場合は棄却とする場合において、誤受理率、即ち、誤った認識結果を受理する確率を求めると共に、誤棄却率、即ち、正しい認識結果を棄却する確率を求める。誤受理率と誤棄却率とはトレードオフの関係にあり、閾値を大きくすると誤受理率は下がって誤棄却率は上がり、閾値を小さくすればその逆となる。評価は、閾値を様々に変更した場合に、誤受理率と誤棄却率とが等しくなるときの確率である等誤り率によって行った。音声認識結果の第１位候補の正解率は８５．５%であった。信頼度の評価結果を表１に示す。また、従来例の処理時間を１とした場合のこの発明による方法の処理時間比を示した。

表１を参照するに、実施例による信頼度は、従来例より少ない処理時間で従来例の半分以下の等誤り率を達成していることを認識することができる。

この発明による効果を連続単語認識において評価した。音声対話装置に対する音声発話のキーワード部分について評価を行った。語彙サイズ１１２４語の航空券予約タスク（キーワード正解精度：７８．７%）による評価結果を表２に示す。また、語彙サイズ４２１語の店舗検索タスク（キーワード正解精度：８６．８%）による評価結果を表３に示す。

表２および表３をみると、実施例による信頼度は、連続単語認識においても従来例より少ない処理時間で、従来例より低い等誤り率を達成していることを認識することができる。
この発明による音声認識方法を用いることにより、音声対話装置において、すべての認識結果を発声者に対して確認するのではなく、信頼度の低い認識結果についてのみ発声者に確認を行ったり、音声書き起こし装置において、信頼度の低い部分の認識結果は表示しない様にしたりして、効率的な音声認識応用装置を開発することができる。

実施例を説明するブロック図。実施例の信頼度計算部の処理の流れを説明するフローチャート。実施例の信頼度計算部の構成を示すブロック図。ＣＰＵを採用する実施例を説明するブロック図。

符号の説明

１１０入力音声信号１２０音響分析部
１３０音響特徴パラメータ系列１４０音響モデル格納部
１５０辞書・言語モデル格納部１６０探索部
１７０音声認識結果１８０スコア
１９０信頼度計算部２００信頼度スコア
２１０第１位候補２２０第２位候補
２３０第３位候補２４０フレーム
２５０スコア差３１０バス
３２０音声認識プログラムメモリ３３０ＣＰＵ
３４０記憶部４００対立候補検出部
４１０スコア差計算部４２０スコア差累積計算部
４３０信頼度スコア計算部

Claims

入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識方法において、
最も高いスコアを示すモデルが表現するカテゴリの他にスコアの高い認識結果候補を少なくとも１件以上求める過程と、
スコアの最も高い認識結果と認識結果候補の中で認識結果と異なるカテゴリであり且つ最も高いスコアを示すカテゴリとの間の音響分析フレーム当たりのスコア差を求める過程と、
スコア差を認識結果の連続するフレーム区間において正規化することにより得られる値をその認識結果の信頼度として出力する過程と、
を具備することを特徴とする音声認識方法。
請求項１に記載される音声認識方法において、
認識結果と異なるカテゴリの認識結果候補が存在しない場合は、その認識結果の信頼度として一定の値を信頼度として出力することを特徴とする音声認識方法。
請求項１および請求項２の内の何れかに記載される音声認識方法において、
認識結果の前後に含まれる非カテゴリ区間のスコアを含めて、認識結果の信頼度を計算することを特徴とする音声認識方法。
入力される音声信号をディジタル信号に変換し、このディジタル信号を音響特徴パラメータ系列１３０に変換抽出する音響分析部１２０を有し、音響モデルが格納される音響モデル格納部１４０を有し、語彙および言語モデルを格納する辞書・言語モデル格納部１５０を有し、
音響モデル格納部および辞書・言語モデル格納部から音響モデルおよび辞書・言語モデルを入力し、入力音声の音響特徴パラメータ系列に対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果として出力する探索部とを有する音声認識装置において、
最も高いスコアを示すモデルが表現するカテゴリの他にスコアの高い認識結果候補を少なくとも１件以上求め、スコアの最も高い認識結果と認識結果候補の中で認識結果と異なるカテゴリであり且つ最も高いスコアを示すカテゴリとの間の音響分析フレーム当たりのスコア差を求め、スコア差を認識結果の連続するフレーム区間において正規化することにより得られる値をその認識結果の信頼度スコアとして出力する信頼度計算部を具備することを特徴とする音声認識装置。
請求項４に記載される音声認識装置において、
信頼度計算部は、
単語の各フレームにおいて単語と異なる単語がＮベスト候補中に存在するか否かを検出する対立候補検出部を有し、
単語のフレームにおけるスコアと対立候補単語のフレームにおけるスコアとの間のスコア差を求めるスコア差計算部を有し、
各フレームのスコア差をスコア差累積計算部を有し、
以上のスコア差累積計算処理を各単語について実行し、
正規化処理として累積スコア差を単語のフレーム数で除することにより単語の区間における信頼度スコアの加算平均を求める信頼度スコア計算部を有し、
以上の信頼度スコア計算処理を各単語について実行するものである、
ことを特徴とする音声認識装置。
入力される音声信号をディジタル信号に変換し、
そのディジタル信号から音響特徴パラメータを抽出し、
その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、
最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、
最も高いスコアを示すモデルが表現するカテゴリの他にスコアの高い認識結果候補を少なくとも１件以上求め、
スコアの最も高い認識結果と認識結果候補の中で認識結果と異なるカテゴリであり且つ最も高いスコアを示すカテゴリとの間の音響分析フレーム当たりのスコア差を求め、
スコア差を連続するフレーム区間において正規化することにより得られる値をその認識結果の信頼度スコアとして出力する、指令をＣＰＵに対して実行する
ことを特徴とする音声認識プログラム。
請求項６に記載される音声認識プログラムを記憶した記録媒体。