JP2005148342A - 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 - Google Patents
音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2005148342A JP2005148342A JP2003384627A JP2003384627A JP2005148342A JP 2005148342 A JP2005148342 A JP 2005148342A JP 2003384627 A JP2003384627 A JP 2003384627A JP 2003384627 A JP2003384627 A JP 2003384627A JP 2005148342 A JP2005148342 A JP 2005148342A
- Authority
- JP
- Japan
- Prior art keywords
- score
- recognition result
- word
- category
- reliability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000004364 calculation method Methods 0.000 claims description 44
- 238000009825 accumulation Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
Images
Abstract
【解決手段】 音響特徴パラメータに対して、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識方法において、最も高いスコアを示すモデルが表現するカテゴリの他にスコアの高い認識結果候補を求める過程と、スコアの最も高い認識結果と認識結果候補の中で認識結果と異なるカテゴリであり且つ最も高いスコアを示すカテゴリとの間の音響分析フレーム当たりのスコア差を求める過程と、スコア差を認識結果の連続するフレーム区間において正規化することにより得られる値をその認識結果の信頼度として出力する過程とを具備する音声認識方法。
【選択図】 なし
Description
ここで、音声認識結果に信頼度を付与する方法として、対象カテゴリと非対象カテゴリ(対立モデル)からそれぞれ得られる確率の差を用いて得られる確率を認識結果の信頼度とする方法が開示されている(特許文献1 参照)。そして、単語グラフ或いは上位N位までの単語或いは単語列であるNベスト候補における単語の事後確率に基づいて認識結果の信頼度を求める方法が開示されている(非特許文献1 参照)。
また、非特許文献1に記載される方法は、単語の事後確率を求めるに際して、認識結果の中間的表現である単語グラフ(単語ラティス)を求める必要があり、第1パスで粗い探索をしてから第2パスで詳細な探索をする2パス探索においては、第1パスの出力である単語グラフを用いるか、第2パスで単語グラフを生成しなければならない。しかし、第1パスの出力である単語グラフは粗い探索の結果であるので精度が悪く、従って、そこから求められる信頼度の精度も悪くなるという問題点があった。また、第2パスで単語グラフを生成すると最終的なNベスト候補を出力するために第3パスを実行しなければならず、必要な処理量が多くなるという問題点があった。
この発明は、音声認識結果として得られたNベスト候補において、1位の単語と1位の単語と異なる単語の内でスコアの最も高い単語との間の、音響分析フレーム当たりのスコア差を求め、そのスコア差を連続するフレーム区間において正規化する構成を採用して、通常の認識処理と同程度の計算量で音声認識結果に対する精度の高い信頼度を求めることができる音声認識方法、この方法を実施する装置、プログラムおよび記録媒体を提供するものである。
また、請求項3:請求項1および請求項2の内の何れかに記載される音声認識方法において、認識結果の前後に含まれる非カテゴリ区間のスコアを含めて、認識結果の信頼度を計算する音声認識方法を構成した。
更に、請求項7:請求項6に記載される音声認識プログラムを記憶した記録媒体を構成した。
図1は音声認識装置の実施例を説明する図である。入力音声110は、音響分析部120において音響特徴パラメータ系列130に変換される。音響特徴パラメータ系列とは、入力音声を数十msecのフレームと呼ばれる単位で分析して得られるLPCケプストラム、MFCCその他のパラメータ系列である。探索部160においては、音響モデル格納部140と辞書・言語モデル格納部150とを用いて、入力音声に対する認識結果候補の探索を音響特徴パラメータ系列について行う。探索の結果、上位N位までのNベスト候補がスコア180と共に音声認識結果170として出力される。信頼度計算部190においては、音声認識結果170とスコア180に基づいて音声認識結果170に対する信頼度スコア200を計算して出力する。
図3を参照して、図1の信頼度計算部190における信頼度スコアを計算する過程を説明する。210は音声認識結果の第1位候補を示し、220は音声認識結果の第2位候補を示し、230は音声認識結果の第3位候補を表示している。第1位候補210は単語A、単語B、単語Cより成り、第2位候補は単語A、単語D、単語Cより成り、第3位候補は単語E、単語F、単語Cより成る。ここで、一つの正方形は音響特徴パラメータのフレーム240を表している。
また、単語その他の認識結果として出力したいカテゴリには含まれないポーズ、雑音の如き音より成る非カテゴリ区間についても同様にスコア差を用いて信頼度を求めることができ、これらの信頼度を含めて認識結果の信頼度を求めることもできる。孤立単語認識の場合、連続単語認識の場合と比較して、認識する音声区間全体に占める非カテゴリ区間が大きく、その区間が単語の一部として認識されるか非カテゴリとして認識されるかによってスコアが大きく異なるところから、非カテゴリ区間を含めて信頼度を算出することが望ましい。
また、従来の事後確率を用いる信頼度の計算方法は、精度の低い単語グラフを用いるか、精度の高い単語グラフを信頼度の計算のために用意する必要があったが、この発明の方法によれば、通常の2パス認識の結果として得られるNベスト候補を利用して少ない処理量により音声認識結果の信頼度を求めることができる。Nベスト候補から事後確率を求める従来の方法は、結果の単語列のアライメントをとるために少なくとも、
(単語数(文長))2 ×Nベスト候補数
に比例する計算量、即ち、文の長さの2乗に比例する計算量を必要とするのに対して、この発明の方法によれば、
(フレーム数(文長))×Nベスト候補数
に比例する計算量、即ち、文の長さに比例する計算量となり、文の長さが長い程この発明の方法による計算量削減効果は大きくなる。
この発明による音声認識方法を用いることにより、音声対話装置において、すべての認識結果を発声者に対して確認するのではなく、信頼度の低い認識結果についてのみ発声者に確認を行ったり、音声書き起こし装置において、信頼度の低い部分の認識結果は表示しない様にしたりして、効率的な音声認識応用装置を開発することができる。
130 音響特徴パラメータ系列 140 音響モデル格納部
150 辞書・言語モデル格納部 160 探索部
170 音声認識結果 180 スコア
190 信頼度計算部 200 信頼度スコア
210 第1位候補 220 第2位候補
230 第3位候補 240 フレーム
250 スコア差 310 バス
320 音声認識プログラムメモリ 330 CPU
340 記憶部 400 対立候補検出部
410 スコア差計算部 420 スコア差累積計算部
430 信頼度スコア計算部
Claims (7)
- 入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識方法において、
最も高いスコアを示すモデルが表現するカテゴリの他にスコアの高い認識結果候補を少なくとも1件以上求める過程と、
スコアの最も高い認識結果と認識結果候補の中で認識結果と異なるカテゴリであり且つ最も高いスコアを示すカテゴリとの間の音響分析フレーム当たりのスコア差を求める過程と、
スコア差を認識結果の連続するフレーム区間において正規化することにより得られる値をその認識結果の信頼度として出力する過程と、
を具備することを特徴とする音声認識方法。 - 請求項1に記載される音声認識方法において、
認識結果と異なるカテゴリの認識結果候補が存在しない場合は、その認識結果の信頼度として一定の値を信頼度として出力することを特徴とする音声認識方法。 - 請求項1および請求項2の内の何れかに記載される音声認識方法において、
認識結果の前後に含まれる非カテゴリ区間のスコアを含めて、認識結果の信頼度を計算することを特徴とする音声認識方法。 - 入力される音声信号をディジタル信号に変換し、このディジタル信号を音響特徴パラメータ系列130に変換抽出する音響分析部120を有し、音響モデルが格納される音響モデル格納部140を有し、語彙および言語モデルを格納する辞書・言語モデル格納部150を有し、
音響モデル格納部および辞書・言語モデル格納部から音響モデルおよび辞書・言語モデルを入力し、入力音声の音響特徴パラメータ系列に対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果として出力する探索部とを有する音声認識装置において、
最も高いスコアを示すモデルが表現するカテゴリの他にスコアの高い認識結果候補を少なくとも1件以上求め、スコアの最も高い認識結果と認識結果候補の中で認識結果と異なるカテゴリであり且つ最も高いスコアを示すカテゴリとの間の音響分析フレーム当たりのスコア差を求め、スコア差を認識結果の連続するフレーム区間において正規化することにより得られる値をその認識結果の信頼度スコアとして出力する信頼度計算部を具備することを特徴とする音声認識装置。 - 請求項4に記載される音声認識装置において、
信頼度計算部は、
単語の各フレームにおいて単語と異なる単語がNベスト候補中に存在するか否かを検出する対立候補検出部を有し、
単語のフレームにおけるスコアと対立候補単語のフレームにおけるスコアとの間のスコア差を求めるスコア差計算部を有し、
各フレームのスコア差をスコア差累積計算部を有し、
以上のスコア差累積計算処理を各単語について実行し、
正規化処理として累積スコア差を単語のフレーム数で除することにより単語の区間における信頼度スコアの加算平均を求める信頼度スコア計算部を有し、
以上の信頼度スコア計算処理を各単語について実行するものである、
ことを特徴とする音声認識装置。 - 入力される音声信号をディジタル信号に変換し、
そのディジタル信号から音響特徴パラメータを抽出し、
その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、
最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、
最も高いスコアを示すモデルが表現するカテゴリの他にスコアの高い認識結果候補を少なくとも1件以上求め、
スコアの最も高い認識結果と認識結果候補の中で認識結果と異なるカテゴリであり且つ最も高いスコアを示すカテゴリとの間の音響分析フレーム当たりのスコア差を求め、
スコア差を連続するフレーム区間において正規化することにより得られる値をその認識結果の信頼度スコアとして出力する、指令をCPUに対して実行する
ことを特徴とする音声認識プログラム。 - 請求項6に記載される音声認識プログラムを記憶した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003384627A JP3819896B2 (ja) | 2003-11-14 | 2003-11-14 | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003384627A JP3819896B2 (ja) | 2003-11-14 | 2003-11-14 | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005148342A true JP2005148342A (ja) | 2005-06-09 |
JP3819896B2 JP3819896B2 (ja) | 2006-09-13 |
Family
ID=34692956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003384627A Expired - Lifetime JP3819896B2 (ja) | 2003-11-14 | 2003-11-14 | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3819896B2 (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007026347A (ja) * | 2005-07-21 | 2007-02-01 | Nec Corp | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
JP2007133008A (ja) * | 2005-11-08 | 2007-05-31 | Advanced Telecommunication Research Institute International | 音声認識装置、およびプログラム |
JP2008292789A (ja) * | 2007-05-25 | 2008-12-04 | Nippon Telegr & Teleph Corp <Ntt> | 学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体 |
JP2011075973A (ja) * | 2009-10-01 | 2011-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
JP2012022069A (ja) * | 2010-07-13 | 2012-02-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法とその装置とプログラム |
JP2014013302A (ja) * | 2012-07-04 | 2014-01-23 | Seiko Epson Corp | 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法 |
JP2014035361A (ja) * | 2012-08-07 | 2014-02-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法とプログラム |
JP2014510309A (ja) * | 2011-03-04 | 2014-04-24 | クゥアルコム・インコーポレイテッド | 環境音を認識するためのシステムおよび方法 |
US8990086B2 (en) | 2006-02-09 | 2015-03-24 | Samsung Electronics Co., Ltd. | Recognition confidence measuring by lexical distance between candidates |
JP2015082036A (ja) * | 2013-10-23 | 2015-04-27 | 日本電信電話株式会社 | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 |
WO2019030810A1 (ja) * | 2017-08-08 | 2019-02-14 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
CN110189750A (zh) * | 2018-02-23 | 2019-08-30 | 株式会社东芝 | 词语检测系统、词语检测方法以及记录介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05314320A (ja) * | 1992-05-08 | 1993-11-26 | Fujitsu Ltd | 認識距離の差と候補順を利用した認識結果の評価方式 |
JPH1185188A (ja) * | 1997-09-12 | 1999-03-30 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及びそのプログラム記録媒体 |
WO2003017253A1 (en) * | 2001-08-14 | 2003-02-27 | Sony Electronics Inc. | System and method for speech verification using a robust confidence measure |
-
2003
- 2003-11-14 JP JP2003384627A patent/JP3819896B2/ja not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05314320A (ja) * | 1992-05-08 | 1993-11-26 | Fujitsu Ltd | 認識距離の差と候補順を利用した認識結果の評価方式 |
JPH1185188A (ja) * | 1997-09-12 | 1999-03-30 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及びそのプログラム記録媒体 |
WO2003017253A1 (en) * | 2001-08-14 | 2003-02-27 | Sony Electronics Inc. | System and method for speech verification using a robust confidence measure |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007026347A (ja) * | 2005-07-21 | 2007-02-01 | Nec Corp | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
JP4735958B2 (ja) * | 2005-07-21 | 2011-07-27 | 日本電気株式会社 | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
JP2007133008A (ja) * | 2005-11-08 | 2007-05-31 | Advanced Telecommunication Research Institute International | 音声認識装置、およびプログラム |
US8990086B2 (en) | 2006-02-09 | 2015-03-24 | Samsung Electronics Co., Ltd. | Recognition confidence measuring by lexical distance between candidates |
JP2008292789A (ja) * | 2007-05-25 | 2008-12-04 | Nippon Telegr & Teleph Corp <Ntt> | 学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体 |
JP2011075973A (ja) * | 2009-10-01 | 2011-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
JP2012022069A (ja) * | 2010-07-13 | 2012-02-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法とその装置とプログラム |
JP2014510309A (ja) * | 2011-03-04 | 2014-04-24 | クゥアルコム・インコーポレイテッド | 環境音を認識するためのシステムおよび方法 |
US9443511B2 (en) | 2011-03-04 | 2016-09-13 | Qualcomm Incorporated | System and method for recognizing environmental sound |
JP2014013302A (ja) * | 2012-07-04 | 2014-01-23 | Seiko Epson Corp | 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法 |
JP2014035361A (ja) * | 2012-08-07 | 2014-02-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法とプログラム |
JP2015082036A (ja) * | 2013-10-23 | 2015-04-27 | 日本電信電話株式会社 | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 |
WO2019030810A1 (ja) * | 2017-08-08 | 2019-02-14 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
JPWO2019030810A1 (ja) * | 2017-08-08 | 2019-11-14 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
CN110189750A (zh) * | 2018-02-23 | 2019-08-30 | 株式会社东芝 | 词语检测系统、词语检测方法以及记录介质 |
CN110189750B (zh) * | 2018-02-23 | 2022-11-15 | 株式会社东芝 | 词语检测系统、词语检测方法以及记录介质 |
Also Published As
Publication number | Publication date |
---|---|
JP3819896B2 (ja) | 2006-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7249017B2 (en) | Speech recognition with score calculation | |
US10157610B2 (en) | Method and system for acoustic data selection for training the parameters of an acoustic model | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
US7013277B2 (en) | Speech recognition apparatus, speech recognition method, and storage medium | |
US8532991B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
US8478591B2 (en) | Phonetic variation model building apparatus and method and phonetic recognition system and method thereof | |
US6961701B2 (en) | Voice recognition apparatus and method, and recording medium | |
JP4224250B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
JP2011033680A (ja) | 音声処理装置及び方法、並びにプログラム | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
JP3819896B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JP2007240589A (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
JP3444108B2 (ja) | 音声認識装置 | |
JP2005275348A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JPH09134192A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP2012255867A (ja) | 音声認識装置 | |
US20220005462A1 (en) | Method and device for generating optimal language model using big data | |
JP2813209B2 (ja) | 大語彙音声認識装置 | |
JP6497651B2 (ja) | 音声認識装置および音声認識プログラム | |
JP2001109491A (ja) | 連続音声認識装置および方法 | |
JPWO2013125203A1 (ja) | 音声認識装置、音声認識方法およびコンピュータプログラム | |
KR20180057315A (ko) | 자연어 발화 음성 판별 시스템 및 방법 | |
JP2731133B2 (ja) | 連続音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060428 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060530 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060615 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3819896 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090623 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100623 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100623 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110623 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120623 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130623 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140623 Year of fee payment: 8 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |