JP4576612B2

JP4576612B2 - 音声認識方法および音声認識装置

Info

Publication number: JP4576612B2
Application number: JP2005266130A
Authority: JP
Inventors: 晃佐宗; 真孝後藤
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2005-09-13
Filing date: 2005-09-13
Publication date: 2010-11-10
Anticipated expiration: 2025-09-13
Also published as: JP2007079072A

Description

本発明は、高基本周波数音声や長音化音声を含んだ音声の音声認識方法および音声認識装置に関する。

近年の音声認識技術は、大語彙の連続音声を高い精度で認識することを可能にしたが、その適用範囲はごく限られている。
例えば、背景雑音や残響などがある雑音環境下での音声認識、対話音声、感情音声、歌声などの様々な発話様式での音声認識、そして、子供、老人、障害者などの多様な話者の音声認識では、認識精度が著しく劣化する。

歌声や子供の音声、また、アニメなどの声優の音声など高基本周波数音声と長音化音声を含む音声を認識する場合（例えば、ＡＲＨＭＭを用いた音響信号のモデリングやパラメータ推定手法などについては、下記特許文献１、特許文献２、および、特許文献３、また、下記非特許文献1、非特許文献2、非特許文献3などで述べられている。）、以下の理由により、従来の音声認識手法では認識が困難となる。
即ち、高基本周波数音声は、周波数領域で調波構造が疎になるため、音声の特徴量として従来広く用いられているＬＰＣ（線形予測符号化）ケプストラム（対数スペクトルに逆フーリエ変換をしたもの）やＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ：人間の感覚尺度を考慮して音声から抽出したスペクトル包絡を表す特徴量）などでは、音韻性を表すフォルマントの特徴を精度よく抽出できないという問題点がある。そして、新聞記事などを読み上げた音声から学習したＨＭＭ（隠れマルコフモデル）による音響モデルを用いて認識を行う従来のＨＭＭベース認識システムでは、長音化した音声の継続時間とＨＭＭの状態遷移確率がミスマッチとなり、認識精度が劣化するという問題点がある。

特開２００３−５７８５号公報特開２００３−９９０８５号公報特開２００４−２８７０１０号公報佐宗晃，田中和世， "ＨＭＭによる音源のモデリングと高基本周波数に頑健な声道特性抽出，" 電子情報通信学会論文誌（Ｄ−ＩＩ），Ｖｏｌ．Ｊ８４−Ｄ−ＩＩ，Ｎｏ．９，ｐｐ．１９６０−１９６９，Ｓｅｐ，２００１．ＡｋｉｒａＳａｓｏｕ，ＭａｓａｔａｋａＧｏｔｏ，ＳａｔｏｒｕＨａｙａｍｉｚｕ，ＫａｚｕｙｏＴａｎａｋａ， "ＣｏｍｐａｒｉｓｏｎｏｆＡｕｔｏ−Ｒｅｇｒｅｓｓｉｖｅ，Ｎｏｎ−ＳｔａｔｉｏｎａｒｙＥｘｃｉｔｅｄＳｉｇｎａｌＰａｒａｍｅｔｅｒＥｓｔｉｍａｔｉｏｎＭｅｔｈｏｄｓ，" Ｐｒｏｃ．ｏｆＩＥＥＥＷｏｒｋｓｈｏｐｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇｆｏｒＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＭＬＳＰ２００４），ｐｐ．２９５−３０４，Ｓｅｐ．２００４．ＡｋｉｒａＳａｓｏｕ，ＭａｓａｔａｋａＧｏｔｏ，ＳａｔｏｒｕＨａｙａｍｉｚｕ，ＫａｚｕｙｏＴａｎａｋａ， "ＡｎＡｕｔｏ−Ｒｅｇｒｅｓｓｉｖｅ，Ｎｏｎ−ＳｔａｔｉｏｎａｒｙＥｘｃｉｔｅｄＳｉｇｎａｌＰａｒａｍｅｔｅｒＥｓｔｉｍａｔｉｏｎＭｅｔｈｏｄａｎｄａｎＥｖａｌｕａｔｉｏｎｏｆａＳｉｎｇｉｎｇ−ＶｏｉｃｅＲｅｃｏｇｎｉｔｉｏｎ"，Ｐｒｏｃ．ｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ２００５），ｖｏｌ．１，ｐｐ．２３７−２４０，Ｍａｒ．２００５．

本発明の目的は、上記問題点に鑑み、ＡＲＨＭＭに基づいた音声分析手法で音声の特徴量を求め、更に、長音化した音声特徴量を除いて音声認識する音声認識方法および音声認識装置を提供することにある。

図１は本発明の音声認識方法を実行するように構成された音声認識装置のブロック図である。
以上の課題を解決するために、本発明は、図１に示す、ＡＲＨＭＭ（Ａｕｔｏ−ＲｅｇｒｅｓｓｉｖｅＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：自己回帰隠れマルコフモデル：ＨＭＭ（かくれマルコフモデル）の出力をＡＲ（自己回帰）フィルタに通す構成→観測時系列をＡＲフィルタで逆フィルタリングした時系列をＨＭＭで表現する：換言すると、ＨＭＭの出力をＡＲフィルタに通しているので、連続的に変化する統計量で観測時系列を表現していることになる、更に言及すれば、観測時系列が一定の相関を持って変化している場合、その相関性をＡＲフィルタで取り除くことで、単純な時系列に変換できる場合がある。)に基づいた音声の特徴抽出手順を実行するためのＡＲＨＭＭに基づいた音声の特徴抽出手段、長音補正処理手順を実行する長音補正処理手段および音声認識手順を実行する音声認識手段を順次組み合わせた音声認識方法およびその方法を実行する各手段からなる音声認識装置を用いる。
本発明は、歌声のような高基本周波数音声から特徴抽出するために、ＡＲＨＭＭに基づいた分析手法を採用する。
問題となる長音に対しては、入力音声の音韻変動の少ない区間を長音区間と判断し、その区間の音声特徴量を削除し、残りの特徴量を認識することで、長音による認識精度の劣化を改善する。提案方法は、音声特徴量の時系列信号に対して時間軸方向の回帰係数として求められるΔ係数を下記数９の式により求める。
Δｃ（ｎ，ｉ）は、フレーム時刻nにおける音声特徴量の第i番目要素のΔ係数をあらわす。このようにして求めたΔ係数は、音韻変動の少ない長音区間でゼロに近づくことを利用して、長音検出を行う。具体的な手順は以下の通りである。はじめに、Δ係数の自乗和の時系列ｓ（ｎ）を下記数１０の式から求める。

次に、ｓ（ｎ）に対して、例えば、移動平均などによる平滑化処理を施した時系列ｌ（ｎ）を下記数１１の式から求める。
上記のようにして求められる時系列ｌ（ｎ）に対して、閾値ｌ_ｔｈｒを設け、ある時刻ｎ_ｓから連続するＮ_ｒ個の値が下記数１２の式の閾値ｌ_ｔｈｒを下回ったら
長音と判断し、時刻（ｎ_ｓ＋Ｎ_ｒ）からｌ（ｎ）が閾値を下回り続ける限りその時刻の特徴量を削除する。

具体的には、以下の手段を採用する。
（１）音声認識方法は、入力音声の音韻変動の少ない区間を長音区間と判断し、その区間の音声特徴量を削除し、残りの特徴量を認識することを特徴とする。
（２）上記（１）記載の音声認識方法は、入力音声の長音区間を、各時刻のフレームから得られた音声特徴量からΔ係数を求め、各フレームのΔ係数の自乗和をフレームの時刻順に並べた時系列に対して平滑化処理を施し、更に閾値を設け、連続して閾値を下回るフレーム数が一定数を越えた場合、それ以降のフレームで、閾値を下回り続ける限り長音区間と判断し、そのフレームの特徴量を削除して、残りの特徴を認識する手順を備えたことを特徴とする。

（３）上記（１）又は（２）記載の音声認識方法は、Ａｕｔｏ−ＲｅｇｒｅｓｓｉｖｅＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌに基づいた音声分析により得られる音声特徴量に対して上記（１）又は（２）の手順を適用することを特徴とする。
（４）上記（３）記載の音声認識方法は、
（４−１）音声信号を時間毎にフレーム単位で取り込み、音声信号の時系列信号をＡＲＨＭＭに基づいて分析し、得られたフレーム時刻ｎにおけるＡＲ（自己回帰）スペクトル振幅の対数値ｕ（ｎ）を下記数１３の式により求める手順１、
式中NはＦＦＴのサンプル数である。
（４−２）メル周波数上に並んだ三角窓を用いてメルフィルタバンク出力を求める手順２、

（４−３）手順１で求めた前記対数値ｕ（ｎ）と手順２で求めたメルフィルタバンク出力に対して離散コサイン変換を行い、ＡＲＨＭＭベースのＭＦＣＣ（人間の感覚尺度を考慮して音声から抽出したスペクトル包絡を表す特徴量）とする手順３、
（４−４）フレーム時刻ｎにおけるΔ係数の自乗和の時系列ｓ（ｎ）を下記数１４の式から求める手順４、
（４−５）次に、ｓ（ｎ）に対して、例えば、移動平均などによる平滑化処理を施した時系列ｌ（ｎ）を下記数１５の式から求める手順５、

（４−６）上記のようにして求められる時系列ｌ（ｎ）に対して、閾値ｌ_ｔｈｒを設け、ある時刻ｎ_ｓから連続するＮ_ｒ個の値が下記数１６の式の閾値ｌ_ｔｈｒを下回ったら
長音と判断し、時刻（ｎ_ｓ＋Ｎ_ｒ）からｌ（ｎ）が閾値を下回り続ける限りその時刻の特徴量を削除した信号を得る手順６、
（４−７）上記手順６を実行して得た特徴量に基づき音声認識を行う手順７、
を実行することを特徴とする。

（５）音声認識装置は、入力音声の音韻変動の少ない区間を長音区間と判断し、その区間の音声特徴量を削除し、残りの特徴量を認識することを特徴とする。
（６）上記（５）記載の音声認識装置は、入力音声の長音区間を、各時刻のフレームから得られた音声特徴量からΔ係数を求め、各フレームのΔ係数の自乗和をフレームの時刻順に並べた時系列に対して平滑化処理を施し、更に閾値を設け、連続して閾値を下回るフレーム数が一定数を越えた場合、それ以降のフレームで、閾値を下回り続ける限り長音区間と判断し、そのフレームの特徴量を削除して、残りの特徴を認識する手段を備えたことを特徴とする。
（７）上記（５）又は（６）記載の音声認識装置は、Ａｕｔｏ−ＲｅｇｒｅｓｓｉｖｅＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌに基づいた音声分析により得られる音声特徴量に対して請求項５又は６の手段を適用することを特徴とする。

（８）上記（７）記載の音声認識装置は、
（８−１）音声信号を時間毎にフレーム単位で取り込み、音声信号の時系列信号をＡＲＨＭＭに基づいて分析し、得られたフレーム時刻ｎにおけるＡＲ（自己回帰）スペクトル振幅の対数値ｕ（ｎ）を下記数１７の式により求める手段１、
式中NはＦＦＴのサンプル数である。
（８−２）メル周波数上に並んだ三角窓を用いてメルフィルタバンク出力を求める手段２、
（８−３）手段１で求めた前記対数値ｕ（ｎ）と手段２で求めたメルフィルタバンク出力に対して離散コサイン変換を行い、ＡＲＨＭＭベースのＭＦＣＣとする手段３、
（８−４）フレーム時刻ｎにおけるΔ係数の自乗和の時系列ｓ（ｎ）を下記数１８の式から求める手段４、

（８−５）次に、ｓ（ｎ）に対して、例えば、移動平均などによる平滑化処理を施した時系列ｌ（ｎ）を下記数１９の式から求める手段５、
（８−６）上記のようにして求められる時系列ｌ（ｎ）に対して、閾値ｌ_ｔｈｒを設け、ある時刻ｎ_ｓから連続するＮ_ｒ個の値が下記数２０の式の閾値ｌ_ｔｈｒを下回ったら
長音と判断し、時刻（ｎ_ｓ＋Ｎ_ｒ）からｌ（ｎ）が閾値を下回り続ける限りその時刻の特徴量を削除した信号を得る手段６、
（８−７）上記手段６の出力である特徴量に基づき音声認識を行う手段７、
からなることを特徴とする。

従来の音声認識システムは、例えば、新聞記事を読み上げた音声から学習した音響モデルを用いるため、歌声のように長音化音声を多く含むような音声では、特に状態遷移確率に関してミスマッチが生じる。また、従来の音韻に関する特徴抽出手法である線形予測法やメルフィルタバンク分析などは、高基本周波数音声を分析する場合、抽出精度が劣化する傾向がある。このため、音韻情報に関して音響モデルとミスマッチが生じる。これらの原因により、従来の音声認識システムで歌声などの音声を認識する場合、その認識精度が著しく劣化する。
本発明は、この問題を解決するために、長音区間の検出および削除をすることで、状態遷移確率のミスマッチを解消する。長音区間検出を精度良く行うには、歌声のような基本周波数の高い音声からでも音韻特徴を正しく抽出する必要がある。しかし、前述のように、従来の特徴抽出手法は、高基本周波数音声の場合に、精度が劣化する。このため、長音区間検出精度も劣化し、状態遷移確率に関するミスマッチが解消されない可能性がある。本発明は、既に開発してある、高基本周波数音声からでも精度よく音韻特徴抽出が可能なＡＲＨＭＭに基づいた手法と長音補正処理を組み合わせることで、音韻特徴抽出精度と長音区間検出精度が同時に改善され、高い認識精度を実現することができる。

本発明の実施の形態を図に基づいて詳細に説明する。

図１に示すように、本発明の音声認識方法を実行するように音声認識装置を構成する。
音声認識装置は、基本的に、少なくとも音声信号を取り込み、所定の演算結果を出力する入出力（Ｉ／Ｏ）装置、記憶装置（メモリ）、中央演算装置等を有し、所定のプログラムによって、所定の手順を実行する。音声認識装置は、例えば、パーソナルコンピュータで構成する。この場合、音声信号を取り込むための装置を備えていても良い。
本発明の音声認識方法を用いた歌声認識実験について、以下に述べる。
実験には、ＲＷＣ研究用音楽データベースに収録されている日本のポピュラー音楽の中から英語表現の少ない１２曲を選び、そのヴォーカルファイル（楽器演奏を含まないヴォーカルだけのデータ）を用いた。サンプリング周波数は１６ｋＨｚである。認識には、大語彙連続音声認識システムＪｕｌｉｕｓと日本語の新聞記事を読み上げた音声から学習した音響モデルを用いた。音響モデルの学習に用いた特徴量はＭＦＣＣ（人間の感覚尺度を考慮して音声から抽出したスペクトル包絡を表す特徴量）である。以上のように、この実験で用いている認識システムの音響モデルは、完全に歌声に関してオープンとなっている。単語辞書および言語モデルは、曲ごとに歌詞から生成した。
この実験では、以下の手順で、ＡＲ係数a(i)からＡＲＨＭＭベースＭＦＣＣを求める。

フローチャートで説明する。
はじめに（ＳＴＡＲＴ）、
（１）音声信号を時間毎にフレーム単位で取り込み、音声信号の時系列信号をＡＲＨＭＭに基づいて分析し、得られたフレーム時刻ｎにおけるＡＲ（自己回帰）スペクトル振幅の対数値ｕ（ｎ）を下記数２１の式により求める（ステップＳ１）。
この処理は、通常のＭＦＣＣを求める手続きの中でＦＦＴ（ファーストフーリエ変換）の対数振幅を求める処理に相当する。式中NはＦＦＴのサンプル数である。これ以降の手続きは通常のＭＦＣＣのそれと同じで、
（２）メル周波数上に並んだ三角窓を用いてメルフィルタバンク出力を求め（ステップＳ２）、
（３）ステップ１で求めた前記対数値ｕ（ｎ）とステップ２で求めたメルフィルタバンク出力に対して離散コサイン変換を行い、ＡＲＨＭＭベースのＭＦＣＣとする（ステップＳ３）。
次に、上記のようにして求めたＡＲＨＭＭベースＭＦＣＣの時間軸方向に沿って、回帰分析をしてΔ係数を求める。Δ係数から下記式（５）、（６）、（７）を用いて長音区間検出を行う。
長音に対しては、入力音声の音韻変動の少ない区間を長音区間と判断し、その区間の音声特徴量を削除し、残りの特徴量を認識することで、長音による認識精度の劣化を改善する。提案方法は、音声特徴量の時系列信号に対して時間軸方向の回帰係数などとして求められるΔ係数が、音韻変動の少ない長音区間でゼロに近づくことを利用して、長音検出を行う。

具体的には、
（５）次に、ｓ（ｎ）に対して、例えば、移動平均などによる平滑化処理を施した時系列ｌ（ｎ）を下記数２３の式から求める（ステップＳ５）。

（６）上記のようにして求められる時系列ｌ（ｎ）に対して、閾値ｌ_ｔｈｒを設け、ある時刻ｎ_ｓから連続するＮ_ｒ個の値が下記数２４の式の閾値ｌ_ｔｈｒを下回ったら
長音と判断し、時刻（ｎ_ｓ＋Ｎ_ｒ）からｌ（ｎ）が閾値を下回り続ける限りその時刻の特徴量を削除した信号を得る（ステップＳ６）。
（７）上記ステップ６を実行して得た特徴量に基づき音声認識を行う（ステップＳ７）。
終了（ＥＮＤ）。

上記ステップＳ１〜Ｓ３は、図１のＡＲＨＭＭに基づいた特徴抽出手順ＳＡ又は特徴抽出手段ＭＡに相当し、上記ステップＳ４〜Ｓ６は、図１の長音補正処理手順ＳＢ又は長音補正処理手段ＭＢに相当し、上記ステップＳ７は、図１の音声認識手順ＳＣ又は音声認識手段ＭＣに相当する。
長音区間検出を行った例を図２に示す。
図２は本発明の音声認識装置の各部の出力信号図である。上から、歌声の音声波形（ａ）、音韻特徴の抽出結果（ｂ）、ＡＲＨＭＭベースＭＦＣＣのデルタ特徴量に数１１の式を適用した結果（ｃ）、そして最下図は、数１２の式によって評価された特徴量を削除するフレームの区間情報（ｄ）を表している。この図のように、本発明により、音韻が一定になっている区間で正しく、特徴量が削除されることがわかる。図２（ｃ）の縦軸は１メモリ５で０から４０までのレンジになっている。
長音補正処理を行わないで、音声特徴量としてＡＲＨＭＭベースＭＦＣＣと従来のＭＦＣＣのそれぞれで歌声を認識したときの結果を、表１，２に示す。表１が単語正解率（ＣｏｒｒｅｃｔＷｏｒｄＲａｔｅ［％］）で表２が誤り率（ＥｒｒｏｒＲａｔｅ［％］）を示している。単語正解率と誤り率の平均を見ると、従来のＭＦＣＣよりＡＲＨＭＭベースＭＦＣＣを特徴量として用いる方が、認識率が改善される。

次に、歌声から抽出したＡＲＨＭＭベースＭＦＣＣと従来のＭＦＣＣに対して、長音補正処理を行い、得られた特徴量を認識した結果を表３、４に示す。これより、従来のＭＦＣＣに対して長音補正処理する場合よりも、ＡＲＨＭＭベースＭＦＣＣに対して長音補正処理をする方が、より認識率の改善が実現されている。

長音補正処理なし（表１,２）と長音補正処理あり（表３，４）のＭＦＣＣの結果を比較することで、長音補正処理の有効性を確認することができる。また、長音補正処理なし（表１，２）のＡＲＨＭＭベースＭＦＣＣの結果を見ると改善は僅かであるが、ＡＲＨＭＭベースＭＦＣＣと長音補正処理を組み合わせた結果(表３，４のＡＲＨＭＭ)をみると、音韻の特徴抽出精度とそれによる長音区間検出精度の両方が改善されるため、それぞれ単独で用いたときに得られる改善値を足し合わせた以上に、大きな改善が得られている。以上より、ＡＲＨＭＭベースＭＦＣＣと長音補正処理が最適な組み合わせあることがわかる。

産業上の利用の可能性

歌声を認識することで、歌手が曲のどの部分を歌っているのかを検出し、その情報に基づいて伴奏のスピードを制御するカラオケマシン。
歌声やアニメ音声を認識することで、歌詞や台詞のテロップ表示の自動化。

本発明の音声認識方法のフローチャート図である。本発明の音声認識装置の各部の出力信号図である。

符号の説明

ＳＡ、ＭＡＡＲＨＭＭに基づいた特徴抽出手順ＳＡおよび特徴抽出手段ＭＡ
ＳＢ、ＭＢ長音補正処理手順ＳＢおよび特徴抽出手段ＭＢ
ＳＣ、ＭＣ音声認識手順ＳＣおよび音声認識手段ＭＣ

Claims

自己回帰隠れマルコフモデルに基づいた音声分析により得られる入力音声から得られた音声特徴量に対して、入力音声の長音区間を、各時刻のフレームで得られた前記音声特徴量からΔ係数を求め、そのΔ係数の自乗和をフレームの時刻順に並べた時系列に対して平滑化処理を施し、更に閾値を設け、連続して閾値を下回るフレーム数が一定数を越えた場合、それ以降のフレームで、閾値を下回り続ける限り長音区間と判断し、そのフレームの特徴量を削除して、残りの特徴を認識する手順により、
入力音声の音韻変動が何らかの閾値と比較して小さい区間を長音区間と判断し、その区間の前記音声特徴量の一部を削除し、残りの特徴量を認識する音声認識方法であって、
（１）音声信号を時間毎にフレーム単位で取り込み、音声信号の時系列信号を自己回帰隠れマルコフモデルに基づいて分析し、得られたフレーム時刻ｎにおけるＡＲ（自己回帰）スペクトル振幅の対数値ｕ（ｎ）を下記数１の式により求める手順１、
但し、式１中NはＦＦＴのサンプル数に相当する、
（２）メル周波数上に並んだ三角窓を用いてメルフィルタバンク出力を求める手順２、（３）それらに対して離散コサイン変換を行い、ＡＲＨＭＭベースのＭＦＣＣとする手順３、
（４）フレーム時刻ｎにおけるΔ係数の自乗和の時系列ｓ（ｎ）を下記数２の式から求める手順４、
（５）次に、ｓ（ｎ）に対して、例えば、移動平均などによる平滑化処理を施した時系列ｌ（ｎ）を下記数３の式から求める手順５、
（６）上記のようにして求められる時系列ｌ（ｎ）に対して、閾値ｌ_ｔｈｒを設け、ある時刻ｎ_ｓから連続するＮ_ｒ個の値が下記数４の式の閾値ｌ_ｔｈｒを下回ったら
長音と判断し、時刻（ｎ_ｓ＋Ｎ_ｒ）からｌ（ｎ）が閾値を下回り続ける限りその時刻の特徴量を削除した信号を得る手順６、
（７）上記手順６を実行して得た特徴量に基づき音声認識を行う手順７、
からなることを特徴とする音声認識方法。
自己回帰隠れマルコフモデルに基づいた音声分析により得られる入力音声から得られた音声特徴量に対して、入力音声の長音区間を、各時刻のフレームで得られた前記音声特徴量からΔ係数を求め、そのΔ係数の自乗和をフレームの時刻順に並べた時系列に対して平滑化処理を施し、更に閾値を設け、連続して閾値を下回るフレーム数が一定数を越えた場合、それ以降のフレームで、閾値を下回り続ける限り長音区間と判断し、そのフレームの特徴量を削除して、残りの特徴を認識する手段により、
入力音声の音韻変動が何らかの閾値と比較して小さい区間を長音区間と判断し、その区間の前記音声特徴量の一部を削除し、
残りの特徴量を認識する音声認識装置であって、
（１）音声信号を時間毎にフレーム単位で取り込み、音声信号の時系列信号を自己回帰隠
れマルコフモデルに基づいて分析し、得られたフレーム時刻ｎにおける自己回帰スペクト
ル振幅の対数値ｕ（ｎ）を下記数５の式により求める手段１、
但し、式中NはＦＦＴのサンプル数である、
（２）メル周波数上に並んだ三角窓を用いてメルフィルタバンク出力を求める手段２、
（３）手順１で求めた前記対数値ｕ（ｎ）と手順２で求めたメルフィルタバンク出力に対して離散コサイン変換を行い、自己回帰隠れマルコフモデルベースのＭＦＣＣとする手段
３、
（５）次に、ｓ（ｎ）に対して、平滑化処理を施した時系列ｌ（ｎ）を下記数７の式から求める手段５、
（６）上記のようにして求められる時系列ｌ（ｎ）に対して、閾値ｌ_ｔｈｒを設け、ある
時刻ｎ_ｓから連続するＮ_ｒ個の値が下記数８の式の閾値ｌ_ｔｈｒを下回ったら
長音と判断し、時刻（ｎ_ｓ＋Ｎ_ｒ）からｌ（ｎ）が閾値を下回り続ける限りその時刻の特
徴量を削除した信号を得る手段６、
（７）上記手段６の出力である特徴量に基づき音声認識を行う手順７、
からなることを特徴とする音声認識装置。