JP4576612B2 - 音声認識方法および音声認識装置 - Google Patents
音声認識方法および音声認識装置 Download PDFInfo
- Publication number
- JP4576612B2 JP4576612B2 JP2005266130A JP2005266130A JP4576612B2 JP 4576612 B2 JP4576612 B2 JP 4576612B2 JP 2005266130 A JP2005266130 A JP 2005266130A JP 2005266130 A JP2005266130 A JP 2005266130A JP 4576612 B2 JP4576612 B2 JP 4576612B2
- Authority
- JP
- Japan
- Prior art keywords
- time
- speech
- threshold
- procedure
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
例えば、背景雑音や残響などがある雑音環境下での音声認識、対話音声、感情音声、歌声などの様々な発話様式での音声認識、そして、子供、老人、障害者などの多様な話者の音声認識では、認識精度が著しく劣化する。
即ち、高基本周波数音声は、周波数領域で調波構造が疎になるため、音声の特徴量として従来広く用いられているLPC(線形予測符号化)ケプストラム(対数スペクトルに逆フーリエ変換をしたもの)やMFCC(Mel−Frequency Cepstrum Coefficient:人間の感覚尺度を考慮して音声から抽出したスペクトル包絡を表す特徴量)などでは、音韻性を表すフォルマントの特徴を精度よく抽出できないという問題点がある。そして、新聞記事などを読み上げた音声から学習したHMM(隠れマルコフモデル)による音響モデルを用いて認識を行う従来のHMMベース認識システムでは、長音化した音声の継続時間とHMMの状態遷移確率がミスマッチとなり、認識精度が劣化するという問題点がある。
以上の課題を解決するために、本発明は、図1に示す、ARHMM(Auto−Regressive Hidden Markov Model:自己回帰隠れマルコフモデル:HMM(かくれマルコフモデル)の出力をAR(自己回帰)フィルタに通す構成→観測時系列をARフィルタで逆フィルタリングした時系列をHMMで表現する:換言すると、HMMの出力をARフィルタに通しているので、連続的に変化する統計量で観測時系列を表現していることになる、更に言及すれば、観測時系列が一定の相関を持って変化している場合、その相関性をARフィルタで取り除くことで、単純な時系列に変換できる場合がある。)に基づいた音声の特徴抽出手順を実行するためのARHMMに基づいた音声の特徴抽出手段、長音補正処理手順を実行する長音補正処理手段および音声認識手順を実行する音声認識手段を順次組み合わせた音声認識方法およびその方法を実行する各手段からなる音声認識装置を用いる。
本発明は、歌声のような高基本周波数音声から特徴抽出するために、ARHMMに基づいた分析手法を採用する。
問題となる長音に対しては、入力音声の音韻変動の少ない区間を長音区間と判断し、その区間の音声特徴量を削除し、残りの特徴量を認識することで、長音による認識精度の劣化を改善する。提案方法は、音声特徴量の時系列信号に対して時間軸方向の回帰係数として求められるΔ係数を下記数9の式により求める。
(1)音声認識方法は、入力音声の音韻変動の少ない区間を長音区間と判断し、その区間の音声特徴量を削除し、残りの特徴量を認識することを特徴とする。
(2)上記(1)記載の音声認識方法は、入力音声の長音区間を、各時刻のフレームから得られた音声特徴量からΔ係数を求め、各フレームのΔ係数の自乗和をフレームの時刻順に並べた時系列に対して平滑化処理を施し、更に閾値を設け、連続して閾値を下回るフレーム数が一定数を越えた場合、それ以降のフレームで、閾値を下回り続ける限り長音区間と判断し、そのフレームの特徴量を削除して、残りの特徴を認識する手順を備えたことを特徴とする。
(4)上記(3)記載の音声認識方法は、
(4−1)音声信号を時間毎にフレーム単位で取り込み、音声信号の時系列信号をARHMMに基づいて分析し、得られたフレーム時刻nにおけるAR(自己回帰)スペクトル振幅の対数値u(n)を下記数13の式により求める手順1、
(4−2)メル周波数上に並んだ三角窓を用いてメルフィルタバンク出力を求める手順2、
(4−4)フレーム時刻nにおけるΔ係数の自乗和の時系列s(n)を下記数14の式から求める手順4、
(4−7)上記手順6を実行して得た特徴量に基づき音声認識を行う手順7、
を実行することを特徴とする。
(6)上記(5)記載の音声認識装置は、入力音声の長音区間を、各時刻のフレームから得られた音声特徴量からΔ係数を求め、各フレームのΔ係数の自乗和をフレームの時刻順に並べた時系列に対して平滑化処理を施し、更に閾値を設け、連続して閾値を下回るフレーム数が一定数を越えた場合、それ以降のフレームで、閾値を下回り続ける限り長音区間と判断し、そのフレームの特徴量を削除して、残りの特徴を認識する手段を備えたことを特徴とする。
(7)上記(5)又は(6)記載の音声認識装置は、Auto−Regressive Hidden Markov Modelに基づいた音声分析により得られる音声特徴量に対して請求項5又は6の手段を適用することを特徴とする。
(8−1)音声信号を時間毎にフレーム単位で取り込み、音声信号の時系列信号をARHMMに基づいて分析し、得られたフレーム時刻nにおけるAR(自己回帰)スペクトル振幅の対数値u(n)を下記数17の式により求める手段1、
(8−2)メル周波数上に並んだ三角窓を用いてメルフィルタバンク出力を求める手段2、
(8−3)手段1で求めた前記対数値u(n)と手段2で求めたメルフィルタバンク出力に対して離散コサイン変換を行い、ARHMMベースのMFCCとする手段3、
(8−4)フレーム時刻nにおけるΔ係数の自乗和の時系列s(n)を下記数18の式から求める手段4、
(8−7)上記手段6の出力である特徴量に基づき音声認識を行う手段7、
からなることを特徴とする。
本発明は、この問題を解決するために、長音区間の検出および削除をすることで、状態遷移確率のミスマッチを解消する。長音区間検出を精度良く行うには、歌声のような基本周波数の高い音声からでも音韻特徴を正しく抽出する必要がある。しかし、前述のように、従来の特徴抽出手法は、高基本周波数音声の場合に、精度が劣化する。このため、長音区間検出精度も劣化し、状態遷移確率に関するミスマッチが解消されない可能性がある。本発明は、既に開発してある、高基本周波数音声からでも精度よく音韻特徴抽出が可能なARHMMに基づいた手法と長音補正処理を組み合わせることで、音韻特徴抽出精度と長音区間検出精度が同時に改善され、高い認識精度を実現することができる。
音声認識装置は、基本的に、少なくとも音声信号を取り込み、所定の演算結果を出力する入出力(I/O)装置、記憶装置(メモリ)、中央演算装置等を有し、所定のプログラムによって、所定の手順を実行する。音声認識装置は、例えば、パーソナルコンピュータで構成する。この場合、音声信号を取り込むための装置を備えていても良い。
本発明の音声認識方法を用いた歌声認識実験について、以下に述べる。
実験には、RWC研究用音楽データベースに収録されている日本のポピュラー音楽の中から英語表現の少ない12曲を選び、そのヴォーカルファイル(楽器演奏を含まないヴォーカルだけのデータ)を用いた。サンプリング周波数は16kHzである。認識には、大語彙連続音声認識システムJuliusと日本語の新聞記事を読み上げた音声から学習した音響モデルを用いた。音響モデルの学習に用いた特徴量はMFCC(人間の感覚尺度を考慮して音声から抽出したスペクトル包絡を表す特徴量)である。以上のように、この実験で用いている認識システムの音響モデルは、完全に歌声に関してオープンとなっている。単語辞書および言語モデルは、曲ごとに歌詞から生成した。
この実験では、以下の手順で、AR係数a(i)からARHMMベースMFCCを求める。
はじめに(START)、
(1)音声信号を時間毎にフレーム単位で取り込み、音声信号の時系列信号をARHMMに基づいて分析し、得られたフレーム時刻nにおけるAR(自己回帰)スペクトル振幅の対数値u(n)を下記数21の式により求める(ステップS1)。
(2)メル周波数上に並んだ三角窓を用いてメルフィルタバンク出力を求め(ステップS2)、
(3)ステップ1で求めた前記対数値u(n)とステップ2で求めたメルフィルタバンク出力に対して離散コサイン変換を行い、ARHMMベースのMFCCとする(ステップS3)。
次に、上記のようにして求めたARHMMベースMFCCの時間軸方向に沿って、回帰分析をしてΔ係数を求める。Δ係数から下記式(5)、(6)、(7)を用いて長音区間検出を行う。
長音に対しては、入力音声の音韻変動の少ない区間を長音区間と判断し、その区間の音声特徴量を削除し、残りの特徴量を認識することで、長音による認識精度の劣化を改善する。提案方法は、音声特徴量の時系列信号に対して時間軸方向の回帰係数などとして求められるΔ係数が、音韻変動の少ない長音区間でゼロに近づくことを利用して、長音検出を行う。
(7)上記ステップ6を実行して得た特徴量に基づき音声認識を行う(ステップS7)。
終了(END)。
長音区間検出を行った例を図2に示す。
図2は本発明の音声認識装置の各部の出力信号図である。上から、歌声の音声波形(a)、音韻特徴の抽出結果(b)、ARHMMベースMFCCのデルタ特徴量に数11の式を適用した結果(c)、そして最下図は、数12の式によって評価された特徴量を削除するフレームの区間情報(d)を表している。この図のように、本発明により、音韻が一定になっている区間で正しく、特徴量が削除されることがわかる。図2(c)の縦軸は1メモリ5で0から40までのレンジになっている。
長音補正処理を行わないで、音声特徴量としてARHMMベースMFCCと従来のMFCCのそれぞれで歌声を認識したときの結果を、表1,2に示す。表1が単語正解率(Correct Word Rate[%])で表2が誤り率(Error Rate[%])を示している。単語正解率と誤り率の平均を見ると、従来のMFCCよりARHMMベースMFCCを特徴量として用いる方が、認識率が改善される。
歌声やアニメ音声を認識することで、歌詞や台詞のテロップ表示の自動化。
SB、MB 長音補正処理手順SBおよび特徴抽出手段MB
SC、MC 音声認識手順SCおよび音声認識手段MC
Claims (2)
- 自己回帰隠れマルコフモデルに基づいた音声分析により得られる入力音声から得られた音声特徴量に対して、入力音声の長音区間を、各時刻のフレームで得られた前記音声特徴量からΔ係数を求め、そのΔ係数の自乗和をフレームの時刻順に並べた時系列に対して平滑化処理を施し、更に閾値を設け、連続して閾値を下回るフレーム数が一定数を越えた場合、それ以降のフレームで、閾値を下回り続ける限り長音区間と判断し、そのフレームの特徴量を削除して、残りの特徴を認識する手順により、
入力音声の音韻変動が何らかの閾値と比較して小さい区間を長音区間と判断し、その区間の前記音声特徴量の一部を削除し、残りの特徴量を認識する音声認識方法であって、
(1)音声信号を時間毎にフレーム単位で取り込み、音声信号の時系列信号を自己回帰隠れマルコフモデルに基づいて分析し、得られたフレーム時刻nにおけるAR(自己回帰)スペクトル振幅の対数値u(n)を下記数1の式により求める手順1、
(2)メル周波数上に並んだ三角窓を用いてメルフィルタバンク出力を求める手順2、 (3)それらに対して離散コサイン変換を行い、ARHMMベースのMFCCとする手順3、
(4)フレーム時刻nにおけるΔ係数の自乗和の時系列s(n)を下記数2の式から求める手順4、
(7)上記手順6を実行して得た特徴量に基づき音声認識を行う手順7、
からなることを特徴とする音声認識方法。 - 自己回帰隠れマルコフモデルに基づいた音声分析により得られる入力音声から得られた音声特徴量に対して、入力音声の長音区間を、各時刻のフレームで得られた前記音声特徴量からΔ係数を求め、そのΔ係数の自乗和をフレームの時刻順に並べた時系列に対して平滑化処理を施し、更に閾値を設け、連続して閾値を下回るフレーム数が一定数を越えた場合、それ以降のフレームで、閾値を下回り続ける限り長音区間と判断し、そのフレームの特徴量を削除して、残りの特徴を認識する手段により、
入力音声の音韻変動が何らかの閾値と比較して小さい区間を長音区間と判断し、その区間の前記音声特徴量の一部を削除し、
残りの特徴量を認識する音声認識装置であって、
(1)音声信号を時間毎にフレーム単位で取り込み、音声信号の時系列信号を自己回帰隠
れマルコフモデルに基づいて分析し、得られたフレーム時刻nにおける自己回帰スペクト
ル振幅の対数値u(n)を下記数5の式により求める手段1、
(2)メル周波数上に並んだ三角窓を用いてメルフィルタバンク出力を求める手段2、
(3)手順1で求めた前記対数値u(n)と手順2で求めたメルフィルタバンク出力に対して離散コサイン変換を行い、自己回帰隠れマルコフモデルベースのMFCCとする手段
3、
時刻nsから連続するNr個の値が下記数8の式の閾値lthrを下回ったら
徴量を削除した信号を得る手段6、
(7)上記手段6の出力である特徴量に基づき音声認識を行う手順7、
からなることを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005266130A JP4576612B2 (ja) | 2005-09-13 | 2005-09-13 | 音声認識方法および音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005266130A JP4576612B2 (ja) | 2005-09-13 | 2005-09-13 | 音声認識方法および音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007079072A JP2007079072A (ja) | 2007-03-29 |
JP4576612B2 true JP4576612B2 (ja) | 2010-11-10 |
Family
ID=37939459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005266130A Expired - Fee Related JP4576612B2 (ja) | 2005-09-13 | 2005-09-13 | 音声認識方法および音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4576612B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111445924B (zh) * | 2020-03-18 | 2023-07-04 | 中山大学 | 基于自回归模型系数检测定位语音片段内平滑处理的方法 |
CN111914721B (zh) * | 2020-07-27 | 2024-02-06 | 华中科技大学 | 一种基于线性回归及高斯阈值的加工状态识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60129796A (ja) * | 1983-12-17 | 1985-07-11 | 電子計算機基本技術研究組合 | 音声入力装置 |
JPH04211299A (ja) * | 1991-02-08 | 1992-08-03 | Matsushita Electric Ind Co Ltd | 単音節音声認識装置 |
JPH11250063A (ja) * | 1998-02-27 | 1999-09-17 | Toshiba Corp | 検索装置及び検索方法 |
JP2000099099A (ja) * | 1998-09-22 | 2000-04-07 | Sharp Corp | データ再生装置 |
JP2002311981A (ja) * | 2001-04-17 | 2002-10-25 | Sony Corp | 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体 |
JP2003005785A (ja) * | 2001-06-26 | 2003-01-08 | National Institute Of Advanced Industrial & Technology | 音源の分離方法および分離装置 |
JP2004012883A (ja) * | 2002-06-07 | 2004-01-15 | Sharp Corp | 音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体 |
JP2004287010A (ja) * | 2003-03-20 | 2004-10-14 | National Institute Of Advanced Industrial & Technology | 波形認識方法及び装置、並びにプログラム |
-
2005
- 2005-09-13 JP JP2005266130A patent/JP4576612B2/ja not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60129796A (ja) * | 1983-12-17 | 1985-07-11 | 電子計算機基本技術研究組合 | 音声入力装置 |
JPH04211299A (ja) * | 1991-02-08 | 1992-08-03 | Matsushita Electric Ind Co Ltd | 単音節音声認識装置 |
JPH11250063A (ja) * | 1998-02-27 | 1999-09-17 | Toshiba Corp | 検索装置及び検索方法 |
JP2000099099A (ja) * | 1998-09-22 | 2000-04-07 | Sharp Corp | データ再生装置 |
JP2002311981A (ja) * | 2001-04-17 | 2002-10-25 | Sony Corp | 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体 |
JP2003005785A (ja) * | 2001-06-26 | 2003-01-08 | National Institute Of Advanced Industrial & Technology | 音源の分離方法および分離装置 |
JP2004012883A (ja) * | 2002-06-07 | 2004-01-15 | Sharp Corp | 音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体 |
JP2004287010A (ja) * | 2003-03-20 | 2004-10-14 | National Institute Of Advanced Industrial & Technology | 波形認識方法及び装置、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2007079072A (ja) | 2007-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shahnawazuddin et al. | Creating speaker independent ASR system through prosody modification based data augmentation | |
Shahnawazuddin et al. | Pitch-Adaptive Front-End Features for Robust Children's ASR. | |
Chang et al. | Large vocabulary Mandarin speech recognition with different approaches in modeling tones. | |
US8180636B2 (en) | Pitch model for noise estimation | |
Wang et al. | Speaker identification by combining MFCC and phase information in noisy environments | |
WO2004111996A1 (ja) | 音響区間検出方法および装置 | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
Shahnawazuddin et al. | Effect of prosody modification on children's ASR | |
WO2007046267A1 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
CN108682432B (zh) | 语音情感识别装置 | |
Shahnawazuddin et al. | Pitch-normalized acoustic features for robust children's speech recognition | |
Alku et al. | The linear predictive modeling of speech from higher-lag autocorrelation coefficients applied to noise-robust speaker recognition | |
Eringis et al. | Improving speech recognition rate through analysis parameters | |
US20140200889A1 (en) | System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Sinha et al. | On the use of pitch normalization for improving children's speech recognition | |
JP2006171750A (ja) | 音声認識のための特徴ベクトル抽出方法 | |
Chadha et al. | Optimal feature extraction and selection techniques for speech processing: A review | |
Zolnay et al. | Using multiple acoustic feature sets for speech recognition | |
Khonglah et al. | Speech enhancement using source information for phoneme recognition of speech with background music | |
Zolnay et al. | Extraction methods of voicing feature for robust speech recognition. | |
JP4576612B2 (ja) | 音声認識方法および音声認識装置 | |
Sorin et al. | The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation | |
Morales-Cordovilla et al. | On the use of asymmetric windows for robust speech recognition | |
Alam et al. | Speech recognition using regularized minimum variance distortionless response spectrum estimation-based cepstral features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070314 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100202 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100319 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100804 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130903 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130903 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130903 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |