JP4568371B2

JP4568371B2 - 少なくとも２つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム

Info

Publication number: JP4568371B2
Application number: JP2009536691A
Authority: JP
Inventors: バルサン、ツィッカ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2006-11-16
Filing date: 2007-10-26
Publication date: 2010-10-27
Anticipated expiration: 2027-10-26
Also published as: EP2089877A1; US20100057453A1; CA2663568C; KR20090083367A; JP2010510534A; US8311813B2; WO2008058842A1; CA2663568A1; CN101548313A; KR101054704B1; US8554560B2; US20120330656A1; EP2089877B1; DE602007005833D1; ATE463820T1; CN101548313B

Description

本発明は、一般に音声アクティビティ検出に関する。特に、限定するものではないが、本発明は、スピーチとノイズといったイベント・タイプ間を区別することに関する。

音声アクティビティ検出（ＶＡＤ）は、スピーチ・コーディング、ハンズ・フリー電話及びスピーチ認識といった多くのスピーチ処理タスクにおいて不可欠なものである。例えば、モバイル通信においては、無線インターフェース全体の伝送帯域幅は、モバイル装置がスピーチのないことを検出したときには大幅に減少する。第２の例は、自動スピーチ認識システム（ＡＳＲ）である。メモリと精度に関する制約のため、ＡＳＲにおいてはＶＡＤは重要である。スピーチの境界の検出が不正確なことによって、認識性能の低下及びスピーチ品質の劣化といった深刻な問題が生じる。

ＶＡＤは、スピーチ認識において大きな関心がもたれている。一般に、そうしたシステムを設計するために、２つの主要な手法、すなわち閾値比較技術及びモデル・ベースの技術が用いられる。閾値比較手法については、例えば、エネルギー、ゼロ交差、自己相関係数などのような種々の特徴が、入力信号から抽出され、次に幾つかの閾値と比較される。幾つかの手法は、以下の刊行物、すなわち非特許文献１及び非特許文献２において見ることができる。

閾値は、通常はノイズのみから推定され、動的に更新される。適応閾値又は適切なフィルタリングを用いることによって、それらの性能を向上させることができる。例えば、非特許文献３、特許文献１、及び非特許文献４を参照されたい。

もう１つの方法として、他の複雑な環境音からスピーチを確実に区別するために、モデル・ベースのＶＡＤが広く導入されてきた。以下の刊行物、すなわち非特許文献５及び非特許文献６において、幾つかの手法を見出すことができる。そうしたシステムにおいては、通常、フルバンド・エネルギー、サブバンド・エネルギー、線形予測残余エネルギーといった特徴、又はメル周波数ケプストラム係数（ＭＦＣＣ）といった周波数ベースの特徴が用いられる。
ワードの始点／終点の検出は、ワード認識のためのスピーチの認識とともに、ＡＵ６９７０６２（ＡＵ−Ｂ−２３２８４／９５）において検討されている。現時点における少なくとも２つの特徴、すなわち、信号エネルギーの関数である特徴と、現時点におけるブロックの線形予測符号化（ＬＰＣ）ケプストラム係数と平均ＬＰＣケプストラム係数の差の二乗の関数である現時点における少なくとも１つの他の特徴とを含む特徴ベクトルが生成される。

閾値適応技術及びエネルギーの特徴をベースとするＶＡＤ技術は、信号エネルギー・レベルが通常は非常に動的であり、音楽及び非定常ノイズのような背景音が日常的に存在する多くの実生活用途において遭遇する複雑な音響状況を取り扱うことができない。結果として、ノイズ・イベントは、挿入エラーを生じさせるワードとして認識されることが多く、一方、隣接するノイズ・イベントによって影響を受けるスピーチ・イベントは、置換エラーを生じる。モデル・ベースのＶＡＤ技術は、ノイズの多い状況で良好に動作するが、１つの単一言語に対する依存性を有することによって（それらの技術は、音素レベルの情報をエンコードするものであるため）、機能性が大いに低下する。

環境のタイプは、ＶＡＤの精度にとって重要な役割を果たす。例えば、車が静止しているときに一般的に高い信号対ノイズ比（ＳＮＲ）状態におかれる車環境では、正確な検出が可能である。ＳＮＲが非常に低く、車のエンジンからの高強度の半定常バックグラウンド・ノイズ（semi-stationary background noise）と、道路の隆起、ワイパのノイズ、ドアを閉じる音といったごく一時的なノイズとが存在するのが一般的な場合には、音声アクティビティ検出には困難な課題が残る。また、他の状況においては、ＳＮＲが低く、バックグラウンド・ノイズとごく一時的なノイズとが存在する場合には、音声アクティビティ検出は困難である。

米国特許第６３１４３９６号明細書

Li, Q., Zheng, J., Zhou, Q., and Lee, C.-H.,"A robust, real-time endpoint detector with energy normalization for ASR inadverse environments,"Proc. ICASSP, pp. 233-236, 2001 L. R. Rabiner, et al.,"Application of an LPC Distance Measure to the Voiced-Unvoiced-Silence Detection Problem,"IEEE Trans.On ASSP, vol. ASSP-25, no. 4, pp. 338-343, August 1977 Martin, A., Charlet, D., and Mauuary, L,"Robust Speech/Nonspeech Detection Using LDA applied to MFCC,"Proc. ICASSP, pp. 237-240, 2001 Lie Lu, Hong-Jiang Zhang, H. Jiang,"Content Analysis for Audio Classification and Segmentation,"IEEE Trans. Speech & Audio Processing, Vol. 10, N0. 7, pp. 504-516, Oct. 2002 J. Ajmera, I. McCowan,"Speech/Music Discrimination Using Entropy and Dynamism Features in a HMM ClassificationFramework,"IDIAP-RR 01-26, IDIAP, Martigny, Switzerland 2001 T. Hain, S. Johnson, A. Tuerk, P. Woodland, S.Young,"Segment Generation and Clustering in the HTK Broadcast News Transcription System,"DARPA Broadcast News Transcription und Understanding Workshop, pp. 133-137, 1998 F. Palou Cambra, P. Bravetti, O. Emam, V. Fischer, and E. Janke,"Towards a common alphabet for multilingual speech recognition,"in Proc. of the 6th Int. Conf. on Spoken Language Processing, Beijing, 2000 V. Fischer, J. Gonzalez, E. Janke, M. Villani, and C. Waast-Richard,"Towards Multilingual Acoustic Modeling for Large Vocabulary Continuous Speech Recognition,"in Proc. of the IEEE Workshop on Multilingual Speech Communications, Kyoto, Japan, 2000 S. Kunzmann, V. Fischer, J. Gonzalez, O. Emam, C. Guenther, and E. Janke,"Multilingual Acoustic Models for Speech Recognition and Synthesis,"in Proc. of the IEEE Int. Conference on Acoustics, Speech, and Signal Processing, Montreal, 2004 E. Marcheret, K. Visweswariah, G. Potamianos,"Speech Activity Detection fusing Acoustic Phonetic and Energy Features,"Proc./ICASLP 2005

したがって、種々の環境で良好に機能し、堅牢性及び精度が重要な事項であるＶＡＤ方法／システムを開発することが非常に望ましい。

本発明の実施形態の目的は、前述の問題の１つ又は複数に対処することである。
本発明の第１の態様によれば、少なくとも２つのイベント・クラス間を区別するためのコンピュータ化された方法であって、
入力信号を含むフレームの組を受信するステップと、
フレームの各々について少なくとも２つの異なる特徴ベクトル（feature vectors）を求めるステップと、
少なくとも２つのイベント・クラスについてトレーニングされた事前分類器（pre-classifiers）のそれぞれの組を用いて、少なくとも２つの異なる特徴ベクトルを分類するステップと、
フレームの各々についての事前分類器の出力に基づいて、少なくとも１つの重み因子の値を求めるステップと、
少なくとも１つの重み因子を少なくとも２つの異なる特徴ベクトルに掛けることによって、フレームの各々について組み合わせ特徴ベクトル（combined feature vector）を計算するステップと、
少なくとも２つのイベント・クラスについてトレーニングされた分類器の組を用いて、組み合わせ特徴ベクトルを分類するステップと、
を含む方法が提供される。

コンピュータ化された方法は、事前分類器の組の各々の出力間の少なくとも１つの距離を求め、その少なくとも１つの距離に基づいて少なくとも１つの重み因子の値を求めることを含むことができる。

この方法はさらに、少なくとも１つの距離を少なくとも１つの所定の閾値と比較し、その比較に依存する式を用いて少なくとも１つの重み因子の値を計算することを含むことができる。この式は、少なくとも１つの閾値のうちの少なくとも１つを入力として用いることができる。

少なくとも１つの距離は、カルバック−ライブラー距離、マハラノビス距離、及びユークリッド距離のうちの少なくとも１つに基づくものとすることができる。

フレームの各々についてエネルギー・ベースの特徴ベクトルを求めることができる。このエネルギー・ベースの特徴ベクトルは、異なる周波数帯域におけるエネルギー、ログ・エネルギー及びスピーチ・エネルギー・コンター（speech energy contour）のうちの少なくとも１つに基づくものとすることができる。

フレームの各々についてモデル・ベースの特徴ベクトルを求めることができる。このモデル・ベースの特徴ベクトルは、音響モデル、ニューラル・ネットワーク、及び、ニューラル・ネットワークと隠れマルコフ・モデルとの混合型スキームのうちの少なくとも１つに基づくものとすることができる。

１つの特定の実施形態においては、フレームの各々について、異なる周波数帯域のエネルギーに基づく第１の特徴ベクトルと、音響モデルに基づく第２の特徴ベクトルとが求められる。この特定の実施形態における音響モデルは、一言語音響モデル及び多言語音響モデルのうちの１つとすることができる。

本発明の第２の態様は、音声アクティビティ検出システムをトレーニングするためのコンピュータ化された方法であって、
トレーニング信号を含むフレームの組を受信するステップと、
フレームの各々について品質因子を求めるステップと、
トレーニング信号の内容に基づいて、フレームを少なくとも２つのイベント・クラスにラベル付けするステップと、
フレームの各々について少なくとも２つの異なる特徴ベクトルを求めるステップと、
少なくとも２つのイベント・クラスについて用いる少なくとも２つの異なる特徴ベクトルを分類するために、事前分類器のそれぞれの組をトレーニングするステップと、
フレームの各々についての事前分類器の出力に基づいて、少なくとも１つの重み因子の値を求めるステップと、
少なくとも１つの重み因子を少なくとも２つの異なる特徴ベクトルに掛けることによって、フレームの各々について組み合わせ特徴ベクトルを計算するステップと、
組み合わせ特徴ベクトルを少なくとも２つのイベント・クラスに分類するために、分類器の組を用いて組み合わせ特徴ベクトルを分類するステップと、
を含む方法を提供する。

この方法は、少なくとも１つの重み因子の値を求めるために、事前分類器の出力間の距離の閾値を求めることを含むことができる。

本発明の第３の態様は、少なくとも２つのイベント・クラス間を区別するための音声アクティビティ検出システムであって、
入力信号を含むフレームの組の各々のフレームについて少なくとも２つの異なる特徴ベクトルを求めるための特徴ベクトル・ユニットと、
少なくとも２つのイベント・クラスについてトレーニングされた、少なくとも２つの異なる特徴ベクトルを分類するための事前分類器の組と、
フレームの各々についての事前分類器の出力に基づいて少なくとも１つの重み因子の値を求めるための重み因子値計算器と、
少なくとも１つの重み因子を少なくとも２つの異なる特徴ベクトルに掛けることによって、フレームの各々について組み合わせ特徴ベクトルの値を計算するための、組み合わせ特徴ベクトル計算器と、
少なくとも２つのイベント・クラスについてトレーニングされた、組み合わせ特徴ベクトルを分類するための分類器の組と、
を含むシステムを提供する。

音声アクティビティ検出システムにおいては、重み因子値計算器は、少なくとも１つの重み因子の値を求めるための、事前分類器の出力間の距離についての閾値を含むことができる。

本発明のさらなる態様は、データ処理システム上で実行されたときにデータ処理システムに前述の方法ステップを実行させるコンピュータ可読プログラムを提供する。

本発明の実施形態に係る音声アクティビティ検出システムを一例として概略的に示す。本発明の実施形態に係る音声アクティビティ検出方法のフローチャートを一例として示す。本発明の実施形態に係る音声アクティビティ検出システムをトレーニングする１つの例を概略的に示す。本発明の実施形態に係る音声アクティビティ検出システムをトレーニングするさらなる例を概略的に示す。

本発明と、それをどのようにして実行に移すことができるかとをよりよく理解するために、単なる例として添付の図面を参照する。
本発明の実施形態は、モデル・ベースの音声アクティビティ検出技術を、異なる周波数帯域上の信号エネルギーに基づく音声アクティビティ検出技術と組み合わせるものである。この組み合わせによって、異なるエネルギー・バンドの信号エネルギーによって提供される情報と音響モデルによって提供される情報とが互いに補完し合うため、環境変化に対する堅牢性がもたらされる。信号エネルギー及び音響モデルから得られる２つのタイプの特徴ベクトルは、環境変化に従う。さらに、ここで提示される音声アクティビティ検出技術は、動的重み因子を用いるものであり、動的重み因子は入力信号と関連する環境を反映する。２つのタイプの特徴ベクトルをそうした動的重み因子と組み合わせることによって、音声アクティビティ検出技術は環境変化に適応する。

具体的な例として音響モデルに基づく特徴ベクトルと、異なる周波数帯域におけるエネルギーに基づく特徴ベクトルとが後述されるが、特徴ベクトルのタイプが互いに異なっており、それらが入力信号の相補的な情報を提供する限り、その他のタイプの特徴ベクトルを用いてもよい。

高ＳＮＲ状態におけるスピーチ検出のための簡単で有効な特徴は、信号エネルギーである。エネルギーに基づくあらゆる堅牢な機構は、信号及びノイズの相対的なレベルと信号の全ゲインとに適応するものでなければならない。さらに、異なる周波数帯域で伝達される情報は、音素のタイプ（自鳴音、摩擦音、滑空音など）に応じて異なるため、エネルギー・バンドを用いてこれらの特徴のタイプを計算する。ｍ個の要素を有する特徴ベクトルは、（Ｅｎ_１、Ｅｎ_２、Ｅｎ_３、．．．、Ｅｎ_ｍ）のように書くことができ、ここでｍは帯域数を表す。信号エネルギーに基づく特徴ベクトルは、本発明の実施形態に係る音声アクティビティ検出システムに用いられる第１のタイプの特徴ベクトルである。エネルギーに基づく他のタイプの特徴ベクトルは、ログ・エネルギー及びスピーチ・エネルギー・コンターなどのスペクトル振幅である。原則として、ノイズに対して感度の高いあらゆる特徴ベクトルを用いることができる。

メル周波数ケプストラム係数（ＭＦＣＣ）及びそれらの導関数、知覚線形予測（ＰＬＰ）係数などの周波数ベースのスピーチ特徴は、スピーチ認識システムにおけるノイズに対する堅牢性を向上させるために非常に有効であることが知られている。残念ながら、それらは、ＶＡＤシステムにおいて直接用いられたときに他の環境音からスピーチを区別するのにはそれほど有効ではない。したがって、それらをＶＡＤシステムにおいて用いる方法は、音響モデル（ＡＭ）を通じたものである。

音響モデルが用いられる場合、ＶＡＤの機能は、典型的には、ＡＭがトレーニングされた言語のみに制限される。別の言語についての特徴ベースのＶＡＤの使用は、新しいＡＭとすべてのＶＡＤシステムの再トレーニングとを必要とし、計算コストが増大することがある。したがって、２つ以上の言語を取り扱うことができる共通音韻体系（common phonology）でトレーニングされたＡＭを使用するのが有利である。これによって、精度に対する労力が低コストで最小になる。

多言語ＡＭは、すべての言語にわたる共通アルファベットに基づくスピーチ転写（speech transcription）を必要とする。共通アルファベットを達成するために、関連する言語の各々について既に存在するアルファベットから開始することができ、それらの言語の幾つかは、簡略化し、次いで同じＩＰＡシンボルに対応する幾つかの言語に存在する音を融合することを必要とするものである。この手法は、非特許文献７において説明されている。多言語スピーチ認識についての音響モデリングは、ほとんどの場合、（半）連続隠れマルコフモデル・トレーニングについての確立した方法を利用するものであるが、このタスクのために、各々のクラスについてのクラス事後確率（posterior class probability）を生成するニューラル・ネットワークを考慮することもできる。この手法は、非特許文献８及び非特許文献９において説明される。

スピーチとノイズの両方の観測をガウス混合密度関数（Gaussian mixture density function）の個々の分布によって特徴付けることができると仮定すると、ＶＡＤシステムは、統計的ＡＭが隠れマルコフモデル・フレームワーク内のガウス混合モデル（ＧＭＭ）としてモデル化される既存のスピーチ認識システムから、恩恵を受けることもできる。非特許文献１０において一つの例を見出すことができる。各々のクラスは、（選択された数の混合を有する）ＧＭＭによってモデル化される。スピーチ／ノイズ・イベントについてのクラス事後確率は、フレーム・ベースで計算され、本発明においては（Ｐ_１、Ｐ_２）と呼ばれる。それらは第２のタイプのＦＶを表す。

以下の説明においては、特徴ベクトルを提供するモデルの例として、多言語音響モデルが用いられることが多い。多言語音響モデルから単一言語音響モデルを導出するのは簡単であることが分かる。さらに、本発明の実施形態に係る音声検出システムにおいては、特定の単一言語音響モデルを用いることが可能である。

周波数帯域のエネルギーに関する第１の特徴ベクトル（Ｅｎ_１、Ｅｎ_２、Ｅｎ_３、．．．、Ｅｎ_ｍ）は、事前分類器の第１の組への入力である。音響モデル又は他の関連するモデルによって提供される第２の特徴ベクトル、例えば２つのイベント・タイプについての（Ｐ_１、Ｐ_２）は、事前分類器の第２の組への入力である。事前分類器は、典型的には、ガウス混合分布を出力するガウス混合事前分類器である。本発明の実施形態において採用されるガウス混合モデルのいずれかについて、クラスの各々の事後確率を推定するために、例えばニューラル・ネットワークを用いることができる。

これらの組における事前分類器の数は、音声アクティビティ検出システムが検出することが必要なイベント・クラスの数に対応する。典型的には、２つのイベント・クラス、すなわち、スピーチと非スピーチ（言い換えれば、スピーチとノイズ）が存在する。しかしながら、用途に応じて、より多くのイベント・クラスが必要な場合もある。極めてありふれた例は、以下の３つのイベント・クラス、すなわち、スピーチ、ノイズ及びサイレンスを有することである。事前分類器は、それぞれのイベント・クラスについてトレーニングされている。トレーニングは、以下で少し詳しく説明される。

高ＳＮＲ（クリーンな環境）においては、２つのクラスの分布は良好に分類され、エネルギー・ベースのモデルと関連する事前分類器のいずれかは、信頼性のある出力を提供することになる。（多言語）音響モデルと関連する分類モデルは、適度に良好なクラス分離を提供することも期待される。低ＳＮＲ（ノイズの多い環境）においては、エネルギー・バンドと関連する２つのクラスの分布は大きく重なり、エネルギー・バンドのみと関連する事前分類器に基づく判断が不正確なものになる。

ＦＶタイプのうちの一方は、環境のタイプ（ノイズが多い又はクリーン）に応じて他のタイプよりも効果的であると思われる。しかしながら、実際の適用においては環境の変化が非常に頻繁に起こり、これらの変化に対する音声アクティビティ検出システムの堅牢性を向上させるために、両方のＦＶタイプの存在を必要とする。したがって、本発明の実施形態においては、環境のタイプに応じて２つのＦＶタイプが動的に重み付けされるスキームが用いられることになる。

どのＦＶが最も信頼できる判定を提供することになるかを判断するために環境を定義する問題が残っている。環境のタイプを推定する簡単で効果的な方法は、例えばスピーチ／ノイズ分布間といったイベント・タイプ分布間の距離を計算することを含む。良好な識別クラスを提供し、分布間に大きな距離をもたらす極めて識別性のある特徴ベクトルは、分布間にそれほど大きなドット区別（dot differentiate）のない特徴ベクトルに対して強調される。事前分類器のモデル間の距離に基づいて、重み因子の値が求められる。

図１は、本発明の実施形態に係る音声アクティビティ検出システム１００を概略的に示す。図２は、音声アクティビティ検出方法２００のフローチャートを示す。方法２００におけるステップの順序は変えてもよいことが分かる。また、ブロックの配置は、ブロックによって提供される機能が音声検出システム１００に存在する限り、図１に示されたものから変えてもよい。

音声アクティビティ検出システム１００は、入力データ１０１を受信する（ステップ２０１）。入力データは、典型的にはフレームに分割され、フレームは、１０−３０ｍｓの間でサイズが変化する、重なり合って連続するスピーチのセグメント（入力信号）である。エネルギー・バンド・ブロック１０４は、各々のフレームについて第１の特徴ベクトル（Ｅｎ_１、Ｅｎ_２、Ｅｎ_３、．．．、Ｅｎ_ｍ）を求める。フロント・エンド１０２は、典型的には、各々のフレームについて、ＭＦＣＣ係数及びそれらの導関数、又は知覚線形予測（ＰＬＰ）係数を計算する（ステップ２０４）。これらの係数は、音響モデルＡＭ１０３に入力される。図１においては、音響モデルは、単なる例として、多言語音響モデルであるように示されている。音響モデル１０３は、各々のフレームについての第２の特徴ベクトルとして音声音響尤度（phonetic acoustic likelihoods）を提供する（ステップ２０５）。多言語音響モデルは、少なくともトレーニングされた言語のいずれかについてモデル依存ＶＡＤの使用を保証する。

エネルギー・バンド・ブロック１０４によって提供された第１の特徴ベクトル（Ｅｎ_１、Ｅｎ_２、Ｅｎ_３、．．．、Ｅｎ_ｍ）は、事前分類器の第１の組Ｍ３１２１、Ｍ４１２２に入力される（ステップ２０３）。音響モデル１０３によって提供された第２の特徴ベクトル（Ｐ１、Ｐ２）は、事前分類器の第２の組Ｍ１１１１、Ｍ２１１２に入力される（ステップ２０６）。事前分類器Ｍ１、Ｍ２、Ｍ３、Ｍ４は、典型的にはガウス混合事前分類器であり、ガウス混合分布を出力する。ニューラル・ネットワークを用いて、クラスの各々の事後確率を得ることもできる。これらの組における事前分類器の数は、音声アクティビティ検出システム１００が検出する必要があるイベント・クラスの数に対応する。図１は、イベント・クラスとしてスピーチ／ノイズを例示する。しかしながら、用途に応じて、より多くのイベント・クラスが必要な場合がある。事前分類器は、それぞれのイベント・クラスについてトレーニングされている。図１の例においては、Ｍ_１は、（Ｐ_１、Ｐ_２）のみについてトレーニングされたスピーチ・モデルであり、Ｍ_２は、（Ｐ_１、Ｐ_２）のみについてトレーニングされたノイズ・モデルであり、Ｍ_３は、（Ｅｎ_１、Ｅｎ_２、Ｅｎ_３、．．．、Ｅｎ_ｍ）のみについてトレーニングされたスピーチ・モデルであり、Ｍ_４は、（Ｅｎ_１、Ｅｎ_２、Ｅｎ_３、．．．、Ｅｎ_ｍ）のみについてトレーニングされたノイズ・モデルである。

音声アクティビティ検出システム１００は、各々の組における事前分類器によって出力される分布間の距離を計算する（ステップ２０７）。言い換えれば、事前分類器Ｍ１及びＭ２の出力間の距離ＫＬ１２が計算され、同様に、事前分類器Ｍ３及びＭ４の出力間の距離ＫＬ３４が計算される。３つ以上のタイプのイベント・クラスが存在する場合には、組における事前分類器のすべての対の間の距離を計算するか、又は、事前分類器の所定の幾つかの対のみの間の距離を計算することができる。距離は、例えば、カルバック−ライブラー距離、マハラノビス距離、又はユークリッド距離とすることができる。典型的には、事前分類器の両方の組について同じタイプの距離が用いられる。

ＶＡＤシステム１００は、特徴ベクトルに重み因子ｋを掛けることによって、特徴ベクトル（Ｐ_１、Ｐ_２）と（Ｅｎ_１、Ｅｎ_２、Ｅｎ_３、．．．、Ｅｎ_ｍ）とを組み合わせて組み合わせ特徴ベクトルにする（ステップ２０９）。組み合わせ特徴ベクトルは、例えば、以下の形式のもの、すなわち、（ｋ＊Ｅｎ_１ｋ＊Ｅｎ_２ｋ＊Ｅｎ_３．．．ｋ＊Ｅｎ_ｍ（１−ｋ）＊Ｐ_１（１−ｋ）＊Ｐ_２）とすることができる。

重み因子ｋの値は、距離ＫＬ１２及びＫＬ３４に基づいて求められる（ステップ２０８）。重み因子ｋの値を求める１つの例は、以下の通りである。トレーニング段階の間に、トレーニング信号のＳＮＲが計算できるときに、ＳＮＲクラス・ラベルを含み距離ＫＬ１２及びＫＬ３４に対応するデータ構造が形成される。表１は、そうしたデータ構造の例である。

表１が示すように、ＳＮＲ空間をレンジに分割する閾値が存在してもよい。表１においては、閾値_１は、ＳＮＲ空間を低ＳＮＲ及び高ＳＮＲの２つのレンジに分割する。距離値ＫＬ１２及びＫＬ３４は、現在の環境タイプを予測するのに用いられ、各々の入力スピーチのフレーム（例えば１０ｍｓ）について計算される。

表１においては、各々のＳＮＲクラスと距離との対について１つの列が存在する。言い換えれば、ここでの特定の例においては、距離ＫＬ１２について２つの列（ＳＮＲ高、ＳＮＲ低）が存在し、距離ＫＬ３４について２つの列（ＳＮＲ高、ＳＮＲ低）が存在する。表１のフォーマットのさらなる選択肢として、トレーニング段階の間に、すべての距離値ＫＬ１２を１つの列に集め、すべての距離値ＫＬ３４をさらに別の列に集めることができる。ＳＮＲクラスの列における項目によって、ＳＮＲ低／高間の区別をつけることができる。

トレーニング段階及び表１を再び参照すると、フレームｘにおいて、ノイズの多い環境（低ＳＮＲ）の場合には、（ＫＬ_{１２Ｌ−フレーム−ｘ}及びＫＬ_{３４Ｌ−フレーム−ｘ}）の対のみが計算されることになる。次のフレーム（ｘ＋１）において、環境が依然としてノイズの多い場合には、（ＫＬ_{１２Ｌ−フレーム−ｘ＋１}及びＫＬ_{３４Ｌ−フレーム−ｘ＋１}）の対が計算されることになり、そうでなければ（高ＳＮＲの場合には）（ＫＬ_{１２Ｈ−フレーム−ｘ＋１}及びＫＬ_{３４Ｈ−フレーム−ｘ＋１}）の対が計算される。各々のフレームについてトレーニング段階において環境タイプが計算され、対応するＫＬ距離が参照テーブル（表１）に集められる。実行時において、ＳＮＲに関する情報が不足しているときには、各々のスピーチ・フレームについて距離値ＫＬ１２及びＫＬ３４が計算される。参照テーブルにおける対応する閾値に対するＫＬ１２及びＫＬ３４値の比較に基づいて、ＳＮＲタイプに関する情報が取得される。このようにして、環境のタイプ（ＳＮＲクラス）を取得することができる。

まとめとして、トレーニング段階の間に、表１又は同様のデータ構造の値が集められ、トレーニング段階の間に閾値が求められる。実行段階において、音声アクティビティ検出が実行されたときに、距離値ＫＬ１２及びＫＬ３４が表１の（又は同様のデータ構造の）閾値と比較され、その比較に基づいて、どのＳＮＲクラスが現在のフレームの環境を記述するかが判定される。

現在の環境（ＳＮＲレンジ）を判定した後で、環境タイプに基づいて、例えば、以下の関係を用いる閾値自体に基づいて、重み因子の値を求めることができる。
１．ＳＮＲ＜閾値_１のとき、ｋ＝ｍｉｎ（ＴＨ_１２−Ｌ、ＴＨ_３４−Ｌ）
２．ＳＮＲ＞閾値_１のとき、ｋ＝ｍａｘ（ＴＨ_１２−Ｈ、ＴＨ_３４−Ｈ）

重み因子値の計算に閾値を用いる代わりに、距離値ＫＬ１２及びＫＬ３４を用いることができる。例えば、ＳＮＲ＜閾値_１のとき、ｋの値はｋ＝ｍｉｎ（ＫＬ１２、ＫＬ３４）とすることができ、ＳＮＲ＞閾値_１のとき、ｋ＝ｍａｘ（ＫＬ１２、ＫＬ３４）とすることができる。このように、音声アクティビティ検出システムは、環境の変化を考慮に入れることによってさらに動的なものとなる。

組み合わせ特徴ベクトル（重み付きＦＶ^＊）は、スピーチ及びノイズについてトレーニングされた分類器の組１３１、１３２に入力される（ステップ２１０）。３つ以上のタイプのイベントが存在する場合には、組み合わせ特徴ベクトルに作用する分類器の組における事前分類器及び分類器の数は、イベントのタイプの数と一致することになる。組み合わせ特徴ベクトルの分類器の組は、典型的には、発見的決定ルール、ガウス混合モデル、パーセプトロン、サポート・ベクトル・マシン又は他のニューラル・ネットワークを用いる。分類器１３１及び１３２によって提供されるスコアは、典型的には、２つのフレームにわたって平滑化される（ステップ２１１）。次に、音声アクティビティ検出システムは、平滑化されたスコアに基づいてイベントのタイプを判定する（ステップ２１２）。

図３は、音声アクティビティ検出システム１００のトレーニングを概略的に示す。音声アクティビティ検出システム１００のトレーニングは、トレーニング信号３０１を入力し、システム１００をトレーニング・モードに切り替えることによって、自動的に行われることが好ましい。フロント・エンド１０２において各々のフレームについて計算された音響ＦＶは、２つの理由のために、すなわち、データをスピーチ／ノイズにラベル付けするため、及び、スピーチを他のノイズから区別するのにより有効な別のタイプのＦＶを生成するために、音響モデル１０３に入力される。後者の理由は、ＶＡＤシステムの実行段階にも当てはまる。

各々のフレームについてのラベルは、以下の方法、すなわち、手動、強制アライメント・モード（図３の強制アライメント・ブロック３０２）でスピーチ認識システムを実行すること、又は、既存のスピーチ・デコーダの出力を用いること、のうちの１つによって得ることができる。例示の目的で、トレーニング・データをラベル付けする第２の方法を、図３を参照しながら以下により詳細に説明する。

ブロック３０３で行われる「ｐｈｏｎｅｔｏｃｌａｓｓ」マッピングを考える。すべての音素をインベントリから区別クラスにマッピングすることによって、所定のすべての言語についての音響音声空間が定義される。説明例として２つのクラス（スピーチ／ノイズ）を選択するが、イベントのクラス及びそれらの数は、音声アクティビティ検出が作動するように意図された環境によって課される必要性に応じて、任意に選択することができる。このステップのために、トレーニング・データの音声転写が必要である。例えば、ノイズ・クラスについては、純粋な静の音素（pure silence phonemes）、無声摩擦音、及び破裂音が選択され、一方、スピーチ・クラスについては残りの音素が選択される。

次に、多言語音響モデル・ブロック１０３において行われるクラス尤度生成を考える。音響モデル１０３からの結果と音響の特徴（例えば、多言語ＡＭに入力されるＭＦＣＣ係数（ブロック１０３））とに基づいて、ＡＭのガウス分布全体を対応する音にマッピングし、次に対応するクラスにマッピングすることによって、スピーチ事後検出クラスが得られる。例えば、ノイズ・クラスについては、ノイズの多いクラス及び静かなクラスに属するすべてのガウス分布がノイズにマッピングされ、クラスの残りはスピーチ・クラスにマッピングされる。

強制アラインメント・ブロック３０２においては、ビタビ・アライメントが行われる。信号の正しい転写を仮定すると、強制アライメントは、スピーチ認識と同じ機構を用いて各々の信号セグメント（フレーム）についての音情報を決定する。これによって、特徴が（ＡＭからの）異音（allophone）に整合させられる。次に、ｐｈｏｎｅｔｏｃｌａｓｓマッピング（ブロック３０３）は、異音から音声に、最終的にはクラスにマッピングする。強制アライメントからのスピーチ／ノイズ・ラベルは、補正ラベルとして扱われる。

次に、言語にかかわらず、定められたクラスについてガウス・モデル（ブロック１１１、１１２）をトレーニングすることができる。

そのため、各々の入力フレームについて、ＭＦＣＣ係数に基づいて第２の特徴ベクトル（Ｐ１、Ｐ２）がブロック１０３の多言語音響モデルによって計算され、ブロック３０２及び３０３によって対応するクラスに整合される。さらに、この段階でＳＮＲも計算される。ブロック３０２は、事前にトレーニングされたスピーチ／ノイズ・ガウス混合である事前分類器の第２の組１１１、１１２に、ＳＮＲ情報とともに第２の特徴ベクトルを出力する。

音声アクティビティ検出システム１００は、異なる周波数帯域における信号エネルギーを求めるエネルギー・バンド・ブロック１０４にも、トレーニング信号３０１を入力する。エネルギー・バンド・ブロック１０４は、関連するイベントのタイプについて予めトレーニングされた事前分類器の第１の組１２１、１２２に、第１の特徴ベクトルを入力する。

音声アクティビティ検出システム１００は、トレーニング段階において、事前分類器１１１、１１２の出力間の距離ＫＬ１２と、事前分類器１２１、１２２の出力間の距離ＫＬ３４とを計算する。ＳＮＲに関する情報は、距離ＫＬ１２及びＫＬ３４とともに渡される。音声アクティビティ検出システム１００は、事前分類器の出力間の距離ＫＬ１２、ＫＬ３４とＳＮＲとに基づいて、データ構造、例えば参照テーブルを生成する。

データ構造は典型的には、種々の環境タイプと、これらの環境タイプと関連する距離ＫＬ１２、ＫＬ３４の値とを有する。例として、表１は、２つの環境タイプ（ＳＮＲ低及びＳＮＲ高）を含む。これらの環境タイプを分離するために、トレーニング段階において閾値が求められる。トレーニング段階の間に、各々のＫＬ１２、ＫＬ３４値と関連するＳＮＲにしたがって、距離ＫＬ１２及びＫＬ３４が表１の列に集められる。このようにして、列ＫＬ１２ｌ、ＫＬ１２ｈ、ＫＬ３４ｌ及びＫＬ３４ｈが形成される。

音声アクティビティ検出システム１００は、前述の第１及び第２の特徴ベクトルに重み因子を掛けることによって、組み合わせ特徴ベクトルを求める。組み合わせ特徴ベクトルは、分類器の組１３１、１３２に入力される。

前述のように、３つ以上のＳＮＲクラスを有することもできる。またこの場合においては、ＳＮＲクラスを互いに区別するために、トレーニング段階の間に閾値が決定される。表２は、２つのイベント・クラスと３つのＳＮＲクラスとが用いられる例を示す。この例においては、２つのＳＮＲ閾値（閾値_１、閾値_２）と、距離値についての８つの閾値とが存在する。以下は、この例において重み因子の値を求めるための式の例である。
１．ＳＮＲ＜閾値_１のとき、ｋ＝ｍｉｎ（ＴＨ_１２−Ｌ、ＴＨ_３４−Ｌ）
２．閾値_１＜ＳＮＲ＜閾値_２のとき、

３．ＳＮＲ＞閾値_２のとき、ｋ＝ｍａｘ（ＴＨ_１２−Ｈ、ＴＨ_３４−Ｈ）

さらに、３つ以上のイベント・クラスを有することも可能である。この場合には、音声アクティビティ検出システムにおいて、さらに多くの事前分類器及び分類器が存在する。例えば、３つのイベント・クラス（スピーチ、ノイズ、サイレンス）の場合には、ＫＬ（スピーチ、ノイズ）、ＫＬ（スピーチ、サイレンス）及びＫＬ（ノイズ、サイレンス）の３つの距離が考えられる。図４は、例として、３つのイベント・クラスと２つのＳＮＲクラス（環境タイプ）が存在する音声アクティビティ検出システムのトレーニング段階を示す。各々のタイプの特徴ベクトルについて３つの事前分類器（すなわちイベント・クラスの数）、すなわち、モデル１１１、１１２、１１３及びモデル１２１、１２２、１２３が存在する。図４においては、トレーニング段階の間に監視される距離の数は、各々のタイプの特徴ベクトルについて６つであり、例えば音響モデルから得られた特徴ベクトルについては、ＫＬ_１２Ｈ、ＫＬ_１２Ｌ、ＫＬ_１３Ｈ、ＫＬ_１３Ｌ、ＫＬ_２３Ｈ、ＫＬ_２３Ｌである。ＦＶ間の重み因子は、ＳＮＲ及びＦＶのタイプによって決まる。したがって、定められたＳＮＲクラスの数及び特徴ベクトルの数が変わらない場合には、重み付けの手順も変わらない。第３のＳＮＲクラスが中（ｍｅｄｉｕｍ）の場合には、エネルギー・タイプのＦＶについて最大値０．５が推奨されるが、用途に応じて若干調節してもよい。

さらに、フレームについて３つ以上の特徴ベクトルを有することが適切である。最終的な重み付きＦＶは、（ｋ_１＊ＦＶ１、ｋ_２＊ＦＶ２、ｋ_３＊ＦＶ３、．．．ｋ_ｎ＊ＦＶｎ）の形態となり、ここでｋ１＋ｋ２＋ｋ３．．．＋ｋｎ＝１である。より多くのＦＶを用いることによって考慮されることが必要なのは、異なるＳＮＲクラスに対するそれらの挙動である。そのため、ＳＮＲクラスの数は、ＦＶの選択に影響を及ぼす可能性がある。１つのクラスについての１つのＦＶは、同一のものとすることができる。しかしながら、現時点では、音声アクティビティ検出の分野においてそうした細かい分類は存在しない。

本発明は、すべてがハードウェアからなる実施形態、すべてがソフトウェアからなる実施形態、又は、ハードウェア要素とソフトウェア要素との両方を含む実施形態の形をとることができる。好ましい実施形態においては、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されないソフトウェアで実現される。

さらに、本発明は、コンピュータ若しくはあらゆる命令実行システムによって又はそれらと関連して用いられるプログラム・コードを提供するコンピュータ使用可能媒体又はコンピュータ可読媒体からアクセス可能なコンピュータ・プログラム製品の形をとることができる。この説明の目的のために、コンピュータ使用可能媒体又はコンピュータ可読媒体は、命令実行システム、機器若しくは装置によって又はそれらと関連して用いられるプログラムを収容し、格納し、通信し、伝搬し、又は搬送することが可能なあらゆる機器とすることができる。

媒体は、電子システム、磁気システム、光学システム、電磁気システム、赤外線システム、若しくは半導体システム（又は機器若しくは装置）、又は伝搬媒体とすることができる。コンピュータ可読媒体の例として、半導体又は固体メモリ、磁気テープ、リムーバブル・コンピュータ・ディスケット、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、磁気ディスク及び光ディスクが挙げられる。光ディスクの現時点の例として、コンパクト・ディスク−読み取り専用メモリ（ＣＤ−ＲＯＭ）、コンパクト・ディスク−読み取り／書き込み（ＣＤ−Ｒ／Ｗ）及びＤＶＤをが挙げられる。

プログラム・コードを格納及び／又は実行するのに適したデータ処理システムは、システム・バスを通じて直接的に又は間接的にメモリ要素に結合された少なくとも１つのプロセッサを含む。メモリ要素として、プログラム・コードの実際の実行の際に使用されるローカル・メモリと、バルク・ストレージと、実行の際にコードがバルク・ストレージから取得されなければならない回数を減少させるために少なくとも幾つかのプログラム・コードの一時的な格納場所となるキャッシュ・メモリとを挙げることができる。

入力／出力デバイス、すなわちＩ／Ｏデバイス（キーボード、ディスプレイ、ポインティング・デバイスなどを含むがこれらに限定されるものではない）は、直接的に、又は介在するＩ／Ｏコントローラを通して、システムに結合することができる。ネットワーク・アダプタをシステムに結合して、データ処理システムが、介在するプライベート・ネットワーク又は公衆ネットワークを通して他のデータ処理システム又は遠隔プリンタ若しくはストレージ・デバイスに結合されるようにすることができる。モデム、ケーブル・モデム及びイーサネット・カードは、現時点で利用可能なタイプのネットワーク・アダプタのうちのほんの一部に過ぎない。

本発明の実施形態は、動的な重み因子の値が各々のフレームについて更新されることを前提として説明されたが、これは必ずしも必須の事項ではないことが分かる。例えば、３番目のフレームごとに重み因子の値を求めることができる。特許請求の範囲における「フレームの組」は、必ずしも互いに厳密に連続するフレームの組についていうことが必要とされるわけではない。重み付けは、クラス分離の正確さを損なうことなく２つ以上のフレームについて行うことができる。重み因子値の更新は、頻度は低いものの音声アクティビティ検出の精度を低下させる場合があるが、用途によっては、その精度は依然として十分なものである。

上記の説明においては、信号対ノイズ比は、入力信号と関連する環境を反映する品質因子として用いられているが、他の品質因子を付加的に又は代替的に適用することもできることが分かる。

この説明は、本明細書に記載された種々の特徴の幾つかの組み合わせを明示的に説明するものである。この説明を分析する当業者には種々の他の組み合わせが明らかであることが分かる。

特許請求の範囲において、コンピュータ化された方法とは、１つ又は複数のプロセッサ、メモリ手段及びストレージ手段の適切な組み合わせを含むコンピュータ・システムによってステップが行われる方法のことをいう。

上記の説明は、本発明の特定の実施形態を参照しているが、当業者であれば、範囲が特許請求の範囲によって定められる本発明の原理及び趣旨から逸脱することなく、これらの実施形態を変更できることが分かるであろう。

Claims

少なくとも２つのイベント・クラス間を区別するためのコンピュータ化された方法であって、
入力信号を含むフレームの組を受信するステップと、
前記フレームの各々について少なくとも２つの異なる特徴ベクトルを求めるステップとを有し、
前記少なくとも２つの異なる特徴ベクトルのうち、第１の特徴ベクトルはエネルギー・ベースの特徴ベクトルであり、第２の特徴ベクトルは音響モデルによって提供される前記少なくとも２つのイベント・クラスのクラス事後確率に基づくものであり、前記少なくとも２つのイベント・クラスはスピーチ・クラス及びノイズ・クラスを含んでおり、
前記少なくとも２つのイベント・クラスについてトレーニングされた事前分類器の第１及び第２の組に、前記第１及び第２の特徴ベクトルをそれぞれ入力するステップを有し、
事前分類器の前記第１及び第２の組の各々は、スピーチ・モデル用の事前分類器及びノイズ・モデル用の事前分類器をそれぞれ含んでおり、
事前分類器の前記第１及び第２の組の各々ごとに、前記スピーチ・モデル用の事前分類器及び前記ノイズ・モデル用の事前分類器からの２つの出力間の各距離値を求め、当該各距離値を少なくとも１つの所定の距離閾値と比較することにより、当該比較結果に従って前記フレームの各々についての信号対ノイズ比を推定するステップと、
前記推定した信号対ノイズ比を前記少なくとも１つの所定の距離閾値と比較することにより、当該比較結果に従って少なくとも１つの重み因子の値を求めるステップと、
前記少なくとも１つの重み因子を前記少なくとも２つの異なる特徴ベクトルに掛けることによって、前記フレームの各々について組み合わせ特徴ベクトルを計算するステップと、
前記少なくとも２つのイベント・クラスについてトレーニングされた分類器の組を用いて、前記組み合わせ特徴ベクトルを分類するステップとをさらに有する、方法。
前記各距離値は、カルバック−ライブラー距離、マハラノビス距離、及びユークリッド距離のうちの少なくとも１つに基づくものである、請求項１に記載の方法。
前記第１の特徴ベクトルは、異なる周波数帯域におけるエネルギー、ログ・エネルギー、及びスピーチ・エネルギー・コンターのうちの少なくとも１つに基づくものである、請求項１又は請求項２に記載の方法。
前記第２の特徴ベクトルは、ニューラル・ネットワーク、及びニューラル・ネットワークと隠れマルコフ・モデルとの混合型スキームのうちの少なくとも１つに基づくものである、請求項１から請求項３までのいずれか１項に記載の方法。
前記第１の特徴ベクトルは、異なる周波数帯域におけるエネルギーに基づくものであり、前記第２の特徴ベクトルについての前記音響モデルは、一言語音響モデル及び多言語音響モデルのうちの１つである、請求項１から請求項４までのいずれか１項に記載の方法。
請求項１から請求項５までのいずれか１項に記載の方法のステップをコンピュータに実行させるためのコンピュータ・プログラム。