JP4313728B2 - Voice recognition method, apparatus and program thereof, and recording medium thereof - Google Patents
Voice recognition method, apparatus and program thereof, and recording medium thereof Download PDFInfo
- Publication number
- JP4313728B2 JP4313728B2 JP2004179723A JP2004179723A JP4313728B2 JP 4313728 B2 JP4313728 B2 JP 4313728B2 JP 2004179723 A JP2004179723 A JP 2004179723A JP 2004179723 A JP2004179723 A JP 2004179723A JP 4313728 B2 JP4313728 B2 JP 4313728B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- signal
- echo
- model
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
この発明は、例えば音声応答装置のように、マイクロホンに収音された音声信号に対し音声認識を行い、この認識結果に対応した音声合成信号をスピーカから放音する装置に用いられ、マイクロホンからの入力音声信号の特徴ベクトル系列に対して、各認識カテゴリごとの特徴ベクトルからモデル化した確率モデルの尤度を求めて、入力音声信号の認識を行う音声認識方法、その装置およびプログラム、その記録媒体に関する。 The present invention is used in a device that performs voice recognition on a voice signal picked up by a microphone, such as a voice response device, and emits a voice synthesis signal corresponding to the recognition result from a speaker. Speech recognition method for recognizing input speech signal by obtaining likelihood of probability model modeled from feature vector for each recognition category for feature vector series of input speech signal, device and program thereof, and recording medium thereof About.
従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位の認識カテゴリ毎に隠れマルコフモデル(Hidden Markov Model、以下ではHMMと記す)などの確率モデルを用いてモデル化する手法は、認識性能が高く、現在の音声認識技術の主流となっている。従来のHMMを用いた音声認識装置を図1を参照して簡単に説明する。入力端子11から入力された音声信号は、A/D変換部12においてディジタル信号に変換される。そのディジタル信号から特徴ベクトル抽出部13において音声特徴ベクトルを抽出する。予め、認識カテゴリごとに、音声単位について作成したHMMを、モデルメモリ14から読み出し、尤度計算部15において、抽出された音声特徴ベクトルに対する各モデルの照合尤度を計算する。最も大きな照合尤度を示すモデルが表現する音声単位(認識カテゴリ)を認識結果とし出力部16より出力する。なおこの明細書及び図面中で対応する部分は同一参照番号を付けて重複説明は省略する。
In conventional speech recognition, modeling is performed using a stochastic model such as a Hidden Markov Model (hereinafter referred to as HMM) for each speech recognition category such as phonemes, syllables, and words constituting a recognition result candidate. The method has high recognition performance and has become the mainstream of current speech recognition technology. A conventional speech recognition apparatus using an HMM will be briefly described with reference to FIG. The audio signal input from the
背景雑音などの加法性雑音が重畳した音声の認識方法を2つ説明する。その1つ目は、入力音声に重畳した雑音を抑圧した後に認識する方法である。雑音抑圧方法はいろいろと提案されているが、ここではスペクトルサブトラクション法(以下、SS法と記す)について説明する(例えば非特許文献1参照)。時間領域で加法性の2つの信号は、線形パワースペクトル上でも加法性であることから、SS法では、雑音重畳音声信号から、推定雑音成分を線形パワースペクトル上で減算して音声成分を抽出する。 Two methods for recognizing speech on which additive noise such as background noise is superimposed will be described. The first is a method of recognizing after suppressing the noise superimposed on the input speech. Various noise suppression methods have been proposed. Here, a spectral subtraction method (hereinafter referred to as SS method) will be described (for example, see Non-Patent Document 1). Since two signals that are additive in the time domain are also additive on the linear power spectrum, the SS method subtracts the estimated noise component on the linear power spectrum from the noise-superimposed speech signal to extract the speech component. .
SS法を用いた音声認識装置を図2を参照して簡単に説明する。ディジタル信号とされた入力音声信号は、雑音であるか、雑音重畳音声であるかを音声/雑音判定部21で判定される。この判定部21は、その判定が雑音であるならば、音声/雑音スイッチ22を雑音端子22a側に接続して、A/D変換部12の出力側を平均雑音パワースペクトル計算部23に接続して入力音声信号中の雑音区間における平均パワースペクトルを計算する。判定部21で認識対象である雑音重畳音声区間であると判定された場合は、音声/雑音スイッチ22を音声端子22b側に切り替えて、A/D変換部12の出力側を雑音重畳音声パワースペクトル計算部24に接続し、入力音声信号中の雑音重畳音声のパワースペクトルを計算する。抑圧処理部25において、各時刻の雑音重畳音声のパワースペクトルから、平均雑音パワースペクトルを減算する。時刻tのパワースペクトルの周波数fの雑音抑圧後のパワースペクトルYD(t,f)は、以下のように計算される。
A speech recognition apparatus using the SS method will be briefly described with reference to FIG. The voice /
D(Y(t,f))=Y(t,f)−αN^(f)
YD(t,f)=D(Y(t,f)):D(Y(t,f))>βY(t,f)の場合
YD(t,f)=βY(t,f) その他の場合 (1)
ここで、Y(t,f)は、入力雑音重畳音声の時刻t、周波数fのパワースペクトル、
N^(f)は推定された周波数fの時間平均雑音パワースペクトル、
αはサブストラクション係数であり、通常1より大きい。
βはフロアリング係数であり、1より小さい。
D (Y (t, f)) = Y (t, f) −αN ^ (f)
Y D (t, f) = D (Y (t, f)): D (Y (t, f))> βY (t, f) Y D (t, f) = βY (t, f) Other cases (1)
Here, Y (t, f) is the time t of the input noise superimposed speech, the power spectrum of the frequency f,
N ^ (f) is the time average noise power spectrum of the estimated frequency f,
α is a subtraction coefficient and is usually larger than 1.
β is a flooring coefficient and is smaller than 1.
抑圧処理部25から出力されるパワースペクトルから、音声認識の特徴パラメータ(例えば、12次元のメル周波数・ケプストラム係数(Mel-Frequency Cepstrum Coefficient:MFCC))を特徴ベクトル抽出部13で計算する。これ以後の処理は、図1で説明した通りである。
2つ目の例としてHMM合成法による雑音重畳音声の認識について説明する。認識対象音声信号に重畳されていると予想される雑音データを、雑音を含まないクリーンな音声の学習データセットに重畳し、HMMを作成し、得られたHMMを用いて、雑音重畳音声信号に対し音声認識をすれば高い認識性能が得られる。
A feature parameter for speech recognition (for example, a 12-dimensional Mel-Frequency Cepstrum Coefficient (MFCC)) is calculated by the feature
As a second example, recognition of noise superimposed speech by the HMM synthesis method will be described. Noise data that is expected to be superimposed on the recognition target speech signal is superimposed on a clean speech learning data set that does not contain noise, an HMM is created, and the obtained HMM is used to generate a noise superimposed speech signal. On the other hand, if speech recognition is performed, high recognition performance can be obtained.
しかし、音声認識が利用される周囲環境の雑音は様々であり、予め予想することは難しい。さらに、HMMを作成するためのクリーン音声学習データセットのデータ量は膨大であり、従って重畳されていると思われる雑音データを重畳して、雑音重畳音声モデルを作成するために例えば、100時間という長い計算時間がかかる。よって、音声認識が利用される周囲環境の雑音を認識時に収録し、HMMを作成して利用することは、HMM作成に長い処理時間がかかるため現実的ではない。
そこで、例えば特許文献1に示すように、雑音のない大量のクリーン音声学習データセットをもとに予めクリーン音声HMMを作成しておき、認識時には背景雑音を観測して雑音HMMを作成し、クリーン音声HMMと合成する。得られた雑音重畳音声HMMは、認識時の背景雑音を含む音声モデルの近似であり、これを用いて認識する。雑音モデルの作成、モデルの合成にかかる処理時間は数秒から数十秒である。確率モデルであるHMMを用いるので、音声の変動、雑音の変動を考慮することもできる。
Therefore, for example, as shown in
例えば、音声認識方法を利用した人間と機械との音声応答装置においては、装置に設置されたスピーカから、ユーザに対するガイダンスのための音声や音を発することが多い。このような装置構成においては、装置に設置された音声認識用のマイクからは、周囲の背景雑音だけでなく、音声応答装置が自らが発するガイダンス音声も回り込んでエコーとして入力されてしまうことが多く、これも周囲雑音と同様に音声認識装置にとっての雑音となる。これらの雑音は、音声認識性能を劣化させる要因となる。
本発明は、上記に鑑みてなされたもので、その目的とするところは、周囲雑音のみならず、音声応答装置のように音声認識装置と共に用いられる音声合成装置が発する音声や音の回り込みエコーの存在に拘らず、認識性能が高い音声認識方法、その装置、プログラムおよび記録媒体を提供することにある。
For example, in a voice response device between a human and a machine using a voice recognition method, a voice or sound for guidance to a user is often emitted from a speaker installed in the device. In such a device configuration, a voice recognition microphone installed in the device may circulate not only the surrounding background noise but also the guidance sound generated by the voice response device itself and be input as an echo. In many cases, this also becomes noise for the speech recognition apparatus as well as ambient noise. These noises cause deterioration in speech recognition performance.
The present invention has been made in view of the above, and an object of the present invention is not only ambient noise but also speech and sound wraparound echoes generated by a speech synthesizer used together with a speech recognition device such as a speech response device. To provide a speech recognition method, apparatus, program, and recording medium with high recognition performance regardless of existence.
この発明はマイクロホンにより音響信号を収音し、スピーカより音響信号を放音する装置における上記マイクロホンにより収音した音声信号を確率モデルを用いて音声認識を行う音声認識方法であって、
マイクロホンよりの入力信号中の、上記スピーカからの放音信号成分(以下エコー信号という)を、上記スピーカへの供給信号を用いて抑圧し、かつ入力信号中の雑音信号成分を抑圧し、これらの抑圧がなされた信号を特徴ベクトル系列に変換し、この特徴ベクトル系列が認識対象の音声信号を含む音声区間か否かを判定し、その判定が音声区間でなければその特徴ベクトル系列を用いて雑音モデルを学習し、その雑音モデルと、雑音がないクリーンな音声データを用いて予め作成されたクリーン音声モデルとを合成して雑音重畳音声モデルを生成し、上記判定が音声区間であればその特徴ベクトル系列と上記雑音重畳音声モデルとを用いて認識カテゴリに対する尤度を計算し、これら計算された尤度に基づき、認識結果を出力する。
The present invention is a speech recognition method for performing speech recognition using a probability model for a speech signal collected by the microphone in an apparatus that collects an acoustic signal by a microphone and emits the acoustic signal from a speaker,
The sound emission signal component from the speaker (hereinafter referred to as echo signal) in the input signal from the microphone is suppressed using the supply signal to the speaker, and the noise signal component in the input signal is suppressed. The suppressed signal is converted into a feature vector sequence, and it is determined whether or not the feature vector sequence is a speech section including a speech signal to be recognized. If the determination is not a speech section, noise is generated using the feature vector sequence. The model is learned, and the noise model and a clean speech model created in advance using clean speech data without noise are combined to generate a noise superimposed speech model. The likelihood for the recognition category is calculated using the vector sequence and the noise superimposed speech model, and the recognition result is output based on the calculated likelihood.
この発明によれば、マイクロホンよりの入力信号中の雑音信号成分を抑圧するだけでなく、スピーカへの供給信号を用いてエコー信号をも抑圧し、これら両抑圧がなされた信号から雑音モデルを生成し、クリーン音声モデルと合成し、かつエコーおよび雑音抑圧され、S/N(信号対雑音比)が改善された雑音重畳音声信号に対し、前記合成モデルを用いて音声認識を行っているため、環境雑音のみならずエコーの影響を受け難く、高い認識率を得ることができる。しかも雑音モデルと、クリーン音声モデルを合成して雑音重畳音声モデルとしているため、雑音重畳音声モデルを短時間で作ることができる。 According to the present invention, not only the noise signal component in the input signal from the microphone is suppressed, but also the echo signal is suppressed using the signal supplied to the speaker, and a noise model is generated from the signal subjected to both the suppressions. Since the speech recognition is performed using the synthesis model for the noise superimposed speech signal which is synthesized with the clean speech model, echo and noise are suppressed, and the S / N (signal-to-noise ratio) is improved, It is difficult to be affected by not only environmental noise but also echo, and a high recognition rate can be obtained. Moreover, since the noise model and the clean speech model are combined to form a noise superimposed speech model, the noise superimposed speech model can be created in a short time.
[第1実施形態]
この発明の第1実施形態機能構成例を図3にその処理手順の例を図4にそれぞれ示す。この発明は例えば音声応答装置における音声認識に適用される。つまりこの音声応答装置の利用者に対し発話を誘導するためのガイダンス音声や利用者の発声を促す“ピッ”という音などのガイダンス音がスピーカ31から放音される。このガイダンス音声やガイダンス音など(以下システム音声という)を放音するために、出力用システム音声生成部32でディジタルシステム音声信号が音声合成され、このディジタルシステム音声信号が音声再生部33でアナログのシステム音声信号に変換されてスピーカ31へ供給される。
[First Embodiment]
An example of the functional configuration of the first embodiment of the present invention is shown in FIG. 3, and an example of the processing procedure is shown in FIG. The present invention is applied to voice recognition in a voice response device, for example. That is, a guidance sound such as a guidance voice for inducing speech to the user of the voice response device or a “beep” sound that prompts the user to speak is emitted from the
利用者より発声された音声はマイクロホン34により収音され、その収音された音声信号は、入力端子11を通じてA/D変換部12へ入力される。マイクロホン34には周囲雑音が収音されると共に、スピーカ31から放音されたシステム音声の回り込みエコーが収音される。つまりマイクロホン34から入力端子11へ供給される入力信号は利用者の認識対象音声信号に周囲雑音信号およびエコー信号が重畳されたものである。
第1実施形態ではエコー・雑音抑圧部35にA/D変換部12よりのディジタル入力信号および出力用システム音声生成部32からのディジタルシステム音声信号が入力され、エコー・雑音抑圧部35で入力信号はこれに重畳している周囲雑音信号とエコー信号とが抑圧される(ステップS1)。この例ではエコー部35aにおいて、システム音声信号によりまずエコー信号が抑圧される(ステップS1a)。このエコー抑圧は、例えば電話会議システムやテレビ会議システムなどに利用されている反響消去装置(エコーキャンセラ)の方法を用いることができる。例えばスピーカ31からマイクロホン34を通じてエコー部35aに到る伝達特性を適応的に推定し、推定した伝達特性をシステム音声信号に対し畳み込み、疑似エコー信号を生成し、この疑似エコー信号を入力信号から差し引いてエコー抑圧された入力信号を得る。
The voice uttered by the user is collected by the microphone 34, and the collected voice signal is input to the A /
In the first embodiment, the digital input signal from the A /
次にこのエコー抑圧された入力信号が雑音部35bに入力されて、入力信号に重畳している周囲(背景)雑音成分が抑圧される(ステップS1b)。この雑音抑圧は例えば入力信号中の平均的な最低レベルを背景雑音レベルとみなし、このレベル以下の信号を除去する。
更にこの例ではこのエコー抑圧及び雑音抑圧処理された信号およびディジタルのシステム音声信号が残留エコー部35cに入力され、背景雑音レベル以外のエコー信号など、背景雑音に影響されてエコー部S1aにより除去できなかった残留エコー信号が、エコーおよび雑音抑圧された入力信号から除去される(ステップS1c)。この残留エコー抑圧も、例えばテレビ会議システムに利用されているものと同様の手法を用いることができる。例えば特許第3420705号公報、特許第3507020号公報、特開2003−284183号公報に示されているように、入力信号とシステム音声信号とから音響(エコー経路)結合量を求め、これに応じて、エコーおよび雑音抑圧された入力信号に対し抑圧、つまり損失を与えればよい。
Next, the echo-suppressed input signal is input to the
Further, in this example, the echo-suppressed and noise-suppressed signal and the digital system voice signal are input to the
エコー・雑音抑圧部35よりのエコーおよび雑音抑圧処理された入力信号は特徴ベクトル抽出部36に入力され、特徴ベクトルは確率モデル、この例ではHMMの学習に必要な特徴ベクトル系列に変換される(ステップS2)。この特徴ベクトル系列は区間判定部37に入力され、その特徴ベクトル系列より、現在の入力信号が雑音信号成分のみ、つまり周囲雑音信号又はこれとエコー信号のみの雑音区間であるか、あるいは雑音信号成分と音声信号とが重畳された雑音重畳音声信号の音声区間のいずれであるかの判定がなされる(ステップS3)。
The input signal subjected to the echo and noise suppression processing from the echo /
区間判定部37より判定結果出力が音声/雑音スイッチ38に入力され、判定結果出力が雑音区間に対するものであれば、スイッチ38は端子38N側に切り替えられ、特徴ベクトル抽出部36よりの特徴ベクトル系列が雑音モデル学習部39へ入力される。雑音モデル学習部39は入力された特徴ベクトルの複数の分析フレーム分を学習して雑音HMMが生成される(ステップS4)。この雑音HMMはエコーおよび雑音抑圧処理された周囲雑音信号又はこれとエコー信号と対応している。
クリーン音声モデルメモリ41には、雑音がないクリーンな多数の音声データを基に、認識する音声単位で各認識カテゴリごとに学習されたクリーン音声HMMが格納されている。このクリーン音声HMMと雑音HMMがモデル合成部42に入力され、これらHMMが合成され、雑音重畳音声HMMとして、雑音重畳音声モデルメモリ43に格納される(ステップS5)。
If the determination result output is input to the voice / noise switch 38 from the
The clean speech model memory 41 stores clean speech HMMs learned for each recognition category in units of speech to be recognized based on a large number of clean speech data free from noise. The clean speech HMM and noise HMM are input to the
区間判定部32よりの判定結果出力が音声区間に対するものであれば、音声/雑音スイッチ38は端子38S側に切り替えられ、特徴ベクトル抽出部36よりの、エコーおよび雑音抑圧処理された雑音重畳音声信号の特徴ベクトル系列は尤度計算部44に入力される。尤度計算部44は、入力された特徴ベクトル系列に対する雑音重畳音声モデルメモリ43内の各雑音重畳音声モデルの尤度を計算する(ステップS6)。各認識カテゴリについて計算された尤度が出力部16へ入力され、入力された尤度中の最大のモデルの認識カテゴリが認識結果として出力される(ステップS7)。
If the determination result output from the
雑音HMMの生成は、音声応答装置を動作させるための準備期間(アドリング中)に、システム音声を放音させて行ってもよいし、利用者が発声する前の区間に行ってもよい。後者においては、利用者の発声ごとの各直前に常に行うようにしてもよく、この場合は、モデル合成部43で合成された雑音重畳音声モデルにより、雑音重畳音声モデルメモリ43内の雑音重畳音声モデルが更新される(ステップS5)。このようにすると、利用者の音声応答装置に対する位置が変化してもS/N(信号対雑音比)の影響が少なく、かつ、エコー経路の推定により良好になり、認識率が向上する。
The generation of the noise HMM may be performed by emitting the system sound during a preparation period (during the addition) for operating the voice response device, or may be performed in a section before the user utters. In the latter case, it may be always performed immediately before each utterance of the user. In this case, the noise superimposed speech in the noise superimposed
以上のようにこの第1実施形態によれば、エコー・雑音抑圧部35により、エコー信号が抑圧され、しかも雑音区間においてエコーおよび雑音抑圧された入力信号の特徴ベクトル系列から雑音モデルを生成し、かつ音声区間においてエコーおよび雑音抑圧され、S/N(信号対雑音比)が改善された雑音重畳音声信号の特徴ベクトル系列に対し雑音重畳音声HMMの尤度を計算しているため、雑音モデルを学習しているため、予め使用される環境の雑音を予測して生成することなく、常にその場所での周囲(背景)雑音と対応した雑音モデルが生成でき、また周囲雑音の状態が変化してもこれに応じた雑音モデルが得られ、認識率が向上する。更に雑音モデルとクリーン音声モデルとを合成して雑音重畳音声モデルを生成しているため処理時間が短かい。
As described above, according to the first embodiment, the echo signal is suppressed by the echo /
[第2実施形態]
この発明の第2実施形態の機能構成例を図5に、処理手順例を図6にそれぞれ示す。第1実施形態と異なる点を説明する。
特徴ベクトル抽出部36よりの特徴ベクトル系列は区間判定部51に入力され、この区間判定部51には、出力用システム音声生成部32からシステム音声を放音中であるか否かを示すエコー有無信号も入力される。区間判定部51は入力された特徴ベクトル系列およびエコー有無信号により現在の入力信号が周囲(背景)雑音信号のみの雑音区間または周囲(背景)雑音信号およびエコー信号を含む雑音・エコー区間かあるいは周囲雑音信号もしくはこれとエコー信号とが重畳された雑音重畳音声信号の音声区間のいずれであるかが判定される。例えばステップS2の後、区間判定結果が音声区間であるか否かが判定され(ステップS11)、音声区間でなければ雑音区間か否かが判定される(ステップS12)。
[Second Embodiment]
An example of the functional configuration of the second embodiment of the present invention is shown in FIG. 5, and an example of the processing procedure is shown in FIG. Differences from the first embodiment will be described.
The feature vector series from the feature
雑音区間と判定された判定結果出力によりスイッチ52が端子52Sに切り替えられ、特徴ベクトル抽出部36よりの特徴ベクトル系列が雑音モデル学習部53に入力され、雑音モデル学習部53は入力された特徴ベクトル系列に基づき雑音およびエコー抑圧処理された周囲雑音信号と対応する雑音HMMを学習する(ステップS13)。
雑音・エコー区間と判定された判定結果出力によりスイッチ52が端子52Eに切り替えられ、特徴ベクトル抽出部36よりの特徴ベクトル系列が雑音・エコーモデル学習部54に入力され、雑音・エコー学習部54は入力された特徴ベクトル系列に基づき雑音およびエコー抑圧処理された周囲雑音信号とエコー信号の重畳信号と対応する雑音・エコーHMMを学習する(ステップS14)。
雑音モデル学習部53よりの雑音HMMと、雑音・エコーモデル学習部54よりの雑音・エコーモデルとがモデル合成部55に入力され、これらとクリーン音声モデルメモリ41よりのクリーン音声HMMとがそれぞれ合成されて雑音重畳音声HMMが生成され、雑音重畳音声モデルメモリ43へ格納され、またはその記憶内容の更新が行われる(ステップS15)。
音声区間と判定された判定結果出力によりスイッチ52が端子52Sに切り替えられ、特徴ベクトル抽出部36からの特徴ベクトル系列が尤度計算部44へ入力される。その他は第1実施形態と同一である。
The noise HMM from the noise
この構成によれば、利用者がシステム音声が放音されていない状態で発声した場合は、雑音HMMとクリーン音声HMMとを合成した雑音重畳音声HMMを用いた尤度が高くなり、利用者がシステム音声が放音されている状態で発声した場合は、雑音・エコーHMMとクリーン音声HMMとを合成した雑音重畳音声HMMを用いた尤度が高くなり、入力信号と認識用のモデルとがより合致するため、より高い認識率が得られる。
[変形例]
第1実施形態および第2実施形態では入力信号をエコー抑圧処理した後、雑音抑圧処理を行い、更に残留エコー抑圧処理を行ったが、図3〜図6中に破線で示すように、残留エコー抑圧は省略してもよい。この場合はこれら図中に括弧書きで示すように、雑音抑圧処理を先に行い、その後、エコー抑圧処理を行ってもよい。
According to this configuration, when the user utters in a state where the system voice is not emitted, the likelihood using the noise superimposed voice HMM obtained by synthesizing the noise HMM and the clean voice HMM is increased, and the user can When the system voice is uttered, the likelihood of using the noise superimposed voice HMM synthesized from the noise / echo HMM and the clean voice HMM becomes high, and the input signal and the recognition model are more reliable. Since they match, a higher recognition rate can be obtained.
[Modification]
In the first and second embodiments, the input signal is subjected to echo suppression processing, noise suppression processing is performed, and residual echo suppression processing is then performed. As shown by broken lines in FIGS. Suppression may be omitted. In this case, as shown in parentheses in these drawings, noise suppression processing may be performed first, and then echo suppression processing may be performed.
雑音抑圧法としては、例えば特許第3309895号公報、特許第3454402号公報、特許第3459363号公報などに示すように、入力信号を周波数領域信号に変換し、複数の周波数帯域に分割し、これら分割された周波数帯域ごとに雑音成分を推定しながら入力信号の対応周波数帯域の信号に対し雑音抑圧を行うようにしてもよい。このようにすれば、ある帯域について認識対象音声信号を必要以上に抑圧したり、逆に雑音抑圧が不十分であったりするおそれが少なくなり、S/Nが改善され、それだけ高い認識率が得られることになる。 As a noise suppression method, as shown in, for example, Japanese Patent No. 3309895, Japanese Patent No. 3454402, Japanese Patent No. 3459363, etc., an input signal is converted into a frequency domain signal and divided into a plurality of frequency bands. Noise suppression may be performed on the signal in the corresponding frequency band of the input signal while estimating the noise component for each frequency band. In this way, the possibility that the recognition target speech signal is suppressed more than necessary for a certain band or that noise suppression is insufficient is reduced, S / N is improved, and a higher recognition rate is obtained. Will be.
エコー抑圧法および残留エコー抑圧法も周波数領域に変換して行うとより有効である。またモデルとしてはHMMに限らず他の確率モデルでもよい。
図3及び図5に示した装置をコンピュータにより機能させてもよい。この場合は図4又は図6に示した処理手順の各過程をコンピュータに実行させるための音声認識プログラムを、コンピュータにCD−ROM、磁気ディスク装置、半導体記憶装置などの記録媒体からインストールし、あるいは通信回線を介してダウンロードして、このプログラムをコンピュータに実行させればよい。
The echo suppression method and the residual echo suppression method are also more effective when converted into the frequency domain. Further, the model is not limited to the HMM, and other probability models may be used.
The apparatus shown in FIGS. 3 and 5 may be operated by a computer. In this case, a voice recognition program for causing a computer to execute the steps of the processing procedure shown in FIG. 4 or FIG. 6 is installed in a computer from a recording medium such as a CD-ROM, a magnetic disk device, or a semiconductor storage device, or The program may be downloaded via a communication line and executed by a computer.
Claims (6)
上記マイクロホンよりの入力信号中の、上記スピーカからの放音信号成分(以下エコー信号という)を、上記スピーカへの供給信号を用いて抑圧し、かつ上記入力信号中の周囲雑音信号を抑圧する雑音・エコー抑圧ステップと、
上記エコー信号および周囲雑音信号が抑圧された信号を特徴ベクトル系列に変換する特徴ベクトル抽出ステップと、
上記特徴ベクトル系列が認識対象の音声信号を含む音声区間のものか、周囲雑音信号のみの雑音区間のものか、上記周囲雑音信号及び上記エコー信号とが存在する雑音・エコー区間のものかのいずれであるかを判定する区間判定ステップと、
上記区間判定ステップで雑音区間であると判定した上記特徴ベクトル系列を用いて雑音モデルを学習する雑音モデル学習ステップと、
上記区間判定ステップで雑音・エコー区間であると判定された上記特徴ベクトル系列を用いて雑音・エコーモデルを学習する雑音エコーモデル学習ステップと、
上記雑音モデルおよび上記雑音・エコーモデルと、雑音信号やエコー信号がないクリーンな音声データを用いて予め作成されたクリーン音声モデルとをそれぞれ合成して雑音重畳音声モデルを生成する雑音重畳音声モデル合成ステップと、
上記区間判定ステップで音声区間と判定された上記特徴ベクトル系列と上記雑音重畳音声モデルとを用いて認識カテゴリに対する尤度を計算する尤度計算ステップと、
上記計算された尤度に基づき、認識結果を出力する出力ステップと
を有することを特徴とする音声認識方法。 A speech recognition method for performing speech recognition using a probability model for a sound signal collected by the microphone in a device that collects an acoustic signal by a microphone and emits the acoustic signal from a speaker,
Noise that suppresses a sound emission signal component (hereinafter referred to as echo signal) from the speaker in the input signal from the microphone by using a supply signal to the speaker and suppresses an ambient noise signal in the input signal.・ Echo suppression step,
A feature vector extracting step of converting the signal in which the echo signal and the ambient noise signal are suppressed into a feature vector sequence;
The feature vector sequence is either a speech section including a speech signal to be recognized, a noise section of only an ambient noise signal, or a noise / echo section in which the ambient noise signal and the echo signal exist. An interval determining step for determining whether or not
A noise model learning step of learning a noise model using the feature vector sequence determined to be a noise interval in the interval determination step;
A noise echo model learning step of learning a noise / echo model using the feature vector sequence determined to be a noise / echo interval in the interval determination step;
Noise superimposed speech model synthesis that generates a noise superimposed speech model by combining the noise model and the noise / echo model with a clean speech model created in advance using clean speech data that does not contain noise signals or echo signals Steps,
A likelihood calculating step of calculating a likelihood for a recognition category using the feature vector sequence determined as a speech section in the section determining step and the noise-superimposed speech model;
An output step for outputting a recognition result based on the calculated likelihood.
上記マイクロホンよりの入力信号および上記スピーカへの供給信号が入力され、上記入力信号中の上記放音信号成分(以下エコー信号という)を抑圧し、かつ上記入力信号中の周囲雑音信号を抑圧する雑音・エコー抑圧部と、
上記エコー信号および上記周囲雑音信号が抑圧された入力信号が入力され、その信号を特徴ベクトル系列に変換する特徴ベクトル抽出部と、
上記特徴ベクトル系列および上記スピーカへ放音信号を供給しているか否かを示す信号が入力され、その特徴ベクトル系列が認識対象音声信号を含む音声区間のものか、周囲雑音信号のみの雑音区間のものか、上記エコー信号および上記周囲雑音を含む雑音・エコー区間のもののいずれであるかを判定する区間判定部と、
上記特徴ベクトル系列および上記判定結果出力が入力され、その判定結果出力に応じて上記特徴ベクトル系列を3系列に分離出力するスイッチと、
上記スイッチにより分離された上記雑音区間の特徴ベクトル系列が入力され、この特徴ベクトル系列について雑音モデルを学習する雑音モデル学習部と、
上記スイッチにより分離された上記雑音・エコー区間の特徴ベクトル系列が入力され、この特徴ベクトルについて、雑音・エコーモデルを学習する雑音・エコーモデル学習部と、
雑音のないクリーンな音声データを基に作成されたクリーン音声モデルを記憶するクリーン音声モデルメモリと、
上記雑音モデル、上記雑音エコーモデルおよび上記クリーン音声モデルが入力され、雑音モデルおよび雑音エコーモデルとクリーン音声モデルとをそれぞれ合成して雑音重畳音声モデルを生成するモデル合成部と、 上記雑音重畳音声モデルが記憶される雑音重畳音声モデルメモリと、
上記スイッチにより分離された音声区間の特徴ベクトル系列および上記雑音重畳音声モデルが入力され、その特徴ベクトル系列の各認識カテゴリに対する尤度をその雑音重畳音声モデルに基づき計算する尤度計算部と、
上記各認識カテゴリごとの尤度が入力され、認識結果を出力する認識結果出力部と
を具備することを特徴とする音声認識装置。 A speech recognition device that is used for a device that collects an acoustic signal by a microphone and emits an acoustic signal from a speaker, and that recognizes the speech signal collected by the microphone using a probability model,
Noise that receives an input signal from the microphone and a supply signal to the speaker, suppresses the sound emission signal component (hereinafter referred to as echo signal) in the input signal, and suppresses an ambient noise signal in the input signal・ Echo suppression part,
A feature vector extraction unit that receives an input signal in which the echo signal and the ambient noise signal are suppressed, and converts the signal into a feature vector sequence;
The feature vector sequence and a signal indicating whether or not a sound emission signal is supplied to the speaker are input, and the feature vector sequence is of a speech section including a recognition target speech signal or of a noise section of only ambient noise signals. A section determination unit that determines whether the one is a noise / echo section including the echo signal and the ambient noise,
A switch that receives the feature vector series and the determination result output and separates and outputs the feature vector series into three series according to the determination result output;
A noise model learning unit that receives a feature vector sequence of the noise section separated by the switch and learns a noise model for the feature vector sequence;
A feature vector sequence of the noise / echo section separated by the switch is input, and for this feature vector, a noise / echo model learning unit for learning a noise / echo model,
A clean speech model memory for storing a clean speech model created based on clean speech data without noise, and
The noise model, the noise echo model, and the clean speech model are input, and the noise synthesis model that generates the noise superimposed speech model by synthesizing the noise model and the noise echo model and the clean speech model, and the noise superimposed speech model A noise superimposed speech model memory in which is stored,
A likelihood calculation unit that receives the feature vector sequence of the speech section separated by the switch and the noise superimposed speech model, and calculates the likelihood for each recognition category of the feature vector sequence based on the noise superimposed speech model;
A speech recognition apparatus, comprising: a recognition result output unit that receives a likelihood for each recognition category and outputs a recognition result.
上記エコー部の出力信号が入力され、上記エコー信号が抑圧された入力信号中の周囲雑音信号を抑圧する雑音部と、
上記雑音部の出力信号および上記スピーカへの供給信号が入力され、上記エコー信号および周囲雑音信号が抑圧された入力信号中の残留している上記エコー信号を抑圧する残留エコー部とを備えることを特徴とする請求項3に記載の音声認識装置。 The noise / echo suppression unit receives an input signal and a supply signal to the speaker, and an echo unit that suppresses an echo signal in the input signal;
An output signal of the echo part is input, and a noise part for suppressing an ambient noise signal in the input signal in which the echo signal is suppressed;
An output signal of the noise unit and a supply signal to the speaker are input, and a residual echo unit that suppresses the remaining echo signal in the input signal in which the echo signal and the ambient noise signal are suppressed. The speech recognition apparatus according to claim 3, wherein
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004179723A JP4313728B2 (en) | 2004-06-17 | 2004-06-17 | Voice recognition method, apparatus and program thereof, and recording medium thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004179723A JP4313728B2 (en) | 2004-06-17 | 2004-06-17 | Voice recognition method, apparatus and program thereof, and recording medium thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006003617A JP2006003617A (en) | 2006-01-05 |
JP4313728B2 true JP4313728B2 (en) | 2009-08-12 |
Family
ID=35772054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004179723A Expired - Fee Related JP4313728B2 (en) | 2004-06-17 | 2004-06-17 | Voice recognition method, apparatus and program thereof, and recording medium thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4313728B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9224392B2 (en) | 2011-08-05 | 2015-12-29 | Kabushiki Kaisha Toshiba | Audio signal processing apparatus and audio signal processing method |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4729534B2 (en) * | 2007-05-25 | 2011-07-20 | 日本電信電話株式会社 | Reverberation apparatus, dereverberation method, dereverberation program, and recording medium thereof |
JP4532576B2 (en) | 2008-05-08 | 2010-08-25 | トヨタ自動車株式会社 | Processing device, speech recognition device, speech recognition system, speech recognition method, and speech recognition program |
JP5550456B2 (en) * | 2009-06-04 | 2014-07-16 | 本田技研工業株式会社 | Reverberation suppression apparatus and reverberation suppression method |
JP5156043B2 (en) * | 2010-03-26 | 2013-03-06 | 株式会社東芝 | Voice discrimination device |
US9245524B2 (en) | 2010-11-11 | 2016-01-26 | Nec Corporation | Speech recognition device, speech recognition method, and computer readable medium |
-
2004
- 2004-06-17 JP JP2004179723A patent/JP4313728B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9224392B2 (en) | 2011-08-05 | 2015-12-29 | Kabushiki Kaisha Toshiba | Audio signal processing apparatus and audio signal processing method |
Also Published As
Publication number | Publication date |
---|---|
JP2006003617A (en) | 2006-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9009048B2 (en) | Method, medium, and system detecting speech using energy levels of speech frames | |
US8024184B2 (en) | Speech recognition device, speech recognition method, computer-executable program for causing computer to execute recognition method, and storage medium | |
JP6077957B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
EP4004906A1 (en) | Per-epoch data augmentation for training acoustic models | |
JP6261043B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
WO2010096272A1 (en) | Speech processing with source location estimation using signals from two or more microphones | |
JP2015018015A (en) | Voice processing apparatus, voice processing method and voice processing program | |
O'Malley et al. | A conformer-based asr frontend for joint acoustic echo cancellation, speech enhancement and speech separation | |
JP4705414B2 (en) | Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium | |
JP2012189907A (en) | Voice discrimination device, voice discrimination method and voice discrimination program | |
JP2004325897A (en) | Apparatus and method for speech recognition | |
JP2004279466A (en) | System and method for noise adaptation for speech model, and speech recognition noise adaptation program | |
JP2007065204A (en) | Reverberation removing apparatus, reverberation removing method, reverberation removing program, and recording medium thereof | |
US8423360B2 (en) | Speech recognition apparatus, method and computer program product | |
JP2009003008A (en) | Noise-suppressing device, speech recognition device, noise-suppressing method and program | |
JP4313728B2 (en) | Voice recognition method, apparatus and program thereof, and recording medium thereof | |
JP2007156364A (en) | Device and method for voice recognition, program thereof, and recording medium thereof | |
JP5301037B2 (en) | Voice recognition device | |
JP4858663B2 (en) | Speech recognition method and speech recognition apparatus | |
JP2019020678A (en) | Noise reduction device and voice recognition device | |
JP2008216488A (en) | Voice processor and voice recognition device | |
JP3510458B2 (en) | Speech recognition system and recording medium recording speech recognition control program | |
JP4464797B2 (en) | Speech recognition method, apparatus for implementing the method, program, and recording medium therefor | |
JP5200080B2 (en) | Speech recognition apparatus, speech recognition method, and program thereof | |
JP2005321539A (en) | Voice recognition method, its device and program and its recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060725 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090403 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090507 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090515 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120522 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130522 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140522 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |