JP2006072127A - Voice recognition device and voice recognition method - Google Patents
Voice recognition device and voice recognition method Download PDFInfo
- Publication number
- JP2006072127A JP2006072127A JP2004257390A JP2004257390A JP2006072127A JP 2006072127 A JP2006072127 A JP 2006072127A JP 2004257390 A JP2004257390 A JP 2004257390A JP 2004257390 A JP2004257390 A JP 2004257390A JP 2006072127 A JP2006072127 A JP 2006072127A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- speech
- time frame
- subtraction
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、居室内など残響のある環境において、利用者の入力した音声を認識する音声認識装置及び音声認識方法に関するものである。 The present invention relates to a speech recognition apparatus and a speech recognition method for recognizing speech input by a user in a reverberant environment such as a living room.
音声認識技術は、優れたヒューマンインターフェースを具現する上で重要な役割を担っている。音声認識技術を適用した音声認識装置としては図7に示すような構成の装置が従来提供されている(例えば特許文献1)。 Speech recognition technology plays an important role in realizing an excellent human interface. As a voice recognition apparatus to which the voice recognition technology is applied, an apparatus having a configuration as shown in FIG. 7 is conventionally provided (for example, Patent Document 1).
この音声認識装置は、音声を入力するマイクロフォンからなる音声入力部1と、音声入力部1からの出力信号をA/D変換するA/D変換部2と、A/D変換部2からの出力信号を周波数変換する周波数変換部3と、周波数変換部3からの出力信号から音声の特徴量を抽出する音声特徴量抽出部4と、標準音声から作成された音声認識用の標準パターンを記憶している標準パターン記憶部7と、音声特徴量抽出部4から出力される入力音声の音声特徴量と標準パターン記憶部7に記憶されている標準パターンとの類似度を計算して認識結果6を出力するパターン照合部5とから構成されており、標準パターン記憶部7に記憶させる標準パターンは、予め標準音声の特徴パターンを収集し、これを隠れマルコフモデルなどのモデル化手法を用いて作成したものが用いられている。
The speech recognition apparatus includes a
ところで、装置の使用環境と標準パターンを作成したときの環境が異なる場合に、利用者の音声と標準パターンとの間に相違が生じることにより、認識率が低下するという問題があるため、特許文献1に開示されている音声認識装置では環境の残響時間に応じた複数の標準パターンを標準パターン記憶部7に記憶しておき、環境に応じて標準パターンを選択して使用するようになっている。
By the way, when the environment in which the device is used and the environment in which the standard pattern is created are different, there is a problem that the recognition rate decreases due to a difference between the user's voice and the standard pattern. In the speech recognition apparatus disclosed in No. 1, a plurality of standard patterns corresponding to the reverberation time of the environment are stored in the standard
また、入力音声を分析することにより、環境の逆フィルタを推定し、入力音声を環境の影響をうけていない状態に変換してから認識する音声認識装置も提供されている(例えば非特許文献1)
特許文献1に開示されている音声認識装置のような、複数の標準パターンを使用する方式では、複数の標準パターンを保持するためにメモリ容量が増加するという問題がある。音声認識装置では、メモリ容量全体に占める標準パターンの割合が大きいので、複数の標準パターンを用意すると、全体のメモリ容量が倍増するという問題がある。
In a method using a plurality of standard patterns, such as the speech recognition apparatus disclosed in
また非特許文献1に開示されている、環境の逆フィルタを入力音声から推定する手法は、十分に精度良く逆フィルタを推定するためには、大量の入力音声が必要となる。しかしながら、環境の特性はユーザーの位置変化や、室内の温度変化により変化するので、環境の特性が一定な期間内に必要な入力音声データ量を得ることは難しいので、結果として不安定な逆フィルタが学習され、十分な認識性能を得ることは困難である。
Further, the method of estimating the inverse filter of the environment from the input speech disclosed in Non-Patent
本発明は上述の点に鑑みて為されたもので、その目的とするところはハードウェア資源の大幅な増加を伴わず、また実環境での不安定性の少ない特徴をもった、様々な環境で高い認識性能が得られる音声認識装置方法及び音声認識方法を提供することにある。 The present invention has been made in view of the above-mentioned points, and the object of the present invention is not to involve a significant increase in hardware resources, and in various environments having features of less instability in a real environment. An object of the present invention is to provide a speech recognition apparatus method and speech recognition method that can obtain high recognition performance.
上述の目的を達成するために、請求項1の音声認識装置の発明では、残響環境下で音声を捉える音声入力部と、該音声入力部からの出力信号をA/D変換するA/D変換部と、該A/D変換部からの出力信号を周波数変換して現在の時間フレームの観測信号を出力する周波数変換部と、過去の所定時間フレームの観測信号を記憶し、現在の時間フレームの観測信号から、前記過去の所定時間フレームの観測信号に所定の減算係数を乗じて得られた信号を減算して推定信号として出力する減算処理部と、該減算処理部から出力される推定信号から音声の特徴量を抽出する音声特徴量抽出部と、残響時間が異なる環境下での標準音声から作成された標準パターンを記憶している標準パターン記憶部と、前記音声特徴量抽出部から抽出された特徴量と前記標準パターン記憶部で記憶している標準パターンとのとの類似度を求めて認識結果を出力するパターン照合部とを備えていることを特徴とする。
In order to achieve the above object, in the invention of the speech recognition apparatus according to
請求項1の音声認識装置の発明によれば、複数の標準パターンを記憶する必要がなくなって容量の大きな標準パターン記憶部を必要とせず、しかも残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、様々な環境において高い性能で音声認識が行える音声認識装置を実現できる。 According to the speech recognition device of the first aspect of the present invention, it is not necessary to store a plurality of standard patterns, so that a large-capacity standard pattern storage unit is not required, and a delay is caused by reverberation from speech components captured in a reverberant environment. Since the speech feature amount can be extracted from the estimated signal having the same quality as that of the standard pattern by removing the speech component, it is possible to realize a speech recognition apparatus capable of performing speech recognition with high performance in various environments.
請求項2の音声認識装置では、残響環境下で音声を捉える音声入力部と、該音声入力部からの出力信号をA/D変換するA/D変換部と、該A/D変換部からの出力信号を周波数変換して現在の時間フレームの観測信号を出力する周波数変換部と、現在の時間フレームの観測信号から、過去の所定時間フレームに対応する所定の信号に所定の減算係数を乗じて得られた信号を減算して推定信号として出力し、且つ前記所定の信号に用いる信号として前記推定信号を記憶する減算処理部と、該減算処理部から出力される前記推定信号から音声の特徴量を抽出する音声特徴量抽出部と、残響時間が異なる環境下での標準音声から作成された標準パターンを記憶している標準パターン記憶部と、前記音声特徴量抽出部から抽出された特徴量と前記標準パターン記憶部で記憶している標準パターンとのとの類似度を求めて認識結果を出力するパターン照合部とを備えていることを特徴とする。
In the speech recognition device according to
請求項2の音声認識装置の発明によれば、複数の標準パターンを記憶する必要がなくなって容量の大きな標準パターン記憶部を必要とせず、しかも残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、様々な環境において高い性能で音声認識が行え、特に減算に使用する過去の所定フレームまでの時間フレームに対応する信号がより正確となる音声認識装置を実現できる。 According to the speech recognition device of the second aspect of the present invention, it is not necessary to store a plurality of standard patterns, so that a large-capacity standard pattern storage unit is not required, and a delay is caused by reverberation from speech components captured in a reverberant environment. Speech features can be extracted from the estimated signal that has the same quality as the standard pattern by removing the speech component, so that speech recognition can be performed with high performance in various environments, especially up to past predetermined frames used for subtraction It is possible to realize a speech recognition apparatus in which a signal corresponding to the time frame is more accurate.
請求項3の音声認識装置の発明では、請求項1又は2の発明において、前記減算係数は、前記残響環境の伝達関数の1フレーム目の観測信号と所定フレーム目の観測信号のパワー比に所定の係数を乗じた値とすることを特徴とする。 According to a third aspect of the present invention, in the first or second aspect of the present invention, the subtraction coefficient is predetermined to a power ratio between the observation signal of the first frame and the observation signal of the predetermined frame of the transfer function of the reverberation environment. It is a value obtained by multiplying the coefficient of.
請求項3の音声認識装置の発明によれば、減数係数をより正確に導出することができ、その結果音声認識の性能を一層向上させることができる。 According to the speech recognition device of the third aspect, the reduction coefficient can be derived more accurately, and as a result, the performance of speech recognition can be further improved.
請求項4の音声認識装置の発明では、請求項1乃至3の何れかの発明において、減算に使用する前記過去の所定時間フレームが複数のフレームであって、各所定時間フレームの信号に対して夫々の所定時間フレームに対応する所定の減算係数を乗じるとともに乗じた結果を加算して該加算結果を現在の時間フレームの観測信号から減算することを特徴とする。 According to a fourth aspect of the present invention, there is provided the speech recognition apparatus according to any one of the first to third aspects, wherein the predetermined frame in the past used for subtraction is a plurality of frames, and a signal of each predetermined time frame is obtained. Multiplying a predetermined subtraction coefficient corresponding to each predetermined time frame, adding the multiplied results, and subtracting the addition result from the observation signal of the current time frame.
請求項4の音声認識装置の発明によれば、様々な遅れ時間で到来する音声の遅れ成分に対しても、より正確に残響抑圧が行え、その結果音声認識の性能を更に向上させることができる。
According to the invention of the speech recognition apparatus of
請求項5の音声認識装置の発明では、請求項1乃至4の何れかの発明において、前記減算処理部は、減算処理においてスムージングにより残響の揺らぎを緩和する機能を備えたことを特徴とする。 According to a fifth aspect of the present invention, there is provided a voice recognition apparatus according to any one of the first to fourth aspects, wherein the subtraction processing unit has a function of mitigating fluctuations of reverberation by smoothing in the subtraction processing.
請求項5の音声認識装置の発明によれば、残響の揺らぎを緩和させることができ、その結果音声認識の性能を向上させることができる。 According to the speech recognition device of the fifth aspect, fluctuation of reverberation can be reduced, and as a result, speech recognition performance can be improved.
請求項6の音声認識装置の発明では、請求項1乃至3の何れかの発明において、前記減算処理部は、前記推定信号の出力に対して前記過去の所定時間 フレームを一つ用いる場合、減算処理を行う周波数帯毎又は周波数毎に前記過去の所定時間フレームを選択することを特徴とする。 According to a sixth aspect of the present invention, in the first to third aspects of the invention, the subtraction processing unit subtracts when one of the past predetermined time frames is used for the output of the estimated signal. The past predetermined time frame is selected for each frequency band or frequency for processing.
請求項6の音声認識装置の発明によれば、周波数によって遅れ時間が異なる遅れ成分に対してもより正確に残響抑圧が行え、その結果音声認識の性能を向上させることができる。
According to the invention of the speech recognition apparatus of
請求項7の音声認識方法の発明では、残響環境下で捉えた音声の特徴量と、標準音声から作成した標準パターンとの類似度を求めて認識結果を得る音声認識方法であって、残響環境下で捉えた音声信号を周波数変換する過程と、周波数変換されて得られた現在の時間フレームの観測信号から、過去の所定時間フレームの観測信号に所定の減算係数を乗じて得られる信号を減算して推定信号を得る過程と、前記推定信号から音声の特徴量を抽出する過程と、該抽出した特徴量と前記標準パターンとの類似度から音声認識を行う過程とを有することを特徴とする。
The speech recognition method according to
請求項7の音声認識方法の発明によれば、残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、ハードウェアの大幅な増加を伴うことなく、様々な環境で音声認識の性能の向上が図れる。 According to the speech recognition method of the present invention, the speech feature amount is extracted from the estimated signal having the same quality as the standard pattern by removing the speech component delayed by the reverberation from the speech component captured in the reverberant environment. Therefore, it is possible to improve the performance of voice recognition in various environments without significantly increasing hardware.
請求項8の音声認識方法の発明では、残響環境下で捉えた音声の特徴量と、標準音声から作成した標準パターンとの類似度を求めて認識結果を得る音声認識方法であって、残響環境下で捉えた音声信号を周波数変換する過程と、周波数変換されて得られた現在の時間フレームの観測信号から、過去の所定時間フレームに対応する所定の信号に所定の減算係数を乗じて得られる信号を減算して推定信号を得、且つ前記所定の信号に用いる信号として前記推定信号を記憶する過程と、前記推定信号から音声の特徴量を抽出する過程と、該抽出した特徴量と前記標準パターンとの類似度から音声認識を行う過程とを有することを特徴とする。
The speech recognition method according to
請求項8の音声認識方法の発明によれば、残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、ハードウェアの大幅な増加を伴うことなく、様々な環境で音声認識の性能の向上が図れ、特に減算に使用する過去の所定フレームまでの時間フレームに対応する信号がより正確となる。 According to the speech recognition method of the present invention, the speech feature amount is extracted from the estimated signal having the same quality as the standard pattern by removing the speech component delayed by the reverberation from the speech component captured in the reverberant environment. Therefore, it is possible to improve speech recognition performance in various environments without significantly increasing hardware, and in particular, signals corresponding to time frames up to a predetermined frame used for subtraction become more accurate. .
音声認識装置の発明は、数の標準パターンを記憶する必要がなくなって容量の大きな標準パターン記憶部を必要とせず、しかも残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、様々な環境において高い性能で音声認識が行える音声認識装置を実現できるという効果がある。 The invention of the speech recognition apparatus eliminates the need for storing a number of standard patterns, eliminates the need for a large-capacity standard pattern storage unit, and eliminates speech components delayed by reverberation from speech components captured in a reverberant environment. Thus, it is possible to extract a voice feature amount from an estimated signal having the same quality as that of the standard pattern, so that it is possible to realize a voice recognition device that can perform voice recognition with high performance in various environments.
また音声認識方法の発明は、残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、ハードウェアの大幅な増加を伴うことなく、様々な環境で音声認識の性能の向上が図れる。 In addition, the invention of the speech recognition method can extract a speech feature amount from an estimated signal having the same quality as a standard pattern by removing a speech component delayed by reverberation from a speech component captured in a reverberant environment. The voice recognition performance can be improved in various environments without a significant increase in wear.
以下本発明を実施形態により説明する。 Embodiments of the present invention will be described below.
(実施形態1)
図1は本実施形態の構成を示しており、本実施形態では、周波数変換部3で周波数変換された観測信号Y(f,m)を所定フレームまでの過去の時間フレーム、例えばLフレーム分、つまりY(f,m−1)〜Y(f,m−L)まで記憶する信号記憶部8と、この信号記憶部8で記憶されているL個の過去の観測信号Y(f,m−1)〜Y(f,m−L)夫々に対応するL個の減算係数α1〜αLを記憶している減算係数記憶部9と、信号記憶部8に記憶している過去の各観測信号Y(f,m−1)〜Y(f,m−L)に、減算係数記憶部9に記憶している夫々の観測信号観測信号Y(f,m−1)〜Y(f,m−L)に対応する減算係数α1〜αLを乗じ、その乗じて得られた信号を、周波数変換部3から出力されている現在の時間フレームの観測信号から減算することでパワースペクトルの減算を行う減算部10とを減算処理部として備え、減算部10から出力される減算結果を、音声特徴量を抽出する推定信号として音声特徴量抽出部4へ出力する点に特徴がある。
(Embodiment 1)
FIG. 1 shows the configuration of this embodiment. In this embodiment, the observed signal Y (f, m) frequency-converted by the
信号記憶部8は周波数変換部3から出力される観測信号を上述のようにLフレーム分記憶するもので、観測信号が入力されるたびに最も旧いフレームの観測信号を消去して新たなフレームの観測信号を記憶するようになっている。
The
尚マイクロフォンからなる音声入力部1は従来例と同様に残響環境下で音声を捉え、音声入力部1から出力される音声信号はA/D変換部2でA/D変換された後周波数変換部3で周波数変換されるようになっている。
The
またパターン照合部5は音声特徴量抽出部4で抽出された音声特徴量と、標準パターン記憶部7で記憶されている標準音声の標準パターンとの類似度を求めて類似度に対応した認識結果6を出力するようになっている。標準パターン記憶部7は複数の環境下での標準パターンを記憶するのではなく、一つの標準音声による音声パターンを記憶しているのみで、従来例のように複数の標準パターンを記憶する場合に比して大幅に少ない記憶容量のメモリで構成している。
The
次に本実施形態の動作を説明する。 Next, the operation of this embodiment will be described.
まず、ユーザーは、装置が利用される環境におけるユーザー位置からマイクロフォンたる音声入力部1までの伝達関数を測定する。図2は伝達関数h(t)のその測定の結果例を示している。
First, the user measures a transfer function from the user position in the environment where the apparatus is used to the
次に、例えば式(1)のようなのフレーム間のパワー比に所定の定数βを乗算した値をαpとする。ここで、窓幅Wは例えば周波数変換部3での窓長と同じ値とし、窓のシフト幅(図2ではt=0からt=T1までの幅)も同様に周波数変換部3での窓シフト幅と同じ値とする。
Next, for example, a value obtained by multiplying the power ratio between frames as shown in Expression (1) by a predetermined constant β is α p . Here, the window width W is set to the same value as the window length in the
図3は求まったαpの値と各フレームとの関係例を示す。 FIG. 3 shows an example of the relationship between the obtained α p value and each frame.
以上のように算出されたαpを、予め減算係数記憶部9に記憶させておくのである。この記憶させる手段には適宜な手段を用いれば良いのでここでは省略する。
The α p calculated as described above is stored in the subtraction
上述のように算出されたαpを減算係数記憶部9にLフレーム分(α1〜αL)記憶させて準備が完了することになる。
The α p calculated as described above is stored in the subtraction
さて本実施形態の音声認識装置が入力音声の認識を行う動作は次の通りである。今既にLフレーム分の過去の観測信号Y(f,m−1)〜Y(f,m−L)が信号記憶部8に記憶されている状態において、現在の時間フレームに対応する観測信号Y(f,m)が減算部10に入力すると、減算部10は信号記憶部8に対して観測信号Y(f,m−1)〜Y(f,m−L)を順次読み出すとともに減算係数記憶部9からLフレーム分の減算係数α1〜αLを読み出し、例えば式(2−1)のようなパワースペクトル領域での減算処理を行い、推定信号Sest(f,m)を出力する。
Now, the operation of the speech recognition apparatus of this embodiment for recognizing input speech is as follows. In the state where the past observation signals Y (f, m−1) to Y (f, m−L) for L frames are already stored in the
尚、減算した結果(式(2−2)で示す)が負の値となった場合には、式(3)のようなフロアリング処理、あるいは式(4)のように零信号として処理しても良い。 If the result of subtraction (shown by equation (2-2)) becomes a negative value, flooring processing as in equation (3) or zero signal as in equation (4) is performed. May be.
Sest(f,m)=Y(f,m)×0.5 …(3)
Sest(f,m)=Y(f,m)×0 …(4)
以上のように本実施形態の音声認識装置では、信号記憶部8、減算係数記憶部9、減算部10からなる減算処理部を有するので、壁や床などに反射することにより遅延して音声入力部1に入力される音声の成分を、観測信号から除去することができ、そのため減算処理によって減算部10から出力される推定信号が標準パターンと同質になり、この推定信号から音声特徴量抽出部4で抽出した特徴量と標準音声による標準パターンとの類似度をパターン照合部5で計算してその結果に基づいて出力する認識結果6が高い認識率によって得られ、装置としての音声認識の性能が向上する。
Set (f, m) = Y (f, m) × 0.5 (3)
Set (f, m) = Y (f, m) × 0 (4)
As described above, the speech recognition apparatus according to the present embodiment includes the subtraction processing unit including the
また、複数のフレームによって減算処理を行うので、床や壁など様々な反射経路による複数の遅延成分に対応することができ、より認識性能の向上が得られる。 In addition, since the subtraction process is performed by a plurality of frames, it is possible to cope with a plurality of delay components due to various reflection paths such as a floor and a wall, and the recognition performance can be further improved.
更にまた、減算係数αpを伝達関数から算出しているので、より正確な減算処理を行うことができ、その結果認識性能が向上する。 Furthermore, since the subtraction coefficient α p is calculated from the transfer function, more accurate subtraction processing can be performed, resulting in improved recognition performance.
尚αpは音声認識装置が実際に使用される環境下で測定した伝達関数に基づいて上述のように算出しているが、例えば音声認識装置が利用されうる複数の環境下において算出したαpの平均値としても良い。 Note that α p is calculated as described above based on the transfer function measured in an environment where the speech recognition apparatus is actually used. For example, α p calculated in a plurality of environments where the speech recognition apparatus can be used. It is good also as an average value.
また減算処理により得られる推定信号を逆周波数変換すると、残響感の減少した音声信号を得ることができるので、音声認識装置以外にもハンズフリー電話やインターホンなどに応用できる。
(実施形態2)
本実施形態は、実施形態1の構成に加え、図4に示すように信号記憶部8と減算部10の間に信号記憶部8に記憶している過去のフレームの観測信号Y(f,m−p)を周波数軸方向への平滑化を行うフィルタ部11を設けた点に特徴がある。
Further, if the estimated signal obtained by the subtraction process is subjected to inverse frequency conversion, an audio signal with reduced reverberation can be obtained, so that it can be applied to hands-free telephones, intercoms, etc. in addition to the voice recognition device.
(Embodiment 2)
In the present embodiment, in addition to the configuration of the first embodiment, as shown in FIG. 4, past frame observation signals Y (f, m) stored in the
その他の構成は実施形態1と同じであるので、実施形態1と共通の構成要素には同一符号を付して、その共通の構成要素についての説明は省略する。 Since the other configuration is the same as that of the first embodiment, the same components as those of the first embodiment are denoted by the same reference numerals, and the description of the common components is omitted.
而して減算部10が、信号記憶部8に記憶されている過去のフレームの観測信号Y(f,m−p)の読み出しを行うと、前後の周波数に相当する信号Y(f−1,m−p)、Y(f+1,m−p)を信号記憶部8から読み出し、例えば式(5)に示すような平滑化処理を行った信号を減算部10に出力する。
Thus, when the
図5は音声信号が空間を伝わる際の周波数の様子を示しており、同図(a)は周波数の揺らぎがない場合を示し、同図(b)は壁等で音声が反射する際に、周波数が揺らぐ様子を示している場合を示す。 FIG. 5 shows the state of the frequency when the audio signal travels through the space. FIG. 5A shows the case where there is no frequency fluctuation, and FIG. 5B shows the case where the audio is reflected by a wall or the like. A case where the frequency fluctuates is shown.
図5(a)の(イ)に示すように、例えばKフレーム前にユーザーが発生した音声の周波数f0の要素(●印)が、空間を伝わり壁等の反射を経てKフレームの遅延を生じ、現在のフレームに減衰して混入されると、現在のフレームでは、図5(a)の(ロ)に示すようにユーザーの発生する音声の周波数f0の要素(▲印)が観測されているので、観測信号は両者が混合された音声となり、前述のような残響のある音声が観測される。 As shown in FIG. 5 (a) (i), for example, K frames before the speech user encounters a frequency f 0 of the elements (● mark) is a delay of K frames through the wall reflections, etc. transmitted spatial When the current frame is attenuated and mixed, an element (▲ mark) of the frequency f 0 of the voice generated by the user is observed in the current frame as shown in (b) of FIG. Therefore, the observation signal becomes a sound in which both are mixed, and the sound with reverberation as described above is observed.
一方壁等で音声が反射する際には、図5(b)の(イ)に示すように、Kフレーム前にユーザーが発生した音声の周波数f0の要素(●印)は、周波数の揺らぎにより、図5(b)の(ロ)に示すように、例えば現在のフレームの周波数f0−1の要素(△印)に混入されるが、フィルタ部11により上述した(5)式に基づいて平滑化処理するのである。
On the other hand, when the sound is reflected by a wall or the like, as shown in (b) of FIG. 5B, the element (● mark) of the frequency f 0 of the sound generated by the user before the K frame is the fluctuation of the frequency. Thus, as shown in (b) of FIG. 5B, for example, it is mixed in the element (Δ mark) of the frequency f 0 −1 of the current frame, but is based on the above-described equation (5) by the
尚減算部10の減算処理で得られた推定信号Sest(f,m)から認識結果を得るまでの処理動作は実施形態1と同じであるので、説明は省略する。
Note that the processing operation until the recognition result is obtained from the estimated signal Sest (f, m) obtained by the subtraction processing of the subtracting
以上のように本実施形態の音声認識装置では、残響による遅延成分が周波数軸方向に揺らいでいる場合においても、減算に用いる過去の時間フレームの観測信号Y(f,m−p)をフィルタ部11により平滑化してYave(f,m−p)とすることで、現在の観測信号Y(f,m)の周波数成分から遅延成分を減算部10で減算処理することが可能となり、その結果遅延成分を除去することができ、その結果認識性能が向上する。
(実施形態3)
上述の実施形態1では減算処理において過去の時間フレームの観測信号を使用しているが、観測信号の代わりに本実施形態は過去の推定信号を減算に用いる点に特徴がある。
As described above, in the speech recognition apparatus according to the present embodiment, even when the delay component due to reverberation fluctuates in the frequency axis direction, the observation signal Y (f, mp) of the past time frame used for subtraction is filtered. 11, the delay component can be subtracted by the subtracting
(Embodiment 3)
In the first embodiment described above, the observation signal of the past time frame is used in the subtraction process, but this embodiment is characterized in that the past estimated signal is used for subtraction instead of the observation signal.
つまり本実施形態では、図6に示すように減算部10での減算結果として出力される推定信号Sest(f,m)を音声特徴量抽出部4へ出力するとともに、信号記憶部8へも出力するようになっている。
That is, in the present embodiment, as shown in FIG. 6, the estimated signal Sest (f, m) output as the subtraction result in the
信号記憶部8は減算部10から出力される推定信号を過去Lフレーム分に渡って記憶しておき、減算部10からの読み出しに応じて順次出力するようになっている。
The
その他の構成には実施形態1と同じであるので、共通の構成要素には同一符号を付して、その共通の構成要素についての説明は省略する。 Since other configurations are the same as those of the first embodiment, common constituent elements are denoted by the same reference numerals, and description of the common constituent elements is omitted.
而して本実施形態の音声認識装置の減算部10では信号記憶部8から読み出した推定信号Sest(f,m−p)とともに対応して減算係数記憶部9から読み出す減算係数αpを用いて実施形態1の場合と同様な減算処理を行うのである。
Thus, the
このように減算部10での減算処理に使用する信号が、観測信号Y(f,m−p)ではなく反射による遅れ成分の取り除かれた推定信号Sest(f,m−p)になるので、本実施形態の音声認識装置では、より正確に遅れ成分だけを減算することができ、その結果認識性能が向上する。
Thus, since the signal used for the subtraction processing in the
尚本実施形態では初期においては信号記憶部8には過去の時間フレームに対応する推定信号Sest(f,m−p)が記憶されていない零信号で状態あるので、このときの減算結果はSest(f,m)=Y(f,m)×ejarg(Y(f,m)) となって、これが1フレーム前の推定信号Sest(f,m−p)として信号記憶部8に記憶されることになる。以後Lフレーム分の推定信号Sest(f,m−1)〜Sest(f,m−L)が記憶されるまで、推定信号が記憶されていない過去の時間フレームについては零信号が当該フレームの推定信号として用いられる。
In the present embodiment, initially, the
また本実施形態において、信号記憶部11から出力される推定信号Sest(f,m−p)に対して平滑処理するために実施形態2と同様なフィルタ部11を設けても良い。
(実施形態4)
まず、実施形態1において、減算処理に使用する過去の観測信号として1フレームだけを用いる場合には、減算処理部は、過去Kフレーム目の過去の観測信号Y(f,m−K)を用いて減算処理を行う。但し、Kは、1,2,…Lの何れか一つの値である。
In the present embodiment, a
(Embodiment 4)
First, in the first embodiment, when only one frame is used as the past observation signal used for the subtraction process, the subtraction processing unit uses the past observation signal Y (f, m−K) of the past K frame. To subtract. However, K is one of 1, 2,... L.
ここで、本実施形態では、周波数帯毎又は周波数毎に上述のKの値を変更する点が実 施形態1とは異なる箇所である。本実施形態では、例えば、Kとしてお互い異なるK1、K2、K3を選択する。
Here, in the present embodiment, the point where the above-described value K is changed for each frequency band or for each frequency is different from the first embodiment. In the present embodiment, for example, different K 1 , K 2 , and
そして、周波数0〜f1については、K1フレーム前の観測信号Y(0,m−K1)、
Y(1,m−K1)、…、Y(f1,m−K1)を信号記憶部8に記憶させる。また、周波数帯域f1+1〜f2についてはK2フレーム前の観測信号Y(f1+1,m−K2)、Y(f1+2,m−K2)、…、Y(f2,m−K2)を信号記憶部8に記憶させる。また、周波数f2+1についてはK3フレーム前の観測信号Y(f2+1,m−K3)を信号記憶部8に記憶させる。
For
Y (1, m−K 1 ),..., Y (f 1 , m−K 1 ) is stored in the
而して信号記憶部8は、周波数変換部3から周波数変換された信号を受信すると、周波数帯毎に所定の時間フレーム数だけ遅延させて各観測信号を上述のように記憶しておき、減算部10から読み出し信号を受信すると、記憶している観測信号を順次減算部10へ出力するのである。尚減衰係数記憶部9で記憶させる減衰係数も対応させる形で記憶させる。
Thus, when the
その他の構成及び動作は実施形態1と同じであるので、構成は図1を参照して説明は省略する。 Since other configurations and operations are the same as those of the first embodiment, the description of the configurations will be omitted with reference to FIG.
以上のように本実施形態の音声認識装置では、音声の反射等による遅れ成分に相当する信号を、周波数帯毎に遅れ量を変えて記憶しておくことができるので、周波数毎に異なる遅れ成分を精度良く減算することができ、その結果結果認識性能が向上する。 As described above, in the speech recognition apparatus according to the present embodiment, a signal corresponding to a delay component due to voice reflection or the like can be stored with a delay amount changed for each frequency band. Can be subtracted with high accuracy, and as a result, the recognition performance is improved.
尚減算係数αpと乗じる信号を観測信号Y(f,m−p)の代わりに実施形態3と同様に過去の所定フレームに対応する推定信号Sest(f.m−p)を用いるようにしても良い。 Note that the signal multiplied by the subtraction coefficient α p is used instead of the observation signal Y (f, m−p), as in the third embodiment, using the estimated signal Sest (f−m−p) corresponding to a past predetermined frame. Also good.
1 音声入力部
2 A/D変換部
3 周波数変換部
4 音声特徴量抽出部
5 パターン照合部
6 認識結果
7 標準パターン記憶部
8 信号記憶部8
9 減算係数記憶部9
10 減算部
DESCRIPTION OF
9 Subtraction
10 Subtraction part
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004257390A JP2006072127A (en) | 2004-09-03 | 2004-09-03 | Voice recognition device and voice recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004257390A JP2006072127A (en) | 2004-09-03 | 2004-09-03 | Voice recognition device and voice recognition method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006072127A true JP2006072127A (en) | 2006-03-16 |
Family
ID=36152806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004257390A Withdrawn JP2006072127A (en) | 2004-09-03 | 2004-09-03 | Voice recognition device and voice recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006072127A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012078422A (en) * | 2010-09-30 | 2012-04-19 | Roland Corp | Sound signal processing device |
US8645130B2 (en) | 2008-05-08 | 2014-02-04 | Toyota Jidosha Kabushiki Kaisha | Processing unit, speech recognition apparatus, speech recognition system, speech recognition method, storage medium storing speech recognition program |
CN112750461A (en) * | 2020-02-26 | 2021-05-04 | 腾讯科技(深圳)有限公司 | Voice communication optimization method and device, electronic equipment and readable storage medium |
-
2004
- 2004-09-03 JP JP2004257390A patent/JP2006072127A/en not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645130B2 (en) | 2008-05-08 | 2014-02-04 | Toyota Jidosha Kabushiki Kaisha | Processing unit, speech recognition apparatus, speech recognition system, speech recognition method, storage medium storing speech recognition program |
JP2012078422A (en) * | 2010-09-30 | 2012-04-19 | Roland Corp | Sound signal processing device |
CN112750461A (en) * | 2020-02-26 | 2021-05-04 | 腾讯科技(深圳)有限公司 | Voice communication optimization method and device, electronic equipment and readable storage medium |
CN112750461B (en) * | 2020-02-26 | 2023-08-01 | 腾讯科技(深圳)有限公司 | Voice communication optimization method and device, electronic equipment and readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dubnov | Generalization of spectral flatness measure for non-gaussian linear processes | |
Habets et al. | Late reverberant spectral variance estimation based on a statistical model | |
RU2596592C2 (en) | Spatial audio processor and method of providing spatial parameters based on acoustic input signal | |
CN103067322B (en) | The method of the voice quality of the audio frame in assessment channel audio signal | |
US20110015931A1 (en) | Periodic signal processing method,periodic signal conversion method,periodic signal processing device, and periodic signal analysis method | |
US20060129389A1 (en) | Spectrum modeling | |
JP6641832B2 (en) | Audio processing device, audio processing method, and audio processing program | |
JP5645419B2 (en) | Reverberation removal device | |
CN113470685B (en) | Training method and device for voice enhancement model and voice enhancement method and device | |
JP4965891B2 (en) | Signal processing apparatus and method | |
CN116705045B (en) | Echo cancellation method, apparatus, computer device and storage medium | |
JP5815435B2 (en) | Sound source position determination apparatus, sound source position determination method, program | |
JP2006072127A (en) | Voice recognition device and voice recognition method | |
JP4051325B2 (en) | Speaker position detection method, apparatus, program, and recording medium | |
JP4505597B2 (en) | Noise removal device | |
JP2010026323A (en) | Speech speed detection device | |
JP5044594B2 (en) | Multi-channel echo canceller, method and program thereof | |
JP7235117B2 (en) | ECHO ERASE DEVICE, ECHO ERASE METHOD, AND PROGRAM | |
JP6542705B2 (en) | Speech detection apparatus, speech detection method, program, recording medium | |
JP5815614B2 (en) | Reverberation suppression apparatus and method, program, and recording medium | |
JP2013178458A (en) | Signal processing device and signal processing program | |
JP5033109B2 (en) | Acoustic echo canceller apparatus and method, program, and recording medium | |
JP4094523B2 (en) | Echo canceling apparatus, method, echo canceling program, and recording medium recording the program | |
JP6779489B2 (en) | Extraction generated sound correction device, extraction generation sound correction method, program | |
JP2011166239A (en) | Echo canceling method, echo canceler, program thereof and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20071106 |