JP2001265368A - 音声認識装置および認識対象検出方法 - Google Patents
音声認識装置および認識対象検出方法Info
- Publication number
- JP2001265368A JP2001265368A JP2000075046A JP2000075046A JP2001265368A JP 2001265368 A JP2001265368 A JP 2001265368A JP 2000075046 A JP2000075046 A JP 2000075046A JP 2000075046 A JP2000075046 A JP 2000075046A JP 2001265368 A JP2001265368 A JP 2001265368A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- input
- section
- signal
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Abstract
(57)【要約】
【課題】 劣化のない信号を、認識対象区間で切出し、
音声認識処理を実行する。 【解決手段】 原信号は、区間検出ブロック51と音声
認識用データ抽出ブロック52に入力され、検出用特徴
抽出部61で、処理対象区間の検出のために必要なデー
タが抽出されたり、処理対象区間の検出に適した状態に
処理される。処理対象区間検出部62は、検出用特徴抽
出部61から入力された信号を基に、処理対象区間の開
始点および終了点を検出し、信号取り出し部63に出力
する。信号取り出し部63は、入力された原信号を、開
始点および終了点で切り出し、処理対象区間の原信号を
生成して、本処理用特徴抽出部64に出力する。本処理
用特徴抽出部64は、入力された信号から、音声認識に
必要なデータを抽出したり、入力された信号を音声認識
に適した状態に処理して出力する。
音声認識処理を実行する。 【解決手段】 原信号は、区間検出ブロック51と音声
認識用データ抽出ブロック52に入力され、検出用特徴
抽出部61で、処理対象区間の検出のために必要なデー
タが抽出されたり、処理対象区間の検出に適した状態に
処理される。処理対象区間検出部62は、検出用特徴抽
出部61から入力された信号を基に、処理対象区間の開
始点および終了点を検出し、信号取り出し部63に出力
する。信号取り出し部63は、入力された原信号を、開
始点および終了点で切り出し、処理対象区間の原信号を
生成して、本処理用特徴抽出部64に出力する。本処理
用特徴抽出部64は、入力された信号から、音声認識に
必要なデータを抽出したり、入力された信号を音声認識
に適した状態に処理して出力する。
Description
【0001】
【発明の属する技術分野】本発明は、音声認識装置およ
び認識対象検出方法に関し、特に、処理対象の検出処理
と、音声認識処理用のデータの生成処理を、それぞれ独
立させることにより、簡単な構成で、計算量の増加や音
質の低下を起こすことなく音声認識を行うことができる
音声認識装置および認識対象検出方法に関する。
び認識対象検出方法に関し、特に、処理対象の検出処理
と、音声認識処理用のデータの生成処理を、それぞれ独
立させることにより、簡単な構成で、計算量の増加や音
質の低下を起こすことなく音声認識を行うことができる
音声認識装置および認識対象検出方法に関する。
【0002】
【従来の技術】図1は、従来の音声認識装置の第1の構
成を示すブロック図である。音声入力部1は、マイクロ
ホン11とA/D変換部12から構成されている。マイ
クロホン11から入力された音声のアナログ信号は、A
/D変換部12でデジタルデータに変換され、比較判定
部2に入力される。標準パターン格納部3には、音声認
識のための標準パターンが記録されている。比較判定部
2は、入力された音声データと、標準パターン格納部3
に格納されている標準パターンとを、例えば、それぞれ
の音声スペクトルを比較することにより、音声データの
内容を判定し、判定結果を結果出力部4に出力する。結
果出力部4は、音声データの判定結果を図示しない情報
処理装置などに出力する。
成を示すブロック図である。音声入力部1は、マイクロ
ホン11とA/D変換部12から構成されている。マイ
クロホン11から入力された音声のアナログ信号は、A
/D変換部12でデジタルデータに変換され、比較判定
部2に入力される。標準パターン格納部3には、音声認
識のための標準パターンが記録されている。比較判定部
2は、入力された音声データと、標準パターン格納部3
に格納されている標準パターンとを、例えば、それぞれ
の音声スペクトルを比較することにより、音声データの
内容を判定し、判定結果を結果出力部4に出力する。結
果出力部4は、音声データの判定結果を図示しない情報
処理装置などに出力する。
【0003】図2は、従来の音声認識装置の第2の構成
を示すブロック図である。なお、図2の音声認識装置に
おいて、図1における場合と対応する部分には同一の符
号を付してあり、その説明は適宜省略する(以下、同
様)。すなわち、図2の音声認識装置は、音声区間検出
部21が更に備えられている以外は、基本的に、図1の
音声認識装置と同様の構成を有する。
を示すブロック図である。なお、図2の音声認識装置に
おいて、図1における場合と対応する部分には同一の符
号を付してあり、その説明は適宜省略する(以下、同
様)。すなわち、図2の音声認識装置は、音声区間検出
部21が更に備えられている以外は、基本的に、図1の
音声認識装置と同様の構成を有する。
【0004】音声入力部1のマイクロホン11で集音さ
れ、A/D変換部12でデジタル化された音声データ
は、音声区間検出部21に入力される。音声区間検出部
21は、入力された音声データのパワーと、所定の閾値
とを比較することにより、音声区間を検出し、音声区間
に対応する音声データだけを比較判定部2に出力する。
れ、A/D変換部12でデジタル化された音声データ
は、音声区間検出部21に入力される。音声区間検出部
21は、入力された音声データのパワーと、所定の閾値
とを比較することにより、音声区間を検出し、音声区間
に対応する音声データだけを比較判定部2に出力する。
【0005】通常、音声入力部1に入力される音声信号
には、雑音が混入されている。雑音のみの区間を除去
し、認識したい音声を含む音声区間を検出するために、
一定の閾値以上のパワーを有する音声信号が、一定時間
入力された場合、その音声信号の入力開始の時点を、音
声区間の開始点とする。そして、一定の閾値以上のパワ
ーを有する音声信号が、一定時間入力されなかった場
合、最後に一定の閾値以上のパワーを有する音声信号が
入力された時点を、音声区間の終了点とする。音声区間
の開始点と終了点の間の音声信号は、認識したい音声を
含んでいると判断され、その音声区間のみが抽出され、
音声認識に関する処理が行われる。
には、雑音が混入されている。雑音のみの区間を除去
し、認識したい音声を含む音声区間を検出するために、
一定の閾値以上のパワーを有する音声信号が、一定時間
入力された場合、その音声信号の入力開始の時点を、音
声区間の開始点とする。そして、一定の閾値以上のパワ
ーを有する音声信号が、一定時間入力されなかった場
合、最後に一定の閾値以上のパワーを有する音声信号が
入力された時点を、音声区間の終了点とする。音声区間
の開始点と終了点の間の音声信号は、認識したい音声を
含んでいると判断され、その音声区間のみが抽出され、
音声認識に関する処理が行われる。
【0006】図3を用いて、音声区間の検出について説
明する。比較的静寂な環境における音声区間の検出にお
いては、図3(A)に示すように、一定の閾値Aを用い
て、入力された音声のパワーを比較することによって、
音声区間を検出することが可能である。しかしながら、
雑音が混入する環境における音声区間の検出において
は、図3(B)に示すように、閾値Aを用いて入力され
た音声のパワーを比較した場合、雑音のみが入力されて
いる区間も、音声区間として検出してしまう恐れがあ
る。この場合、更に、閾値Bを設け、閾値Bを用いて入
力された音声のパワーを比較することにより、より精度
良く音声区間を検出することができる。このように、一
般的に、複数の閾値を用いて、その組み合わせにより音
声区間が検出されている。
明する。比較的静寂な環境における音声区間の検出にお
いては、図3(A)に示すように、一定の閾値Aを用い
て、入力された音声のパワーを比較することによって、
音声区間を検出することが可能である。しかしながら、
雑音が混入する環境における音声区間の検出において
は、図3(B)に示すように、閾値Aを用いて入力され
た音声のパワーを比較した場合、雑音のみが入力されて
いる区間も、音声区間として検出してしまう恐れがあ
る。この場合、更に、閾値Bを設け、閾値Bを用いて入
力された音声のパワーを比較することにより、より精度
良く音声区間を検出することができる。このように、一
般的に、複数の閾値を用いて、その組み合わせにより音
声区間が検出されている。
【0007】例えば、特開平6−130984に開示さ
れているように、音声区間の検出の前に、入力データか
ら雑音を除去することにより、図3を用いて説明した音
声区間の検出の精度を向上させることができる。図4
は、従来の音声認識装置の第3の構成を示すブロック図
である。図4の音声認識装置は、雑音除去部31が更に
備えられている以外は、基本的に、図2を用いて説明し
た音声認識装置と同様の構成を有する。
れているように、音声区間の検出の前に、入力データか
ら雑音を除去することにより、図3を用いて説明した音
声区間の検出の精度を向上させることができる。図4
は、従来の音声認識装置の第3の構成を示すブロック図
である。図4の音声認識装置は、雑音除去部31が更に
備えられている以外は、基本的に、図2を用いて説明し
た音声認識装置と同様の構成を有する。
【0008】音声入力部1のマイクロホン11で集音さ
れ、A/D変換部12でデジタル化された音声データ
は、雑音除去部31に入力される。雑音除去部31は、
入力された音声データから、一定サンプリングごとに雑
音パラメータを抽出して、入力された音声データから雑
音成分を除去し、雑音が除去された音声信号を、音声区
間検出部21に入力する。雑音除去方法については、例
えば、入力された音声スペクトルから、推定雑音スペク
トル(例えば、予め採取された雑音スペクトル等)を減
算するスペクトル減算処理等を用いることもできる。そ
して、音声区間検出部21は、雑音が除去された音声信
号を基に、音声区間を検出するので、より精度良く、音
声区間を検出することができる。
れ、A/D変換部12でデジタル化された音声データ
は、雑音除去部31に入力される。雑音除去部31は、
入力された音声データから、一定サンプリングごとに雑
音パラメータを抽出して、入力された音声データから雑
音成分を除去し、雑音が除去された音声信号を、音声区
間検出部21に入力する。雑音除去方法については、例
えば、入力された音声スペクトルから、推定雑音スペク
トル(例えば、予め採取された雑音スペクトル等)を減
算するスペクトル減算処理等を用いることもできる。そ
して、音声区間検出部21は、雑音が除去された音声信
号を基に、音声区間を検出するので、より精度良く、音
声区間を検出することができる。
【0009】また、従来、雑音の除去のために、複数の
マイクロホン(マイクロホンアレー)を用いて、信号の
到来方向を考慮することにより、空間的なフィルタリン
グを施して雑音スペクトルを推定する方法も用いられて
きた。図5は、マイクロホンアレーを用いた、従来の音
声入力装置の第4の構成を示すブロック図である。
マイクロホン(マイクロホンアレー)を用いて、信号の
到来方向を考慮することにより、空間的なフィルタリン
グを施して雑音スペクトルを推定する方法も用いられて
きた。図5は、マイクロホンアレーを用いた、従来の音
声入力装置の第4の構成を示すブロック図である。
【0010】図5の音声入力装置は、音声入力部1に代
わって、マイクロホン11−1乃至マイクロホン11−
nおよびA/D変換部12−1乃至A/D変換部12−
nを有する音声入力部41が備えられ、新たに、マイク
ロホンアレー処理部42が備えられている以外は、基本
的に、図4における場合と同様の構成を有している。
わって、マイクロホン11−1乃至マイクロホン11−
nおよびA/D変換部12−1乃至A/D変換部12−
nを有する音声入力部41が備えられ、新たに、マイク
ロホンアレー処理部42が備えられている以外は、基本
的に、図4における場合と同様の構成を有している。
【0011】すなわち、音声入力部41のマイクロホン
11−1乃至マイクロホン11−nが集音した音声デー
タは、A/D変換部12−1乃至A/D変換部12−n
でデジタルデータに変換され、それぞれマイクロホンア
レー処理部42に入力される。マイクロホンアレー処理
部42は、複数のマイクロホン入力に対して遅延和を算
出する遅延和処理を行う。すなわち、マイクロホンアレ
ー処理部42では、A/D変換部12−1乃至A/D変
換部12−nから入力されたn種類の音声信号を、例え
ば、デジタルフィルタやサンプルシフトといった手法を
用いて、それぞれ遅延させた後に、全てを加算し、音量
を調節して、1つの音声信号にまとめるという処理が実
行される。
11−1乃至マイクロホン11−nが集音した音声デー
タは、A/D変換部12−1乃至A/D変換部12−n
でデジタルデータに変換され、それぞれマイクロホンア
レー処理部42に入力される。マイクロホンアレー処理
部42は、複数のマイクロホン入力に対して遅延和を算
出する遅延和処理を行う。すなわち、マイクロホンアレ
ー処理部42では、A/D変換部12−1乃至A/D変
換部12−nから入力されたn種類の音声信号を、例え
ば、デジタルフィルタやサンプルシフトといった手法を
用いて、それぞれ遅延させた後に、全てを加算し、音量
を調節して、1つの音声信号にまとめるという処理が実
行される。
【0012】
【発明が解決しようとする課題】しかしながら、音声区
間の検出精度を高めるために、雑音を除去することによ
り、入力された音声データの音質が低下してしまうの
で、音声区間が精度良く検出できたとしても、音声認識
の精度が低下してしまう恐れがある。また、音質の低下
を生じないような、高精度の雑音除去方法を用いた場
合、雑音除去は、音声区間検出前の全ての音声データに
対して行われるため、不必要な雑音のみの音声データに
対しても、雑音除去のための演算がなされてしまい、音
声認識のための計算量が増加してしまう。
間の検出精度を高めるために、雑音を除去することによ
り、入力された音声データの音質が低下してしまうの
で、音声区間が精度良く検出できたとしても、音声認識
の精度が低下してしまう恐れがある。また、音質の低下
を生じないような、高精度の雑音除去方法を用いた場
合、雑音除去は、音声区間検出前の全ての音声データに
対して行われるため、不必要な雑音のみの音声データに
対しても、雑音除去のための演算がなされてしまい、音
声認識のための計算量が増加してしまう。
【0013】本発明はこのような状況に鑑みてなされた
ものであり、処理対象の検出処理と、音声認識処理用の
データの生成処理を、それぞれ独立させることにより、
簡単な構成で、計算量の増加や音質の低下を起こすこと
なく音声認識を行うことができるようにするものであ
る。
ものであり、処理対象の検出処理と、音声認識処理用の
データの生成処理を、それぞれ独立させることにより、
簡単な構成で、計算量の増加や音質の低下を起こすこと
なく音声認識を行うことができるようにするものであ
る。
【0014】
【課題を解決するための手段】本発明の音声認識装置
は、音声信号の入力を制御する音声入力制御手段と、音
声入力制御手段により入力が制御された音声信号を基
に、認識対象を検出するための特徴量を抽出する抽出手
段と、抽出手段により抽出された特徴量を基に、認識対
象の開始点と終了点を検出する検出手段と、検出手段に
より検出された開始点と終了点に従って、音声入力制御
手段により入力が制御された音声信号から、認識対象と
なる音声信号を切出す音声信号切出し手段と、音声信号
切出し手段により切出された音声信号に対して音声認識
処理を実行する音声認識手段とを備えることを特徴とす
る。
は、音声信号の入力を制御する音声入力制御手段と、音
声入力制御手段により入力が制御された音声信号を基
に、認識対象を検出するための特徴量を抽出する抽出手
段と、抽出手段により抽出された特徴量を基に、認識対
象の開始点と終了点を検出する検出手段と、検出手段に
より検出された開始点と終了点に従って、音声入力制御
手段により入力が制御された音声信号から、認識対象と
なる音声信号を切出す音声信号切出し手段と、音声信号
切出し手段により切出された音声信号に対して音声認識
処理を実行する音声認識手段とを備えることを特徴とす
る。
【0015】前記認識対象とは、例えば、入力された音
声信号のうち、雑音のみの区間を除いた、音声認識する
べき音声信号を含んだ区間である音声区間のことであ
る。
声信号のうち、雑音のみの区間を除いた、音声認識する
べき音声信号を含んだ区間である音声区間のことであ
る。
【0016】前記音声入力制御手段は、例えば、図7の
音声入力部1により、前記抽出手段は、例えば、図7も
しくは図8の検出用信号生成部71により、前記検出手
段は、例えば、図7もしくは図8の音声区間始終端検出
部72により、前記音声信号切出し手段は、例えば、図
7の音声区間切出し部73により、前記音声認識手段
は、例えば、図7もしくは図8の比較判定部2、標準パ
ターン格納部3、および認識用信号生成部74によりそ
れぞれ構成することができる。
音声入力部1により、前記抽出手段は、例えば、図7も
しくは図8の検出用信号生成部71により、前記検出手
段は、例えば、図7もしくは図8の音声区間始終端検出
部72により、前記音声信号切出し手段は、例えば、図
7の音声区間切出し部73により、前記音声認識手段
は、例えば、図7もしくは図8の比較判定部2、標準パ
ターン格納部3、および認識用信号生成部74によりそ
れぞれ構成することができる。
【0017】また、音声認識手段は、マイクロホンアレ
ーを用いた音声入力を制御することができ、抽出手段
は、マイクロホンアレーを用いた音声入力のうちの所定
の1入力を用いて認識対象を検出するための特徴量を抽
出することができる。
ーを用いた音声入力を制御することができ、抽出手段
は、マイクロホンアレーを用いた音声入力のうちの所定
の1入力を用いて認識対象を検出するための特徴量を抽
出することができる。
【0018】本発明の音声認識装置においては、音声信
号の入力が制御され、入力が制御された音声信号を基
に、認識対象を検出するための特徴量が抽出され、抽出
された特徴量を基に、認識対象の開始点と終了点が検出
され、検出された開始点と終了点に従って、入力が制御
された音声信号から、認識対象となる音声信号が切出さ
れ、切出された音声信号に対して音声認識処理が実行さ
れるようにしたので、簡単な構成で、計算量の増加や音
質の低下を起こすことなく音声認識を行うことができ
る。
号の入力が制御され、入力が制御された音声信号を基
に、認識対象を検出するための特徴量が抽出され、抽出
された特徴量を基に、認識対象の開始点と終了点が検出
され、検出された開始点と終了点に従って、入力が制御
された音声信号から、認識対象となる音声信号が切出さ
れ、切出された音声信号に対して音声認識処理が実行さ
れるようにしたので、簡単な構成で、計算量の増加や音
質の低下を起こすことなく音声認識を行うことができ
る。
【0019】本発明の認識対象検出方法は、音声信号の
入力を制御する音声入力制御ステップと、音声入力制御
ステップの処理により入力が制御された音声信号を基
に、認識対象を検出するための特徴量を抽出する抽出ス
テップと、抽出ステップの処理により抽出された特徴量
を基に、認識対象の開始点と終了点を検出する検出ステ
ップと、検出ステップの処理により検出された開始点と
終了点に従って、音声入力制御ステップの処理により入
力が制御された音声信号から、認識対象となる音声信号
を切出す音声信号切出しステップとを含むことを特徴と
する。
入力を制御する音声入力制御ステップと、音声入力制御
ステップの処理により入力が制御された音声信号を基
に、認識対象を検出するための特徴量を抽出する抽出ス
テップと、抽出ステップの処理により抽出された特徴量
を基に、認識対象の開始点と終了点を検出する検出ステ
ップと、検出ステップの処理により検出された開始点と
終了点に従って、音声入力制御ステップの処理により入
力が制御された音声信号から、認識対象となる音声信号
を切出す音声信号切出しステップとを含むことを特徴と
する。
【0020】前記音声入力ステップは、例えば、図7の
音声入力部1、もしくは図8の音声入力部41が行う処
理であり、前記抽出ステップは、例えば、図7もしくは
図8の検出用信号生成部71が行う処理であり、前記検
出ステップは、例えば、図7もしくは図8の音声区間始
終端検出部が行う処理であり、前記音声信号切出しステ
ップは、例えば、図7の音声区間切出し部73、もしく
は図8の音声区間切出し部81が行う処理である。
音声入力部1、もしくは図8の音声入力部41が行う処
理であり、前記抽出ステップは、例えば、図7もしくは
図8の検出用信号生成部71が行う処理であり、前記検
出ステップは、例えば、図7もしくは図8の音声区間始
終端検出部が行う処理であり、前記音声信号切出しステ
ップは、例えば、図7の音声区間切出し部73、もしく
は図8の音声区間切出し部81が行う処理である。
【0021】本発明の認識対象検出方法においては、音
声信号の入力が制御され、入力が制御された音声信号を
基に、認識対象を検出するための特徴量が抽出され、抽
出された特徴量を基に、認識対象の開始点と終了点が検
出され、検出された開始点と終了点に従って、入力が制
御された音声信号から、認識対象となる音声信号が切出
されるようにしたので、計算量を増加させることなく音
質の低下のない認識対象を検出することができる。
声信号の入力が制御され、入力が制御された音声信号を
基に、認識対象を検出するための特徴量が抽出され、抽
出された特徴量を基に、認識対象の開始点と終了点が検
出され、検出された開始点と終了点に従って、入力が制
御された音声信号から、認識対象となる音声信号が切出
されるようにしたので、計算量を増加させることなく音
質の低下のない認識対象を検出することができる。
【0022】
【発明の実施の形態】以下、図を参照して、本発明の実
施の形態について説明する。
施の形態について説明する。
【0023】図6は、本発明を適応した音声認識装置
の、音声認識の認識対象を検出する機能に関連する部分
の機能ブロック図を示す。
の、音声認識の認識対象を検出する機能に関連する部分
の機能ブロック図を示す。
【0024】音声認識の認識対象を検出する機能は、区
間検出ブロック51と、音声認識用データ抽出ブロック
52に分けられる。区間検出ブロック51は、区間検出
のための特徴量を抽出するための検出用特徴抽出部61
と、検出用特徴抽出部61により抽出された検出用特徴
量系列を用いて、音声認識処理を実行する処理対象区間
を検出する処理対象区間検出部62で構成される。音声
認識用データ抽出ブロック52は、入力された処理前の
音声信号である原信号から処理区間の信号のみを取り出
す信号取り出し部63と、信号取り出し部63から入力
された処理対象区間の原信号を用いて、音声認識のため
の特徴量を抽出し、本処理用特徴量系列を出力する本処
理用特徴抽出部64により構成されている。
間検出ブロック51と、音声認識用データ抽出ブロック
52に分けられる。区間検出ブロック51は、区間検出
のための特徴量を抽出するための検出用特徴抽出部61
と、検出用特徴抽出部61により抽出された検出用特徴
量系列を用いて、音声認識処理を実行する処理対象区間
を検出する処理対象区間検出部62で構成される。音声
認識用データ抽出ブロック52は、入力された処理前の
音声信号である原信号から処理区間の信号のみを取り出
す信号取り出し部63と、信号取り出し部63から入力
された処理対象区間の原信号を用いて、音声認識のため
の特徴量を抽出し、本処理用特徴量系列を出力する本処
理用特徴抽出部64により構成されている。
【0025】原信号は、区間検出ブロック51の検出用
特徴抽出部61と、音声認識用データ抽出ブロック52
の信号取り出し部63に入力される。検出用特徴抽出部
61は、処理対象区間の検出のために必要なデータを原
信号から抽出する(例えば、音声信号から抑揚情報を抽
出する)処理を行ったり、原信号を、処理対象区間の検
出に適した状態に処理したり(例えば、スペクトル減算
処理により雑音成分を除去する)、もしくは、それらの
処理を並列もしくは直列に複数実行することにより、検
出用特徴量系列のデータを生成し、処理対象区間検出部
62に出力する。処理対象区間検出部62は、原信号か
ら処理対象区間を切出すのではなく、検出用特徴抽出部
61から入力された信号を基に、処理対象区間の開始
点、および終了点を検出し、音声認識用データ抽出ブロ
ック52の信号取り出し部63に出力する。
特徴抽出部61と、音声認識用データ抽出ブロック52
の信号取り出し部63に入力される。検出用特徴抽出部
61は、処理対象区間の検出のために必要なデータを原
信号から抽出する(例えば、音声信号から抑揚情報を抽
出する)処理を行ったり、原信号を、処理対象区間の検
出に適した状態に処理したり(例えば、スペクトル減算
処理により雑音成分を除去する)、もしくは、それらの
処理を並列もしくは直列に複数実行することにより、検
出用特徴量系列のデータを生成し、処理対象区間検出部
62に出力する。処理対象区間検出部62は、原信号か
ら処理対象区間を切出すのではなく、検出用特徴抽出部
61から入力された信号を基に、処理対象区間の開始
点、および終了点を検出し、音声認識用データ抽出ブロ
ック52の信号取り出し部63に出力する。
【0026】信号取り出し部63は、入力された原信号
を、処理対象区間検出部62から入力された開始点およ
び終了点で切り出し、処理対象区間の原信号を生成し
て、本処理用特徴抽出部64に出力する。すなわち、本
処理用特徴抽出部64に入力される信号は、ノイズ除去
等により音質が低下した信号ではなく、処理対象区間で
切出された原信号である。本処理用特徴抽出部64は、
入力された信号から、音声認識に必要なデータを抽出す
る処理を行ったり、入力された信号を音声認識に適した
状態に処理したり、もしくは、それらの処理を並列もし
くは直列に複数実行することにより、本処理用特徴量系
列のデータを生成して出力する。
を、処理対象区間検出部62から入力された開始点およ
び終了点で切り出し、処理対象区間の原信号を生成し
て、本処理用特徴抽出部64に出力する。すなわち、本
処理用特徴抽出部64に入力される信号は、ノイズ除去
等により音質が低下した信号ではなく、処理対象区間で
切出された原信号である。本処理用特徴抽出部64は、
入力された信号から、音声認識に必要なデータを抽出す
る処理を行ったり、入力された信号を音声認識に適した
状態に処理したり、もしくは、それらの処理を並列もし
くは直列に複数実行することにより、本処理用特徴量系
列のデータを生成して出力する。
【0027】すなわち、検出用特徴量系列と、本処理用
特徴系列は、原信号を基に、それぞれ独立して抽出され
るため、より少ない演算量で、音声劣化のないデータに
対しての音声認識処理が実行される。また、検出用特徴
量系列と、本処理用特徴系列が独立しているため、音声
区間の検出方法を、音声認識処理を考慮して選択しなく
てもよいし、音声認識処理方法を、音声区間の検出方法
を考慮して選択しなくてもよい。すなわち、それぞれの
特徴量抽出に最も適した方法を選択することができる。
特徴系列は、原信号を基に、それぞれ独立して抽出され
るため、より少ない演算量で、音声劣化のないデータに
対しての音声認識処理が実行される。また、検出用特徴
量系列と、本処理用特徴系列が独立しているため、音声
区間の検出方法を、音声認識処理を考慮して選択しなく
てもよいし、音声認識処理方法を、音声区間の検出方法
を考慮して選択しなくてもよい。すなわち、それぞれの
特徴量抽出に最も適した方法を選択することができる。
【0028】図7は、本発明を適応した音声認識装置の
第1の実施の形態を示すブロック図である。図7の音声
認識装置は、図4の音声認識装置の雑音除去部31およ
び音声区間検出部21に代わり、検出用信号生成部7
1、音声区間始終端検出部72、音声区間切出し部7
3、および認識用信号生成部74が備えられている以外
は、基本的に、図4の音声認識装置と同様の構成であ
る。
第1の実施の形態を示すブロック図である。図7の音声
認識装置は、図4の音声認識装置の雑音除去部31およ
び音声区間検出部21に代わり、検出用信号生成部7
1、音声区間始終端検出部72、音声区間切出し部7
3、および認識用信号生成部74が備えられている以外
は、基本的に、図4の音声認識装置と同様の構成であ
る。
【0029】すなわち、検出用信号生成部71は、図6
の検出用特徴抽出部61にあたり、音声区間始終端検出
部72は、図6の処理対象区間検出部62にあたり、音
声区間切出し部73は、図6の信号取り出し部63にあ
たり、認識用信号生成部74は、図6の本処理用特徴抽
出部64にあたる。
の検出用特徴抽出部61にあたり、音声区間始終端検出
部72は、図6の処理対象区間検出部62にあたり、音
声区間切出し部73は、図6の信号取り出し部63にあ
たり、認識用信号生成部74は、図6の本処理用特徴抽
出部64にあたる。
【0030】音声入力部1で集音された音声は、検出用
信号生成部71および音声区間切出し部73に供給され
る。検出用信号生成部71は、例えば、スペクトル減算
処理などによる雑音除去、音声データの抑揚情報の抽
出、音声データのパワー情報の抽出、周波数成分の特徴
抽出、母音系列の取り出し、話速情報の抽出、音程や音
の揺らぎの抽出、あるいは、音声データの入力方向に関
する情報の抽出などから、少なくとも1つの方法を選択
し、直列的、あるいは並列的に組み合わせて処理を実行
することにより、音声区間の検出に用いられる検出用の
信号を生成し、音声区間始終端検出部72に出力する。
信号生成部71および音声区間切出し部73に供給され
る。検出用信号生成部71は、例えば、スペクトル減算
処理などによる雑音除去、音声データの抑揚情報の抽
出、音声データのパワー情報の抽出、周波数成分の特徴
抽出、母音系列の取り出し、話速情報の抽出、音程や音
の揺らぎの抽出、あるいは、音声データの入力方向に関
する情報の抽出などから、少なくとも1つの方法を選択
し、直列的、あるいは並列的に組み合わせて処理を実行
することにより、音声区間の検出に用いられる検出用の
信号を生成し、音声区間始終端検出部72に出力する。
【0031】音声区間始終端検出部72は、入力された
信号を基に、例えば、抽出された音声データのパワー情
報を、所定の閾値と比較することなどにより、音声区間
の開始点および終了点を検出し、音声区間切出し部73
に出力する。
信号を基に、例えば、抽出された音声データのパワー情
報を、所定の閾値と比較することなどにより、音声区間
の開始点および終了点を検出し、音声区間切出し部73
に出力する。
【0032】音声区間切出し部73は、音声区間始終端
検出部72から入力された信号を基に、音声入力部1か
ら入力された入力データ(すなわち、図6における原
音)を音声区間で切出して、認識用信号生成部74に出
力する。
検出部72から入力された信号を基に、音声入力部1か
ら入力された入力データ(すなわち、図6における原
音)を音声区間で切出して、認識用信号生成部74に出
力する。
【0033】認識用信号生成部74は、音声区間の検出
と同様に、例えば、スペクトル減算処理などによる雑音
除去、音声データの抑揚情報の抽出、音声データのパワ
ー情報の抽出、周波数成分に分解して特徴抽出、母音系
列の取り出し、話速情報の抽出、音程や音の揺らぎの抽
出、あるいは、音声データの入力方向に関する情報の抽
出などから、少なくとも1つの方法を選択し、直列的、
あるいは並列的に組み合わせて処理を実行することによ
り、音声認識のための信号を生成して、比較判定部2に
出力する。ここで、認識用信号生成部74に入力される
信号は、音声区間のみであるため、音声区間の検出時よ
り、歪の少ない、高精度の処理(すなわち、演算量の大
きな処理)を実行しても、余分なデータに対する演算を
行うことはなく、無駄な演算量が増加してしまうような
ことはない。
と同様に、例えば、スペクトル減算処理などによる雑音
除去、音声データの抑揚情報の抽出、音声データのパワ
ー情報の抽出、周波数成分に分解して特徴抽出、母音系
列の取り出し、話速情報の抽出、音程や音の揺らぎの抽
出、あるいは、音声データの入力方向に関する情報の抽
出などから、少なくとも1つの方法を選択し、直列的、
あるいは並列的に組み合わせて処理を実行することによ
り、音声認識のための信号を生成して、比較判定部2に
出力する。ここで、認識用信号生成部74に入力される
信号は、音声区間のみであるため、音声区間の検出時よ
り、歪の少ない、高精度の処理(すなわち、演算量の大
きな処理)を実行しても、余分なデータに対する演算を
行うことはなく、無駄な演算量が増加してしまうような
ことはない。
【0034】比較判定部2は、入力された認識データ
と、標準パターン格納部3に格納されている標準パター
ンとを、例えば、それぞれの音声スペクトルを比較する
ことなどにより、音声データの内容を判定し、判定結果
を結果出力部4に出力する。結果出力部4は、音声デー
タの判定結果を図示しない情報処理装置などに出力す
る。
と、標準パターン格納部3に格納されている標準パター
ンとを、例えば、それぞれの音声スペクトルを比較する
ことなどにより、音声データの内容を判定し、判定結果
を結果出力部4に出力する。結果出力部4は、音声デー
タの判定結果を図示しない情報処理装置などに出力す
る。
【0035】図7を用いて説明した音声入力装置におい
ては、検出用特徴量系列と、認識用特徴量系列が独立し
て処理されるため、検出用信号生成部71と認識用信号
生成部74において、異なる信号処理方法を選択するこ
とが可能になり、音声認識装置の音声認識性能や演算量
などの要求スペックに対応する処理方法を、それぞれ独
立して選択することができる。
ては、検出用特徴量系列と、認識用特徴量系列が独立し
て処理されるため、検出用信号生成部71と認識用信号
生成部74において、異なる信号処理方法を選択するこ
とが可能になり、音声認識装置の音声認識性能や演算量
などの要求スペックに対応する処理方法を、それぞれ独
立して選択することができる。
【0036】図8に、本発明を適応した音声認識装置の
第2の実施の形態のブロック図を示す。図8の音声認識
装置は、図7の音声認識装置の音声入力部1に代わっ
て、図5を用いて説明した音声入力部41が備えられ、
音声区間切出し部73に代わって、複数の音声データを
指定された区間で切出すことができる音声区間切出し部
81が備えられ、更に、図5を用いて説明したマイクロ
ホンアレー処理部42が備えられているほかは、基本的
に、図7の音声認識装置と同様の構成を有している。
第2の実施の形態のブロック図を示す。図8の音声認識
装置は、図7の音声認識装置の音声入力部1に代わっ
て、図5を用いて説明した音声入力部41が備えられ、
音声区間切出し部73に代わって、複数の音声データを
指定された区間で切出すことができる音声区間切出し部
81が備えられ、更に、図5を用いて説明したマイクロ
ホンアレー処理部42が備えられているほかは、基本的
に、図7の音声認識装置と同様の構成を有している。
【0037】音声入力部41の複数のマイクロホン11
−1乃至11−nのうち、1つのマイクロホン(ここで
はマイクロホン11−n)を主マイクロホンとする。主
マイクロホンであるマイクロホン11−nで集音され、
A/D変換部12−nでデジタル信号に変換された主マ
イクロホンの入力データは、検出用信号生成部71に供
給される。そして、マイクロホン11−1乃至11−n
で集音され、A/D変換部12−1乃至12−nでデジ
タル信号に変換されたn種類のマイクロホンアレーの入
力データは、音声区間切出し部73に供給される。
−1乃至11−nのうち、1つのマイクロホン(ここで
はマイクロホン11−n)を主マイクロホンとする。主
マイクロホンであるマイクロホン11−nで集音され、
A/D変換部12−nでデジタル信号に変換された主マ
イクロホンの入力データは、検出用信号生成部71に供
給される。そして、マイクロホン11−1乃至11−n
で集音され、A/D変換部12−1乃至12−nでデジ
タル信号に変換されたn種類のマイクロホンアレーの入
力データは、音声区間切出し部73に供給される。
【0038】検出用信号生成部71および音声区間始終
端検出部72は、入力された主マイクロホン11−nの
入力データを基に、図7を用いて説明した場合と同様の
処理により、音声区間の開始点と終了点を検出して、音
声区間切出し部81に出力する。音声区間切出し部81
は、入力されたn種類のマイクロホンアレーの入力デー
タを、音声区間始終端検出部72より入力された開始点
と終了点でそれぞれ切出し、マイクロホンアレー処理部
42に出力する。マイクロホンアレー処理部42は、図
5を用いて説明した場合と同様に、複数のマイクロホン
入力に対して遅延和を算出する遅延和処理を行い、生成
した信号を認識用信号生成部74に供給する。
端検出部72は、入力された主マイクロホン11−nの
入力データを基に、図7を用いて説明した場合と同様の
処理により、音声区間の開始点と終了点を検出して、音
声区間切出し部81に出力する。音声区間切出し部81
は、入力されたn種類のマイクロホンアレーの入力デー
タを、音声区間始終端検出部72より入力された開始点
と終了点でそれぞれ切出し、マイクロホンアレー処理部
42に出力する。マイクロホンアレー処理部42は、図
5を用いて説明した場合と同様に、複数のマイクロホン
入力に対して遅延和を算出する遅延和処理を行い、生成
した信号を認識用信号生成部74に供給する。
【0039】認識用信号生成部74は、図7を用いて説
明した場合と同様の処理により、音声認識のための信号
を生成して、比較判定部2に出力する。ここでも、認識
用信号生成部74に入力される信号は、音声区間のみで
あるため、音声区間の検出時より、歪の少ない、高精度
の処理を実行しても、余分なデータに対する演算を行う
ことはなく、無駄な演算量が増加してしまうようなこと
はない。
明した場合と同様の処理により、音声認識のための信号
を生成して、比較判定部2に出力する。ここでも、認識
用信号生成部74に入力される信号は、音声区間のみで
あるため、音声区間の検出時より、歪の少ない、高精度
の処理を実行しても、余分なデータに対する演算を行う
ことはなく、無駄な演算量が増加してしまうようなこと
はない。
【0040】比較判定部2は、入力された認識データ
と、標準パターン格納部3に格納されている標準パター
ンとを、例えば、それぞれの音声スペクトルを比較する
ことなどにより、音声データの内容を判定し、判定結果
を結果出力部4に出力する。結果出力部4は、音声デー
タの判定結果を図示しない情報処理装置などに出力す
る。
と、標準パターン格納部3に格納されている標準パター
ンとを、例えば、それぞれの音声スペクトルを比較する
ことなどにより、音声データの内容を判定し、判定結果
を結果出力部4に出力する。結果出力部4は、音声デー
タの判定結果を図示しない情報処理装置などに出力す
る。
【0041】図8を用いて説明した音声認識装置におい
ては、マイクロホンアレー処理部42が実行する遅延和
演算処理や、認識用信号生成部74が実行する雑音除去
などの認識データの生成処理を、必要な音声区間に対し
てのみ実行させることができるため、無駄な演算を増加
させることなく、高精度の音声認識結果を得ることがで
きる。
ては、マイクロホンアレー処理部42が実行する遅延和
演算処理や、認識用信号生成部74が実行する雑音除去
などの認識データの生成処理を、必要な音声区間に対し
てのみ実行させることができるため、無駄な演算を増加
させることなく、高精度の音声認識結果を得ることがで
きる。
【0042】なお、図7および図8を用いて説明した音
声認識装置においては、認識対象として、雑音のみの区
間を除去した音声区間を検出して切出したが、認識対象
として、音声区間以外の、例えば、特定の音(言葉)を
抽出したり、特定の話者が話した内容のみを抽出するよ
うな場合においても、同様に、検出用特徴量系列と、本
処理用特徴量系列を独立させることにより、無駄な演算
を増加させることなく、高精度の音声認識結果を得るこ
とができる。
声認識装置においては、認識対象として、雑音のみの区
間を除去した音声区間を検出して切出したが、認識対象
として、音声区間以外の、例えば、特定の音(言葉)を
抽出したり、特定の話者が話した内容のみを抽出するよ
うな場合においても、同様に、検出用特徴量系列と、本
処理用特徴量系列を独立させることにより、無駄な演算
を増加させることなく、高精度の音声認識結果を得るこ
とができる。
【0043】
【発明の効果】本発明の音声認識装置によれば、簡単な
構成で、計算量の増加や音質の低下を起こすことなく精
度の良い音声認識を行うことができる。
構成で、計算量の増加や音質の低下を起こすことなく精
度の良い音声認識を行うことができる。
【0044】本発明の認識対象検出方法によれば、計算
量を増加させることなく音質の低下のない認識対象を精
度良く検出することができる。
量を増加させることなく音質の低下のない認識対象を精
度良く検出することができる。
【図1】従来の音声認識装置を説明するための図であ
る。
る。
【図2】従来の音声認識装置を説明するための図であ
る。
る。
【図3】音声区間の切出しについて説明するための図で
ある。
ある。
【図4】従来の音声認識装置を説明するための図であ
る。
る。
【図5】従来の音声認識装置を説明するための図であ
る。
る。
【図6】本発明を適応した音声認識装置の認識対象を検
出する機能に関する部分の機能ブロック図である。
出する機能に関する部分の機能ブロック図である。
【図7】本発明を適応した音声認識装置の第1の実施の
形態を説明するためのブロック図である。
形態を説明するためのブロック図である。
【図8】本発明を適応した音声認識装置の第2の実施の
形態を説明するためのブロック図である。
形態を説明するためのブロック図である。
61 検出用特徴抽出部 62 処理対象区間検出部 63 信号取り出し部 64 本処理用特徴抽出部 71 検出用信号生成部 72 音声区間始終端検出部 73 音声区間切出し部 74 認識用信号生成部 81 音声区間切出し部
Claims (3)
- 【請求項1】 音声信号の入力を制御する音声入力制御
手段と、 前記音声入力制御手段により入力が制御された前記音声
信号を基に、認識対象を検出するための特徴量を抽出す
る抽出手段と、 前記抽出手段により抽出された前記特徴量を基に、前記
認識対象の開始点と終了点を検出する検出手段と、 前記検出手段により検出された前記開始点と前記終了点
に従って、前記音声入力制御手段により入力が制御され
た前記音声信号から、前記認識対象となる音声信号を切
出す音声信号切出し手段と、 前記音声信号切出し手段により切出された前記音声信号
に対して音声認識処理を実行する音声認識手段とを備え
ることを特徴とする音声認識装置。 - 【請求項2】 前記音声認識手段は、マイクロホンアレ
ーを用いた音声入力を制御し、 前記抽出手段は、前記マイクロホンアレーを用いた音声
入力のうちの所定の1入力を用いて前記認識対象を検出
するための前記特徴量を抽出することを特徴とする請求
項1に記載の音声認識装置。 - 【請求項3】 音声信号の入力を制御する音声入力制御
ステップと、 前記音声入力制御ステップの処理により入力が制御され
た前記音声信号を基に、認識対象を検出するための特徴
量を抽出する抽出ステップと、 前記抽出ステップの処理により抽出された前記特徴量を
基に、前記認識対象の開始点と終了点を検出する検出ス
テップと、 前記検出ステップの処理により検出された前記開始点と
前記終了点に従って、前記音声入力制御ステップの処理
により入力が制御された前記音声信号から、前記認識対
象となる音声信号を切出す音声信号切出しステップとを
含むことを特徴とする認識対象検出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000075046A JP2001265368A (ja) | 2000-03-17 | 2000-03-17 | 音声認識装置および認識対象検出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000075046A JP2001265368A (ja) | 2000-03-17 | 2000-03-17 | 音声認識装置および認識対象検出方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001265368A true JP2001265368A (ja) | 2001-09-28 |
Family
ID=18592994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000075046A Withdrawn JP2001265368A (ja) | 2000-03-17 | 2000-03-17 | 音声認識装置および認識対象検出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001265368A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006330389A (ja) * | 2005-05-26 | 2006-12-07 | Matsushita Electric Works Ltd | 音声認識装置 |
JP2009515227A (ja) * | 2005-11-07 | 2009-04-09 | 韓國電子通信研究院 | 音声認識に基づくテキスト入力システムおよび方法 |
CN105895116A (zh) * | 2016-04-06 | 2016-08-24 | 普强信息技术(北京)有限公司 | 一种双声道语音的抢插话分析方法 |
-
2000
- 2000-03-17 JP JP2000075046A patent/JP2001265368A/ja not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006330389A (ja) * | 2005-05-26 | 2006-12-07 | Matsushita Electric Works Ltd | 音声認識装置 |
JP4682700B2 (ja) * | 2005-05-26 | 2011-05-11 | パナソニック電工株式会社 | 音声認識装置 |
JP2009515227A (ja) * | 2005-11-07 | 2009-04-09 | 韓國電子通信研究院 | 音声認識に基づくテキスト入力システムおよび方法 |
CN105895116A (zh) * | 2016-04-06 | 2016-08-24 | 普强信息技术(北京)有限公司 | 一种双声道语音的抢插话分析方法 |
CN105895116B (zh) * | 2016-04-06 | 2020-01-03 | 普强信息技术(北京)有限公司 | 一种双声道语音的抢插话分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0763811B1 (en) | Speech signal processing apparatus for detecting a speech signal | |
JP5662276B2 (ja) | 音響信号処理装置および音響信号処理方法 | |
JP6174856B2 (ja) | 雑音抑制装置、その制御方法、及びプログラム | |
JP5605574B2 (ja) | 多チャンネル音響信号処理方法、そのシステム及びプログラム | |
JP3033061B2 (ja) | 音声雑音分離装置 | |
US5452398A (en) | Speech analysis method and device for suppyling data to synthesize speech with diminished spectral distortion at the time of pitch change | |
KR101122590B1 (ko) | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 | |
JP4548953B2 (ja) | 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム | |
JP2000310993A (ja) | 音声検出装置 | |
JP2001265368A (ja) | 音声認識装置および認識対象検出方法 | |
JP3039623B2 (ja) | 音声認識装置 | |
US8713030B2 (en) | Video editing apparatus | |
JP2019020678A (ja) | ノイズ低減装置および音声認識装置 | |
JP6321334B2 (ja) | 信号処理装置及びプログラム | |
JP2000163099A (ja) | 雑音除去装置、音声認識装置および記憶媒体 | |
JPH1185185A (ja) | 音声認識システムおよび音声認識制御プログラムを記録した記録媒体 | |
JP2002041083A (ja) | 遠隔制御システムおよび遠隔制御方法、並びに記録媒体 | |
JPH09127982A (ja) | 音声認識装置 | |
JPH1097278A (ja) | 音声認識方法および装置 | |
JP2001083978A (ja) | 音声認識装置 | |
KR20020082643A (ko) | 고속 푸우리에 변환(fft) 및 역고속 푸우리에변환(ifft)을 이용한 송,수신기의 동기검출장치 | |
JP3346200B2 (ja) | 音声認識装置 | |
JPH09204194A (ja) | 音声認識装置 | |
JPH1078798A (ja) | 音声信号処理装置 | |
JP2015064602A (ja) | 音響信号処理装置、音響信号処理方法および音響信号処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070605 |