JP3082625B2

JP3082625B2 - 音声信号処理回路

Info

Publication number: JP3082625B2
Application number: JP07201593A
Authority: JP
Inventors: 容隆渋谷
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1995-07-15
Filing date: 1995-07-15
Publication date: 2000-08-28
Anticipated expiration: 2015-07-15
Also published as: JPH0934494A; DE19628503A1; US5890107A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声信号処理装置に関
し、特に音声信号を周波数帯域毎に分割して符号化する
サブバンド符号化回路においてマスクレベルを算出する
音声信号処理回路に関する。

【０００２】

【従来の技術】図６に、ＩＳＯ／ＩＥＣ１１１７２−３
（以後、ＭＰＥＧ／Ａｕｄｉｏと表記する）で用いられ
ている従来の音声信号処理回路の全体の概略構成を示
す。以下、各部の説明をする。ＦＦＴ回路６２は入力音
声サンプル６１が１０２４のサンプル入力されると、高
速フーリエ変換（Fast Fourler Transform）を施して５
１２のパワースペクトルサンプルをサンプル出力する。

【０００３】純音と雑音の分別を行なう分別回路６３
は、入力されたパワースペクトルサンプルの中から、極
大となっているもの（隣接した周波数のパワースペクト
ルサンプルよりも大きくなっているパワースペクトルサ
ンプル）を純音成分として取り出し、また、そうでない
ものを雑音成分として取り出すことにより、入力された
スペクトルサンプルを純音成分と雑音成分とに分別す
る。

【０００４】サブサンプリング回路６４は、人間の聴覚
特性が高い周波数ほど周波数分解能力が低いということ
を利用して、高域のスペトクルを決まった本数ずつまと
め、一本のスペクトルにまとめる部分である。まとめら
れるパワースペクトルの本数は、そのパワースペクトル
が純音成分かあるいは雑音成分かによって異なる。

【０００５】マスク計算回路６５は、サブサンプリング
された純音成分のパワースペクトルサンプルと雑音成分
のパワースペクトルサンプルから、マスクレベルを求め
る部分である。ここで、マスクレベルとは、それ以上小
さい音は人間の耳には聞こえないという音のレベルを示
しており、人間がそのときに聞いている音の周波数分布
により逐次変化する。

【０００６】従来におけるマスクレベルの計算について
図７を参照しながら説明する。人間の聴覚では、音が存
在した場合、つまりスペクトル７１が存在した場合、そ
の近傍の周波数の音が聞こえにくくなる。つまり、スペ
クトルに隣接した周波数にマスク７２ができる。従来に
おいては、このマスク７２の形状（マスクの高さや直線
の傾きなど）は、スペクトルが純音成分かまたは雑音成
分かによって、またスペクトルの大きさによって変化す
る。

【０００７】このマスクをサブサンプリングされたパワ
ースペクトル１本１本について計算し、足し合わせる。
マスクの計算には、スペクトルがｎ本存在する場合、ス
ペクトル１本に対するマスクを求めるのに、ｎの１乗の
オーダーの計算が必要となる。そして、その計算を、ｎ
本のパワースペクトルのそれぞれについて計算し、かつ
それらを足し合わせるためには、全体としてｎの２乗の
オーダーの計算回数が必要となる。

【０００８】実時間のＭＰＥＧ／Ａｕｄｉｏエンコーダ
では、限られた時間内にこれらの処理を行う必要がある
ので、入力音声によってこのように処理量が大きく変化
してしまうことは非常に都合が悪い。

【０００９】パワースペクトル数ｎは任意なので、十分
大きなｎに耐え得るように、十分高速の演算装置を用い
なければならないが、演算量がｎの２乗に比例して増え
るので、演算装置の規模が非常に大きくなってしまう。
また、ｎの値が予想以上に大きい入力音声に対しては処
理が間に合わずに破綻し雑音を発生させてしまう。

【００１０】

【発明が解決しようとする課題】上述したように従来で
は、マスクの形状が、パワースペクトルが純音成分か雑
音成分か、また、パワースペクトルの大きさによって変
化するため、マスクレベルを求めるのに非常に多くの計
算量を必要とする問題点があった。このため、演算装置
の規模が非常に大きくなってしまう。さらに、入力音声
について、純音成分と雑音成分の分別を行なうことか
ら、演算処理量が入力される音声によって大きく変化
し、このため、入力音声に対しては処理が間に合わずに
破綻し雑音を発生させてしまうという問題点もあった。

【００１１】本発明は、上記従来の欠点を解決し、マス
クレベルの演算に必要な計算量を少なくすることができ
る音声信号処理回路を提供することを目的とする。ま
た、本発明の他の目的は、パワースペクトルサンプルの
本数が入力音声によって変化せず、このため、パワース
ペクトルサンプルの本数が決めれば、それに適した規模
の演算手段を備えればよく、処理量の増加を想定して大
規模な演算手段を備える必要をなくする音声信号処理回
路を提供することにある。

【００１２】

【課題を解決するための手段】上記目的を達成する本発
明は、予め量子化された第１所定数の入力音声サンプル
のマスクレベルを算出する音声信号処理回路において、
前記第１所定数の入力音声サンプルに高速フーリエ変換
を施すことにより、前記第１所定数の２分の１個のパワ
ースペクトルサンプルを出力する高速フーリエ変換手段
と、前記第１所定数の２分の１個のパワースペクトルサ
ンプルを定められた本数ずつ加算し、第２所定数のパワ
ースペクトルサンプルにサブサンプルするサブサンプリ
ング手段と、前記第２所定数のパワースペクトルサンプ
ル毎に一定の単位マスク関数を畳み込んだものをパワー
スペクトルサンプル毎のマスクとし、各々の前記パワー
スペクトルサンプルの前記マスクを足し合わせることに
より、前記第２の所定数からなるマスクレベルを算出す
るマスク計算手段とからなる構成としている。

【００１３】好ましい態様によれば、周波数ｆ[0]から
ｆ[n-1]のｎ個の前記パワースペクトルサンプルが存在
する場合、第ｉ番目の前記パワースペクトルサンプルの
大きさをａ[i]、周波数をｆ[i]、マスクの傾きをｐとす
ると、周波数ｆの前記パワースペクトルサンプルに対す
る前記単位マスク関数は、ｍi(f)＝ａ[i]＊１０^{-p/10 f-fi} で表される。

【００１４】さらに他の好ましい態様では、前記マスク
計算手段は、前記各パワースペクトルサンプルの右側の
マスクと、左側のマスクに分けてマスクレベルをそれぞ
れ算出する。また、前記マスク計算手段は、周波数ｆ
[0]からｆ[n-1]のｎ個の前記パワースペクトルサンプル
が存在する場合、前記各パワースペクトルサンプルの右
側のマスクと、左側のマスクに分けると共に、前記各パ
ワースペクトルサンプルの右側のマスクについて、周波
数の低い前記パワースペクトルサンプルのマスクから順
にマスクレベルを算出し、前記各パワースペクトルサン
プルの左側のマスクについて、周波数の高い前記パワー
スペクトルサンプルのマスクから順にマスクレベルを算
出する。

【００１５】さらに、他の好ましい態様では、周波数ｆ
[0]からｆ[n-1]のｎ個の前記パワースペクトルサンプル
が存在する場合、第ｉ番目の前記パワースペクトルサン
プルの大きさをａ[i]、周波数をｆ[i]、右側のマスクの
傾きを−ｑ、左側のマスクの傾きをｐとすると、周波数
ｆ[i]の前記パワースペクトルサンプルの右側のマスク
は、ｍｒ[i]＝ａ[i]＋１０^{-q/(f[i]-f[i1)}＊ｍｒ[i1]で
算出さされ、周波数ｆ[i]の前記パワースペクトルサン
プルの左側のマスクは、ｍｌ[i]＝１０^{-p/(f[i+1]-f[i)}
＊（ａ[i+1]＋ｍｌ[i+1]）で算出される。

【００１６】

【実施例】以下、本発明の実施例について図面を参照し
て詳細に説明する。図１は、本発明の一実施例による音
声信号処理回路の構成を示すブロック図である。以下、
図１を参照して、各構成要素を説明する。本実施例の音
声信号処理回路は、ＦＦＴ回路１２、サブサンプリング
回路１３、マスク計算回路１４で構成される。

【００１７】ＦＦＴ回路１２は、１０２４の入力音声サ
ンプル１１が入力されると、高速フーリエ変換を施し５
１２のパワースペクトルサンプルをサンプル出力する。
入力音声サンプル１１及びＦＦＴ回路１２は、図６の従
来の回路と同じである。本発明では、従来のような純音
と雑音との分別は行わない。これにより、従来例の問題
点であった、入力される音声によって処理量が変化する
といった問題がなくなる。

【００１８】サブサンプリング回路１３は、ＦＦＴ回路
１２により計算された５１２サンプルのスペクトルサン
プルを高い周波数ほど周波数分解能力が低いという人間
の聴覚特性に従い、周波数の高域のスペクトルを決まっ
た本数ずつまとめ、一本のスペクトルにまとめる。

【００１９】マスク計算回路１４は、サブサンプリング
回路１３によりサブサンプルされたスペクトルサンプル
を用いて、それ以上小さい音は人間の耳には聞こえない
という音のレベルを示すマスク１５を計算する。

【００２０】このマスク１５を計算するマスク計算回路
１４の計算処理について、図２、図３、図４、図５を参
照して詳しく説明する。図２に、周波数ｆ[i]に大きさ
がａ[i]のパワースペクトル２２が存在した場合のマス
ク２１を示す。従来においては、マスクの形状は、パワ
ーススペクトルが純音成分であるか雑音成分であるかに
より、またはパワースペクトルの大きさにより形状を変
化させたが、本発明では、マスクの形状を全てのパワー
スペクトルについて同じ形状とする。

【００２１】図２において、グラフの横軸が周波数軸
で、縦軸がマスクレベルである。グラフ中の縦軸の単位
はデシベルである。ここで、パワースペクトル２２の値
Ａ[i]は、以下の式で表される。

【００２２】Ａ[i]＝１０ｌｏｇ_１０ａ[i]

【００２３】このマスクの左側のマスク２３の傾きを
ｐ、右側のマスク２４の傾きを−ｑとすると、マスクの
大きさｍ[i]（ｆ）は、以下のように求めることができ
る（デシベル表示ではなく実値による表現）。

【００２４】ｍ[i]（ｆ）＝ａ[i]＊１０^-p/(f-f[i]) （ｆ＜ｆ[i]）

【００２５】ｍ[i]（ｆ）＝ａ[i] （ｆ＝ｆ[i]）

【００２６】ｍ[i]（ｆ）＝ａ[i]＊１０^-q/(f-f[i]) （ｆ＞ｆ[i]）

【００２７】このマスクｍ[i]（ｆ）を図３のように各
周波数の各パワースペクトルについて求めて足し合わせ
る（加算）ことにより、図３に示すようなマスクの加算
結果が得られる。

【００２８】以下、マスク計算回路１４によるマスクの
加算処理について図４と図５を用いて説明する。図３で
は、パワースペクトルがｎ個の周波数ｆ［０］、ｆ
［１］、・・・ｆ［ｎ］上に存在する。

【００２９】加算処理においては、図４、図５に示すよ
うに、マスクを図２の右側の部分（ｆ≧ｆ[i]）と左側
の部分（ｆ＜ｆ[i]）にそれぞれ分けることによって加
算を行なう。

【００３０】まず、マスクの右側の加算について説明す
る。周波数ｆ[i]における加算されたマスクをｍｒ[i]と
すると、このｍｒ[i]を周波数の低い点から、つまりｆ
[0]から順番に計算する。

【００３１】周波数ｆ[0]でのマスクｍｒ[0]は、周波数
ｆ[0]でのパワースペクトルによるマスクだけであるの
で、以下のように求まる。

【００３２】ｍｒ[0]＝ａ[0]

【００３３】周波数ｆ[1]でのマスクマスクｍｒ[1]は、
周波数ｆ[1]でのパワースペクトルによるマスクと、ｆ
[1]よりも低い周波数、つまり周波数ｆ[0]でのパワース
ペクトルによるマスクとの加算となり、以下のように求
まる。

【００３４】ｍｒ[1]＝ａ[1]＋ａ[0]＊１０^{-q/(f[1]-f[0])}

【００３５】周波数ｆ[2]でのマスクマスクマスクｍｒ
[2]は、周波数ｆ[2]でのパワースペクトルによるマスク
と、ｆ[2]よりも低い周波数、つまり周波数ｆ[1]でのパ
ワースペクトル及び周波数ｆ[0]でのパワースペクトル
によるマスクとの加算となり、以下のように求まる。

【００３６】ｍｒ[2]＝ａ[2]＋ａ[1]＊１０^{-q/(f[2]-f[1])}＋ａ[0]＊１０^{-q/(f[2]-f[0])} ＝ａ[2]＋１０^{-q/(f[2]-f[1])}＊｛ａ[1]＋ａ[0]＊１０^{-q/(f[1]-f[0])}｝＝ａ[2]＋１０^{-q/(f[2]-f[1])}＊ｍｒ[1]

【００３７】従って、周波数ｆ[i]でのマスクｍｒ[i]
は、以下のように求める。

【００３８】ｍｒ[i]＝ａ[i]＋１０^{-q/(f[i]-f[i1])}＊ｍｒ[i1]

【００３９】この計算は、１０^{-q(f[i]-f[i1])}の部分を
予め計算して、テーブルとして用意しておけば、積和演
算（和と積だが、隣接する周波数での計算を組み合わせ
れば積和演算となる）１回で済む。つまり、ｎ本のパワ
ースペクトルが存在する場合、これらのパワースペクト
ルのマスクの右側の部分の加算において、１つの周波数
点につき積和演算１回で計算することがで、従って、ｎ
点の周波数について計算するにはｎ回の積和演算を行え
ばよいことになる。

【００４０】次に、マスクの左側の加算について説明す
る。マスクの左側の加算は、右側の加算処理とほとんど
同じで、周波数ｆ[i]において加算されたマスクをｍｌ
[i]とすると、このマスクｍｌ[i]を周波数の高い方か
ら、つまりｆ[n一1]から順番に計算する。

【００４１】周波数ｆ[n-1]でのマスクｍｌ[n-1]は、周
波数ｆ[n-1]より高い周波数にパワースペクトルが存在
しないので、以下のように求まる。

【００４２】ｍｌ[n-1]＝０

【００４３】周波数ｆ[n-2]でのマスクｍｌ[n-2]は、周
波数ｆ[n-2]よりも高い周波数でのパワースペクトルに
よるマスクの加算であるから、以下のように求まる。

【００４４】ｍｌ[n2]＝１０^{-p/(f[n1]-f[n2])}

【００４５】周波数ｆ[n-3]でのマスクｍｌ[n-3]は、周
波数ｆ[n-3]よりも高い周波数でのパワースペクトルに
よるマスクの加算であるから、以下のように求まる。

【００４６】ｍｌ[n3] ＝ａ[n-2]＊１０^{-p/(f[n2]-f[n3])}＋ａ[n-1]＊１０^{-p/(f[n1]-f[n3])} ＝１０^{-p/(f[n2]-f[n3])}＊｛ａ[n-2]＋ａ[n-1]＊１０^{-p/(f[n1]-f[n3])}｝＝１０^{-p/(f[n2]-f[n3])}＊（ａ[n-2]＋ｍｌ[n2]）

【００４７】従って、周波数ｆ[i]でのマスクｍｌ[i]
は、以下のように求められる。

【００４８】ｍｌ[i]＝１０^{-p/(f[i+1]-f[i])}＊（ａ[i+
1]＋ｍｌ[i+1]）

【００４９】この計算についても、１０
^{-p/(f[i+1]-f[i])}を予め計算して、テーブルとして用意
しておけば、積和演算（和と積だが、隣接する周波数で
の計算を組み合わせれば積和演算となる）１回で済み、
ｎ点の周波数について計算するにはｎ回の積和演算を行
えばよいことになる。

【００５０】周波数ｆ[i]におけるマスクの和ｍｔ[i]
は、周波数ｆ[i]におけるマスクの右側の部分の和ｍｒ
[i]とマスクの左側の部分の和ｍｌ[i]とを加算すればよ
い。従って、ｎ点の周波数のマスクの和を求めるには、
ｎ回の加算処理を行えばよいことになる。

【００５１】従って、ｎ本のパワーススペクトルサンプ
ルから、ｎ点の周波数でのパワースペクトルサンプルに
ついて１つ１つのマスクの和を求めるのに必要な演算量
は、積和演算２ｎ回、加算ｎ回となる。

【００５２】ｎの増加に対して、演算量はそれに比例し
て増えるだけであり、従来のようにｎの二乗オーダで急
激に増えることはない。また、従来においては、ｎの値
が入力音声によって変化したが、本実施例では変化しな
い。従って、ｎの値が決まれば、それに適した規模のマ
スク計算回路を備えればよく、従来のようにｎの値が予
想以上に大きくなることを想定して、それに合わせた演
算能力を有する計算回路を備える必要はない。また、従
来のように、入力音声によって処理量が極端に増加し処
理が破綻して雑音を発生することもない。

【００５３】なお、マスクの形状を全てのパワースペク
トルについて従来よりも単純な一定の形状（パワースペ
クトルの右側マスクの傾き−ｑと左側マスクの傾きｐが
一定）にしたことにより、エンコード音の劣化が考えら
れるが、サブサンプリング処理においてパワースペクト
ルサンプルを一定の個数ずつまとめてパワースペクトル
サンプルの個数を減す場合に、１個にまとめるパワース
ペクトルサンプルの数を減らせば、周波数分解能が増加
するので、エンコード音の劣化を低く抑えることができ
る。

【００５４】本発明の音声信号処理回路によってエンコ
ードした結果と、従来の音声信号処理回路によってエン
コードした結果とを、それぞれデコーダに入力して復号
し、オーディオシステムに入力して試聴した聴感評価で
は、一般的な聴感をもつ被験者３人がほとんど差を判別
することができなかった。この結果から、音質を劣化さ
せずに演算量を削減することができるという本発明の有
効性を確認することができであろう。

【００５５】

【発明の効果】以上説明したように本発明によれば、所
定数のパワースペクトルサンプル毎に一定の単位マスク
関数を畳み込んだものをパワースペクトルサンプル毎の
マスクとし、各々のパワースペクトルサンプルのマスク
を足し合わせることによりマスクレベルを算出するた
め、マスクレベルの演算に必要な計算量を少なくするこ
とができる。

【００５６】また、パワースペクトルサンプルの本数が
入力音声によって変化せず、このため、パワースペクト
ルサンプルの本数が決めれば、それに適した規模の演算
手段を備えればよく、処理量の増加を想定して大規模な
演算手段を備える必要をなくすることができる。

【図面の簡単な説明】

【図１】本発明の一実施例による音声信号処理回路の
基本構成を示すブロック図である。

【図２】本実施例の音声信号処理回路において用いる
マスクの形状を説明するための図である。

【図３】本実施例の音声信号処理回路におけるマスク
の加算処理を説明するための図である。

【図４】パワースペクトルの右側のマスクの加算処理
を説明するための図である。

【図５】パワースペクトルの左側のマスクの加算処理
を説明するための図である。

【図６】従来の音声信号処理回路の基本構成を示すブ
ロック図である。

【図７】従来の音声信号処理回路で用いられるマスク
の形状を説明するための図である。

【符号の説明】

１１入力音声サンプル１２ＦＦＴ回路１３サブサンプリング回路１４マスク計算回路２１マスク２２パワースペクトル２３左側のマスク２４右側のマスク

Claims

(57)【特許請求の範囲】

【請求項１】予め量子化された第１所定数の入力音声
サンプルのマスクレベルを算出する音声信号処理回路に
おいて、前記第１所定数の入力音声サンプルに高速フーリエ変換
を施すことにより、前記第１所定数の２分の１個のパワ
ースペクトルサンプルを出力する高速フーリエ変換手段
と、前記第１所定数の２分の１個のパワースペクトルサンプ
ルを定められた本数ずつ加算し、第２所定数のパワース
ペクトルサンプルにサブサンプルするサブサンプリング
手段と、前記第２所定数のパワースペクトルサンプル毎に一定の
単位マスク関数を畳み込んだものをパワースペクトルサ
ンプル毎のマスクとし、各々の前記パワースペクトルサ
ンプルの前記マスクを足し合わせることにより、前記第
２の所定数からなるマスクレベルを算出するマスク計算
手段とからなり、周波数ｆ［０］からｆ［ｎ−１］のｎ個の前記パワース
ペクトルサンプルが存在する場合、第ｉ番目の前記パワ
ースペクトルサンプルの大きさをａ［ｉ］、周波数をｆ
［ｉ］、マスクの傾きをｐとすると、周波数ｆの前記パ
ワースペクトルサンプルに対する前記単位マスク関数
は、ｍｉ（ｆ）＝ａ［ｉ］＊１０ ^{−ｐ／｜ｆ−ｆｉ｜} で表されることを特徴とする音声信号処理回路。
【請求項２】前記マスク計算手段は、前記各パワース
ペクトルサンプルの右側のマスクと、左側のマスクに分
けてマスクレベルをそれぞれ算出することを特徴とする
請求項１に記載の音声信号処理回路。
【請求項３】前記マスク計算手段は、周波数ｆ［０］
からｆ［ｎ−１］のｎ個の前記パワースペクトルサンプ
ルが存在する場合、前記各パワースペクトルサンプルの
右側のマスクと、左側のマスクに分けると共に、前記各パワースペクトルサンプルの右側のマスクについ
て、周波数の低い前記パワースペクトルサンプルのマス
クから順にマスクレベルを算出し、前記各パワースペク
トルサンプルの左側のマスクについて、周波数の高い前
記パワースペクトルサンプルのマスクから順にマスクレ
ベルを算出することを特徴とする請求項１に記載の音声
信号処理回路。
【請求項４】周波数ｆ［０］からｆ［ｎ−１］のｎ個
の前記パワースペクトルサンプルが存在する場合、第ｉ
番目の前記パワースペクトルサンプルの大きさをａ
［ｉ］、周波数をｆ［ｉ］、右側のマスクの傾きを−
ｑ、左側のマスクの傾きをｐとすると、周波数ｆ［ｉ］の前記パワースペクトルサンプルの右側
のマスクは、ｍｒ［ｉ］＝ａ［ｉ］＋１０
^{−ｑ（ｆ［ｉ］−ｆ［ｉ−１）} ＊ｍｒ［ｉ−１］で算出
さされ、周波数ｆ［ｉ］の前記パワースペクトルサンプルの左側
のマスクは、ｍｌ［ｉ］＝１０ ^{−ｐ／（ｆ［ｉ＋１］−ｆ［ｉ）} ＊
（ａ［ｉ＋１］＋ｍｌ［ｉ＋１］）で算出されることを
特徴とする請求項３に記載の音声信号処理回路。