JP3134338B2

JP3134338B2 - ディジタル音声信号符号化方法

Info

Publication number: JP3134338B2
Application number: JP03092739A
Authority: JP
Inventors: 義仁藤原
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1991-03-30
Filing date: 1991-03-30
Publication date: 2001-02-13
Anticipated expiration: 2016-02-13
Also published as: KR920019106A; JPH04304029A; US5268685A; KR100241498B1

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力ディジタル音声信
号を周波数領域及び時間領域で分割された各ブロック毎
に直交変換して得られた信号を各ブロック単位でビット
配分して符号化するようなディジタル音声信号符号化方
法に関する。

【０００２】

【従来の技術】オーディオ信号等をビット圧縮して符号
化する技術の一つとして、時間軸上の入力ディジタル信
号を周波数軸上の信号に変換（いわゆる直交変換）して
符号化する直交変換符号化が知られている。この直交変
換としては、例えばオーディオＰＣＭデータを時間軸方
向の一定ワード数（サンプル数）単位で高速フーリエ変
換（ＦＦＴ）処理を行うようなものがある。

【０００３】この直交変換に先立って、入力信号を複数
の周波数帯域に分割し、各帯域毎にそれぞれブロック化
して直交変換すると共に、直交変換された信号を各ブロ
ック単位でビット割当するような符号化技術が考えられ
ている。

【発明が解決しようとする課題】

【０００４】ところで、エンコーダ側でＦＦＴ等の直交
変換が施された信号は、デコーダ側でＩＦＦＴ（逆高速
フーリエ変換）が施される。このとき、一般に直交変換
の際の周波数分析精度を高くとると時間軸上での精度が
劣化する。これは特に、信号の始まり部分等の過渡部、
あるいは非定常部において、時間的に先立って信号が聞
こえるようないわゆるプリエコーという現象を起こし、
聴感上聞き苦しく、符号化品質に大きな影響を与えてい
る。

【０００５】すなわち、図７の時間軸上のブロックＢ内
においては、無信号（あるいは微小レベル）部分Ｕに、
例えばカスタネットやトライアングル等の打音時のよう
な急激にレベルが増大する部分Ｃが存在する信号が示さ
れている。このブロックＢの信号に対してＦＦＴ処理を
施し、デコーダ側でＩＦＦＴ処理を施すと、図８に示す
ように上記無信号部分Ｕにも信号、すなわち量子化ノイ
ズが現れる。

【０００６】ところで、一般に音に対する人間の聴覚特
性には、マスキング効果と称されるものがある。このマ
スキング効果には、大別して、テンポラルマスキング効
果と同時刻マスキング効果とがある。同時刻マスキング
効果とは、大きな音と同時に発生した小さな音が大きな
音によってマスクされて聞こえなくなるような効果であ
る。テンポラルマスキング効果とは、大きな音の時間的
に前後の小さな音が大きな音によってマスクされて聞こ
えなくなるような効果である。図９はこのテンポラルマ
スキング効果を説明するためのものであり、大きな音Ｃ
の時間的に後方のフォワードマスキングＦＭは、長時間
（例えば100msec 程度）に亘って効果が及ぶのに対し
て、大きな音Ｃの時間的に前方のバックワードマスキン
グＢＭの効果は短時間（例えば５msec程度）しか効かな
い。

【０００７】このため、上記ＦＦＴの変換ブロック内の
時間的に後方部分で急激に信号レベルが上昇した場合に
は、ＩＦＦＴ後のブロック内の前方部分に比較的大きな
ノイズが現れ、耳障りになるという欠点がある。

【０００８】本発明は、このような実情に鑑みて提案さ
れたものであり、入力音声信号をいくつかの帯域に分割
し各帯域毎にそれぞれ直交変換して適応的にビット割当
して符号化する符号化方法であって、マスキングによっ
てもマスクしきれない量子化ノイズを有効に低減し得る
ようなディジタル音声信号符号化方法の提供を目的とす
る。

【０００９】

【課題を解決するための手段】本発明に係るディジタル
音声信号符号化方法は、入力ディジタル音声信号を複数
の周波数帯域に分割し、分割された各帯域毎に時間軸方
向でブロック化して直交変換し、これらの直交変換され
たそれぞれのブロック毎に符号化ビット数を割り当てて
符号化を行うディジタル音声信号符号化方法であって、
上記ブロック毎に時間軸上の信号の過渡部を検出し、こ
の検出された過渡部の上記ブロック内における位置を求
め、この過渡部のブロック内の位置に応じて上記各ブロ
ック毎の割当ビット数を変更することにより、上述の課
題を解決する。

【００１０】ここで、上記過渡性（あるいは非定常性）
については、特に、直交変換ブロックの後方でレベルが
急上昇したことを検出することが望ましい。

【００１１】

【作用】上記過渡性、あるいは非定常性が検出されたブ
ロックについては、上記割当ビットを増やすことによ
り、量子化ノイズを低減し、いわゆるプリエコーの発生
を防止する。

【００１２】

【実施例】図１は本発明の一実施例として、直交変換と
ブロックフローティングとを組み合わせたディジタル信
号符号化装置の一部構成を示している。図１に示す実施
例の高能率符号化装置では、入力ディジタル信号を複数
の周波数帯域に分割すると共に、高い周波数帯域ほどバ
ンド幅を広く選定し、各周波数帯域毎に直交変換を行っ
て、得られた周波数軸のスペクトルデータを、後述する
人間の聴覚特性を考慮したいわゆる臨界帯域幅（クリテ
ィカルバンド）毎に適応的にビット割当して符号化して
いる。これは、帯域分割符号化（ＳＢＣ）、適応変換符
号化（ＡＴＣ）及び適応ビット割当て（ＡＰＣ−ＡＢ）
の各技術を組み合わせた高能率符号化技術である。

【００１３】すなわち、図１において、入力端子１０に
は例えば０〜２０ｋHzのオーディオＰＣＭ信号が供給さ
れている。この入力信号は、例えばいわゆるＱＭＦフィ
ルタ等の帯域分割フィルタ１１により０〜１０ｋHz帯域
と１０ｋ〜２０ｋHz帯域とに分割され、０〜１０ｋHz帯
域の信号は同じくいわゆるＱＭＦフィルタ等の帯域分割
フィルタ１２により０〜５ｋHz帯域と５ｋ〜１０ｋHz帯
域とに分割される。帯域分割フィルタ１１からの１０ｋ
〜２０ｋHz帯域の信号は直交変換回路の一例である高速
フーリエ変換（ＦＦＴ）回路１３に送られ、帯域分割フ
ィルタ１２からの５ｋ〜１０ｋHz帯域の信号はＦＦＴ回
路１４に送られ、帯域分割フィルタ１２からの０〜５ｋ
Hz帯域の信号はＦＦＴ回路１５に送られることにより、
それぞれＦＦＴ処理される。

【００１４】ここで、各ＦＦＴ回路１３、１４、１５に
供給する各帯域毎のブロックについての標準的な入力信
号に対する具体例を図２に示す。この図２の具体例にお
いては、高域側ほど周波数帯域を広げると共に時間分解
能を高め（ブロック長を短くし）ている。すなわち、低
域側の０〜５ｋHz帯域の信号に対しては１ブロックＢＬ
_Lを例えば１０２４サンプルとし、また中域の５ｋ〜１
０ｋHz帯域の信号に対しては、上記低域側の長さＴ_BLの
ブロックＢＬ_Lのそれぞれ半分の長さＴ_BL／２のブロッ
クＢＬ_M1、ＢＬ_M2でブロック化し、高域側の１０ｋ〜２
０ｋHz帯域の信号に対しては、上記低域側のブロックＢ
Ｌ_Lのそれぞれ１／４の長さＴ_BL／４のブロックＢ
Ｌ_H1、ＢＬ_H2、ＢＬ_H3及びＢＬ_H4でブロック化してい
る。なお、入力信号として０〜２２ｋHzの帯域を考慮す
る場合には、低域が０〜５．５ｋHz、中域が５．５ｋ〜
１１ｋHz、高域が１１ｋ〜２２ｋHzとなる。

【００１５】再び図１において、各帯域分割フィルタ１
１、１２から各ＦＦＴ回路１３、１４、１５に供給され
る各周波数帯域の時間軸上の信号は、過渡部検出回路１
７に送られている。この過渡部検出回路１７において、
上記図２に示す各周波数帯域の各ブロック毎に、信号の
過渡部あるいは非定常部の検出が行われる。

【００１６】各ＦＦＴ回路１３、１４、１５にてＦＦＴ
処理されて得られた周波数軸上のスペクトルデータある
いはＦＦＴ係数データは、いわゆる臨界帯域（クリティ
カルバンド）毎にまとめられて適応ビット割当符号化回
路１８に送られている。このクリティカルバンドとは、
人間の聴覚特性を考慮して分割された周波数帯域であ
り、ある純音の周波数近傍の同じ強さの狭帯域バンドノ
イズによって当該純音がマスクされるときのそのノイズ
の持つ帯域のことである。このクリティカルバンドは、
高域ほど帯域幅が広くなっており、上記０〜２０ｋHzの
全周波数帯域は例えば２５のクリティカルバンドに分割
されている。

【００１７】許容雑音算出回路２０は、上記クリティカ
ルバンド毎に分割されたスペクトルデータに基づき、い
わゆるマスキング効果等を考慮した各クリティカルバン
ド毎の許容ノイズ量を求め、この許容ノイズ量と各クリ
ティカルバンド毎のエネルギあるいはピーク値等に基づ
いて、各クリティカルバンド毎に割当ビット数を求め
る。適応ビット割当符号化回路１８により各クリティカ
ルバンド毎に割り当てられたビット数に応じて各スペク
トルデータ（あるいはＦＦＴ係数データ）を再量子化す
るようにしている。このようにして符号化されたデータ
は、出力端子１９を介して取り出される。

【００１８】ここで、上記許容雑音算出回路２０には、
上記過渡部検出回路１７からの検出出力が供給されてお
り、この過渡部検出出力に応じて、上記図２に示すブロ
ック毎に許容雑音が補正されることによって、適応ビッ
ト割当符号化回路１８での各割当ビット数の増減変更が
行われるようになっている。この過渡部（非定常部）検
出動作及び割当ビット数の変更動作の一具体例について
以下に説明する。

【００１９】上記図２の各ブロック毎の時間軸上の信号
データに関する過渡状態は、例えば各ブロックを４分割
し、各分割領域のエネルギ差や比率等に応じて検出する
ようにすればよい。すなわち、例えば１ブロック内のワ
ード数（サンプル数）としてｘ₀からｘ₆₃までの６４ワ
ード（６４サンプル）が存在するとき、これを時間軸方
向で４分割して、ｘ₀〜ｘ₁₅、ｘ₁₆〜ｘ₃₁、ｘ₃₂〜
ｘ₄₇、ｘ₄₈〜ｘ₆₃とする。次に、これらの各分割領域の
サンプルについての２乗和を求め、それぞれＰ₁、
Ｐ₂、Ｐ₃、Ｐ₄とする。例えばＰ₁はｘ₀ ²＋・・・
＋ｘ₁₅ ²である。次に、以下のような条件式を満足する
か否かを順次判別して、過渡状態のモードを決定する。
すなわち例えば、（Ｐ₂＋Ｐ₃＋Ｐ₄)/Ｐ₁＜ｋ₁のときモード０ (Ｐ₂＋Ｐ₃＋Ｐ₄)/Ｐ₁≧ｋ₁かつ (Ｐ₃＋Ｐ₄)/Ｐ₂
＜ｋ₂のときモード１ (Ｐ₃＋Ｐ₄)/Ｐ₂≧ｋ₂かつＰ₄/ Ｐ₃＜ｋ₃のとき
モード２Ｐ₄/ Ｐ₃≧ｋ₃のときモード３ここで、ｋ₁は例えば９、ｋ₂は例えば６、ｋ₃は例え
ば３、とすればよい。

【００２０】これらの各モード０〜モード３の内、モー
ド０は略々定常状態であり、モードの番号が増える程、
信号レベルの立ち上がり部分がブロック内の後方に移る
ことになり、量子化ノイズによるプリエコーの影響が大
きくなる。すなわち、ブロック内の後方位置に信号の立
ち上がりがあると、前述したテンポラルマスキング効果
も期待できず、量子化ノイズが聴感上で耳障りとなるわ
けである。このことを考慮して、番号が大きいモードの
ブロック程、割当ビット数を増やすような変更あるいは
補正を施すのが好ましい。

【００２１】先ず第１に、周波数軸上のマスキング効果
を考慮した１次ビット割当を行った後の余ったビットに
関して、上記モード１〜３のブロックには優先的にビッ
トを再配分することが挙げられる。この再配分には、モ
ード３、２、１の順に優先順位をつける。

【００２２】第２に、上記モード３のような特に問題の
あるブロックについては、１次ビット割当の段階で割当
ビット数を多くとるようにするのも好ましい。すなわち
マスキングを用いた１次ビット割当の代わりに、聴感上
の最大Ｓ／Ｎがとれるような１次ビット割当を優先的に
行う。

【００２３】第３に、上述のような１次ビット割当を行
った結果、ビット数が足りない場合には、上記モード０
のブロックの割当ビットを削るようにし、以下必要に応
じてモード１、２、３の順でビットを削るようにする。

【００２４】第４に、モード１〜３のブロックに余りビ
ットを再配分する際には、Ｓ／Ｎが良くなるように、エ
ネルギの高いバンドにビットを割り当てるのが好まし
い。

【００２５】以上説明したように、上記図２の各ブロッ
ク毎に信号の過渡状態を検出し、検出された過渡状態の
上記各モードに応じて割当ビット数を変更、補正あるい
は再配分することによって、上記プリエコーの影響が生
じ易いブロックのビット数を増加させてＳ／Ｎを改善す
る。

【００２６】次に、図３は上記許容雑音算出回路２０の
一具体例の概略構成を示すブロック回路図である。この
図３において、入力端子２１には、上記各ＦＦＴ回路１
３、１４、１５からの周波数軸上のスペクトルデータが
供給されている。このデータとしては、ＦＦＴ演算をし
て得られるＦＦＴ係数データの実数成分と虚数成分とに
基づいて算出された振幅値と位相値との内の振幅値を用
いるようにしている。これは、一般に人間の聴覚は周波
数軸上の振幅（レベル、強度）には敏感であるが位相に
ついてはかなり鈍感であることを考慮したものである。

【００２７】この周波数軸上の入力データは、帯域毎の
エネルギ算出回路２２に送られて、上記クリティカルバ
ンド（臨界帯域）毎のエネルギが、例えば当該バンド内
での各振幅値の総和を計算すること等により求められ
る。この各バンド毎のエネルギの代わりに、振幅値のピ
ーク値、平均値等が用いられることもある。このエネル
ギ算出回路２２からの出力として、例えば各バンドの総
和値のスペクトルは、一般にバークスペクトルと称され
ている。図４はこのような各クリティカルバンド毎のバ
ークスペクトルＳＢを示している。ただし、この図４で
は、図示を簡略化するため、上記クリティカルバンドの
バンド数を１２バンド（Ｂ₁〜Ｂ₁₂）で表現している。

【００２８】ここで、上記バークスペクトルＳＢのいわ
ゆるマスキングに於ける影響を考慮するために、該バー
クスペクトルＳＢに所定の重み付け関数を掛けて加算す
るような畳込み（コンボリューション）処理を施す。こ
のため、上記帯域毎のエネルギ算出回路２２の出力すな
わち該バークスペクトルＳＢの各値は、畳込みフィルタ
回路２３に送られる。該畳込みフィルタ回路２３は、例
えば、入力データを順次遅延させる複数の遅延素子と、
これら遅延素子からの出力にフィルタ係数（重み付け関
数）を乗算する複数の乗算器（例えば各バンドに対応す
る２５個の乗算器）と、各乗算器出力の総和をとる総和
加算器とから構成されるものである。この畳込み処理に
より、図４中点線で示す部分の総和がとられる。なお、
上記マスキングとは、人間の聴覚上の特性により、ある
信号によって他の信号がマスクされて聞こえなくなる現
象をいうものであり、このマスキング効果には、時間軸
上のオーディオ信号による時間軸マスキング効果と、周
波数軸上の信号による同時刻マスキング効果とがある。
これらのマスキング効果により、マスキングされる部分
にノイズがあったとしても、このノイズは聞こえないこ
とになる。このため、実際のオーディオ信号では、この
マスキングされる範囲内のノイズは許容可能なノイズと
される。

【００２９】ここで、上記畳込みフィルタ回路２３の各
乗算器の乗算係数（フィルタ係数）の一具体例を示す
と、任意のバンドに対応する乗算器Ｍの係数を１とする
とき、乗算器Ｍ−１で係数０．１５を、乗算器Ｍ−２で
係数０．００１９を、乗算器Ｍ−３で係数０．００００
０８６を、乗算器Ｍ＋１で係数０．４を、乗算器Ｍ＋２
で係数０．０６を、乗算器Ｍ＋３で係数０．００７を各
遅延素子の出力に乗算することにより、上記バークスペ
クトルＳＢの畳込み処理が行われる。ただし、Ｍは１〜
２５の任意の整数である。

【００３０】次に、上記畳込みフィルタ回路２３の出力
は引算器２４に送られる。該引算器２４は、上記畳込ん
だ領域での後述する許容可能なノイズレベルに対応する
レベルαを求めるものである。なお、当該許容可能なノ
イズレベル（許容ノイズレベル）に対応するレベルα
は、後述するように、逆コンボリューション処理を行う
ことによって、クリティカルバンドの各バンド毎の許容
ノイズレベルとなるようなレベルである。ここで、上記
引算器２４には、上記レベルαを求めるための許容関数
（マスキングレベルを表現する関数）が供給される。こ
の許容関数を増減させることで上記レベルαの制御を行
っている。当該許容関数は、次に説明するような（ｎ−
ａｉ）関数発生回路２５から供給されているものであ
る。

【００３１】すなわち、許容ノイズレベルに対応するレ
ベルαは、クリティカルバンドのバンドの低域から順に
与えられる番号をｉとすると、次の（１）式で求めるこ
とができる。 α＝Ｓ−（ｎ−ａｉ）・・・（１）この（１）式において、ｎ，ａは定数でａ＞０、Ｓは畳
込み処理されたバークスペクトルの強度であり、（１）
式中(n-ai)が許容関数となる。本実施例ではｎ＝３８，
ａ＝１としており、この時の音質劣化はなく、良好な符
号化が行えた。

【００３２】このようにして、上記レベルαが求めら
れ、このデータは、割算器２６に伝送される。当該割算
器２６では、上記畳込みされた領域での上記レベルαを
逆コンボリューションするためのものである。したがっ
て、この逆コンボリューション処理を行うことにより、
上記レベルαからマスキングスペクトルが得られるよう
になる。すなわち、このマスキングスペクトルが許容ノ
イズスペクトルとなる。なお、上記逆コンボリューショ
ン処理は、複雑な演算を必要とするが、本実施例では簡
略化した割算器２６を用いて逆コンボリューションを行
っている。

【００３３】次に、上記マスキングスペクトルは、合成
回路２７を介して減算器２８に伝送される。ここで、当
該減算器２８には、上記帯域毎のエネルギ検出回路２２
からの出力、すなわち前述したバークスペクトルＳＢ
が、遅延回路２９を介して供給されている。したがっ
て、この減算器２８で上記マスキングスペクトルとバー
クスペクトルＳＢとの減算演算が行われることで、図５
に示すように、上記バークスペクトルＳＢは、該マスキ
ングスペクトルＭＳのレベルで示すレベル以下がマスキ
ングされることになる。

【００３４】当該減算器２８からの出力は、許容雑音補
正回路３０を介し、出力端子３１を介して取り出され、
例えば割当てビット数情報が予め記憶されたＲＯＭ等
（図示せず）に送られる。このＲＯＭ等は、上記減算回
路２８から許容雑音補正回路３０を介して得られた出力
（上記各バンドのエネルギと上記ノイズレベル設定手段
の出力との差分のレベル）に応じ、各バンド毎の割当ビ
ット数情報を出力する。この割当ビット数情報が上記適
応ビット割当符号化回路１８に送られることで、ＦＦＴ
回路１３、１４、１５からの周波数軸上の各スペクトル
データがそれぞれのバンド毎に割り当てられたビット数
で量子化されるわけである。

【００３５】すなわち要約すれば、適応ビット割当符号
化回路１８では、上記クリティカルバンドの各バンドの
エネルギと上記ノイズレベル設定手段の出力との差分の
レベルに応じて割当てられたビット数で上記各バンド毎
のスペクトルデータを量子化することになる。なお、遅
延回路２９は上記合成回路２７以前の各回路での遅延量
を考慮してエネルギ検出回路２２からのバークスペクト
ルＳＢを遅延させるために設けられている。

【００３６】ところで、上述した合成回路２７での合成
の際には、最小可聴カーブ発生回路３２から供給される
図６に示すような人間の聴覚特性であるいわゆる最小可
聴カーブＲＣを示すデータと、上記マスキングスペクト
ルＭＳとを合成することができる。この最小可聴カーブ
において、雑音絶対レベルがこの最小可聴カーブ以下な
らば該雑音は聞こえないことになる。この最小可聴カー
ブは、コーディングが同じであっても例えば再生時の再
生ボリュームの違いで異なるものとなが、現実的なディ
ジタルシステムでは、例えば１６ビットダイナミックレ
ンジへの音楽のはいり方にはさほど違いがないので、例
えば４ｋHz付近の最も耳に聞こえやすい周波数帯域の量
子化雑音が聞こえないとすれば、他の周波数帯域ではこ
の最小可聴カーブのレベル以下の量子化雑音は聞こえな
いと考えられる。したがって、このように例えばシステ
ムの持つワードレングスの４ｋHz付近の雑音が聞こえな
い使い方をすると仮定し、この最小可聴カーブＲＣとマ
スキングスペクトルＭＳとを共に合成することで許容ノ
イズレベルを得るようにすると、この場合の許容ノイズ
レベルは、図６中の斜線で示す部分までとすることがで
きるようになる。なお、本実施例では、上記最小可聴カ
ーブの４ｋHzのレベルを、例えば２０ビット相当の最低
レベルに合わせている。また、この図６は、信号スペク
トルＳＳも同時に示している。

【００３７】また、上記許容雑音補正回路３０では、補
正情報出力回路３３から送られてくる情報に基づいて、
上記減算器２８からの出力における許容雑音レベルを補
正している。この補正情報出力回路３３は、上記過渡部
検出回路１７からの上記図２の各ブロック単位で検出さ
れた過渡状態の上記各モード等に応じて、補正情報を出
力するものであり、上述したようなモードに応じたブロ
ック単位でのビット割当が補正されるように、上記減算
器２８からの出力における許容雑音レベルが補正される
わけである。

【００３８】すなわち、上記符号化回路１８での量子化
の際の出力情報量（データ量）の検出出力と、最終符号
化データのビットレート目標値との間の誤差の情報に基
づいて、上記許容ノイズレベルを補正する。これは、全
てのビット割当単位ブロックに対して予め一時的な適応
ビット割当を行って得られた総ビット数が、最終的な符
号化出力データのビットレートによって定まる一定のビ
ット数（目標値）に対して誤差を持つことがあり、その
誤差分を０とするように再度ビット割当をするものであ
る。すなわち、目標値よりも総割当ビット数が少ないと
きには、差のビット数を各単位ブロックに割り振って付
加するようにし、目標値よりも総割当ビット数が多いと
きには、差のビット数を各単位ブロックに割り振って削
るようにするわけである。

【００３９】このようなことを行うため、上記総割当ビ
ット数の上記目標値からの誤差を検出し、この誤差デー
タに応じて補正情報出力回路３３が各割当ビット数を補
正するための補正データを出力する。ここで、上記誤差
データがビット数不足を示す場合は、上記単位ブロック
当たり多くのビット数が使われることで上記データ量が
上記目標値よりも多くなっている場合を考えることがで
きる。また、上記誤差データが、ビット数余りを示すデ
ータとなる場合は、上記単位ブロック当たり少ないビッ
ト数で済み、上記データ量が上記目標値よりも少なくな
っている場合を考えることができる。したがって、上記
補正情報出力回路３３からは、この誤差データに応じ
て、上記減算器２８からの出力における許容ノイズレベ
ルを、例えば上記過渡状態のモード情報に基づいて補正
させるための上記補正値のデータが出力されるようにな
る。上述のような補正値が、上記許容雑音補正回路３０
に伝送されることで、上記減算器２８からの許容ノイズ
レベルが補正される。

【００４０】なお、補正情報出力回路３３は、いわゆる
等ラウドネスカーブに基づいた補正情報を出力するよう
にもなっており、上記過渡状態の各モード及びこの等ラ
ウドネスカーブを考慮した補正情報により、上記減算器
２８からの出力における許容雑音レベルを補正するよう
にしている。ここで、等ラウドネスカーブとは、人間の
聴覚特性に関する特性曲線であり、例えば１ｋHzの純音
と同じ大きさに聞こえる各周波数での音の音圧を求めて
曲線で結んだもので、ラウドネスの等感度曲線とも呼ば
れる。またこの等ラウドネス曲線は、図６に示した最小
可聴カーブＲＣと略同じ曲線を描くものである。この等
ラウドネス曲線においては、例えば４ｋHz付近では１ｋ
Hzのところより音圧が８〜１０ｄＢ下がっても１ｋHzと
同じ大きさに聞こえ、逆に、５０ｋHz付近では１ｋHzで
の音圧よりも約１５ｄＢ高くないと同じ大きさに聞こえ
ない。このため、上記最小可聴カーブのレベルを越えた
雑音（許容ノイズレベル）は、該等ラウドネス曲線に応
じたカーブで与えられる周波数特性を持つようにするの
が良いことがわかる。このようなことから、上記等ラウ
ドネス曲線を考慮して上記許容ノイズレベルを補正する
ことは、人間の聴覚特性に適合していることがわかる。

【００４１】なお、本発明は上記実施例のみに限定され
るものではなく、例えば、オーディオＰＣＭ信号のみな
らず、ディジタル音声（スピーチ）信号やディジタルビ
デオ信号等の信号処理装置にも適用可能である。また、
上述した最小可聴カーブの合成処理を行わない構成とし
てもよい。この場合には、最小可聴カーブ発生回路３
２、合成回路２７が不要となり、上記引算器２４からの
出力は、割算器２６で逆コンボリューションされた後、
直ちに減算器２８に伝送されることになる。

【００４２】

【発明の効果】本発明に係るディジタル音声信号符号化
方法によれば、入力ディジタル音声信号を時間軸と周波
数軸との２次元的にそれぞれのブロック毎に符号化ビッ
ト数を割り当てて符号化を行う際に、上記ブロック毎に
時間軸上の信号の過渡部を検出し、この検出された過渡
部の上記ブロック内における位置を求め、この過渡部の
ブロック内の位置に応じて上記各ブロック毎の割当ビッ
ト数を変更することにより、量子化ノイズを低減し、い
わゆるプリエコーの発生を防止することができる。

【図面の簡単な説明】

【図１】本発明の一実施例のディジタル信号符号化装置
の概略構成を示すブロック回路図である。

【図２】該実施例装置における分割帯域及び各帯域での
時間軸方向のブロック化の具体例を示す図である。

【図３】図１の装置の許容雑音算出回路２０の具体例を
示すブロック回路図である。

【図４】バークスペクトルを示す図である。

【図５】マスキングスペクトルを示す図である。

【図６】最小可聴カーブ、マスキングスペクトルを合成
した図である。

【図７】直交変換の１ブロック内に過渡部が存在する信
号の一例を示す図である。

【図８】図７の信号をＦＦＴし、ＩＦＦＴした後の信号
を示す図である。

【図９】テンポラルマスキングを説明するための図であ
る。

【符号の説明】

１１、１２・・・・・・・・帯域分割フィルタ１３、１４、１５・・・・・・・・直交変換回路１７・・・・・・・・過渡部検出回路１８・・・・・・・・適応ビット割当符号化回路２０・・・・・・・・許容雑音算出回路２２・・・・・・・・帯域毎のエネルギ検出回路２３・・・・・・・・畳込みフィルタ回路２７・・・・・・・・合成回路２８・・・・・・・・減算器３０・・・・・・・・許容雑音補正回路３２・・・・・・・・最小可聴カーブ発生回路３３・・・・・・・・補正情報出力回路

Claims

(57)【特許請求の範囲】

【請求項１】入力ディジタル音声信号を複数の周波数
帯域に分割し、分割された各帯域毎に時間軸方向でブロ
ック化して直交変換し、これらの直交変換されたそれぞ
れのブロック毎に符号化ビット数を割り当てて符号化を
行うディジタル音声信号符号化方法であって、上記ブロック毎に時間軸上の信号の過渡部を検出し、この検出された過渡部の上記ブロック内における位置を
求め、この過渡部のブロック内の位置に応じて上記各ブロック
毎の割当ビット数を変更することを特徴とするディジタ
ル音声信号符号化方法。