JP3942882B2

JP3942882B2 - ディジタル信号符号化装置およびそれを備えたディジタル信号記録装置

Info

Publication number: JP3942882B2
Application number: JP2001376308A
Authority: JP
Inventors: 修藤井
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2001-12-10
Filing date: 2001-12-10
Publication date: 2007-07-11
Anticipated expiration: 2021-12-10
Also published as: JP2003177797A

Description

【０００１】
【発明の属する技術分野】
本発明は、ミニディスクなどの記録媒体に音楽や音声等のディジタル信号を記録する際に、これらの記録対象に適応して各周波数帯域のスペクトルに対するビット割り当てを行ってデータ量を圧縮するディジタル信号符号化装置に関するものである。
【０００２】
【従来の技術】
音楽や音声等のディジタル信号を高能率で圧縮符号化する従来の方法として、ミニディスクで用いられているＡＴＲＡＣ(Adaptive Transform Acoustic Coding)が挙げられる。このＡＴＲＡＣでは、高能率で圧縮するために、ディジタル信号を複数の周波数帯域（サブバンド）に分割した後、可変長の時間単位で符号化ユニットにブロック化してＭＤＣＴ（Modified Discrete Cosine Transform）処理を施し、スペクトル信号に変換し、さらに聴覚心理特性を利用して割り当てられたビット数で各スペクトル信号をそれぞれ符号化する。
【０００３】
上記の圧縮符号化に適応することができる聴覚心理特性には、等ラウドネス特性やマスキング効果が挙げられる。等ラウドネス特性は、同じ音圧レベルの音であっても、人間が感じ取る音の大きさが周波数によって変化することを表す。従って、等ラウドネス特性は、人間が感じ取ることができる音の大きさである最小可聴限が周波数によって変化することを表している。
【０００４】
一方、マスキング効果には、同時マスキングと経時マスキングとがある。同時マスキングは、複数の周波数成分の音が同時に発生しているときに、ある音が別の音を聞き取り難くさせる現象である。経時マスキングは、大きな音の時間軸方向の前後でマスキングを受ける現象である。
【０００５】
また、ビット割り当ての方法は、上記の聴覚心理特性を利用して、要求される音質レベルと使用できるハードウェア能力とのバランスを考慮したアルゴリズムを採用する必要がある。
【０００６】
例えば、反復法と呼ばれるビット割り当て法では、入力ディジタル信号に適応したビット割り当てが以下のようにして行われている。まず、各周波数帯域のパワーＳを求め、そのパワーＳによる他の周波数帯域に対するマスキングしきい値Ｍを求める。次に、このマスキングしきい値Ｍと、各周波数帯域をｎビットで量子化したときの量子化雑音パワーＮ（ｎ）とから、マスキングしきい値対雑音比ＭＮＲ（ｎ）＝Ｍ／Ｎ（ｎ）を求める。続いて、そのマスキングしきい値対雑音比ＭＮＲ（ｎ）が最小となる周波数帯域にビット割り当てを行った後、そのマスキングしきい値対雑音比ＭＮＲ（ｎ）を更新し、再び最小の周波数帯域にビット割り当てを行う。
【０００７】
【発明が解決しようとする課題】
経時変化の小さい信号の入力時に、瞬間的に経時変化の大きい信号が入力されると、同一周波数の量子化誤差が隣接するフレーム間で変動し、それが異音として知覚されることがある。特に、自身がマスキング効果の影響を受けないピーク周波数の量子化誤差が変動した場合に異音として知覚される。
【０００８】
上記のような異なるタイプの信号に対しては、エネルギー分布に応じたビットの配分が必要となるため、これが適切に行われないと上記のような異音が生じる。
【０００９】
また、前述の反復法は、１フレーム（圧縮処理単位時間）内でビット割り当てを行うので、そのフレーム内では最適な量子化ビット数を算出することができるものの、前後のフレームの信号変化を的確にビット割り当てに反映させることができない。特に、固定ビットレートで圧縮を行う場合、隣接するフレームで信号エネルギー成分が異なれば、同一周波数で量子化誤差の揺らぎ（変動が）発生してしまう。
【００１０】
本発明は、上記の事情に鑑みてなされたものであって、経時変化の小さい信号の入力時に入力された瞬間的に経時変化の大きい信号を符号化する際に、知覚可能な音質劣化を軽減するディジタル信号符号化装置を提供することを目的としている。
【００１１】
【課題を解決するための手段】
本発明のディジタル信号符号化装置は、ディジタル信号を所定の複数の周波数帯域毎にスペクトルデータに変換し、各周波数帯域のスペクトルデータをそれぞれに応じて与えられたビット割当量で符号化するディジタル信号符号化装置において、上記の課題を解決するために、時間的に連続する各フレームのビット割当量を前記周波数帯域毎に算出するビット割当量算出手段と、このビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第１量子化誤差算出手段と、前記ビット割当量算出手段によって算出された、現フレームの１つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第２量子化誤差算出手段とを備え、上記ビット割当量修正手段が、前記第１量子化誤差算出手段で算出された現フレームのビット割当量と前記第２量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を所定値より小さくなるように修正することを特徴としている。
【００１２】
上記の構成では、あるフレームのビット割当量が、ビット割当量算出手段によって算出されると、そのビット割当量の量子化誤差が、第１量子化誤差算出手段によって算出される。また、そのフレームに続くフレームのビット割当量の量子化誤差も同様にして算出される。これらの続く２つのフレームをそれぞれ前フレームと現フレームとして、ビット割当量修正手段によって、現フレームのビット割当量が前フレームのビット割当量を基に修正される。この結果、最終のビット割当量が得られる。そして、このビット割当量の量子化誤差が、第２量子化誤差算出手段によって算出される。
【００１３】
ビット割当量修正手段による修正時には、現フレームのビット割当量の量子化誤差と、第２量子化誤差算出手段で算出された前フレームとのビット割当量の量子化誤差との差分が所定値より小さくなるように修正される。これにより、経時変化の小さい信号の入力時に入力された瞬間的に経時変化の大きい信号を符号化するような場合でも、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制される。
【００１４】
上記のディジタル信号符号化装置は、前記スペクトルデータのパワー、エネルギーまたはスケールファクタの最大値を抽出する最大値抽出手段を備え、前記ビット割当量修正手段が、抽出された前記最大値が属する周波数帯域で前記差分を修正することが好ましい。このような構成では、スペクトルデータの上記の最大値が、最大値抽出手段によって抽出されると、その最大値でビット割当量修正手段による上記のビット割当量の修正が行われる。これにより、ピーク周波数の量子化誤差の変動が抑制される。
【００１５】
ここで、スペクトルデータのパワー、エネルギーまたはスケールファクタの最大値が属する周波数帯域の周波数をピーク周波数と称する。このピーク周波数は、最小可聴限以上の信号レベルではマスキングされずに可聴周波数となるので、量子化誤差の揺らぎ（変動）が発生すると、最も異音として知覚されやすい周波数である。それゆえ、上記のようにピーク周波数の量子化誤差の変動を抑制することによって、マスキングしきい値対雑音非を用いたビット割当法、信号対雑音比を用いたビット割当法およびマスキングしきい値対雑音比と信号対雑音比とを併用するビット割当法のいずれにも、従来のビット割当法を用いた場合と比較して、同一周波数の量子化誤差の変動が抑制される。
【００１６】
本発明の他のディジタル信号符号化装置は、ディジタル信号を所定の複数の周波数帯域毎にスペクトルデータに変換し、各周波数帯域スペクトルの大きさから、想定した各ビット数に対して各周波数帯域のマスキングしきい値対雑音比を求め、前記ビット数毎に前記マスキングしきい値対雑音比が最小となる周波数帯域から順に与えられたビット割当量で前記スペクトルデータを符号化するディジタル信号符号化装置において、上記の課題を解決するために、時間的に連続する各フレームのビット割当量を前記周波数帯域毎に算出するビット割当量算出手段と、このビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第１量子化誤差算出手段と、前記量子化誤差を非マスキング周波数帯域について抽出する非マスキング周波数帯域抽出手段と、前記ビット割当量算出手段によって算出された、現フレームの１つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第２量子化誤差算出手段とを備え、上記ビット割当量修正手段が、前記第１量子化誤差算出手段で算出された現フレームのビット割当量と前記第２量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を前記非マスキング周波数帯域の量子化誤差について所定値より小さくなるように修正することを特徴としている。
【００１７】
上記の構成では、あるフレームのビット割当量がビット割当量算出手段によって算出されると、そのビット割当量の量子化誤差が第１量子化誤差算出手段によって算出される。すると、マスキング周波数帯域抽出手段によって、その量子化誤差が聴覚心理を用いて非マスキング周波数帯域について抽出される。また、そのフレームに続くフレームのビット割当量の非マスキング周波数帯域についての量子化誤差も同様にして算出される。これらの２つの続くフレームをそれぞれ前フレームと現フレームとして、ビット割当量修正手段によって、現フレームのビット割当量が前フレームのビット割当量を基に修正される。この結果、最終のビット割当量が得られる。そして、このビット割当量の量子化誤差が第２量子化誤差算出手段によって算出される。
【００１８】
ビット割当量修正手段による修正時には、現フレームのビット割当量の非マスキング周波数帯域についての量子化誤差と、第２量子化誤差算出手段で算出された前フレームのビット割当量の非マスキング周波数帯域についての量子化誤差との差分が所定値より小さくなるように修正される。これにより、経時変化の小さい信号の入力時に入力された瞬間的に経時変化の大きい信号を符号化するような場合でも、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制される。
【００１９】
本発明のディジタル信号記録装置は、入力ディジタル信号を所定の符号化処理によって符号化して記録媒体に記録するディジタル信号記録装置であって、上記符号化処理を行うために、上記のいずれかのディジタル信号符号化装置を含んでいることを特徴としている。この構成では、上記の各ディジタル信号符号化装置によって、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制されることから、経時変化の小さい信号の記録時に経時変化の大きい信号が入力されても、量子化誤差に起因する上記のような音質の劣化の少ない信号を記録することができる。
【００２０】
【発明の実施の形態】
本発明の実施の一形態について図１ないし図１１に基づいて説明すれば、以下の通りである。
【００２１】
まず、本実施の形態に係るミニディスク装置について説明する。
【００２２】
図２に示すように、ディジタル信号記録装置としての本ミニディスク装置において、入力端子１から入力されたディジタル信号としてのディジタルオーディオ信号が、例えば、光信号としてシリアル入力される。この光信号は、光電素子２によって電気信号に変換された後、ディジタルＰＬＬ回路（Phase-Locked-Loop）３に入力される。
【００２３】
ディジタルＰＬＬ回路３は、入力されたディジタルオーディオ信号からクロックの抽出を行うとともに、サンプリング周波数および量子化ビット数に対応したマルチビットデータを再現する。このマルチビットデータは、信号源毎に対応したサンプリングレート（コンパクトディスクでは４４．１ｋＨｚ、ディジタルオーディオテープレコーダでは４８ｋＨｚ、衛星放送（Ａモード）では３２ｋＨｚ）で標本化されたディジタルデータである。そこで、ディジタルＰＬＬ回路３から出力されたマルチビットデータは、周波数変換回路４によって、そのサンプリングレートをミニディスクの規格に対応した４４．１ｋＨｚに変換する。
【００２４】
音声圧縮回路５は、前述のＡＴＲＡＣ方式によって入力されたディジタルオーディオデータの圧縮符号化を行う。符号化されたディジタルオーディオデータは、ショックプルーフメモリコントローラ６を介して信号処理回路７に送出される。ショックプルーフメモリコントローラ６によって制御されるショックプルーフメモリ８は、音声圧縮回路５から出力されるディジタルオーディオデータの転送速度と、信号処理回路７に入力されるディジタルオーディオデータの転送速度との差を吸収するとともに、再生時における振動等の外乱による再生信号の中断を補間し、ディジタルオーディオデータを保護するために設けられている。
【００２５】
信号処理回路７は、エンコーダおよびデコーダとしての機能を備えている。エンコーダとしての機能は、入力されたディジタルオーディオデータをシリアルの磁界変調信号にエンコードしてヘッド駆動回路９に与える。デコーダとしての機能は、後述するＲＦアンプ１３からのシリアル信号をディジタルオーディオデータにデコードしてショックプルーフメモリコントローラ６に与える
ヘッド駆動回路９は、記録時に、記録ヘッド１０をミニディスク１１上の所定の記録位置に移動させるとともに、上記の磁界変調信号に対応した磁界を発生させる。この状態で、ミニディスク１１上の所定の記録位置には、光ピックアップ１２からレーザ光が照射されている。これにより、上記の磁界に対応した磁化パターンがミニディスク１１上に形成される。
【００２６】
光ピックアップ１２は、ミニディスク１１から上記の磁化パターンに対応したシリアル信号を読み取る。このシリアル信号は、高周波アンプ（以降、ＲＦアンプと称する）１３で増幅された後、信号処理回路７によってディジタルオーディオデータにデコードされる。このディジタルオーディオデータは、ショックプルーフメモリコントローラ６およびショックプルーフメモリ８によって外乱による影響が除去された後、音声伸長回路１４に送出される。
【００２７】
音声伸長回路１４は、ＡＴＲＡＣ方式による圧縮符号化の逆変換処理（伸長復号化）を行い、フルビットのディジタルオーディオデータを復調する。復調されたディジタルオーディオデータは、ディジタル／アナログ変換回路（以降、Ａ／Ｄ変換回路と称する）１５によってアナログオーディオ信号に変換され、出力端子１６から外部へ出力される。
【００２８】
ＲＦアンプ１３で増幅されたシリアル信号は、サーボ回路１７にも入力される。サーボ回路１７は、再生されたシリアル信号に応じてドライバ回路１８に制御信号を送出し、そのドライバ回路１８を介してスピンドルモータ１９の回転速度をフィードバック制御する。このようなフィードバック制御により、ミニディスク１１を線速度一定で回転させることができる。
【００２９】
また、サーボ回路１７は、ドライバ回路１８を介して送りモータ２０の回転速度もフィードバック制御する。このようなフィードバック制御により、ミニディスク１１の半径方向に対する光ピックアップ１２の変移制御、すなわちトラッキング制御を行うことができる。さらに、サーボ回路１７は、ドライバ回路１８を介して光ピックアップ１２のフォーカシング制御も行う。
【００３０】
上記の信号処理回路７、光ピックアップ１２、ＲＦアンプ１４、サーボ回路１７、ドライバ回路１８等には、図示しない電源回路から電力が供給されるが、このような電力供給動作や後述する信号処理動作は、全てシステムコントロールマイクロコンピュータ２１によって集中管理されている。このシステムコントロールマイクロコンピュータ２１には、曲名入力、選曲操作、音質調整動作等を行うための入力装置２２が接続されている。
【００３１】
続いて、本実施の形態のディジタル信号符号化装置としての前述の音声圧縮回路５におけるディジタルデータ符号化処理について説明する。その前に、まず、ミニディスク１１等で利用する前述のＡＴＲＡＣによる符号化・復号化処理について説明する。
【００３２】
図３に示すように、音声圧縮回路５は、スペクトル変換部５１およびビット割当処理部５２を有している。
【００３３】
スペクトル変換部５１は、符号化時、４４．１ｋＨｚのサンプリング周波数でサンプリングされたオーディオ信号（マルチビットデータ）を、帯域分割フィルタであるＱＭＦ（Quadrature Mirror Filter）によって複数の周波数帯域（サブバンドフレーム）に分割する。また、スペクトル変換部５１は、分割されたサブバンドフレーム単位で前述のＭＤＣＴ処理を行い、各帯域の周波数成分のＭＤＣＴ係数（スペクトルデータ）を生成する。このときのＭＤＣＴ処理は、次式（１）で表される。
【００３４】
Ｘｍ（ｋ）＝Σxm(i)h(i)cos(π/M(k＋1/2)(i＋M/2＋1/2) …（１）
式（１）において、ｋ＝０，１，…，Ｍ−１、
ｍ：ブロック番号、
xm(i)：入力信号、
h(i)：順変換用窓関数、
Ｘｍ（ｋ）：変換データ
である。
【００３５】
ビット割当処理部５２は、上記のＭＤＣＴ係数を、ｉ個の各周波数帯域のスペクトルパワーＳｉ（ｉ＝１，２，…，Ｉ；例えばＩ＝２５）に変換し、各スペクトルパワーに対して後述のようにしてビット割当処理を行う。このスペクトルパワーＳｉは、臨界帯域（単位Bark）等が用いられる。臨界帯域は、周波数選択性、マスキングしきい値等の特定の音響心理学的規則性が有効な広帯域オーディオスペクトルの特性的部分のことである。
【００３６】
以下に、上記のビット割当処理部５２について詳細に説明する。
【００３７】
ビット割当処理部５２は、図１に示すように、パワー算出部５２ａ、ＳＮＲ算出部５２ｂ、１次量子化ビット数算出部５２ｃ、量子化ノイズ算出部５２ｄ、２次量子化ビット数算出部５２ｅおよび量子化ノイズ保存部５２ｆを備えている。
【００３８】
パワー算出部５２ａは、帯域毎に設けられており、前述のＭＤＣＴ処理によって得られたＭＤＣＴ係数を臨界帯域等の各周波数帯域に分割し、各周波数帯域に属するＭＤＣＴ係数の２乗和から、前記のスペクトルパワーＳｉをそれぞれの帯域について算出する。ここで、パワーとは、単位時間当たりのエネルギーのことをいう。
【００３９】
ＳＮＲ算出部５２ｂは、スペクトルパワーＳｉとこのスペクトルパワーＳｉをｎビットで量子化したときの量子化雑音パワーＮｉ（ｎ）とから、信号対雑音比ＳＮＲｉ（ｎ）＝Ｓｉ／Ｎｉ（ｎ）を算出する。このＳＮＲｉ（ｎ）は、統計的には、信号の特性に応じた定数となるので、統計処理によって予め求められていてもよい。
【００４０】
ビット割当量算出手段としての１次量子化ビット数算出部５２ｃは、所望のビットレートと上記のＳＮＲｉ（ｎ）とに基づいて前述の反復法を用いて量子化ビット数を算出する。ここでは、前述の反復法におけるマスキングしきい値Ｍを信号Ｓに置き換えて量子化ビット数を算出する。
【００４１】
第１量子化誤差算出手段としての量子化ノイズ算出部５２ｄは、現フレームにおいて、前記の処理で求めたｎより量子化雑音パワーＮｉ（ｎ）を確定する。
【００４２】
ビット割当量修正手段としての２次量子化ビット数算出部５２ｅは、量子化ノイズ保存部５２ｆに保存された前フレームの量子化雑音パワーＮｉ（ｎ）と、量子化ノイズ算出部５２ｄで算出された現フレームの量子化雑音パワーＮｉ（ｎ）との差分の絶対値を求め、その絶対値が所定値より小さくなるように、周波数帯域の個数ｉを修正し、その個数ｉに基づいて、１次量子化ビット数算出部５２ｃで算出された量子化ビット数を修正する。
【００４３】
第２量子化誤差算出手段としての量子化ノイズ保存部５２ｆは、２次量子化ビット数算出部５２で算出された各周波数帯域の最終量子化ビット数ｎから前フレームの量子化雑音パワーＮｉ（ｎ）を算出し、保存する。この量子化ノイズ保存部５２ｆは、保存した前フレームの量子化雑音パワーＮｉ（ｎ）を２次量子化ビット数算出部５２ｅでの上記の差分を求めるために、２次量子化ビット数算出部５２ｅに与える。
【００４４】
上記のように構成されるビット割当処理部５２においては、次のようにして割当処理が行われる。
【００４５】
まず、図４に示すように、時間ｔ１、すなわち、初期フレームの場合、２次量子化ビット数算出部５２ｅでのビット数算出処理を行わずに、１次量子化ビット数算出部５２ｃのｎが最終量子化ビット数となる。次に、量子化ノイズ保存部５２ｆは、時間ｔ１のフレームを前フレームとして、各周波数帯域の最終量子化ビット数ｎから時間ｔ１のフレームの量子化雑音パワーNit1（ｎ）を算出して保存する。
【００４６】
時間ｔ２、すなわち時間ｔ１の次のフレーム処理では、パワー算出部５２ａ、ＳＮＲ算出部５２ｂ、１次量子化ビット数算出部５２ｃおよび量子化ノイズ算出部５２ｄまで、初期フレームと同様の処理が行われ、量子化雑音パワーNit2'（ｎ）が算出される。２次量子化ビット数算出部５２ｅでは、まず、時間ｔ１の量子化雑音パワーNit1（ｎ）と時間ｔ２の量子化雑音パワーNit2'（ｎ）との差分が求められる。図４において、時間ｔ１の全帯域のパワー（＝Σsit1）と時間ｔ２の全帯域のパワー（＝Σsit2'）との関係は、Σsit1＜Σsit2'である。従って、固定ビットレートの場合には、おおむね、各周波数帯域でNit1（ｎ）＜Nit2'（ｎ）の関係が成立している。
【００４７】
次に、２次量子化ビット数算出部５２ｅでは、例えば、Ｓｉの周波数帯域とパワーとを参照して、｜Nit2'（ｎ）−Nit1（ｎ）｜で表される差分を、｜Nit2'（ｎ）−Nit1（ｎ）｜＜１２ｄＢ（所定値）となるように、０〜２５のｉの値について修正する。図５に示す例では、時間ｔ２にフレームについて、４つのサブバンドフレームＳＢ１〜ＳＢ４に対し、低域のビット割当量が増加修正され、高域のビット割当量が削減修正されていることを示す。この補正においては、補正対象となる周波数帯域のビット割当量を聴覚心理特性や信号のパワーに応じて重み付けして修正するのがより好ましい。
【００４８】
以上のように、本ビット割当処理部５２は、１次量子化ビット数算出部５２ｃで算出したビット割当量（量子化ビット数）を２次量子化ビット数算出部５２ｅで修正する際に、量子化ノイズ保存部５２ｆで算出して保存した前フレームの量子化雑音パワー（量子化誤差）と、量子化ノイズ算出部５２ｄで算出した現フレームの量子化雑音パワー（量子化誤差）との差分が所定値より小さくなるように修正を行う。これにより、経時変化の小さい信号の入力時に、瞬間的に経時変化の大きい信号が入力されるような場合でも、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制される。
【００４９】
続いて、他のビット割当処理部５２について説明する。
【００５０】
本ビット割当処理部５２は、図６に示すように、図１に示すビット割当処理部５２におけるパワー算出部５２ａ、量子化ノイズ算出部５２ｄ、２次量子化ビット数算出部５２ｅおよび量子化ノイズ保存部５２ｆを備えるとともに、マスキング算出部５２ｇ、最小可聴限合成部５２ｈ、ＳＭＲ算出部５２ｉ、ＭＮＲ算出部５２ｊ、１次量子化ビット数算出部５２ｋおよび非マスキング領域抽出部５２ｍを備えている。
【００５１】
マスキング算出部５２ｇは、上記のスペクトルパワーＳｉより、公知の手段によってマスキングしきい値を算出する。例えば、ＭＰＥＧ１の聴覚心理モデル１を用いれば以下のような式になる。
【００５２】
Ｖｆ＝17×(dz＋1)−(0．4×Ｘ〔z(i)〕＋6) ｄＢ(-3≦dz＜-1)Bark
Ｖｆ＝(0．4×Ｘ〔z(i)〕＋6) ｄＢ(-1≦dz＜0)Bark
Ｖｆ＝−17×dz ｄＢ(0≦dz＜1)Bark
Ｖｆ＝−(dz−1)×(17−0.15×Ｘ〔z(i)〕)−17 ｄＢ(1≦dz＜8)Bark
Ｖｆ＝−∞ ｄＢ(-3＞dz,8＜1dz)Bark
ここで、dz＝ｚ[ｊ]−ｚ[ｉ]、
Ｘ[ｚ(ｉ)]＝１０ｌｏｇ₁₀Ｓｉ
であり、Ｂａｒｋは臨界帯域の単位を表す。
【００５３】
上記の各式のＶｆをｉ（臨界帯域のインデックス）毎に算出し、重複する周波数については最大のＶｆを選択することによってマスキングしきい値が求められる。マスキングしきい値を算出するための方法としては、その他、いくつかの公知の方法があるので、上記の方法には限定されない。
【００５４】
最小可聴限合成部５２ｈは、次式等で表される最小可聴限特性等と上記のマスキング算出部５２ｇで求めたマスキングしきい値とを合成して、図７に示すような最終のマスキングしきい値Ｍｉを各周波数帯域について決定する。最小可聴限特性は、予めテーブルＲＯＭに格納されていてもよい。
【００５５】
lt(f)=-0.6×3.64×(f/1000)^-0.8＋6.5×exp(-0.6(f/1000-3.3)²-10^-3×(f/1000)⁴ …（２）
ＳＭＲ算出部５２ｉは、各周波数のインデックスを上記のｉとすると、パワー算出部５２ａで求めたスペクトルパワーＳｉと、最小可聴限合成部５２ｈで求めた各周波数帯域のマスキングしきい値Ｍｉとの比ＳＭＲｉ＝Ｓｉ／Ｍｉを全ての周波数帯域にわたって計算する。なお、上記のｆは周波数（Ｈｚ）である。
【００５６】
ＭＮＲ算出部５２ｊは、各周波数帯域の上記のスペクトルパワーＳｉをｎビットで量子化したときの、このスペクトルパワーＳｉと量子化雑音パワーＮｉ（ｎ）との比ＳＮＲｉ（ｎ）＝Ｓｉ／Ｎｉ（ｎ）を算出し、この比ＳＮＲｉ（ｎ）と前記のＳＭＲｉとの比から、マスキングしきい値と量子化雑音パワーとの比ＭＮＲｉ（ｎ）＝ＳＮＲｉ（ｎ）／ＳＭＲｉが求められる。上記の比ＳＮＲ（ｎ）は、統計的には、信号の特性に応じた特性となるので、統計処理によって求めておいてもよい。
【００５７】
１次量子化ビット数算出部５２ｋは、ＭＮＲ算出部５２ｊで求められたマスキングしきい値と量子化雑音パワーとの比ＭＮＲｉ（ｎ）に基づいて、各周波数帯域の量子化ビット数を次のようにして割り当てる。ビット数ｎを０から大きくしていき、その都度、各周波数帯域のマスキングしきい値と量子化雑音パワーとの比ＭＮＲｉ（ｎ）を計算し、その比ＭＮＲｉ（ｎ）が最小となる周波数帯域から順にビットを割り当てていき、前記の量子化ビット数ｎを更新する毎に、同様に比ＭＮＲｉ（ｎ）が最小となる周波数帯域にビットの割り当てを行い、ビットレートに応じた所定の割当可能ビット数となるまで割り当てを行う。すなわち、前記のスペクトルパワーＳｉが、しきい値Ｍｉを超えた部分が最も大きい周波数帯域から順次ビット割り当てが行われることになる。
【００５８】
非マスキング周波数帯域抽出手段としての非マスキング領域抽出部５２ｍは、前述の比ＳＭＲｉに基づいて非マスキング領域（非マスキング周波数帯域）を聴覚心理を用いて抽出する。具体的には、前述の比ＳＭＲｉが１を超える周波数帯域が非マスキング周波数帯域であり、比ＳＭＲｉが１以下である周波数帯域がマスキング周波数帯域であることから、各周波数帯域についてＳＭＲｉ＞１を判定し、非マスキング周波数帯域を求める。
【００５９】
ここでの、２次量子化ビット数算出部５２ｅは、非マスキング周波数帯域のみに対し、｜Nit2'（ｎ）−Nit1（ｎ）｜＞１２ｄＢとなるｎについて｜Nit2'（ｎ）−Nit1（ｎ）｜＜１２ｄＢとなるように、ｉ＝０，…，２５まで修正を施す。
【００６０】
修正によって削除または増加する量子化ビット数は、図８に示すマスキング周波数帯域ＳｉＭ（斜線部）内で調整される。
【００６１】
このように、本ビット割当処理部５２は、図１のビット割当処理部５２と同様に、１次量子化ビット数算出部５２ｋで算出したビット割当量（量子化ビット数）を２次量子化ビット数算出部５２ｅで修正するが、非マスキング領域抽出部５２ｍで抽出した非マスキング周波数帯域に対してのみ修正を行う。これにより、音楽や音声のように非マスキング周波数帯域の成分を多く含むために聴覚心理特性を利用することが好ましいソースに対して、量子化誤差の変動によって発生する異音として知覚可能な音質の劣化を低減することができる。
【００６２】
引き続き、さらに他のビット割当処理部５２について説明する。
【００６３】
本ビット割当処理部５２は、図９に示すように、図１に示すビット割当処理部５２と同様、パワー算出部５２ａ、量子化ノイズ算出部５２ｄ、１次量子化ビット数算出部５２ｃ、量子化ノイズ算出部５２ｄ、２次量子化ビット数算出部５２ｅおよび量子化ノイズ保存部５２ｆを備えており、さらにパワー最大帯域抽出部５２ｎを備えている。
【００６４】
最大値抽出手段としてのパワー最大帯域抽出部５２ｎは、パワー算出部５２ａで算出された前述のスペクトルパワーＳｉの中からスペクトルパワー最大値Max(Si)を抽出する。具体的には、パワー最大帯域抽出部５２ｎは、スペクトルパワーＳｉ（ｉ＝１，２，…，Ｉ）の中から最大となるＳｉのインデックスｉを抽出することでスペクトルパワー最大値Max(Si)を抽出する。
【００６５】
なお、パワー最大帯域抽出部５２ｎは、後述するエネルギーの最大値を抽出する場合、エネルギーＥｉ（ｉ＝１，２，…，Ｉ）の中から最大となるエネルギーＥｉのインデックスｉを抽出する。また、パワー最大帯域抽出部５２ｎは、後述するスケールファクタの最大値を抽出する場合、スケールファクタＳＦｉ（ｉ＝１，２，…，Ｉ）の中から最大となるスケールファクタＳＦｉのインデックスｉを抽出する。このスケールファクタは、スペクトルデータのスケール（大きさ）の因子を表しており、一般的には、量子化される周波数単位の中で、最大スペクトルの絶対値をコード化することによって算出される。
【００６６】
ここでの２次量子化ビット数算出部５２ｅは、上記のスペクトルパワー最大値Max(Si)に対してのみ、｜Nit2'（ｎ）−Nit1（ｎ）｜で表される差分が｜Nit2'（ｎ）−Nit1（ｎ）｜＞１２ｄＢであれば、その差分を｜Nit2'（ｎ）−Nit1（ｎ）｜＜１２ｄＢとなるように修正を施す。また、上記のスペクトルデータのエネルギーまたはスケールファクタの最大値がそれぞれ抽出される場合は、それらに対してのみ上記のようにして量子化ビット数を修正する。
【００６７】
この修正によって減少または増加する量子化ビット数は、図１０に示すパワー最大帯域ＳｉＥ（斜線部）以外の帯域の量子化ビット数を用いて調整される。
【００６８】
このように、本ビット割当処理部５２は、図１のビット割当処理部５２と同様に、１次量子化ビット数算出部５２ｃで算出したビット割当量（量子化ビット数）を２次量子化ビット数算出部５２ｅで修正するが、パワー最大帯域抽出部５２ｎで抽出したスペクトルパワー最大値（ピーク周波数）に対してのみ修正を行う。これにより、ピーク周波数の量子化誤差の変動が抑制される。上記のピーク周波数は、スペクトルデータのパワー、エネルギーまたは指標（スケールファクタ）のいずれかの最大値が属する周波数帯域の周波数を総称したものである。
【００６９】
ピーク周波数は、マスキングの影響を受けないため（最小可聴限の影響を受けることはある）、聴覚心理上重要な周波数である。つまり、ピーク周波数は、最小可聴限以上の信号レベルではマスキングされずに可聴周波数となるので、量子化誤差の揺らぎ（変動）が発生すると、最も異音として知覚されやすい周波数である。
【００７０】
それゆえ、ピーク周波数の量子化誤差の変動を抑制することによって、マスキングしきい値対雑音非を用いたビット割当法、信号対雑音比を用いたビット割当法およびマスキングしきい値対雑音比と信号対雑音比とを併用するビット割当法のいずれにも、従来のビット割当法を用いた場合と比較して、同一周波数の量子化誤差の変動を抑制することができる。
【００７１】
また、本実施の形態のミニディスク装置が、図１、図６および図９のビット割当処理部５２を含む音声圧縮回路５を含むことによって、上記のように、量子化誤差の変動が抑制されたディジタルオーディオデータの圧縮符号化を行うことができる。それゆえ、経時変化の小さい信号の記録時に経時変化の大きい信号が入力されても、量子化誤差に起因する音質の劣化の少ない信号を記録することができる。
【００７２】
なお、本発明のディジタル信号符号化装置は、実施の形態においてミニディスク装置に適用されているが、同様な符号化を必要とする他の装置にも適用できることは勿論である。
【００７３】
【発明の効果】
以上のように、本発明のディジタル信号符号化装置は、時間的に連続する各フレームのビット割当量を周波数帯域毎に算出するビット割当量算出手段と、このビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第１量子化誤差算出手段と、前記ビット割当量算出手段によって算出された、現フレームの１つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第２量子化誤差算出手段とを備え、上記ビット割当量修正手段が、前記第１量子化誤差算出手段で算出された現フレームのビット割当量と前記第２量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を所定値より小さくなるように修正する構成である。
【００７４】
これにより、ビット割当量修正手段による修正時には、現フレームのビット割当量の量子化誤差と、第２量子化誤差算出手段で算出された前フレームとのビット割当量の量子化誤差との差分が所定値より小さくなるように修正される。それゆえ、経時変化の小さい信号の入力時に、瞬間的に経時変化の大きい信号が入力されるような場合でも、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制される。したがって、その量子化誤差の変動によって発生する異音として知覚可能な音質の劣化を低減することができるという効果を奏する。
【００７５】
上記のディジタル信号符号化装置は、前記スペクトルデータのパワー、エネルギーまたはスケールファクタの最大値を抽出する最大値抽出手段を備え、前記ビット割当量修正手段が、抽出された前記最大値が属する周波数帯域で前記差分を修正することによって、スペクトルデータのパワー、エネルギーまたはスケールファクタの最大値が属する周波数帯域の周波数であるピーク周波数の量子化誤差の変動が抑制される。これにより、マスキングしきい値対雑音非を用いたビット割当法、信号対雑音比を用いたビット割当法およびマスキングしきい値対雑音比と信号対雑音比とを併用するビット割当法のいずれにも、従来のビット割当法を用いた場合と比較して、同一周波数の量子化誤差の変動が抑制される。したがって、経時変化に起因する知覚可能な音質劣化を低減することができるという効果を奏する。
【００７６】
本発明の他のディジタル信号符号化装置は、時間的に連続する各フレームのビット割当量を前記周波数帯域毎に算出するビット割当量算出手段と、このビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第１量子化誤差算出手段と、前記量子化誤差を非マスキング周波数帯域について抽出する非マスキング周波数帯域抽出手段と、前記ビット割当量算出手段によって算出された、現フレームの１つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第２量子化誤差算出手段とを備え、上記ビット割当量修正手段が、前記第１量子化誤差算出手段で算出された現フレームのビット割当量と前記第２量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を前記非マスキング周波数帯域の量子化誤差について所定値より小さくなるように修正する構成である。
【００７７】
これにより、ビット割当量修正手段による修正時には、現フレームのビット割当量の非マスキング周波数帯域についての量子化誤差と、第２量子化誤差算出手段で算出された前フレームのビット割当量の非マスキング周波数帯域についての量子化誤差との差分が所定値より小さくなるように修正される。それゆえ、経時変化の小さい信号の入力時に、瞬間的に経時変化の大きい信号が入力されるような場合でも、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制される。したがって、音楽や音声のように聴覚心理特性を利用することが好ましいソースに対して、量子化誤差の変動によって発生する異音として知覚可能な音質の劣化を低減することができるという効果を奏する。
【００７８】
本発明のディジタル信号記録装置は、入力ディジタル信号を所定の符号化処理によって符号化して記録媒体に記録するディジタル信号記録装置であって、上記符号化処理を行うために、上記のいずれかのディジタル信号符号化装置を含んでいる構成である。
【００７９】
上記の各ディジタル信号符号化装置によって、隣接するフレーム間での同一周波数の量子化誤差の変動が抑制されることから、経時変化の小さい信号の記録時に経時変化の大きい信号が入力されても、量子化誤差に起因する上記のような音質の劣化の少ない信号を記録することができる。したがって、高音質での記録が可能なディジタル信号記録装置を提供することができるという効果を奏する。
【図面の簡単な説明】
【図１】本発明の実施の一形態に係るミニディスク装置における音声圧縮回路のビット割当処理部の構成を示すブロック図である。
【図２】上記ミニディスク装置の構成を示すブロック図であなる。
【図３】上記音声圧縮回路の構成を示すブロック図である。
【図４】上記ビット割当処理部におけるパワー算出部で求められた各周波数帯域のスペクトルパワーを示す図面である。
【図５】上記ビット割当処理部による各周波数帯域へのビット割り当てを示す図面である。
【図６】他のビット割当処理部の構成を示すブロック図である。
【図７】図６のビット割当処理部におけるパワー算出部で求められた各周波数帯域のスペクトルパワーを示す図面である。
【図８】図６のビット割当処理部による各周波数帯域へのビット割り当てを示す図面である。
【図９】さらに他のビット割当処理部の構成を示すブロック図である。
【図１０】図９のビット割当処理部におけるパワー算出部で求められた各周波数帯域のスペクトルパワーを示す図面である。
【図１１】図９のビット割当処理部による各周波数帯域へのビット割り当てを示す図面である。
【符号の説明】
５音声圧縮回路（ディジタル信号符号化装置）
５１スペクトル変換部
５２ビット割当処理部
５２ａパワー算出部
５２ｃ１次量子化ビット数算出部（ビット割当量算出手段）
５２ｄ量子化ノイズ算出部（第１量子化誤差算出手段）
５２ｅ２次量子化ビット数算出部（ビット割当量修正手段）
５２ｆ量子化ノイズ保存部（第２量子化誤差算出手段）
５２ｍ非マスキング領域抽出部（非マスキング周波数帯域抽出手段）
５２ｎパワー最大帯域抽出部（最大値抽出手段）

Claims

ディジタル信号を所定の複数の周波数帯域毎にスペクトルデータに変換し、各周波数帯域のスペクトルデータをそれぞれに応じて与えられたビット割当量で符号化するディジタル信号符号化装置において、
時間的に連続する各フレームのビット割当量を前記周波数帯域毎に算出するビット割当量算出手段と、
前記ビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第１量子化誤差算出手段と、
前記ビット割当量算出手段によって算出された、現フレームの１つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、
前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第２量子化誤差算出手段とを備え、
上記ビット割当量修正手段が、前記第１量子化誤差算出手段で算出された現フレームのビット割当量と前記第２量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を所定値より小さくなるように修正することを特徴とするディジタル信号符号化装置。
前記スペクトルデータのパワー、エネルギーまたはスケールファクタの最大値を抽出する最大値抽出手段を備え、
前記ビット割当量修正手段が、抽出された前記最大値が属する周波数帯域で前記差分を修正することを特徴とする請求項１に記載のディジタル信号符号化装置。
ディジタル信号を所定の複数の周波数帯域毎にスペクトルデータに変換し、各周波数帯域スペクトルの大きさから、想定した各ビット数に対して各周波数帯域のマスキングしきい値対雑音比を求め、前記ビット数毎に前記マスキングしきい値対雑音比が最小となる周波数帯域から順に与えられたビット割当量で前記スペクトルデータを符号化するディジタル信号符号化装置において、
時間的に連続する各フレームのビット割当量を前記周波数帯域毎に算出するビット割当量算出手段と、
前記ビット割当量算出手段によって算出されたビット割当量の量子化誤差を算出する第１量子化誤差算出手段と、
前記量子化誤差を非マスキング周波数帯域について抽出する非マスキング周波数帯域抽出手段と、
前記ビット割当量算出手段によって算出された、現フレームの１つ前の前フレームのビット割当量を基に、現フレームのビット割当量を修正するビット割当量修正手段と、
前記ビット割当量修正手段によって得られた最終のビット割当量の量子化誤差を算出する第２量子化誤差算出手段とを備え、
上記ビット割当量修正手段が、前記第１量子化誤差算出手段で算出された現フレームのビット割当量と前記第２量子化誤差算出手段で算出された前フレームのビット割当量との量子化誤差の差分を前記非マスキング周波数帯域の量子化誤差について所定値より小さくなるように修正することを特徴とするディジタル信号符号化装置。
入力ディジタル信号を所定の符号化処理によって符号化して記録媒体に記録するディジタル信号記録装置であって、
上記符号化処理を行うために、請求項１ないし３のいずれか１項に記載のディジタル信号符号化装置を含んでいることを特徴とするディジタル信号記録装置。