JP2008261999A

JP2008261999A - オーディオ復号装置

Info

Publication number: JP2008261999A
Application number: JP2007104069A
Authority: JP
Inventors: Shiyouko Osada; 将高長田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-04-11
Filing date: 2007-04-11
Publication date: 2008-10-30
Also published as: US20080255860A1

Abstract

【課題】近接する周波数帯域での連続性がないような信号であっても、符号化の際に生じた歪みの影響を抑制して、原音に忠実な再生音を復元する。
【解決手段】信号特性判定部５１により時間周波数変換ブロック長を示すブロック形状から信号特性を検出して、時間域での予測精度が高いか、あるいは周波数域での予測精度が高いかを判定して、この判定結果に基づいて、信号補正部６０が逆量子化によって得たスペクトル情報の量子化誤差の補正を行うようにしたものである。
【選択図】図１

Description

この発明は、符号化されたオーディオデータを復号するオーディオ復号装置に関する。

周知のように、従来のオーディオ復号装置では、復号の際の信号補正で、常に近接する周波数帯域との連続性に基づいて、符号化の際に生じた歪みの影響を抑制する（例えば、特許文献１参照）。

しかしながら、例えば、正弦波に代表されるようなトーン性の強い信号、つまり近接する周波数帯域での連続性がないような信号には、上述のような信号補正は、効果を期待できないという問題があった。
特開２００１−１０２９３０公報

従来のオーディオ復号装置では、例えば、正弦波に代表されるようなトーン性の強い信号、つまり近接する周波数帯域での連続性がないような信号は、符号化の際に生じた歪みの影響を抑制することができないという問題があった。

この発明は上記の問題を解決すべくなされたもので、近接する周波数帯域での連続性がないような信号であっても、符号化の際に生じた歪みの影響を抑制して、原音に忠実な再生音を復元することが可能なオーディオ復号装置を提供することを目的とする。

上記の目的を達成するために、この発明は、オーディオ符号化データを復号して、量子化ステップサイズに関する情報と、スペクトル値に関する情報を得る復号手段と、スペクトル値の時間域の信号特性を判定する判定手段と、復号手段の復号結果を逆量子化して、スペクトル値を得る逆量子化手段と、量子化ステップサイズに関する情報と、スペクトル値とに基づいて、スペクトル値の符号化前のレベルの範囲を推定する推定手段と、判定手段が時間域の信号特性を定常的と判定した場合には、スペクトル値の時間的な連続性を考慮した範囲内で、スペクトル値を補正し、一方、判定手段が時間域の信号特性を過渡的と判定した場合には、スペクトル値のフレーム内の周波数的な連続性を考慮した範囲内で、スペクトル値を補正する補正手段と、この補正手段で補正されたスペクトル値を時間域の信号に変換する変換手段とを具備して構成するようにした。

以上述べたように、この発明では、復号信号の信号特性を検出して、時間域での予測精度が高いか、あるいは周波数域での予測精度が高いかを判定して、この判定結果に基づいて、逆量子化によって得たスペクトル情報の量子化誤差の補正を行うようにしている。
したがって、この発明によれば、近接する周波数帯域での連続性がないような信号の場合には、時間域での予測を行って量子化誤差を補正するので、近接する周波数帯域での連続性がないような信号でも、符号化の際に生じた歪みの影響を抑制して、原音に忠実な再生音を復元することが可能なオーディオ復号装置を提供できる。

以下、図面を参照して、この発明の実施形態について説明する。
図１は、この発明の第１の実施形態に係わるオーディオ復号装置の構成を示すものである。このオーディオ復号装置は、シンタックス解析部１０と、逆量子化部２０と、第１オプションツール部３１と、第２オプションツール部３２と、量子化誤差範囲推定部４０、信号特性判定部５１と、信号補正部６０と、周波数/時間変換部７０とを備えている。なお、以下の説明では、符号化方式として、AAC(Advanced Audio Coding)を採用した場合を例に挙げて説明するが、他の一般的な符号化方式を採用するオーディオデコーダにも適用可能である。

シンタックス解析部１０は、入力されるビットストリームを復号して、時間周波数変換ブロック長を示すブロック形状やオプションツールの使用有無などを示すサイド情報を得るとともに、上記ビットストリームに含まれるハフマンコードを復号して、元信号を周波数帯域毎に量子化した量子化スペクトル（quant）と、各スペクトルの量子化ステップサイズを示すゲイン情報であるスケールファクタを得る。

逆量子化部２０は、シンタックス解析部１０で得た量子化スペクトルを逆量子化する。すなわち、逆量子化部２０は、上記量子化スペクトルにスケールファクタを乗算してダイナミックレンジを伸長し、元信号（エンコード前の信号）のダイナミックレンジを有するスペクトル情報（inv_quant）を得る。

なお、符号化号式としてAACを採用した場合、逆量子化部２０で行われる逆量子化は、下式（１）で規定される。下式においてquant[i]は、シンタックス解析部１０にてハフマン復号された量子化値であり、inv_quant[i]は、quant[i]にスケールファクタ寄与分を乗じて逆量子化したMDCT係数であり、iは、MDCT係数のインデックスであり、SF_OFFSETは100（固定値）である。

第１オプションツール部３１は、シンタックス解析部１０にて得られたサイド情報に基づいて、逆量子化部２０による逆量子化で得られたスペクトル情報に、M/SステレオやIntensityステレオなどのジョイントステレオの処理や、TNS（ISO/IEC 13818-7参照）の処理などを施す。

量子化誤差範囲推定部４０は、シンタックス解析部１０でハフマン復号された各周波数帯域の量子化スペクトルと、そのスケールファクタとに基づいて、エンコーダ側での量子化の際に量子化スペクトルに生じた、元信号とのレベル誤差範囲（以下、量子化誤差範囲と称する）を周波数帯域毎に算出する。

一般に、オーディオ符号化では、周波数帯域毎に異なる量子化ステップサイズを選択でき、信号レベルが大きいほど量子化ステップサイズも大きくなる傾向がある。また、図２に示すように、信号レベルが小さくても、マスキング効果を考慮して相対的に大きな量子化ステップサイズを選択することもある。このようなエンコーダ側における量子化ステップサイズの選択特性を考慮して、量子化誤差範囲推定部４０では、量子化ステップサイズ（スケールファクタ）から量子化誤差範囲を推定することができる。以下、より具体的に説明する。

式（１）のquant[i]は、エンコーダ側でquant[i]-0.5〜quant[i]+0.5の範囲にある。このため、符号化前のMDCT係数（inv_quant_org[i]とする）、すなわち量子化誤差範囲は、式（２）で示す範囲内にある。なお、式（２）において、式（１）の右辺をIQ(sfb, quant[i])とした。

したがって、量子化誤差範囲推定部４０は、予め式（２）を記憶し、これにシンタックス解析部１０でハフマン復号された各周波数帯域の量子化スペクトル（quant[i]）と、そのスケールファクタ（scale_factor[sfb]）を、式（２）に適用することにより、各スペクトルの量子化誤差範囲を推定することができる。

また量子化誤差範囲推定部４０における量子化誤差範囲の別の推定方法として、式（１）をqunatについて微分した導関数を用いることで求めることもできる。式（１）の導関数を式（３）に示す。

この手法では、量子化誤差範囲推定部４０が、式（３）とquant[i]のエンコーダ側での範囲quant[i]-0.5〜quant[i]+0.5とを考慮した式（４）を予めを記憶し、これにハフマン復号された量子化スペクトル（quant[i]）と、そのスケールファクタ（scale_factor[sfb]）と、逆量子化部２０が出力するスペクトル情報（inv_quantと）を代入することで、各スペクトルの量子化誤差範囲を近似的に推定する。式（１）と式（３）の関係を図３に示す。

前述の式（２）に基づく方法では、式（１）の逆量子化演算を２回行わなければならないのに対して、式（４）に基づく方法では、式（３）の演算を１回行うだけでよい。MDCT係数は、１フレーム中に1024個あり、それぞれについての量子化誤差範囲を求めることを考えると、演算量削減に大きな効果がある。

第２オプションツール部３２は、シンタックス解析部１０にて得られたサイド情報に基づいて、量子化誤差範囲推定部４０にて得られた量子化誤差範囲に、M/SステレオやIntensityステレオなどのジョイントステレオの処理や、TNS（ISO/IEC 13818-7参照）の処理などを施す。

信号特性判定部５１は、シンタックス解析部１０にて得られたサイド情報（ブロック情報）がロングブロックを示す場合には、現フレームの信号特性が時間域において定常的であると判定して、一方、ショートブロックであれば、現フレームの信号特性が時間域において過渡的であると判定する。そして、信号特性判定部５１は、信号特性を示す判定結果を信号補正部６０に通知する。

信号補正部６０は、信号特性判定部５１の判定で得られた信号特性と、第２オプションツール部３２から出力される量子化誤差範囲とに基づいて、第２オプションツール部３２から出力される信号に対して、量子化誤差の補正を行う。

一般に、時間域で定常的な信号の場合には、時間域での予測精度が高く、一方、時間域で過渡的な信号の場合には、周波数域での予測精度が高いことが知られている。このため、信号補正部６０は、信号特性判定部５１の判定結果が時間域で定常的（ブロック形状がロングブロック）な信号特性を示す場合には、過去フレームのスペクトル情報から現フレームのスペクトル情報の予測を行う。一方、信号特性判定部５１の判定結果が時間域で過渡的（ブロック形状がショートブロック）な信号特性を示す場合には、周波数域での予測精度が高い信号であるため、周波数域における連続性を考慮した補正を行う。

まず、時間域で定常的（ブロック形状がロングブロック）な信号特性を示す場合、すなわち過去フレームのスペクトル情報から現フレームのスペクトル情報の予測を行う場合について説明する。なお、信号補正部６０は、複数のフレームのスペクトル情報を一時的に記憶するバッファを備えている。

以下の説明では、過去mフレームのスペクトル情報に基づく予測、補正方法について説明するが、蓄積されたビットストリームを再生する場合など、ビットストリームの先読みが可能なシステムでは、未来フレーム、すなわち補正対象の現フレームに続く、後続のフレームもバッファに記憶し、これを利用した予測を行うことも効果的である。

過去mフレームのスペクトル情報から現フレームのスペクトル情報を予測するために、信号補正部６０は、式（５）に示す線形予測分析を行う。なお、下式（５）において、p_quant_N[i]は、予測された第ＮフレームのMDCT係数である。cor_quant_N[i]は、補正された第ＮフレームのMDCT係数である。αは、線形予測係数である。iは、周波数インデックスである。線形予測分析については『ディジタル音声処理』（古井貞熙著、東海大学出版会）など、一般的な文献を参照されたい。

続いて、信号補正部６０は、式（５）を用いて予測したスペクトル情報（p_quant_N[i]）と、量子化誤差範囲推定部４０にて得られた量子化誤差範囲を考慮して、以下の処理に基づく補正を行う。

すなわち、信号補正部６０は、式（２）あるいは式（４）により推定された量子化誤差範囲を利用して、予測した現フレームのスペクトル情報（p_quant_N[i]）の補正を行う。補正後のMDCT係数をcor_quant[i]とすると、cor_quant[i]は式（６）を満たさなければならない。

ただし、式（２）の量子化誤差範囲に基づく場合は、式（６）の各項は、以下に示す通りである。

また、式（４）の量子化誤差範囲に基づく場合は、式（６）の各項は、以下に示す通りである。

そして信号補正部６０は、式（５）、式（６）に基づいて、MDCT係数を補正する。すなわち、p_quant[i]が式（６）の範囲内にある場合、図４に示すように、以下の通り補正される。

また、p_quant[i] < min_quant[i]の場合には、図５に示すように、以下の通り補正される。

そして、p_quant[i] > max_quant[i]の場合には、以下の通り補正される。

以上のように、ロングブロックの場合には、信号補正部６０は、時間域の連続性と理論的な量子化誤差範囲とを考慮して、現フレームの信号を補正することによって、より元信号に忠実な信号を復元することができる。

次に、時間域で過渡的（ブロック形状がショートブロック）な信号特性を示す場合、すなわち周波数域における連続性を考慮した補正を行う場合について説明する。なお、p_quant[i]は、予測された現フレームのMDCT係数である。cor_quant[i]は、補正された現フレームの低域側のMDCT係数である。kは予測すべき周波数サンプルのインデックス、iは、予測に利用する周波数サンプルのインデックスである。ここでは、下式（７）に示すように、低域側Lサンプルのスペクトル情報をもとに、高域側スペクトルを線形予測分析する例を示す。しかしながら、低域側と高域側の両面から予測を行うことも効果的である。

ここで、補正後のMDCT係数（cor_quant[i]）は、前述したロングブロックにおける処理と同様に、式（６）を満たさなければならない。したがって、予測されたMDCT係数（p_quant[i]）は、信号補正部６０により、前述のロングブロックにおける処理と同様に、式（６）と式（７）に基づいて補正され、補正後のMDCT係数（cor_quant[i]）が得られる。

周波数/時間変換部７０は、信号補正部６０により補正されたMDCT係数を、周波数域の信号から時間域の信号へ変換し、これによりPCM信号を得る。

以上のように、上記構成のオーディオ復号装置では、信号特性判定部５１により時間周波数変換ブロック長を示すブロック形状から信号特性を検出して、時間域での予測精度が高いか、あるいは周波数域での予測精度が高いかを判定して、この判定結果に基づいて、信号補正部６０が逆量子化によって得たスペクトル情報の量子化誤差の補正を行うようにしている。

したがって、上記構成のオーディオ復号装置によれば、近接する周波数帯域での連続性がないような信号の場合には、時間域での予測を行って量子化誤差を補正するので、近接する周波数帯域での連続性がないような信号でも、符号化の際に生じた歪みの影響を抑制して、原音に忠実な再生音を復元することができる。
また、量子化誤差を補正して符号化前の原信号に近づける効果があるため、歓声検出や音楽検出など、信号の特徴解析の前処理としても有効である。

図６は、この発明の第２の実施形態に係わるオーディオ復号装置の構成を示すものである。このオーディオ復号装置は、シンタックス解析部１０と、逆量子化部２０と、第１オプションツール部３１と、第２オプションツール部３２と、量子化誤差範囲推定部４０、信号特性判定部５２と、信号補正部６０と、周波数/時間変換部７０と、スペクトル平坦度算出部８０とを備えている。なお、以下の説明では、符号化方式として、AAC(Advanced Audio Coding)を採用した場合を例に挙げて説明するが、他の一般的な符号化方式を採用するオーディオデコーダにも適用可能である。

シンタックス解析部１０は、入力されるビットストリームを復号して、ブロック形状やオプションツールの使用有無などを示すサイド情報を得るとともに、上記ビットストリームに含まれるハフマンコードを復号して、元信号を周波数帯域毎に量子化した量子化スペクトル（quant）と、各スペクトルの量子化ステップサイズを示すゲイン情報であるスケールファクタを得る。

逆量子化部２０は、シンタックス解析部１０で得た量子化スペクトルを逆量子化する。すなわち、逆量子化部２０は、上記量子化スペクトルにスケールファクタを乗算してダイナミックレンジを伸長し、元信号（エンコード前の信号）のダイナミックレンジを有するスペクトル情報（inv_quant）を得る。なお、逆量子化部２０の動作原理は、第１の実施形態の逆量子化部２０と同様であるため、式（１）を用いた説明は省略する。

量子化誤差範囲推定部４０は、シンタックス解析部１０でハフマン復号された各周波数帯域の量子化スペクトルと、そのスケールファクタとに基づいて、エンコーダ側での量子化の際に量子化スペクトルに生じた、元信号とのレベル誤差範囲（以下、量子化誤差範囲と称する）を周波数帯域毎に算出する。なお、量子化誤差範囲推定部４０の動作原理は、第１の実施形態の量子化誤差範囲推定部４０と同様であるため、式（２）〜（４）を用いた説明は省略する。

スペクトル平坦度算出部８０は、下式（８）に基づいて、逆量子化部２０にて得られたスペクトル（inv_quant）の平坦度（Spectral Flatness Measure：以下、SFMと称する）を算出する。なお、下式において、inv_quant[i]は逆量子化したMDCT係数であり、ｎはフレームサイズを示す。

信号特性判定部５２は、スペクトル平坦度算出部８０が算出したスペクトル平坦度SFMが予め設定した閾値TH1を上回る場合には、現フレームの信号特性が時間域において過渡的であると判定する。一方、上記スペクトル平坦度SFMが閾値TH1以下の場合には、現フレームの信号特性が時間域において定常的であると判定する。これは、一般に、時間域で過渡的な信号ほどスペクトル平坦度SFMが大きくなる傾向があることに基づくものである。そして、信号特性判定部５２は、信号特性を示す判定結果を信号補正部６０に通知する。

信号補正部６０は、信号特性判定部５２の判定で得られた信号特性と、第２オプションツール部３２から出力される量子化誤差範囲とに基づいて、第２オプションツール部３２から出力される信号に対して、量子化誤差の補正を行う。なお、信号補正部６０の動作原理は、第１の実施形態の信号補正部６０と同様であるため、式（５）〜（７）を用いた説明は省略する。

以上のように、上記構成のオーディオ復号装置では、信号特性判定部５２により量子化スペクトルの平坦度から信号特性を検出して、時間域での予測精度が高いか、あるいは周波数域での予測精度が高いかを判定して、この判定結果に基づいて、信号補正部６０が逆量子化によって得たスペクトル情報の量子化誤差の補正を行うようにしている。

図７は、この発明の第３の実施形態に係わるオーディオ復号装置の構成を示すものである。このオーディオ復号装置は、シンタックス解析部１０と、逆量子化部２０と、第１オプションツール部３１と、第２オプションツール部３２と、量子化誤差範囲推定部４０、信号特性判定部５３と、信号補正部６０と、周波数/時間変換部７０と、発生符号量算出部９０とを備えている。なお、以下の説明では、符号化方式として、AAC(Advanced Audio Coding)を採用した場合を例に挙げて説明するが、他の一般的な符号化方式を採用するオーディオデコーダにも適用可能である。

発生符号量算出部９０は、シンタックス解析部１０にて得られた量子化スペクトル（quant）に基づいて、フレーム毎の発生符号量Bの算出を行う。
信号特性判定部５３は、発生符号量算出部９０が算出した発生符号量Bが予め設定した閾値TH2を上回る場合には、現フレームの信号特性が時間域において過渡的であると判定する。一方、上記発生符号量Bが予め設定した閾値TH2以下の場合には、現フレームの信号特性が時間域において定常的であると判定する。これは、一般に、時間域において過渡的な信号を符号化する際により多くのビットを必要とする傾向があることに基づくものである。そして、信号特性判定部５２は、信号特性を示す判定結果を信号補正部６０に通知する。

なお、閾値TH2は、サンプリング周波数、平均ビットレート（kbps）などによって決まる値であり、例えば下式（９）のように1フレーム当りの平均符号量を動的に求めて、これを閾値TH2として採用するようにしてもよい。

式（９）において、bitrateは平均ビットレート（bps）を示し、frame_sizeは、符号化するフレームサイズを示し、Fsは、サンプリング周波数（Hz）を示す。ただし、閾値TH2の設定方法は、式（９）に限定されるものではなく、発生符号量と信号の定常性を関連付けるという趣旨を逸脱しない範囲であれば適宜変更可能である。

以上のように、上記構成のオーディオ復号装置では、信号特性判定部５２により発生符号量から信号特性を検出して、時間域での予測精度が高いか、あるいは周波数域での予測精度が高いかを判定して、この判定結果に基づいて、信号補正部６０が逆量子化によって得たスペクトル情報の量子化誤差の補正を行うようにしている。

なお、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。

その一例として例えば、上記実施の形態では、線形予測によって現フレームのMDCT係数を予測しているが、時系列の定常性に着目して予測を行う手法であれば、上記実施形態に限定されるものではなく、この趣旨を逸脱しない範囲であれば別の予測方法を利用することも可能である。
その他、この発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。

この発明に係わるオーディオ復号装置の第１の実施の形態の構成を示す回路ブロック図。エンコーダにおける量子化ステップサイズの選択動作を説明するための図。図１に示したオーディオ復号装置における量子化誤差範囲の推定動作を説明するための図。図１に示したオーディオ復号装置における信号レベルの補正動作を説明するための図。図１に示したオーディオ復号装置における信号レベルの補正動作を説明するための図。この発明に係わるオーディオ復号装置の第２の実施の形態の構成を示す回路ブロック図。この発明に係わるオーディオ復号装置の第３の実施の形態の構成を示す回路ブロック図。

符号の説明

１０…シンタックス解析部、２０…逆量子化部、３１…第１オプションツール部、３２…第２オプションツール部、４０…量子化誤差範囲推定部、５１…信号特性判定部、５２…信号特性判定部、５３…信号特性判定部、６０…信号補正部、７０…時間変換部、８０…スペクトル平坦度算出部、９０…発生符号量算出部。

Claims

オーディオ符号化データを復号して、量子化ステップサイズに関する情報と、スペクトル値に関する情報を得る復号手段と、
前記スペクトル値の時間域の信号特性を判定する判定手段と、
復号手段の復号結果を逆量子化して、スペクトル値を得る逆量子化手段と、
前記量子化ステップサイズに関する情報と、前記スペクトル値とに基づいて、前記スペクトル値の符号化前のレベルの範囲を推定する推定手段と、
前記判定手段が時間域の信号特性を定常的と判定した場合には、前記スペクトル値の時間的な連続性を考慮した前記範囲内で、前記スペクトル値を補正し、一方、前記判定手段が時間域の信号特性を過渡的と判定した場合には、前記スペクトル値のフレーム内の周波数的な連続性を考慮した前記範囲内で、前記スペクトル値を補正する補正手段と、
この補正手段で補正されたスペクトル値を時間域の信号に変換する変換手段とを具備することを特徴とするオーディオ復号装置。
前記判定手段は、オーディオ符号化データに含まれる、フレームの大きさを示す情報から前記スペクトル値の信号特性を判定し、
前記補正手段は、前記判定手段がフレームの大きさが予め設定した閾値以上で前記信号特性を定常的と判定した場合には、前記スペクトル値の時間的な連続性を考慮した前記範囲内で、前記スペクトル値を補正し、一方、前記判定手段がフレームの大きさが予め設定した閾値未満で前記信号特性を過渡的と判定した場合には、前記スペクトル値のフレーム内の周波数的な連続性を考慮した前記範囲内で、前記スペクトル値を補正することを特徴とする請求項１に記載のオーディオ復号装置。
前記判定手段は、前記スペクトル値に関する情報からスペクトル形の平坦度を検出し、
前記補正手段は、前記判定手段が検出した平坦度が予め設定した閾値未満で前記信号特性を定常的と判定した場合には、前記スペクトル値の時間的な連続性を考慮した前記範囲内で、前記スペクトル値を補正し、一方、前記判定手段が検出した平坦度が予め設定した閾値以上で前記信号特性を過渡的と判定した場合には、前記スペクトル値のフレーム内の周波数的な連続性を考慮した前記範囲内で、前記スペクトル値を補正することを特徴とする請求項１に記載のオーディオ復号装置。
前記判定手段は、前記スペクトル値に関する情報からフレーム毎に発生符号量を検出し、
前記補正手段は、前記判定手段が検出した発生符号量が予め設定した閾値未満で前記信号特性を定常的と判定した場合には、前記スペクトル値の時間的な連続性を考慮した前記範囲内で、前記スペクトル値を補正し、一方、前記判定手段が検出した発生符号量が予め設定した閾値以上で前記信号特性を過渡的と判定した場合には、前記スペクトル値のフレーム内の周波数的な連続性を考慮した前記範囲内で、前記スペクトル値を補正することを特徴とする請求項１に記載のオーディオ復号装置。
前記推定手段は、前記オーディオ符号化データの量子化式を量子化値を示すパラメータについて微分した式に、前記スペクトル値に関する情報を代入し、この結果と、前記量子化ステップサイズに関する情報と、前記スペクトル値とに基づいて、前記スペクトル値の符号化前のレベルの範囲を推定することを特徴とする請求項１に記載のオーディオ復号装置。