JP2008261999A - オーディオ復号装置 - Google Patents
オーディオ復号装置 Download PDFInfo
- Publication number
- JP2008261999A JP2008261999A JP2007104069A JP2007104069A JP2008261999A JP 2008261999 A JP2008261999 A JP 2008261999A JP 2007104069 A JP2007104069 A JP 2007104069A JP 2007104069 A JP2007104069 A JP 2007104069A JP 2008261999 A JP2008261999 A JP 2008261999A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- spectrum value
- value
- spectrum
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013139 quantization Methods 0.000 claims abstract description 115
- 238000001228 spectrum Methods 0.000 claims abstract description 79
- 238000012937 correction Methods 0.000 claims abstract description 50
- 238000006243 chemical reaction Methods 0.000 claims abstract description 12
- 230000003595 spectral effect Effects 0.000 claims description 15
- 230000001052 transient effect Effects 0.000 claims description 13
- 230000002123 temporal effect Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【課題】近接する周波数帯域での連続性がないような信号であっても、符号化の際に生じた歪みの影響を抑制して、原音に忠実な再生音を復元する。
【解決手段】信号特性判定部51により時間周波数変換ブロック長を示すブロック形状から信号特性を検出して、時間域での予測精度が高いか、あるいは周波数域での予測精度が高いかを判定して、この判定結果に基づいて、信号補正部60が逆量子化によって得たスペクトル情報の量子化誤差の補正を行うようにしたものである。
【選択図】 図1
【解決手段】信号特性判定部51により時間周波数変換ブロック長を示すブロック形状から信号特性を検出して、時間域での予測精度が高いか、あるいは周波数域での予測精度が高いかを判定して、この判定結果に基づいて、信号補正部60が逆量子化によって得たスペクトル情報の量子化誤差の補正を行うようにしたものである。
【選択図】 図1
Description
この発明は、符号化されたオーディオデータを復号するオーディオ復号装置に関する。
周知のように、従来のオーディオ復号装置では、復号の際の信号補正で、常に近接する周波数帯域との連続性に基づいて、符号化の際に生じた歪みの影響を抑制する(例えば、特許文献1参照)。
しかしながら、例えば、正弦波に代表されるようなトーン性の強い信号、つまり近接する周波数帯域での連続性がないような信号には、上述のような信号補正は、効果を期待できないという問題があった。
特開2001−102930公報
従来のオーディオ復号装置では、例えば、正弦波に代表されるようなトーン性の強い信号、つまり近接する周波数帯域での連続性がないような信号は、符号化の際に生じた歪みの影響を抑制することができないという問題があった。
この発明は上記の問題を解決すべくなされたもので、近接する周波数帯域での連続性がないような信号であっても、符号化の際に生じた歪みの影響を抑制して、原音に忠実な再生音を復元することが可能なオーディオ復号装置を提供することを目的とする。
上記の目的を達成するために、この発明は、オーディオ符号化データを復号して、量子化ステップサイズに関する情報と、スペクトル値に関する情報を得る復号手段と、スペクトル値の時間域の信号特性を判定する判定手段と、復号手段の復号結果を逆量子化して、スペクトル値を得る逆量子化手段と、量子化ステップサイズに関する情報と、スペクトル値とに基づいて、スペクトル値の符号化前のレベルの範囲を推定する推定手段と、判定手段が時間域の信号特性を定常的と判定した場合には、スペクトル値の時間的な連続性を考慮した範囲内で、スペクトル値を補正し、一方、判定手段が時間域の信号特性を過渡的と判定した場合には、スペクトル値のフレーム内の周波数的な連続性を考慮した範囲内で、スペクトル値を補正する補正手段と、この補正手段で補正されたスペクトル値を時間域の信号に変換する変換手段とを具備して構成するようにした。
以上述べたように、この発明では、復号信号の信号特性を検出して、時間域での予測精度が高いか、あるいは周波数域での予測精度が高いかを判定して、この判定結果に基づいて、逆量子化によって得たスペクトル情報の量子化誤差の補正を行うようにしている。
したがって、この発明によれば、近接する周波数帯域での連続性がないような信号の場合には、時間域での予測を行って量子化誤差を補正するので、近接する周波数帯域での連続性がないような信号でも、符号化の際に生じた歪みの影響を抑制して、原音に忠実な再生音を復元することが可能なオーディオ復号装置を提供できる。
したがって、この発明によれば、近接する周波数帯域での連続性がないような信号の場合には、時間域での予測を行って量子化誤差を補正するので、近接する周波数帯域での連続性がないような信号でも、符号化の際に生じた歪みの影響を抑制して、原音に忠実な再生音を復元することが可能なオーディオ復号装置を提供できる。
以下、図面を参照して、この発明の実施形態について説明する。
図1は、この発明の第1の実施形態に係わるオーディオ復号装置の構成を示すものである。このオーディオ復号装置は、シンタックス解析部10と、逆量子化部20と、第1オプションツール部31と、第2オプションツール部32と、量子化誤差範囲推定部40、信号特性判定部51と、信号補正部60と、周波数/時間変換部70とを備えている。なお、以下の説明では、符号化方式として、AAC(Advanced Audio Coding)を採用した場合を例に挙げて説明するが、他の一般的な符号化方式を採用するオーディオデコーダにも適用可能である。
図1は、この発明の第1の実施形態に係わるオーディオ復号装置の構成を示すものである。このオーディオ復号装置は、シンタックス解析部10と、逆量子化部20と、第1オプションツール部31と、第2オプションツール部32と、量子化誤差範囲推定部40、信号特性判定部51と、信号補正部60と、周波数/時間変換部70とを備えている。なお、以下の説明では、符号化方式として、AAC(Advanced Audio Coding)を採用した場合を例に挙げて説明するが、他の一般的な符号化方式を採用するオーディオデコーダにも適用可能である。
シンタックス解析部10は、入力されるビットストリームを復号して、時間周波数変換ブロック長を示すブロック形状やオプションツールの使用有無などを示すサイド情報を得るとともに、上記ビットストリームに含まれるハフマンコードを復号して、元信号を周波数帯域毎に量子化した量子化スペクトル(quant)と、各スペクトルの量子化ステップサイズを示すゲイン情報であるスケールファクタを得る。
逆量子化部20は、シンタックス解析部10で得た量子化スペクトルを逆量子化する。すなわち、逆量子化部20は、上記量子化スペクトルにスケールファクタを乗算してダイナミックレンジを伸長し、元信号(エンコード前の信号)のダイナミックレンジを有するスペクトル情報(inv_quant)を得る。
なお、符号化号式としてAACを採用した場合、逆量子化部20で行われる逆量子化は、下式(1)で規定される。下式においてquant[i]は、シンタックス解析部10にてハフマン復号された量子化値であり、inv_quant[i]は、quant[i]にスケールファクタ寄与分を乗じて逆量子化したMDCT係数であり、iは、MDCT係数のインデックスであり、SF_OFFSETは100(固定値)である。
第1オプションツール部31は、シンタックス解析部10にて得られたサイド情報に基づいて、逆量子化部20による逆量子化で得られたスペクトル情報に、M/SステレオやIntensityステレオなどのジョイントステレオの処理や、TNS(ISO/IEC 13818-7参照)の処理などを施す。
量子化誤差範囲推定部40は、シンタックス解析部10でハフマン復号された各周波数帯域の量子化スペクトルと、そのスケールファクタとに基づいて、エンコーダ側での量子化の際に量子化スペクトルに生じた、元信号とのレベル誤差範囲(以下、量子化誤差範囲と称する)を周波数帯域毎に算出する。
一般に、オーディオ符号化では、周波数帯域毎に異なる量子化ステップサイズを選択でき、信号レベルが大きいほど量子化ステップサイズも大きくなる傾向がある。また、図2に示すように、信号レベルが小さくても、マスキング効果を考慮して相対的に大きな量子化ステップサイズを選択することもある。このようなエンコーダ側における量子化ステップサイズの選択特性を考慮して、量子化誤差範囲推定部40では、量子化ステップサイズ(スケールファクタ)から量子化誤差範囲を推定することができる。以下、より具体的に説明する。
式(1)のquant[i]は、エンコーダ側でquant[i]-0.5〜quant[i]+0.5の範囲にある。このため、符号化前のMDCT係数(inv_quant_org[i]とする)、すなわち量子化誤差範囲は、式(2)で示す範囲内にある。なお、式(2)において、式(1)の右辺をIQ(sfb, quant[i])とした。
したがって、量子化誤差範囲推定部40は、予め式(2)を記憶し、これにシンタックス解析部10でハフマン復号された各周波数帯域の量子化スペクトル(quant[i])と、そのスケールファクタ(scale_factor[sfb])を、式(2)に適用することにより、各スペクトルの量子化誤差範囲を推定することができる。
また量子化誤差範囲推定部40における量子化誤差範囲の別の推定方法として、式(1)をqunatについて微分した導関数を用いることで求めることもできる。式(1)の導関数を式(3)に示す。
この手法では、量子化誤差範囲推定部40が、式(3)とquant[i]のエンコーダ側での範囲quant[i]-0.5〜quant[i]+0.5とを考慮した式(4)を予めを記憶し、これにハフマン復号された量子化スペクトル(quant[i])と、そのスケールファクタ(scale_factor[sfb])と、逆量子化部20が出力するスペクトル情報(inv_quantと)を代入することで、各スペクトルの量子化誤差範囲を近似的に推定する。式(1)と式(3)の関係を図3に示す。
前述の式(2)に基づく方法では、式(1)の逆量子化演算を2回行わなければならないのに対して、式(4)に基づく方法では、式(3)の演算を1回行うだけでよい。MDCT係数は、1フレーム中に1024個あり、それぞれについての量子化誤差範囲を求めることを考えると、演算量削減に大きな効果がある。
第2オプションツール部32は、シンタックス解析部10にて得られたサイド情報に基づいて、量子化誤差範囲推定部40にて得られた量子化誤差範囲に、M/SステレオやIntensityステレオなどのジョイントステレオの処理や、TNS(ISO/IEC 13818-7参照)の処理などを施す。
信号特性判定部51は、シンタックス解析部10にて得られたサイド情報(ブロック情報)がロングブロックを示す場合には、現フレームの信号特性が時間域において定常的であると判定して、一方、ショートブロックであれば、現フレームの信号特性が時間域において過渡的であると判定する。そして、信号特性判定部51は、信号特性を示す判定結果を信号補正部60に通知する。
信号補正部60は、信号特性判定部51の判定で得られた信号特性と、第2オプションツール部32から出力される量子化誤差範囲とに基づいて、第2オプションツール部32から出力される信号に対して、量子化誤差の補正を行う。
一般に、時間域で定常的な信号の場合には、時間域での予測精度が高く、一方、時間域で過渡的な信号の場合には、周波数域での予測精度が高いことが知られている。このため、信号補正部60は、信号特性判定部51の判定結果が時間域で定常的(ブロック形状がロングブロック)な信号特性を示す場合には、過去フレームのスペクトル情報から現フレームのスペクトル情報の予測を行う。一方、信号特性判定部51の判定結果が時間域で過渡的(ブロック形状がショートブロック)な信号特性を示す場合には、周波数域での予測精度が高い信号であるため、周波数域における連続性を考慮した補正を行う。
まず、時間域で定常的(ブロック形状がロングブロック)な信号特性を示す場合、すなわち過去フレームのスペクトル情報から現フレームのスペクトル情報の予測を行う場合について説明する。なお、信号補正部60は、複数のフレームのスペクトル情報を一時的に記憶するバッファを備えている。
以下の説明では、過去mフレームのスペクトル情報に基づく予測、補正方法について説明するが、蓄積されたビットストリームを再生する場合など、ビットストリームの先読みが可能なシステムでは、未来フレーム、すなわち補正対象の現フレームに続く、後続のフレームもバッファに記憶し、これを利用した予測を行うことも効果的である。
過去mフレームのスペクトル情報から現フレームのスペクトル情報を予測するために、信号補正部60は、式(5)に示す線形予測分析を行う。なお、下式(5)において、p_quantN[i]は、予測された第NフレームのMDCT係数である。cor_quantN[i]は、補正された第NフレームのMDCT係数である。αは、線形予測係数である。iは、周波数インデックスである。線形予測分析については『ディジタル音声処理』(古井貞熙著、東海大学出版会)など、一般的な文献を参照されたい。
続いて、信号補正部60は、式(5)を用いて予測したスペクトル情報(p_quantN[i])と、量子化誤差範囲推定部40にて得られた量子化誤差範囲を考慮して、以下の処理に基づく補正を行う。
すなわち、信号補正部60は、式(2)あるいは式(4)により推定された量子化誤差範囲を利用して、予測した現フレームのスペクトル情報(p_quantN[i])の補正を行う。補正後のMDCT係数をcor_quant[i]とすると、cor_quant[i]は式(6)を満たさなければならない。
ただし、式(2)の量子化誤差範囲に基づく場合は、式(6)の各項は、以下に示す通りである。
また、式(4)の量子化誤差範囲に基づく場合は、式(6)の各項は、以下に示す通りである。
そして信号補正部60は、式(5)、式(6)に基づいて、MDCT係数を補正する。すなわち、p_quant[i]が式(6)の範囲内にある場合、図4に示すように、以下の通り補正される。
また、p_quant[i] < min_quant[i]の場合には、図5に示すように、以下の通り補正される。
そして、p_quant[i] > max_quant[i]の場合には、以下の通り補正される。
以上のように、ロングブロックの場合には、信号補正部60は、時間域の連続性と理論的な量子化誤差範囲とを考慮して、現フレームの信号を補正することによって、より元信号に忠実な信号を復元することができる。
次に、時間域で過渡的(ブロック形状がショートブロック)な信号特性を示す場合、すなわち周波数域における連続性を考慮した補正を行う場合について説明する。なお、p_quant[i]は、予測された現フレームのMDCT係数である。cor_quant[i]は、補正された現フレームの低域側のMDCT係数である。kは予測すべき周波数サンプルのインデックス、iは、予測に利用する周波数サンプルのインデックスである。ここでは、下式(7)に示すように、低域側Lサンプルのスペクトル情報をもとに、高域側スペクトルを線形予測分析する例を示す。しかしながら、低域側と高域側の両面から予測を行うことも効果的である。
ここで、補正後のMDCT係数(cor_quant[i])は、前述したロングブロックにおける処理と同様に、式(6)を満たさなければならない。したがって、予測されたMDCT係数(p_quant[i])は、信号補正部60により、前述のロングブロックにおける処理と同様に、式(6)と式(7)に基づいて補正され、補正後のMDCT係数(cor_quant[i])が得られる。
周波数/時間変換部70は、信号補正部60により補正されたMDCT係数を、周波数域の信号から時間域の信号へ変換し、これによりPCM信号を得る。
以上のように、上記構成のオーディオ復号装置では、信号特性判定部51により時間周波数変換ブロック長を示すブロック形状から信号特性を検出して、時間域での予測精度が高いか、あるいは周波数域での予測精度が高いかを判定して、この判定結果に基づいて、信号補正部60が逆量子化によって得たスペクトル情報の量子化誤差の補正を行うようにしている。
したがって、上記構成のオーディオ復号装置によれば、近接する周波数帯域での連続性がないような信号の場合には、時間域での予測を行って量子化誤差を補正するので、近接する周波数帯域での連続性がないような信号でも、符号化の際に生じた歪みの影響を抑制して、原音に忠実な再生音を復元することができる。
また、量子化誤差を補正して符号化前の原信号に近づける効果があるため、歓声検出や音楽検出など、信号の特徴解析の前処理としても有効である。
また、量子化誤差を補正して符号化前の原信号に近づける効果があるため、歓声検出や音楽検出など、信号の特徴解析の前処理としても有効である。
図6は、この発明の第2の実施形態に係わるオーディオ復号装置の構成を示すものである。このオーディオ復号装置は、シンタックス解析部10と、逆量子化部20と、第1オプションツール部31と、第2オプションツール部32と、量子化誤差範囲推定部40、信号特性判定部52と、信号補正部60と、周波数/時間変換部70と、スペクトル平坦度算出部80とを備えている。なお、以下の説明では、符号化方式として、AAC(Advanced Audio Coding)を採用した場合を例に挙げて説明するが、他の一般的な符号化方式を採用するオーディオデコーダにも適用可能である。
シンタックス解析部10は、入力されるビットストリームを復号して、ブロック形状やオプションツールの使用有無などを示すサイド情報を得るとともに、上記ビットストリームに含まれるハフマンコードを復号して、元信号を周波数帯域毎に量子化した量子化スペクトル(quant)と、各スペクトルの量子化ステップサイズを示すゲイン情報であるスケールファクタを得る。
逆量子化部20は、シンタックス解析部10で得た量子化スペクトルを逆量子化する。すなわち、逆量子化部20は、上記量子化スペクトルにスケールファクタを乗算してダイナミックレンジを伸長し、元信号(エンコード前の信号)のダイナミックレンジを有するスペクトル情報(inv_quant)を得る。なお、逆量子化部20の動作原理は、第1の実施形態の逆量子化部20と同様であるため、式(1)を用いた説明は省略する。
第1オプションツール部31は、シンタックス解析部10にて得られたサイド情報に基づいて、逆量子化部20による逆量子化で得られたスペクトル情報に、M/SステレオやIntensityステレオなどのジョイントステレオの処理や、TNS(ISO/IEC 13818-7参照)の処理などを施す。
量子化誤差範囲推定部40は、シンタックス解析部10でハフマン復号された各周波数帯域の量子化スペクトルと、そのスケールファクタとに基づいて、エンコーダ側での量子化の際に量子化スペクトルに生じた、元信号とのレベル誤差範囲(以下、量子化誤差範囲と称する)を周波数帯域毎に算出する。なお、量子化誤差範囲推定部40の動作原理は、第1の実施形態の量子化誤差範囲推定部40と同様であるため、式(2)〜(4)を用いた説明は省略する。
第2オプションツール部32は、シンタックス解析部10にて得られたサイド情報に基づいて、量子化誤差範囲推定部40にて得られた量子化誤差範囲に、M/SステレオやIntensityステレオなどのジョイントステレオの処理や、TNS(ISO/IEC 13818-7参照)の処理などを施す。
スペクトル平坦度算出部80は、下式(8)に基づいて、逆量子化部20にて得られたスペクトル(inv_quant)の平坦度(Spectral Flatness Measure:以下、SFMと称する)を算出する。なお、下式において、inv_quant[i]は逆量子化したMDCT係数であり、nはフレームサイズを示す。
信号特性判定部52は、スペクトル平坦度算出部80が算出したスペクトル平坦度SFMが予め設定した閾値TH1を上回る場合には、現フレームの信号特性が時間域において過渡的であると判定する。一方、上記スペクトル平坦度SFMが閾値TH1以下の場合には、現フレームの信号特性が時間域において定常的であると判定する。これは、一般に、時間域で過渡的な信号ほどスペクトル平坦度SFMが大きくなる傾向があることに基づくものである。そして、信号特性判定部52は、信号特性を示す判定結果を信号補正部60に通知する。
信号補正部60は、信号特性判定部52の判定で得られた信号特性と、第2オプションツール部32から出力される量子化誤差範囲とに基づいて、第2オプションツール部32から出力される信号に対して、量子化誤差の補正を行う。なお、信号補正部60の動作原理は、第1の実施形態の信号補正部60と同様であるため、式(5)〜(7)を用いた説明は省略する。
周波数/時間変換部70は、信号補正部60により補正されたMDCT係数を、周波数域の信号から時間域の信号へ変換し、これによりPCM信号を得る。
以上のように、上記構成のオーディオ復号装置では、信号特性判定部52により量子化スペクトルの平坦度から信号特性を検出して、時間域での予測精度が高いか、あるいは周波数域での予測精度が高いかを判定して、この判定結果に基づいて、信号補正部60が逆量子化によって得たスペクトル情報の量子化誤差の補正を行うようにしている。
したがって、上記構成のオーディオ復号装置によれば、近接する周波数帯域での連続性がないような信号の場合には、時間域での予測を行って量子化誤差を補正するので、近接する周波数帯域での連続性がないような信号でも、符号化の際に生じた歪みの影響を抑制して、原音に忠実な再生音を復元することができる。
また、量子化誤差を補正して符号化前の原信号に近づける効果があるため、歓声検出や音楽検出など、信号の特徴解析の前処理としても有効である。
また、量子化誤差を補正して符号化前の原信号に近づける効果があるため、歓声検出や音楽検出など、信号の特徴解析の前処理としても有効である。
図7は、この発明の第3の実施形態に係わるオーディオ復号装置の構成を示すものである。このオーディオ復号装置は、シンタックス解析部10と、逆量子化部20と、第1オプションツール部31と、第2オプションツール部32と、量子化誤差範囲推定部40、信号特性判定部53と、信号補正部60と、周波数/時間変換部70と、発生符号量算出部90とを備えている。なお、以下の説明では、符号化方式として、AAC(Advanced Audio Coding)を採用した場合を例に挙げて説明するが、他の一般的な符号化方式を採用するオーディオデコーダにも適用可能である。
シンタックス解析部10は、入力されるビットストリームを復号して、ブロック形状やオプションツールの使用有無などを示すサイド情報を得るとともに、上記ビットストリームに含まれるハフマンコードを復号して、元信号を周波数帯域毎に量子化した量子化スペクトル(quant)と、各スペクトルの量子化ステップサイズを示すゲイン情報であるスケールファクタを得る。
逆量子化部20は、シンタックス解析部10で得た量子化スペクトルを逆量子化する。すなわち、逆量子化部20は、上記量子化スペクトルにスケールファクタを乗算してダイナミックレンジを伸長し、元信号(エンコード前の信号)のダイナミックレンジを有するスペクトル情報(inv_quant)を得る。なお、逆量子化部20の動作原理は、第1の実施形態の逆量子化部20と同様であるため、式(1)を用いた説明は省略する。
第1オプションツール部31は、シンタックス解析部10にて得られたサイド情報に基づいて、逆量子化部20による逆量子化で得られたスペクトル情報に、M/SステレオやIntensityステレオなどのジョイントステレオの処理や、TNS(ISO/IEC 13818-7参照)の処理などを施す。
量子化誤差範囲推定部40は、シンタックス解析部10でハフマン復号された各周波数帯域の量子化スペクトルと、そのスケールファクタとに基づいて、エンコーダ側での量子化の際に量子化スペクトルに生じた、元信号とのレベル誤差範囲(以下、量子化誤差範囲と称する)を周波数帯域毎に算出する。なお、量子化誤差範囲推定部40の動作原理は、第1の実施形態の量子化誤差範囲推定部40と同様であるため、式(2)〜(4)を用いた説明は省略する。
第2オプションツール部32は、シンタックス解析部10にて得られたサイド情報に基づいて、量子化誤差範囲推定部40にて得られた量子化誤差範囲に、M/SステレオやIntensityステレオなどのジョイントステレオの処理や、TNS(ISO/IEC 13818-7参照)の処理などを施す。
発生符号量算出部90は、シンタックス解析部10にて得られた量子化スペクトル(quant)に基づいて、フレーム毎の発生符号量Bの算出を行う。
信号特性判定部53は、発生符号量算出部90が算出した発生符号量Bが予め設定した閾値TH2を上回る場合には、現フレームの信号特性が時間域において過渡的であると判定する。一方、上記発生符号量Bが予め設定した閾値TH2以下の場合には、現フレームの信号特性が時間域において定常的であると判定する。これは、一般に、時間域において過渡的な信号を符号化する際により多くのビットを必要とする傾向があることに基づくものである。そして、信号特性判定部52は、信号特性を示す判定結果を信号補正部60に通知する。
信号特性判定部53は、発生符号量算出部90が算出した発生符号量Bが予め設定した閾値TH2を上回る場合には、現フレームの信号特性が時間域において過渡的であると判定する。一方、上記発生符号量Bが予め設定した閾値TH2以下の場合には、現フレームの信号特性が時間域において定常的であると判定する。これは、一般に、時間域において過渡的な信号を符号化する際により多くのビットを必要とする傾向があることに基づくものである。そして、信号特性判定部52は、信号特性を示す判定結果を信号補正部60に通知する。
なお、閾値TH2は、サンプリング周波数、平均ビットレート(kbps)などによって決まる値であり、例えば下式(9)のように1フレーム当りの平均符号量を動的に求めて、これを閾値TH2として採用するようにしてもよい。
式(9)において、bitrateは平均ビットレート(bps)を示し、frame_sizeは、符号化するフレームサイズを示し、Fsは、サンプリング周波数(Hz)を示す。ただし、閾値TH2の設定方法は、式(9)に限定されるものではなく、発生符号量と信号の定常性を関連付けるという趣旨を逸脱しない範囲であれば適宜変更可能である。
信号補正部60は、信号特性判定部52の判定で得られた信号特性と、第2オプションツール部32から出力される量子化誤差範囲とに基づいて、第2オプションツール部32から出力される信号に対して、量子化誤差の補正を行う。なお、信号補正部60の動作原理は、第1の実施形態の信号補正部60と同様であるため、式(5)〜(7)を用いた説明は省略する。
周波数/時間変換部70は、信号補正部60により補正されたMDCT係数を、周波数域の信号から時間域の信号へ変換し、これによりPCM信号を得る。
以上のように、上記構成のオーディオ復号装置では、信号特性判定部52により発生符号量から信号特性を検出して、時間域での予測精度が高いか、あるいは周波数域での予測精度が高いかを判定して、この判定結果に基づいて、信号補正部60が逆量子化によって得たスペクトル情報の量子化誤差の補正を行うようにしている。
したがって、上記構成のオーディオ復号装置によれば、近接する周波数帯域での連続性がないような信号の場合には、時間域での予測を行って量子化誤差を補正するので、近接する周波数帯域での連続性がないような信号でも、符号化の際に生じた歪みの影響を抑制して、原音に忠実な再生音を復元することができる。
また、量子化誤差を補正して符号化前の原信号に近づける効果があるため、歓声検出や音楽検出など、信号の特徴解析の前処理としても有効である。
また、量子化誤差を補正して符号化前の原信号に近づける効果があるため、歓声検出や音楽検出など、信号の特徴解析の前処理としても有効である。
なお、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
その一例として例えば、上記実施の形態では、線形予測によって現フレームのMDCT係数を予測しているが、時系列の定常性に着目して予測を行う手法であれば、上記実施形態に限定されるものではなく、この趣旨を逸脱しない範囲であれば別の予測方法を利用することも可能である。
その他、この発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。
その他、この発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。
10…シンタックス解析部、20…逆量子化部、31…第1オプションツール部、32…第2オプションツール部、40…量子化誤差範囲推定部、51…信号特性判定部、52…信号特性判定部、53…信号特性判定部、60…信号補正部、70…時間変換部、80…スペクトル平坦度算出部、90…発生符号量算出部。
Claims (5)
- オーディオ符号化データを復号して、量子化ステップサイズに関する情報と、スペクトル値に関する情報を得る復号手段と、
前記スペクトル値の時間域の信号特性を判定する判定手段と、
復号手段の復号結果を逆量子化して、スペクトル値を得る逆量子化手段と、
前記量子化ステップサイズに関する情報と、前記スペクトル値とに基づいて、前記スペクトル値の符号化前のレベルの範囲を推定する推定手段と、
前記判定手段が時間域の信号特性を定常的と判定した場合には、前記スペクトル値の時間的な連続性を考慮した前記範囲内で、前記スペクトル値を補正し、一方、前記判定手段が時間域の信号特性を過渡的と判定した場合には、前記スペクトル値のフレーム内の周波数的な連続性を考慮した前記範囲内で、前記スペクトル値を補正する補正手段と、
この補正手段で補正されたスペクトル値を時間域の信号に変換する変換手段とを具備することを特徴とするオーディオ復号装置。 - 前記判定手段は、オーディオ符号化データに含まれる、フレームの大きさを示す情報から前記スペクトル値の信号特性を判定し、
前記補正手段は、前記判定手段がフレームの大きさが予め設定した閾値以上で前記信号特性を定常的と判定した場合には、前記スペクトル値の時間的な連続性を考慮した前記範囲内で、前記スペクトル値を補正し、一方、前記判定手段がフレームの大きさが予め設定した閾値未満で前記信号特性を過渡的と判定した場合には、前記スペクトル値のフレーム内の周波数的な連続性を考慮した前記範囲内で、前記スペクトル値を補正することを特徴とする請求項1に記載のオーディオ復号装置。 - 前記判定手段は、前記スペクトル値に関する情報からスペクトル形の平坦度を検出し、
前記補正手段は、前記判定手段が検出した平坦度が予め設定した閾値未満で前記信号特性を定常的と判定した場合には、前記スペクトル値の時間的な連続性を考慮した前記範囲内で、前記スペクトル値を補正し、一方、前記判定手段が検出した平坦度が予め設定した閾値以上で前記信号特性を過渡的と判定した場合には、前記スペクトル値のフレーム内の周波数的な連続性を考慮した前記範囲内で、前記スペクトル値を補正することを特徴とする請求項1に記載のオーディオ復号装置。 - 前記判定手段は、前記スペクトル値に関する情報からフレーム毎に発生符号量を検出し、
前記補正手段は、前記判定手段が検出した発生符号量が予め設定した閾値未満で前記信号特性を定常的と判定した場合には、前記スペクトル値の時間的な連続性を考慮した前記範囲内で、前記スペクトル値を補正し、一方、前記判定手段が検出した発生符号量が予め設定した閾値以上で前記信号特性を過渡的と判定した場合には、前記スペクトル値のフレーム内の周波数的な連続性を考慮した前記範囲内で、前記スペクトル値を補正することを特徴とする請求項1に記載のオーディオ復号装置。 - 前記推定手段は、前記オーディオ符号化データの量子化式を量子化値を示すパラメータについて微分した式に、前記スペクトル値に関する情報を代入し、この結果と、前記量子化ステップサイズに関する情報と、前記スペクトル値とに基づいて、前記スペクトル値の符号化前のレベルの範囲を推定することを特徴とする請求項1に記載のオーディオ復号装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007104069A JP2008261999A (ja) | 2007-04-11 | 2007-04-11 | オーディオ復号装置 |
US12/072,344 US20080255860A1 (en) | 2007-04-11 | 2008-02-26 | Audio decoding apparatus and decoding method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007104069A JP2008261999A (ja) | 2007-04-11 | 2007-04-11 | オーディオ復号装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008261999A true JP2008261999A (ja) | 2008-10-30 |
Family
ID=39854545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007104069A Pending JP2008261999A (ja) | 2007-04-11 | 2007-04-11 | オーディオ復号装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20080255860A1 (ja) |
JP (1) | JP2008261999A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016507789A (ja) * | 2013-02-21 | 2016-03-10 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | 平均符号化レートを制御するためのシステムおよび方法 |
JP2020014037A (ja) * | 2018-07-13 | 2020-01-23 | 日本電信電話株式会社 | 抽出発生音補正装置、抽出発生音補正方法、プログラム |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5309944B2 (ja) * | 2008-12-11 | 2013-10-09 | 富士通株式会社 | オーディオ復号装置、方法、及びプログラム |
EP2490216B1 (en) * | 2009-10-14 | 2019-04-24 | III Holdings 12, LLC | Layered speech coding |
EP2357645A1 (en) * | 2009-12-28 | 2011-08-17 | Kabushiki Kaisha Toshiba | Music detecting apparatus and music detecting method |
JP6626319B2 (ja) * | 2015-11-18 | 2019-12-25 | キヤノン株式会社 | 符号化装置、撮像装置、符号化方法、及びプログラム |
-
2007
- 2007-04-11 JP JP2007104069A patent/JP2008261999A/ja active Pending
-
2008
- 2008-02-26 US US12/072,344 patent/US20080255860A1/en not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016507789A (ja) * | 2013-02-21 | 2016-03-10 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | 平均符号化レートを制御するためのシステムおよび方法 |
JP2020014037A (ja) * | 2018-07-13 | 2020-01-23 | 日本電信電話株式会社 | 抽出発生音補正装置、抽出発生音補正方法、プログラム |
JP6994221B2 (ja) | 2018-07-13 | 2022-01-14 | 日本電信電話株式会社 | 抽出発生音補正装置、抽出発生音補正方法、プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20080255860A1 (en) | 2008-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101162275B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
AU2024203054B2 (en) | Audio encoder and decoder | |
JP6423460B2 (ja) | フレームエラー隠匿装置 | |
JP5267362B2 (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 | |
JP5539203B2 (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
TWI585749B (zh) | 無損編碼方法 | |
JP6474845B2 (ja) | 軽減された計算量の変換器snr計算 | |
KR100904605B1 (ko) | 음성부호화장치, 음성복호장치, 음성부호화방법 및음성복호방법 | |
KR20100086000A (ko) | 오디오 신호 처리 방법 및 장치 | |
JP5390690B2 (ja) | 音声コーデックの品質向上装置およびその方法 | |
JP2008261999A (ja) | オーディオ復号装置 | |
JP5609591B2 (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム | |
JP2017532595A (ja) | デジタルオーディオ信号におけるプレエコーの識別及び減衰 | |
US20190348055A1 (en) | Audio paramenter quantization | |
JP3616307B2 (ja) | 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体 | |
JP7257975B2 (ja) | 密集性の過渡事象の検出及び符号化の複雑さの低減 | |
JP4116628B2 (ja) | オーディオ符号化方法およびオーディオ符号化装置 | |
JP2008026372A (ja) | 符号化データの符号化則変換方法および装置 | |
JP2005351977A (ja) | オーディオ信号符号化装置及びオーディオ信号符号化方法 |