JP5609591B2 - オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム - Google Patents
オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム Download PDFInfo
- Publication number
- JP5609591B2 JP5609591B2 JP2010266492A JP2010266492A JP5609591B2 JP 5609591 B2 JP5609591 B2 JP 5609591B2 JP 2010266492 A JP2010266492 A JP 2010266492A JP 2010266492 A JP2010266492 A JP 2010266492A JP 5609591 B2 JP5609591 B2 JP 5609591B2
- Authority
- JP
- Japan
- Prior art keywords
- channel
- amount
- encoding
- bit amount
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 51
- 238000004590 computer program Methods 0.000 title claims description 6
- 238000013139 quantization Methods 0.000 claims description 124
- 230000005236 sound signal Effects 0.000 claims description 49
- 238000006243 chemical reaction Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 description 63
- 230000008569 process Effects 0.000 description 24
- 230000000873 masking effect Effects 0.000 description 18
- 238000012937 correction Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000006866 deterioration Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000316907 Eucalymnatus tessellatus Species 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本実施形態では、時間周波数変換部11は、高速フーリエ変換を用いて、各チャネルの信号を周波数信号に変換する。この場合、フレームtにおけるチャネルchの時間領域の信号Xch(t)を周波数信号に変換する式は次式のように表される。
なお、時間周波数変換部11は、離散コサイン変換、修正離散コサイン変換またはQuadrature Mirror Filter(QMF)フィルタバンクなど、他の時間周波数変換処理を用いて、各チャネルの時間領域の信号を、それぞれ、周波数信号に変換してもよい。
あるいは、聴覚分析部121は、人の聴覚特性に応じてマスキング閾値を算出してもよい。この場合、符号化対象のフレームの着目する周波数帯域についてのマスキング閾値は、符号化対象のフレームより前のフレームにおける同じ周波数帯域のスペクトル電力、及び符号化対象のフレームの隣接する周波数帯域のスペクトル電力が大きいほど高くなる。
聴覚分析部121は、例えば、ISO/IEC 13818-7:2006のAnnex CのC.1 Psychoacoustic ModelのC.1.4 Steps in Threshold Calculationの項に記載された閾値(マスキング閾値に相当)の算出処理に従って、マスキング閾値を算出できる。この場合、聴覚分析部121は、符号化対象のフレームの一つ前及び二つ前のフレームの周波数信号を利用して、マスキング閾値を算出する。そこで、聴覚分析部121は、符号化対象のフレームの一つ前及び二つ前のフレームの周波数信号を記憶するメモリ回路を有してもよい。
聴覚分析部121は、各フレームにおいて、チャネルごとに、各周波数帯域のスペクトル電力及びマスキング閾値を心理聴覚エントロピー算出部122へ出力する。
心理聴覚エントロピー算出部122は、各フレームにおいて算出したPE値をビット配分制御部13へ出力する。
ビット量決定部131は、例えば、ビット量決定部131が有する、半導体メモリなどのメモリに各チャネルの推定係数を記憶する。そしてビット量決定部131は、その推定係数を用いて、フレームごとに、各チャネルの割当ビット量を求め、その割当ビット量を符号化部14及び推定誤り量算出部132へ通知する。
例えば、係数更新部133は、チャネルchの推定誤り量diffch(t)が所定の期間Tthに渡って連続して所定の誤り許容範囲から外れる場合、そのチャネルchの推定係数を修正する。所定の期間Tthは、例えば、割当ビット量が不適切であることに起因する再生音質の劣化をリスナーが知覚できない期間、例えば、1フレーム〜5フレームに設定される。例えば、符号化対象となるオーディオ信号が48kHzでサンプリングされており、1フレーム当たり1024個のサンプリング点が含まれている場合、期間Tthは、約20m秒〜約100m秒に相当する。
係数更新部133は、フレームごとに、各チャネルの推定係数αch(t)をビット量決定部131へ通知する。
ビット配分制御部13の推定誤り量算出部132は、符号化対象フレームtの一つ前のフレーム(t-1)における未調整符号化ビット量rBitch(t-1)と割当ビット量pBitth(t-1)を比較することにより、推定誤り量diffch(t)を算出する(ステップS101)。そして推定誤り量算出部132は、推定誤り量diffch(t)をビット配分制御部13の係数更新部133へ通知する。
一方、カウンタcが期間Tthに達していれば(ステップS105−Yes)、係数更新部133は、推定誤り量diffch(t)が小さくなるように推定係数を更新する(ステップS106)。そして係数更新部133は、推定係数の更新処理を終了する。
先ず、符号化部14は、各周波数信号を量子化するための量子化幅を規定する量子化スケールの初期値を決定する(ステップS201)。例えば、符号化部14は、再生音質が所定の基準を満たすように、量子化スケールの初期値を決定する。量子化スケールを決定するために、符号化部14は、例えば、ISO/IEC 13818-7:2006のAnnex Cに記載された方法または3GPP TS26.403の5.6.2.1に記載された方法を用いることができる。例えば、3GPP TS26.403の5.6.2.1に記載された方法が用いられる場合、符号化部14は、次式に従って量子化スケールの初期値を決定する。
例えば、符号化部14は、特開2008−224902号公報に開示されているように、SBR符号化の対象となる高域成分と強い相関のある各チャネルの周波数信号の低域成分を複製する。なお、低域成分は、符号化部14が符号化対象とする高域成分が含まれる高周波数帯域よりも低い低周波数帯域に含まれる各チャネルの周波数信号であり、例えば、上記のAAC符号化方式に従って符号化される。そして符号化部14は、複製された高域成分の電力を、元の高域成分の電力と一致するように調整する。また符号化部14は、元の高域成分のうち、低域成分との差異が大きく、低域成分を複写しても、高域成分を近似できない成分を補助情報とする。そして符号化部14は、複製に利用された低域成分と対応する高域成分の位置関係を表す情報と、電力調整量と補助情報を量子化することにより符号化する。この場合も、符号化部14は、各チャネルの符号化ビット量が割当ビット量以下となるまで、低域成分の信号の量子化に用いられる量子化スケールと、電力調整量と補助情報に対する量子化スケールを調整する。
また、符号化部14は、量子化された周波数信号などをエントロピー符号化する代わりに、データ量を圧縮できる他の符号化方法を用いて符号化してもよい。
図5は、符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。この例では、符号化されたオーディオ信号は、MPEG-4 ADTS(Audio Data Transport Stream)形式に従って作成される。図5に示される符号化データ列500において、データブロック510内に、チャネルごとのエントロピー符号が格納される。またデータブロック510の前に、ADTS形式のヘッダ情報520が格納される。
第2の実施形態によれば、ビット配分制御部は、符号化対象フレームの一つ前のフレームにおける、符号化部で決定された量子化スケールの初期値と符号化完了時の量子化スケールとの差または比に応じて推定誤り量を算出する。なお、この実施形態によるオーディオ符号化装置の構成は、図1に示される上記の実施形態のオーディオ符号化装置の構成と同一である。またこの実施形態によるオーディオ符号化装置は、上記のオーディオ符号化装置と比較して、ビット配分制御部13及び符号化部14で実行される処理のみが異なる。
先ず、符号化部14は、各周波数信号を量子化するための量子化幅を規定する量子化スケールの初期値を決定する(ステップS401)。例えば、符号化部14は、上記の実施形態と同様に、(10)式に従って量子化スケールの初期値を決定する。次に、符号化部14は、決定された量子化スケールを用いて、例えば(11)式に従って周波数信号を量子化する(ステップS402)。符号化部14は、各チャネルの周波数信号の量子化値及び量子化スケールを、エントロピー符号化する(ステップS403)。そして符号化部14は、チャネルごとに、エントロピー符号化された量子化値及び量子化スケールのビット数の合計totalBitch(t)を算出する(ステップS404)。ここで符号化部14は、量子化に用いられた量子化スケールがその初期値か否か判定する(ステップS405)。量子化スケールが初期値であれば(ステップS405−Yes)、符号化部14は、エントロピー符号の合計ビット数totalBitch(t)が割当ビット量pBitch(t)以下か否か判定する(ステップS406)。totalBitch(t)が割当ビット量pBitch(t)より多ければ(ステップS406−No)、符号化部14は、符号化ビット数を減少させるため、量子化スケール値を大きくする(ステップS407)。例えば、符号化部14は、周波数帯域ごとの量子化スケール値を2倍にする。また符号化部14は、量子化スケールを大きくする方に調整するか、あるいは小さくする方に調整するかを表すスケールフラグsfを、大きくすることを表す値に設定する。そして符号化部14は、量子化スケールの初期値及びスケールフラグsfを、符号化部14が有するメモリに記憶する。
線901は、各周波数帯域の量子化スケールの初期値を表すグラフである。また線902、903は、符号化完了時における各周波数帯域の量子化スケールの値を表すグラフである。なお、横軸は周波数を表し、縦軸は量子化スケール値を表す。
逆に、割当ビット量よりも未調整符号化ビット量の方が少ない場合、グラフ903に示されるように、符号化完了時の量子化スケール値が、量子化スケールの初期値よりも小さくなるように調整される。そのため、符号化完了時の量子化スケールの値が小さいほど、符号化完了時における各周波数信号の量子化値及び符号化ビット量は大きくなる。
そこでビット配分制御部13は、符号化完了時の量子化スケール値が量子化スケールの初期値よりも大きいほど、割当ビット量が多くなるように推定係数を更新することで、各チャネルに割り当てるビット量を最適化できる。
また、推定誤り量算出部132は、量子化スケールの初期値に対する符号化完了時の量子化スケールの比(lScalech(t-1)/fScalech(t-1))をスケール調整量dScalech(t)として算出してもよい。
あるいは、スケール調整量dScalech(t)と推定誤り量diffch(t)との関係を表す参照テーブルが予め推定誤り量算出部132が有するメモリに記憶されていてもよい。この場合、推定誤り量算出部132は、その参照テーブルを参照して、スケール調整量dScalech(t)に対応する推定誤り量diffch(t)を決定する。
第3の実施形態によるオーディオ符号化装置は、第1または第2の実施形態によるオーディオ符号化装置と比較して、ビット配分制御部のビット量決定部の処理のみが異なる。そこで以下では、ビット量決定部のみを説明する。
例えば、係数βchは、各チャネルに対して均等にビット数が割り当てられるよう、符号化対象となるオーディオ信号が有するチャネル数Nの逆数に設定される。
あるいは、係数βchは、チャネルごとに予め定められた比率に設定される。この場合、係数βchの合計が1となるように設定される。また、係数βchは、再生音質に対する影響が大きいチャネルほど、大きな値となるように設定されてもよい。
また、係数βchは、修正前の割当ビット量のチャネルごとの相対的な比率が維持されるように、次式に従って決定されてもよい。
第4の実施形態によるオーディオ符号化装置は、第1〜第3の実施形態によるオーディオ符号化装置と比較して、ビット配分制御部の推定誤り量算出部の処理のみが異なる。そこで以下では、推定誤り量算出部のみを説明する。
ノイズ対マスク比算出部1322は、各チャネルのNMRch(t-1)を重み係数決定部1323へ通知する。
ここで、NMRch(t-1)が正の値を持つ場合、すなわち、量子化誤差が各周波数帯域のマスキング閾値の合計よりも大きい場合、リスナーが量子化誤差を再生音質の劣化として知覚できるほど量子化誤差が大きい。そこで重み係数決定部1323は、NMRch(t-1)が正の値を持つ場合、量子化誤差を小さくするよう割当ビット量を増やすために、NMRch(t-1)が大きくなるほど重み係数wchを大きくする。
重み係数決定部1323は、各チャネルの重み係数を推定誤り量補正部1324へ出力する。
多重化部105は、符号化動画像データと符号化オーディオデータが多重化されたストリームを通信処理部106へ出力する。
(付記1)
オーディオ信号に含まれる少なくとも一つのチャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記チャネルの信号を、周波数信号に変換する時間周波数変換部と、
前記少なくとも一つのチャネルごとに前記周波数信号の複雑度を算出する複雑度算出部と、
前記少なくとも一つのチャネルごとに、当該チャネルの複雑度が大きいほど当該チャネルに割り当てる割当ビット量も多くなるように当該割当ビット量を決定するとともに、所定数前のフレームについて再生音質が所定の基準を満たすように前記周波数信号を符号化した場合の未調整符号化ビット量に対する前記割当ビット量の推定誤り量が大きいほど前記割当ビット量を増加させるビット配分制御部と、
各チャネルの前記周波数信号を、当該チャネルの前記割当ビット量以下となるように符号化する符号化部と、
を有するオーディオ符号化装置。
(付記2)
前記符号化部は、前記所定数前のフレームについて、再生音質が前記基準を満たす第1の量子化スケールで前記周波数信号を量子化し、量子化された前記周波数信号及び前記第1の量子化スケールを所定の符号化方式に従って符号化することにより得られた符号化ビット量を前記未調整符号化ビット量として算出し、かつ、前記周波数信号を第2の量子化スケールにて量子化し、当該第2の量子化スケール及び量子化された前記周波数信号を所定の符号化方式に従って符号化することにより得られた符号化ビット量が前記割当ビット量以下となるように前記第2の量子化スケールを決定し、
前記ビット配分制御部は、前記所定数前のフレームについての前記未調整符号化ビット量と前記割当ビット量との差または前記未調整符号化ビット量に対する前記割当ビット量の比を前記推定誤り量として算出する、付記1に記載のオーディオ符号化装置。
(付記3)
前記符号化部は、前記所定数前のフレームについて、再生音質が前記基準を満たす第1の量子化スケールと、前記周波数信号を第2の量子化スケールにて量子化し、当該第2の量子化スケール及び量子化された前記周波数信号を所定の符号化方式に従って符号化することにより得られた符号化ビット量が前記割当ビット量以下となるように前記第2の量子化スケールとを決定し、
前記ビット配分制御部は、前記第1の量子化スケールよりも前記第2の量子化スケールが大きいほど前記推定誤り量も大きい値とする、付記1に記載のオーディオ符号化装置。
(付記4)
前記ビット配分制御部は、前記所定数前のフレームにおける、前記符号化部が前記第2の量子化スケールを用いて前記周波数信号を量子化した場合の量子化誤差が、リスナーが再生音質の劣化を知覚できない前記周波数信号の電力の上限よりも大きいほど、前記推定誤り量がより大きな値となるように前記推定誤り量を補正する、付記2または3に記載のオーディオ符号化装置。
(付記5)
前記オーディオ信号は、2以上のチャネルを含み、
前記ビット配分制御部は、前記2以上のチャネルのそれぞれに対する前記割当ビット量の合計が利用可能なビット量の上限以下となるように、前記2以上のチャネルのそれぞれに対して前記割当ビット量を設定する、付記1〜4の何れか一項に記載のオーディオ符号化装置。
(付記6)
前記複雑度は心理聴覚エントロピーである、付記1〜5の何れか一項に記載のオーディオ符号化装置。
(付記7)
前記ビット配分制御部は、前記少なくとも一つのチャネルごとに、当該チャネルの前記複雑度に当該チャネルについて決定された推定係数を乗じた値に基づいて前記割当ビット量を決定し、
1以上の所定数のフレームに渡って前記推定誤り量が所定の許容範囲から外れた場合に前記推定係数を更新する、付記1〜6の何れか一項に記載のオーディオ符号化装置。
(付記8)
オーディオ信号に含まれる少なくとも一つのチャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記チャネルの信号を、周波数信号に変換し、
前記少なくとも一つのチャネルごとに前記周波数信号の複雑度を算出し、
前記少なくとも一つのチャネルごとに、当該チャネルの複雑度が大きいほど当該チャネルに割り当てる割当ビット量も多くなるように当該割当ビット量を決定するとともに、所定数前のフレームについて再生音質が所定の基準を満たすように前記周波数信号を符号化した場合の未調整符号化ビット量に対する前記割当ビット量の推定誤り量が大きいほど前記割当ビット量を増加させ、
各チャネルの前記周波数信号を、当該チャネルの前記割当ビット量以下となるように符号化する、
ことを含むオーディオ符号化方法。
(付記9)
オーディオ信号に含まれる少なくとも一つのチャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記チャネルの信号を、周波数信号に変換し、
前記少なくとも一つのチャネルごとに前記周波数信号の複雑度を算出し、
前記少なくとも一つのチャネルごとに、当該チャネルの複雑度が大きいほど当該チャネルに割り当てる割当ビット量も多くなるように当該割当ビット量を決定するとともに、所定数前のフレームについて再生音質が所定の基準を満たすように前記周波数信号を符号化した場合の未調整符号化ビット量に対する前記割当ビット量の推定誤り量が大きいほど前記割当ビット量を増加させ、
各チャネルの前記周波数信号を、当該チャネルの前記割当ビット量以下となるように符号化する、
ことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。
(付記10)
入力された動画像信号を符号化する動画像符号化部と、
入力された少なくとも一つのチャネルを持つオーディオ信号を符号化するオーディオ符号化部であって、
前記少なくとも一つのチャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記チャネルの信号を、周波数信号に変換する時間周波数変換部と、
前記少なくとも一つのチャネルごとに前記周波数信号の複雑度を算出する複雑度算出部と、
前記少なくとも一つのチャネルごとに、当該チャネルの複雑度が大きいほど当該チャネルに割り当てる割当ビット量も多くなるように当該割当ビット量を決定するとともに、所定数前のフレームについて再生音質が所定の基準を満たすように前記周波数信号を符号化した場合の未調整符号化ビット量に対する前記割当ビット量の推定誤り量が大きいほど前記割当ビット量を増加させるビット配分制御部と、
各チャネルの前記周波数信号を、当該チャネルの前記割当ビット量以下となるように符号化する符号化部と、を有するオーディオ符号化部と、
前記動画像符号化部により符号化された動画像信号と前記オーディオ符号化部により符号化されたオーディオ信号を多重化することにより映像ストリームを生成する多重化部と、
を有する映像伝送装置。
11 時間周波数変換部
12 複雑度算出部
121 聴覚分析部
122 心理聴覚エントロピー算出部
13 ビット配分制御部
131 ビット量決定部
132 推定誤り量算出部
1321 未補正推定誤り量算出部
1322 ノイズ対マスク比算出部
1323 重み係数決定部
1324 推定誤り量補正部
133 係数更新部
14 符号化部
15 多重化部
100 映像伝送装置
101 映像取得部
102 音声取得部
103 映像符号化部
104 オーディオ符号化部
105 多重化部
106 通信処理部
107 出力部
Claims (7)
- オーディオ信号に含まれる少なくとも一つのチャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記チャネルの信号を、周波数信号に変換する時間周波数変換部と、
前記少なくとも一つのチャネルごとに前記オーディオ信号に含まれる符号化対象フレームにおける前記周波数信号の複雑度を算出する複雑度算出部と、
前記少なくとも一つのチャネルごとに、当該チャネルの複雑度が大きいほど当該チャネルに割り当てる割当ビット量も多くなるように前記符号化対象フレームにおける当該割当ビット量を決定するとともに、前記符号化対象フレームよりも所定数前のフレームについて再生音質が所定の基準を満たすように前記周波数信号を符号化した場合の未調整符号化ビット量に対する前記割当ビット量の推定誤り量が大きいほど前記割当ビット量を増加させるビット配分制御部と、
前記符号化対象フレームの各チャネルの前記周波数信号を、当該チャネルの前記割当ビット量以下となるように符号化する符号化部と、
を有するオーディオ符号化装置。 - 前記符号化部は、前記所定数前のフレームについて、再生音質が前記基準を満たす第1の量子化スケールで前記周波数信号を量子化し、量子化された前記周波数信号及び前記第1の量子化スケールを所定の符号化方式に従って符号化することにより得られた符号化ビット量を前記未調整符号化ビット量として算出し、かつ、前記周波数信号を第2の量子化スケールにて量子化し、当該第2の量子化スケール及び量子化された前記周波数信号を所定の符号化方式に従って符号化することにより得られた符号化ビット量が前記割当ビット量以下となるように前記第2の量子化スケールを決定し、
前記ビット配分制御部は、前記所定数前のフレームについての前記未調整符号化ビット量と前記割当ビット量との差または前記未調整符号化ビット量に対する前記割当ビット量の比を前記推定誤り量として算出する、請求項1に記載のオーディオ符号化装置。 - 前記符号化部は、前記所定数前のフレームについて、再生音質が前記基準を満たす第1の量子化スケールと、前記周波数信号を第2の量子化スケールにて量子化し、当該第2の量子化スケール及び量子化された前記周波数信号を所定の符号化方式に従って符号化することにより得られた符号化ビット量が前記割当ビット量以下となるように前記第2の量子化スケールとを決定し、
前記ビット配分制御部は、前記第1の量子化スケールよりも前記第2の量子化スケールが大きいほど前記推定誤り量も大きい値とする、請求項1に記載のオーディオ符号化装置。 - 前記ビット配分制御部は、前記所定数前のフレームにおける、前記符号化部が前記第2の量子化スケールを用いて前記周波数信号を量子化した場合の量子化誤差が、リスナーが再生音質の劣化を知覚できない前記周波数信号の電力の上限よりも大きいほど、前記推定誤り量がより大きな値となるように前記推定誤り量を補正する、請求項2または3に記載のオーディオ符号化装置。
- 前記オーディオ信号は、2以上のチャネルを含み、
前記ビット配分制御部は、前記2以上のチャネルのそれぞれに対する前記割当ビット量の合計が利用可能なビット量の上限以下となるように、前記2以上のチャネルのそれぞれに対して前記割当ビット量を設定する、請求項1〜4の何れか一項に記載のオーディオ符号化装置。 - オーディオ信号に含まれる少なくとも一つのチャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記チャネルの信号を、周波数信号に変換し、
前記少なくとも一つのチャネルごとに前記オーディオ信号に含まれる符号化対象フレームにおける前記周波数信号の複雑度を算出し、
前記少なくとも一つのチャネルごとに、当該チャネルの複雑度が大きいほど当該チャネルに割り当てる割当ビット量も多くなるように前記符号化対象フレームにおける当該割当ビット量を決定するとともに、前記符号化対象フレームよりも所定数前のフレームについて再生音質が所定の基準を満たすように前記周波数信号を符号化した場合の未調整符号化ビット量に対する前記割当ビット量の推定誤り量が大きいほど前記割当ビット量を増加させ、
前記符号化対象フレームの各チャネルの前記周波数信号を、当該チャネルの前記割当ビット量以下となるように符号化する、
ことを含むオーディオ符号化方法。 - オーディオ信号に含まれる少なくとも一つのチャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記チャネルの信号を、周波数信号に変換し、
前記少なくとも一つのチャネルごとに前記オーディオ信号に含まれる符号化対象フレームにおける前記周波数信号の複雑度を算出し、
前記少なくとも一つのチャネルごとに、当該チャネルの複雑度が大きいほど当該チャネルに割り当てる割当ビット量も多くなるように前記符号化対象フレームにおける当該割当ビット量を決定するとともに、前記符号化対象フレームよりも所定数前のフレームについて再生音質が所定の基準を満たすように前記周波数信号を符号化した場合の未調整符号化ビット量に対する前記割当ビット量の推定誤り量が大きいほど前記割当ビット量を増加させ、
前記符号化対象フレームの各チャネルの前記周波数信号を、当該チャネルの前記割当ビット量以下となるように符号化する、
ことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010266492A JP5609591B2 (ja) | 2010-11-30 | 2010-11-30 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
US13/297,536 US9111533B2 (en) | 2010-11-30 | 2011-11-16 | Audio coding device, method, and computer-readable recording medium storing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010266492A JP5609591B2 (ja) | 2010-11-30 | 2010-11-30 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012118205A JP2012118205A (ja) | 2012-06-21 |
JP5609591B2 true JP5609591B2 (ja) | 2014-10-22 |
Family
ID=46127219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010266492A Expired - Fee Related JP5609591B2 (ja) | 2010-11-30 | 2010-11-30 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9111533B2 (ja) |
JP (1) | JP5609591B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3346465A1 (en) | 2011-05-13 | 2018-07-11 | Samsung Electronics Co., Ltd. | Audio decoding with noise filling |
JP5704018B2 (ja) * | 2011-08-05 | 2015-04-22 | 富士通セミコンダクター株式会社 | オーディオ信号符号化方法および装置 |
JP6109956B2 (ja) * | 2012-12-17 | 2017-04-05 | インテル・コーポレーション | ビデオコンテンツを前処理するエンコーダハードウェアの活用 |
KR102161741B1 (ko) * | 2013-05-02 | 2020-10-06 | 삼성전자주식회사 | HEVC(high efficiency video coding)에서 코딩 유닛에 대한 양자화 파라미터를 변화시키는 방법과 장치, 및 시스템 |
WO2021005347A1 (en) * | 2019-07-05 | 2021-01-14 | V-Nova International Ltd | Quantization of residuals in video coding |
US11755431B2 (en) * | 2021-09-02 | 2023-09-12 | Rattheon Company | Identification of optimal bit apportionments for digital functions subject to soft errors |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2751564B2 (ja) * | 1990-05-25 | 1998-05-18 | ソニー株式会社 | ディジタル信号符号化装置 |
JP3531177B2 (ja) * | 1993-03-11 | 2004-05-24 | ソニー株式会社 | 圧縮データ記録装置及び方法、圧縮データ再生方法 |
JP3250376B2 (ja) * | 1994-06-13 | 2002-01-28 | ソニー株式会社 | 情報符号化方法及び装置並びに情報復号化方法及び装置 |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
SE9700772D0 (sv) * | 1997-03-03 | 1997-03-03 | Ericsson Telefon Ab L M | A high resolution post processing method for a speech decoder |
TW384434B (en) * | 1997-03-31 | 2000-03-11 | Sony Corp | Encoding method, device therefor, decoding method, device therefor and recording medium |
US6356639B1 (en) * | 1997-04-11 | 2002-03-12 | Matsushita Electric Industrial Co., Ltd. | Audio decoding apparatus, signal processing device, sound image localization device, sound image control method, audio signal processing device, and audio signal high-rate reproduction method used for audio visual equipment |
JPH11219197A (ja) * | 1998-02-02 | 1999-08-10 | Fujitsu Ltd | オーディオ信号符号化方法及び装置 |
KR100434275B1 (ko) * | 2001-07-23 | 2004-06-05 | 엘지전자 주식회사 | 패킷 변환 장치 및 그를 이용한 패킷 변환 방법 |
JP3942882B2 (ja) * | 2001-12-10 | 2007-07-11 | シャープ株式会社 | ディジタル信号符号化装置およびそれを備えたディジタル信号記録装置 |
JP2005202248A (ja) * | 2004-01-16 | 2005-07-28 | Fujitsu Ltd | オーディオ符号化装置およびオーディオ符号化装置のフレーム領域割り当て回路 |
JP4639073B2 (ja) * | 2004-11-18 | 2011-02-23 | キヤノン株式会社 | オーディオ信号符号化装置および方法 |
WO2006054583A1 (ja) * | 2004-11-18 | 2006-05-26 | Canon Kabushiki Kaisha | オーディオ信号符号化装置および方法 |
JP2007183528A (ja) | 2005-12-06 | 2007-07-19 | Fujitsu Ltd | 符号化装置、符号化方法、および符号化プログラム |
SG136836A1 (en) * | 2006-04-28 | 2007-11-29 | St Microelectronics Asia | Adaptive rate control algorithm for low complexity aac encoding |
JP4823001B2 (ja) * | 2006-09-27 | 2011-11-24 | 富士通セミコンダクター株式会社 | オーディオ符号化装置 |
JP4984983B2 (ja) | 2007-03-09 | 2012-07-25 | 富士通株式会社 | 符号化装置および符号化方法 |
WO2009004727A1 (ja) * | 2007-07-04 | 2009-01-08 | Fujitsu Limited | 符号化装置、符号化方法および符号化プログラム |
US8295494B2 (en) * | 2007-08-13 | 2012-10-23 | Lg Electronics Inc. | Enhancing audio with remixing capability |
JP5446258B2 (ja) * | 2008-12-26 | 2014-03-19 | 富士通株式会社 | オーディオ符号化装置 |
US8391212B2 (en) * | 2009-05-05 | 2013-03-05 | Huawei Technologies Co., Ltd. | System and method for frequency domain audio post-processing based on perceptual masking |
JP5333257B2 (ja) * | 2010-01-20 | 2013-11-06 | 富士通株式会社 | 符号化装置、符号化システムおよび符号化方法 |
JP5533502B2 (ja) * | 2010-09-28 | 2014-06-25 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
JP5633431B2 (ja) * | 2011-03-02 | 2014-12-03 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
JP5737077B2 (ja) * | 2011-08-30 | 2015-06-17 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
-
2010
- 2010-11-30 JP JP2010266492A patent/JP5609591B2/ja not_active Expired - Fee Related
-
2011
- 2011-11-16 US US13/297,536 patent/US9111533B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US9111533B2 (en) | 2015-08-18 |
JP2012118205A (ja) | 2012-06-21 |
US20120136657A1 (en) | 2012-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5267362B2 (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 | |
JP7010885B2 (ja) | 音声または音響符号化装置、音声または音響復号装置、音声または音響符号化方法及び音声または音響復号方法 | |
JP4212591B2 (ja) | オーディオ符号化装置 | |
JP5539203B2 (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
KR101162275B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
US7110941B2 (en) | System and method for embedded audio coding with implicit auditory masking | |
RU2434324C1 (ru) | Устройство масштабируемого декодирования и устройство масштабируемого кодирования | |
US8019601B2 (en) | Audio coding device with two-stage quantization mechanism | |
KR102055022B1 (ko) | 부호화 장치 및 방법, 복호 장치 및 방법, 및 프로그램 | |
JP5737077B2 (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム | |
JP5533502B2 (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム | |
JP5609591B2 (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム | |
MX2014011605A (es) | Metodos y dispositivos de codificacion y descodificacion de señal. | |
KR20070070189A (ko) | 음성 부호화 장치 및 음성 부호화 방법 | |
JP2012181429A (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム | |
JP2004029761A (ja) | 音声信号を送信およびパックするためのデジタル符号化方法およびアーキテクチャ | |
US9548057B2 (en) | Adaptive gain-shape rate sharing | |
KR20070083856A (ko) | 스케일러블 부호화 장치, 스케일러블 복호화 장치 및이러한 방법 | |
WO2006041055A1 (ja) | スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130904 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140513 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140708 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140805 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140818 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5609591 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |