Nothing Special   »   [go: up one dir, main page]

JP5609591B2 - オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム - Google Patents

オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム Download PDF

Info

Publication number
JP5609591B2
JP5609591B2 JP2010266492A JP2010266492A JP5609591B2 JP 5609591 B2 JP5609591 B2 JP 5609591B2 JP 2010266492 A JP2010266492 A JP 2010266492A JP 2010266492 A JP2010266492 A JP 2010266492A JP 5609591 B2 JP5609591 B2 JP 5609591B2
Authority
JP
Japan
Prior art keywords
channel
amount
encoding
bit amount
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010266492A
Other languages
English (en)
Other versions
JP2012118205A (ja
Inventor
美由紀 白川
美由紀 白川
洋平 岸
洋平 岸
鈴木 政直
政直 鈴木
土永 義照
義照 土永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010266492A priority Critical patent/JP5609591B2/ja
Priority to US13/297,536 priority patent/US9111533B2/en
Publication of JP2012118205A publication Critical patent/JP2012118205A/ja
Application granted granted Critical
Publication of JP5609591B2 publication Critical patent/JP5609591B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、例えば、オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムに関する。
従来より、オーディオ信号のデータ量を圧縮するためのオーディオ信号の符号化方式が開発されている。そのような符号化方式では、データの転送レートなどの制約により、符号化後のオーディオ信号に対してフレームごとに利用可能なビット量が予め決まっていることがある。そのため、オーディオ符号化装置は、利用可能なビット量をオーディオ信号が有する各チャネルまたは各周波数帯域に対して適切に割り当てることが好ましい。各チャネルまたは各周波数帯域に対するビット量の割り当てが適切でなければ、例えば、あるチャネルでは割り当てられたビット量が不足することにより再生音質が大きく劣化してしまう。そこで、符号化対象となるオーディオ信号に対して、適応的に符号化されたデータのビット量を割り当てる技術が提案されている(例えば、特許文献1を参照)。
そのような公知技術の一つでは、圧縮及び伸張したデータと入力データから圧縮過程において発生する誤差を算出し、その誤差に応じて、例えば、周波数帯域ごとに配分されるビット量が修正される。
特開平6−268608号公報
しかしながら、上記の公知技術では、一旦符号化したオーディオ信号を復号しなければ誤差を算出することができないので、配分されるビット量を決定するのに要する演算量が増大してしまう。また、オーディオ信号の転送にリアルタイム性が要求されるアプリケーション、あるいは、携帯端末といったハードウェアのリソース量が限られたハードウェアにおいてオーディオ信号の符号化が行われる場合、符号化に要する演算量は少ないほど好ましい。
そこで、本明細書は、符号化に要する演算量の増大を抑制しつつ、再生されるオーディオ信号の音質の劣化を抑制可能なオーディオ符号化装置を提供することを目的とする。
一つの実施形態によれば、オーディオ符号化装置が提供される。このオーディオ符号化装置は、オーディオ信号に含まれる少なくとも一つのチャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、各チャネルの信号を周波数信号に変換する時間周波数変換部と、チャネルごとに周波数信号の複雑度を算出する複雑度算出部と、チャネルごとに、チャネルの複雑度が大きいほどそのチャネルに割り当てる割当ビット量も多くなるように割当ビット量を決定するとともに、所定数前のフレームについて再生音質が所定の基準を満たすように周波数信号を符号化した場合の未調整符号化ビット量に対する割当ビット量の推定誤り量が大きいほど割当ビット量を増加させるビット配分制御部と、各チャネルの周波数信号を、そのチャネルの割当ビット量以下となるように符号化する符号化部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示されたオーディオ符号化装置は、符号化に要する演算量の増大を抑制しつつ、再生されるオーディオ信号の音質の劣化を抑制することができる。
第1の実施形態によるオーディオ符号化装置の概略構成図である。 推定誤り量と推定係数の時間変化の一例を表す図である。 推定係数更新処理の動作フローチャートである。 周波数信号符号化処理の動作フローチャートである。 符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。 オーディオ符号化処理の動作フローチャートである。 第2の実施形態による周波数信号の符号化処理の動作フローチャートである。 第2の実施形態による周波数信号の符号化処理の動作フローチャートである。 符号化完了時の量子化スケール及び量子化スケールの初期値と、量子化スケール、周波数信号の量子化信号値及びエントロピー符号化された量子化信号及び量子化スケールの符号化ビット量との関係を表す概念図である。 第4の実施形態によるオーディオ符号化装置の推定誤り量算出部の概略構成図である。 何れかの実施形態に係るオーディオ符号化装置が組み込まれた映像伝送装置の概略構成図である。
以下、図を参照しつつ、様々な実施形態による、オーディオ符号化装置について説明する。このオーディオ符号化装置は、符号化対象となるオーディオ信号が有するチャネルごとに、そのチャネルの信号の複雑度に応じて割り当てるビット量を決定する。その際、このオーディオ符号化装置は、チャネルごとに、既に符号化されたフレームについて算出された、再生音質が所定の基準を満たすように信号を符号化するためのビット量に対する、事前に割り当てられたビット量の推定誤り量を算出する。そしてこのオーディオ符号化装置は、その推定誤り量が大きいチャネルほど、次のフレームに対して割り当てるビット量を増加させる。
なお、符号化対象となるオーディオ信号が有するチャネルの数に制限は無く、例えば、符号化対象となるオーディオ信号は、モノラル、ステレオ、3.1chまたは5.1chオーディオ信号とすることができる。本実施形態では、符号化対象となるオーディオ信号は、N個のチャネルを有するものとする。ただし、Nは1以上の整数である。
図1は、第1の実施形態によるオーディオ符号化装置の概略構成図である。図1に示すように、オーディオ符号化装置1は、時間周波数変換部11と、複雑度算出部12と、ビット配分制御部13と、符号化部14と、多重化部15とを有する。
オーディオ符号化装置1が有するこれらの各部は、それぞれ別個の回路として形成される。あるいはオーディオ符号化装置1が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路としてオーディオ符号化装置1に実装されてもよい。さらに、オーディオ符号化装置1が有するこれらの各部は、オーディオ符号化装置1が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
時間周波数変換部11は、オーディオ符号化装置1に入力されたオーディオ信号の時間領域の各チャネルの信号を、それぞれフレーム単位で時間周波数変換することにより、各チャネルの周波数信号に変換する。
本実施形態では、時間周波数変換部11は、高速フーリエ変換を用いて、各チャネルの信号を周波数信号に変換する。この場合、フレームtにおけるチャネルchの時間領域の信号Xch(t)を周波数信号に変換する式は次式のように表される。
Figure 0005609591
ここでkは時間を表す変数であり、1フレームのオーディオ信号を時間方向にS個に等分したときのk番目の時間を表す。なお、フレーム長は、例えば、10〜80msecの何れかとすることができる。またiは周波数を表す変数であり、周波数帯域全体をS個に等分したときのi番目の周波数を表す。なおSは、例えば、1024に設定される。そしてspecch(t)iは、フレームtにおけるチャネルchのi番目の周波数信号である。
なお、時間周波数変換部11は、離散コサイン変換、修正離散コサイン変換またはQuadrature Mirror Filter(QMF)フィルタバンクなど、他の時間周波数変換処理を用いて、各チャネルの時間領域の信号を、それぞれ、周波数信号に変換してもよい。
時間周波数変換部11は、フレーム単位で各チャネルの周波数信号を算出する度に、各チャネルの周波数信号を複雑度算出部12及び符号化部14へ出力する。
複雑度算出部12は、各フレームについて、チャネルごとのビットの割当量を決定するための指標となる、チャネルごとの周波数信号の複雑度を算出する。そのために、本実施形態では、複雑度算出部12は、聴覚分析部121と、心理聴覚エントロピー算出部122とを有する。
聴覚分析部121は、フレームごとに、各チャネルの周波数信号を予め定められた帯域幅を持つ複数の帯域に分割し、帯域ごとのスペクトル電力及びマスキング閾値を算出する。そのために、聴覚分析部121は、例えば、ISO/IEC 13818-7:2006のAnnex CのC.1 Psychoacoustic Modelに記載された方法を用いることができる。なお、ISO/IEC 13818-7:2006は、国際標準化機構(International Organization for Standardization、ISO)と国際電気標準会議(International Electrotechnical Commission、IEC)とが共同で策定した国際規格の一つである。
聴覚分析部121は、例えば、次式に従って、各帯域のスペクトル電力を算出する。
Figure 0005609591
ここで、specPowch[b](t)は、フレームtにおける、チャネルchの周波数帯域bのスペクトル電力である。またbw[b]は周波数帯域bの帯域幅を表す。
また聴覚分析部121は、周波数帯域ごとに、視聴者が聞くことができる音の周波数信号の下限となる電力を表すマスキング閾値を算出する。聴覚分析部121は、マスキング閾値として、例えば、周波数帯域ごとに予め設定された値を出力してもよい。
あるいは、聴覚分析部121は、人の聴覚特性に応じてマスキング閾値を算出してもよい。この場合、符号化対象のフレームの着目する周波数帯域についてのマスキング閾値は、符号化対象のフレームより前のフレームにおける同じ周波数帯域のスペクトル電力、及び符号化対象のフレームの隣接する周波数帯域のスペクトル電力が大きいほど高くなる。
聴覚分析部121は、例えば、ISO/IEC 13818-7:2006のAnnex CのC.1 Psychoacoustic ModelのC.1.4 Steps in Threshold Calculationの項に記載された閾値(マスキング閾値に相当)の算出処理に従って、マスキング閾値を算出できる。この場合、聴覚分析部121は、符号化対象のフレームの一つ前及び二つ前のフレームの周波数信号を利用して、マスキング閾値を算出する。そこで、聴覚分析部121は、符号化対象のフレームの一つ前及び二つ前のフレームの周波数信号を記憶するメモリ回路を有してもよい。
あるいは、聴覚分析部121は、Third Generation Partnership Project(3GPP) TS 26.403 V9.0.0 5.4.2 Threshold Calculationの項に記載されている方法に従ってマスキング閾値を算出してもよい。この場合、聴覚分析部121は、例えば、信号対ノイズ比に対する周波数帯域ごとのスペクトル電力の比として得られる閾値を、音声の拡散及びプリエコーなどを考慮して補正することによりマスキング閾値を算出する。
聴覚分析部121は、各フレームにおいて、チャネルごとに、各周波数帯域のスペクトル電力及びマスキング閾値を心理聴覚エントロピー算出部122へ出力する。
心理聴覚エントロピー算出部122は、各フレームにおいて、チャネルごとに、複雑度を表す指標として、心理聴覚エントロピー(Perceptual Entropy、PE)を例えば次式に従って算出する。PE値は、リスナーが雑音を知覚することがないようにそのフレームを量子化するために必要な情報量を表す。
Figure 0005609591
ここで、specPowch[b](t)及びmaskPowch[b](t)は、それぞれ、フレームtにおける、チャネルchの周波数帯域bのスペクトル電力及びマスキング閾値である。またbw[b]は周波数帯域bの帯域幅を表し、Bは周波数スペクトル全体を分割した周波数帯域の総数を表す。そしてPEch(t)は、フレームtにおける、チャネルchのPE値である。
心理聴覚エントロピー算出部122は、各フレームにおいて算出したPE値をビット配分制御部13へ出力する。
ビット配分制御部13は、フレームごとに、各チャネルに割り当てる符号化された周波数信号のビット量の上限値である割当ビット量を決定し、その割当ビット量を符号化部14へ通知する。そのために、ビット配分制御部13は、ビット量決定部131と、推定誤り量算出部132と、係数更新部133とを有する。
ビット量決定部131は、チャネルごとに、複雑度と割当ビット量との関係を表す推定式に従って、割当ビット量を決定する。本実施形態では、複雑度の一例であるPE値と割当ビット量との関係を表す式は次式により表される。
Figure 0005609591
ここでPEch(t)は、フレームtにおける、チャネルchのPE値である。またαch(t)は、チャネルchのフレームtにおける推定係数であり、正の値を持つ。したがって、ビット量決定部131は、チャネルの周波数信号の複雑度が高いほど、そのチャネルに割り当てられるビット数を多くする。αch(t)はチャネルごとに設定され、また後述するように、係数更新部133により更新される。
ビット量決定部131は、例えば、ビット量決定部131が有する、半導体メモリなどのメモリに各チャネルの推定係数を記憶する。そしてビット量決定部131は、その推定係数を用いて、フレームごとに、各チャネルの割当ビット量を求め、その割当ビット量を符号化部14及び推定誤り量算出部132へ通知する。
推定誤り量算出部132は、符号化対象のフレームの所定数前のフレームについて、チャネルごとに、周波数信号を再生音質が所定の基準を満たすように符号化するのに要したビット量である未調整符号化ビット量に対する、割当ビット量の推定誤り量を算出する。この推定誤り量は、実際にオーディオ信号を符号化することにより初めて分かるものである。推定誤り量算出部132は、例えば、次式に従って推定誤り量を算出できる。
Figure 0005609591
ここでpBitch(t-1)は、符号化対象フレームtの一つ前のフレーム(t-1)における、チャネルchの割当ビット量である。またrBitch(t-1)は、フレーム(t-1)における、チャネルchの未調整符号化ビット量である。そしてdiffch(t)は、符号化対象フレームtについて算出された、チャネルchの推定誤り量である。
あるいは、推定誤り量算出部132は、次式に従ってチャネルchの推定誤り量を算出してもよい。
Figure 0005609591
推定誤り量算出部132は、各チャネルの推定誤り量及び未調整符号化ビット量を係数更新部133へ通知する。
係数更新部133は、各チャネルの推定誤り量に基づいて、推定係数を更新するか否かを決定し、かつ、推定係数が更新される場合には、推定誤り量が小さくなるように推定係数を修正する。
例えば、係数更新部133は、チャネルchの推定誤り量diffch(t)が所定の期間Tthに渡って連続して所定の誤り許容範囲から外れる場合、そのチャネルchの推定係数を修正する。所定の期間Tthは、例えば、割当ビット量が不適切であることに起因する再生音質の劣化をリスナーが知覚できない期間、例えば、1フレーム〜5フレームに設定される。例えば、符号化対象となるオーディオ信号が48kHzでサンプリングされており、1フレーム当たり1024個のサンプリング点が含まれている場合、期間Tthは、約20m秒〜約100m秒に相当する。
誤り許容範囲は、例えば、推定誤り量diffch(t)が(5)式に従ってrBitch(t-1)とpBitch(t-1)の差として算出されている場合、推定誤り量diffch(t)の絶対値が閾値Diffth以下となる範囲である。この場合、閾値Diffthは、略100〜略500内の何れかの値に設定される。また、推定誤り量diffch(t)が(6)式に従ってrBitch(t-1)とpBitch(t-1)の比として算出されている場合、誤り許容範囲は(1-Diffth)〜(1+Diffth)である。この場合、閾値Diffthは、例えば、略0.1〜略0.5内の何れかの値に設定される。
チャネルchについて、推定誤り量diffch(t)が所定期間以上連続して誤り許容範囲から外れている場合、係数更新部133は、推定誤り量が減少するように、例えば、次式に従って推定係数を修正する。
Figure 0005609591
ここでαch(t)は、符号化対象フレームtのチャネルchの推定係数であり、αch(t-1)は、符号化対象フレームtの一つ前のフレーム(t-1)のチャネルchの推定係数である。またCorFacch(t)は傾き補正係数であり、例えば、次式に従って求められる。
Figure 0005609591
あるいは、係数更新部133は、推定係数が急激に変動することを防止するために、(8)式に従って算出された傾き補正係数CorFacch(t)を、以下のように忘却係数及び前のフレームの傾き補正係数CorFacch(t-1)を用いて平滑化してもよい。
Figure 0005609591
ここでpは忘却係数であり、例えば、0〜0.8内の何れかの値に設定される。(9)式から明らかなように、pが大きいほど、傾き補正係数の変化は緩やかになる。
なお、係数更新部133は、推定誤り量が誤り許容範囲から外れていないか、推定誤り量が誤り許容範囲から外れている期間が上記の所定期間に達していない場合、一つ前のフレームの推定係数αch(t-1)を符号化対象フレームの推定係数αch(t)とする。
係数更新部133は、フレームごとに、各チャネルの推定係数αch(t)をビット量決定部131へ通知する。
図2は、推定誤り量と推定係数の時間変化の一例を表す図である。図2における上側のグラフ201は、推定誤り量の時間変動を表し、下側のグラフ202は、推定係数の時間変動を表す。各グラフにおいて、横軸は時間を表す。また上側のグラフ201の縦軸は推定誤り量diffch(t)の値を表し、下側のグラフ202の縦軸は推定係数αch(t)の値を表す。この例では、推定誤り量は、(5)式に従って算出されているとする。
図2に示されるように、時刻t1以降、期間Tthの間、推定誤り量が閾値-Diffthを下回っている。すなわち、その期間中、チャネルchに対して割り当てられたビット量は、実際に必要な割当ビット量に対して過剰となっている。そのため、時刻t1から期間Tthが経過した時刻t2において、チャネルchに対する割当ビット量が減少するように、推定係数αch(t)はそれ以前における推定係数の値よりも小さな値に修正される。その後、時刻t2〜t3の間、推定誤り量は許容範囲内に収まっているので、時刻t3まで推定係数は修正されない。そして時刻t3以降、期間Tthの間、推定誤り量が閾値Diffthを上回っている。すなわち、その期間中、チャネルchに対して割り当てられたビット量は、実際に必要な割当ビット量に対して不足している。そのため、時刻t3から期間Tthが経過した時刻t4において、チャネルchに対する割当ビット量が増加するように、推定係数αch(t)はそれ以前における推定係数の値よりも大きな値に修正される。
図3は、ビット配分制御部13により実行される推定係数更新処理の動作フローチャートである。ビット配分制御部13は、各フレームについて、チャネルごとに、この動作フローチャートに従って推定係数の更新処理を実行する。
ビット配分制御部13の推定誤り量算出部132は、符号化対象フレームtの一つ前のフレーム(t-1)における未調整符号化ビット量rBitch(t-1)と割当ビット量pBitth(t-1)を比較することにより、推定誤り量diffch(t)を算出する(ステップS101)。そして推定誤り量算出部132は、推定誤り量diffch(t)をビット配分制御部13の係数更新部133へ通知する。
係数更新部133は、推定誤り量diffch(t)が誤り許容範囲内か否か判定する(ステップS102)。推定誤り量diffch(t)が誤り許容範囲内であれば(ステップS102−Yes)、係数更新部133は、推定誤り量diffch(t)が誤り許容範囲を超えている期間を表すカウンタcを0にリセットする(ステップS103)。そして係数更新部133は、推定係数を更新せずに、推定係数の更新処理を終了する。
一方、推定誤り量diffch(t)が誤り許容範囲から外れていれば(ステップS102−No)、係数更新部133は、カウンタcを1インクリメントする(ステップS104)。そして係数更新部133は、カウンタcが期間Tthに達したか否か判定する(ステップS105)。カウンタcが期間Tthに達していなければ(ステップS105−No)、係数更新部133は、推定係数を更新せずに、推定係数の更新処理を終了する。
一方、カウンタcが期間Tthに達していれば(ステップS105−Yes)、係数更新部133は、推定誤り量diffch(t)が小さくなるように推定係数を更新する(ステップS106)。そして係数更新部133は、推定係数の更新処理を終了する。
符号化部14は、時間周波数変換部11から出力された各チャネルの周波数信号を、ビット配分制御部13により決定された割当ビット量以下となるように符号化する。本実施形態では、符号化部14は、チャネルごとに、各周波数信号を量子化し、その量子化された周波数信号をエントロピー符号化する。
図4は、符号化部14により実行される周波数信号符号化処理の動作フローチャートである。符号化部14は、各フレームについて、チャネルごとに、この動作フローチャートに従って周波数信号を符号化する。
先ず、符号化部14は、各周波数信号を量子化するための量子化幅を規定する量子化スケールの初期値を決定する(ステップS201)。例えば、符号化部14は、再生音質が所定の基準を満たすように、量子化スケールの初期値を決定する。量子化スケールを決定するために、符号化部14は、例えば、ISO/IEC 13818-7:2006のAnnex Cに記載された方法または3GPP TS26.403の5.6.2.1に記載された方法を用いることができる。例えば、3GPP TS26.403の5.6.2.1に記載された方法が用いられる場合、符号化部14は、次式に従って量子化スケールの初期値を決定する。
Figure 0005609591
ここで、scalech[b](t)及びmaskPowch[b](t)は、それぞれ、フレームtにおける、チャネルchの周波数帯域bの量子化スケールの初期値及びマスキング閾値である。またbw[b]は周波数帯域bの帯域幅を表す。specch(t)iは、フレームtにおける、チャネルchのi番目の周波数信号である。床関数floor(x)は、変数x以下の最大の整数を返す関数である。
次に、符号化部14は、決定された量子化スケールを用いて、例えば次式に従って周波数信号を量子化する(ステップS202)。
Figure 0005609591
ここでquantch(t)iは、フレームtにおける、チャネルchのi番目の周波数信号の量子化値である。またscalech[b](t)は、i番目の周波数信号が含まれる周波数帯域について算出された量子化スケールである。
符号化部14は、各チャネルの周波数信号の量子化値及び量子化スケールを、ハフマン符号または算術符号といったエントロピー符号を用いてエントロピー符号化する(ステップS203)。そして符号化部14は、チャネルごとに、エントロピー符号化された量子化値及び量子化スケールのビット数の合計totalBitch(t)を算出する(ステップS204)。ここで符号化部14は、周波数信号の量子化に用いられた量子化スケールがその初期値か否か判定する(ステップS205)。量子化スケールが初期値であれば(ステップS205−Yes)、符号化部14は、エントロピー符号の合計ビット数totalBitch(t)を未調整符号化ビット量rBitch(t)として、ビット配分制御部13へ通知する(ステップS206)。
ステップS206の後、あるいは、ステップS205にて量子化スケールが初期値でない場合(ステップS205−No)、符号化部14は、エントロピー符号の合計ビット数totalBitch(t)が割当ビット量pBitch(t)以下か否か判定する(ステップS207)。totalBitch(t)が割当ビット量pBitch(t)よりも多ければ(ステップS207−No)、符号化部14は、量子化スケール値をより大きな値となるように修正する(ステップS208)。例えば、符号化部14は、周波数帯域ごとの量子化スケール値を2倍にする。そして符号化部14は、ステップS202以降の処理を再度実行する。
一方、エントロピー符号の合計ビット数totalBitch(t)が割当ビット量pBitch(t)以下であれば(ステップS207−Yes)、符号化部14は、エントロピー符号をそのチャネルの符号化データとして多重化部15へ出力する(ステップS209)。そして符号化部14は、そのチャネルについての周波数信号の符号化処理を終了する。
なお、符号化部14は、他の符号化方式を用いてもよい。符号化部14は、例えば、Advanced Audio Coding(AAC)符号化方式に従って各チャネルの周波数信号を符号化してもよい。この場合、符号化部14は、例えば、特開2007−183528号公報に開示されている技術を利用できる。具体的には、符号化部14は、PE値を算出するか、複雑度算出部12からPE値を受け取る。PE値は、打楽器が発する音のようなアタック音など、信号レベルが短時間で変化する音に対して大きな値となる特性を持つ。そこで、符号化部14は、PEの値が比較的大きくなるフレームに対しては、窓を短くし、PEの値が比較的小さくなるブロックに対しては、窓を長くする。例えば、短い窓は、256個のサンプルを含み、長い窓は、2048個のサンプルを含む。符号化部14は、各チャネルの周波数信号を、時間周波数変換部11で用いられた時間周波数変換の逆変換を用いて一旦周波数時間変換する。そして符号化部14は、決定された長さを持つ窓を用いて各チャネルのステレオ信号に対して修正離散コサイン変換(Modified Discrete Cosine Transform、MDCT)を実行することにより、各チャネルの信号をMDCT係数の組に変換する。符号化部14は、MDCT係数の組を、上記の量子化スケールを用いて量子化し、その量子化されたMDCT係数の組をエントロピー符号化する。その際、符号化部14は、各チャネルの符号化ビット量が割当ビット量以下となるまで、量子化スケールを調整する。
さらに、符号化部14は、チャネルごとに、周波数信号のうち、高周波数帯域に含まれる成分である高域成分を、Spectral Band Replication(SBR)符号化方式にしたがって符号化してもよい。
例えば、符号化部14は、特開2008−224902号公報に開示されているように、SBR符号化の対象となる高域成分と強い相関のある各チャネルの周波数信号の低域成分を複製する。なお、低域成分は、符号化部14が符号化対象とする高域成分が含まれる高周波数帯域よりも低い低周波数帯域に含まれる各チャネルの周波数信号であり、例えば、上記のAAC符号化方式に従って符号化される。そして符号化部14は、複製された高域成分の電力を、元の高域成分の電力と一致するように調整する。また符号化部14は、元の高域成分のうち、低域成分との差異が大きく、低域成分を複写しても、高域成分を近似できない成分を補助情報とする。そして符号化部14は、複製に利用された低域成分と対応する高域成分の位置関係を表す情報と、電力調整量と補助情報を量子化することにより符号化する。この場合も、符号化部14は、各チャネルの符号化ビット量が割当ビット量以下となるまで、低域成分の信号の量子化に用いられる量子化スケールと、電力調整量と補助情報に対する量子化スケールを調整する。
また、符号化部14は、量子化された周波数信号などをエントロピー符号化する代わりに、データ量を圧縮できる他の符号化方法を用いて符号化してもよい。
多重化部15は、符号化部14によって生成されたエントロピー符号を所定の順序に従って配列することにより多重化する。そして多重化部15は、その多重化により生成された符号化オーディオ信号を出力する。
図5は、符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。この例では、符号化されたオーディオ信号は、MPEG-4 ADTS(Audio Data Transport Stream)形式に従って作成される。図5に示される符号化データ列500において、データブロック510内に、チャネルごとのエントロピー符号が格納される。またデータブロック510の前に、ADTS形式のヘッダ情報520が格納される。
図6は、オーディオ符号化処理の動作フローチャートである。なお、図6に示されたフローチャートは、1フレーム分のオーディオ信号に対する処理を表す。オーディオ符号化装置1は、オーディオ信号を受信し続けている間、フレームごとに図6に示されたオーディオ符号化処理の手順を繰り返し実行する。
時間周波数変換部11は、各チャネルの信号を周波数信号に変換する(ステップS301)。時間周波数変換部11は、各チャネルの周波数信号を複雑度算出部12及び符号化部14へ出力する。複雑度算出部12は、チャネルごとに複雑度を算出する(ステップS302)。上記のように、本実施形態では、複雑度算出部12は、複雑度として、各チャネルのPE値を算出する。そして複雑度算出部12は、各チャネルのPE値をビット配分制御部13へ出力する。
ビット配分制御部13は、チャネルごとに、複雑度と割当ビット量の関係式を規定する推定係数αch(t)を、既に符号化されたフレームについての未調整符号化ビット量rBitch(t-1)及び割当ビット量pBitch(t-1)に基づいて更新する(ステップS303)。ビット配分制御部13は、チャネルごとに、推定係数αch(t)を用いて、複雑度が高くなるほど割当ビット量pBitch(t)も多くなるように割当ビット量pBitch(t)を決定する(ステップS304)。そしてビット配分制御部13は、各チャネルの割当ビット量pBitch(t)を符号化部14へ通知する。
符号化部14は、チャネルごとに、符号化ビット量が割当ビット量以下となるように、各周波数信号を量子化し、量子化された周波数信号及び量子化に用いた量子化スケールをエントロピー符号化する(ステップS305)。そして符号化部14は、エントロピー符号を多重化部15へ出力する。多重化部15は、各チャネルのエントロピー符号を所定の順序に従って配列することにより多重化する(ステップS306)。そして多重化部15は、その多重化により生成された符号化オーディオ信号を出力する。そしてオーディオ符号化装置1は、符号化処理を終了する。
表1に、4音源の5.1チャネルオーディオ信号を、ビットレート160kbpsでMPEG Surround方式(ISO/IEC 23003-1)に従って符号化した場合における、本実施形態による各チャネルへのビット割当を行った場合と行わない場合の再生音質の評価値を示す。
Figure 0005609591
表1において、上から順に、各行には、本実施形態による割当ビット量の調整が実施されていない場合、調整が実施された場合のObjective Difference Grade(ODG)のチャネル平均値、及び本実施形態によるODG値の改善度を表す。このODG値は、ITU-R勧告BS.1387-1にて規格化された客観評価技術であるPerceived Evaluation of Audio Quality(PEAQ)法により算出され、値が0に近いほど音質がよいことを表す。表1に示されるように、本実施形態による割当ビット量の調整が実施されることにより、ODG値が0.14ポイント改善することが分かった。この改善度は、ビットレートを10kbps増やしたのと同程度の改善度である。
以上に説明してきたように、第1の実施形態によるオーディオ符号化装置は、既に符号化されたフレームについて未調整符号化ビット量に対する割当ビット量の推定誤り量を推定係数を更新するための指標として求める。そのため、このオーディオ符号化装置は、符号化ビット量を正確に推定できるので、各チャネルに適切に符号化ビット量を割り当てることができる。したがって、このオーディオ符号化装置は、再生されるオーディオ信号の音質劣化を抑制することができる。また、このオーディオ符号化装置は、一旦符号化されたフレームを復号しないので、推定係数の更新による演算量を抑制できる。
次に、第2の実施形態によるオーディオ符号化装置について説明する。
第2の実施形態によれば、ビット配分制御部は、符号化対象フレームの一つ前のフレームにおける、符号化部で決定された量子化スケールの初期値と符号化完了時の量子化スケールとの差または比に応じて推定誤り量を算出する。なお、この実施形態によるオーディオ符号化装置の構成は、図1に示される上記の実施形態のオーディオ符号化装置の構成と同一である。またこの実施形態によるオーディオ符号化装置は、上記のオーディオ符号化装置と比較して、ビット配分制御部13及び符号化部14で実行される処理のみが異なる。
図7及び図8は、第2の実施形態によるオーディオ符号化装置の符号化部14による周波数信号の符号化処理の動作フローチャートである。符号化部14は、各フレームについて、チャネルごとに、この動作フローチャートに従って周波数信号を符号化する。
先ず、符号化部14は、各周波数信号を量子化するための量子化幅を規定する量子化スケールの初期値を決定する(ステップS401)。例えば、符号化部14は、上記の実施形態と同様に、(10)式に従って量子化スケールの初期値を決定する。次に、符号化部14は、決定された量子化スケールを用いて、例えば(11)式に従って周波数信号を量子化する(ステップS402)。符号化部14は、各チャネルの周波数信号の量子化値及び量子化スケールを、エントロピー符号化する(ステップS403)。そして符号化部14は、チャネルごとに、エントロピー符号化された量子化値及び量子化スケールのビット数の合計totalBitch(t)を算出する(ステップS404)。ここで符号化部14は、量子化に用いられた量子化スケールがその初期値か否か判定する(ステップS405)。量子化スケールが初期値であれば(ステップS405−Yes)、符号化部14は、エントロピー符号の合計ビット数totalBitch(t)が割当ビット量pBitch(t)以下か否か判定する(ステップS406)。totalBitch(t)が割当ビット量pBitch(t)より多ければ(ステップS406−No)、符号化部14は、符号化ビット数を減少させるため、量子化スケール値を大きくする(ステップS407)。例えば、符号化部14は、周波数帯域ごとの量子化スケール値を2倍にする。また符号化部14は、量子化スケールを大きくする方に調整するか、あるいは小さくする方に調整するかを表すスケールフラグsfを、大きくすることを表す値に設定する。そして符号化部14は、量子化スケールの初期値及びスケールフラグsfを、符号化部14が有するメモリに記憶する。
一方、エントロピー符号の合計ビット数totalBitch(t)が割当ビット量pBitch(t)以下であれば(ステップS406−Yes)、符号化部14は、符号化ビット数を増やせるか確認するために、量子化スケール値を小さくする(ステップS408)。例えば、符号化部14は、周波数帯域ごとの量子化スケール値を1/2倍にする。また符号化部14は、スケールフラグsfを、量子化スケールを小さくすることを表す値に設定する。そして符号化部14は、量子化スケールの初期値及びスケールフラグsfを、符号化部14が有するメモリに記憶する。ステップS407またはS408の後、符号化部14は、ステップS402以降の処理を再度実行する。
ステップS405にて、量子化スケールが初期値でなければ(ステップS405−No)、図8に示されるように、符号化部14は、メモリに記憶されているスケールフラグsfが量子化スケールを大きくすることを表す値か否か判定する(ステップS409)。スケールフラグsfが量子化スケールを大きくすることを表す値である場合(ステップS409−Yes)、符号化部14は、エントロピー符号の合計ビット数totalBitch(t)が割当ビット量pBitch(t)以下か否か判定する(ステップS410)。totalBitch(t)がpBitch(t)より大きければ(ステップS410−No)、符号化部14は、量子化スケール値を大きくする(ステップS411)。そして符号化部14は、ステップS402以降の処理を再度実行する。
一方、totalBitch(t)がpBitch(t)以下であれば(ステップS410−Yes)、符号化部14は、量子化スケールの初期値及び最新の量子化スケールの値をビット配分制御部13へ通知する(ステップS412)。また符号化部14は、最新の量子化スケール及び最新の量子化スケールを用いて量子化された周波数信号のエントロピー符号をそのチャネルの符号化データとして多重化部15へ出力する(ステップS413)。そして符号化部14は、そのチャネルについての周波数信号の符号化処理を終了する。
一方、ステップS409にてスケールフラグsfが量子化スケールを小さくすることを表す値である場合(ステップS409−No)、符号化部14は、totalBitch(t)がpBitch(t)より多いか否か判定する(ステップS414)。totalBitch(t)がpBitch(t)以下であれば(ステップS414−No)、符号化部14は、量子化スケール値を小さくする(ステップS415)。また符号化部14は、修正前の量子化スケール値及びエントロピー符号をメモリに記憶する。そして符号化部14は、ステップS402以降の処理を再度実行する。
一方、totalBitch(t)がpBitch(t)より多ければ(ステップS414−Yes)、符号化部14は、量子化スケールの初期値及び1回前の量子化スケールの値をビット配分制御部13へ通知する(ステップS416)。また符号化部14は、1回前の量子化スケール及びその量子化スケールを用いて量子化された周波数信号のエントロピー符号をそのチャネルの符号化データとして多重化部15へ出力する(ステップS417)。そして符号化部14はそのチャネルについての周波数信号の符号化処理を終了する。
図9は、符号化完了時の量子化スケール及び量子化スケールの初期値と、量子化スケール、周波数信号の量子化信号値及びエントロピー符号化された量子化信号及び量子化スケールの符号化ビット量との関係を表す概念図である。
線901は、各周波数帯域の量子化スケールの初期値を表すグラフである。また線902、903は、符号化完了時における各周波数帯域の量子化スケールの値を表すグラフである。なお、横軸は周波数を表し、縦軸は量子化スケール値を表す。
割当ビット量よりも未調整符号化ビット量の方が多い場合、グラフ902に示されるように、符号化完了時の量子化スケール値が、量子化スケールの初期値よりも大きくなるように調整される。そのため、符号化完了時の量子化スケールの値が大きいほど、符号化完了時における各周波数信号の量子化値及び符号化ビット量は小さくなる。
逆に、割当ビット量よりも未調整符号化ビット量の方が少ない場合、グラフ903に示されるように、符号化完了時の量子化スケール値が、量子化スケールの初期値よりも小さくなるように調整される。そのため、符号化完了時の量子化スケールの値が小さいほど、符号化完了時における各周波数信号の量子化値及び符号化ビット量は大きくなる。
そこでビット配分制御部13は、符号化完了時の量子化スケール値が量子化スケールの初期値よりも大きいほど、割当ビット量が多くなるように推定係数を更新することで、各チャネルに割り当てるビット量を最適化できる。
ビット配分制御部13の推定誤り量算出部132は、チャネルごとに、一つ前のフレームにおける符号化完了時の量子化スケールlScalech(t-1)と量子化スケールの初期値fScalech(t-1)との差(lScalech(t-1)-fScalech(t-1))をスケール調整量dScalech(t)として算出する。なお、(10)式が用いられる場合のように、量子化スケールが周波数帯域ごとに算出される場合、推定誤り量算出部132は、周波数帯域ごとの量子化スケールの初期値の平均値をfScalech(t-1)とする。同様に、推定誤り量算出部132は、周波数帯域ごとの符号化完了時の量子化スケールの値の平均値をlScalech(t-1)とする。
また、推定誤り量算出部132は、量子化スケールの初期値に対する符号化完了時の量子化スケールの比(lScalech(t-1)/fScalech(t-1))をスケール調整量dScalech(t)として算出してもよい。
推定誤り量算出部132はスケール調整量dScalech(t)と推定誤り量diffch(t)との関係式に基づいて、スケール調整量dScalech(t)に対する推定誤り量diffch(t)を決定する。なお、この関係式は、例えば、予め実験的に決定され、例えば、スケール調整量dScalech(t)が大きくなるほど推定誤り量diffch(t)も大きくなるように規定される。そしてその関係式は、予め推定誤り量算出部132が有するメモリに記憶される。
あるいは、スケール調整量dScalech(t)と推定誤り量diffch(t)との関係を表す参照テーブルが予め推定誤り量算出部132が有するメモリに記憶されていてもよい。この場合、推定誤り量算出部132は、その参照テーブルを参照して、スケール調整量dScalech(t)に対応する推定誤り量diffch(t)を決定する。
推定誤り量算出部132は、推定誤り量diffch(t)を係数更新部133へ通知する。そして係数更新部133は、第1の実施形態と同様の処理を行って推定係数を更新する。なお、この実施形態においては未調整符号化ビット量rBitch(t-1)がビット配分制御部13へ通知されない。そこで、係数更新部133は、(8)式の代わりに次式に従って補正係数CorFacch(t)を算出する。
Figure 0005609591
このように、量子化スケールのスケール調整量は、符号化ビット量の推定誤り量を表す指標であるため、第2の実施形態によるオーディオ符号化装置も、各チャネルに割り当てるビット量を最適化できる。
次に、第3の実施形態によるオーディオ符号化装置について説明する。第3の実施形態によるオーディオ符号化装置は、フレームごとに、各チャネルに割り当てられる割当ビット量の合計が、例えば、転送レートなどによって決まる符号化ビット量の利用可能な上限値以下となるように、各チャネルの割当ビット量を調整する。
第3の実施形態によるオーディオ符号化装置は、第1または第2の実施形態によるオーディオ符号化装置と比較して、ビット配分制御部のビット量決定部の処理のみが異なる。そこで以下では、ビット量決定部のみを説明する。
ビット量決定部は、フレームごとに、各チャネルの割当ビット量の合計totalAllocatedBit(t)を算出する。なお、各チャネルの割当ビット量を決めるための推定係数は、第1または第2の実施形態の何れに基づいて更新されてもよい。そしてビット量決定部は、totalAllocatedBit(t)が、フレームtの符号化ビット量の上限値allowedBits(t)よりも大きい場合、各チャネルの割当ビット量の合計がallowedBits(t)以下となるように、次式に従って各チャネルの割当ビット量を修正する。
Figure 0005609591
ここで、pBitch'(t)は、修正後のチャネルchの割当ビット量である。またβchは、チャネルchの割当ビット量を決定するための係数である。
例えば、係数βchは、各チャネルに対して均等にビット数が割り当てられるよう、符号化対象となるオーディオ信号が有するチャネル数Nの逆数に設定される。
あるいは、係数βchは、チャネルごとに予め定められた比率に設定される。この場合、係数βchの合計が1となるように設定される。また、係数βchは、再生音質に対する影響が大きいチャネルほど、大きな値となるように設定されてもよい。
また、係数βchは、修正前の割当ビット量のチャネルごとの相対的な比率が維持されるように、次式に従って決定されてもよい。
Figure 0005609591
ここでpBitch(t)は、修正前のチャネルchに対する割当ビット量である。またNは、符号化対象となるオーディオ信号が有するチャネル数である。なお、ビット量決定部は、(14)式において、pBitch(t)の代わりに各チャネルのPE値を用いてもよい。
このように、第3の実施形態によるオーディオ符号化装置は、利用可能なビットの上限値に合わせて各チャネルへの割当ビット量を最適化することができる。
次に、第4の実施形態によるオーディオ符号化装置について説明する。第4の実施形態によるオーディオ符号化装置は、推定誤り量を聴覚的な劣化を考慮して決定する。
第4の実施形態によるオーディオ符号化装置は、第1〜第3の実施形態によるオーディオ符号化装置と比較して、ビット配分制御部の推定誤り量算出部の処理のみが異なる。そこで以下では、推定誤り量算出部のみを説明する。
図10は、第4の実施形態によるオーディオ符号化装置の推定誤り量算出部の概略構成図である。推定誤り量算出部132は、未補正推定誤り量算出部1321と、ノイズ対マスク比算出部1322と、重み係数決定部1323と、推定誤り量補正部1324とを有する。
未補正推定誤り量算出部1321は、第1の実施形態または第2の実施形態による推定誤り量算出部の処理と同様の処理を行って、チャネルごとに推定誤り量diffch(t)を算出する。そして未補正推定誤り量算出部1321は、各チャネルの推定誤り量diffch(t)を推定誤り量補正部1324へ出力する。
ノイズ対マスク比算出部1322は、符号化対象フレームtの一つ前のフレーム(t-1)の各チャネルの量子化誤差を算出する。そしてノイズ対マスク比算出部1322は、チャネルごとに量子化誤差とマスキング閾値との比NMRch(t-1)を算出する。この場合、ノイズ対マスク比算出部1322は、複雑度算出部12から各チャネルのマスキング閾値を受け取って利用すればよい。また、量子化誤差は、符号化完了時における、符号化ビット数IBitch(t-1)に対する量子化スケールの符号化ビット数scaleBitch(t-1)の比が大きくなるほど単調増加することが知られている。そこで、例えば、比(scaleBitch(t-1)/IBitch(t-1))と量子化誤差Errch(t-1)との対応関係が予め実験などにより決定される。そして、比(scaleBitch(t-1)/IBitch(t-1))と量子化誤差Errch(t-1)との対応関係を表す参照テーブルがノイズ対マスク比算出部1322が有するメモリに予め記憶される。あるいは、ノイズ対マスク比算出部1322は、比(scaleBitch(t-1)/IBitch(t-1))と量子化誤差Errch(t-1)の関係を表す関係式に従って、比(scaleBitch(t-1)/IBitch(t-1))に対応する量子化誤差Errch(t-1)を決定してもよい。この場合、その関係式は、例えば、予め実験的により求められ、その関係式がノイズ対マスク比算出部1322が有するメモリに予め記憶される。ノイズ対マスク比算出部1322は、符号化部14から符号化ビット数IBitch(t-1)に対する量子化スケールの符号化ビット数scaleBitch(t-1)を受け取ってその比(scaleBitch(t-1)/IBitch(t-1))を算出する。そしてノイズ対マスク比算出部1322は、参照テーブルまたは関係式を参照することにより、その比(scaleBitch(t-1)/IBitch(t-1))に対応する量子化誤差Errch(t-1)を決定する。
量子化誤差Errch(t-1)が決定されると、ノイズ対マスク比算出部1322は、次式に従ってNMRch(t-1)を算出する。
Figure 0005609591
なお、maskPowch(t-1)は、フレーム(t-1)におけるチャネルchの各周波数帯域のマスキング閾値の合計である。
ノイズ対マスク比算出部1322は、各チャネルのNMRch(t-1)を重み係数決定部1323へ通知する。
重み係数決定部1323は、チャネルごとに、NMRch(t-1)に基づいて、推定誤り量に乗じる重み係数wchを決定する。
ここで、NMRch(t-1)が正の値を持つ場合、すなわち、量子化誤差が各周波数帯域のマスキング閾値の合計よりも大きい場合、リスナーが量子化誤差を再生音質の劣化として知覚できるほど量子化誤差が大きい。そこで重み係数決定部1323は、NMRch(t-1)が正の値を持つ場合、量子化誤差を小さくするよう割当ビット量を増やすために、NMRch(t-1)が大きくなるほど重み係数wchを大きくする。
一方、NMRch(t-1)が負の値を持つ場合、すなわち、量子化誤差が各周波数帯域のマスキング閾値の合計よりも小さい場合、リスナーは量子化誤差を再生音質の劣化として知覚できない。したがって、このチャネルに割り当てられた符号化ビット量は過剰であると推定される。そこで重み係数決定部1323は、NMRch(t-1)が負の値を持つ場合、割当ビット量を削減するために、NMRch(t-1)が小さくなるほど重み係数wchを小さくする。また、重み係数決定部1323は、NMRch(t-1)が負の値を持つ場合、重み係数wchを0に設定してもよい。
なお、重み係数wchを決定するために、NMRch(t-1)と重み係数wchの関係を表す参照テーブルが予め重み係数決定部1323が有するメモリに記憶されていてもよい。そして重み係数決定部1323は、その参照テーブルを参照することで、NMRch(t-1)に対応する重み係数wchを決定する。あるいは、重み係数決定部1323は、NMRch(t-1)と重み係数wchの関係を表す関係式に従って、NMRch(t-1)に対応する重み係数wchを決定してもよい。この場合、その関係式は、例えば、予め実験的により求められ、その関係式(例えば、下に凸で、NMRch(t-1)が0のときに最小値を持つ2次元関数)が重み係数決定部1323が有するメモリに予め記憶される。
重み係数決定部1323は、各チャネルの重み係数を推定誤り量補正部1324へ出力する。
推定誤り量補正部1324は、チャネルごとに、未補正推定誤り量算出部1321で算出された推定誤り量diffch(t)に重み係数wchを乗じることで、補正された推定誤り量diffch'(t)を求め、その補正された推定誤り量diffch'(t)を係数更新部133へ出力する。係数更新部133は、補正された推定誤り量diffch'(t)に基づいて推定係数を更新する。そして係数更新部132は、補正された推定誤り量diffch'(t)に基づいて更新された推定係数を用いて割当ビット量を決定する。また、ビット量決定部131は、第3の実施形態と同様に、各チャネルの割当ビット量の合計が利用可能なビット量の上限値以下となるように各チャネルの割当ビット量を修正してもよい。
このように、第4の実施形態によるオーディオ符号化装置は、量子化誤差による心理聴覚的な音質の劣化を考慮して各チャネルの割当ビット量を決定するので、各チャネルへの割当ビットをより最適化することができる。
また、上記の各実施形態において、オーディオ信号が複数のチャネルを持つ場合、符号化部は、複数のチャネルの周波数信号をダウンミックスして得られた信号を符号化してもよい。この場合、オーディオ符号化装置は、時間周波数変換部により求められた複数のチャネルの周波数信号をダウンミックスするとともに、各チャネルの周波数信号間の類似度及び強度差といった空間情報を求めるダウンミックス部をさらに有する。そして複雑度算出部及びビット配分制御部は、ダウンミックス部により得られた、ダウンミックスされた周波数信号ごとに、複雑度及び割当ビット量を求めてもよい。さらに、符号化部は、空間情報も符号化する。例えば、符号化部は、ISO/IEC 23003-1:2007に記載された方法を用いて空間情報を符号化できる。
また、ビット配分制御部の係数更新部は、符号化対象のフレームについての推定係数を更新するための基準となるフレームとして、一つ前のフレームの代わりに、数フレーム前のフレームを用いてもよい。この場合、係数更新部は、傾き補正係数を算出するために、例えば、(8)式または(12)式において、数フレーム前の割当ビット量、未調整符号化ビット量及び推定誤り量を用いればよい。
上記の各実施形態におけるオーディオ符号化装置が有する各部の機能をコンピュータに実現させるコンピュータプログラムは、半導体メモリ、磁気記録媒体または光記録媒体などの記録媒体に記憶された形で提供されてもよい。
また、上記の各実施形態におけるオーディオ符号化装置は、コンピュータ、ビデオ信号の録画機または映像伝送装置など、オーディオ信号を伝送または記録するために利用される各種の機器に実装される。
図11は、上記の何れかの実施形態に係るオーディオ符号化装置が組み込まれた映像伝送装置の概略構成図である。映像伝送装置100は、映像取得部101と、音声取得部102と、映像符号化部103と、オーディオ符号化部104と、多重化部105と、通信処理部106と、出力部107とを有する。
映像取得部101は、動画像信号をビデオカメラなどの他の装置から取得するためのインターフェース回路を有する。そして映像取得部101は、映像伝送装置100に入力された動画像信号を映像符号化部103へ渡す。
音声取得部102は、オーディオ信号をマイクロフォンなどの他の装置から取得するためのインターフェース回路を有する。そして音声取得部102は、映像伝送装置100に入力されたオーディオ信号をオーディオ符号化部104へ渡す。
映像符号化部103は、動画像信号のデータ量を圧縮するために、動画像信号を符号化する。そのために、映像符号化部103は、例えば、MPEG-2、MPEG-4、H.264 MPEG-4 Advanced Video Coding(H.264 MPEG-4 AVC)などの動画像符号化規格に従って動画像信号を符号化する。そして映像符号化部103は、符号化動画像データを多重化部105へ出力する。
オーディオ符号化部104は、上記の何れかの実施形態のオーディオ符号化装置を有する。そしてオーディオ符号化部104は、上記の何れかの実施形態に従って、オーディオ信号を符号化する。そしてオーディオ符号化部104は、符号化オーディオデータを多重化部105へ出力する。
多重化部105は、符号化動画像データと符号化オーディオデータを多重化する。そして多重化部105は、MPEG-2トランスポートストリームなどの映像データの伝送用の所定の形式に従ったストリームを作成する。
多重化部105は、符号化動画像データと符号化オーディオデータが多重化されたストリームを通信処理部106へ出力する。
通信処理部106は、符号化動画像データと符号化オーディオデータが多重化されたストリームを、TCP/IPなどの所定の通信規格にしたがったパケットに分割する。また通信処理部106は、各パケットに、宛先情報などが格納された所定のヘッダを付す。そして通信処理部106は、パケットを出力部107へ渡す。
出力部107は、映像伝送装置100を通信回線に接続するためのインターフェース回路を有する。そして出力部107は、通信処理部106から受け取ったパケットを通信回線へ出力する。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
オーディオ信号に含まれる少なくとも一つのチャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記チャネルの信号を、周波数信号に変換する時間周波数変換部と、
前記少なくとも一つのチャネルごとに前記周波数信号の複雑度を算出する複雑度算出部と、
前記少なくとも一つのチャネルごとに、当該チャネルの複雑度が大きいほど当該チャネルに割り当てる割当ビット量も多くなるように当該割当ビット量を決定するとともに、所定数前のフレームについて再生音質が所定の基準を満たすように前記周波数信号を符号化した場合の未調整符号化ビット量に対する前記割当ビット量の推定誤り量が大きいほど前記割当ビット量を増加させるビット配分制御部と、
各チャネルの前記周波数信号を、当該チャネルの前記割当ビット量以下となるように符号化する符号化部と、
を有するオーディオ符号化装置。
(付記2)
前記符号化部は、前記所定数前のフレームについて、再生音質が前記基準を満たす第1の量子化スケールで前記周波数信号を量子化し、量子化された前記周波数信号及び前記第1の量子化スケールを所定の符号化方式に従って符号化することにより得られた符号化ビット量を前記未調整符号化ビット量として算出し、かつ、前記周波数信号を第2の量子化スケールにて量子化し、当該第2の量子化スケール及び量子化された前記周波数信号を所定の符号化方式に従って符号化することにより得られた符号化ビット量が前記割当ビット量以下となるように前記第2の量子化スケールを決定し、
前記ビット配分制御部は、前記所定数前のフレームについての前記未調整符号化ビット量と前記割当ビット量との差または前記未調整符号化ビット量に対する前記割当ビット量の比を前記推定誤り量として算出する、付記1に記載のオーディオ符号化装置。
(付記3)
前記符号化部は、前記所定数前のフレームについて、再生音質が前記基準を満たす第1の量子化スケールと、前記周波数信号を第2の量子化スケールにて量子化し、当該第2の量子化スケール及び量子化された前記周波数信号を所定の符号化方式に従って符号化することにより得られた符号化ビット量が前記割当ビット量以下となるように前記第2の量子化スケールとを決定し、
前記ビット配分制御部は、前記第1の量子化スケールよりも前記第2の量子化スケールが大きいほど前記推定誤り量も大きい値とする、付記1に記載のオーディオ符号化装置。
(付記4)
前記ビット配分制御部は、前記所定数前のフレームにおける、前記符号化部が前記第2の量子化スケールを用いて前記周波数信号を量子化した場合の量子化誤差が、リスナーが再生音質の劣化を知覚できない前記周波数信号の電力の上限よりも大きいほど、前記推定誤り量がより大きな値となるように前記推定誤り量を補正する、付記2または3に記載のオーディオ符号化装置。
(付記5)
前記オーディオ信号は、2以上のチャネルを含み、
前記ビット配分制御部は、前記2以上のチャネルのそれぞれに対する前記割当ビット量の合計が利用可能なビット量の上限以下となるように、前記2以上のチャネルのそれぞれに対して前記割当ビット量を設定する、付記1〜4の何れか一項に記載のオーディオ符号化装置。
(付記6)
前記複雑度は心理聴覚エントロピーである、付記1〜5の何れか一項に記載のオーディオ符号化装置。
(付記7)
前記ビット配分制御部は、前記少なくとも一つのチャネルごとに、当該チャネルの前記複雑度に当該チャネルについて決定された推定係数を乗じた値に基づいて前記割当ビット量を決定し、
1以上の所定数のフレームに渡って前記推定誤り量が所定の許容範囲から外れた場合に前記推定係数を更新する、付記1〜6の何れか一項に記載のオーディオ符号化装置。
(付記8)
オーディオ信号に含まれる少なくとも一つのチャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記チャネルの信号を、周波数信号に変換し、
前記少なくとも一つのチャネルごとに前記周波数信号の複雑度を算出し、
前記少なくとも一つのチャネルごとに、当該チャネルの複雑度が大きいほど当該チャネルに割り当てる割当ビット量も多くなるように当該割当ビット量を決定するとともに、所定数前のフレームについて再生音質が所定の基準を満たすように前記周波数信号を符号化した場合の未調整符号化ビット量に対する前記割当ビット量の推定誤り量が大きいほど前記割当ビット量を増加させ、
各チャネルの前記周波数信号を、当該チャネルの前記割当ビット量以下となるように符号化する、
ことを含むオーディオ符号化方法。
(付記9)
オーディオ信号に含まれる少なくとも一つのチャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記チャネルの信号を、周波数信号に変換し、
前記少なくとも一つのチャネルごとに前記周波数信号の複雑度を算出し、
前記少なくとも一つのチャネルごとに、当該チャネルの複雑度が大きいほど当該チャネルに割り当てる割当ビット量も多くなるように当該割当ビット量を決定するとともに、所定数前のフレームについて再生音質が所定の基準を満たすように前記周波数信号を符号化した場合の未調整符号化ビット量に対する前記割当ビット量の推定誤り量が大きいほど前記割当ビット量を増加させ、
各チャネルの前記周波数信号を、当該チャネルの前記割当ビット量以下となるように符号化する、
ことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。
(付記10)
入力された動画像信号を符号化する動画像符号化部と、
入力された少なくとも一つのチャネルを持つオーディオ信号を符号化するオーディオ符号化部であって、
前記少なくとも一つのチャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記チャネルの信号を、周波数信号に変換する時間周波数変換部と、
前記少なくとも一つのチャネルごとに前記周波数信号の複雑度を算出する複雑度算出部と、
前記少なくとも一つのチャネルごとに、当該チャネルの複雑度が大きいほど当該チャネルに割り当てる割当ビット量も多くなるように当該割当ビット量を決定するとともに、所定数前のフレームについて再生音質が所定の基準を満たすように前記周波数信号を符号化した場合の未調整符号化ビット量に対する前記割当ビット量の推定誤り量が大きいほど前記割当ビット量を増加させるビット配分制御部と、
各チャネルの前記周波数信号を、当該チャネルの前記割当ビット量以下となるように符号化する符号化部と、を有するオーディオ符号化部と、
前記動画像符号化部により符号化された動画像信号と前記オーディオ符号化部により符号化されたオーディオ信号を多重化することにより映像ストリームを生成する多重化部と、
を有する映像伝送装置。
1 オーディオ符号化装置
11 時間周波数変換部
12 複雑度算出部
121 聴覚分析部
122 心理聴覚エントロピー算出部
13 ビット配分制御部
131 ビット量決定部
132 推定誤り量算出部
1321 未補正推定誤り量算出部
1322 ノイズ対マスク比算出部
1323 重み係数決定部
1324 推定誤り量補正部
133 係数更新部
14 符号化部
15 多重化部
100 映像伝送装置
101 映像取得部
102 音声取得部
103 映像符号化部
104 オーディオ符号化部
105 多重化部
106 通信処理部
107 出力部

Claims (7)

  1. オーディオ信号に含まれる少なくとも一つのチャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記チャネルの信号を、周波数信号に変換する時間周波数変換部と、
    前記少なくとも一つのチャネルごとに前記オーディオ信号に含まれる符号化対象フレームにおける前記周波数信号の複雑度を算出する複雑度算出部と、
    前記少なくとも一つのチャネルごとに、当該チャネルの複雑度が大きいほど当該チャネルに割り当てる割当ビット量も多くなるように前記符号化対象フレームにおける当該割当ビット量を決定するとともに、前記符号化対象フレームよりも所定数前のフレームについて再生音質が所定の基準を満たすように前記周波数信号を符号化した場合の未調整符号化ビット量に対する前記割当ビット量の推定誤り量が大きいほど前記割当ビット量を増加させるビット配分制御部と、
    前記符号化対象フレームの各チャネルの前記周波数信号を、当該チャネルの前記割当ビット量以下となるように符号化する符号化部と、
    を有するオーディオ符号化装置。
  2. 前記符号化部は、前記所定数前のフレームについて、再生音質が前記基準を満たす第1の量子化スケールで前記周波数信号を量子化し、量子化された前記周波数信号及び前記第1の量子化スケールを所定の符号化方式に従って符号化することにより得られた符号化ビット量を前記未調整符号化ビット量として算出し、かつ、前記周波数信号を第2の量子化スケールにて量子化し、当該第2の量子化スケール及び量子化された前記周波数信号を所定の符号化方式に従って符号化することにより得られた符号化ビット量が前記割当ビット量以下となるように前記第2の量子化スケールを決定し、
    前記ビット配分制御部は、前記所定数前のフレームについての前記未調整符号化ビット量と前記割当ビット量との差または前記未調整符号化ビット量に対する前記割当ビット量の比を前記推定誤り量として算出する、請求項1に記載のオーディオ符号化装置。
  3. 前記符号化部は、前記所定数前のフレームについて、再生音質が前記基準を満たす第1の量子化スケールと、前記周波数信号を第2の量子化スケールにて量子化し、当該第2の量子化スケール及び量子化された前記周波数信号を所定の符号化方式に従って符号化することにより得られた符号化ビット量が前記割当ビット量以下となるように前記第2の量子化スケールとを決定し、
    前記ビット配分制御部は、前記第1の量子化スケールよりも前記第2の量子化スケールが大きいほど前記推定誤り量も大きい値とする、請求項1に記載のオーディオ符号化装置。
  4. 前記ビット配分制御部は、前記所定数前のフレームにおける、前記符号化部が前記第2の量子化スケールを用いて前記周波数信号を量子化した場合の量子化誤差が、リスナーが再生音質の劣化を知覚できない前記周波数信号の電力の上限よりも大きいほど、前記推定誤り量がより大きな値となるように前記推定誤り量を補正する、請求項2または3に記載のオーディオ符号化装置。
  5. 前記オーディオ信号は、2以上のチャネルを含み、
    前記ビット配分制御部は、前記2以上のチャネルのそれぞれに対する前記割当ビット量の合計が利用可能なビット量の上限以下となるように、前記2以上のチャネルのそれぞれに対して前記割当ビット量を設定する、請求項1〜4の何れか一項に記載のオーディオ符号化装置。
  6. オーディオ信号に含まれる少なくとも一つのチャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記チャネルの信号を、周波数信号に変換し、
    前記少なくとも一つのチャネルごとに前記オーディオ信号に含まれる符号化対象フレームにおける前記周波数信号の複雑度を算出し、
    前記少なくとも一つのチャネルごとに、当該チャネルの複雑度が大きいほど当該チャネルに割り当てる割当ビット量も多くなるように前記符号化対象フレームにおける当該割当ビット量を決定するとともに、前記符号化対象フレームよりも所定数前のフレームについて再生音質が所定の基準を満たすように前記周波数信号を符号化した場合の未調整符号化ビット量に対する前記割当ビット量の推定誤り量が大きいほど前記割当ビット量を増加させ、
    前記符号化対象フレームの各チャネルの前記周波数信号を、当該チャネルの前記割当ビット量以下となるように符号化する、
    ことを含むオーディオ符号化方法。
  7. オーディオ信号に含まれる少なくとも一つのチャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記チャネルの信号を、周波数信号に変換し、
    前記少なくとも一つのチャネルごとに前記オーディオ信号に含まれる符号化対象フレームにおける前記周波数信号の複雑度を算出し、
    前記少なくとも一つのチャネルごとに、当該チャネルの複雑度が大きいほど当該チャネルに割り当てる割当ビット量も多くなるように前記符号化対象フレームにおける当該割当ビット量を決定するとともに、前記符号化対象フレームよりも所定数前のフレームについて再生音質が所定の基準を満たすように前記周波数信号を符号化した場合の未調整符号化ビット量に対する前記割当ビット量の推定誤り量が大きいほど前記割当ビット量を増加させ、
    前記符号化対象フレームの各チャネルの前記周波数信号を、当該チャネルの前記割当ビット量以下となるように符号化する、
    ことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。
JP2010266492A 2010-11-30 2010-11-30 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム Expired - Fee Related JP5609591B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010266492A JP5609591B2 (ja) 2010-11-30 2010-11-30 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
US13/297,536 US9111533B2 (en) 2010-11-30 2011-11-16 Audio coding device, method, and computer-readable recording medium storing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010266492A JP5609591B2 (ja) 2010-11-30 2010-11-30 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2012118205A JP2012118205A (ja) 2012-06-21
JP5609591B2 true JP5609591B2 (ja) 2014-10-22

Family

ID=46127219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010266492A Expired - Fee Related JP5609591B2 (ja) 2010-11-30 2010-11-30 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

Country Status (2)

Country Link
US (1) US9111533B2 (ja)
JP (1) JP5609591B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3346465A1 (en) 2011-05-13 2018-07-11 Samsung Electronics Co., Ltd. Audio decoding with noise filling
JP5704018B2 (ja) * 2011-08-05 2015-04-22 富士通セミコンダクター株式会社 オーディオ信号符号化方法および装置
JP6109956B2 (ja) * 2012-12-17 2017-04-05 インテル・コーポレーション ビデオコンテンツを前処理するエンコーダハードウェアの活用
KR102161741B1 (ko) * 2013-05-02 2020-10-06 삼성전자주식회사 HEVC(high efficiency video coding)에서 코딩 유닛에 대한 양자화 파라미터를 변화시키는 방법과 장치, 및 시스템
WO2021005347A1 (en) * 2019-07-05 2021-01-14 V-Nova International Ltd Quantization of residuals in video coding
US11755431B2 (en) * 2021-09-02 2023-09-12 Rattheon Company Identification of optimal bit apportionments for digital functions subject to soft errors

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2751564B2 (ja) * 1990-05-25 1998-05-18 ソニー株式会社 ディジタル信号符号化装置
JP3531177B2 (ja) * 1993-03-11 2004-05-24 ソニー株式会社 圧縮データ記録装置及び方法、圧縮データ再生方法
JP3250376B2 (ja) * 1994-06-13 2002-01-28 ソニー株式会社 情報符号化方法及び装置並びに情報復号化方法及び装置
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
TW384434B (en) * 1997-03-31 2000-03-11 Sony Corp Encoding method, device therefor, decoding method, device therefor and recording medium
US6356639B1 (en) * 1997-04-11 2002-03-12 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus, signal processing device, sound image localization device, sound image control method, audio signal processing device, and audio signal high-rate reproduction method used for audio visual equipment
JPH11219197A (ja) * 1998-02-02 1999-08-10 Fujitsu Ltd オーディオ信号符号化方法及び装置
KR100434275B1 (ko) * 2001-07-23 2004-06-05 엘지전자 주식회사 패킷 변환 장치 및 그를 이용한 패킷 변환 방법
JP3942882B2 (ja) * 2001-12-10 2007-07-11 シャープ株式会社 ディジタル信号符号化装置およびそれを備えたディジタル信号記録装置
JP2005202248A (ja) * 2004-01-16 2005-07-28 Fujitsu Ltd オーディオ符号化装置およびオーディオ符号化装置のフレーム領域割り当て回路
JP4639073B2 (ja) * 2004-11-18 2011-02-23 キヤノン株式会社 オーディオ信号符号化装置および方法
WO2006054583A1 (ja) * 2004-11-18 2006-05-26 Canon Kabushiki Kaisha オーディオ信号符号化装置および方法
JP2007183528A (ja) 2005-12-06 2007-07-19 Fujitsu Ltd 符号化装置、符号化方法、および符号化プログラム
SG136836A1 (en) * 2006-04-28 2007-11-29 St Microelectronics Asia Adaptive rate control algorithm for low complexity aac encoding
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置
JP4984983B2 (ja) 2007-03-09 2012-07-25 富士通株式会社 符号化装置および符号化方法
WO2009004727A1 (ja) * 2007-07-04 2009-01-08 Fujitsu Limited 符号化装置、符号化方法および符号化プログラム
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
JP5446258B2 (ja) * 2008-12-26 2014-03-19 富士通株式会社 オーディオ符号化装置
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
JP5333257B2 (ja) * 2010-01-20 2013-11-06 富士通株式会社 符号化装置、符号化システムおよび符号化方法
JP5533502B2 (ja) * 2010-09-28 2014-06-25 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP5737077B2 (ja) * 2011-08-30 2015-06-17 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

Also Published As

Publication number Publication date
US9111533B2 (en) 2015-08-18
JP2012118205A (ja) 2012-06-21
US20120136657A1 (en) 2012-05-31

Similar Documents

Publication Publication Date Title
JP5267362B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
JP7010885B2 (ja) 音声または音響符号化装置、音声または音響復号装置、音声または音響符号化方法及び音声または音響復号方法
JP4212591B2 (ja) オーディオ符号化装置
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
KR101162275B1 (ko) 오디오 신호 처리 방법 및 장치
US7110941B2 (en) System and method for embedded audio coding with implicit auditory masking
RU2434324C1 (ru) Устройство масштабируемого декодирования и устройство масштабируемого кодирования
US8019601B2 (en) Audio coding device with two-stage quantization mechanism
KR102055022B1 (ko) 부호화 장치 및 방법, 복호 장치 및 방법, 및 프로그램
JP5737077B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP5533502B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP5609591B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
MX2014011605A (es) Metodos y dispositivos de codificacion y descodificacion de señal.
KR20070070189A (ko) 음성 부호화 장치 및 음성 부호화 방법
JP2012181429A (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP2004029761A (ja) 音声信号を送信およびパックするためのデジタル符号化方法およびアーキテクチャ
US9548057B2 (en) Adaptive gain-shape rate sharing
KR20070083856A (ko) 스케일러블 부호화 장치, 스케일러블 복호화 장치 및이러한 방법
WO2006041055A1 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140805

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140818

R150 Certificate of patent or registration of utility model

Ref document number: 5609591

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees