JP7405962B2 - 空間オーディオパラメータ符号化および関連する復号化の決定 - Google Patents
空間オーディオパラメータ符号化および関連する復号化の決定 Download PDFInfo
- Publication number
- JP7405962B2 JP7405962B2 JP2022516079A JP2022516079A JP7405962B2 JP 7405962 B2 JP7405962 B2 JP 7405962B2 JP 2022516079 A JP2022516079 A JP 2022516079A JP 2022516079 A JP2022516079 A JP 2022516079A JP 7405962 B2 JP7405962 B2 JP 7405962B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- spatial audio
- bits
- quantization resolution
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013139 quantization Methods 0.000 claims description 357
- 230000005236 sound signal Effects 0.000 claims description 323
- 238000013507 mapping Methods 0.000 claims description 66
- 238000000034 method Methods 0.000 claims description 61
- 230000009467 reduction Effects 0.000 description 25
- 238000004458 analytical method Methods 0.000 description 19
- 230000002123 temporal effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 7
- 239000004065 semiconductor Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- WJXSXWBOZMVFPJ-NENRSDFPSA-N N-[(2R,3R,4R,5S,6R)-4,5-dihydroxy-6-methoxy-2,4-dimethyloxan-3-yl]-N-methylacetamide Chemical compound CO[C@@H]1O[C@H](C)[C@@H](N(C)C(C)=O)[C@@](C)(O)[C@@H]1O WJXSXWBOZMVFPJ-NENRSDFPSA-N 0.000 description 3
- 241000718541 Tetragastris balsamifera Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- GXCLVBGFBYZDAG-UHFFFAOYSA-N N-[2-(1H-indol-3-yl)ethyl]-N-methylprop-2-en-1-amine Chemical compound CN(CCC1=CNC2=C1C=CC=C2)CC=C GXCLVBGFBYZDAG-UHFFFAOYSA-N 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000012732 spatial analysis Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
1.各サブバンドについて、i=1:N
a.3ビットを使用して、対応するエネルギー比値を符号化するb.現在のサブバンドのすべてのタイムブロックについて、方位角と仰角に対する量子化解像度を設定する。量子化解像度は、エネルギー比bits_dir0[0:N-1][0:M-1]の値によって与えられる所定数のビットを許容することによって設定される
2.終了
1.各サブバンドについて、i=1:N
a.エネルギー比率値を符号化する
b.符号化エネルギー比値に基づいて量子化解像度(現在のサブバンドの全時間ブロックについて)に基づく方向インデックスを決定する
3.終了
4.エントロピーは方向インデックスを符号化する
5.各サブバンドについて、固定レート(インデックス)またはエントロピー符号化がより少ないビット数を使用するかどうかを選択し、使用されるブロックビットを決定する
6.使用されるブロックビットが使用可能なビットよりも多い場合
a.使用されるブロックビットと利用可能なビットとの間の差が量子化解像度修正閾値未満である場合
i.固定レート符号化サブバンドの量子化解像度を修正することによって使用されるビットを再計算する
ii.固定レート(修正量子化解像度)またはエントロピー法を使用して符号化されたかどうかに基づいて、シグナリングされた方法、シグナリングされた選択、次いでグループ化されたサブバンドに基づいて出力を生成する
b.そうでなければ、
i.割り当てられたビット数bits_dir1[0:N-1][0:M-1]を減らし、割り当てられたビットの合計がエネルギー比の符号化・に残された使用可能なビット数に等しくなるようにする
ii.各サブバンドi=1:Nー1について再符号化する
1.電流サブバンドの許容ビットを算出する。bits_allowed= sum(bits_dir1[i][0:M-1])
2.方向パラメータインデックスを符号化するには、割り当てられたビット数を減らした固定レート符号化を使用するか、bits_fixed=bits_allowed、またはエントロピー符号化を使用する。bits_ecを少なくして選択し、1ビットを使用して方法、nb=min(bits_fixed、bits_ec)+1を指定する
3.許可されたビットに関して使用可能なビットがある場合、(diff=allowed_bitsnb>0の場合)
a.bits_dir1[i+1:N-1][0_M-1]を更新することによって、差分diffを次のサブバンドに再配分する
4.そうでなければ、
a.bits_dir1[i+1][0] から1 ビット減算する
5.終了
bits_dir1[N-1][0:M-1]ビットを使用して、固定レートアプローチで最後のサブバンドの方向パラメータインデックスを符号化する。
7.そうでなければ、
8.シグナリングされた方法、シグナリングされた選択、およびその後、それらが固定レートまたはエントロピー方法を使用して符号化されたかどうかに基づいてグループ化されたサブバンドに基づいて、出力を生成する。
9.終了
1.(ステップ607によって図6に示されるように)現在のサブバンドについて符号化されるべき方位インデックスの数を決定する
2.(図6のステップ609に示すように)電流サブバンドのタイルの記号の最大数を見つける
3.閾値よりも多くのシンボルがある場合(図6に示すように、ステップ611)
a.(図6のステップ613に示すように)相補値no_symb-index_azimuthによって与えられる値の符号化をチェックすることによって方位値を符号化する。
i.インデックスを前にあるように符号化する場合、ビット数を推定する。平均除去順序選択的ゴロム・ライスコーディングを使用する。GR順序は、2または3であり得る。また、GR オーダーは、シンボル数のデフォルトの範囲に応じて、異なる値に設定することもできる。
ii.平均除去次数選択GR符号化を使用して相補インデックスを符号化する場合、ビット数を推定する。
iii.より少ないビット数を使用し、どの方法が使用されているかを示すためにビットを使用する符号化方法を使用する
4.そうでなければ、
a.(ステップ615によって図6に示されるように)次数1または2で平均除去GR符号化を使用して方位インデックスを符号化する。
5.終了
6.最小除去GR符号化がより良い出力を生成するかどうかをチェックし、それをより良く使用するかどうかをチェックする(図6のステップ617に示すように)
Claims (17)
- 時間周波数ブロックに対する空間オーディオ信号指向性メタデータパラメータを生成し、
第1量子化解像度に基づいて、時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成し、
第1量子化解像度に基づく時間周波数ブロックの前記符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数を、決定されたビット数と比較し、
前記第1量子化解像度に基づく前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータのために使用されるビット数が、前記決定されたビット数未満である場合、第1量子化解像度に基づく時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータを出力または格納し、
前記第1量子化解像度に基づく前記時間周波数ブロックの前記符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数が、前記決定されたビット数よりも多く、前記決定されたビット数と、前記第1量子化解像度に基づく前記時間周波数ブロックの前記符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数との間の差が前記決定されたビット数よりも少なく、決定された閾値以内である場合に、第2量子化解像度に基づいて、前記時間周波数ブロックの符号化空間オーディオ信号指向性メタデータパラメータを生成し、
前記第1量子化解像度に基づく前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数が、前記決定されたビット数よりも大きく、および、前記決定されたビット数と、前記第1量子化解像度に基づく前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータに使用された前記ビット数との間の差が、前記決定された閾値よりも大きいとき、第3量子化解像度に基づく前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成する、
ように構成された手段を備える装置であって、
前記第3量子化解像度は、前記第3量子化解像度に基づく前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数が、常に、前記決定されたビット数以下であるように決定される、装置。 - 第1量子化解像度に基づいて時間周波数ブロックについて符号化空間オーディオ信号指向性メタデータパラメータを生成するように構成された手段は、
前記空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための前記第1量子化解像度を決定し、
前記第1量子化解像度を使用するマッピングに基づいて、前記空間オーディオ信号指向性メタデータパラメータに関連するインデックスを生成し、
固定レート符号化またはエントロピー符号化がより少ないビット数を使用するかどうかに基づいて、該固定レート符号化またはエントロピー符号化を使用して前記インデックスを選択的に符号化する
ように構成される、請求項1に記載の装置。 - 前記空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための前記第1量子化解像度を決定するように構成された前記手段は、
前記空間オーディオ信号指向性メタデータパラメータに関連するエネルギー比値に基づいて前記空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための前記第1量子化解像度を決定する
ように構成される、請求項2に記載の装置。 - 前記決定されたビット数と、前記第1量子化解像度に基づく前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータのために使用されるビット数との間の差異が、決定された閾値内にある場合に、第2量子化解像度に基づいて、前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するように構成された前記手段は、
前記空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための前記第2量子化解像度を決定し、
前記第1量子化解像度を使用して固定レート符号化された空間オーディオ信号指向性メタデータパラメータのための前記第2量子化解像度を使用する前記マッピングに基づいて、前記空間オーディオ信号指向性メタデータパラメータに関連するインデックスを生成する
ように構成される、請求項2または3に記載の装置。 - 前記手段はさらに、
空間オーディオ信号指向性メタデータパラメータのための前記第1量子化解像度を使用するマッピングに基づく前記空間オーディオ信号指向性メタデータパラメータに関連する前記エントロピー符号化インデックスと、
空間オーディオ信号指向性メタデータパラメータのための前記第2量子化解像度を使用する前記マッピングに基づく前記空間オーディオ信号指向性メタデータパラメータに関連する前記固定レート符号化インデックスと、を出力または格納する
ように構成される、請求項4に記載の装置。 - 前記手段は、前記エントロピー符号化インデックスが前記固定レート符号化インデックスに先行するように、前記符号化インデックスを順序付けるようにさらに構成される、請求項5に記載の装置。
- 前記手段は、前記第1または第2量子化解像度が使用されるときに指標を生成するようにさらに構成される、請求項1ないし6のいずれか1項に記載の装置。
- 第3量子化解像度に基づいて前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するように構成された前記手段は、
前記第3量子化解像度を使用して、常に、前記決定されたビット数以下である固定レート符号化に使用されるビット数に基づいて、前記空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための前記第3量子化解像度を決定し、
前記第3量子化解像度を使用するマッピングに基づいて、前記空間オーディオ信号指向性メタデータパラメータに関連するインデックスを生成し、
固定レート符号化またはエントロピー符号化がより少ないビット数を使用するかどうかに基づいて、固定レート符号化またはエントロピー符号化を使用してインデックスを選択的に符号化するように構成される、請求項2ないし7のいずれか1項に記載の装置。 - 前記手段は、前記固定レート符号化またはエントロピー符号化がより少ないビット数を使用するかどうかに基づいて、固定レート符号化またはエントロピー符号化を使用して、前記選択的に符号化されたインデックスを出力するようにさらに構成される、請求項8に記載の装置。
- 前記手段は、前記第3量子化解像度が決定されたときに指標を生成するようにさらに構成される、請求項1ないし9のいずれか1項に記載の装置。
- 時間周波数ブロックの符号化空間オーディオ信号指向性メタデータパラメータを受信し、
前記符号化空間オーディオ信号指向性メタデータパラメータが、常に決定されたビット数以下である量子化解像度に基づいて符号化されたかどうかを識別するように構成されたインジケータを受信し、
前記インジケータが、前記符号化空間オーディオ信号指向性メタデータパラメータが常に前記決定されたビット数以下である量子化解像度に基づいて符号化されたことを識別するとき、常に前記決定されたビット数以下である量子化解像度に基づいて、前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータを復号する
ように構成された手段を含む装置であって、
前記インジケーターが、前記符号化空間オーディオ信号指向性メタデータパラメータが常に前記決定されたビット数以下である量子化解像度に基づいて符号化されなかったことを識別するとき、前記手段は、さらなる量子化解像度に基づいて前記時間周波数ブロックの前記符号化空間オーディオ信号指向性メタデータパラメータの第1部分を復号し、ここで、該第1部分は、前記さらなる量子化解像度に基づいて前記時間周波数ブロックのエントロピー符号化空間オーディオ信号指向性メタデータパラメータを含むものであり、
前記決定されたビット数と前記第1部分を符号化するために使用されるビット数との間の差が前記さらなる量子化解像度に基づいて前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータの第2部分を符号化するために必要とされるビット数未満である場合、低減ビット量子化解像度に基づいて前記時間周波数ブロックのための固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2部分を復号し、
そうでなければ、前記さらなる量子化解像度に基づいて前記時間周波数ブロックのための固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2部分を復号するように構成される、装置。 - 前記手段は、前記符号化空間オーディオ信号指向性メタデータパラメータの値と前記インデックス値との間のマッピングのために、前記さらなる量子化解像度を決定するようにさらに構成される、請求項11に記載の装置。
- 前記符号化空間オーディオ信号指向性メタデータパラメータの値と前記インデックス値との間のマッピングのための前記さらなる量子化解像度を決定するように構成された前記手段は、前記符号化空間オーディオ信号指向性メタデータパラメータに関連するエネルギー比値に基づいて、前記さらなる量子化解像度を決定するように構成される、請求項12に記載の装置。
- 前記手段は、前記符号化空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのために、前記低減ビット量子化解像度を決定するようにさらに構成される、請求項11ないし13のいずれか1項に記載の装置。
- 前記手段は、前記量子化解像度に基づいて、前記符号化空間オーディオ信号指向性メタデータパラメータに関連するインデックスから、仰角および方位角のうちの少なくとも1つへのマッピングを生成するように構成される、請求項11ないし14のいずれか1項に記載の装置。
- 時間周波数ブロックのための空間オーディオ信号指向性メタデータパラメータを生成するステップと、
第1量子化解像度に基づいて時間周波数のブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するステップと、
前記第1量子化解像度に基づく時間周波数ブロックの符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数と、決定されたビット数とを比較するステップと、
前記第1量子化解像度に基づく時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータのために使用されるビット数が、前記決定されたビット数未満である場合、第1量子化解像度に基づく時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを出力または格納するステップと、
前記第1量子化解像度に基づいて前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数が、前記決定されたビット数より多く、前記決定されたビット数と、前記第1量子化解像度に基づいて時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数との差が、前記決定されたビット数未満であり、決定された閾値内であるとき、第2量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するステップと、
前記第1量子化解像度に基づく前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータに用いられた前記ビット数が、前記決定されたビット数よりも大きく、および、前記決定されたビット数と、前記第1量子化解像度に基づく前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータのために使用される前記ビット数との間の差が、前記決定された閾値よりも大きいとき、第3量子化解像度に基づいた前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するステップであって、
前記第3の量子化解像度は、前記第3量子化解像度に基づく前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータのために使用されるビット数が、常に、前記決定されたビット数以下であるように決定される、
ステップと、を含む方法。 - 時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを受信するステップと、
前記符号化空間オーディオ信号指向性メタデータパラメータが、常に決定されたビット数以下である量子化解像度に基づいて符号化されたかどうかを識別するように構成されたインジケータを受信するステップと、
前記インジケータが、前記符号化空間オーディオ信号指向性メタデータパラメータが常に前記決定されたビット数以下である量子化解像度に基づいて符号化されたことを識別するときに、常に前記決定されたビット数以下である量子化解像度に基づいて、前記時間周波数ブロックのための符号化された前記空間オーディオ信号指向性メタデータパラメータを復号するステップと、
を含む方法であって、
前記インジケータが、前記符号化空間オーディオ信号指向性メタデータパラメータが常に前記決定されたビット数以下である量子化解像度に基づいて符号化されなかったことを識別する場合、該方法は、さらなる量子化解像度に基づいて前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータの第1部分を復号するステップであって、
前記第1部分は、前記さらなる量子化解像度に基づいて前記時間周波数ブロックのためのエントロピー符号化空間オーディオ信号指向性メタデータパラメータを含む、
ステップと、
前記決定されたビット数と前記第1部分を符号化するために使用されるビット数との間の差が、前記さらなる量子化解像度に基づいて時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータの第2部分を符号化するために必要とされるビット数未満である場合、低減ビット量子化解像度に基づいて前記時間周波数ブロックのための固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2部分を復号し、そうでなければ、さらなる量子化解像度に基づいて前記時間周波数ブロックのための固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2部分を復号するステップと、
を含む、方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1913274.5A GB2587196A (en) | 2019-09-13 | 2019-09-13 | Determination of spatial audio parameter encoding and associated decoding |
GB1913274.5 | 2019-09-13 | ||
PCT/FI2020/050578 WO2021048468A1 (en) | 2019-09-13 | 2020-09-09 | Determination of spatial audio parameter encoding and associated decoding |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022548038A JP2022548038A (ja) | 2022-11-16 |
JP7405962B2 true JP7405962B2 (ja) | 2023-12-26 |
Family
ID=68315272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022516079A Active JP7405962B2 (ja) | 2019-09-13 | 2020-09-09 | 空間オーディオパラメータ符号化および関連する復号化の決定 |
Country Status (8)
Country | Link |
---|---|
US (2) | US12046250B2 (ja) |
EP (2) | EP4029015A4 (ja) |
JP (1) | JP7405962B2 (ja) |
KR (1) | KR20220062599A (ja) |
CN (1) | CN114365218A (ja) |
GB (1) | GB2587196A (ja) |
MX (1) | MX2022002895A (ja) |
WO (1) | WO2021048468A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022223133A1 (en) * | 2021-04-23 | 2022-10-27 | Nokia Technologies Oy | Spatial audio parameter encoding and associated decoding |
GB2615607A (en) | 2022-02-15 | 2023-08-16 | Nokia Technologies Oy | Parametric spatial audio rendering |
WO2023179846A1 (en) | 2022-03-22 | 2023-09-28 | Nokia Technologies Oy | Parametric spatial audio encoding |
WO2024110006A1 (en) | 2022-11-21 | 2024-05-30 | Nokia Technologies Oy | Determining frequency sub bands for spatial audio parameters |
WO2024111300A1 (ja) * | 2022-11-22 | 2024-05-30 | 富士フイルム株式会社 | 音データ作成方法及び音データ作成装置 |
GB2626953A (en) | 2023-02-08 | 2024-08-14 | Nokia Technologies Oy | Audio rendering of spatial audio |
GB2628413A (en) * | 2023-03-24 | 2024-09-25 | Nokia Technologies Oy | Coding of frame-level out-of-sync metadata |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019097017A1 (en) | 2017-11-17 | 2019-05-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US7012630B2 (en) * | 1996-02-08 | 2006-03-14 | Verizon Services Corp. | Spatial sound conference system and apparatus |
WO2002056297A1 (en) | 2001-01-11 | 2002-07-18 | Sasken Communication Technologies Limited | Adaptive-block-length audio coder |
DE602004028171D1 (de) * | 2004-05-28 | 2010-08-26 | Nokia Corp | Mehrkanalige audio-erweiterung |
KR100682890B1 (ko) | 2004-09-08 | 2007-02-15 | 삼성전자주식회사 | 비트량 고속제어가 가능한 오디오 부호화 방법 및 장치 |
US7668715B1 (en) * | 2004-11-30 | 2010-02-23 | Cirrus Logic, Inc. | Methods for selecting an initial quantization step size in audio encoders and systems using the same |
RU2420816C2 (ru) * | 2006-02-24 | 2011-06-10 | Франс Телеком | Способ двоичного кодирования показателей квантования огибающей сигнала, способ декодирования огибающей сигнала и соответствующие модули кодирования и декодирования |
DE102008004674A1 (de) | 2007-12-17 | 2009-06-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signalaufnahme mit variabler Richtcharakteristik |
EP2154910A1 (en) | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for merging spatial audio streams |
EP2249334A1 (en) | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
JP5267362B2 (ja) * | 2009-07-03 | 2013-08-21 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 |
WO2014128275A1 (en) | 2013-02-21 | 2014-08-28 | Dolby International Ab | Methods for parametric multi-channel encoding |
US9769586B2 (en) | 2013-05-29 | 2017-09-19 | Qualcomm Incorporated | Performing order reduction with respect to higher order ambisonic coefficients |
JP6299202B2 (ja) * | 2013-12-16 | 2018-03-28 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム及びオーディオ復号装置 |
EP3297298B1 (en) * | 2016-09-19 | 2020-05-06 | A-Volute | Method for reproducing spatially distributed sounds |
GB2559200A (en) * | 2017-01-31 | 2018-08-01 | Nokia Technologies Oy | Stereo audio signal encoder |
EP3762923B1 (en) | 2018-03-08 | 2024-07-10 | Nokia Technologies Oy | Audio coding |
GB2575305A (en) | 2018-07-05 | 2020-01-08 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
GB2575632A (en) * | 2018-07-16 | 2020-01-22 | Nokia Technologies Oy | Sparse quantization of spatial audio parameters |
GB2577698A (en) | 2018-10-02 | 2020-04-08 | Nokia Technologies Oy | Selection of quantisation schemes for spatial audio parameter encoding |
GB2585187A (en) | 2019-06-25 | 2021-01-06 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
-
2019
- 2019-09-13 GB GB1913274.5A patent/GB2587196A/en not_active Withdrawn
-
2020
- 2020-09-09 JP JP2022516079A patent/JP7405962B2/ja active Active
- 2020-09-09 WO PCT/FI2020/050578 patent/WO2021048468A1/en active Application Filing
- 2020-09-09 US US17/642,288 patent/US12046250B2/en active Active
- 2020-09-09 CN CN202080063807.3A patent/CN114365218A/zh active Pending
- 2020-09-09 EP EP20863003.8A patent/EP4029015A4/en active Pending
- 2020-09-09 KR KR1020227012049A patent/KR20220062599A/ko not_active Application Discontinuation
- 2020-09-09 EP EP24157987.9A patent/EP4365896A3/en active Pending
- 2020-09-09 MX MX2022002895A patent/MX2022002895A/es unknown
-
2024
- 2024-03-07 US US18/598,219 patent/US20240212696A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019097017A1 (en) | 2017-11-17 | 2019-05-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions |
Also Published As
Publication number | Publication date |
---|---|
EP4029015A4 (en) | 2024-01-24 |
US20240212696A1 (en) | 2024-06-27 |
GB2587196A (en) | 2021-03-24 |
US20220343928A1 (en) | 2022-10-27 |
WO2021048468A1 (en) | 2021-03-18 |
JP2022548038A (ja) | 2022-11-16 |
EP4365896A2 (en) | 2024-05-08 |
EP4365896A3 (en) | 2024-05-22 |
CN114365218A (zh) | 2022-04-15 |
US12046250B2 (en) | 2024-07-23 |
GB201913274D0 (en) | 2019-10-30 |
EP4029015A1 (en) | 2022-07-20 |
KR20220062599A (ko) | 2022-05-17 |
MX2022002895A (es) | 2022-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7405962B2 (ja) | 空間オーディオパラメータ符号化および関連する復号化の決定 | |
CN113228168B (zh) | 用于空间音频参数编码的量化方案的选择 | |
CN112639966A (zh) | 空间音频参数编码和关联解码的确定 | |
EP3707706B1 (en) | Determination of spatial audio parameter encoding and associated decoding | |
JP7213364B2 (ja) | 空間オーディオパラメータの符号化及び対応する復号の決定 | |
CN114945982A (zh) | 空间音频参数编码和相关联的解码 | |
WO2020016479A1 (en) | Sparse quantization of spatial audio parameters | |
EP3991170A1 (en) | Determination of spatial audio parameter encoding and associated decoding | |
US11475904B2 (en) | Quantization of spatial audio parameters | |
KR20230135665A (ko) | 공간 오디오 파라미터 인코딩 및 관련 디코딩 결정 | |
WO2022223133A1 (en) | Spatial audio parameter encoding and associated decoding | |
RU2797457C1 (ru) | Определение кодирования параметров пространственного звука и соответствующего декодирования | |
CA3237983A1 (en) | Spatial audio parameter decoding | |
CN118946930A (en) | Parameterized spatial audio coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220510 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220510 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230501 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230516 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230816 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7405962 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |