Nothing Special   »   [go: up one dir, main page]

JP7405962B2 - 空間オーディオパラメータ符号化および関連する復号化の決定 - Google Patents

空間オーディオパラメータ符号化および関連する復号化の決定 Download PDF

Info

Publication number
JP7405962B2
JP7405962B2 JP2022516079A JP2022516079A JP7405962B2 JP 7405962 B2 JP7405962 B2 JP 7405962B2 JP 2022516079 A JP2022516079 A JP 2022516079A JP 2022516079 A JP2022516079 A JP 2022516079A JP 7405962 B2 JP7405962 B2 JP 7405962B2
Authority
JP
Japan
Prior art keywords
audio signal
spatial audio
bits
quantization resolution
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022516079A
Other languages
English (en)
Other versions
JP2022548038A (ja
Inventor
バシラケ アドリアナ
Original Assignee
ノキア テクノロジーズ オサケユイチア
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オサケユイチア filed Critical ノキア テクノロジーズ オサケユイチア
Publication of JP2022548038A publication Critical patent/JP2022548038A/ja
Application granted granted Critical
Publication of JP7405962B2 publication Critical patent/JP7405962B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本出願は、音場関連パラメータ符号化のための装置および方法に関する。しかし、オーディオエンコ-ダおよびデコーダのための時間周波数領域方向関連パラメータ符号化関連に限るものではない。
パラメトリック空間オーディオ処理は、音の空間的側面が一組のパラメータを用いて記述されるオーディオ信号処理の分野である。例えば、マイクロホンアレイからのパラメトリック空間オーディオキャプチャでは、マイクロホンアレイから、周波数帯域における音の方向、および周波数帯域におけるキャプチャされた音の指向性部分と非指向性部分との間の比などの一連のパラメータを信号として推定することは典型的で有効な選択である。これらのパラメータは、マイクロフォンアレイの位置における捕捉された音の知覚空間特性をよく記述することが知られている。これらのパラメータは、それに応じて空間音の合成、バイノーラルでのヘッドホン、ラウドスピーカ、またはアンビソニックのような他のフォーマットに利用することができる。
したがって、周波数帯域における方向と直接対全エネルギー比(direct-to-total energy ratios)は、空間オーディオキャプチャに特に有効なパラメータ化となる。
周波数帯域における方向パラメータと周波数帯域におけるエネルギー比パラメータ(音の指向性を示す)とからなるパラメータセットは、オーディオコーデックのための空間メタデータ(コヒーレンス、拡散コヒーレンス、方向の数、距離などの他のパラメータを含むこともできる)として利用することもできる。例えば、これらのパラメータはマイクロフォンアレイキャプチャされたオーディオ信号から推定することができ、例えば、ステレオ信号は、空間メタデータと共に搬送されるマイクロフォンアレイ信号から生成することができる。
ステレオ信号は例えば、AACエンコ-ダで符号化することができる。デコーダはオーディオ信号を(空間メタデータを使用して)PCM信号に復号し、周波数帯域の音を処理して、空間出力、例えばバイノーラル出力を得ることができる。
前述のソリューションはマイクロホンアレイ(例えば、携帯電話、VRカメラ、独立型マイクロホンアレイ)から捕捉された空間音を符号化するのに特に適している。
しかしながら、そのようなエンコ-ダには、マイクロホンアレイ捕捉信号以外の他の入力タイプ、例えば、拡声器信号、オーディオオブジェクト信号、またはアンビソニック信号を有することも望ましい場合がある。
空間メタデータ抽出のための一次アンビソニックス(FOA)入力の解析は、方向性オーディオ符号化(DirAC)および高調波平面波展開(Harpex)に関連する科学文献に完全に文書化されている。これはFOA信号(より正確にはその変形例であるBフォーマット信号)を直接提供するマイクロホンアレイが存在するためであり、このような入力を解析することは、このように、現場での試験のポイントとなっている。
エンコ-ダのさらなる入力は、5.1または7.1チャンネルのサラウンド入力などのマルチチャンネルラウドスピーカー入力でもある。
しかしながら、メタデータの指向性成分に関して、これは、考慮される各時間/周波数サブバンドについて、結果として生じる方向の仰角、方位角(および1拡散性であるエネルギー比)を含み得る。これらの指向性成分の量子化は現在の研究トピックである。
第1の態様によれば、時間周波数ブロックのための空間オーディオ信号指向性メタデータパラメータを生成し、第1の量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成し、第1の量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性パラメータを、決定されたビット数と比較し、第1の量子化解像度に基づいて、時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータのビット数が決定されたビット数未満である場合に、第1の量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを出力または格納し、前記第1量子化解像度に基づく時間周波数ブロックのための符号化空間オーディオ信号指向性パラメータのために使用されるビット数が、決定されたビット数より多く、決定されたビット数と、第一の量子化解像度に基づいて時間周波数ブロックのための前記符号化空間オーディオ信号指向性パラメータのために使用される前記ビット数との差が、決定されたビット数未満であり、決定された閾値内であるとき第2量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成し、第一の量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性パラメータのために使用されるビット数が、決定されたビット数より多く、前記決定されたビット数と第一の量子化解像度に基づいて時間周波数ブロックのための前記符号化空間オーディオ信号指向性パラメータのために使用される前記ビット数との間の差が、前記決定された閾値よりも大きいときに、第3量子化解像度に基づいた時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するように構成された手段を備える装置が提供される。ここで、前記第3の量子化解像度は、前記第3量子化解像度に基づく前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性パラメータに使用されるビット数と、常に、前記決定されたビット数以下であるように決定される。
第1の量子化解像度に基づいて、時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するように構成された前記手段は、空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための前記第1量子化解像度を決定し、第1の量子化解像度を使用するマッピングに基づいて、前記空間オーディオ信号指向性メタデータパラメータに関連するインデックスを生成し、前記固定レート符号化またはエントロピー符号化がより少ないビット数を使用するかどうかに基づいて、固定レート符号化またはエントロピー符号化を使用してインデックスを選択的に符号化するように構成されることができる。
前記空間オーディオ信号指向性メタデータパラメータの前記値とインデックス値との間のマッピングのための前記第1量子化解像度を決定するように構成された前記手段は、前記空間オーディオ信号指向性メタデータパラメータに関連するエネルギー比値に基づいて、前記空間オーディオ信号指向性メタデータパラメータの前記値とインデックス値との間のマッピングのための前記第1量子化解像度を決定するように構成することができる。
前記決定されたビット数と第一の量子化解像度に基づいて時間周波数ブロックのための前記符号化空間オーディオ信号指向性パラメータのために使用される前記ビット数との間の差が、決定閾値内にあるとき、第2量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するように構成された前記手段は、空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための第2の量子化解像度を決定し、前記第1の量子化解像度を使用して固定レート符号化された空間オーディオ信号指向性メタデータパラメータのための前記第2量子化解像度を使用する前記マッピングに基づく前記空間オーディオ信号指向性メタデータパラメータに関連するインデックスを生成するように構成されることができる。
この手段は、さらに、空間オーディオ信号指向性メタデータパラメータのための前記第1量子化解像度を使用するマッピングに基づく前記空間オーディオ信号指向性メタデータパラメータに関連する前記エントロピー符号化インデックスと、空間オーディオ信号指向性メタデータパラメータのための前記第2量子化解像度を使用する前記マッピングに基づく前記空間オーディオ信号指向性メタデータパラメータに関連する固定レート符号化インデックスと、を出力または格納するように構成することができる。
この手段は、エントロピー符号化インデックスが固定レート符号化インデックスに先行するように、符号化インデックスを順序付けるようにさらに構成され得る。
この手段は、第1または第2の量子化解像度が使用されるときに指標を生成するようにさらに構成され得る。
第3の量子化解像度に基づいて時間周波数ブロックの符号化空間オーディオ信号指向性メタデータパラメータを生成するように構成された手段は前記空間オーディオ信号指向性メタデータパラメータの前記値と常に、前記決定されたビット数以下である第3の量子化解像度を使用する固定レート符号化に使用されるビット数に基づくインデックス値とインデックス値との間のマッピングのための第3の量子化解像度を決定し、第3の量子化解像度を使用するマッピングに基づいて空間オーディオ信号指向性メタデータパラメータに関連するインデックスを生成し、固定レート符号化またはエントロピー符号化がより少ないビット数を使用するかどうかに基づいて固定レート符号化またはエントロピー符号化を使用してインデックスを選択的に符号化するように構成され得る。
この手段は、固定レート符号化またはエントロピー符号化がより少ないビット数を使用するかどうかに基づいて、固定レート符号化またはエントロピー符号化を使用して選択的に符号化されたインデックスを出力するようにさらに構成され得る。
この手段は、第3の量子化解像度が決定されたときに指標を生成するようにさらに構成され得る。
第2の態様によれば、時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを受信し、前記符号化空間オーディオ信号指向性メタデータパラメータが、常に所定のビット数以下である量子化解像度に基づいて符号化されたかどうかを識別するように構成されたインジケータを受信し、前記インジケータが、前記符号化した空間オーディオ信号指向性メタデータパラメータが常に所定のビット数以下である量子化解像度に基づいて符号化されたことを識別する場合、および、前記インジケータが、前記符号化した空間オーディオ信号指向性メタデータパラメータが常に決定されたビット数以下である量子化解像度に基づいて符号化されなかったことを識別する場合、前記手段は、さらなる量子化解像度に基づいて前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータの第1部分を復号し、前記第1部分は、前記さらなる量子化解像度に基づいて前記時間周波数ブロックのためのエントロピー符号化空間オーディオ信号指向性メタデータパラメータを含むように構成される、常に所定のビット数以下である量子化解像度に基づいて、時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータを復号し、前記決定されたビット数と前記第1部分を符号化するために使用されるビット数との間の差が、前記さらなる量子化解像度に基づいて前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータの第2部分を符号化するために必要とされるビット数未満であるとき、低減ビット(reduced bit)量子化解像度に基づいて前記時間周波数ブロックのための固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2部分を復号し、そうでなければ、さらなる量子化解像度に基づいて前記時間周波数ブロックのための固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2部分を復号するように構成された手段を備える装置が提供される。
この手段は、空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのためのさらなる量子化解像度を決定するようにさらに構成されることができる。
空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのためのさらなる量子化解像度を決定するように構成された手段は、空間オーディオ信号指向性メタデータパラメータに関連するエネルギー比値に基づいてさらなる量子化解像度を決定するように構成されることができる。
この手段は、空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのために、低減ビット量子化解像度を決定するようにさらに構成されることができる。
この手段は、量子化解像度に基づいて、空間オーディオ信号指向性メタデータパラメータに関連するインデックスから、仰角および方位角のうちの少なくとも1つへのマッピングを生成するように構成されることができる。
第3の態様によれば、時間周波数ブロックのための空間オーディオ信号指向性メタデータパラメータを生成するステップと、第1の量子化解像度に基づいて、時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するステップと、決定されたビット数に対して前記第1量子化解像度に基づく時間周波数ブロックのための前記符号化空間オーディオ信号指向性パラメータに使用されるビット数を、比較するステップと、第1の量子化解像度に基づいて、時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを出力または格納するステップと、前記第1量子化解像度に基づく時間周波数ブロックのための符号化空間オーディオ信号指向性パラメータのために使用されるビット数が、決定されたビット数未満であるとき、前記第1量子化解像度に基づく時間周波数ブロックのための符号化空間オーディオ信号指向性パラメータのために使用されるビット数が、決定されたビット数より多く、決定されたビット数と、前記第1量子化解像度に基づく時間周波数ブロックのための前記符号化空間オーディオ信号指向性パラメータのために使用される前記ビット数との差が、決定されたビット数未満であり、決定された閾値内である第2量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するステップと、第一の量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性パラメータのために使用されるビット数が、決定されたビット数より多く、前記決定されたビット数と第一の量子化解像度に基づいて時間周波数ブロックのための前記符号化空間オーディオ信号指向性パラメータのために使用される前記ビット数との間の差が、前記決定された閾値よりも大きいときに、第3量子化解像度に基づいた時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するステップであって、前記第3の量子化解像度は、前記第3量子化解像度に基づく前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性パラメータに使用されるビット数が、常に、前記決定されたビット数以下であるように決定される、ステップと、を含む方法が提供される。
第1の量子化解像度に基づいて時間周波数ブロックについて符号化空間オーディオ信号指向性メタデータパラメータを生成することは、空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための第1の量子化解像度を決定することと、第1の量子化解像度を使用するマッピングに基づいて空間オーディオ信号指向性メタデータパラメータに関連するインデックスを生成することと、固定レートまたはエントロピー符号化がより少ないビット数を使用するかどうかに基づいて固定レートまたはエントロピー符号化を使用してインデックスを選択的に符号化することとを備えることができる。
空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための第1の量子化解像度を決定することは、空間オーディオ信号指向性メタデータパラメータの値と、空間オーディオ信号指向性メタデータパラメータに関連するエネルギー比値に基づくインデックス値との間のマッピングのための第1の量子化解像度を決定することを含むことができる。
第2量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するステップは、決定されたビット数と、第一の量子化解像度に基づいて時間周波数ブロックのための前記符号化空間オーディオ信号指向性パラメータに使用されるビット数と、の差が、決定された閾値内にあるとき、空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための第2の量子化解像度を決定するステップと、前記第1の量子化解像度を使用して固定レート符号化された空間オーディオ信号指向性メタデータパラメータのための前記第2量子化解像度を使用する前記マッピングに基づく前記空間オーディオ信号指向性メタデータパラメータに関連するインデックスを生成するステップと、を含むことができる。
本方法は、空間オーディオ信号指向性メタデータパラメータのための第1の量子化解像度を使用するマッピングに基づいて、空間オーディオ信号指向性メタデータパラメータに関連付けられたエントロピー符号化インデックスと、空間オーディオ信号指向性メタデータパラメータのための第2の量子化解像度を使用するマッピングに基づいて、空間オーディオ信号指向性メタデータパラメータに関連付けられた固定レート符号化インデックスとを出力または格納するステップをさらに含むことができる。
本方法はエントロピー符号化インデックスが固定レート符号化インデックスに先行するように、符号化インデックスを順序付けるステップ、をさらに含むことができる。
本方法は第1または第2の量子化解像度が使用される場合に、インジケータを生成することをさらに含むことができる。
第3の量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成することは、前記空間オーディオ信号指向性メタデータパラメータの前記値とインデックス値との間のマッピングのための第3の量子化解像度を決定することと、常に、前記決定されたビット数以下である前記第3量子化解像度を使用して固定レート符号化に使用されるビット数に基づいて、を備えることができる。第3の量子化解像度を使用するマッピングに基づいて空間オーディオ信号指向性メタデータパラメータに関連するインデックスを生成することと、固定レート符号化またはエントロピー符号化がより少ないビット数を使用するかどうかに基づいて固定レート符号化またはエントロピー符号化を使用してインデックスを選択的に符号化することとを含むことができる。
この方法は、固定レート符号化またはエントロピー符号化がより少ないビット数を使用するかどうかに基づいて、固定レート符号化またはエントロピー符号化を使用して選択的に符号化されたインデックスを出力することをさらに含むことができる。
本方法は第3の量子化解像度が決定されたときに、インジケータを生成することをさらに含むことができる。
第4の態様によれば、時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを受信するステップと、前記符号化空間オーディオ信号指向性メタデータパラメータが、常に所定のビット数以下である量子化解像度に基づいて符号化されたかどうかを識別するように構成されたインジケータを受信するステップと、前記インジケータが、前記符号化た空間オーディオ信号指向性メタデータパラメータが常に所定のビット数以下である量子化解像度に基づいて符号化されたことを識別する場合、常に所定のビット数以下である量子化解像度に基づいて、時間周波数ブロックのための前記空間オーディオ信号指向性メタデータパラメータを復号するステップと、を含む、方法が提供され、前記インジケータが、前記符号化た空間オーディオ信号指向性メタデータパラメータが常に決定されたビット数以下である量子化解像度に基づいて符号化されなかったことを識別する場合、前記方法は、さらなる量子化解像度に基づいて前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータの第1部分を復号するステップであって、前記第1部分は、前記さらなる量子化解像度に基づいて前記時間周波数ブロックのためのエントロピー符号化空間オーディオ信号指向性メタデータパラメータを含む、ステップと、前記決定されたビット数と前記第1の部分を符号化するために使用されたビット数との差が、前記さらなる量子化解像度に基づいて前記時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータの第2の部分を符号化するために必要なビット数より小さい場合に、低減ビット量子化解像度に基づいて時間周波数ブロックに対する固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む第2の部分復号し、そうでなければ、さらなる量子化解像度に基づいて時間周波数ブロックに対する固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む第2の部分を復号するステップを含む。
本方法は、空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのためのさらなる量子化解像度を決定するステップをさらに含むことができる。
空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのためのさらなる量子化解像度を決定することは、空間オーディオ信号指向性メタデータパラメータに関連するエネルギー比値に基づいてさらなる量子化解像度を決定することを含むことができる。
この方法は、空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのために、低減ビット量子化解像度を決定することを含むことができる。
この方法は、空間オーディオ信号指向性メタデータパラメータに関連するインデックスから、量子化解像度に基づいて仰角および方位角値のうちの少なくとも1つへのマッピングを生成することを含むことができる。
第5の態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備える装置であって、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサによって、装置に少なくとも、時間周波数ブロックに対して、空間オーディオ信号指向性メタデータパラメータを生成させ、第1の量子化解像度に基づいて、時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成させ、前記第1の量子化解像度に基づく時間周波数ブロックのための符号化空間オーディオ信号指向性パラメータに使用されるビット数を、決定されたビット数と比較させ、前記第1の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数が、決定されたビット数未満である場合に、前記第1の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータを出力または保存させ、第1の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性パラメータに使用されるビット数が決定されたビット数以上であり、決定されたビット数と第1の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性パラメータに使用されるビット数との差が、決定されたビット数未満であり、決定された閾値内である場合に、第2の量子化解像度に基づいて、時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータを生成させ、前記第1の量子化解像度に基づく前記時間周波数ブロックの前記符号化空間オーディオ信号指向性パラメータに使用されるビット数が決定されたビット数より多く、前記決定されたビット数と、前記第1の量子化解像度に基づく前記時間周波数ブロックの前記符号化空間オーディオ信号指向性パラメータに使用されるビット数との差が決定された閾値より大きい場合、前記第3の量子化解像度に基づく前記時間周波数ブロックの符号化空間オーディオ信号指向性メタデータパラメータを生成させるように構成される装置が提供される。ここで、前記第3の量子化解像度に基づく前記時間周波数ブロックの符号化された前記空間オーディオ信号指向性パラメータに使用されるビット数が、常に前記決定されたビット数以下となるように、前記第3の量子化解像度が決定される。
第1の量子化解像度に基づいて時間周波数ブロックについて符号化空間オーディオ信号指向性メタデータパラメータを生成するようにされた装置は、空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための第1の量子化解像度を決定することと、第1の量子化解像度を使用するマッピングに基づいて空間オーディオ信号指向性メタデータパラメータに関連するインデックスを生成することと、固定レートまたはエントロピー符号化がより少ないビット数を使用するかどうかに基づいて固定レートまたはエントロピー符号化を使用してインデックスを選択的に符号化することと、を行わせることができる。
空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための第1の量子化解像度を決定するようにされた装置は、空間オーディオ信号指向性メタデータパラメータの値と、空間オーディオ信号指向性メタデータパラメータに関連するエネルギー比値に基づくインデックス値との間のマッピングのための第1の量子化解像度を決定するようにされることができる。
前記決定されたビット数と、第1の量子化解像度に基づく時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータのビット数との間の差が決定された閾値内にあるときに、第2の量子化解像度に基づいて、時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成することを引き起こされた装置は、空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための第2の量子化解像度を決定することと、第1の量子化解像度を使用して固定レート符号化空間オーディオ信号指向性メタデータパラメータのための第2の量子化解像度を使用するマッピングに基づいて、空間オーディオ信号指向性メタデータパラメータに関連するインデックスを生成することと、を行うことができる。
この装置は、空間オーディオ信号指向性メタデータパラメータのための第1の量子化解像度を使用するマッピングに基づいて、空間オーディオ信号指向性メタデータパラメータに関連するエントロピー符号化インデックスと、空間オーディオ信号指向性メタデータパラメータのための第2の量子化解像度を使用するマッピングに基づいて、空間オーディオ信号指向性メタデータパラメータに関連する固定レート符号化インデックスとを出力または格納させることができる。
この装置はエントロピー符号化されたインデックスが固定レート符号化されたインデックスに先行するように、符号化されたインデックスを順序付けるようにされることができる。
この装置は、第1または第2の量子化解像度が使用されるときに、インジケータを生成するようにされることができる。
第3の量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成する装置は、空間オーディオ信号指向性メタデータパラメータの値と、第3の量子化解像度を使用する固定レート符号化に使用されるビット数に基づくインデックス値との間のマッピングのための第3の量子化解像度を決定し、第3の量子化解像度を使用するマッピングに基づいて空間オーディオ信号指向性メタデータパラメータに関連するインデックスを生成し、固定レート符号化またはエントロピー符号化がより少ないビット数を使用するかどうかに基づいて固定レート符号化またはエントロピー符号化を使用してインデックスを選択的に符号化することができる。
この装置は、固定レート符号化またはエントロピー符号化がより少ないビット数を使用するかどうかに基づいて、固定レート符号化またはエントロピー符号化を使用して選択的に符号化されたインデックスを出力するようにすることができる。
装置は、第3の量子化解像度が決定されたときにインジケータを生成するようにされることができる。
第6の態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備える装置であって、少なくとも1つのメモリとコンピュータプログラムコードとは、少なくとも1つのプロセッサにより、装置に少なくとも、時間周波数ブロックに対して符号化空間オーディオ信号指向性メタデータパラメータを受信するステップと前記符号化空間オーディオ信号指向性メタデータパラメータが、常に決定されたビット数以下の量子化解像度に基づいて符号化されたかどうかを識別するように構成された指標を受信するステップと前記符号化空間オーディオ信号指向性メタデータパラメータが、常に決められたビット数以下である量子化解像度に基づいて符号化されたことが前記指標によって識別されるとき、前記時間周波数ブロックのための符号化空間オーディオ信号の方向性メタデータパラメータを復号化するステップと、を行わせるように構成される装置が提供され、前記指標により、符号化された前記空間オーディオ信号指向性メタデータパラメータが、常に決められたビット数以下である量子化解像度に基づいて符号化されていないことが特定されたとき、前記装置に、さらなる量子化解像度に基づいて、時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータの第1の部分を復号化させ、ここで、第1の部分は、さらなる量子化解像度に基づいて、時間周波数ブロックに対するエントロピー符号化空間オーディオ信号指向性メタデータパラメータを含んでおり、決定されたビット数と第1の部分を符号化するために使用されたビット数との間の差が、さらなる量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータの第2の部分を符号化するために必要なビット数より小さいとき、低減ビット量子化解像度に基づいて前記時間周波数ブロックに対する固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2の部分を復号させ、そうでなければ、前記さらなる量子化解像度に基づいて前記時間周波数ブロックに対する固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2の部分を復号させる。
この装置は、さらに、空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのためのさらなる量子化解像度を決定するようにされることができる。
空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのためのさらなる量子化解像度を決定させる装置は、空間オーディオ信号指向性メタデータパラメータに関連するエネルギー比値に基づいてさらなる量子化解像度を決定するようにされることができる。
この装置は、空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのために、低減ビット量子化解像度を決定するようにさらにされることができる。
この装置はさらに、空間オーディオ信号指向性メタデータパラメータに関連するインデックスから、量子化解像度に基づいて仰角および方位角値のうちの少なくとも1つへのマッピングを生成するようにされることができる。
第7の態様によれば、時間周波数ブロックのための空間オーディオ信号指向性メタデータパラメータを生成するように構成された生成回路と、第1の量子化解像度に基づいて、時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するように構成された生成回路と、前記第1の量子化解像度に基づく前記時間周波数ブロックの符号化空間オーディオ信号指向性パラメータに使用されるビット数を決定されたビット数に対して比較するように構成された比較回路と、前記第1の量子化解像度に基づく前記時間周波数ブロックに対する前記符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数が、決定されたビット数よりも少ない場合に、前記第1の量子化解像度に基づく前記時間周波数ブロックに対する前記符号化空間オーディオ信号指向性メタデータパラメータを出力または格納するように構成される出力または格納回路と、前記第1の量子化解像度に基づく前記空間オーディオ信号指向性パラメータに使用されるビット数が、前記決定されたビット数以上であり、前記決定されたビット数と、前記第1の量子化解像度に基づく前記時間周波数ブロックに対する前記符号化空間オーディオ信号指向性パラメータに使用されるビット数との差が、前記決定されたビット数未満であり、決定された閾値内である場合に、第2の量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するように構成された生成回路と、前記第1の量子化解像度に基づく前記時間周波数ブロックに対する前記符号化空間オーディオ信号指向性パラメータに使用されるビット数が決定されたビット数以上であり、前記第1の量子化解像度に基づく前記時間周波数ブロックに対する前記符号化空間オーディオ信号指向性パラメータに使用されるビット数との差が決定された閾値より大きい場合に、前記第3の量子化解像度に基づいて前記時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータを生成するよう構成される生成回路であって、前記第3の量子化解像度に基づく前記時間周波数ブロックの符号化された前記空間オーディオ信号指向性パラメータに使用されるビット数が、常に前記決定されたビット数以下となるように、前記第3の量子化解像度が決定される、生成回路と、を備える装置が提供される。
第8の態様によれば、時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータを受信するように構成された受信回路と、符号化空間オーディオ信号指向性メタデータパラメータが、常に決定されたビット数と等しいかまたはそれより小さい量子化解像度に基づいて符号化されたかどうかを識別するように構成された指標を受信するように構成された受信回路と、前記符号化空間オーディオ信号指向性メタデータパラメータが、常に決定されたビット数以下である量子化解像度に基づいて符号化されたことを前記指標が識別するとき、常に決定されたビット数以下である量子化解像度に基づいて前記時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータを復号するように構成される復号回路と、を備える装置が提供され、前記指標により、符号化された前記空間オーディオ信号指向性メタデータパラメータが、常に決められたビット数以下である量子化解像度に基づいて符号化されていないことが特定された場合、本装置は、さらなる量子化解像度に基づいて時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータの第1の部分を復号するように構成された復号回路であって、前記第1の部分は、前記さらなる量子化解像度に基づいて時間周波数ブロックに対するエントロピー符号化空間オーディオ信号指向性メタデータパラメータを含む復号回路と、決定されたビット数と第1の部分を符号化するために使用されたビット数との間の差が、さらなる量子化解像度に基づいて時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータの第2の部分を符号化するために必要なビット数より小さいとき、前記第2の部分が、低減ビット量子化解像度に基づいて前記時間周波数ブロックに対する固定レート符号化空間オーディオ信号指向性メタデータパラメータを構成する、そうでなければ、前記さらなる量子化解像度に基づいて前記時間周波数ブロックに対する固定レート符号化空間オーディオ信号指向性メタデータパラメータを構成する第2の部分を復号化するように構成された復号回路と、復号するように構成された復号回路と、を備える。
第9の態様によれば、装置に、少なくとも、時間周波数ブロックに対する空間オーディオ信号指向性メタデータパラメータを生成するステップと、第1の量子化解像度に基づいて、時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するステップと、第1の量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性パラメータに使用されるビット数を、決定されたビット数に対して比較するステップと第1の量子化解像度に基づく時間周波数ブロックのための符号化空間オーディオ信号指向性パラメータに使用されるビット数が決定されたビット数より小さいとき、第1の量子化解像度に基づく時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを出力または格納するステップと前記第1の量子化解像度に基づく前記時間周波数のブロックの符号化された空間オーディオ信号指向性パラメータに使用されるビット数が、決定されたビット数より多く、前記決定されたビット数と前記第1の量子化解像度に基づく前記時間周波数のブロックの符号化された空間オーディオ信号指向性パラメータに使用されるビット数との差が、決定されたビット数未満であり、決定された閾値以内である場合に前記第2の量子化解像度に基づいて、前記時間周波数のブロックの符号化された空間オーディオ信号指向性メタデータパラメータを生成するステップと、第1の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性パラメータに使用されるビット数が決定されたビット数より多く、決定されたビット数と、第1の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性パラメータに使用されるビット数との差が決定された閾値より大きいときに第3の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータを生成するステップであって、前記第3の量子化解像度が決定される、ステップと、前記第3の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性パラメータに使用されるビット数が、常に前記決定されたビット数と等しいかそれ以下であるように、を実行させるための命令[またはプログラム命令を含むコンピュータ可読媒体]を含むコンピュータプログラムが提供される。
第10の態様によれば、装置に少なくとも、時間周波数ブロックに対して符号化空間オーディオ信号指向性メタデータパラメータを受信するステップと、前記符号化空間オーディオ信号指向性メタデータパラメータが、常に決定されたビット数以下の量子化解像度に基づいて符号化されたかどうかを識別するように構成されたインジケータを受信するステップと、前記符号化空間オーディオ信号指向性メタデータパラメータが、常に決定されたビット数以下である量子化解像度に基づいて符号化されたことが前記指標によって識別される場合、常に決定されたビット数以下の量子化解像度に基づいて前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを復号化するステップと、前記インジケータが、前記符号化空間オーディオ信号指向性メタデータパラメータが、常に決定されたビット数以下である量子化解像度に基づいて符号化されなかったことを識別したとき、さらなる量子化解像度に基づいて、時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータの第1の部分を復号化し、第1の部分は、さらなる量子化解像度に基づいて、時間周波数ブロックに対するエントロピー符号化空間オーディオ信号指向性メタデータパラメータを含む、ステップと、決定されたビット数と第1の部分を符号化するために使用されたビット数との差が、さらなる量子化解像度に基づいて時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータの第2の部分を符号化するために必要なビット数より小さいとき、低減ビット量子化解像度に基づいて前記時間周波数ブロックに対する固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2の部分を復号化する、そうでなければ、前記さらなる量子化解像度に基づいて前記時間周波数ブロックに対する固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2の部分を復号化するステップと、を実行するステップと、を実行させるための命令[またはプログラム命令を含むコンピュータ可読媒体]を含むコンピュータプログラムが提供される。
第11の態様によれば、装置に少なくとも、時間周波数ブロックに対する空間オーディオ信号指向性メタデータパラメータを生成するステップと、第1の量子化解像度に基づいて、時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するステップと、前記第1の量子化解像度に基づく前記時間周波数ブロックの符号化空間オーディオ信号指向性パラメータに使用されるビット数を、決定されたビット数に対して比較するステップと、前記第1の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数が、決定されたビット数より少ない場合に、前記第1の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータを出力または格納するステップと、前記第1の量子化解像度に基づく前記時間周波数のブロックの符号化された空間オーディオ信号指向性パラメータに使用されるビット数が、決定されたビット数より多く、前記決定されたビット数と、前記第1の量子化解像度に基づく前記時間周波数のブロックの符号化された空間オーディオ信号指向性パラメータに使用されるビット数との差が、決定されたビット数未満であり、決定された閾値以内である場合に前記第2の量子化解像度に基づいて、前記時間周波数のブロックの符号化空間オーディオ信号指向性メタデータパラメータを生成するステップと、前記第1の量子化解像度に基づく前記時間周波数ブロックに対する前記符号化空間オーディオ信号指向性パラメータに使用されるビット数が決定されたビット数以上であり、前記第1の量子化解像度に基づく前記時間周波数ブロックに対する前記符号化空間オーディオ信号指向性パラメータに使用されるビット数との差が決定された閾値より大きい場合に、前記第3の量子化解像度に基づいて前記時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータを生成するステップであって、前記第3の量子化解像度に基づく前記時間周波数ブロックの符号化された前記空間オーディオ信号指向性パラメータに使用されるビット数が、常に前記決定されたビット数以下となるように、前記第3の量子化解像度が決定される、ステップと、を実行させるためのプログラム命令を含む非一時的なコンピュータ可読媒体が提供される。
第12の態様によれば、装置に少なくとも、時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータを受信するステップと、前記符号化空間オーディオ信号指向性メタデータパラメータが、常に決定されたビット数以下である量子化解像度に基づいて符号化されたかどうかを識別するように構成された指標を受信するステップと、前記符号化空間オーディオ信号指向性メタデータパラメータが、常に決定されたビット数以下である量子化解像度に基づいて符号化されたことが前記指標によって識別される場合、常に決定されたビット数以下である量子化解像度に基づいて前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを復号化するステップと、前記指標により、符号化された前記空間オーディオ信号指向性メタデータパラメータが、常に決められたビット数以下である量子化解像度に基づいて符号化されていないことが特定された場合に、さらなる量子化解像度に基づいて、時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータの第1の部分を復号化するステップであって、第1の部分は、さらなる量子化解像度に基づいて、時間周波数ブロックに対するエントロピー符号化空間オーディオ信号指向性メタデータパラメータを含む、ステップと、決定されたビット数と第1の部分を符号化するために使用されたビット数との差が、さらなる量子化解像度に基づいて時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータの第2の部分を符号化するために必要なビット数より小さいとき、低減ビット量子化解像度に基づいて前記時間周波数ブロックに対する固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2の部分を復号化し、そうでなければ、前記さらなる量子化解像度に基づいて前記時間周波数ブロックに対する固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2の部分を復号化するステップと、を実行するステップと、を実行させるためのプログラム命令を含む非一時的なコンピュータ可読媒体が提供される。
第13の態様によれば、時間周波数ブロックに対する空間オーディオ信号指向性メタデータパラメータを生成するための手段と、第1の量子化解像度に基づいて、時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成する手段と、第1の量子化解像度に基づいて、決定されたビット数に対して、前記時間周波数ブロックのための符号化空間オーディオ信号指向性パラメータに使用されるビット数を比較する手段と、前記第1の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数が、決定されたビット数より少ない場合に、前記第1の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータを出力または格納する手段と、第2の量子化解像度に基づいて、時間周波数のブロックに対する符号化された空間オーディオ信号指向性メタデータパラメータを生成する手段と、第1の量子化解像度に基づく時間周波数のブロックに対する符号化された空間オーディオ信号指向性パラメータに用いられたビット数が決定されたビット数以上であり、決定されたビット数と、第1の量子化解像度に基づく時間周波数のブロックに対する決定されたビット数未満であり、決定された閾値以内である符号化された空間オーディオ信号指向性パラメータに用いられたビット数との間の差が前記第1の量子化解像度に基づく前記時間周波数ブロックの前記符号化空間オーディオ信号指向性パラメータに使用されるビット数が、決定されたビット数以上であり、前記決定されたビット数と、前記第1の量子化解像度に基づく前記時間周波数ブロックの前記符号化空間オーディオ信号指向性パラメータに使用されるビット数との差が、決定された閾値よりも大きくなった場合、第3の量子化分解能に基づいて、時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するように構成された生成回路を有する手段であって、前記第3の量子化解像度に基づく前記時間周波数ブロックの符号化された前記空間オーディオ信号指向性パラメータに使用されるビット数が、常に前記決定されたビット数以下となるように、前記第3の量子化解像度が決定される、手段と、場合に、を備える装置が提供される。
第14の態様によれば、時間周波数ブロックについて符号化空間オーディオ信号指向性メタデータパラメータを受信するための手段と、前記符号化空間オーディオ信号指向性メタデータパラメータが、常に決定されたビット数以下である量子化解像度に基づいて符号化されたかどうかを識別するように構成された指標を受信するための手段と、前記符号化空間オーディオ信号指向性メタデータパラメータが、常に決められたビット数以下である量子化解像度に基づいて符号化されたことが前記指標によって識別されたとき、常に決められたビット数以下の量子化解像度に基づいて前記時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータを復号する手段と、前記指標が、符号化された前記空間オーディオ信号指向性メタデータパラメータが、常に決められたビット数以下となる量子化解像度に基づいて符号化されていないことが特定された場合に、さらなる量子化解像度に基づいて、時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータの第1の部分を復号化する手段であって、第1の部分は、さらなる量子化解像度に基づいて、時間周波数ブロックに対するエントロピー符号化空間オーディオ信号指向性メタデータパラメータを含む、手段と、決定されたビット数と第1の部分を符号化するために使用されたビット数との差が、さらなる量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータの第2の部分を符号化するために必要なビット数より小さいとき、低減ビット量子化解像度に基づいて前記時間周波数ブロックに対する固定レート符号化空間オーディオ信号指向性メタデータパラメータを備える前記第2の部分を、復号化するための手段、そうでなければ、前記さらなる量子化解像度に基づいて前記時間周波数ブロックに対する固定レート符号化空間オーディオ信号指向性メタデータパラメータを構成する第2の部分を復号化する手段とを備える装置が提供される。
第15の態様によれば、装置に少なくとも、時間周波数ブロックに対する空間オーディオ信号指向性メタデータパラメータを生成するステップと、第1の量子化解像度に基づいて、時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するステップと、前記第1の量子化解像度に基づく時間周波数ブロックのための符号化空間オーディオ信号指向性パラメータに使用されるビット数を、決定されたビット数と比較するステップと、前記第1の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数が、決定されたビット数より少ない場合に、前記第1の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータを出力または格納するステップと第1の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性パラメータに使用されるビット数が決定されたビット数より多く、決定されたビット数と、第1の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性パラメータに使用されるビット数との差が、決定されたビット数より少なく、決定された閾値内であるとき、第2の量子化解像度に基づいて、時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータを生成するステップと、第1の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性パラメータに使用されるビット数が決定されたビット数より多く、決定されたビット数と、第1の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性パラメータに使用されるビット数との差が決定された閾値より大きいときに第3の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータを生成するステップであって、前記第3の量子化解像度に基づく時間周波数ブロックに対する符号化空間オーディオ信号指向性パラメータに使用されるビット数が、常に前記決定されたビット数と等しいかそれ以下であるように、前記第3の量子化解像度が決定されるステップと、を実行させるためのプログラム命令を含むコンピュータ可読媒体が提供される。
第16の態様によれば、時間周波数ブロックに対して符号化空間オーディオ信号指向性メタデータパラメータを受信するステップと、前記符号化空間オーディオ信号指向性メタデータパラメータが、常に決定されたビット数以下である量子化解像度に基づいて符号化されたかどうかを識別するように構成された指標を受信するステップと、前記符号化空間オーディオ信号指向性メタデータパラメータが、常に決定されたビット数以下である量子化解像度に基づいて符号化されたことが前記指標によって識別される場合、常に決定されたビット数以下である量子化解像度に基づいて、前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを復号化するステップと、前記指標により、符号化された前記空間オーディオ信号指向性メタデータパラメータが、常に決められたビット数以下である量子化解像度に基づいて符号化されていないことが特定された場合に、さらなる量子化解像度に基づいて、時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータの第1の部分を復号化するステップであって、第1の部分は、さらなる量子化解像度に基づいて、時間周波数ブロックに対するエントロピー符号化空間オーディオ信号指向性メタデータパラメータを含む、ステップと、決定されたビット数と第1の部分を符号化するために使用されたビット数との差が、さらなる量子化解像度に基づいて時間周波数ブロックに対する符号化空間オーディオ信号指向性メタデータパラメータの第2の部分を符号化するために必要なビット数より小さいとき、低減ビット量子化解像度に基づいて前記時間周波数ブロックに対する固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2の部分を復号し、そうでなければ、前記さらなる量子化解像度に基づいて前記時間周波数ブロックに対する固定レート符号化空間オーディオ信号指向性メタデータパラメータを構成すること前記第2の部分を復号するステップと、を実行するステップと、を少なくとも装置に実行させるためのプログラム命令を含むコンピュータ可読媒体が提供される。
上述の動作を実行するための手段を備える装置。
上述の方法の動作を実行するように構成された装置。
コンピュータに上述の方法を実行させるためのプログラム命令を含むコンピュータプログラム。
媒体に格納されたコンピュータプログラム製品は、装置に本明細書に記載された方法を実行させることができる。
電子デバイスは、本明細書で説明されるような装置を備えることができる。
チップセットは、本明細書に記載されるような装置を備えてもよい。
本出願の実施形態は、最新技術に関連する課題に対処することを目的とする。
本出願をより良く理解するために、添付の図面を例として参照する。
図1は、いくつかの実施形態を実施するのに適した装置のシステムを概略的に示す。 図2は、いくつかの実施形態によるメタデータエンコ-ダを概略的に示す。 図3は、いくつかの実施形態に従う、図2に示されるようなエネルギー比符号化および量子化解像度決定動作のフロー図を示す。 図4a~図4cは、いくつかの実施形態に従う、図2に示されるような方向インデックス生成および方向インデックス符号化動作のフロー図を示す。 図4a~図4cは、いくつかの実施形態に従う、図2に示されるような方向インデックス生成および方向インデックス符号化動作のフロー図を示す。 図4a~図4cは、いくつかの実施形態に従う、図2に示されるような方向インデックス生成および方向インデックス符号化動作のフロー図を示す。 図5は、いくつかの実施形態に従う、図4a~4cに示されるような方向インデックスのエントロピー符号化のフロー図を示す。 図6は、いくつかの実施形態に従う、図4a~4cに示されるような方向インデックスのエントロピー符号化のさらなるフロー図を示す。 図7は、いくつかの実施形態によるメタデータデコーダを概略的に示す; 図8はいくつかの実施形態による、図7に示されるメタデータデコーダ動作のフロー図を示す。 図9は、示される装置を実装するのに適した例示的なデバイスを概略的に示す。
以下に、効果的な空間分析導出メタデータパラメータを提供するための適切な装置および可能な機構をさらに詳細に説明する。以下の説明では、マルチチャネル・マイクロフォン実装に関してマルチチャネル・システムを説明する。しかしながら、上述したように、入力フォーマットは、マルチチャネルラウドスピーカ、アンビソニック(FOA/HOA)などのような任意の適切な入力フォーマットであり得る。いくつかの実施形態では、チャネル位置がマイクロフォンの位置に基づくか、または仮想位置または方向であることが理解される。さらに、例示システムの出力は、マルチチャネルラウドスピーカ配置である。しかしながら、アウトプットは、スピーカ以外の手段を介してユーザにレンダリングされることができることが理解される。さらに、マルチチャネルラウドスピーカ信号は、2つ以上の再生オーディオ信号であるように一般化されることができる。
メタデータは、考慮される各時間/周波数サブバンドについて、結果として生じる方向の仰角、方位角、およびエネルギー比から少なくとも構成される。方向パラメータ成分、方位角、仰角はオーディオデータから抽出され、次いで所定の量子化解像度に量子化される。結果として生じるインデックスは、効率的な伝送のためにさらに圧縮されなければならない。高ビットレートのためには、メタデータの高品質の無損失符号化が必要とされる。
以下に説明する概念は、得られたビットレートの初期量子化および符号化に続く状況において、メタデータの符号化および量子化表現の品質を、コーデックによって許容されるビットレートよりも大きく改善することである。そのような実施形態では、エントロピー符号化ビットの再推定も、修正のいかなる補足信号も行わずに、中間量子化解像度を得る方法が提案される。したがって、縮小は、固定レート符号化を使用するサブバンドに対してのみ実行され、暗黙の信号は出力されるべきビットストリームを書き込むときにサブバンドを並べ替えることによって実施される。
いくつかの実施形態では、これは符号化される変数の値を低減する方法を用いてさらに実施することができる。この縮小は、いくつかの実施形態ではより多数のシンボルが存在する場合に実施することができる。この変更は符号化されるインデックスが利用可能なシンボルの数から減算し、結果の差分を符号化することによって実行することができる。いくつかの実施形態では方位表現の場合、これは後方にバイアスを置いて位置するオーディオソースを有することに対応する。さらに、いくつかの実施形態では、すべてのインデックスが偶数であるかどうか、またはすべてのインデックスが奇数であるかどうかをチェックし、値を2で割ったものを符号化することによって、変化を実施することもできる。仰角表現の場合、いくつかの実施形態では、これはオーディオシーンの上側または下側に主に位置するオーディオソースを有することに対応する。
いくつかの実施形態では、例えば、IVASコーデック内のMASAメタデータの符号化は、各時間周波数タイルについての量子化されたエネルギー比の値に基づいて、指向性データについてのビット数を最初に推定するように構成される。さらに、元の量子化解像度のエントロピー符号化を試験した。結果として得られる合計が利用可能なビットの量よりも大きい場合、ビットの数は利用可能なビットの数に適合するように、各時間周波数タイルに対して比例的に減少させることができるが、ビットレートが許容するとき(例えば、より高いビットレートで)、量子化解像度は不必要に調整されない。
図1を参照すると、本出願の実施形態を実施するための例示的な装置およびシステムが示されている。システム100は、「分析」部121および「合成」部131を備えていることが示されている。「分析」部分121はマルチチャネルラウドスピーカ信号を受信してからメタデータおよびダウンミックス信号の符号化までの部分であり、「合成」部分131は、符号化されたメタデータおよびダウンミックス信号の復号から、(例えば、マルチチャネルラウドスピーカ形成の)再生成された信号の提示までの部分である。
システム100および「分析」パート121への入力は、マルチチャネル信号102である。以下の例では、マイクロフォンチャネル信号入力について説明するが、他の実施形態では任意の適切な入力(または合成マルチチャネル)フォーマットを実装することができる。例えば、いくつかの実施形態では、空間分析器および空間分析がエンコ-ダの外部で実施されることができる。例えば、いくつかの実施形態では、オーディオ信号に関連する空間メタデータが別個のビットストリームとしてエンコ-ダに提供されることができる。いくつかの実施形態では、空間メタデータが空間(方向)インデックス値のセットとして提供されることができる。
マルチチャネル信号は、ダウンミキサ103および分析プロセッサ105に渡される。
いくつかの実施形態では、ダウンミキサ103がマルチチャネル信号を受信し、決められた数のチャネルに信号をダウンミックスし、ダウンミックス信号104を出力するように構成される。例えば、ダウンミキサ103は、マルチチャンネル信号の2つのオーディオチャンネルダウンミックスを生成するように構成することができる。決定されたチャネル数は、任意の適切な数のチャネルであり得る。
いくつかの実施形態では、ダウンミキサ103は任意であり、マルチチャネル信号はこの例におけるダウンミックス信号と同様にエンコ-ダ107に未処理で渡される。
いくつかの実施形態では、統計解析プロセッサー105はまた、マルチャネル信号を受信し、その信号を統計解析して、マルチャネル信号に関連し、したがってダウンミックス信号104に関連したメタデータ106を生成するように構成される。分析プロセッサ105は、時間周波数分析間隔ごとに、方向パラメータ108およびエネルギー比パラメータ110(およびいくつかの実施形態では、コヒーレンスパラメータおよび拡散パラメータ)を備えることができるメタデータを生成するように構成することができる。いくつかの実施形態では、方向およびエネルギー比が空間オーディオパラメータであると見なされることができる。言い換えれば、空間オーディオパラメータは、マルチチャネル信号(または一般に2つ以上の再生オーディオ信号)によって生成される音場を特徴付けることを目的とするパラメータを含む。
一部の実施形態では、生成されるパラメータが周波数帯域ごとに異なる場合がある。したがって、例えば、帯域Xでは、すべてのパラメータが生成され、送信されるが、帯域Yではパラメータのうちの1つだけが生成され、送信され、さらに、帯域Zではパラメータは生成または送信されない。この実際的な例は、最高帯域のようないくつかの周波数帯域に対して、パラメータのいくつかが知覚上の理由のために必要とされないことであり得る。ダウンミックス信号104およびメタデータ106は、エンコ-ダ107に渡すことができる。
エンコ-ダ107は、ダウンミックス(またはその他の方法で)信号104を受信し、これらのオーディオ信号の適切なエンコーディングを生成するように構成されたオーディオエンコ-ダコア109を備えることができる。エンコ-ダ107は、いくつかの実施形態では、(メモリ上および少なくとも1つのプロセッサ上に格納された適切なソフトウェアを実行する)コンピュータ、または代替的に、例えばFPGAまたはASICを利用する特定のデバイスとすることができる。符号化は、任意の適切なスキームを使用して実装され得る。エンコ-ダ107はさらに、メタデータを受信し、情報の符号化または圧縮された形態を出力するように構成されたメタデータエンコ-ダ/量子化器111を備えることができる。いくつかの実施形態では、エンコ-ダ107がさらに、図1に鎖線で示す送信または格納の前に、単一のデータストリームにインターリーブし、多重化し、または符号化されたダウンミックス信号内にメタデータを埋め込むことができる。多重化は、任意の適切なスキームを使用して実施することができる。
デコーダ側では、受信または取り出されたデータ(ストリーム)がデコーダ/デマルチプレクサ133によって受信され得る。デコーダ/デマルチプレクサ133は、符号化されたストリームを逆多重化し、オーディオ符号化されたストリームを、オーディオ信号を復号してダウンミックス信号を得るように構成されたダウンミックス抽出器135に渡すことができる。同様に、デコーダ/デマルチプレクサ133は符号化されたメタデータを受信し、メタデータを生成するように構成されたメタデータ抽出器137を備えることができる。デコーダ/デマルチプレクサ133は、いくつかの実施形態では、(メモリ上および少なくとも1つのプロセッサ上に格納された適切なソフトウェアを実行する)コンピュータ、または代替として、たとえばFPGAまたはASICを利用する特定のデバイスとすることができる。
復号化されたメタデータおよびダウンミックスオーディオ信号は、合成プロセッサ139に渡されることができる。
システム100「合成」部分131は、ダウンミックスおよびメタデータを受信し、ダウンミックス信号およびメタデータに基づいて、マルチチャネル信号110(これらはマルチチャネルスピーカフォーマットであってもよく、またはいくつかの実施形態ではユースケースに応じて、バイノーラルまたはアンビソニックス信号などの任意の適切な出力フォーマットであり得る)の形態の合成空間オーディオを任意の適切なフォーマットで再作成するように構成された合成プロセッサ139をさらに示す。
したがって、要約すると、最初に、システム(分析部)は、マルチチャネルオーディオ信号を受信するように構成される。次いで、システム(分析部)はダウンミックスを生成するか、または(例えば、オーディオ信号チャネルのいくつかを選択することによって)適切な搬送オーディオ信号を生成するように構成される。次いで、システムは、メモリ/伝達のためにダウンミックス(またはより一般的には搬送)信号を符号化するように構成される。この後、システムは符号化されたダウンミックスとメタデータを保存/送信することができる。システムは、符号化されたダウンミックスとメタデータを取得/受信することができる。次に、システムは、符号化ダウンミックスおよびメタデータパラメータ、例えば逆多重化、符号化ダウンミックスおよびメタデータパラメータからダウンミックスおよびメタデータを抽出し、符号化ダウンミックスおよびメタデータパラメータを復号するように構成される。
システム(合成部)は、抽出されたマルチチャネルオーディオ信号およびメタデータのダウンミックスに基づいて、出力マルチチャネルオーディオ信号を合成するように構成される。
図2に関して、いくつかの実施形態による例示的な分析プロセッサ105およびメタデータエンコ-ダ/量子化器111(図1に示す)をさらに詳細に説明する。
いくつかの実施形態では、分析プロセッサ105が時間周波数領域変換器201を備える。
いくつかの実施形態では、時間周波数領域変成器201が、入力時間領域信号を適切な時間周波数信号に変換するために、マルチチャネル信号102を受信し、短時間フーリエ変換(STFT)などの周波数領域変換に適切な時間を印加するように構成される。これらの時間周波数信号は、空間分析器203および信号分析器205に渡すことができる。
したがって、例えば、時間周波数信号202は、bが周波数ビンインデックスであり、nが時間周波数ブロック(フレーム)インデックスであり、iがチャネルインデックスである場合s(b,n)によって、時間周波数領域表現で表すことができる。別の発現ではnは元の時間領域信号のサンプリングレートよりも低いサンプリングレートを有する時間インデックスと見なすことができる。これらの周波数ビンは、1つまたは複数のビンを帯域インデックスk=0,...,K-1のサブバンドにグループ化するサブバンドにグループ化することができる。各サブバンドkは、最低ビンbk,lowと最も高いビンbk,highとを有し、サブバンドは、bk,lowからbk,highのすべてのビンを含む。サブバンドの幅は、任意の適切な分布に近似することができる。例えば、等価矩形帯域幅(ERB:Equivalent rectangular bandwidth)スケールまたはバークスケールである。
いくつかの実施形態では、分析プロセッサ105が空間分析器203を備える。空間分析器203は時間周波数信号202を受信し、これらの信号に基づいて方向パラメータ108を推定するように構成することができる。方向パラメータは、任意のオーディオベースの「方向」決定に基づいて決定されることができる。
例えば、いくつかの実施形態では、空間分析器203が2つ以上の信号入力で方向を推定するように構成される。これは、「方向」を推定するための最も単純な構成を表し、さらに多くの信号を用いてより複雑な処理を実行することができる。
したがって、空間分析器203は、方位角(k,n)および仰角θ(k,n)として示されるオーディオ信号のフレーム内のそれぞれの周波数帯域および時間周波数ブロックに対して少なくとも1つの方位角および仰角を提供するように構成され得る。方向パラメータ108は、方向解析器/インデックス生成器215に渡すこともできる。
また、空間分析器203は、エネルギー比パラメータ110を決定するように構成されることができる。エネルギー比は、ある方向から到来すると考えられるオーディオ信号のエネルギーであり得る。直接対総エネルギー比r(k,n)は、例えば、方向推定値の安定性測度を使用して、または任意の相関測度を使用して、または比パラメータを得るための任意の他の適当な方法を使用して推定することができる。エネルギー比は、エネルギー比平均発生器/量子化解像度決定器211に渡すことができる。
したがって、要約すると、分析プロセッサは、マイクロフォンまたはアンビソニックスオーディオ信号などの時間領域マルチチャネルまたは他のフォーマットを受信するように構成される。
この後、解析プロセッサは時間領域を周波数領域変換(例えば、STFT)に適用して、解析のための適切な時間周波数領域信号を生成し、次いで、方向解析を適用して、方向およびエネルギー比パラメータを決定することができる。
そして、解析プロセッサは、決定されたパラメータを出力するように構成することができる。
方向および比率はここでは各時間インデックスnについて表されるが、いくつかの実施形態ではパラメータがいくつかの時間インデックスにわたって組み合わされることができる。周波数軸についても同様に当てはまり、表現されているように、いくつかの周波数ビンbの方向は、いくつかの周波数ビンbからなるバンドkにおける一方向パラメータによって表すことができる。同じことが、本明細書で説明される空間パラメータのすべてに当てはまる。
図2にも示されるように、いくつかの実施形態による例示的なメタデータエンコ-ダ/量子化器111が示される。
上述のように、オーディオ空間メタデータは、各サブバンドの方位角、仰角、およびエネルギー比データからなる。MASAフォーマットでは、方向データは16ビットで表され、方位角は9ビットで、仰角は7ビットでほぼ表される。エネルギー比は8ビットで表される。
フレームごとにN=5のサブバンドとM=4のタイムブロックがあり、各フレームの非圧縮メタデータを格納するために(16+8)xMxNビットが必要になる。より高い周波数解像度バージョンでは、20または24の周波数サブバンドが存在する可能性がある。以下の例ではMASAフォーマットのビット割り当てが使用されているが、他の実施形態は他のビット割り当て、またはサブバンドまたは時間ブロックの選択を用いて実施されてもよく、これらは代表的な例にすぎないことが理解される。
メタデータエンコ-ダ/量子化器111は、エネルギー比平均発生器/量子化解像度決定器211を含んでもよい。エネルギー比平均発生器/量子化解像度決定器211は、エネルギー比を受け取り、分析から、そしてこれから比の適切な符号化を生成するように構成されることができる。例えば、決定されたエネルギー比(例えば、直接対全エネルギー比、さらには拡散対全エネルギー比および剰余対全エネルギー比)を受け取り、これらを符号化/量子化する。これらの符号化された形式は、エンコ-ダ217に渡されることができる。
いくつかの実施形態では、エネルギー比平均発生器/量子化解像度決定器211が決定されたビット数を使用して各エネルギー比値を符号化するように構成される。例えば、N=5のサブバンドがある上記の場合、各エネルギー比値を符号化するために3ビットが使用される。したがって、エネルギー比平均発生器/量子化解像度決定器211は、各サブバンドに対して3ビットを使用してスカラー不均一量子化を適用するように構成されることができる。
加えて、エネルギー比平均発生器/量子化解像度決定器211は、全てのTFブロックについてのエネルギー比値の全ての送信/格納を制御するのではなく、サブバンド毎に1つの加重平均値のみを生成し、これを送信/格納すべきエンコ-ダに渡すように構成される。
いくつかの実施形態では、この平均が、各時間周波数ブロックの全エネルギーと、より多くのエネルギーを有するサブバンドに基づいて適用される重み付けとを考慮することによって計算される。
加えて、エネルギー比平均発生器/量子化解像度決定器211は、フレーム内の全ての時間周波数ブロックに対する方向パラメータ(換言すれば、仰角および方位角値に対する量子化解像度)に対する量子化解像度を決定するように構成される。このビット割り当ては、例えば、bits_dir0[0:N-1][0:M-1]によって定義することができ、方向アナライザ/インデックス発生器215に渡すことができる。
図3に示されるように、エネルギー比平均発生器/量子化解像度決定器211の作用を要約することができる。
第1のステップは図3のステップ301に示すように、比率値を受信するステップである。次に、サブバンドループは、ステップ303によって図3において開始される。サブバンドループは、ステップ305によって図3に示されるように、時間ブロック(ここで、重み付けはオーディオ信号のエネルギー値によって決定される)内の全ての値についてのエネルギー比値の重量平均に基づいてエネルギー比値を表すために、決定されたビット数(例えば3)を使用する第1の動作を含む。次いで、第2の作用は、ステップ307によって、図3に示されるようなエネルギー比の値に基づいて、現在のサブバンドの全ての時間ブロックについての方位角および仰角に対する量子化解像度を決定するものである。ループは、図3においてステップ309によって閉じられる。
これは、さらに、以下によって擬似コードで表現することができる。
1.各サブバンドについて、i=1:N
a.3ビットを使用して、対応するエネルギー比値を符号化するb.現在のサブバンドのすべてのタイムブロックについて、方位角と仰角に対する量子化解像度を設定する。量子化解像度は、エネルギー比bits_dir0[0:N-1][0:M-1]の値によって与えられる所定数のビットを許容することによって設定される
2.終了
メタデータエンコ-ダ/量子化器111は、方向解析器/インデックス生成器215を含んでもよい。方向インデックス発生器215は方向パラメータ(方位角φ(k,n)および仰角θ(k,n)108、および量子化ビット割り当てなど)を受信し、これから量子化出力を生成するように構成される。いくつかの実施形態では、量子化が決定された量子化解像度によって定義されるルックアップテーブルによって定義される「表面」球体上にリング状に配置された球形グリッドを形成する球体の配置に基づく。言い換えれば、球状グリッドはより小さな球体で球体をカバーし、小さな球体の中心をほぼ等距離の方向のグリッドを定義する点と見なすという考え方を使用する。したがって、より小さい球は、任意の適切なインデックス付けアルゴリズムにしたがってインデックス付けすることができる中心点の周りの円錐または立体角を規定する。ここでは球状量子化を任意の適切な量子化について説明するが、線形または非線形を用いてもよい。
例えば、いくつかの実施形態では方向パラメータ(方位角および仰角)のビットが表bits_direction[]にしたがって割り当てられ、エネルギー比がインデックスiを有する場合、方向のビット数はbits_direction[i]である。
異なるビット解像度に対する方向量子化器の構造は、以下の変数によって与えられる。
「no_θ」は、赤道を含む方向の球の「北半球」における仰角値の数に対応する。「no_phi」は、各量子化器(quantizer)の各仰角における方位値の数に対応する。
例えば、5ビットに対して、[0、30、60、90]および4-1=3の負の仰角値[-30、-60、-90]に対応する4つの仰角値がある。最初の仰角値0については12の等距離方位値があり、仰角値30と-30については7の等距離方位値がある。以下同様である。
4ビットに対応する構造を除く全ての量子化構造は、仰角値「no_θ」の数で割った90度によって与えられる連続する仰角値間の差を有する。これは一例であり、任意の他の適切な配布を実施することができる。例えば、いくつかの実施形態では、赤道の下に点を有さない可能性がある4ビットの球状グリッドを実装することができる。同様に、3ビット分布は球上に拡散されることができるし、赤道のみに限定されることができる。このようにして、インデックスは、方向パラメータの固定レート符号化であると考えることができる。
方向インデックスを決定すると、方向解析器/インデックス発生器215は、方位インデックスおよび仰角インデックスをエントロピー符号化するように構成することができる。エントロピー符号化は、一度に1つの周波数サブバンドに対して実施され、そのサブバンドに対する全ての時間サブフレームを符号化する。この手段は、例えば、最良のGR順序が、現サブバンドの時間サブフレームに対応する4つの値に対して決定される。さらに、本明細書で説明されるように、1つのサブバンドの値を符号化するいくつかの方法がある場合、方法のうちの1つが、後述されるように選択される。いくつかの実施形態における方位角および仰角インデックスのエントロピー符号化は、ゴロム・ライスパラメータに対して2つの可能な値を有するゴロム・ライス符号化方法を使用して実施されることができる。いくつかの実施形態では、エントロピー符号化はまた、任意の適切なエントロピー符号化技術(例えば、ハフマン、算術符号化.)を使用して実装されることができる。
固定レートおよびエントロピー符号化された方向インデックス(この例では仰角および方位角インデックス)を有すると、方向アナライザ/インデックス発生器215は次に、サブバンドのそれぞれについて、エントロピー符号化(EC)方法によって使用されるビット数を固定レート符号化方法と比較し、より少ないビット数を使用する符号化方法をサブバンドごとに選択するように構成され得る。したがって、bits_ECは、固定レート符号化が使用されるか可変レート符号化が使用されるかにかかわらず、各サブバンドで使用されるビットの合計である。固定レート符号化が使用されるサブバンドの場合、各方向に使用されるビット数はbits_dir0[i][j]によって与えられ、ここで、「i」はサブバンドのインデックスであり、「j」は時間サブフレームのインデックスである。
エントロピー符号化後の各サブバンドのビットを以下のように仮定する。
次に、タイムブロックまたはフレームの符号化に使用されるビット数が、使用可能なビット数と比較される。例えば、いくつかの実施形態では、時間ブロックまたはフレームを符号化するために使用されるビット数(bits_EC)と利用可能なビットとの間の差である値デルタを計算することができる。
いくつかの実施形態では、方向解析器/インデックス生成器215が差分値(デルタ)が負であるか否かを判断するように構成される。言い換えれば、(固定レートおよびエントロピー符号化サブバンドの両方を使用する)符号化方向インデックスのビット数が、利用可能なビットより多いかどうかである。
使用されるビット数が、利用可能なビットよりも多くない(またはデルタが正または負でない)場合、エンコ-ダ217は(bits_EC)符号化方向インデックスを使用し、どのサブフレームがエントロピー符号化され、どのサブフレームが固定レート符号化されるかを信号送信するように構成される。例えば、いくつかの実施形態では、エンコ-ダが、EC+固定レート方法が使用されることを示すために1ビットを信号化するように構成され、また、サブバンド当たり1ビットを使用して、サブバンドが固定レートであるか、エントロピーであるかを示すように構成される。次に、符号化されたサブバンドがグループ化される。例えば、エントロピー符号化されたサブバンドはグループ化され、次に固定レート符号化されたサブバンドが続く。
これは、例えば、図4aに示されており、ステップ309に続く初期動作は、bits_dir0[0:N-1][0:M-1]によって設定された量子化解像度に基づいて方向インデックス(方位角および仰角)を決定すること、換言すれば、図4aにステップ400によって示されているような固定レート符号化を実行することのうちの1つである。
インデックスを生成すると、次の動作は、ステップ401によって図4aに示すように方向インデックスをエントロピー符号化することである。
すべてのサブバンドに対してエントロピー符号化され、固定レート符号化された形式を生成した後、各サブバンドに対して、より少ないビット数を使用するオプションが選択され、ステップ403によって図4aに示すように、時間ブロックまたはフレームに使用されるビットが(bits_ECとして)決定される。
次に、ステップ405によって図4aに示すように、使用されるビットと使用可能なビットとの差が決定される(Delta=bits_ECbits_available)。
次の動作は、図4aにステップ407で示すように、符号化方向インデックスのビット数が利用可能なビット数より多いかどうか(換言すれば、デルタ・ネガティブであるかどうか)を決定する動作であり得る。
決定の結果、符号化方向インデックスのビット数が利用可能なビット数以下である(換言すれば、デルタ値が負でないか、または正である)という回答が得られた場合、符号化方向インデックスが使用され、さらに、ステップ408によって図4aに示されるように、選択がシグナリングされる(換言すれば、どのサブフレームがエントロピー符号化され、どのサブフレームが固定レート符号化されているかをシグナリングするために生成されたインジケータ)。いくつかの実施形態では、1ビットを使用してEC選択方法が使用されることを信号伝達することは、どのサブバンドが固定またはエントロピー符号化されているかを示すために1ビット/サブバンドを使用し、次いで、エントロピー符号化されたサブバンドのすべてが最初にビットストリームにパックされ、次いで、固定レート符号化されたサブバンドがパックされるように、符号化されたメタデータをグループ化することである。
符号化方向インデックスのビット数が利用可能なビットよりも多い(またはデルタが負である)いくつかの実施形態では、方向アナライザ/インデックス発生器215が、符号化方向インデックスに使用されるビット数が量子化解像度縮小閾値によって利用可能なビット数よりも多いかどうかを決定するように構成される。量子化解像度縮小閾値は、いくつかの実施形態では固定レート符号化サブバンドの数に基づいて計算することができ、量子化の品質が著しく劣化する前に、各時間-頻度タイル(または時間-頻度のブロック)から縮小することができるビットの数と、ブロック内のサブフレームの数とに基づいて計算することができる。例えば、いくつかの実施形態では、使用することができる最小ビット数は3である(しかし、任意の他の適切な数の最小ビットを使用することができる)。これは、Delta>=FRB*BM*Mで表すことができ、ここで、FRB=サブフレームにおける固定レートサブバンドの数、BM=各TFタイルから減少させることができるビットの最大数、および、M=時間ブロック又は時間サブフレームの数である。
この決定結果がその差が量子化解像度縮小閾値よりも小さいという答えに帰着する場合、方向解析器/インデックス生成器215は、量子化解像度を修正することによって固定レート符号化に使用されるビット数を再計算するように構成される。いくつかの実施形態では、量子化解像度が固定レート符号化サブバンドの各TFタイルについて、最大BMビット縮小まで(換言すれば、使用されるべき最小ビット数に達するまで)、およびフレームのビット数が利用可能なビット数まで、縮小される。一部の実施形態では、TFにおける量子化解像度が一様に影響されるように、時間TFあたり1ビットずつ削減が行われる。さらに、いくつかの実施形態では、縮小がより下側サブバンドからより高いサブバンドに適用される。この減少は量子化解像度の減少の先端に、時間ブロックのために使用されるビットの数がbits_ECではなくbits_EC1であるようなものである。つまり、「bits_EC1」は「bits_available」に対応するように縮小される。
固定レートサブフレームに量子化解像度を適用した後、エンコ-ダ217は(bits_EC1)符号化方向インデックスを使用し、どのサブフレームがエントロピー符号化され、どのサブフレームが固定レート符号化されているかをシグナリングするように構成される。例えば、いくつかの実施形態では、エンコ-ダがEC+固定レート方法が使用されることを示すために1ビットを信号化するように構成され、また、サブバンド当たり1ビットを使用して、サブバンドが固定レートであるか、エントロピーであるかを示すように構成される。次に、符号化されたサブバンドがグループ化される。例えば、エントロピー符号化されたサブバンドはグループ化され、次に固定レート符号化されたサブバンドが続く。
決定の結果、差が量子化解像度縮小閾値以上である場合、方向分析器/インデックス生成器215は、割り当てられたビットの合計がエネルギー比を符号化した後に残された利用可能なビットの数に等しくなるように、量子化ビット_dir1[0:N-1][0:M-1]のビット数の割り当てを縮小するように構成される。
さらに、方向分析器/インデックス生成器215は次いで、エネルギー比を符号化した後に、低減された数の利用可能なビットを使用してサブバンド符号化を開始するように構成され得る。これは、固定レートと可変(エントロピー符号化)形式の両方が再び符号化されるという点で、上記の量子化解像度の低下とは異なる。
次いで、減少されたレート符号化方向インデックスおよび固定レート符号化サブバンドの信号化使用は、エンコ-ダ217において符号化され得る。言い換えれば、使用されたエントロピーまたは固定レート方法を使用してサブバンドが符号化されたかどうかを信号で知らせるためにビットを使用することができ、次いで、符号化されたサブバンドのためのビットが送信される。
これは、例えば、図4bにおいて、ステップ407から続く場合に、ステップ409によって、図4bに示されるような量子化解像度縮小閾値によって、その差が利用可能なビットよりも多いかどうかを決定する動作が存在する場合に示される。
差が量子化解像度縮小閾値よりも小さい場合、本方法は、固定レート符号化サブバンドに対する量子化解像度を(言い換えると、エントロピー符号化サブバンドを変化させないで)ステップ410によって、図4bに示されるように修正することによって、固定レートサブバンドを符号化するためのビット数を再計算するように構成される。
固定レートサブバンドを符号化するためのビット数を再計算した後、ビットが出力され、ここで、ステップ412によって図4bに示されるように、符号化された方向インデックスが(修正された量子化解像度固定レートサブフレームと共に)使用され、さらに選択がシグナリングされ(換言すれば、どのサブフレームがエントロピー符号化され、どのサブフレームが固定レート符号化されているかをシグナリングするために生成されたインジケータ)、いくつかの実施形態では、1ビットを使用して、EC選択方法が使用されることをシグナリングし、サブバンド当たり1ビットを使用して、どれが固定またはエントロピー符号化されているかを示し、次いで、エントロピー符号化されたサブバンドのすべてが最初にビットストリームにパックされ、次に、修正された解像度の固定レート符号化されたサブバンドがその後にパックされるように、符号化されたメタデータをグループ化する。
いくつかの実施形態では、低減されたビットレート符号化が従属サブバンドN-1までの各サブバンドについてループを開始することによって実現されることができる。このループ内で、現在のサブバンドの許容ビット数は、bits_allowed=sum(bits_dir1[i][0:M-1])と決定される。次に、現在のサブバンドの許容ビット数を決定すると、方向分析器/インデックス生成器215は、低減された割り当てビット数_fixed=bits_allowedで固定レート符号化を使用することによってインデックスを符号化するように構成することができる。
次に、方向分析器/インデックス生成器215はより少ないビットを使用する方法に基づいて、固定レート符号化またはエントロピー符号化のいずれかを選択する、すなわち、bits_fixedまたはbits_ecの最下位を選択するように構成することができる。さらに、方向アナライザ/インデックス発生器215は、2つの符号化方法のうちのどちらが選択されたかを示すために1ビットを使用するように構成することができる。したがって、サブバンドエンコーディングに使用されるビット数はnb=min(bits_fixed、bits_ec)+1である。
次いで、方向分析器/インデックス生成器215は許可されたビットに関して利用可能なビットがあるかどうか、言い換えれば、diff=allowed_bitsnb>0であるかどうかを決定するように構成され得る。利用可能なビット数とサブバンドで使用されるビット数との間に差がある場合、例えば、bits_dir1[i+1:N-1][0_M-1]を更新することによって、差diffを後のサブバンドに分配することができ、さもなければ、方向アナライザ/インデックス発生器215は、次のサブバンド割り当てbits_dir1[i+1][0]からビットを減算するように構成することができる。
最終サブバンドNの場合、方向分析器/インデックス生成器215は固定レート符号化方法を使用し、bits_dir1[N-1][0:Mー1]ビットを使用して方向インデックスを符号化するように構成することができる。
図4cに示すように、これらの低減されたビットレート動作(言い換えれば、図4bのステップ413)は、例示的な流れ図として示すことができる。第1のステップは、ステップ421によって、図4cに示されるように、サブバンドについてのループを1からペナルティマルト(N-1)サブバンドまで開始するステップの1つである。
ループ内で、現在のサブバンドについて、符号化のために許可されたビットの数は、ステップ423によって図4cに示されるように決定される。
次に、固定レート符号化方法を使用して、ステップ425によって図4cに示すように、ビット数を減らしたものを使用してインデックスを符号化する。
次に、固定レート符号化またはエントロピー符号化のいずれかが、どの方法がより少ないビットを使用するかに基づいて選択され、その選択はさらに、ステップ427によって図4cに示すように、単一ビットによって示すことができる。
許可されたビットの数と選択された符号化によって使用されたビットの数との間の差に基づいて利用可能な残りのビットがあるかどうかの決定と、残りのビットの後のサブバンド割り当てへの再分配とが、図4cにステップ429によって示されている。
その後、ループは完了し、ステップ431によって図4cに示されるように、次のサブバンドについて繰り返すことができる。
最後に、最後のサブバンドはステップ433によって図4cに示されるように、ビットの残りの割り当てを使用して固定レート方法を使用して符号化される。
したがって、この方法は、以下のように要約することができる。
1.各サブバンドについて、i=1:N
a.エネルギー比率値を符号化する
b.符号化エネルギー比値に基づいて量子化解像度(現在のサブバンドの全時間ブロックについて)に基づく方向インデックスを決定する
3.終了
4.エントロピーは方向インデックスを符号化する
5.各サブバンドについて、固定レート(インデックス)またはエントロピー符号化がより少ないビット数を使用するかどうかを選択し、使用されるブロックビットを決定する
6.使用されるブロックビットが使用可能なビットよりも多い場合
a.使用されるブロックビットと利用可能なビットとの間の差が量子化解像度修正閾値未満である場合
i.固定レート符号化サブバンドの量子化解像度を修正することによって使用されるビットを再計算する
ii.固定レート(修正量子化解像度)またはエントロピー法を使用して符号化されたかどうかに基づいて、シグナリングされた方法、シグナリングされた選択、次いでグループ化されたサブバンドに基づいて出力を生成する
b.そうでなければ、
i.割り当てられたビット数bits_dir1[0:N-1][0:M-1]を減らし、割り当てられたビットの合計がエネルギー比の符号化・に残された使用可能なビット数に等しくなるようにする
ii.各サブバンドi=1:Nー1について再符号化する
1.電流サブバンドの許容ビットを算出する。bits_allowed= sum(bits_dir1[i][0:M-1])
2.方向パラメータインデックスを符号化するには、割り当てられたビット数を減らした固定レート符号化を使用するか、bits_fixed=bits_allowed、またはエントロピー符号化を使用する。bits_ecを少なくして選択し、1ビットを使用して方法、nb=min(bits_fixed、bits_ec)+1を指定する
3.許可されたビットに関して使用可能なビットがある場合、(diff=allowed_bitsnb>0の場合)
a.bits_dir1[i+1:N-1][0_M-1]を更新することによって、差分diffを次のサブバンドに再配分する
4.そうでなければ、
a.bits_dir1[i+1][0] から1 ビット減算する
5.終了
bits_dir1[N-1][0:M-1]ビットを使用して、固定レートアプローチで最後のサブバンドの方向パラメータインデックスを符号化する。
7.そうでなければ、
8.シグナリングされた方法、シグナリングされた選択、およびその後、それらが固定レートまたはエントロピー方法を使用して符号化されたかどうかに基づいてグループ化されたサブバンドに基づいて、出力を生成する。
9.終了
いくつかの実施態様では、仰角および方位角値のエントロピー符号化の最適化が別々に実行することができ、図5および図6に関して以下でさらに詳細に説明する。
例えば、図5に関して、いくつかの実施形態において、方向インデックスをエントロピー符号化するために必要とされるビット数を低減することを試みるために、一連のインデックスチェックおよび最適化が適用される例が示される。
いくつかの実施形態では、方向インデックス決定が図5に示すように、ステップ501によって開始される。この例では、示されたインデックス決定をエントロピー符号化するために必要とされるビットが仰角インデックス決定である。しかしながら、後述するように、同様のアプローチが方位インデックス決定に適用されることができる。
いくつかの実施形態では、ステップ503によって図5に示されるように、0の仰角(または方位角)値が0のインデックスを有し、増加するインデックス値が増加する正および負の仰角(方位角)値に割り当てられるように、マッピングが生成される。
マッピングを生成した後、ステップ505によって図5に示されるように、マッピングはオーディオソースに適用される(例えば、ルックアップテーブルに基づいてコードワード出力を生成する形態で)。
生成されたインデックスはいくつかの実施形態では、ステップ507によって図5に示されるように、すべてのインデックスが同じ半球内に位置するかどうかを決定するために実行されるチェックがある。
全てのインデックスが同じ半球内に位置する場合には、インデックス値を2で割り(丸め)、インデックスが全てどの半球内に位置したかを示すインジケータを生成し、次に、ステップ509によって図5に示すように、これらの値をエントロピー符号化することができる。
すべてのインデックスが同じ半球内に位置しない場合、平均除去エントロピー符号化をインデックスに適用することができる。平均除去エントロピー符号化は符号化されるサブフレームの平均インデックス値を最初に除去し、次に、インデックスをポジ型のものに再マッピングし、次に、ステップ510によって図5に示されるように、ゴロンボ・ライス符号化などの適切なエントロピー符号化を用いてそれらを符号化するように構成され得る。
エントロピー符号化を適用した後、いくつかの実施形態では、ステップ511によって図5に示されるように、すべての時間サブフレームが同じ仰角(方位角)値またはインデックスを有するかどうかを決定するためにチェックを適用することができる。
すべての時間サブフレームが同じ仰角(方位角)値またはインデックスを有する場合、ステップ513によって図5に示すように仰角(方位角)値またはインデックスの倍数を示すインジケータが生成され、そうでない場合、方法はステップ517に直接進む。
次の動作はステップ517によって図5に示されるように、エントロピー符号化インデックスに必要なビット数および任意のインジケータビットを提供することの1つである。
例えば、仰角値に関して、仰角のインデックスは、領域[-90;90]におけるコードブックから決定することができる。これは、値0を有する仰角がインデックスゼロを有するコードワードを戻し、代替的に、ゼロ仰角値からそれ自体離れている正および負のコードワードに増加するインデックスを割り当てるように形成される。
したがって、一例として、いくつかの実施形態では、インデックス{6、4、2、0、1、3、5}を生成するコードワード{-90、-60、-30、0、30、60、90}を有するコードブックが実装される。このインデックス付けは、一般的な意味でより確率の高い方向に対してより低い値のインデックスを生成する(実際の例では方向は赤道に近い)。別の観察はオーディオソースがより高い値のインデックスに対応して、赤道からさらに離れている場合、それらは赤道の下で、とりわけ、またはすべてである傾向があることである。いくつかの実施形態では、エンコ-ダがより効率的に符号化することができるより小さい値のインデックスを生成するために、すべてのオーディオソースが赤道より上にあるかどうか(またはすべてのオーディオソースが下にあるかどうか)をチェックするように構成することができ、この場合、これはサブバンドのすべての時間サブフレームについての場合であり、次いで、インデックスを2で分割する。
いくつかの実施形態では、仰角インデックスのビット数の推定が以下のようにCで実施することができる。
すべての時間サブフレームについて同じ仰角値の特別な場合もチェックされ、信号が送られる。
上記の例の機能mean_removed_GR()は符号化されるサブフレームの平均インデックス値を最初に削除し、インデックスをポジ型の値に再マッピングしてから、ゴロンボ・ライス符号化で符号化するように設定されている。
これは、例えば、C言語で、次のように実装することができる。
機能odd_even_mean_removed_GR() はすべてのインデックスが奇数か偶数かを最初にチェックするように設定されており、この発生を通知し、半分になったインデックスを符号化した後のタイプ(奇数または偶数)を示す。
いくつかの実施形態では、一連のエントロピー符号化最適化動作が実行され、次いで、最低値が選択される。これは、例えば、方位値の符号化に関して、図6に示すように示すことができる。いくつかの実施形態では、図6に示すように、ステップ601によって方向インデックスの決定が開始される。
いくつかの実施形態では、ステップ503によって図6に示すように、方位値0がインデックス0を有し、増加するインデックス値が増加する正および負の方位値に割り当てられるように、マッピングが生成される。
マッピングを生成した後、ステップ605によって図6に示すように、(例えば、ルックアップテーブルに基づいてコードワード出力を生成する形態で)マッピングはオーディオソースに適用される。
この例では、方位角のインデックスがさらなるコードブックから決定することができる。この例では、方位角に対するゼロ値が正面方向であり得る基準方向に対応し、正の値は左に、負の値は右に、それぞれ対応する。この例では、方位値のインデックスが、値(-150、-120、-90、-60、-30、0、30、60、90、120、150、180)が以下のインデックス(10、8、6、4、2、0、1、3、5、7、9、11)を割り当てるように割り当てられる。いくつかの実施形態では、奇数/偶数アプローチが方位角(左/右位置決めに対応する)についてチェックすることができる。
この例では、より高いインデックス値が「キャプチャ環境」の後部または後部からの値に割り当てられる。
サブフレームの方位インデックスの符号化は、いくつかの実施形態では以下に基づいて実行することができる。
1.(ステップ607によって図6に示されるように)現在のサブバンドについて符号化されるべき方位インデックスの数を決定する
2.(図6のステップ609に示すように)電流サブバンドのタイルの記号の最大数を見つける
3.閾値よりも多くのシンボルがある場合(図6に示すように、ステップ611)
a.(図6のステップ613に示すように)相補値no_symb-index_azimuthによって与えられる値の符号化をチェックすることによって方位値を符号化する。
i.インデックスを前にあるように符号化する場合、ビット数を推定する。平均除去順序選択的ゴロム・ライスコーディングを使用する。GR順序は、2または3であり得る。また、GR オーダーは、シンボル数のデフォルトの範囲に応じて、異なる値に設定することもできる。
ii.平均除去次数選択GR符号化を使用して相補インデックスを符号化する場合、ビット数を推定する。
iii.より少ないビット数を使用し、どの方法が使用されているかを示すためにビットを使用する符号化方法を使用する
4.そうでなければ、
a.(ステップ615によって図6に示されるように)次数1または2で平均除去GR符号化を使用して方位インデックスを符号化する。
5.終了
6.最小除去GR符号化がより良い出力を生成するかどうかをチェックし、それをより良く使用するかどうかをチェックする(図6のステップ617に示すように)
C言語では、エンコーディングは次のようになる。
図7を参照すると、図2に示すようにエンコ-ダによって符号化された符号化されたメタデータを復号するのに適した例示的なメタデータ抽出器137が示されている。
いくつかの実施形態では、メタデータ抽出器137が、符号化された信号を受信し、符号化されたエネルギー比値をエネルギー比デコーダ703に出力し、信号ビットをエントロピー符号化モード検出器705およびサブバンド検出器707に出力し、符号化されたインデックスをインデックスデコーダ709に出力するように構成されたデマルチプレクサ701を備える。
メタデータ抽出器137は、復号されたエネルギー比を生成するために、符号化されたエネルギー比を受信し、復号するように構成されたエネルギー比デコーダ703をさらに備えることができる。復号化されたエネルギー比704は、出力されることができる。エネルギー比デコーダ703はさらに、符号化されたエネルギー比値に基づいてエネルギー比に基づく量子化解像度値708を生成し、これをインデックスデコーダおよび方向インデックス-方向値(AZ/EL)変換器711に渡すことができる。
メタデータ抽出器137はさらに、エントロピー符号化(EC)モード検出器705を備えることができる。ECモード検出器は、ブロックがすべて固定レートモードで符号化されたかどうか(ブロックが符号化されたインデックス値を含むかどうか、したがって、エントロピー復号が必要とされないかどうか)、またはエントロピー固定レートハイブリッド符号化がこのブロックについて実施されたかどうかを示す、ブロック内の第1のビットを読み取ることができる。
したがって、エントロピー符号化モード検出器705は、第1のビット(モードインジケータ)に基づいてインデッデコーダ709を制御するように構成され得る。
メタデータ抽出器137は、サブバンド検出器707をさらに備えることができる。サブバンド検出器707はブロック内の次のビット(例えば、5つのサブバンドがある場合、5ビットがある)を読み取ることができ、このビットは、ブロックについて、どのサブバンドが固定レート方法にしたがって符号化されているか、およびどのサブバンドがエントロピー方法にしたがって符号化されているかを示す。
したがって、サブバンド検出器707は、読み出しビット(サブバンドインジケータ)に基づいてインデックスデコーダ709を制御するように構成され得る。
メタデータ抽出器137はさらに、インデックスデコーダ709を備えることができる。サブバンドのメタデータ符号化値を受信したインデックスデコーダ709は、サブバンド検出器707およびエントロピーモード検出器705によって制御することができる。
したがって、例えば、インデックスデコーダ709は、モードインジケータが、ハイブリッドモードがディスエーブルされていることを示すときに、メタデータ符号化値を固定レート復号するように構成され得る。
さらに、インデックスデコーダ709は、サブバンドインジケータに基づいてエントロピー符号化されたサブバンドを復号するように構成され得る。エントロピー値を読み取り、復号した後、利用可能なビットと読み取られたビット(インジケータビットおよびエントロピー符号化方向インデックスビット)との間の差が決定される。インデックスデコーダ709はさらに、その差が、量子化解像度値708に基づくエネルギー比に基づいて、残りの符号化サブバンドを固定レート符号化するために必要なビット数よりも少ないか否かを判断するように構成される。言い換えると、差(bits_available-bits_read)<sum(bits_dir0[i][j])(i=固定レート符号化されたサブバンドのインデックス、j=0:M-1)かどうかである。
差が量子化解像度値708に基づくエネルギー比に基づいて割り当てられたビット数未満である場合、インデックスデコーダは固定レートサブバンドのための量子化解像度変更を使用して符号化が実施されたかどうかを決定するように構成され、復号はエンコ-ダで実施されたのと同じ方法で決定された低減された量子化解像度に基づいて固定レートサブバンド上で実行される。差が正しい場合、元の解像度を使用して固定レートのサブバンドを復号する。
次に、復号された方向パラメータ712を出力することができる。
したがって、いくつかの実施形態では、2つの還元レベルがあり得る。
(差が十分に小さい場合の)より微細な低減レベルは、以下のようにシグナリングされる。
各時間周波数ブロックの元のビット数はエネルギー量子化比によって決定される。第1に、ECまたは固定レート符号化を使用しているサブバンドのシグナリングがある。EC符号化されたサブバンドは最初に書き込まれ、したがって、それらを読み出すときに、それらが何ビットを使用したかが分かる。また、固定レート符号化されたサブバンドの使用可能なビット数と所定のビット数は既知である。所定のビット数+EC符号化されたサブバンドのビットが利用可能なビットに適合する場合、全て良好であり、したがって、減少はなく、さもなければ、わずかな減少がある。
より粗い、または「より厳しい」縮小では、(ステップ411に対応して)ビット割当てが利用可能なビット限界の数まで縮小されるか否かをデコーダに指示するために、始めに1ビットが送られる。
図8は例えば、図7に示すメタデータ抽出器の動作をフロー図として示す。
したがって、この方法は図8のステップ801に示すように、符号化データを受信することを含む。
符号化されたデータは図8に示すように、ステップ803によって逆多重化される。
次に、ECモード信号ビットを読み出して、ハイブリッドエントロピー符号化方法が採用されているか否かを判断し、ステップ805によって図8に示すように、ファインECモード(または粗いECモード)符号化が採用されているか否かを判断する。
ECモード信号ビットが粗い率低減が適用されたことを示す場合、ステップ806によって図8に示されるように、復号は、(粗い率低減エネルギー比量子化解像度を実装するいくつかの実施形態において)復号に基づく率低減のみに基づいて実行される。
ECモード・信号・ビットがハイブリッド・エントロピー固定レート・エンコーディングが使用されたこと、および微レート低減(量子化解像度の修正のみ)またはレート低減が要求されなかったことを示す場合、次の動作は、サブバンド・信号・ビットを読み取って、どのサブバンドがエントロピー・符号化されたか、および、どのサブバンドがステップ807によって図8に示されるように固定レート・符号化されたかを決定することのうちの1つである。
グループ化されたエントロピー符号化サブバンドビットは、ステップ809によって図8に示されるように、元のエネルギー比量子化解像度に基づいて方向に変換することができる方向インデックスを生成するように読み取り、復号される。
次の動作は、ブロックに利用可能なビットと読み出されたビット(シグナリングおよびEC符号化ビット)との間の差が、ステップ811によって図8に示されるように、元のエネルギー比量子化解像度にしたがって残りの固定レートビットを符号化するのに必要なビット数未満であるかどうかを決定するうちの1つである。
差が必要とされるビット数よりも小さい場合、ステップ813によって図8に示されるように、修正された量子化解像度方法に基づいて、「微」レート低減符号化に対して復号化を実行することができる。
差が必要とされるビット数よりも小さくない(または等しい)場合、ステップ812によって図8に示されるように、元の量子化解像度方法に基づいて符号化に対して復号化を実行することができる。
図9を参照すると、分析または合成装置として使用することができる例示的な電子装置が示されている。デバイスは、任意の適切な電子デバイスまたは装置であり得る。例えば、いくつかの実施形態では、デバイス1400がモバイルデバイス、ユーザ装置、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。
いくつかの実施形態では、デバイス1400が少なくとも1つのプロセッサまたは中央処理装置1407を備える。プロセッサ1407は、本明細書で説明されるような方法などの様々なプログラムコードを実行するように構成され得る。
いくつかの実施形態では、装置1400がメモリ1411を備える。いくつかの実施形態では、少なくとも1つのプロセッサ1407がメモリ1411に結合される。メモリ1411は、任意の適切な格納手段とすることができる。ある実施形態では、メモリ1411がプロセッサ1407上に実装可能なプログラムコードを格納するためのプログラムコードセクションを含む。さらに、いくつかの実施形態では、メモリ1411がデータ、例えば、本明細書で説明される実施形態にしたがって処理された、または処理されるべきデータを格納するための格納されたデータセクションをさらに備えることができる。プログラム・コード・セクション内に格納された実施されたプログラム・コードおよび格納されたデータ・セクション内に格納されたデータは、メモリ・プロセッサ結合を介して必要なときにいつでもプロセッサ1407によって検索することができる。
いくつかの実施形態では、装置1400がユーザインターフェース1405を備える。ユーザインターフェース1405は、いくつかの実施形態ではプロセッサ1407に結合することができる。いくつかの実施形態では、プロセッサ1407がユーザインターフェース1405の動作を制御し、ユーザインターフェース1405から入力を受信することができる。ある実施形態では、ユーザインターフェース1405が、ユーザが例えばキーパッドを介して、装置1400にコマンドを入力することを可能にすることができる。いくつかの実施形態では、ユーザインターフェース1405が、ユーザが装置1400から情報を取得することを可能にすることができる。例えば、ユーザインターフェース1405は、装置1400からユーザに情報を表示するように構成されたディスプレイを含んでもよい。ユーザインターフェース1405は、いくつかの実施形態では、情報をデバイス1400に入力することを可能にすることと、さらに情報をデバイス1400のユーザに表示することとの両方が可能なタッチスクリーンまたはタッチインターフェースを備えることができる。いくつかの実施形態では、ユーザインターフェース1405が本明細書で説明されるように、位置決定器と通信するためのユーザインターフェースであり得る。
いくつかの実施形態では、装置1400が入力/出力ポート1409を備える。入出力ポート1409は、いくつかの実施形態ではトランシーバを備える。そのような実施形態におけるトランシーバはプロセッサ1407に結合され、例えば、無線通信ネットワークを介して、他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の好適なトランシーバまたは送信機および/または受信機手段は、いくつかの実施形態では有線または有線結合を介して他の電子デバイスまたは装置と通信するように構成することができる。
トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態では、トランシーバは、適切なユニバーサル移動通信システム(UMTS)プロトコル、例えばIEEE802.Xのような無線ローカルエリアネットワーク(WLAN)プロトコル、Bluetooth(登録商標)のような適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路(IRDA)を使用することができる。
トランシーバ入出力ポート1409は信号を受信するように構成することができ、いくつかの実施形態では、適切なコードを実行するプロセッサ1407を使用することによって、本明細書で説明するようにパラメータを決定する。
一般に、本発明の様々な実施形態は、ハードウェアまたは専用回路、ソフトウェア、ロジック、またはそれらの任意の組合せで実施することができる。例えば、いくつかの態様はハードウェアで実装されてもよく、他の態様はコントローラ、マイクロプロセッサ、または他の計算装置によって実行されることができるファームウェアまたはソフトウェアで実装されることができるが、本発明はそれに限定されない。本発明の様々な態様は、ブロック図、フローチャートとして、またはいくつかの他の絵画的表現を使用して図示および目的され得るが、本明細書で目的されるこれらのブロック、装置、システム、技術、または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくは論理、汎用ハードウェアもしくはコントローラ、または他の計算装置、あるいはそれらのいくつかの組合せで実装され得ることをよく理解されたい。
本発明の実施形態は、プロセッサエンティティ内などのモバイル装置のデータプロセッサによって実行可能なコンピュータソフトウェアによって、または、ハードウェアによって、あるいはソフトウェアとハードウェアの組み合わせによって実行可能なコンピュータソフトウェアによって実現することができる。さらに、この点に関して、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組合せを表すことができることに留意されたい。このソフトウェアは、メモリチップなどの物理媒体、またはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピー(登録商標)ディスクなどの磁気媒体、およびたとえばDVDやそのデータ変異体などの光学媒体に格納することができる。
メモリはローカル技術環境に適した任意のタイプのものとすることができ、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定メモリおよびリムーバブルメモリなど、任意の適切なデータ格納技術を使用して実装することができる。データプロセッサはローカル技術環境に適した任意のタイプとすることができ、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの1つまたは複数を含むことができる。
本発明の実施形態は、集積回路モジュールなどの様々な部品で実施することができる。集積回路の設計は高度に自動化された処理によるものであり、大規模である。論理レベルの設計を、エッチングされ、半導体基板上に形成される準備ができている整った半導体回路設計に変換するための、複雑で強力なソフトウェアツールが利用可能である。
カリフォルニア州マウンテンビューにあるシノプシス社(Synopsys)、カリフォルニア州サンノゼにあるケーデンス・デザイン社(Cadence Design)から提供されているようなプログラムは、設計の十分に確立されたルール、および予め格納された設計モジュールのライブラリを用いて、導体を自動的にルーティングし、半導体チップ上の部品の位置を特定する。半導体回路の設計が完了すると、標準化された電子フォーマット(例えば、Opus、GDSIIなど)の結果として得られる設計は、製造のために半導体製造施設または「ファブ」に送信されることができる。
前述の説明は、本発明の例示的な実施形態の完全かつ有益な説明を、例示的かつ非限定的な例として提供した。しかしながら、添付の図面および付随の請求項を熟読する際に、前述の説明を考慮して、種々の修正および適合が、当業者に明白になるのであろう。しかしながら、本発明の教示の全てのそのような同様の修正は、添付の特許請求の範囲に定義される本発明の範囲内に依然として含まれる。

Claims (17)

  1. 時間周波数ブロックに対する空間オーディオ信号指向性メタデータパラメータを生成し、
    第1量子化解像度に基づいて、時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成し、
    第1量子化解像度に基づく時間周波数ブロックの前記符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数を、決定されたビット数と比較し、
    前記第1量子化解像度に基づく前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータのために使用されるビット数が、前記決定されたビット数未満である場合、第1量子化解像度に基づく時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータを出力または格納し、
    前記第1量子化解像度に基づく前記時間周波数ブロックの前記符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数が、前記決定されたビット数よりも多く、前記決定されたビット数と、前記第1量子化解像度に基づく前記時間周波数ブロックの前記符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数との間の差が前記決定されたビット数よりも少なく、決定された閾値以内である場合に、第2量子化解像度に基づいて、前記時間周波数ブロックの符号化空間オーディオ信号指向性メタデータパラメータを生成し、
    前記第1量子化解像度に基づく前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数が、前記決定されたビット数よりも大きく、および、前記決定されたビット数と、前記第1量子化解像度に基づく前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータに使用された前記ビット数との間の差が、前記決定された閾値よりも大きいとき、第3量子化解像度に基づく前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成する、
    ように構成された手段を備える装置であって、
    前記第3量子化解像度は、前記第3量子化解像度に基づく前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数が、常に、前記決定されたビット数以下であるように決定される、装置。
  2. 第1量子化解像度に基づいて時間周波数ブロックについて符号化空間オーディオ信号指向性メタデータパラメータを生成するように構成された手段は、
    前記空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための前記第1量子化解像度を決定し、
    前記第1量子化解像度を使用するマッピングに基づいて、前記空間オーディオ信号指向性メタデータパラメータに関連するインデックスを生成し、
    固定レート符号化またはエントロピー符号化がより少ないビット数を使用するかどうかに基づいて、該固定レート符号化またはエントロピー符号化を使用して前記インデックスを選択的に符号化する
    ように構成される、請求項1に記載の装置。
  3. 前記空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための前記第1量子化解像度を決定するように構成された前記手段は、
    前記空間オーディオ信号指向性メタデータパラメータに関連するエネルギー比値に基づいて前記空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための前記第1量子化解像度を決定する
    ように構成される、請求項2に記載の装置。
  4. 前記決定されたビット数と、前記第1量子化解像度に基づく前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータのために使用されるビット数との間の差異が、決定された閾値内にある場合に、第2量子化解像度に基づいて、前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するように構成された前記手段は、
    前記空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための前記第2量子化解像度を決定し、
    前記第1量子化解像度を使用して固定レート符号化された空間オーディオ信号指向性メタデータパラメータのための前記第2量子化解像度を使用する前記マッピングに基づいて、前記空間オーディオ信号指向性メタデータパラメータに関連するインデックスを生成する
    ように構成される、請求項2または3に記載の装置。
  5. 前記手段はさらに、
    空間オーディオ信号指向性メタデータパラメータのための前記第1量子化解像度を使用するマッピングに基づく前記空間オーディオ信号指向性メタデータパラメータに関連する前記エントロピー符号化インデックスと、
    空間オーディオ信号指向性メタデータパラメータのための前記第2量子化解像度を使用する前記マッピングに基づく前記空間オーディオ信号指向性メタデータパラメータに関連する前記固定レート符号化インデックスと、を出力または格納する
    ように構成される、請求項4に記載の装置。
  6. 前記手段は、前記エントロピー符号化インデックスが前記固定レート符号化インデックスに先行するように、前記符号化インデックスを順序付けるようにさらに構成される、請求項5に記載の装置。
  7. 前記手段は、前記第1または第2量子化解像度が使用されるときに指標を生成するようにさらに構成される、請求項1ないし6のいずれか1項に記載の装置。
  8. 第3量子化解像度に基づいて前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するように構成された前記手段は、
    前記第3量子化解像度を使用して、常に、前記決定されたビット数以下である固定レート符号化に使用されるビット数に基づいて、前記空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのための前記第3量子化解像度を決定し、
    前記第3量子化解像度を使用するマッピングに基づいて、前記空間オーディオ信号指向性メタデータパラメータに関連するインデックスを生成し、
    固定レート符号化またはエントロピー符号化がより少ないビット数を使用するかどうかに基づいて、固定レート符号化またはエントロピー符号化を使用してインデックスを選択的に符号化するように構成される、請求項ないし7のいずれか1項に記載の装置。
  9. 前記手段は、前記固定レート符号化またはエントロピー符号化がより少ないビット数を使用するかどうかに基づいて、固定レート符号化またはエントロピー符号化を使用して、前記選択的に符号化されたインデックスを出力するようにさらに構成される、請求項8に記載の装置。
  10. 前記手段は、前記第3量子化解像度が決定されたときに指標を生成するようにさらに構成される、請求項1ないし9のいずれか1項に記載の装置。
  11. 時間周波数ブロックの符号化空間オーディオ信号指向性メタデータパラメータを受信し、
    前記符号化空間オーディオ信号指向性メタデータパラメータが、常に決定されたビット数以下である量子化解像度に基づいて符号化されたかどうかを識別するように構成されたインジケータを受信し、
    前記インジケータが、前記符号化空間オーディオ信号指向性メタデータパラメータが常に前記決定されたビット数以下である量子化解像度に基づいて符号化されたことを識別するとき、常に前記決定されたビット数以下である量子化解像度に基づいて、前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータを復号する
    ように構成された手段を含む装置であって、
    前記インジケーターが、前記符号化空間オーディオ信号指向性メタデータパラメータが常に前記決定されたビット数以下である量子化解像度に基づいて符号化されなかったことを識別するとき、前記手段は、さらなる量子化解像度に基づいて前記時間周波数ブロックの前記符号化空間オーディオ信号指向性メタデータパラメータの第1部分を復号し、ここで、該第1部分は、前記さらなる量子化解像度に基づいて前記時間周波数ブロックのエントロピー符号化空間オーディオ信号指向性メタデータパラメータを含むものであり、
    前記決定されたビット数と前記第1部分を符号化するために使用されるビット数との間の差が前記さらなる量子化解像度に基づいて前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータの第2部分を符号化するために必要とされるビット数未満である場合、低減ビット量子化解像度に基づいて前記時間周波数ブロックのための固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2部分を復号し、
    そうでなければ、前記さらなる量子化解像度に基づいて前記時間周波数ブロックのための固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2部分を復号するように構成される、装置。
  12. 前記手段は、前記符号化空間オーディオ信号指向性メタデータパラメータの値と前記インデックス値との間のマッピングのために、前記さらなる量子化解像度を決定するようにさらに構成される、請求項11に記載の装置。
  13. 前記符号化空間オーディオ信号指向性メタデータパラメータの値と前記インデックス値との間のマッピングのための前記さらなる量子化解像度を決定するように構成された前記手段は、前記符号化空間オーディオ信号指向性メタデータパラメータに関連するエネルギー比値に基づいて、前記さらなる量子化解像度を決定するように構成される、請求項12に記載の装置。
  14. 前記手段は、前記符号化空間オーディオ信号指向性メタデータパラメータの値とインデックス値との間のマッピングのために、前記低減ビット量子化解像度を決定するようにさらに構成される、請求項11ないし13のいずれか1項に記載の装置。
  15. 前記手段は、前記量子化解像度に基づいて、前記符号化空間オーディオ信号指向性メタデータパラメータに関連するインデックスから、仰角および方位角のうちの少なくとも1つへのマッピングを生成するように構成される、請求項11ないし14のいずれか1項に記載の装置。
  16. 時間周波数ブロックのための空間オーディオ信号指向性メタデータパラメータを生成するステップと、
    第1量子化解像度に基づいて時間周波数のブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するステップと、
    前記第1量子化解像度に基づく時間周波数ブロックの符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数と、決定されたビット数とを比較するステップと、
    前記第1量子化解像度に基づく時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータのために使用されるビット数が、前記決定されたビット数未満である場合、第1量子化解像度に基づく時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを出力または格納するステップと、
    前記第1量子化解像度に基づいて前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数が、前記決定されたビット数より多く、前記決定されたビット数と、前記第1量子化解像度に基づいて時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータに使用されるビット数との差が、前記決定されたビット数未満であり、決定された閾値内であるとき、第2量子化解像度に基づいて時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するステップと、
    前記第1量子化解像度に基づく前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータに用いられた前記ビット数が、前記決定されたビット数よりも大きく、および、前記決定されたビット数と、前記第1量子化解像度に基づく前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータのために使用される前記ビット数との間の差が、前記決定された閾値よりも大きいとき、第3量子化解像度に基づいた前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを生成するステップであって、
    前記第3の量子化解像度は、前記第3量子化解像度に基づく前記時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータのために使用されるビット数が、常に、前記決定されたビット数以下であるように決定される、
    ステップと、を含む方法。
  17. 時間周波数ブロックのための符号化空間オーディオ信号指向性メタデータパラメータを受信するステップと、
    前記符号化空間オーディオ信号指向性メタデータパラメータが、常に決定されたビット数以下である量子化解像度に基づいて符号化されたかどうかを識別するように構成されたインジケータを受信するステップと、
    前記インジケータが、前記符号化空間オーディオ信号指向性メタデータパラメータが常に前記決定されたビット数以下である量子化解像度に基づいて符号化されたことを識別するときに、常に前記決定されたビット数以下である量子化解像度に基づいて、前記時間周波数ブロックのための符号化された前記空間オーディオ信号指向性メタデータパラメータを復号するステップと、
    を含む方法であって、
    前記インジケータが、前記符号化空間オーディオ信号指向性メタデータパラメータが常に前記決定されたビット数以下である量子化解像度に基づいて符号化されなかったことを識別する場合、該方法は、さらなる量子化解像度に基づいて前記時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータの第1部分を復号するステップであって、
    前記第1部分は、前記さらなる量子化解像度に基づいて前記時間周波数ブロックのためのエントロピー符号化空間オーディオ信号指向性メタデータパラメータを含む、
    ステップと、
    前記決定されたビット数と前記第1部分を符号化するために使用されるビット数との間の差が、前記さらなる量子化解像度に基づいて時間周波数ブロックのための前記符号化空間オーディオ信号指向性メタデータパラメータの第2部分を符号化するために必要とされるビット数未満である場合、低減ビット量子化解像度に基づいて前記時間周波数ブロックのための固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2部分を復号し、そうでなければ、さらなる量子化解像度に基づいて前記時間周波数ブロックのための固定レート符号化空間オーディオ信号指向性メタデータパラメータを含む前記第2部分を復号するステップと、
    を含む、方法。
JP2022516079A 2019-09-13 2020-09-09 空間オーディオパラメータ符号化および関連する復号化の決定 Active JP7405962B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1913274.5A GB2587196A (en) 2019-09-13 2019-09-13 Determination of spatial audio parameter encoding and associated decoding
GB1913274.5 2019-09-13
PCT/FI2020/050578 WO2021048468A1 (en) 2019-09-13 2020-09-09 Determination of spatial audio parameter encoding and associated decoding

Publications (2)

Publication Number Publication Date
JP2022548038A JP2022548038A (ja) 2022-11-16
JP7405962B2 true JP7405962B2 (ja) 2023-12-26

Family

ID=68315272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022516079A Active JP7405962B2 (ja) 2019-09-13 2020-09-09 空間オーディオパラメータ符号化および関連する復号化の決定

Country Status (8)

Country Link
US (2) US12046250B2 (ja)
EP (2) EP4029015A4 (ja)
JP (1) JP7405962B2 (ja)
KR (1) KR20220062599A (ja)
CN (1) CN114365218A (ja)
GB (1) GB2587196A (ja)
MX (1) MX2022002895A (ja)
WO (1) WO2021048468A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022223133A1 (en) * 2021-04-23 2022-10-27 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
GB2615607A (en) 2022-02-15 2023-08-16 Nokia Technologies Oy Parametric spatial audio rendering
WO2023179846A1 (en) 2022-03-22 2023-09-28 Nokia Technologies Oy Parametric spatial audio encoding
WO2024110006A1 (en) 2022-11-21 2024-05-30 Nokia Technologies Oy Determining frequency sub bands for spatial audio parameters
WO2024111300A1 (ja) * 2022-11-22 2024-05-30 富士フイルム株式会社 音データ作成方法及び音データ作成装置
GB2626953A (en) 2023-02-08 2024-08-14 Nokia Technologies Oy Audio rendering of spatial audio
GB2628413A (en) * 2023-03-24 2024-09-25 Nokia Technologies Oy Coding of frame-level out-of-sync metadata

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019097017A1 (en) 2017-11-17 2019-05-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US7012630B2 (en) * 1996-02-08 2006-03-14 Verizon Services Corp. Spatial sound conference system and apparatus
WO2002056297A1 (en) 2001-01-11 2002-07-18 Sasken Communication Technologies Limited Adaptive-block-length audio coder
DE602004028171D1 (de) * 2004-05-28 2010-08-26 Nokia Corp Mehrkanalige audio-erweiterung
KR100682890B1 (ko) 2004-09-08 2007-02-15 삼성전자주식회사 비트량 고속제어가 가능한 오디오 부호화 방법 및 장치
US7668715B1 (en) * 2004-11-30 2010-02-23 Cirrus Logic, Inc. Methods for selecting an initial quantization step size in audio encoders and systems using the same
RU2420816C2 (ru) * 2006-02-24 2011-06-10 Франс Телеком Способ двоичного кодирования показателей квантования огибающей сигнала, способ декодирования огибающей сигнала и соответствующие модули кодирования и декодирования
DE102008004674A1 (de) 2007-12-17 2009-06-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signalaufnahme mit variabler Richtcharakteristik
EP2154910A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
JP5267362B2 (ja) * 2009-07-03 2013-08-21 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
WO2014128275A1 (en) 2013-02-21 2014-08-28 Dolby International Ab Methods for parametric multi-channel encoding
US9769586B2 (en) 2013-05-29 2017-09-19 Qualcomm Incorporated Performing order reduction with respect to higher order ambisonic coefficients
JP6299202B2 (ja) * 2013-12-16 2018-03-28 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム及びオーディオ復号装置
EP3297298B1 (en) * 2016-09-19 2020-05-06 A-Volute Method for reproducing spatially distributed sounds
GB2559200A (en) * 2017-01-31 2018-08-01 Nokia Technologies Oy Stereo audio signal encoder
EP3762923B1 (en) 2018-03-08 2024-07-10 Nokia Technologies Oy Audio coding
GB2575305A (en) 2018-07-05 2020-01-08 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
GB2575632A (en) * 2018-07-16 2020-01-22 Nokia Technologies Oy Sparse quantization of spatial audio parameters
GB2577698A (en) 2018-10-02 2020-04-08 Nokia Technologies Oy Selection of quantisation schemes for spatial audio parameter encoding
GB2585187A (en) 2019-06-25 2021-01-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019097017A1 (en) 2017-11-17 2019-05-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions

Also Published As

Publication number Publication date
EP4029015A4 (en) 2024-01-24
US20240212696A1 (en) 2024-06-27
GB2587196A (en) 2021-03-24
US20220343928A1 (en) 2022-10-27
WO2021048468A1 (en) 2021-03-18
JP2022548038A (ja) 2022-11-16
EP4365896A2 (en) 2024-05-08
EP4365896A3 (en) 2024-05-22
CN114365218A (zh) 2022-04-15
US12046250B2 (en) 2024-07-23
GB201913274D0 (en) 2019-10-30
EP4029015A1 (en) 2022-07-20
KR20220062599A (ko) 2022-05-17
MX2022002895A (es) 2022-04-06

Similar Documents

Publication Publication Date Title
JP7405962B2 (ja) 空間オーディオパラメータ符号化および関連する復号化の決定
CN113228168B (zh) 用于空间音频参数编码的量化方案的选择
CN112639966A (zh) 空间音频参数编码和关联解码的确定
EP3707706B1 (en) Determination of spatial audio parameter encoding and associated decoding
JP7213364B2 (ja) 空間オーディオパラメータの符号化及び対応する復号の決定
CN114945982A (zh) 空间音频参数编码和相关联的解码
WO2020016479A1 (en) Sparse quantization of spatial audio parameters
EP3991170A1 (en) Determination of spatial audio parameter encoding and associated decoding
US11475904B2 (en) Quantization of spatial audio parameters
KR20230135665A (ko) 공간 오디오 파라미터 인코딩 및 관련 디코딩 결정
WO2022223133A1 (en) Spatial audio parameter encoding and associated decoding
RU2797457C1 (ru) Определение кодирования параметров пространственного звука и соответствующего декодирования
CA3237983A1 (en) Spatial audio parameter decoding
CN118946930A (en) Parameterized spatial audio coding

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220510

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231214

R150 Certificate of patent or registration of utility model

Ref document number: 7405962

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150