JP2022505964A - 方向性音量マップベースのオーディオ処理 - Google Patents
方向性音量マップベースのオーディオ処理 Download PDFInfo
- Publication number
- JP2022505964A JP2022505964A JP2021523056A JP2021523056A JP2022505964A JP 2022505964 A JP2022505964 A JP 2022505964A JP 2021523056 A JP2021523056 A JP 2021523056A JP 2021523056 A JP2021523056 A JP 2021523056A JP 2022505964 A JP2022505964 A JP 2022505964A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- signals
- volume
- directional
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title description 24
- 230000005236 sound signal Effects 0.000 claims abstract description 702
- 230000003595 spectral effect Effects 0.000 claims abstract description 386
- 238000004458 analytical method Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims description 161
- 238000004091 panning Methods 0.000 claims description 131
- 230000006870 function Effects 0.000 claims description 68
- 238000013139 quantization Methods 0.000 claims description 53
- 230000001419 dependent effect Effects 0.000 claims description 40
- 238000009877 rendering Methods 0.000 claims description 33
- 238000009826 distribution Methods 0.000 claims description 30
- 230000000873 masking effect Effects 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 23
- 239000002131 composite material Substances 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 9
- 210000000883 ear external Anatomy 0.000 claims description 6
- 230000002093 peripheral effect Effects 0.000 claims description 6
- 230000002829 reductive effect Effects 0.000 claims description 6
- 210000000959 ear middle Anatomy 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 4
- 210000003128 head Anatomy 0.000 claims description 4
- 238000009792 diffusion process Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 33
- 230000008447 perception Effects 0.000 description 21
- 238000012360 testing method Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 11
- 238000005259 measurement Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000015556 catabolic process Effects 0.000 description 8
- 238000006731 degradation reaction Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 7
- 238000000354 decomposition reaction Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000006866 deterioration Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000001303 quality assessment method Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000007480 spreading Effects 0.000 description 3
- 238000003892 spreading Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 235000015067 sauces Nutrition 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/22—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only
- H04R1/26—Spatial arrangements of separate transducers responsive to two or more frequency ranges
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Otolaryngology (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Abstract
Description
これは、本出願の独立請求項の主題によって達成される。
本発明によるさらなる実施形態は、本出願の従属請求項の主題によって定義される。
に従い、所定の方向(例えば、インデックス
によって表される)、時間インデックスmで指定された時間(または時間フレーム)、時間インデックスmで指定された時間、およびスペクトルビンインデックスkで指定されたスペクトルビンに関連する方向依存重み付け
を取得するように構成され、式中、
は所定の値であり(これは、例えば、ガウスウィンドウの幅を制御する)、
は時間インデックスmで指定された時間(または時間フレーム)、およびスペクトルビンインデックスkで指定されたスペクトルビンと関連付けられた抽出された方向値を指定し、
は所定の方向(例えば、方向インデックスjを有する)を指定する(または関連付けられた)方向値である。方向依存重み付けは、抽出された方向値(例えば、パンニングインデックス)の等化
(例えば、所定の方向を等しくすること)したスペクトル値またはスペクトルビンまたはスペクトル帯域が方向依存重み付けを変更せずに通過し、
からずれている抽出された方向値(例えば、パンニングインデックス)のスペクトル値またはスペクトルビンまたはスペクトル帯域が重み付けされるという考えに基づいている。一実施形態によれば、
に近い抽出された方向値のスペクトル値またはスペクトルビンまたはスペクトル帯域は重み付けされて渡され、残りの値は拒否される(例えば、さらに処理されない)。
によって指定される方向、時間インデックスmによって指定される時間(または時間フレーム)、およびスペクトルビンインデックスkによって指定されるスペクトルビンに関連する重み付けスペクトル領域表現
を取得するように構成され、
に従っており、入力オーディオ信号またはインデックスiによって指定される入力オーディオ信号の組み合わせ(例えば、i=Lまたはi=Rまたはi=DM;(L=左、R=右、およびDM=ダウンミックス))、インデックスbによって指定されるスペクトル帯域、時間インデックスmによって指定される時間(または時間フレーム)、およびスペクトルビンインデックスkによって指定されるスペクトルビンに関連するスペクトル領域表現を指定し、
はインデックス
によって指定される方向、時間インデックスmによって指定される時間(または時間フレーム)、およびスペクトルビンインデックスkによって指定されるスペクトルビンに関連する方向依存重み付け(例えば、ガウス関数のような重み付け関数)を指定する。したがって、重み付けスペクトル領域表現は、例えば、方向依存重み付けによって入力オーディオ信号または入力オーディオ信号の組み合わせに関連付けられたスペクトル領域表現を重み付けすることによって決定することができる。
に従って、インデックスbで指定されたスペクトル帯域、インデックス
で指定された方向、時間インデックスmで指定された時間(または時間フレーム)に関連する帯域音量値
を取得するように構成される。係数Kbは、周波数帯域インデックスbを有する周波数帯域におけるスペクトルビンの数を指定する。変数kは実行変数であり、周波数帯域インデックスbを有する周波数帯域のスペクトルビンを指定し、bはスペクトル帯域を指定する。
はインデックスbで指定されたスペクトル帯域、インデックス
で指定された方向、時間インデックスmで指定された時間(または時間フレーム)、およびスペクトルビンインデックスkで指定されたスペクトルビンに関連する重み付け結合スペクトル領域表現を指定する。
に従って、インデックス
で指定された方向および時間インデックスmで指定された時間(または時間フレーム)に関連する複数の合成音量値L(m,
)を取得するように構成される。係数Bは、スペクトル帯域の総数bを指定し、
はインデックスbで指定されたスペクトル帯域、インデックス
で指定された方向、および時間インデックスmで指定された時間(または時間フレーム)に関連する帯域音量値を指定する。
、例えば、i={L;R;DM}またはi
[1;I]によって表現され得る。
(m,k)を取得する。方向情報122は、例えば、2つ以上の入力オーディオ信号に含まれる異なるオーディオ成分の方向を表す。したがって、方向情報122は、聴取者が2つの入力オーディオ信号に含まれる成分を聞く方向に関連付けることができる。一実施形態によれば、方向情報はパンニングインデックスを表すことができる。したがって、例えば、方向情報122は、聴取室内の歌手を示す第1方向と、オーディオシーン内のバンドの異なる楽器に対応するさらなる方向とを含む。方向情報122は、例えば、オーディオアナライザ100によって、すべての周波数ビンまたは周波数グループについて(例えば、すべてのスペクトルビンkまたはスペクトル帯域bについて)、スペクトル領域表現1101、1102間のレベルの比を分析することによって決定される。方向情報決定120の例は、図5~図7bに関して説明される。
および
)を決定するように構成される。一実施形態によれば、第1の入力オーディオ信号のスペクトル領域表現1101に関連する第1の寄与1321は、方向情報122に応じて寄与判定130によって判定され、第2の入力オーディオ信号のスペクトル領域表現1102に関連する第2の寄与1322は、方向情報122に応じて寄与判定130によって判定される。一実施形態によれば、方向情報122は、異なる方向(例えば、抽出された方向値
(m,k))を含む。寄与132は、例えば、方向情報122に応じて所定の方向
の音量情報を含む。一実施形態によれば、寄与132は、その方向
(m,k)(方向情報122に対応する)が所定の方向
に等しいスペクトル帯域のレベル情報および/またはその方向
(m,k)が所定の方向
に隣接するスペクトル帯域のスケーリングされたレベル情報を定義する。
(例えば、所定の方向)に関連付けられる音量情報142(例えば、複数の異なる評価された方向範囲
に対してL(m,
)(Jの所定の方向に対してj
[1;J]))を、オーディオアナライザ100による分析結果として取得するために、オーディオアナライザ100は、第1の入力オーディオ信号のスペクトル領域表現1101に対応する寄与1321(例えば
)と、第2の入力オーディオ信号のスペクトル領域表現1102に対応する寄与1322(例えば
)とを組み合わせて、例えば、2つ以上のチャネル(例えば、第1のチャネルは、第1の入力オーディオ信号に関連付けられ、インデックスLによって表され、第2のチャネルは、第2の入力オーディオ信号に関連付けられ、インデックスRによって表される)の音量情報142として合成信号を受信するように構成される。したがって、経時的な音量および異なる方向
のそれぞれについての音量を定義する音量情報142が取得される。これは、例えば、音量情報決定部140が行う。
(m,k)などのパンニング方向情報125を決定することができる。パンニング方向情報125は、例えば、信号成分(例えば、特定の方向にパンニングされた第1の入力オーディオ信号1121および第2の入力オーディオ信号1122の信号成分)に対応するパンニングインデックスを表す。一実施形態によれば、入力オーディオ信号112は、例えば、左のインデックスLおよび右のインデックスRによって示される異なる方向に関連付けられる。パンニングインデックスは、例えば、2つ以上の入力オーディオ信号112間の方向または入力オーディオ信号112の方向における方向を定義する。したがって、例えば、図2に示すような2チャネル信号の場合、パンニング方向情報125は、完全に左または右またはその間のどこかの方向にパンニングされた信号成分に対応するパンニングインデックスを含むことができる。
[1;i]について
を決定するように構成される。方向依存重み付け127は、例えば、パンニング方向情報125から抽出された方向
(m,k)に応じたスケーリング係数を定義する。方向依存重み付け127は、予め定められた複数の方向
について決定される。一実施形態によれば、方向依存重み付け127は、所定の方向ごとに関数を定義する。関数は、例えば、パンニング方向情報125から抽出された方向
(m,k)に依存する。スケーリング係数は、例えば、パンニング方向情報125から抽出された方向
(m,k)と所定の方向
との間の距離に依存する。スケーリング係数、すなわち方向依存重み付け127は、スペクトルビンごとおよび/または時間ステップ/時間フレームごとに決定することができる。
に従い、所定の方向(例えば、インデックス
によって表される)、時間インデックスmで指定された時間(または時間フレーム)、時間インデックスmで指定された時間、およびスペクトルビンインデックスkで指定されたスペクトルビンに関連する方向依存重み付け127
を取得するように構成され、式中、
は所定の値であり(これは、例えば、ガウスウィンドウの幅を制御する)、
は時間インデックスmで指定された時間(または時間フレーム)、およびスペクトルビンインデックスkで指定されたスペクトルビンと関連付けられた抽出された方向値を指定し、
は、所定の方向(例えば、方向インデックスjを有する)を指定する(例えば、所定の)(または関連付けられた)方向値である。
(j
[1;J]またはj={L;R;DM})について
)を取得するために、2つ以上の入力オーディオ信号112の1つ以上のスペクトル領域表現110に適用される。言い換えれば、第1の入力オーディオ信号のスペクトル領域表現1101および第2の入力オーディオ信号のスペクトル領域表現1102は、所定の方向
ごとに個別に重み付けされる。したがって、例えば、第1の入力オーディオ信号の、例えば重み付けスペクトル領域表現1351例えば
は、所定の方向
に対応する第1の入力オーディオ信号112の信号成分のみ、または隣接する所定の方向に関連する第1の入力オーディオ信号1121の追加的に重み付けされた(例えば、低減される)信号成分を含むことができる。したがって、1つまたは複数のスペクトル領域表現110(例えば
)の値は、オーディオ成分の異なる方向(例えば、パンニング方向
)に応じて重み付けされる(例えば、重み係数
によって表される)。
(m,k)が所定の方向
から逸脱する信号成分が重み付けされ、それらが、抽出された方向値
(m,k)が所定の方向
に等しい信号成分よりも、影響が少なくなるように、方向依存重み付け127を決定するように構成される。言い換えれば、第1の所定の方向
に対する方向依存重み付け127において、第1の所定の方向
に関連する信号成分は、第1の所定の方向
に対応する第1の重み付けスペクトル領域表現
において他の方向に関連する信号成分よりも強調される。
によって指定される(例えば、所定の)方向、時間インデックスmによって指定される時間(または時間フレーム)、およびスペクトルビンインデックスkによって指定されるスペクトルビンに関連する重み付けスペクトル領域表現135
を取得するように構成され、
に従っており、
は、入力オーディオ信号112またはインデックスiによって指定される入力オーディオ信号112の組み合わせ(例えば、i=Lまたはi=Rまたはi=DMまたはIは番号で表され、チャネルを示す)、インデックスbによって指定されるスペクトル帯域、時間インデックスmによって指定される時間(または時間フレーム)、およびスペクトルビンインデックスkによって指定されるスペクトルビンに関連するスペクトル領域表現110を指定し、
はインデックス
によって指定される方向、時間インデックスmによって指定される時間(または時間フレーム)、およびスペクトルビンインデックスkによって指定されるスペクトルビンに関連する方向依存重み付け127(重み付け関数)を指定する。
スケーラ134の追加または代替の機能は、図6~図7bに関して説明される。
を得るためにコンバイナ136によって結合される。したがって、所定の方向
に対応するすべてのチャネル(第1の入力オーディオ信号1121および第2の入力オーディオ信号1122の図2の場合)のコンバイナ136の重み付けスペクトル領域表現135は、1つの信号に結合される。これは、例えば、所定の全方向(j
[1;i])
の場合)について行われる。一実施形態によれば、重み付け結合スペクトル領域表現137は、異なる周波数帯域bに関連付けられる。
に応じて各スペクトル帯域における音量を決定する。したがって、取得された帯域音量値145は、もはや単一のスペクトルビンkに依存しない。
)を決定するために、周波数帯域(b)のスペクトル値にわたる重み付け結合スペクトル領域表現137(例えば、
)(または周波数帯域のスペクトルビンにわたる)の二乗スペクトル値の平均を計算し、0と1/2との間(および好ましくは1/3または1/4未満)の指数を有する累乗演算を二乗スペクトル値の平均に適用するように構成される。
で指定された方向、に従って時間インデックスmで指定された時間(または、時間枠)に関連する帯域音量値145
を取得するように構成されており、
に従い、式中、Kbは、周波数帯域インデックスbを有する周波数帯域におけるスペクトルビンの数を指定し、kは実行変数であり、周波数帯域インデックスbを有する周波数帯域におけるスペクトルビンを指定し、bはスペクトル帯域を指定し、
はインデックスbで指定されたスペクトル帯域、インデックス
で指定された方向、時間インデックスmで指定された時間(または、時間枠)、およびスペクトルビンインデックスkで指定されたスペクトルビンに関連付けられた重み付け結合スペクトル領域表現137を示す。
に関連する合成音量値に関連付けることができる。
に従い、インデックス
で指定された方向および時間インデックスで指定された時間に関連付けられた複数の結合ラウドネス値L(m,
)を取得するように構成され、式中、Bはスペクトル帯域bの総数を示し、
はインデックスbで指定されたスペクトル帯域、インデックス
で指定された方向、および時間インデックスmで指定された時間(または、時間枠)に関連する帯域音量値145を示す。
図5に示すヒストグラム手法に関するさらなる詳細は、「一般化された基準関数を使用して音量マップを計算する異なる形式の実施形態2」の章で説明する。
))および第2の音量情報1422(例えば、L2(m,
))を取得するように構成されている。第1の音量情報1421は、2つ以上の入力オーディオ信号の第1のセット112a(例えば、iε[1;n]の場合xL、xR、またはxi)に基づいて異なる方向(例えば、所定のパンニング方向
)に関連付けられ、第2の音量情報1422は、基準オーディオ信号のセット112b(例えば、iε[1;n]のx2,R、x2,L、x2,i)によって表すことができる2つ以上の入力オーディオ信号の第2のセットに基づいて異なる方向に関連付けられる。入力オーディオ信号の第1のセット112aおよび基準オーディオ信号のセット112bは、n個のオーディオ信号を含むことができ、nは2以上の整数を表す。入力オーディオ信号の第1のセット112aおよび基準オーディオ信号のセット112bの各オーディオ信号は、聴取空間内の異なる位置に配置された異なるスピーカに関連付けることができる。第1の音量情報1421および第2の音量情報1422は、聴取空間(例えば、スピーカ位置またはスピーカ位置の間)内の音量分布を表すことができる。一実施形態によれば、第1の音量情報1421および第2の音量情報1422は、聴取空間内の離散的な位置または方向の音量値を含む。異なる方向は、どのセットが計算されるべき音量情報に対応するかに応じて、オーディオ信号のセット112aまたは112bの1つ専用のオーディオ信号のパンニング方向に関連付けることができる。
)からL1(m,
)を含むベクトル)および/または第2の音量情報1422(例えば、L2(m,
)からL2(m,
)を含むベクトル)は、それぞれの入力オーディオ信号に関連する(例えば、入力オーディオ信号の第1のセット112aに対応する入力オーディオ信号、または、基準オーディオ信号のセット112bに対応する(また、それぞれの所定の方向に関連する))複数の合成音量値を含むことができる。それぞれの所定の方向は、パンニングインデックスを表すことができる。各入力オーディオ信号は、例えばスピーカに関連付けられているため、それぞれの所定の方向は、それぞれのスピーカ間の等間隔の位置として理解することができる(例えば、隣接するスピーカおよび/または他のスピーカ対の間)。言い換えれば、オーディオ類似度評価器200は、入力オーディオ信号に関連するスピーカの位置情報を表すメタデータを使用して、異なる方向(例えば、本明細書に記載の第2の方向)を有する音量情報1421および/または1422を取得するために使用される方向成分(例えば、本明細書に記載の第1の方向)を取得するように構成される。第1の音量情報1421および/または第2の音量情報1422の合成音量値は、それぞれの所定の方向に関連する入力オーディオ信号112aおよび112bのそれぞれのセットの信号成分の音量を記述している。第1の音量情報1421および/または第2の音量情報1422は、それぞれの所定の方向と関連付けられた複数の重み付けスペクトル領域表現の組み合わせと関連付けられている。
類似度情報210を取得するために、例えば、第2の音量情報1422と第1の音量情報1421との差が計算される。
についてのLi(m,
))に応じて符号化パラメータを適合340させるように構成される。一実施形態によれば、符号化パラメータは、量子化パラメータおよび/またはビット分布などの他の符号化パラメータおよび/または符号化310の無効化/有効化に関するパラメータを含む。
))に依存する。
信号選択を使用するオーディオエンコーダによって決定される寄与は、係数a、b、およびcによって表すことができる。
一実施形態によれば、音量情報決定100は、本明細書で説明される他のオーディオエンコーダ300で説明されるように実装することができる。
オーディオデコーダ400は、前述の符号化されたオーディオコンテンツ420のうちの1つに基づいて出力信号432を提供するように構成される。
復号複雑度調整440は、図18のフォーマット変換器500の複雑度調整540と同様に、オーディオデコーダ400によって実行することができる。
追加的または代替的に、復号複雑度調整440は、寄与に基づいて復号パラメータを適合させるように構成することができる。
、例えばi={L;R};または
)に基づいて複数の重み付けスペクトル領域(例えば、時間周波数領域)表現(異なる
(j
[1;J])について
、「方向性信号」)を取得すること1100を含む。1つまたは複数のスペクトル領域表現の値(例えば、
)は、複数の重み付けスペクトル領域表現(異なる
に対して
(j
[1;J]);「方向性信号」)を取得するために、2つ以上の入力オーディオ信号内のオーディオ成分(例えば、スペクトルビンまたはスペクトル帯域の)(例えば、楽器または歌唱者からのチューニング)の異なる方向(例えば、パンニング方向
)(例えば、重み係数
によって表される)に応じて重み付け1200される。さらに、本方法は、複数の重み付けスペクトル領域表現(異なる
(j
[1;J])に対して
;「方向性信号」)に基づいて、異なる方向(例えば、パンニング方向
)に関連する音量情報(例えば、複数の異なる
に対してL(m,
);例えば、「方向性音量マップ」)を分析結果として取得1300することを含む。
)と関連付けられた第1の音量情報(L1(m,
);方向性音量マップ;合成音量値)を取得すること2100と、第1の音量情報(L1(m,
))を、異なるパンニング方向(例えば、
)に関連付けられた第2の(例えば、対応する)音量情報(L2(m,
);基準音量情報;基準方向性音量マップ;基準合成音量値)および2つ以上の基準オーディオ信号(x2,R,x2,L,x2,i)のセットと比較2200し、2つ以上の入力オーディオ信号の第1のセットと2つ以上の基準オーディオ信号(xR,xL,xi)の第1のセットと2つ以上の基準オーディオ信号(x2,R,x2,L,x2,i)のセットとの間の類似度を記述する(または、2つ以上の入力オーディオ信号の第1のセットの質を、2つ以上の参照オーディオ信号の第1のセットと比較したときに表す)類似度情報(例えば、「モデル出力変数」(MOV))を取得すること(2300)と、を含む。
備考
また、さらなる実施形態は、添付の特許請求の範囲によって定義される。
実装の代替
他の実施形態は、機械可読キャリアに格納された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
さらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
本明細書に記載の装置、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアで実装されてもよい。
方向性音量マップを使用した空間オーディオ質の客観的評価
要約
インデックス用語-空間オーディオ、客観的質評価、PEAQ、パンニングインデックス。
1.序論
2.方法
サンプルのHann窓および
のオーバーラップを使用してSTFT領域に分解され、
のサンプリングレートで21msの時間分解能を与える。次いで、変換された信号の周波数ビンは、例えば、合計の
周波数ビンサブセットまたは帯域における、ERBスケール[15]に従った人の蝸牛の周波数選択性を考慮するためにグループ化される。次いで、各バンドは、[3]で説明したように外耳および中耳をモデル化する結合線形伝達関数から導出された値によって重み付けすることができる。
および周波数ビン
である信号
、周波数ビンで表される異なる幅
を伴う各チャネルの
および各周波数グループ
を出力する。
2.1.方向性音量の計算(例えば、本明細書に記載のオーディオアナライザおよび/またはオーディオ類似度評価器によって実行される)
がjε[1;J]の
として解釈され得るように、異なる方向で実行され得る。以下の概念は、[13]に提示された方法に基づくものであり、それにおいてSTFT領域におけるバイノーラル信号の左チャネルと右チャネルとの間の類似度測度を使用して、ミキシングプロセス中にそれらの指定されたパンニング係数に基づいてステレオ録音での各音源によって占有される時間領域および周波数領域を抽出することができる。
はそれぞれ完全に左または右にパンニングされた信号に対応する
の定義されたサポートを用いて[13]で計算されたパンニングインデックスである。実際、
は、左右のチャネルの値が関数
に、
の値またはその近傍を備えさせる周波数ビンを含むことができる。他のすべての成分は、ガウス関数に従って減衰させることができる。
の値は、ウィンドウの幅、したがってパンニング方向ごとの言及された近傍を表す。
の値は、例えば、
dB[13]の信号対干渉比(SIR)に対して選択された。任意選択的に、
の中の等間隔のパンニング方向の
のセットは、
の値に対して経験的に選択される。復元された各信号について、各ERB帯域でパンニング方向に依存する音量計算[16]は、例えば、次のように表される。
(3)
kHz以上の周波数領域に対応するERB帯域のサブセットのみを考慮して、この領域のレベルの差に対する人間の聴覚系の感度に対応する式4を計算することができる。一実施形態によれば、
kHzから
までの周波数に対応する帯域
が使用される。
3.実験の説明
)、絶対誤差スコア(
)、外れ値数(
)との相関で評価される。
、
、および
の平均値は、性能尺度とみなされた。
4.結果および考察
を達成するが、表1に示すような組み合わせ性能
を示す。これにより、モノラルの歪みの評価において特徴が補完的であることが確認される。
のデータベースの主観的スコアに対する最大平均相関は、まだ改善の余地があることを示している。
5.結論および今後の研究
オーディオコーディングおよび客観的質測定のための方向性音量の使用
さらなる説明については、「方向性音量マップを使用した空間オーディオ質の客観的評価」の章を参照されたい。
説明(例えば、図9の説明)
用語:
・信号:例えば、オブジェクト、ダウンミックス、残差などを表す立体信号。
用途(実施形態):
1.質の自動評価(実施形態1):
・「方向性音量マップを使用した空間オーディオ質の客観的評価」の章で説明
・任意の変形例1(独立したステレオ対):スピーカまたはオブジェクトとしてのオーディオ信号。
・問題:個々のDirLoudMapの、結果として得られる/総音量マップへの組み合わせおよび寄与推定。
3.(実施形態3)デコーダ側について、方向性音量は、デコーダが以下に関して情報に基づいた決定をする補助をすることができる。
4.ジョイント符号化決定(実施形態4)について(例えば、図14の説明)
・シーン全体のDirLoudMapの寄与に対する各信号または各候補信号対の方向性音量マップの寄与を決定する。
1.任意選択の変形例1)全体的な音量マップへの寄与が最も高い信号対を選択する
・シーン全体のDirLoudMapは、信号の方向を考慮する何らかの種類のダウンミックスまたはバイノーラル化によって計算することができる。
5.方向性音量に基づくパラメトリック・オーディオ・コーデック(実施形態5)
・例えば、シーンの方向性音量マップを送信する。-->は、例えば以下のようなパラメトリック形式のサイド情報として送信される。
1.「PCMスタイル」=方向にわたる量子化値
2.中心位置+左右の線形傾斜
3.多項式またはスプライン表現
・例えば、1つの信号/より少ない信号/効率的な送信を送信し、
1.任意選択の変形例1)シーン+1ダウンミックスチャネルのパラメータ化されたターゲットDirLoudMapを送信する
2.任意選択の変形例2)各々が関連するDirLoudMapを有する複数の信号を送信する
・例えば、シーンの方向性音量マップに基づいて、送信された信号から完全なオーディオシーンを合成する。
オーディオコーディングのための方向性音量
序論および定義
DirLoudMap=Directional Loudness Map(方向性音量マップ)
DirLoudMapを計算するための実施形態:
a)t/f分解(+限界帯域(CB)へのグループ化)を実行する(例えば、フィルタバンク、STFT、...による)
b)各t/fタイルの方向分析機能を実行する
c)b)の結果をDirLoudMapヒストグラムに任意に入力/累積する(アプリケーションが必要とする場合):
d)広帯域DirLoudMapを提供するためにCBを介した出力を要約する
DirLoudMap/方向分析機能のレベルの実施形態:
識別可能
知覚的なオーディオコーディングのためのアプリケーション
実施形態A)各チャネル/オブジェクトのマスキング-ジョイントコーディングツールなし->ターゲット:
実施形態B)各チャネル/オブジェクトのマスキング-ジョイントコーディングツール(例えば、M/S+予測、MCT)
B)の例
1)例えば、すべての信号から全体のDirLoudMapを計算する
2)ジョイントコーディングツールを適用する
4)以下で量子化を制御する
a)量子化ノイズのDirLoudMapへの影響を考慮
b)信号部分を0~DirLoudMapに量子化する影響を考慮
実施形態C)ジョイントコーディングツールのアプリケーション(例えば、MSオン/オフ)および/またはパラメータ(例えば、予測係数)を制御する
ターゲット:DirLoudMapドメインのターゲット基準を満たすようにジョイントコーディングツールのエンコーダ/デコーダパラメータを制御する
C)の実施例
DirLoudMapに基づいてM/Sオン/オフ決定を制御する
DirLoudMapに対するパラメータの変化の影響に基づいて、周波数依存予測係数の平滑化を制御する
(パラメータのより安価な差動符号化について)
(=サイド情報と予測精度との間の制御のトレードオフ)
実施形態D)*パラメトリック*ジョイントコーディングツール(例えば強度ステレオ)のパラメータ(オン/オフ、ILD、...)を決定する
->ターゲット:DirLoudMapドメインのターゲット基準を満たすようにパラメトリックジョイントコーディングツールのパラメータを制御する
->デコーダが送信されたDirLoudMapを適切な手段で合成
実施形態F)デコーダ/レンダラ/フォーマット変換器の複雑度の低減
方向性音量マップ(DirLoudMap)を計算するための一般的なステップ
これは、例えば、任意の実施態様に有効である:(例えば、図3aおよび/または図4aの説明)
a)いくつかの入力オーディオ信号のt/f分解を実行する。
任意:人間の聴覚システム(HAS)の周波数分解能に関連して、スペクトル成分を処理帯域にグループ化する。
-任意:異なる周波数領域におけるHAS感度に応じた重み付け(例えば、外耳/中耳伝達関数)
->結果:t/fタイル(例えば、スペクトル領域表現、スペクトル帯域、スペクトルビン、...)
いくつかの(例えば、それぞれの)周波数帯域(ループ)について:
またはパンニング方向
)。
c)例えば、いくつかのオーディオ入力チャネルのt/fタイル上の音量を計算する
->結果:音量L
d.a)例えば、方向dの下でDirLoudMapにl寄与を入力/累積する
-任意選択:隣接する方向間のl個の分布の広がり(パンニングインデックス:ウィンドウイング)
終わりに
任意選択で、(アプリケーションによって必要とされる場合):広帯域DirLoudMapを計算する
例:パンニングインデックス(例えば、図6の説明)から導出された窓/選択関数を用いた方向性信号の回復
基準関数は、
のように任意に定義される。
基準は、例えば、「レベルに応じたパンニング方向」である。例えば、各またはいくつかのFFTビンのレベル。
(各パンニング方向
ごとに1つの窓関数)によって乗算される。
b)基準関数から、
(すなわち、LとRとの間のレベル比)の異なる値に関連付けられた異なる方向を有する。
方法a)を使用して信号を復元するために
、または臨界帯域
あたりの音量として任意に定義することができる。異なる用途には異なる基準があり得る。
重み付け(任意)
注記:例えば臨界帯域を重み付けする外耳/中耳(周辺モデル)伝達関数重み付けと混同しないようにする。
の正確な値を取得する代わりに、許容範囲を使用し、
から逸脱する値をあまり重要ではない重みを使用する。すなわち、「4/3の関係に従うすべてのバーを取り、それらを重み1で渡し、それに近い値を取り、それらを1未満で重み付けする→このために、ガウス関数を使用することができる。上記の例では、方向性信号は、1で重み付けされていないが、より低い値を有するより多くのビンを有する。
例3)については、図6a3.2および図6b3.2に示されているもののように見える。
一般化された基準関数を使用して音量マップを計算する様々な形態の実施形態
オプション1:パンニングインデックス手法(図3aおよび図3bを参照):
を使用すると、方向性信号は、例えば、個々のDFTビンで構成される。次に、例えば、各方向性信号の各臨界帯域(DFTビングループ)のエネルギーを計算し、次いで、臨界帯域ごとのこれらのエネルギーを0.25などの指数に上昇させる。→「方向性音量マップを使用した空間オーディオ質の客観的評価」の章と同様
・例2)振幅スペクトルをウィンドウイングする代わりに、音量スペクトルをウィンドウイングすることができる。方向性信号は、既に音量領域にある。
を直接使用する。次に、方向性信号は、
によって与えられる値に従う重要な帯域全体のチャンクから構成される。
例えば、
について、方向性信号は以下とすることができる。
・Y=1*critical_band_1+0.2*critical_band_2+0.001*critical_band_3
オプション2:ヒストグラムアプローチ(図4bを参照):
各時間フレームについて(図5参照):
Claims (86)
- オーディオアナライザ(100)であって、
前記オーディオアナライザ(100)は、2つ以上の入力オーディオ信号(112、1121、1122、1123、112a、112b)のスペクトル領域表現(110、1101、1102、110a、110b)を取得するように構成されており、
前記オーディオアナライザ(100)は、前記スペクトル領域表現(110、1101、1102、110a、110b)のスペクトル帯域に関連する方向情報(122、1221、1222、125、127)を取得するように構成されており、
前記オーディオアナライザ(100)は、異なる方向(121)に関連する音量情報(142、1421、1422、142a、142b)を分析結果として取得するように構成され、
前記音量情報(142、1421、1422、142a、142b)への寄与(132、1321、1322、1351、1352)は、前記方向情報(122、1221、1222、125、127)に応じて決定される、オーディオアナライザ(100)。 - 前記オーディオアナライザ(100)は、前記2つ以上の入力オーディオ信号(112、1121、1122、1123、112a、112b)の前記スペクトル領域表現(110、1101、1102、110a、110b)に基づいて複数の重み付けスペクトル領域表現(135、1351、1352、132)を取得するように構成され、
前記複数の重み付けスペクトル領域表現(135、1351、1352、132)を得るために、前記1つまたは複数のスペクトル領域表現(110、1101、1102、110a,110b)の値が、前記2つ以上の入力オーディオ信号(112、1121、1122、1123、112a、112b)における前記オーディオ成分の前記異なる方向(125)に応じて重み付けされ(134)、
前記オーディオアナライザ(100)は、前記分析結果として、前記重み付けスペクトル領域表現(135、1351、1352、132)に基づいて、前記異なる方向(121)に関連する音量情報(142、1421、1422、142a、142b)を取得するように構成されている、請求項1に記載のオーディオアナライザ(100)。 - 前記オーディオアナライザ(100)は、前記2つ以上の入力オーディオ信号(112、1121、1122、1123、112a、112b)を短時間フーリエ変換(STFT)領域に分解して、2つ以上の変換オーディオ信号(110、1101、1102、110a、110b)を得るように構成されている、請求項1または請求項2に記載のオーディオアナライザ(100)。
- 前記オーディオアナライザ(100)は、前記2つ以上の変換されたオーディオ信号(110、1101、1102、110a、110b)のスペクトルビンを、前記2つ以上の変換されたオーディオ信号(110、1101、1102、110a、110b)のスペクトル帯域にグループ化するように構成され、
前記オーディオアナライザ(100)は、前記2つ以上の入力オーディオ信号(112、1121、1122、1123、112a、112b)の前記1つ以上のスペクトル領域表現(110、1101、1102、110a、110b)を得るために、外耳および中耳モデル(116)に基づいて、異なる重みを使用して前記スペクトル帯域を重み付けするように構成されている、請求項3に記載のオーディオアナライザ(100)。 - 前記2つ以上の入力オーディオ信号(112、1121、1122、1123、112a、112b)は、異なる方向または異なるスピーカ位置に関連付けられている、請求項1から4の一項に記載のオーディオアナライザ(100)。
- 前記オーディオアナライザ(100)は、スペクトルビンごとに、また複数の所定の方向(121)に対する方向依存重み付け(127、122)を決定するように構成されている、請求項1から5の一項に記載のオーディオアナライザ(100)。
- 前記オーディオアナライザ(100)は、ガウス関数を使用して方向依存重み付け(127、122)を決定するように構成され、前記方向依存重み付け(127、122)は、それぞれの抽出された方向値(125、122)とそれぞれの所定の方向値(121)との間の偏差が増加するにつれて減少する、請求項1から6の一項に記載のオーディオアナライザ(100)。
- 前記オーディオアナライザ(100)が、前記抽出された方向値(125、122)としてパンニングインデックス値を決定するように構成される、請求項7に記載のオーディオアナライザ(100)。
- 前記オーディオアナライザ(100)は、前記抽出された方向値(125、122)を、前記入力オーディオ信号(112、1121、1122、1123、112a、112b)のスペクトル領域値(110)に応じて決定するように構成されている、請求項7または請求項8に記載のオーディオアナライザ(100)。
- 前記オーディオアナライザ(100)は、前記重み付けスペクトル領域表現(135、1351、1352、132)を得るために、前記2つ以上の入力オーディオ信号(112、1121、1122、1123、112a、112b)の前記1つ以上のスペクトル領域表現(110、1101、1102、110a、110b)に前記方向依存重み付け(127、122)を適用するように構成される、請求項6から10の一項に記載のオーディオアナライザ(100)。
- 前記オーディオアナライザ(100)は、前記重み付けスペクトル領域表現(135、1351、1352、132)を取得するように構成され、
関連付けられた第1の所定の方向(121)を有する信号成分が、第1の重み付けスペクトル領域表現(135、1351、1352、132)において関連付けられた他の方向(125)を有する信号成分よりも強調され、
関連付けられた第2の所定の方向(121)を有する信号成分が、第2の重み付けスペクトル領域表現(135、1351、1352、132)において関連付けられた他の方向(125)を有する信号成分よりも強調されるようにする、請求項6から11の一項に記載のオーディオアナライザ(100)。 - 前記オーディオアナライザ(100)は、以下に従い、インデックスiによって指定された入力オーディオ信号または入力オーディオ信号の組み合わせ(112、1121、1122、1123、112a、112b)(112、1121、1122、1123、112a、112b)、インデックスbによって指定されたスペクトル帯域、インデックス
によって指定された方向(121)、時間インデックスmによって指定された時間、およびに従ってスペクトルビンインデックスkによって指定されたスペクトルビンに関連する前記重み付けスペクトル領域表現(135、1351、1352、132)
を取得するように構成され、
式中
はインデックスiによって指定された入力オーディオ信号(112)または入力オーディオ信号の組み合わせ(112、1121、1122、1123、112a、112b)、インデックスbによって指定されたスペクトル帯域、時間インデックスmによって指定された時間、およびスペクトルビンインデックスkによって指定されたスペクトルビンに関連付けられたスペクトル領域表現(110)を指定し、
は、インデックス
によって指定された方向(121)、時間インデックスmで指定された時間、およびスペクトルビンインデックスkで指定されたスペクトルビンに関連する前記方向依存重み付け(127、122)を指定する、請求項1から12の一項に記載のオーディオアナライザ(100)。 - 前記オーディオアナライザ(100)は、合成音量値(142)を得るために、複数の帯域音量値(145)の平均を決定するように構成される、請求項1から13の一項に記載のオーディオアナライザ(100)。
- 前記オーディオアナライザ(100)は、複数の入力オーディオ信号(112、1121、1122、1123、112a、112b)を表す重み付け結合スペクトル領域表現(137)に基づいて複数のスペクトル帯域の帯域音量値(145)を取得するように構成され、
前記オーディオアナライザ(100)は、前記分析結果として、複数の異なる方向(121)について前記取得された帯域音量値(145)に基づいて複数の合成音量値(142)を取得するように構成される、請求項1から14の一項に記載のオーディオアナライザ(100)。 - 前記オーディオアナライザ(100)は、前記周帯域音量値(145)を決定するために、波数帯域のスペクトル値にわたる前記重み付け結合スペクトル領域表現(137)の二乗スペクトル値の平均を計算し、0と1/2との間の指数を有する累乗演算を前記二乗スペクトル値の平均に適用するように構成される、請求項14または請求項15に記載のオーディオアナライザ(100)。
- 前記オーディオアナライザ(100)は、以下に従い、インデックスbで指定されたスペクトル帯域、インデックス
で指定された方向(121)、に従って時間インデックスmで指定された時間に関連する前記帯域音量値(145)
を取得するように構成されており、
式中、Kbは、周波数帯域インデックスbを有する前記周波数帯域におけるスペクトルビンの数を指定し、
kは実行変数であり、周波数帯域インデックスbを有する周波数帯域におけるスペクトルビンを指定し、
bはスペクトル帯域を指定し、
はインデックスbで指定されたスペクトル帯域、インデックス
で指定された方向(121)、時間インデックスmで指定された時間、およびスペクトルビンインデックスkで指定されたスペクトルビンに関連付けられた重み付け結合スペクトル領域表現(137)を示す、請求項14から16の一項に記載のオーディオアナライザ(100)。 - 前記オーディオアナライザ(100)は、前記分析結果を得るために、前記方向情報(122、1221、1222、125、127)に応じて異なる方向(121)に関連付けられたヒストグラムビンに音量寄与(132、1321、1322、1351、1352)を割り当てるように構成される、請求項1から18の一項に記載のオーディオアナライザ(100)。
- 前記オーディオアナライザ(100)は、前記スペクトル領域表現(110、1101、1102、110a、110b)に基づいてスペクトルビンに関連する音量情報を取得するように構成され、
前記オーディオアナライザ(100)は、所与のスペクトルビンに関連する音量情報に基づいて、1つまたは複数のヒストグラムビンに音量寄与(132、1321、1322、1351、1352)を加算するように構成され、
前記音量寄与(132、1321、1322、1351、1352)を1つまたは複数のヒストグラムビンに行う選択が、所与のスペクトルビンの前記方向情報の決定に基づく、請求項1から19の一項に記載のオーディオアナライザ(100)。 - 前記オーディオアナライザ(100)は、所与のスペクトルビンに関連する音量情報に基づいて複数のヒストグラムビンに音量寄与(132、1321、1322、1351、1352)を加算するように構成され、
前記所与のスペクトルビンに関連付けられた方向情報(125、122)に対応する方向(121)に関連付けられたヒストグラムビンに最大の寄与(132、1321、1322、1351、1352)が追加され、さらなる方向(121)に関連付けられた1つまたは複数のヒストグラムビンに低減された寄与(132、1321、1322、1351、1352)が追加されるようにすることができる、請求項1から20の一項に記載のオーディオアナライザ(100)。 - 前記オーディオアナライザ(100)は、前記2つ以上の入力オーディオ信号(112、1121、1122、1123、112a、112b)のオーディオコンテンツに基づいて方向情報(122、1221、1222、125、127)を取得するように構成されている、請求項1から21の一項に記載のオーディオアナライザ(100)。
- 前記オーディオアナライザ(100)は、オーディオコンテンツの振幅パンニングの分析に基づいて方向情報(122、1221、1222、125、127)を取得するように構成され、および/または
前記オーディオアナライザ(100)は、2つ以上の入力オーディオ信号(112、1121、1122、1123、112a、112b)のオーディオコンテンツ間の位相関係および/または時間遅延および/または相関の分析に基づいて方向情報(122、1221、1222、125、127)を取得するように構成され、および/または
前記オーディオアナライザ(100)は、拡大された音源の識別に基づいて方向情報(122、1221、1222、125、127)を取得するように構成され、および/または
前記オーディオアナライザは、到来音のスペクトル情報と、異なる方向の頭部伝達関数に関連するテンプレートとのマッチングを使用して、方向情報(122、1221、1222、125、127)を取得するように構成されている、請求項1から22の一項に記載のオーディオアナライザ(100)。 - 前記オーディオアナライザ(100)は、拡散規則に従って音量情報を複数の方向(121)に拡散するように構成されている、請求項1から23の一項に記載のオーディオアナライザ(100)。
- オーディオ類似度評価器(200)であって、
前記オーディオ類似度評価器(200)は、2つ以上の入力オーディオ信号の第1のセット(112a)に基づいて異なる方向(121)に関連する第1の音量情報(142、1421、1422、142a、142b)を、取得するように構成され、
前記オーディオ類似度評価器(200)は、前記第1の音量情報(142、1421、1422、142a、142b)を、前記異なるパンニング方向および2つ以上の基準オーディオ信号のセット(112b)に関連する第2の音量情報(142、1421、1422、142a、142b)と比較(220)して、前記2つ以上の入力オーディオ信号第1のセットの(112a)と前記2つ以上の基準オーディオ信号のセット(112b)との間の類似度を記述する類似度情報(210)を取得するように構成される、オーディオ類似度評価器(200)。 - 前記オーディオ類似度評価器(200)は、前記第1の音量情報(142、1421、1422、142a、142b)が、前記2つ以上の入力オーディオ信号の第1のセット(112a)に関連し、それぞれの所定の方向(121)に関連する複数の合成音量値(142)を含むように、前記第1の音量情報(142、1421、1422、142a、142b)を取得するように構成され、前記第1の音量情報(142、1421、1422、142a、142b)の前記合成音量値(142)は、前記それぞれの所定の方向(121)に関連する前記2つ以上の入力オーディオ信号の第1のセット(112a)の信号成分の音量を記述する、請求項25に記載のオーディオ類似度評価器(200)。
- 前記オーディオ類似度評価器(200)は、前記第1の音量情報(142、1421、1422、142a、142b)が、それぞれの所定の方向(121)に関連する前記2つ以上の入力オーディオ信号の第1のセット(112a)の複数の重み付けスペクトル領域表現(135、1351、1352、132)の組み合わせに関連するように、前記第1の音量情報(142、1421、1422、142a、142b)を取得するように構成される、請求項25または請求項26に記載のオーディオ類似度評価器(200)。
- 前記オーディオ類似度評価器(200)は、前記第2の音量情報(142、1421、1422、142a、142b)と前記第1の音量情報(142、1421、1422、142a、142b)との差(210)を決定して、残差音量情報(210)を取得するように構成される、請求項25から27の一項に記載のオーディオ類似度評価器(200)。
- 前記オーディオ類似度評価器200は、複数の方向にわたる前記差(210)を定量化する値を(210)決定するように構成される、請求項28に記載のオーディオ類似度評価器(200)。
- 前記オーディオ類似度評価器(200)は、請求項1から24の一項に記載のオーディオアナライザ(100)を使用して前記第1の音量情報(142、1421、1422、142a、142b)および/または前記第2の音量情報(142、1421、1422、142a、142b)を取得するように構成される、請求項25から29の一項に記載のオーディオ類似度評価器(200)。
- 前記オーディオ類似度評価器(200)は、前記入力オーディオ信号(112、1121、1122、1123、112a、112b)に関連するスピーカの位置情報を表すメタデータを使用して、異なる方向(121)に関連する前記音量情報(142、1421、1422、142a、142b)を取得するために使用される方向成分を取得するように構成される、請求項25から30の一項に記載のオーディオ類似度評価器(200)。
- 1つまたは複数の入力オーディオ信号(112、1121、1122、1123、112a、112b)を含む入力オーディオコンテンツ(112)を符号化(310)するためのオーディオエンコーダ(300)であって、
前記オーディオエンコーダ(300)は、1つまたは複数の入力オーディオ信号(112、1121、1122、1123、112a、112b)、またはそれから導出された1つまたは複数の信号(110、1101、1102、110a、110b)に基づいて、1つまたは複数の符号化オーディオ信号(320)を提供するように構成され、
前記オーディオエンコーダ(300)は、符号化されるべき前記1つまたは複数の信号の複数の異なる方向(121)に関連する音量情報(142、1421、1422、142a、142b)を表す1つまたは複数の方向性音量マップに応じて符号化パラメータを適合させる(340)ように構成される、オーディオエンコーダ(300)。 - 前記オーディオエンコーダ(300)は、符号化される前記1つまたは複数の信号および/またはパラメータの個々の方向性音量マップの寄与度に応じて、符号化される前記1つまたは複数の信号および/またはパラメータ間のビット分布を全体的な方向性音量マップ(142、1421、1422、142a、142b)に適合(340)させるように構成される、請求項32に記載のオーディオエンコーダ(300)。
- 前記オーディオエンコーダ(300)は、符号化されるべき前記信号のうちの所与の一方の個々の方向性音量マップの全体的な方向性音量マップへの寄与が閾値を下回るとき、符号化されるべき前記信号のうちの前記所与の一方の符号化(310)を無効にするように構成される、請求項32または請求項33に記載のオーディオエンコーダ(300)。
- 前記オーディオエンコーダ(300)は、符号化されるべき前記1つまたは複数の信号の個々の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、符号化されるべき前記1つまたは複数の信号の量子化精度を適合させる(342)ように構成される、請求項32から34の一項に記載のオーディオエンコーダ(300)。
- 前記オーディオエンコーダ(300)は、1つまたは複数の量子化スペクトル領域表現(313)を取得するために、1つまたは複数の量子化パラメータを使用して、前記1つまたは複数の入力オーディオ信号(112、1121、1122、1123、112a、112b)またはそれから導出された前記1つまたは複数の信号(110、1101、1102、110a、110b)のスペクトル領域表現(110、1101、1102、110a、110b)を量子化(312)するように構成され、
前記オーディオエンコーダ(300)は、前記1つまたは複数の符号化されたオーディオ信号(320)の前記提供を適合させるために、量子化されるべき前記1つまたは複数の信号の複数の異なる方向(121)に関連する音量情報(142、1421、1422、142a、142b)を表す1つまたは複数の方向性音量マップに応じて前記1つまたは複数の量子化パラメータを調整(342)するように構成され、
前記オーディオエンコーダ(300)は、前記1つまたは複数の符号化されたオーディオ信号(320)取得するために、前記1つまたは前記1つまたは複数の量子化スペクトル領域表現(313)を符号化するように構成される、請求項32から35の一項に記載のオーディオエンコーダ(300)。 - 前記オーディオエンコーダ(300)は、量子化されるべき前記1つまたは複数の信号の個々の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、前記1つまたは複数の量子化パラメータを調整(342)するように構成される、請求項36に記載のオーディオエンコーダ(300)。
- 前記オーディオエンコーダ(300)は、前記入力オーディオ信号(112、1121、1122、1123、112a、112b)に基づいて全体的な方向性音量マップを決定するように構成され、前記全体的な方向性音量マップは、前記入力オーディオ信号(112、1121、1122、1123、112a、112b)によって表されるオーディオシーンの前記異なる方向(121)に関連する音量情報(142、1421、1422、142a、142b)を表す、請求項36または請求項37に記載のオーディオエンコーダ(300)。
- 前記量子化されるべき1つまたは複数の信号は、異なる方向(121)に関連付けられ、または異なるスピーカに関連付けられ、または異なるオーディオオブジェクトに関連付けられる、請求項36から38の一項に記載のオーディオエンコーダ(300)。
- 前記量子化されるべき信号は、2つ以上の入力オーディオ信号(112、1121、1122、1123、112a、112b)のジョイントマルチ信号コーディングの成分を備える、請求項36から39の一項に記載のオーディオエンコーダ(300)。
- 前記オーディオエンコーダ(300)は、前記ジョイントマルチ信号コーディングの残差信号の前記全体的な方向性音量マップへの寄与を推定し、それに応じて前記1つまたは複数の量子化パラメータを調整(342)するように構成される、請求項36から40の一項に記載のオーディオエンコーダ(300)。
- 前記オーディオエンコーダ(300)は、異なるスペクトルビンに対して個別に、または異なる周波数帯域に対して個別に符号化されるべき前記1つまたは複数の信号および/またはパラメータ間のビット分布を適合(340)させるように構成され、および/または
前記オーディオエンコーダ(300)は、異なるスペクトルビンに対して個別に、または異なる周波数帯域に対して個別に、符号化されるべき前記1つまたは複数の信号の量子化精度を適合(342)させるように構成される、請求項32から41の一項に記載のオーディオエンコーダ(300)。 - 前記オーディオエンコーダ(300)は、符号化されるべき2つ以上の信号間の空間マスキングの評価に応じて、符号化されるべき前記1つ以上の信号および/またはパラメータ間のビット分布を適合(340)させるように構成され、
前記オーディオエンコーダ(300)は、符号化されるべき前記2つ以上の信号に関連付けられた前記方向性音量マップに基づいて前記空間マスキングを評価するように構成される、請求項32から42の一項に記載のオーディオエンコーダ(300)。 - 前記オーディオエンコーダ(300)は、符号化されるべき第1の信号の第1の方向に関連する音量寄与(132、1321、1322、1351、1352)から、符号化されるべき第2の信号の第2の方向に関連する音量寄与(132、1321、1322、1351、1352)へのマスキング効果を評価するように構成されている、請求項43に記載のオーディオエンコーダ(300)。
- 前記オーディオエンコーダ(300)は、請求項1から24の一項に記載のオーディオアナライザ(100)を備え、異なる方向(121)に関連付けられた前記音量情報(142、1421、1422、142a、142b)が前記方向性音量マップを形成する、請求項32から44の一項に記載のオーディオエンコーダ(300)。
- 前記オーディオエンコーダ(300)は、前記1つまたは複数の方向性音量マップに応じて、前記エンコーダによって導入されたノイズを適合(340)させるように構成される、請求項32から45の一項に記載のオーディオエンコーダ(300)。
- 前記オーディオエンコーダ(300)は、所与の符号化されていない入力オーディオ信号に関連付けられた方向性音量マップと、前記所与の入力オーディオ信号の符号化バージョンによって達成可能な方向性音量マップとの間の偏差を、前記所与の符号化されたオーディオ信号を提供するのを適合させるための基準として使用するように構成される、請求項46に記載のオーディオエンコーダ(300)。
- 前記オーディオエンコーダ(300)は、符号化されるべき前記1つまたは複数の信号の複数の異なる方向(121)に関連する音量情報(142、1421、1422、142a、142b)を表す1つまたは複数の方向性音量マップに応じて、ジョイントコーディングツールをアクティブ化および非アクティブ化するように構成される、請求項32から47の一項に記載のオーディオエンコーダ(300)。
- 前記オーディオエンコーダ(300)は、符号化されるべき前記1つまたは複数の信号の複数の異なる方向(121)に関連する音量情報(142、1421、1422、142a、142b)を表す1つまたは複数の方向性音量マップに応じて、ジョイントコーディングツールの1つまたは複数のパラメータを決定するように構成されている、請求項32から48の一項に記載のオーディオエンコーダ(300)。
- 前記オーディオエンコーダ(300)は、前記1つまたは複数の符号化信号(320)の、1つまたは複数の符号化された信号の方向性音量マップに対する提供を制御する1つまたは複数の制御パラメータの変動の影響を決定または推定し、前記影響の決定または推定に応じて前記1つまたは複数の制御パラメータを調整するように構成される、請求項32から49の一項に記載のオーディオエンコーダ(300)。
- 前記オーディオエンコーダ(300)は、前記入力オーディオ信号(112、1121、1122、1123、112a、112b)に関連付けられたスピーカの位置情報を表すメタデータを使用して、前記1つまたは複数の方向性音量マップを取得するために使用される方向成分を取得するように構成される、請求項32から50の一項に記載のオーディオエンコーダ(300)。
- 1つまたは複数の入力オーディオ信号(112、1121、1122、1123、112a、112b)を含む入力オーディオコンテンツ(112)を符号化(310)するためのオーディオエンコーダ(300)であって、
前記オーディオエンコーダ(300)は、共に符号化されるべき2つ以上の信号のジョイント符号化(310)を使用して、2つ以上の入力オーディオ信号(112、1121、1122、1123、112a、112b)に基づいて、またはそこから導出される2つ以上の信号(110、1101、1102、110a、110b)に基づいて、1つ以上の符号化オーディオ信号(320)を提供するように構成され、
前記オーディオエンコーダ(300)は、候補信号(110、1101、1102)または前記候補信号の対(110、1101、1102)の複数の異なる方向(121)に関連する音量情報(142、1421、1422、142a、142b)を表す方向性音量マップに応じて、複数の候補信号(110、1101、1102)または前記複数の候補信号の対(110、1101、1102)の中から合同で符号化される信号を選択(350)するように構成される、オーディオエンコーダ(300)。 - 前記オーディオエンコーダ(300)は、複数の候補信号(110、1101、1102)の中から、または複数の候補信号の対(110、1101、1102)の中から、前記候補信号(110、1101、1102)の個々の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、または前記候補信号対(110、1101、1102)の方向性音量マップの全体的な方向性音量マップへの寄与に応じて、合同で符号化される信号を選択(350)するように構成される、請求項52に記載のオーディオエンコーダ(300)。
- 前記オーディオエンコーダ(300)は、前記全体的な方向性音量マップに対する候補信号(110、1101、1102)の対の寄与を決定するように構成され、
前記オーディオエンコーダ(300)は、ジョイント符号化(310)のための前記全体的な方向性音量マップへの最大の寄与を有する候補信号(110、1101、1102)の1つまたは複数の対を選択するように構成され、あるいは
前記オーディオエンコーダ(300)は、ジョイント符号化(310)のための所定の閾値よりも大きい前記全体的な方向性音量マップへの寄与を有する候補信号(110、1101、1102)の1つまたは複数の対を選択するように構成される、請求項52または請求項53に記載のオーディオエンコーダ(300)。 - 前記オーディオエンコーダ(300)は、2つ以上の候補信号(110、1101、1102)の個々の方向性音量マップを決定するように構成され、
前記オーディオエンコーダ(300)は、前記2つ以上の候補信号(110、1101、1102)の前記個々の方向性音量マップを比較するように構成され、
前記オーディオエンコーダ(300)は、前記比較の結果に応じて、ジョイント符号化(310)のための前記候補信号(110、1101、1102)のうちの2つ以上を選択(350)するように構成される、請求項52から54の一項に記載のオーディオエンコーダ(300)。 - 前記オーディオエンコーダ(300)は、前記入力オーディオ信号(112、1121、1122、1123、112a、112b)のダウンミックスを使用して、または前記入力オーディオ信号(112、1121、1122、1123、112a、112b)のバイノーラル化を使用して、全体的な方向性音量マップを決定するように構成される、請求項52から55の一項に記載のオーディオエンコーダ(300)。
- 1つまたは複数の入力オーディオ信号(112、1121、1122、1123、112a、112b)を含む入力オーディオコンテンツ(112)を符号化(310)するためのオーディオエンコーダ(300)であって、
前記オーディオエンコーダ(300)は、2つ以上の入力オーディオ信号(112、1121、1122、1123、112a、112b)に基づいて、またはそこから導出される2つ以上の信号(110、1101、1102、110a、110b)に基づいて、1つ以上の符号化オーディオ信号(320)を提供するように構成され、
前記オーディオエンコーダ(300)は、前記入力オーディオ信号(112、1121、1122、1123、112a、112b)に基づいて全体的な方向性音量マップを決定し、かつ/または個々の入力オーディオ信号(112、1121、1122、1123、112a、112b)に関連する1つもしくは複数の個々の方向性音量マップを決定するように構成されており、
前記オーディオエンコーダ(300)は、前記全体的な方向性音量マップおよび/または1つもしくは複数の個々の方向性音量マップをサイド情報として符号化するように構成されている、オーディオエンコーダ(300)。 - 前記オーディオエンコーダ(300)は、前記入力オーディオ信号(112、1121、1122、1123、112a、112b)に基づいて前記全体的な方向性音量マップを決定するように構成され、前記全体的な方向性音量マップは、前記入力オーディオ信号(112、1121、1122、1123、112a、112b)によって表されるオーディオシーンの前記異なる方向(121)に関連する音量情報(142、1421、1422、142a、142b)を表す、請求項57に記載のオーディオエンコーダ(300)。
- 前記オーディオエンコーダ(300)は、前記全体的な方向性音量マップを、異なる方向(121)に関連付けられた値のセットの形式で符号化するように構成され、または
前記オーディオエンコーダ(300)は、中心位置値および勾配情報を使用して前記全体的な方向性音量マップを符号化するように構成され、または
前記オーディオエンコーダ(300)は、前記全体的な方向性音量マップを多項式の表現の形式で符号化するように構成され、または
前記オーディオエンコーダ(300)は、前記全体的な方向性音量マップをスプライン表現の形式で符号化するように構成されている、請求項57から58の一項に記載のオーディオエンコーダ(300)。 - 前記オーディオエンコーダ(300)は、複数の入力オーディオ信号(112、1121、1122、1123、112a、112b)および全体的な方向性音量マップに基づいて得られる一方のダウンミックス信号を符号化するように構成され、または
前記オーディオエンコーダ(300)は、複数の信号を符号化し、符号化された複数の信号の個々の方向性音量マップを符号化するように構成され、または
前記オーディオエンコーダ(300)は、全体的な方向性音量マップ、複数の信号、および前記全体的な方向性音量マップに符号化される前記信号の寄与を記述するパラメータを符号化するように構成される、請求項57から59の一項に記載のオーディオエンコーダ(300)。 - 符号化されたオーディオコンテンツ(420)を復号(410)するためのオーディオデコーダ(400)であって、
前記オーディオデコーダ(400)は、1つまたは複数のオーディオ信号の符号化表現(420)を受信し、前記1つまたは複数のオーディオ信号の復号表現(432)を提供するように構成され、
前記オーディオデコーダ(400)は、1つまたは複数の方向性音量マップ(414)を取得するために、符号化された方向性音量マップ情報(424)を受信し、前記符号化された方向性音量マップ情報(424)を復号するように構成され、
前記オーディオデコーダ(400)は、前記1つまたは複数のオーディオ信号の前記復号表現(432)を使用し、前記1つまたは複数の方向性音量マップを使用して、オーディオシーンを再構成(430)するように構成されている、オーディオデコーダ(400)。 - 前記オーディオデコーダ(400)は、出力信号に関連する1つまたは複数の方向性音量マップが1つまたは複数の目標方向性音量マップに近似するかまたは等しくなるように、前記出力信号を取得するように構成され、
前記1つまたは複数の目標方向性音量マップは、前記1つまたは複数の復号された方向性音量マップ(414)に基づくか、または前記1つまたは複数の復号された方向性音量マップ(414)に等しい、請求項61に記載のオーディオデコーダ(400)。 - 前記オーディオデコーダ(400)は、
1つの符号化されたダウンミックス信号および全体的な方向性音量マップ、または
複数の符号化されたオーディオ信号(422)、および前記複数の符号化された信号の個々の方向性音量マップ、または
全体的な方向性音量マップ、複数の符号化されたオーディオ信号(422)、および前記符号化されたオーディオ信号(422)の前記全体的な方向性音量マップへの寄与を記述するパラメータを受信するよう構成され、
前記オーディオデコーダ(400)は、それに基づいて前記出力信号を提供するように構成される、請求項61または請求項62に記載のオーディオデコーダ(400)。 - オーディオシーンを表すオーディオコンテンツ(520)のフォーマットを第1のフォーマットから第2のフォーマットに変換(510)するフォーマット変換器(500)であって、
前記フォーマット変換器(500)は、前記第1のフォーマットの前記オーディオコンテンツの前記表現に基づいて前記第2のフォーマットの前記オーディオコンテンツの表現(530)を提供するように構成されており、
前記フォーマット変換器(500)は、前記オーディオシーンの全体的な方向性音量マップへの前記第1のフォーマットの入力オーディオ信号(112、1121、1122、1123、112a、112b)の寄与に応じて、前記フォーマット変換の複雑度を調整する(540)ように構成される、フォーマット変換器(500)。 - 前記フォーマット変換器(500)は、方向性音量マップ情報を受信し、それに基づいて前記全体的な方向性音量マップおよび/または1つもしくは複数の方向性音量マップを取得するように構成される、請求項64に記載のフォーマット変換器(500)。
- 前記フォーマット変換器(500)は、前記1つまたは複数の方向性音量マップから前記全体的な方向性音量マップを導出するように構成されている、請求項65に記載のフォーマット変換器(500)。
- 前記フォーマット変換器(500)は、所与の入力オーディオ信号の前記オーディオシーンの前記全体的な方向性音量マップへの寄与を計算または推定するように構成され、
前記フォーマット変換器(500)は、前記寄与の計算または推定に応じて、前記フォーマット変換において前記所与の入力オーディオ信号を考慮するかどうかを決定するように構成される、請求項64から66の一項に記載のフォーマット変換器(500)。 - 符号化されたオーディオコンテンツ(420)を復号(410)するためのオーディオデコーダ(400)であって、
前記オーディオデコーダ(400)は、1つまたは複数のオーディオ信号の符号化表現(420)を受信し、前記1つまたは複数のオーディオ信号の復号表現(432)を提供するように構成され、
前記オーディオデコーダ(400)は、前記1つまたは複数のオーディオ信号の前記復号表現(432)を使用してオーディオシーンを再構成(430)するように構成され、
前記オーディオデコーダ(400)は、復号されたオーディオシーンの全体的な方向性音量マップへの符号化信号の寄与に応じて復号の複雑度を調整(440)するように構成されている、オーディオデコーダ(400)。 - 前記オーディオデコーダ(400)は、前記全体的な方向性音量マップおよび/または1つもしくは複数の方向性音量マップを取得するために、符号化された方向性音量マップ情報(424)を受信し、前記符号化された方向性音量マップ情報(424)を復号するように構成される、請求項68に記載のオーディオデコーダ(400)。
- 前記オーディオデコーダ(400)は、前記1つまたは複数の方向性音量マップから前記全体的な方向性音量マップを導出するように構成されている、請求項69に記載のオーディオデコーダ(400)。
- 前記オーディオデコーダ(400)は、前記復号されたオーディオシーンの前記全体的な方向性音量マップに対する所与の符号化信号の寄与を計算または推定するように構成され、
前記オーディオデコーダ(400)は、前記寄与の計算または推定に応じて前記所与の符号化信号を復号するかどうかを決定するように構成される、請求項68から70の一項に記載のオーディオデコーダ(400)。 - オーディオコンテンツをレンダリングするためのレンダラ(600)であって、
前記レンダラ(600)は、1つまたは複数の入力オーディオ信号(112、1121、1122、1123、112a、112b)に基づいてオーディオシーンを再構成(640)するように構成されており、
前記レンダラ(600)は、レンダリングされたオーディオシーン(642)の全体的な方向性音量マップ(142)への前記入力オーディオ信号(112、1121、1122、1123、112a、112b)の寄与に応じてレンダリングの複雑度を調整する(650)ように構成されている、レンダラ(600)。 - 前記レンダラ(600)は、方向性音量マップ情報(142)を取得し、それに基づいて前記全体的な方向性音量マップおよび/または1つもしくは複数の方向性音量マップを取得するように構成される、請求項72に記載のレンダラ(600)。
- 前記レンダラ(600)は、前記1つまたは複数の方向性音量マップから前記全体的な方向性音量マップを導出するように構成されている、請求項73に記載のレンダラ(600)。
- 前記レンダラ(600)は、所与の入力オーディオ信号の前記オーディオシーンの前記全体的な方向性音量マップへの寄与を計算または推定するように構成され、
前記レンダラ(600)は、前記寄与の計算または推定に応じて、前記レンダリングにおいて前記所与の入力オーディオ信号を考慮するかどうかを決定するように構成される、請求項72から74の一項に記載のレンダラ(600)。 - オーディオ信号を分析するための方法(1000)であって、
2つ以上の入力オーディオ信号の1つまたは複数のスペクトル領域表現に基づいて複数の重み付けスペクトル領域表現を取得すること(1100)、
それにおいて、前記複数の重み付けスペクトル領域表現を取得するために、前記1つまたは複数のスペクトル領域表現の値が、前記2つ以上の入力オーディオ信号におけるオーディオ成分の異なる方向に応じて重み付けされる(1200)、および
前記複数の重み付けスペクトル領域表現に基づいて前記異なる方向と関連付けられた音量情報を分析結果として取得すること(1300)、を含む方法(1000)。 - オーディオ信号の類似度を評価するための方法(2000)であって、
2つ以上の入力オーディオ信号の第1のセットに基づいて異なる方向と関連付けられた第1の音量情報を取得すること(2100)と、
前記第1の音量情報を、前記異なるパンニング方向に関連付けられた第2の音量情報および2つ以上の基準オーディオ信号のセットと比較し(2200)、前記2つ以上の入力オーディオ信号の第1のセットと前記2つ以上の基準オーディオ信号のセットとの間の類似度を記述する類似度情報を取得すること(2300)と、を含む、方法(2000)。 - 1つ以上の入力オーディオ信号を含む入力オーディオコンテンツを符号化するための方法(3000)であって、
前記方法は、1つもしくは複数の入力オーディオ信号、またはそれから導出された1つもしくは複数の信号に基づいて、1つもしくは複数の符号化オーディオ信号を提供すること(3100)を含み、
前記方法は、符号化されるべき前記1つまたは複数の信号の複数の異なる方向に関連付けられる音量情報を表す1つまたは複数の方向性音量マップに応じて、前記1つまたは複数の符号化されたオーディオ信号の前記提供を適合させること(3200)を含む、方法(3000)。 - 1つ以上の入力オーディオ信号を含む入力オーディオコンテンツを符号化するための方法(4000)であって、
前記方法は、一緒に符号化されるべき2つ以上の信号のジョイント符号化を使用して、2つ以上の入力オーディオ信号に基づいて、またはそこから導出された2つ以上の信号に基づいて、1つ以上の符号化オーディオ信号を提供すること(4100)を含み、
前記方法は、候補信号または候補信号の対の複数の異なる方向に関連する音量情報を表す方向性音量マップに応じて、前記複数の候補信号の中から、または前記複数の候補信号の対の中から一緒に符号化される信号を選択すること(4200)を含む、方法(4000)。 - 1つ以上の入力オーディオ信号を含む入力オーディオコンテンツを符号化するための方法(5000)であって、
前記方法は、2つ以上の入力オーディオ信号に基づいて、またはそれから導出される2つ以上の信号に基づいて、1つ以上の符号化オーディオ信号を提供すること(5100)を含み、
前記方法は、前記入力オーディオ信号に基づいて全体的な方向性音量マップを決定すること、および/または個々の入力オーディオ信号に関連する1つまたは複数の個々の方向性音量マップを決定すること(5200)を含み、
前記方法は、前記全体的な方向性音量マップおよび/または1つもしくは複数の個々の方向性音量マップをサイド情報として符号化すること(5300)を含む、方法(5000)。 - 符号化されたオーディオコンテンツを復号するための方法(6000)であって、
前記方法は、1つまたは複数のオーディオ信号の符号化表現を受信すること(6100)と、前記1つまたは複数のオーディオ信号の復号表現を提供すること(6200)とを含み、
前記方法は、1つまたは複数の方向性音量マップを取得(6500)するために、符号化された方向性音量マップ情報を受信すること(6300)と、前記符号化された方向性音量マップ情報を復号すること(6400)を含み、
前記方法は、前記1つまたは複数のオーディオ信号の前記復号表現を使用し、前記1つまたは複数の方向性音量マップを使用して、オーディオシーンを再構成すること(6600)を含む、方法(6000)。 - オーディオシーンを表すオーディオコンテンツのフォーマットを第1のフォーマットから第2のフォーマットに変換する(7100)ための方法(7000)であって、
方法は、前記第1のフォーマットの前記オーディオコンテンツの表現に基づいて、前記第2のフォーマットの前記オーディオコンテンツの表現を提供することを含み、
前記方法は、前記オーディオシーンの全体的な方向性音量マップへの前記第1のフォーマットの入力オーディオ信号の寄与に応じて、前記フォーマット変換の複雑度を調整すること(7200)を含む、方法(7000)。 - 符号化されたオーディオコンテンツを復号するための方法(8000)であって、
前記方法は、1つまたは複数のオーディオ信号の符号化表現を受信すること(8100)と、前記1つまたは複数のオーディオ信号の復号表現を提供すること(8200)とを含み、
前記方法は、前記1つまたは複数のオーディオ信号の前記復号表現を使用してオーディオシーンを再構成すること(8300)を含み、
前記方法は、復号されたオーディオシーンの全体的な方向性音量マップへの符号化された信号の寄与に応じて復号の複雑度を調整すること(8400)を含む、方法(8000)。 - オーディオコンテンツをレンダリングするための方法(9000)であって、
前記方法は、1つまたは複数の入力オーディオ信号に基づいてオーディオシーンを再構成するステップ(9100)を含み、
前記方法は、レンダリングされたオーディオシーンの全体的な方向性音量マップへの前記入力オーディオ信号の寄与に応じてレンダリングの複雑度を調整するステップ(9200)を含む、方法(9000)。 - コンピュータ上で実行されると、請求項100から108に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
- 符号化されたオーディオ表現であって、
1つまたは複数のオーディオ信号の符号化表現、および
符号化された方向性音量マップ情報
を含む、オーディオ表現。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022154291A JP2022177253A (ja) | 2018-10-26 | 2022-09-28 | 方向性音量マップベースのオーディオ処理 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18202945.4 | 2018-10-26 | ||
EP18202945 | 2018-10-26 | ||
EP19169684.8 | 2019-04-16 | ||
EP19169684 | 2019-04-16 | ||
PCT/EP2019/079440 WO2020084170A1 (en) | 2018-10-26 | 2019-10-28 | Directional loudness map based audio processing |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022154291A Division JP2022177253A (ja) | 2018-10-26 | 2022-09-28 | 方向性音量マップベースのオーディオ処理 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022505964A true JP2022505964A (ja) | 2022-01-14 |
JP7526173B2 JP7526173B2 (ja) | 2024-07-31 |
Family
ID=68290255
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021523056A Active JP7526173B2 (ja) | 2018-10-26 | 2019-10-28 | 方向性音量マップベースのオーディオ処理 |
JP2022154291A Pending JP2022177253A (ja) | 2018-10-26 | 2022-09-28 | 方向性音量マップベースのオーディオ処理 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022154291A Pending JP2022177253A (ja) | 2018-10-26 | 2022-09-28 | 方向性音量マップベースのオーディオ処理 |
Country Status (6)
Country | Link |
---|---|
US (1) | US12183360B2 (ja) |
EP (3) | EP4220639A1 (ja) |
JP (2) | JP7526173B2 (ja) |
CN (1) | CN113302692B (ja) |
BR (1) | BR112021007807A2 (ja) |
WO (1) | WO2020084170A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3944240A1 (en) * | 2020-07-20 | 2022-01-26 | Nederlandse Organisatie voor toegepast- natuurwetenschappelijk Onderzoek TNO | Method of determining a perceptual impact of reverberation on a perceived quality of a signal, as well as computer program product |
US11637043B2 (en) * | 2020-11-03 | 2023-04-25 | Applied Materials, Inc. | Analyzing in-plane distortion |
KR20220151953A (ko) * | 2021-05-07 | 2022-11-15 | 한국전자통신연구원 | 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기 |
TWI844828B (zh) | 2022-03-10 | 2024-06-11 | 明基電通股份有限公司 | 音訊補償方法及其影音播放裝置 |
EP4346235A1 (en) * | 2022-09-29 | 2024-04-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method employing a perception-based distance metric for spatial audio |
EP4346234A1 (en) * | 2022-09-29 | 2024-04-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for perception-based clustering of object-based audio scenes |
JP2024067294A (ja) | 2022-11-04 | 2024-05-17 | 株式会社リコー | 結像レンズ、交換レンズ、撮像装置及び情報処理装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006004048A1 (ja) * | 2004-07-06 | 2006-01-12 | Matsushita Electric Industrial Co., Ltd. | オーディオ信号符号化装置、オーディオ信号復号化装置、方法、及びプログラム |
JP2010130411A (ja) * | 2008-11-28 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号区間推定装置とその方法とプログラム |
JP2012526296A (ja) * | 2009-05-08 | 2012-10-25 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 音声フォーマット・トランスコーダ |
WO2018047667A1 (ja) * | 2016-09-12 | 2018-03-15 | ソニー株式会社 | 音声処理装置および方法 |
JP2018156052A (ja) * | 2017-03-21 | 2018-10-04 | 株式会社東芝 | 信号処理システム、信号処理方法及び信号処理プログラム |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5632005A (en) * | 1991-01-08 | 1997-05-20 | Ray Milton Dolby | Encoder/decoder for multidimensional sound fields |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
DE19628293C1 (de) * | 1996-07-12 | 1997-12-11 | Fraunhofer Ges Forschung | Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion |
KR20070017441A (ko) * | 1998-04-07 | 2007-02-09 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 저 비트속도 공간 코딩방법 및 시스템 |
CN101783141B (zh) * | 2003-09-16 | 2012-06-20 | 松下电器产业株式会社 | 编码装置和译码装置 |
US20050208519A1 (en) | 2004-03-12 | 2005-09-22 | Genenews Inc. | Biomarkers for diagnosing schizophrenia and bipolar disorder |
US8843378B2 (en) | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
CN101138021B (zh) * | 2005-03-14 | 2012-01-04 | 韩国电子通信研究院 | 使用虚拟源位置信息的多声道音频压缩和解压缩方法 |
US8126159B2 (en) | 2005-05-17 | 2012-02-28 | Continental Automotive Gmbh | System and method for creating personalized sound zones |
US8428957B2 (en) | 2007-08-24 | 2013-04-23 | Qualcomm Incorporated | Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands |
CN101884065B (zh) * | 2007-10-03 | 2013-07-10 | 创新科技有限公司 | 用于双耳再现和格式转换的空间音频分析和合成的方法 |
US9275648B2 (en) | 2007-12-18 | 2016-03-01 | Lg Electronics Inc. | Method and apparatus for processing audio signal using spectral data of audio signal |
JP5622726B2 (ja) * | 2008-07-11 | 2014-11-12 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | オーディオエンコーダ、オーディオデコーダ、オーディオ信号を符号化および復号化する方法、オーディオストリームおよびコンピュータプログラム |
CN101408614B (zh) | 2008-11-26 | 2011-09-14 | 武汉大学 | 双耳声强差ild临界感知特性的测量方法及其装置 |
PL3779977T3 (pl) | 2010-04-13 | 2023-11-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dekoder audio do przetwarzania audio stereo z wykorzystaniem zmiennego kierunku predykcji |
US8606159B2 (en) | 2010-09-20 | 2013-12-10 | Lexmark International, Inc. | Fuser for an electrophotographic imaging device to maintain a high fuser belt temperature |
US9293146B2 (en) | 2012-09-04 | 2016-03-22 | Apple Inc. | Intensity stereo coding in advanced audio coding |
EP2936485B1 (en) * | 2012-12-21 | 2017-01-04 | Dolby Laboratories Licensing Corporation | Object clustering for rendering object-based audio content based on perceptual criteria |
CN107657959B (zh) | 2013-01-21 | 2021-06-11 | 杜比实验室特许公司 | 利用节目响度和边界元数据的音频编码器和解码器 |
US9980074B2 (en) * | 2013-05-29 | 2018-05-22 | Qualcomm Incorporated | Quantization step sizes for compression of spatial components of a sound field |
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
EP4379715A3 (en) | 2013-09-12 | 2024-08-21 | Dolby Laboratories Licensing Corporation | Loudness adjustment for downmixed audio content |
US20150127354A1 (en) | 2013-10-03 | 2015-05-07 | Qualcomm Incorporated | Near field compensation for decomposed representations of a sound field |
JP6510757B2 (ja) | 2014-02-21 | 2019-05-08 | 日本放送協会 | ラウドネス測定装置およびラウドネス測定プログラム |
EP2958343B1 (en) * | 2014-06-20 | 2018-06-20 | Natus Medical Incorporated | Apparatus for testing directionality in hearing instruments |
US10575117B2 (en) | 2014-12-08 | 2020-02-25 | Harman International Industries, Incorporated | Directional sound modification |
EP3174316B1 (en) | 2015-11-27 | 2020-02-26 | Nokia Technologies Oy | Intelligent audio rendering |
AU2017219696B2 (en) | 2016-02-17 | 2018-11-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing |
US10075802B1 (en) | 2017-08-08 | 2018-09-11 | Qualcomm Incorporated | Bitrate allocation for higher order ambisonic audio data |
-
2019
- 2019-10-28 EP EP23159448.2A patent/EP4220639A1/en active Pending
- 2019-10-28 EP EP19790249.7A patent/EP3871216A1/en active Pending
- 2019-10-28 BR BR112021007807-0A patent/BR112021007807A2/pt unknown
- 2019-10-28 JP JP2021523056A patent/JP7526173B2/ja active Active
- 2019-10-28 CN CN201980086950.1A patent/CN113302692B/zh active Active
- 2019-10-28 WO PCT/EP2019/079440 patent/WO2020084170A1/en unknown
- 2019-10-28 EP EP23159427.6A patent/EP4213147A1/en active Pending
-
2021
- 2021-04-26 US US17/240,751 patent/US12183360B2/en active Active
-
2022
- 2022-09-28 JP JP2022154291A patent/JP2022177253A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006004048A1 (ja) * | 2004-07-06 | 2006-01-12 | Matsushita Electric Industrial Co., Ltd. | オーディオ信号符号化装置、オーディオ信号復号化装置、方法、及びプログラム |
JP2010130411A (ja) * | 2008-11-28 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号区間推定装置とその方法とプログラム |
JP2012526296A (ja) * | 2009-05-08 | 2012-10-25 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 音声フォーマット・トランスコーダ |
WO2018047667A1 (ja) * | 2016-09-12 | 2018-03-15 | ソニー株式会社 | 音声処理装置および方法 |
JP2018156052A (ja) * | 2017-03-21 | 2018-10-04 | 株式会社東芝 | 信号処理システム、信号処理方法及び信号処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2020084170A1 (en) | 2020-04-30 |
JP7526173B2 (ja) | 2024-07-31 |
CN113302692B (zh) | 2024-09-24 |
RU2022106060A (ru) | 2022-04-04 |
EP4213147A1 (en) | 2023-07-19 |
CN113302692A (zh) | 2021-08-24 |
BR112021007807A2 (pt) | 2021-07-27 |
JP2022177253A (ja) | 2022-11-30 |
US20210383820A1 (en) | 2021-12-09 |
US12183360B2 (en) | 2024-12-31 |
EP4220639A1 (en) | 2023-08-02 |
EP3871216A1 (en) | 2021-09-01 |
RU2022106058A (ru) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7526173B2 (ja) | 方向性音量マップベースのオーディオ処理 | |
CN111316354B (zh) | 目标空间音频参数和相关联的空间音频播放的确定 | |
JP6641018B2 (ja) | チャネル間時間差を推定する装置及び方法 | |
AU2006233504B2 (en) | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing | |
RU2376726C2 (ru) | Устройство и способ для формирования закодированного стереосигнала аудиочасти или потока данных аудио | |
US9449603B2 (en) | Multi-channel audio encoder and method for encoding a multi-channel audio signal | |
US8612237B2 (en) | Method and apparatus for determining audio spatial quality | |
MX2007004725A (es) | Formacion de sonido difuso para esquemas de bbc y los semejantes. | |
WO2007089130A1 (en) | Apparatus for estimating sound quality of audio codec in multi-channel and method therefor | |
JP2020516955A (ja) | マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ | |
KR101170524B1 (ko) | 음질측정 방법, 음질측정 장치, 음질측정 프로그램 기록매체 | |
JP7436541B2 (ja) | マルチチャネル信号符号化方法、コンピュータ可読記憶媒体、コンピュータプログラム、及び符号器 | |
Delgado et al. | Objective assessment of spatial audio quality using directional loudness maps | |
RU2793703C2 (ru) | Обработка аудиоданных на основе карты направленной громкости | |
RU2798019C2 (ru) | Обработка аудиоданных на основе карты направленной громкости | |
RU2771833C1 (ru) | Обработка аудиоданных на основе карты направленной громкости | |
Jackson et al. | QESTRAL (Part 3): System and metrics for spatial quality prediction | |
RU2826539C1 (ru) | Обработка аудиоданных на основе карты направленной громкости | |
CN113678199B (zh) | 空间音频参数的重要性的确定及相关联的编码 | |
Baumgarte et al. | Design and evaluation of binaural cue coding schemes | |
Mouchtaris et al. | Multichannel Audio Coding for Multimedia Services in Intelligent Environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210617 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220928 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230523 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20230612 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20230901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240719 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7526173 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |