JP6896135B2 - ボリューム平準化器コントローラおよび制御方法 - Google Patents
ボリューム平準化器コントローラおよび制御方法 Download PDFInfo
- Publication number
- JP6896135B2 JP6896135B2 JP2020194995A JP2020194995A JP6896135B2 JP 6896135 B2 JP6896135 B2 JP 6896135B2 JP 2020194995 A JP2020194995 A JP 2020194995A JP 2020194995 A JP2020194995 A JP 2020194995A JP 6896135 B2 JP6896135 B2 JP 6896135B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- term
- short
- voip
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title description 232
- 230000005236 sound signal Effects 0.000 claims description 200
- 230000007774 longterm Effects 0.000 claims description 121
- 238000009499 grossing Methods 0.000 claims description 77
- 238000012545 processing Methods 0.000 claims description 52
- 230000000694 effects Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 description 53
- 230000009471 action Effects 0.000 description 49
- 230000006872 improvement Effects 0.000 description 44
- 238000003672 processing method Methods 0.000 description 44
- 230000006870 function Effects 0.000 description 42
- 230000008569 process Effects 0.000 description 40
- 230000003595 spectral effect Effects 0.000 description 36
- 230000000875 corresponding effect Effects 0.000 description 34
- 230000001427 coherent effect Effects 0.000 description 29
- 238000012986 modification Methods 0.000 description 23
- 230000004048 modification Effects 0.000 description 23
- 230000002596 correlated effect Effects 0.000 description 17
- 230000008859 change Effects 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000006399 behavior Effects 0.000 description 11
- 230000007423 decrease Effects 0.000 description 11
- 230000033764 rhythmic process Effects 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 9
- 230000001276 controlling effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000012546 transfer Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 230000003247 decreasing effect Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000004907 flux Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000011435 rock Substances 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000006854 communication Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 206010011878 Deafness Diseases 0.000 description 2
- 206010019133 Hangover Diseases 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000003623 enhancer Substances 0.000 description 2
- 230000010370 hearing loss Effects 0.000 description 2
- 231100000888 hearing loss Toxicity 0.000 description 2
- 208000016354 hearing loss disease Diseases 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000001020 rhythmical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- WURBVZBTWMNKQT-UHFFFAOYSA-N 1-(4-chlorophenoxy)-3,3-dimethyl-1-(1,2,4-triazol-1-yl)butan-2-one Chemical compound C1=NC=NN1C(C(=O)C(C)(C)C)OC1=CC=C(Cl)C=C1 WURBVZBTWMNKQT-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3089—Control of digital or coded signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/32—Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/16—Automatic control
- H03G5/165—Equalizers; Volume or gain control in limited frequency bands
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G7/00—Volume compression or expansion in amplifiers
- H03G7/002—Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G7/00—Volume compression or expansion in amplifiers
- H03G7/007—Volume compression or expansion in amplifiers of digital or coded signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/30—Aspects of automatic or semi-automatic exchanges related to audio recordings in general
- H04M2203/305—Recording playback features, e.g. increased speed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
- H04M7/006—Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Control Of Amplification And Gain Control (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
本願は2013年3月26日に出願された中国特許出願第201310100422.1号および2013年4月11日に出願された米国仮特許出願第61/811,072号の優先権を主張するものである。これら各出願はここに参照によってその全体において組み込まれる。
本願は概括的にはオーディオ信号処理に関する。詳細には、本願の実施形態はオーディオ分類および処理、特にダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器の制御のための装置および方法に関する。
第一部:オーディオ処理装置および方法
1.1節 オーディオ型
1.2節 オーディオ型の信頼値および分類器の構成
1.3節 オーディオ型の信頼値の平滑化
1.4節 パラメータ調整
1.5節 パラメータ平滑化
1.6節 オーディオ型の遷移
1.7節 実施形態の組み合わせおよび応用シナリオ
1.8節 オーディオ処理方法
第二部:ダイアログ向上器コントローラおよび制御方法
2.1節 ダイアログ向上のレベル
2.2節 向上させるべき周波数帯域の決定のための閾値
2.3節 背景レベルへの調整
2.4節 実施形態の組み合わせおよび応用シナリオ
2.5節 ダイアログ向上器制御方法
第三部:サラウンド仮想化器コントローラおよび制御方法
3.1節 サラウンド・ブースト量
3.2節 開始周波数
3.3節 実施形態の組み合わせおよび応用シナリオ
3.4節 サラウンド仮想化器制御方法
第四部:ボリューム平準化器コントローラおよび制御方法
4.1節 情報性および干渉性のコンテンツ型
4.2節 種々のコンテキストにおけるコンテンツ型
4.3節 コンテキスト型
4.4節 実施形態の組み合わせおよび応用シナリオ
4.5節 ボリューム平準化器制御方法
第五部:等化器コントローラおよび制御方法
5.1節 コンテンツ型に基づく制御
5.2節 音楽における優勢な源の確からしさ
5.3節 等化器プリセット
5.4節 コンテキスト型に基づく制御
5.5節 実施形態の組み合わせおよび応用シナリオ
5.6節 等化器制御方法
第六部:オーディオ分類器および分類方法
6.1節 コンテンツ型分類に基づくコンテキスト分類器
6.2節 長期的特徴の抽出
6.3節 短期的特徴の抽出
6.4節 実施形態の組み合わせおよび応用シナリオ
6.5節 オーディオ分類方法
第七部:VoIP分類器および分類方法
7.1節 短期的セグメントに基づくコンテキスト分類
7.2節 VoIP発話およびVoIPノイズを使った分類
7.3節 平滑化ゆらぎ
7.4節 実施形態の組み合わせおよび応用シナリオ
7.5節 VoIP分類方法。
図1は、再生時にオーディオ・コンテンツに基づく改善されたパラメータでの少なくとも一つのオーディオ改善装置の自動的な構成設定をサポートするコンテンツ適応的なオーディオ処理装置100の概括的なフレームワークを示している。これは三つの主要なコンポーネントを有する:オーディオ分類器200、調整ユニット300、オーディオ改善装置400である。
さまざまな種類のオーディオ改善装置を適正に制御するために、本願はさらに、オーディオ型の新たな構成を提供する。ただし、従来技術におけるオーディオ型も本願で適用可能である。
オーディオ分類器200は、硬判定結果を出力してもよく、あるいは調整ユニット300はオーディオ分類器200の結果を硬判定結果と見なしてもよい。硬判定についてでも、複数のオーディオ型がオーディオ・セグメントに割り当てられることができる。たとえば、オーディオ・セグメントは、発話および短期的音楽の混合信号でありうるので、「発話」および「短期的音楽」の両方によってラベル付けされることができる。得られたラベルは、オーディオ改善装置(単数または複数)400を操縦するために直接使われることができる。簡単な例は、発話が存在するときにダイアログ向上器402を有効にし、発話が存在しないときにオフにするというものである。しかしながら、この硬判定方法は、注意深い平滑化方式(後述)なしの場合には、あるオーディオ型から別のオーディオ型への遷移点においていくらかの不自然さを導入することがある。
任意的に、各オーディオ・セグメントがあらかじめ定義されたオーディオ型に分類された後、追加的なステップは、ある型から別の型への急激なジャンプを避け、オーディオ改善装置におけるパラメータのよりなめらかな推定をするために、時間軸に沿って分類結果を平滑化するというものである。たとえば、長い抜粋が、VoIPとして分類された一つだけのセグメントを除いて映画的メディアと分類されると、急激なVoIP判定は、平滑化によって映画的メディアに修正されることができる。
ここで、tは現在の時間(現在のオーディオ・セグメント)、t−1は最後の時間(最後のオーディオ・セグメント)、βは重み、confおよびsmoothConfはそれぞれ平滑化の前および後の信頼値(confidence value)である。
調整ユニット300は、オーディオ分類器200からの得られた結果に基づいてオーディオ改善装置(単数または複数)400についての適正なパラメータを推定または調整するよう設計される。コンテンツ型またはコンテキスト型のいずれかをまたは合同判定のために両方を使って、異なるオーディオ改善装置について異なる調整アルゴリズムが設計されてもよい。たとえば、映画的メディアおよび長期的音楽のようなコンテキスト型情報では、上述したようなプリセットが自動的に選択され、対応するコンテンツに適用されることができる。利用可能なコンテンツ型情報を用いて、各オーディオ改善装置のパラメータは、後述する部において示されるように、より細かい仕方で調整されることができる。コンテンツ型情報およびコンテキスト情報はさらに、長期的および短期的情報をバランスさせるために、調整ユニット300において合同で使われることができる。特定のオーディオ改善装置についての特定の調整アルゴリズムは、別個の調整ユニットと見なされてもよい。あるいは、異なる調整アルゴリズムがまとめて連合した調整ユニットと見なされてもよい。
1.3節では、急激な変化を避け、よってオーディオ改善装置のパラメータの急激な変化を避けるためにオーディオ型の信頼値を平滑化することを論じた。他の措置も可能である。一つは、オーディオ型に基づいて調整されるパラメータを平滑化することであり、本節で論じる。他方は、オーディオ分類器および/または調整ユニットを、オーディオ分類器の結果の変化を遅らせるよう構成することであり、これについては1.6節で論じる。
図9および図10を参照して、オーディオ型の急激な変化を避け、よってオーディオ改善装置のパラメータの急激な変化を避けるためのもう一つの方式が記述される。
ここで、HangCntは残存継続時間または閾値であり、CおよびDは用途の要求に基づいて設定されることのできる二つのパラメータであり、通例、Cは負、Dは正の値である。
上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。
上記の実施形態におけるオーディオ処理装置を記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。ただし、これらの方法はオーディオ処理装置を記述する過程において開示されているものの、これらの方法は必ずしも記載されるコンポーネントを採用するものではなく、必ずしもそうしたコンポーネントによって実行されるのではない。たとえば、オーディオ処理装置の実施形態は、部分的または完全にハードウェアおよび/またはファームウェアを用いて実現されてもよく、一方、以下で論じるオーディオ処理方法は、オーディオ処理装置のハードウェアおよび/またはファームウェアを採用してもよいが、完全にコンピュータ実行可能プログラムによって実現されてもよい。
オーディオ改善装置の一例はダイアログ向上器(DE)である。これは、特に聴力が低下しつつある高齢者のために、再生時にオーディオを断続的にモニタリングし、ダイアログの存在を検出し、ダイアログの明瞭性および了解性を高める(ダイアログを聞いて理解しやすくする)ためにダイアログを向上させることをねらいとする。ダイアログが存在するかどうかを検出するほか、ダイアログが存在し、よって(動的スペクトル再均衡化(dynamic spectral rebalancing)を用いて)相応して向上される場合、了解性に最も重要な周波数も検出される。例示的なダイアログ向上方法が特許文献1に呈示されている。その全体はここに参照によって組み込まれる。
ダイアログ向上のレベルに関わるとき、調整ユニット300Aは、ダイアログ向上器のダイアログ向上のレベルを、発話の信頼値と正に相関させるよう構成されていてもよい。追加的または代替的に、レベルは、他のコンテンツ型の信頼値に負に相関させられてもよい。こうして、ダイアログ向上のレベルは発話信頼度に(線形または非線形に)比例するように設定されることができる。よって、ダイアログ向上は、音楽および背景音(効果音)のような非発話信号についてはそれほど効果的ではない。
ダイアログ向上器の作動の間、各周波数帯域について、向上される必要があるかどうかを判定するための閾値(通例、エネルギーまたはラウドネス閾値)がある。すなわち、それぞれのエネルギー/ラウドネス閾値より上の周波数帯域が向上される。それらの閾値を調整するために、調整ユニット300Aは、閾値を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または閾値を発話の信頼値と負に相関させるよう構成されていてもよい。たとえば、発話信頼度が高ければ、より信頼できる発話検出を想定して閾値を下げることができ、より多くの周波数帯域が向上されることを許容する。他方、音楽信頼値が高ければ、閾値を高くすることができ、より少数の周波数帯域が向上されるようにする(よってアーチファクトをより少なくする)。
ダイアログ向上器におけるもう一つのコンポーネントは、図15に示されるような最小追跡ユニット4022である。これは、(SNR推定および2.2節で述べた周波数帯域閾値推定のために)オーディオ信号における背景レベルを推定するために使われる。これは、オーディオ・コンテンツ型の信頼値に基づいて調整されることもできる。たとえば、発話信頼値が高い場合、最小追跡ユニットは、背景レベルを現在の最小に設定するのにより自信を持つことができる。音楽信頼度が高い場合には、背景レベルはその現在の最小よりはやや高く設定されることができ、あるいは別の仕方では現在の最小と現在フレームのエネルギーとの、現在の最小に大きな重みをかけた重み付き平均に設定されることができる。ノイズおよび背景信頼度が高い場合には、背景レベルは現在の最小値よりずっと高く設定されることができ、あるいは別の仕方では、現在の最小と現在フレームのエネルギーとの、現在の最小に小さな重みをかけた重み付き平均に設定されることができる。
第一部と同様に、上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。
第一部と同様に、上記の実施形態におけるダイアログ向上器コントローラを記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。
サラウンド仮想化器は、サラウンドサウンド信号(マルチチャネル5.1および7.1など)がPCの内部スピーカーを通じてまたはヘッドフォンを通じてレンダリングされることを可能にする。すなわち、内蔵ラップトップ・スピーカーまたはヘッドフォンのようなステレオ装置を用いて、仮想的にサラウンド効果を生成し、消費者のために映画館の体験を提供するのである。サラウンド仮想化器では、マルチチャネル・オーディオ信号に関連付けられたさまざまなスピーカー位置からくる音の耳への到来をシミュレートするために、通例、頭部伝達関数(HRTF: Head Related Transfer Function)が利用される。
サラウンド・ブースト量に関わるとき、調整ユニット300Bは、サラウンド仮想化器404のサラウンド・ブースト量を、ノイズおよび/または背景および/または発話の信頼値と正に相関させるおよび/またはサラウンド・ブースト量を短期的音楽の信頼値と負に相関させるよう構成されていてもよい。
SB∝(1−Confmusic) (5)
ここで、SBはサラウンド・ブースト量、Confmusicは短期的音楽の信頼値である。
SB∝(1−Confmusic)*Confspeech α (6)
ここで、Confspeechは発話の信頼値であり、αは指数の形の重み付け係数であり、1〜2の範囲にあってもよい。この公式は、サラウンド・ブースト量は純粋な発話(高い発話信頼度および低い音楽信頼度)についてのみ高くなることを示す。
SB∝Confspeech (7)
さまざまな変形が同様にして設計できる。特に、ノイズまたは背景音について、公式(5)ないし(7)と同様の公式が構築されてもよい。さらに、それら四つのコンテンツ型の効果は任意の組み合わせにおいて一緒に考慮されてもよい。そのような状況において、ノイズおよび背景は周囲音であり、大きなブースト量をもってもより安全である。発話は、話者が通例はスクリーンの前方に座ると想定して、中程度のブースト量をもつことができる。したがって、調整ユニット300Bは、サラウンド・ブースト量を、コンテンツが型発話よりも、ノイズおよび/または背景の信頼値と、より正に相関させるよう構成されていてもよい。
他のパラメータも開始周波数のようなサラウンド仮想化器において修正されることができる。一般に、オーディオ信号中の高周波数成分は空間的にレンダリングされるのに、より好適である。たとえば、音楽では、ベースがより多くのサラウンド効果をもつようにレンダリングされると、おかしく聞こえる。よって、特定のオーディオ信号について、サラウンド仮想化器は、それより上の成分が空間的にレンダリングされ、それより下の成分が保持される周波数閾値を決定する必要がある。周波数閾値は開始周波数である。
第一部と同様に、上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。
第一部と同様に、上記の実施形態におけるサラウンド仮想化器コントローラを記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。
異なるオーディオ源または同じオーディオ源の異なるピースのボリュームは時に大きく変化する。ユーザーがボリュームを頻繁に調整しなければならないので、これはわずらわしい。ボリューム平準化器(VL: Volume Leveler)は再生時のオーディオ・コンテンツのボリュームを調整し、ターゲット・ラウドネス値に基づいて時間軸上でほとんど一貫しているようにすることをねらいとする。例示的なボリューム平準化器は特許文献2、特許文献3、特許文献4に記載されている。これら三つの文書はここに全体において参照によって組み込まれる。
上述したように、ボリューム平準化器の制御との関連で、オーディオ・コンテンツ型は情報性のコンテンツ型および干渉性のコンテンツ型として分類されうる。
調整ユニット300Cは、ボリューム平準化器の動的利得をオーディオ信号の情報性コンテンツ型と正に相関させ、ボリューム平準化器の動的利得をオーディオ信号の干渉性コンテンツ型と負に相関させるよう構成されてもよい。
GainControl∝1−Confnoise (10)
のように、ノイズ信頼値(Confnoise)の減少関数に比例するよう設定されることができる。
GainControl∝(1−Confnoise)・(1−Confbkg) (11)
上記の公式においては、ノイズおよび背景音の両方が望まれないので、GainControlはノイズの信頼値および背景の信頼値によって等しく影響される。これは、ノイズおよび背景音が同じ重みをもつと見なしうる。状況に依存して、両者は異なる重みをもってもよい。たとえば、ノイズおよび背景音の信頼値(またはそれらの1との差)に異なる係数または異なる指数(αおよびγ)を与えてもよい。すなわち、公式(11)は
GainControl∝(1−Confnoise)α・(1−Confbkg)γ (12)
または
GainControl∝(1−Confnoise α)・(1−Confbkg γ) (13)
と書き直されてもよい。
GainControl∝1−max(Confnoise,Confbkg) (14)
公式(11)(およびその諸変形)および公式(14)の両方は、ノイズ信号および背景音信号についての小さな利得を示し、ボリューム平準化器のもとの挙動は、(発話および音楽信号におけるように)ノイズ信頼値および背景信頼値の両方が小さくGainControlが1に近いときにのみ保持される。
GainControl∝1−Confnoise・(1−Confspeech) (15)
として考慮することができる。この館数を用いると、小さなGainControlが得られるのは、高いノイズ信頼度および低い発話信頼度をもつ信号(たとえば純粋なノイズ)についてのみであり、発話信頼度が高い場合にはGainControlは1に近くなる(よってボリューム平準化器のもとの挙動を保持する)。より一般には、あるコンテンツ型(Confnoiseなど)の重みが少なくとも一つの他のコンテンツ型(Confspeechなど)をもって修正されうると見なされることができる。上記の公式(15)において、発話の信頼度はノイズの信頼度の重み係数を変化させると見なされることができる(公式(12)および(13)における重みに比べると別の種類の重み)。換言すれば、公式(10)ではConfnoiseの係数が1と見なされることができ、一方、公式(15)では、いくつかの他のオーディオ型(発話などだがそれに限られない)がノイズの信頼値の重要性に影響する。よって、Confnoiseの重みが発話の信頼値によって修正されると言うことができる。本開示のコンテキストにおいて、用語「重み」はこれを含むように解釈される。すなわち、値の重要性を示すが、必ずしも規格化されていない。1.4節が参照されてもよい。
ここで、αおよびγは二つの重みである。これらは、平準器パラメータを修正するためにより大きく反応することが期待される場合にはより小さく設定されることができる。
公式(10)〜(16)における上記の制御関数は、ノイズ、背景音、短期的音楽および発話のようなオーディオ・コンテンツ型の信頼値を考慮に入れるが、映画的メディアおよびVoIPなど、音がどこからくるかのオーディオ・コンテキストは考慮しない。同じオーディオ・コンテンツ型が、たとえば背景音について、異なるオーディオ・コンテキストでは異なる仕方で処理される必要があることがありうる。背景音は、自動車エンジン、爆発および拍手など、さまざまな音を含む。VoIPでは意味がないかもしれないが、映画的メディアでは重要であることがある。これは、関心のあるオーディオ・コンテキストが識別され、異なるオーディオ・コンテキストについて異なる制御関数が設計される必要があることを示している。
GainControl∝1−max(Confnoise,Confbkg)
else
GainControl∝1−Confnoise (17)
すなわち、VoIPコンテキストでは、ノイズおよび背景音は干渉性コンテンツ型と見なされ、一方、非VoIPコンテキストでは、背景音は情報性コンテンツ型と見なされる。
GainControl∝1−max(Confnoise,Confbkg)
else
GainControl∝1−Confnoise・(1−Confspeech) (18)
ここで、発話は情報性コンテンツ型として強調される。
GainControl∝1−Confnoise・(1−max(Confspeech,Confmusic) (19)
と拡張できる。
コンテキスト型は、ノイズのようなわずらわしい音がブーストされすぎるのを避けるようボリューム平準化器を制御するために直接使われることもできる。たとえば、VoIP信頼値が、ボリューム平準化器を、その信頼値が高いときに感度を低くするよう操縦するために使われることができる。
第一部と同様に、上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。たとえば、4.1節ないし4.3節において述べた解決策の任意の二つ以上が互いと組み合わされてもよい。そして、これらの組み合わせの任意のものが、第一部〜第三部および後述する他の部において記載または含意されている任意の実施形態とさらに組み合わされてもよい。
第一部と同様に、上記の実施形態におけるボリューム平準化器コントローラを記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。
等化は、通例、音楽信号に適用されて、「トーン」または「音色」として知られるそのスペクトル・バランスを調整または修正する。伝統的な等化器は、ある種の楽器を強調したりまたは望まれない音を除去したりするために、ユーザーが個々の周波数帯域における周波数応答(利得)の全体的なプロファイル(曲線または形状)を構成設定できるようにする。ウィンドウズ(登録商標)・メディア・プレーヤーのような一般的な音楽プレーヤーは、種々のジャンルの音楽の最良の聴取経験を得るために、各周波数帯域における利得を調整するためのグラフィック・イコライザーを提供し、ロック、ラップ、ジャズおよびフォークのような種々の音楽ジャンルについての等化器プリセットの集合をも提供する。ひとたびプリセットが選択され、プロファイルが設定されたら、プロファイルが手動で修正されるまで、同じ等化利得が信号に対して適用される。
一般に、音楽、発話、背景音およびノイズのような一般的なオーディオ・コンテンツ型について、等化器は異なるコンテンツ型に対して異なるように設定されるべきである。伝統的なセットアップと同様に、等化器は、自動的に音楽信号に対して有効にされるが、発話に対しては無効にされることができる。あるいはより連続的な仕方で、音楽信号に対しては高い等化レベルを、発話信号に対しては低い等化レベルを設定することができる。このようにして、等化器の等化レベルは異なるオーディオ・コンテンツについて自動的に設定されることができる。
Leq∝Confmusic (20)
または
Leq∝1−Confspeech (21)
として使用されることができる。ここで、Leqは等化レベルであり、ConfmusicおよびConfspeechは音楽および発話の信頼値を表わす。
Leq=Confmusic(1−Confspeech α) (22)
ここで、発話信頼値は、頻繁に起こりうる、音楽信号における0でない発話信頼値を扱うために、α乗される。上記の公式を用いれば、等化は、発話成分のない純粋な音楽信号に対してはフルに適用される(1に等しいレベルで)。第一部で述べたように、αはコンテンツ型の重要性に基づく重み付け係数と見なされてもよく、典型的には1ないし2に設定されることができる。
優勢な源をもつ音楽が高い等化レベルを適用されることを避けるために、等化レベルはさらに、音楽片が優勢な源を含むかどうかを示す信頼値Confdomに相関させられてもよい。たとえば、
Leq=1−Confdom (23)。
Leq=Confmusic(1−Confspeech)(1−Confdom) (24)
とすることである。
オーディオ・コンテンツ型の信頼値に基づいて等化レベルを適応的に調整することのほか、種々のオーディオ・コンテンツについて、そのジャンル、楽器または他の特性に依存して、適切な等化プロファイルまたは所望されるスペクトル・バランス・プリセットが自動的に選ばれることもできる。同じジャンルをもつ、同じ楽器を含むまたは同じ音楽特性をもつ音楽は同じ等化プロファイルまたは所望されるスペクトル・バランス・プリセットを共有することができる。
Peq=Pc* (26)
として、最良のマッチしたクラスターの対応するプロファイルを割り当てることである。ここで、Peqは推定される等化プロファイルまたは所望されるスペクトル・バランス・プリセットであり、c*は最良のマッチした音楽クラスター(優勢なオーディオ型)のインデックスであり、これは最も高い信頼値をもつクラスターを拾うことによって得られる。
これまでの節では、さまざまなコンテンツ型に焦点を当てている。本節で論じるさらなる実施形態では、代替的または追加的にコンテキスト型が考慮されてもよい。
Leq∝ConfMUSIC (29)
または
Leq∝1−ConfMOVIE (30)
ここで、Leqは等化レベル、ConfMUSICおよびConfMOVIEは長期的音楽および映画的メディアの信頼値を表わす。
第一部と同様に、上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。
第一部と同様に、上記の実施形態における等化器コントローラを記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。
1.1節および1.2節で述べたように、さまざまな階層レベルのコンテンツ型およびコンテキスト型を含む本願で論じられるオーディオ型は、機械学習ベースの方法を含め何らかの既存の分類方式を用いて分類または識別されることができる。この部および次の部では、本願は、これまでの部で言及されたコンテキスト型を分類するための分類器および方法のいくつかの新規な側面を提案する。
これまでの部で述べたように、オーディオ分類器200は、オーディオ信号のコンテンツ型を識別するおよび/またはオーディオ信号のコンテキスト型を識別するために使われる。したがって、オーディオ分類器200は、オーディオ・コンテンツ分類器202および/またはオーディオ・コンテキスト分類器204を有していてもよい。オーディオ・コンテンツ分類器202および/またはオーディオ・コンテキスト分類器204を実装するための既存の技法を採用するとき、両分類器は互いから独立でありうるが、いくつかの特徴を共有していてもよく、よって該特徴を抽出するためのいくつかの方式を共有していてもよい。
図24に示されるように、ある実施形態では、統計量抽出器2042のみが、短期的分類器2024の結果から長期的特徴を抽出するために使用される。長期的特徴として、次のうちの少なくとも一つが統計量抽出器2042によって計算されてもよい:分類されるべき長期的セグメント内の短期的セグメントの短期的オーディオ型の信頼値の平均および分散、短期的セグメントの重要度によって重み付けされた前記平均および分散、各短期的オーディオ型の出現頻度および分類されるべき長期的セグメント内の種々の短期的オーディオ型の間の遷移の頻度。
図24および図27に示されるように、短期的特徴抽出器2022は、短期的特徴として、次の特徴のうちの少なくとも一つを、各短期的オーディオ・セグメントから直接抽出するよう構成されていてもよい:リズム特性、中断/ミュート特性および短期的オーディオ品質特徴。
a)推定された背景ノイズ・レベル、スペクトル明瞭性などを含む静的なSNR特性
b)スペクトル・レベル偏差、スペクトル・レベル範囲、相対ノイズ・フロアなどを含むセグメントSNR特性
c)ピッチ平均、発話セクション・レベル変動、発話レベルなどを含む基本的発話記述子
d)ロボット化(robotization)、ピッチ・クロス・パワー(pitch cross power)などを含む声道特性。
ある実施形態では、フレーム・レベルのオーディオ型は、上記で論じたコンテンツ型の構成と同様の構成を有していてもよく、コンテンツ型と同様の意味を有していてもよい。唯一の相違は、フレーム・レベルのオーディオ型とコンテンツ型はオーディオ信号の異なるレベルで、すなわちフレーム・レベルおよび短期的セグメント・レベルで分類されるということである。たとえば、フレーム・レベル分類器2014は、オーディオ・フレームのシーケンスの各フレームを次のフレーム・レベルのオーディオ型のうちの少なくとも一つに分類するよう構成されていてもよい:発話、音楽、背景音およびノイズ。他方、フレーム・レベルのオーディオ型は、部分的または完全にコンテンツ型の構成とは異なる、フレーム・レベルの分類により好適であり短期的分類のための短期的特徴として使われるのにより好適な構成を有していてもよい。たとえば、フレーム・レベル分類器2014は、オーディオ・フレームのシーケンスの各フレームを、次のフレーム・レベルのオーディオ型のうちの少なくとも一つに分類するよう構成されていてもよい:有声、無声および休止。
第一部と同様に、上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。
第一部と同様に、上記の実施形態におけるオーディオ分類器を記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。
第六部では、少なくとも部分的にはコンテンツ型分類の結果に基づいてオーディオ信号をオーディオ・コンテキスト型に分類するための新規なオーディオ分類器が提案されている。第六部で論じた実施形態において、長期的特徴は、数秒ないし数十秒の長さの長期的セグメントから抽出される。よって、オーディオ・コンテキスト分類は長いレイテンシーを引き起こしうる。オーディオ・コンテキストがリアルタイムでまたはほぼリアルタイムでたとえば短期的セグメント・レベルにおいて分類されうることが望まれる。
したがって、図34に示されるように、オーディオ信号の短期的セグメントのコンテンツ型を同定するためのオーディオ・コンテンツ分類器202Aと、少なくとも部分的には前記オーディオ・コンテンツ分類器によって識別されたコンテンツ型に基づいて短期的セグメントのコンテキスト型を識別するオーディオ・コンテキスト分類器204Aとを有するオーディオ分類器200Aが提供される。
本願のこの側面は、短い判断レイテンシーのために現在の短期的セグメントを分類することを要求されるVoIP/非VoIP分類システムにおいて特に有用である。
急速な揺動〔ゆらぎ〕を避けるために、もう一つの解決策は、オーディオ・コンテンツ分類器によって決定される信頼値を平滑化することである。したがって、図37に示されるように、型平滑化ユニット203Aがオーディオ分類器200Aに含まれてもよい。先に論じた四つのVoIP関係のコンテンツ型のそれぞれの信頼値について、1.3節で論じた平滑化方式が採用されてもよい。
ここで、v(t)は時刻tにおける平滑化されたVoIP発話信頼値であり、v(t−1)は最後の時点における平滑化されたVoIP発話信頼値であり、voipSpeechConfは平滑化前の現在時刻tにおけるVoIP発話信頼度であり、αは重み付け係数である。
第一部と同様に、上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。
第一部と同様に、上記の実施形態におけるオーディオ分類器を記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。
〔態様1〕
リアルタイムでオーディオ信号のコンテンツ型を識別するためのオーディオ・コンテンツ分類器と;
識別されたコンテンツ型に基づいて連続的な仕方でボリューム平準化器を調整する調整ユニットとを有するボリューム平準化器コントローラであって、
前記調整ユニットは、前記ボリューム平準化器の動的な利得を、前記オーディオ信号の情報性のコンテンツ型と正に相関させ、前記ボリューム平準化器の動的な利得を、前記オーディオ信号の干渉性のコンテンツ型と負に相関させるよう構成されている、
ボリューム平準化器コントローラ。
〔態様2〕
前記オーディオ信号の前記コンテンツ型が、発話、短期的音楽、ノイズおよび背景音のうちの一つを含む、態様1記載のボリューム平準化器コントローラ。
〔態様3〕
ノイズが干渉性のコンテンツ型と見なされる、態様1記載のボリューム平準化器コントローラ。
〔態様4〕
前記調整ユニットが、前記コンテンツ型の信頼値に基づいて前記ボリューム平準化器の動的な利得を調整するよう構成されている、態様1記載のボリューム平準化器コントローラ。
〔態様5〕
前記調整ユニットが、前記コンテンツ型の信頼値の伝達関数を介して前記動的な利得を調整するよう構成されている、態様4記載のボリューム平準化器コントローラ。
〔態様6〕
前記オーディオ・コンテンツ分類器が前記オーディオ信号を、対応する信頼値をもつ複数のコンテンツ型に分類するよう構成されており、前記調整ユニットが、前記複数のコンテンツ型の重要性に基づいて前記複数のコンテンツ型の前記信頼値を重み付けすることを通じて前記複数のオーディオ型の少なくともいくつかを考慮するよう構成されている、態様1記載のボリューム平準化器コントローラ。
〔態様7〕
前記オーディオ・コンテンツ分類器が前記オーディオ信号を、対応する信頼値をもつ複数のコンテンツ型に分類するよう構成されており、前記調整ユニットが、あるコンテンツ型の重みを少なくとも一つの他のコンテンツ型の信頼値を用いて修正するよう構成されている、態様1記載のボリューム平準化器コントローラ。
〔態様8〕
前記オーディオ・コンテンツ分類器が前記オーディオ信号を、対応する信頼値をもつ複数のコンテンツ型に分類するよう構成されており、前記調整ユニットが、前記信頼値に基づいて前記複数のコンテンツ型の効果を重み付けすることを通じて前記複数のオーディオ型の少なくともいくつかを考慮するよう構成されている、態様1記載のボリューム平準化器コントローラ。
〔態様9〕
前記調整ユニットが、前記信頼値に基づいて少なくとも一つの優勢なコンテンツ型を考慮するよう構成されている、態様8記載のボリューム平準化器コントローラ。
〔態様10〕
前記オーディオ・コンテンツ分類器が前記オーディオ信号を、対応する信頼値をもつ複数の干渉性のコンテンツ型および/または複数の情報性のコンテンツ型に分類するよう構成されており、前記調整ユニットが、前記信頼値に基づいて少なくとも一つの優勢な干渉性のコンテンツ型および/または少なくとも一つの優勢な情報性のコンテンツ型を考慮するよう構成されている、態様1記載のボリューム平準化器コントローラ。
〔態様11〕
各コンテンツ型について、前記オーディオ信号の過去の信頼値に基づいて現在の時点での前記オーディオ信号の信頼値を平滑化するための型平滑化ユニットをさらに有する、態様1ないし10のうちいずれか一項記載のボリューム平準化器コントローラ。
〔態様12〕
前記型平滑化ユニットは、現在の実際の信頼値と最後の時点での平滑化された信頼値との重み付けされた和を計算することによって、現時点での前記オーディオ信号の平滑化された信頼値を決定するよう構成されている、態様11記載のボリューム平準化器コントローラ。
〔態様13〕
前記オーディオ信号のコンテキスト型を識別するオーディオ・コンテキスト分類器をさらに有しており、前記調整ユニットは、前記コンテキスト型の信頼値に基づいて前記動的な利得の範囲を調整するよう構成されている、態様1ないし10のうちいずれか一項記載のボリューム平準化器コントローラ。
〔態様14〕
前記オーディオ信号のコンテキスト型を識別するオーディオ・コンテキスト分類器をさらに有しており、前記調整ユニットは、前記オーディオ信号の前記コンテキスト型に基づいて前記オーディオ信号の前記コンテンツ型を情報性または干渉性と見なすよう構成されている、態様1ないし10のうちいずれか一項記載のボリューム平準化器コントローラ。
〔態様15〕
前記オーディオ信号の前記コンテキスト型が、VoIP、映画的メディア、長期的音楽およびゲームのうちの一つを含む、態様14記載のボリューム平準化器コントローラ。
〔態様16〕
コンテキスト型VoIPのオーディオ信号においては、背景音が干渉性コンテンツ型と見なされ、一方、コンテキスト型非VoIPのオーディオ信号においては、背景音および/または発話および/または音楽が情報性コンテンツ型と見なされる、態様14記載のボリューム平準化器コントローラ。
〔態様17〕
前記オーディオ信号の前記コンテキスト型が高品質オーディオまたは低品質オーディオを含む、態様14記載のボリューム平準化器コントローラ。
〔態様18〕
異なるコンテキスト型のオーディオ信号におけるコンテンツ型が、前記オーディオ信号のコンテキスト型に依存して異なる重みを割り当てられる、態様14記載のボリューム平準化器コントローラ。
〔態様19〕
前記オーディオ・コンテキスト分類器が前記オーディオ信号を、対応する信頼値をもつ複数のコンテキスト型に分類するよう構成されており、前記調整ユニットが、前記複数のコンテキスト型の重要性に基づいて前記複数のコンテキスト型の前記信頼値を重み付けすることを通じて前記複数のコンテキスト型の少なくともいくつかを考慮するよう構成されている、態様14記載のボリューム平準化器コントローラ。
〔態様20〕
前記オーディオ・コンテキスト分類器が前記オーディオ信号を、対応する信頼値をもつ複数のコンテキスト型に分類するよう構成されており、前記調整ユニットが、前記信頼値に基づいて前記複数のコンテキスト型の効果を重み付けすることを通じて前記複数のコンテキスト型の少なくともいくつかを考慮するよう構成されている、態様14記載のボリューム平準化器コントローラ。
〔態様21〕
前記オーディオ・コンテンツ分類器が前記オーディオ信号の短期的セグメントに基づいて前記コンテンツ型を識別するよう構成されており、
前記オーディオ・コンテキスト分類器が少なくとも部分的には前記オーディオ・コンテンツ分類器によって識別されたコンテンツ型に基づく前記オーディオ信号の短期的セグメントに基づいて前記コンテキスト型を識別するよう構成されている、態様14記載のボリューム平準化器コントローラ。
〔態様22〕
前記オーディオ・コンテンツ分類器が、短期的セグメントをコンテンツ型VoIP発話またはコンテンツ型非VoIP発話に分類するVoIP発話分類器を有しており、
前記オーディオ・コンテキスト分類器は、VoIP発話および非VoIP発話の信頼値に基づいて、前記短期的セグメントをコンテキスト型VoIPまたはコンテキスト型非VoIPに分類するよう構成されている、態様21記載のボリューム平準化器コントローラ。
〔態様23〕
前記オーディオ・コンテンツ分類器がさらに、
短期的セグメントをVoIPノイズのコンテンツ型および非VoIPノイズのコンテンツ型に分類するVoIPノイズ分類器を有しており、
前記オーディオ・コンテキスト分類器は、VoIP発話、非VoIP発話、VoIPノイズおよび非VoIPノイズの信頼値に基づいて、前記短期的セグメントをコンテキスト型VoIPまたはコンテキスト型非VoIPに分類するよう構成されている、
態様22記載のボリューム平準化器コントローラ。
〔態様24〕
前記オーディオ・コンテキスト分類器が:
VoIP発話の信頼値が第一の閾値より大きい場合、前記短期的セグメントをコンテキスト型VoIPとして分類し;VoIP発話の信頼値が、前記第一の閾値より大きくない第二の閾値より大きくない場合、前記短期的セグメントをコンテキスト型非VoIPとして分類し;それ以外の場合には、前記短期的セグメントを最後の短期的セグメントについてのコンテキスト型として分類するよう構成されている、態様22記載のボリューム平準化器コントローラ。
〔態様25〕
前記オーディオ・コンテキスト分類器が:
VoIP発話の信頼値が第一の閾値より大きい場合またはVoIPノイズの信頼値が第三の閾値より大きい場合、前記短期的セグメントをコンテキスト型VoIPとして分類し;VoIP発話の信頼値が、前記第一の閾値より大きくない第二の閾値より大きくない場合またはVoIPノイズの信頼値が前記第三の閾値より大きくない第四の閾値より大きくない場合、前記短期的セグメントをコンテキスト型非VoIPとして分類し;それ以外の場合には前記短期的セグメントを最後の短期的セグメントについてのコンテキスト型として分類するよう構成されている、態様23記載のボリューム平準化器コントローラ。
〔態様26〕
前記コンテンツ型の過去の信頼値に基づいて現在の時点での前記コンテンツ型の信頼値を平滑化するための型平滑化ユニットをさらに有する、態様21ないし25のうちいずれか一項記載のボリューム平準化器コントローラ。
〔態様27〕
前記型平滑化ユニットは、現在の短期的セグメントの信頼値と最後の短期的セグメントの平滑化された信頼値との重み付けされた和を計算することによって、現在の短期的セグメントの平滑化された信頼値を決定するよう構成されている、態様26記載のボリューム平準化器コントローラ。
〔態様28〕
前記オーディオ・コンテンツ分類器が前記短期的セグメントの発話のコンテンツ型を識別する発話/ノイズ分類器をさらに有しており、前記型平滑化ユニットは、平滑化前の現在の短期的セグメントについてのVoIP発話の信頼値を、所定の信頼値として、あるいは前記発話/ノイズ分類器によって分類されるコンテンツ型発話についての信頼値が第五の閾値より低い最後の短期的セグメントの平滑化された信頼値として、設定するよう構成されている、態様26記載のボリューム平準化器コントローラ。
〔態様29〕
前記オーディオ・コンテキスト分類器が、特徴として、前記短期的セグメントのコンテンツ型の信頼値および前記短期的セグメントから抽出された他の特徴を使って、機械学習モデルに基づいて前記短期的セグメントを分類するよう構成されている、態様22または23記載のボリューム平準化器コントローラ。
〔態様30〕
前記オーディオ・コンテキスト分類器が同じコンテキスト型を連続的に出力する継続時間を測定するタイマーをさらに有しており、前記調整ユニットは、新しいコンテキスト型の継続時間の長さが第六の閾値に達するまで、現在のコンテキスト型を使い続けるよう構成される、態様14ないし29のうちいずれか一項記載のボリューム平準化器コントローラ。
〔態様31〕
あるコンテキスト型から別のコンテキスト型への異なる遷移対について、異なる第六の閾値が設定される、態様30記載のボリューム平準化器コントローラ。
〔態様32〕
前記第六の閾値が、前記新しいコンテキスト型の信頼値と負に相関している、態様30記載のボリューム平準化器コントローラ。
〔態様33〕
前記第一および/または第二の閾値が、最後の短期的セグメントのコンテキスト型によって異なる、態様24または25記載のボリューム平準化器コントローラ。
〔態様34〕
態様1ないし33のうちいずれか一項記載のボリューム平準化器コントローラを有するオーディオ処理装置。
〔態様35〕
オーディオ信号の短期的セグメントのコンテンツ型を識別するオーディオ・コンテンツ分類器と;
少なくとも部分的には前記オーディオ・コンテンツ分類器によって識別されたコンテンツ型に基づいて前記短期的セグメントのコンテキスト型を識別するオーディオ・コンテキスト分類器とを有する、
オーディオ分類器。
〔態様36〕
前記オーディオ・コンテンツ分類器が、前記短期的セグメントをコンテンツ型VoIP発話またはコンテンツ型非VoIP発話に分類するVoIP発話分類器を有しており、
前記オーディオ・コンテキスト分類器は、VoIP発話および非VoIP発話の信頼値に基づいて、前記短期的セグメントをコンテキスト型VoIPまたはコンテキスト型非VoIPに分類するよう構成されている、
態様35記載のオーディオ分類器。
〔態様37〕
前記オーディオ・コンテンツ分類器がさらに、
前記短期的セグメントをコンテンツ型VoIPノイズおよびコンテンツ型非VoIPノイズに分類するVoIPノイズ分類器を有しており、
前記オーディオ・コンテキスト分類器は、VoIP発話、非VoIP発話、VoIPノイズおよび非VoIPノイズの信頼値に基づいて、前記短期的セグメントをコンテキスト型VoIPまたはコンテキスト型非VoIPに分類するよう構成されている、
態様36記載のオーディオ分類器。
〔態様38〕
前記オーディオ・コンテキスト分類器が:
VoIP発話の信頼値が第一の閾値より大きい場合、前記短期的セグメントをコンテキスト型VoIPとして分類し;VoIP発話の信頼値が、前記第一の閾値より大きくない第二の閾値より大きくない場合、前記短期的セグメントをコンテキスト型非VoIPとして分類し;それ以外の場合には、前記短期的セグメントを最後の短期的セグメントについてのコンテキスト型として分類するよう構成されている、態様37記載のオーディオ分類器。
〔態様39〕
前記オーディオ・コンテキスト分類器が:
VoIP発話の信頼値が第一の閾値より大きい場合またはVoIPノイズの信頼値が第三の閾値より大きい場合、前記短期的セグメントをコンテキスト型VoIPとして分類し;VoIP発話の信頼値が、前記第一の閾値より大きくない第二の閾値より大きくない場合またはVoIPノイズの信頼値が前記第三の閾値より大きくない第四の閾値より大きくない場合、前記短期的セグメントをコンテキスト型非VoIPとして分類し;それ以外の場合には前記短期的セグメントを最後の短期的セグメントについてのコンテキスト型として分類するよう構成されている、
態様37記載のオーディオ分類器。
〔態様40〕
前記コンテンツ型の過去の信頼値に基づいて現在の時点での前記コンテンツ型の信頼値を平滑化するための型平滑化ユニットをさらに有する、態様35ないし39のうちいずれか一項記載のオーディオ分類器。
〔態様41〕
前記型平滑化ユニットは、現在の短期的セグメントの信頼値と最後の短期的セグメントの平滑化された信頼値との重み付けされた和を計算することによって、現在の短期的セグメントの平滑化された信頼値を決定するよう構成されている、態様40記載のオーディオ分類器。
〔態様42〕
前記オーディオ・コンテンツ分類器が前記短期的セグメントからコンテンツ型発話を識別する発話/ノイズ分類器をさらに有しており、前記型平滑化ユニットは、平滑化前の現在の短期的セグメントについてのVoIP発話の信頼値を、所定の信頼値として、あるいは前記発話/ノイズ分類器によって分類されるコンテンツ型発話についての信頼値が第五の閾値より低い最後の短期的セグメントの平滑化された信頼値として、設定するよう構成されている、態様41記載のオーディオ分類器。
〔態様43〕
前記オーディオ・コンテキスト分類器が、特徴として、前記短期的セグメントのコンテンツ型の信頼値および前記短期的セグメントから抽出された他の特徴を使って、機械学習モデルに基づいて前記短期的セグメントを分類するよう構成されている、態様36または37記載のオーディオ分類器。
〔態様44〕
前記オーディオ・コンテキスト分類器が同じコンテキスト型を連続的に出力する継続時間を測定するタイマーをさらに有しており、当該オーディオ分類器は、新しいコンテキスト型の継続時間の長さが第六の閾値に達するまで、現在のコンテキスト型を出力し続けるよう構成される、態様38または39記載のオーディオ分類器。
〔態様45〕
あるコンテキスト型から別のコンテキスト型への異なる遷移対について、異なる第六の閾値が設定される、態様44記載のオーディオ分類器。
〔態様46〕
前記第六の閾値が、前記新しいコンテキスト型の信頼値と負に相関している、態様44記載のオーディオ分類器。
〔態様47〕
前記第一および/または第二の閾値が、最後の短期的セグメントのコンテキスト型によって異なる、態様38または39記載のオーディオ分類器。
〔態様48〕
態様35ないし47のうちいずれか一項記載のオーディオ分類器を有するオーディオ処理装置。
〔態様49〕
リアルタイムでオーディオ信号のコンテンツ型を識別する段階と;
識別されたコンテンツ型に基づいて連続的な仕方でボリューム平準化器を調整することを、前記ボリューム平準化器の動的な利得を、前記オーディオ信号の情報性のコンテンツ型と正に相関させ、前記ボリューム平準化器の動的な利得を、前記オーディオ信号の干渉性のコンテンツ型と負に相関させることによって行なう段階とを含む、
ボリューム平準化器制御方法。
〔態様50〕
前記オーディオ信号の前記コンテンツ型が、発話、短期的音楽、ノイズおよび背景音のうちの一つを含む、態様49記載のボリューム平準化器制御方法。
〔態様51〕
ノイズが干渉性のコンテンツ型と見なされる、態様49記載のボリューム平準化器制御方法。
〔態様52〕
前記調整する動作が、前記コンテンツ型の信頼値に基づいて前記ボリューム平準化器の動的な利得を調整するよう構成されている、態様49記載のボリューム平準化器制御方法。
〔態様53〕
前記調整する動作が、前記コンテンツ型の信頼値の伝達関数を介して前記動的な利得を調整するよう構成されている、態様52記載のボリューム平準化器制御方法。
〔態様54〕
前記オーディオ信号が、対応する信頼値をもつ複数のコンテンツ型に分類され、前記調整する動作が、前記複数のコンテンツ型の重要性に基づいて前記複数のコンテンツ型の前記信頼値を重み付けすることを通じて前記複数のオーディオ型の少なくともいくつかを考慮するよう構成されている、態様49記載のボリューム平準化器制御方法。
〔態様55〕
前記オーディオ信号が、対応する信頼値をもつ複数のコンテンツ型に分類され、前記調整する動作が、あるコンテンツ型の重みを少なくとも一つの他のコンテンツ型の信頼値を用いて修正するよう構成されている、態様49記載のボリューム平準化器制御方法。
〔態様56〕
前記オーディオ信号が、対応する信頼値をもつ複数のコンテンツ型に分類され、前記調整する動作が、前記信頼値に基づいて前記複数のコンテンツ型の効果を重み付けすることを通じて前記複数のコンテンツ型の少なくともいくつかを考慮するよう構成されている、態様49記載のボリューム平準化器制御方法。
〔態様57〕
前記調整する動作が、前記信頼値に基づいて少なくとも一つの優勢なコンテンツ型を考慮するよう構成されている、態様56記載のボリューム平準化器制御方法。
〔態様58〕
前記オーディオ信号が、対応する信頼値をもつ複数の干渉性のコンテンツ型および/または複数の情報性のコンテンツ型に分類され、前記調整する動作が、前記信頼値に基づいて少なくとも一つの優勢な干渉性のコンテンツ型および/または少なくとも一つの優勢な情報性のコンテンツ型を考慮するよう構成されている、態様56記載のボリューム平準化器制御方法。
〔態様59〕
各コンテンツ型について、前記オーディオ信号の過去の信頼値に基づいて現在の時点での前記オーディオ信号の信頼値を平滑化する段階をさらに含む、態様49ないし58のうちいずれか一項記載のボリューム平準化器制御方法。
〔態様60〕
前記の型平滑化の動作は、現在の実際の信頼値と最後の時点での平滑化された信頼値との重み付けされた和を計算することによって、現時点での前記オーディオ信号の平滑化された信頼値を決定するよう構成されている、態様59記載のボリューム平準化器制御方法。
〔態様61〕
前記オーディオ信号のコンテキスト型を識別する段階をさらに含み、前記調整する動作は、前記コンテキスト型の信頼値に基づいて前記動的な利得の範囲を調整するよう構成されている、態様49ないし58のうちいずれか一項記載のボリューム平準化器制御方法。
〔態様62〕
前記オーディオ信号のコンテキスト型を識別する段階をさらに含み、前記調整する動作は、前記オーディオ信号の前記コンテキスト型に基づいて前記オーディオ信号の前記コンテンツ型を情報性または干渉性と見なすよう構成されている、態様49ないし58のうちいずれか一項記載のボリューム平準化器制御方法。
〔態様63〕
前記オーディオ信号の前記コンテキスト型が、VoIP、映画的メディア、長期的音楽およびゲームのうちの一つを含む、態様62記載のボリューム平準化器制御方法。
〔態様64〕
コンテキスト型VoIPのオーディオ信号においては、背景音が干渉性コンテンツ型と見なされ、一方、コンテキスト型非VoIPのオーディオ信号においては、背景音および/または発話および/または音楽が情報性コンテンツ型と見なされる、態様62記載のボリューム平準化器制御方法。
〔態様65〕
前記オーディオ信号の前記コンテキスト型が高品質オーディオまたは低品質オーディオを含む、態様62記載のボリューム平準化器制御方法。
〔態様66〕
異なるコンテキスト型のオーディオ信号におけるコンテンツ型が、前記オーディオ信号のコンテキスト型に依存して異なる重みを割り当てられる、態様62記載のボリューム平準化器制御方法。
〔態様67〕
前記オーディオ信号が、対応する信頼値をもつ複数のコンテキスト型に分類され、前記調整する動作が、前記複数のコンテキスト型の重要性に基づいて前記複数のコンテキスト型の前記信頼値を重み付けすることを通じて前記複数のコンテキスト型の少なくともいくつかを考慮するよう構成されている、態様62記載のボリューム平準化器制御方法。
〔態様68〕
前記オーディオ信号が、対応する信頼値をもつ複数のコンテキスト型に分類され、前記調整する動作が、前記信頼値に基づいて前記複数のコンテキスト型の効果を重み付けすることを通じて前記複数のコンテキスト型の少なくともいくつかを考慮するよう構成されている、態様62記載のボリューム平準化器制御方法。
〔態様69〕
前記コンテンツ型を識別する動作が、前記オーディオ信号の短期的セグメントに基づいて前記コンテンツ型を識別するよう構成されており、
前記コンテキスト型を識別する動作が、少なくとも部分的には識別されたコンテンツ型に基づく前記オーディオ信号の短期的セグメントに基づいて前記コンテキスト型を識別するよう構成されている、
態様62記載のボリューム平準化器制御方法。
〔態様70〕
コンテンツ型を識別する動作が、短期的セグメントをコンテンツ型VoIP発話またはコンテンツ型非VoIP発話に分類することを含み、
コンテキスト型を識別する動作が、VoIP発話および非VoIP発話の信頼値に基づいて、前記短期的セグメントをコンテキスト型VoIPまたはコンテキスト型非VoIPに分類するよう構成されている、態様69記載のボリューム平準化器制御方法。
〔態様71〕
コンテンツ型を識別する動作がさらに、
短期的セグメントをコンテンツ型VoIPノイズおよびコンテンツ型非VoIPノイズに分類することを含み、
コンテキスト型を識別する動作は、VoIP発話、非VoIP発話、VoIPノイズおよび非VoIPノイズの信頼値に基づいて、前記短期的セグメントをコンテキスト型VoIPまたはコンテキスト型非VoIPに分類するよう構成されている、
態様70記載のボリューム平準化器制御方法。
〔態様72〕
コンテキスト型を識別する動作が:
VoIP発話の信頼値が第一の閾値より大きい場合、前記短期的セグメントをコンテキスト型VoIPとして分類し;
VoIP発話の信頼値が、前記第一の閾値より大きくない第二の閾値より大きくない場合、前記短期的セグメントをコンテキスト型非VoIPとして分類し;
それ以外の場合には、前記短期的セグメントを最後の短期的セグメントについてのコンテキスト型として分類するよう構成されている、
態様70記載のボリューム平準化器制御方法。
〔態様73〕
コンテキストを識別する動作が:
VoIP発話の信頼値が第一の閾値より大きい場合またはVoIPノイズの信頼値が第三の閾値より大きい場合、前記短期的セグメントをコンテキスト型VoIPとして分類し;
VoIP発話の信頼値が、前記第一の閾値より大きくない第二の閾値より大きくない場合またはVoIPノイズの信頼値が前記第三の閾値より大きくない第四の閾値より大きくない場合、前記短期的セグメントをコンテキスト型非VoIPとして分類し;
それ以外の場合には前記短期的セグメントを最後の短期的セグメントについてのコンテキスト型として分類するよう構成されている、態様71記載のボリューム平準化器制御方法。
〔態様74〕
前記コンテンツ型の過去の信頼値に基づいて現在の時点での前記コンテンツ型の信頼値を平滑化する段階をさらに含む、態様69ないし73のうちいずれか一項記載のボリューム平準化器制御方法。
〔態様75〕
前記の型平滑化の動作は、現在の短期的セグメントの信頼値と最後の短期的セグメントの平滑化された信頼値との重み付けされた和を計算することによって、現在の短期的セグメントの平滑化された信頼値を決定するよう構成されている、態様74記載のボリューム平準化器制御方法。
〔態様76〕
前記短期的セグメントの発話のコンテンツ型を識別する段階をさらに含み、平滑化前の現在の短期的セグメントについてのVoIP発話の信頼値が、所定の信頼値として、あるいはコンテンツ型発話についての信頼値が第五の閾値より低い最後の短期的セグメントの平滑化された信頼値として、設定される、態様75記載のボリューム平準化器制御方法。
〔態様77〕
特徴として、前記短期的セグメントのコンテンツ型の信頼値および前記短期的セグメントから抽出された他の特徴を使って、機械学習モデルに基づいて、前記短期的セグメントが分類される、態様70または71記載のボリューム平準化器制御方法。
〔態様78〕
コンテキスト型を識別する動作が同じコンテキスト型を連続的に出力する継続時間を測定することをさらに含み、前記調整する動作は、新しいコンテキスト型の継続時間の長さが第六の閾値に達するまで、現在のコンテキスト型を使い続けるよう構成される、態様62ないし77のうちいずれか一項記載のボリューム平準化器制御方法。
〔態様79〕
あるコンテキスト型から別のコンテキスト型への異なる遷移対について、異なる第六の閾値が設定される、態様78記載のボリューム平準化器制御方法。
〔態様80〕
前記第六の閾値が、前記新しいコンテキスト型の信頼値と負に相関している、態様78記載のボリューム平準化器制御方法。
〔態様81〕
前記第一および/または第二の閾値が、最後の短期的セグメントのコンテキスト型によって異なる、態様72または73記載のボリューム平準化器制御方法。
〔態様82〕
オーディオ信号の短期的セグメントのコンテンツ型を識別する段階と;
少なくとも部分的には識別されたコンテンツ型に基づいて前記短期的セグメントのコンテキスト型を識別する段階とを含む、
オーディオ分類方法。
〔態様83〕
コンテンツ型を分類する動作が、前記短期的セグメントをコンテンツ型VoIP発話またはコンテンツ型非VoIP発話に分類することを含み、
コンテキスト型を識別する動作が、VoIP発話および非VoIP発話の信頼値に基づいて、前記短期的セグメントをコンテキスト型VoIPまたはコンテキスト型非VoIPに分類するよう構成されている、
態様82記載のオーディオ分類方法。
〔態様84〕
コンテンツ型を分類する動作がさらに、
前記短期的セグメントをコンテンツ型VoIPノイズまたはコンテンツ型非VoIPノイズに分類することを含み、
コンテキスト型を識別する動作が、VoIP発話、非VoIP発話、VoIPノイズおよび非VoIPノイズの信頼値に基づいて、前記短期的セグメントをコンテキスト型VoIPまたはコンテキスト型非VoIPに分類するよう構成されている、
態様83記載のオーディオ分類方法。
〔態様85〕
コンテキスト型を識別する動作が:
VoIP発話の信頼値が第一の閾値より大きい場合、前記短期的セグメントをコンテキスト型VoIPとして分類し;
VoIP発話の信頼値が、前記第一の閾値より大きくない第二の閾値より大きくない場合、前記短期的セグメントをコンテキスト型非VoIPとして分類し;
それ以外の場合には、前記短期的セグメントを最後の短期的セグメントについてのコンテキスト型として分類するよう構成されている、
態様83記載のオーディオ分類方法。
〔態様86〕
コンテキスト型を識別する動作が:
VoIP発話の信頼値が第一の閾値より大きい場合またはVoIPノイズの信頼値が第三の閾値より大きい場合、前記短期的セグメントをコンテキスト型VoIPとして分類し;
VoIP発話の信頼値が、前記第一の閾値より大きくない第二の閾値より大きくない場合またはVoIPノイズの信頼値が前記第三の閾値より大きくない第四の閾値より大きくない場合、前記短期的セグメントをコンテキスト型非VoIPとして分類し;
それ以外の場合には前記短期的セグメントを最後の短期的セグメントについてのコンテキスト型として分類するよう構成されている、
態様84記載のオーディオ分類方法。
〔態様87〕
前記コンテンツ型の過去の信頼値に基づいて現在の時点での前記コンテンツ型の信頼値を平滑化する段階をさらに含む、態様82ないし86のうちいずれか一項記載のオーディオ分類方法。
〔態様88〕
前記の型平滑化の動作は、現在の短期的セグメントの信頼値と最後の短期的セグメントの平滑化された信頼値との重み付けされた和を計算することによって、現在の短期的セグメントの平滑化された信頼値を決定するよう構成されている、態様87記載のオーディオ分類方法。
〔態様89〕
前記短期的セグメントからコンテンツ型発話を識別する段階をさらに含み、平滑化前の現在の短期的セグメントについてのVoIP発話の信頼値が、所定の信頼値として、あるいはコンテンツ型発話についての信頼値が第五の閾値より低い最後の短期的セグメントの平滑化された信頼値として、設定される、態様88記載のオーディオ分類方法。
〔態様90〕
コンテキスト型を識別する動作が、特徴として、前記短期的セグメントのコンテンツ型の信頼値および前記短期的セグメントから抽出された他の特徴を使って、機械学習モデルに基づいて前記短期的セグメントを分類するよう構成されている、態様83または84記載のオーディオ分類方法。
〔態様91〕
コンテキスト型を識別する動作が同じコンテキスト型を連続的に出力する継続時間を測定する段階をさらに含み、当該オーディオ分類方法は、新しいコンテキスト型の継続時間の長さが第六の閾値に達するまで、現在のコンテキスト型を出力し続けるよう構成される、態様85または86記載のオーディオ分類方法。
〔態様92〕
あるコンテキスト型から別のコンテキスト型への異なる遷移対について、異なる第六の閾値が設定される、態様91記載のオーディオ分類方法。
〔態様93〕
前記第六の閾値が、前記新しいコンテキスト型の信頼値と負に相関している、態様91記載のオーディオ分類方法。
〔態様94〕
前記第一および/または第二の閾値が、最後の短期的セグメントのコンテキスト型によって異なる、態様85または86記載のオーディオ分類方法。
〔態様95〕
プロセッサによって実行されると該プロセッサがボリューム平準化器制御方法を実行できるようにするコンピュータ・プログラム命令が記録されたコンピュータ可読媒体であって、前記ボリューム平準化器制御方法は、
リアルタイムでオーディオ信号のコンテンツ型を識別する段階と;
識別されたコンテンツ型に基づいて連続的な仕方でボリューム平準化器を調整することを、前記ボリューム平準化器の動的な利得を、前記オーディオ信号の情報性のコンテンツ型と正に相関させ、前記ボリューム平準化器の動的な利得を、前記オーディオ信号の干渉性のコンテンツ型と負に相関させることによって行なう段階とを含む、
コンピュータ可読媒体。
〔態様96〕
プロセッサによって実行されると該プロセッサがオーディオ分類方法を実行できるようにするコンピュータ・プログラム命令が記録されたコンピュータ可読媒体であって、前記オーディオ分類方法は、
オーディオ信号の短期的セグメントのコンテンツ型を識別する段階と;
少なくとも部分的には識別されたコンテンツ型に基づいて前記短期的セグメントのコンテキスト型を識別する段階とを含む、
コンピュータ可読媒体。
Claims (9)
- 目標ラウドネス値に基づくラウドネス正規化方法であって、当該方法は:
オーディオ信号のオーディオ・フレームに適用される動的利得パラメータを、前記オーディオ信号の短期的特徴または長期的特徴に基づいて決定する段階であって、該決定することは、第一のオーディオ・フレームについての一つまたは複数の動的利得パラメータを前記オーディオ信号の短期的特徴および前記目標ラウドネス値に基づいて決定し、第二のオーディオ・フレームについての一つまたは複数の動的利得パラメータを前記オーディオ信号の長期的特徴および前記目標ラウドネス値に基づいて決定することを含む、段階と;
前記第一のオーディオ・フレームについての前記一つまたは複数の動的利得パラメータを用いることによって、前記第一のオーディオ・フレームのラウドネスを修正する段階と;
前記第二のオーディオ・フレームについての前記一つまたは複数の動的利得パラメータを用いることによって、前記第二のオーディオ・フレームのラウドネスを修正する段階とを含み、
再生時の前記オーディオ信号のラウドネスは諸オーディオ・フレームにわたって前記目標ラウドネス値と整合する、
ラウドネス正規化方法。 - 前記動的利得パラメータはリアルタイムで同定され、適用される、請求項1記載のラウドネス正規化方法。
- 音色バランスに関して一つまたは複数の再生レベルに対する効果をもつラウドネス等化が適用される、請求項1記載のラウドネス正規化方法。
- 前記動的利得パラメータにパラメータ平滑化が適用される、請求項1記載のラウドネス正規化方法。
- 目標ラウドネス値に基づいてラウドネスを正規化するよう構成されたオーディオ処理装置であって:
少なくとも一つのプロセッサと;
コンピュータ・プログラムを記憶している少なくとも一つのメモリとを有しており;
前記コンピュータ・プログラムをもつ前記少なくとも一つのメモリは、前記少なくとも一つのプロセッサとともに、当該オーディオ処理装置に、少なくとも:
オーディオ信号のオーディオ・フレームに適用される動的利得パラメータを、前記オーディオ信号の短期的特徴または長期的特徴に基づいて決定する段階であって、該決定することは、第一のオーディオ・フレームについての一つまたは複数の動的利得パラメータを前記オーディオ信号の短期的特徴および前記目標ラウドネス値に基づいて決定し、第二のオーディオ・フレームについての一つまたは複数の動的利得パラメータを前記オーディオ信号の長期的特徴および前記目標ラウドネス値に基づいて決定することを含む、段階と;
前記第一のオーディオ・フレームについての前記一つまたは複数の動的利得パラメータを用いることによって、前記第一のオーディオ・フレームのラウドネスを修正する段階と;
前記第二のオーディオ・フレームについての前記一つまたは複数の動的利得パラメータを用いることによって、前記第二のオーディオ・フレームのラウドネスを修正する段階とを実行させるように構成されており、
再生時の前記オーディオ信号のラウドネスは諸オーディオ・フレームにわたって前記目標ラウドネス値と整合する、
装置。 - 前記動的利得パラメータはリアルタイムで同定され、適用される、請求項6記載の装置。
- 音色バランスに関して一つまたは複数の再生レベルに対する効果をもつラウドネス等化が適用される、請求項5記載の装置。
- 前記動的利得パラメータにパラメータ平滑化が適用される、請求項5記載の装置。
- 動作を実行させるために機械によって実行可能な命令のプログラムを有体に具現している、機械によって読み取り可能なプログラム記憶デバイスであって、前記動作は:
オーディオ信号のオーディオ・フレームに適用される動的利得パラメータを、前記オーディオ信号の短期的特徴または長期的特徴に基づいて決定する段階であって、該決定することは、第一のオーディオ・フレームについての一つまたは複数の動的利得パラメータを前記オーディオ信号の短期的特徴および前記目標ラウドネス値に基づいて決定し、第二のオーディオ・フレームについての一つまたは複数の動的利得パラメータを前記オーディオ信号の長期的特徴および前記目標ラウドネス値に基づいて決定することを含む、段階と;
前記第一のオーディオ・フレームについての前記一つまたは複数の動的利得パラメータを用いることによって、前記第一のオーディオ・フレームのラウドネスを修正する段階と;
前記第二のオーディオ・フレームについての前記一つまたは複数の動的利得パラメータを用いることによって、前記第二のオーディオ・フレームのラウドネスを修正する段階とを含み、
再生時の前記オーディオ信号のラウドネスは諸オーディオ・フレームにわたって前記目標ラウドネス値と整合する、
プログラム記憶デバイス。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021095729A JP7150939B2 (ja) | 2013-03-26 | 2021-06-08 | ボリューム平準化器コントローラおよび制御方法 |
JP2022155488A JP7566835B2 (ja) | 2013-03-26 | 2022-09-28 | ボリューム平準化器コントローラおよび制御方法 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310100422.1 | 2013-03-26 | ||
CN201310100422.1A CN104080024B (zh) | 2013-03-26 | 2013-03-26 | 音量校平器控制器和控制方法以及音频分类器 |
US201361811072P | 2013-04-11 | 2013-04-11 | |
US61/811,072 | 2013-04-11 | ||
JP2019013058A JP6801023B2 (ja) | 2013-03-26 | 2019-01-29 | ボリューム平準化器コントローラおよび制御方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019013058A Division JP6801023B2 (ja) | 2013-03-26 | 2019-01-29 | ボリューム平準化器コントローラおよび制御方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021095729A Division JP7150939B2 (ja) | 2013-03-26 | 2021-06-08 | ボリューム平準化器コントローラおよび制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021029054A JP2021029054A (ja) | 2021-02-25 |
JP6896135B2 true JP6896135B2 (ja) | 2021-06-30 |
Family
ID=51601031
Family Applications (6)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016505487A Active JP6046307B2 (ja) | 2013-03-26 | 2014-03-17 | ボリューム平準化器コントローラおよび制御方法 |
JP2016145567A Active JP6521913B2 (ja) | 2013-03-26 | 2016-07-25 | ボリューム平準化器コントローラおよび制御方法 |
JP2019013058A Active JP6801023B2 (ja) | 2013-03-26 | 2019-01-29 | ボリューム平準化器コントローラおよび制御方法 |
JP2020194995A Active JP6896135B2 (ja) | 2013-03-26 | 2020-11-25 | ボリューム平準化器コントローラおよび制御方法 |
JP2021095729A Active JP7150939B2 (ja) | 2013-03-26 | 2021-06-08 | ボリューム平準化器コントローラおよび制御方法 |
JP2022155488A Active JP7566835B2 (ja) | 2013-03-26 | 2022-09-28 | ボリューム平準化器コントローラおよび制御方法 |
Family Applications Before (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016505487A Active JP6046307B2 (ja) | 2013-03-26 | 2014-03-17 | ボリューム平準化器コントローラおよび制御方法 |
JP2016145567A Active JP6521913B2 (ja) | 2013-03-26 | 2016-07-25 | ボリューム平準化器コントローラおよび制御方法 |
JP2019013058A Active JP6801023B2 (ja) | 2013-03-26 | 2019-01-29 | ボリューム平準化器コントローラおよび制御方法 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021095729A Active JP7150939B2 (ja) | 2013-03-26 | 2021-06-08 | ボリューム平準化器コントローラおよび制御方法 |
JP2022155488A Active JP7566835B2 (ja) | 2013-03-26 | 2022-09-28 | ボリューム平準化器コントローラおよび制御方法 |
Country Status (9)
Country | Link |
---|---|
US (7) | US9548713B2 (ja) |
EP (4) | EP2979358B1 (ja) |
JP (6) | JP6046307B2 (ja) |
KR (8) | KR20240031440A (ja) |
CN (2) | CN107093991B (ja) |
BR (3) | BR112015024037B1 (ja) |
ES (1) | ES2624190T3 (ja) |
RU (3) | RU2612728C1 (ja) |
WO (1) | WO2014160542A2 (ja) |
Families Citing this family (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9578436B2 (en) * | 2014-02-20 | 2017-02-21 | Bose Corporation | Content-aware audio modes |
DE202014101373U1 (de) * | 2014-03-25 | 2015-06-29 | Bernhard Schwede | Entzerrer zur Entzerrung eines Tongemischs und Audioanlage mit einem solchen Entzerrer |
US10163453B2 (en) * | 2014-10-24 | 2018-12-25 | Staton Techiya, Llc | Robust voice activity detector system for use with an earphone |
US10671234B2 (en) * | 2015-06-24 | 2020-06-02 | Spotify Ab | Method and an electronic device for performing playback of streamed media including related media content |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
US9590580B1 (en) * | 2015-09-13 | 2017-03-07 | Guoguang Electric Company Limited | Loudness-based audio-signal compensation |
US10341770B2 (en) * | 2015-09-30 | 2019-07-02 | Apple Inc. | Encoded audio metadata-based loudness equalization and dynamic equalization during DRC |
US10306392B2 (en) | 2015-11-03 | 2019-05-28 | Dolby Laboratories Licensing Corporation | Content-adaptive surround sound virtualization |
CN106658340B (zh) * | 2015-11-03 | 2020-09-04 | 杜比实验室特许公司 | 内容自适应的环绕声虚拟化 |
US9859858B2 (en) | 2016-01-19 | 2018-01-02 | Apple Inc. | Correction of unknown audio content |
US10142731B2 (en) | 2016-03-30 | 2018-11-27 | Dolby Laboratories Licensing Corporation | Dynamic suppression of non-linear distortion |
US9928025B2 (en) * | 2016-06-01 | 2018-03-27 | Ford Global Technologies, Llc | Dynamically equalizing receiver |
US10699538B2 (en) * | 2016-07-27 | 2020-06-30 | Neosensory, Inc. | Method and system for determining and providing sensory experiences |
EP3509549A4 (en) | 2016-09-06 | 2020-04-01 | Neosensory, Inc. | METHOD AND SYSTEM FOR PROVIDING ADDITIONAL SENSORY INFORMATION TO A USER |
US10321250B2 (en) | 2016-12-16 | 2019-06-11 | Hyundai Motor Company | Apparatus and method for controlling sound in vehicle |
WO2018144367A1 (en) | 2017-02-03 | 2018-08-09 | iZotope, Inc. | Audio control system and related methods |
US9973163B1 (en) | 2017-02-23 | 2018-05-15 | The Directv Group, Inc. | Context sensitive presentation of media content |
WO2018155480A1 (ja) * | 2017-02-27 | 2018-08-30 | ヤマハ株式会社 | 情報処理方法および情報処理装置 |
US9948256B1 (en) * | 2017-03-27 | 2018-04-17 | International Business Machines Corporation | Speaker volume preference learning |
US9860644B1 (en) | 2017-04-05 | 2018-01-02 | Sonos, Inc. | Limiter for bass enhancement |
EP3389183A1 (en) * | 2017-04-13 | 2018-10-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for processing an input audio signal and corresponding method |
US10744058B2 (en) | 2017-04-20 | 2020-08-18 | Neosensory, Inc. | Method and system for providing information to a user |
GB2563296B (en) | 2017-06-06 | 2022-01-12 | Cirrus Logic Int Semiconductor Ltd | Systems, apparatus and methods for dynamic range enhancement of audio signals |
US10503467B2 (en) * | 2017-07-13 | 2019-12-10 | International Business Machines Corporation | User interface sound emanation activity classification |
KR102409376B1 (ko) | 2017-08-09 | 2022-06-15 | 삼성전자주식회사 | 디스플레이 장치 및 그 제어 방법 |
EP3625969A1 (en) * | 2017-09-12 | 2020-03-25 | Rovi Guides, Inc. | Systems and methods for determining whether to adjust volumes of individual audio components in a media asset based on a type of a segment of the media asset |
KR101986905B1 (ko) * | 2017-10-31 | 2019-06-07 | 전자부품연구원 | 신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템 |
KR101899538B1 (ko) * | 2017-11-13 | 2018-09-19 | 주식회사 씨케이머티리얼즈랩 | 햅틱 제어 신호 제공 장치 및 방법 |
KR102429556B1 (ko) * | 2017-12-05 | 2022-08-04 | 삼성전자주식회사 | 디스플레이 장치 및 음향 출력 방법 |
KR101958664B1 (ko) | 2017-12-11 | 2019-03-18 | (주)휴맥스 | 멀티미디어 콘텐츠 재생 시스템에서 다양한 오디오 환경을 제공하기 위한 장치 및 방법 |
KR102579672B1 (ko) * | 2017-12-11 | 2023-09-15 | 엘지디스플레이 주식회사 | 투명 표시 장치 |
KR102722619B1 (ko) * | 2018-01-07 | 2024-10-29 | 그레이스노트, 인코포레이티드 | 볼륨 조절을 위한 방법 및 장치 |
JP6812381B2 (ja) * | 2018-02-08 | 2021-01-13 | 日本電信電話株式会社 | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム |
CN108418961B (zh) * | 2018-02-13 | 2021-07-30 | 维沃移动通信有限公司 | 一种音频播放方法和移动终端 |
EP3534596B1 (en) * | 2018-03-02 | 2022-10-26 | Nokia Technologies Oy | An apparatus and associated methods for telecommunications |
US10466959B1 (en) * | 2018-03-20 | 2019-11-05 | Amazon Technologies, Inc. | Automatic volume leveler |
KR102346669B1 (ko) * | 2018-04-27 | 2022-01-04 | 가우디오랩 주식회사 | 라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치 |
JP2019205114A (ja) * | 2018-05-25 | 2019-11-28 | ヤマハ株式会社 | データ処理装置、及びデータ処理方法。 |
CN108804665B (zh) * | 2018-06-08 | 2022-09-27 | 上海掌门科技有限公司 | 用于推送信息、接收信息的方法和设备 |
KR101947317B1 (ko) | 2018-06-08 | 2019-02-12 | 현대자동차주식회사 | 차량 내 사운드 제어장치 및 방법 |
WO2020051544A1 (en) * | 2018-09-07 | 2020-03-12 | Gracenote, Inc. | Methods and apparatus for dynamic volume adjustment via audio classification |
CN109068171B (zh) * | 2018-09-25 | 2020-10-23 | 四川长虹电器股份有限公司 | 智能电视中限制指定音频流音量的方法 |
CN109121067B (zh) * | 2018-10-19 | 2020-06-09 | 北京声加科技有限公司 | 多声道响度均衡方法和设备 |
CN109274345B (zh) * | 2018-11-14 | 2023-11-03 | 上海艾为电子技术股份有限公司 | 一种信号处理方法、装置和系统 |
CN113168839B (zh) * | 2018-12-13 | 2024-01-23 | 杜比实验室特许公司 | 双端媒体智能 |
US10902864B2 (en) * | 2018-12-27 | 2021-01-26 | Microsoft Technology Licensing, Llc | Mixed-reality audio intelligibility control |
KR102643514B1 (ko) * | 2019-01-03 | 2024-03-06 | 현대자동차주식회사 | 자동차 및 자동차의 오디오 처리 방법 |
DE102019100551B3 (de) | 2019-01-10 | 2020-07-16 | Kronoton Gmbh | Vorrichtung mit einem Eingang und mit einem Ausgang und mit einem Effektgerät mit lautstärkeregulierten Audiosignalen einer Audiodatei |
US11354604B2 (en) | 2019-01-31 | 2022-06-07 | At&T Intellectual Property I, L.P. | Venue seat assignment based upon hearing profiles |
CN109947385A (zh) * | 2019-03-08 | 2019-06-28 | 广东小天才科技有限公司 | 动态调音方法、装置、可穿戴设备和存储介质 |
CN113748461A (zh) | 2019-04-18 | 2021-12-03 | 杜比实验室特许公司 | 对话检测器 |
CN110231087B (zh) * | 2019-06-06 | 2021-07-23 | 江苏省广播电视集团有限公司 | 一种高清电视音频响度分析报警及归一化制作方法和设备 |
US11019301B2 (en) | 2019-06-25 | 2021-05-25 | The Nielsen Company (Us), Llc | Methods and apparatus to perform an automated gain control protocol with an amplifier based on historical data corresponding to contextual data |
WO2021062276A1 (en) | 2019-09-25 | 2021-04-01 | Neosensory, Inc. | System and method for haptic stimulation |
US11467668B2 (en) | 2019-10-21 | 2022-10-11 | Neosensory, Inc. | System and method for representing virtual object information with haptic stimulation |
KR20210072384A (ko) | 2019-12-09 | 2021-06-17 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11079854B2 (en) | 2020-01-07 | 2021-08-03 | Neosensory, Inc. | Method and system for haptic stimulation |
US11070183B1 (en) | 2020-03-31 | 2021-07-20 | Cirrus Logic, Inc. | Systems, apparatus and methods for dynamic range enhancement of audio signals |
EP4128223A1 (en) * | 2020-04-02 | 2023-02-08 | Dolby Laboratories Licensing Corp. | Systems and methods for enhancing audio in varied environments |
US20240038258A1 (en) | 2020-08-18 | 2024-02-01 | Dolby Laboratories Licensing Corporation | Audio content identification |
JP7505830B2 (ja) * | 2020-10-22 | 2024-06-25 | ガウディオ・ラボ・インコーポレイテッド | 機械学習モデルを用いて複数の信号成分を含むオーディオ信号処理装置 |
US11497675B2 (en) | 2020-10-23 | 2022-11-15 | Neosensory, Inc. | Method and system for multimodal stimulation |
CN113409803B (zh) * | 2020-11-06 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、存储介质及设备 |
US20220165289A1 (en) * | 2020-11-23 | 2022-05-26 | Cyber Resonance Corporation | Methods and systems for processing recorded audio content to enhance speech |
US11862147B2 (en) | 2021-08-13 | 2024-01-02 | Neosensory, Inc. | Method and system for enhancing the intelligibility of information for a user |
US11995240B2 (en) | 2021-11-16 | 2024-05-28 | Neosensory, Inc. | Method and system for conveying digital texture information to a user |
US11948599B2 (en) * | 2022-01-06 | 2024-04-02 | Microsoft Technology Licensing, Llc | Audio event detection with window-based prediction |
WO2023150756A1 (en) * | 2022-02-07 | 2023-08-10 | Dolby Laboratories Licensing Corporation | Control of a volume leveling unit using two-stage noise classifier |
US20240029755A1 (en) * | 2022-07-19 | 2024-01-25 | Bose Corporation | Intelligent speech or dialogue enhancement |
Family Cites Families (128)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4785418A (en) * | 1986-08-29 | 1988-11-15 | International Business Machines Corporation | Proportional automatic gain control |
DE69214882T2 (de) * | 1991-06-06 | 1997-03-20 | Matsushita Electric Ind Co Ltd | Gerät zur Unterscheidung von Musik und Sprache |
JPH08250944A (ja) * | 1995-03-13 | 1996-09-27 | Nippon Telegr & Teleph Corp <Ntt> | 自動音量制御方法およびこの方法を実施する装置 |
JP2926679B2 (ja) * | 1995-10-12 | 1999-07-28 | 三菱電機株式会社 | 車載音響装置 |
US5785418A (en) * | 1996-06-27 | 1998-07-28 | Hochstein; Peter A. | Thermally protected LED array |
JPH1117472A (ja) | 1997-06-20 | 1999-01-22 | Fujitsu General Ltd | 音声装置 |
JPH11232787A (ja) * | 1998-02-13 | 1999-08-27 | Sony Corp | オーディオシステム |
US6782361B1 (en) | 1999-06-18 | 2004-08-24 | Mcgill University | Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system |
US7266501B2 (en) * | 2000-03-02 | 2007-09-04 | Akiba Electronics Institute Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
US20020157116A1 (en) * | 2000-07-28 | 2002-10-24 | Koninklijke Philips Electronics N.V. | Context and content based information processing for multimedia segmentation and indexing |
JP2002215195A (ja) * | 2000-11-06 | 2002-07-31 | Matsushita Electric Ind Co Ltd | 音楽信号処理装置 |
GB2373975B (en) | 2001-03-30 | 2005-04-13 | Sony Uk Ltd | Digital audio signal processing |
JP2004014083A (ja) * | 2002-06-11 | 2004-01-15 | Yamaha Corp | ディジタル楽音データ再生装置における楽音特性調整装置および調整方法 |
FR2842014B1 (fr) | 2002-07-08 | 2006-05-05 | Lyon Ecole Centrale | Procede et appareil pour affecter une classe sonore a un signal sonore |
US7072477B1 (en) * | 2002-07-09 | 2006-07-04 | Apple Computer, Inc. | Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file |
US7454331B2 (en) * | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
WO2004095315A1 (en) | 2003-04-24 | 2004-11-04 | Koninklijke Philips Electronics N.V. | Parameterized temporal feature analysis |
US8073684B2 (en) * | 2003-04-25 | 2011-12-06 | Texas Instruments Incorporated | Apparatus and method for automatic classification/identification of similar compressed audio files |
US7487094B1 (en) | 2003-06-20 | 2009-02-03 | Utopy, Inc. | System and method of call classification with context modeling based on composite words |
EP1531478A1 (en) * | 2003-11-12 | 2005-05-18 | Sony International (Europe) GmbH | Apparatus and method for classifying an audio signal |
DK1695591T3 (en) | 2003-11-24 | 2016-08-22 | Widex As | Hearing aid and a method for noise reduction |
GB2409087A (en) * | 2003-12-12 | 2005-06-15 | Ibm | Computer generated prompting |
JP4013906B2 (ja) * | 2004-02-16 | 2007-11-28 | ヤマハ株式会社 | 音量制御装置 |
JP4260046B2 (ja) * | 2004-03-03 | 2009-04-30 | アルパイン株式会社 | 音声明瞭度改善装置及び音声明瞭度改善方法 |
GB2413745A (en) | 2004-04-30 | 2005-11-02 | Axeon Ltd | Classifying audio content by musical style/genre and generating an identification signal accordingly to adjust parameters of an audio system |
JP2006019770A (ja) | 2004-05-31 | 2006-01-19 | Toshiba Corp | 放送受信装置及び放送受信方法、音声再生装置及び音声再生方法 |
EP1763923A1 (en) * | 2004-06-30 | 2007-03-21 | Koninklijke Philips Electronics N.V. | Method of and system for automatically adjusting the loudness of an audio signal |
US7617109B2 (en) * | 2004-07-01 | 2009-11-10 | Dolby Laboratories Licensing Corporation | Method for correcting metadata affecting the playback loudness and dynamic range of audio information |
AU2005299410B2 (en) * | 2004-10-26 | 2011-04-07 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US8199933B2 (en) | 2004-10-26 | 2012-06-12 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US20060106472A1 (en) * | 2004-11-16 | 2006-05-18 | Romesburg Eric D | Method and apparatus for normalizing sound recording loudness |
JP4275055B2 (ja) | 2004-11-22 | 2009-06-10 | シャープ株式会社 | 音質調整装置、放送受信機、プログラム、及び記録媒体 |
WO2006056910A1 (en) | 2004-11-23 | 2006-06-01 | Koninklijke Philips Electronics N.V. | A device and a method to process audio data, a computer program element and computer-readable medium |
US7729673B2 (en) | 2004-12-30 | 2010-06-01 | Sony Ericsson Mobile Communications Ab | Method and apparatus for multichannel signal limiting |
EP1849154B1 (en) * | 2005-01-27 | 2010-12-15 | Synchro Arts Limited | Methods and apparatus for use in sound modification |
WO2006132596A1 (en) | 2005-06-07 | 2006-12-14 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for audio clip classification |
US7464029B2 (en) * | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
US20070044137A1 (en) * | 2005-08-22 | 2007-02-22 | Bennett James D | Audio-video systems supporting merged audio streams |
CN1964187B (zh) | 2005-11-11 | 2011-09-28 | 鸿富锦精密工业(深圳)有限公司 | 音量管理系统、方法及装置 |
US20070121966A1 (en) * | 2005-11-30 | 2007-05-31 | Microsoft Corporation | Volume normalization device |
JP2007208407A (ja) | 2006-01-31 | 2007-08-16 | Toshiba Corp | 情報処理装置、およびそのサウンド制御方法 |
US8108563B2 (en) * | 2006-02-24 | 2012-01-31 | Qualcomm Incorporated | Auxiliary writes over address channel |
CU23572A1 (es) | 2006-03-31 | 2010-09-30 | Ct Ingenieria Genetica Biotech | Composición farmacéutica que comprende la proteína nmb0938 |
EP2002429B1 (en) * | 2006-04-04 | 2012-11-21 | Dolby Laboratories Licensing Corporation | Controlling a perceived loudness characteristic of an audio signal |
MY141426A (en) | 2006-04-27 | 2010-04-30 | Dolby Lab Licensing Corp | Audio gain control using specific-loudness-based auditory event detection |
US20070266402A1 (en) * | 2006-05-09 | 2007-11-15 | Pawlak Andrzej M | System, method, and article of manufacture for automatically selecting media content for an entity |
US20080025530A1 (en) | 2006-07-26 | 2008-01-31 | Sony Ericsson Mobile Communications Ab | Method and apparatus for normalizing sound playback loudness |
WO2008058842A1 (en) * | 2006-11-16 | 2008-05-22 | International Business Machines Corporation | Voice activity detection system and method |
CN101569092A (zh) * | 2006-12-21 | 2009-10-28 | 皇家飞利浦电子股份有限公司 | 用于处理音频数据的系统 |
KR20080060641A (ko) * | 2006-12-27 | 2008-07-02 | 삼성전자주식회사 | 오디오 신호의 후처리 방법 및 그 장치 |
US8195454B2 (en) * | 2007-02-26 | 2012-06-05 | Dolby Laboratories Licensing Corporation | Speech enhancement in entertainment audio |
JP4582117B2 (ja) | 2007-06-06 | 2010-11-17 | ヤマハ株式会社 | 音量制御装置 |
BRPI0813723B1 (pt) | 2007-07-13 | 2020-02-04 | Dolby Laboratories Licensing Corp | método para controlar o nível de intensidade do som de eventos auditivos, memória legível por computador não transitória, sistema de computador e aparelho |
JP2010537233A (ja) * | 2007-08-16 | 2010-12-02 | ディーティーエス・インコーポレイテッド | 圧縮デジタルテレビの音声処理 |
JP5062055B2 (ja) * | 2007-08-31 | 2012-10-31 | 株式会社Jvcケンウッド | 音声信号処理装置及び方法 |
CN101399039B (zh) | 2007-09-30 | 2011-05-11 | 华为技术有限公司 | 一种确定非噪声音频信号类别的方法及装置 |
US20090253457A1 (en) | 2008-04-04 | 2009-10-08 | Apple Inc. | Audio signal processing for certification enhancement in a handheld wireless communications device |
US20090290725A1 (en) * | 2008-05-22 | 2009-11-26 | Apple Inc. | Automatic equalizer adjustment setting for playback of media assets |
US8315396B2 (en) | 2008-07-17 | 2012-11-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio output signals using object based metadata |
JP5273688B2 (ja) * | 2008-09-19 | 2013-08-28 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 小型セル無線ネットワーク内のクライアントデバイスのための上流の信号処理 |
US9817829B2 (en) * | 2008-10-28 | 2017-11-14 | Adobe Systems Incorporated | Systems and methods for prioritizing textual metadata |
JP2010135906A (ja) | 2008-12-02 | 2010-06-17 | Sony Corp | クリップ防止装置及びクリップ防止方法 |
JP2010136236A (ja) * | 2008-12-08 | 2010-06-17 | Panasonic Corp | オーディオ信号処理装置、オーディオ信号処理方法およびプログラム |
JP5270006B2 (ja) | 2008-12-24 | 2013-08-21 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 周波数領域におけるオーディオ信号ラウドネス決定と修正 |
KR20110112856A (ko) | 2009-02-20 | 2011-10-13 | 비덱스 에이/에스 | 보청기를 위한 음향 메시지 녹음 시스템 |
FR2943875A1 (fr) | 2009-03-31 | 2010-10-01 | France Telecom | Procede et dispositif de classification du bruit de fond contenu dans un signal audio. |
KR101616054B1 (ko) * | 2009-04-17 | 2016-04-28 | 삼성전자주식회사 | 음성 검출 장치 및 방법 |
WO2010127024A1 (en) * | 2009-04-30 | 2010-11-04 | Dolby Laboratories Licensing Corporation | Controlling the loudness of an audio signal in response to spectral localization |
WO2010138311A1 (en) * | 2009-05-26 | 2010-12-02 | Dolby Laboratories Licensing Corporation | Equalization profiles for dynamic equalization of audio data |
WO2010138309A1 (en) * | 2009-05-26 | 2010-12-02 | Dolby Laboratories Licensing Corporation | Audio signal dynamic equalization processing control |
US8245249B2 (en) * | 2009-10-09 | 2012-08-14 | The Nielson Company (Us), Llc | Methods and apparatus to adjust signature matching results for audience measurement |
US8437480B2 (en) * | 2009-12-17 | 2013-05-07 | Stmicroelectronics Asia Pacific Pte Ltd. | Adaptive loudness levelling for digital audio signals |
US20110218798A1 (en) * | 2010-03-05 | 2011-09-08 | Nexdia Inc. | Obfuscating sensitive content in audio sources |
TWI525987B (zh) * | 2010-03-10 | 2016-03-11 | 杜比實驗室特許公司 | 在單一播放模式中組合響度量測的系統 |
EP2367286B1 (en) * | 2010-03-12 | 2013-02-20 | Harman Becker Automotive Systems GmbH | Automatic correction of loudness level in audio signals |
PL2381574T3 (pl) | 2010-04-22 | 2015-05-29 | Fraunhofer Ges Forschung | Urządzenie i sposób do modyfikacji wejściowego sygnału audio |
US9998081B2 (en) * | 2010-05-12 | 2018-06-12 | Nokia Technologies Oy | Method and apparatus for processing an audio signal based on an estimated loudness |
US8457321B2 (en) * | 2010-06-10 | 2013-06-04 | Nxp B.V. | Adaptive audio output |
US20110313762A1 (en) | 2010-06-20 | 2011-12-22 | International Business Machines Corporation | Speech output with confidence indication |
CN101930732B (zh) | 2010-06-29 | 2013-11-06 | 中兴通讯股份有限公司 | 基于用户输入语音的乐曲生成方法及装置、智能终端 |
JP5903758B2 (ja) | 2010-09-08 | 2016-04-13 | ソニー株式会社 | 信号処理装置および方法、プログラム、並びにデータ記録媒体 |
JP2012070024A (ja) * | 2010-09-21 | 2012-04-05 | Mitsubishi Electric Corp | 音声ダイナミックレンジコントロール装置 |
US8521541B2 (en) * | 2010-11-02 | 2013-08-27 | Google Inc. | Adaptive audio transcoding |
TWI581250B (zh) | 2010-12-03 | 2017-05-01 | 杜比實驗室特許公司 | 利用多媒體處理節點之適應性處理技術 |
US8989884B2 (en) | 2011-01-11 | 2015-03-24 | Apple Inc. | Automatic audio configuration based on an audio output device |
US9143571B2 (en) * | 2011-03-04 | 2015-09-22 | Qualcomm Incorporated | Method and apparatus for identifying mobile devices in similar sound environment |
US9620131B2 (en) * | 2011-04-08 | 2017-04-11 | Evertz Microsystems Ltd. | Systems and methods for adjusting audio levels in a plurality of audio signals |
JP2012235310A (ja) | 2011-04-28 | 2012-11-29 | Sony Corp | 信号処理装置および方法、プログラム、並びにデータ記録媒体 |
US9135929B2 (en) * | 2011-04-28 | 2015-09-15 | Dolby International Ab | Efficient content classification and loudness estimation |
JP5702666B2 (ja) * | 2011-05-16 | 2015-04-15 | 富士通テン株式会社 | 音響装置および音量補正方法 |
JP5085769B1 (ja) * | 2011-06-24 | 2012-11-28 | 株式会社東芝 | 音響制御装置、音響補正装置、及び音響補正方法 |
WO2013023344A1 (en) * | 2011-08-12 | 2013-02-21 | Motorola Mobility, Inc. | Methods and apparatuses for media property or characteristic control in a media system |
US8965774B2 (en) | 2011-08-23 | 2015-02-24 | Apple Inc. | Automatic detection of audio compression parameters |
JP5845760B2 (ja) | 2011-09-15 | 2016-01-20 | ソニー株式会社 | 音声処理装置および方法、並びにプログラム |
JP2013102411A (ja) | 2011-10-14 | 2013-05-23 | Sony Corp | 音声信号処理装置、および音声信号処理方法、並びにプログラム |
JP5908112B2 (ja) | 2011-12-15 | 2016-04-26 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | クリッピングアーチファクトを回避する装置、方法及びコンピュータプログラム |
TWI517142B (zh) | 2012-07-02 | 2016-01-11 | Sony Corp | Audio decoding apparatus and method, audio coding apparatus and method, and program |
US9685921B2 (en) * | 2012-07-12 | 2017-06-20 | Dts, Inc. | Loudness control with noise detection and loudness drop detection |
US9991861B2 (en) * | 2012-08-10 | 2018-06-05 | Bellevue Investments Gmbh & Co. Kgaa | System and method for controlled dynamics adaptation for musical content |
WO2014046941A1 (en) * | 2012-09-19 | 2014-03-27 | Dolby Laboratories Licensing Corporation | Method and system for object-dependent adjustment of levels of audio objects |
US9460729B2 (en) * | 2012-09-21 | 2016-10-04 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
EP2757558A1 (en) | 2013-01-18 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time domain level adjustment for audio signal decoding or encoding |
WO2014113471A1 (en) * | 2013-01-21 | 2014-07-24 | Dolby Laboratories Licensing Corporation | System and method for optimizing loudness and dynamic range across different playback devices |
BR122022020284B1 (pt) | 2013-01-28 | 2023-02-28 | Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V | Método e aparelho para reprodução de áudio normalizado de mídia com e sem metadados de ruído integrado em novos dispositivos de mídia |
US9076459B2 (en) * | 2013-03-12 | 2015-07-07 | Intermec Ip, Corp. | Apparatus and method to classify sound to detect speech |
US9607624B2 (en) | 2013-03-29 | 2017-03-28 | Apple Inc. | Metadata driven dynamic range control |
US9559651B2 (en) | 2013-03-29 | 2017-01-31 | Apple Inc. | Metadata for loudness and dynamic range control |
JP2015050685A (ja) | 2013-09-03 | 2015-03-16 | ソニー株式会社 | オーディオ信号処理装置および方法、並びにプログラム |
US9875746B2 (en) | 2013-09-19 | 2018-01-23 | Sony Corporation | Encoding device and method, decoding device and method, and program |
US9300268B2 (en) | 2013-10-18 | 2016-03-29 | Apple Inc. | Content aware audio ducking |
RU2659490C2 (ru) | 2013-10-22 | 2018-07-02 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Концепция для объединенного сжатия динамического диапазона и управляемого предотвращения отсечения для аудиоустройств |
US9240763B2 (en) | 2013-11-25 | 2016-01-19 | Apple Inc. | Loudness normalization based on user feedback |
US9276544B2 (en) | 2013-12-10 | 2016-03-01 | Apple Inc. | Dynamic range control gain encoding |
CN105849801B (zh) | 2013-12-27 | 2020-02-14 | 索尼公司 | 解码设备和方法以及程序 |
US9608588B2 (en) | 2014-01-22 | 2017-03-28 | Apple Inc. | Dynamic range control with large look-ahead |
CN106165014B (zh) | 2014-03-25 | 2020-01-24 | 弗朗霍夫应用科学研究促进协会 | 音频编码器装置、音频解码器装置、及其操作方法 |
US9654076B2 (en) | 2014-03-25 | 2017-05-16 | Apple Inc. | Metadata for ducking control |
EP3522554B1 (en) | 2014-05-28 | 2020-12-02 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Data processor and transport of user control data to audio decoders and renderers |
CN106415711A (zh) | 2014-05-30 | 2017-02-15 | 索尼公司 | 信息处理装置和信息处理方法 |
KR102422493B1 (ko) | 2014-06-30 | 2022-07-20 | 소니그룹주식회사 | 정보 처리 장치 및 정보 처리 방법 |
TWI631835B (zh) | 2014-11-12 | 2018-08-01 | 弗勞恩霍夫爾協會 | 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器 |
US20160315722A1 (en) | 2015-04-22 | 2016-10-27 | Apple Inc. | Audio stem delivery and control |
US10109288B2 (en) | 2015-05-27 | 2018-10-23 | Apple Inc. | Dynamic range and peak control in audio using nonlinear filters |
RU2703973C2 (ru) | 2015-05-29 | 2019-10-22 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ регулировки уровня громкости |
AU2016279775A1 (en) | 2015-06-17 | 2018-01-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Loudness control for user interactivity in audio coding systems |
US9934790B2 (en) | 2015-07-31 | 2018-04-03 | Apple Inc. | Encoded audio metadata-based equalization |
US9837086B2 (en) | 2015-07-31 | 2017-12-05 | Apple Inc. | Encoded audio extended metadata-based dynamic range control |
US10341770B2 (en) | 2015-09-30 | 2019-07-02 | Apple Inc. | Encoded audio metadata-based loudness equalization and dynamic equalization during DRC |
-
2013
- 2013-03-26 CN CN201710146391.1A patent/CN107093991B/zh active Active
- 2013-03-26 CN CN201310100422.1A patent/CN104080024B/zh active Active
-
2014
- 2014-03-17 KR KR1020247006710A patent/KR20240031440A/ko active Application Filing
- 2014-03-17 KR KR1020167018333A patent/KR102084931B1/ko active Application Filing
- 2014-03-17 RU RU2015140903A patent/RU2612728C1/ru active
- 2014-03-17 EP EP14722047.9A patent/EP2979358B1/en active Active
- 2014-03-17 KR KR1020217008206A patent/KR102332891B1/ko active IP Right Grant
- 2014-03-17 KR KR1020227041347A patent/KR102643200B1/ko active Application Filing
- 2014-03-17 US US14/777,271 patent/US9548713B2/en active Active
- 2014-03-17 WO PCT/US2014/030385 patent/WO2014160542A2/en active Application Filing
- 2014-03-17 EP EP17153694.9A patent/EP3190702B1/en active Active
- 2014-03-17 KR KR1020217038455A patent/KR102473263B1/ko active IP Right Grant
- 2014-03-17 KR KR1020157026604A patent/KR101726208B1/ko active IP Right Grant
- 2014-03-17 RU RU2016119382A patent/RU2715029C2/ru active
- 2014-03-17 BR BR112015024037-2A patent/BR112015024037B1/pt active IP Right Grant
- 2014-03-17 EP EP22169664.4A patent/EP4080763A1/en active Pending
- 2014-03-17 RU RU2017106034A patent/RU2746343C2/ru active
- 2014-03-17 BR BR122020006972-4A patent/BR122020006972B1/pt active IP Right Grant
- 2014-03-17 KR KR1020207005674A patent/KR102232453B1/ko active IP Right Grant
- 2014-03-17 JP JP2016505487A patent/JP6046307B2/ja active Active
- 2014-03-17 ES ES14722047.9T patent/ES2624190T3/es active Active
- 2014-03-17 EP EP17160747.6A patent/EP3217545B1/en active Active
- 2014-03-17 KR KR1020177006856A patent/KR102074135B1/ko active IP Right Grant
- 2014-03-17 BR BR122016013680-9A patent/BR122016013680B1/pt active IP Right Grant
-
2016
- 2016-07-25 JP JP2016145567A patent/JP6521913B2/ja active Active
- 2016-10-04 US US15/284,953 patent/US9923536B2/en active Active
-
2017
- 2017-02-14 US US15/432,679 patent/US10411669B2/en active Active
-
2019
- 2019-01-29 JP JP2019013058A patent/JP6801023B2/ja active Active
- 2019-07-12 US US16/509,791 patent/US10707824B2/en active Active
-
2020
- 2020-07-02 US US16/920,254 patent/US11218126B2/en active Active
- 2020-11-25 JP JP2020194995A patent/JP6896135B2/ja active Active
-
2021
- 2021-06-08 JP JP2021095729A patent/JP7150939B2/ja active Active
- 2021-12-20 US US17/556,722 patent/US11711062B2/en active Active
-
2022
- 2022-09-28 JP JP2022155488A patent/JP7566835B2/ja active Active
-
2023
- 2023-07-20 US US18/356,044 patent/US20240039499A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6896135B2 (ja) | ボリューム平準化器コントローラおよび制御方法 | |
JP6921907B2 (ja) | オーディオ分類および処理のための装置および方法 | |
JP6325640B2 (ja) | 等化器コントローラおよび制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201201 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20201201 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210415 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210511 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210608 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6896135 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |