JP2008129250A - Aacのためのウィンドウ切り替え方法およびm/s符号化の帯域決定方法 - Google Patents
Aacのためのウィンドウ切り替え方法およびm/s符号化の帯域決定方法 Download PDFInfo
- Publication number
- JP2008129250A JP2008129250A JP2006312942A JP2006312942A JP2008129250A JP 2008129250 A JP2008129250 A JP 2008129250A JP 2006312942 A JP2006312942 A JP 2006312942A JP 2006312942 A JP2006312942 A JP 2006312942A JP 2008129250 A JP2008129250 A JP 2008129250A
- Authority
- JP
- Japan
- Prior art keywords
- window
- short
- band
- signal
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 230000005236 sound signal Effects 0.000 claims abstract description 48
- 230000000873 masking effect Effects 0.000 claims description 48
- 230000001052 transient effect Effects 0.000 claims description 42
- 230000007704 transition Effects 0.000 claims description 25
- 230000014509 gene expression Effects 0.000 claims description 14
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000013139 quantization Methods 0.000 abstract description 29
- 230000006835 compression Effects 0.000 abstract description 8
- 238000007906 compression Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 17
- 238000010168 coupling process Methods 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 12
- 230000008878 coupling Effects 0.000 description 11
- 238000005859 coupling reaction Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000009792 diffusion process Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000000844 transformation Methods 0.000 description 4
- 238000007493 shaping process Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【課題】量子化誤差を低減させるオーディオ圧縮方法およびAACのためのM/S符号化の帯域状態の決定方法を提供する。
【解決手段】本発明は、オーディオ信号の第1の範囲のグローバルエネルギー比率を決定し、グローバルエネルギー比率を第1の閾値と比較する方法を提供する。本発明はさらにACCのためのM/S符号化の帯域状態の決定方法を提供し、その方法は、帯域の大部分を含む少なくとも1つのオーディオストリームを受信するステップと、左信号、右信号、ミドル信号、およびサイド信号を含む各帯域の第1のノードおよび第2のノードを計算するステップと、各隣の帯域の最小コストパス値を計算するステップと、状態がL/R状態またはM/S状態であろう最小コストパス値に基づいて各帯域の状態を決定するステップとを含む。
【選択図】図25
【解決手段】本発明は、オーディオ信号の第1の範囲のグローバルエネルギー比率を決定し、グローバルエネルギー比率を第1の閾値と比較する方法を提供する。本発明はさらにACCのためのM/S符号化の帯域状態の決定方法を提供し、その方法は、帯域の大部分を含む少なくとも1つのオーディオストリームを受信するステップと、左信号、右信号、ミドル信号、およびサイド信号を含む各帯域の第1のノードおよび第2のノードを計算するステップと、各隣の帯域の最小コストパス値を計算するステップと、状態がL/R状態またはM/S状態であろう最小コストパス値に基づいて各帯域の状態を決定するステップとを含む。
【選択図】図25
Description
本発明はオーディオ信号に関し、特に、圧縮エラーの低減およびデジタルオーディオ符号化のための帯域毎のM/S符号化の帯域状態の決定方法の改良に関する。
多くのデジタルオーディオシステムは、オーディオファイルサイズを少なくするために信号圧縮の技術に依存している。そのようなオーディオシステムでは一般的に未加工のオーディオ信号をサンプルウィンドウを使用してサンプリングする。
例えば、三分間の楽曲はそれぞれの長さが0.18秒のサンプルウィンドウを1000使用してサンプリングされる。通常ビット内で特定の長さを有するサンプルウィンドウのビット分解能は、符号化されたオーディオ信号の品質に大きな影響を及ぼす。例えば、0.18秒のサンプルウィンドウが128ビットを有する場合、それぞれのビットは0.0014秒の音楽に対応する。これらの数は実アプリケーションと一致しないかもしれない。明らかに、ウィンドウ毎のビット数が高ければ高いほどより品質の高い音楽が記憶されるが、ビットが大すぎる場合、圧縮という目的に反してしまう。圧縮およびサンプルウィンドウを使用する一般的なデジタルオーディオシステムはMP3(Motion Picture Expert Group Audio Layer-3)である。
例えば、三分間の楽曲はそれぞれの長さが0.18秒のサンプルウィンドウを1000使用してサンプリングされる。通常ビット内で特定の長さを有するサンプルウィンドウのビット分解能は、符号化されたオーディオ信号の品質に大きな影響を及ぼす。例えば、0.18秒のサンプルウィンドウが128ビットを有する場合、それぞれのビットは0.0014秒の音楽に対応する。これらの数は実アプリケーションと一致しないかもしれない。明らかに、ウィンドウ毎のビット数が高ければ高いほどより品質の高い音楽が記憶されるが、ビットが大すぎる場合、圧縮という目的に反してしまう。圧縮およびサンプルウィンドウを使用する一般的なデジタルオーディオシステムはMP3(Motion Picture Expert Group Audio Layer-3)である。
ウィンドウ切り替えの原理は時間ベースの音声信号を周波数データに符号化する装置であるフィルタバンクのウィンドウサイズの変更であり、好適な時間周波数分解能を達成する。一般的に、ウィンドウ切り替えは二つの所定のウィンドウサイズであるラージとスモールとの間の選択に関係する。プリエコーと呼ばれる圧縮による人工的または不快なノイズが過渡信号(例えば非常に短時間の音声)が符号化されているとき発生する。過渡信号は信号変換を時間内に正確に表現する高い符号化分解能が必要であるので、全てのビット不足は量子化誤差がウィンドウ期間全体に拡散することを許してしまう。
この問題を明らかに図示するために、図1は過渡音声を有する信号が符号化される例を示す。
図1において、符号化されるオリジナル信号100は小さい振幅範囲の後に続く高い振幅範囲の後に突然続く非常に小さな振幅範囲を有することが示されている。これは過渡信号ということがわかる。ロングウィンドウ120によってオリジナル信号100は符号化された後、符号化された信号110が得られる。量子化誤差の拡散は過渡高振幅の前の範囲130の符号化された信号110で見られる。オリジナル信号100のこの範囲には実質的に信号がないので、量子化誤差はより多くのドミナント信号によってマスクされない。一般的に、量子化誤差は一ウィンドウが実質的に異なる振幅を含む一エリアにかかる周波数領域符号化を使用するとき現われ、拡散する。周波数領域圧縮の結果として、ウィンドウ内のデータは特徴をシェアする傾向がある。符号化されたオーディオにおける量子化誤差はリスナーには不快である。
図1において、符号化されるオリジナル信号100は小さい振幅範囲の後に続く高い振幅範囲の後に突然続く非常に小さな振幅範囲を有することが示されている。これは過渡信号ということがわかる。ロングウィンドウ120によってオリジナル信号100は符号化された後、符号化された信号110が得られる。量子化誤差の拡散は過渡高振幅の前の範囲130の符号化された信号110で見られる。オリジナル信号100のこの範囲には実質的に信号がないので、量子化誤差はより多くのドミナント信号によってマスクされない。一般的に、量子化誤差は一ウィンドウが実質的に異なる振幅を含む一エリアにかかる周波数領域符号化を使用するとき現われ、拡散する。周波数領域圧縮の結果として、ウィンドウ内のデータは特徴をシェアする傾向がある。符号化されたオーディオにおける量子化誤差はリスナーには不快である。
量子化誤差を低減させる一方法は、異なる長さのウィンドウを使用することである。図1に示すように、量子化誤差の拡散はロングウィンドウ160がショートウィンドウ170との接続で使用されたとき、量子化された信号140の範囲150で低減される。ロングウィンドウの符号化された信号110と比較し、量子化誤差の拡散はショートウィンドウの量子化された信号のショートウィンドウ期間によって阻止される。
プレエコー現象の説明を行う。テンポラルマスキングは同時マスキング、プレマスキングおよびポストマスキングを含む。各マスキングのタイプの効果を図2に示す。プレマスキングおよびポストマスキングの効果的なマスカーの持続期間はそれぞれおよそ20msおよび100msである。過渡信号またはオーディオアタックが周波数領域へと符号化されたとき、量子化誤差は時間領域の信号ブロック全体へと拡散する。アタック前の信号部分は相対的に小さいので、アタックはそのエネルギーの大部分が信号ブロックへ最も寄与し、このようにマスキング閾値の生成を制御する。そのとき閾値はブロックの静寂範囲では高すぎる。一般のロングウィンドウサイズは2048サンプルであり、サンプルレートが44.1kHzのとき約46msを表現し、プレマスキングが20ms未満続くので、この過渡信号を符号化するのにロングウィンドウを使用したとき、量子化誤差の拡散はリスナーに容易に聞かれる。これはプレエコー現象と呼ばれる。
さらに、現在のオーディオ符号化にとって、M/S(ミドル信号/サイド信号)符号化はステレオチャンネルにおける不適切で冗長な情報を効果的に低減させる中心技術である。二つ以上のチャンネル数に対し、現在のMPEG2 AACおよびMPEG4 AAC標準で使用される方法はチャンネルをペアに分割し、それからM/S符号化をそれぞれのペアに用いる方法である。符号化利得がAACに存在するとき、M/S符号化の使用は選択的なスペクトル領域範囲に適用することができる。MPEG4 AAC符号化標準において、帯域毎のM/S符号化はチャンネルの不適切性および冗長性を低減させるのに更なる融通性を提供する。しかし、その融通性はエンコーダの設計寸法および複雑度を増加させる。
M/S符号化はL/R(左/右)信号をM/S信号へと変換するM/S変換モデルを含む拡大された聴覚オーディオ符号化である。図3は従来技術によるM/S変換での聴覚符号化を示すブロック図である。L/Rオーディオ信号は分析フィルタバンク10によって重複ブロックに分割され、周波数領域に変換される。仮に心理音響モデル20によって計算される符号化利得がある場合、M/S変換モデル15は周波数領域およびM/S信号への変換機のL/R信号を受信する。量子化/符号化モデル25はビット割り当て30によって決定されたいくつかのパラメータと共にこれらの信号の量子化および符号化をする信号を受信する。
心理音響モデル20はL/R信号内容を分析し、関連する人間の聴覚システムの聴覚分解能を計算する。聴覚分解能および使用可能なビットに基づいて、ビット割り当て30はビットレートに符合する好適な量子化方法を決定する。パッキングモデル35は規格により特定されたフォーマットで符号化された情報のすべてをパッキングする。帯域毎のM/S符号化に関する文献が存在する。
第1の文献はM/S信号のための心理音響モデル20に関するものである。心理音響モデル20は人間の聴覚システムをシミュレートし、量子化のための正しいマスキング閾値を与えようとする。LおよびRチャンネルに対する心理音響モデル20のマスキングモデルは標準においてすでに構築されている。しかし、MおよびSチャンネルに同じ手順を置くことは合理的ではない。その上、心理音響モデル20の複雑度はL/R符号化の15%以上のファクタに寄与している。心理音響モデル20からの追加的な複雑度はM/S符号化の費用の増加をもたらす。
第2の文献はそれぞれの帯域に基づいた信号の符号化の決定に関するものである。この決定はM/S符号化からL/R符号化への符号化利得の測定に関係する。帯域状態の切り替えは心理音響モデル20によって最大符号化利得を探し出すことを目的とする。全ての可能なケースを評価することによって最適の決定が探し出され、再構築信号を計算し、全てのケースから最小の歪を探し出す。オーディオ信号ファームは49の帯域を含むので、全ての可能なケースに対して命令O(2^49)の複雑度算定数値を有する。
M/S符号化は自由に使用され、もっとも代表的なAACエンコーダであるFAACは緻密なパラメータ調整がされたジョンストンの調査に基づいて改良された。図4は従来技術によるFAACにおけるM/S符号化の帯域状態を決定する過程を示すフローチャート図である。心理音響モデル20はM/S符号化のそれぞれの帯域状態を決定するL/R信号を受信し、下記のステップを含む。
ステップ1〜ステップ2:左信号および右信号を高速フーリエ変換(FFT:Fast Fourier Transform)によって左FFT(LFFT)信号および右FFT(RFFT)信号に変換する。
ステップ3:左FFT信号および右FFT信号をミドルFFT(MFFT)信号およびサイドFFT(SFFT)信号に変換する。
ステップ4〜ステップ5:心理音響モデル20のマスキングモデルによって左信号および右信号のマスキング閾値(TL、TR)をそれぞれ計算する。
ステップ6〜ステップ8:ミドル信号およびサイド信号のマスキング閾値(TM、TS)を計算し、M/S信号はL/R符号化の中で同じモデルであるマスキングモデルに入れられ、マスキング閾値を取得する。その後、最後のマスキング閾値がバイノーラルMLD(masking level difference)効果を利用することによって決定される。
ステップ9〜ステップ14:db<0.25のときステップ15を実行するために計算および比較を行い、そうでなければステップ16を実行する。
ステップ15:ith帯域状態はM/S状態であると決定し、それからM/S変換モデル15はM/S信号へのNth帯域変換機のL/R信号を受信し、これらのM/S信号は量子化/符号化モデル25によって量子化および符号化される。
ステップ16:Nth帯域状態はL/R状態であると決定し、量子化/符号化モデル25はNthのL/R信号を受信して量子化および符号化を行う。
FAACの帯域状態の決定に関する問題が存在する。第1の問題は、FAACはM/S帯域使用を決定するマスキング閾値の相違度のみを使用し、M/S信号はL/R閾値の中で同じモデルであるマスキングモデルに入れられ、マスキング閾値を取得する。M/S信号を置くことは合理的ではない。閾値の設定および基準の比較によって帯域状態使用を容易に決定することができるが、連続した帯域情報は使用できず、一つのフレーム内の不安定な状態の切り替えは効果的にそれぞれの帯域にビットを割り当てることができず、サイド情報が増加してしまう。さらに、全ての可能なケースを評価し、再構築された信号を計算し、各ケースから最低歪を見つけることによって最適な帯域状態の決定が見つけ出される。しかし、命令O(2^49)の複雑度計算は導入するには高価すぎる。
従って、本発明は、プレエコー、時間複雑度およびその他欠点などの量子化誤差を低減させるオーディオ圧縮方法およびAACのためのM/S符号化の帯域状態の決定方法に関する。
特開平8−167878号公報
本発明の第1の目的は、量子化誤差を低減させる方法およびそれに関連する装置を提供することにある。
本発明の第2の目的は、各PE(聴覚エントロピー)を考慮し、隣の帯域の符号化状態を変更するための帯域の状態を決定し、時間複雑度を低減させるAACのためのM/S符号化の帯域状態の決定方法を提供することにある。
本発明の第3の目的は、どんな補助機能を使用するよりも簡単で、安価な計算で最適の帯域状態決定を見つけ出す方法を提供することにある。
本発明の第4の目的は、M/Sマスキング閾値を取得する心理音響モデルのM/S符号化モデルを修正する方法を提供することにあり、M/S信号を置くことは合理的である。
本発明の第5の目的は、AACのためのM/S符号化の帯域状態の決定方法を提供することにあり、大多数の帯域を含む少なくとも一つのオーディオストリームを受信するステップと、左信号、右信号、ミドル信号およびサイド信号を含む各帯域の、右信号および左信号のPE(聴覚エントロピー)値の合計である第1のノード、およびミドル信号およびサイド信号のPE値の合計である第2のノードを計算するステップと、Nth帯域の第1のノードから(N+1)th帯域の第1または第2のノード、或いはNth帯域の第2のノードから(N+1)th帯域の第1または第2のノードまでである各隣の帯域の最小コストパス値を計算するステップと、状態がL/R状態またはM/S状態であろう最小コストパス値に基づいて各帯域の状態を決定するステップとを含み、その方法は安価な計算およびM/Sマスキング閾値を提供し、時間複雑度を低減させる。
本発明のその他の目的は、発明を実施するための最良の形態での記述を読むことによって明らかになる。
本発明の第2の目的は、各PE(聴覚エントロピー)を考慮し、隣の帯域の符号化状態を変更するための帯域の状態を決定し、時間複雑度を低減させるAACのためのM/S符号化の帯域状態の決定方法を提供することにある。
本発明の第3の目的は、どんな補助機能を使用するよりも簡単で、安価な計算で最適の帯域状態決定を見つけ出す方法を提供することにある。
本発明の第4の目的は、M/Sマスキング閾値を取得する心理音響モデルのM/S符号化モデルを修正する方法を提供することにあり、M/S信号を置くことは合理的である。
本発明の第5の目的は、AACのためのM/S符号化の帯域状態の決定方法を提供することにあり、大多数の帯域を含む少なくとも一つのオーディオストリームを受信するステップと、左信号、右信号、ミドル信号およびサイド信号を含む各帯域の、右信号および左信号のPE(聴覚エントロピー)値の合計である第1のノード、およびミドル信号およびサイド信号のPE値の合計である第2のノードを計算するステップと、Nth帯域の第1のノードから(N+1)th帯域の第1または第2のノード、或いはNth帯域の第2のノードから(N+1)th帯域の第1または第2のノードまでである各隣の帯域の最小コストパス値を計算するステップと、状態がL/R状態またはM/S状態であろう最小コストパス値に基づいて各帯域の状態を決定するステップとを含み、その方法は安価な計算およびM/Sマスキング閾値を提供し、時間複雑度を低減させる。
本発明のその他の目的は、発明を実施するための最良の形態での記述を読むことによって明らかになる。
上述の課題を解決するために、本発明は、オーディオ信号の第1の範囲のグローバルエネルギー比率を決定し、グローバルエネルギー比率を第1の閾値と比較する方法を提供し、オーディオ信号のブロックを受信するステップと、オーディオ信号の第1の範囲のグローバルエネルギー比率を決定し、グローバルエネルギー比率と第1の閾値とを比較するステップと、オーディオ信号の第2の範囲のゼロクロス比率を決定し、ゼロクロス比率と第2の閾値とを比較するステップと、グローバルエネルギー比率またはゼロクロス比率が第1または第2の閾値を超え、オーディオ信号の第3の範囲のトーンアタックが検出されないときショート符号化ウィンドウを選択するステップと、グローバルエネルギー比率およびゼロクロス比率が第1および第2の閾値を超えないとき、或いはオーディオ信号の第3の範囲のトーンアタックが検出されたときロング符号化ウィンドウを選択するステップと、選択された符号化ウィンドウで、第1、第2および第3の範囲と共通であるオーディオ信号の第4の範囲を符号化するステップとを含む。
本発明はさらにACCのためのM/S符号化の帯域状態の決定方法を提供し、帯域の大部分を含む少なくとも1つのオーディオストリームを受信するステップと、左信号、右信号、ミドル信号、およびサイド信号を含む各帯域の第1のノードおよび第2のノードを計算するステップと、各隣の帯域の最小コストパス値を計算するステップと、状態がL/R状態またはM/S状態であろう最小コストパス値に基づいて各帯域の状態を決定するステップとを含む。
本発明はさらにACCのためのM/S符号化の帯域状態の決定方法を提供し、帯域の大部分を含む少なくとも1つのオーディオストリームを受信するステップと、左信号、右信号、ミドル信号、およびサイド信号を含む各帯域の第1のノードおよび第2のノードを計算するステップと、各隣の帯域の最小コストパス値を計算するステップと、状態がL/R状態またはM/S状態であろう最小コストパス値に基づいて各帯域の状態を決定するステップとを含む。
本発明は、グローバルエネルギーへの考慮から、ゼロクロスおよびオーディオ信号のトーンアタックはショートウィンドウおよびロングウィンドウの選択を許し、このことによって量子化誤差をかなり低減することができる。
図5は、本発明の実施例のAAC(advanced audio coding)エンコーダ300を示すブロック図である。
AACエンコーダ300は利得制御ユニット310、聴覚モデル320、フィルタバンク330、ウィンドウ決定モジュール340およびビットストリームマルチプレクサ350から構成される。入力信号が利得制御ユニット310および聴覚モデル320からAACエンコーダ300に入力される。聴覚モデル320はウィンドウ決定方法(後ほど説明を行う)と関連がある情報をウィンドウ決定モジュール340に送る。ウィンドウ決定モジュール340はウィンドウサイズを選択し、適切な情報の入力信号を符号化するために、選択されたウィンドウサイズを使用するフィルタバンク330に通過させ、利得制御ユニット310の出力と協調して符号化されたオーディオストリームが生成される。AACエンコーダ300はさらにウィンドウ決定モジュール340とフィルタバンク330との間に接続されるウィンドウタイプスイッチ360およびフィルタバンク330とビットストリームマルチプレクサ350との間に接続される量子化モジュール370を備える。
上述の具体的な実施例によって本発明が制限されることはなく、AACエンコーダ300はISO/IEC MPEG‐2/4規格に合わせて設計することもできる。
AACエンコーダ300は利得制御ユニット310、聴覚モデル320、フィルタバンク330、ウィンドウ決定モジュール340およびビットストリームマルチプレクサ350から構成される。入力信号が利得制御ユニット310および聴覚モデル320からAACエンコーダ300に入力される。聴覚モデル320はウィンドウ決定方法(後ほど説明を行う)と関連がある情報をウィンドウ決定モジュール340に送る。ウィンドウ決定モジュール340はウィンドウサイズを選択し、適切な情報の入力信号を符号化するために、選択されたウィンドウサイズを使用するフィルタバンク330に通過させ、利得制御ユニット310の出力と協調して符号化されたオーディオストリームが生成される。AACエンコーダ300はさらにウィンドウ決定モジュール340とフィルタバンク330との間に接続されるウィンドウタイプスイッチ360およびフィルタバンク330とビットストリームマルチプレクサ350との間に接続される量子化モジュール370を備える。
上述の具体的な実施例によって本発明が制限されることはなく、AACエンコーダ300はISO/IEC MPEG‐2/4規格に合わせて設計することもできる。
フィルタバンク330はロングウィンドウまたはショートウィンドウを選択することによる2048サンプルまたは256サンプルの入力期間を有する変換間での移行によって入力信号に対して時間周波数変換を行う。
2048サンプルおよび256サンプルの二つのウィンドウサイズはただの模範であり、二つウィンドウサイズより大きなものや異なるサイズのウィンドウでもよい。256サンプル期間は過渡信号符号化のためのものであり、周波数選択度とプレエコー抑制との間での良好な折衷点である。
図1に示すように、ロング変換とショート変換との間の遷移の間、スタートとストップとのブリッジされた変換(即ち、スタートウィンドウおよびストップウィンドウ)はMDCT(Modified Discrete Cosine Transformation)およびIMDCT(逆MDCT)の時間領域エイリアシング打消し特性の維持に使用され、ウィンドウアライメントが維持される。一般に、2048サンプルロング変換はロングシーケンスと呼ばれ、グループ内で発生する256サンプルショート変換はショートシーケンスと呼ばれる。ショートシーケンスは約50%が相互に重複するように配置され、スタートウィンドウおよびストップウィンドウに重複する境界の変換の半分を有する八つのショートウィンドウ変換を有することができる。
図6に示すように、これらの重複するシーケンスグループはウィンドウをスタートシーケンス、ストップシーケンス、ロングシーケンスおよびショートシーケンスに変換する。図6の下のカーブはストップウィンドウに続く八つのショートウィンドウに続くスタートウィンドウを示し、上のカーブは過渡信号不在でのロングウィンドウ符号化を示す。
図6に示すように、これらの重複するシーケンスグループはウィンドウをスタートシーケンス、ストップシーケンス、ロングシーケンスおよびショートシーケンスに変換する。図6の下のカーブはストップウィンドウに続く八つのショートウィンドウに続くスタートウィンドウを示し、上のカーブは過渡信号不在でのロングウィンドウ符号化を示す。
ショートウィンドウは高い時間分解能を有し、ロングウィンドウは高い周波数分解能を有するので、過渡信号はショートウィンドウから恩恵を受けてプレエコー効果を制御し、非過渡信号(即ち、変動がない)信号はロングウィンドウから恩恵を受けて余剰を取り出すために信号スペクトルの線路を分析する。仮に非過渡信号がショートウィンドウで発生した場合、低周波数分解能が周波数領域の符号化された信号の精密度を低減させる。第1の実施例では、AACエンコーダ300のウィンドウ決定モジュール340は、グローバルエネルギー比率、ゼロクロス比率およびトーンアタックを参照して次のウィンドウサイズを選択する。
グローバルエネルギー比率:時間領域エネルギーが急激に変化するとき過渡信号は通常発生する。ゆえに過渡信号を検出するのにエネルギー比率が使用される。従来のエネルギー比率の検出方法は二つのスライドするショートウィンドウ間のエネルギー比率だけが考慮されたが、このエネルギー比率は徐々に増加する信号の検出には不適当である。一般にプリエコー効果は最も高いエネルギーを有する信号部分によって生成される。
図7はスピーチ信号の例を示す図である。図7の三つの信号は上から、徐々に増加する過渡信号、エネルギー比率の従来値および本発明によるグローバルエネルギー比率である。従来のエネルギー比率の最高値は約2.1であるが、過渡検出閾値が2.0にセットされた場合、誤判断が容易に発生する。グローバルエネルギー比率方法はこの問題を解決するエネルギー比率の検出可能値をさらに容易に提供する。
256サンプルウィンドウWiのエネルギー機能En(i)を決定するために、本発明では数式1に示すような入力信号Xkの二乗和を使用する。
それから、ショートウィンドウのエネルギーEn(i)のセット内の最高エネルギーMax_Enおよび最低エネルギーMin_Enが見つけ出される。このようにグローバルエネルギー比率は数式2のように定義される。
従って、グローバルエネルギー比率Global_En_Ratioが所定のエネルギー閾値よりも大きい場合、信号は過渡信号であるとみなされる。図7の下部の二つのグラフの比較から分かるように、数式1および数式2は改善された過渡信号検出を提供する。
ゼロクロス比率:グローバルエネルギー比率単独ではスペクトル内容の迅速な変更のあるセグメントを有する信号の検出を行うことはできないので、信号のメインの周波数内容を表現するためにゼロクロスレートが使用される。
一例として、図8は安定したグローバルエネルギー比率での過渡信号を示す図であるが、この信号はスペクトル内容での急激な変化を有する。各256サンプルショートウィンドウのゼロクロスレートZe(i)が数式3のように定義されるときゼロクロス比率はこの種の過渡信号を検出できる。
それから、ショートウィンドウのゼロクロスレートのセット内の最高ゼロクロスレートMax_Zeおよび最低ゼロクロスレートMin_Zeが見つけ出される。このようにゼロクロス比率は数式4のように定義される。
ゼロクロス比率Ze_Ratioがゼロクロス閾値よりも大きいとき、信号は過渡信号であると見なされる。この方法は従来の方法よりも複雑度が低く、例えばバイオリンおよびスピーチ内の信号の過渡を正確に検出することができる。
トーンアタック:一般にショートウィンドウはロングウィンドウよりも低い周波数分解能を有する。図9は本発明のグローバルエネルギー比率によって恐らく過渡信号であると見なされる純音声の信号の例を示す図である。
図10は2048サンプル変換(上)および256サンプル変換(下)によって変換された周波数を示す。図10において、短い方の変換によるトーン信号変換はサイド帯域エネルギーの増加をもたらすことが見られる。トーンアタック効果は信号がロングウィンドウ心理音響モデル(後ほど述べる)によって分析されたトーン帯域を有するときと定義される。
図10は2048サンプル変換(上)および256サンプル変換(下)によって変換された周波数を示す。図10において、短い方の変換によるトーン信号変換はサイド帯域エネルギーの増加をもたらすことが見られる。トーンアタック効果は信号がロングウィンドウ心理音響モデル(後ほど述べる)によって分析されたトーン帯域を有するときと定義される。
ウィンドウ決定方法:ウィンドウ決定方法は上述のグローバルエネルギー比率、ゼロクロス比率およびトーンアタックが考慮される。図11は過渡信号の検出にグローバルエネルギー比率およびゼロクロス比率を使用し、トーンアタック分析による誤検出を避けることを表すフローチャート図である。ステップ900でエネルギー比率またはゼロクロス比率のどちらかがそれぞれの閾値を超えているか測定される。これらの比率のどちらかが閾値を超える場合、トーンアタックがステップ910でテストされる。両方の比率が閾値を超えない場合またはトーンアタックが検出された場合、ロングウィンドウがステップ920で選択される。しかし、比率のどちらかが閾値を越え、ステップ910でトーンアタックが検出されない場合、ステップ930でショートウィンドウが選択される。第1の実施例では図11のフローチャート図で達成される手順は図5に示すAACエンコーダ300のウィンドウ決定モジュール340によって実行される。
上述の手順はオーディオ信号全体の符号化が完成するように繰り返される。
図12は、本発明のもう1つの実施例によるAACエンコーダ1000を示すブロック図である。AACエンコーダ300と同様に、AACエンコーダ1000は聴覚モデル320、フィルタバンク330、ウィンドウ決定モジュール340およびビットストリームマルチプレクサ350を備える。AACエンコーダ1000はさらにウィンドウタイプスイッチ1010、TNS(temporal noise shaping)ユニット1020、ショートウィンドウスケールファクタ評価ユニット1030、グルーピングユニット1040およびM/S符号化ユニット1050を備える。AACエンコーダ1000はさらに利得制御を提供する反復ループ1060を備える。
図13は、本発明のさらにもう1つの実施例によるAACエンコーダ1100を示すブロック図である。AACエンコーダ300と同様に、AACエンコーダ1100は聴覚モデル320、フィルタバンク330、ウィンドウ決定モジュール340およびビットストリームマルチプレクサ350を備える。
AACエンコーダ1000と同様に、AACエンコーダ1100はさらにウィンドウタイプスイッチ1010、TNS(temporal noise shaping)ユニット1020、ショートウィンドウスケールファクタ評価ユニット1030、グルーピングユニット1040およびM/S符号化ユニット1050を備える。AACエンコーダ1100はさらにウィンドウカップリングユニット1105、グループカップリングユニット1110、ショートウィンドウスケールファクタ再評価ユニット1120および利得制御を提供する反復ループ1130を備える。
さらに、手順を表すいくつかの構成要素が併合されるが、説明を明確にするためにここでは分割して説明を行う。例えばショートウィンドウスケールファクタ評価ユニット1030とショートウィンドウスケールファクタ再評価ユニット1120は同一の物理的装置とすることができる。
ウィンドウタイプスイッチ360、1010:ウィンドウ決定モジュール340が次のフレームのウィンドウタイプを決定した後、現在のウィンドウタイプはウィンドウタイプスイッチ1010を使用して次のウィンドウタイプと前のウィンドウタイプとを比較することによって切り替えられる。
スタートタイプウィンドウはロングウィンドウとショートウィンドウとをブリッジするのに使用される。そのために、ウィンドウ決定モジュール340は予め次のフレームのウィンドウタイプを決定しなければならず、次のフレームが前のフレームと異なる場合、現在のフレームはスタートウィンドウタイプまたはストップウィンドウタイプに切り替えられる。
図14は、ウィンドウタイプスイッチの全ての可能な状況の分析を示す図である。ロングウィンドウ、ショートウィンドウ、スタートウィンドウおよびストップウィンドウがそれぞれL、S、L_SおよびS_Lで表される。いくつかの不可能な状況を無視することによって簡単なスイッチング演算式を得ることができる。
if (Current == S) {
if (Previous == S || Previous == L_S)
Current = S;
} else {
if (Previous == L || Previous == S_L) {
if (Next == L)
Current = L;
else Current = L_S;
} else if (Previous == S) {
if (Next == L)
Current = S_L;
else
Current = S;
}
}
Previous [] = Current[]; Current [] = Next[]
if (Previous == S || Previous == L_S)
Current = S;
} else {
if (Previous == L || Previous == S_L) {
if (Next == L)
Current = L;
else Current = L_S;
} else if (Previous == S) {
if (Next == L)
Current = S_L;
else
Current = S;
}
}
Previous [] = Current[]; Current [] = Next[]
この演算式はウィンドウタイプスイッチ360および/または1010によって実行され、そのような変更が隣接するウィンドウタイプによって必要とされる場合、現在のウィンドウは変更される。
心理音響モデル:心理音響モデルはどの特定の音声信号が人間に聞き取られ、どれが聞き取られないかを決定し、どの音声を無視してよいかを制御する。異なるウィンドウサイズは心理音響モデルの異なる解釈および標準化を要求する。仮にウィンドウシーケンスが八つのショートウィンドウから構成される場合、AACエンコーダ300、1000、1100はショートウィンドウ心理音響モデルを八回実行する必要がある。
心理音響モデルはフィルタバンク330のそれぞれの帯域のために顕著なノイズレベルを決定するのに必要である最低マスキング閾値を計算する。
図15は、サンプルレートが44.1kHzのときのショートウィンドウの14の帯域に対応するロングウィンドウの49の帯域のマッピング結果の例を示す図である。仮にフレームがショートウィンドウを使用する場合、SMRsはロングウィンドウから取得される。
この改良はAACエンコーダ300、1000および1100の聴覚モデル320またはウィンドウ決定モジュール340によって実行される。
グルーピングユニット1040およびスケールファクタ評価ユニット1030/1120:仮にウィンドウシーケンスが八つのショートウィンドウから構成される場合、1024係数のセットは実際は八つのショートウィンドウの持続期間上の信号の時間周波数分解能を表す8×128周波数係数のマトリクスである。具体的に述べると、1024係数のセットcはインターリーブ前に次のように索引付けされる。
c[g][w][b][k]
gはグループ索引であり、wはグループ内でのウィンドウの索引であり、bはウィンドウ内でのスケールファクタ帯域の索引であり、kはスケールファクタ帯域内での係数の索引であり、最左側の索引は最も迅速に変わる。
インターリーブ後、係数は次のように索引付けされる。
c[g][b][w][k]
図16はショートウィンドウグルーピングおよびインターリーブの例を示す図である。図16において、グループ0は0、1および2と索引付けされたショートウィンドウを含む。インターリーブ後、これらの三つのショートウィンドウの第1の帯域は大きなスケールファクタ帯域(sfb 0)を形成する。グルーピング方法は異なる符号化の考慮のためにスケールファクタ帯域の数に柔軟性を提供する。
ショートウィンドウはショートウィンドウ内にある量子化のノイズの拡散を制御することによって過渡信号を好適に取り扱うことができる。しかし、AACエンコーダ1000、1100がショートウィンドウを使用する場合、スケールファクタ帯域の総数は1つのロングウィンドウを使用する場合の二倍となる。
本発明では、グルーピングユニット1040で実行されるグルーピング方法はスケールファクタ推定ユニット1030または1120で決定された八つのショートウィンドウの推定スケールファクタを使用する。従って、スケールファクタはAACエンコーダ1000内で相対的に初期にあるショートウィンドウスケールファクタ評価ユニット1030で推定されるので、グルーピング方法は他のコーデックモジュール(例えばM/S符号化ユニット1050)でより柔軟に適用される。
スケールファクタを推定するために、次の方程式が使用され、非一様量子化器の量子化誤差の予想eiは、数式5のようになる。
Δqは量子化ステップサイズであって、数式6のように定義される。
gはスケールファクタ帯域qの独立したグローバル利得である。cqは各スケールファクタ帯域のスケールファクタである。
ビット割り当てのスケールファクタ推定は、帯域幅比例ノイズシェーピング基準に基づく。スケールファクタ帯域に対するノイズレベルは有効帯域幅B(q)に比例する。
σ2 N(q)およびσ2 M(q)はスケールファクタバンドqに関連するノイズエネルギーおよびマスキングエネルギーである。
数式5でスケールファクタをノイズパワーと関係させ、簡単に数式5と数式6とを結びつける。E[ei 2]=σ2 N(q) をさせ、T2 q=σ2 M(q)・B(q) を定義する。ビット割り当てのための量子化誤差の予想は数式8で表される。
量子化ステップサイズの二乗Δq 2は数式9で表される。
グローバル利得gとスケールファクタとの違いは数式10によって評価される。
数式10から、グローバル利得gは数式11から評価される。
そして全てのサブ帯域に対するスケールファクタが得られる。
グルーピング方法に関して、同じグループのショートウィンドウはグループ内の全てのスケールファクタ帯域間でスケールファクタをシェアするので、同じグループのショートウィンドウのシェアされたスケールファクタ(sharesfbg,b)および推定スケールファクタ(sfb,w)の違いは制限される。スケールファクタの違いに加え、この違いの影響は帯域幅(bandwidthb)に比例する。従って、グループgのスケールファクタエラーは数式12によって推定される。
グルーピング方法の基準はグルーピング数を最小化し、各グループのスケールファクタエラーEgは閾値Mよりも小さくなる。この基準によって、図17のフローチャート図に示す演算式が実行される。先ずスケールファクタ推定が実行される。その後、第1のショートウィンドウでグルーピング方法がスタートする。1つのグループのショートウィンドウは連続的であるので、演算式は各ショートウィンドウを前のショートウィンドウが属するグループに置こうとする。新しいグループのスケールファクタエラーが閾値Mよりも小さい場合、与えられたショートウィンドウはグループに入れられる。そうでなければ、ショートウィンドウのために新しいグループが作られる。
TNSユニット1020:TNSはプレエコー現象を避けるための技術である。この技術は本発明のTNSユニット1020で適用される。図18はエリアジングを緩和する試みにTNSが適用されたときのウィンドウタイプスイッチ構成を示す図である。図19は下記の対応する演算式を有するウィンドウタイプスイッチ1010のために修正されたウィンドウタイプスイッチテーブルを示す。
if (Current == S) {
if (Previous == S || Previous == L_S)
Current = S;
} else {
if (Previous == L || Previous == S_L) {
if (Next == L)
Current = L;
else
Current = L_S;
}else if (Previous == S || Previous = L_S) {
if (Next == L)
Current = S_L;
else Current = S;
}
}
Previous [] = Current[]; Current [] = Next[]
if (Previous == S || Previous == L_S)
Current = S;
} else {
if (Previous == L || Previous == S_L) {
if (Next == L)
Current = L;
else
Current = L_S;
}else if (Previous == S || Previous = L_S) {
if (Next == L)
Current = S_L;
else Current = S;
}
}
Previous [] = Current[]; Current [] = Next[]
図19に示すように、現在のウィンドウタイプがロングである場合、TNSが適用されたときスタートウィンドウタイプに切り替えられる。次の時間(n+1)において、新しい状況(前のウィンドウタイプがスタート、現在のウィンドウタイプがロング、次のウィンドウタイプもロングのとき)が考慮される。
M/S符号化ユニット1050およびウィンドウカップリングユニット1105:ステレオ符号化で、二つのステレオチャンネルのウィンドウタイプおよびグルーピング方法が同じときM/Sメカニズムは適用可能である。
MPEG基準で定義されるように、聴覚エントロピー(PE)は数式13で示すように、類似性を判断するのを補助ことができる。
bは閾値計算区画の索引であり、Ebは区画bのエネルギー合計であり、BWbは区画bの周波数ラインの数であり、Maskingbは区画bのマスキングである。
プレエコー制御を行うために、期間Maskingbは数式14のように修正される。
qthrbは静寂での閾値であり、nbb およびnb_lbは現在および前のブロックのための区画の閾値であり、repelevは不変である。
信号が高いエネルギーにバーストしたとき、信号エネルギーの増加の結果、nb_lb からnbbまでの閾値は高くなる。それからMaskingbは小さく、PEの値は大きくなる。フレームPEが所定の閾値PE_SWITCHよりも高くなったとき、エンコーダは時間分解能を増加させ、プレエコー効果を低減させるためにウィンドウタイプをショートに変更する。
図20は、ウィンドウカップリングを示すフローチャート図である。左チャンネルPEと右チャンネルPEの違いは類似性を判断するために、閾値T1と比較される。その他のPE閾値T2はウィンドウタイプを決定するために使用される。一般に上述の手順はM/S符号化ユニット1050およびウィンドウカップリングユニット1105によって実行される。
グループカップリングユニット1110:グループカップリングユニット1110に関して、スケールファクタエラーの合計がチャンネルおよびグループの二つのチャンネルで同時に計算される。図21の左部分で、グルーピング方法が二つのチャンネルで個々に使用されている。グループカップリングの目的は、図21の右部分に示すように、両方のチャンネルで同じグルーピング構成を維持させることにある。
本発明のグルーピングはグループの数を最小にし、両チャンネルの各グループのトータルのスケールファクタエラーEgを制限し、新しい閾値2Mより小さくする。
図22は、ウィンドウカップリングおよびグループカップリングを示すフローチャート図であり、さらにM/Sコーディングとの関連を示す。M/Sがオンになったとき、二つのチャンネルのエネルギーは修正され、各スケールファクタ帯域と関連したスケールファクタは再推定される。M/Sが使用されないとき、グルーピングは二つのステレオチャンネルに個別に適用される。
図5、12、13の実施例の装置で示されるエレメントの特徴は記述を明らかにするためだけのものである。
さらに、本発明は心理音響モデルによって計算される聴覚エントロピー(PE)にも関係し、それは左帯域、右帯域およびサイド帯域のために評価されるトランスペアレント品質を持つことが要求される最低ビットに反映される。PE値は帯域の左信号、右信号、ミドル信号およびサイド信号のためにビットを評価するのに最も簡単な方法となる。それから心理音響モデルは、L/R帯域およびM/S帯域からのPEの値を比較することによって各隣の帯域の最低コストパス値を計算し、帯域状態をL/R状態またはM/S状態に決定する。
PEは数式15のように定義される。
Wi、EiおよびTiはith帯域の帯域幅、エネルギーおよびマスキング閾値である。
M/Sチャンネルのマスキング閾値を引き出すために、数式16、17のように再構築された左チャンネルおよび右チャンネルを考慮する。
数式16、17から数式18、19が導き出される。
L'i[k],R'i[k],M'i[k] およびS'i[k]はデコーダからの再量子化された周波数ラインである。量子化誤差のために再構築された信号は数式20、21のように書き換えられる。
NLi[k],NRi[k],NMi[k]およびNsi[k]は各チャンネルに対する関連したノイズである。トランスペアレントオーディオ符号化のために、NLi[k]とNRi[k]との違いはL帯域信号およびR帯域信号のマスキング閾値未満でなければならない。区画帯域に関する違いは数式22、23によって強制される。
不等式である数式22、23を満たす十分条件は数式24、25、26である。
ゆえに、数式27に示すように、閾値はM/S信号から直接出ている閾値に取って代わるために使用される。
都合がよいように、PEはしばしば心理モデルのFFTから伝達された結果を使用する。しかし、実際の符号化信号はMDCT(modified discrete cosine transform)分析フィルタバンクの結果から来る。従って、マスキング閾値を調整し直し、エネルギーをFFTフォーマットからMDCTフォーマットに変更する必要がある。修正されたマスキング閾値は数式28、29、30のように表される。
数式15によって各状態の各帯域のPEは数式31、32、33、34のように引き出される。
LおよびR、MおよびSのすべての帯域PEは利用可能であるので、好適な代替法はそのPEの比較後に選ばれる。
心理音響モデルは修正されたビタビ演算式によって各隣の帯域の最小コストパス値を計算し、帯域状態をL/R状態またはM/S状態に決定する。図23はM/S符号化コストを最小化するための修正されたビタビ演算式を示すブロック図である。状態iおよびL/R状態が0を表し、M/S状態が1を表すkth帯域の終わりのためのコストSk(i)を最小化するためにトレリスが構築される。各エッジは符号化状態を変更するための過渡コストファクタを表し、各ノードは比較のためにその帯域PEを有する。修正されたビタビ演算式は第1のスケールファクタ帯域から最後まで最小コストパスを探す。
Sk(i)に第1の帯域からkth帯域までの状態iの最小累積コストを記録させ、nk(i)はkth帯域のith状態ノードコストを表し、メインビタビ演算式プロセスは数式35のように実行される。
Qは全ての状態セットを意味し、αi,jは過渡コストファクタを表す。最小コストパスは追跡パスをリバースすることによって見つけ出される。言い換えると、この修正されたビタビ演算式によって最適な帯域モード使用法を見つけることができる。
時間複雑度を分析するために、第1の帯域ノード以外のすべてのノードが各ステージにおいて一回だけ比較を行うことを観察する。
図24は、本発明の修正されたビタビ演算法の使用実施例を示すブロック図であり、第1の帯域40、第2の帯域45および第3の帯域50を備え、各帯域は第1のノードおよび第2のノードを備える。第1の帯域40の第1のノード401は10にセットされ、第1の帯域40の第2のノード402は20にセットされ、第2の帯域45の第1のノード451は30にセットされ、第2の帯域45の第2のノード452は40にセットされ、第3の帯域50の第1のノード501は50にセットされ、第3の帯域50の第2のノード502は60にセットされる。
第1の帯域40の第1のノード401から第2の帯域45の第1のノード451までの過渡コストは1にセットされ、第1の帯域40の第1のノード401から第2の帯域45の第2のノード452までの過渡コストは2にセットされ、第1の帯域40の第2のノード402から第2の帯域45の第1のノード451までの過渡コストは3にセットされ、第1の帯域40の第2のノード402から第2の帯域45の第2のノード452までの過渡コストは4にセットされ、第2の帯域45の第1のノード451から第3の帯域50の第1のノード501までの過渡コストは5にセットされ、第2の帯域45の第1のノード451から第3の帯域50の第2のノード502は6にセットされる。第1の帯域40と第2の帯域45との間に四つのコストパス値が存在し、第2の帯域45と第3の帯域50との間に二つのコストパス値が存在する。
第1の帯域40の第1のノード401、過渡コストおよび第2の帯域45の第1のノード451の合計は第1のコストパス値であり、第1のコストパス値は41である。第1の帯域40の第1のノード401、過渡コストおよび第2の帯域45の第2のノード452の合計は第2のコストパス値であり、第2のコストパス値は52である。第1の帯域40の第2のノード402、過渡コストおよび第2の帯域45の第1のノード451の合計は第3のコストパス値であり、第3のコストパス値は53である。第1の帯域40の第2のノード402、過渡コストおよび第2の帯域45の第2のノード452の合計は第4のコストパス値であり、第4のコストパス値は64である。
四つのコストパス値は最小コストパスを得るために比較される。最小コストパス値は41であり、最小コストパス値を有する第2の帯域45の第1のノード451は41にセットされた累積値を含む。第2の帯域45の第2のノード452から第3の帯域50のノードまでのコストパス値を計算するよりむしろ、第2の帯域45の第1のノード451から第3の帯域50のノードまでのコストパス値を計算する。
累積値、過渡コストおよび第3の帯域50の第1のノード501の合計は第1のコストパス値であり、第1のコストパス値は96であり、累積値は第2の帯域45の第1のノード451に属する。累積値、過渡コストおよび第3の帯域50の第2のノード502の合計は第2のコストパス値であり、第2のコストパス値は107であり、累積値は第2の帯域45の第1のノード451に属する。二つのコストパス値は最小コストパスを得るために比較される。最小コストパス値は96であり、最小コストパス値を有する第3の帯域50の第1のノード501は累積値を含む。最後に最小コストパスは第1の帯域40から第3の帯域50まで見つけられる。
図25は、本発明のM/S符号化の帯域状態の決定方法を示すフローチャート図である。
ステップ21:心理音響モデルによって各帯域が左信号を含む帯域の大多数を受信し、FFT(fast fourier transform)によって左信号を左FFT信号(LFFT)に変換する。
ステップ22:心理音響モデルによって各帯域が右信号を含む帯域の大多数を受信し、FFT(fast fourier transform)によって右信号を右FFT信号(RFFT)に変換する。
ステップ23:分析フィルタバンクのMDCT(modified discrete cosine transform)によって左信号を左MDCT信号(LMDCT)に変換する。
ステップ24:分析フィルタバンクのMDCT(modified discrete cosine transform)によって右信号を右MDCT信号(RMDCT)に変換する。
ステップ25:同じ帯域の左信号および右信号を使用することによってミドル信号およびサイド信号を計算する。
ステップ26:左FFT信号のマスキング閾値(TLFFT)を計算するために、LFFT信号を受信する。
ステップ27:右FFT信号のマスキング閾値(TRFFT)を計算するために、RFFT信号を受信する。
ステップ28:左信号および右信号のマスキング閾値(TL、TR)をそれぞれ計算するために、TLFFT信号、TRFFT信号、LFFT信号、RFFT信号、LMDCT信号およびRMDCT信号を受信する。
ステップ29:ミドル信号および右信号のマスキング閾値(TM、TS)をそれぞれ計算するために、TL信号およびTR信号を受信する。
ステップ30:左信号のPE値(PEL)を計算するために、TLFFT信号およびLFFT信号を受信する。
ステップ31:右信号のPE値(PER)を計算するために、TRFFT信号およびRFFT信号を受信する。
ステップ32:第1のノードを計算する。PELおよび右PERの合計が第1のノードである。
ステップ33:ミドル信号のPE値(PEM)を計算するためにTM信号およびミドル信号を受信する。
ステップ34:サイド信号のPE値(PEs)を計算するためにTs信号およびサイド信号を受信する。
ステップ35:第2のノードを計算する。PEMおよび右PESの合計が第2のノードである。
ステップ36:修正されたビタビ演算法によって各隣の帯域の最小コストパスを計算する。
ステップ37:最小コストパス値に基づいて各帯域の状態を決定する。状態はL/R状態またはM/S状態である。
心理音響モデルによって帯域状態がM/S状態に決定されたとき、M/S変換モデルはNth帯域のL/R信号を受信し、M/S信号に変換し、量子化/符号化モデルによってNth帯域のM/S信号の量子化および符号化を行い、そうでなければ量子化/符号化モデルが量子化および符号化を行うためにNth帯域のL/R信号を受信する。
本発明は帯域、PEおよび修正されたビタビ演算式を通じて効果的な計算方法で帯域状態を決定する方法を提供する。修正されたビタビ演算法はAACのための命令O(2^49)からO(49*2)まで複雑度を低減させることができる。さらにM/Sマスキング閾値はM/S符号化閾値を得るためにL/R心理音響モデルから引き出すように修正され、M/S信号を置くことは合理的である。
本発明の説明過程でこれらの装置および方法は多くの修正や変更がなされることが容易に分かる。よって、上述の説明は特許請求の範囲によってのみ制限されると解釈されるべきである。
Claims (37)
- オーディオ信号のブロックを受信するステップと、
オーディオ信号の第1の範囲のグローバルエネルギー比率を決定し、前記グローバルエネルギー比率を第1の閾値と比較するステップと、
オーディオ信号の第2の範囲のゼロクロス比率を決定し、前記ゼロクロス比率を第2の閾値と比較するステップと、
グローバルエネルギー比率またはゼロクロス比率のどちらかが第1または第2の閾値を超え、オーディオ信号の第3の範囲のトーンアタックが検出されないとき、ショート符号化ウィンドウを選択するステップと、
グローバルエネルギー比率およびゼロクロス比率がどちらも第1および第2の閾値を超えないか、或いはオーディオ信号の第3の範囲のトーンアタックが検出されたとき、ロング符号化ウィンドウを選択するステップと、
選択された符号化ウィンドウで第1、第2および第3の範囲と実質的に共通であるオーディオ信号の第4の範囲を符号化するステップと
を含むことを特徴とするオーディオ信号の符号化方法。 - 前記グローバルエネルギー比率は、第1の範囲の最大エネルギーと第1の範囲の最小エネルギーとの比率であることを特徴とする請求項1記載のオーディオ信号の符号化方法。
- 前記ゼロクロス比率は、第2の範囲の第1のサブ範囲のゼロクロスレートと第2の範囲の第2のサブ範囲のゼロクロスレートとの比率であり、前記第1のサブ範囲のゼロクロスレートは第2の範囲の最大値であり、前記第2のサブ範囲のゼロクロスレートは第2の範囲の最小値であることを特徴とする請求項1記載のオーディオ信号の符号化方法。
- 前記トーンアタックは、トーン閾値よりも高い調性を有することを特徴とする請求項1記載のオーディオ信号の符号化方法。
- 前記グローバルエネルギー比率は、第1の範囲の最大エネルギーと第1の範囲の最小エネルギーとの比率であり、前記ゼロクロス比率は、第2の範囲の第1のサブ範囲のゼロクロスレートと第2の範囲の第2のサブ範囲のゼロクロスレートとの比率であり、前記第1のサブ範囲のゼロクロスレートは第2の範囲の最大値であり、前記第2のサブ範囲のゼロクロスレートは第2の範囲の最小値であり、前記トーンアタックはトーン閾値よりも高い調性を有することを特徴とする請求項1記載のオーディオ信号の符号化方法。
- 前記選択されたウィンドウは次のウィンドウであり、二つの予め選択されたウィンドウは現在のウィンドウおよび前のウィンドウであり、さらに、
前のウィンドウがロングウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがショートウィンドウであるとき、現在のウィンドウをロングからショートへの遷移ウィンドウに変更するステップと、
前のウィンドウがショートウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがロングウィンドウであるとき、現在のウィンドウをショートからロングへの遷移ウィンドウに変更するステップと、
前のウィンドウがショートウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがショートウィンドウであるとき、現在のウィンドウをショートウィンドウに変更するステップと、
前のウィンドウがショートからロングへの遷移ウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがショートウィンドウであるとき、現在のウィンドウをロングからショートへの遷移ウィンドウに変更するステップと
を含むことを特徴とする請求項1記載のオーディオ信号の符号化方法。 - さらに、選択されたショートウィンドウの心理音響モデルを仮想ロングウィンドウの対応する範囲の心理音響モデルと定義するステップを含むことを特徴とする請求項1記載のオーディオ信号の符号化方法。
- さらに、ショートウィンドウに対してスケールファクタを推定するステップと、
所定のエラーに類似するスケールファクタを有するショートウィンドウをグルーピングするステップと
を含むことを特徴とする請求項1記載のオーディオ信号の符号化方法。 - さらに、オーディオ信号に対してM/S符号化を実行するステップと、
その後ショートウィンドウに対してスケールファクタの再評価を行うステップと
を含むことを特徴とする請求項8記載のオーディオ信号の符号化方法。 - 前記選択されたウィンドウは、次のウィンドウであり、二つの予め選択されたウィンドウは現在のウィンドウおよび前のウィンドウであり、さらに、
オーディオ信号の第4の範囲にTNSを適用するステップと、
前のウィンドウがロングウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがショートウィンドウであるとき、現在のウィンドウをロングからショートへの遷移ウィンドウに変更するステップと、
前のウィンドウがショートウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがロングウィンドウであるとき、現在のウィンドウをショートからロングへの遷移ウィンドウに変更するステップと、
前のウィンドウがショートウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがショートウィンドウであるとき、現在のウィンドウをショートウィンドウに変更するステップと、
前のウィンドウがロングからショートへの遷移ウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがロングウィンドウであるとき、現在のウィンドウをショートからロングへの遷移ウィンドウに変更するステップと、
前のウィンドウがロングからショートへの遷移ウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがショートウィンドウであるとき、現在のウィンドウをショートウィンドウに変更するステップと、
前のウィンドウがショートからロングへの遷移ウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがショートウィンドウであるとき、現在のウィンドウをロングからショートへの遷移ウィンドウに変更するステップと
を含むことを特徴とする請求項1記載のオーディオ信号の符号化方法。 - 前記オーディオ信号は、二チャンネルのステレオ信号であり、さらに、
各チャンネルに対してロングまたはショート符号化を選択するステップと、
オーディオ信号の各チャンネルの符号化ウィンドウサイズが一致しないとき、二つのチャンネルのPEにおける違いを検出するステップと、
PEにおける違いが検出され、両方のチャンネルのPEが聴覚閾値より高いとき、両方のチャンネルでショート符号化ウィンドウを使用し、両方のチャンネルのPEが聴覚閾値よりも低いとき、両方のチャンネルでロング符号化ウィンドウを使用するステップと
を含むことを特徴とする請求項1記載のオーディオ信号の符号化方法。 - 利得制御ユニット、聴覚モデル、フィルタバンク、ビットストリームマルチプレクサおよび請求項1の方法を実行するようにプログラムされたウィンドウ決定モジュールを備えることを特徴とするAACエンコーダ。
- オーディオ信号のブロックを受信するステップと、
オーディオ信号の第1の範囲のグローバルエネルギー比率を決定し、前記グローバルエネルギー比率を第1の閾値と比較し、前記グローバルエネルギー比率は第1の範囲の最大エネルギーと第1の範囲の最小エネルギーとの比率であるステップと、
オーディオ信号の第2の範囲のゼロクロス比率を決定し、前記ゼロクロス比率を第2の閾値と比較し、前記ゼロクロス比率は第2の範囲の第1のサブ範囲のゼロクロスレートと第2の範囲の第2のサブ範囲のゼロクロスレートとの比率であり、前記第1のサブ範囲のゼロクロスレートは第2の範囲の最大値であり、第2のサブ範囲のゼロクロスレートは第2の範囲の最小値であるステップと、
グローバルエネルギー比率またはゼロクロス比率のどちらかが第1または第2の閾値を超え、オーディオ信号の第3の範囲のトーンアタックが検出されないとき、ショート符号化ウィンドウを選択し、前記前記トーンアタックはトーン閾値よりも高い調性を有するときショート符号化ウィンドウを選択するステップと、
グローバルエネルギー比率およびゼロクロス比率がどちらも第1および第2の閾値を超えないか、或いはオーディオ信号の第3の範囲のトーンアタックが検出されたとき、ロング符号化ウィンドウを選択するステップと、
選択された符号化ウィンドウで第1、第2および第3の範囲と実質的に共通であるオーディオ信号の第4の範囲を符号化するステップと
を含むことを特徴とするオーディオ信号の符号化方法。 - 前記選択されたウィンドウは、次のウィンドウであり、二つの予め選択されたウィンドウは現在のウィンドウおよび前のウィンドウであり、さらに、
前のウィンドウがロングウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがショートウィンドウであるとき、現在のウィンドウをロングからショートへの遷移ウィンドウに変更するステップと、
前のウィンドウがショートウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがロングウィンドウであるとき、現在のウィンドウをショートからロングへの遷移ウィンドウに変更するステップと、
前のウィンドウがショートウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがショートウィンドウであるとき、現在のウィンドウをショートウィンドウに変更するステップと、
前のウィンドウがショートからロングへの遷移ウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがショートウィンドウであるとき、現在のウィンドウをロングからショートへの遷移ウィンドウに変更するステップと
を含むことを特徴とする請求項13記載のオーディオ信号の符号化方法。 - さらに、選択されたショートウィンドウの心理音響モデルを仮想ロングウィンドウの対応する範囲の心理音響モデルと定義するステップを含むことを特徴とする請求項13記載のオーディオ信号の符号化方法。
- さらに、ショートウィンドウに対してスケールファクタを推定するステップと、
所定のエラーに類似するスケールファクタを有するショートウィンドウをグルーピングするステップと
を含むことを特徴とする請求項13記載のオーディオ信号の符号化方法。 - さらに、オーディオ信号に対してM/S符号化を実行するステップと、
その後ショートウィンドウに対してスケールファクタの再評価を行うステップと
を含むことを特徴とする請求項16記載のオーディオ信号の符号化方法。 - 前記選択されたウィンドウは、次のウィンドウであり、二つの予め選択されたウィンドウは現在のウィンドウおよび前のウィンドウであり、さらに、
オーディオ信号の第4の範囲にTNSを適用するステップと、
前のウィンドウがロングウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがショートウィンドウであるとき、現在のウィンドウをロングからショートへの遷移ウィンドウに変更するステップと、
前のウィンドウがショートウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがロングウィンドウであるとき、現在のウィンドウをショートからロングへの遷移ウィンドウに変更するステップと、
前のウィンドウがショートウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがショートウィンドウであるとき、現在のウィンドウをショートウィンドウに変更するステップと、
前のウィンドウがロングからショートへの遷移ウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがロングウィンドウであるとき、現在のウィンドウをショートからロングへの遷移ウィンドウに変更するステップと、
前のウィンドウがロングからショートへの遷移ウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがショートウィンドウであるとき、現在のウィンドウをショートウィンドウに変更するステップと、
前のウィンドウがショートからロングへの遷移ウィンドウであり、現在のウィンドウがロングウィンドウであり、次のウィンドウがショートウィンドウであるとき、現在のウィンドウをロングからショートへの遷移ウィンドウに変更するステップと
を含むことを特徴とする請求項13記載のオーディオ信号の符号化方法。 - 前記オーディオ信号は、二チャンネルのステレオ信号であり、さらに、
各チャンネルに対してロングまたはショート符号化を選択するステップと、
オーディオ信号の各チャンネルの符号化ウィンドウサイズが一致しないとき、二つのチャンネルのPEにおける違いを検出するステップと、
PEにおける違いが検出され、両方のチャンネルのPEが聴覚閾値より高いとき、両方のチャンネルでショート符号化ウィンドウを使用し、両方のチャンネルのPEが聴覚閾値よりも低いとき、両方のチャンネルでロング符号化ウィンドウを使用するステップと
を含むことを特徴とする請求項13記載のオーディオ信号の符号化方法。 - 利得制御ユニット、聴覚モデル、フィルタバンク、ビットストリームマルチプレクサおよび請求項13の方法を実行するようにプログラムされたウィンドウ決定モジュールを備えることを特徴とするAACエンコーダ。
- 帯域の大多数を有し、各帯域は左信号および右信号を有する少なくとも1つのオーディオストリームを受信するステップと、
同じ帯域の左信号および右信号を使用することによってミドル信号およびサイド信号を計算するステップと、
各帯域の、左信号と右信号のPE値の合計である第1のノードと、ミドル信号とサイド信号のPE値の合計である第2のノードとを計算するステップと、
Nth帯域の第1のノードから(N+1)th帯域の第1または第2のノード、或いはNth帯域の第2のノードから(N+1)th帯域の第1または第2のノードまでである各隣の帯域の最小コストパス値を計算するステップと、
状態がL/R状態またはM/S状態であろう最小コストパス値に基づいて各帯域の状態を決定するステップと
を含むことを特徴とするAACのためのM/S符号化の帯域状態の決定方法。 - さらに、最小コストパス値を計算するステップと含み、前記ステップは、
各コストパス値が第1の帯域のノードから第2の帯域のノードまでであるコストパス値の大部分を計算するステップと、
コストパス値を比較して最小コストパス値を取得するステップと
を含むことを特徴とする請求項21記載のAACのためのM/S符号化の帯域状態の決定方法。 - 前記オーディオストリームは、第1の帯域と第2の帯域との間の四つのコストパス値およびオーディオストリームの残りの隣の帯域間の二つのコストパス値を含むことを特徴とする請求項21記載のAACのためのM/S符号化の帯域状態の決定方法。
- さらに、第1の帯域と第2の帯域との間の最小コストパス値を計算するステップを含み、前記ステップは、
第1の帯域のノード、過渡コストおよび第2の帯域のノードの合計を使用することによって各コストパス値を計算するステップと、
コストパス値を比較して最小コストパス値を取得するステップと
を含むことを特徴とする請求項23記載のAACのためのM/S符号化の帯域状態の決定方法。 - さらに、残りの隣の帯域のNth帯域と(N+1)th帯域との間の最小コストパス値を計算するステップを含み、前記ステップは、
累積値、過渡コストおよび(N+1)th帯域のノードの合計を使用することによって各コストパス値を計算するステップと、
コストパス値を比較して最小コストパス値を取得するステップと
を含むことを特徴とする請求項23記載のAACのためのM/S符号化の帯域状態の決定方法。 - 前記累積値は、(N−1)th帯域とNth帯域との間の最小コストパスを有するNth帯域のノードに属することを特徴とする請求項25記載のAACのためのM/S符号化の帯域状態の決定方法。
- さらに、最小コストパス値を計算するステップを含み、前記ステップは、
修正されたビタビ演算式によってオーディオストリームの各隣の帯域の最小コストパス値を計算するステップを含むことを特徴とする請求項21記載のAACのためのM/S符号化の帯域状態の決定方法。 - さらに、最小コストパス値を計算するステップと含み、前記ステップは、
各コストパス値が第1の帯域のノードから第2の帯域のノードまでであるコストパス値の大部分を計算するステップと、
コストパス値を比較して最小コストパス値を取得するステップと
を含むことを特徴とする請求項27記載のAACのためのM/S符号化の帯域状態の決定方法。 - 前記オーディオストリームは、第1の帯域と第2の帯域との間の四つのコストパス値およびオーディオストリームの残りの隣の帯域間の二つのコストパス値を含むことを特徴とする請求項27記載のAACのためのM/S符号化の帯域状態の決定方法。
- さらに、第1の帯域と第2の帯域との間の最小コストパス値を計算するステップを含み、前記ステップは、
第1の帯域のノード、過渡コストおよび第2の帯域のノードの合計を使用することによって各コストパス値を計算するステップと、
コストパス値を比較して最小コストパス値を取得するステップと
を含むことを特徴とする請求項29記載のAACのためのM/S符号化の帯域状態の決定方法。 - さらに、残りの隣の帯域のNth帯域と(N+1)th帯域との間の最小コストパス値を計算するステップを含み、前記ステップは、
累積値、過渡コストおよび(N+1)th帯域のノードの合計を使用することによって各コストパス値を計算するステップと、
コストパス値を比較して最小コストパス値を取得するステップと
を含むことを特徴とする請求項29記載のAACのためのM/S符号化の帯域状態の決定方法。 - 前記累積値は、(N−1)th帯域とNth帯域との間の最小コストパスを有するNth帯域のノードに属することを特徴とする請求項31記載のAACのためのM/S符号化の帯域状態の決定方法。
- さらに、左信号および右信号のPE値を計算するステップを含み、前記ステップは、
FFTによって左信号および右信号を左FFT信号および右FFT信号に変換するステップと、
左FFT信号および右FFT信号のマスキング閾値を計算するために、左FFT信号および右FFT信号を受信するステップと、
左信号および右信号のPE値をそれぞれ計算するためにマスキング閾値、左FFT信号および右FFT信号を受信するステップと
を含むことを特徴とする請求項21記載のAACのためのM/S符号化の帯域状態の決定方法。 - さらに、ミドル信号およびサイド信号を計算する前に、
MDCTによって左信号および右信号を左MDCT信号および右MDCT信号に変換し、ミドル信号およびサイド信号を計算するステップを含むことを特徴とする請求項21記載のAACのためのM/S符号化の帯域状態の決定方法。 - さらに、ミドル信号およびサイド信号のPE値を計算するステップを含み、前記ステップは、
ミドル信号およびサイド信号のマスキング閾値を計算するステップと、
ミドル信号およびサイド信号のPE値をそれぞれ計算するために、マスキング閾値、ミドル信号およびサイド信号を受信するステップと
を含むことを特徴とする請求項34記載のAACのためのM/S符号化の帯域状態の決定方法。 - ミドル信号およびサイド信号のマスキング閾値を計算するステップを含み、前記ステップは、
MDCTによって左信号および右信号を左MDCT信号および右MDCT信号に変換するステップ
FFTによって左信号および右信号を左FFT信号および右FFT信号に変換するステップと、
左FFT信号および右FFT信号のマスキング閾値を計算するために、左FFT信号および右FFT信号を受信するステップと
左信号および右信号のマスキング閾値を計算するために、左FFT信号および右FFT信号のマスキング閾値、左FFT信号、右FFT信号、左MDCT信号および右MDCT信号を受信するステップと、
ミドル信号および右信号のマスキング閾値をそれぞれ計算するために、左信号および右信号のマスキング閾値を受信するステップと
を含むことを特徴とする請求項35記載のAACのためのM/S符号化の帯域状態の決定方法。 - ミドル信号およびサイド信号のマスキング閾値は、左信号および右信号のマスキング閾値の最小値の半分にそれぞれセットされることを特徴とする請求項36記載のAACのためのM/S符号化の帯域状態の決定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006312942A JP2008129250A (ja) | 2006-11-20 | 2006-11-20 | Aacのためのウィンドウ切り替え方法およびm/s符号化の帯域決定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006312942A JP2008129250A (ja) | 2006-11-20 | 2006-11-20 | Aacのためのウィンドウ切り替え方法およびm/s符号化の帯域決定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008129250A true JP2008129250A (ja) | 2008-06-05 |
Family
ID=39555132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006312942A Pending JP2008129250A (ja) | 2006-11-20 | 2006-11-20 | Aacのためのウィンドウ切り替え方法およびm/s符号化の帯域決定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008129250A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538041A (zh) * | 2014-12-11 | 2015-04-22 | 深圳市智美达科技有限公司 | 异常声音检测方法及系统 |
JP2018513402A (ja) * | 2015-03-09 | 2018-05-24 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | マルチチャンネル信号を符号化又は復号化するための装置と方法 |
CN110097889A (zh) * | 2013-02-20 | 2019-08-06 | 弗劳恩霍夫应用研究促进协会 | 生成经编码的信号或对经编码的信号解码的设备及方法 |
JP2019207419A (ja) * | 2013-07-22 | 2019-12-05 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 変換長切替えをサポートする周波数ドメインオーディオ符号化 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02259699A (ja) * | 1989-03-30 | 1990-10-22 | Sharp Corp | 録音再生装置 |
JPH08179794A (ja) * | 1994-12-21 | 1996-07-12 | Sony Corp | サブバンド符号化方法及び装置 |
JP2000004163A (ja) * | 1998-06-16 | 2000-01-07 | Matsushita Electric Ind Co Ltd | オーディオ符号化のための動的ビット割り当て方法及び装置 |
-
2006
- 2006-11-20 JP JP2006312942A patent/JP2008129250A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02259699A (ja) * | 1989-03-30 | 1990-10-22 | Sharp Corp | 録音再生装置 |
JPH08179794A (ja) * | 1994-12-21 | 1996-07-12 | Sony Corp | サブバンド符号化方法及び装置 |
JP2000004163A (ja) * | 1998-06-16 | 2000-01-07 | Matsushita Electric Ind Co Ltd | オーディオ符号化のための動的ビット割り当て方法及び装置 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11621008B2 (en) | 2013-02-20 | 2023-04-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap |
CN110097889B (zh) * | 2013-02-20 | 2023-09-01 | 弗劳恩霍夫应用研究促进协会 | 生成经编码的信号或对经编码的信号解码的设备及方法 |
CN110097889A (zh) * | 2013-02-20 | 2019-08-06 | 弗劳恩霍夫应用研究促进协会 | 生成经编码的信号或对经编码的信号解码的设备及方法 |
US11682408B2 (en) | 2013-02-20 | 2023-06-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating an encoded signal or for decoding an encoded audio signal using a multi overlap portion |
US10984809B2 (en) | 2013-07-22 | 2021-04-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Frequency-domain audio coding supporting transform length switching |
JP2019207419A (ja) * | 2013-07-22 | 2019-12-05 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 変換長切替えをサポートする周波数ドメインオーディオ符号化 |
US11862182B2 (en) | 2013-07-22 | 2024-01-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Frequency-domain audio coding supporting transform length switching |
CN104538041A (zh) * | 2014-12-11 | 2015-04-22 | 深圳市智美达科技有限公司 | 异常声音检测方法及系统 |
US10762909B2 (en) | 2015-03-09 | 2020-09-01 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding or decoding a multi-channel signal |
US11508384B2 (en) | 2015-03-09 | 2022-11-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding or decoding a multi-channel signal |
US10388289B2 (en) | 2015-03-09 | 2019-08-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding or decoding a multi-channel signal |
JP2018513402A (ja) * | 2015-03-09 | 2018-05-24 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | マルチチャンネル信号を符号化又は復号化するための装置と方法 |
US11955131B2 (en) | 2015-03-09 | 2024-04-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding or decoding a multi-channel signal |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5539203B2 (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
JP3623449B2 (ja) | 符号化されたオーディオ信号中のエラーを隠蔽する方法と装置および符号化されたオーディオ信号を復号化する方法と装置 | |
KR102205596B1 (ko) | 다중 채널 신호 인코딩 방법 및 인코더 | |
US7613603B2 (en) | Audio coding device with fast algorithm for determining quantization step sizes based on psycho-acoustic model | |
KR101395257B1 (ko) | 스펙트럼 포락선의 수를 산출하기 위한 장치 및 그 방법 | |
JP5485909B2 (ja) | オーディオ信号処理方法及び装置 | |
JP2019502966A (ja) | チャネル間時間差を推定する装置及び方法 | |
US20070016405A1 (en) | Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition | |
US9293146B2 (en) | Intensity stereo coding in advanced audio coding | |
BR112019020515A2 (pt) | aparelho para pós-processamento de um sinal de áudio usando uma detecção de localização transiente | |
JP2001053617A (ja) | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 | |
KR20080039462A (ko) | 스테레오 부호화 장치, 스테레오 복호 장치 및 스테레오부호화 방법 | |
EP2345026A1 (en) | Apparatus for binaural audio coding | |
TW200417990A (en) | Encoder and a encoding method capable of detecting audio signal transient | |
US10762912B2 (en) | Estimating noise in an audio signal in the LOG2-domain | |
WO2019170955A1 (en) | Audio coding | |
MXPA06006497A (es) | Metodo para el ocultamiento de errores en el dominio de frecuencia, mejorado. | |
KR100477701B1 (ko) | Mpeg 오디오 인코딩 방법 및 mpeg 오디오 인코딩장치 | |
JP2008129250A (ja) | Aacのためのウィンドウ切り替え方法およびm/s符号化の帯域決定方法 | |
WO2009129822A1 (en) | Efficient encoding and decoding for multi-channel signals | |
JP2006003580A (ja) | オーディオ信号符号化装置及びオーディオ信号符号化方法 | |
JP2012519309A (ja) | オーディオ符号化のための量子化 | |
JP4055122B2 (ja) | 音響信号符号化方法及び音響信号符号化装置 | |
JP2007004050A (ja) | ステレオ信号の符号化装置及び符号化プログラム | |
KR100640833B1 (ko) | 디지털 오디오의 부호화 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100315 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101201 |