JP7537511B2 - 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 - Google Patents
音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP7537511B2 JP7537511B2 JP2022560569A JP2022560569A JP7537511B2 JP 7537511 B2 JP7537511 B2 JP 7537511B2 JP 2022560569 A JP2022560569 A JP 2022560569A JP 2022560569 A JP2022560569 A JP 2022560569A JP 7537511 B2 JP7537511 B2 JP 7537511B2
- Authority
- JP
- Japan
- Prior art keywords
- channel
- sound signal
- signal
- decoded sound
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 1087
- 238000007670 refining Methods 0.000 title claims description 317
- 238000000034 method Methods 0.000 title claims description 217
- 238000000926 separation method Methods 0.000 claims description 70
- 238000012937 correction Methods 0.000 claims description 46
- 238000000746 purification Methods 0.000 claims description 12
- 230000007423 decrease Effects 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 86
- 238000012545 processing Methods 0.000 description 57
- 238000013139 quantization Methods 0.000 description 31
- 230000008569 process Effects 0.000 description 23
- 230000008878 coupling Effects 0.000 description 22
- 238000010168 coupling process Methods 0.000 description 22
- 238000005859 coupling reaction Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 17
- 238000012986 modification Methods 0.000 description 15
- 230000004048 modification Effects 0.000 description 15
- 238000012805 post-processing Methods 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Description
優先度が異なる2つの回線に接続された端末で音信号を符号化して伝送して復号する技術としては、特許文献2の技術がある。特許文献2には、最低限の品質を確保するための符号を優先度が高いパケットに含めて伝送し、それ以外の符号を優先度が低いパケットに含めて伝送する技術が開示されている(図1などを参照)。
特許文献2のシステムで特許文献1のスケーラブル符号化/復号方式を用いる場合には、送信側で、モノラル符号を優先度が高いパケットに含め、ステレオ符号を優先度が低いパケットに含めるようにすればよい。このようにすることで、受信側では、優先度が高いパケットのみが到着している場合にはモノラル符号のみを用いてモノラル復号音信号を得て、優先度が高いパケットに加えて優先度が低いパケットも到着している場合にはモノラル符号とステレオ符号の両方を用いてステレオ復号音信号を得ることができる。
そこで本発明では、復号音信号を得る元となった符号とは異なる符号であり、かつ、同じ音信号に由来する符号である別符号、から得られた音信号がある場合に、その別符号から得られた音信号を用いて復号音信号を改善することを目的とする。
ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。
まず、各実施形態を説明する前に、発明の適用先となる符号化装置と復号装置について、ステレオのチャネル数が2である場合の例を用いて説明する。
適用先となる符号化装置500は、図32に例示する通り、ダウンミックス部510とモノラル符号化部520とステレオ符号化部530を含む。符号化装置500は、例えば20msの所定の時間長のフレーム単位で、入力された2チャネルステレオの時間領域の音信号を符号化して、後述するモノラル符号CMとステレオ符号CSを得て出力する。符号化装置に入力される2チャネルステレオの時間領域の音信号は、例えば、音声や音楽などの音を2個のマイクロホンそれぞれで収音してAD変換して得られたディジタルの音声信号又は音響信号であり、左チャネルの入力音信号である第一チャネル入力音信号と右チャネルの入力音信号である第二チャネル入力音信号から成る。符号化装置500が出力する符号であるモノラル符号CMとステレオ符号CSは復号装置600へ入力される。符号化装置500は、各フレームについて上述した各部が以下の処理を行う。例えば、フレーム長は20msであり、サンプリング周波数は32kHzである。フレーム当たりのサンプル数をTとすると、この例であれば、Tは640である。
ダウンミックス部510には、符号化装置500に入力された第一チャネル入力音信号と第二チャネル入力音信号が入力される。ダウンミックス部510は、第一チャネル入力音信号と第二チャネル入力音信号から、第一チャネル入力音信号と第二チャネル入力音信号が混合された信号であるダウンミックス信号を得て出力する。ダウンミックス部510は、例えば、下記の第1の方法や第2の方法でダウンミックス信号を得る。
第1の方法では、ダウンミックス部510は、第一チャネル入力音信号X1={x1(1), x1(2), ..., x1(T)}と第二チャネル入力音信号X2={x2(1), x2(2), ..., x2(T)}の対応するサンプルごとのサンプル値の平均値による系列をダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}として得る(ステップS510A)。すなわち、各サンプル番号(各サンプルのインデックス)をtとすると、xM(t)=(x1(t)+x2(t))/2である。
第2の方法では、ダウンミックス部510は、以下のステップS510B-1からステップS510B-3を行う。
モノラル符号化部520には、ダウンミックス部510が出力したダウンミックス信号が入力される。モノラル符号化部520は、入力されたダウンミックス信号を所定の符号化方式でbMビットで符号化してモノラル符号CMを得て出力する。すなわち、入力されたTサンプルのダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}からbMビットのモノラル符号CMを得て出力する。符号化方式としては、どのようなものを用いてもよく、例えば3GPP EVS規格のような符号化方式を用いればよい。
ステレオ符号化部530には、符号化装置500に入力された第一チャネル入力音信号と第二チャネル入力音信号が入力される。ステレオ符号化部530は、第一チャネル入力音信号と第二チャネル入力音信号を所定の符号化方式で合計bsビットで符号化してステレオ符号CSを得て出力する。すなわち、Tサンプルの第一チャネル入力音信号X1={x1(1), x1(2), ..., x1(T)}と、Tサンプルの第二チャネル入力音信号X2={x2(1), x2(2), ..., x2(T)}と、から合計bSビットのステレオ符号CSを得て出力する。符号化方式としては、どのようなものを用いてもよく、例えばMPEG-4 AAC規格のステレオ復号方式に対応するステレオ符号化方式を用いてもよいし、入力された第一チャネル入力音信号と第二チャネル入力音信号それぞれを独立して符号化する符号化方式を用いてもよい。何れの符号化方式を用いた場合でも、符号化により得られた符号を全て合わせたものをステレオ符号CSとすればよい。
適用先となる復号装置600は、図32に例示する通り、モノラル復号部610とステレオ復号部620を含む。復号装置600は、対応する符号化装置500と同じ時間長のフレーム単位で、入力されたモノラル符号CMを復号してモノラルの時間領域の復号音信号であるモノラル復号音信号を得て出力し、入力されたステレオ符号CSを復号して2チャネルステレオの時間領域の復号音信号である第一チャネル復号音信号と第二チャネル復号音信号を得て出力する。復号装置600は、各フレームについて上述した各部が以下の処理を行う。
モノラル復号部610には、復号装置600に入力されたモノラル符号CMが入力される。モノラル復号部610は、モノラル符号CMを所定の復号方式で復号してモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}を得て出力する。すなわち、モノラル復号部610は、ステレオ符号CSを復号して得られた情報もステレオ符号CSも用いずに、ステレオ符号CSとは異なる符号であるモノラル符号CMを復号して、モノラル復号音信号^XMを得る。所定の復号方式としては、対応する符号化装置500のモノラル符号化部520で用いた符号化方式に対応する復号方式を用いる。モノラル符号CMのビット数はbMである。
ステレオ復号部620には、復号装置600に入力されたステレオ符号CSが入力される。ステレオ復号部620は、ステレオ符号CSを所定の復号方式で復号して、左チャネルの復号音信号である第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と、右チャネルの復号音信号である第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}と、を得て出力する。すなわち、ステレオ復号部620は、モノラル符号CMを復号して得られた情報もモノラル符号CMも用いずに、モノラル符号CMとは異なる符号であるステレオ符号CSを復号して、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を得る。所定の復号方式としては、対応する符号化装置500のステレオ符号化部530で用いた符号化方式に対応する復号方式を用いる。ステレオ符号CSの合計ビット数はbSである。
第1実施形態の音信号精製装置は、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。以下、第1実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて説明する。
第1実施形態の音信号精製装置1101は、図1に例示する通り、第一チャネル精製重み推定部1111-1と第一チャネル信号精製部1121-1と第二チャネル精製重み推定部1111-2と第二チャネル信号精製部1121-2を含む。音信号精製装置1101は、例えば20msの所定の時間長のフレーム単位で、ステレオの各チャネルについて、モノラル復号音信号と当該チャネルの復号音信号から、当該チャネルの復号音信号を改善した音信号である精製済復号音信号を得て出力する。音信号精製装置1101にフレーム単位で入力される各チャネルの復号音信号は、例えば、上述した復号装置600のステレオ復号部620が、モノラル符号CMを復号して得られた情報もモノラル符号CMも用いずに、モノラル符号CMとは異なる符号であるbSビットのステレオ符号CSを復号して得たTサンプルの第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}とTサンプルの第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}である。音信号精製装置1101にフレーム単位で入力されるモノラルの復号音信号は、例えば、上述した復号装置600のモノラル復号部610が、ステレオ符号CSを復号して得られた情報もステレオ符号CSも用いずに、ステレオ符号CSとは異なる符号であるbMビットのモノラル符号CMを復号して得たTサンプルのモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}である。モノラル符号CMは、ステレオ符号CSが由来する音信号と同じ音信号(すなわち、符号化装置500に入力された第一チャネル入力音信号X1と第二チャネル入力音信号X2)に由来する符号ではあるが、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を得る元となった符号(すなわち、ステレオ符号CS)とは異なる符号である。第一チャネルのチャネル番号n(チャネルのインデックスn)を1とし、第二チャネルのチャネル番号nを2とすると、音信号精製装置1101は、各フレームについて、図2に例示するステップS1111-nとステップS1121-nを各チャネルについて行う。すなわち、以降では、特に断りがない限りは、“-n”が付された各部/各ステップは、各チャネルに対応するものが存在し、具体的には、“-n”に代えて“-1”が付された第一チャネル用の各部/各ステップと、“-n”に代えて“-2”が付された第二チャネルの各部/各ステップと、が存在する。同様に、以降では、特に断りがない限りは、添え字などに“n”との記載が付されているものは、各チャネル番号に対応するものが存在することを表し、具体的には、“n”に代えて“1”が付された第一チャネルに対応するものと、“n”に代えて“2”が付された第二チャネルに対応するものと、が存在する。
第nチャネル精製重み推定部1111-nは、第nチャネル精製重みαnを得て出力する(ステップ1111-n)。第nチャネル精製重み推定部1111-nは、後述する量子化誤差を最小化する原理に基づく方法で第nチャネル精製重みαnを得る。量子化誤差を最小化する原理とこの原理に基づく方法については後述する。第nチャネル精製重み推定部1111-nには、必要に応じて、図1に一点鎖線で示すように、音信号精製装置1101に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号精製装置1101に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、が入力される。第nチャネル精製重み推定部1111-nが得る第nチャネル精製重みαnは、0以上1以下の値である。ただし、第nチャネル精製重み推定部1111-nは、フレームごとに後述する方法で第nチャネル精製重みαnを得るので、全てのフレームで第nチャネル精製重みαnが0や1になることはない。すなわち、第nチャネル精製重みαnが0より大きく1未満の値となるフレームが存在する。言い換えると、全てのフレームのうちの少なくとも何れかのフレームでは、第nチャネル精製重みαnは0より大きく1未満の値である。
第nチャネル信号精製部1121-nには、音信号精製装置1101に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号精製装置1101に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、第nチャネル精製重み推定部1111-nが出力した第nチャネル精製重みαnと、が入力される。第nチャネル信号精製部1121-nは、対応するサンプルtごとに、第nチャネル精製重みαnとモノラル復号音信号^XMのサンプル値^xM(t)とを乗算した値αn×^xM(t)と、第nチャネル精製重みαnを1から減算した値(1-αn)と第nチャネル復号音信号^Xnのサンプル値^xn(t)とを乗算した値(1-αn)×^xn(t)と、を加算した値~xn(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}として得て出力する(ステップS1121-n)。すなわち、~xn(t)=(1-αn)×^xn(t)+αn×^xM(t)である。
以下、量子化誤差を最小化する原理について説明する。ステレオ符号化部530とステレオ復号部620で用いる符号化方式/復号方式次第では、各チャネルの入力音信号の符号化に用いるビット数は陽に定まっていないこともあり得るが、以下では、第nチャネルの入力音信号Xnの符号化に用いるビット数がbnであるとして説明する。
また、モノラル復号音信号^XMの各サンプル値にαnを乗算して得た値の系列{αn×xM(1), αn×xM(2), ..., αn×xM(T)}が有する量子化誤差のサンプルあたりの平均エネルギーは、下記の式(4)のように推定できる。
以下、上述した量子化誤差を最小化する原理に基づいて第nチャネル精製重みαnを得る方法の具体例を説明する。
第1例は、上述した量子化誤差を最小化する原理によって第nチャネル精製重みαnを得る例である。第1例の第nチャネル精製重み推定部1111-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を用いて、式(5)により第nチャネル精製重みαnを得る。第nチャネル精製重み推定部1111-nがビット数bnとビット数bMを特定する方法は全ての例で共通するので、最後の具体例である第7例の後で説明する。
第2例は、第1例で得られる第nチャネル精製重みαnと類似する特徴をもつ第nチャネル精製重みαnを得る例である。第2例の第nチャネル精製重み推定部1111-nは、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnとモノラル符号CMのビット数bMを少なくとも用いて、0より大きく1未満の値であり、bnとbMが等しいときには0.5であり、bnがbMよりも多いほど0.5より0に近い値であり、bMがbnよりも多いほど0.5より1に近い値を、第nチャネル精製重みαnとして得る。
第3例は、第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}が同一の系列とみなせない場合も考慮して第nチャネル精製重みαnを得る例である。第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}が同一の系列とみなせるほどには各サンプル値が近い値を有しない場合には、上述した重み付き平均(1-αn)×^xn(t)+αn×^xM(t)により得られる信号は、量子化誤差がない場合でも第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とは異なる波形となってしまう。したがって、第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}に全く相関がない場合には、上述した重み付き平均の処理を行わずに、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}をそのまま第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}としたほうが、精度を維持できる。
例えば、第nチャネル精製重み推定部1111-nは、図3に示すステップS1111-1-nからステップS1111-3-nを行う。第nチャネル精製重み推定部1111-nは、まず、第nチャネル復号音信号^Xnとモノラル復号音信号^XMから、式(6)により正規化された内積値rnを得る(ステップS1111-1-n)。第nチャネル精製重み推定部1111-nは、また、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、から下記の式(8)により補正係数cnを得る(ステップS1111-2-n)。
第nチャネル精製重み推定部1111-nは、次に、ステップS1111-1-nで得た正規化された内積値rnとステップS1111-2-nで得た補正係数cnとを乗算した値cn×rnを第nチャネル精製重みαnとして得る(ステップS1111-3-n)。すなわち、第3例の第nチャネル精製重み推定部1111-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を用いて式(8)により得られる補正係数cnと、第nチャネル復号音信号^Xnのモノラル復号音信号^XMに対する正規化された内積値rnと、を乗算した値cn×rnを第nチャネル精製重みαnとして得る。
第4例は、第3例で得られる第nチャネル精製重みαnと類似する特徴をもつ第nチャネル精製重みαnを得る例である。第4例の第nチャネル精製重み推定部1111-nは、第nチャネル復号音信号^Xnと、モノラル復号音信号^XMと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を少なくとも用いて、0以上1以下の値であり、第nチャネル復号音信号^Xnとモノラル復号音信号^XMの間の相関が高いほど1に近い値であり、当該相関が低いほど0に近い値であるrnと、0より大きく1未満の値であり、bnとbMが同じであるときには0.5であり、bnがbMよりも多いほど0.5より0に近く、bnがbMよりも少ないほど0.5より1に近い値である補正係数cnと、を乗算した値cn×rnを第nチャネル精製重みαnとして得る。
第5例は、第3例の正規化された内積値に代えて、過去のフレームの入力の値も考慮した値を用いる例である。第5例は、第nチャネル精製重みαnのフレーム間の急激な変動を少なくして、当該変動に由来して精製済復号音信号に生じるノイズを低減するものである。例えば、第5例の第nチャネル精製重み推定部1111-nは、図4に示す通り、下記のステップS1111-11-nからステップS1111-13-nと、第3例と同様のステップS1111-2-nとステップS1111-3-nと、を行う。
ここで、εnは、0より大きく1未満の予め定めた値であり、第nチャネル精製重み推定部1111-n内に予め記憶されている。なお、第nチャネル精製重み推定部1111-nは、得た内積値En(0)を、「前のフレームで用いた内積値En(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1111-n内に記憶する。
ここで、εMは、0より大きく1未満で予め定めた値であり、第nチャネル精製重み推定部1111-n内に予め記憶されている。なお、第nチャネル精製重み推定部1111-nは、得たモノラル復号音信号のエネルギーEM(0)を、「前のフレームで用いたモノラル復号音信号のエネルギーEM(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1111-n内に記憶する。なお、第1精製重み推定部1111-1でも第2精製重み推定部1111-2でもEM(0)の値は同じであるため、第1精製重み推定部1111-1と第2精製重み推定部1111-2の何れか一方でEM(0)を得て、得たEM(0)をもう一方の第n精製重み推定部1111-nで用いるようにしてもよい。
例えば、第一チャネル入力音信号に含まれている音声や音楽などの音と、第二チャネル入力音信号に含まれている音声や音楽などの音と、が異なる場合には、モノラル復号音信号には第一チャネル入力音信号の成分も第二チャネル入力音信号の成分も含まれる。このため、第一チャネル精製重みα1として大きな値を用いるほど、第一チャネル精製済復号音信号の中に本来聴こえるはずのない第二チャネルの入力音信号に由来する音が含まれているように聴こえてしまうという課題がある。同様に、第二チャネル精製重みα2として大きな値を用いるほど、第二チャネル精製済復号音信号の中に本来聴こえるはずのない第一チャネルの入力音信号に由来する音が含まれているように聴こえてしまうという課題がある。そこで、聴覚品質を考慮して、第6例の第nチャネル精製重み推定部1111-nは、上述した各例により求まる各チャネルの第nチャネル精製重みαnより小さい値を、第nチャネル精製重みαnとして得る。例えば、第3例または第5例に基づく第6例の第nチャネル精製重み推定部1111-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、0より大きく1未満の予め定めた値であるλとを乗算した値λ×cn×rnを第nチャネル精製重みαnとして得る。
第6例で説明した聴覚品質の課題が生じるのは第一チャネル入力音信号と第二チャネル入力音信号の相関が小さいときであって、この課題は第一チャネル入力音信号と第二チャネル入力音信号の相関が大きいときにはあまり生じない。そこで、第7例の第nチャネル精製重み推定部1111-nは、第6例の予め定めた値に代えて、第一チャネル復号音信号と第二チャネル復号音信号の相関係数であるチャネル間相関係数γを用いて、第一チャネル復号音信号と第二チャネル復号音信号の相関が大きいほど、精製済復号音信号が有する量子化誤差のエネルギーを小さくすることを優先し、第一チャネル復号音信号と第二チャネル復号音信号の相関が小さいほど、聴覚品質の劣化を抑えることを優先する。以下、第7例が第3例及び第5例と異なる点について説明する。
第7例の音信号精製装置1101は、図1に破線で示すようにチャネル間関係情報推定部1131も含む。チャネル間関係情報推定部1131には、音信号精製装置1101に入力された第一チャネル復号音信号と、音信号精製装置1101に入力された第二チャネル復号音信号と、が少なくとも入力される。第7例のチャネル間関係情報推定部1131は、第一チャネル復号音信号と第二チャネル復号音信号を少なくとも用いてチャネル間相関係数γを得て出力する(ステップS1131)。チャネル間相関係数γは、第一チャネル復号音信号と第二チャネル復号音信号の相関係数であり、第一チャネル復号音信号のサンプル列{^x1(1), ^x1(2), ..., ^x1(T)}と第二チャネル復号音信号のサンプル列{^x2(1), ^x2(2), ..., ^x2(T)}の相関係数γ0であってもよいし、時間差を考慮した相関係数、例えば、第一チャネル復号音信号のサンプル列と、τサンプルだけ当該サンプル列より後にずれた位置にある第二チャネル復号音信号のサンプル列と、の相関係数γτであってもよい。なお、チャネル間関係情報推定部1131は、チャネル間相関係数γを、周知の何れの方法で得てもよいし、後述する第2実施形態のチャネル間関係情報推定部1132で説明する方法で得てもよい。なお、チャネル間相関係数γを得る方法次第では、図1に二点鎖線で示すように、音信号精製装置1101に入力されたモノラル復号音信号も、チャネル間関係情報推定部1131に入力される。
第7例の第nチャネル精製重み推定部1111-nは、第3例と第5例のステップS1111-3-nに代えて、第3例のステップS1111-1-nまたは第5例のステップSS1111-13-nで得た正規化された内積値rnと、ステップS1111-2-nで得た補正係数cnと、ステップS1131で得たチャネル間相関係数γと、を乗算した値γ×cn×rnを第nチャネル精製重みαnとして得る(ステップS1111-3’-n)。すなわち、第7例の第nチャネル精製重み推定部1111-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、第一チャネル復号音信号と第二チャネル復号音信号の相関係数であるチャネル間相関係数γと、を乗算した値γ×cn×rnを第nチャネル精製重みαnとして得る。
モノラル復号部610が用いる復号方式におけるモノラル符号CMのビット数bMが全てのフレームで同じである場合には(すなわち、モノラル復号部610が用いる復号方式が固定ビットレートの復号方式である場合には)、第nチャネル精製重み推定部1111-n内の図示しない記憶部にモノラル符号CMのビット数bMを記憶しておけばよい。モノラル復号部610が用いる復号方式におけるモノラル符号CMのビット数bMがフレームによって異なることがある場合には(すなわち、モノラル復号部610が用いる復号方式が可変ビットレートの復号方式である場合には)、モノラル復号部610がモノラル符号CMのビット数bMを出力するようにして、ビット数bMが第nチャネル精製重み推定部1111-nに入力されるようにすればよい。
ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnが全てのフレームで同じである場合には、第nチャネル精製重み推定部1111-n内の図示しない記憶部にステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnを記憶しておけばよい。ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnがフレームによって異なることがある場合には、ステレオ復号部620がビット数bnを出力するようにして、ビット数bnが第nチャネル精製重み推定部1111-nに入力されるようにすればよい。ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnが陽に定まっていない場合には、第nチャネル精製重み推定部1111-nは、例えば、下記の第1の方法や第2の方法により得た値をbnとして用いればよい。なお、第1の方法でも第2の方法でも、ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsが全てのフレームで同じである場合には、第nチャネル精製重み推定部1111-n内の図示しない記憶部にステレオ符号CSのビット数bSを記憶しておけばよく、ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsがフレームによって異なることがある場合には、ステレオ復号部620がビット数bSを出力するようにして、ビット数bSが第nチャネル精製重み推定部1111-nに入力されるようにすればよい。
第nチャネル精製重み推定部1111-nは、ステレオ符号CSのビット数bsをチャネル数で除算して得られる値(すなわち、2チャネルステレオの場合には、bs/2、bsの2分の1)をbnとして用いる。すなわち、ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsが全てのフレームで同じである場合には、第nチャネル精製重み推定部1111-n内の図示しない記憶部にステレオ符号CSのビット数bSをチャネル数で除算して得た値をビット数bnとして記憶しておけばよい。ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsがフレームによって異なることがある場合には、第nチャネル精製重み推定部1111-nがビット数bsをチャネル数で除算した値をbnとして得るようにすればよい。
第nチャネル精製重み推定部1111-nは、音信号精製装置1101に入力された全チャネルの復号音信号を用いて、ステレオ符号CSのビット数bsをチャネル数で除算して得た値と、第nチャネルの復号音信号^Xnのエネルギーと全チャネルの復号音信号のエネルギーの相乗平均との比の対数値に比例する値と、を加算した値をbnとして得る。一般にステレオ符号化では、各チャネルの入力音信号に対して各信号のエネルギーの対数値に比例したビット数を割り当てることで効率よく圧縮を行うことができる。このことから、ステレオ符号化部530が用いる符号化方式とステレオ復号部620が用いる復号方式においてもステレオ符号CSにおいて前述したビット数の割り当てがされていると想定してビット数bnを推定するのが第2の方法である。より具体的には、例えば、第nチャネル精製重み推定部1111-nは、第1チャネル復号音信号^X1のエネルギーe1と第2チャネルの復号音信号^X2のエネルギーe2を用いた下記の式(12)によりビット数bnを得ればよい。
音信号精製装置1101がチャネル間相関係数γを用いる場合でも、復号装置600のステレオ復号部620がチャネル間相関係数γを得た場合には、音信号精製装置1101にはチャネル間関係情報推定部1131を備えずに、復号装置600のステレオ復号部620が得たチャネル間相関係数γが音信号精製装置1101に入力されるようにして、音信号精製装置1101は入力されたチャネル間相関係数γを用いるようにしてもよい。
第2実施形態の音信号精製装置も、第1実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。第2実施形態の音信号精製装置が第1実施形態の音信号精製装置と異なる点は、モノラルの復号音信号そのものではなく、モノラルの復号音信号を各チャネル用にアップミックスした信号を用いることである。以下、第2実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、第1実施形態の音信号精製装置と異なる点を中心に説明する。
第2実施形態の音信号精製装置1102は、図5に例示する通り、チャネル間関係情報推定部1132とモノラル復号音アップミックス部1172と第一チャネル精製重み推定部1112-1と第一チャネル信号精製部1122-1と第二チャネル精製重み推定部1112-2と第二チャネル信号精製部1122-2を含む。音信号精製装置1102は、各フレームについて、図6に例示する通り、ステップS1132とステップS1172と、各チャネルについてのステップS1112-nとステップS1122-nと、を行う。
チャネル間関係情報推定部1132には、音信号精製装置1102に入力された第一チャネル復号音信号^X1と、音信号精製装置1102に入力された第二チャネル復号音信号^X2と、が少なくとも入力される。チャネル間関係情報推定部1132は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いてチャネル間関係情報を得て出力する(ステップS1132)。チャネル間関係情報は、ステレオのチャネル間の関係を表す情報である。チャネル間関係情報の例は、チャネル間時間差τ、チャネル間相関係数γ、である。チャネル間関係情報推定部1132は、複数種類のチャネル間関係情報を得てもよく、例えばチャネル間時間差τとチャネル間相関係数γを得てもよい。
チャネル間関係情報推定部1132は、また、第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}を下記の式(22)のようにフーリエ変換することにより、0からT-1の各周波数kにおける周波数スペクトルf2(k)を得る。
チャネル間関係情報推定部1132は、次に、0からT-1の各周波数kの周波数スペクトルf1(k)とf2(k)を用いて、下記の式(23)により、各周波数kにおける位相差のスペクトルφ(k)を得る。
チャネル間関係情報推定部1132は、次に、0からT-1の位相差のスペクトルを逆フーリエ変換することにより、下記の式(24)のようにτmaxからτminまでの各候補サンプル数τcandについて位相差信号ψ(τcand)を得る。
ここで得られた位相差信号ψ(τcand)の絶対値は、第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}の時間差の尤もらしさに対応したある種の相関を表すものである。そこで、チャネル間関係情報推定部1132は、次に、各候補サンプル数τcandに対する位相差信号ψ(τcand)の絶対値を相関値γcandとして得る。チャネル間関係情報推定部1132は、次に、位相差信号ψ(τcand)の絶対値である相関値γcandが最大となる候補サンプル数τcandをチャネル間時間差τとして得る。
なお、式(26)により得られる正規化された相関値は、0以上1以下の値であり、τcandがチャネル間時間差として尤もらしいほど1に近く、τcandがチャネル間時間差として尤もらしくないほど0に近い性質を示す値である。
チャネル間の相関が高い場合、つまり、符号化装置500に入力された第一チャネル入力音信号と符号化装置500に入力された第二チャネル入力音信号が時間差を合わせれば似た波形である場合には、符号化装置500のダウンミックス部510において効率よくダウンミックスがされていると想定すると、モノラル復号音信号は、第一チャネル復号音信号と第二チャネル復号音信号のうち先行するチャネルの復号音信号と時間的に同期する信号を多く含む。したがって、式(27)により得られるチャネル間相関係数γは、第一チャネル復号音信号に含まれる音信号が先行している場合には1に近い値であり、第二チャネル復号音信号に含まれる音信号が先行している場合には-1に近い値であり、チャネル間の相関が低いほど絶対値が小さくなる。このことから、式(27)により得られる値が最小となる重みwcandをチャネル間相関係数γとして用いることができる。なお、この方法では、チャネル間関係情報推定部1132は、チャネル間時間差τを得ずにチャネル間相関係数γを得ることが可能である。
モノラル復号音アップミックス部1172には、音信号精製装置1102に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、チャネル間関係情報推定部1132が出力したチャネル間関係情報と、が入力される。モノラル復号音アップミックス部1172は、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}とチャネル間関係情報を用いたアップミックス処理を行うことにより、モノラル復号音信号を各チャネル用にアップミックスした信号である第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}を得て出力する(ステップS1172)。モノラル復号音アップミックス部1172が用いるチャネル間関係情報は、ステレオのチャネル間の関係を表す情報であり、1種類であっても複数種類であってもよい。モノラル復号音アップミックス部1172は、例えば以下のように、チャネル間時間差τ、または、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報と第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報と、を用いたアップミックス処理を行えばよい。
モノラル復号音アップミックス部1172は、第一チャネルが先行している場合(すなわち、チャネル間時間差τが正の値である場合、または、第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報が第一チャネルが先行していることを表す場合)には、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}をそのまま第一チャネルアップミックス済モノラル復号音信号^XM1={^xM1(1), ^xM1(2), ..., ^xM1(T)}として出力し、モノラル復号音信号を|τ|サンプル(チャネル間時間差τの絶対値分のサンプル数、チャネル間時間差τが表す大きさ分のサンプル数)遅らせた信号{^xM(1-|τ|), ^xM(2-|τ|), ..., ^xM(T-|τ|)}を第二チャネルアップミックス済モノラル復号音信号^XM2={^xM2(1), ^xM2(2), ..., ^xM2(T)}として出力する。モノラル復号音アップミックス部1172は、第二チャネルが先行している場合(すなわち、チャネル間時間差τが負の値である場合、または、第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報が第二チャネルが先行していることを表す場合)には、モノラル復号音信号を|τ|サンプル遅らせた信号{^xM(1-|τ|), ^xM(2-|τ|), ..., ^xM(T-|τ|)}を第一チャネルアップミックス済モノラル復号音信号^XM1={^xM1(1), ^xM1(2), ..., ^xM1(T)}として出力し、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}をそのまま第二チャネルアップミックス済モノラル復号音信号^XM2={^xM2(1), ^xM2(2), ..., ^xM2(T)}として出力する。モノラル復号音アップミックス部1172は、何れのチャネルも先行していない場合(すなわち、チャネル間時間差τが0である場合、または、第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報が何れのチャネルも先行していないことを表す場合)には、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}をそのまま第一チャネルアップミックス済モノラル復号音信号^XM1={^xM1(1), ^xM1(2), ..., ^xM1(T)}と第二チャネルアップミックス済モノラル復号音信号^XM2={^xM2(1), ^xM2(2), ..., ^xM2(T)}として出力する。すなわち、モノラル復号音アップミックス部1172は、第一チャネルと第二チャネルのうちの上述した到達時間が短いほうのチャネルについては、入力されたモノラル復号音信号をそのまま当該チャネルのアップミックス済モノラル復号音信号として出力し、第一チャネルと第二チャネルのうちの上述した到達時間が長いほうのチャネルについては、入力されたモノラル復号音信号をチャネル間時間差τの絶対値|τ|だけ遅らせた信号を当該チャネルのアップミックス済モノラル復号音信号として出力する。なお、モノラル復号音アップミックス部1172ではモノラル復号音信号を遅延させた信号を得るために過去のフレームのモノラル復号音信号を用いることから、モノラル復号音アップミックス部1172内の図示しない記憶部には、過去のフレームで入力されたモノラル復号音信号を予め定めたフレーム数分だけ記憶しておく。
第nチャネル精製重み推定部1112-nは、第nチャネル精製重みαnを得て出力する(ステップS1112-n)。第nチャネル精製重み推定部1112-nは、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法と同様の方法で、第nチャネル精製重みαnを得る。第nチャネル精製重み推定部1112-nが得る第nチャネル精製重みαnは、0以上1以下の値である。ただし、第nチャネル精製重み推定部1112-nは、フレームごとに後述する方法で第nチャネル精製重みαnを得るので、全てのフレームで第nチャネル精製重みαnが0や1になることはない。すなわち、第nチャネル精製重みαnが0より大きく1未満の値となるフレームが存在する。言い換えると、全てのフレームのうちの少なくとも何れかのフレームでは、第nチャネル精製重みαnは0より大きく1未満の値である。
第1例の第nチャネル精製重み推定部1112-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を用いて、下記の式(2-5)により第nチャネル精製重みαnを得る。
第2例の第nチャネル精製重み推定部1112-nは、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を少なくとも用いて、0より大きく1未満の値であり、bnとbMが等しいときには0.5であり、bnがbMよりも多いほど0.5より0に近い値であり、bMがbnよりも多いほど0.5より1に近い値を、第nチャネル精製重みαnとして得る。
第3例の第nチャネル精製重み推定部1112-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を用いて
より得られる補正係数cnと、第nチャネル復号音信号^Xnの第nチャネルアップミックス済モノラル復号音信号^XMnに対する正規化された内積値rnと、を乗算した値cn×rnを第nチャネル精製重みαnとして得る。
第nチャネル精製重み推定部1112-nは、また、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を用いて、式(2-8)により補正係数cnを得る(ステップS1112-32-n)。第nチャネル精製重み推定部1112-nは、次に、ステップS1112-31-nで得た正規化された内積値rnとステップS1112-32-nで得た補正係数cnとを乗算した値cn×rnを第nチャネル精製重みαnとして得る(ステップS1112-33-n)。
第4例の第nチャネル精製重み推定部1112-nは、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数をbnとし、モノラル符号CMのビット数をbMとして、0以上1以下の値であり、第nチャネル復号音信号^Xnと第nチャネルアップミックス済モノラル復号音信号^XMnの間の相関が高いほど1に近い値であり、当該相関が低いほど0に近い値であるrnと、0より大きく1未満の値であり、bnとbMが同じであるときには0.5であり、bnがbMよりも多いほど0.5より0に近く、bnがbMよりも少ないほど0.5より1に近い値である補正係数cnと、を乗算した値cn×rnを第nチャネル精製重みαnとして得る。
第5例の第nチャネル精製重み推定部1112-nは、例えば、下記のステップS1112-51-nからステップS1112-55-nを行うことで第nチャネル精製重みαnを得る。
ここで、εnは、0より大きく1未満の予め定めた値であり、第nチャネル精製重み推定部1112-n内に予め記憶されている。なお、第nチャネル精製重み推定部1112-nは、得た内積値En(0)を、「前のフレームで用いた内積値En(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1112-n内に記憶する。
ここで、εMnは、0より大きく1未満で予め定めた値であり、第nチャネル精製重み推定部1112-n内に予め記憶されている。なお、第nチャネル精製重み推定部1112-nは、得た第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)を、「前のフレームで用いた第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1112-n内に記憶する。
第6例の第nチャネル精製重み推定部1112-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、0より大きく1未満の予め定めた値であるλと、を乗算した値λ×cn×rnを第nチャネル精製重みαnとして得る。
第7例の第nチャネル精製重み推定部1112-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、第一チャネル復号音信号と第二チャネル復号音信号の相関係数であるチャネル間相関係数γと、を乗算した値γ×cn×rnを第nチャネル精製重みαnとして得る。
第nチャネル信号精製部1122-nには、音信号精製装置1102に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、モノラル復号音アップミックス部1172が出力した第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、第nチャネル精製重み推定部1112-nが出力した第nチャネル精製重みαnと、が入力される。第nチャネル信号精製部1122-nは、対応するサンプルtごとに、第nチャネル精製重みαnと第nチャネルアップミックス済モノラル復号音信号^XMnのサンプル値^xMn(t)とを乗算した値αn×^xMn(t)と、第nチャネル精製重みαnを1から減算した値(1-αn)と第nチャネル復号音信号^Xnのサンプル値^xn(t)とを乗算した値(1-αn)×^xn(t)と、を加算した値~xn(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn (2), ..., ~xn(T)}として得て出力する(ステップS1122-n)。すなわち、~xn(t)=(1-αn)×^xn(t)+αn×^xMn(t)である。
第3実施形態の音信号精製装置も、第1実施形態と第2実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。第3実施形態の音信号精製装置が第2実施形態の音信号精製装置と異なる点は、チャネル間関係情報を復号音信号からではなく符号から得ることである。以下、第3実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、第2実施形態の音信号精製装置と異なる点を説明する。
第3実施形態の音信号精製装置1103は、図7に例示する通り、チャネル間関係情報復号部1143とモノラル復号音アップミックス部1172と第一チャネル精製重み推定部1112-1と第一チャネル信号精製部1122-1と第二チャネル精製重み推定部1112-2と第二チャネル信号精製部1122-2を含む。音信号精製装置1103は、各フレームについて、図8に例示する通り、ステップS1143とステップS1172と、各チャネルについてのステップS1112-nとステップS1122-nと、を行う。第3実施形態の音信号精製装置1103が第2実施形態の音信号精製装置1102と異なる点は、チャネル間関係情報推定部1132に代えてチャネル間関係情報復号部1143を備えて、ステップS1132に代えてステップS1143を行うことである。また、第3実施形態の音信号精製装置1103には、各フレームのチャネル間関係情報符号CCも入力される。チャネル間関係情報符号CCは、上述した符号化装置500が備える図示しないチャネル間関係情報符号化部が得て出力した符号であってもよいし、上述した符号化装置500のステレオ符号化部530が得て出力したステレオ符号CSに含まれる符号であってもよい。以下、第3実施形態の音信号精製装置1103が第2実施形態の音信号精製装置1102と異なる点について説明する。
チャネル間関係情報復号部1143には、音信号精製装置1103に入力されたチャネル間関係情報符号CCが入力される。チャネル間関係情報復号部1143は、チャネル間関係情報符号CCを復号してチャネル間関係情報を得て出力する(ステップS1143)。チャネル間関係情報復号部1143が得るチャネル間関係情報は、第2実施形態のチャネル間関係情報推定部1132が得るチャネル間関係情報と同じである。
チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、ステップS1143で得られるのと同じチャネル間関係情報が、復号装置600のステレオ復号部620内で復号により得られている。したがって、チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、復号装置600のステレオ復号部620が得たチャネル間関係情報が第3実施形態の音信号精製装置1103に入力されるようにして、第3実施形態の音信号精製装置1103はチャネル間関係情報復号部1143を備えずにステップS1143を行わないようにしてもよい。
第4実施形態の音信号精製装置も、第1実施形態から第3実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。以下、第4実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、上述した各実施形態の音信号精製装置を適宜参照して説明する。
復号音共通信号推定部1251には、音信号精製装置1201に入力された第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}が少なくとも入力される。復号音共通信号推定部1251は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いて、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}を得て出力する(ステップS1251)。復号音共通信号推定部1251は、例えば、下記の何れかの方法を用いればよい。
第1の方法では、復号音共通信号推定部1251は、音信号精製装置1201に入力されたモノラル復号音信号^XMも用いて、復号音共通信号^YMを得て出力する。すなわち、第1の方法を用いる場合には、復号音共通信号推定部1251には、音信号精製装置1201に入力された第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}とモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}が入力される。復号音共通信号推定部1251は、まず、ステレオの全チャネルの復号音信号の重み付き平均(第1から第Nまでの全チャネルの復号音信号^X1, ..., ^XNの重み付き平均)とモノラル復号音信号の差が最小となる重み係数を得る(ステップS1251A-1)。例えば、復号音共通信号推定部1251は、-1以上1以下のwcandのうち下記の式(41)により得られる値が最小となるwcandを重み係数wとして得る。
復号音共通信号推定部1251は、次に、ステップS1251A-1で得た重み係数を用いたステレオの全チャネルの復号音信号の重み付き平均(第1から第Nまでの全チャネルの復号音信号^X1, ..., ^XNの重み付き平均)を復号音共通信号として得る(ステップS1251A-2)。例えば、復号音共通信号推定部1251は、各サンプル番号tについて、下記の式(42)により復号音共通信号^yM(t)を得る。
第2の方法は、符号化装置500のダウンミックス部510が[[ダウンミックス信号を得る第2の方法]]でダウンミックス信号を得た場合に対応する方法である。第2の方法では、復号音共通信号推定部1251は、後述するステップS1251Bを行うことで復号音共通信号^YMを得る。第2の方法を用いる場合には、音信号精製装置1201は、後述するステップS1251Bで用いるチャネル間相関係数γと先行チャネル情報を得るために、図9に破線で示すようにチャネル間関係情報推定部1231も含み、復号音共通信号推定部1251がステップS1251Bを行う前にチャネル間関係情報推定部1231が下記のステップS1231を行う。
チャネル間関係情報推定部1231には、音信号精製装置1201に入力された第一チャネル復号音信号^X1と、音信号精製装置1201に入力された第二チャネル復号音信号^X2と、が少なくとも入力される。チャネル間関係情報推定部1231は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いてチャネル間相関係数γと先行チャネル情報をチャネル間関係情報として得て出力する(ステップS1231)。チャネル間相関係数γは、第一チャネル復号音信号と第二チャネル復号音信号の相関係数である。先行チャネル情報は、第一チャネルと第二チャネルの何れが先行しているかを表す情報である。例えば、チャネル間関係情報推定部1231は、下記のステップS1231-1からステップS1231-3を行う。
復号音共通信号推定部1251には、音信号精製装置1201に入力された第一チャネル復号音信号^X1と、音信号精製装置1201に入力された第二チャネル復号音信号^X2と、チャネル間関係情報推定部1231が出力したチャネル間相関係数γと、チャネル間関係情報推定部1231が出力した先行チャネル情報と、が入力される。復号音共通信号推定部1251は、復号音共通信号^YMに、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2のうちの先行しているチャネルの復号音信号のほうが、チャネル間相関係数γが大きいほど大きく含まれるように、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を重み付け平均して復号音共通信号^YMを得て出力する(S1251B)。
共通信号精製重み推定部1211は、共通信号精製重みαMを得て出力する(ステップ1211)。共通信号精製重み推定部1211は、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法と同様の方法で、共通信号精製重みαMを得る。共通信号精製重み推定部1211が得る共通信号精製重みαMは、0以上1以下の値である。ただし、共通信号精製重み推定部1211は、フレームごとに後述する方法で共通信号精製重みαMを得るので、全てのフレームで共通信号精製重みαMが0や1になることはない。すなわち、共通信号精製重みαMが0より大きく1未満の値となるフレームが存在する。言い換えると、全てのフレームのうちの少なくとも何れかのフレームでは、共通信号精製重みαMは0より大きく1未満の値である。
[[ステレオ符号CSのビット数のうちのビット数bmを特定する第1の方法]]
共通信号精製重み推定部1211は、ステレオ符号CSのビット数bsと予め定めた0より大きく1未満の値とを乗算した値をbmとして用いる。すなわち、ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsが全てのフレームで同じである場合には、共通信号精製重み推定部1211内の図示しない記憶部にステレオ符号CSのビット数bSと予め定めた0より大きく1未満の値とを乗算した値をビット数bmとして記憶しておけばよい。ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsがフレームによって異なることがある場合には、共通信号精製重み推定部1211がビット数bsと予め定めた0より大きく1未満の値とを乗算した値をbmとして得るようにすればよい。例えば、共通信号精製重み推定部1211は、チャネル数の逆数を予め定めた0より大きく1未満の値として用いればよい。すなわち、共通信号精製重み推定部1211は、ステレオ符号CSのビット数bsをチャネル数で除算した値をbmとして用いてもよい。
共通信号精製重み推定部1211は、チャネル間相関係数γを用いてフレーム毎にbmを推定してもよい。チャネル間の相関が高い場合には、ステレオ符号CSのビット数bSのうちの大半がチャネル間で共通する信号成分を表現するために用いられ、チャネル間の相関が低い場合には、チャネル数に対して均等に近いビット数が用いられていると予想される。したがって、第2の方法においては、共通信号精製重み推定部1211は、チャネル間相関係数γが1に近いほど、ビット数bsに近い値をbmとして得て、チャネル間相関係数γが0に近いほど、bsをチャネル数で除算した値に近い値をbmとして得るようにすればよい。なお、第2の方法を用いる場合には、音信号精製装置1201は、チャネル間相関係数γを得るために図9に破線で示すようにチャネル間関係情報推定部1231も含み、チャネル間関係情報推定部1231は[[復号音共通成分信号を得る第2の方法]]の説明箇所や第2実施形態のチャネル間関係情報推定部1132の説明箇所で上述したようにチャネル間相関係数γを得る。
第1例の共通信号精製重み推定部1211は、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を用いて、下記の式(4-5)により共通信号精製重みαMを得る。
第2例の共通信号精製重み推定部1211は、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を少なくとも用いて、0より大きく1未満の値であり、bmとbMが等しいときには0.5であり、bmがbMよりも多いほど0.5より0に近い値であり、bMがbmよりも多いほど0.5より1に近い値を、共通信号精製重みαMとして得る。
第3例の共通信号精製重み推定部1211は、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMとを用いて、
により得られる補正係数cMと、復号音共通信号^YMのモノラル復号音信号^XMに対する正規化された内積値rMと、を乗算した値cM×rMを共通信号精製重みαMとして得る。
共通信号精製重み推定部1211は、また、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を用いて、式(4-8)により補正係数cMを得る(ステップS1211-32-n)。共通信号精製重み推定部1211は、次に、ステップS1211-31-nで得た正規化された内積値rMとステップS1211-32-nで得た補正係数cMとを乗算した値cM×rMを共通信号精製重みαMとして得る(ステップS1211-33-n)。
第4例の共通信号精製重み推定部1211は、ステレオ符号CSのビット数のうちの共通信号に相当するビット数をbmとし、モノラル符号CMのビット数をbMとして、0以上1以下の値であり、復号音共通信号^YMとモノラル復号音信号^XMの間の相関が高いほど1に近い値であり、当該相関が低いほど0に近い値であるrMと、0より大きく1未満の値であり、bmとbMが同じであるときには0.5であり、bmがbMよりも多いほど0.5より0に近く、bmがbMよりも少ないほど0.5より1に近い値である補正係数cMと、を乗算した値cM×rMを共通信号精製重みαMとして得る。
第5例の共通信号精製重み推定部1211は、下記のステップS1211-51からステップS1211-55を行うことで共通信号精製重みαMを得る。
ここで、εmは、0より大きく1未満の予め定めた値であり、共通信号精製重み推定部1211内に予め記憶されている。なお、共通信号精製重み推定部1211は、得た内積値Em(0)を、「前のフレームで用いた内積値Em(-1)」として次のフレームで用いるために、共通信号精製重み推定部1211内に記憶する。
ここで、εMは、0より大きく1未満で予め定めた値であり、共通信号精製重み推定部1211内に予め記憶されている。なお、共通信号精製重み推定部1211は、得たモノラル復号音信号のエネルギーEM(0)を、「前のフレームで用いたモノラル復号音信号のエネルギーEM(-1)」として次のフレームで用いるために、共通信号精製重み推定部1211内に記憶する。
第6例の共通信号精製重み推定部1211は、第3例で説明した正規化された内積値rMと補正係数cM、または、第5例で説明した正規化された内積値rMと補正係数cM、と、0より大きく1未満の予め定めた値であるλと、を乗算した値λ×cM×rMを共通信号精製重みαMとして得る。
第7例の共通信号精製重み推定部1211は、第3例で説明した正規化された内積値rMと補正係数cM、または、第5例で説明した正規化された内積値rMと補正係数cM、と、第一チャネル復号音信号と第二チャネル復号音信号の相関係数であるチャネル間相関係数γと、を乗算した値γ×cM×rMを共通信号精製重みαMとして得る。第7例の音信号精製装置1201は、チャネル間相関係数γを得るために図9に破線で示すようにチャネル間関係情報推定部1231も含み、チャネル間関係情報推定部1231は、[[復号音共通成分信号を得る第2の方法]]の説明箇所や第2実施形態のチャネル間関係情報推定部1132の説明箇所で上述したようにチャネル間相関係数γを得る。
共通信号精製部1221には、復号音共通信号推定部1251が出力した復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、音信号精製装置1201に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、共通信号精製重み推定部1211が出力した共通信号精製重みαMと、が入力される。共通信号精製部1221は、対応するサンプルtごとに、共通信号精製重みαMとモノラル復号音信号^XMのサンプル値^xM(t)とを乗算した値αM×^xM(t)と、共通信号精製重みαMを1から減算した値(1-αM)と復号音共通信号^YMのサンプル値^yM(t)とを乗算した値(1-αM)×^yM(t)と、を加算した値~yM(t)による系列を精製済共通信号~YM={~yM(1), ~yM(2), ..., ~yM(T)}として得て出力する(ステップS1221)。すなわち、~yM(t)=(1-αM)×^yM(t)+αM×^xM(t)である。
第nチャネル分離結合重み推定部1281-nには、音信号精製装置1201に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号推定部1251が出力した復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、が入力される。第nチャネル分離結合重み推定部1281-nは、第nチャネル復号音信号^Xnと復号音共通信号^YMとから、第nチャネル復号音信号^Xnの復号音共通信号^YMに対する正規化された内積値を第nチャネル分離結合重みβnとして得る(ステップS1281-n)。第nチャネル分離結合重みβnは、具体的には式(43)の通りである。
第nチャネル分離結合部1291-nには、音信号精製装置1201に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号推定部1251が出力した復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、共通信号精製部1221が出力した精製済共通信号~YM={~yM(1), ~yM(2), ..., ~yM(T)}と、第nチャネル分離結合重み推定部1281-nが出力した第nチャネル分離結合重みβnと、が入力される。第nチャネル分離結合部1291-nは、対応するサンプルtごとに、第nチャネル復号音信号^Xnのサンプル値^xn(t)から、第nチャネル分離結合重みβnと復号音共通信号^YMのサンプル値^yM(t)とを乗算した値βn×^yM(t)を減算し、第nチャネル分離結合重みβnと精製済共通信号~YMのサンプル値~yM(t)とを乗算した値βn×~yM(t)を加算した値~xn(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}として得て出力する(ステップS1291-n)。すなわち、~xn(t)=^xn(t)-βn×^yM(t)+βn×~yM(t)である。
音信号精製装置1201がチャネル間関係情報を用いる場合であって、音信号精製装置1201が用いるチャネル間関係情報の少なくとも何れかを復号装置600のステレオ復号部620が得た場合には、復号装置600のステレオ復号部620が得たチャネル間関係情報が音信号精製装置1201に入力されるようにして、音信号精製装置1201は入力されたチャネル間関係情報を用いるようにしてもよい。
第5実施形態の音信号精製装置は、第4実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。第5実施形態の音信号精製装置が第4実施形態の音信号精製装置と異なる点は、モノラル復号音信号そのものではなく、モノラル復号音信号を各チャネル用にアップミックスした信号を用いることと、復号音共通信号そのものではなく、復号音共通信号を各チャネル用にアップミックスした信号を用いること、である。以下、第5実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、第4実施形態の音信号精製装置と異なる点を中心に、上述した各実施形態の音信号精製装置を適宜参照して、説明する。
第5実施形態の音信号精製装置1202は、図11に例示する通り、チャネル間関係情報推定部1232と復号音共通信号推定部1251と共通信号精製重み推定部1211と共通信号精製部1221と復号音共通信号アップミックス部1262と精製済共通信号アップミックス部1272と第一チャネル分離結合重み推定部1282-1と第一チャネル分離結合部1292-1と第二チャネル分離結合重み推定部1282-2と第二チャネル分離結合部1292-2を含む。音信号精製装置1202は、各フレームについて、図12に例示する通り、ステップS1232とステップS1251とステップS1211とステップS1221とステップS1262とステップS1272と、各チャネルについてのステップS1282-nとステップS1292-nと、を行う。
チャネル間関係情報推定部1232には、音信号精製装置1202に入力された第一チャネル復号音信号^X1と、音信号精製装置1202に入力された第二チャネル復号音信号^X2と、が少なくとも入力される。チャネル間関係情報推定部1232は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いてチャネル間関係情報を得て出力する(ステップS1232)。チャネル間関係情報は、ステレオのチャネル間の関係を表す情報である。チャネル間関係情報の例は、チャネル間時間差τ、チャネル間相関係数γ、先行チャネル情報、である。チャネル間関係情報推定部1232は、複数種類のチャネル間関係情報を得てもよく、例えばチャネル間時間差τとチャネル間相関係数γと先行チャネル情報を得てもよい。チャネル間関係情報推定部1232がチャネル間時間差τを得る方法とチャネル間相関係数γを得る方法としては、例えば、第2実施形態のチャネル間関係情報推定部1132の説明箇所で上述した方法を用いればよい。復号音共通信号推定部1251が先行チャネル情報を用いる場合には、チャネル間関係情報推定部1232は先行チャネル情報を得る。チャネル間関係情報推定部1232が先行チャネル情報を得る方法としては、例えば、第4実施形態のチャネル間関係情報推定部1231の説明箇所で上述した方法を用いればよい。なお、チャネル間関係情報推定部1132の説明箇所で上述した方法で得たチャネル間時間差τには、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報と第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報とが含まれているので、チャネル間関係情報推定部1232が先行チャネル情報も得て出力する場合には、チャネル間時間差τに代えて、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報を得て出力してもよい。
復号音共通信号推定部1251は、第4実施形態の復号音共通信号推定部1251と同様に、復号音共通成分信号^YMを得て出力する(ステップS1251)。
共通信号精製重み推定部1211は、第4実施形態の共通信号精製重み推定部1211と同様に、共通信号精製重みαMを得て出力する(ステップ1211)。
共通信号精製部1221は、第4実施形態の共通信号精製部1221と同様に、精製済共通信号~YMを得て出力する(ステップS1221)。
復号音共通信号アップミックス部1262には、復号音共通信号推定部1251が出力した復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、チャネル間関係情報推定部1232が出力したチャネル間関係情報と、が少なくとも入力される。復号音共通信号アップミックス部1262は、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}とチャネル間関係情報を少なくとも用いたアップミックス処理を行うことにより、復号音共通信号を各チャネル用にアップミックスした信号である第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}を得て出力する(ステップS1262)。復号音共通信号アップミックス部1262は、例えば以下の第1の方法または第2の方法で第nチャネルアップミックス済共通信号^YMnを得ればよい。
復号音共通信号アップミックス部1262は、第2実施形態のモノラル復号音アップミックス部1172と同じ処理を、モノラル復号音信号^XMを復号音共通信号^YMと読み替え、第nチャネルアップミックス済モノラル復号音信号^XMnを第nチャネルアップミックス済共通信号^YMnと読み替えて行うことで、第nチャネルアップミックス済共通信号^YMnを得る。すなわち、復号音共通信号アップミックス部1262は、第一チャネルが先行している場合には、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}をそのまま第一チャネルアップミックス済共通信号^YM1={^yM1(1), ^yM1(2), ..., ^yM1(T)}として出力し、復号音共通信号を|τ|サンプル遅らせた信号{^yM(1-|τ|), ^yM(2-|τ|), ..., ^yM(T-|τ|)}を第二チャネルアップミックス済共通信号^YM2={^yM2(1), ^yM2(2), ..., ^yM2(T)}として出力する。復号音共通信号アップミックス部1262は、第二チャネルが先行している場合には、復号音共通信号を|τ|サンプル遅らせた信号{^yM(1-|τ|), ^yM(2-|τ|), ..., ^yM(T-|τ|)}を第一チャネルアップミックス済共通信号^YM1={^yM1(1), ^yM1(2), ..., ^yM1(T)}として出力し、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}をそのまま第二チャネルアップミックス済共通信号^YM2={^yM2(1), ^yM2(2), ..., ^yM2(T)}として出力する。復号音共通信号アップミックス部1262は、何れのチャネルも先行していない場合には、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}をそのまま第一チャネルアップミックス済共通信号^YM1={^yM1(1), ^yM1(2), ..., ^yM1(T)}と第二チャネルアップミックス済共通信号^YM2={^yM2(1), ^yM2(2), ..., ^yM2(T)}として出力する。
チャネル間の相関が小さい場合には、第1の方法のような復号音共通信号^YMへの時間差の付与だけでは、良好な第nチャネルアップミックス済共通信号^YMnを得られないことがある。そこで、復号音共通信号アップミックス部1262が、チャネル間の相関を考慮して、復号音共通信号^YMと各チャネルの復号音信号^Xnとの重み付き平均をとって第nチャネルアップミックス済共通信号^YMnを得るのが第2の方法である。第2の方法では、復号音共通信号アップミックス部1262は、第1の方法で得られる第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}それぞれを暫定第nチャネルアップミックス済共通信号Y'Mn={y'Mn(1), y'Mn(2), ..., y'Mn(T)}として(すなわち、第1の方法と同じ処理を、第nチャネルアップミックス済共通信号^YMnを暫定第nチャネルアップミックス済共通信号Y'Mnと読み替えて行うことで暫定第nチャネルアップミックス済共通信号Y'Mn={y'Mn(1), y'Mn(2), ..., y'Mn(T)}を得て)、対応するサンプルtごとに、第nチャネル復号音^xn(t)と暫定第nチャネルアップミックス済共通信号y'Mn(t)とチャネル間相関係数γを用いて以下の式(51)により得られる^yMn(n)による系列を第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}として得る。
なお、復号音共通信号アップミックス部1262が第2の方法を行う場合には、図11に破線で示すように、音信号精製装置1202に入力された第一チャネル復号音信号と音信号精製装置1202に入力された第二チャネル復号音信号も復号音共通成分アップミックス部1262に入力される。
精製済共通信号アップミックス部1272には、共通信号精製部1221が出力した精製済共通信号~YM={~yM(1), ~yM(2), ..., ~yM(T)}と、チャネル間関係情報推定部1232が出力したチャネル間関係情報と、が入力される。精製済共通信号アップミックス部1272は、精製済共通信号~YM={~yM(1), ~yM(2), ..., ~yM(T)}とチャネル間関係情報を用いたアップミックス処理を行うことにより、精製済共通信号を各チャネル用にアップミックスした信号である第nチャネルアップミックス済精製済信号~YMn={~yMn(1), ~yMn(2), ..., ~yMn(T)}を得て出力する(ステップS1272)。精製済共通信号アップミックス部1272は、第2実施形態のモノラル復号音アップミックス部1172と同じ処理を、モノラル復号音信号^XMを精製済共通信号~YMと読み替え、第nチャネルアップミックス済モノラル復号音信号^XMnを第nチャネルアップミックス済精製済信号~YMnと読み替えて行えばよい。
第nチャネル分離結合重み推定部1282-nには、音信号精製装置1202に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号アップミックス部1262が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、が入力される。第nチャネル分離結合重み推定部1282-nは、第nチャネル復号音信号^Xnと第nチャネルアップミックス済共通信号^YMnとから、第nチャネル復号音信号^Xnの第nチャネルアップミックス済共通信号^YMnに対する正規化された内積値を第nチャネル分離結合重みβnとして得て出力する(ステップS1282-n)。第nチャネル分離結合重みβnは、具体的には式(52)の通りである。
第nチャネル分離結合部1292-nには、音信号精製装置1202に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号アップミックス部1262が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、精製済共通信号アップミックス部1272が出力した第nチャネルアップミックス済精製済信号~YMn={~yMn(1), ~yMn(2), ..., ~yMn(T)}と、第nチャネル分離結合重み推定部1282-nが出力した第nチャネル分離結合重みβnと、が入力される。第nチャネル分離結合部1292-nは、対応するサンプルtごとに、第nチャネル復号音信号^Xnのサンプル値^xn(t)から、第nチャネル分離結合重みβnと第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値βn×^yMm(t)を減算し、第nチャネル分離結合重みβnと第nチャネルアップミックス済精製済信号~YMnのサンプル値~yMn(t)とを乗算した値βn×~yMn(t)を加算した値~xn(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}として得て出力する(ステップS1292-n)。すなわち、~xn(t)=^xn(t)-βn×^yMn(t)+βn×~yMn(t)である。
第6実施形態の音信号精製装置も、第4実施形態と第5実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。第6実施形態の音信号精製装置が第5実施形態の音信号精製装置と異なる点は、チャネル間関係情報を復号音信号からではなく符号から得ることである。以下、第6実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、第5実施形態の音信号精製装置と異なる点を説明する。
第6実施形態の音信号精製装置1203は、図13に例示する通り、チャネル間関係情報復号部1243と復号音共通信号推定部1251と共通信号精製重み推定部1211と共通信号精製部1221と復号音共通信号アップミックス部1262と精製済共通信号アップミックス部1272と第一チャネル分離結合重み推定部1282-1と第一チャネル分離結合部1292-1と第二チャネル分離結合重み推定部1282-2と第二チャネル分離結合部1292-2を含む。音信号精製装置1203は、各フレームについて、図14に例示する通り、ステップS1243とステップS1251とステップS1211とステップS1221とステップS1262とステップS1272と、各チャネルについてのステップS1282-nとステップS1292-nと、を行う。第6実施形態の音信号精製装置1203が第5実施形態の音信号精製装置1202と異なる点は、チャネル間関係情報推定部1232に代えてチャネル間関係情報復号部1243を備えて、ステップS1232に代えてステップS1243を行うことである。また、第6実施形態の音信号精製装置1203には、各フレームのチャネル間関係情報符号CCも入力される。チャネル間関係情報符号CCは、上述した符号化装置500が備える図示しないチャネル間関係情報符号化部が得て出力した符号であってもよいし、上述した符号化装置500のステレオ符号化部530が得て出力したステレオ符号CSに含まれる符号であってもよい。以下、第6実施形態の音信号精製装置1203が第5実施形態の音信号精製装置1202と異なる点について説明する。
チャネル間関係情報復号部1243には、音信号精製装置1203に入力されたチャネル間関係情報符号CCが入力される。チャネル間関係情報復号部1243は、チャネル間関係情報符号CCを復号してチャネル間関係情報を得て出力する(ステップS1243)。チャネル間関係情報復号部1243が得るチャネル間関係情報は、第5実施形態のチャネル間関係情報推定部1232が得るチャネル間関係情報と同じである。
チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、ステップS1243で得られるのと同じチャネル間関係情報が、復号装置600のステレオ復号部620内で復号により得られている。したがって、チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、復号装置600のステレオ復号部620が得たチャネル間関係情報が第6実施形態の音信号精製装置1203に入力されるようにして、第6実施形態の音信号精製装置1203はチャネル間関係情報復号部1243を備えずにステップS1243を行わないようにしてもよい。
第7実施形態の音信号精製装置も、第1実施形態から第6実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。以下、第7実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、上述した各実施形態の音信号精製装置を適宜参照して説明する。
チャネル間関係情報推定部1331には、音信号精製装置1301に入力された第一チャネル復号音信号^X1と、音信号精製装置1301に入力された第二チャネル復号音信号^X2と、が少なくとも入力される。チャネル間関係情報推定部1331は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いてチャネル間関係情報を得て出力する(ステップS1331)。チャネル間関係情報は、ステレオのチャネル間の関係を表す情報である。チャネル間関係情報の例は、チャネル間時間差τ、チャネル間相関係数γ、先行チャネル情報、である。チャネル間関係情報推定部1331は、複数種類のチャネル間関係情報を得てもよく、例えばチャネル間時間差τとチャネル間相関係数γと先行チャネル情報を得てもよい。チャネル間関係情報推定部1331がチャネル間時間差τを得る方法とチャネル間相関係数γを得る方法としては、例えば、第2実施形態のチャネル間関係情報推定部1132の説明箇所で上述した方法を用いればよい。復号音共通信号推定部1351が先行チャネル情報を用いる場合には、チャネル間関係情報推定部1331は先行チャネル情報を得る。チャネル間関係情報推定部1331が先行チャネル情報を得る方法としては、例えば、第4実施形態のチャネル間関係情報推定部1231の説明箇所で上述した方法を用いればよい。なお、チャネル間関係情報推定部1132の説明箇所で上述した方法で得たチャネル間時間差τには、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報と第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報とが含まれているので、チャネル間関係情報推定部1331が先行チャネル情報も得て出力する場合には、チャネル間時間差τに代えて、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報を得て出力してもよい。
復号音共通信号推定部1351には、音信号精製装置1301に入力された第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}が少なくとも入力される。復号音共通信号推定部1351は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いて、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}を得て出力する(ステップS1351)。復号音共通信号推定部1351が復号音共通信号^YMを得る方法としては、例えば、第4実施形態の復号音共通信号推定部1251の説明箇所で上述した方法を用いればよい。
復号音共通信号アップミックス部1361には、復号音共通信号推定部1351が出力した復号音共通成分信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、チャネル間関係情報推定部1331が出力したチャネル間関係情報と、が少なくとも入力される。復号音共通信号アップミックス部1361は、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}とチャネル間関係情報を少なくとも用いたアップミックス処理を行うことにより、復号音共通信号を各チャネル用にアップミックスした信号である第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}を得て出力する(ステップS1361)。復号音共通信号アップミックス部1361は、第5実施形態の復号音共通信号アップミックス部1262と同じ処理を行えばよい。すなわち、例えば、第5実施形態の復号音共通信号アップミックス部1262の説明箇所で上述した第1の方法または第2の方法を行えばよい。なお、復号音共通信号アップミックス部1262が第2の方法を行う場合には、図15に破線で示すように、音信号精製装置1301に入力された第一チャネル復号音信号と音信号精製装置1301に入力された第二チャネル復号音信号も復号音共通信号アップミックス部1361に入力される。
モノラル復号音アップミックス部1371には、音信号精製装置1301に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、チャネル間関係情報推定部1331が出力したチャネル間関係情報と、が入力される。モノラル復号音アップミックス部1371は、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}とチャネル間関係情報を用いたアップミックス処理を行うことにより、モノラル復号音信号を各チャネル用にアップミックスした信号である第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}を得て出力する(ステップS1371)。モノラル復号音アップミックス部1371は、第2実施形態のモノラル復号音アップミックス部1172と同じ処理を行えばよい。
第nチャネル精製重み推定部1311-nは、第nチャネル精製重みαMnを得て出力する(ステップ1311-n)。第nチャネル精製重み推定部1311-nは、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法と同様の方法で、第nチャネル精製重みαMnを得る。第nチャネル精製重み推定部1311-nが得る第nチャネル精製重みαMnは、0以上1以下の値である。ただし、第nチャネル精製重み推定部1311-nは、フレームごとに後述する方法で第nチャネル精製重みαMnを得るので、全てのフレームで第nチャネル精製重みαMnが0や1になることはない。すなわち、第nチャネル精製重みαMnが0より大きく1未満の値となるフレームが存在する。言い換えると、全てのフレームのうちの少なくとも何れかのフレームでは、第nチャネル精製重みαMnは0より大きく1未満の値である。
第1例の第nチャネル精製重み推定部1311-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を用いて、下記の式(7-5)により第nチャネル精製重みαMnを得る。
なお、第1例で得られる第nチャネル精製重みαMnは全てのチャネルで同じ値であるので、音信号精製装置1301が、各チャネルの第nチャネル精製重み推定部1311-nに代えて、全てのチャネルに共通する精製重み推定部1311を備えて、精製重み推定部1311が式(7-5)により全てのチャネルに共通する第nチャネル精製重みαMnを得るようにしてもよい。
第2例の第nチャネル精製重み推定部1311-nは、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を少なくとも用いて、0より大きく1未満の値であり、bmとbMが等しいときには0.5であり、bmがbMよりも多いほど0.5より0に近い値であり、bMがbmよりも多いほど0.5より1に近い値を、第nチャネル精製重みαMnとして得る。なお、第2例で得られる第nチャネル精製重みαMnは全てのチャネルで同じ値であってもよいので、音信号精製装置1301が、各チャネルの第nチャネル精製重み推定部1311-nに代えて、全てのチャネルに共通する精製重み推定部1311を備えて、精製重み推定部1311が上述した条件を満たす全てのチャネルに共通する第nチャネル精製重みαMnを得るようにしてもよい。
第3例の第nチャネル精製重み推定部1311-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMとを用いて、
により得られる補正係数cnと、第nチャネルアップミックス済共通信号^YMnの第nチャネルアップミックス済モノラル復号音信号^XMnに対する正規化された内積値rnと、を乗算した値cn×rnを第nチャネル精製重みαMnとして得る。
第nチャネル精製重み推定部1311-nは、また、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を用いて、式(7-8)により補正係数cnを得る(ステップS1311-32-n)。第nチャネル精製重み推定部1311-nは、次に、ステップS1311-31-nで得た正規化された内積値rnとステップS1311-32-nで得た補正係数cnとを乗算した値cn×rnを第nチャネル精製重みαMnとして得る(ステップS1311-33-n)。
第4例の第nチャネル精製重み推定部1311-nは、ステレオ符号CSのビット数のうちの共通信号に相当するビット数をbmとし、モノラル符号CMのビット数をbMとして、0以上1以下の値であり、第nチャネルアップミックス済共通信号^YMnと第nチャネルアップミックス済モノラル復号音信号^XMnの間の相関が高いほど1に近い値であり、当該相関が低いほど0に近い値であるrnと、0より大きく1未満の値であり、bmとbMが同じであるときには0.5であり、bmがbMよりも多いほど0.5より0に近く、bmがbMよりも少ないほど0.5より1に近い値である補正係数cnと、を乗算した値cn×rnを第nチャネル精製重みαMnとして得る。
第5例の第nチャネル精製重み推定部1311-nは、下記のステップS1311-51-nからステップS1311-55-nを行うことで第nチャネル精製重みαMnを得る。
ここで、εnは、0より大きく1未満の予め定めた値であり、第nチャネル精製重み推定部1311-n内に予め記憶されている。なお、第nチャネル精製重み推定部1311-nは、得た内積値En(0)を、「前のフレームで用いた内積値En(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1311-n内に記憶する。
ここで、εMnは、0より大きく1未満で予め定めた値であり、第nチャネル精製重み推定部1311-n内に予め記憶されている。なお、第nチャネル精製重み推定部1311-nは、得た第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)を、「前のフレームで用いた第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1311-n内に記憶する。
第6例の第nチャネル精製重み推定部1311-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、0より大きく1未満の予め定めた値であるλと、を乗算した値λ×cn×rnを第nチャネル精製重みαMnとして得る。
第7例の第nチャネル精製重み推定部1311-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、チャネル間関係情報推定部1331が得たチャネル間相関係数γと、を乗算した値γ×cn×rnを第nチャネル精製重みαMnとして得る。
第nチャネル信号精製部1321-nには、復号音共通信号アップミックス部1361が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、モノラル復号音アップミックス部1371が出力した第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、第nチャネル精製重み推定部1311-nが出力した第nチャネル精製重みαMnと、が入力される。第nチャネル信号精製部1321-nは、対応するサンプルtごとに、第nチャネル精製重みαMnと第nチャネルアップミックス済モノラル復号音信号^XMnのサンプル値^xMn(t)とを乗算した値αMn×^xMn(t)と、第nチャネル精製重みαMnを1から減算した値(1-αMn)と第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値(1-αMn)×^yMn(t)と、を加算した値~yMn(t)による系列を第nチャネル精製済アップミックス済信号~YMn={~yMn(1), ~yMn(2), ..., ~yMn(T)}として得て出力する(ステップS1321-n)。すなわち、~yMn(t)=(1-αMn)×^yMn(t)+αMn×^xMn(t)である。
第nチャネル分離結合重み推定部1381-nには、音信号精製装置1301に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号アップミックス部1361が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、が入力される。第nチャネル分離結合重み推定部1381-nは、第nチャネル復号音信号^Xnと第nチャネルアップミックス済共通信号^YMnとから、第nチャネル復号音信号^Xnの第nチャネルアップミックス済共通信号^YMnに対する正規化された内積値を第nチャネル分離結合重みβnとして得て出力する(ステップS1381-n)。第nチャネル分離結合重みβnは、具体的には式(71)の通りである。
第nチャネル分離結合部1391-nには、音信号精製装置1301に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号アップミックス部1361が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、第nチャネル信号精製部1321-nが出力した第nチャネル精製済アップミックス済信号~YMn={~yMn(1), ~yMn(2), ..., ~yMn(T)}と、第nチャネル分離結合重み推定部1381-nが出力した第nチャネル分離結合重みβnと、が入力される。第nチャネル分離結合部1391-nは、対応するサンプルtごとに、第nチャネル復号音信号^Xnのサンプル値^xn(t)から、第nチャネル分離結合重みβnと第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値βn×^yMm(t)を減算し、第nチャネル分離結合重みβnと第nチャネル精製済アップミックス済信号~YMnのサンプル値~yMn(t)とを乗算した値βn×~yMn(t)を加算した値~xn(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}として得て出力する(ステップS1391-n)。すなわち、~xn(t)=^xn(t)-βn×^yMn(t)+βn×~yMn(t)である。
第8実施形態の音信号精製装置も、第7実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。第8実施形態の音信号精製装置が第7実施形態の音信号精製装置と異なる点は、チャネル間関係情報を復号音信号からではなく符号から得ることである。以下、第8実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、第7実施形態の音信号精製装置と異なる点を説明する。
第8実施形態の音信号精製装置1302は、図17に例示する通り、チャネル間関係情報復号部1342と復号音共通信号推定部1351と復号音共通信号アップミックス部1361とモノラル復号音アップミックス部1371と第一チャネル精製重み推定部1311-1と第一チャネル信号精製部1321-1と第一チャネル分離結合重み推定部1381-1と第一チャネル分離結合部1391-1と第二チャネル精製重み推定部1311-2と第二チャネル信号精製部1321-2と第二チャネル分離結合重み推定部1381-2と第二チャネル分離結合部1391-2を含む。音信号精製装置1302は、各フレームについて、図18に例示する通り、ステップS1342とステップS1351とステップS1361とステップS1371と、各チャネルについてのステップS1311-nとステップS1321-nとステップS1381-nとステップS1391-nと、を行う。第8実施形態の音信号精製装置1302が第7実施形態の音信号精製装置1301と異なる点は、チャネル間関係情報推定部1331に代えてチャネル間関係情報復号部1342を備えて、ステップS1331に代えてステップS1342を行うことである。また、第8実施形態の音信号精製装置1302には、各フレームのチャネル間関係情報符号CCも入力される。チャネル間関係情報符号CCは、上述した符号化装置500が備える図示しないチャネル間関係情報符号化部が得て出力した符号であってもよいし、上述した符号化装置500のステレオ符号化部530が得て出力したステレオ符号CSに含まれる符号であってもよい。以下、第8実施形態の音信号精製装置1302が第7実施形態の音信号精製装置1301と異なる点について説明する。
チャネル間関係情報復号部1342には、音信号精製装置1302に入力されたチャネル間関係情報符号CCが入力される。チャネル間関係情報復号部1342は、チャネル間関係情報符号CCを復号してチャネル間関係情報を得て出力する(ステップS1342)。チャネル間関係情報復号部1342が得るチャネル間関係情報は、第7実施形態のチャネル間関係情報推定部1331が得るチャネル間関係情報と同じである。
チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、ステップS1342で得られるのと同じチャネル間関係情報が、復号装置600のステレオ復号部620内で復号により得られている。したがって、チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、復号装置600のステレオ復号部620が得たチャネル間関係情報が第8実施形態の音信号精製装置1302に入力されるようにして、第8実施形態の音信号精製装置1302はチャネル間関係情報復号部1342を備えずにステップS1342を行わないようにしてもよい。
入力音信号を符号化・復号して得られる復号音信号は、符号化処理による歪みによって高い周波数成分の位相が入力音信号に対して回転している。モノラル復号音信号を得た符号化/復号方式とステレオの各チャネルの復号音信号を得た符号化/復号方式とは独立した異なる符号化/復号方式であることから、モノラル復号部610が得たモノラル復号音信号とステレオ復号部620が得たステレオの各チャネルの復号音信号の高域成分は相関が小さく、上述した音信号精製装置の信号精製部や各チャネルの分離結合部における時間領域での重み付き加算の処理(以下、便宜的に「時間領域での信号精製処理」という)により高域成分のエネルギーが低下してしまうことがあり、これにより各チャネルの精製済復号音信号がこもって聴こえる場合がある。信号精製処理前の信号の高域成分を用いて高域のエネルギーを補償することでこのこもりを解消するのが、第9実施形態の音信号高域補償装置である。
第9実施形態の音信号高域補償装置201は、図19に例示する通り、第一チャネル高域補償利得推定部211-1と第一チャネル高域補償部221-1と第二チャネル高域補償利得推定部211-2と第二チャネル高域補償部221-2を含む。音信号高域補償装置201には、上述した何れかの音信号精製装置が出力した第一チャネル精製済復号音信号~X1と第二チャネル精製済復号音信号~X2と、復号装置600のステレオ復号部620が出力した第一チャネル復号音信号^X1と第二チャネル復号音信号^X2と、が入力される。音信号高域補償装置201は、例えば20msの所定の時間長のフレーム単位で、ステレオの各チャネルについて、当該チャネルの精製済復号音信号と当該チャネルの復号音信号を用いて、当該チャネルの精製済復号音信号の高域のエネルギーを補償した音信号である当該チャネルの補償済復号音信号を得て出力する。第一チャネルのチャネル番号n(チャネルのインデックスn)を1とし、第二チャネルのチャネル番号nを2とすると、音信号高域補償装置201は、各フレームについて、図20に例示するステップS211-nとステップS221-nを各チャネルについて行う。なお、ここでいう高域とは、符号化処理によっても位相がある程度は維持される低い周波数の帯域(いわゆる「低域」)、ではない帯域のことである。高域は、低域と比べて、入力音信号と復号音信号の位相が違っていても、聴感上の差異は知覚されにくいため、符号化処理により約2kHz以上の成分は位相が回転していることが多い。したがって、音信号高域補償装置201は、例えば、周波数が約2kHz以上の成分を高域として扱えばよい。ただし、約2kHz以上を高域とするのは必須ではなく、音信号高域補償装置201は、各信号に含まれる可能性がある周波数帯域を2つに分割する予め定めた周波数以上の成分を高域として扱えばよい。これは以降の実施形態や変形例でも同様である。なお、音信号高域補償装置201に入力される第一チャネル精製済復号音信号~X1と第二チャネル精製済復号音信号~X2が上述した何れかの音信号精製装置が出力した信号であるのは必須ではなく、復号装置600のステレオ復号部620が出力した第一チャネル復号音信号^X1と第二チャネル復号音信号^X2に対して時間領域の信号処理を施して得られた音信号である第一チャネル精製済復号音信号~X1と第二チャネル精製済復号音信号~X2であればよい。これも以降の実施形態や変形例でも同様である。
第nチャネル高域補償利得推定部211-nには、音信号高域補償装置201に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号高域補償装置201に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、が入力される。第nチャネル高域補償利得推定部211-nは、第nチャネル復号音信号^Xnと第nチャネル精製済復号音信号~Xnから第nチャネル高域補償利得ρnを得て出力する(ステップS211-n)。第nチャネル高域補償利得ρnは、後述する第nチャネル高域補償部221-nが得る第nチャネル補償済復号音信号~X'nの高域のエネルギーを、第nチャネル復号音信号^Xnの高域のエネルギーに、近付けるための値である。第nチャネル高域補償利得推定部211-nが第nチャネル高域補償利得ρnを得る方法については後述する。
第nチャネル高域補償部221-nには、信号高域補償装置201に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号高域補償装置201に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、第nチャネル高域補償利得推定部211-nが出力した第nチャネル高域補償利得ρnと、が入力される。第nチャネル高域補償部221-nは、第nチャネル精製済復号音信号~Xnと、第nチャネル復号音信号^Xnの高域成分に第nチャネル高域補償利得ρnを乗算した信号と、を加算した信号を第nチャネル補償済復号音信号~X'n={~x'n(1), ~x'n(2), ..., ~x'n(T)}として得て出力する(ステップS221-n)。
第nチャネル高域補償利得推定部211-nは、例えば下記の第1の方法や第2の方法で第nチャネル高域補償利得ρnを得る。
第1の方法では、第nチャネル高域補償利得推定部211-nは、第nチャネル精製済復号音信号~Xnの高域のエネルギーが第nチャネル復号音信号^Xnの高域のエネルギーよりも小さいほど大きな値の第nチャネル高域補償利得ρnを得る。例えば、第nチャネル高域補償利得推定部211-nは、第nチャネル精製済復号音信号~Xnの高域のエネルギー~EXnを第nチャネル復号音信号^Xnの高域のエネルギー^EXnで除算した値を1から減算した値(1-~EXn/^EXn)の平方根を第nチャネル高域補償利得ρnとして得る。すなわち、第nチャネル高域補償利得推定部211-nは、第nチャネル精製済復号音信号~Xnの高域のエネルギー~EXnと、第nチャネル復号音信号^Xnの高域のエネルギー^EXnと、を用いて下記の式(91)により第nチャネル高域補償利得ρnを得る。
信号をハイパスフィルタに通すと、信号の各周波数成分の位相が回転する。そのため、第nチャネル補償用信号^X'nと第nチャネル精製済復号音信号~Xnでは高域成分の位相が合わず、第1の方法で得た第nチャネル高域補償利得ρnを用いて第nチャネル高域補償部221-nが各サンプルtについて~x'n(t)=~xn(t)+ρn×^x'n(t)との加算をして第nチャネル補償済復号音信号~X'nを得ても、第nチャネル補償用信号^X'nの高域成分と第nチャネル精製済復号音信号~Xnの高域成分が打ち消し合うことで、第nチャネル補償済復号音信号~X'nの高域のエネルギーが第nチャネル復号音信号^Xnの高域のエネルギーに想定していたほど近付かない可能性がある。そこで、上述した加算で高域成分が打ち消し合うことがあったとしても、第nチャネル補償済復号音信号~X'nの高域のエネルギーを第nチャネル復号音信号^Xnの高域のエネルギーに近付けられるようにしたのが第2の方法である。第2の方法では、第nチャネル高域補償利得推定部211-nは、例えば下記のステップS211-21-nからステップS211-23-nを行うことで、第nチャネル高域補償利得ρnを得る。
ただし、^ρn 2は下記の式(92a)により得られる値であり、μnは下記の式(92b)により得られる値である。
符号化装置500のモノラル符号化部520がステレオ符号化部530の各チャネルよりも高いビットレートで符号化を行っている場合には、復号装置600のモノラル復号部610が得たモノラル復号音信号^XMを基にした第nチャネルモノラル復号音アップミックス信号^XMnのほうが、復号装置600のステレオ復号部620が得た第nチャネル復号音信号^Xnよりも音質が高く、高域の補償に用いる信号として適している場合がある。そこで、第9実施形態の音信号高域補償装置が高域の補償に用いた第nチャネル復号音信号^Xnに代えて第nチャネルモノラル復号音アップミックス信号^XMnを高域の補償に用いるのが第10実施形態の音信号高域補償装置である。以下、第10実施形態の音信号高域補償装置について、ステレオのチャネルの個数が2である場合の例を用いて、第9実施形態の音信号高域補償装置と異なる点を中心に説明する。
第10実施形態の音信号高域補償装置202は、図21に例示する通り、第一チャネル高域補償利得推定部212-1と第一チャネル高域補償部222-1と第二チャネル高域補償利得推定部212-2と第二チャネル高域補償部222-2を含む。音信号高域補償装置202には、上述した何れかの音信号精製装置が出力した第一チャネル精製済復号音信号~X1と第二チャネル精製済復号音信号~X2と、復号装置600のステレオ復号部620が出力した第一チャネル復号音信号^X1と第二チャネル復号音信号^X2と、上述した何れかの音信号精製装置が出力した第一チャネルアップミックス済モノラル復号音信号^XM1と第二チャネルアップミックス済モノラル復号音信号^XM2と、が入力される。
第nチャネル高域補償利得推定部212-nには、音信号高域補償装置202に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号高域補償装置202に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、が少なくとも入力される。第nチャネル高域補償利得推定部212-nは、第nチャネル復号音信号^Xnと第nチャネル精製済復号音信号~Xnを少なくとも用いて第nチャネル高域補償利得ρnを得て出力する(ステップS212-n)。第nチャネル高域補償利得推定部212-nは、例えば第9実施形態で説明した第1の方法や下記の第2の方法で第nチャネル高域補償利得ρnを得る。
第2の方法は、第9実施形態の第2の方法で第nチャネル復号音信号^Xnから第nチャネル補償用信号^X'nを得ていた処理に代えて、第nチャネルアップミックス済モノラル復号音信号^XMnから第nチャネル補償用信号^X'nを得る処理を行う方法である。このため、第2の方法を用いる場合には、図21に破線で示したように、第nチャネル高域補償利得推定部212-nには、音信号高域補償装置202に入力された第nチャネルアップミックス済モノラル復号音信号^XMnも入力される。第2の方法では、第nチャネル高域補償利得推定部212-nは、例えば、第9実施形態の第2の方法のステップS211-21-nに代えて下記のステップS212-21-nを行ってから、第9実施形態の第2の方法と同じステップS211-22-nとステップS211-23-nを行うことで、第nチャネル高域補償利得ρnを得る。すなわち、第nチャネル高域補償利得推定部212-nは、まず、第nチャネルアップミックス済モノラル復号音信号^XMnを第nチャネル高域補償部222-nが用いるのと同じ特性のハイパスフィルタに通して第nチャネル補償用信号^X'n={^x'n(1), ^x'n(2), ..., ^x'n(T)}を得て(ステップS212-21-n)、次に第9実施形態の第2の方法の説明箇所で上述したステップS211-22-nとステップS211-23-nを行う。
第nチャネル高域補償部222-nは、第9実施形態の第nチャネル高域補償部221-nが用いた第nチャネル復号音信号^Xnに代えて、第nチャネルアップミックス済モノラル復号音信号^XMnを用いて第nチャネル補償済復号音信号~X'nを得る。第nチャネル高域補償部222-nには、信号高域補償装置202に入力された第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、音信号高域補償装置202に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、第nチャネル高域補償利得推定部212-nが出力した第nチャネル高域補償利得ρnと、が入力される。第nチャネル高域補償部222-nは、第nチャネル精製済復号音信号~Xnと、第nチャネルアップミックス済モノラル復号音信号^XMnの高域成分に第nチャネル高域補償利得ρnを乗算した信号と、を加算した信号を第nチャネル補償済復号音信号~X'n={~x'n(1), ~xn' (2), ..., ~x'n(T)}として得て出力する(ステップS222-n)。
第10実施形態では音信号精製装置がモノラル復号音アップミックス部を備えて各チャネルのアップミックス済モノラル復号音信号^XMnを得ている場合について説明したが、音信号精製装置がモノラル復号音アップミックス部を備えずに各チャネルのアップミックス済モノラル復号音信号^XMnを得ていない場合には、音信号精製装置202は、第10実施形態で用いた各チャネルのアップミックス済モノラル復号音信号^XMnに代えて、復号装置600のモノラル復号部610が出力したモノラル復号音信号^XMを用いればよい。また、音信号精製装置がモノラル復号音アップミックス部を備えて各チャネルのアップミックス済モノラル復号音信号^XMnを得ている場合でも、音信号精製装置202は、第10実施形態で用いた各チャネルのアップミックス済モノラル復号音信号^XMnに代えて、復号装置600のモノラル復号部610が出力したモノラル復号音信号^XMを用いてもよい。
第nチャネル復号音信号^Xnと第nチャネルアップミックス済モノラル復号音信号^XMnの何れを高域の補償に用いるかをビットレートに応じて選択してもよい。この形態を第11実施形態として、ステレオのチャネルの個数が2である場合の例を用いて、第9実施形態の音信号高域補償装置及び第10実施形態の音信号高域補償装置と異なる点を中心に説明する。
第11実施形態の音信号高域補償装置203は、図22に例示する通り、第一チャネル信号選択部233-1と第一チャネル高域補償利得推定部213-1と第一チャネル高域補償部223-1と第二チャネル信号選択部233-2と第二チャネル高域補償利得推定部213-2と第二チャネル高域補償部223-2を含む。音信号高域補償装置203には、上述した何れかの音信号精製装置が出力した第一チャネル精製済復号音信号~X1と第二チャネル精製済復号音信号~X2と、復号装置600のステレオ復号部620が出力した第一チャネル復号音信号^X1と第二チャネル復号音信号^X2と、上述した何れかの音信号精製装置が出力した第一チャネルアップミックス済モノラル復号音信号^XM1と第二チャネルアップミックス済モノラル復号音信号^XM2と、ビットレート情報と、が入力される。
第nチャネル信号選択部233-nには、音信号高域補償装置203に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号高域補償装置203に入力された第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、音信号高域補償装置203に入力されたビットレート情報が入力される。ただし、第nチャネル信号選択部233-n内の図示しない記憶部にビットレート情報が予め記憶されている場合には、ビットレート情報は入力されなくてよい。第nチャネル信号選択部233-nは、ステレオ符号化部530とステレオ復号部620のチャネル当たりのビットレートのほうがモノラル符号化部520とモノラル復号部610のビットレートよりも高い場合、すなわち、bnがbMより大きい場合には、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}を選択して第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}として出力し、ステレオ符号化部530とステレオ復号部620のチャネル当たりのビットレートのほうがモノラル符号化部520とモノラル復号部610のビットレートよりも低い場合、すなわち、bnがbMより小さい場合には、第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}を選択して第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}として出力する(ステップS233-n)。第nチャネル信号選択部233-nは、モノラル符号化部520とモノラル復号部610のビットレートとステレオ符号化部530とステレオ復号部620のチャネル当たりのビットレートが同じである場合、すなわち、bMとbnが同じ値である場合には、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}の何れを選択して第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}として出力してもよい。
第nチャネル高域補償利得推定部213-nには、音信号高域補償装置203に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号高域補償装置203に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、が少なくとも入力される。第nチャネル高域補償利得推定部213-nは、第nチャネル復号音信号^Xnと第nチャネル精製済復号音信号~Xnを少なくとも用いて第nチャネル高域補償利得ρnを得て出力する(ステップS213-n)。第nチャネル高域補償利得推定部213-nは、例えば第9実施形態で説明した第1の方法や下記の第2の方法で第nチャネル高域補償利得ρnを得る。
第2の方法を用いる場合には、図22に破線で示したように、第nチャネル高域補償利得推定部213-nには、第nチャネル信号選択部233-nが得た第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}も入力される。第2の方法では、第nチャネル高域補償利得推定部213-nは、例えば、第9実施形態の第2の方法のステップS211-21-nに代えて下記のステップS213-21-nを行ってから、第9実施形態の第2の方法と同じステップS211-22-nとステップS211-23-nを行うことで、第nチャネル高域補償利得ρnを得る。すなわち、第nチャネル高域補償利得推定部213-nは、まず、第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}を第nチャネル高域補償部223-nが用いるのと同じ特性のハイパスフィルタに通して第nチャネル補償用信号^X'n={^x'n(1), ^x'n(2), ..., ^x'n(T)}を得て(ステップS213-21-n)、次に第9実施形態の第2の方法の説明箇所で上述したステップS211-22-nとステップS211-23-nを行う。
第nチャネル高域補償部223-nは、第nチャネル選択信号^XSnを用いて第nチャネル補償済復号音信号~X'nを得る。第nチャネル高域補償部223-nには、第nチャネル信号選択部233-nが得た第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}と、音信号高域補償装置203に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、第nチャネル高域補償利得推定部213-nが出力した第nチャネル高域補償利得ρnと、が入力される。第nチャネル高域補償部223-nは、第nチャネル精製済復号音信号~Xnと、第nチャネル選択信号^XSnの高域成分に第nチャネル高域補償利得ρnを乗算した信号と、を加算した信号を第nチャネル補償済復号音信号~X'n={~x'n(1), ~xn' (2), ..., ~x'n(T)}として得て出力する(ステップS223-n)。
第11実施形態では音信号精製装置がモノラル復号音アップミックス部を備えて各チャネルのアップミックス済モノラル復号音信号^XMnを得ている場合について説明したが、音信号精製装置がモノラル復号音アップミックス部を備えずに各チャネルのアップミックス済モノラル復号音信号^XMnを得ていない場合には、音信号精製装置203は、第11実施形態で用いた各チャネルのアップミックス済モノラル復号音信号^XMnに代えて、復号装置600のモノラル復号部610が出力したモノラル復号音信号^XMを用いればよい。また、音信号精製装置がモノラル復号音アップミックス部を備えて各チャネルのアップミックス済モノラル復号音信号^XMnを得ている場合でも、音信号精製装置203は、第11実施形態で用いた各チャネルのアップミックス済モノラル復号音信号^XMnに代えて、復号装置600のモノラル復号部610が出力したモノラル復号音信号^XMを用いてもよい。
第12実施形態として、上述した各実施形態及び変形例に基づく様々な形態を説明する。
上述した各実施形態及び変形例では、説明を簡単化するために、2個のチャネルを扱う例で説明した。しかし、チャネル数はこの限りではなく2以上であればよい。このチャネル数をN(Nは2以上の整数)とすると、上述した各実施形態及び変形例は、チャネル数の2をNと読み替えて実施することができる。具体的には、上述した各実施形態及び変形例において、“-n”が付された各部/各ステップは、1からNまでの各チャネルに対応するN個のものを含めるようにし、添え字などの“n”との記載が付されているものは、1からNまでの各チャネル番号に対応するN通りのものを含めるようにすることで、チャネル数Nの音信号精製装置やチャネル数Nの音信号高域補償装置とすることができる。ただし、上述した音信号精製装置の各実施形態及び変形例のうちのチャネル間時間差τやチャネル間相関係数γを用いて例示した処理を含む部分については、2個のチャネルに限定されることがある。
第1実施形態から第8実施形態及び各変形例の何れかの音信号精製装置は、復号により得られた音信号を処理する装置であるので、音信号後処理装置であるといえる。すなわち、図24に例示するように、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかが音信号後処理装置301であるともいえる(図25もあわせて参照)。また、図24に例示するように、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかを音信号精製部として含む装置が音信号後処理装置301であるともいえる。
第1実施形態から第8実施形態及び各変形例の何れかの音信号精製装置は、モノラル復号部610とステレオ復号部620とともに音信号復号装置に含めることができる。すなわち、図28に例示するように、モノラル復号部610と、ステレオ復号部620と、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかと、を含むように音信号復号装置601を構成してもよい(図29もあわせて参照)。また、図28に例示するように、モノラル復号部610とステレオ復号部620に加えて、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかを音信号精製部として含むように音信号復号装置601を構成してもよい。
上述した各装置の各部の処理をコンピュータにより実現してもよく、この場合は各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図33に示すコンピュータ5000の記憶部5020に読み込ませ、演算処理部5010、入力部5030、出力部5040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (15)
- フレームごとに、ステレオ符号CSを復号して得たステレオの各チャネルの復号音信号である第nチャネル復号音信号^Xn(nは1以上N以下の各整数、Nはチャネル数)と、前記ステレオ符号CSとは異なる符号であるモノラル符号CMを復号して得たモノラルの復号音信号であるモノラル復号音信号^XMと、を少なくとも用いて、前記ステレオの前記各チャネルの音信号である第nチャネル精製済復号音信号~Xnを得る音信号精製方法であって、
前記第nチャネル復号音信号^Xnは、前記モノラル符号CMを復号して得た情報も前記モノラル符号CMも用いずに、前記ステレオ符号CSを復号して得たものであり、
フレームごとに、1以上N以下の全ての第nチャネル復号音信号^Xnを少なくとも用いて、前記ステレオの全チャネルに共通する信号である復号音共通信号^YMを得る復号音共通信号推定ステップと、
フレームごとに、対応するサンプルtごとに、共通信号精製重みαMと前記モノラル復号音信号^XMのサンプル値^xM(t)とを乗算した値αM×^xM(t)と、前記共通信号精製重みαMを1から減算した値(1-αM)と前記復号音共通信号^YMのサンプル値^yM(t)とを乗算した値(1-αM)×^yM(t)と、を加算した値~yM(t)=(1-αM)×^yM(t)+αM×^xM(t)による系列を精製済共通信号~YMとして得る共通信号精製ステップと、
前記各チャネルnについて、フレームごとに、前記第nチャネル復号音信号^Xnの前記復号音共通信号^YMに対する正規化された内積値を第nチャネル分離結合重みβnとして得る第nチャネル分離結合重み推定ステップと、
前記各チャネルnについて、フレームごとに、対応するサンプルtごとに、前記第nチャネル復号音信号^Xnのサンプル値^xn(t)から、前記第nチャネル分離結合重みβnと前記復号音共通信号^YMのサンプル値^yM(t)とを乗算した値βn×^yM(t)を減算し、前記第nチャネル分離結合重みβnと前記精製済共通信号~YMのサンプル値~yM(t)とを乗算した値βn×~yM(t)を加算した値~xn(t)=^xn(t)-βn×^yM(t)+βn×~yM(t)による系列を前記第nチャネル精製済復号音信号~Xnとして得る第nチャネル分離結合ステップと、
を含むことを特徴とする音信号精製方法。 - 請求項1に記載の音信号精製方法であって、
前記復号音共通信号推定ステップは、
第1から第Nまでの全チャネルの前記復号音信号^X1, ..., ^XNの重み付き平均と前記モノラル復号音信号^XMの差が最小となる重み係数を得て、
得た前記重み係数を用いた第1から第Nまでの全チャネルの前記復号音信号^X1, ..., ^XNの重み付き平均を前記復号音共通信号^YMとして得る
ことを特徴とする音信号精製方法。 - 請求項1に記載の音信号精製方法であって、
前記チャネル数Nは2であり、
前記復号音共通信号推定ステップは、
第1チャネル復号音信号^X1のサンプル値^x1(t)と、第2チャネル復号音信号^X2のサンプル値^x2(t)と、第1チャネルと第2チャネルのチャネル間相関係数γと、を用いて、
第1チャネルと第2チャネルの何れが先行しているかを表す情報に基づいて、
第1チャネルが先行している場合には、^yM(t)=((1+γ)/2)×^x1(t)+((1-γ)/2)×^x2(t)による系列を前記復号音共通信号^YMとして得て、
第2チャネルが先行している場合には、^yM(t)=((1-γ)/2)×^x1(t)+((1+γ)/2)×^x2(t)による系列を前記復号音共通信号^YMとして得て、
何れのチャネルも先行していない場合には、^yM(t)=(^x1(t)+^x2(t))/2による系列を前記復号音共通信号^YMとして得る
ことを特徴とする音信号精製方法。 - 請求項1から3の何れかに記載の音信号精製方法であって、
フレームごとに、
前記ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、前記モノラル符号CMのビット数bMと、を少なくとも用いて、0より大きく1未満の値であり、bmとbMが等しいときには0.5であり、bmがbMよりも多いほど0.5より0に近い値であり、bMがbmよりも多いほど0.5より1に近い値を、前記共通信号精製重みαMとして得る共通信号精製重み推定ステップ
を更に含むことを特徴とする音信号精製方法。 - 請求項1から3の何れかに記載の音信号精製方法であって、
フレームごとに、
前記ステレオ符号CSのビット数のうちの共通信号に相当するビット数をbmとし、前記モノラル符号CMのビット数をbMとして、
前記復号音共通信号^YMと前記モノラル復号音信号^XMの間の相関が高いほど1に近い値であり、前記相関が低いほど0に近い値であるrMと、
0より大きく1未満の値であり、bmとbMが同じであるときには0.5であり、bmがbMよりも多いほど0.5より0に近く、bmがbMよりも少ないほど0.5より1に近い値である補正係数cMと、
を乗算した値cM×rMを前記共通信号精製重みαMとして得る共通信号精製重み推定ステップ
を更に含むことを特徴とする音信号精製方法。 - 請求項1から3の何れかに記載の音信号精製方法であって、
Tは前記フレーム当たりのサンプル数であり、εmとεMはそれぞれ0より大きく1未満の値であり、
フレームごとに、
前記復号音共通信号^YMの各サンプル値^yM(t)と前記モノラル復号音信号^XMの各サンプル値^xM(t)と前フレームの内積値Em(-1)とを用いて
により得られる内積値Em(0)と、
前記モノラル復号音信号^XMの各サンプル値^xM(t)と前フレームの前記モノラル復号音信号のエネルギーEM(-1)とを用いて
により得られる前記モノラル復号音信号のエネルギーEM(0)と、を用いて
により得られる正規化された内積値rMと、
前記フレーム当たりのサンプル数Tと、前記ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、前記モノラル符号CMのビット数bMとを用いて
より得られる補正係数cMと、
を乗算した値cM×rMを前記共通信号精製重みαMとして得る共通信号精製重み推定ステップ
を更に含むことを特徴とする音信号精製方法。 - 請求項6または8に記載の音信号精製方法であって、
前記共通信号精製重み推定ステップは、
前記正規化された内積値rMと、前記補正係数cMと、0より大きく1未満の予め定めた値であるλと、を乗算した値λ×cM×rMを前記共通信号精製重みαMとして得る
ことを特徴とする音信号精製方法。 - 請求項6または8に記載の音信号精製方法であって、
前記チャネル数Nは2であり、
前記共通信号精製重み推定ステップは、
前記正規化された内積値rMと、前記補正係数cMと、第1チャネル復号音信号と第2チャネル復号音信号の相関係数であるチャネル間相関係数γと、を乗算した値γ×cM×rMを前記共通信号精製重みαMとして得る
ことを特徴とする音信号精製方法。 - 請求項1から10の何れかに記載の音信号精製方法を音信号精製ステップとして含む音信号復号方法であって、
前記モノラル符号CMを復号して得られた情報も前記モノラル符号CMも用いずに、前記ステレオ符号CSを復号して前記各チャネルnの前記第nチャネル復号音信号^Xnを得るステレオ復号ステップと、
前記モノラル符号CMを復号して前記モノラル復号音信号^XMを得るモノラル復号ステップと、
を更に含むことを特徴とする音信号復号方法。 - フレームごとに、ステレオ符号CSを復号して得たステレオの各チャネルの復号音信号である第nチャネル復号音信号^Xn(nは1以上N以下の各整数)と、前記ステレオ符号CSとは異なる符号であるモノラル符号CMを復号して得たモノラルの復号音信号であるモノラル復号音信号^XMと、を少なくとも用いて、前記ステレオの前記各チャネルの音信号である第nチャネル精製済復号音信号~Xnを得る音信号精製装置であって、
前記第nチャネル復号音信号^Xnは、前記モノラル符号CMを復号して得た情報も前記モノラル符号CMも用いずに、前記ステレオ符号CSを復号して得たものであり、
フレームごとに、1以上N以下の全ての第nチャネル復号音信号^Xnを少なくとも用いて、前記ステレオの全チャネルに共通する信号である復号音共通信号^YMを得る復号音共通信号推定部と、
フレームごとに、対応するサンプルtごとに、共通信号精製重みαMと前記モノラル復号音信号^XMのサンプル値^xM(t)とを乗算した値αM×^xM(t)と、前記共通信号精製重みαMを1から減算した値(1-αM)と前記復号音共通信号^YMのサンプル値^yM(t)とを乗算した値(1-αM)×^yM(t)と、を加算した値~yM(t)=(1-αM)×^yM(t)+αM×^xM(t)による系列を精製済共通信号~YMとして得る共通信号精製部と、
前記各チャネルnについて、フレームごとに、前記第nチャネル復号音信号^Xnの前記復号音共通信号^YMに対する正規化された内積値を第nチャネル分離結合重みβnとして得る第nチャネル分離結合重み推定部と、
前記各チャネルnについて、フレームごとに、対応するサンプルtごとに、前記第nチャネル復号音信号^Xnのサンプル値^xn(t)から、前記第nチャネル分離結合重みβnと前記復号音共通信号^YMのサンプル値^yM(t)とを乗算した値βn×^yM(t)を減算し、前記第nチャネル分離結合重みβnと前記精製済共通信号~YMのサンプル値~yM(t)とを乗算した値βn×~yM(t)を加算した値~xn(t)=^xn(t)-βn×^yM(t)+βn×~yM(t)による系列を前記第nチャネル精製済復号音信号~Xnとして得る第nチャネル分離結合部と、
を含むことを特徴とする音信号精製装置。 - 請求項12に記載の音信号精製装置を音信号精製部として含む音信号復号装置であって、
前記モノラル符号CMを復号して得られた情報も前記モノラル符号CMも用いずに、前記ステレオ符号CSを復号して前記各チャネルnの前記第nチャネル復号音信号^Xnを得るステレオ復号部と、
前記モノラル符号CMを復号して前記モノラル復号音信号^XMを得るモノラル復号部と、
を更に含むことを特徴とする音信号復号装置。 - 請求項1から10の何れかに記載の音信号精製方法または請求項11に記載の音信号復号方法をコンピュータに実行させるためのプログラム。
- 請求項1から10の何れかに記載の音信号精製方法または請求項11に記載の音信号復号方法をコンピュータに実行させるためのプログラムを記録した記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/041398 WO2022097235A1 (ja) | 2020-11-05 | 2020-11-05 | 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2022097235A1 JPWO2022097235A1 (ja) | 2022-05-12 |
JP7537511B2 true JP7537511B2 (ja) | 2024-08-21 |
Family
ID=81456984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022560569A Active JP7537511B2 (ja) | 2020-11-05 | 2020-11-05 | 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230386482A1 (ja) |
JP (1) | JP7537511B2 (ja) |
WO (1) | WO2022097235A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005202052A (ja) | 2004-01-14 | 2005-07-28 | Nec Corp | チャンネル数可変オーディオ配信システム、オーディオ配信装置、オーディオ受信装置 |
WO2007116809A1 (ja) | 2006-03-31 | 2007-10-18 | Matsushita Electric Industrial Co., Ltd. | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4065827B2 (ja) * | 2003-10-03 | 2008-03-26 | 日本電信電話株式会社 | 音声信号パケット通信方法、音声信号パケット送信方法、受信方法、これらの装置、そのプログラムおよび記録媒体 |
-
2020
- 2020-11-05 JP JP2022560569A patent/JP7537511B2/ja active Active
- 2020-11-05 US US18/032,533 patent/US20230386482A1/en active Pending
- 2020-11-05 WO PCT/JP2020/041398 patent/WO2022097235A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005202052A (ja) | 2004-01-14 | 2005-07-28 | Nec Corp | チャンネル数可変オーディオ配信システム、オーディオ配信装置、オーディオ受信装置 |
WO2007116809A1 (ja) | 2006-03-31 | 2007-10-18 | Matsushita Electric Industrial Co., Ltd. | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 |
Also Published As
Publication number | Publication date |
---|---|
US20230386482A1 (en) | 2023-11-30 |
JPWO2022097235A1 (ja) | 2022-05-12 |
WO2022097235A1 (ja) | 2022-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021181974A1 (ja) | 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体 | |
JP7544139B2 (ja) | 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体 | |
WO2021181977A1 (ja) | 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体 | |
JP7517461B2 (ja) | 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体 | |
JP7537511B2 (ja) | 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 | |
JP7517459B2 (ja) | 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体 | |
JP7521596B2 (ja) | 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 | |
JP7537512B2 (ja) | 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 | |
JP7521595B2 (ja) | 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 | |
JP7517458B2 (ja) | 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体 | |
JP7517460B2 (ja) | 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体 | |
JP7491393B2 (ja) | 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 | |
JP7491394B2 (ja) | 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 | |
JP7491395B2 (ja) | 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 | |
WO2024142357A1 (ja) | 音信号処理装置、音信号処理方法、プログラム | |
WO2024142359A1 (ja) | 音信号処理装置、音信号処理方法、プログラム | |
WO2024142360A1 (ja) | 音信号処理装置、音信号処理方法、プログラム | |
WO2024142358A1 (ja) | 音信号処理装置、音信号処理方法、プログラム | |
JP7380837B2 (ja) | 音信号符号化方法、音信号復号方法、音信号符号化装置、音信号復号装置、プログラム及び記録媒体 | |
WO2023032065A1 (ja) | 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム | |
JP7380838B2 (ja) | 音信号符号化方法、音信号復号方法、音信号符号化装置、音信号復号装置、プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240514 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240624 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240722 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7537511 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |