JPWO2007116809A1

JPWO2007116809A1 - ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法

Info

Publication number: JPWO2007116809A1
Application number: JP2008509811A
Authority: JP
Inventors: 道代後藤; 吉田　幸司; 幸司吉田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2006-03-31
Filing date: 2007-03-29
Publication date: 2009-08-20
Also published as: US20090276210A1; WO2007116809A1

Abstract

ステレオ音声符号化のビットレートを減少しつつ、音質劣化を抑えることができるステレオ音声復号装置等を開示する。この装置においては、Ｌチャネル信号SL(n)のみが存在する区間０を特定し、ステレオ音声符号化側から伝送される区間０のモノラル信号を区間０のＬチャネル信号SL(0)(n)とし、区間０のＬチャネル信号SL(0)(n)をスケール調整して区間１のＲチャネル信号SR(1)(n)を予測し、区間１のモノラル信号から、予測した区間１のＲチャネル信号SR(1)(n)の寄与分を減ずることにより、区間１のＬチャネル信号SL(1)(n)を分離して求める。この装置は、続けて上記のスケール調整および分離処理を繰り返すことにより、すべての区間におけるＬチャネル信号SL(n)およびＲチャネル信号SR(n)を得る。

Description

本発明は、ステレオ音声信号に対し符号化を施すステレオ音声符号化装置、これに対応するステレオ音声復号装置、およびこれらの方法に関する。

携帯電話機による通話のように、移動体通信システムにおける音声通信では、現在、モノラル方式による通信（モノラル通信）が主流である。しかし、今後、第４世代の移動体通信システムのように、伝送レートのさらなる高ビットレート化が進めば、複数チャネルを伝送するだけの帯域を確保できるようになるため、音声通信においてもステレオ方式による通信（ステレオ通信）が普及することが期待される。

例えば、音楽をＨＤＤ（ハードディスク）搭載の携帯オーディオプレーヤに記録し、このプレーヤにステレオ用のイヤホンやヘッドフォン等を装着してステレオ音楽を楽しむユーザが増えている現状を考えると、将来、携帯電話機と音楽プレーヤとが結合し、ステレオ用のイヤホンやヘッドフォン等の装備を利用しつつ、ステレオ方式による音声通信を行うライフスタイルが一般的になることが予想される。また、最近普及しつつあるＴＶ会議等の環境において、臨場感ある会話を可能とするため、やはりステレオ通信が行われるようになることが予想される。

一方、移動体通信システム、有線方式の通信システム等においては、システムの負荷を軽減するため、伝送される音声信号を予め符号化することにより伝送情報の低ビットレート化を図ることが一般的に行われている。そのため、最近、ステレオ音声信号を符号化する技術が注目を浴びている。例えば、下記の式（１）を用いて、ステレオ信号を構成する一方のチャネル信号から他方のチャネル信号を予測し、予測パラメータa_kおよびdを符号化する技術がある（非特許文献１参照）。

ここで、a_kは予測誤差を最小にする予測パラメータとして、ｋ次の予測係数である。dは２つのチャネル信号の遅延時間差を表す。x(n)は、サンプル番号nにおける一方のチャネル信号を表し、y^(n)は、サンプル番号ｎにおける予測された他方のチャネル信号を表す。

また、ステレオ通信が普及しても、依然としてモノラル通信も行われると予想される。何故なら、モノラル通信は低ビットレートであるため通信コストが安くなることが期待され、また、モノラル通信のみに対応した携帯電話機は回路規模が小さくなるため安価となり、高品質な音声通信を望まないユーザは、モノラル通信のみに対応した携帯電話機を購入するだろうからである。よって、一つの通信システム内において、ステレオ通信に対応した携帯電話機とモノラル通信に対応した携帯電話機とが混在するようになり、通信システムは、これらステレオ通信およびモノラル通信の双方に対応する必要性が生じる。さらに、移動体通信システムでは、無線信号によって通信データをやりとりするため、伝搬路環境によっては通信データの一部を失う場合がある。そこで、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能を携帯電話機が有していれば非常に有用である。

ステレオ通信およびモノラル通信の双方に対応することができ、かつ、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能として、ステレオ信号とモノラル信号との両方を符号化・復号できるスケーラブル符号化がある。この機能を有したスケーラブル符号化装置の例として、例えば、非特許文献２に開示されたものがある。
Hendrik Fuchs、"Improving Joint Stereo Audio Coding by Adaptive Inter-Channel Prediction"、Applications of Signal Processing to Audio and Acoustics、Final Program and Paper Summaries、IEEE Workshop on Pages:39 − 42、（17−20 Oct. 1993 ） ISO/IEC 14496-3:1999 (B.14 Scalable AAC with core coder)

しかしながら、非特許文献１に開示の技術は、上述の式（１）で表されるような予測に基づいた符号化を行っていて、予測誤差を小さくする目的で予測係数の次数を上げると、すなわち、予測パラメータの個数を上げると、符号化ビットレートが増加してしまうという問題がある。また逆に、符号化ビットレートを抑制する目的で予測係数の次数を低減すると、予測性能が低下し、復号側で得られる音声信号に聴覚的な音質劣化が発生するという問題がある。また、非特許文献２のようなスケーラブル符号化に、非特許文献１の技術を適用すると、ステレオ信号だけでなくモノラル信号についても予測係数を求める必要があり、さらに符号化ビットレートが増大する。

本発明の目的は、より少ない情報量を符号化し伝送することにより、ビットレートを減少しつつ、音質劣化を抑えることができるステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法を提供することである。

本発明のステレオ音声復号装置は、２つのチャネルからなるステレオ音声信号の時間的に先行する先行チャネル信号と、時間的に遅れる後続チャネル信号とが合成された、モノラル信号が符号化された符号化情報を復号するモノラル信号復号手段と、前記ステレオ音声信号の無音区間から有音区間に変わる立ち上がり位置が符号化された符号化情報を復号する立ち上がり位置復号手段と、前記先行チャネル信号と後続チャネル信号との遅延時間差が符号化された符号化情報を復号する遅延時間差復号手段と、前記後続チャネル信号と前記先行チャネル信号との振幅比が符号化された符号化情報を復号する振幅比復号手段と、前記モノラル信号と、前記遅延時間差と、前記立ち上がり位置とを用いて、前記先行チャネル信号を復号する先行チャネル信号復号手段と、前記先行チャネル信号と、前記振幅比とを用いて、前記後続チャネル信号を復号する後続チャネル信号復号手段と、を具備する構成を採る。

本発明によれば、ステレオ音声符号化において、両チャネル間の予測係数を符号化せず、ステレオ信号の立ち上がり位置、両チャネルの遅延時間差および振幅比に関するより少ない情報量を符号化し伝送することにより、ビットレートを減少しつつ、音質劣化を抑えることができる。

実施の形態１に係るステレオ音声符号化装置の主要な構成を示すブロック図実施の形態１に係るステレオ音声信号の立ち上がり位置を説明するための図実施の形態１に係るＬチャネル信号とＲチャネル信号との遅延時間差および振幅比を説明するための図実施の形態１に係るステレオ音声復号装置の主要な構成を示すブロック図実施の形態１に係るステレオ信号復号部の詳細な構成を示すブロック図実施の形態１に係るステレオ音声復号装置におけるステレオ音声信号の復号処理の原理を説明するための図実施の形態１に係るステレオ音声信号をテーブルに纏めて示す図実施の形態２に係るステレオ音声符号化装置の主要な構成を示すブロック図実施の形態２に係る第２レイヤデコーダの詳細な構成を示すブロック図実施の形態２に係るステレオ音声復号装置の主要な構成を示すブロック図実施の形態３に係るステレオ音声符号化装置の主要な構成を示すブロック図実施の形態４に係るステレオ音声符号化装置の主要な構成を示すブロック図

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお、ここでは、ＬチャネルおよびＲチャネルの２チャネルからなるステレオ音声信号を符号化する場合を例にとって説明する。

（実施の形態１）
図１は、本発明の実施の形態１に係るステレオ音声符号化装置１００の主要な構成を示すブロック図である。

図１において、ステレオ音声符号化装置１００は、第１レイヤ（基本レイヤ）エンコーダ１４０および第２レイヤ（拡張レイヤ）エンコーダ１５０を備え、ステレオ音声信号のスケーラブル符号化を行う。第１レイヤエンコーダ１４０は、モノラル信号生成部１０１およびモノラル信号符号化部１０２を備え、モノラル信号の符号化を行う。第２レイヤエンコーダ１５０は、立ち上がり位置検出部１０３、立ち上がり位置符号化部１０４、遅延時間差算出部１０５、遅延時間差符号化部１０６、振幅比算出部１０７、および振幅比符号化部１０８を備え、ステレオ信号の符号化を行う。各レイヤエンコーダは、得られる符号化パラメータを後述のステレオ音声復号装置２００に伝送する。

モノラル信号生成部１０１は、入力されるステレオ音声信号、すなわち、Ｌチャネル信号S_L(n)およびＲチャネル信号S_R(n)からモノラル信号Ｓ_M(n)を生成して、モノラル信号符号化部１０２に出力する。モノラル信号S_M(n)は、下記の式（２）に従い、Ｌチャネル信号S_L(n)およびＲチャネル信号S_R(n)の平均値を求めることにより生成される。
S_M(n)＝（S_L(n)＋S_R(n)）／２ …（２）
ここで、ｎはステレオ音声信号のサンプル番号を示す。

モノラル信号符号化部１０２は、モノラル信号生成部１０１で生成されるモノラル信号S_M(n)をＣＥＬＰ(Code Excited Linear Prediction)符号化方式で符号化し、得られるモノラル信号符号化パラメータP_Mをステレオ音声復号装置２００に伝送する。ＣＥＬＰ符号化方式においては、音声信号の声道情報については、ＬＳＰパラメータを求めて符号化し、音声信号の音源情報については、予め記憶されている音声モデルの何れかを特定し、特定された音声モデルを示すインデックスにより符号化する。

第２レイヤエンコーダ１５０は、ステレオ音声符号化装置１００に入力されるＬチャネル信号S_L(n)およびＲチャネル信号S_R(n)から、立ち上がり位置、Ｌチャネル信号S_L(n)とＲチャネル信号S_R(n)との遅延時間差、およびＬチャネル信号S_L(n)とＲチャネル信号S_R(n)との振幅比を求めて符号化し、得られる符号化パラメータP_B、P_T、およびP_gをステレオ音声復号装置２００に伝送する。

立ち上がり位置検出部１０３は、入力されるＬチャネル信号S_L(n)およびＲチャネル信号S_R(n)から、ステレオ音声信号の立ち上がり位置を検出する。ステレオ音声信号の立ち上がり位置について図２を参照して説明する。

通常、ステレオ音声信号には音声信号の振幅がゼロである無音区間、および音声信号の振幅がゼロでない有音区間が存在する。音声信号が無音区間から有音区間に移行し始める位置を立ち上がり位置Ｂと称す。また、同一音源で発生した信号を異なる位置で取得したＬチャネル信号S_L(n)とＲチャネル信号S_R(n)は、音源からの距離が異なるため、一方のチャネル信号が先行して先行チャネルとなるのに対して、他方のチャネル信号は後続チャネル信号となり、振幅も先行チャネル信号の振幅から減衰している。例えば本実施の形態ではＲチャネル信号S_R(n)よりもＬチャネル信号S_L(n)の方が音源に近いため、Ｌチャネル信号S_L(n)はＲチャネル信号S_R(n)より時間的に先行しており、振幅もより大きい。従って、立ち上がり位置から所定の区間において、Ｒチャネル信号S_R(n)は存在せず、Ｌチャネル信号S_L(n)のみ存在する。図２においては、Ｌチャネル信号S_L(n)の振幅とＲチャネル信号S_R(n)の振幅とがともにゼロでない区間の始まり位置を時間軸０で示す。

立ち上がり位置検出部１０３は、無音区間が終わり、Ｌチャネル信号のみ存在する区間の始まり位置を立ち上がり位置Ｂとして検出し、検出された立ち上がり位置Ｂに関する情報を立ち上がり位置符号化部１０４に出力する。ここで立ち上がり位置Ｂに関する情報とは、音源から近く時間的に先行するチャネル信号がＬチャネル信号とＲチャネル信号の何れであるかを識別する情報、および先行チャネルの振幅がゼロから非ゼロに変わる位置を示す情報の両方を含む。

立ち上がり位置符号化部１０４は、立ち上がり位置検出部１０３から入力される立ち上がり位置Ｂに関する情報を符号化し、得られる立ち上がり位置符号化パラメータP_Bをステレオ音声復号装置２００に伝送する。

遅延時間差算出部１０５は、ステレオ音声符号化装置１００に入力されるＬチャネル信号S_L(n)およびＲチャネル信号S_R(n)を用いて、下記の式（３）に従い、Ｌチャネル信号S_L(n)とＲチャネル信号S_R(n)との遅延時間差Ｔを算出する。

ここでφ(m)は、Ｌチャネル信号S_L(n)およびＲチャネル信号S_R(n)の相互相関関数を示し、Ｎは１フレームに含まれるサンプル数を示し、mはＬチャネル信号S_L(n)に対するＲチャネル信号S_R(n)のシフトサンプル数を示す。遅延時間差算出部１０５は、Ｌチャネル信号S_L(n)とＲチャネル信号S_R(n)との遅延時間差Ｔとして、φ(m)の値が最大となるｍの値を算出する。Ｌチャネル信号S_L(n)がＲチャネル信号S_R(n)に対して先行している場合には、Ｔの値が正数となり、Ｌチャネル信号S_L(n)がＲチャネル信号S_R(n)に対して遅れている場合には、Ｔの値が負数となる。ここでは上述したように、Ｌチャネル信号がＲチャネル信号に対して先行している場合を例にとるため、Ｔの値は正数となる。遅延時間差算出部１０５は、算出した遅延時間差Ｔを遅延時間差符号化部１０６および振幅比算出部１０７に出力する。

遅延時間差符号化部１０６は、遅延時間差算出部１０５から入力される遅延時間差Ｔを符号化して、符号化パラメータP_Tをステレオ音声復号装置２００に伝送する。

振幅比算出部１０７は、ステレオ音声符号化装置１００に入力されるＬチャネル信号
S_L(n)、Ｒチャネル信号S_R(n)、および遅延時間差算出部１０５で算出された遅延時間差Ｔを用いて、下記の式（４）に従い、Ｌチャネル信号S_L(n)とＲチャネル信号S_R(n)との振幅比ｇを算出する。

ここで、A_RおよびA_Lは、それぞれＲチャネル信号S_R(n)およびＬチャネル信号S_L(n)の１フレームにおける平均振幅を示す。振幅比算出部１０７は、算出された振幅比gを振幅比符号化部１０８に出力する。

上記遅延時間差算出部１０５および振幅比算出部１０７それぞれで算出された、Ｌチャネル信号S_L(n)とＲチャネル信号S_R(n)との遅延時間差Ｔおよび振幅比gについて図３を用いて説明する。

図３は、同一音源で発生した信号を異なる位置で取得したＬチャネル信号S_L(n)とＲチャネル信号S_R(n)との遅延時間差および振幅比を示す図である。この図において、図３ＡはＬチャネル信号S_L(n)を示し、図３ＢはＲチャネル信号S_R(n)とＬチャネル信号S_L(n)との関係を示す。この図に示すように、Ｌチャネル信号S_L(n)を、遅延時間差算出部１０５で算出された遅延時間差Ｔだけ遅延すると信号S^' _L(n)となる。ここで立ち上がり位置Ｂから時間軸０までの信号長は遅延時間差Ｔと一致する。次に、信号S^' _L(n)の振幅に、振幅比算出部１０７で算出された振幅比gを乗じれば、信号S^' _L(n)は同一の音源で発生した信号であるため、理想的にはＲチャネル信号S_R(n)と一致する。例えばこの図において、A^t _RおよびA^t _Lは、それぞれ時間tに対応するＲチャネル信号S_R(n)の振幅およびＬチャネル信号S_L(n)の振幅を示し、A^t _R／A^t _L＝gの関係を満たす。

振幅比符号化部１０８は、振幅比算出部１０７から入力される振幅比gを符号化し、得られる符号化パラメータP_gをステレオ音声復号装置２００に伝送する。

上記のように、ステレオ音声符号化装置１００における符号化処理はフレーム単位で行われ、モノラル信号符号化パラメータP_M、立ち上がり位置符号化パラメータP_B、遅延時間差符号化パラメータP_T、および振幅比符号化パラメータP_gを生成してステレオ音声復号装置２００に伝送する。

図４は、本実施の形態に係るステレオ音声復号装置２００の主要な構成を示すブロック図である。

図４において、ステレオ音声復号装置２００は、ステレオ音声符号化装置１００と対応して、第１レイヤ（基本レイヤ）デコーダ２４０および第２レイヤ（拡張レイヤ）デコーダ２５０を備える。第１レイヤデコーダ２４０は、モノラル信号復号部２０１を備え、ステレオ音声符号化装置１００から伝送されるモノラル信号符号化パラメータP_Mを用いて、フレーム単位でモノラル信号の復号を行う。第２レイヤデコーダ２５０は、立ち上がり位置復号部２０２およびステレオ信号復号部２０３を備え、ステレオ音声符号化装置１００から伝送される立ち上がり位置符号化パラメータP_B、遅延時間差符号化パラメータP_T、および振幅比符号化パラメータP_gを用いて、遅延時間差Ｔ単位でステレオ信号の復号を行う。

第１レイヤデコーダ２４０においてモノラル信号復号部２０１は、ステレオ音声符号化装置１００のモノラル信号符号化部１０２から伝送されるモノラル信号符号化パラメータP_Mを用いて、モノラル信号の復号を行い、モノラル復号信号S^_M(n)を出力する。ここで、モノラル信号復号部２０１の復号方式として、モノラル信号符号化部１０２で用いられる符号化方式に対応してＣＥＬＰ復号方式を用いる。第２レイヤデコーダ２５０においてステレオ信号の復号が行われなかった場合、ステレオ音声復号装置２００において生成されるステレオ音声復号信号はモノラル復号信号S^_M(n)のみからなり、モノラル音声信号となる。またモノラル信号復号部２０１は、モノラル復号信号S^_M(n)をステレオ信号復号部２０３に出力する。

第２レイヤデコーダ２５０において立ち上がり位置復号部２０２は、ステレオ音声符号化装置１００の立ち上がり位置符号化部１０４から伝送される符号化パラメータP_Bを復号して、復号立ち上がり位置Ｂ^をステレオ信号復号部２０３に出力する。ステレオ信号復号部２０３は、ステレオ音声符号化装置１００の振幅比符号化部１０８から伝送される振幅比符号化パラメータP_g、ステレオ音声符号化装置１００の遅延時間差符号化部１０６から伝送される遅延時間差符号化パラメータP_T、モノラル信号復号部２０１から入力されるモノラル復号信号S^_M(n)、および立ち上がり位置復号部２０２から入力される復号立ち上がり位置Ｂ^を用いて、ステレオ信号の復号を行い、Ｌチャネル復号信号S^_L(n)およびＲチャネル復号信号S^_R(n)を出力する。

図５は、本実施の形態に係るステレオ信号復号部２０３の詳細な構成を示すブロック図である。

図５において、ステレオ信号復号部２０３は、振幅比復号部２３１、遅延時間差復号部２３２、先行チャネル復号信号分離部２３３、後続チャネル復号信号生成部２３４、繰り返し演算制御部２３５、先行チャネル復号信号記憶部２３６、および後続チャネル復号信号記憶部２３７を備える。

振幅比復号部２３１は、ステレオ音声符号化装置１００の振幅比符号化部１０８から伝送される振幅比符号化パラメータP_gを復号し、得られる復号振幅比g^を後続チャネル復号信号生成部２３４に出力する。

遅延時間差復号部２３２は、ステレオ音声符号化装置１００の遅延時間差符号化部１０６から伝送される遅延時間差符号化パラメータP_Tを復号し、得られる復号遅延時間差Ｔ^を先行チャネル復号信号分離部２３３および繰り返し演算制御部２３５に出力する。

先行チャネル復号信号分離部２３３は、モノラル信号復号部２０１から入力されるモノラル復号信号S^_M(n)、遅延時間差復号部２３２から入力される復号遅延時間差Ｔ^、立ち上がり位置復号部２０２から入力される復号立ち上がり位置Ｂ^、および後続チャネル復号信号生成部２３４から入力される後続チャネル復号信号S^_R(n)を用い、モノラル復号信号S^_M(n)から先行チャネル復号信号S^_Ｌ(n)を分離する。上述したように本実施の形態では、Ｌチャネルが先行チャネルとなり、Ｒチャネルが後続チャネルとなる。先行チャネル復号信号分離部２３３は、上記の分離処理において、繰り返し演算制御部２３５の制御に基づき、すべての区間で同様の演算を繰り返す。先行チャネル復号信号分離部２３３は、得られるＬチャネル復号信号S^_Ｌ(n)を後続チャネル復号信号生成部２３４、および先行チャネル復号信号記憶部２３６に出力する。

後続チャネル復号信号生成部２３４は、振幅比復号部２３１から入力される復号振幅比g^、および先行チャネル復号信号分離部２３３から入力されるＬチャネル復号信号S^_L(n)を用い、後続チャネル復号信号、すなわち本実施の形態ではＲチャネル復号信号S^_R(n)を生成する。後続チャネル復号信号生成部２３４は、上記の処理において、繰り返し演算制御部２３５の制御に基づき、すべての区間で同様の演算を繰り返す。後続チャネル復号信号生成部２３４は、生成されるＲチャネル復号信号S^_R(n)を先行チャネル復号信号分離部２３３および後続チャネル復号信号記憶部２３７に出力する。

繰り返し演算制御部２３５は、遅延時間差復号部２３２から入力される復号遅延時間差Ｔ^、および立ち上がり位置復号部２０２から入力される復号立ち上がり位置Ｂ^を用いて、先行チャネル復号信号分離部２３３、および後続チャネル復号信号生成部２３４の繰り返し演算を制御し、復号遅延時間差Ｔ^(以下遅延時間差Ｔと見なす)単位で、Ｌチャネル信号S^_L(n)およびＲチャネル復号信号S^_R(n)を生成させる。

先行チャネル復号信号記憶部２３６、および後続チャネル復号信号記憶部２３７は、先行チャネル復号信号分離部２３３、および後続チャネル復号信号生成部２３４それぞれから入力されるＬチャネル復号信号S^_L(n)、およびＲチャネル復号信号S^_R(n)それぞれを記憶しておき、同一の遅延時間差Ｔ単位に対応するＬチャネル復号信号S^_L(n)、およびＲチャネル復号信号S^_R(n)を同時に出力することにより、ステレオ音声復号信号を構成する。

ステレオ音声復号装置２００のステレオ音声信号の復号処理において各チャネル信号を分離できる原理について図６を用いて説明する。

図６において、S_L(n)、およびS_R(n)は、Ｌチャネル信号、およびＲチャネル信号それぞれを示し、ｎはサンプル番号を示す。なお、１フレームはＮ個のサンプルからなる。図６Ａにおいては実線でＬチャネル信号S_L(n)を示し、図６Ｂにおいては破線でＲチャネル信号S_R(n)を示し、図６Ｃにおいては実線および破線で、Ｌチャネル信号S_L(n)およびＲチャネル信号S_R(n)を同時に示している。

図６Ａに示すように、本実施の形態では遅延時間差Ｔが１フレーム長より小さい場合を例にとり、立ち上がり位置Ｂから最初の遅延時間差Ｔまでの区間を区間０と示す。図６Ａにおいて、Ｌチャネル信号S_L(n)の１フレームは、遅延時間差Ｔ毎に区間１、区間２、…に区切られる。ここで各区間のＬチャネル信号をS_L ⁽¹⁾(n)、S_L ⁽²⁾(n)、…で示し、上付文字の(1)、(2)は区間番号を示す。なお、フレーム長が遅延時間差Ｔの整数倍になるとは限らないため、１フレーム内の最後の区間は、遅延時間差Ｔより短い場合がある。

図６Ｂに示すように、Ｒチャネル信号S_R(n)の１フレームも遅延時間差Ｔ毎に区間１、区間２、…に区切られる。各区間のＲチャネル信号をS_R ⁽¹⁾(n)、S_R ⁽²⁾(n)、…で示し、上付文字の(1)、(2)は、区間番号を示す。なお、立ち上がり位置Ｂから最初の遅延時間差Ｔまでの区間０において、Ｒチャネル信号S_R(n)は存在しない。すなわち、S_R ⁽⁰⁾(n)＝０である。

従って、ステレオ音声復号装置２００は、下記の式（５）に従い、モノラル復号信号S^_M(n)の区間０に対応する部分の信号S^_M ⁽⁰⁾(n)を、区間０のＬチャネル復号信号S^_L ⁽⁰⁾(n)とすることができる。
S^_L ⁽⁰⁾(n)＝S^_M ⁽⁰⁾(n) ただし、−T≦n＜0 …（５）

図６Ｃに示すように、破線で示すＲチャネル信号S_R(n)の波形は、実線で示すＬチャネル信号Ｓ_L(n)に対して遅延時間差Ｔ分の遅延があり、１区間遅れた信号となる。また、Ｒチャネル信号S_R(n)の振幅は、Ｌチャネル信号S_L(n)に対して振幅比g（g≦１）が乗じられた振幅となる。すなわち、Ｌチャネル信号S_L(n)とＲチャネル信号S_R(n)とは、下記の式（６）に示す関係を満たす。
S_R(n)＝ｇ・S_L(n−T) …（６）

従って、ステレオ音声復号装置２００は、下記の式（７）を用いて、区間０のＬチャネル復号信号S^_L ⁽⁰⁾(n−T)をスケール調整して、区間１のＲチャネル信号S^_R ⁽¹⁾(n)を求めることができる。
S^_R ⁽¹⁾(n)＝g^・S^_L ⁽⁰⁾(n−T) ただし、0≦n＜T …（７）

次いで、モノラル復号信号S^_M(n)の区間１に対応する部分の信号S^_M ⁽¹⁾(n)から、上記区間１のＲチャネル復号信号S^_R ⁽¹⁾(n)を分離することにより、区間１のＬチャネル復号信号S^_L ⁽¹⁾(n)を求めることができる。再び、求められた区間１のＬチャネル復号信号S^_L ⁽¹⁾(n)に振幅比ｇを掛けると、区間２のＲチャネル信号S^_R ⁽²⁾(n)が得られる。このように同様の演算を繰り返すことにより、ステレオ音声復号装置２００はステレオ音声を復号することができる。

すなわち、ステレオ音声復号装置２００は、まずモノラル信号S_M(n)において、Ｌチャネル信号S_L(n)とＲチャネル信号S_R(n)とが混在している区間ではなく、Ｌチャネル信号S_L(n)のみが存在する区間０を特定する。次いでステレオ音声復号装置２００は、特定した区間０のＬチャネル信号S_L ⁽⁰⁾(n)をスケール調整して次の区間１のＲチャネル信号S_R ⁽¹⁾(n)を予測する。次いで区間１のモノラル信号S_M ⁽¹⁾(n)（ＬチャネルS_L ⁽¹⁾(n)とＲチャネルS_R ⁽¹⁾(n)とが混在する信号）から、予測したＲチャネル信号S_R ⁽¹⁾(n)の寄与分を減ずることにより、区間１におけるＬチャネル信号S_L ⁽¹⁾(n)を求める。ステレオ音声復号装置２００は、続けて上記のスケール調整および分離処理を繰り返すことにより、各区間におけるＬチャネル信号S_L(n)およびＲチャネル信号S_R(n)を得る。

図７は、図６に示したステレオ音声信号をテーブルに纏めて示す図である。この図において第１行目はフレームの順番を示し、第２行目は区間番号を示す。第３行目はサンプル番号ｎの可能な値の範囲を示し、第４行目および第５行目は、それぞれ各区間に対応するＬチャネル信号およびＲチャネル信号を示す。

次に、ステレオ音声復号装置２００におけるステレオ音声信号の復号手順について詳細に説明する。

まずモノラル信号復号部２０１は、モノラル信号符号化パラメータP_Mを復号してモノラル復号信号S^_M(n)を得る。

次いで立ち上がり位置復号部２０２は、立ち上がり位置符号化パラメータP_Bを復号して復号立ち上がり位置Ｂ^を得る。

次いで、振幅比復号部２３１は、振幅比符号化パラメータP_gを復号して復号振幅比g^を得、遅延時間差復号部２３２は、遅延時間差符号化パラメータP_Tを復号して復号遅延時間差Ｔ^を得る。

次いで先行チャネル復号信号分離部２３３は、復号遅延時間差Ｔ^、モノラル復号信号S^_M(n)、復号立ち上がり位置Ｂ^を用いて、区間０のＬチャネル復号信号S^_L ⁽⁰⁾(n)を得る。区間０では、Ｌチャネル信号しか存在しないので、モノラル復号信号がＬチャネル復号信号となり、すなわち、上記の式（５）に従い、立ち上がり位置までのＬチャネル復号信号S^_L ⁽⁰⁾(n)が得られる。

次いで後続チャネル復号信号生成部２３４は、上記の式（７）に従い、区間１におけるＲチャネル復号信号S^_R ⁽¹⁾(n)を得る。

次いで、ステレオ音声符号化装置１００においてモノラル信号S_M(n)はＬチャネル信号S_L(n)およびＲチャネル信号S_R(n)の平均値として求められたため、先行チャネル復号信号分離部２３３は、下記の式（８）に従い、区間１におけるＬチャネル復号信号S^_L ⁽¹⁾(n)を得る。
S^_L ⁽¹⁾(n)＝2・S^_M ⁽¹⁾(n)−S^_R ⁽¹⁾(n)＝2・S^_M ⁽¹⁾(n)−g^・S^_L ⁽⁰⁾(n−T) …（８）
ここで、nは、0≦n＜Tである。なお式（８）においては、式（７）が代入されている。すなわち、先行チャネル復号信号分離部２３３で求められた、区間０のＬチャネル復号信号に相当するS^_L ⁽⁰⁾(n−T)（0≦n＜T）が後続チャネル復号信号生成部２３４において用いられる。

次いで先行チャネル復号信号分離部２３３、および後続チャネル復号信号生成部２３４は、繰り返し演算制御部２３５の制御に基づき上記の式（７）および式（８）に示す演算を区間２以降において再帰的に繰り返しながら、すべての区間におけるＬチャネル復号信号S^_L(n)およびＲチャネル復号信号S^_R(n)を得る。

具体的には、区間２におけるＲチャネル信号S^_R ⁽²⁾(n)は、同様に、式（７）に示す演算を区間２で繰り返すことにより求められ、すなわち下記の式（９）に従い、S^_L ⁽¹⁾(n−T)をスケール調整して求められる。
S^_R ⁽²⁾(n)＝g^・S^_L ⁽¹⁾(n−T) …（９）
この式では、T≦n＜2・Tであり、区間１のＬチャネル復号信号に相当するS^_L ⁽¹⁾(n−T) （T≦n＜2・T）が区間２で再帰的に用いられる。

次いで、区間２におけるＬチャネル復号信号S^_L ⁽²⁾(n)は、式（８）に示す演算を区間２で繰り返すことにより求められ、すなわち下記の式（１０）に従って求められる。
S^_L ⁽²⁾(n)＝2・S^_M ⁽²⁾(n)−S^_R ⁽²⁾(n)＝2・S^_M ⁽²⁾(n)−g^・S^_L ⁽¹⁾(n−T) …（１０）
この式では、T≦n＜2・Tであり、区間１のＬチャネル復号信号に相当するS^_L ⁽¹⁾(n−T) （T≦n＜2・T）が区間２で再帰的に用いられる。

区間j＋1におけるＬチャネル復号信号S^_L ^(j+1)(n)およびＲチャネル復号信号S^_R ^(j+1)(n)は、区間２におけるＬチャネル復号信号S^_L ⁽²⁾(n)およびＲチャネル復号信号S^_R ⁽²⁾(n)の求め方と同様に、区間ｊの演算結果を再帰的に用いることにより求められる。具体的には、区間j＋1におけるＲチャネル復号信号S^_R ^(j+1)(n)は、下記の式（１１）に従い得られる。
S^_R ^(j+1)(n)＝g^・S^_L ^(j)(n−T) …（１１）
この式で、j・T≦n＜(j＋1)・T、j＝0,…,Ｊ−１、j・T≦n＜Nであり、Ｊは、Ｊ・T≦n＜(Ｊ＋1)・Tを満たす整数値である。

次いで、区間j＋1におけるＬチャネル復号信号S^_L ^(j+1)(n)は、下記の式（１２）に従い求められる。
S^_L ^(j+1)(n)＝2・S^_M ^(j+1)(n)−S^_R ^(j+1)(n)＝2・S^_M ^(j+1)(n)−g^・S^_L ^(j)(n−T) …（１２）
ただし、j・T≦n＜(j＋1)・T j＝0,…,J−１
j・T≦n＜N j＝J
j＝0,…,J J・T≦N＜(J＋1)・Tを満たす整数値

なお、上記の式（１２）において、j＝j−1にすると、下記の式（１３）が得られる。
S^_L ^(j)(n)＝2・S^_M ^(j)(n)−g^・S^_L ^(j-1)(n−T) …（１３）

また、n＝n−Tにする場合の式（１３）の結果を、式（１２）の右辺第２項に代入すると、下記の式（１４）が得られる。
S^_L ^(j+1)(n)＝2・S^_M ^(j+1)(n)−g^・{2・S^_M ^(j)(n−T)−g^・S^_L ^(j-1)(n−2・T)｝ …（１４）

式（１３）において、j＝j−1とすると、下記の式（１５）が得られる。
S^_L ^(j-1)(n)＝2・S^_M ^(j-1)(n)−g^・S^_L ^(j-2)(n−T) …（１５）

さらに、n＝n−2・Tにする場合の式（１５）の結果を、式（１４）の右辺第３項に代入すると、下記の式（１６）が得られる。
S^_L ^(j+1)(n)＝2・S^_M ^(j+1)(n)−2・g^・S^_M ^(j)(n−T)−g^・(−g^){2・S^_M ^(j-1)(n−2・T)−g^・S^_L ^(j-2)(n−3・T)} …（１６）

式（１３）〜（１６）の演算を繰り返すと、下記の式（１７）が得られる。

この式において、右辺のS^_M(n−(j+1)・T)は、つまり、区間０のモノラル信号である。

すなわち、先行チャネル復号信号分離部２３３は、上記の式（１７）に従いモノラル復号信号S^_M(n)のみを用いて、Ｌチャネル復号信号S^_L ^(j+1)(n)を求めても良い。かかる場合、Ｒチャネル復号信号S^_R ^(j+1)(n)は、Ｌチャネル復号信号S^_L ^(j+1)(n)をスケール調整して求めれば良い。

このように、本実施の形態によれば、ステレオ音声符号化装置は、モノラル信号と、すべての区間におけるＬチャネル信号、Ｒチャネル信号の予測情報を符号化するのに代えて、モノラル信号、立ち上がり位置、遅延時間差、および振幅比を符号化してステレオ音声復号装置に伝送する。ステレオ音声復号装置は、ステレオ音声符号化装置から伝送される符号化情報を用いて繰り返しの演算を行いステレオ音声信号を復号する。すべての区間におけるＬチャネル信号、Ｒチャネル信号の予測情報に比べ、立ち上がり位置、遅延時間差、および振幅比の情報量はより少ないため、本実施の形態によれば予測係数を減少し、より低いビットレートでステレオ音声信号の伝送を行うことができる。

なお、本実施の形態では、ステレオ音声信号がＬチャネル信号とＲチャネル信号と２チャネルからなり、Ｒチャネル信号よりもＬチャネル信号が音源から近い場合を例にとって説明したが、Ｌチャネル信号よりもＲチャネル信号が音源から近い場合でも本実施の形態を適応することができ、かかる場合、音声立ち上がり位置から最初の遅延時間差Ｔまでの区間０においては、Ｌチャネル信号は存在せず、Ｒチャネル信号のみ存在する。さらに、ステレオ音声信号が３つ以上のチャネル信号からなる場合でも、本実施の形態を適宜変更して適用することができる。

また、本実施の形態では、ステレオ復号装置で、区間０のＬチャネル信号をスケール調整して区間１のＲチャネル信号として復号を行う場合を例にとって説明したが、モデル的な波形を予め記憶しておいて区間１のＲチャネル信号（またはＬチャネル信号）として用いても良い。

また、本実施の形態では、モノラル信号の符号化方式としてＣＥＬＰ符号化方式を用いる場合を例にとって説明したが、ＣＥＬＰ符号化方式と異なる他の符号化方式を用いても良い。

また、本実施の形態では、モノラル信号の生成方法としてＬチャネル信号とＲチャネル信号との平均値を求める方法を例にとって説明したが、モノラル信号の生成方法として他の方法を使っても良く、その一例を式で表すとS_M(n)＝ｗ_１S_L(n)＋ｗ_２S_R(n)である。この式においてｗ_１、ｗ_２は、ｗ_１＋ｗ_２＝１．０の関係を満たす重み付け係数である。

また、本実施の形態では、ステレオ音声信号を符号化して伝送する場合を例にとって説明したが、無音区間と有音区間からなるステレオオーディオ信号を符号化して伝送しても良い。

（実施の形態２）
図８は、本発明の実施の形態２に係るステレオ音声符号化装置３００の主要な構成を示すブロック図である。なお、ステレオ音声符号化装置３００は、実施の形態１に示したステレオ音声符号化装置１００（図１参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ステレオ音声符号化装置３００は、第１レイヤデコーダ２４０ａ、第２レイヤデコーダ４５０ａ、誤差信号算出部３０１、および誤差信号符号化部３０２をさらに具備する点で、実施の形態１に示したステレオ音声符号化装置１００と相違する。ステレオ音声符号化装置３００において、第１レイヤデコーダ２４０ａ、第２レイヤデコーダ４５０ａ、誤差信号算出部３０１、誤差信号符号化部３０２、および第２レイヤエンコーダ１５０は、第２レイヤエンコーダ３５０を構成する。

ステレオ音声符号化装置３００において、ローカルデコーダとしての第１レイヤデコーダ２４０ａは、実施の形態１に係るステレオ音声復号装置２００が備える第１レイヤデコーダ２４０と同様な構成および機能を有する。すなわち、第１レイヤデコーダ２４０ａは、モノラル信号符号化部１０２で生成されたモノラル信号符号化パラメータP_Mを入力とし、モノラル信号を復号して、得られるモノラル復号信号S^_M(n)を第２レイヤデコーダ４５０ａに出力する。

ステレオ音声符号化装置３００の別のローカルデコーダとして第２レイヤデコーダ４５０ａは、第１レイヤデコーダ２４０ａで生成されるモノラル復号信号S^_M(n)、立ち上がり位置符号化部１０４で生成される立ち上がり位置符号化パラメータP_B、遅延時間差符号化部１０６で生成される遅延時間差符号化パラメータP_T、振幅比符号化部１０８で生成される振幅比符号化パラメータP_g、誤差信号符号化部３０２で生成されるＬチャネル誤差信号符号化パラメータP_ΔLおよびＲチャネル誤差信号符号化パラメータP_ΔRを用いてステレオ音声信号の復号を行う。第２レイヤデコーダ４５０ａは、生成されたＬチャネル復号信号S^_L(n)およびＲチャネル復号信号S^_R(n)を誤差信号算出部３０１に出力する。第２レイヤデコーダ４５０ａの詳細な構成については後述する。

誤差信号算出部３０１は、ステレオ音声符号化装置３００の入力信号であるＬチャネル信号S_L(n)、Ｒチャネル信号S_R(n)、および第２レイヤデコーダで生成されるＬチャネル復号信号S^_L(n)、Ｒチャネル復号信号S^_R(n)を用いて、下記の式（１８）および式（１９）に従い、Ｌチャネル誤差信号ΔS_L(n)およびＲチャネル誤差信号ΔS_R(n)を算出する。
ΔS_L(n)＝S_L(n)−S^_L(n) …（１８）
ΔS_R(n)＝S_R(n)−S^_R(n) …（１９）
誤差信号算出部３０１は、算出されたＬチャネル誤差信号ΔS_L(n)およびＲチャネル誤差信号ΔS_R(n)を誤差信号符号化部３０２に出力する。

誤差信号符号化部３０２は、誤差信号算出部３０１で算出されたＬチャネル誤差信号ΔS_L(n)およびＲチャネル誤差信号ΔS_R(n)を符号化し、Ｌチャネル誤差信号符号化パラメータP_ΔLおよびＲチャネル誤差信号符号化パラメータP_ΔRをステレオ音声復号装置４００に伝送する。

図９は、本実施の形態に係る第２レイヤデコーダ４５０ａの詳細な構成を示すブロック図である。なお、第２レイヤデコーダ４５０ａは、実施の形態１に示した第２レイヤデコーダ２５０（図４参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。第２レイヤデコーダ４５０ａは、誤差信号復号部４０１、および復号信号補正部４０２をさらに具備する点で、実施の形態１に示した第２レイヤデコーダ２５０と相違する。

誤差信号復号部４０１は、誤差信号符号化部３０２から入力されるＬチャネル誤差信号符号化パラメータP_ΔLおよびＲチャネル誤差信号符号化パラメータP_ΔRを復号して、生成されるＬチャネル誤差復号信号ΔS^_L(n)およびＲチャネル誤差復号信号ΔS^_R(n)を復号信号補正部４０２に出力する。

復号信号補正部４０２は、誤差信号復号部４０１で生成されるＬチャネル誤差復号信号ΔS^_L(n)、Ｒチャネル誤差復号信号ΔS^_R(n)、およびステレオ信号復号部２０３で生成されるＬチャネル復号信号S^_L(n)、Ｒチャネル復号信号S^_R(n)を用いて、下記の式（２０）および式（２１）に従い、誤差補正されたＬチャネル復号信号S"_L(n)およびＲチャネル復号信号S"_R(n)を生成し、ステレオ信号復号部２０３に出力する。
S"_L(n)＝S^_L(n)＋ΔS^_L(n) …（２０）
S"_R(n)＝S^_R(n)＋ΔS^_R(n) …（２１）
誤差補正されたＬチャネル復号信号S"_L(n)およびＲチャネル復号信号S"_R(n)は、ステレオ信号復号部２０３の次の区間におけるステレオ音声信号の復号に用いられ、実施の形態１に比べ誤差のより少ないＬチャネル復号信号S^_L(n)およびＲチャネル復号信号S^_R(n)が得られる。

上記のように、ステレオ音声符号化装置３００で生成されステレオ音声復号装置４００に伝送される符号化パラメータは、モノラル信号符号化パラメータP_M、立ち上がり位置符号化パラメータP_B、遅延時間差符号化パラメータP_T、振幅比符号化パラメータP_g、Ｌチャネル誤差信号符号化パラメータP_ΔL、およびＲチャネル誤差信号符号化パラメータP_ΔRである。

図１０は、本実施の形態に係るステレオ音声復号装置４００の主要な構成を示すブロック図である。

図１０において、ステレオ音声復号装置４００は、第１レイヤデコーダ２４０および第２レイヤデコーダ４５０を備える。ステレオ音声復号装置４００の第１レイヤデコーダ２４０は、図４に示した第１レイヤデコーダ２４０と同一の構成および機能を有するため、ここでは説明を省略する。ステレオ音声復号装置４００の第２レイヤデコーダ４５０は、図９に示す第２レイヤデコーダ４５０ａと同様の構成および機能を有する。すなわち第２レイヤデコーダ４５０は、ステレオ音声符号化装置３００から伝送される立ち上がり位置符号化パラメータP_B、遅延時間差符号化パラメータP_T、振幅比符号化パラメータP_g、Ｌチャネル誤差信号符号化パラメータP_ΔLおよびＲチャネル誤差信号符号化パラメータP_ΔRを入力とし、ステレオ信号の復号を行い、Ｌチャネル復号信号S^_L(n)およびＲチャネル復号信号S^_R(n)を出力する。

このように、本実施の形態によれば、ステレオ音声符号化装置は、実施の形態１に比べてＬチャネル誤差信号符号化パラメータP_ΔLおよびＲチャネル誤差信号符号化パラメータP_ΔRをさらに伝送し、ステレオ音声符号化装置は、より誤差の少ないＬチャネル復号信号S^_L(n)およびＲチャネル復号信号S^_R(n)を生成して出力することができる。

なお、本実施の形態では、ステレオ符号化装置で立ち上がり位置符号化情報を求めてステレオ復号装置に伝送する場合を例にとって説明したが、ステレオ符号化装置が立ち上がり位置検出部および立ち上がり位置符号化部を備えず、またステレオ復号装置が立ち上がり位置復号部を備えず、ステレオ復号装置側の誤差信号補正部およびステレオ信号復号部の処理により立ち上がり位置を検出して復号を行っても良い。

また、本実施の形態では、Ｌチャネル信号およびＲチャネル信号両方の誤差信号を符号化する場合を例にとって説明したが、先行チャネル信号、本実施の形態ではＬチャネル信号の誤差信号のみを符号化してもよい。ただし、先行チャネル信号の誤差信号のみを符号化する場合よりも、Ｌチャネル信号およびＲチャネル信号両方の誤差信号を符号化する場合、ステレオ音声復号装置で復号されるステレオ音声信号の品質をさらに向上することができる。

また、本実施の形態では、ステレオ音声復号装置から出力されるＬチャネル復号信号およびＲチャネル復号信号がステレオ信号復号部にフィードバックされない場合を例にとって説明したが、ステレオ音声復号装置から出力されるＬチャネル復号信号およびＲチャネル復号信号が遅延時間差単位でステレオ信号復号部にフィードバックされ用いられるようにしてもよく、かかる場合ステレオ音声復号装置は、さらに誤差の少ないＬチャネル復号信号およびＲチャネル復号信号を得て出力することができる。

（実施の形態３）
図１１は、本発明の実施の形態３に係るステレオ音声符号化装置５００の主要な構成を示すブロック図である。ステレオ音声符号化装置５００は、実施の形態１に示したステレオ音声符号化装置１００（図１参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ステレオ音声符号化装置５００は、遅延時間差補正値算出部５０１、遅延時間差補正値符号化部５０２、振幅比補正値算出部５０３、および振幅比補正値符号化部５０４をさらに具備する点で、実施の形態１に示したステレオ音声符号化装置１００と相違する。

遅延時間差補正値算出部５０１は、Ｌチャネル信号S_L(n)とＲチャネル信号S_R(n)とを、遅延時間差算出部１０５から入力される遅延時間差Ｔに対応する長さでＫ個の区間に分割し、各区間におけるＬチャネル信号S_L(kT＋n)とＲチャネル信号S_R(kT＋n)との遅延時間差T_kが遅延時間差Ｔに対する変動量ΔT_k、すなわちｋ区間における遅延時間差補正値ΔT_kを算出する（ここでｋは、区間番号を示し、ｋ＝０，１，２，…Ｋである）。具体的に、遅延時間差補正値算出部５０１は、まず、下記の式（２２）を用いて、ｋ区間におけるＬチャネル信号S_L(kT＋n)およびＲチャネル信号S_R(kT＋n)の相互相関関数を算出する。

この式において、Ｔは各区間に含まれるサンプル数を示し、τ_kはＬチャネル信号S_L(n)に対するＲチャネル信号S_R(n)のシフトサンプル数を示す。φ_k(τ_k)は、ｋ区間におけるＬチャネル信号S_L(kT＋n)およびＲチャネル信号S_R(kT＋n)の相互相関値を示し、遅延時間差算出部１０５は、φ_k(τ_k)の値が最大となるτ_kの値を、ｋ区間におけるＬチャネル信号S_L(kT＋n)とＲチャネル信号S_R(kT＋n)との遅延時間差Ｔ_ｋとして算出する。このように、遅延時間差Ｔは、１フレーム全般におけるＬチャネル信号およびＲチャネル信号の遅延時間差を示すのに対して、遅延時間差Ｔ_ｋは、１フレーム内の各区間におけるＬチャネル信号およびＲチャネル信号の遅延時間差を示す。次いで、遅延時間差補正値算出部５０１は、下記の式（２３）を用いて、遅延時間差Ｔに対するｋ区間における遅延時間差Ｔ_ｋの変動量をｋ区間における遅延時間差補正値ΔT_ｋとして算出する。
ΔT_k＝T_k−T …（２３）

遅延時間差補正値算出部５０１は、算出された遅延時間差補正値ΔT_kを遅延時間差補正値符号化部５０２に出力し、ｋ区間における遅延時間差T_kを振幅比補正値算出部５０３に出力する。

遅延時間差補正値符号化部５０２は、遅延時間差補正値算出部５０１から入力される遅延時間差補正値ΔT_kを符号化し、生成される遅延時間差補正値符号化パラメータP_ΔTｋを本実施の形態に係るステレオ音声復号装置（図示せず）に伝送する。

振幅比補正値算出部５０３は、Ｌチャネル信号S_L(n)とＲチャネル信号S_R(n)とを、遅延時間差算出部１０５から入力される遅延時間差Ｔを長さとするＫ個の区間に分割し、遅延時間差補正値算出部５０１から入力される遅延時間差T_kおよび振幅比算出部１０７から入力される振幅比gを用いて、各区間におけるＬチャネル信号S_L(kT＋n−ΔT_k)とＲチャネル信号S_R(kT＋n)との振幅比g_kが振幅比gに対する変動量Δg_k、すなわちｋ区間における振幅比補正値Δg_kを算出する。具体的に、振幅比補正値算出部５０３は、まず、下記の式（２４）に従い、遅延時間差T_kを考慮した、ｋ区間におけるＲチャネル信号S_R(kT＋n)とＬチャネル信号S_L(kT＋n)との振幅比g_kを算出する。

このように、振幅比gは、１フレーム全般におけるＬチャネル信号およびＲチャネル信号の振幅比を示すのに対して、振幅比g_ｋは、１フレーム内の各区間におけるＬチャネル信号およびＲチャネル信号の振幅比を示す。次いで、振幅比補正値算出部５０３は、下記の式（２５）を用いて、振幅比gに対するｋ区間における振幅比g_ｋの変動量をｋ区間における振幅比補正値Δg_kとして算出する。
Δg_k＝g_k／g …（２５）
すなわち、振幅比補正値算出部５０３は、ｋ区間におけるＲチャネル信号S_R(kT＋n)とＬチャネル信号S_L(kT＋n)との振幅比g_kと、振幅比算出部１０７から入力される振幅比gとの比を、振幅比補正値Δg_kとして算出する。振幅比補正値算出部５０３は、算出された振幅比補正値Δg_kを振幅比補正値符号化部５０４に出力する。

振幅比補正値符号化部５０４は、振幅比補正値算出部５０３から入力される振幅比補正値Δg_kを符号化し、生成される振幅比補正値符号化パラメータP_Δgkを本実施の形態に係るステレオ音声復号装置に伝送する。

本実施の形態に係るステレオ音声復号装置は、本発明の実施の形態１に係るステレオ音声復号装置２００の基本的な構成及び機能を有し、遅延時間差補正値ΔT_ｋおよび振幅比補正値Δg_kをさらに用いてステレオ音声を復号する点でステレオ音声復号装置２００と相違する。例えば、遅延時間差復号部２３２において、遅延時間差補正値符号化パラメータP_ΔTｋを復号し、得られる遅延時間差補正値ΔT_kを用いて遅延時間差Ｔを補正する。また、振幅比復号部２３１において、振幅比補正値符号化パラメータP_Δgkを復号し、得られる振幅比補正値Δg_kを用いて振幅比ｇを補正する。ここでは、本実施の形態にかかるステレオ音声復号装置は図示せず、さらなる詳細な説明を省略する。

このように、本実施の形態によれば、ステレオ音声符号化装置は、遅延時間差Ｔに対応する長さで１フレームのステレオ音声信号を複数の区間に分割し、各区間における遅延時間差Ｔ_ｋおよび振幅比g_kが、１フレーム全般における遅延時間差Ｔおよび振幅比gに対する変動量を遅延時間差補正値ΔT_ｋおよび振幅比補正値Δg_kとして伝送するため、ステレオ音声符号化の予測誤差をさらに低減することができる。ここで、遅延時間差補正値ΔT_ｋおよび振幅比補正値Δg_kは、ｋ区間における遅延時間差Ｔ_ｋおよび振幅比g_kに比べ、値が小さいため、より低いビットレートでステレオ音声信号を符号化することができる。

なお、本実施の形態では、遅延時間差補正値算出部５０１が式（２２）に示すように、長さが遅延時間差Ｔであるｋ区間を演算範囲として相互相関値を算出する場合を例にとって説明したが、これに限定されず、ｋ区間を含む（T−Δa）〜（T−Δb）範囲の区間を演算範囲として相互相関値を算出しても良い。

また、本実施の形態では、遅延時間差補正値符号化部５０２は、各区間における遅延時間差補正値ΔT_kを個別に符号化し、Ｋ個の遅延時間差補正値符号化パラメータP_ΔTｋを生成する場合を例にとって説明したが、Ｋ個の遅延時間差補正値ΔT_kを纏めて符号化し、１つの遅延時間差補正値符号化パラメータ（例えば、P_ΔTと記す）を生成しても良い。

また、本実施の形態では、振幅比補正値符号化部５０４は、各区間における振幅比補正値Δg_kを個別に符号化し、Ｋ個の振幅比補正値符号化パラメータP_Δgkを生成する場合を例にとって説明したが、Ｋ個の振幅比補正値Δg_kを纏めて符号化し、１つの振幅比補正値符号化パラメータ（例えば、P_Δgと記す）を生成しても良い。

（実施の形態４）
図１２は、本実施の形態に係るステレオ音声符号化装置７００の主要な構成を示すブロック図である。ステレオ音声符号化装置７００は、本発明の実施の形態３に示したステレオ音声符号化装置５００（図１１参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ステレオ音声符号化装置７００の遅延時間差補正値符号化部７０２、振幅比補正値符号化部７０４と、ステレオ音声符号化装置５００の遅延時間差補正値符号化部５０２、振幅比補正値符号化部５０４とは処理の一部に相違点があり、それを示すために異なる符号を付す。

遅延時間差補正値符号化部７０２は、第１符号化ビットテーブルをさらに内蔵し、内蔵の第１符号化ビットテーブルを用いて、遅延時間差補正値算出部５０１から入力される遅延時間差補正値を符号化する点で遅延時間差補正値符号化部５０２と相違する。第１符号化ビットテーブルは、遅延時間差補正値算出部５０１から入力される各区間における遅延時間差補正値ΔT_k(1≦k≦K)を符号化するための、各区間毎の符号化ビット数を備える。１フレーム内のすべての遅延時間差補正値ΔT_kを符号化するためのビット総数をMと示し、各区間kにおける遅延時間差補正値ΔT_kを符号化するためのビット数をTB(k)と示す場合、下記の式（２６）および式（２７）が満たされる。
TB(k)≧TB(k-1) …（２６）

ここで、例えば、各区間kにおける遅延時間差補正値ΔT_kに対して量子化を行う場合、TB(k)は、スカラ量子化ビット数を示す。式（２６）および式（２７）に示すように、遅延時間差補正値符号化部７０２は、フレームの先頭に近い区間よりもフレームの後尾に近い区間、すなわち、区間番号kがより大きい区間における遅延時間差補正値ΔT_kの符号化に、より多くの符号化ビットを配分する。

振幅比補正値符号化部７０４は、第２符号化ビットテーブルをさらに内蔵し、内蔵の第２符号化ビットテーブルを用いて、振幅比補正値算出部５０３から入力される振幅比補正値を符号化する点で振幅比補正値符号化部５０４と相違する。第２符号化ビットテーブルは、振幅比補正値算出部５０３から入力される各区間における振幅比補正値Δg_k(1≦k≦K)を符号化するための、各区間毎の符号化ビット数を備える。１フレーム内のすべての振幅比補正値ΔT_kを符号化するためのビット総数をＮと示し、各区間kにおける振幅比補正値Δg_kを符号化するためのビット数をAB(k)と示す場合、下記の式（２８）および式（２９）が満たされる。
AB(k)≧AB(k-1) …（２８）

ここで、例えば、各区間における振幅比補正値Δg_kに対して量子化を行う場合、AB(k)は、スカラ量子化ビット数を示す。式（２８）および式（２９）に示すように、振幅比補正値符号化部７０４は、フレームの先頭に近い区間よりもフレームの後尾に近い区間、すなわち、区間番号kがより大きい区間における振幅比補正値Δg_kの符号化に、より多くの符号化ビットを配分する。

本実施の形態に係るステレオ音声復号装置８００（図示せず）は、式（１７）に従いステレオ音声復号信号を求めて、さらに、遅延時間差補正値ΔT_kおよび振幅比補正値Δg_kを用いてステレオ音声復号信号の誤差を補正する。式（１７）に示すように、ステレオ音声復号装置８００は、１フレーム内の各区間のステレオ音声復号信号を求めるために、遅延時間差Ｔ、および振幅比gを再帰的に用いるため、区間番号kが増加するとともに、求められるステレオ音声復号信号の誤差も増加する。その理由は、区間番号kが増加するとともに、遅延時間差補正値ΔT_kおよび振幅比補正値Δg_kが増加するためである。従って、区間番号kが増加するとともに、遅延時間補正値ΔT_kおよび振幅比補正値Δg_kの符号化ビット数を増加させれば、予測誤差を低減し、ステレオ音声復号信号の音質を向上することができる。

このように、本実施の形態によれば、ステレオ音声符号化装置は、フレームの先頭に近い区間よりもフレームの後尾に近い区間の振幅比補正値および振幅比補正値の符号化に、より多くの符号化ビットを配分するため、予測誤差を低減し、ステレオ音声復号信号の音質を向上することができる。

なお、本実施の形態においては、１フレーム内の各区間毎にフレームの後尾に近いほど、符号化ビット数を増加する場合を例にとって説明したが、これに限定されず、１フレーム内のすべてのＫ個の区間を複数のブロックに分割し、各ブロック毎にフレームの後尾に近いほど符号化ビット数を増加しても良い。すなわち、同一のブロック内の各区間の遅延時間差補正値または振幅比補正値の符号化には同一の符号化ビット数を用いる。

また、本実施の形態に係る符号化ビット配分の方法を本発明の実施の形態２に適用しても、予測誤差を低減する効果が得られる。例えば、ステレオ音声符号化装置３００において、誤差信号符号化部３０２が誤差信号算出部３０１から入力されるＬチャネル誤差信号およびＲチャネル誤差信号を量子化する場合、フレームの先頭よりもフレームの後尾に近いほど、より多くのビット数を用いて量子化を行えば良い。

以上、本発明の各実施の形態について説明した。

本発明に係るステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法は、上記各実施の形態に限定されず、種々変更して実施することが可能である。

本発明に係るステレオ音声符号化装置およびステレオ音声復号装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置および基地局装置を提供することができる。また、本発明に係るステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法は、有線方式の通信システムにおいても利用可能である。

なお、本明細書では、本発明をモノラル−ステレオのスケーラブル符号化に適用する構成を例にとって説明したが、ステレオ信号に対して帯域分割符号化を行う場合の帯域別の各符号化／復号に本発明を適用するような構成としても良い。

また、本発明に係るステレオ信号符号化部と通常のステレオ信号符号化部の双方を有し、Ｌチャネル信号とＲチャネル信号との相関度合いに基づいて、モード切替部が、実際に使用するステレオ信号符号化部を切り替えるような構成としても良い。かかる場合、Ｌチャネル信号とＲチャネル信号との相関度合いが閾値以下の場合、通常のステレオ信号符号化部を用いて、Ｌチャネル信号およびＲチャネル信号をそれぞれ別個に符号化し、Ｌチャネル信号とＲチャネル信号との相関度合いが閾値より高い場合は、本発明に係るステレオ信号符号化部を用いて、Ｌチャネル信号およびＲチャネル信号の符号化を行う。

また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るステレオ音声符号化方法の処理のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明のステレオ音声符号化装置と同様の機能を実現することができる。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されていても良いし、一部または全てを含むように１チップ化されていても良い。

また、ここではＬＳＩとしたが、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。

２００６年３月３１日出願の特願２００６−９９９１３の日本出願および２００６年１０月３日出願の特願２００６−２７２１３２の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本発明に係るステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法は、移動体通信システムにおける通信端末装置等の用途に適用できる。

振幅比算出部１０７は、ステレオ音声符号化装置１００に入力されるＬチャネル信号S_L
(n)、Ｒチャネル信号S_R(n)、および遅延時間差算出部１０５で算出された遅延時間差Ｔを用いて、下記の式（４）に従い、Ｌチャネル信号S_L(n)とＲチャネル信号S_R(n)との振幅比ｇを算出する。

後続チャネル復号信号生成部２３４は、振幅比復号部２３１から入力される復号振幅比g^、および先行チャネル復号信号分離部２３３から入力されるＬチャネル復号信号S^_L(n)を用い、後続チャネル復号信号、すなわち本実施の形態ではＲチャネル復号信号S^_R(n)を
生成する。後続チャネル復号信号生成部２３４は、上記の処理において、繰り返し演算制御部２３５の制御に基づき、すべての区間で同様の演算を繰り返す。後続チャネル復号信号生成部２３４は、生成されるＲチャネル復号信号S^_R(n)を先行チャネル復号信号分離部２３３および後続チャネル復号信号記憶部２３７に出力する。

図１０において、ステレオ音声復号装置４００は、第１レイヤデコーダ２４０および第２レイヤデコーダ４５０を備える。ステレオ音声復号装置４００の第１レイヤデコーダ２４０は、図４に示した第１レイヤデコーダ２４０と同一の構成および機能を有するため、ここでは説明を省略する。ステレオ音声復号装置４００の第２レイヤデコーダ４５０は、図９に示す第２レイヤデコーダ４５０ａと同様の構成および機能を有する。すなわち第２レイヤデコーダ４５０は、ステレオ音声符号化装置３００から伝送される立ち上がり位置符号化パラメータP_B、遅延時間差符号化パラメータP_T、振幅比符号化パラメータP_g、Ｌチ
ャネル誤差信号符号化パラメータP_ΔLおよびＲチャネル誤差信号符号化パラメータP_ΔRを入力とし、ステレオ信号の復号を行い、Ｌチャネル復号信号S^_L(n)およびＲチャネル復号信号S^_R(n)を出力する。

なお、本実施の形態においては、１フレーム内の各区間毎にフレームの後尾に近いほど、符号化ビット数を増加する場合を例にとって説明したが、これに限定されず、１フレー
ム内のすべてのＫ個の区間を複数のブロックに分割し、各ブロック毎にフレームの後尾に近いほど符号化ビット数を増加しても良い。すなわち、同一のブロック内の各区間の遅延時間差補正値または振幅比補正値の符号化には同一の符号化ビット数を用いる。

以上、本発明の各実施の形態について説明した。

Claims

２つのチャネルからなるステレオ音声信号の時間的に先行する先行チャネル信号と、時間的に遅れる後続チャネル信号とが合成された、モノラル信号が符号化された符号化情報を復号するモノラル信号復号手段と、
前記ステレオ音声信号の無音区間から有音区間に変わる立ち上がり位置が符号化された符号化情報を復号する立ち上がり位置復号手段と、
前記先行チャネル信号と後続チャネル信号との遅延時間差が符号化された符号化情報を復号する遅延時間差復号手段と、
前記後続チャネル信号と前記先行チャネル信号との振幅比が符号化された符号化情報を復号する振幅比復号手段と、
前記モノラル信号と、前記遅延時間差と、前記立ち上がり位置とを用いて、前記先行チャネル信号を復号する先行チャネル信号復号手段と、
前記先行チャネル信号と、前記振幅比とを用いて、前記後続チャネル信号を復号する後続チャネル信号復号手段と、
を具備するステレオ音声復号装置。
前記先行チャネル信号のみが存在する、前記立ち上がり位置から前記遅延時間差分の第１区間における前記モノラル信号を、前記第１区間の前記先行チャネル信号とする、
請求項１記載のステレオ音声復号装置。
前記後続チャネル信号復号手段は、
前記第１区間の前記先行チャネル信号に前記振幅比を乗じて得られる信号を、前記第１区間後に前記遅延時間差分だけ続く第２区間の前記後続チャネル信号とする、
請求項２記載のステレオ音声復号装置。
前記先行チャネル信号復号手段は、
前記第２区間の前記モノラル信号から、前記第２区間の前記後続チャネル信号の寄与分を減じて得られる信号を、前記第２区間の前記先行チャネル信号とする、
請求項３記載のステレオ音声復号装置。
前記モノラル信号は、前記先行チャネル信号と、前記後続チャネル信号との平均値である、
請求項１記載のステレオ音声復号装置。
前記遅延時間差は、前記先行チャネル信号と、前記後続チャネル信号との相互相関関数の値を最大にする、
請求項１記載のステレオ音声復号装置。
前記振幅比は、所定の区間における前記先行チャネル信号の平均振幅と、前記先行チャネル信号の平均振幅との比である、
請求項１記載のステレオ音声復号装置。
前記先行チャネル信号復号手段および前記後続チャネル信号復号手段の誤差信号が符号化された符号化情報を復号する誤差信号復号手段と、
前記誤差信号を用いて、前記先行チャネル信号および前記後続チャネル信号を誤差補正する誤差補正手段と、
をさらに具備する請求項１記載のステレオ音声復号装置。
前記誤差信号が符号化された符号化情報は、フレームの後尾に近いほどより多くのビット数を用いられたものである、
請求項８記載のステレオ音声復号装置。
２つのチャネルからなるステレオ音声信号の時間的に先行する先行チャネル信号と、時間的に遅れる後続チャネル信号とを合成してモノラル信号を生成するモノラル信号生成手段と、
前記モノラル信号を符号化するモノラル信号符号化手段と、
前記ステレオ音声信号の無音区間から有音区間に変わる立ち上がり位置を符号化する立ち上がり位置符号化手段と、
前記先行チャネル信号と後続チャネル信号との遅延時間差を符号化する遅延時間差符号化手段と、
前記後続チャネル信号と前記先行チャネル信号との振幅比を符号化する振幅比符号化手段と、
を具備するステレオ音声符号化装置。
前記遅延時間差は、１フレーム全般における先行チャネル信号と後続チャネル信号との遅延時間差であって、
前記１フレームの先行チャネル信号と後続チャネル信号とを、前記１フレーム全般における遅延時間差を長さとする複数の区間に分割し、分割された前記先行チャネル信号と前記後続チャネル信号との前記各区間における遅延時間差を算出し、前記１フレーム全般における遅延時間差に対する前記各区間における遅延時間差の変動量を、前記各区間における遅延時間差補正値として算出する算出手段と、
前記各区間における遅延時間差補正値を符号化する遅延時間差補正値符号化手段と、
をさらに具備する請求項１０記載のステレオ音声符号化装置。
前記算出手段は、
前記１フレーム全般における遅延時間差と、前記各区間における遅延時間差との差を、前記各区間における遅延時間差補正値として算出する
をさらに具備する請求項１１記載のステレオ音声符号化装置。
前記遅延時間差補正値符号化手段は、
フレームの後尾に近いほど、前記各区間における前記遅延時間差補正値の符号化により多くの符号化ビットを用いる、
請求項１１記載のステレオ音声符号化装置。
前記振幅比は、１フレーム全般における先行チャネル信号と後続チャネル信号との振幅比であって、
前記１フレームの先行チャネル信号と後続チャネル信号とを、前記１フレームにおける遅延時間差を長さとする複数の区間に分割し、前記先行チャネル信号と前記後続チャネル信号との前記各区間における振幅比を算出し、前記１フレーム全般における振幅比に対する前記各区間における振幅比の変動量を、前記各区間における振幅比補正値として算出する算出手段と、
前記各区間における振幅比補正値を符号化する振幅比補正値符号化手段と、
をさらに具備する請求項１０記載のステレオ音声符号化装置。
前記振幅比符号化手段は、
前記１フレーム全般における振幅比と前記各区間における振幅比との比を、前記各区間における振幅比補正値として算出する
をさらに具備する請求項１４記載のステレオ音声符号化装置。
前記振幅比補正値符号化手段は、
前記各区間のうちフレームの先頭に近い区間よりも、フレームの後尾に近い区間における前記振幅比補正値の符号化により多くの符号化ビットを用いる、
請求項１４記載のステレオ音声符号化装置。
２つのチャネルからなるステレオ音声信号の時間的に先行する先行チャネル信号と、時間的に遅れる後続チャネル信号とが合成された、モノラル信号が符号化された符号化情報を復号するステップと、
前記ステレオ音声信号の無音区間から有音区間に変わる立ち上がり位置が符号化された符号化情報を復号するステップと、
前記先行チャネル信号と後続チャネル信号との遅延時間差が符号化された符号化情報を復号するステップと、
前記後続チャネル信号と前記先行チャネル信号との振幅比が符号化された符号化情報を復号するステップと、
前記モノラル信号と、前記遅延時間差と、前記立ち上がり位置とを用いて、前記先行チャネル信号を復号するステップと、
前記先行チャネル信号と、前記振幅比とを用いて、前記後続チャネル信号を復号するステップと、
を具備するステレオ音声復号方法。