JPWO2007116809A1 - ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 - Google Patents
ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 Download PDFInfo
- Publication number
- JPWO2007116809A1 JPWO2007116809A1 JP2008509811A JP2008509811A JPWO2007116809A1 JP WO2007116809 A1 JPWO2007116809 A1 JP WO2007116809A1 JP 2008509811 A JP2008509811 A JP 2008509811A JP 2008509811 A JP2008509811 A JP 2008509811A JP WO2007116809 A1 JPWO2007116809 A1 JP WO2007116809A1
- Authority
- JP
- Japan
- Prior art keywords
- signal
- channel signal
- time difference
- delay time
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 58
- 238000012937 correction Methods 0.000 claims description 199
- 230000000630 rising effect Effects 0.000 claims description 112
- 230000005236 sound signal Effects 0.000 claims description 62
- 230000003111 delayed effect Effects 0.000 claims description 11
- 238000005314 correlation function Methods 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000000926 separation method Methods 0.000 abstract description 27
- 238000012545 processing Methods 0.000 abstract description 12
- 230000006866 deterioration Effects 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 description 114
- 238000004891 communication Methods 0.000 description 64
- 230000014509 gene expression Effects 0.000 description 38
- 238000010586 diagram Methods 0.000 description 36
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 28
- 230000006870 function Effects 0.000 description 18
- 238000010295 mobile communication Methods 0.000 description 12
- 238000013139 quantization Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 230000003252 repetitive effect Effects 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
ステレオ音声符号化のビットレートを減少しつつ、音質劣化を抑えることができるステレオ音声復号装置等を開示する。この装置においては、Lチャネル信号SL(n)のみが存在する区間0を特定し、ステレオ音声符号化側から伝送される区間0のモノラル信号を区間0のLチャネル信号SL(0)(n)とし、区間0のLチャネル信号SL(0)(n)をスケール調整して区間1のRチャネル信号SR(1)(n)を予測し、区間1のモノラル信号から、予測した区間1のRチャネル信号SR(1)(n)の寄与分を減ずることにより、区間1のLチャネル信号SL(1)(n)を分離して求める。この装置は、続けて上記のスケール調整および分離処理を繰り返すことにより、すべての区間におけるLチャネル信号SL(n)およびRチャネル信号SR(n)を得る。
Description
本発明は、ステレオ音声信号に対し符号化を施すステレオ音声符号化装置、これに対応するステレオ音声復号装置、およびこれらの方法に関する。
携帯電話機による通話のように、移動体通信システムにおける音声通信では、現在、モノラル方式による通信(モノラル通信)が主流である。しかし、今後、第4世代の移動体通信システムのように、伝送レートのさらなる高ビットレート化が進めば、複数チャネルを伝送するだけの帯域を確保できるようになるため、音声通信においてもステレオ方式による通信(ステレオ通信)が普及することが期待される。
例えば、音楽をHDD(ハードディスク)搭載の携帯オーディオプレーヤに記録し、このプレーヤにステレオ用のイヤホンやヘッドフォン等を装着してステレオ音楽を楽しむユーザが増えている現状を考えると、将来、携帯電話機と音楽プレーヤとが結合し、ステレオ用のイヤホンやヘッドフォン等の装備を利用しつつ、ステレオ方式による音声通信を行うライフスタイルが一般的になることが予想される。また、最近普及しつつあるTV会議等の環境において、臨場感ある会話を可能とするため、やはりステレオ通信が行われるようになることが予想される。
一方、移動体通信システム、有線方式の通信システム等においては、システムの負荷を軽減するため、伝送される音声信号を予め符号化することにより伝送情報の低ビットレート化を図ることが一般的に行われている。そのため、最近、ステレオ音声信号を符号化する技術が注目を浴びている。例えば、下記の式(1)を用いて、ステレオ信号を構成する一方のチャネル信号から他方のチャネル信号を予測し、予測パラメータakおよびdを符号化する技術がある(非特許文献1参照)。
ここで、akは予測誤差を最小にする予測パラメータとして、k次の予測係数である。dは2つのチャネル信号の遅延時間差を表す。x(n)は、サンプル番号nにおける一方のチャネル信号を表し、y^(n)は、サンプル番号nにおける予測された他方のチャネル信号を表す。
また、ステレオ通信が普及しても、依然としてモノラル通信も行われると予想される。何故なら、モノラル通信は低ビットレートであるため通信コストが安くなることが期待され、また、モノラル通信のみに対応した携帯電話機は回路規模が小さくなるため安価となり、高品質な音声通信を望まないユーザは、モノラル通信のみに対応した携帯電話機を購入するだろうからである。よって、一つの通信システム内において、ステレオ通信に対応した携帯電話機とモノラル通信に対応した携帯電話機とが混在するようになり、通信システムは、これらステレオ通信およびモノラル通信の双方に対応する必要性が生じる。さらに、移動体通信システムでは、無線信号によって通信データをやりとりするため、伝搬路環境によっては通信データの一部を失う場合がある。そこで、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能を携帯電話機が有していれば非常に有用である。
ステレオ通信およびモノラル通信の双方に対応することができ、かつ、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能として、ステレオ信号とモノラル信号との両方を符号化・復号できるスケーラブル符号化がある。この機能を有したスケーラブル符号化装置の例として、例えば、非特許文献2に開示されたものがある。
Hendrik Fuchs、"Improving Joint Stereo Audio Coding by Adaptive Inter-Channel Prediction"、Applications of Signal Processing to Audio and Acoustics、Final Program and Paper Summaries、IEEE Workshop on Pages:39 − 42、(17−20 Oct. 1993 ) ISO/IEC 14496-3:1999 (B.14 Scalable AAC with core coder)
Hendrik Fuchs、"Improving Joint Stereo Audio Coding by Adaptive Inter-Channel Prediction"、Applications of Signal Processing to Audio and Acoustics、Final Program and Paper Summaries、IEEE Workshop on Pages:39 − 42、(17−20 Oct. 1993 ) ISO/IEC 14496-3:1999 (B.14 Scalable AAC with core coder)
しかしながら、非特許文献1に開示の技術は、上述の式(1)で表されるような予測に基づいた符号化を行っていて、予測誤差を小さくする目的で予測係数の次数を上げると、すなわち、予測パラメータの個数を上げると、符号化ビットレートが増加してしまうという問題がある。また逆に、符号化ビットレートを抑制する目的で予測係数の次数を低減すると、予測性能が低下し、復号側で得られる音声信号に聴覚的な音質劣化が発生するという問題がある。また、非特許文献2のようなスケーラブル符号化に、非特許文献1の技術を適用すると、ステレオ信号だけでなくモノラル信号についても予測係数を求める必要があり、さらに符号化ビットレートが増大する。
本発明の目的は、より少ない情報量を符号化し伝送することにより、ビットレートを減少しつつ、音質劣化を抑えることができるステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法を提供することである。
本発明のステレオ音声復号装置は、2つのチャネルからなるステレオ音声信号の時間的に先行する先行チャネル信号と、時間的に遅れる後続チャネル信号とが合成された、モノラル信号が符号化された符号化情報を復号するモノラル信号復号手段と、前記ステレオ音声信号の無音区間から有音区間に変わる立ち上がり位置が符号化された符号化情報を復号する立ち上がり位置復号手段と、前記先行チャネル信号と後続チャネル信号との遅延時間差が符号化された符号化情報を復号する遅延時間差復号手段と、前記後続チャネル信号と前記先行チャネル信号との振幅比が符号化された符号化情報を復号する振幅比復号手段と、前記モノラル信号と、前記遅延時間差と、前記立ち上がり位置とを用いて、前記先行チャネル信号を復号する先行チャネル信号復号手段と、前記先行チャネル信号と、前記振幅比とを用いて、前記後続チャネル信号を復号する後続チャネル信号復号手段と、を具備する構成を採る。
本発明によれば、ステレオ音声符号化において、両チャネル間の予測係数を符号化せず、ステレオ信号の立ち上がり位置、両チャネルの遅延時間差および振幅比に関するより少ない情報量を符号化し伝送することにより、ビットレートを減少しつつ、音質劣化を抑えることができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお、ここでは、LチャネルおよびRチャネルの2チャネルからなるステレオ音声信号を符号化する場合を例にとって説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係るステレオ音声符号化装置100の主要な構成を示すブロック図である。
図1は、本発明の実施の形態1に係るステレオ音声符号化装置100の主要な構成を示すブロック図である。
図1において、ステレオ音声符号化装置100は、第1レイヤ(基本レイヤ)エンコーダ140および第2レイヤ(拡張レイヤ)エンコーダ150を備え、ステレオ音声信号のスケーラブル符号化を行う。第1レイヤエンコーダ140は、モノラル信号生成部101およびモノラル信号符号化部102を備え、モノラル信号の符号化を行う。第2レイヤエンコーダ150は、立ち上がり位置検出部103、立ち上がり位置符号化部104、遅延時間差算出部105、遅延時間差符号化部106、振幅比算出部107、および振幅比符号化部108を備え、ステレオ信号の符号化を行う。各レイヤエンコーダは、得られる符号化パラメータを後述のステレオ音声復号装置200に伝送する。
モノラル信号生成部101は、入力されるステレオ音声信号、すなわち、Lチャネル信号SL(n)およびRチャネル信号SR(n)からモノラル信号SM(n)を生成して、モノラル信号符号化部102に出力する。モノラル信号SM(n)は、下記の式(2)に従い、Lチャネル信号SL(n)およびRチャネル信号SR(n)の平均値を求めることにより生成される。
SM(n)=(SL(n)+SR(n))/2 …(2)
ここで、nはステレオ音声信号のサンプル番号を示す。
SM(n)=(SL(n)+SR(n))/2 …(2)
ここで、nはステレオ音声信号のサンプル番号を示す。
モノラル信号符号化部102は、モノラル信号生成部101で生成されるモノラル信号SM(n)をCELP(Code Excited Linear Prediction)符号化方式で符号化し、得られるモノラル信号符号化パラメータPMをステレオ音声復号装置200に伝送する。CELP符号化方式においては、音声信号の声道情報については、LSPパラメータを求めて符号化し、音声信号の音源情報については、予め記憶されている音声モデルの何れかを特定し、特定された音声モデルを示すインデックスにより符号化する。
第2レイヤエンコーダ150は、ステレオ音声符号化装置100に入力されるLチャネル信号SL(n)およびRチャネル信号SR(n)から、立ち上がり位置、Lチャネル信号SL(n)とRチャネル信号SR(n)との遅延時間差、およびLチャネル信号SL(n)とRチャネル信号SR(n)との振幅比を求めて符号化し、得られる符号化パラメータPB、PT、およびPgをステレオ音声復号装置200に伝送する。
立ち上がり位置検出部103は、入力されるLチャネル信号SL(n)およびRチャネル信号SR(n)から、ステレオ音声信号の立ち上がり位置を検出する。ステレオ音声信号の立ち上がり位置について図2を参照して説明する。
通常、ステレオ音声信号には音声信号の振幅がゼロである無音区間、および音声信号の振幅がゼロでない有音区間が存在する。音声信号が無音区間から有音区間に移行し始める位置を立ち上がり位置Bと称す。また、同一音源で発生した信号を異なる位置で取得したLチャネル信号SL(n)とRチャネル信号SR(n)は、音源からの距離が異なるため、一方のチャネル信号が先行して先行チャネルとなるのに対して、他方のチャネル信号は後続チャネル信号となり、振幅も先行チャネル信号の振幅から減衰している。例えば本実施の形態ではRチャネル信号SR(n)よりもLチャネル信号SL(n)の方が音源に近いため、Lチャネル信号SL(n)はRチャネル信号SR(n)より時間的に先行しており、振幅もより大きい。従って、立ち上がり位置から所定の区間において、Rチャネル信号SR(n)は存在せず、Lチャネル信号SL(n)のみ存在する。図2においては、Lチャネル信号SL(n)の振幅とRチャネル信号SR(n)の振幅とがともにゼロでない区間の始まり位置を時間軸0で示す。
立ち上がり位置検出部103は、無音区間が終わり、Lチャネル信号のみ存在する区間の始まり位置を立ち上がり位置Bとして検出し、検出された立ち上がり位置Bに関する情報を立ち上がり位置符号化部104に出力する。ここで立ち上がり位置Bに関する情報とは、音源から近く時間的に先行するチャネル信号がLチャネル信号とRチャネル信号の何れであるかを識別する情報、および先行チャネルの振幅がゼロから非ゼロに変わる位置を示す情報の両方を含む。
立ち上がり位置符号化部104は、立ち上がり位置検出部103から入力される立ち上がり位置Bに関する情報を符号化し、得られる立ち上がり位置符号化パラメータPBをステレオ音声復号装置200に伝送する。
遅延時間差算出部105は、ステレオ音声符号化装置100に入力されるLチャネル信号SL(n)およびRチャネル信号SR(n)を用いて、下記の式(3)に従い、Lチャネル信号SL(n)とRチャネル信号SR(n)との遅延時間差Tを算出する。
ここでφ(m)は、Lチャネル信号SL(n)およびRチャネル信号SR(n)の相互相関関数を示し、Nは1フレームに含まれるサンプル数を示し、mはLチャネル信号SL(n)に対するRチャネル信号SR(n)のシフトサンプル数を示す。遅延時間差算出部105は、Lチャネル信号SL(n)とRチャネル信号SR(n)との遅延時間差Tとして、φ(m)の値が最大となるmの値を算出する。Lチャネル信号SL(n)がRチャネル信号SR(n)に対して先行している場合には、Tの値が正数となり、Lチャネル信号SL(n)がRチャネル信号SR(n)に対して遅れている場合には、Tの値が負数となる。ここでは上述したように、Lチャネル信号がRチャネル信号に対して先行している場合を例にとるため、Tの値は正数となる。遅延時間差算出部105は、算出した遅延時間差Tを遅延時間差符号化部106および振幅比算出部107に出力する。
遅延時間差符号化部106は、遅延時間差算出部105から入力される遅延時間差Tを符号化して、符号化パラメータPTをステレオ音声復号装置200に伝送する。
振幅比算出部107は、ステレオ音声符号化装置100に入力されるLチャネル信号
SL(n)、Rチャネル信号SR(n)、および遅延時間差算出部105で算出された遅延時間差Tを用いて、下記の式(4)に従い、Lチャネル信号SL(n)とRチャネル信号SR(n)との振幅比gを算出する。
ここで、ARおよびALは、それぞれRチャネル信号SR(n)およびLチャネル信号SL(n)の1フレームにおける平均振幅を示す。振幅比算出部107は、算出された振幅比gを振幅比符号化部108に出力する。
SL(n)、Rチャネル信号SR(n)、および遅延時間差算出部105で算出された遅延時間差Tを用いて、下記の式(4)に従い、Lチャネル信号SL(n)とRチャネル信号SR(n)との振幅比gを算出する。
上記遅延時間差算出部105および振幅比算出部107それぞれで算出された、Lチャネル信号SL(n)とRチャネル信号SR(n)との遅延時間差Tおよび振幅比gについて図3を用いて説明する。
図3は、同一音源で発生した信号を異なる位置で取得したLチャネル信号SL(n)とRチャネル信号SR(n)との遅延時間差および振幅比を示す図である。この図において、図3AはLチャネル信号SL(n)を示し、図3BはRチャネル信号SR(n)とLチャネル信号SL(n)との関係を示す。この図に示すように、Lチャネル信号SL(n)を、遅延時間差算出部105で算出された遅延時間差Tだけ遅延すると信号S' L(n)となる。ここで立ち上がり位置Bから時間軸0までの信号長は遅延時間差Tと一致する。次に、信号S' L(n)の振幅に、振幅比算出部107で算出された振幅比gを乗じれば、信号S' L(n)は同一の音源で発生した信号であるため、理想的にはRチャネル信号SR(n)と一致する。例えばこの図において、At RおよびAt Lは、それぞれ時間tに対応するRチャネル信号SR(n)の振幅およびLチャネル信号SL(n)の振幅を示し、At R/At L=gの関係を満たす。
振幅比符号化部108は、振幅比算出部107から入力される振幅比gを符号化し、得られる符号化パラメータPgをステレオ音声復号装置200に伝送する。
上記のように、ステレオ音声符号化装置100における符号化処理はフレーム単位で行われ、モノラル信号符号化パラメータPM、立ち上がり位置符号化パラメータPB、遅延時間差符号化パラメータPT、および振幅比符号化パラメータPgを生成してステレオ音声復号装置200に伝送する。
図4は、本実施の形態に係るステレオ音声復号装置200の主要な構成を示すブロック図である。
図4において、ステレオ音声復号装置200は、ステレオ音声符号化装置100と対応して、第1レイヤ(基本レイヤ)デコーダ240および第2レイヤ(拡張レイヤ)デコーダ250を備える。第1レイヤデコーダ240は、モノラル信号復号部201を備え、ステレオ音声符号化装置100から伝送されるモノラル信号符号化パラメータPMを用いて、フレーム単位でモノラル信号の復号を行う。第2レイヤデコーダ250は、立ち上がり位置復号部202およびステレオ信号復号部203を備え、ステレオ音声符号化装置100から伝送される立ち上がり位置符号化パラメータPB、遅延時間差符号化パラメータPT、および振幅比符号化パラメータPgを用いて、遅延時間差T単位でステレオ信号の復号を行う。
第1レイヤデコーダ240においてモノラル信号復号部201は、ステレオ音声符号化装置100のモノラル信号符号化部102から伝送されるモノラル信号符号化パラメータPMを用いて、モノラル信号の復号を行い、モノラル復号信号S^M(n)を出力する。ここで、モノラル信号復号部201の復号方式として、モノラル信号符号化部102で用いられる符号化方式に対応してCELP復号方式を用いる。第2レイヤデコーダ250においてステレオ信号の復号が行われなかった場合、ステレオ音声復号装置200において生成されるステレオ音声復号信号はモノラル復号信号S^M(n)のみからなり、モノラル音声信号となる。またモノラル信号復号部201は、モノラル復号信号S^M(n)をステレオ信号復号部203に出力する。
第2レイヤデコーダ250において立ち上がり位置復号部202は、ステレオ音声符号化装置100の立ち上がり位置符号化部104から伝送される符号化パラメータPBを復号して、復号立ち上がり位置B^をステレオ信号復号部203に出力する。ステレオ信号復号部203は、ステレオ音声符号化装置100の振幅比符号化部108から伝送される振幅比符号化パラメータPg、ステレオ音声符号化装置100の遅延時間差符号化部106から伝送される遅延時間差符号化パラメータPT、モノラル信号復号部201から入力されるモノラル復号信号S^M(n)、および立ち上がり位置復号部202から入力される復号立ち上がり位置B^を用いて、ステレオ信号の復号を行い、Lチャネル復号信号S^L(n)およびRチャネル復号信号S^R(n)を出力する。
図5は、本実施の形態に係るステレオ信号復号部203の詳細な構成を示すブロック図である。
図5において、ステレオ信号復号部203は、振幅比復号部231、遅延時間差復号部232、先行チャネル復号信号分離部233、後続チャネル復号信号生成部234、繰り返し演算制御部235、先行チャネル復号信号記憶部236、および後続チャネル復号信号記憶部237を備える。
振幅比復号部231は、ステレオ音声符号化装置100の振幅比符号化部108から伝送される振幅比符号化パラメータPgを復号し、得られる復号振幅比g^を後続チャネル復号信号生成部234に出力する。
遅延時間差復号部232は、ステレオ音声符号化装置100の遅延時間差符号化部106から伝送される遅延時間差符号化パラメータPTを復号し、得られる復号遅延時間差T^を先行チャネル復号信号分離部233および繰り返し演算制御部235に出力する。
先行チャネル復号信号分離部233は、モノラル信号復号部201から入力されるモノラル復号信号S^M(n)、遅延時間差復号部232から入力される復号遅延時間差T^、立ち上がり位置復号部202から入力される復号立ち上がり位置B^、および後続チャネル復号信号生成部234から入力される後続チャネル復号信号S^R(n)を用い、モノラル復号信号S^M(n)から先行チャネル復号信号S^L(n)を分離する。上述したように本実施の形態では、Lチャネルが先行チャネルとなり、Rチャネルが後続チャネルとなる。先行チャネル復号信号分離部233は、上記の分離処理において、繰り返し演算制御部235の制御に基づき、すべての区間で同様の演算を繰り返す。先行チャネル復号信号分離部233は、得られるLチャネル復号信号S^L(n)を後続チャネル復号信号生成部234、および先行チャネル復号信号記憶部236に出力する。
後続チャネル復号信号生成部234は、振幅比復号部231から入力される復号振幅比g^、および先行チャネル復号信号分離部233から入力されるLチャネル復号信号S^L(n)を用い、後続チャネル復号信号、すなわち本実施の形態ではRチャネル復号信号S^R(n)を生成する。後続チャネル復号信号生成部234は、上記の処理において、繰り返し演算制御部235の制御に基づき、すべての区間で同様の演算を繰り返す。後続チャネル復号信号生成部234は、生成されるRチャネル復号信号S^R(n)を先行チャネル復号信号分離部233および後続チャネル復号信号記憶部237に出力する。
繰り返し演算制御部235は、遅延時間差復号部232から入力される復号遅延時間差T^、および立ち上がり位置復号部202から入力される復号立ち上がり位置B^を用いて、先行チャネル復号信号分離部233、および後続チャネル復号信号生成部234の繰り返し演算を制御し、復号遅延時間差T^(以下遅延時間差Tと見なす)単位で、Lチャネル信号S^L(n)およびRチャネル復号信号S^R(n)を生成させる。
先行チャネル復号信号記憶部236、および後続チャネル復号信号記憶部237は、先行チャネル復号信号分離部233、および後続チャネル復号信号生成部234それぞれから入力されるLチャネル復号信号S^L(n)、およびRチャネル復号信号S^R(n)それぞれを記憶しておき、同一の遅延時間差T単位に対応するLチャネル復号信号S^L(n)、およびRチャネル復号信号S^R(n)を同時に出力することにより、ステレオ音声復号信号を構成する。
ステレオ音声復号装置200のステレオ音声信号の復号処理において各チャネル信号を分離できる原理について図6を用いて説明する。
図6において、SL(n)、およびSR(n)は、Lチャネル信号、およびRチャネル信号それぞれを示し、nはサンプル番号を示す。なお、1フレームはN個のサンプルからなる。図6Aにおいては実線でLチャネル信号SL(n)を示し、図6Bにおいては破線でRチャネル信号SR(n)を示し、図6Cにおいては実線および破線で、Lチャネル信号SL(n)およびRチャネル信号SR(n)を同時に示している。
図6Aに示すように、本実施の形態では遅延時間差Tが1フレーム長より小さい場合を例にとり、立ち上がり位置Bから最初の遅延時間差Tまでの区間を区間0と示す。図6Aにおいて、Lチャネル信号SL(n)の1フレームは、遅延時間差T毎に区間1、区間2、…に区切られる。ここで各区間のLチャネル信号をSL (1)(n)、SL (2)(n)、…で示し、上付文字の(1)、(2)は区間番号を示す。なお、フレーム長が遅延時間差Tの整数倍になるとは限らないため、1フレーム内の最後の区間は、遅延時間差Tより短い場合がある。
図6Bに示すように、Rチャネル信号SR(n)の1フレームも遅延時間差T毎に区間1、区間2、…に区切られる。各区間のRチャネル信号をSR (1)(n)、SR (2)(n)、…で示し、上付文字の(1)、(2)は、区間番号を示す。なお、立ち上がり位置Bから最初の遅延時間差Tまでの区間0において、Rチャネル信号SR(n)は存在しない。すなわち、SR (0)(n)=0である。
従って、ステレオ音声復号装置200は、下記の式(5)に従い、モノラル復号信号S^M(n)の区間0に対応する部分の信号S^M (0)(n)を、区間0のLチャネル復号信号S^L (0)(n)とすることができる。
S^L (0)(n)=S^M (0)(n) ただし、−T≦n<0 …(5)
S^L (0)(n)=S^M (0)(n) ただし、−T≦n<0 …(5)
図6Cに示すように、破線で示すRチャネル信号SR(n)の波形は、実線で示すLチャネル信号SL(n)に対して遅延時間差T分の遅延があり、1区間遅れた信号となる。また、Rチャネル信号SR(n)の振幅は、Lチャネル信号SL(n)に対して振幅比g(g≦1)が乗じられた振幅となる。すなわち、Lチャネル信号SL(n)とRチャネル信号SR(n)とは、下記の式(6)に示す関係を満たす。
SR(n)=g・SL(n−T) …(6)
SR(n)=g・SL(n−T) …(6)
従って、ステレオ音声復号装置200は、下記の式(7)を用いて、区間0のLチャネル復号信号S^L (0)(n−T)をスケール調整して、区間1のRチャネル信号S^R (1)(n)を求めることができる。
S^R (1)(n)=g^・S^L (0)(n−T) ただし、0≦n<T …(7)
S^R (1)(n)=g^・S^L (0)(n−T) ただし、0≦n<T …(7)
次いで、モノラル復号信号S^M(n)の区間1に対応する部分の信号S^M (1)(n)から、上記区間1のRチャネル復号信号S^R (1)(n)を分離することにより、区間1のLチャネル復号信号S^L (1)(n)を求めることができる。再び、求められた区間1のLチャネル復号信号S^L (1)(n)に振幅比gを掛けると、区間2のRチャネル信号S^R (2)(n)が得られる。このように同様の演算を繰り返すことにより、ステレオ音声復号装置200はステレオ音声を復号することができる。
すなわち、ステレオ音声復号装置200は、まずモノラル信号SM(n)において、Lチャネル信号SL(n)とRチャネル信号SR(n)とが混在している区間ではなく、Lチャネル信号SL(n)のみが存在する区間0を特定する。次いでステレオ音声復号装置200は、特定した区間0のLチャネル信号SL (0)(n)をスケール調整して次の区間1のRチャネル信号SR (1)(n)を予測する。次いで区間1のモノラル信号SM (1)(n)(LチャネルSL (1)(n)とRチャネルSR (1)(n)とが混在する信号)から、予測したRチャネル信号SR (1)(n)の寄与分を減ずることにより、区間1におけるLチャネル信号SL (1)(n)を求める。ステレオ音声復号装置200は、続けて上記のスケール調整および分離処理を繰り返すことにより、各区間におけるLチャネル信号SL(n)およびRチャネル信号SR(n)を得る。
図7は、図6に示したステレオ音声信号をテーブルに纏めて示す図である。この図において第1行目はフレームの順番を示し、第2行目は区間番号を示す。第3行目はサンプル番号nの可能な値の範囲を示し、第4行目および第5行目は、それぞれ各区間に対応するLチャネル信号およびRチャネル信号を示す。
次に、ステレオ音声復号装置200におけるステレオ音声信号の復号手順について詳細に説明する。
まずモノラル信号復号部201は、モノラル信号符号化パラメータPMを復号してモノラル復号信号S^M(n)を得る。
次いで立ち上がり位置復号部202は、立ち上がり位置符号化パラメータPBを復号して復号立ち上がり位置B^を得る。
次いで、振幅比復号部231は、振幅比符号化パラメータPgを復号して復号振幅比g^を得、遅延時間差復号部232は、遅延時間差符号化パラメータPTを復号して復号遅延時間差T^を得る。
次いで先行チャネル復号信号分離部233は、復号遅延時間差T^、モノラル復号信号S^M(n)、復号立ち上がり位置B^を用いて、区間0のLチャネル復号信号S^L (0)(n)を得る。区間0では、Lチャネル信号しか存在しないので、モノラル復号信号がLチャネル復号信号となり、すなわち、上記の式(5)に従い、立ち上がり位置までのLチャネル復号信号S^L (0)(n)が得られる。
次いで後続チャネル復号信号生成部234は、上記の式(7)に従い、区間1におけるRチャネル復号信号S^R (1)(n)を得る。
次いで、ステレオ音声符号化装置100においてモノラル信号SM(n)はLチャネル信号SL(n)およびRチャネル信号SR(n)の平均値として求められたため、先行チャネル復号信号分離部233は、下記の式(8)に従い、区間1におけるLチャネル復号信号S^L (1)(n)を得る。
S^L (1)(n)=2・S^M (1)(n)−S^R (1)(n)=2・S^M (1)(n)−g^・S^L (0)(n−T) …(8)
ここで、nは、0≦n<Tである。なお式(8)においては、式(7)が代入されている。すなわち、先行チャネル復号信号分離部233で求められた、区間0のLチャネル復号信号に相当するS^L (0)(n−T)(0≦n<T)が後続チャネル復号信号生成部234において用いられる。
S^L (1)(n)=2・S^M (1)(n)−S^R (1)(n)=2・S^M (1)(n)−g^・S^L (0)(n−T) …(8)
ここで、nは、0≦n<Tである。なお式(8)においては、式(7)が代入されている。すなわち、先行チャネル復号信号分離部233で求められた、区間0のLチャネル復号信号に相当するS^L (0)(n−T)(0≦n<T)が後続チャネル復号信号生成部234において用いられる。
次いで先行チャネル復号信号分離部233、および後続チャネル復号信号生成部234は、繰り返し演算制御部235の制御に基づき上記の式(7)および式(8)に示す演算を区間2以降において再帰的に繰り返しながら、すべての区間におけるLチャネル復号信号S^L(n)およびRチャネル復号信号S^R(n)を得る。
具体的には、区間2におけるRチャネル信号S^R (2)(n)は、同様に、式(7)に示す演算を区間2で繰り返すことにより求められ、すなわち下記の式(9)に従い、S^L (1)(n−T)をスケール調整して求められる。
S^R (2)(n)=g^・S^L (1)(n−T) …(9)
この式では、T≦n<2・Tであり、区間1のLチャネル復号信号に相当するS^L (1)(n−T) (T≦n<2・T)が区間2で再帰的に用いられる。
S^R (2)(n)=g^・S^L (1)(n−T) …(9)
この式では、T≦n<2・Tであり、区間1のLチャネル復号信号に相当するS^L (1)(n−T) (T≦n<2・T)が区間2で再帰的に用いられる。
次いで、区間2におけるLチャネル復号信号S^L (2)(n)は、式(8)に示す演算を区間2で繰り返すことにより求められ、すなわち下記の式(10)に従って求められる。
S^L (2)(n)=2・S^M (2)(n)−S^R (2)(n)=2・S^M (2)(n)−g^・S^L (1)(n−T) …(10)
この式では、T≦n<2・Tであり、区間1のLチャネル復号信号に相当するS^L (1)(n−T) (T≦n<2・T)が区間2で再帰的に用いられる。
S^L (2)(n)=2・S^M (2)(n)−S^R (2)(n)=2・S^M (2)(n)−g^・S^L (1)(n−T) …(10)
この式では、T≦n<2・Tであり、区間1のLチャネル復号信号に相当するS^L (1)(n−T) (T≦n<2・T)が区間2で再帰的に用いられる。
区間j+1におけるLチャネル復号信号S^L (j+1)(n)およびRチャネル復号信号S^R (j+1)(n)は、区間2におけるLチャネル復号信号S^L (2)(n)およびRチャネル復号信号S^R (2)(n)の求め方と同様に、区間jの演算結果を再帰的に用いることにより求められる。具体的には、区間j+1におけるRチャネル復号信号S^R (j+1)(n)は、下記の式(11)に従い得られる。
S^R (j+1)(n)=g^・S^L (j)(n−T) …(11)
この式で、j・T≦n<(j+1)・T、j=0,…,J−1、j・T≦n<Nであり、Jは、J・T≦n<(J+1)・Tを満たす整数値である。
S^R (j+1)(n)=g^・S^L (j)(n−T) …(11)
この式で、j・T≦n<(j+1)・T、j=0,…,J−1、j・T≦n<Nであり、Jは、J・T≦n<(J+1)・Tを満たす整数値である。
次いで、区間j+1におけるLチャネル復号信号S^L (j+1)(n)は、下記の式(12)に従い求められる。
S^L (j+1)(n)=2・S^M (j+1)(n)−S^R (j+1)(n)=2・S^M (j+1)(n)−g^・S^L (j)(n−T) …(12)
ただし、j・T≦n<(j+1)・T j=0,…,J−1
j・T≦n<N j=J
j=0,…,J J・T≦N<(J+1)・Tを満たす整数値
S^L (j+1)(n)=2・S^M (j+1)(n)−S^R (j+1)(n)=2・S^M (j+1)(n)−g^・S^L (j)(n−T) …(12)
ただし、j・T≦n<(j+1)・T j=0,…,J−1
j・T≦n<N j=J
j=0,…,J J・T≦N<(J+1)・Tを満たす整数値
なお、上記の式(12)において、j=j−1にすると、下記の式(13)が得られる。
S^L (j)(n)=2・S^M (j)(n)−g^・S^L (j-1)(n−T) …(13)
S^L (j)(n)=2・S^M (j)(n)−g^・S^L (j-1)(n−T) …(13)
また、n=n−Tにする場合の式(13)の結果を、式(12)の右辺第2項に代入すると、下記の式(14)が得られる。
S^L (j+1)(n)=2・S^M (j+1)(n)−g^・{2・S^M (j)(n−T)−g^・S^L (j-1)(n−2・T)} …(14)
S^L (j+1)(n)=2・S^M (j+1)(n)−g^・{2・S^M (j)(n−T)−g^・S^L (j-1)(n−2・T)} …(14)
式(13)において、j=j−1とすると、下記の式(15)が得られる。
S^L (j-1)(n)=2・S^M (j-1)(n)−g^・S^L (j-2)(n−T) …(15)
S^L (j-1)(n)=2・S^M (j-1)(n)−g^・S^L (j-2)(n−T) …(15)
さらに、n=n−2・Tにする場合の式(15)の結果を、式(14)の右辺第3項に代入すると、下記の式(16)が得られる。
S^L (j+1)(n)=2・S^M (j+1)(n)−2・g^・S^M (j)(n−T)−g^・(−g^){2・S^M (j-1)(n−2・T)−g^・S^L (j-2)(n−3・T)} …(16)
S^L (j+1)(n)=2・S^M (j+1)(n)−2・g^・S^M (j)(n−T)−g^・(−g^){2・S^M (j-1)(n−2・T)−g^・S^L (j-2)(n−3・T)} …(16)
すなわち、先行チャネル復号信号分離部233は、上記の式(17)に従いモノラル復号信号S^M(n)のみを用いて、Lチャネル復号信号S^L (j+1)(n)を求めても良い。かかる場合、Rチャネル復号信号S^R (j+1)(n)は、Lチャネル復号信号S^L (j+1)(n)をスケール調整して求めれば良い。
このように、本実施の形態によれば、ステレオ音声符号化装置は、モノラル信号と、すべての区間におけるLチャネル信号、Rチャネル信号の予測情報を符号化するのに代えて、モノラル信号、立ち上がり位置、遅延時間差、および振幅比を符号化してステレオ音声復号装置に伝送する。ステレオ音声復号装置は、ステレオ音声符号化装置から伝送される符号化情報を用いて繰り返しの演算を行いステレオ音声信号を復号する。すべての区間におけるLチャネル信号、Rチャネル信号の予測情報に比べ、立ち上がり位置、遅延時間差、および振幅比の情報量はより少ないため、本実施の形態によれば予測係数を減少し、より低いビットレートでステレオ音声信号の伝送を行うことができる。
なお、本実施の形態では、ステレオ音声信号がLチャネル信号とRチャネル信号と2チャネルからなり、Rチャネル信号よりもLチャネル信号が音源から近い場合を例にとって説明したが、Lチャネル信号よりもRチャネル信号が音源から近い場合でも本実施の形態を適応することができ、かかる場合、音声立ち上がり位置から最初の遅延時間差Tまでの区間0においては、Lチャネル信号は存在せず、Rチャネル信号のみ存在する。さらに、ステレオ音声信号が3つ以上のチャネル信号からなる場合でも、本実施の形態を適宜変更して適用することができる。
また、本実施の形態では、ステレオ復号装置で、区間0のLチャネル信号をスケール調整して区間1のRチャネル信号として復号を行う場合を例にとって説明したが、モデル的な波形を予め記憶しておいて区間1のRチャネル信号(またはLチャネル信号)として用いても良い。
また、本実施の形態では、モノラル信号の符号化方式としてCELP符号化方式を用いる場合を例にとって説明したが、CELP符号化方式と異なる他の符号化方式を用いても良い。
また、本実施の形態では、モノラル信号の生成方法としてLチャネル信号とRチャネル信号との平均値を求める方法を例にとって説明したが、モノラル信号の生成方法として他の方法を使っても良く、その一例を式で表すとSM(n)=w1SL(n)+w2SR(n)である。この式においてw1、w2は、w1+w2=1.0の関係を満たす重み付け係数である。
また、本実施の形態では、ステレオ音声信号を符号化して伝送する場合を例にとって説明したが、無音区間と有音区間からなるステレオオーディオ信号を符号化して伝送しても良い。
(実施の形態2)
図8は、本発明の実施の形態2に係るステレオ音声符号化装置300の主要な構成を示すブロック図である。なお、ステレオ音声符号化装置300は、実施の形態1に示したステレオ音声符号化装置100(図1参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ステレオ音声符号化装置300は、第1レイヤデコーダ240a、第2レイヤデコーダ450a、誤差信号算出部301、および誤差信号符号化部302をさらに具備する点で、実施の形態1に示したステレオ音声符号化装置100と相違する。ステレオ音声符号化装置300において、第1レイヤデコーダ240a、第2レイヤデコーダ450a、誤差信号算出部301、誤差信号符号化部302、および第2レイヤエンコーダ150は、第2レイヤエンコーダ350を構成する。
図8は、本発明の実施の形態2に係るステレオ音声符号化装置300の主要な構成を示すブロック図である。なお、ステレオ音声符号化装置300は、実施の形態1に示したステレオ音声符号化装置100(図1参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ステレオ音声符号化装置300は、第1レイヤデコーダ240a、第2レイヤデコーダ450a、誤差信号算出部301、および誤差信号符号化部302をさらに具備する点で、実施の形態1に示したステレオ音声符号化装置100と相違する。ステレオ音声符号化装置300において、第1レイヤデコーダ240a、第2レイヤデコーダ450a、誤差信号算出部301、誤差信号符号化部302、および第2レイヤエンコーダ150は、第2レイヤエンコーダ350を構成する。
ステレオ音声符号化装置300において、ローカルデコーダとしての第1レイヤデコーダ240aは、実施の形態1に係るステレオ音声復号装置200が備える第1レイヤデコーダ240と同様な構成および機能を有する。すなわち、第1レイヤデコーダ240aは、モノラル信号符号化部102で生成されたモノラル信号符号化パラメータPMを入力とし、モノラル信号を復号して、得られるモノラル復号信号S^M(n)を第2レイヤデコーダ450aに出力する。
ステレオ音声符号化装置300の別のローカルデコーダとして第2レイヤデコーダ450aは、第1レイヤデコーダ240aで生成されるモノラル復号信号S^M(n)、立ち上がり位置符号化部104で生成される立ち上がり位置符号化パラメータPB、遅延時間差符号化部106で生成される遅延時間差符号化パラメータPT、振幅比符号化部108で生成される振幅比符号化パラメータPg、誤差信号符号化部302で生成されるLチャネル誤差信号符号化パラメータPΔLおよびRチャネル誤差信号符号化パラメータPΔRを用いてステレオ音声信号の復号を行う。第2レイヤデコーダ450aは、生成されたLチャネル復号信号S^L(n)およびRチャネル復号信号S^R(n)を誤差信号算出部301に出力する。第2レイヤデコーダ450aの詳細な構成については後述する。
誤差信号算出部301は、ステレオ音声符号化装置300の入力信号であるLチャネル信号SL(n)、Rチャネル信号SR(n)、および第2レイヤデコーダで生成されるLチャネル復号信号S^L(n)、Rチャネル復号信号S^R(n)を用いて、下記の式(18)および式(19)に従い、Lチャネル誤差信号ΔSL(n)およびRチャネル誤差信号ΔSR(n)を算出する。
ΔSL(n)=SL(n)−S^L(n) …(18)
ΔSR(n)=SR(n)−S^R(n) …(19)
誤差信号算出部301は、算出されたLチャネル誤差信号ΔSL(n)およびRチャネル誤差信号ΔSR(n)を誤差信号符号化部302に出力する。
ΔSL(n)=SL(n)−S^L(n) …(18)
ΔSR(n)=SR(n)−S^R(n) …(19)
誤差信号算出部301は、算出されたLチャネル誤差信号ΔSL(n)およびRチャネル誤差信号ΔSR(n)を誤差信号符号化部302に出力する。
誤差信号符号化部302は、誤差信号算出部301で算出されたLチャネル誤差信号ΔSL(n)およびRチャネル誤差信号ΔSR(n)を符号化し、Lチャネル誤差信号符号化パラメータPΔLおよびRチャネル誤差信号符号化パラメータPΔRをステレオ音声復号装置400に伝送する。
図9は、本実施の形態に係る第2レイヤデコーダ450aの詳細な構成を示すブロック図である。なお、第2レイヤデコーダ450aは、実施の形態1に示した第2レイヤデコーダ250(図4参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。第2レイヤデコーダ450aは、誤差信号復号部401、および復号信号補正部402をさらに具備する点で、実施の形態1に示した第2レイヤデコーダ250と相違する。
誤差信号復号部401は、誤差信号符号化部302から入力されるLチャネル誤差信号符号化パラメータPΔLおよびRチャネル誤差信号符号化パラメータPΔRを復号して、生成されるLチャネル誤差復号信号ΔS^L(n)およびRチャネル誤差復号信号ΔS^R(n)を復号信号補正部402に出力する。
復号信号補正部402は、誤差信号復号部401で生成されるLチャネル誤差復号信号ΔS^L(n)、Rチャネル誤差復号信号ΔS^R(n)、およびステレオ信号復号部203で生成されるLチャネル復号信号S^L(n)、Rチャネル復号信号S^R(n)を用いて、下記の式(20)および式(21)に従い、誤差補正されたLチャネル復号信号S"L(n)およびRチャネル復号信号S"R(n)を生成し、ステレオ信号復号部203に出力する。
S"L(n)=S^L(n)+ΔS^L(n) …(20)
S"R(n)=S^R(n)+ΔS^R(n) …(21)
誤差補正されたLチャネル復号信号S"L(n)およびRチャネル復号信号S"R(n)は、ステレオ信号復号部203の次の区間におけるステレオ音声信号の復号に用いられ、実施の形態1に比べ誤差のより少ないLチャネル復号信号S^L(n)およびRチャネル復号信号S^R(n)が得られる。
S"L(n)=S^L(n)+ΔS^L(n) …(20)
S"R(n)=S^R(n)+ΔS^R(n) …(21)
誤差補正されたLチャネル復号信号S"L(n)およびRチャネル復号信号S"R(n)は、ステレオ信号復号部203の次の区間におけるステレオ音声信号の復号に用いられ、実施の形態1に比べ誤差のより少ないLチャネル復号信号S^L(n)およびRチャネル復号信号S^R(n)が得られる。
上記のように、ステレオ音声符号化装置300で生成されステレオ音声復号装置400に伝送される符号化パラメータは、モノラル信号符号化パラメータPM、立ち上がり位置符号化パラメータPB、遅延時間差符号化パラメータPT、振幅比符号化パラメータPg、Lチャネル誤差信号符号化パラメータPΔL、およびRチャネル誤差信号符号化パラメータPΔRである。
図10は、本実施の形態に係るステレオ音声復号装置400の主要な構成を示すブロック図である。
図10において、ステレオ音声復号装置400は、第1レイヤデコーダ240および第2レイヤデコーダ450を備える。ステレオ音声復号装置400の第1レイヤデコーダ240は、図4に示した第1レイヤデコーダ240と同一の構成および機能を有するため、ここでは説明を省略する。ステレオ音声復号装置400の第2レイヤデコーダ450は、図9に示す第2レイヤデコーダ450aと同様の構成および機能を有する。すなわち第2レイヤデコーダ450は、ステレオ音声符号化装置300から伝送される立ち上がり位置符号化パラメータPB、遅延時間差符号化パラメータPT、振幅比符号化パラメータPg、Lチャネル誤差信号符号化パラメータPΔLおよびRチャネル誤差信号符号化パラメータPΔRを入力とし、ステレオ信号の復号を行い、Lチャネル復号信号S^L(n)およびRチャネル復号信号S^R(n)を出力する。
このように、本実施の形態によれば、ステレオ音声符号化装置は、実施の形態1に比べてLチャネル誤差信号符号化パラメータPΔLおよびRチャネル誤差信号符号化パラメータPΔRをさらに伝送し、ステレオ音声符号化装置は、より誤差の少ないLチャネル復号信号S^L(n)およびRチャネル復号信号S^R(n)を生成して出力することができる。
なお、本実施の形態では、ステレオ符号化装置で立ち上がり位置符号化情報を求めてステレオ復号装置に伝送する場合を例にとって説明したが、ステレオ符号化装置が立ち上がり位置検出部および立ち上がり位置符号化部を備えず、またステレオ復号装置が立ち上がり位置復号部を備えず、ステレオ復号装置側の誤差信号補正部およびステレオ信号復号部の処理により立ち上がり位置を検出して復号を行っても良い。
また、本実施の形態では、Lチャネル信号およびRチャネル信号両方の誤差信号を符号化する場合を例にとって説明したが、先行チャネル信号、本実施の形態ではLチャネル信号の誤差信号のみを符号化してもよい。ただし、先行チャネル信号の誤差信号のみを符号化する場合よりも、Lチャネル信号およびRチャネル信号両方の誤差信号を符号化する場合、ステレオ音声復号装置で復号されるステレオ音声信号の品質をさらに向上することができる。
また、本実施の形態では、ステレオ音声復号装置から出力されるLチャネル復号信号およびRチャネル復号信号がステレオ信号復号部にフィードバックされない場合を例にとって説明したが、ステレオ音声復号装置から出力されるLチャネル復号信号およびRチャネル復号信号が遅延時間差単位でステレオ信号復号部にフィードバックされ用いられるようにしてもよく、かかる場合ステレオ音声復号装置は、さらに誤差の少ないLチャネル復号信号およびRチャネル復号信号を得て出力することができる。
(実施の形態3)
図11は、本発明の実施の形態3に係るステレオ音声符号化装置500の主要な構成を示すブロック図である。ステレオ音声符号化装置500は、実施の形態1に示したステレオ音声符号化装置100(図1参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ステレオ音声符号化装置500は、遅延時間差補正値算出部501、遅延時間差補正値符号化部502、振幅比補正値算出部503、および振幅比補正値符号化部504をさらに具備する点で、実施の形態1に示したステレオ音声符号化装置100と相違する。
図11は、本発明の実施の形態3に係るステレオ音声符号化装置500の主要な構成を示すブロック図である。ステレオ音声符号化装置500は、実施の形態1に示したステレオ音声符号化装置100(図1参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ステレオ音声符号化装置500は、遅延時間差補正値算出部501、遅延時間差補正値符号化部502、振幅比補正値算出部503、および振幅比補正値符号化部504をさらに具備する点で、実施の形態1に示したステレオ音声符号化装置100と相違する。
遅延時間差補正値算出部501は、Lチャネル信号SL(n)とRチャネル信号SR(n)とを、遅延時間差算出部105から入力される遅延時間差Tに対応する長さでK個の区間に分割し、各区間におけるLチャネル信号SL(kT+n)とRチャネル信号SR(kT+n)との遅延時間差Tkが遅延時間差Tに対する変動量ΔTk、すなわちk区間における遅延時間差補正値ΔTkを算出する(ここでkは、区間番号を示し、k=0,1,2,…Kである)。具体的に、遅延時間差補正値算出部501は、まず、下記の式(22)を用いて、k区間におけるLチャネル信号SL(kT+n)およびRチャネル信号SR(kT+n)の相互相関関数を算出する。
この式において、Tは各区間に含まれるサンプル数を示し、τkはLチャネル信号SL(n)に対するRチャネル信号SR(n)のシフトサンプル数を示す。φk(τk)は、k区間におけるLチャネル信号SL(kT+n)およびRチャネル信号SR(kT+n)の相互相関値を示し、遅延時間差算出部105は、φk(τk)の値が最大となるτkの値を、k区間におけるLチャネル信号SL(kT+n)とRチャネル信号SR(kT+n)との遅延時間差Tkとして算出する。このように、遅延時間差Tは、1フレーム全般におけるLチャネル信号およびRチャネル信号の遅延時間差を示すのに対して、遅延時間差Tkは、1フレーム内の各区間におけるLチャネル信号およびRチャネル信号の遅延時間差を示す。次いで、遅延時間差補正値算出部501は、下記の式(23)を用いて、遅延時間差Tに対するk区間における遅延時間差Tkの変動量をk区間における遅延時間差補正値ΔTkとして算出する。
ΔTk=Tk−T …(23)
ΔTk=Tk−T …(23)
遅延時間差補正値算出部501は、算出された遅延時間差補正値ΔTkを遅延時間差補正値符号化部502に出力し、k区間における遅延時間差Tkを振幅比補正値算出部503に出力する。
遅延時間差補正値符号化部502は、遅延時間差補正値算出部501から入力される遅延時間差補正値ΔTkを符号化し、生成される遅延時間差補正値符号化パラメータPΔTkを本実施の形態に係るステレオ音声復号装置(図示せず)に伝送する。
振幅比補正値算出部503は、Lチャネル信号SL(n)とRチャネル信号SR(n)とを、遅延時間差算出部105から入力される遅延時間差Tを長さとするK個の区間に分割し、遅延時間差補正値算出部501から入力される遅延時間差Tkおよび振幅比算出部107から入力される振幅比gを用いて、各区間におけるLチャネル信号SL(kT+n−ΔTk)とRチャネル信号SR(kT+n)との振幅比gkが振幅比gに対する変動量Δgk、すなわちk区間における振幅比補正値Δgkを算出する。具体的に、振幅比補正値算出部503は、まず、下記の式(24)に従い、遅延時間差Tkを考慮した、k区間におけるRチャネル信号SR(kT+n)とLチャネル信号SL(kT+n)との振幅比gkを算出する。
このように、振幅比gは、1フレーム全般におけるLチャネル信号およびRチャネル信号の振幅比を示すのに対して、振幅比gkは、1フレーム内の各区間におけるLチャネル信号およびRチャネル信号の振幅比を示す。次いで、振幅比補正値算出部503は、下記の式(25)を用いて、振幅比gに対するk区間における振幅比gkの変動量をk区間における振幅比補正値Δgkとして算出する。
Δgk=gk/g …(25)
すなわち、振幅比補正値算出部503は、k区間におけるRチャネル信号SR(kT+n)とLチャネル信号SL(kT+n)との振幅比gkと、振幅比算出部107から入力される振幅比gとの比を、振幅比補正値Δgkとして算出する。振幅比補正値算出部503は、算出された振幅比補正値Δgkを振幅比補正値符号化部504に出力する。
Δgk=gk/g …(25)
すなわち、振幅比補正値算出部503は、k区間におけるRチャネル信号SR(kT+n)とLチャネル信号SL(kT+n)との振幅比gkと、振幅比算出部107から入力される振幅比gとの比を、振幅比補正値Δgkとして算出する。振幅比補正値算出部503は、算出された振幅比補正値Δgkを振幅比補正値符号化部504に出力する。
振幅比補正値符号化部504は、振幅比補正値算出部503から入力される振幅比補正値Δgkを符号化し、生成される振幅比補正値符号化パラメータPΔgkを本実施の形態に係るステレオ音声復号装置に伝送する。
本実施の形態に係るステレオ音声復号装置は、本発明の実施の形態1に係るステレオ音声復号装置200の基本的な構成及び機能を有し、遅延時間差補正値ΔTkおよび振幅比補正値Δgkをさらに用いてステレオ音声を復号する点でステレオ音声復号装置200と相違する。例えば、遅延時間差復号部232において、遅延時間差補正値符号化パラメータPΔTkを復号し、得られる遅延時間差補正値ΔTkを用いて遅延時間差Tを補正する。また、振幅比復号部231において、振幅比補正値符号化パラメータPΔgkを復号し、得られる振幅比補正値Δgkを用いて振幅比gを補正する。ここでは、本実施の形態にかかるステレオ音声復号装置は図示せず、さらなる詳細な説明を省略する。
このように、本実施の形態によれば、ステレオ音声符号化装置は、遅延時間差Tに対応する長さで1フレームのステレオ音声信号を複数の区間に分割し、各区間における遅延時間差Tkおよび振幅比gkが、1フレーム全般における遅延時間差Tおよび振幅比gに対する変動量を遅延時間差補正値ΔTkおよび振幅比補正値Δgkとして伝送するため、ステレオ音声符号化の予測誤差をさらに低減することができる。ここで、遅延時間差補正値ΔTkおよび振幅比補正値Δgkは、k区間における遅延時間差Tkおよび振幅比gkに比べ、値が小さいため、より低いビットレートでステレオ音声信号を符号化することができる。
なお、本実施の形態では、遅延時間差補正値算出部501が式(22)に示すように、長さが遅延時間差Tであるk区間を演算範囲として相互相関値を算出する場合を例にとって説明したが、これに限定されず、k区間を含む(T−Δa)〜(T−Δb)範囲の区間を演算範囲として相互相関値を算出しても良い。
また、本実施の形態では、遅延時間差補正値符号化部502は、各区間における遅延時間差補正値ΔTkを個別に符号化し、K個の遅延時間差補正値符号化パラメータPΔTkを生成する場合を例にとって説明したが、K個の遅延時間差補正値ΔTkを纏めて符号化し、1つの遅延時間差補正値符号化パラメータ(例えば、PΔTと記す)を生成しても良い。
また、本実施の形態では、振幅比補正値符号化部504は、各区間における振幅比補正値Δgkを個別に符号化し、K個の振幅比補正値符号化パラメータPΔgkを生成する場合を例にとって説明したが、K個の振幅比補正値Δgkを纏めて符号化し、1つの振幅比補正値符号化パラメータ(例えば、PΔgと記す)を生成しても良い。
(実施の形態4)
図12は、本実施の形態に係るステレオ音声符号化装置700の主要な構成を示すブロック図である。ステレオ音声符号化装置700は、本発明の実施の形態3に示したステレオ音声符号化装置500(図11参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ステレオ音声符号化装置700の遅延時間差補正値符号化部702、振幅比補正値符号化部704と、ステレオ音声符号化装置500の遅延時間差補正値符号化部502、振幅比補正値符号化部504とは処理の一部に相違点があり、それを示すために異なる符号を付す。
図12は、本実施の形態に係るステレオ音声符号化装置700の主要な構成を示すブロック図である。ステレオ音声符号化装置700は、本発明の実施の形態3に示したステレオ音声符号化装置500(図11参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ステレオ音声符号化装置700の遅延時間差補正値符号化部702、振幅比補正値符号化部704と、ステレオ音声符号化装置500の遅延時間差補正値符号化部502、振幅比補正値符号化部504とは処理の一部に相違点があり、それを示すために異なる符号を付す。
遅延時間差補正値符号化部702は、第1符号化ビットテーブルをさらに内蔵し、内蔵の第1符号化ビットテーブルを用いて、遅延時間差補正値算出部501から入力される遅延時間差補正値を符号化する点で遅延時間差補正値符号化部502と相違する。第1符号化ビットテーブルは、遅延時間差補正値算出部501から入力される各区間における遅延時間差補正値ΔTk(1≦k≦K)を符号化するための、各区間毎の符号化ビット数を備える。1フレーム内のすべての遅延時間差補正値ΔTkを符号化するためのビット総数をMと示し、各区間kにおける遅延時間差補正値ΔTkを符号化するためのビット数をTB(k)と示す場合、下記の式(26)および式(27)が満たされる。
TB(k)≧TB(k-1) …(26)
ここで、例えば、各区間kにおける遅延時間差補正値ΔTkに対して量子化を行う場合、TB(k)は、スカラ量子化ビット数を示す。式(26)および式(27)に示すように、遅延時間差補正値符号化部702は、フレームの先頭に近い区間よりもフレームの後尾に近い区間、すなわち、区間番号kがより大きい区間における遅延時間差補正値ΔTkの符号化に、より多くの符号化ビットを配分する。
TB(k)≧TB(k-1) …(26)
振幅比補正値符号化部704は、第2符号化ビットテーブルをさらに内蔵し、内蔵の第2符号化ビットテーブルを用いて、振幅比補正値算出部503から入力される振幅比補正値を符号化する点で振幅比補正値符号化部504と相違する。第2符号化ビットテーブルは、振幅比補正値算出部503から入力される各区間における振幅比補正値Δgk(1≦k≦K)を符号化するための、各区間毎の符号化ビット数を備える。1フレーム内のすべての振幅比補正値ΔTkを符号化するためのビット総数をNと示し、各区間kにおける振幅比補正値Δgkを符号化するためのビット数をAB(k)と示す場合、下記の式(28)および式(29)が満たされる。
AB(k)≧AB(k-1) …(28)
ここで、例えば、各区間における振幅比補正値Δgkに対して量子化を行う場合、AB(k)は、スカラ量子化ビット数を示す。式(28)および式(29)に示すように、振幅比補正値符号化部704は、フレームの先頭に近い区間よりもフレームの後尾に近い区間、すなわち、区間番号kがより大きい区間における振幅比補正値Δgkの符号化に、より多くの符号化ビットを配分する。
AB(k)≧AB(k-1) …(28)
本実施の形態に係るステレオ音声復号装置800(図示せず)は、式(17)に従いステレオ音声復号信号を求めて、さらに、遅延時間差補正値ΔTkおよび振幅比補正値Δgkを用いてステレオ音声復号信号の誤差を補正する。式(17)に示すように、ステレオ音声復号装置800は、1フレーム内の各区間のステレオ音声復号信号を求めるために、遅延時間差T、および振幅比gを再帰的に用いるため、区間番号kが増加するとともに、求められるステレオ音声復号信号の誤差も増加する。その理由は、区間番号kが増加するとともに、遅延時間差補正値ΔTkおよび振幅比補正値Δgkが増加するためである。従って、区間番号kが増加するとともに、遅延時間補正値ΔTkおよび振幅比補正値Δgkの符号化ビット数を増加させれば、予測誤差を低減し、ステレオ音声復号信号の音質を向上することができる。
このように、本実施の形態によれば、ステレオ音声符号化装置は、フレームの先頭に近い区間よりもフレームの後尾に近い区間の振幅比補正値および振幅比補正値の符号化に、より多くの符号化ビットを配分するため、予測誤差を低減し、ステレオ音声復号信号の音質を向上することができる。
なお、本実施の形態においては、1フレーム内の各区間毎にフレームの後尾に近いほど、符号化ビット数を増加する場合を例にとって説明したが、これに限定されず、1フレーム内のすべてのK個の区間を複数のブロックに分割し、各ブロック毎にフレームの後尾に近いほど符号化ビット数を増加しても良い。すなわち、同一のブロック内の各区間の遅延時間差補正値または振幅比補正値の符号化には同一の符号化ビット数を用いる。
また、本実施の形態に係る符号化ビット配分の方法を本発明の実施の形態2に適用しても、予測誤差を低減する効果が得られる。例えば、ステレオ音声符号化装置300において、誤差信号符号化部302が誤差信号算出部301から入力されるLチャネル誤差信号およびRチャネル誤差信号を量子化する場合、フレームの先頭よりもフレームの後尾に近いほど、より多くのビット数を用いて量子化を行えば良い。
以上、本発明の各実施の形態について説明した。
本発明に係るステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法は、上記各実施の形態に限定されず、種々変更して実施することが可能である。
本発明に係るステレオ音声符号化装置およびステレオ音声復号装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置および基地局装置を提供することができる。また、本発明に係るステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法は、有線方式の通信システムにおいても利用可能である。
なお、本明細書では、本発明をモノラル−ステレオのスケーラブル符号化に適用する構成を例にとって説明したが、ステレオ信号に対して帯域分割符号化を行う場合の帯域別の各符号化/復号に本発明を適用するような構成としても良い。
また、本発明に係るステレオ信号符号化部と通常のステレオ信号符号化部の双方を有し、Lチャネル信号とRチャネル信号との相関度合いに基づいて、モード切替部が、実際に使用するステレオ信号符号化部を切り替えるような構成としても良い。かかる場合、Lチャネル信号とRチャネル信号との相関度合いが閾値以下の場合、通常のステレオ信号符号化部を用いて、Lチャネル信号およびRチャネル信号をそれぞれ別個に符号化し、Lチャネル信号とRチャネル信号との相関度合いが閾値より高い場合は、本発明に係るステレオ信号符号化部を用いて、Lチャネル信号およびRチャネル信号の符号化を行う。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るステレオ音声符号化方法の処理のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明のステレオ音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されていても良いし、一部または全てを含むように1チップ化されていても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2006年3月31日出願の特願2006−99913の日本出願および2006年10月3日出願の特願2006−272132の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係るステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法は、移動体通信システムにおける通信端末装置等の用途に適用できる。
本発明は、ステレオ音声信号に対し符号化を施すステレオ音声符号化装置、これに対応するステレオ音声復号装置、およびこれらの方法に関する。
携帯電話機による通話のように、移動体通信システムにおける音声通信では、現在、モノラル方式による通信(モノラル通信)が主流である。しかし、今後、第4世代の移動体通信システムのように、伝送レートのさらなる高ビットレート化が進めば、複数チャネルを伝送するだけの帯域を確保できるようになるため、音声通信においてもステレオ方式による通信(ステレオ通信)が普及することが期待される。
例えば、音楽をHDD(ハードディスク)搭載の携帯オーディオプレーヤに記録し、このプレーヤにステレオ用のイヤホンやヘッドフォン等を装着してステレオ音楽を楽しむユーザが増えている現状を考えると、将来、携帯電話機と音楽プレーヤとが結合し、ステレオ用のイヤホンやヘッドフォン等の装備を利用しつつ、ステレオ方式による音声通信を行うライフスタイルが一般的になることが予想される。また、最近普及しつつあるTV会議等の環境において、臨場感ある会話を可能とするため、やはりステレオ通信が行われるようになることが予想される。
一方、移動体通信システム、有線方式の通信システム等においては、システムの負荷を軽減するため、伝送される音声信号を予め符号化することにより伝送情報の低ビットレート化を図ることが一般的に行われている。そのため、最近、ステレオ音声信号を符号化する技術が注目を浴びている。例えば、下記の式(1)を用いて、ステレオ信号を構成する一方のチャネル信号から他方のチャネル信号を予測し、予測パラメータakおよびdを符号化する技術がある(非特許文献1参照)。
ここで、akは予測誤差を最小にする予測パラメータとして、k次の予測係数である。dは2つのチャネル信号の遅延時間差を表す。x(n)は、サンプル番号nにおける一方のチャネル信号を表し、y^(n)は、サンプル番号nにおける予測された他方のチャネル信号を表す。
また、ステレオ通信が普及しても、依然としてモノラル通信も行われると予想される。何故なら、モノラル通信は低ビットレートであるため通信コストが安くなることが期待され、また、モノラル通信のみに対応した携帯電話機は回路規模が小さくなるため安価となり、高品質な音声通信を望まないユーザは、モノラル通信のみに対応した携帯電話機を購入するだろうからである。よって、一つの通信システム内において、ステレオ通信に対応した携帯電話機とモノラル通信に対応した携帯電話機とが混在するようになり、通信システムは、これらステレオ通信およびモノラル通信の双方に対応する必要性が生じる。さらに、移動体通信システムでは、無線信号によって通信データをやりとりするため、伝搬路環境によっては通信データの一部を失う場合がある。そこで、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能を携帯電話機が有していれば非常に有用である。
ステレオ通信およびモノラル通信の双方に対応することができ、かつ、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能として、ステレオ信号とモノラル信号との両方を符号化・復号できるスケーラブル符号化がある。この機能を有したスケーラブル符号化装置の例として、例えば、非特許文献2に開示されたものがある。
Hendrik Fuchs、"Improving Joint Stereo Audio Coding by Adaptive Inter-Channel Prediction"、Applications of Signal Processing to Audio and Acoustics、Final Program and Paper Summaries、IEEE Workshop on Pages:39 − 42、(17−20 Oct. 1993 ) ISO/IEC 14496-3:1999 (B.14 Scalable AAC with core coder)
Hendrik Fuchs、"Improving Joint Stereo Audio Coding by Adaptive Inter-Channel Prediction"、Applications of Signal Processing to Audio and Acoustics、Final Program and Paper Summaries、IEEE Workshop on Pages:39 − 42、(17−20 Oct. 1993 ) ISO/IEC 14496-3:1999 (B.14 Scalable AAC with core coder)
しかしながら、非特許文献1に開示の技術は、上述の式(1)で表されるような予測に基づいた符号化を行っていて、予測誤差を小さくする目的で予測係数の次数を上げると、すなわち、予測パラメータの個数を上げると、符号化ビットレートが増加してしまうという問題がある。また逆に、符号化ビットレートを抑制する目的で予測係数の次数を低減すると、予測性能が低下し、復号側で得られる音声信号に聴覚的な音質劣化が発生するという問題がある。また、非特許文献2のようなスケーラブル符号化に、非特許文献1の技術を適用すると、ステレオ信号だけでなくモノラル信号についても予測係数を求める必要があり、さらに符号化ビットレートが増大する。
本発明の目的は、より少ない情報量を符号化し伝送することにより、ビットレートを減少しつつ、音質劣化を抑えることができるステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法を提供することである。
本発明のステレオ音声復号装置は、2つのチャネルからなるステレオ音声信号の時間的に先行する先行チャネル信号と、時間的に遅れる後続チャネル信号とが合成された、モノラル信号が符号化された符号化情報を復号するモノラル信号復号手段と、前記ステレオ音声信号の無音区間から有音区間に変わる立ち上がり位置が符号化された符号化情報を復号する立ち上がり位置復号手段と、前記先行チャネル信号と後続チャネル信号との遅延時間差が符号化された符号化情報を復号する遅延時間差復号手段と、前記後続チャネル信号と前記先行チャネル信号との振幅比が符号化された符号化情報を復号する振幅比復号手段と、前記モノラル信号と、前記遅延時間差と、前記立ち上がり位置とを用いて、前記先行チャネル信号を復号する先行チャネル信号復号手段と、前記先行チャネル信号と、前記振幅比とを用いて、前記後続チャネル信号を復号する後続チャネル信号復号手段と、を具備する構成を採る。
本発明によれば、ステレオ音声符号化において、両チャネル間の予測係数を符号化せず、ステレオ信号の立ち上がり位置、両チャネルの遅延時間差および振幅比に関するより少ない情報量を符号化し伝送することにより、ビットレートを減少しつつ、音質劣化を抑えることができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお、ここでは、LチャネルおよびRチャネルの2チャネルからなるステレオ音声信号を符号化する場合を例にとって説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係るステレオ音声符号化装置100の主要な構成を示すブロック図である。
図1は、本発明の実施の形態1に係るステレオ音声符号化装置100の主要な構成を示すブロック図である。
図1において、ステレオ音声符号化装置100は、第1レイヤ(基本レイヤ)エンコーダ140および第2レイヤ(拡張レイヤ)エンコーダ150を備え、ステレオ音声信号のスケーラブル符号化を行う。第1レイヤエンコーダ140は、モノラル信号生成部101およびモノラル信号符号化部102を備え、モノラル信号の符号化を行う。第2レイヤエンコーダ150は、立ち上がり位置検出部103、立ち上がり位置符号化部104、遅延時間差算出部105、遅延時間差符号化部106、振幅比算出部107、および振幅比符号化部108を備え、ステレオ信号の符号化を行う。各レイヤエンコーダは、得られる符号化パラメータを後述のステレオ音声復号装置200に伝送する。
モノラル信号生成部101は、入力されるステレオ音声信号、すなわち、Lチャネル信号SL(n)およびRチャネル信号SR(n)からモノラル信号SM(n)を生成して、モノラル信号符号化部102に出力する。モノラル信号SM(n)は、下記の式(2)に従い、Lチャネル信号SL(n)およびRチャネル信号SR(n)の平均値を求めることにより生成される。
SM(n)=(SL(n)+SR(n))/2 …(2)
ここで、nはステレオ音声信号のサンプル番号を示す。
SM(n)=(SL(n)+SR(n))/2 …(2)
ここで、nはステレオ音声信号のサンプル番号を示す。
モノラル信号符号化部102は、モノラル信号生成部101で生成されるモノラル信号SM(n)をCELP(Code Excited Linear Prediction)符号化方式で符号化し、得られるモノラル信号符号化パラメータPMをステレオ音声復号装置200に伝送する。CELP符号化方式においては、音声信号の声道情報については、LSPパラメータを求めて符号化し、音声信号の音源情報については、予め記憶されている音声モデルの何れかを特定し、特定された音声モデルを示すインデックスにより符号化する。
第2レイヤエンコーダ150は、ステレオ音声符号化装置100に入力されるLチャネル信号SL(n)およびRチャネル信号SR(n)から、立ち上がり位置、Lチャネル信号SL(n)とRチャネル信号SR(n)との遅延時間差、およびLチャネル信号SL(n)とRチャネル信号SR(n)との振幅比を求めて符号化し、得られる符号化パラメータPB、PT、およびPgをステレオ音声復号装置200に伝送する。
立ち上がり位置検出部103は、入力されるLチャネル信号SL(n)およびRチャネル信号SR(n)から、ステレオ音声信号の立ち上がり位置を検出する。ステレオ音声信号の立ち上がり位置について図2を参照して説明する。
通常、ステレオ音声信号には音声信号の振幅がゼロである無音区間、および音声信号の振幅がゼロでない有音区間が存在する。音声信号が無音区間から有音区間に移行し始める位置を立ち上がり位置Bと称す。また、同一音源で発生した信号を異なる位置で取得したLチャネル信号SL(n)とRチャネル信号SR(n)は、音源からの距離が異なるため、一方のチャネル信号が先行して先行チャネルとなるのに対して、他方のチャネル信号は後続チャネル信号となり、振幅も先行チャネル信号の振幅から減衰している。例えば本実施の形態ではRチャネル信号SR(n)よりもLチャネル信号SL(n)の方が音源に近いため、Lチャネル信号SL(n)はRチャネル信号SR(n)より時間的に先行しており、振幅もより大きい。従って、立ち上がり位置から所定の区間において、Rチャネル信号SR(n)は存在せず、Lチャネル信号SL(n)のみ存在する。図2においては、Lチャネル信号SL(n)の振幅とRチャネル信号SR(n)の振幅とがともにゼロでない区間の始まり位置を時間軸0で示す。
立ち上がり位置検出部103は、無音区間が終わり、Lチャネル信号のみ存在する区間の始まり位置を立ち上がり位置Bとして検出し、検出された立ち上がり位置Bに関する情報を立ち上がり位置符号化部104に出力する。ここで立ち上がり位置Bに関する情報とは、音源から近く時間的に先行するチャネル信号がLチャネル信号とRチャネル信号の何れであるかを識別する情報、および先行チャネルの振幅がゼロから非ゼロに変わる位置を示す情報の両方を含む。
立ち上がり位置符号化部104は、立ち上がり位置検出部103から入力される立ち上がり位置Bに関する情報を符号化し、得られる立ち上がり位置符号化パラメータPBをステレオ音声復号装置200に伝送する。
遅延時間差算出部105は、ステレオ音声符号化装置100に入力されるLチャネル信号SL(n)およびRチャネル信号SR(n)を用いて、下記の式(3)に従い、Lチャネル信号SL(n)とRチャネル信号SR(n)との遅延時間差Tを算出する。
ここでφ(m)は、Lチャネル信号SL(n)およびRチャネル信号SR(n)の相互相関関数を示し、Nは1フレームに含まれるサンプル数を示し、mはLチャネル信号SL(n)に対するRチャネル信号SR(n)のシフトサンプル数を示す。遅延時間差算出部105は、Lチャネル信号SL(n)とRチャネル信号SR(n)との遅延時間差Tとして、φ(m)の値が最大となるmの値を算出する。Lチャネル信号SL(n)がRチャネル信号SR(n)に対して先行している場合には、Tの値が正数となり、Lチャネル信号SL(n)がRチャネル信号SR(n)に対して遅れている場合には、Tの値が負数となる。ここでは上述したように、Lチャネル信号がRチャネル信号に対して先行している場合を例にとるため、Tの値は正数となる。遅延時間差算出部105は、算出した遅延時間差Tを遅延時間差符号化部106および振幅比算出部107に出力する。
遅延時間差符号化部106は、遅延時間差算出部105から入力される遅延時間差Tを符号化して、符号化パラメータPTをステレオ音声復号装置200に伝送する。
振幅比算出部107は、ステレオ音声符号化装置100に入力されるLチャネル信号SL
(n)、Rチャネル信号SR(n)、および遅延時間差算出部105で算出された遅延時間差Tを用いて、下記の式(4)に従い、Lチャネル信号SL(n)とRチャネル信号SR(n)との振幅比gを算出する。
ここで、ARおよびALは、それぞれRチャネル信号SR(n)およびLチャネル信号SL(n)の1フレームにおける平均振幅を示す。振幅比算出部107は、算出された振幅比gを振幅比符号化部108に出力する。
(n)、Rチャネル信号SR(n)、および遅延時間差算出部105で算出された遅延時間差Tを用いて、下記の式(4)に従い、Lチャネル信号SL(n)とRチャネル信号SR(n)との振幅比gを算出する。
上記遅延時間差算出部105および振幅比算出部107それぞれで算出された、Lチャネル信号SL(n)とRチャネル信号SR(n)との遅延時間差Tおよび振幅比gについて図3を用いて説明する。
図3は、同一音源で発生した信号を異なる位置で取得したLチャネル信号SL(n)とRチャネル信号SR(n)との遅延時間差および振幅比を示す図である。この図において、図3AはLチャネル信号SL(n)を示し、図3BはRチャネル信号SR(n)とLチャネル信号SL(n)との関係を示す。この図に示すように、Lチャネル信号SL(n)を、遅延時間差算出部105で算出された遅延時間差Tだけ遅延すると信号S' L(n)となる。ここで立ち上がり位置Bから時間軸0までの信号長は遅延時間差Tと一致する。次に、信号S' L(n)の振幅に、振幅比算出部107で算出された振幅比gを乗じれば、信号S' L(n)は同一の音源で発生した信号であるため、理想的にはRチャネル信号SR(n)と一致する。例えばこの図において、At RおよびAt Lは、それぞれ時間tに対応するRチャネル信号SR(n)の振幅およびLチャネル信号SL(n)の振幅を示し、At R/At L=gの関係を満たす。
振幅比符号化部108は、振幅比算出部107から入力される振幅比gを符号化し、得られる符号化パラメータPgをステレオ音声復号装置200に伝送する。
上記のように、ステレオ音声符号化装置100における符号化処理はフレーム単位で行われ、モノラル信号符号化パラメータPM、立ち上がり位置符号化パラメータPB、遅延時間差符号化パラメータPT、および振幅比符号化パラメータPgを生成してステレオ音声復号装置200に伝送する。
図4は、本実施の形態に係るステレオ音声復号装置200の主要な構成を示すブロック図である。
図4において、ステレオ音声復号装置200は、ステレオ音声符号化装置100と対応して、第1レイヤ(基本レイヤ)デコーダ240および第2レイヤ(拡張レイヤ)デコーダ250を備える。第1レイヤデコーダ240は、モノラル信号復号部201を備え、ステレオ音声符号化装置100から伝送されるモノラル信号符号化パラメータPMを用いて、フレーム単位でモノラル信号の復号を行う。第2レイヤデコーダ250は、立ち上がり位置復号部202およびステレオ信号復号部203を備え、ステレオ音声符号化装置100から伝送される立ち上がり位置符号化パラメータPB、遅延時間差符号化パラメータPT、および振幅比符号化パラメータPgを用いて、遅延時間差T単位でステレオ信号の復号を行う。
第1レイヤデコーダ240においてモノラル信号復号部201は、ステレオ音声符号化装置100のモノラル信号符号化部102から伝送されるモノラル信号符号化パラメータPMを用いて、モノラル信号の復号を行い、モノラル復号信号S^M(n)を出力する。ここで、モノラル信号復号部201の復号方式として、モノラル信号符号化部102で用いられる符号化方式に対応してCELP復号方式を用いる。第2レイヤデコーダ250においてステレオ信号の復号が行われなかった場合、ステレオ音声復号装置200において生成されるステレオ音声復号信号はモノラル復号信号S^M(n)のみからなり、モノラル音声信号となる。またモノラル信号復号部201は、モノラル復号信号S^M(n)をステレオ信号復号部203に出力する。
第2レイヤデコーダ250において立ち上がり位置復号部202は、ステレオ音声符号化装置100の立ち上がり位置符号化部104から伝送される符号化パラメータPBを復号して、復号立ち上がり位置B^をステレオ信号復号部203に出力する。ステレオ信号復号部203は、ステレオ音声符号化装置100の振幅比符号化部108から伝送される振幅比符号化パラメータPg、ステレオ音声符号化装置100の遅延時間差符号化部106から伝送される遅延時間差符号化パラメータPT、モノラル信号復号部201から入力されるモノラル復号信号S^M(n)、および立ち上がり位置復号部202から入力される復号立ち上がり位置B^を用いて、ステレオ信号の復号を行い、Lチャネル復号信号S^L(n)およびRチャネル復号信号S^R(n)を出力する。
図5は、本実施の形態に係るステレオ信号復号部203の詳細な構成を示すブロック図である。
図5において、ステレオ信号復号部203は、振幅比復号部231、遅延時間差復号部232、先行チャネル復号信号分離部233、後続チャネル復号信号生成部234、繰り返し演算制御部235、先行チャネル復号信号記憶部236、および後続チャネル復号信号記憶部237を備える。
振幅比復号部231は、ステレオ音声符号化装置100の振幅比符号化部108から伝送される振幅比符号化パラメータPgを復号し、得られる復号振幅比g^を後続チャネル復号信号生成部234に出力する。
遅延時間差復号部232は、ステレオ音声符号化装置100の遅延時間差符号化部106から伝送される遅延時間差符号化パラメータPTを復号し、得られる復号遅延時間差T^を先行チャネル復号信号分離部233および繰り返し演算制御部235に出力する。
先行チャネル復号信号分離部233は、モノラル信号復号部201から入力されるモノラル復号信号S^M(n)、遅延時間差復号部232から入力される復号遅延時間差T^、立ち上がり位置復号部202から入力される復号立ち上がり位置B^、および後続チャネル復号信号生成部234から入力される後続チャネル復号信号S^R(n)を用い、モノラル復号信号S^M(n)から先行チャネル復号信号S^L(n)を分離する。上述したように本実施の形態では、Lチャネルが先行チャネルとなり、Rチャネルが後続チャネルとなる。先行チャネル復号信号分離部233は、上記の分離処理において、繰り返し演算制御部235の制御に基づき、すべての区間で同様の演算を繰り返す。先行チャネル復号信号分離部233は、得られるLチャネル復号信号S^L(n)を後続チャネル復号信号生成部234、および先行チャネル復号信号記憶部236に出力する。
後続チャネル復号信号生成部234は、振幅比復号部231から入力される復号振幅比g^、および先行チャネル復号信号分離部233から入力されるLチャネル復号信号S^L(n)を用い、後続チャネル復号信号、すなわち本実施の形態ではRチャネル復号信号S^R(n)を
生成する。後続チャネル復号信号生成部234は、上記の処理において、繰り返し演算制御部235の制御に基づき、すべての区間で同様の演算を繰り返す。後続チャネル復号信号生成部234は、生成されるRチャネル復号信号S^R(n)を先行チャネル復号信号分離部233および後続チャネル復号信号記憶部237に出力する。
生成する。後続チャネル復号信号生成部234は、上記の処理において、繰り返し演算制御部235の制御に基づき、すべての区間で同様の演算を繰り返す。後続チャネル復号信号生成部234は、生成されるRチャネル復号信号S^R(n)を先行チャネル復号信号分離部233および後続チャネル復号信号記憶部237に出力する。
繰り返し演算制御部235は、遅延時間差復号部232から入力される復号遅延時間差T^、および立ち上がり位置復号部202から入力される復号立ち上がり位置B^を用いて、先行チャネル復号信号分離部233、および後続チャネル復号信号生成部234の繰り返し演算を制御し、復号遅延時間差T^(以下遅延時間差Tと見なす)単位で、Lチャネル信号S^L(n)およびRチャネル復号信号S^R(n)を生成させる。
先行チャネル復号信号記憶部236、および後続チャネル復号信号記憶部237は、先行チャネル復号信号分離部233、および後続チャネル復号信号生成部234それぞれから入力されるLチャネル復号信号S^L(n)、およびRチャネル復号信号S^R(n)それぞれを記憶しておき、同一の遅延時間差T単位に対応するLチャネル復号信号S^L(n)、およびRチャネル復号信号S^R(n)を同時に出力することにより、ステレオ音声復号信号を構成する。
ステレオ音声復号装置200のステレオ音声信号の復号処理において各チャネル信号を分離できる原理について図6を用いて説明する。
図6において、SL(n)、およびSR(n)は、Lチャネル信号、およびRチャネル信号それぞれを示し、nはサンプル番号を示す。なお、1フレームはN個のサンプルからなる。図6Aにおいては実線でLチャネル信号SL(n)を示し、図6Bにおいては破線でRチャネル信号SR(n)を示し、図6Cにおいては実線および破線で、Lチャネル信号SL(n)およびRチャネル信号SR(n)を同時に示している。
図6Aに示すように、本実施の形態では遅延時間差Tが1フレーム長より小さい場合を例にとり、立ち上がり位置Bから最初の遅延時間差Tまでの区間を区間0と示す。図6Aにおいて、Lチャネル信号SL(n)の1フレームは、遅延時間差T毎に区間1、区間2、…に区切られる。ここで各区間のLチャネル信号をSL (1)(n)、SL (2)(n)、…で示し、上付文字の(1)、(2)は区間番号を示す。なお、フレーム長が遅延時間差Tの整数倍になるとは限らないため、1フレーム内の最後の区間は、遅延時間差Tより短い場合がある。
図6Bに示すように、Rチャネル信号SR(n)の1フレームも遅延時間差T毎に区間1、区間2、…に区切られる。各区間のRチャネル信号をSR (1)(n)、SR (2)(n)、…で示し、上付文字の(1)、(2)は、区間番号を示す。なお、立ち上がり位置Bから最初の遅延時間差Tまでの区間0において、Rチャネル信号SR(n)は存在しない。すなわち、SR (0)(n)=0である。
従って、ステレオ音声復号装置200は、下記の式(5)に従い、モノラル復号信号S^M(n)の区間0に対応する部分の信号S^M (0)(n)を、区間0のLチャネル復号信号S^L (0)(n)とすることができる。
S^L (0)(n)=S^M (0)(n) ただし、−T≦n<0 …(5)
S^L (0)(n)=S^M (0)(n) ただし、−T≦n<0 …(5)
図6Cに示すように、破線で示すRチャネル信号SR(n)の波形は、実線で示すLチャネル信号SL(n)に対して遅延時間差T分の遅延があり、1区間遅れた信号となる。また、Rチャネル信号SR(n)の振幅は、Lチャネル信号SL(n)に対して振幅比g(g≦1)が乗じられた振幅となる。すなわち、Lチャネル信号SL(n)とRチャネル信号SR(n)とは、下記の式(6)に示す関係を満たす。
SR(n)=g・SL(n−T) …(6)
SR(n)=g・SL(n−T) …(6)
従って、ステレオ音声復号装置200は、下記の式(7)を用いて、区間0のLチャネル復号信号S^L (0)(n−T)をスケール調整して、区間1のRチャネル信号S^R (1)(n)を求めることができる。
S^R (1)(n)=g^・S^L (0)(n−T) ただし、0≦n<T …(7)
S^R (1)(n)=g^・S^L (0)(n−T) ただし、0≦n<T …(7)
次いで、モノラル復号信号S^M(n)の区間1に対応する部分の信号S^M (1)(n)から、上記区間1のRチャネル復号信号S^R (1)(n)を分離することにより、区間1のLチャネル復号信号S^L (1)(n)を求めることができる。再び、求められた区間1のLチャネル復号信号S^L (1)(n)に振幅比gを掛けると、区間2のRチャネル信号S^R (2)(n)が得られる。このように同様の演算を繰り返すことにより、ステレオ音声復号装置200はステレオ音声を復号することができる。
すなわち、ステレオ音声復号装置200は、まずモノラル信号SM(n)において、Lチャネル信号SL(n)とRチャネル信号SR(n)とが混在している区間ではなく、Lチャネル信号SL(n)のみが存在する区間0を特定する。次いでステレオ音声復号装置200は、特定した区間0のLチャネル信号SL (0)(n)をスケール調整して次の区間1のRチャネル信号SR (1)(n)を予測する。次いで区間1のモノラル信号SM (1)(n)(LチャネルSL (1)(n)とRチャネルSR (1)(n)とが混在する信号)から、予測したRチャネル信号SR (1)(n)の寄与分を減ずることにより、区間1におけるLチャネル信号SL (1)(n)を求める。ステレオ音声復号装置200は、続けて上記のスケール調整および分離処理を繰り返すことにより、各区間におけるLチャネル信号SL(n)およびRチャネル信号SR(n)を得る。
図7は、図6に示したステレオ音声信号をテーブルに纏めて示す図である。この図において第1行目はフレームの順番を示し、第2行目は区間番号を示す。第3行目はサンプル番号nの可能な値の範囲を示し、第4行目および第5行目は、それぞれ各区間に対応するLチャネル信号およびRチャネル信号を示す。
次に、ステレオ音声復号装置200におけるステレオ音声信号の復号手順について詳細に説明する。
まずモノラル信号復号部201は、モノラル信号符号化パラメータPMを復号してモノラル復号信号S^M(n)を得る。
次いで立ち上がり位置復号部202は、立ち上がり位置符号化パラメータPBを復号して復号立ち上がり位置B^を得る。
次いで、振幅比復号部231は、振幅比符号化パラメータPgを復号して復号振幅比g^を得、遅延時間差復号部232は、遅延時間差符号化パラメータPTを復号して復号遅延時間差T^を得る。
次いで先行チャネル復号信号分離部233は、復号遅延時間差T^、モノラル復号信号S^M(n)、復号立ち上がり位置B^を用いて、区間0のLチャネル復号信号S^L (0)(n)を得る。区間0では、Lチャネル信号しか存在しないので、モノラル復号信号がLチャネル復号信号となり、すなわち、上記の式(5)に従い、立ち上がり位置までのLチャネル復号信号S^L (0)(n)が得られる。
次いで後続チャネル復号信号生成部234は、上記の式(7)に従い、区間1におけるRチャネル復号信号S^R (1)(n)を得る。
次いで、ステレオ音声符号化装置100においてモノラル信号SM(n)はLチャネル信号SL(n)およびRチャネル信号SR(n)の平均値として求められたため、先行チャネル復号信号分離部233は、下記の式(8)に従い、区間1におけるLチャネル復号信号S^L (1)(n)を得る。
S^L (1)(n)=2・S^M (1)(n)−S^R (1)(n)=2・S^M (1)(n)−g^・S^L (0)(n−T) …(8)
ここで、nは、0≦n<Tである。なお式(8)においては、式(7)が代入されている。すなわち、先行チャネル復号信号分離部233で求められた、区間0のLチャネル復号信号に相当するS^L (0)(n−T)(0≦n<T)が後続チャネル復号信号生成部234において用いられる。
S^L (1)(n)=2・S^M (1)(n)−S^R (1)(n)=2・S^M (1)(n)−g^・S^L (0)(n−T) …(8)
ここで、nは、0≦n<Tである。なお式(8)においては、式(7)が代入されている。すなわち、先行チャネル復号信号分離部233で求められた、区間0のLチャネル復号信号に相当するS^L (0)(n−T)(0≦n<T)が後続チャネル復号信号生成部234において用いられる。
次いで先行チャネル復号信号分離部233、および後続チャネル復号信号生成部234は、繰り返し演算制御部235の制御に基づき上記の式(7)および式(8)に示す演算を区間2以降において再帰的に繰り返しながら、すべての区間におけるLチャネル復号信号S^L(n)およびRチャネル復号信号S^R(n)を得る。
具体的には、区間2におけるRチャネル信号S^R (2)(n)は、同様に、式(7)に示す演算を区間2で繰り返すことにより求められ、すなわち下記の式(9)に従い、S^L (1)(n−T)をスケール調整して求められる。
S^R (2)(n)=g^・S^L (1)(n−T) …(9)
この式では、T≦n<2・Tであり、区間1のLチャネル復号信号に相当するS^L (1)(n−T)
(T≦n<2・T)が区間2で再帰的に用いられる。
S^R (2)(n)=g^・S^L (1)(n−T) …(9)
この式では、T≦n<2・Tであり、区間1のLチャネル復号信号に相当するS^L (1)(n−T)
(T≦n<2・T)が区間2で再帰的に用いられる。
次いで、区間2におけるLチャネル復号信号S^L (2)(n)は、式(8)に示す演算を区間2で繰り返すことにより求められ、すなわち下記の式(10)に従って求められる。
S^L (2)(n)=2・S^M (2)(n)−S^R (2)(n)=2・S^M (2)(n)−g^・S^L (1)(n−T) …(10)
この式では、T≦n<2・Tであり、区間1のLチャネル復号信号に相当するS^L (1)(n−T)
(T≦n<2・T)が区間2で再帰的に用いられる。
S^L (2)(n)=2・S^M (2)(n)−S^R (2)(n)=2・S^M (2)(n)−g^・S^L (1)(n−T) …(10)
この式では、T≦n<2・Tであり、区間1のLチャネル復号信号に相当するS^L (1)(n−T)
(T≦n<2・T)が区間2で再帰的に用いられる。
区間j+1におけるLチャネル復号信号S^L (j+1)(n)およびRチャネル復号信号S^R (j+1)(n)は、区間2におけるLチャネル復号信号S^L (2)(n)およびRチャネル復号信号S^R (2)(n)の求め方と同様に、区間jの演算結果を再帰的に用いることにより求められる。具体的には、区間j+1におけるRチャネル復号信号S^R (j+1)(n)は、下記の式(11)に従い得られる。
S^R (j+1)(n)=g^・S^L (j)(n−T) …(11)
この式で、j・T≦n<(j+1)・T、j=0,…,J−1、j・T≦n<Nであり、Jは、J・T≦n<(J+1)・Tを満たす整数値である。
S^R (j+1)(n)=g^・S^L (j)(n−T) …(11)
この式で、j・T≦n<(j+1)・T、j=0,…,J−1、j・T≦n<Nであり、Jは、J・T≦n<(J+1)・Tを満たす整数値である。
次いで、区間j+1におけるLチャネル復号信号S^L (j+1)(n)は、下記の式(12)に従い求められる。
S^L (j+1)(n)=2・S^M (j+1)(n)−S^R (j+1)(n)=2・S^M (j+1)(n)−g^・S^L (j)(n−T) …(12)
ただし、j・T≦n<(j+1)・T j=0,…,J−1
j・T≦n<N j=J
j=0,…,J J・T≦N<(J+1)・Tを満たす整数値
S^L (j+1)(n)=2・S^M (j+1)(n)−S^R (j+1)(n)=2・S^M (j+1)(n)−g^・S^L (j)(n−T) …(12)
ただし、j・T≦n<(j+1)・T j=0,…,J−1
j・T≦n<N j=J
j=0,…,J J・T≦N<(J+1)・Tを満たす整数値
なお、上記の式(12)において、j=j−1にすると、下記の式(13)が得られる。
S^L (j)(n)=2・S^M (j)(n)−g^・S^L (j-1)(n−T) …(13)
S^L (j)(n)=2・S^M (j)(n)−g^・S^L (j-1)(n−T) …(13)
また、n=n−Tにする場合の式(13)の結果を、式(12)の右辺第2項に代入すると、下記の式(14)が得られる。
S^L (j+1)(n)=2・S^M (j+1)(n)−g^・{2・S^M (j)(n−T)−g^・S^L (j-1)(n−2・T)} …(14)
S^L (j+1)(n)=2・S^M (j+1)(n)−g^・{2・S^M (j)(n−T)−g^・S^L (j-1)(n−2・T)} …(14)
式(13)において、j=j−1とすると、下記の式(15)が得られる。
S^L (j-1)(n)=2・S^M (j-1)(n)−g^・S^L (j-2)(n−T) …(15)
S^L (j-1)(n)=2・S^M (j-1)(n)−g^・S^L (j-2)(n−T) …(15)
さらに、n=n−2・Tにする場合の式(15)の結果を、式(14)の右辺第3項に代入すると、下記の式(16)が得られる。
S^L (j+1)(n)=2・S^M (j+1)(n)−2・g^・S^M (j)(n−T)−g^・(−g^){2・S^M (j-1)(n−2・T)−g^・S^L (j-2)(n−3・T)} …(16)
S^L (j+1)(n)=2・S^M (j+1)(n)−2・g^・S^M (j)(n−T)−g^・(−g^){2・S^M (j-1)(n−2・T)−g^・S^L (j-2)(n−3・T)} …(16)
すなわち、先行チャネル復号信号分離部233は、上記の式(17)に従いモノラル復号信号S^M(n)のみを用いて、Lチャネル復号信号S^L (j+1)(n)を求めても良い。かかる場合、Rチャネル復号信号S^R (j+1)(n)は、Lチャネル復号信号S^L (j+1)(n)をスケール調整して求めれば良い。
このように、本実施の形態によれば、ステレオ音声符号化装置は、モノラル信号と、すべての区間におけるLチャネル信号、Rチャネル信号の予測情報を符号化するのに代えて、モノラル信号、立ち上がり位置、遅延時間差、および振幅比を符号化してステレオ音声復号装置に伝送する。ステレオ音声復号装置は、ステレオ音声符号化装置から伝送される符号化情報を用いて繰り返しの演算を行いステレオ音声信号を復号する。すべての区間におけるLチャネル信号、Rチャネル信号の予測情報に比べ、立ち上がり位置、遅延時間差、および振幅比の情報量はより少ないため、本実施の形態によれば予測係数を減少し、より低いビットレートでステレオ音声信号の伝送を行うことができる。
なお、本実施の形態では、ステレオ音声信号がLチャネル信号とRチャネル信号と2チャネルからなり、Rチャネル信号よりもLチャネル信号が音源から近い場合を例にとって説明したが、Lチャネル信号よりもRチャネル信号が音源から近い場合でも本実施の形態を適応することができ、かかる場合、音声立ち上がり位置から最初の遅延時間差Tまでの区間0においては、Lチャネル信号は存在せず、Rチャネル信号のみ存在する。さらに、ステレオ音声信号が3つ以上のチャネル信号からなる場合でも、本実施の形態を適宜変更して適用することができる。
また、本実施の形態では、ステレオ復号装置で、区間0のLチャネル信号をスケール調整して区間1のRチャネル信号として復号を行う場合を例にとって説明したが、モデル的な波形を予め記憶しておいて区間1のRチャネル信号(またはLチャネル信号)として用いても良い。
また、本実施の形態では、モノラル信号の符号化方式としてCELP符号化方式を用いる場合を例にとって説明したが、CELP符号化方式と異なる他の符号化方式を用いても良い。
また、本実施の形態では、モノラル信号の生成方法としてLチャネル信号とRチャネル信号との平均値を求める方法を例にとって説明したが、モノラル信号の生成方法として他の方法を使っても良く、その一例を式で表すとSM(n)=w1SL(n)+w2SR(n)である。この式においてw1、w2は、w1+w2=1.0の関係を満たす重み付け係数である。
また、本実施の形態では、ステレオ音声信号を符号化して伝送する場合を例にとって説明したが、無音区間と有音区間からなるステレオオーディオ信号を符号化して伝送しても良い。
(実施の形態2)
図8は、本発明の実施の形態2に係るステレオ音声符号化装置300の主要な構成を示すブロック図である。なお、ステレオ音声符号化装置300は、実施の形態1に示したステレオ音声符号化装置100(図1参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ステレオ音声符号化装置300は、第1レイヤデコーダ240a、第2レイヤデコーダ450a、誤差信号算出部301、および誤差信号符号化部302をさらに具備する点で、実施の形態1に示したステレオ音声符号化装置100と相違する。ステレオ音声符号化装置300において、第1レイヤデコーダ240a、第2レイヤデコーダ450a、誤差信号算出部301、誤差信号符号化部302、および第2レイヤエンコーダ150は、第2レイヤエンコーダ350を構成する。
図8は、本発明の実施の形態2に係るステレオ音声符号化装置300の主要な構成を示すブロック図である。なお、ステレオ音声符号化装置300は、実施の形態1に示したステレオ音声符号化装置100(図1参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ステレオ音声符号化装置300は、第1レイヤデコーダ240a、第2レイヤデコーダ450a、誤差信号算出部301、および誤差信号符号化部302をさらに具備する点で、実施の形態1に示したステレオ音声符号化装置100と相違する。ステレオ音声符号化装置300において、第1レイヤデコーダ240a、第2レイヤデコーダ450a、誤差信号算出部301、誤差信号符号化部302、および第2レイヤエンコーダ150は、第2レイヤエンコーダ350を構成する。
ステレオ音声符号化装置300において、ローカルデコーダとしての第1レイヤデコーダ240aは、実施の形態1に係るステレオ音声復号装置200が備える第1レイヤデコーダ240と同様な構成および機能を有する。すなわち、第1レイヤデコーダ240aは、モノラル信号符号化部102で生成されたモノラル信号符号化パラメータPMを入力とし、モノラル信号を復号して、得られるモノラル復号信号S^M(n)を第2レイヤデコーダ450aに出力する。
ステレオ音声符号化装置300の別のローカルデコーダとして第2レイヤデコーダ450aは、第1レイヤデコーダ240aで生成されるモノラル復号信号S^M(n)、立ち上がり位置符号化部104で生成される立ち上がり位置符号化パラメータPB、遅延時間差符号化部106で生成される遅延時間差符号化パラメータPT、振幅比符号化部108で生成される振幅比符号化パラメータPg、誤差信号符号化部302で生成されるLチャネル誤差信号符号化パラメータPΔLおよびRチャネル誤差信号符号化パラメータPΔRを用いてステレオ音声信号の復号を行う。第2レイヤデコーダ450aは、生成されたLチャネル復号信号S^L(n)およびRチャネル復号信号S^R(n)を誤差信号算出部301に出力する。第2レイヤデコーダ450aの詳細な構成については後述する。
誤差信号算出部301は、ステレオ音声符号化装置300の入力信号であるLチャネル信号SL(n)、Rチャネル信号SR(n)、および第2レイヤデコーダで生成されるLチャネル復号信号S^L(n)、Rチャネル復号信号S^R(n)を用いて、下記の式(18)および式(19)に従い、Lチャネル誤差信号ΔSL(n)およびRチャネル誤差信号ΔSR(n)を算出する。
ΔSL(n)=SL(n)−S^L(n) …(18)
ΔSR(n)=SR(n)−S^R(n) …(19)
誤差信号算出部301は、算出されたLチャネル誤差信号ΔSL(n)およびRチャネル誤差信号ΔSR(n)を誤差信号符号化部302に出力する。
ΔSL(n)=SL(n)−S^L(n) …(18)
ΔSR(n)=SR(n)−S^R(n) …(19)
誤差信号算出部301は、算出されたLチャネル誤差信号ΔSL(n)およびRチャネル誤差信号ΔSR(n)を誤差信号符号化部302に出力する。
誤差信号符号化部302は、誤差信号算出部301で算出されたLチャネル誤差信号ΔSL(n)およびRチャネル誤差信号ΔSR(n)を符号化し、Lチャネル誤差信号符号化パラメータPΔLおよびRチャネル誤差信号符号化パラメータPΔRをステレオ音声復号装置400に伝送する。
図9は、本実施の形態に係る第2レイヤデコーダ450aの詳細な構成を示すブロック図である。なお、第2レイヤデコーダ450aは、実施の形態1に示した第2レイヤデコーダ250(図4参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。第2レイヤデコーダ450aは、誤差信号復号部401、および復号信号補正部402をさらに具備する点で、実施の形態1に示した第2レイヤデコーダ250と相違する。
誤差信号復号部401は、誤差信号符号化部302から入力されるLチャネル誤差信号符号化パラメータPΔLおよびRチャネル誤差信号符号化パラメータPΔRを復号して、生成されるLチャネル誤差復号信号ΔS^L(n)およびRチャネル誤差復号信号ΔS^R(n)を復号信号補正部402に出力する。
復号信号補正部402は、誤差信号復号部401で生成されるLチャネル誤差復号信号ΔS^L(n)、Rチャネル誤差復号信号ΔS^R(n)、およびステレオ信号復号部203で生成されるLチャネル復号信号S^L(n)、Rチャネル復号信号S^R(n)を用いて、下記の式(20)および式(21)に従い、誤差補正されたLチャネル復号信号S"L(n)およびRチャネル復号信号S"R(n)を生成し、ステレオ信号復号部203に出力する。
S"L(n)=S^L(n)+ΔS^L(n) …(20)
S"R(n)=S^R(n)+ΔS^R(n) …(21)
誤差補正されたLチャネル復号信号S"L(n)およびRチャネル復号信号S"R(n)は、ステレオ信号復号部203の次の区間におけるステレオ音声信号の復号に用いられ、実施の形態1に比べ誤差のより少ないLチャネル復号信号S^L(n)およびRチャネル復号信号S^R(n)が得られる。
S"L(n)=S^L(n)+ΔS^L(n) …(20)
S"R(n)=S^R(n)+ΔS^R(n) …(21)
誤差補正されたLチャネル復号信号S"L(n)およびRチャネル復号信号S"R(n)は、ステレオ信号復号部203の次の区間におけるステレオ音声信号の復号に用いられ、実施の形態1に比べ誤差のより少ないLチャネル復号信号S^L(n)およびRチャネル復号信号S^R(n)が得られる。
上記のように、ステレオ音声符号化装置300で生成されステレオ音声復号装置400に伝送される符号化パラメータは、モノラル信号符号化パラメータPM、立ち上がり位置符号化パラメータPB、遅延時間差符号化パラメータPT、振幅比符号化パラメータPg、Lチャネル誤差信号符号化パラメータPΔL、およびRチャネル誤差信号符号化パラメータPΔRである。
図10は、本実施の形態に係るステレオ音声復号装置400の主要な構成を示すブロック図である。
図10において、ステレオ音声復号装置400は、第1レイヤデコーダ240および第2レイヤデコーダ450を備える。ステレオ音声復号装置400の第1レイヤデコーダ240は、図4に示した第1レイヤデコーダ240と同一の構成および機能を有するため、ここでは説明を省略する。ステレオ音声復号装置400の第2レイヤデコーダ450は、図9に示す第2レイヤデコーダ450aと同様の構成および機能を有する。すなわち第2レイヤデコーダ450は、ステレオ音声符号化装置300から伝送される立ち上がり位置符号化パラメータPB、遅延時間差符号化パラメータPT、振幅比符号化パラメータPg、Lチ
ャネル誤差信号符号化パラメータPΔLおよびRチャネル誤差信号符号化パラメータPΔRを入力とし、ステレオ信号の復号を行い、Lチャネル復号信号S^L(n)およびRチャネル復号信号S^R(n)を出力する。
ャネル誤差信号符号化パラメータPΔLおよびRチャネル誤差信号符号化パラメータPΔRを入力とし、ステレオ信号の復号を行い、Lチャネル復号信号S^L(n)およびRチャネル復号信号S^R(n)を出力する。
このように、本実施の形態によれば、ステレオ音声符号化装置は、実施の形態1に比べてLチャネル誤差信号符号化パラメータPΔLおよびRチャネル誤差信号符号化パラメータPΔRをさらに伝送し、ステレオ音声符号化装置は、より誤差の少ないLチャネル復号信号S^L(n)およびRチャネル復号信号S^R(n)を生成して出力することができる。
なお、本実施の形態では、ステレオ符号化装置で立ち上がり位置符号化情報を求めてステレオ復号装置に伝送する場合を例にとって説明したが、ステレオ符号化装置が立ち上がり位置検出部および立ち上がり位置符号化部を備えず、またステレオ復号装置が立ち上がり位置復号部を備えず、ステレオ復号装置側の誤差信号補正部およびステレオ信号復号部の処理により立ち上がり位置を検出して復号を行っても良い。
また、本実施の形態では、Lチャネル信号およびRチャネル信号両方の誤差信号を符号化する場合を例にとって説明したが、先行チャネル信号、本実施の形態ではLチャネル信号の誤差信号のみを符号化してもよい。ただし、先行チャネル信号の誤差信号のみを符号化する場合よりも、Lチャネル信号およびRチャネル信号両方の誤差信号を符号化する場合、ステレオ音声復号装置で復号されるステレオ音声信号の品質をさらに向上することができる。
また、本実施の形態では、ステレオ音声復号装置から出力されるLチャネル復号信号およびRチャネル復号信号がステレオ信号復号部にフィードバックされない場合を例にとって説明したが、ステレオ音声復号装置から出力されるLチャネル復号信号およびRチャネル復号信号が遅延時間差単位でステレオ信号復号部にフィードバックされ用いられるようにしてもよく、かかる場合ステレオ音声復号装置は、さらに誤差の少ないLチャネル復号信号およびRチャネル復号信号を得て出力することができる。
(実施の形態3)
図11は、本発明の実施の形態3に係るステレオ音声符号化装置500の主要な構成を示すブロック図である。ステレオ音声符号化装置500は、実施の形態1に示したステレオ音声符号化装置100(図1参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ステレオ音声符号化装置500は、遅延時間差補正値算出部501、遅延時間差補正値符号化部502、振幅比補正値算出部503、および振幅比補正値符号化部504をさらに具備する点で、実施の形態1に示したステレオ音声符号化装置100と相違する。
図11は、本発明の実施の形態3に係るステレオ音声符号化装置500の主要な構成を示すブロック図である。ステレオ音声符号化装置500は、実施の形態1に示したステレオ音声符号化装置100(図1参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ステレオ音声符号化装置500は、遅延時間差補正値算出部501、遅延時間差補正値符号化部502、振幅比補正値算出部503、および振幅比補正値符号化部504をさらに具備する点で、実施の形態1に示したステレオ音声符号化装置100と相違する。
遅延時間差補正値算出部501は、Lチャネル信号SL(n)とRチャネル信号SR(n)とを、遅延時間差算出部105から入力される遅延時間差Tに対応する長さでK個の区間に分割し、各区間におけるLチャネル信号SL(kT+n)とRチャネル信号SR(kT+n)との遅延時間差Tkが遅延時間差Tに対する変動量ΔTk、すなわちk区間における遅延時間差補正値ΔTkを算出する(ここでkは、区間番号を示し、k=0,1,2,…Kである)。具体的に、遅延時間差補正値算出部501は、まず、下記の式(22)を用いて、k区間におけるLチャネル信号SL(kT+n)およびRチャネル信号SR(kT+n)の相互相関関数を算出する。
この式において、Tは各区間に含まれるサンプル数を示し、τkはLチャネル信号SL(n)に対するRチャネル信号SR(n)のシフトサンプル数を示す。φk(τk)は、k区間におけるLチャネル信号SL(kT+n)およびRチャネル信号SR(kT+n)の相互相関値を示し、遅延時間差算出部105は、φk(τk)の値が最大となるτkの値を、k区間におけるLチャネル信号SL(kT+n)とRチャネル信号SR(kT+n)との遅延時間差Tkとして算出する。このように、遅延時間差Tは、1フレーム全般におけるLチャネル信号およびRチャネル信号の遅延時間差を示すのに対して、遅延時間差Tkは、1フレーム内の各区間におけるLチャネル信号およびRチャネル信号の遅延時間差を示す。次いで、遅延時間差補正値算出部501は、下記の式(23)を用いて、遅延時間差Tに対するk区間における遅延時間差Tkの変動量をk区間における遅延時間差補正値ΔTkとして算出する。
ΔTk=Tk−T …(23)
ΔTk=Tk−T …(23)
遅延時間差補正値算出部501は、算出された遅延時間差補正値ΔTkを遅延時間差補正値符号化部502に出力し、k区間における遅延時間差Tkを振幅比補正値算出部503に出力する。
遅延時間差補正値符号化部502は、遅延時間差補正値算出部501から入力される遅延時間差補正値ΔTkを符号化し、生成される遅延時間差補正値符号化パラメータPΔTkを本実施の形態に係るステレオ音声復号装置(図示せず)に伝送する。
振幅比補正値算出部503は、Lチャネル信号SL(n)とRチャネル信号SR(n)とを、遅延時間差算出部105から入力される遅延時間差Tを長さとするK個の区間に分割し、遅延時間差補正値算出部501から入力される遅延時間差Tkおよび振幅比算出部107から入力される振幅比gを用いて、各区間におけるLチャネル信号SL(kT+n−ΔTk)とRチャネル信号SR(kT+n)との振幅比gkが振幅比gに対する変動量Δgk、すなわちk区間における振幅比補正値Δgkを算出する。具体的に、振幅比補正値算出部503は、まず、下記の式(24)に従い、遅延時間差Tkを考慮した、k区間におけるRチャネル信号SR(kT+n)とLチャネル信号SL(kT+n)との振幅比gkを算出する。
このように、振幅比gは、1フレーム全般におけるLチャネル信号およびRチャネル信号の振幅比を示すのに対して、振幅比gkは、1フレーム内の各区間におけるLチャネル信号およびRチャネル信号の振幅比を示す。次いで、振幅比補正値算出部503は、下記の式(25)を用いて、振幅比gに対するk区間における振幅比gkの変動量をk区間における振幅比補正値Δgkとして算出する。
Δgk=gk/g …(25)
すなわち、振幅比補正値算出部503は、k区間におけるRチャネル信号SR(kT+n)とLチャネル信号SL(kT+n)との振幅比gkと、振幅比算出部107から入力される振幅比gとの比を、振幅比補正値Δgkとして算出する。振幅比補正値算出部503は、算出された振幅比補正値Δgkを振幅比補正値符号化部504に出力する。
Δgk=gk/g …(25)
すなわち、振幅比補正値算出部503は、k区間におけるRチャネル信号SR(kT+n)とLチャネル信号SL(kT+n)との振幅比gkと、振幅比算出部107から入力される振幅比gとの比を、振幅比補正値Δgkとして算出する。振幅比補正値算出部503は、算出された振幅比補正値Δgkを振幅比補正値符号化部504に出力する。
振幅比補正値符号化部504は、振幅比補正値算出部503から入力される振幅比補正値Δgkを符号化し、生成される振幅比補正値符号化パラメータPΔgkを本実施の形態に係るステレオ音声復号装置に伝送する。
本実施の形態に係るステレオ音声復号装置は、本発明の実施の形態1に係るステレオ音声復号装置200の基本的な構成及び機能を有し、遅延時間差補正値ΔTkおよび振幅比補正値Δgkをさらに用いてステレオ音声を復号する点でステレオ音声復号装置200と相違する。例えば、遅延時間差復号部232において、遅延時間差補正値符号化パラメータPΔTkを復号し、得られる遅延時間差補正値ΔTkを用いて遅延時間差Tを補正する。また、振幅比復号部231において、振幅比補正値符号化パラメータPΔgkを復号し、得られる振幅比補正値Δgkを用いて振幅比gを補正する。ここでは、本実施の形態にかかるステレオ音声復号装置は図示せず、さらなる詳細な説明を省略する。
このように、本実施の形態によれば、ステレオ音声符号化装置は、遅延時間差Tに対応する長さで1フレームのステレオ音声信号を複数の区間に分割し、各区間における遅延時間差Tkおよび振幅比gkが、1フレーム全般における遅延時間差Tおよび振幅比gに対する変動量を遅延時間差補正値ΔTkおよび振幅比補正値Δgkとして伝送するため、ステレオ音声符号化の予測誤差をさらに低減することができる。ここで、遅延時間差補正値ΔTkおよび振幅比補正値Δgkは、k区間における遅延時間差Tkおよび振幅比gkに比べ、値が小さいため、より低いビットレートでステレオ音声信号を符号化することができる。
なお、本実施の形態では、遅延時間差補正値算出部501が式(22)に示すように、長さが遅延時間差Tであるk区間を演算範囲として相互相関値を算出する場合を例にとって説明したが、これに限定されず、k区間を含む(T−Δa)〜(T−Δb)範囲の区間を演算範囲として相互相関値を算出しても良い。
また、本実施の形態では、遅延時間差補正値符号化部502は、各区間における遅延時間差補正値ΔTkを個別に符号化し、K個の遅延時間差補正値符号化パラメータPΔTkを生成する場合を例にとって説明したが、K個の遅延時間差補正値ΔTkを纏めて符号化し、1つの遅延時間差補正値符号化パラメータ(例えば、PΔTと記す)を生成しても良い。
また、本実施の形態では、振幅比補正値符号化部504は、各区間における振幅比補正値Δgkを個別に符号化し、K個の振幅比補正値符号化パラメータPΔgkを生成する場合を例にとって説明したが、K個の振幅比補正値Δgkを纏めて符号化し、1つの振幅比補正値符号化パラメータ(例えば、PΔgと記す)を生成しても良い。
(実施の形態4)
図12は、本実施の形態に係るステレオ音声符号化装置700の主要な構成を示すブロック図である。ステレオ音声符号化装置700は、本発明の実施の形態3に示したステレオ音声符号化装置500(図11参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ステレオ音声符号化装置700の遅延時間差補正値符号化部702、振幅比補正値符号化部704と、ステレオ音声符号化装置500の遅延時間差補正値符号化部502、振幅比補正値符号化部504とは処理の一部に相違点があり、それを示すために異なる符号を付す。
図12は、本実施の形態に係るステレオ音声符号化装置700の主要な構成を示すブロック図である。ステレオ音声符号化装置700は、本発明の実施の形態3に示したステレオ音声符号化装置500(図11参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ステレオ音声符号化装置700の遅延時間差補正値符号化部702、振幅比補正値符号化部704と、ステレオ音声符号化装置500の遅延時間差補正値符号化部502、振幅比補正値符号化部504とは処理の一部に相違点があり、それを示すために異なる符号を付す。
遅延時間差補正値符号化部702は、第1符号化ビットテーブルをさらに内蔵し、内蔵の第1符号化ビットテーブルを用いて、遅延時間差補正値算出部501から入力される遅延時間差補正値を符号化する点で遅延時間差補正値符号化部502と相違する。第1符号化ビットテーブルは、遅延時間差補正値算出部501から入力される各区間における遅延時間差補正値ΔTk(1≦k≦K)を符号化するための、各区間毎の符号化ビット数を備える。1フレーム内のすべての遅延時間差補正値ΔTkを符号化するためのビット総数をMと示し、各区間kにおける遅延時間差補正値ΔTkを符号化するためのビット数をTB(k)と示す場合、下記の式(26)および式(27)が満たされる。
TB(k)≧TB(k-1) …(26)
ここで、例えば、各区間kにおける遅延時間差補正値ΔTkに対して量子化を行う場合、TB(k)は、スカラ量子化ビット数を示す。式(26)および式(27)に示すように、遅延時間差補正値符号化部702は、フレームの先頭に近い区間よりもフレームの後尾に近い区間、すなわち、区間番号kがより大きい区間における遅延時間差補正値ΔTkの符号化に、より多くの符号化ビットを配分する。
TB(k)≧TB(k-1) …(26)
振幅比補正値符号化部704は、第2符号化ビットテーブルをさらに内蔵し、内蔵の第2符号化ビットテーブルを用いて、振幅比補正値算出部503から入力される振幅比補正値を符号化する点で振幅比補正値符号化部504と相違する。第2符号化ビットテーブルは、振幅比補正値算出部503から入力される各区間における振幅比補正値Δgk(1≦k≦K)を符号化するための、各区間毎の符号化ビット数を備える。1フレーム内のすべての振幅比補正値ΔTkを符号化するためのビット総数をNと示し、各区間kにおける振幅比補正値Δgkを符号化するためのビット数をAB(k)と示す場合、下記の式(28)および式(29)が満たされる。
AB(k)≧AB(k-1) …(28)
ここで、例えば、各区間における振幅比補正値Δgkに対して量子化を行う場合、AB(k)は、スカラ量子化ビット数を示す。式(28)および式(29)に示すように、振幅比補正値符号化部704は、フレームの先頭に近い区間よりもフレームの後尾に近い区間、すなわち、区間番号kがより大きい区間における振幅比補正値Δgkの符号化に、より多くの符号化ビットを配分する。
AB(k)≧AB(k-1) …(28)
本実施の形態に係るステレオ音声復号装置800(図示せず)は、式(17)に従いステレオ音声復号信号を求めて、さらに、遅延時間差補正値ΔTkおよび振幅比補正値Δgkを用いてステレオ音声復号信号の誤差を補正する。式(17)に示すように、ステレオ音声復号装置800は、1フレーム内の各区間のステレオ音声復号信号を求めるために、遅延時間差T、および振幅比gを再帰的に用いるため、区間番号kが増加するとともに、求められるステレオ音声復号信号の誤差も増加する。その理由は、区間番号kが増加するとともに、遅延時間差補正値ΔTkおよび振幅比補正値Δgkが増加するためである。従って、区間番号kが増加するとともに、遅延時間補正値ΔTkおよび振幅比補正値Δgkの符号化ビット数を増加させれば、予測誤差を低減し、ステレオ音声復号信号の音質を向上することができる。
このように、本実施の形態によれば、ステレオ音声符号化装置は、フレームの先頭に近い区間よりもフレームの後尾に近い区間の振幅比補正値および振幅比補正値の符号化に、より多くの符号化ビットを配分するため、予測誤差を低減し、ステレオ音声復号信号の音質を向上することができる。
なお、本実施の形態においては、1フレーム内の各区間毎にフレームの後尾に近いほど、符号化ビット数を増加する場合を例にとって説明したが、これに限定されず、1フレー
ム内のすべてのK個の区間を複数のブロックに分割し、各ブロック毎にフレームの後尾に近いほど符号化ビット数を増加しても良い。すなわち、同一のブロック内の各区間の遅延時間差補正値または振幅比補正値の符号化には同一の符号化ビット数を用いる。
ム内のすべてのK個の区間を複数のブロックに分割し、各ブロック毎にフレームの後尾に近いほど符号化ビット数を増加しても良い。すなわち、同一のブロック内の各区間の遅延時間差補正値または振幅比補正値の符号化には同一の符号化ビット数を用いる。
また、本実施の形態に係る符号化ビット配分の方法を本発明の実施の形態2に適用しても、予測誤差を低減する効果が得られる。例えば、ステレオ音声符号化装置300において、誤差信号符号化部302が誤差信号算出部301から入力されるLチャネル誤差信号およびRチャネル誤差信号を量子化する場合、フレームの先頭よりもフレームの後尾に近いほど、より多くのビット数を用いて量子化を行えば良い。
以上、本発明の各実施の形態について説明した。
本発明に係るステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法は、上記各実施の形態に限定されず、種々変更して実施することが可能である。
本発明に係るステレオ音声符号化装置およびステレオ音声復号装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置および基地局装置を提供することができる。また、本発明に係るステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法は、有線方式の通信システムにおいても利用可能である。
なお、本明細書では、本発明をモノラル−ステレオのスケーラブル符号化に適用する構成を例にとって説明したが、ステレオ信号に対して帯域分割符号化を行う場合の帯域別の各符号化/復号に本発明を適用するような構成としても良い。
また、本発明に係るステレオ信号符号化部と通常のステレオ信号符号化部の双方を有し、Lチャネル信号とRチャネル信号との相関度合いに基づいて、モード切替部が、実際に使用するステレオ信号符号化部を切り替えるような構成としても良い。かかる場合、Lチャネル信号とRチャネル信号との相関度合いが閾値以下の場合、通常のステレオ信号符号化部を用いて、Lチャネル信号およびRチャネル信号をそれぞれ別個に符号化し、Lチャネル信号とRチャネル信号との相関度合いが閾値より高い場合は、本発明に係るステレオ信号符号化部を用いて、Lチャネル信号およびRチャネル信号の符号化を行う。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るステレオ音声符号化方法の処理のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明のステレオ音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されていても良いし、一部または全てを含むように1チップ化されていても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2006年3月31日出願の特願2006−99913の日本出願および2006年10月3日出願の特願2006−272132の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係るステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法は、移動体通信システムにおける通信端末装置等の用途に適用できる。
Claims (17)
- 2つのチャネルからなるステレオ音声信号の時間的に先行する先行チャネル信号と、時間的に遅れる後続チャネル信号とが合成された、モノラル信号が符号化された符号化情報を復号するモノラル信号復号手段と、
前記ステレオ音声信号の無音区間から有音区間に変わる立ち上がり位置が符号化された符号化情報を復号する立ち上がり位置復号手段と、
前記先行チャネル信号と後続チャネル信号との遅延時間差が符号化された符号化情報を復号する遅延時間差復号手段と、
前記後続チャネル信号と前記先行チャネル信号との振幅比が符号化された符号化情報を復号する振幅比復号手段と、
前記モノラル信号と、前記遅延時間差と、前記立ち上がり位置とを用いて、前記先行チャネル信号を復号する先行チャネル信号復号手段と、
前記先行チャネル信号と、前記振幅比とを用いて、前記後続チャネル信号を復号する後続チャネル信号復号手段と、
を具備するステレオ音声復号装置。 - 前記先行チャネル信号のみが存在する、前記立ち上がり位置から前記遅延時間差分の第1区間における前記モノラル信号を、前記第1区間の前記先行チャネル信号とする、
請求項1記載のステレオ音声復号装置。 - 前記後続チャネル信号復号手段は、
前記第1区間の前記先行チャネル信号に前記振幅比を乗じて得られる信号を、前記第1区間後に前記遅延時間差分だけ続く第2区間の前記後続チャネル信号とする、
請求項2記載のステレオ音声復号装置。 - 前記先行チャネル信号復号手段は、
前記第2区間の前記モノラル信号から、前記第2区間の前記後続チャネル信号の寄与分を減じて得られる信号を、前記第2区間の前記先行チャネル信号とする、
請求項3記載のステレオ音声復号装置。 - 前記モノラル信号は、前記先行チャネル信号と、前記後続チャネル信号との平均値である、
請求項1記載のステレオ音声復号装置。 - 前記遅延時間差は、前記先行チャネル信号と、前記後続チャネル信号との相互相関関数の値を最大にする、
請求項1記載のステレオ音声復号装置。 - 前記振幅比は、所定の区間における前記先行チャネル信号の平均振幅と、前記先行チャネル信号の平均振幅との比である、
請求項1記載のステレオ音声復号装置。 - 前記先行チャネル信号復号手段および前記後続チャネル信号復号手段の誤差信号が符号化された符号化情報を復号する誤差信号復号手段と、
前記誤差信号を用いて、前記先行チャネル信号および前記後続チャネル信号を誤差補正する誤差補正手段と、
をさらに具備する請求項1記載のステレオ音声復号装置。 - 前記誤差信号が符号化された符号化情報は、フレームの後尾に近いほどより多くのビット数を用いられたものである、
請求項8記載のステレオ音声復号装置。 - 2つのチャネルからなるステレオ音声信号の時間的に先行する先行チャネル信号と、時間的に遅れる後続チャネル信号とを合成してモノラル信号を生成するモノラル信号生成手段と、
前記モノラル信号を符号化するモノラル信号符号化手段と、
前記ステレオ音声信号の無音区間から有音区間に変わる立ち上がり位置を符号化する立ち上がり位置符号化手段と、
前記先行チャネル信号と後続チャネル信号との遅延時間差を符号化する遅延時間差符号化手段と、
前記後続チャネル信号と前記先行チャネル信号との振幅比を符号化する振幅比符号化手段と、
を具備するステレオ音声符号化装置。 - 前記遅延時間差は、1フレーム全般における先行チャネル信号と後続チャネル信号との遅延時間差であって、
前記1フレームの先行チャネル信号と後続チャネル信号とを、前記1フレーム全般における遅延時間差を長さとする複数の区間に分割し、分割された前記先行チャネル信号と前記後続チャネル信号との前記各区間における遅延時間差を算出し、前記1フレーム全般における遅延時間差に対する前記各区間における遅延時間差の変動量を、前記各区間における遅延時間差補正値として算出する算出手段と、
前記各区間における遅延時間差補正値を符号化する遅延時間差補正値符号化手段と、
をさらに具備する請求項10記載のステレオ音声符号化装置。 - 前記算出手段は、
前記1フレーム全般における遅延時間差と、前記各区間における遅延時間差との差を、前記各区間における遅延時間差補正値として算出する
をさらに具備する請求項11記載のステレオ音声符号化装置。 - 前記遅延時間差補正値符号化手段は、
フレームの後尾に近いほど、前記各区間における前記遅延時間差補正値の符号化により多くの符号化ビットを用いる、
請求項11記載のステレオ音声符号化装置。 - 前記振幅比は、1フレーム全般における先行チャネル信号と後続チャネル信号との振幅比であって、
前記1フレームの先行チャネル信号と後続チャネル信号とを、前記1フレームにおける遅延時間差を長さとする複数の区間に分割し、前記先行チャネル信号と前記後続チャネル信号との前記各区間における振幅比を算出し、前記1フレーム全般における振幅比に対する前記各区間における振幅比の変動量を、前記各区間における振幅比補正値として算出する算出手段と、
前記各区間における振幅比補正値を符号化する振幅比補正値符号化手段と、
をさらに具備する請求項10記載のステレオ音声符号化装置。 - 前記振幅比符号化手段は、
前記1フレーム全般における振幅比と前記各区間における振幅比との比を、前記各区間における振幅比補正値として算出する
をさらに具備する請求項14記載のステレオ音声符号化装置。 - 前記振幅比補正値符号化手段は、
前記各区間のうちフレームの先頭に近い区間よりも、フレームの後尾に近い区間における前記振幅比補正値の符号化により多くの符号化ビットを用いる、
請求項14記載のステレオ音声符号化装置。 - 2つのチャネルからなるステレオ音声信号の時間的に先行する先行チャネル信号と、時間的に遅れる後続チャネル信号とが合成された、モノラル信号が符号化された符号化情報を復号するステップと、
前記ステレオ音声信号の無音区間から有音区間に変わる立ち上がり位置が符号化された符号化情報を復号するステップと、
前記先行チャネル信号と後続チャネル信号との遅延時間差が符号化された符号化情報を復号するステップと、
前記後続チャネル信号と前記先行チャネル信号との振幅比が符号化された符号化情報を復号するステップと、
前記モノラル信号と、前記遅延時間差と、前記立ち上がり位置とを用いて、前記先行チャネル信号を復号するステップと、
前記先行チャネル信号と、前記振幅比とを用いて、前記後続チャネル信号を復号するステップと、
を具備するステレオ音声復号方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006099913 | 2006-03-31 | ||
JP2006099913 | 2006-03-31 | ||
JP2006272132 | 2006-10-03 | ||
JP2006272132 | 2006-10-03 | ||
PCT/JP2007/056955 WO2007116809A1 (ja) | 2006-03-31 | 2007-03-29 | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2007116809A1 true JPWO2007116809A1 (ja) | 2009-08-20 |
Family
ID=38581103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008509811A Pending JPWO2007116809A1 (ja) | 2006-03-31 | 2007-03-29 | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20090276210A1 (ja) |
JP (1) | JPWO2007116809A1 (ja) |
WO (1) | WO2007116809A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2008132826A1 (ja) * | 2007-04-20 | 2010-07-22 | パナソニック株式会社 | ステレオ音声符号化装置およびステレオ音声符号化方法 |
CN101842832B (zh) * | 2007-10-31 | 2012-11-07 | 松下电器产业株式会社 | 编码装置和解码装置 |
US8359196B2 (en) * | 2007-12-28 | 2013-01-22 | Panasonic Corporation | Stereo sound decoding apparatus, stereo sound encoding apparatus and lost-frame compensating method |
EP2254110B1 (en) * | 2008-03-19 | 2014-04-30 | Panasonic Corporation | Stereo signal encoding device, stereo signal decoding device and methods for them |
JPWO2009142017A1 (ja) * | 2008-05-22 | 2011-09-29 | パナソニック株式会社 | ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法 |
WO2010084756A1 (ja) * | 2009-01-22 | 2010-07-29 | パナソニック株式会社 | ステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法 |
CN101989429B (zh) * | 2009-07-31 | 2012-02-01 | 华为技术有限公司 | 转码方法、装置、设备以及系统 |
US9813262B2 (en) * | 2012-12-03 | 2017-11-07 | Google Technology Holdings LLC | Method and apparatus for selectively transmitting data using spatial diversity |
US9979531B2 (en) | 2013-01-03 | 2018-05-22 | Google Technology Holdings LLC | Method and apparatus for tuning a communication device for multi band operation |
US10229697B2 (en) | 2013-03-12 | 2019-03-12 | Google Technology Holdings LLC | Apparatus and method for beamforming to obtain voice and noise signals |
KR101808810B1 (ko) * | 2013-11-27 | 2017-12-14 | 한국전자통신연구원 | 음성/무음성 구간 검출 방법 및 장치 |
US10074373B2 (en) * | 2015-12-21 | 2018-09-11 | Qualcomm Incorporated | Channel adjustment for inter-frame temporal shift variations |
US10872611B2 (en) * | 2017-09-12 | 2020-12-22 | Qualcomm Incorporated | Selecting channel adjustment method for inter-frame temporal shift variations |
CN113948097A (zh) * | 2020-07-17 | 2022-01-18 | 华为技术有限公司 | 多声道音频信号编码方法和装置 |
JP7491395B2 (ja) | 2020-11-05 | 2024-05-28 | 日本電信電話株式会社 | 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 |
WO2022097237A1 (ja) | 2020-11-05 | 2022-05-12 | 日本電信電話株式会社 | 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 |
WO2022097236A1 (ja) * | 2020-11-05 | 2022-05-12 | 日本電信電話株式会社 | 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 |
JP7491394B2 (ja) | 2020-11-05 | 2024-05-28 | 日本電信電話株式会社 | 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 |
JP7537511B2 (ja) | 2020-11-05 | 2024-08-21 | 日本電信電話株式会社 | 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0559348A3 (en) * | 1992-03-02 | 1993-11-03 | AT&T Corp. | Rate control loop processor for perceptual encoder/decoder |
CA2090052C (en) * | 1992-03-02 | 1998-11-24 | Anibal Joao De Sousa Ferreira | Method and apparatus for the perceptual coding of audio signals |
US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
US6345246B1 (en) * | 1997-02-05 | 2002-02-05 | Nippon Telegraph And Telephone Corporation | Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates |
US5890125A (en) * | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
DE19742655C2 (de) * | 1997-09-26 | 1999-08-05 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
JP4817658B2 (ja) * | 2002-06-05 | 2011-11-16 | アーク・インターナショナル・ピーエルシー | 音響仮想現実エンジンおよび配信された音声改善のための新技術 |
CA2524243C (en) * | 2003-04-30 | 2013-02-19 | Matsushita Electric Industrial Co. Ltd. | Speech coding apparatus including enhancement layer performing long term prediction |
US7809579B2 (en) * | 2003-12-19 | 2010-10-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Fidelity-optimized variable frame length encoding |
WO2006003813A1 (ja) * | 2004-07-02 | 2006-01-12 | Matsushita Electric Industrial Co., Ltd. | オーディオ符号化及び復号化装置 |
JPWO2006025313A1 (ja) * | 2004-08-31 | 2008-05-08 | 松下電器産業株式会社 | 音声符号化装置、音声復号化装置、通信装置及び音声符号化方法 |
JP4781272B2 (ja) * | 2004-09-17 | 2011-09-28 | パナソニック株式会社 | 音声符号化装置、音声復号装置、通信装置及び音声符号化方法 |
US7797162B2 (en) * | 2004-12-28 | 2010-09-14 | Panasonic Corporation | Audio encoding device and audio encoding method |
EP1881487B1 (en) * | 2005-05-13 | 2009-11-25 | Panasonic Corporation | Audio encoding apparatus and spectrum modifying method |
-
2007
- 2007-03-29 US US12/295,073 patent/US20090276210A1/en not_active Abandoned
- 2007-03-29 WO PCT/JP2007/056955 patent/WO2007116809A1/ja active Application Filing
- 2007-03-29 JP JP2008509811A patent/JPWO2007116809A1/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20090276210A1 (en) | 2009-11-05 |
WO2007116809A1 (ja) | 2007-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPWO2007116809A1 (ja) | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 | |
JP5413839B2 (ja) | 符号化装置および復号装置 | |
US8311810B2 (en) | Reduced delay spatial coding and decoding apparatus and teleconferencing system | |
JP5285162B2 (ja) | ピーク検出に基づいた選択型スケーリングマスク演算 | |
JP5153791B2 (ja) | ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法 | |
WO2009081567A1 (ja) | ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法 | |
US8036390B2 (en) | Scalable encoding device and scalable encoding method | |
JP4733939B2 (ja) | 信号復号化装置及び信号復号化方法 | |
JPWO2008132850A1 (ja) | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 | |
US8271275B2 (en) | Scalable encoding device, and scalable encoding method | |
US20100121633A1 (en) | Stereo audio encoding device and stereo audio encoding method | |
JP2010213350A (ja) | 中継装置 | |
JP4555299B2 (ja) | スケーラブル符号化装置およびスケーラブル符号化方法 | |
US7904292B2 (en) | Scalable encoding device, scalable decoding device, and method thereof | |
JPWO2009122757A1 (ja) | ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法 | |
JP4842147B2 (ja) | スケーラブル符号化装置およびスケーラブル符号化方法 | |
JPWO2008090970A1 (ja) | ステレオ符号化装置、ステレオ復号装置、およびこれらの方法 | |
EP3252763A1 (en) | Low-delay audio coding | |
JP2006072269A (ja) | 音声符号化装置、通信端末装置、基地局装置および音声符号化方法 |