JP3528258B2

JP3528258B2 - 符号化音声信号の復号化方法及び装置

Info

Publication number: JP3528258B2
Application number: JP19845194A
Authority: JP
Inventors: 正之西口; 淳松本
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1994-08-23
Filing date: 1994-08-23
Publication date: 2004-05-17
Anticipated expiration: 2019-05-17
Also published as: DE69521176D1; US5832437A; EP0698876B1; JPH0863197A; DE69521176T2; EP0698876A2; EP0698876A3

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、いわゆるＭＢＥ（Mult
iband Excitation：マルチバンド励起）符号化方式のよ
うなサイン波合成を用いる符号化方式のデコーダ側での
演算量を低減し得るような符号化音声信号の復号化方法
及びその装置に関するものである。

【０００２】

【従来の技術】オーディオ信号（音声信号や音響信号を
含む）の時間領域や周波数領域における統計的性質と人
間の聴感上の特性を利用して信号圧縮を行うような符号
化方法が種々知られている。この符号化方法としては、
大別して時間領域での符号化、周波数領域での符号化、
分析合成符号化等が挙げられる。

【０００３】音声信号等の高能率符号化の例として、Ｍ
ＢＥ（Multiband Excitation: マルチバンド励起）符号
化、ＳＢＥ（Singleband Excitation:シングルバンド励
起）符号化、ハーモニック（Harmonic）符号化、ＳＢＣ
（Sub-band Coding:帯域分割符号化）、ＬＰＣ（Linear
Predictive Coding: 線形予測符号化）、あるいはＤＣ
Ｔ（離散コサイン変換）、ＭＤＣＴ（モデファイドＤＣ
Ｔ）、ＦＦＴ（高速フーリエ変換）等を用いた符号化が
挙げられる。

【０００４】これらの音声符号化方法の内、上記ＭＢＥ
符号化やハーモニック符号化のように復号側すなわちデ
コーダ側でサイン波合成を用いるものにおいては、エン
コーダ側で符号化されて送信されてきたデータ、例えば
ハーモニクスの振幅及び位相データに基づいて、振幅及
び位相の補間を行い、それらの補完されたパラメータに
従って、時々刻々周波数と振幅の変化してゆくハーモニ
クス１本分の時間波形を算出し、その時間波形をハーモ
ニクスの本数分だけ足し合わせて合成波形を得ていた。

【０００５】このため、符号化の単位となる１ブロック
当りの演算量として、数万回程度のオーダーの積和演算
が必要とされることになり、高速で高価な演算回路が必
要となる。これは、特に例えば携帯用電話機等に適用す
る際の障害ともなる。

【０００６】

【発明が解決しようとする課題】本発明は、このような
実情に鑑みてなされたものであり、サイン波合成により
復号化処理を行う際の演算量を減らすことができるよう
な符号化音声信号の復号化方法及びその装置の提供を目
的とする。

【０００７】

【課題を解決するための手段】本発明に係る符号化音声
信号の復号化方法は、音声信号が周波数軸情報に変換さ
れてピッチ間隔の各ハーモニクスの情報が符号化された
ものが供給され、上記各ハーモニクスの情報に基づいて
サイン波合成により復号化する符号化音声信号の復号化
方法において、上記ハーモニクスの大きさを表すデータ
配列に０データを付加して所定個数の要素を持つ第１の
配列とする工程と、上記ハーモニクスの位相を表すデー
タ配列に０データを付加して所定個数の要素を持つ第２
の配列とする工程と、上記第１、第２の配列を用いて時
間軸情報に逆変換する逆変換工程と、上記逆変換されて
得られた時間波形を繰り返し使用することで必要な長さ
を確保し、当該波形に基づいて音声信号の時間波形信号
を復元する復元工程とを有することにより、上述の課題
を解決する。

【０００８】ここで、隣接する２フレーム分の上記必要
な長さとされた時間波形に対して所定の窓かけを行って
重畳加算し、上記重畳加算された波形に対して２フレー
ム間で変化するピッチ周期に応じた補間を行って所定サ
ンプリングレートの時間波形信号を得ることが好まし
い。

【０００９】これは、隣接フレームの各ピッチの変化の
程度が小さい場合、具体的には、各フレームでのピッチ
周波数をω₁、ω₂とするときに、｜（ω₂−ω₁）／ω
₂ ｜≦０．１となる場合であり、このときスペクトルエ
ンベロープのなだらかな補間を行う。それ以外の場合、
すなわち｜（ω₂−ω₁）／ω₂ ｜＞０．１の場合には、
スペクトルエンベロープの急激な補間を行う。

【００１０】すなわち、隣接する２フレーム分の上記必
要な長さとされた時間波形に対してそれぞれのピッチ周
期に応じてリサンプルし、上記リサンプルされた時間波
形に所定の窓かけを行って重畳加算して時間波形信号を
得る。

【００１１】また、本発明に係る符号化音声信号の復号
化装置は、音声信号が周波数軸情報に変換されてピッチ
間隔の各ハーモニクスの情報が符号化されたものが供給
され、上記各ハーモニクスの情報に基づいてサイン波合
成により復号化する符号化音声信号の復号化装置におい
て、上記ハーモニクスの大きさを表すデータ配列に０デ
ータを付加して所定個数の要素を持つ第１の配列とする
手段と、上記ハーモニクスの位相を表すデータ配列に０
データを付加して所定個数の要素を持つ第２の配列とす
る手段と、上記第１、第２の配列を用いて時間軸情報に
逆変換する逆変換手段と、上記逆変換されて得られた時
間波形を繰り返し使用することで必要な長さを確保し、
当該波形に基づいて音声信号の時間波形信号を復元する
復元手段とを有することにより、上述の課題を解決す
る。

【００１２】

【作用】隣接するフレームの各ハーモニクスをそれぞれ
周波数軸上で一定間隔に配置し残りを０詰めした状態で
逆変換し、得られた各フレームの時間波形を補間しなが
ら合成することで、演算量を低減できる。

【００１３】

【実施例】以下、本発明に係る符号化音声信号の復号化
方法の実施例の説明に先立ち、通常のサイン波合成を用
いた復号化方法の一例について説明する。

【００１４】先ず、符号化装置あるいはエンコーダから
復号化装置あるいはデコーダに送信されてくるデータ
は、少なくとも、ハーモニクスの間隔を表すピッチ、及
びスペクトルエンベロープに対応する振幅である。

【００１５】この復号化側でサイン波合成を行うような
音声符号化方式としては、例えばマルチバンド励起（Mu
ltiband Excitation: ＭＢＥ）符号化やハーモニック符
号化等が知られており、ここでＭＢＥ符号化について簡
単に説明する。

【００１６】このＭＢＥ符号化においては、音声信号を
一定サンプル数（例えば２５６サンプル）毎にブロック
化して、ＦＦＴ等の直交変換により周波数軸上のスペク
トルデータに変換すると共に、該ブロック内の音声のピ
ッチを抽出し、このピッチに応じた間隔で周波数軸上の
スペクトルを帯域分割し、分割された各帯域についてＶ
（有声音）／ＵＶ（無声音）の判別を行っている。この
Ｖ／ＵＶ判別情報と、上記ピッチ情報及びスペクトルの
振幅データとを符号化して伝送する。

【００１７】ここでエンコーダ側でのサンプリング周波
数を８ｋHzとするとき、全帯域幅は３．４ｋHz（ただし
有効帯域は２００〜３４００Hz）であり、女声の高い方
から男声の低い方までのピッチラグ（ピッチ周期に相当
するサンプル数）は、２０〜１４７程度である。従っ
て、ピッチ周波数は、8000/147≒５４（Hz）から 8000/
20＝４００（Hz）程度までの間で変動することになる。
従って、周波数軸上で上記３．４ｋHzまでの間に約８〜
６３本のピッチパルス（ハーモニックス）が立つことに
なる。

【００１８】なお、各高調波あるいはハーモニクス成分
の位相情報については、送ってもよいが、いわゆる最小
位相推移法やゼロ位相法等のような手法により復号化側
で位相を決定できるため、送らなくてもよい。

【００１９】上記サイン波合成を行う復号化側に供給さ
れるデータの一例を図１に示している。

【００２０】この図１は、時刻ｎ＝ｎ₁及びｎ＝ｎ₂に
おける周波数軸上のスペクトルエンベロープを示してい
る。この図１の時刻ｎ₁からｎ₂までの間隔は、符号化
情報の伝送単位となるフレーム間隔に相当しており、各
フレーム毎に得られる符号化された情報としての周波数
軸上の振幅データを、時刻ｎ₁ではＡ₁₁、Ａ₁₂、Ａ₁₃、
・・・にて、また時刻ｎ₂ではＡ₂₁、Ａ₂₂、Ａ₂₃、・・
・にてそれぞれ表している。ここで、時刻ｎ＝ｎ₁にお
けるピッチ周波数をω₁、時刻ｎ＝ｎ₂におけるピッチ
周波数をω₂とする。

【００２１】この図１に示すように、振幅あるいはスペ
クトルエンベロープも、またピッチあるいはハーモニク
スの間隔も異なる２枚のスペクトルを補間し、時刻ｎ₁
からｎ₂までの時間波形を再生するのが、通常のサイン
波合成による復号化の際の主要な処理内容である。

【００２２】具体的には、任意の第ｍ番目のハーモニク
スによる時間波形を得るために、先ず振幅の補間を行
う。上記フレーム間隔のサンプル数をＬとすると、時刻
ｎにおける上記第ｍ番目のハーモニクスあるいはｍ次ハ
ーモニクスの振幅Ａ_m(n)は、

【００２３】

【数１】

【００２４】となる。次に、上記時刻ｎにおける上記第
ｍ番目のハーモニクスあるいはｍ次ハーモニクスの位相
θ_m(n)を算出するために、この時刻ｎを上記時刻ｎ₁か
らｎ₀サンプル目、すなわちｎ−ｎ₁＝ｎ₀とすると、

【００２５】

【数２】

【００２６】となる。この（２）式において、φ_1mは、
ｎ＝ｎ₁における上記ｍ次ハーモニクスの初期位相であ
り、ω₁及びω₂は、それぞれｎ＝ｎ₁及びｎ＝ｎ₂に
おけるピッチとしての基本角周波数であり、２π／ピッ
チラグに相当する。また、ｍはハーモニクス番号、Ｌは
フレーム間隔のサンプル数である。

【００２７】この（２）式は、上記第ｍ番目のハーモニ
クスの周波数ω_m(k)を、 ω_m(k)＝(ｎ₂−ｋ)ω₁ｍ／Ｌ＋(ｋ−ｎ₁)ω₂ｍ／Ｌただし、ｎ₁≦ｋ＜ｎ₂として、

【００２８】

【数３】

【００２９】により導出したものである。

【００３０】上記（１）、（２）式を用いて、Ｗ_m(ｎ)＝Ａ_m(ｎ)cos(θ_m(ｎ)) ・・・（３）とすると、これが第ｍ本目のハーモニクスによる時間波
形Ｗ_m(ｎ) となる。全てのハーモニクスに関する時間波
形の総和を次の（４）式のようにとったものが、最終的
な合成波形Ｖ(ｎ) となる。

【００３１】

【数４】

【００３２】以上が、従来より行われている通常のサイ
ン波合成による復号化手法である。

【００３３】このような方法によれば、上記フレーム間
隔のサンプル数Ｌを例えば１６０とし、ハーモニクスの
本数ｍの最大値を６４本とするとき、上記（１）、
（２）式の計算に約５回の積和演算が必要とされること
から、１６０×６４×５＝５１２００すなわち、１フレーム当り５１２００回程度のオーダー
の積和演算が必要とされている。

【００３４】本発明は、このような膨大な積和演算量を
低減するものである。

【００３５】以下、本発明に係る符号化音声信号の復号
化方法の好ましい実施例について説明する。

【００３６】スペクトル情報データから逆高速フーリエ
変換（ＩＦＦＴ）によって時間波形を作る場合に注意す
べき点として、単純にｎ＝ｎ₁における振幅列Ａ₁₁、Ａ
₁₂、Ａ₁₃、・・・、及びｎ＝ｎ₂における振幅列Ａ₂₁、
Ａ₂₂、Ａ₂₃、・・・をスペクトルとみなして、ＩＦＦＴ
をとって時間波形に戻して重畳加算（オーバーラップア
ッド：ＯＬＡ）を行っても、ｍω₁→ｍω₂へとピッチ周
波数が変化してゆくことはない点が挙げられる。例え
ば、１００Hzの波形と１１０Hzの波形のＯＬＡを行って
も、１０５Hzの波形はつくれない。また、周波数が異な
るため、ＯＬＡによって上記（１）式に示したようなＡ
_m(n)が補間されて得られることもない。

【００３７】そこで、先ず振幅列を正しく補間し、次に
ピッチがなだらかにｍω₁→ｍω₂へと変化するようにす
る。しかしながら、振幅Ａ_mを従来のように各ハーモニ
クス毎に補間により求めることは、演算量の低減効果が
得られず意味がないため、ＩＦＦＴ及びＯＬＡにて一気
に算出できるようにすることが望まれる。

【００３８】一方、同じ周波数成分の信号は、ＩＦＦＴ
前に補間しても、ＩＦＦＴ後に補間しても、同一の結果
が得られる。すなわち、周波数が同じという条件の元で
は、ＩＦＦＴ及びＯＬＡによりその振幅は完全に補間さ
れるわけである。

【００３９】以上の点を考慮して、本発明の実施例にお
いては、第ｍ番目のハーモニクス同士が時刻ｎ＝ｎ₁と
時刻ｎ＝ｎ₂とで同じ周波数になるようにしている。具
体的には、上記図１のスペクトルを図２のように変換す
る、あるいは図２のように見なす。

【００４０】すなわち、図２において、どの時刻におい
ても各ハーモニクス間の間隔は全て同一で、１としてい
る。ハーモニクスと隣のハーモニクスとの間には、谷や
０データは存在せず、ハーモニクスの振幅データを横軸
上の左から詰めて使用する。今、例えばｎ＝ｎ₁で上記
ピッチラグ、すなわちピッチ周期に相当するサンプル数
がｌ₁とすると、０〜πまでの間にｌ₁／２本のハーモ
ニクスが存在し、スペクトルとしてｌ₁／２個の要素を
持った配列となる。ここでｌ₁／２が整数でないときは
切り捨てる。これを一定の要素数、例えば２^N個の配列
とするため、残りの部分に０を詰めている。このように
して、ｌ₁／２個のハーモニクスの振幅データと残り２
^N−ｌ₁／２個の０との２^N個の要素を持つ配列ａ_f1[ｉ]
とする。また、ｎ＝ｎ₂でのピッチラグをｌ₂とする
と、同様にｌ₂／２個の要素を持ったスペクトルエンベ
ロープを表現する配列ができるが、同様に０詰めを行っ
て、２^N個の要素を持つ配列ａ_f2[ｉ]とする。

【００４１】従って、ｎ＝ｎ₁ について、ａ_f1[ｉ] ０≦ｉ＜２^N ｎ＝ｎ₂ について、ａ_f2[ｉ] ０≦ｉ＜２^N ・・・（５）のような配列が得られる。

【００４２】位相に関しても同様に、ハーモニクスの存
在する周波数における位相値を左から詰めて配置し、残
りの部分を０詰めすることにより、一定数２^N個の配列
とする。それらを、ｎ＝ｎ₁ について、ｐ_f1[ｉ] ０≦ｉ＜２^N ｎ＝ｎ₂ について、ｐ_f2[ｉ] ０≦ｉ＜２^N ・・・（６）とする。この場合の各ハーモニクス毎の位相は、伝送さ
れた値又はデコーダ内で作った値を使用する。

【００４３】上記一定の要素数２^Nとしては、例えばＮ
＝６のとき２⁶＝６４である。

【００４４】これらの振幅データの配列ａ_f1[ｉ]、ａ_f2
[ｉ]及び位相データの配列ｐ_f1[ｉ]、ｐ_f2[ｉ]の組を用
いて、ｎ＝ｎ₁及びｎ＝ｎ₂におけるＩＦＦＴ、すなわ
ち逆高速フーリエ変換を行う。

【００４５】ＩＦＦＴは、２^N+1点とし、例えばｎ＝ｎ
₁のときは、それぞれ２^N 個ずつの配列ａ_f1[ｉ]、ｐ_f1
[ｉ]から複素共役になるように２^N+1個の複素データを
作って、それをＩＦＦＴ処理する。ＩＦＦＴの結果は、
２^N+1点の実数列となる。なお、実数列を得るＩＦＦＴ
の演算量削減の方法により、２^N 点のＩＦＦＴの演算を
行うことも可能である。

【００４６】ここで得られた波形を各々ａ_t1[ｊ]、ａ_t2[ｊ] ０≦ｊ＜２^N+1 とする。ａ_t1[ｊ]及びａ_t2[ｊ]は、それぞれｎ＝ｎ₁及
びｎ＝ｎ₂におけるスペクトル情報より、１ピッチ周期
分の波形を、元のピッチ周期に拘らず、２^N+1点で表現
したものである。すなわち、本来は上記ｌ₁ 又はｌ₂点
で表現される１ピッチ分の波形をオーバーサンプリング
し、常に２^N+1点で表現されていることになる。換言す
れば、実際のピッチによらず常に一定ピッチの波形が１
ピッチ分得られるわけである。

【００４７】これを、Ｎ＝６、すなわち２^N＝２⁶＝６
４、２^N+1＝２⁷＝１２８とし、ｌ₁ ＝３０、すなわち
ｌ₁／２＝１５とした場合について、図３を参照しなが
ら説明する。

【００４８】図３において、Ａ₁はデコーダ側に与えら
れた本来のスペクトルエンベロープデータを示し、横軸
（周波数軸）の０〜πまでの範囲に１５本のハーモニク
スが立っている。ただし、ハーモニクス間の谷のデータ
も含めて、周波数軸上の要素数は６４個である。これを
ＩＦＦＴ処理すると、Ａ₂に示すようにピッチラグが３
０の波形が繰り返されて１２８点となった時間波形信号
が得られる。

【００４９】図３のＢ₁は、周波数軸上に左詰めで上記
１５個のハーモニクスの振幅データを配置したものであ
り、この１５個のスペクトルデータをＩＤＦＴ（離散的
逆フーリエ変換）処理すると、Ｂ₂に示すように、１ピ
ッチラグの３０サンプル分の時間波形が得られる。

【００５０】これに対して、図３のＣ₁に示すように、
上記１５個のハーモニクス振幅データを左から詰めて配
置し、残りの６４−１５＝４９点に０詰めを行って６４
個の要素としたものをＩＦＦＴ処理すると、Ｃ₂に示す
ように、１ピッチ周期分の波形が１２８点のサンプルデ
ータの時間波形信号として得られる。このＣ₂の波形を
上記Ａ₂、Ｂ₂と同じサンプル間隔で描くと、図３のＤ
のようになる。

【００５１】以上のようにして得られた上記時間波形を
示すデータ配列ａ_t1[ｊ]、ａ_t2[ｊ]は、ピッチ周波数が
同一であるので、時間波形の重畳加算でスペクトルエン
ベロープの補間が可能である。

【００５２】この補間については、従来と同様に、｜
（ω₂−ω₁）／ω₂ ｜≦０．１の場合には、スペクトル
エンベロープのなだらかな補間を行い、それ以外の場
合、すなわち｜（ω₂−ω₁）／ω₂ ｜＞０．１の場合に
は、スペクトルエンベロープの急激な補間を行う。な
お、ω₁、ω₂は、各時刻ｎ₁、ｎ₂のフレームでのピ
ッチ周波数である。

【００５３】以下、上記｜（ω₂−ω₁）／ω₂ ｜≦０．
１の場合のなだらかな補間について説明する。

【００５４】先ず、オーバーサンプリング後の必要な波
形の長さ（時間）を求める。

【００５５】オーバーサンプリングのレート、すなわち
何倍のオーバーサンプリングが行われたかを上記各時刻
ｎ＝ｎ₁、ｎ＝ｎ₂に対応して ovsr₁、ovsr₂と表す
と、 ovsr₁＝２^N+1／ｌ₁ ovsr₂＝２^N+1／ｌ₂ ・・・（７）となる。これを図４に示す。図４中のＬは、フレーム間
隔のサンプル数を示し、例えばＬ＝１６０である。

【００５６】時刻ｎ＝ｎ₁からｎ＝ｎ₂にかけて、この
オーバーサンプリングレートはリニアに変化してゆくと
する。

【００５７】時々刻々変わってゆくオーバーサンプリン
グレートを、時刻ｔの関数として、ovsr(ｔ)と記すと、
オーバーサンプリング前に長さＬに対応するオーバーサ
ンプリング後の波形の長さＬｐは、

【００５８】

【数５】

【００５９】すなわち、平均のオーバーサンプリングレ
ート（ovsr₁＋ovsr₂）／２に、フレーム間隔Ｌを乗じた
ものである。結果を整数化するために、切り上げたもの
あるいは四捨五入したものを用いる。

【００６０】次に、ａ_t1[ｉ]、ａ_t2[ｉ]から、長さＬｐ
の波形を作り出す。

【００６１】ａ_t1[ｉ]に関しては、

【００６２】

【数６】

【００６３】として長さＬｐの波形を作る。この（９）
式で、mod（Ａ,Ｂ）は、ＡをＢで割った余りを意味して
いる。この（９）式の長さＬｐの波形は、ａ_t1[ｉ]の波
形を繰り返し使用して作り出している。

【００６４】同様にａ_t2[ｉ]は、

【００６５】

【数７】

【００６６】として長さＬｐの波形を算出している。

【００６７】ここで、図５は上記補間処理を説明するた
めの図であり、各々ｎ＝ｎ₁、ｎ＝ｎ₂において、２
^N+1長の波形ａ_t1[ｉ]、ａ_t2[ｉ]の中心が来るように位
相調節しているため、上記オフセット値offset' を２^N
に設定することが必要になる。このオフセット値offse
t' を０とすれば、各時刻ｎ＝ｎ₁、ｎ＝ｎ₂で、各波
形ａ_t1[ｉ]、ａ_t2[ｉ]の先頭がくることになる。

【００６８】ここで、上記（９）式の具体的な一例を図
６の波形ａとして、また上記（１０）式の具体的な一例
を図６の波形ｂとしてそれぞれ示している。

【００６９】次に、上記（９）式の波形と（１０）式の
波形とを補間する。例えば、（９）式の波形に対して
は、時刻ｎ＝ｎ₁で１となり時間と共にリニアに減衰し
て時刻ｎ＝ｎ₂で０となるような窓かけを行い、また
（１０）式の波形に対しては、時刻ｎ＝ｎ₁で０となり
時間と共にリニアに増加して時刻ｎ＝ｎ₂で１となるよ
うな窓かけを行い、これらを加算する。補間した結果を
ａ_ip[ｉ]とすると、

【００７０】

【数８】

【００７１】となる。

【００７２】これによって、ピッチ同期したスペクトル
エンベロープの補間が行えたことになる。これは、図７
に示すように、時刻ｎ＝ｎ₁ のスペクトルエンベロープ
の各ハーモニクスと、時刻ｎ＝ｎ₂のスペクトルエンベ
ロープの各ハーモニクスとを補間する操作と等価であ
る。

【００７３】次に、この波形を、本来のサンプリングレ
ートに戻すと同時に、本来のピッチ周波数に戻す。この
とき、同時にピッチの補間を行うことになる。

【００７４】上記オーバーサンプリングレートを、時刻
を表すインデクスｉの関数として、

【００７５】

【数９】

【００７６】とする。次に、

【００７７】

【数１０】

【００７８】として、idx(ｎ) を定義する。この（１
２）式の定義の代わりに、

【００７９】

【数１１】

【００８０】又は

【００８１】

【数１２】

【００８２】により idx(ｎ)を定義してもよい。（１
４）式の定義が最も厳密であるが、上記（１２）式で実
用上は充分である。

【００８３】ここで、この idx(ｎ)、０≦ｎ＜Ｌは、オ
ーバーサンプルされた波形ａ_ip[ｉ]、０≦ｉ＜Ｌｐをど
のようなインデックス間隔でリサンプルすれば本来のサ
ンプリングレートに戻せるか、を示している。すなわ
ち、０≦ｎ＜Ｌから０≦ｉ＜Ｌｐへのマッピングを行っ
ている。

【００８４】従って、idx(ｎ) が整数の場合は、求める
波形ａ_out[ｎ] は、ａ_out[ｎ]＝ａ_ip[idx(ｎ)] ０≦ｎ＜Ｌ・・・（１５）により求められるわけであるが、一般にidx(ｎ) は整数
にならない。そこで、例えば直線補間によりａ_out[ｎ]
を算出する方法を以下に説明するが、より高次の補間を
用いてもよいことは勿論である。

【００８５】

【数１３】

【００８６】この方法は、図８に示すように、直線の内
分比に応じて重み付けを行うものである。なお、idx
(ｎ) が整数の場合は、上記（１５）式を用いればよ
い。

【００８７】これによって、ａ_out[ｎ] 、すなわち求め
たい波形（０≦ｎ＜Ｌ）が得られる。

【００８８】以上が、上記｜（ω₂−ω₁）／ω₂ ｜≦
０．１の場合のスペクトルエンベロープのなだらかな補
間の説明であるが、それ以外の｜（ω₂−ω₁）／ω₂ ｜
＞０．１の場合には、スペクトルエンベロープの急激な
補間を行う。

【００８９】以下、｜（ω₂−ω₁）／ω₂ ｜＞０．１の
場合について説明する。

【００９０】このときは、ピッチの補間は行わずに、ス
ペクトルエンベロープの補間のみを行う。

【００９１】ここで、上記（７）式と同様に、各ピッチ
に対応したオーバーサンプリングのレート ovsr₁、ovsr
₂を定義する。

【００９２】 ovsr₁＝２^N+1／ｌ₁ ovsr₂＝２^N+1／ｌ₂ ・・・（１７）これらの各レートに対応したオーバーサンプリング後の
波形の長さをＬ₁、Ｌ₂とする。

【００９３】Ｌ₁＝Ｌ・ovsr₁ Ｌ₂＝Ｌ・ovsr₂ ・・・（１８）ピッチ補間はしないので、各オーバーサンプリングのレ
ート ovsr₁、ovsr₂はいずれも変化しないため、上記
（８）のような積分を行わずに乗算でよい。この場合、
切り上げ又は四捨五入により、結果を整数化したものを
使う。

【００９４】次に、上記（９）式と同様に、ａ_t1[ｉ]、
ａ_t2[ｉ]から、長さＬ₁、Ｌ₂の波形を作る。

【００９５】

【数１４】

【００９６】

【数１５】

【００９７】次に、（１９）式と（２０）式は、各々異
なるサンプリングレートで再度サンプリングされる。さ
きに窓かけを行ってから、再サンプリングしてもよい
が、ここでは先に再サンプルを行って本来のサンプリン
グ周波数ｆｓに戻してから、窓かけ及び重畳加算（ＯＬ
Ａ）を行っている。

【００９８】上記（１９）式の波形に対しては、 idx₁(ｎ)＝ｎ・ovsr₁ ０≦ｎ＜Ｌ、０≦idx₁(ｎ)＜Ｌ₁ ・・・ (２１) また、上記（２０）式の波形に対しては、 idx₂(ｎ)＝ｎ・ovsr₂ ０≦ｎ＜Ｌ、０≦idx₂(ｎ)＜Ｌ₂ ・・・ (２２) により、これらの各波形を再サンプルするためのインデ
クスidx₁(ｎ)、idx₂(ｎ)を求める。

【００９９】次に、上記（２１）式より、

【０１００】

【数１６】

【０１０１】を求め、また上記（２２）式より、

【０１０２】

【数１７】

【０１０３】を求める。

【０１０４】これらの（２３）式、（２４）式で求めら
れた波形ａ₁[ｎ] 及びａ₂[ｎ] （０≦ｎ＜Ｌ）は、本来
のサンプリング周波数ｆｓに戻された波形で、長さはＬ
である。この２つの波形に適当な窓かけを行って加算す
る。

【０１０５】例えば、波形ａ₁[ｎ] には図９のＡに示す
ような窓関数Ｗ_in[ｎ]を乗算し、波形ａ₂[ｎ] には図９
のＢに示すような窓関数１−Ｗ_in[ｎ]を乗算した後、こ
れらを加算する。すなわち、最終出力をａ_out[ｎ] とす
ると、ａ_out[ｎ]＝ａ₁[ｎ]・Ｗ_in[ｎ]＋ａ₂[ｎ]・（１−Ｗ
_in[ｎ]）の式により、最終出力をａ_out[ｎ] を求める。

【０１０６】ここで、窓関数Ｗ_in[ｎ] の一例として
は、Ｌ＝１６０のとき、Ｗ_in[ｎ]＝１０≦ｎ＜５０Ｗ_in[ｎ]＝(110-n)/60 ５０≦ｎ＜１１０Ｗ_in[ｎ]＝０１１０≦ｎ＜１６０のようなものを用いることができる。

【０１０７】以上、ピッチの補間を行うときと、行わな
いときの合成方法を述べた。このような合成は、マルチ
バンド励起（ＭＢＥ）符号化のデコーダ側での有声音部
分の合成に使用できる。これは、Ｖ（有声音）／ＵＶ
（無声音）のトランジェントを１箇所にした場合や、Ｖ
とＵＶとが混在する場合のＶ（有声音）部分の合成にも
そのまま用いることができる。この場合、ＵＶ（無声
音）のハーモニクスの大きさを０とすればよい。

【０１０８】ここで、図１０及び図１１は、上記合成時
の動作をまとめたフローチャートを示しており、時刻ｎ
＝ｎ₁までの処理が済んで、時刻ｎ＝ｎ₂での処理に着
目して表している。

【０１０９】先ず、図１０において、最初のステップＳ
１１では、デコーダで得られた時刻ｎ＝ｎ₂でのハーモ
ニクスの大きさを示す配列Ａ_f2[ｉ]及び位相を示す配列
Ｐ_f2[ｉ]を定義する。ここでＭ₂は、時刻ｎ₂でのハー
モニクスの最大次数を示している。

【０１１０】次のステップＳ１２では、これらの配列Ａ
_f2[ｉ]及びＰ_f2[ｉ]を左詰めで配列して残りに０を詰
め、固定長２^Nの配列を作り、それぞれａ_f2[ｉ]及びｐ
_f2[ｉ］と定義する。

【０１１１】次のステップＳ１３では、得られた固定長
２^Ｎの配列ａ_f2[ｉ]及びｐ_f2[ｉ]を用いて、２^N+1点
の逆高速フーリエ変換（ＩＦＦＴ）を行い、結果をａ_t2
[ｊ]とする。

【０１１２】次に、ステップＳ１４で１フレーム前の結
果ａ_t1[ｊ]を取り出し、次のステップＳ１５で、時刻ｎ
＝ｎ₁及びｎ＝ｎ₂におけるピッチから、連続／不連続
合成を決定する。このステップＳ１５で連続合成と決定
されたときには、ステップＳ１６に進み、不連続合成と
決定された時にはステップＳ２０に進む。

【０１１３】ステップＳ１６では、時刻ｎ＝ｎ₁及びｎ
＝ｎ₂におけるピッチから、必要な長さＬｐを上記
（８）式に基づいて算出し、ステップＳ１７に進んで、
ａ_t1[ｊ]及びａ_t2[ｊ]を繰り返し使用して、必要な長さ
Ｌｐ分を確保する。これは、上記（９）式及び（１０）
式の計算に相当する。これらのＬｐ分の波形に、リニア
に減少する三角の窓関数及びリニアに増大する三角の窓
関数をそれぞれかけて加算し、上記（１１）式に示すよ
うに、スペクトル補間波形ａ_ip[ｉ]を作る。

【０１１４】次のステップＳ１９で、このａ_ip[ｉ]をリ
サンプルして、直線補間をしながら、上記（１６）式に
より最終的な出力波形ａ_out[ｎ] を作る。

【０１１５】また、上記ステップＳ１５で、不連続合成
と決定されたときには、ステップＳ２０に進んで、各時
刻ｎ＝ｎ₁、ｎ＝ｎ₂のピッチから必要な長さＬ₁、Ｌ₂
を決定し、次のステップＳ２１に進んで、上記ａ
_t1[ｊ]、ａ_t2[ｊ]を繰り返し使用して、必要な長さ
Ｌ₁、Ｌ₂分を確保する。これは上記（１９）式及び（２
０）式の計算に相当する。

【０１１６】以上説明したような本発明の実施例の符号
化音声信号の復号化方法によれば、上記Ｎを６とし、２
^N＝６４、２^N+1＝１２８とするとき、上記逆ＦＦＴ処
理に要する積和演算量が概略６４×７×７となる。これ
は、ｘ点の複素データのＩＦＦＴの積和演算量が概略
（ｘ／２）logｘ×７であることから、ｘ＝１２８とす
ることで求められる。さらに、上記（１１）式、（１
２）式、（１６）式、あるいは（１９）、（２０）式、
（２３）、（２４）式等に要する積和演算量が１６０×
１２となる。従って復号化に要する積和演算量は、これ
らを合計して、約５０５６のオーダーの演算量となる。

【０１１７】これは、前述した従来の復号化方法で必要
とされた積和演算量の約５１２００のオーダーに比べ
て、約１／１０以下の積和演算量となっており、復号化
処理のための演算量を大幅に減らすことが可能となる。

【０１１８】すなわち、従来のサイン波合成において
は、各ハーモニクスに対応して振幅の補間と、位相ある
いは周波数の補間とを行い、それらの補間された各パラ
メータに従って時々刻々周波数と振幅の変化してゆくハ
ーモニクス１本分の時間波形を算出し、その時間波形を
ハーモニクスの本数分足し合わせて合成波形を得ていた
ため、積和演算量がフレーム当り数万のオーダーとなっ
ていたものが、本発明の実施例の方法を用いることによ
り、数千弱の演算量に削減できる。この合成部分は、マ
ルチバンド励起（ＭＢＥ）を用いた波形分析合成系でも
最も処理の重い部分であることから、この演算量削減の
実用上の効果は非常に大きい。具体的に、例えばＭＢＥ
に適用した場合に、従来では全体で十数ＭＩＰＳ程度の
演算能力が必要とされたのに対して、本発明の実施例に
よれば、数ＭＩＰＳ程度に低減できる。

【０１１９】なお、本発明は上記実施例のみに限定され
るものではなく、例えば、本発明が適用される復号化方
法は、上記マルチバンド励起を用いた音声分析／合成方
法のデコーダに限定されるものではなく、有声音部分に
正弦波合成を用いたり、無声音部分をノイズ信号に基づ
いて合成するような他の種々の音声分析／合成方法に適
用でき、用途としても、伝送や記録再生に限定されず、
ピッチ変換やスピード変換、規則音声合成、あるいは雑
音抑圧のような種々の用途に応用できることは勿論であ
る。

【０１２０】

【発明の効果】以上の説明から明らかなように、本発明
に係る符号化音声信号の復号化方法及びその装置によれ
ば、符号化音声信号のフレーム毎の各ハーモニクスの情
報に基づいてサイン波合成により復号化する際に、上記
ハーモニクスの大きさを表すデータ配列に０データを付
加して所定個数の要素を持つ第１の配列とし、上記ハー
モニクスの位相を表すデータ配列に０データを付加して
所定個数の要素を持つ第２の配列とし、上記第１、第２
の配列を用いて時間軸情報に逆変換し、上記逆変換され
て得られた時間波形に基づいて音声信号の時間波形信号
を復元することにより、ピッチの異なるフレーム毎のハ
ーモニクスの情報に基づく再生波形の合成が、少ない演
算量で実現できる。

【０１２１】また、隣接フレームのピッチの変化の程度
に応じて、隣接フレーム間でのスペクトルエンベロープ
のなだらかな補間と、急激な補間とを行っているため、
それぞれの状態に適した合成出力波形を得ることができ
る。

【０１２２】ここで、従来のサイン波合成においては、
各ハーモニクスに対応して振幅の補間と、位相あるいは
周波数の補間とを行い、それらの補間された各パラメー
タに従って時々刻々周波数と振幅の変化してゆくハーモ
ニクス１本分の時間波形を算出し、その時間波形をハー
モニクスの本数分足し合わせて合成波形を得ていたた
め、積和演算量がフレーム当り数万のオーダーとなって
いたものが、本発明の方法を用いることにより、数千弱
の演算量に削減できる。この合成部分は、復号化の全体
の処理中で最も重い部分であるため、この演算量削減の
実用上の効果は非常に大きい。具体的に、例えばマルチ
バンド励起（ＭＢＥ）符号化方式のデコーダに適用した
場合に、従来では全体で十数ＭＩＰＳ程度の演算能力が
必要とされたのに対して、本発明の方法によれば数ＭＩ
ＰＳ程度に低減できる。

【図面の簡単な説明】

【図１】異なる時刻における周波数軸上の各ハーモニク
スの振幅を示す図である。

【図２】本発明の実施例の一工程として異なる時刻にお
ける各ハーモニクスを左詰めで配置し残りに０詰めする
処理を説明するための図である。

【図３】周波数軸上のスペクトルと時間軸上の信号波形
との関係を説明するための図である。

【図４】異なる時刻におけるオーバーサンプリングレー
トを示す図である。

【図５】異なる時刻におけるスペクトルをそれぞれ逆変
換して得られた時間軸波形を示す図である。

【図６】異なる時刻におけるスペクトルをそれぞれ逆変
換して得られた時間軸波形に基づいて作られた長さＬｐ
の波形を示す図である。

【図７】時刻ｎ₁ でのスペクトルエンベロープの各ハー
モニクスと時刻ｎ₂でのスペクトルエンベロープの各ハ
ーモニクスとを補間する操作を示す図である。

【図８】本来のサンプリングレートに戻すためのリサン
プルのための補間処理を説明するための図である。

【図９】異なる時刻にてそれぞれ得られた波形を加算す
るための窓関数の例を示す図である。

【図１０】本発明の実施例となる音声信号の復号化方法
の前半部分の動作を説明するためのフローチャートであ
る。

【図１１】本発明の実施例となる音声信号の復号化方法
の後半部分の動作を説明するためのフローチャートであ
る。

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 19/02 G10L 21/04

Claims

(57)【特許請求の範囲】

【請求項１】音声信号が周波数軸情報に変換されてピ
ッチ間隔の各ハーモニクスの情報が符号化されたものが
供給され、上記各ハーモニクスの情報に基づいてサイン
波合成により復号化する符号化音声信号の復号化方法に
おいて、上記ハーモニクスの大きさを表すデータ配列に０データ
を付加して所定個数の要素を持つ第１の配列とする工程
と、上記ハーモニクスの位相を表すデータ配列に０データを
付加して所定個数の要素を持つ第２の配列とする工程
と、上記第１、第２の配列を用いて時間軸情報に逆変換する
逆変換工程と、上記逆変換されて得られた時間波形を繰り返し使用する
ことで必要な長さを確保し、当該波形に基づいて音声信
号の時間波形信号を復元する復元工程とを有することを
特徴とする符号化音声信号の復号化方法。
【請求項２】隣接する２フレーム分の上記必要な長さ
とされた時間波形に対して所定の窓かけを行って重畳加
算し、上記重畳加算された波形に対して２フレーム間で変化す
るピッチ周期に応じた補間を行って所定サンプリングレ
ートの時間波形信号を得ることを特徴とする請求項１記
載の符号化音声信号の復号化方法。
【請求項３】隣接する２フレーム分の上記必要な長さ
とされた時間波形に対してそれぞれのピッチ周期に応じ
てリサンプルし、上記リサンプルされた時間波形に所定の窓かけを行って
重畳加算して時間波形信号を得ることを特徴とする請求
項１記載の符号化音声信号の復号化方法。
【請求項４】音声信号が周波数軸情報に変換されてピ
ッチ間隔の各ハーモニクスの情報が符号化されたものが
供給され、上記各ハーモニクスの情報に基づいてサイン
波合成により復号化する符号化音声信号の復号化装置に
おいて、上記ハーモニクスの大きさを表すデータ配列に０データ
を付加して所定個数の要素を持つ第１の配列とする手段
と、上記ハーモニクスの位相を表すデータ配列に０データを
付加して所定個数の要素を持つ第２の配列とする手段
と、上記第１、第２の配列を用いて時間軸情報に逆変換する
逆変換手段と、上記逆変換されて得られた時間波形を繰り返し使用する
ことで必要な長さを確保し、当該波形に基づいて音声信
号の時間波形信号を復元する復元手段とを有することを
特徴とする符号化音声信号の復号化装置。
【請求項５】上記復元手段は、隣接する２フレーム分の上記必要な長さとされた時間波
形に対して所定の窓かけを行って重畳加算する手段と、上記重畳加算された波形に対して２フレーム間で変化す
るピッチ周期に応じた補間を行って所定サンプリングレ
ートの時間波形信号を得る手段とを有することを特徴と
する請求項４記載の符号化音声信号の復号化装置。
【請求項６】上記復元手段は、隣接する２フレーム分の上記必要な長さとされた時間波
形に対してそれぞれのピッチ周期に応じてリサンプルす
る手段と、上記リサンプルされた時間波形に所定の窓かけを行って
重畳加算して時間波形信号を得る手段とを有することを
特徴とする請求項４記載の符号化音声信号の復号化装
置。