JP3528258B2 - 符号化音声信号の復号化方法及び装置 - Google Patents
符号化音声信号の復号化方法及び装置Info
- Publication number
- JP3528258B2 JP3528258B2 JP19845194A JP19845194A JP3528258B2 JP 3528258 B2 JP3528258 B2 JP 3528258B2 JP 19845194 A JP19845194 A JP 19845194A JP 19845194 A JP19845194 A JP 19845194A JP 3528258 B2 JP3528258 B2 JP 3528258B2
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- time
- signal
- decoding
- harmonics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 43
- 230000005236 sound signal Effects 0.000 title claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 27
- 238000003786 synthesis reaction Methods 0.000 claims description 27
- 238000005070 sampling Methods 0.000 claims description 14
- 238000003491 array Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 239000011295 pitch Substances 0.000 description 46
- 238000001228 spectrum Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 9
- 230000005284 excitation Effects 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
iband Excitation:マルチバンド励起)符号化方式のよ
うなサイン波合成を用いる符号化方式のデコーダ側での
演算量を低減し得るような符号化音声信号の復号化方法
及びその装置に関するものである。
含む)の時間領域や周波数領域における統計的性質と人
間の聴感上の特性を利用して信号圧縮を行うような符号
化方法が種々知られている。この符号化方法としては、
大別して時間領域での符号化、周波数領域での符号化、
分析合成符号化等が挙げられる。
BE(Multiband Excitation: マルチバンド励起)符号
化、SBE(Singleband Excitation:シングルバンド励
起)符号化、ハーモニック(Harmonic)符号化、SBC
(Sub-band Coding:帯域分割符号化)、LPC(Linear
Predictive Coding: 線形予測符号化)、あるいはDC
T(離散コサイン変換)、MDCT(モデファイドDC
T)、FFT(高速フーリエ変換)等を用いた符号化が
挙げられる。
符号化やハーモニック符号化のように復号側すなわちデ
コーダ側でサイン波合成を用いるものにおいては、エン
コーダ側で符号化されて送信されてきたデータ、例えば
ハーモニクスの振幅及び位相データに基づいて、振幅及
び位相の補間を行い、それらの補完されたパラメータに
従って、時々刻々周波数と振幅の変化してゆくハーモニ
クス1本分の時間波形を算出し、その時間波形をハーモ
ニクスの本数分だけ足し合わせて合成波形を得ていた。
当りの演算量として、数万回程度のオーダーの積和演算
が必要とされることになり、高速で高価な演算回路が必
要となる。これは、特に例えば携帯用電話機等に適用す
る際の障害ともなる。
実情に鑑みてなされたものであり、サイン波合成により
復号化処理を行う際の演算量を減らすことができるよう
な符号化音声信号の復号化方法及びその装置の提供を目
的とする。
信号の復号化方法は、音声信号が周波数軸情報に変換さ
れてピッチ間隔の各ハーモニクスの情報が符号化された
ものが供給され、上記各ハーモニクスの情報に基づいて
サイン波合成により復号化する符号化音声信号の復号化
方法において、上記ハーモニクスの大きさを表すデータ
配列に0データを付加して所定個数の要素を持つ第1の
配列とする工程と、上記ハーモニクスの位相を表すデー
タ配列に0データを付加して所定個数の要素を持つ第2
の配列とする工程と、上記第1、第2の配列を用いて時
間軸情報に逆変換する逆変換工程と、上記逆変換されて
得られた時間波形を繰り返し使用することで必要な長さ
を確保し、当該波形に基づいて音声信号の時間波形信号
を復元する復元工程とを有することにより、上述の課題
を解決する。
な長さとされた時間波形に対して所定の窓かけを行って
重畳加算し、上記重畳加算された波形に対して2フレー
ム間で変化するピッチ周期に応じた補間を行って所定サ
ンプリングレートの時間波形信号を得ることが好まし
い。
程度が小さい場合、具体的には、各フレームでのピッチ
周波数をω1 、ω2 とするときに、|(ω2−ω1)/ω
2 |≦0.1となる場合であり、このときスペクトルエ
ンベロープのなだらかな補間を行う。それ以外の場合、
すなわち|(ω2−ω1)/ω2 |>0.1の場合には、
スペクトルエンベロープの急激な補間を行う。
要な長さとされた時間波形に対してそれぞれのピッチ周
期に応じてリサンプルし、上記リサンプルされた時間波
形に所定の窓かけを行って重畳加算して時間波形信号を
得る。
化装置は、音声信号が周波数軸情報に変換されてピッチ
間隔の各ハーモニクスの情報が符号化されたものが供給
され、上記各ハーモニクスの情報に基づいてサイン波合
成により復号化する符号化音声信号の復号化装置におい
て、上記ハーモニクスの大きさを表すデータ配列に0デ
ータを付加して所定個数の要素を持つ第1の配列とする
手段と、上記ハーモニクスの位相を表すデータ配列に0
データを付加して所定個数の要素を持つ第2の配列とす
る手段と、上記第1、第2の配列を用いて時間軸情報に
逆変換する逆変換手段と、上記逆変換されて得られた時
間波形を繰り返し使用することで必要な長さを確保し、
当該波形に基づいて音声信号の時間波形信号を復元する
復元手段とを有することにより、上述の課題を解決す
る。
周波数軸上で一定間隔に配置し残りを0詰めした状態で
逆変換し、得られた各フレームの時間波形を補間しなが
ら合成することで、演算量を低減できる。
方法の実施例の説明に先立ち、通常のサイン波合成を用
いた復号化方法の一例について説明する。
復号化装置あるいはデコーダに送信されてくるデータ
は、少なくとも、ハーモニクスの間隔を表すピッチ、及
びスペクトルエンベロープに対応する振幅である。
音声符号化方式としては、例えばマルチバンド励起(Mu
ltiband Excitation: MBE)符号化やハーモニック符
号化等が知られており、ここでMBE符号化について簡
単に説明する。
一定サンプル数(例えば256サンプル)毎にブロック
化して、FFT等の直交変換により周波数軸上のスペク
トルデータに変換すると共に、該ブロック内の音声のピ
ッチを抽出し、このピッチに応じた間隔で周波数軸上の
スペクトルを帯域分割し、分割された各帯域についてV
(有声音)/UV(無声音)の判別を行っている。この
V/UV判別情報と、上記ピッチ情報及びスペクトルの
振幅データとを符号化して伝送する。
数を8kHzとするとき、全帯域幅は3.4kHz(ただし
有効帯域は200〜3400Hz)であり、女声の高い方
から男声の低い方までのピッチラグ(ピッチ周期に相当
するサンプル数)は、20〜147程度である。従っ
て、ピッチ周波数は、8000/147≒54(Hz)から 8000/
20=400(Hz)程度までの間で変動することになる。
従って、周波数軸上で上記3.4kHzまでの間に約8〜
63本のピッチパルス(ハーモニックス)が立つことに
なる。
の位相情報については、送ってもよいが、いわゆる最小
位相推移法やゼロ位相法等のような手法により復号化側
で位相を決定できるため、送らなくてもよい。
れるデータの一例を図1に示している。
おける周波数軸上のスペクトルエンベロープを示してい
る。この図1の時刻n1 からn2 までの間隔は、符号化
情報の伝送単位となるフレーム間隔に相当しており、各
フレーム毎に得られる符号化された情報としての周波数
軸上の振幅データを、時刻n1 ではA11、A12、A13、
・・・にて、また時刻n2 ではA21、A22、A23、・・
・にてそれぞれ表している。ここで、時刻n=n1 にお
けるピッチ周波数をω1 、時刻n=n2 におけるピッチ
周波数をω2 とする。
クトルエンベロープも、またピッチあるいはハーモニク
スの間隔も異なる2枚のスペクトルを補間し、時刻n1
からn2 までの時間波形を再生するのが、通常のサイン
波合成による復号化の際の主要な処理内容である。
スによる時間波形を得るために、先ず振幅の補間を行
う。上記フレーム間隔のサンプル数をLとすると、時刻
nにおける上記第m番目のハーモニクスあるいはm次ハ
ーモニクスの振幅Am(n)は、
m番目のハーモニクスあるいはm次ハーモニクスの位相
θm(n)を算出するために、この時刻nを上記時刻n1 か
らn0サンプル目、すなわちn−n1 =n0 とすると、
n=n1 における上記m次ハーモニクスの初期位相であ
り、ω1 及びω2 は、それぞれn=n1 及びn=n2 に
おけるピッチとしての基本角周波数であり、2π/ピッ
チラグに相当する。また、mはハーモニクス番号、Lは
フレーム間隔のサンプル数である。
クスの周波数ωm(k)を、 ωm(k)=(n2−k)ω1m/L+(k−n1)ω2m/L ただし、n1≦k<n2として、
形Wm(n) となる。全てのハーモニクスに関する時間波
形の総和を次の(4)式のようにとったものが、最終的
な合成波形V(n) となる。
ン波合成による復号化手法である。
隔のサンプル数Lを例えば160とし、ハーモニクスの
本数mの最大値を64本とするとき、上記(1)、
(2)式の計算に約5回の積和演算が必要とされること
から、 160×64×5=51200 すなわち、1フレーム当り51200回程度のオーダー
の積和演算が必要とされている。
低減するものである。
化方法の好ましい実施例について説明する。
変換(IFFT)によって時間波形を作る場合に注意す
べき点として、単純にn=n1 における振幅列A11、A
12、A13、・・・、及びn=n2 における振幅列A21、
A22、A23、・・・をスペクトルとみなして、IFFT
をとって時間波形に戻して重畳加算(オーバーラップア
ッド:OLA)を行っても、mω1→mω2へとピッチ周
波数が変化してゆくことはない点が挙げられる。例え
ば、100Hzの波形と110Hzの波形のOLAを行って
も、105Hzの波形はつくれない。また、周波数が異な
るため、OLAによって上記(1)式に示したようなA
m(n)が補間されて得られることもない。
ピッチがなだらかにmω1→mω2へと変化するようにす
る。しかしながら、振幅Am を従来のように各ハーモニ
クス毎に補間により求めることは、演算量の低減効果が
得られず意味がないため、IFFT及びOLAにて一気
に算出できるようにすることが望まれる。
前に補間しても、IFFT後に補間しても、同一の結果
が得られる。すなわち、周波数が同じという条件の元で
は、IFFT及びOLAによりその振幅は完全に補間さ
れるわけである。
いては、第m番目のハーモニクス同士が時刻n=n1 と
時刻n=n2 とで同じ周波数になるようにしている。具
体的には、上記図1のスペクトルを図2のように変換す
る、あるいは図2のように見なす。
ても各ハーモニクス間の間隔は全て同一で、1としてい
る。ハーモニクスと隣のハーモニクスとの間には、谷や
0データは存在せず、ハーモニクスの振幅データを横軸
上の左から詰めて使用する。今、例えばn=n1 で上記
ピッチラグ、すなわちピッチ周期に相当するサンプル数
がl1 とすると、0〜πまでの間に l1/2本のハーモ
ニクスが存在し、スペクトルとして l1/2個の要素を
持った配列となる。ここで l1/2が整数でないときは
切り捨てる。これを一定の要素数、例えば2N 個の配列
とするため、残りの部分に0を詰めている。このように
して、 l1/2個のハーモニクスの振幅データと残り2
N−l1/2個の0との2N 個の要素を持つ配列af1[i]
とする。また、n=n2 でのピッチラグをl2 とする
と、同様に l2/2個の要素を持ったスペクトルエンベ
ロープを表現する配列ができるが、同様に0詰めを行っ
て、2N 個の要素を持つ配列af2[i]とする。
在する周波数における位相値を左から詰めて配置し、残
りの部分を0詰めすることにより、一定数2N 個の配列
とする。それらを、 n=n1 について、 pf1[i] 0≦i<2N n=n2 について、 pf2[i] 0≦i<2N ・・・ (6) とする。この場合の各ハーモニクス毎の位相は、伝送さ
れた値又はデコーダ内で作った値を使用する。
=6のとき26 =64である。
[i]及び位相データの配列pf1[i]、pf2[i]の組を用
いて、n=n1 及びn=n2 におけるIFFT、すなわ
ち逆高速フーリエ変換を行う。
1 のときは、それぞれ2N 個ずつの配列af1[i]、pf1
[i]から複素共役になるように2N+1 個の複素データを
作って、それをIFFT処理する。IFFTの結果は、
2N+1 点の実数列となる。なお、実数列を得るIFFT
の演算量削減の方法により、2N 点のIFFTの演算を
行うことも可能である。
びn=n2 におけるスペクトル情報より、1ピッチ周期
分の波形を、元のピッチ周期に拘らず、2N+1 点で表現
したものである。すなわち、本来は上記l1 又はl2 点
で表現される1ピッチ分の波形をオーバーサンプリング
し、常に2N+1 点で表現されていることになる。換言す
れば、実際のピッチによらず常に一定ピッチの波形が1
ピッチ分得られるわけである。
4、2N+1=27=128とし、l1 =30、すなわち
l1/2=15とした場合について、図3を参照しなが
ら説明する。
れた本来のスペクトルエンベロープデータを示し、横軸
(周波数軸)の0〜πまでの範囲に15本のハーモニク
スが立っている。ただし、ハーモニクス間の谷のデータ
も含めて、周波数軸上の要素数は64個である。これを
IFFT処理すると、A2 に示すようにピッチラグが3
0の波形が繰り返されて128点となった時間波形信号
が得られる。
15個のハーモニクスの振幅データを配置したものであ
り、この15個のスペクトルデータをIDFT(離散的
逆フーリエ変換)処理すると、B2 に示すように、1ピ
ッチラグの30サンプル分の時間波形が得られる。
上記15個のハーモニクス振幅データを左から詰めて配
置し、残りの64−15=49点に0詰めを行って64
個の要素としたものをIFFT処理すると、C2 に示す
ように、1ピッチ周期分の波形が128点のサンプルデ
ータの時間波形信号として得られる。このC2 の波形を
上記A2 、B2 と同じサンプル間隔で描くと、図3のD
のようになる。
示すデータ配列at1[j]、at2[j]は、ピッチ周波数が
同一であるので、時間波形の重畳加算でスペクトルエン
ベロープの補間が可能である。
(ω2−ω1)/ω2 |≦0.1の場合には、スペクトル
エンベロープのなだらかな補間を行い、それ以外の場
合、すなわち|(ω2−ω1)/ω2 |>0.1の場合に
は、スペクトルエンベロープの急激な補間を行う。な
お、ω1 、ω2 は、各時刻n1 、n2 のフレームでのピ
ッチ周波数である。
1の場合のなだらかな補間について説明する。
形の長さ(時間)を求める。
何倍のオーバーサンプリングが行われたかを上記各時刻
n=n1 、n=n2 に対応して ovsr1、ovsr2 と表す
と、 ovsr1=2N+1/l1 ovsr2=2N+1/l2 ・・・ (7) となる。これを図4に示す。図4中のLは、フレーム間
隔のサンプル数を示し、例えばL=160である。
オーバーサンプリングレートはリニアに変化してゆくと
する。
グレートを、時刻tの関数として、ovsr(t)と記すと、
オーバーサンプリング前に長さLに対応するオーバーサ
ンプリング後の波形の長さLpは、
ート(ovsr1+ovsr2)/2に、フレーム間隔Lを乗じた
ものである。結果を整数化するために、切り上げたもの
あるいは四捨五入したものを用いる。
の波形を作り出す。
式で、mod(A,B)は、AをBで割った余りを意味して
いる。この(9)式の長さLpの波形は、at1[i]の波
形を繰り返し使用して作り出している。
めの図であり、各々n=n1 、n=n2 において、2
N+1 長の波形at1[i]、at2[i]の中心が来るように位
相調節しているため、上記オフセット値offset' を2N
に設定することが必要になる。このオフセット値offse
t' を0とすれば、各時刻n=n1 、n=n2 で、各波
形at1[i]、at2[i]の先頭がくることになる。
6の波形aとして、また上記(10)式の具体的な一例
を図6の波形bとしてそれぞれ示している。
波形とを補間する。例えば、(9)式の波形に対して
は、時刻n=n1 で1となり時間と共にリニアに減衰し
て時刻n=n2 で0となるような窓かけを行い、また
(10)式の波形に対しては、時刻n=n1 で0となり
時間と共にリニアに増加して時刻n=n2 で1となるよ
うな窓かけを行い、これらを加算する。補間した結果を
aip[i]とすると、
エンベロープの補間が行えたことになる。これは、図7
に示すように、時刻n=n1 のスペクトルエンベロープ
の各ハーモニクスと、時刻n=n2 のスペクトルエンベ
ロープの各ハーモニクスとを補間する操作と等価であ
る。
ートに戻すと同時に、本来のピッチ周波数に戻す。この
とき、同時にピッチの補間を行うことになる。
を表すインデクスiの関数として、
2)式の定義の代わりに、
4)式の定義が最も厳密であるが、上記(12)式で実
用上は充分である。
ーバーサンプルされた波形aip[i]、0≦i<Lpをど
のようなインデックス間隔でリサンプルすれば本来のサ
ンプリングレートに戻せるか、を示している。すなわ
ち、0≦n<Lから0≦i<Lpへのマッピングを行っ
ている。
波形aout[n] は、 aout[n]=aip[idx(n)] 0≦n<L ・・・ (15) により求められるわけであるが、一般にidx(n) は整数
にならない。そこで、例えば直線補間によりaout[n]
を算出する方法を以下に説明するが、より高次の補間を
用いてもよいことは勿論である。
分比に応じて重み付けを行うものである。なお、idx
(n) が整数の場合は、上記(15)式を用いればよ
い。
たい波形(0≦n<L)が得られる。
0.1の場合のスペクトルエンベロープのなだらかな補
間の説明であるが、それ以外の|(ω2−ω1)/ω2 |
>0.1の場合には、スペクトルエンベロープの急激な
補間を行う。
場合について説明する。
ペクトルエンベロープの補間のみを行う。
に対応したオーバーサンプリングのレート ovsr1、ovsr
2 を定義する。
波形の長さをL1、L2とする。
ート ovsr1、ovsr2 はいずれも変化しないため、上記
(8)のような積分を行わずに乗算でよい。この場合、
切り上げ又は四捨五入により、結果を整数化したものを
使う。
at2[i]から、長さL1、L2の波形を作る。
なるサンプリングレートで再度サンプリングされる。さ
きに窓かけを行ってから、再サンプリングしてもよい
が、ここでは先に再サンプルを行って本来のサンプリン
グ周波数fsに戻してから、窓かけ及び重畳加算(OL
A)を行っている。
クスidx1(n)、idx2(n)を求める。
れた波形a1[n] 及びa2[n] (0≦n<L)は、本来
のサンプリング周波数fsに戻された波形で、長さはL
である。この2つの波形に適当な窓かけを行って加算す
る。
ような窓関数Win[n]を乗算し、波形a2[n] には図9
のBに示すような窓関数1−Win[n]を乗算した後、こ
れらを加算する。すなわち、最終出力をaout[n] とす
ると、 aout[n]=a1[n]・Win[n]+a2[n]・(1−W
in[n]) の式により、最終出力をaout[n] を求める。
は、L=160のとき、 Win[n]=1 0≦n< 50 Win[n]=(110-n)/60 50≦n<110 Win[n]=0 110≦n<160 のようなものを用いることができる。
いときの合成方法を述べた。このような合成は、マルチ
バンド励起(MBE)符号化のデコーダ側での有声音部
分の合成に使用できる。これは、V(有声音)/UV
(無声音)のトランジェントを1箇所にした場合や、V
とUVとが混在する場合のV(有声音)部分の合成にも
そのまま用いることができる。この場合、UV(無声
音)のハーモニクスの大きさを0とすればよい。
の動作をまとめたフローチャートを示しており、時刻n
=n1 までの処理が済んで、時刻n=n2 での処理に着
目して表している。
11では、デコーダで得られた時刻n=n2 でのハーモ
ニクスの大きさを示す配列Af2[i]及び位相を示す配列
Pf2[i]を定義する。ここでM2 は、時刻n2 でのハー
モニクスの最大次数を示している。
f2[i]及びPf2[i]を左詰めで配列して残りに0を詰
め、固定長2N の配列を作り、それぞれaf2[i]及びp
f2[i]と定義する。
2N の配列af2[i]及びpf2[i]を用いて、2N+1 点
の逆高速フーリエ変換(IFFT)を行い、結果をat2
[j]とする。
果at1[j]を取り出し、次のステップS15で、時刻n
=n1 及びn=n2 におけるピッチから、連続/不連続
合成を決定する。このステップS15で連続合成と決定
されたときには、ステップS16に進み、不連続合成と
決定された時にはステップS20に進む。
=n2 におけるピッチから、必要な長さLpを上記
(8)式に基づいて算出し、ステップS17に進んで、
at1[j]及びat2[j]を繰り返し使用して、必要な長さ
Lp分を確保する。これは、上記(9)式及び(10)
式の計算に相当する。これらのLp分の波形に、リニア
に減少する三角の窓関数及びリニアに増大する三角の窓
関数をそれぞれかけて加算し、上記(11)式に示すよ
うに、スペクトル補間波形aip[i]を作る。
サンプルして、直線補間をしながら、上記(16)式に
より最終的な出力波形aout[n] を作る。
と決定されたときには、ステップS20に進んで、各時
刻n=n1 、n=n2 のピッチから必要な長さL1、L2
を決定し、次のステップS21に進んで、上記a
t1[j]、at2[j]を繰り返し使用して、必要な長さ
L1、L2分を確保する。これは上記(19)式及び(2
0)式の計算に相当する。
化音声信号の復号化方法によれば、上記Nを6とし、2
N =64、2N+1 =128とするとき、上記逆FFT処
理に要する積和演算量が概略64×7×7となる。これ
は、x点の複素データのIFFTの積和演算量が概略
(x/2)logx×7 であることから、x=128とす
ることで求められる。さらに、上記(11)式、(1
2)式、(16)式、あるいは(19)、(20)式、
(23)、(24)式等に要する積和演算量が160×
12となる。従って復号化に要する積和演算量は、これ
らを合計して、約5056のオーダーの演算量となる。
とされた積和演算量の約51200のオーダーに比べ
て、約1/10以下の積和演算量となっており、復号化
処理のための演算量を大幅に減らすことが可能となる。
は、各ハーモニクスに対応して振幅の補間と、位相ある
いは周波数の補間とを行い、それらの補間された各パラ
メータに従って時々刻々周波数と振幅の変化してゆくハ
ーモニクス1本分の時間波形を算出し、その時間波形を
ハーモニクスの本数分足し合わせて合成波形を得ていた
ため、積和演算量がフレーム当り数万のオーダーとなっ
ていたものが、本発明の実施例の方法を用いることによ
り、数千弱の演算量に削減できる。この合成部分は、マ
ルチバンド励起(MBE)を用いた波形分析合成系でも
最も処理の重い部分であることから、この演算量削減の
実用上の効果は非常に大きい。具体的に、例えばMBE
に適用した場合に、従来では全体で十数MIPS程度の
演算能力が必要とされたのに対して、本発明の実施例に
よれば、数MIPS程度に低減できる。
るものではなく、例えば、本発明が適用される復号化方
法は、上記マルチバンド励起を用いた音声分析/合成方
法のデコーダに限定されるものではなく、有声音部分に
正弦波合成を用いたり、無声音部分をノイズ信号に基づ
いて合成するような他の種々の音声分析/合成方法に適
用でき、用途としても、伝送や記録再生に限定されず、
ピッチ変換やスピード変換、規則音声合成、あるいは雑
音抑圧のような種々の用途に応用できることは勿論であ
る。
に係る符号化音声信号の復号化方法及びその装置によれ
ば、符号化音声信号のフレーム毎の各ハーモニクスの情
報に基づいてサイン波合成により復号化する際に、上記
ハーモニクスの大きさを表すデータ配列に0データを付
加して所定個数の要素を持つ第1の配列とし、上記ハー
モニクスの位相を表すデータ配列に0データを付加して
所定個数の要素を持つ第2の配列とし、上記第1、第2
の配列を用いて時間軸情報に逆変換し、上記逆変換され
て得られた時間波形に基づいて音声信号の時間波形信号
を復元することにより、ピッチの異なるフレーム毎のハ
ーモニクスの情報に基づく再生波形の合成が、少ない演
算量で実現できる。
に応じて、隣接フレーム間でのスペクトルエンベロープ
のなだらかな補間と、急激な補間とを行っているため、
それぞれの状態に適した合成出力波形を得ることができ
る。
各ハーモニクスに対応して振幅の補間と、位相あるいは
周波数の補間とを行い、それらの補間された各パラメー
タに従って時々刻々周波数と振幅の変化してゆくハーモ
ニクス1本分の時間波形を算出し、その時間波形をハー
モニクスの本数分足し合わせて合成波形を得ていたた
め、積和演算量がフレーム当り数万のオーダーとなって
いたものが、本発明の方法を用いることにより、数千弱
の演算量に削減できる。この合成部分は、復号化の全体
の処理中で最も重い部分であるため、この演算量削減の
実用上の効果は非常に大きい。具体的に、例えばマルチ
バンド励起(MBE)符号化方式のデコーダに適用した
場合に、従来では全体で十数MIPS程度の演算能力が
必要とされたのに対して、本発明の方法によれば数MI
PS程度に低減できる。
スの振幅を示す図である。
ける各ハーモニクスを左詰めで配置し残りに0詰めする
処理を説明するための図である。
との関係を説明するための図である。
トを示す図である。
換して得られた時間軸波形を示す図である。
換して得られた時間軸波形に基づいて作られた長さLp
の波形を示す図である。
モニクスと時刻n2 でのスペクトルエンベロープの各ハ
ーモニクスとを補間する操作を示す図である。
プルのための補間処理を説明するための図である。
るための窓関数の例を示す図である。
の前半部分の動作を説明するためのフローチャートであ
る。
の後半部分の動作を説明するためのフローチャートであ
る。
Claims (6)
- 【請求項1】 音声信号が周波数軸情報に変換されてピ
ッチ間隔の各ハーモニクスの情報が符号化されたものが
供給され、上記各ハーモニクスの情報に基づいてサイン
波合成により復号化する符号化音声信号の復号化方法に
おいて、 上記ハーモニクスの大きさを表すデータ配列に0データ
を付加して所定個数の要素を持つ第1の配列とする工程
と、 上記ハーモニクスの位相を表すデータ配列に0データを
付加して所定個数の要素を持つ第2の配列とする工程
と、 上記第1、第2の配列を用いて時間軸情報に逆変換する
逆変換工程と、 上記逆変換されて得られた時間波形を繰り返し使用する
ことで必要な長さを確保し、当該波形に基づいて音声信
号の時間波形信号を復元する復元工程とを有することを
特徴とする符号化音声信号の復号化方法。 - 【請求項2】 隣接する2フレーム分の上記必要な長さ
とされた時間波形に対して所定の窓かけを行って重畳加
算し、 上記重畳加算された波形に対して2フレーム間で変化す
るピッチ周期に応じた補間を行って所定サンプリングレ
ートの時間波形信号を得ることを特徴とする請求項1記
載の符号化音声信号の復号化方法。 - 【請求項3】 隣接する2フレーム分の上記必要な長さ
とされた時間波形に対してそれぞれのピッチ周期に応じ
てリサンプルし、 上記リサンプルされた時間波形に所定の窓かけを行って
重畳加算して時間波形信号を得ることを特徴とする請求
項1記載の符号化音声信号の復号化方法。 - 【請求項4】 音声信号が周波数軸情報に変換されてピ
ッチ間隔の各ハーモニクスの情報が符号化されたものが
供給され、上記各ハーモニクスの情報に基づいてサイン
波合成により復号化する符号化音声信号の復号化装置に
おいて、 上記ハーモニクスの大きさを表すデータ配列に0データ
を付加して所定個数の要素を持つ第1の配列とする手段
と、 上記ハーモニクスの位相を表すデータ配列に0データを
付加して所定個数の要素を持つ第2の配列とする手段
と、 上記第1、第2の配列を用いて時間軸情報に逆変換する
逆変換手段と、 上記逆変換されて得られた時間波形を繰り返し使用する
ことで必要な長さを確保し、当該波形に基づいて音声信
号の時間波形信号を復元する復元手段とを有することを
特徴とする符号化音声信号の復号化装置。 - 【請求項5】 上記復元手段は、隣接 する2フレーム分の上記必要な長さとされた時間波
形に対して所定の窓かけを行って重畳加算する手段と、 上記重畳加算された波形に対して2フレーム間で変化す
るピッチ周期に応じた補間を行って所定サンプリングレ
ートの時間波形信号を得る手段とを有することを特徴と
する請求項4記載の符号化音声信号の復号化装置。 - 【請求項6】 上記復元手段は、隣接 する2フレーム分の上記必要な長さとされた時間波
形に対してそれぞれのピッチ周期に応じてリサンプルす
る手段と、 上記リサンプルされた時間波形に所定の窓かけを行って
重畳加算して時間波形信号を得る手段とを有することを
特徴とする請求項4記載の符号化音声信号の復号化装
置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19845194A JP3528258B2 (ja) | 1994-08-23 | 1994-08-23 | 符号化音声信号の復号化方法及び装置 |
US08/515,913 US5832437A (en) | 1994-08-23 | 1995-08-16 | Continuous and discontinuous sine wave synthesis of speech signals from harmonic data of different pitch periods |
DE69521176T DE69521176T2 (de) | 1994-08-23 | 1995-08-21 | Verfahren zur Dekodierung kodierter Sprachsignale |
EP95305796A EP0698876B1 (en) | 1994-08-23 | 1995-08-21 | Method of decoding encoded speech signals |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19845194A JP3528258B2 (ja) | 1994-08-23 | 1994-08-23 | 符号化音声信号の復号化方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0863197A JPH0863197A (ja) | 1996-03-08 |
JP3528258B2 true JP3528258B2 (ja) | 2004-05-17 |
Family
ID=16391329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP19845194A Expired - Lifetime JP3528258B2 (ja) | 1994-08-23 | 1994-08-23 | 符号化音声信号の復号化方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5832437A (ja) |
EP (1) | EP0698876B1 (ja) |
JP (1) | JP3528258B2 (ja) |
DE (1) | DE69521176T2 (ja) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9600774D0 (en) * | 1996-01-15 | 1996-03-20 | British Telecomm | Waveform synthesis |
JP2000515992A (ja) * | 1996-07-30 | 2000-11-28 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 言語コーディング |
KR100327969B1 (ko) * | 1996-11-11 | 2002-04-17 | 모리시타 요이찌 | 음성재생속도변환장치및음성재생속도변환방법 |
US6202046B1 (en) * | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
FR2768545B1 (fr) * | 1997-09-18 | 2000-07-13 | Matra Communication | Procede de conditionnement d'un signal de parole numerique |
JPH11219199A (ja) * | 1998-01-30 | 1999-08-10 | Sony Corp | 位相検出装置及び方法、並びに音声符号化装置及び方法 |
US6810409B1 (en) | 1998-06-02 | 2004-10-26 | British Telecommunications Public Limited Company | Communications network |
US6622171B2 (en) * | 1998-09-15 | 2003-09-16 | Microsoft Corporation | Multimedia timeline modification in networked client/server systems |
US6266643B1 (en) | 1999-03-03 | 2001-07-24 | Kenneth Canfield | Speeding up audio without changing pitch by comparing dominant frequencies |
US6377914B1 (en) * | 1999-03-12 | 2002-04-23 | Comsat Corporation | Efficient quantization of speech spectral amplitudes based on optimal interpolation technique |
US6311158B1 (en) * | 1999-03-16 | 2001-10-30 | Creative Technology Ltd. | Synthesis of time-domain signals using non-overlapping transforms |
JP3450237B2 (ja) * | 1999-10-06 | 2003-09-22 | 株式会社アルカディア | 音声合成装置および方法 |
JP4509273B2 (ja) * | 1999-12-22 | 2010-07-21 | ヤマハ株式会社 | 音声変換装置及び音声変換方法 |
US7302490B1 (en) * | 2000-05-03 | 2007-11-27 | Microsoft Corporation | Media file format to support switching between multiple timeline-altered media streams |
US7366661B2 (en) | 2000-12-14 | 2008-04-29 | Sony Corporation | Information extracting device |
KR100601748B1 (ko) * | 2001-01-22 | 2006-07-19 | 카나스 데이터 코포레이션 | 디지털 음성 데이터의 부호화 방법 및 복호화 방법 |
US6845359B2 (en) * | 2001-03-22 | 2005-01-18 | Motorola, Inc. | FFT based sine wave synthesis method for parametric vocoders |
DE07003891T1 (de) * | 2001-08-31 | 2007-11-08 | Kabushiki Kaisha Kenwood, Hachiouji | Vorrichtung und Verfahren zur Erzeugung von Tonhöhenwellensignalen und Vorrichtung sowie Verfahren zum Komprimieren, Erweitern und Synthetisieren von Sprachsignalen unter Verwendung dieser Tonhöhenwellensignale |
US7421304B2 (en) | 2002-01-21 | 2008-09-02 | Kenwood Corporation | Audio signal processing device, signal recovering device, audio signal processing method and signal recovering method |
US7027980B2 (en) * | 2002-03-28 | 2006-04-11 | Motorola, Inc. | Method for modeling speech harmonic magnitudes |
US6907632B2 (en) * | 2002-05-28 | 2005-06-21 | Ferno-Washington, Inc. | Tactical stretcher |
USH2172H1 (en) * | 2002-07-02 | 2006-09-05 | The United States Of America As Represented By The Secretary Of The Air Force | Pitch-synchronous speech processing |
JP2004054526A (ja) * | 2002-07-18 | 2004-02-19 | Canon Finetech Inc | 画像処理システム、印刷装置、制御方法、制御コマンド実行方法、プログラムおよび記録媒体 |
US7912708B2 (en) * | 2002-09-17 | 2011-03-22 | Koninklijke Philips Electronics N.V. | Method for controlling duration in speech synthesis |
US6965859B2 (en) * | 2003-02-28 | 2005-11-15 | Xvd Corporation | Method and apparatus for audio compression |
US7376553B2 (en) * | 2003-07-08 | 2008-05-20 | Robert Patel Quinn | Fractal harmonic overtone mapping of speech and musical sounds |
EP1700266A4 (en) * | 2003-12-19 | 2010-01-20 | Creative Tech Ltd | METHOD AND SYSTEM FOR PROCESSING A DIGITAL IMAGE |
CN101044553B (zh) * | 2004-10-28 | 2011-06-01 | 松下电器产业株式会社 | 可扩展编码装置、可扩展解码装置及其方法 |
EP3136671A1 (en) | 2005-10-21 | 2017-03-01 | Apple Inc. | Multiplexing schemes for ofdma |
US8229106B2 (en) * | 2007-01-22 | 2012-07-24 | D.S.P. Group, Ltd. | Apparatus and methods for enhancement of speech |
US9236064B2 (en) | 2012-02-15 | 2016-01-12 | Microsoft Technology Licensing, Llc | Sample rate converter with automatic anti-aliasing filter |
CN103426441B (zh) | 2012-05-18 | 2016-03-02 | 华为技术有限公司 | 检测基音周期的正确性的方法和装置 |
CN107068160B (zh) * | 2017-03-28 | 2020-04-28 | 大连理工大学 | 一种语音时长规整系统及方法 |
EP3616197A4 (en) * | 2017-04-28 | 2021-01-27 | DTS, Inc. | AUDIO ENCODER WINDOW SIZES AND TIME-FREQUENCY TRANSFORMATIONS |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4937873A (en) * | 1985-03-18 | 1990-06-26 | Massachusetts Institute Of Technology | Computationally efficient sine wave synthesis for acoustic waveform processing |
US4797926A (en) * | 1986-09-11 | 1989-01-10 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech vocoder |
US5086475A (en) * | 1988-11-19 | 1992-02-04 | Sony Corporation | Apparatus for generating, recording or reproducing sound source data |
US5226084A (en) * | 1990-12-05 | 1993-07-06 | Digital Voice Systems, Inc. | Methods for speech quantization and error correction |
US5327518A (en) * | 1991-08-22 | 1994-07-05 | Georgia Tech Research Corporation | Audio analysis/synthesis system |
US5504833A (en) * | 1991-08-22 | 1996-04-02 | George; E. Bryan | Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications |
US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
US5517595A (en) * | 1994-02-08 | 1996-05-14 | At&T Corp. | Decomposition in noise and periodic signal waveforms in waveform interpolation |
-
1994
- 1994-08-23 JP JP19845194A patent/JP3528258B2/ja not_active Expired - Lifetime
-
1995
- 1995-08-16 US US08/515,913 patent/US5832437A/en not_active Expired - Lifetime
- 1995-08-21 EP EP95305796A patent/EP0698876B1/en not_active Expired - Lifetime
- 1995-08-21 DE DE69521176T patent/DE69521176T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69521176D1 (de) | 2001-07-12 |
US5832437A (en) | 1998-11-03 |
EP0698876B1 (en) | 2001-06-06 |
JPH0863197A (ja) | 1996-03-08 |
DE69521176T2 (de) | 2001-12-06 |
EP0698876A2 (en) | 1996-02-28 |
EP0698876A3 (en) | 1997-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3528258B2 (ja) | 符号化音声信号の復号化方法及び装置 | |
JP6644856B2 (ja) | サブバンドブロックに基づく高調波移調の改善 | |
JP4473913B2 (ja) | スペクトル/変調スペクトル域表現における変形による情報信号処理 | |
RU2494478C1 (ru) | Передискретизация в комбинированном банке фильтров транспозитора | |
JP3203250B2 (ja) | 低計算複雑性デジタルフィルタバンク | |
JP3475446B2 (ja) | 符号化方法 | |
JPH1097287A (ja) | 周期信号変換方法、音変換方法および信号分析方法 | |
EP2306453B1 (en) | Audio signal compression device, audio signal compression method, audio signal decoding device, and audio signal decoding method | |
JPH10319996A (ja) | 雑音の効率的分解と波形補間における周期信号波形 | |
US6253172B1 (en) | Spectral transformation of acoustic signals | |
JP3297751B2 (ja) | データ数変換方法、符号化装置及び復号化装置 | |
JP3237178B2 (ja) | 符号化方法及び復号化方法 | |
JP3218679B2 (ja) | 高能率符号化方法 | |
JP3362471B2 (ja) | 音声信号の符号化方法及び復号化方法 | |
Arakawa et al. | High quality voice manipulation method based on the vocal tract area function obtained from sub-band LSP of STRAIGHT spectrum | |
JP4274614B2 (ja) | オーディオ信号復号方法 | |
JPH0651800A (ja) | データ数変換方法 | |
JP3731575B2 (ja) | 符号化装置及び復号装置 | |
JP3297750B2 (ja) | 符号化方法 | |
JP3271193B2 (ja) | 音声符号化方法 | |
JP3384523B2 (ja) | 音響信号処理方法 | |
JP3218681B2 (ja) | 背景雑音検出方法及び高能率符号化方法 | |
JP3321933B2 (ja) | ピッチ検出方法 | |
CN117935826B (zh) | 音频升采样方法、装置、设备及存储介质 | |
JP3472974B2 (ja) | 音響信号符号化方法および音響信号復号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040216 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080305 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090305 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100305 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100305 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110305 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120305 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120305 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140305 Year of fee payment: 10 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |