JP2658438B2 - Audio coding method and apparatus - Google Patents
Audio coding method and apparatusInfo
- Publication number
- JP2658438B2 JP2658438B2 JP1270263A JP27026389A JP2658438B2 JP 2658438 B2 JP2658438 B2 JP 2658438B2 JP 1270263 A JP1270263 A JP 1270263A JP 27026389 A JP27026389 A JP 27026389A JP 2658438 B2 JP2658438 B2 JP 2658438B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- signal
- sound source
- parameter
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声信号を低いビットレート、特に4.8kb/s
程度で、比較的少ない演算量により高品質に符号化する
ための音声符号化方式に関する。DETAILED DESCRIPTION OF THE INVENTION [Industrial Field of the Invention] The present invention relates to an audio signal having a low bit rate, particularly 4.8 kb / s.
The present invention relates to a speech coding system for performing high-quality coding with a relatively small amount of computation.
音声信号を4.8kb/s程度の低いビットレートで符号化
する方式としては、例えば特願昭63−208201号明細書
(文献1)等に記載されている音声符号化方式が知られ
ている。この方式では、送信側では、フレーム毎の音声
信号から音声信号のスペクトル特性を表すスペクトルパ
ラメータとピッチ周期を表すピッチパラメータを抽出
し、音声信号を音響的特徴を用いて複数種類(母音性,
破裂性,摩擦性など)に分類し、母音性区間では1フレ
ームの音源信号を改良ピッチ補間により次のように表
す。1フレームをピッチ区間毎に分割した複数個のピッ
チ区間のうちの一つのピッチ区間(代表区間)について
マルチパルスを求める。同じフレームの他のピッチ区間
では、代表区間におけるマルチパルスの振幅,位相を補
正するための振幅,位相補正係数をピッチ区間毎に求め
る。そして代表区間のマルチパルスの振幅,位相、他の
ピッチ区間での振幅,位相補正係数とスペクトル,ピッ
チパラメータを伝送する。また、破裂,過渡性区間では
フレーム全体でマルチパルスを求める。また、摩擦性区
間では、予め定められた種類の雑音信号からなるコード
ブックから、雑音信号により合成した信号と入力音声信
号との誤差電力を最小化するように一種類の雑音信号を
選択するとともに最適なゲインを計算する。そして雑音
信号の種類を表すインデクスとゲインを伝送する。As a method of encoding an audio signal at a low bit rate of about 4.8 kb / s, for example, an audio encoding method described in Japanese Patent Application No. 63-208201 (Document 1) is known. In this method, the transmitting side extracts a spectrum parameter representing a spectrum characteristic of a speech signal and a pitch parameter representing a pitch period from a speech signal of each frame, and uses the acoustic feature to divide the speech signal into a plurality of types (vowel,
Bursting, friction, etc.), and in the vowel section, the sound source signal of one frame is represented as follows by improved pitch interpolation. A multi-pulse is obtained for one pitch section (representative section) of a plurality of pitch sections obtained by dividing one frame for each pitch section. In other pitch sections of the same frame, an amplitude and phase correction coefficient for correcting the amplitude and phase of the multi-pulse in the representative section are obtained for each pitch section. Then, the amplitude and phase of the multi-pulse in the representative section, the amplitude in other pitch sections, the phase correction coefficient and spectrum, and the pitch parameter are transmitted. In addition, in a burst or transient section, a multipulse is obtained for the entire frame. In the frictional section, one type of noise signal is selected from a codebook including a predetermined type of noise signal so as to minimize the error power between the signal synthesized from the noise signal and the input audio signal. Calculate the optimal gain. Then, an index indicating the type of the noise signal and the gain are transmitted.
上述した従来方式では、周囲雑音等の影響がなくピッ
チ周期が正しく抽出されるときは、母音性区間において
良好な音質の再生音声を得ることが可能であった。しか
しながら、話者により入力音声信号のピッチ周期が極端
に長いときや、ピッチ周期が極端に短いとき、あるいは
入力音声信号に周囲雑音等が重畳した場合などで、ピッ
チ周期が誤って抽出されると、母音性区間で音質がかな
り劣化していた。この劣化は、ピッチ補間の際に誤った
ピッチ周期を用いて補間処理を行い音源信号を復元する
と、位相歪が発生することに起因する。従ってピッチ周
期を正確に求めることは良好な音質を保持するために重
要であった。In the above-described conventional method, when the pitch period is correctly extracted without being affected by ambient noise or the like, it is possible to obtain a reproduced sound having good sound quality in a vowel section. However, if the pitch period is erroneously extracted by the speaker when the pitch period of the input voice signal is extremely long, when the pitch period is extremely short, or when ambient noise or the like is superimposed on the input voice signal. In the vowel section, the sound quality was considerably deteriorated. This deterioration is caused by the occurrence of phase distortion when an interpolation process is performed using an incorrect pitch period during pitch interpolation to restore a sound source signal. Therefore, it is important to accurately determine the pitch period in order to maintain good sound quality.
本発明の目的は、上述した問題点を解決し、比較的少
ない演算量により4.8kb/s程度で音質の良好な音声符号
化方式を提供することにある。SUMMARY OF THE INVENTION It is an object of the present invention to solve the above-mentioned problems and to provide a speech encoding system with a good sound quality at about 4.8 kb / s with a relatively small amount of calculation.
第1の発明は、入力した離散的な音声信号から予め定
められたフレーム毎にスペクトル包絡を表すスペクトル
パラメータとピッチを表すピッチパラメータを求め、前
記音声信号の音源信号を前記ピッチパラメータを用いて
効率的に表し符号化する音声符号化方法において、 複数種類の異なるピッチ周期を計算し、前記ピッチ周
期の各々に対して前記フレーム区間を前記ピッチ周期に
応じた小区間に分割し、前記小区間の内の1つの区間に
おいて複数個のパルスから構成されるマルチパルスを求
め、他の小区間では前記マルチパルスの振幅あるいは位
相の少なくとも一方を補正する補正係数を求めて音源信
号を復元し、前記復元音源信号と前記音声信号から誤差
電力を求め、前記誤差電力が最小になるピッチ周期を選
択することを特徴とする。According to a first aspect of the present invention, a spectrum parameter representing a spectrum envelope and a pitch parameter representing a pitch are determined for each predetermined frame from an input discrete voice signal, and a sound source signal of the voice signal is efficiently used by using the pitch parameter. In a speech encoding method for representing and encoding, a plurality of types of different pitch periods are calculated, and for each of the pitch periods, the frame section is divided into small sections corresponding to the pitch period. In one of the sections, a multi-pulse composed of a plurality of pulses is obtained, and in another small section, a correction coefficient for correcting at least one of the amplitude and the phase of the multi-pulse is obtained to restore a sound source signal. An error power is obtained from a sound source signal and the audio signal, and a pitch cycle in which the error power is minimized is selected.
また第2の発明は、入力した離散的な音声信号から予
め定められたフレーム毎にスペクトル包絡を表すスペク
トルパラメータを求め符号化するスペクトルパラメータ
計算手段と、 ピッチを表すピッチパラメータを求めて符号化するピ
ッチパラメータ計算手段と、 前記音声信号の音源信号を前記ピッチパラメータを用
いて効率的に表し符号化する音声符号化装置において、 異なるピッチ周期を計算する複数種類のピッチ周期計
算手段と、 前記ピッチ周期の各々に対して前記フレーム区間を前
記ピッチ周期に応じた小区間に分割し、前記小区間の内
の1つの区間において複数個のパルスから構成されるマ
ルチパルスを求め、他の小区間では前記マルチパルスの
振幅あるいは位相の少なくとも一方を補正する補正係数
を求めて符号化しさらに音源信号を復元する音源計算手
段と、 前記ピッチ周期の各々に対して前記復元音源信号と前
記音声信号から誤差電力を求め、前記誤差電力の最小値
に対応するピッチ周期を選択する選択手段と、 前記スペクトルパラメータ計算手段と前記選択手段と
前記音源計算手段から出力される符号を組み合わせて出
力する出力手段とを有することを特徴とする。In the second invention, a spectrum parameter calculating means for obtaining and coding a spectrum parameter representing a spectrum envelope for each predetermined frame from an input discrete voice signal, and obtaining and coding a pitch parameter representing a pitch A pitch parameter calculation unit; a speech encoding device that efficiently represents and encodes the excitation signal of the speech signal using the pitch parameter; a plurality of types of pitch period calculation units that calculate different pitch periods; , The frame section is divided into small sections corresponding to the pitch period, and a multi-pulse composed of a plurality of pulses is obtained in one of the small sections. A correction coefficient for correcting at least one of the amplitude and the phase of the multi-pulse is obtained and encoded, and Sound source calculating means for restoring a signal, for each of the pitch periods, determining error power from the restored sound source signal and the audio signal, and selecting means for selecting a pitch cycle corresponding to a minimum value of the error power, The apparatus is characterized in that it has a spectrum parameter calculation means, an output means for combining and outputting codes output from the selection means and the sound source calculation means.
本発明による音声符号化方式は、特にピッチ抽出の方
法に特徴がある。フレーム区間(例えば20ms)毎の音声
信号から、異なるN種類のピッチ抽出法を並列に用いて
N種類のピッチ周期(T1〜TN)を計算する。The speech encoding system according to the present invention is particularly characterized by a pitch extraction method. N types of pitch periods (T 1 to T N ) are calculated from audio signals in each frame section (for example, 20 ms) by using N different types of pitch extraction methods in parallel.
ここでピッチ周期の抽出法としては、例えば、周知の
自己相関関数に基づく方法、変形共分散関数を用いる方
法、予測残差信号の自己相関関数を用いる方法、ケプス
トラムを用いる方法、AMDF関数を用いる方法などがあ
る。各方法については、例えば、Markel,Gray氏らによ
る“Linear Prediction"(Springer−Verlag社1975年)
と題した刊行物(文献2)や、Rabiner氏らによる“A C
omparative Performance Study of Several Pitch Dete
ction Algorithms"(IEEE Trans.A.S.S.P.,pp.399−41
8,1976)(文献3)や、Ramachandran“Pitch Predicti
on Filters in Speech Coding"(IEEE Trans.Acoust.Sp
eech and Signal Processing,pp.467−478,1989)と題
した論文(文献4)等を参照できるので、ここでは説明
は省略する。Here, as a method of extracting the pitch period, for example, a method based on a well-known autocorrelation function, a method using a modified covariance function, a method using an autocorrelation function of a prediction residual signal, a method using a cepstrum, and using an AMDF function There are methods. Each method is described in, for example, "Linear Prediction" by Markel, Gray et al. (Springer-Verlag, 1975)
And the "AC" by Rabiner et al.
omparative Performance Study of Several Pitch Dete
ction Algorithms "(IEEE Trans. ASSP, pp. 399-41
8,1976) (Reference 3) and Ramachandran “Pitch Predicti
on Filters in Speech Coding "(IEEE Trans.Acoust.Sp
eech and Signal Processing, pp. 467-478, 1989), which can be referred to, and the description thereof is omitted here.
N種類のピッチ周期に対して、フレーム区間の音声信
号をピッチ周期に等しい長さのサブフレーム区間に分割
し、一つのサブフレーム区間でマルチパルスを一旦求め
る。そして他のサブフレームでは前記マルチパルスのゲ
イン,位相を補正するためのゲイン,位相補正係数を求
め、フレームの音源信号を復元する。以上の処理を各ピ
ッチ周期に対して並列に行う。そして入力音声との誤差
電力が最も小さくなるピッチ周期を選択する。For N types of pitch periods, the audio signal in the frame section is divided into subframe sections having a length equal to the pitch period, and a multipulse is once obtained in one subframe section. In other subframes, a gain and a phase correction coefficient for correcting the gain and phase of the multi-pulse are obtained, and the sound source signal of the frame is restored. The above processing is performed in parallel for each pitch cycle. Then, a pitch cycle that minimizes the error power with respect to the input voice is selected.
次に前記選択されたピッチ周期を用いて音源信号を計
算し符号化するのであるが、これらの処理は前記文献1
の音源信号計算回路,符号化回路等を参照できる。Next, the excitation signal is calculated and encoded by using the selected pitch period.
, The excitation signal calculation circuit, the encoding circuit, and the like.
第1図は、第1の本発明による音声符号化方式を実施
する音声符号化装置の構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of a speech encoding apparatus that implements the speech encoding method according to the first invention.
図において、送信側では、入力端子100から音声信号
を入力し、1フレーム分(例えば20ms)の音声信号をバ
ッファメモリ110に格納する。In the figure, on the transmission side, an audio signal is input from an input terminal 100, and an audio signal for one frame (for example, 20 ms) is stored in a buffer memory 110.
LPS分析回路130は、フレームの音声信号のスペクトル
特性を表すパラメータとして、Kパラメータを前記フレ
ームの音声信号から周知のLPC分析を行い、予め定めら
れた次数Pだけ計算する。この具体的な計算法について
は前記文献1のKパラメータ計算回路を参照することが
できる。なお、KパラメータはPARCOR係数と同一のもの
である。次にKパラメータを予め定められた量子化ビッ
ト数で量子化して得た符号lkをマルチプレクサ260へ出
力するとともに、これを復号化してさらに線形予測係数
ai′(i=1〜M)に変換し、重み付け回路200,インパ
ルス応答計算回路170,合成フィルタ281へ出力する。K
パラメータの符号化,Kパラメータから線形予測係数への
変換の方法については、前記文献1等を参照できる。The LPS analysis circuit 130 performs a well-known LPC analysis from the audio signal of the frame as a parameter representing the spectral characteristic of the audio signal of the frame, and calculates a predetermined order P. For the specific calculation method, reference can be made to the K-parameter calculation circuit of the above-mentioned document 1. Note that the K parameter is the same as the PARCOR coefficient. Then the code l k obtained by quantizing the number predetermined quantization bits of K parameters and outputs to the multiplexer 260, further the linear prediction coefficients and decodes it
a i ′ (i = 1 to M) and output to the weighting circuit 200, the impulse response calculation circuit 170, and the synthesis filter 281. K
For the method of parameter encoding and the conversion from the K parameter to the linear prediction coefficient, reference can be made to the above-mentioned document 1.
ピッチ周期計算回路150では、第2図に詳細を示すよ
うに、まず複数種類の異なるピッチ周期抽出回路1511〜
151Nを並列に動作させ、フレーム毎の音声信号のピッチ
周期T1〜TNを計算する。ピッチ周期の計算法としては、
例えば、周知の自己相関関数に基づく方法、変形共分散
関数を用いる方法、予測残差信号の自己相関関数を用い
る方法、ケプストラムを用いる方法、AMDF関数を用いる
方法などがある。各方法については、例えば、前記文献
2〜4を参照することができるので、ここでは説明は省
略する。In the pitch cycle calculation circuit 150, as shown in detail in FIG. 2, first, a plurality of types of different pitch cycle extraction circuits 151 1 to 151 1 .
151 N are operated in parallel, and pitch periods T 1 to T N of the audio signal for each frame are calculated. To calculate the pitch period,
For example, there are a method based on a well-known autocorrelation function, a method using a modified covariance function, a method using an autocorrelation function of a prediction residual signal, a method using a cepstrum, and a method using an AMDF function. For the respective methods, for example, the above-mentioned documents 2 to 4 can be referred to, and thus the description is omitted here.
マルチパルス計算回路1521〜152Nでは、フレーム区間
を前記ピッチ周期T1〜TNを用いてピッチ周期毎のサブフ
レームに分割し、一つのサブフレーム(例えばフレーム
の先頭のサブフレーム)に対して予め定められた個数の
マルチパルスを求める。マルチパルスの振幅,位相の計
算法としては、例えば特願昭57−231603号明細書(文献
5)等を参照できる。In multi-pulse computing circuit 152 1 -152 N, and divided into sub-frames per pitch cycle frame section using the pitch period T 1 through T N, with respect to one sub-frame (e.g., the head of the sub-frame of the frame) To obtain a predetermined number of multi-pulses. As a method of calculating the amplitude and phase of the multi-pulse, for example, Japanese Patent Application No. 57-231603 (Reference 5) can be referred to.
次に補正係数計算回路1531〜153Nは、前記マルチパル
スを用いて、同一フレームの他のサブフレームにおける
前記マルチパルスのゲイン,位相補正係数をサブフレー
ム毎に計算する。補正係数計算の具体的な方法について
は、前記文献1等を参照できるのでここでは説明を省略
する。Then the correction coefficient calculation circuit 153 1 ~153 N, using the multi-pulse, calculating the multi-pulse of the gain in the other subframes of the same frame, the phase correction coefficient for each sub-frame. Since a specific method of calculating the correction coefficient can be referred to the above-mentioned document 1, etc., the description is omitted here.
次に誤差電力計算回路1541〜154Nは、マルチパルスと
補正係数を用いて次式によりフレームの音源信号v
(n)を復元する。Next, the error power calculation circuits 154 1 to 154 N use the multi-pulse and the correction coefficient to calculate the excitation signal v
(N) is restored.
ここでcj,djはサブフレーム区間jで求めたゲイン,位
相補正係数である。gi,miは先頭のサブフレームを求め
たi番目のマルチパルスの振幅,位相を示す。Tはピッ
チ周期である。 Here, c j and dj are gain and phase correction coefficients obtained in the subframe section j. g i, m i is the leading sub-frame i-th determined multi pulse amplitude, indicating the phase. T is the pitch period.
復元した音源信号を用いて信号を再生し入力音声信号
との聴感重み付け誤差電力Ewは次式のようになる。A signal is reproduced using the restored sound source signal, and the audibility weighting error power E w with respect to the input audio signal is expressed by the following equation.
ここでΦは、次式で表される聴感重み付け入力信号xw
(n)と、聴感重み付け合成フィルタのインパルス応答
hw(n)との相互相関関数である。 Here, Φ is a perceptual weighting input signal x w represented by the following equation.
(N) and the impulse response of the auditory weighting synthesis filter
hw (n).
またRhh(m)はインパルス応答hw(n)の自己相関
関数である。 R hh (m) is an autocorrelation function of the impulse response h w (n).
ここで、各サブフレーム毎にゲイン補正係数を求めた
ときに各サブフレーム毎の聴感重み付け誤差電力Ewjは
次式のように計算できる。 Here, when the gain correction coefficient is obtained for each sub-frame, the perceptual weighting error power E wj for each sub-frame can be calculated as in the following equation.
従って、聴感重み付け誤差電力は(2)また(3)式
を用いることにより、信号を実際に再生しなくても計算
することができる。また、(2),(3)式の第1項は
フレーム内では定数であるので、聴感重み付け誤差電力
を最小化するには、(2),(3)式の右辺第2項と第
3項の和を最大化すればよい。従って、ピッチ周期選択
回路155は、(2),(3)式の第2項と第3項の和が
最大となるピッチ周期をT1〜TNのうちから選択して出力
する。 Therefore, the perceptual weighting error power can be calculated by using the equations (2) and (3) without actually reproducing the signal. Since the first term of the equations (2) and (3) is a constant in the frame, the second term and the third term of the right side of the equations (2) and (3) are required to minimize the perceptual weighting error power. What is necessary is just to maximize the sum of the terms. Therefore, the pitch cycle selection circuit 155 selects and outputs the pitch cycle in which the sum of the second and third terms in the equations (2) and (3) is the largest from T 1 to T N.
第1図にもどって、符号器160は、選択されたピッチ
周期を予め定められたビット数で量子化して得た符号を
マルチプレクサ260へ出力するとともに、これを復号化
して得た復号ピッチ周期T′を駆動音源復元回路283,音
源計算回路220,補正係数計算回路270へ出力する。Returning to FIG. 1, encoder 160 outputs a code obtained by quantizing the selected pitch period with a predetermined number of bits to multiplexer 260, and decodes the code to a decoding pitch period T obtained by decoding the code. 'To the driving sound source restoring circuit 283, the sound source calculating circuit 220, and the correction coefficient calculating circuit 270.
インパルス応答計算回路170は、前記線形予測係数
ai′を用いて、聴感重み付けを行った合成フィルタのイ
ンパルス応答hw(n)を計算し、これを自己相関関数計
算回路180,相互相関関数計算回路210へ出力する。The impulse response calculation circuit 170 calculates the linear prediction coefficient
Using a i ′, the impulse response h w (n) of the synthesis filter subjected to the perceptual weighting is calculated, and this is output to the auto-correlation function calculation circuit 180 and the cross-correlation function calculation circuit 210.
自己相関関数計算回路180は、前記インパルス応答の
自己相関関数Rhh(n)を予め定められた遅れ時間まで
計算して出力する。インパルス応答計算回路170、自己
相関関数計算回路180の動作は前記文献1等を参照する
ことができる。The autocorrelation function calculation circuit 180 calculates and outputs an autocorrelation function R hh (n) of the impulse response up to a predetermined delay time. The operation of the impulse response calculation circuit 170 and the autocorrelation function calculation circuit 180 can be referred to the above-mentioned document 1.
減算器190は、フレームの音声信号x(n)から合成
フィルタ281の出力を1フレーム分減算し減算結果を重
み付け回路200へ出力する。The subtractor 190 subtracts the output of the synthesis filter 281 for one frame from the audio signal x (n) of the frame, and outputs the subtraction result to the weighting circuit 200.
重み付け回路200は、前記減算結果をインパルス応答
がw(n)で表される聴感重み付けフィルタに通し、重
み付け信号xw(n)を得てこれを出力する。重み付けの
方法は、前記文献1等を参照できる。The weighting circuit 200 passes the subtraction result through an auditory weighting filter whose impulse response is represented by w (n), obtains a weighting signal xw (n), and outputs the signal. For the weighting method, reference can be made to the aforementioned reference 1.
相互相関関数計算回路210は、xw(n)とhw(n)を
入力して相互相関関数Φxhを予め定められた遅れ時間ま
で計算し出力する。この計算法は、前記文献1等を参照
できる。The cross-correlation function calculation circuit 210 inputs x w (n) and h w (n), calculates and outputs a cross-correlation function Φ xh up to a predetermined delay time. This calculation method can be referred to the above-mentioned document 1.
次に音源計算回路220は、符号器160で得られたピッチ
周期を用いて、入力音声の母音性区間では改良ピッチ補
間にもとづき、フレームをピッチ周期に等しい長さのピ
ッチ区間に分割し、一つのピッチ区間(代表区間)にお
いて予め定められた個数のマルチパルスの振幅と位相を
求める。具体的な方法は前記文献1を参照できる。Next, using the pitch period obtained by the encoder 160, the sound source calculation circuit 220 divides the frame into pitch sections having a length equal to the pitch period, based on the improved pitch interpolation in the vowel section of the input speech. The amplitude and the phase of a predetermined number of multi-pulses in one pitch section (representative section) are obtained. The specific method can be referred to the aforementioned document 1.
パルス符号器225は、代表区間のマルチパルスの振幅g
i,位相miを予め定められたビット数で符号化してマルチ
プレクサ260へ出力するとともに、これらを復号化して
補正係数計算回路270,駆動音源復元回路283へ出力す
る。The pulse encoder 225 calculates the multi-pulse amplitude g of the representative section.
i and phase mi are coded with a predetermined number of bits and output to multiplexer 260, and are decoded and output to correction coefficient calculation circuit 270 and driving sound source restoration circuit 283.
補正係数計算回路270は、代表区間以外のピッチ区間
におけるゲイン,位相補正係数を求め出力する。The correction coefficient calculation circuit 270 calculates and outputs gain and phase correction coefficients in pitch sections other than the representative section.
符号器230は、ゲイン補正係数ck,位相補正係数dkを予
め定められたビット数で符号化してマルチプレクサ260
へ出力する。さらに、これらを復号化して駆動信号復元
回路283へ出力する。The encoder 230 encodes the gain correction coefficient c k and the phase correction coefficient d k with a predetermined number of bits, and
Output to Furthermore, these are decoded and output to the drive signal restoration circuit 283.
駆動音源復元回路283は、ピッチ周期T′を用いてフ
レームをピッチ周期に等しいピッチ区間毎に分割し、代
表区間に前記マルチパルスにより求めた音源信号d
(n)を発生し、代表区間以外のピッチ区間では、前記
代表区間の音源信号と復号化されたゲイン補正係数、復
号化された位相補正係数を用いて、次式に従いフレーム
全体の音源信号v(n)を復元する。The driving sound source restoring circuit 283 divides the frame into pitch intervals equal to the pitch period using the pitch period T ′, and generates a sound source signal d obtained by the multipulse in a representative interval.
(N) is generated, and in a pitch section other than the representative section, using the excitation signal of the representative section, the decoded gain correction coefficient, and the decoded phase correction coefficient, the excitation signal v (N) is restored.
v(n)=Σck・d(n−T′−dk)+d(n)・・・
(11) 合成フィルタ281は、復元された音源信号v(n)を
入力し、線形予測係数ai′を入力して1フレーム分の合
成音声信号を求めるとともに、次のフレームへの影響信
号を1フレーム分計算しこれを減算器190へ出力する。
なお、影響信号の計算法は前記特願昭57−231605号明細
書等を参照できる。v (n) = {c k · d (n−T′−d k ) + d (n)
(11) The synthesis filter 281 receives the reconstructed sound source signal v (n), inputs the linear prediction coefficient a i ′, obtains a synthesized speech signal for one frame, and outputs an influence signal for the next frame. The calculation for one frame is output to the subtractor 190.
The calculation method of the influence signal can be referred to the specification of Japanese Patent Application No. 57-231605.
これらの回路における詳細な計算方法については、前
記文献1の音源信号計算回路、ゲイン,位相補正係数計
算回路、駆動信号復元回路等を参照できる。For a detailed calculation method in these circuits, reference can be made to the sound source signal calculation circuit, the gain and phase correction coefficient calculation circuit, the drive signal restoration circuit, and the like in Document 1 described above.
マルチプレクサ260は、代表区間のマルチパルスの振
幅,位相を表す符号、代表区間のフレーム内の位置を表
す符号、ピッチ周期の符号、ゲイン補正係数,位相補正
係数を表す符号、Kパラメータを表す符号を組み合わせ
て出力する。The multiplexer 260 includes a code indicating the amplitude and phase of the multi-pulse in the representative section, a code indicating the position in the frame of the representative section, a code of the pitch period, a code indicating the gain correction coefficient and the phase correction coefficient, and a code indicating the K parameter. Output in combination.
第3図は第2の発明を実施する音声符号化装置の構成
を示すブロック図である。第3図において第1図,第2
図と同一の番号を付した構成要素は第1図,第2図と同
一の動作を行うので、説明は省略する。FIG. 3 is a block diagram showing a configuration of a speech encoding device embodying the second invention. 1 and 2 in FIG.
The components having the same reference numerals as those in the figures perform the same operations as those in FIGS. 1 and 2, and therefore description thereof will be omitted.
本発明では、ピッチ周期計算回路1511〜151Nにより、
異なるN種類のピッチ周期T1〜TNを抽出する。そしてこ
れらのピッチ周期を用いて、音源計算回路2201〜220N、
符号器2251〜225N、補正係数計算回路2701〜270N、符号
器2301〜230N、誤差電力計算回路1541〜154Nを並列に動
作させ、N種類の符号化を行う。In the present invention, by the pitch period calculation circuits 151 1 to 151 N ,
N different pitch periods T 1 to T N are extracted. Then, using these pitch periods, the sound source calculation circuits 220 1 to 220 N ,
The encoders 225 1 to 225 N , the correction coefficient calculation circuits 270 1 to 270 N , the encoders 230 1 to 230 N , and the error power calculation circuits 154 1 to 154 N are operated in parallel to perform N types of encoding.
選択回路300では、誤差電力を最小にする、つまり誤
差電力計算に(2),(3)式を用いるときは第2項を
最大化する符号化パスをN種類の符号化パスから選択す
る。また(10)式を用いるときは第2,3項を最大化する
符号化パスをN種類の符号化パスから選択する。In the selection circuit 300, when the error power is minimized, that is, when the equations (2) and (3) are used for the error power calculation, the encoding path that maximizes the second term is selected from N types of encoding paths. When using equation (10), an encoding path that maximizes the second and third terms is selected from N types of encoding paths.
マルチプレクサ260は、選択回路300により選択された
符号化パスのパラメータ(代表区間のフレーム内位置を
表す符号、代表区間で求めたマルチパルスの振幅,位相
を表す符号、ピッチ周期の符号、ゲイン,位相補正係数
を表す符号)と、Kパラメータを表す符号を組み合わせ
て出力する。The multiplexer 260 includes parameters of the encoding path selected by the selection circuit 300 (a code representing the position in the frame of the representative section, a code representing the amplitude and phase of the multipulse obtained in the representative section, a code of the pitch period, a gain, and a phase. A code representing the correction coefficient) and a code representing the K parameter are output in combination.
上述した各実施例はあくまで本発明の一例にすぎず、
その変形例も種々考えられる。Each of the above-described embodiments is merely an example of the present invention,
Various modifications are also conceivable.
例えば、代表区間以外のピッチ区間では、ゲイン補正
係数ckと位相補正係数dkを求めて伝送したが、復号化し
た平均ピッチ周期T′を隣接のピッチ周期を用いてピッ
チ区間毎に補間することにより位相補正係数を伝送しな
い構成とすることもできる。またゲイン補正係数はピッ
チ区間毎に伝送するのではなくて、ピッチ区間毎に求め
たゲイン補正係数の値を最小2乗曲線あるいは最小2乗
直線で近似して、前記曲線あるいは直線の係数符号化し
て伝送するような構成にしてもよい。これらの方法は任
意の組合せにより用いることができる。これらの構成よ
り補正情報の伝送のための情報量を低減することができ
る。For example, in a pitch section other than the representative section, the gain correction coefficient ck and the phase correction coefficient dk are obtained and transmitted, but the decoded average pitch period T 'is interpolated for each pitch section using the adjacent pitch period. Accordingly, a configuration in which the phase correction coefficient is not transmitted can be adopted. The gain correction coefficient is not transmitted for each pitch section, but the value of the gain correction coefficient obtained for each pitch section is approximated by a least-square curve or a least-squares straight line, and the coefficient of the curve or the straight line is encoded. It is also possible to adopt a configuration in which transmission is performed. These methods can be used in any combination. With these configurations, the amount of information for transmitting correction information can be reduced.
また位相補正係数として、例えばOno,Ozawa氏らによ
る“2.4kbps Pitch Prediction Multi−pulse Speech C
oding"と題した論文(Proc.ICASSPS4.9,1988)(文献
6)等に記載されているように、フレームの端で線形位
相項τを求め、これを各ピッチ区間に分配し、ピッチ区
間毎には位相補正係数を求めない構成とすることもでき
る。これ以外にも、ピッチ区間毎に求めた位相補正係数
の値を最小2乗直線あるいは最小2乗曲線等で近似し
て、その係数を符号化して伝送するようにしてもよい。As a phase correction coefficient, for example, “2.4 kbps Pitch Prediction Multi-pulse Speech C” by Ono and Ozawa et al.
As described in a paper entitled "oding" (Proc. ICASSPS4.9, 1988) (Reference 6), a linear phase term τ is obtained at the end of a frame, and this is distributed to each pitch section. Alternatively, the phase correction coefficient obtained for each pitch section may be approximated by a least-squares straight line or a least-squares curve, or the like. May be encoded and transmitted.
また、誤差電力計算回路において、演算量は増加する
が入力音声と再生音声との誤差電力を実際に計算しても
よい。具体的には、復元した音源信号を用いて合成フィ
ルタを駆動して再生信号(n)を求め、次式に従い誤
差電力Ewを計算することもできる。In the error power calculation circuit, the amount of calculation increases, but the error power between the input voice and the reproduced voice may be actually calculated. Specifically, by driving the synthesis filter seek reproduction signal (n) using the recovered source signal, it is also possible to calculate the error power E w according to the following equation.
また、文献1のように、フレームの音声信号の特徴に
応じて異なる音源信号を用いるようにすることもでき
る。例えば、音声信号を母音性,鼻音性,摩擦性,破裂
性などに分類し、母音性区間に本発明による構成を用い
るようにすることもできる。 Also, as in Document 1, different sound source signals can be used depending on the characteristics of the audio signal of the frame. For example, the audio signal may be classified into vowel, nasal, friction, burst, and the like, and the configuration according to the present invention may be used in a vowel section.
また、音源信号としては、本実施例で述べた改良ピッ
チ補間マルチパルスに限らず、ピッチ補間マルチパルス
音源や、ピッチ予測マルチパルス音源などを用いること
もできる。ピッチ補間マルチパルス音源の具体的な求め
方は、特願昭59−272435号明細書(文献7)等を参照で
きる。また、ピッチ予測マルチパルス音源の求め方は、
特願昭59−131925号明細書(文献8)や、特願昭63−14
7253号明細書(文献9)等を参照することができる。The sound source signal is not limited to the improved pitch interpolation multi-pulse described in the present embodiment, but may be a pitch interpolation multi-pulse sound source, a pitch prediction multi-pulse sound source, or the like. For the specific method of obtaining the pitch-interpolated multi-pulse sound source, reference can be made to Japanese Patent Application No. 59-272435 (Reference 7). Also, how to find the pitch prediction multi-pulse sound source is
Japanese Patent Application No. 59-131925 (Reference 8) and Japanese Patent Application No. 63-14
Reference can be made to 7253 specification (Reference 9) and the like.
また、スペクトルパラメータとしてKパラメータを符
号化し、その分析法としてLPC分析を用いたが、スペク
トルパラメータとしては他の周知なパラメータ、例えば
LSP、LPCケプストラム、ケプストラム、改良ケプストラ
ム、一般ケプストラム、メルケプストラムなどを用いる
こともできる。また各パラメータに最適な分析法を用い
ることができる。In addition, the K parameter was encoded as a spectrum parameter, and LPC analysis was used as an analysis method, but other well-known parameters, such as
LSP, LPC cepstrum, cepstrum, improved cepstrum, general cepstrum, mel cepstrum and the like can also be used. In addition, an optimal analysis method can be used for each parameter.
また、演算量を低減するために、送信側では影響信号
の計算を省略することもできる。これによって、送信側
における駆動音源復元回路283,合成フィルタ281,減算器
190は不要となり演算量低減が可能となるが、音質は低
下する。Further, in order to reduce the amount of calculation, the transmission side may omit the calculation of the influence signal. As a result, the driving sound source restoration circuit 283, the synthesis filter 281 and the subtractor
The 190 is unnecessary and the amount of calculation can be reduced, but the sound quality is reduced.
なお、デジタル信号処理の分野でよく知られているよ
うに、自己相関関数は周波数軸上でパワスペクトルに、
相互相関関数はクロスパワスペクトルに対応しているの
で、これらから計算することもできる。これらの計算法
については、Oppenheim氏らによる“Digital Signal Pr
ocessing"(Prentice−Hall,1975)と題した刊行物(文
献10)等を参照できる。As is well known in the field of digital signal processing, the autocorrelation function is represented by a power spectrum on the frequency axis,
Since the cross-correlation function corresponds to the cross-power spectrum, it can be calculated from them. These calculations are described in “Digital Signal Pr
ocessing "(Prentice-Hall, 1975) (Reference 10).
以上述べたように、本発明によれば、異なる複数種類
のピッチ抽出法を並列に動作させ、音源信号であるマル
チパルスを一旦求め、最終的な誤差電力を計算して最も
良好なピッチ周期を選択し、符号化を行っているため、
入力音声に周囲雑音が重畳したり、ピッチ周期の抽出が
困難であった話者に対しても、正確なピッチ抽出が可能
で、4.8kb/s程度のビットレートで、良好な音質の符号
化再生音声を得ることができるという大きな効果があ
る。As described above, according to the present invention, a plurality of different types of pitch extraction methods are operated in parallel, a multipulse which is a sound source signal is once obtained, a final error power is calculated, and the best pitch period is obtained. Selected and coded,
Accurate pitch extraction is possible even for speakers that have ambient noise superimposed on the input speech or have difficulty extracting the pitch period.Encoding of good sound quality at a bit rate of about 4.8 kb / s There is a great effect that reproduced sound can be obtained.
第1図は第1の発明による音声符号化方式を実施する音
声符号化装置の構成を示すブロック図、 第2図はピッチ周期計算回路の構成を示す図、 第3図は第2の発明による音声符号化方式を実施する音
声符号化装置の構成を示すブロック図である。 110……バッファメモリ 130……LPC分析回路 150……ピッチ周期計算回路 1511〜151N……ピッチ周期抽出回路 1521〜152N……マルチパルス計算回路 1531〜153N……補正係数計算回路 1541〜154N……誤差電力計算回路 155……ピッチ周期選択回路 160,225,2251〜225N, 170……インパルス応答計算回路 180……自己相関関数計算回路 200……重み付け回路 220,2201〜220N……音源信号計算回路 230,2301〜230N……符号器 260……マルチプレクサ 270,2701〜270N……補正係数計算回路 281……合成フィルタ 283……駆動音源復元回路 300……選択回路FIG. 1 is a block diagram showing a configuration of a speech coding apparatus for implementing a speech coding method according to the first invention, FIG. 2 is a diagram showing a configuration of a pitch period calculation circuit, and FIG. FIG. 2 is a block diagram illustrating a configuration of a speech encoding device that implements a speech encoding scheme. 110: buffer memory 130: LPC analysis circuit 150: pitch cycle calculation circuit 151 1 to 151 N ... pitch cycle extraction circuit 152 1 to 152 N ... multi-pulse calculation circuit 153 1 to 153 N ... correction coefficient calculation Circuits 154 1 to 154 N … Error power calculation circuit 155… Pitch period selection circuit 160, 225, 225 1 to 225 N , 170… Impulse response calculation circuit 180… Autocorrelation function calculation circuit 200… Weighting circuit 220, 220 1 to 220 N …… Sound source signal calculation circuit 230, 230 1 to 230 N … Encoder 260… Mux 270, 270 1 to 270 N …… Correction coefficient calculation circuit 281 …… Synthesis filter 283 …… Driving sound source restoration circuit 300 …… Selection circuit
Claims (2)
れたフレーム毎にスペクトル包絡を表すスペクトルパラ
メータとピッチを表すピッチパラメータを求め、前記音
声信号の音源信号を前記ピッチパラメータを用いて効率
的に表し符号化する音声符号化方法において、 複数種類の異なるピッチ周期を計算し、前記ピッチ周期
の各々に対して前記フレーム区間を前記ピッチ周期に応
じた小区間に分割し、前記小区間の内の1つの区間にお
いて複数個のパルスから構成されるマルチパルスを求
め、他の小区間では前記マルチパルスの振幅あるいは位
相の少なくとも一方を補正する補正係数を求めて音源信
号を復元し、前記復元音源信号と前記音声信号から誤差
電力を求め、前記誤差電力が最小になるピッチ周期を選
択することを特徴とする音声符号化方法。1. A spectrum parameter representing a spectrum envelope and a pitch parameter representing a pitch are determined for each predetermined frame from an input discrete voice signal, and a sound source signal of the voice signal is efficiently used by using the pitch parameter. In the speech coding method of encoding and expressing in the following, a plurality of types of different pitch periods are calculated, and for each of the pitch periods, the frame section is divided into small sections corresponding to the pitch period. In one section, a multi-pulse composed of a plurality of pulses is obtained, and in another small section, a correction coefficient for correcting at least one of the amplitude and the phase of the multi-pulse is obtained to restore a sound source signal. A voice signal comprising: obtaining an error power from a signal and the voice signal; and selecting a pitch cycle in which the error power is minimized. Encoding method.
れたフレーム毎にスペクトル包絡を表すスペクトルパラ
メータを求め符号化するスペクトルパラメータ計算手段
と、 ピッチを表すピッチパラメータを求めて符号化するピッ
チパラメータ計算手段と、 前記音声信号の音源信号を前記ピッチパラメータを用い
て効率的に表し符号化する音声符号化装置において、 異なるピッチ周期を計算する複数種類のピッチ周期計算
手段と、 前記ピッチ周期の各々に対して前記フレーム区間を前記
ピッチ周期に応じた小区間に分割し、前記小区間の内の
1つの区間において複数個のパルスから構成されるマル
チパルスを求め、他の小区間では前記マルチパルスの振
幅あるいは位相の少なくとも一方を補正する補正係数を
求めて符号化しさらに音源信号を復元する音源計算手段
と、 前記ピッチ周期の各々に対して前記復元音源信号と前記
音声信号から誤差電力を求め、前記誤差電力の最小値に
対応するピッチ周期を選択する選択手段と、 前記スペクトルパラメータ計算手段と前記選択手段と前
記音源計算手段から出力される符号を組み合わせて出力
する出力手段とを有することを特徴とする音声符号化装
置。2. A spectrum parameter calculating means for obtaining and coding a spectrum parameter representing a spectrum envelope for each predetermined frame from an input discrete voice signal, and a pitch parameter for obtaining and coding a pitch parameter representing a pitch. Calculating means, in a speech coding apparatus for efficiently representing and coding the sound source signal of the speech signal using the pitch parameter, a plurality of types of pitch cycle calculating means for calculating different pitch cycles, and each of the pitch cycles Divides the frame section into small sections corresponding to the pitch period, obtains a multi-pulse composed of a plurality of pulses in one of the small sections, and obtains the multi-pulse in another small section. A correction coefficient for correcting at least one of the amplitude and the phase of the signal Sound source calculating means for restoring, for each of the pitch periods, obtaining error power from the restored sound source signal and the audio signal, selecting means for selecting a pitch cycle corresponding to the minimum value of the error power, the spectral parameter An audio coding apparatus, comprising: calculation means; said selection means; and output means for combining and outputting codes output from said sound source calculation means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1270263A JP2658438B2 (en) | 1989-10-19 | 1989-10-19 | Audio coding method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1270263A JP2658438B2 (en) | 1989-10-19 | 1989-10-19 | Audio coding method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03132799A JPH03132799A (en) | 1991-06-06 |
JP2658438B2 true JP2658438B2 (en) | 1997-09-30 |
Family
ID=17483816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1270263A Expired - Fee Related JP2658438B2 (en) | 1989-10-19 | 1989-10-19 | Audio coding method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2658438B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3074703B2 (en) | 1990-06-27 | 2000-08-07 | ソニー株式会社 | Multi-pulse encoder |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2844589B2 (en) * | 1984-12-21 | 1999-01-06 | 日本電気株式会社 | Audio signal encoding method and apparatus |
-
1989
- 1989-10-19 JP JP1270263A patent/JP2658438B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3074703B2 (en) | 1990-06-27 | 2000-08-07 | ソニー株式会社 | Multi-pulse encoder |
Also Published As
Publication number | Publication date |
---|---|
JPH03132799A (en) | 1991-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2940005B2 (en) | Audio coding device | |
JP3180762B2 (en) | Audio encoding device and audio decoding device | |
RU2646357C2 (en) | Principle for coding audio signal and decoding audio signal using information for generating speech spectrum | |
JP2002268686A (en) | Voice coder and voice decoder | |
JPH0944195A (en) | Voice encoding device | |
JP3531780B2 (en) | Voice encoding method and decoding method | |
JP3179291B2 (en) | Audio coding device | |
JP3308764B2 (en) | Audio coding device | |
JP2615548B2 (en) | Highly efficient speech coding system and its device. | |
JP2829978B2 (en) | Audio encoding / decoding method, audio encoding device, and audio decoding device | |
JP2658438B2 (en) | Audio coding method and apparatus | |
JP3303580B2 (en) | Audio coding device | |
JP2946525B2 (en) | Audio coding method | |
JP2956068B2 (en) | Audio encoding / decoding system | |
JP3003531B2 (en) | Audio coding device | |
JPS61148500A (en) | Method and apparatus for encoding voice signal | |
JP3299099B2 (en) | Audio coding device | |
JP3089967B2 (en) | Audio coding device | |
JP2001142499A (en) | Speech encoding device and speech decoding device | |
JP2900431B2 (en) | Audio signal coding device | |
JP2853170B2 (en) | Audio encoding / decoding system | |
JP2508002B2 (en) | Speech coding method and apparatus thereof | |
JP3984048B2 (en) | Speech / acoustic signal encoding method and electronic apparatus | |
JP2992998B2 (en) | Audio encoding / decoding device | |
JP3071800B2 (en) | Adaptive post filter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080606 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090606 Year of fee payment: 12 |
|
LAPS | Cancellation because of no payment of annual fees |