JPH05232996A - Voice coding device - Google Patents
Voice coding deviceInfo
- Publication number
- JPH05232996A JPH05232996A JP4033528A JP3352892A JPH05232996A JP H05232996 A JPH05232996 A JP H05232996A JP 4033528 A JP4033528 A JP 4033528A JP 3352892 A JP3352892 A JP 3352892A JP H05232996 A JPH05232996 A JP H05232996A
- Authority
- JP
- Japan
- Prior art keywords
- codebook
- voice
- probability
- pitch period
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は、音声を圧縮符号化する
ための音声符号化装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech coder for compressing and coding speech.
【0002】[0002]
【従来の技術】従来より音声符号化に於いては、音声を
線形予測分析して残差信号を求め、この残差信号をコー
ドブック内の代表ベクトルによって置き換え、インデッ
クスの指すコードブック内の代表ベクトルを音声に再生
し、これを原音声と比較して一番歪の少ないコードで表
すことにより、音声を圧縮するCELP(Code Excited
Linear Prediction)が良く知られている。このCEL
Pについては、例えば、M.R.Schroeder, B.S.Atal, "CO
DE-EXCITED LINEAR PREDICTION(CELP): HIGH-QUALITY S
PEECH AT VERY LOW BIT RATES", ICASSP '85, pp937-94
0, 1985 に詳しく記述されている。このCELPで用い
られるコードブックとしては、確率コードブックが用い
られており、その内容は白色雑音が通常用いられる。確
率コードブックは、適応コードブックと共に用いられる
ことが多い。図3に従来のCELPの代表例として、確
率コードブックを適応コードブックと共に使用する音声
符号化装置の例を示す。2. Description of the Related Art Conventionally, in speech coding, a linear prediction analysis of speech is performed to obtain a residual signal, and the residual signal is replaced by a representative vector in a codebook to represent a representative in the codebook pointed to by an index. CELP (Code Excited) is used to compress the voice by reproducing the vector into voice and expressing it with the code with the least distortion compared to the original voice.
Linear Prediction) is well known. This CEL
Regarding P, for example, MR Schroeder, BSAtal, "CO
DE-EXCITED LINEAR PREDICTION (CELP): HIGH-QUALITY S
PEECH AT VERY LOW BIT RATES ", ICASSP '85, pp937-94
0, 1985. A probability codebook is used as the codebook used in this CELP, and white noise is normally used as its content. Probabilistic codebooks are often used with adaptive codebooks. As a typical example of conventional CELP, FIG. 3 shows an example of a speech coder that uses a probability codebook together with an adaptive codebook.
【0003】入力音声100は、例えば8kHz、フレ
ーム長だけ、サンプリングされる。今、例えばフレーム
長を20msとすると、160サンプルが線形予測分析
器102と差分器104に送られる。線形予測分析器1
02は、合成フィルタ106の係数を、LPC(Linear
Predictive Code)パラメータの組、または反射係数の
組として与える。The input voice 100 is sampled at a frame length of 8 kHz, for example. Now, assuming that the frame length is 20 ms, for example, 160 samples are sent to the linear prediction analyzer 102 and the difference unit 104. Linear prediction analyzer 1
02 designates the coefficient of the synthesis filter 106 as LPC (Linear
Predictive Code) given as a set of parameters or a set of reflection coefficients.
【0004】一方、確率コードブック108と適応コー
ドブック110には、フレーム長を、例えば4分割した
5ms毎のサブフレーム毎のデータ40サンプルが納め
られている。確率コードブック108は、確率コードブ
ックゲイン器112に接続されている。また、適応コー
ドブック110は、適応コードブックゲイン器114に
接続されている。そして、それぞれのコードブックの出
力にゲインをかけた内容の和が加算器116で求めら
れ、合成フィルタ106に入力される。On the other hand, the probabilistic codebook 108 and the adaptive codebook 110 store 40 samples of data for each sub-frame every 5 ms obtained by dividing the frame length into four, for example. The probability codebook 108 is connected to the probability codebook gain unit 112. The adaptive codebook 110 is also connected to the adaptive codebook gain unit 114. Then, the sum of the contents obtained by multiplying the output of each codebook by the gain is obtained by the adder 116 and input to the synthesis filter 106.
【0005】さらに、差分器104で、原音声100
と、合成フィルタ106を通ってコードブックから再生
された音声との差をとり、重み付けフィルタ118で重
み付けされた誤差の自乗和を評価器120で評価し、そ
の値が最小となるコードブック108,110のインデ
ックスの組を求めるようにコードブックを検索すると共
に、ゲイン器112,114のゲインを調整する。Further, the difference unit 104 outputs the original voice 100
And the voice reproduced from the codebook through the synthesis filter 106, and the sum of squares of the errors weighted by the weighting filter 118 is evaluated by the evaluator 120, and the value of the codebook 108 that minimizes the value is evaluated. The codebook is searched for the index set of 110 and the gains of the gain units 112 and 114 are adjusted.
【0006】そして、コードブックのインデックスが決
定されると、確率コードブック108のインデックスで
指し示された内容と、適応コードブック110のインデ
ックスで指し示された内容に、それぞれのゲインをかけ
て和を取ったものをバッファ122に入力し、その内容
をもとに適応コードブック110の内容をサブフレーム
毎に書き換える。Then, when the codebook index is determined, the contents pointed to by the index of the probability codebook 108 and the contents pointed by the index of the adaptive codebook 110 are multiplied by respective gains and summed. The obtained data is input to the buffer 122, and the contents of the adaptive codebook 110 are rewritten for each subframe based on the contents.
【0007】この作業は、男性の音声と女性の音声の差
異は、残差信号の段階では目だたないという仮定に基づ
いており、そのため一般に確率コードブックは、CEL
Pに於いては一種類しか使用されていなかった。This work is based on the assumption that the difference between a male voice and a female voice is not noticeable at the stage of the residual signal, so the probability codebook is generally CEL.
In P, only one type was used.
【0008】[0008]
【発明が解決しようとする課題】しかしながら、男性の
音声と女性の音声では、ピッチ周期(音声の基本周波
数)の他に、残差信号に基づく音質も異なることが言わ
れ始めている。However, it is beginning to be said that, in addition to the pitch period (fundamental frequency of the voice), the voice quality of the male voice differs from that of the female voice based on the residual signal.
【0009】例えば、伊藤,木幡,高木,“PARCO
R分析合成法における残差信号の圧縮伝送方式に関する
一検討”,信学技報SP90−51では、PARCOR
合成を使用しているが、代表残差へのエネルギ寄与率の
差から、男性の音声は比較的良好な再生音が得られるの
に対し、女性の音声には雑音感がつきまとうという発表
がある。For example, Ito, Kohata, Takagi, "PARCO
A Study on Compressed Transmission Method of Residual Signal in R Analysis and Synthesis Method ", IEICE Technical Report SP90-51, PARCOR
Although synthesis is used, there is an announcement that a relatively good reproduction sound can be obtained for male voices and a noise feeling is attached to female voices due to the difference in energy contribution rate to the representative residual. ..
【0010】逆に、瀬座,田崎,中島,“ボコーダにお
ける音源モデルの検討”,日本音響学会講演論文集1−
6−16では、女性の音声と男性の音声とで雑音推定に
より雑音を除去することによって、雑音を除去すると女
性の音声には、声帯波雑音が多く含まれているため、女
性の方が雑音除去の効果が大きく、主観的評価も上がる
という発表もある。On the contrary, Seza, Tasaki, Nakajima, "Examination of sound source model in vocoder", Proceedings of Acoustical Society of Japan 1-
In 6-16, the noise is removed from the female voice and the male voice by noise estimation. When the noise is removed, the female voice contains a lot of vocal cord noise. Therefore, the female voice is more noisy. There are also announcements that the effect of removal is great and the subjective evaluation is improved.
【0011】さらに、片岡,守谷,“ピッチ情報の適応
的処理を用いた低遅延音声符号化”,日本音響学会講演
論文集2−6−17では、ピッチゲインを適応的に処理
することによって、音声の品質を向上させようとするも
のであるが、この方法によっても、男性の音声は、女性
の音声と比較して悪くなってしまうという発表がある。
従って、現実に男性の音声と女性の音声では、ピッチ周
期の他に、残差信号も微妙に異なるということが分かっ
てきた。Furthermore, in Kataoka, Moriya, "Low Delay Speech Coding Using Adaptive Processing of Pitch Information", Proceedings 2-6-17 of the Acoustical Society of Japan, by adaptively processing pitch gain, Although it tries to improve the voice quality, there is an announcement that this method also makes the voice of a man worse than the voice of a woman.
Therefore, it has been found that the residual signal is slightly different between the male voice and the female voice in addition to the pitch period in reality.
【0012】このように、ピッチ周期や残差信号の差の
ため、符号化した音声を復号した際に、男声の音声と女
声の音声のいずれの音声でも良好に再生するということ
はできなかった。本発明は、上記の点に鑑みてなされた
もので、男性・女性のいずれの音声に対しても良好に音
声を再生可能な音声符号化装置を提供することを目的と
する。As described above, due to the difference between the pitch period and the residual signal, it was not possible to satisfactorily reproduce both the male voice and the female voice when the encoded voice was decoded. .. The present invention has been made in view of the above points, and an object of the present invention is to provide a voice encoding device capable of excellently reproducing voices for both male and female voices.
【0013】[0013]
【課題を解決するための手段】上記の目的を達成するた
めに、本発明の音声符号化装置は、入力音声信号を予測
分析する予測フィルタからの予測値信号と前記入力音声
信号との差をとることで残差を得、当該残差をコードブ
ックにより量子化する音声符号化装置であって、それぞ
れ内容の異なる複数のコードブックと、前記入力音声信
号より音声の基本周波数を検出する基本周波数検出手段
と、前記基本周波数検出手段で検出した前記音声の基本
周波数に応じて、前記複数のコードブックを切り換える
コードブック切換手段とを備えることを特徴としてい
る。In order to achieve the above object, a speech coding apparatus according to the present invention calculates a difference between a prediction value signal from a prediction filter for predictively analyzing an input speech signal and the input speech signal. A speech coding apparatus for obtaining a residual by taking the residual and quantizing the residual with a codebook, wherein a plurality of codebooks having different contents and a fundamental frequency for detecting a fundamental frequency of the speech from the input speech signal It is characterized in that it is provided with detecting means and codebook switching means for switching the plurality of codebooks in accordance with the fundamental frequency of the voice detected by the fundamental frequency detecting means.
【0014】[0014]
【作用】即ち、本発明による音声符号化装置では、それ
ぞれ内容の異なるコードブック例えば、確率コードブッ
クを複数個用意してそれぞれに対応する音声の基本周波
数の範囲を決定しておく。そして、基本周波数検出手段
と線形予測分析手段により、入力音声からピッチ周期と
LPC係数をそれぞれ抽出し、コードブック切換手段に
より、まずピッチ周期に応じて確率コードブックを選択
する。その後は通常の音声符号化装置と同様に、選ばれ
た確率コードブックの内容を残差信号として、入力音声
から求めたLPC係数からなるLPC合成フィルタに通
し、合成音声を作り、その合成音声と入力音声の差が最
小になるインデックスを選択する。そして、選択された
確率コードブックは、或る一定期間(例えば20ms〜
30ms程度のフレーム期間もしくは全く異なるピッチ
周期となるまで)保持することで、必要以上にビットレ
ートを上げることなく、男性の音声と女性の音声を良好
に再生できる。That is, in the speech coding apparatus according to the present invention, a plurality of codebooks having different contents, for example, probability codebooks are prepared and the range of the fundamental frequency of speech corresponding to each is determined. Then, the fundamental frequency detecting means and the linear prediction analyzing means respectively extract the pitch period and the LPC coefficient from the input speech, and the codebook switching means first selects the probability codebook according to the pitch period. After that, as in a normal speech coding apparatus, the contents of the selected probability codebook are passed through an LPC synthesis filter composed of LPC coefficients obtained from the input speech as a residual signal to create synthesized speech, Select the index that minimizes the difference between the input voices. Then, the selected probability codebook has a certain period (for example, 20 ms to
By holding the frame period of about 30 ms or until the pitch period becomes completely different), the male voice and the female voice can be well reproduced without increasing the bit rate more than necessary.
【0015】[0015]
【実施例】以下、図面を参照して、本発明の実施例を説
明する。図1は、本発明の第1の実施例のブロック構成
図である。入力音声10は線形予測分析器12と差分器
14に入力される。線形予測分析器12は、合成フィル
タ16の係数をLPCパラメータの組または反射係数の
組として与える。Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram of the first embodiment of the present invention. The input speech 10 is input to the linear prediction analyzer 12 and the differencer 14. The linear prediction analyzer 12 provides the coefficients of the synthesis filter 16 as a set of LPC parameters or a set of reflection coefficients.
【0016】コードブックには、データを符号化するた
めの代表ベクトルが納められており、このコードブック
は、例えば2つの確率コードブック18,20と確率コ
ードブックゲイン器22、及び適応コードブック24と
適応コードブックゲイン器26で構成されている。A representative vector for coding data is stored in the codebook, and the codebook includes, for example, two probability codebooks 18 and 20, a probability codebook gain unit 22, and an adaptive codebook 24. And an adaptive codebook gain unit 26.
【0017】加算器28は、確率コードブックゲイン器
22の出力と適応コードブックゲイン器26の出力を加
算して、上記合成フィルタ16及びバッファ30に出力
する。重み付けフィルタ32は差分器14の出力に重み
付けを行う。評価器34は、重み付けフィルタ32の出
力を評価し、その結果に応じて男声用の確率コードブッ
ク18又は女声用確率コードブック20を選択する。The adder 28 adds the output of the stochastic codebook gain unit 22 and the output of the adaptive codebook gain unit 26 and outputs the result to the synthesis filter 16 and the buffer 30. The weighting filter 32 weights the output of the differentiator 14. The evaluator 34 evaluates the output of the weighting filter 32 and selects the probability codebook 18 for male voice or the probability codebook 20 for female voice according to the result.
【0018】以下、このような構成に於ける動作を説明
する。入力音声10は、例えば8kHz、フレーム長だ
け、サンプリングされる。今、例えばフレーム長を20
msとすると、160サンプルが線形予測分析器12と
差分器14に送られる。線形予測分析器12では、合成
フィルタ16の係数をLPCパラメータの組または反射
係数の組として与える。The operation of such a configuration will be described below. The input voice 10 is sampled at a frame length of 8 kHz, for example. Now, for example, the frame length is 20
In ms, 160 samples are sent to linear prediction analyzer 12 and differencer 14. The linear prediction analyzer 12 gives the coefficients of the synthesis filter 16 as a set of LPC parameters or a set of reflection coefficients.
【0019】一方、コードブックには、フレーム長を、
例えば4分割した5ms毎のサブフレーム毎のデータ4
0サンプル分を符号化するための代表ベクトルが納めら
れている。コードブックは、例えば2つの確率コードブ
ック18,20と確率コードブックゲイン器22、適応
コードブック24と適応コードブックゲイン器26で構
成されている。確率コードブックは、例えば複数の男性
と女性の音声をそれぞれ線形予測して残差信号を求めて
作成するので、男性の音声から求めたコードブックは男
声特有の残差信号、女性の音声から求めたコードブック
は女声特有の残差信号の特性を有している。そして、仮
に今、確率コードブック10が男声用、確率コードブッ
ク11が女声用とする。男声と女声のピッチ周波数の境
界を仮に250Hzとして、男声用と女声用のコードブ
ックを選択する。On the other hand, in the codebook, the frame length is
For example, data 4 for each subframe of 5 ms divided into 4
A representative vector for coding 0 samples is stored. The codebook is composed of, for example, two stochastic codebooks 18 and 20, a stochastic codebook gain unit 22, an adaptive codebook 24, and an adaptive codebook gain unit 26. Probabilistic codebooks are created, for example, by linearly predicting multiple male and female voices to obtain residual signals, so the codebook obtained from male voices is obtained from residual signals peculiar to male voices and female voices. The codebook has the characteristic of the residual signal peculiar to the female voice. Then, suppose that the probability codebook 10 is for a male voice and the probability codebook 11 is for a female voice. Assuming that the boundary between the pitch frequencies of the male voice and the female voice is 250 Hz, the codebooks for the male voice and the female voice are selected.
【0020】次に、確率コードブック選択の手順を説明
する。1フレーム毎に確率コードブックを選択するので
あるが、このためには適応コード検索により得られるピ
ッチ情報を用いる。Next, the procedure for selecting the probability codebook will be described. The probability codebook is selected for each frame, and pitch information obtained by the adaptive code search is used for this purpose.
【0021】即ち、適応コードブック24を作成するた
めに、通常、150サンプル程度のバッファ30が用意
されている。このバッファ30には、1サブフレーム前
からさかのぼって150サンプル分の合成信号の残差が
格納される。このバッファ30は、例えばシフトレジス
タから成り、5ms周期毎に古い40サンプルを捨て去
って、新しい40サンプルを入力することにより更新さ
れる。適応コードブック24の各データは、バッファ3
0内のサンプルを、仮定したピッチ周期、例えば20か
ら147サンプリング周期分だけ取出して繰り返すこと
により作成される。That is, in order to create the adaptive codebook 24, a buffer 30 of about 150 samples is usually prepared. The buffer 30 stores the residuals of the synthetic signal for 150 samples, which is traced back from one subframe. The buffer 30 is composed of, for example, a shift register and is updated by discarding old 40 samples and inputting new 40 samples every 5 ms period. Each data of the adaptive codebook 24 is stored in the buffer 3
The sample in 0 is created by extracting and repeating the assumed pitch period, for example, 20 to 147 sampling periods.
【0022】続いて、適応コードブック24内の各代表
ベクトルを、適応コードブックゲイン器26及び加算器
28を介して、合成フィルタ16に通して、コードブッ
クから再生した音声を得る。次に、差分器14で、この
コードブックから再生した音声と原音声(入力音声1
0)との差をとり、重み付けフィルタ32で重み付けさ
れた誤差の二乗を評価器34で評価し、その値が最小と
なるコードが求められる。そして、得られた確率コード
ブックのインデックスが対応するピッチ周波数を判定
し、それが250kHz以下であれば、男声用の確率コ
ードブック18、越えていれば女声用の確率コードブッ
ク20を選択する。Subsequently, each representative vector in the adaptive codebook 24 is passed through the synthesis filter 16 via the adaptive codebook gain unit 26 and the adder 28 to obtain the voice reproduced from the codebook. Next, in the differentiator 14, the voice reproduced from this codebook and the original voice (input voice 1
0) and the square of the error weighted by the weighting filter 32 is evaluated by the evaluator 34, and the code having the minimum value is obtained. Then, the pitch frequency corresponding to the index of the obtained probability codebook is determined, and if it is 250 kHz or less, the probability codebook 18 for male voice is selected, and if it exceeds, the probability codebook 20 for female voice is selected.
【0023】続いて、選択された確率コードブック18
又は20を検索する。即ち、確率コードブック内の各コ
ードワードを順に確率コードブックゲイン器22,加算
器28を介して合成フィルタ16に通した後、適応コー
ドブック24で選ばれたコードワードに適応コードブッ
クゲイン器26により最適ゲインを与えて、加算器28
及び合成フィルタ16を通して得た合成音と原音声との
差分を差分器14でとる。この値は、重み付けフィルタ
32で重み付けされ、二乗誤差が評価器34で評価さ
れ、その評価された値が最小となるコードが求められ
る。Subsequently, the selected probability codebook 18
Or search for 20. That is, each codeword in the probability codebook is sequentially passed through the synthesis filter 16 via the probability codebook gain unit 22 and the adder 28, and then the adaptive codebook gain unit 26 is applied to the codeword selected by the adaptive codebook 24. The optimum gain is given by
And the difference between the synthesized speech obtained through the synthesis filter 16 and the original speech is obtained by the differentiator 14. This value is weighted by the weighting filter 32, the squared error is evaluated by the evaluator 34, and the code that minimizes the evaluated value is obtained.
【0024】こうして確率コードブックから選択された
コードベクトルに確率コードブックゲイン器22により
最適ゲインを与えた値が、加算器28にて先ほど選択さ
れた適応コードブック音源と加算され、合成フィルタ1
6を通すことによって、符号化音声が得られる。線形予
測分析器12で求めたLPC係数又は反射係数と共に、
適応コードブック24と確率コードブック18又は20
から選択されたコードベクトルのインデックス及び、そ
れぞれの最適ゲイン値の値が、圧縮データとして不図示
の記録部又は伝送部により記録又は伝送される。The value obtained by giving the optimum gain by the stochastic codebook gain unit 22 to the code vector selected from the stochastic codebook in this way is added by the adder 28 to the adaptive codebook sound source previously selected, and the synthesis filter 1
By passing through 6, encoded voice is obtained. With the LPC coefficient or the reflection coefficient obtained by the linear prediction analyzer 12,
Adaptive codebook 24 and probability codebook 18 or 20
The code vector index and the optimum gain value selected from are recorded or transmitted as compressed data by a recording unit or a transmission unit (not shown).
【0025】以上の方式では、圧縮データの復号時に
は、適応コードブック24を参照することによりピッチ
周期が分かり、男声・女声のどちらの確率コードブック
を選択したかの情報を符号化する必要はない。In the above method, when decoding compressed data, the pitch period is known by referring to the adaptive codebook 24, and it is not necessary to encode the information indicating which probability codebook of male voice or female voice is selected. ..
【0026】次に、図2の(A)のブロック構成図を参
照して、本発明の第2の実施例を説明する。本第2の実
施例は、ピッチ検出器36を備えていることを特徴とし
ている。他の構成は、上記第1の実施例と同様の構成で
あり、よって同一部分には図1と同一の参照番号を付
し、その説明を省略する。入力音声10は、フレーム毎
にサンプリングされ、線形予測分析器12により合成フ
ィルタ係数が求められる。Next, a second embodiment of the present invention will be described with reference to the block diagram of FIG. The second embodiment is characterized in that a pitch detector 36 is provided. The other structure is the same as that of the first embodiment, and therefore, the same portions are denoted by the same reference numerals as those in FIG. 1 and their description is omitted. The input voice 10 is sampled for each frame, and the synthesis filter coefficient is obtained by the linear prediction analyzer 12.
【0027】適応コードブック24は、男声・女声それ
ぞれに応じてピッチ周期を変更して作成される。即ち、
男声の場合には36サンプル周期から147サンプル周
期で作成される。一方、女声の場合には、20サンプル
から40サンプルまでの範囲で、1/2サンプル周期毎
に作成される。The adaptive code book 24 is created by changing the pitch period according to each of the male voice and the female voice. That is,
In the case of a male voice, it is created in a period of 36 to 147 samples. On the other hand, in the case of a female voice, it is created every half sample period in the range of 20 to 40 samples.
【0028】このように男声と女声とでピッチ周期の特
性に合わせて適応コードブック24を作成することで、
コードブックサイズを減らすことができる。このため、
コードブック探索の演算が容易となる。また、ピッチ周
期の微小な差異が音質に影響する女声の場合には、精度
をサンプリング周期より細かくすることにより、音質を
向上させることが可能である。In this way, by creating the adaptive codebook 24 in accordance with the characteristics of the pitch period of the male voice and the female voice,
The codebook size can be reduced. For this reason,
The calculation of the codebook search becomes easy. Further, in the case of a female voice in which a minute difference in pitch period affects the sound quality, it is possible to improve the sound quality by making the accuracy finer than the sampling cycle.
【0029】1フレームの先頭に於いて、ピッチ検出器
36は、150サンプルの自己相関関数を求めて、ピッ
チ周期を求める。ピッチ周期が、例えば男声の範囲であ
れば、適応コードブック24を音声に対応して作成し、
また男声用の適応コードブック24を選択する。これと
共に、どちらの確率コードブックを使用したかのフラグ
をフレームの先頭に記録する。例えば、男声用の確率コ
ードブック18が選択されたときはフラグを立て、女声
用の確率コードブック20が選択されたときはフラグを
立てないようにする。このコードブック識別情報は、2
0msおきにわずか1ビットの情報で済み、全体では5
0bpsの増加となるのみである。なお、ピッチ抽出に
は、他のピッチ抽出に用いられる方法を使用しても良
い。At the beginning of one frame, the pitch detector 36 finds the autocorrelation function of 150 samples to find the pitch period. If the pitch period is, for example, in the male voice range, the adaptive codebook 24 is created corresponding to the voice,
Also, the adaptive codebook 24 for male voice is selected. At the same time, a flag indicating which probability codebook is used is recorded at the beginning of the frame. For example, when the probability codebook 18 for male voice is selected, the flag is set, and when the probability codebook 20 for female voice is selected, the flag is not set. This codebook identification information is 2
Only 1 bit of information is required every 0 ms, and the total is 5
Only an increase of 0 bps. It should be noted that a method used for other pitch extraction may be used for the pitch extraction.
【0030】上記処理で決定したコードブックのインデ
ックスの内容の和を合成フィルタ16に通し、差分器1
4で原音声とコードブックから再生した音声との差を取
り、重み付けフィルタ32で重み付けされた誤差の二乗
を評価器34で評価し、その値が最小となるインデック
スの組を求めるようにコードブックを探索する。こうし
てコードブックのインデックスが決定されると、フラグ
で指し示された確率コードブックのインデックスで指し
示された内容と適応コードブック24のインデックスで
指し示された内容に、ゲイン器22,26でそれぞれの
ゲインをかけて加算器28で和を取ったものを、バッフ
ァ30に入力して、そのデータをもとに、サブフレーム
毎に適応コードブック24を作成する。The sum of the contents of the index of the codebook determined in the above processing is passed through the synthesis filter 16, and the difference unit 1
In step 4, the difference between the original voice and the voice reproduced from the codebook is calculated, the square of the error weighted by the weighting filter 32 is evaluated by the evaluator 34, and the codebook is obtained so as to obtain the index set having the minimum value. To explore. When the index of the codebook is determined in this way, the contents indicated by the index of the probability codebook indicated by the flag and the contents indicated by the index of the adaptive codebook 24 are respectively supplied to the gain units 22 and 26. Then, the sum obtained by multiplying the gains of the above by the adder 28 is input to the buffer 30, and the adaptive codebook 24 is created for each subframe based on the data.
【0031】以下、前述した第1の実施例と同様の手順
で符号化することにより圧縮データが得られる。図2の
(B)に本第2の実施例によって符号化されたデータを
示す。なお、図中の参照番号38は、前述したどちらの
確率コードブックを使用したかを示すフラグである。Hereinafter, compressed data can be obtained by encoding in the same procedure as in the first embodiment described above. FIG. 2B shows the data coded by the second embodiment. Reference numeral 38 in the figure is a flag indicating which of the above probability codebooks has been used.
【0032】なお、本第2の実施例では、圧縮データ
に、男声・女声いずれの確率コードデータを使用したか
のデータ(フラグ38)を記録する必要があるが、適応
コードブック、確率コードブックのいずれも適応的に切
り換えることにより、さらに効率的に符号化できる。In the second embodiment, it is necessary to record in the compressed data the data (flag 38) indicating whether the probability code data of male voice or female voice is used. However, the adaptive codebook and the probability codebook are used. Any of these can be coded more efficiently by adaptively switching.
【0033】次に、本発明の第3の実施例を説明する。
本第3の実施例では、確率コードブックを男声・女声の
二通りで切り換えるのみでなく、より多くの種類を備え
て、ピッチ周期に応じて、選択的に切り換えるようにし
たものである。これにより、ピッチ周期に適応したより
細かな残差特性を反映することができ、符号化効率を向
上できる。またこの結果、一つ一つの確率コードブック
のサイズを小さくすることができ、探索が容易となる。Next, a third embodiment of the present invention will be described.
In the third embodiment, not only is the probability codebook switched between male and female voices, but more types are provided, and the probability codebook is selectively switched according to the pitch cycle. By this means, it is possible to reflect a finer residual characteristic that is adapted to the pitch period and improve the coding efficiency. As a result, the size of each probability codebook can be reduced, and the search becomes easy.
【0034】例えば、今、確率コードブックを8種類用
意するとすると、確率コードブック選択のための情報と
して、各フレーム毎に3ビットを要する。但し、ピッチ
周期の変化が頻繁には起こらないという特性を利用する
と、この情報を減らすことが可能となる。即ち、確率コ
ードブックの識別にハフマン符号等の可変長符号を用
い、確率コードブックを変更しないときには短い(例え
ば1ビット)符号を割り当て、また確率コードブックを
変更するときには、その頻度が小さくなるにつれて長い
符号を割り当てるようにする。この方式により、平均的
な符号長を短くすることが可能である。For example, if eight kinds of probability codebooks are prepared, 3 bits are required for each frame as information for selecting the probability codebook. However, it is possible to reduce this information by utilizing the characteristic that the pitch period does not change frequently. That is, a variable-length code such as a Huffman code is used to identify the probability codebook, a short (for example, 1-bit) code is assigned when the probability codebook is not changed, and the frequency is reduced when the probability codebook is changed. Try to assign a long code. With this method, it is possible to shorten the average code length.
【0035】なお、上記第1乃至第3の実施例は、確率
コードブックと適応コードブックを用いるという前提で
説明したが、本発明は、確率コードブックを使用する他
の方式にも適用可能である。Although the first to third embodiments have been described on the assumption that the probability codebook and the adaptive codebook are used, the present invention can be applied to other methods using the probability codebook. is there.
【0036】[0036]
【発明の効果】以上詳述したように、本発明によれば、
確率コードブックをピッチ周期等で分類し、複数個持つ
ことによって、男性・女性のいずれに対しても良好に音
声を再生可能な音声符号化装置を提供することができ
る。As described in detail above, according to the present invention,
By classifying the probability codebooks according to the pitch period and having a plurality of probability codebooks, it is possible to provide a speech coding apparatus capable of reproducing speech satisfactorily for both males and females.
【図面の簡単な説明】[Brief description of drawings]
【図1】本発明の第1の実施例に係る音声符号化装置の
ブロック構成図である。FIG. 1 is a block configuration diagram of a speech encoding apparatus according to a first embodiment of the present invention.
【図2】(A)は本発明の第2の実施例に係る音声符号
化装置のブロック構成図であり、(B)は本発明の第2
の実施例によって符号化されたデータを示す図である。FIG. 2A is a block configuration diagram of a speech encoding apparatus according to a second embodiment of the present invention, and FIG. 2B is a second configuration of the present invention.
FIG. 6 is a diagram showing data encoded according to the example of FIG.
【図3】従来の音声符号化装置のブロック構成図であ
る。FIG. 3 is a block configuration diagram of a conventional speech encoding device.
10…入力音声、12…線形予測分析器、14…差分
器、16…合成フィルタ、18,20…確率コードブッ
ク、22…確率コードブックゲイン器、24…適応コー
ドブック、26…適応コードブックゲイン器、28…加
算器、30…バッファ、32…重み付けフィルタ、34
…評価器、36…ピッチ検出器、38…フラグ。10 ... Input speech, 12 ... Linear prediction analyzer, 14 ... Difference calculator, 16 ... Synthesis filter, 18, 20 ... Stochastic codebook, 22 ... Stochastic codebook gainer, 24 ... Adaptive codebook, 26 ... Adaptive codebook gain Unit, 28 ... Adder, 30 ... Buffer, 32 ... Weighting filter, 34
... Evaluator, 36 ... Pitch detector, 38 ... Flag.
Claims (1)
タからの予測値信号と前記入力音声信号との差をとるこ
とで残差を得、当該残差をコードブックにより量子化す
る音声符号化装置に於いて、 それぞれ内容の異なる複数のコードブックと、 前記入力音声信号より音声の基本周波数を検出する基本
周波数検出手段と、 前記基本周波数検出手段で検出した前記音声の基本周波
数に応じて、前記複数のコードブックを切り換えるコー
ドブック切換手段と、 を具備してなることを特徴とする音声符号化装置。1. A speech coding apparatus for obtaining a residual by obtaining a difference between a predicted value signal from a prediction filter for predictively analyzing an input speech signal and the input speech signal, and quantizing the residual by a codebook. In each of the plurality of codebooks having different contents, a fundamental frequency detecting unit for detecting a fundamental frequency of the voice from the input voice signal, and a fundamental frequency of the voice detected by the fundamental frequency detecting unit, A speech coding apparatus comprising: a codebook switching means for switching a plurality of codebooks.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4033528A JPH05232996A (en) | 1992-02-20 | 1992-02-20 | Voice coding device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4033528A JPH05232996A (en) | 1992-02-20 | 1992-02-20 | Voice coding device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH05232996A true JPH05232996A (en) | 1993-09-10 |
Family
ID=12389050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4033528A Withdrawn JPH05232996A (en) | 1992-02-20 | 1992-02-20 | Voice coding device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH05232996A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1994007239A1 (en) * | 1992-09-16 | 1994-03-31 | Fujitsu Limited | Speech encoding method and apparatus |
WO1996019798A1 (en) * | 1994-12-21 | 1996-06-27 | Sony Corporation | Sound encoding system |
US5864650A (en) * | 1992-09-16 | 1999-01-26 | Fujitsu Limited | Speech encoding method and apparatus using tree-structure delta code book |
KR100889399B1 (en) * | 1997-08-28 | 2009-06-03 | 텍사스 인스트루먼츠 인코포레이티드 | Switched Predictive Quantization Method |
JP2009193073A (en) * | 2001-02-13 | 2009-08-27 | Qualcomm Inc | Method and apparatus for reducing undesired packet generation |
-
1992
- 1992-02-20 JP JP4033528A patent/JPH05232996A/en not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1994007239A1 (en) * | 1992-09-16 | 1994-03-31 | Fujitsu Limited | Speech encoding method and apparatus |
US5864650A (en) * | 1992-09-16 | 1999-01-26 | Fujitsu Limited | Speech encoding method and apparatus using tree-structure delta code book |
WO1996019798A1 (en) * | 1994-12-21 | 1996-06-27 | Sony Corporation | Sound encoding system |
AU703046B2 (en) * | 1994-12-21 | 1999-03-11 | Sony Corporation | Speech encoding method |
KR100889399B1 (en) * | 1997-08-28 | 2009-06-03 | 텍사스 인스트루먼츠 인코포레이티드 | Switched Predictive Quantization Method |
JP2009193073A (en) * | 2001-02-13 | 2009-08-27 | Qualcomm Inc | Method and apparatus for reducing undesired packet generation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8862463B2 (en) | Adaptive time/frequency-based audio encoding and decoding apparatuses and methods | |
JP3346765B2 (en) | Audio decoding method and audio decoding device | |
JP3094908B2 (en) | Audio coding device | |
KR100566713B1 (en) | Speech parameter coding and decoding methods, coder and decoder, and programs, and speech coding and decoding methods, coder and decoder, and programs | |
US20020016161A1 (en) | Method and apparatus for compression of speech encoded parameters | |
WO2001020595A1 (en) | Voice encoder/decoder | |
JPH0869299A (en) | Voice coding method, voice decoding method and voice coding/decoding method | |
JPH0990995A (en) | Speech coding device | |
JPH04270398A (en) | Voice encoding system | |
US6768978B2 (en) | Speech coding/decoding method and apparatus | |
JPH10177398A (en) | Voice coding device | |
JP2002268686A (en) | Voice coder and voice decoder | |
JPH09319398A (en) | Signal encoder | |
JP3353852B2 (en) | Audio encoding method | |
JPH05232996A (en) | Voice coding device | |
JP3050978B2 (en) | Audio coding method | |
JP2796408B2 (en) | Audio information compression device | |
JP3916934B2 (en) | Acoustic parameter encoding, decoding method, apparatus and program, acoustic signal encoding, decoding method, apparatus and program, acoustic signal transmitting apparatus, acoustic signal receiving apparatus | |
US5943644A (en) | Speech compression coding with discrete cosine transformation of stochastic elements | |
JP3088204B2 (en) | Code-excited linear prediction encoding device and decoding device | |
JP3299099B2 (en) | Audio coding device | |
JP2736157B2 (en) | Encoding device | |
JP3153075B2 (en) | Audio coding device | |
JP3010655B2 (en) | Compression encoding apparatus and method, and decoding apparatus and method | |
JP3192051B2 (en) | Audio coding device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 19990518 |