JP3144203B2 - Vector quantizer - Google Patents
Vector quantizerInfo
- Publication number
- JP3144203B2 JP3144203B2 JP01094494A JP1094494A JP3144203B2 JP 3144203 B2 JP3144203 B2 JP 3144203B2 JP 01094494 A JP01094494 A JP 01094494A JP 1094494 A JP1094494 A JP 1094494A JP 3144203 B2 JP3144203 B2 JP 3144203B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- label
- sequence
- recognition
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】[0001]
【産業上の利用分野】本発明は,ベクトル量子化(V
Q:Vector Quantization)を用いたパターン認識や通
信におけるコードブックの話者適応化または認識すべき
入力信号や伝送すべき信号の話者正規化を行う装置に関
する。BACKGROUND OF THE INVENTION The present invention relates to a vector quantization (V
The present invention relates to an apparatus for speaker adaptation of a code book in pattern recognition and communication using Q (Vector Quantization) or speaker normalization of an input signal to be recognized and a signal to be transmitted.
【0002】[0002]
【従来の技術】ベクトル量子化は,音声信号等の伝送に
おける高能率符号化や,音声認識をはじめとするパター
ン認識における基本的な技術として広く用いられている
ものである。ベクトル量子化は次のように行われる。2. Description of the Related Art Vector quantization is widely used as a basic technique in high-efficiency encoding in transmission of speech signals and the like, and in pattern recognition such as speech recognition. Vector quantization is performed as follows.
【0003】取り扱う対象とするベクトル空間をM個の
部分空間に分割し,それぞれの部分空間にラベル(番
号)1,…,Mを付し,ラベルmに対応する部分空間m
(m=1,・・・,M)の代表ベクトル(コードベクトル)
μmを決定し,μm(m=1,…,M)をmにて参照可能な
形で記憶したコードブックを用い,ベクトルyをラベル
1,…,Mの何れかに変換するものである。即ち,ベクト
ルuとvの距離をd(u,v)とするとき,yはラベルA vector space to be handled is divided into M subspaces, and each subspace is labeled with a label (number) 1,..., M, and a subspace m corresponding to the label m is assigned.
(M = 1,..., M) representative vector (code vector)
Determines μ m, μ m (m = 1, ..., M) using a codebook that stores the reference a form in m, converts the vector y label 1, ..., either of M is there. That is, when the distance between vectors u and v is d (u, v), y is a label
【0004】[0004]
【数1】 (Equation 1)
【0005】に変換される。前記部分空間は,訓練ベク
トル集合をクラスタリングすることによって決定され
る。クラスタリングの方法としては周知のLBGアルゴ
リズムがしばしば用いられる。この場合,代表ベクトル
μmはクラスタmの重心あるいは平均ベクトルであっ
て,クラスタmのセントロイドとも呼ばれる。[0005] The subspace is determined by clustering the training vector set. A well-known LBG algorithm is often used as a clustering method. In this case, the representative vector μ m is the center of gravity or the average vector of the cluster m, and is also called the centroid of the cluster m.
【0006】ベクトル量子化を用いた音声信号の伝送は
次のように行われる。送信側では,伝送すべきPCM音
声信号をn標本毎にブロック化し,それぞれのブロック
をn次元のベクトルと見なし,これを前記コードブック
を用いてラベル系列に変換する。(図1)を用いてこの
ことを説明する。2,3はそれぞれバッファメモリであ
って,相続くn標本を交互に記憶するものである。1は
前記バッファメモリ2,3に前記入力のn標本を交互に
記憶せしめるべく切り替えるスイッチである。4はバッ
ファメモリ2,3のn標本を交互に選択出力するスイッ
チである。1〜4は,一方のバッファメモリが書き込み
を行っている間に他方のバッファメモリから読み出しが
行われるように動作する。5はコードブックであって,
M個のクラスタそれぞれのn次元の代表ベクトルがラベ
ルで検索可能な形で記憶されている。6は比較部であっ
て,前記バファメモリ2,3に記憶されているn次元ベ
クトルと,コードブック5に記憶されている前記M個の
代表ベクトルとの比較を行う。7はラベル選択部であっ
て,前記比較の結果前記バッファメモリ2,3のベクト
ルと最も類似している代表ベクトルに対応するラベルを
選択するものである。この選択されたラベルが送信され
る。即ち,相続くn個の標本が順次ラベルに変換され,
このラベルが伝送される。Transmission of an audio signal using vector quantization is performed as follows. On the transmitting side, the PCM audio signal to be transmitted is divided into blocks every n samples, each block is regarded as an n-dimensional vector, and this is converted into a label sequence using the codebook. This will be described with reference to FIG. Reference numerals 2 and 3 denote buffer memories for alternately storing successive n samples. Reference numeral 1 denotes a switch for switching the buffer memories 2 and 3 so that the input n samples are stored alternately. A switch 4 alternately selects and outputs n samples from the buffer memories 2 and 3. 1 to 4 operate such that reading is performed from the other buffer memory while one buffer memory is performing writing. 5 is a code book,
An n-dimensional representative vector of each of the M clusters is stored in a form that can be searched for by a label. Reference numeral 6 denotes a comparison unit that compares the n-dimensional vectors stored in the buffer memories 2 and 3 with the M representative vectors stored in the codebook 5. Reference numeral 7 denotes a label selection unit for selecting a label corresponding to a representative vector most similar to the vector in the buffer memories 2 and 3 as a result of the comparison. The selected label is sent. That is, successive n samples are sequentially converted into labels,
This label is transmitted.
【0007】受信側では,同じ構成のコードブックを用
いて受信したラベル系列を対応する代表ベクトル系列に
変換し,時間波形に戻す。8はコードベクトル読み出し
部,9はコードブックである。コードブック9はコード
ブック5と同じ構成である。8,9を用いて受信したラ
ベルに対応するn次元のコードベクトル(代表ベクト
ル)がコードブック9から読み出される。11,12は
それぞれコードブック9から読み出されたn要素のコー
ドベクトルを交互に記憶するバッファメモリであって,
前記コードブックから読み出されたn次元のコードベク
トルが交互に記憶される。10はスイッチであって,コ
ードブック9から読み出されたコードベクトルをバッフ
ァメモリ11,12に交互に振り分けるためのものであ
る。13はバッファメモリ11,12の内容を交互に読
み出して出力するためのスイッチである。バッファメモ
リ11,12には,バッファメモリ2,3のベクトルの
コードベクトルで近似されたものが記憶されることにな
る。従って,これを前記n次元ベクトルの要素毎にシリ
アルに読み出せば,送信信号を近似した形で復号信号が
得られる。バッファメモリ11,12は一方が読み出さ
れているとき他方に書き込みを行うものである。読み出
しはスイッチ13を通してバッファメモリ11,12か
ら交互に読み出される。On the receiving side, the received label sequence is converted into a corresponding representative vector sequence using a codebook having the same configuration, and is converted back to a time waveform. Reference numeral 8 denotes a code vector reading unit, and 9 denotes a code book. The code book 9 has the same configuration as the code book 5. The n-dimensional code vector (representative vector) corresponding to the label received by using 8, 9 is read from the code book 9. Reference numerals 11 and 12 denote buffer memories for alternately storing n-element code vectors read from the code book 9, respectively.
The n-dimensional code vectors read from the code book are stored alternately. Reference numeral 10 denotes a switch for alternately distributing the code vectors read from the code book 9 to the buffer memories 11 and 12. Reference numeral 13 denotes a switch for alternately reading and outputting the contents of the buffer memories 11 and 12. The buffer memories 11 and 12 store the values approximated by the code vectors of the vectors of the buffer memories 2 and 3. Therefore, if this is read out serially for each element of the n-dimensional vector, a decoded signal can be obtained in a form approximating the transmission signal. When one of the buffer memories 11 and 12 is being read, the other is written to the other. Reading is alternately performed from the buffer memories 11 and 12 through the switch 13.
【0008】このようにすることによって,例えば,1
標本が12ビットで表現される音声信号を伝送すると
き,コードブックサイズをM=256,ブロック長をn
=8とすれば,伝送ビットレートは次のようになる。即
ち,1ブロック当りの伝送量は,PCM信号そのままを
伝送する場合は12×8=96[ビット]であるが,ベク
トル量子化を行うとラベルを区別するビット数,即ち,
log2 256=8[ビット]で済み,伝送ビットレートは
1/12になる。この場合,前記各バッファメモリに記
憶されるn標本を成分とするベクトルyは,それに最も
近いセントロイドで近似される(量子化される)ことに
なる。従ってコードブックサイズMは大きい程この量子
化誤差は小さくなるが,符号化に要するビット数は増加
することになる。また,前記代表ベクトルは,学習用に
準備されたベクトル集合から前記のようにして求められ
るが,これを精度良く行うためには,Mが大きくなるほ
ど前記学習用ベクトルは多くを必要とする。従って,こ
の量子化に伴う誤差,伝送ビットレート,代表ベクトル
の推定精度等を総合的に考慮して,目的に応じてコード
ブックサイズを決定する必要がある。By doing so, for example, 1
When transmitting an audio signal whose sample is represented by 12 bits, the codebook size is M = 256, and the block length is n.
If = 8, the transmission bit rate is as follows. That is, the transmission amount per block is 12 × 8 = 96 [bits] when the PCM signal is transmitted as it is, but when the vector quantization is performed, the number of bits for distinguishing the label, that is,
log 2 256 = 8 [bits], and the transmission bit rate is 1/12. In this case, the vector y having n samples as components in each buffer memory is approximated (quantized) by the nearest centroid. Therefore, as the codebook size M increases, the quantization error decreases, but the number of bits required for encoding increases. In addition, the representative vector is obtained from the vector set prepared for learning as described above. In order to perform this with high accuracy, the larger the M becomes, the more the learning vector is required. Therefore, it is necessary to determine the codebook size according to the purpose by comprehensively taking into account the error accompanying the quantization, the transmission bit rate, the estimation accuracy of the representative vector, and the like.
【0009】音声認識装置は,未知の音声信号を音響特
徴ベクトルの系列に変換し,それぞれの認識カテゴリに
対応して前もって記憶されているそれぞれの参照モデル
の前記音響特徴ベクトル系列に対する尤度を計算し,該
尤度が最大となる参照モデルとして識別される。(図
2)はベクトル量子化を用いた一般的な音声認識装置の
ブロック図である。20は特徴抽出部であって入力音声
信号を特徴ベクトルに変換するものである。即ち,例え
ば10msec毎に,フィルタバンク,LPC分析,ケプス
トラム分析等によりn次元の特徴ベクトルに変換する。
21はコードブックであって,予め学習用音声から前記
と同様にして得られる特徴ベクトルの集合から周知のク
ラスタリング法によってクラスタリングし,各クラスタ
にラベル付けし,該ラベルにより検索可能な形で各クラ
スタのセントロイドを記憶したものである。22はベク
トル量子化部であって,(図1)の比較部14とラベル
選択部15を含んだものである。従って,特徴抽出部2
0で得られた特徴ベクトルは,コードブック21を参照
して該特徴ベクトルに最も近いセントロイドのクラスタ
のラベルに変換される。23は参照モデル記憶部であっ
て,各認識単位に対応した参照モデルが記憶されてい
る。認識単位としては,単語,音節,音韻等がよく用い
られる。24は照合部であって,参照モデル記憶部23
に記憶された前記各参照モデルのベクトル量子化部22
の出力に得られるラベル系列に対する尤度を計算する。
25は判定部であって,この尤度が最大である参照モデ
ルに対応する認識単位を認識結果と判定する。The speech recognition apparatus converts an unknown speech signal into a sequence of acoustic feature vectors, and calculates the likelihood of each reference model stored in advance corresponding to each recognition category with respect to the acoustic feature vector sequence. Then, the likelihood is identified as the reference model having the maximum likelihood. FIG. 2 is a block diagram of a general speech recognition device using vector quantization. Reference numeral 20 denotes a feature extraction unit which converts an input speech signal into a feature vector. That is, for example, every 10 msec, it is converted into an n-dimensional feature vector by filter bank, LPC analysis, cepstrum analysis and the like.
Reference numeral 21 denotes a code book, which is clustered by a well-known clustering method from a set of feature vectors obtained in advance from the training speech in the same manner as described above, and labels each cluster. It is a memory of the centroid. Reference numeral 22 denotes a vector quantization unit, which includes the comparison unit 14 and the label selection unit 15 shown in FIG. Therefore, the feature extraction unit 2
The feature vector obtained at 0 is converted to the label of the centroid cluster closest to the feature vector with reference to the codebook 21. Reference numeral 23 denotes a reference model storage unit which stores reference models corresponding to each recognition unit. As recognition units, words, syllables, phonemes, and the like are often used. Reference numeral 24 denotes a reference unit, which is a reference model storage unit 23.
Vector quantization unit 22 for each of the reference models stored in
Calculate the likelihood for the label sequence obtained in the output of.
A determination unit 25 determines the recognition unit corresponding to the reference model having the maximum likelihood as a recognition result.
【0010】参照モデルとしては,各認識単位音声をラ
ベル系列として持つものと,状態と状態遷移,各状態に
おける特徴ベクトルの発生度合が定義された,いわゆる
HMM(Hidden Markov Model)として持つもの等が提
案されている。As reference models, there are a model having each recognition unit voice as a label sequence, a model having a so-called HMM (Hidden Markov Model) in which states and state transitions, and a degree of occurrence of a feature vector in each state are defined. Proposed.
【0011】前者はSPLIT法として知られているも
のであり,未知入力音声に対応するラベル系列と,参照
モデルたるラベル系列とラベル系列同士で照合するもの
と,未知入力から得られる特徴抽出部20の出力ベクト
ルをラベルに変換してしまわずに各セントロイドに対す
る距離ベクトル(各フレームの各セントロイドに対する
距離を要素とするベクトル)あるいは類似度ベクトル
(各フレームの各セントロイドに対する類似度を要素と
するベクトル)に変換し,得られた距離(類似度)ベク
トル列と参照モデルと照合する方法である。The former is known as the SPLIT method, and includes a label sequence corresponding to an unknown input speech, a label sequence which is a reference model and a label sequence collated with each other, and a feature extraction unit 20 obtained from an unknown input. Is converted to a label without converting the distance vector to each centroid (a vector having the distance to each centroid in each frame as an element) or the similarity vector (the similarity to each centroid in each frame as an element In this method, the obtained distance (similarity) vector sequence is compared with the reference model.
【0012】後者は,最近主流となって来た方式であ
り,種々の改良法も提案されているが基本的には次の原
理に基づく。認識すべき未知入力に対する特徴ベクトル
系列をY=y1,y2,…,yT,HMMλから発生する長さ
Tの任意の状態系列をX=x1,x2,…,xT,状態iから
状態jへの遷移確率をaij,状態iの初期確率,即ち,
t=1で状態iである確率をπi,状態iにおけるベク
トルytの発生度合をωi(yt)とするとき,λから特徴
ベクトル系列Yの発生する度合は,(数2)〜(数4)
のように示される。The latter is a system which has recently become mainstream, and various improvements have been proposed, but are basically based on the following principle. The feature vector sequence for unknown input to be recognized Y = y 1, y 2, ..., y T, any state sequence X = x 1 length T generated from HMMλ, x 2, ..., x T, the state The transition probability from i to state j is a ij , the initial probability of state i,
When the probability of state i at t = 1 is π i and the degree of occurrence of vector y t in state i is ω i (y t ), the degree of occurrence of feature vector series Y from λ is (Equation 4)
Is shown as
【0013】[0013]
【数2】 (Equation 2)
【0014】またはOr
【0015】[0015]
【数3】 (Equation 3)
【0016】または(数3)の両辺の対数をとって,Or, taking the logarithm of both sides of (Equation 3),
【0017】[0017]
【数4】 (Equation 4)
【0018】よく用いられるモデルの状態遷移図は(図
4)のように表される。ただし,同図において右肩のw
は認識単位wに対応するものであることを示す。これを
HMM wとすれば,(図2)における参照モデル記憶
部23には,(図3)のようにHMM 1,HMM 2,
・・・,HMM Wが記憶されることになる。このとき,認
識結果は,認識単位wに対応するL1(Y|λw),L2(Y|
λw),L3(Y|λw)に対して,A state transition diagram of a frequently used model is represented as shown in FIG. However, in FIG.
Indicates that it corresponds to the recognition unit w. Assuming that this is HMM w, the reference model storage unit 23 in (FIG. 2) stores HMM 1, HMM 2,
.., HMM W is stored. At this time, the recognition results are L 1 (Y | λ w ) and L 2 (Y |
λ w ) and L 3 (Y | λ w )
【0019】[0019]
【数5】 (Equation 5)
【0020】となる。ただし,(数5)において,(数
2)を用いる場合はi=1,(数3)を用いる場合はi
=2,(数4)を用いる場合はi=3であるとする。## EQU1 ## However, in (Equation 5), i = 1 when (Equation 2) is used, and i when (Equation 3) is used.
= 2 and (Equation 4), i = 3.
【0021】状態iにおける特徴ベクトルの発生度合ω
i(yt)の定義の仕方によって連続型HMM,離散型HM
M,FVQ型HMM等が存在する。本発明は,離散型H
MM,FVQ型HMMに関するものである。Degree of occurrence of feature vector ω in state i
Depending on the definition of i (y t ), continuous HMM, discrete HM
M, FVQ type HMMs and the like exist. The present invention provides a discrete H
It relates to MM and FVQ HMMs.
【0022】離散型HMMは,bimを状態iにおけるラ
ベルmの発生確率とするとき,In the discrete HMM, when b im is the probability of occurrence of label m in state i,
【0023】[0023]
【数6】 (Equation 6)
【0024】とするものである。離散型HMMの改良と
してファジィベクトル量子化に基づくHMM(FVQ型
HMM)がある。通常のベクトル量子化においては,y
tは,それに最も近いクラスタの代表ベクトルに一意に
量子化されてしまうのに対し,ファジィベクトル量子化
はytのクラスタmへの帰属度0≦utm≦1,ut1+u
t2+・・・+utM=1が定義され,[0024] As an improvement of the discrete HMM, there is an HMM based on fuzzy vector quantization (FVQ HMM). In normal vector quantization, y
While t is uniquely quantized to the representative vector of the cluster closest to it, fuzzy vector quantization is based on the degree of belonging of y t to cluster m 0 ≦ u tm ≦ 1, u t1 + u
t2 + ... + utM = 1 is defined,
【0025】[0025]
【数7】 (Equation 7)
【0026】あるいはOr
【0027】[0027]
【数8】 (Equation 8)
【0028】等と定義される。Are defined as follows.
【0029】[0029]
【発明が解決しようとする課題】通常,コードブックは
多数の話者の種々の文章,単語等の発声音声から平均的
な値として求められるのであるが,この平均からずれる
と歪が大きくなり,通信の場合は復号信号の品質が低下
し,音声認識の場合は認識性能の劣化を招く。話者毎に
コードブックを作成し,話者に応じて適用するコードブ
ックを切り替えれば,性能はよくなるが一人の話者から
膨大な学習データを集める必要があり,実用性に乏し
い。Normally, a code book is obtained as an average value from uttered voices of various sentences, words, etc. of a large number of speakers. In the case of communication, the quality of the decoded signal deteriorates, and in the case of speech recognition, the recognition performance deteriorates. If a codebook is created for each speaker and the applied codebook is switched according to the speaker, the performance will be improved, but it will be necessary to collect a large amount of training data from one speaker, which is not practical.
【0030】[0030]
【課題を解決するための手段】 1.特徴ベクトル空間におけるいくつかの代表ベクトル
をそれぞれに対応したラベルで検索可能な形で記憶する
標準コードブックと,いくつかの学習用ベクトルを記憶
する学習用ベクトル記憶手段と,前記代表ベクトルと前
記学習用ベクトルの関数として定義される目的関数を計
算する目的関数計算手段と,移動ベクトルを算出する移
動ベクトル算出手段と,該移動ベクトルを前記代表ベク
トルに加算して新たなる代表ベクトルを得る適応手段と
を備え,入力ベクトルの符号化に際しては前記新たなる
代表ベクトルにより入力ベクトルをラベルもしくは該入
力ベクトルの各ラベルに対する帰属度を要素とする帰属
度ベクトルに変換するものであって,前記移動ベクトル
算出手段は,前記学習用ベクトルに対し,前記新たなる
代表ベクトルが前記目的関数を極値に近づけるべく算出
するものである 2.特徴ベクトル空間におけるいくつかの代表ベクトル
をそれぞれに対応したラベルで検索可能な形で記憶する
標準コードブックと,いくつかの学習用ベクトルを記憶
する学習用ベクトル記憶手段と,前記代表ベクトルと前
記学習用ベクトルの関数として定義される目的関数を計
算する目的関数計算手段と,移動ベクトルを算出する移
動ベクトル算出手段と,該移動ベクトルを入力ベクトル
に加算する正規化手段とを備え,入力ベクトルの符号化
に際しては,前記移動ベクトルと入力ベクトルを加算す
ることにより前記正規化された入力ベクトルを得,前記
代表ベクトルによりラベルもしくは該入力ベクトルの各
ラベルに対する帰属度を要素とする帰属度ベクトルに変
換するものであって,前記移動ベクトル算出手段は,前
記標準コードブックに対し,前記学習用ベクトルと前記
移動ベクトルの和を新たなる学習ベクトルとして置き換
えたとき,前記目的関数を極値に近づけるべく算出する
ものである。[Means for Solving the Problems] A standard codebook that stores a number of representative vectors in a feature vector space in a searchable form with corresponding labels, a learning vector storage unit that stores some learning vectors, Objective function calculating means for calculating an objective function defined as a function of a use vector, moving vector calculating means for calculating a moving vector, and adapting means for adding the moving vector to the representative vector to obtain a new representative vector. And converting the input vector into a label or a membership vector using the new representative vector as an element with the membership of the input vector with respect to each label when encoding the input vector. Means that the new representative vector is 2 and calculates to approximate the function extremum. A standard codebook that stores a number of representative vectors in a feature vector space in a searchable form with corresponding labels, a learning vector storage unit that stores some learning vectors, Function vector calculating means for calculating an objective function defined as a function of the input vector, moving vector calculating means for calculating the moving vector, and normalizing means for adding the moving vector to the input vector. In the conversion, the normalized input vector is obtained by adding the movement vector and the input vector, and the representative vector is used to convert the input vector into a label or a membership vector with the membership of each input vector as an element. Wherein the movement vector calculating means stores the motion vector in the standard codebook. And, when replacing the sum of the motion vector and the learning vector As a new learning vector, and calculates to approximate the objective function extremum.
【0031】[0031]
1.標準コードブックに特徴ベクトル空間におけるいく
つかの代表ベクトルをそれぞれに対応したラベルで検索
可能な形で記憶し,学習用ベクトル記憶手段にいくつか
の学習用ベクトルを記憶しておき,目的関数計算手段に
より前記代表ベクトルと前記学習用ベクトルの関数とし
て定義される目的関数を計算し,移動ベクトル算出手段
によって移動ベクトルを算出し,適応手段によって該移
動ベクトルを前記代表ベクトルに加算して新たなる代表
ベクトルを得,該新たなる代表ベクトルを用いて,ベク
トル量子化手段によって符号化すべき入力ベクトルをラ
ベルもしくは該入力ベクトルの各ラベルに対する帰属度
を要素とする帰属度ベクトルに変換するものであって,
前記移動ベクトルの算出は,前記学習用ベクトルに対
し,前記新たなる代表ベクトルが前記目的関数を極値に
近づけるべく算出するものである。 2.標準コードブックに特徴ベクトル空間におけるいく
つかの代表ベクトルをそれぞれに対応したラベルで検索
可能な形で記憶し,学習用ベクトル記憶手段にいくつか
の学習用ベクトルを記憶しておき,目的関数計算手段に
より前記代表ベクトルと前記学習用ベクトルの関数とし
て定義される目的関数を計算し,移動ベクトル算出手段
によって移動ベクトルを算出し,正規化手段によって該
移動ベクトルを符号化すべき入力ベクトルに加算して正
規化された入力ベクトルを得,ベクトル量子化手段によ
って該正規化された入力ベクトルを前記代表ベクトルに
よりラベルもしくは該入力ベクトルの各ラベルに対する
帰属度を要素とする帰属度ベクトルに変換するものであ
って,前記移動ベクトルは,前記移動ベクトル算出手段
によって,前記標準コードブックに対し,前記学習用ベ
クトルに前記移動ベクトルを加算したものを新たな学習
ベクトルとして前記目的関数を極値に近づけるべく算出
するものである。1. Some representative vectors in the feature vector space are stored in a standard codebook in a searchable form with corresponding labels, and some learning vectors are stored in learning vector storage means. , An objective function defined as a function of the representative vector and the learning vector is calculated, a moving vector is calculated by a moving vector calculating means, and the moving vector is added to the representative vector by an adaptive means to obtain a new representative vector. And converting the input vector to be encoded by the vector quantization means into a label or a membership vector having the membership of each input vector as an element, using the new representative vector,
The calculation of the movement vector is to calculate the new representative vector so that the objective function approaches an extreme value with respect to the learning vector. 2. Some representative vectors in the feature vector space are stored in a standard codebook in a searchable form with corresponding labels, and some learning vectors are stored in learning vector storage means. Calculates an objective function defined as a function of the representative vector and the learning vector, calculates a motion vector by a motion vector calculation means, adds the motion vector to an input vector to be coded by a normalization means, and performs normalization. Converting the input vector normalized by the vector quantization means into a label or a membership vector using the representative vector as an element of the membership of the input vector with respect to each label. , The movement vector is calculated by the movement vector calculation means. Codebook to, and calculates to approximate the extrema of the objective function obtained by adding the motion vector to the learning vector as a new learning vector.
【0032】[0032]
【実施例】本発明は,話者の正規化あるいはコードブッ
クの適応化に関するものである。即ち,上記欠点を補う
ために,入力ベクトルを話者に応じて修正する,あるい
は,コードブックの代表ベクトルを話者に応じて修正す
る方法に関するものであって,認識すべき話者のごく少
数の音声から教師無し(話者が何れの単語,文章等を発
声したかシステムには教えない)でこれを実行するもの
である。DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention relates to speaker normalization or codebook adaptation. That is, in order to compensate for the above drawbacks, the present invention relates to a method of correcting an input vector according to a speaker or a method of correcting a representative vector of a codebook according to a speaker. This is executed without a teacher (it does not tell the system which word, sentence, etc. the speaker uttered) from the voice of (1).
【0033】コードブックは多数の話者が発声して得ら
れた特徴ベクトルの集合からクラスタリングし作成され
る。クラスタリングの方法は,各特徴ベクトルが唯一つ
のクラスタにのみ属するとするいわゆるハードクラスタ
リングと各特徴ベクトルがそれぞれのクラスタに,それ
ぞれに対する帰属度に従って属するとするファジィクラ
スタリングがある。ハードクラスタリングの方法にはL
BG法と呼ばれるアルゴリズムがあり,ファジィクラス
タリングの方法にはファジィk-means法等周知の方法が
用いられる。本発明は,ハードクラスタリングにもファ
ジィクラスタリングにも用いられるが,ハードクラスタ
リングはファジィクラスタリングの特別の場合であると
考えることが出来る。The code book is created by clustering from a set of feature vectors obtained by uttering a number of speakers. Clustering methods include so-called hard clustering, in which each feature vector belongs to only one cluster, and fuzzy clustering, in which each feature vector belongs to each cluster according to the degree of belonging to each cluster. L for hard clustering method
There is an algorithm called a BG method, and a well-known method such as a fuzzy k-means method is used as a fuzzy clustering method. Although the present invention is used for both hard clustering and fuzzy clustering, hard clustering can be considered to be a special case of fuzzy clustering.
【0034】ファジィクラスタリングは次のようにして
行われる。多数話者が発声して得られた特徴ベクトルに
通し番号をつけてy1,y2,…,yn,…,yNとする。問題
は,ynのクラスタm(=1,・・・,M)への帰属度を
unm,クラスタmのセントロイドベクトルをμmとする
とき,目的関数Fuzzy clustering is performed as follows. Y 1, y 2 multiple speakers with a serial number feature vectors obtained by saying, ..., y n, ..., and y N. When the problem is, the cluster m of y n (= 1, ···, M) u nm the degree of belonging to, the centroid vector of cluster m and μ m, the objective function
【0035】[0035]
【数9】 (Equation 9)
【0036】をun1+un2+ … +unM=1の条件の下
で最小化すべくセントロイド行列V=[μ1,μ2,・・・,
μM]と帰属度行列U=[unm]を決定することである。こ
れは,VとUの何れか一方を固定し,他方によって目的
関数Jを最小化するという操作を,VとUとについて交
互に繰り返すことによって実行される。具体的には,V
を固定して∂J/∂U=0のUに関する解としてU'を
求め,Uを固定して∂J/∂V=0のVに関する解とし
てV'を求め,U=U',V=V'を新たなU,Vとする
という操作を収束するまで交互に繰り返すものである。
Fはファジィネスと呼ばれるもので,F>1であって,
Fが大きくなるにつれてクラスタ間の曖昧さが増す。The centroid matrix V = [μ 1 , μ 2 ,..., Is minimized under the condition of u n1 + un 2 +... + UnM = 1.
μ M ] and the membership matrix U = [ unm ]. This is performed by alternately repeating the operation of fixing one of V and U and minimizing the objective function J by the other for V and U. Specifically, V
Is fixed, U ′ is obtained as a solution for U of ∂J / ∂U = 0, and U is fixed to obtain V ′ as a solution for V of ∂J / ∂V = 0, U = U ′, V = The operation of changing V 'to new U and V is alternately repeated until convergence.
F is called fuzziness, F> 1 and
The ambiguity between clusters increases as F increases.
【0037】ファジィクラスタリングは次のステップに
より実行される。ここでは,d(yn,μm)=(yn−μm)
T(yn−μm)とする。 (ステップ1−1) クラスタの数をM,繰り返し計算の回数をs=0,目的
関数の値をJ(0)=∞ とし,帰属度行列U=[unm]
の初期値U(0)を適当に与える。 (ステップ1−2)s=s+1とする。 (ステップ1−3)クラスタmの平均ベクトルμ
m (s)(m=1,…,M)を次式で求める。Fuzzy clustering is performed by the following steps. Here, d (y n, μ m ) = (y n -μ m)
And T (y n -μ m). (Step 1-1) The number of clusters is M, the number of iterations is s = 0, the value of the objective function is J (0) = ∞, and the membership matrix U = [ unm ]
Is appropriately given as an initial value U (0) . (Step 1-2) Set s = s + 1. (Step 1-3) Average vector μ of cluster m
m (s) (m = 1,..., M) is obtained by the following equation.
【0038】[0038]
【数10】 (Equation 10)
【0039】(ステップ1−4)各点のクラスタへの帰
属度行列を次式により計算する。(Step 1-4) A matrix of the degree of belonging of each point to the cluster is calculated by the following equation.
【0040】[0040]
【数11】 [Equation 11]
【0041】(ステップ1−5)目的関数の計算(Step 1-5) Calculation of Objective Function
【0042】[0042]
【数12】 (Equation 12)
【0043】(ステップ1−6)終端条件(Step 1-6) Termination condition
【0044】[0044]
【数13】 (Equation 13)
【0045】を満たさないときは(ステップ1−2)
へ。満たすときは終了する。ここで,εは予め定められ
た適当に小さな正の数であって,この値が小さい程,セ
ントロイドの推定精度は高くなるが収束に時間がかかる
ことになる。When the condition is not satisfied (step 1-2)
What. When satisfied, end. Here, ε is a predetermined appropriately small positive number, and the smaller this value is, the higher the centroid estimation accuracy is, but the longer it takes to converge.
【0046】上記のステップにおいて(数10)は|J
(s-1)/|μm (s-1)=0をμm (s-1)について解くことに
よって,(数11)はθをLagrangeの未定乗数としてIn the above steps, (Equation 10) is | J
(s-1) / | by solving for μ m (s-1) = 0 and μ m (s-1), as (number 11) is undetermined multiplier of Lagrange the θ
【0047】[0047]
【数14】 [Equation 14]
【0048】をunm (s-1)によって解くことによって得
られる。また,ファジィネスF→1+0とすれば,1/
(F−1)→∞であって,μm (s-1)がynに最近隣のとき
は, d(yn,μm (s-1))<d(yn,μh (s-1)) for h≠m d(yn,μm (s-1))=d(yn,μh (s-1)) for h=m であるから, {d(yn,μm (s-1))/d(yn,μh (s-1))}1/(F-1)→0 f
or h≠m {d(yn,μm (s-1))/d(yn,μh (s-1))}1/(F-1)=1 f
or h=m となり,By solving u nm (s-1) . If fuzziness F → 1 + 0, then 1 /
A (F-1) → ∞, when μ m (s-1) is the highest close to y n, d (y n, μ m (s-1)) <d (y n, μ h ( s-1)) for h ≠ m d (y n, μ m (s-1)) = d (y n, μ h (s-1)) since it is for h = m, {d ( y n, μ m (s-1)) / d (y n, μ h (s-1))} 1 / (F-1) → 0 f
or h ≠ m {d (y n, μ m (s-1)) / d (y n, μ h (s-1))} 1 / (F-1) = 1 f
or h = m,
【0049】[0049]
【数15】 (Equation 15)
【0050】即ち,ハードクラスタリングとなる。ハー
ドクラスタリングは,ファジィクラスタリングにおい
て,ynに最も近いクラスタのラベルをL(n)とすると
き,unm (s)=δL(n),m (s)と定義することである。ここ
で,δijはクロネッカのデルタであって,i=jのとき
δij=1,i≠jのときδij=0である。従って,ハー
ドクラスタリングの場合は上の処理手順は次のようにな
る。That is, hard clustering is performed. Hard clustering in fuzzy clustering, when the label of the closest cluster y n and L (n), is to define the u nm (s) = δ L (n), m (s). Here, δ ij is the Kronecker delta, δ ij = 1 when i = j, and δ ij = 0 when i ≠ j. Therefore, in the case of hard clustering, the above processing procedure is as follows.
【0051】先ず,目的関数はFirst, the objective function is
【0052】[0052]
【数16】 (Equation 16)
【0053】である。この場合は,クラスタリングの手
順は次のようになる。 (ステップ2−1)s=0,J(0)=∞とする。 (ステップ2−2)s=s+1とする。 (ステップ2−3)クラスタの平均ベクトルμm (s)(m
=1,…,M)を次式で求める。Is as follows. In this case, the clustering procedure is as follows. (Step 2-1) It is assumed that s = 0 and J (0) = ∞. (Step 2-2) s = s + 1 is set. (Step 2-3) Average vector μ m (s) (m
= 1,..., M) by the following equation.
【0054】[0054]
【数17】 [Equation 17]
【0055】(ステップ2−4)各点の最近隣のセント
ロイドを計算し,各点をクラスタリングする。(Step 2-4) The centroid closest to each point is calculated, and each point is clustered.
【0056】[0056]
【数18】 (Equation 18)
【0057】(ステップ2−5)目的関数の計算(Step 2-5) Calculation of Objective Function
【0058】[0058]
【数19】 [Equation 19]
【0059】(ステップ2−6)終端条件(Step 2-6) Termination condition
【0060】[0060]
【数20】 (Equation 20)
【0061】を満たさないときは(ステップ2−2)
へ。満たすときは終了する。以上のようにしてコードブ
ックが作成されるが,このようにして作成されたコード
ブックの話者Aの音声に対する適応は次のように行う。When the condition is not satisfied (step 2-2)
What. When satisfied, end. The codebook is created as described above, and the adaptation of the codebook thus created to the voice of speaker A is performed as follows.
【0062】問題は,セントロイドμm(m=1,・・・,
M)を話者Aの音声に最も適するようにμm'に変換する
ことである。本発明による第1の実施例は,この変換を
μm'=μm+hmで与え,話者Aの発声した音声から最適
のhmを見出すことによってこれを行うものである。具
体的には,話者Aがコードブック適応のために発声した
音声から得られる特徴ベクトルを通し番号を付けて,y
A 1,yA 2,・・・,yA Iとするとき,The problem is that the centroid μ m (m = 1,...,
M) to μ m ′ so as to be most suitable for the voice of speaker A. The first embodiment according to the present invention, the transformation given by μ m '= μ m + h m, and performs this by finding the optimal h m from speech uttered by the speaker A. Specifically, feature numbers obtained from the voice uttered by speaker A for codebook adaptation are serially numbered, and y
When A 1 , y A 2 , ..., y A I ,
【0063】[0063]
【数21】 (Equation 21)
【0064】を適当に小さくするhmを見出すことによ
って行われ得る。前記の例のようにd(y,μ)=(y−
μ)T(y−μ)で定義すれば,次のステップによりhmが
求められる。Sは繰り返し回数の上限として予め設定し
た値である。 (ステップ3−1)クラスタの数をM,繰り返し計算の
回数をs=0,目的関数の値をJ(0)=∞, hm (0)
=0(m=1,・・・,M)とし,帰属度行列 U=[unm]の
初期値U (0)を 次式で与える。H is appropriately reducedmBy finding
Can be performed. As in the above example, d (y, μ) = (y−
μ)T(y-μ), hmBut
Desired. S is preset as the upper limit of the number of repetitions
Value. (Step 3-1) When the number of clusters is M,
The number of times is s = 0 and the value of the objective function is J(0)= ∞, hm (0)
= 0 (m = 1,..., M), and the membership degree matrix U = [unm]of
Initial value U (0)Is given by the following equation.
【0065】[0065]
【数22】 (Equation 22)
【0066】(ステップ3−2)s=s+1とする。 (ステップ3−3)移動ベクトルhm (s)(m=1,…,
M)を次式で求める。(Step 3-2) s = s + 1 is set. (Step 3-3) Movement vector h m (s) (m = 1,...,
M) is calculated by the following equation.
【0067】[0067]
【数23】 (Equation 23)
【0068】(ステップ3−4)各点(学習用ベクト
ル)のクラスタへの帰属度行列を次式により計算する。(Step 3-4) A matrix of the degree of belonging of each point (learning vector) to the cluster is calculated by the following equation.
【0069】[0069]
【数24】 (Equation 24)
【0070】(ステップ3−5)目的関数の計算(Step 3-5) Calculation of Objective Function
【0071】[0071]
【数25】 (Equation 25)
【0072】(ステップ3−6)終端条件(Step 3-6) Termination condition
【0073】[0073]
【数26】 (Equation 26)
【0074】を満たさないときは(ステップ3−2)
へ。満たすときは終了する。(ステップ3−6)におけ
るδは適当に小さな数であって,標準的に準備されてい
るコードブックのセントロイドを,学習のために用いる
音声入力にどの程度近づけるかによって決められる。δ
が小さく,Sが大きいときは,前記学習用音声のみによ
ってクラスタリングして得られるコードブックに近づく
ことになる。学習用音声が少ないときは,セントロイド
の分布がこの学習用音声に過度に偏ることは返って好ま
しくないと考えられるから,δ,Sは,学習用音声の数
によって適当な大きさが選ばれるべきである。If the condition is not satisfied (step 3-2)
What. When satisfied, end. Δ in (Step 3-6) is an appropriately small number, and is determined by how close the centroid of the codebook prepared as standard is to the speech input used for learning. δ
Is small and S is large, it approaches a codebook obtained by clustering only with the learning speech. When the number of learning voices is small, it is considered unfavorable that the distribution of the centroid is excessively biased toward the learning voices. Therefore, δ and S are appropriately selected according to the number of learning voices. Should.
【0075】学習用音声が少ないときは,むしろ,目的
関数(数21)におけるhmをm=1,・・・,Mに関して
共通にする方がよい。即ち,本発明による第2の実施例
はこの場合であって,h=h1=h2=・・・=hMとし,目
的関数を[0075] When the voice for learning is small, but rather, a h m in the objective function (number 21) m = 1, ···, it is better to be in common with respect to M. That is, the second embodiment according to the present invention is in this case, where h = h 1 = h 2 =... = H M and the objective function is
【0076】[0076]
【数27】 [Equation 27]
【0077】とするものである。hは次のステップによ
って求められる。 (ステップ4−1)クラスタの数をM,繰り返し計算の
回数をs=0,目的関数の値をJ(0)=∞,h(0)=0と
し,帰属度行列 U=[unm]の初期値U(0)を次式で与え
る。It is assumed that h is determined by the following steps. (Step 4-1) The number of clusters is M, the number of iterations is s = 0, the value of the objective function is J (0) = ∞, h (0) = 0, and the membership matrix U = [ unm ] It gives the initial value U (0) by the following equation.
【0078】[0078]
【数28】 [Equation 28]
【0079】(ステップ4−2)s=s+1とする。 (ステップ4−3)移動ベクトルh(s)を次式で求め
る。(Step 4-2) s = s + 1. (Step 4-3) The movement vector h (s) is obtained by the following equation.
【0080】[0080]
【数29】 (Equation 29)
【0081】(ステップ4−4)各点(学習用ベクト
ル)のクラスタへの帰属度行列を次式により計算する。(Step 4-4) The degree of membership of each point (learning vector) to the cluster is calculated by the following equation.
【0082】[0082]
【数30】 [Equation 30]
【0083】(ステップ4−5)目的関数の計算(Step 4-5) Calculation of Objective Function
【0084】[0084]
【数31】 (Equation 31)
【0085】(ステップ4−6)終端条件(Step 4-6) Termination Condition
【0086】[0086]
【数32】 (Equation 32)
【0087】を満たさないときは(ステップ4−2)
へ。満たすときは終了する。この場合もδ,Sの選び方
によって,学習用として発声した音声の,セントロイド
の修正量に対する影響度を調整することが出来る。When the condition is not satisfied (step 4-2)
What. When satisfied, end. Also in this case, the influence of the voice uttered for learning on the centroid correction amount can be adjusted by selecting δ and S.
【0088】(図5)は前記第1,第2の実施例の構成
を示すブロック図である。前記第1の実施例の場合は前
記(ステップ3−1)〜(ステップ3−6)を実行する
ものであり,前記第2の実施例の場合は,(ステップ4
−1)〜(ステップ4−6)を実行する。50はコード
ブック作成のための前記学習用ベクトルyA 1,…,yA Nの
入力端子,51はバッファメモリで,前記yA 1,…,yA N
を記憶する。54は標準コードブックであって,多数話
者から作成されたコードベクトルがラベルで検索可能な
形で記憶されている。53は移動ベクトル記憶部,55
は加算器であって,前記標準コードブック54の内容と
移動ベクトル記憶部55の内容とが加算器55で加算さ
れる。52は移動ベクトル計算部であって,バッファメ
モリ51の内容と加算器55の出力から,前記第1の実
施例の場合は前記(ステップ6−1)〜(ステップ6−
6)に従ってhm(m=1,…,M)を計算し,前記第2
の実施例の場合は前記(ステップ4−1)〜(ステップ
4−6)を計算する。計算された移動ベクトルは移動ベ
クトル記憶部53に記憶される。前記繰り返し計算開始
の時点で,移動ベクトル記憶部53の内容は0に初期化
される。この構成によれば,移動ベクトル記憶部53の
内容は計算途中に得られる更新された移動ベクトルによ
って,その都度書き換えられることになる。(ステップ
3−6)あるいは(ステップ4−6)の収束条件が満た
されれば,最終的に話者Aに適応した移動ベクトルが移
動ベクトル記憶部53に得られる。このようにして得ら
れた移動ベクトルを標準ゴードブックの出力に加算した
ものを以って話者Aに適した代表ベクトルとすることが
出来る。FIG. 5 is a block diagram showing the structure of the first and second embodiments. In the case of the first embodiment, steps (3-1) to (3-6) are executed, and in the case of the second embodiment, (step 4-4) is executed.
-1) to (Step 4-6) are executed. 50 the learning vector y A 1 for codebook creation, ..., the input terminal of the y A N, 51 in the buffer memory, the y A 1, ..., y A N
Is stored. Reference numeral 54 denotes a standard code book, which stores code vectors created by a large number of speakers in a form that can be searched for by labels. 53 is a movement vector storage unit, 55
Is an adder, and the contents of the standard codebook 54 and the contents of the movement vector storage unit 55 are added by the adder 55. Reference numeral 52 denotes a movement vector calculation unit, which is based on the contents of the buffer memory 51 and the output of the adder 55 in the case of the first embodiment.
H m (m = 1,..., M) is calculated according to 6), and the second
In the case of this embodiment, the above (Step 4-1) to (Step 4-6) are calculated. The calculated movement vector is stored in the movement vector storage unit 53. At the start of the repetitive calculation, the contents of the movement vector storage unit 53 are initialized to zero. According to this configuration, the contents of the movement vector storage unit 53 are rewritten each time by the updated movement vector obtained during the calculation. If the convergence condition of (Step 3-6) or (Step 4-6) is satisfied, a motion vector suitable for the speaker A is finally obtained in the motion vector storage unit 53. The motion vector obtained in this manner is added to the output of the standard godbook, so that a representative vector suitable for speaker A can be obtained.
【0089】(図6)は加算器55と移動ベクトル計算
部52との間に適応化コードブック56を挿入した場合
である。即ち,この構成にすれば,明らかに,適応化コ
ードブックには最終的には話者Aに適したコードブック
として適応化コードブックが得られることになる。FIG. 6 shows a case where the adaptation codebook 56 is inserted between the adder 55 and the movement vector calculation section 52. That is, with this configuration, it is apparent that the adapted codebook is finally obtained as a codebook suitable for the speaker A in the adapted codebook.
【0090】(図7),(図8)は,以上の原理を用い
た通信装置の送信側の一実施例である。FIGS. 7 and 8 show an embodiment of the transmitting side of a communication device using the above principle.
【0091】(図7)は話者適応の方法として(図5)
に示したものを用いた場合である。ブロック1,2,
3,4,6,7は(図1)に示した同じ番号のブロック
と同様な動作をする。また,(図7)におけるブロック
51〜54は(図6)における同じ番号のブロックと同
様な動作をし,大部分は話者適応の場合に使われるのみ
である。話者が替わる毎に前記説明にしたがって移動ベ
クトル記憶部53にはその話者の標準コードブックから
のずれを表す移動ベクトルが学習され記憶される。(図
1)のシステムの場合,比較部6では,スイッチ4の出
力とコードブック5の内容とが比較されたが,(図7)
では,スイッチ4の出力と加算器55の出力が比較され
ることになる。加算器55の出力は,標準コードブック
に前記話者のずれた分の補正を行ったものであると考え
ることが出来る。FIG. 7 shows a method of speaker adaptation (FIG. 5).
This is a case where the one shown in FIG. Blocks 1, 2,
3, 4, 6, and 7 operate in the same manner as the blocks of the same number shown in FIG. The blocks 51 to 54 in FIG. 7 operate in the same manner as the blocks of the same number in FIG. 6, and are mostly used only for speaker adaptation. Each time the speaker changes, the motion vector indicating the deviation of the speaker from the standard codebook is learned and stored in the motion vector storage unit 53 according to the above description. In the case of the system shown in FIG. 1, the output of the switch 4 is compared with the contents of the codebook 5 by the comparing unit 6, but FIG.
Then, the output of the switch 4 and the output of the adder 55 are compared. It can be considered that the output of the adder 55 is obtained by correcting the standard codebook for the deviation of the speaker.
【0092】(図8)は話者適応の方法として(図6)
に示したものを用いた場合である。この場合は,前述の
ごとく適応化コードブックを挿入した場合である。この
場合は,比較器6では,スイッチ4の出力と適応化コー
ドブックの出力が比較されることになる。即ち,適応化
コードブックには話者に対する補正が行われた結果の代
表ベクトルが記憶されているからである。FIG. 8 shows a method of speaker adaptation (FIG. 6).
This is a case where the one shown in FIG. In this case, the adaptive codebook is inserted as described above. In this case, the comparator 6 compares the output of the switch 4 with the output of the adaptation codebook. That is, the adaptation codebook stores the representative vector obtained as a result of the correction for the speaker.
【0093】(図9)〜(図12)は以上のようにして
送られてきたラベル系列からもとの標本系列を再現する
受信機の実施例である。(FIG. 9) to (FIG. 12) show an embodiment of a receiver for reproducing the original sample sequence from the label sequence sent as described above.
【0094】(図9)は話者に応じた移動ベクトルが最
初に送られて来,予め移動ベクトル記憶部にそれらが記
憶される。以後,送られてきたラベルに対応するベクト
ルが標準コードブックから読み出され,読み出されたコ
ードベクトルが前記移動ベクトル記憶部の内容によっ
て,加算器93で補正され,ブロック10〜13におい
て前記と同様の処理が行われ復号信号が得られる。In FIG. 9, the motion vectors according to the speaker are transmitted first, and they are stored in the motion vector storage unit in advance. Thereafter, the vector corresponding to the sent label is read from the standard codebook, and the read code vector is corrected by the adder 93 according to the contents of the moving vector storage unit. A similar process is performed to obtain a decoded signal.
【0095】(図10)は適応化コードブック101を
備えた場合である。即ち,移動ベクトル記憶部92の内
容と,標準コードブックの内容の,加算器93による加
算出力を全てのコードベクトルに対して予め計算して適
応化コードブックに記憶しておき,この適応化コードブ
ックを(図1)におけるコードブック9の代わりに用い
るものである。FIG. 10 shows a case where the adaptive code book 101 is provided. That is, the addition output of the contents of the movement vector storage unit 92 and the contents of the standard codebook by the adder 93 is calculated in advance for all the code vectors and stored in the adaptation codebook. A book is used in place of the code book 9 in FIG.
【0096】(図11)は,送信側から移動ベクトルで
なくコードブックそのものを予め伝送しておくものであ
る。即ち,コードブック111には(図8)等の送信器
で作成された適応化コードブックの内容が伝送され,記
憶される。このコードブック81が(図1)のコードブ
ック9に対応するものであることは言うまでもない。FIG. 11 shows a case where the code book itself is transmitted from the transmitting side in advance, not the motion vector. That is, the contents of the adapted codebook created by the transmitter such as (FIG. 8) are transmitted and stored in the codebook 111. It goes without saying that the code book 81 corresponds to the code book 9 of FIG.
【0097】(図12)(図13)は,以上の話者適応
方式を音声認識に適用した場合の実施例である。FIGS. 12 and 13 show an embodiment in which the above speaker adaptation method is applied to speech recognition.
【0098】(図12)は,(図5)の方法を用いる場
合であって,51〜55は(図5)における場合と同様
な働きをする。従って,話者適応後は,(図2)のコー
ドブック21の代わりに加算器55の出力が用いられる
ことになる。FIG. 12 shows the case where the method of FIG. 5 is used, and 51 to 55 work in the same manner as in the case of FIG. Therefore, after the speaker adaptation, the output of the adder 55 is used instead of the codebook 21 of FIG.
【0099】(図13)は,(図6)の方法を用いる場
合であって,51〜56は(図6)における場合と同様
な働きをする。従って,話者適応後は,(図2)のコー
ドブック21の代わりに適応化コードブック56が用い
られることになる。FIG. 13 shows the case where the method of FIG. 6 is used, and 51 to 56 perform the same operation as in the case of FIG. Therefore, after the speaker adaptation, the adaptation codebook 56 is used instead of the codebook 21 of FIG.
【0100】以上は,コードブックを話者に適合させる
という観点に基づくものであるが,これと裏腹の関係
で,話者を標準のコードブックに適合させる,即ち,話
者正規化を行う方法も考えられる。即ち,(数21)はThe above description is based on the viewpoint of adapting the codebook to the speaker. However, in contrast to this, the method of adapting the speaker to the standard codebook, that is, a method of performing speaker normalization Is also conceivable. That is, (Equation 21) is
【0101】[0101]
【数33】 [Equation 33]
【0102】となるから,hmをyA iから減ずれば,話
者をコードブックに合わせて正規化すると言うふうに考
えることが出来る。(数33)は(図5)あるいは(図
6)に対応するものであるが,それらに対応して(図1
7)(a),(b)の構成を用いれば,(数33)に対
応して,(数34)が得られる。[0102] because become, if Genzure the h m from y A i, can be considered to Fu say that normalized to the speaker in the code book. (Equation 33) corresponds to (FIG. 5) or (FIG. 6).
7) If the configurations of (a) and (b) are used, (Equation 34) is obtained corresponding to (Equation 33).
【0103】[0103]
【数34】 (Equation 34)
【0104】(図14)は前記第3の実施例たる話者正
規化によるベクトル量子化に基づく通信方式の送信側の
一実施例であって,(図5)あるいは(図6)を用いた
場合である。51〜55は前記説明と同様な動作をす
る。この場合は,前記説明にしたがって学習された移動
ベクトルを入力ベクトルから差し引いて標準コードブッ
ク54を用いてベクトル量子化する。131は減算器で
あって,入力ベクトルから移動ベクトルを減算するもの
である。(FIG. 14) is an embodiment of the transmitting side of the communication system based on vector quantization by speaker normalization according to the third embodiment, and uses (FIG. 5) or (FIG. 6). Is the case. 51 to 55 operate in the same manner as described above. In this case, the motion vector learned according to the above description is subtracted from the input vector, and vector quantization is performed using the standard codebook 54. A subtractor 131 subtracts a movement vector from an input vector.
【0105】(図15)は(図14)で述べた送信機に
対する受信機であって,標準コードブック91を用いて
受信したラベル系列をコードベクトルの系列に変換し,
送信側から別途送られてきた移動ベクトルを前記コード
ベクトルに加算し,復号されたベクトルを得るものであ
る。141はこの加算を行う加算器である。92は加算
器141で加算を行うべき移動ベクトルを記憶する移動
ベクトル記憶部であって,この移動ベクトルは話者が変
われば前以って送信側から伝送されるものである。(FIG. 15) is a receiver for the transmitter described in (FIG. 14), and converts a label sequence received using the standard codebook 91 into a code vector sequence.
The motion vector separately sent from the transmitting side is added to the code vector to obtain a decoded vector. An adder 141 performs this addition. Reference numeral 92 denotes a movement vector storage unit for storing a movement vector to be added by the adder 141, and this movement vector is transmitted from the transmitting side in advance when the speaker changes.
【0106】(図16)は前記第3の実施例たる話者正
規化によるベクトル量子化に基づく音声認識装置の一実
施例である。51〜55は前記説明と同様な動作をす
る。この場合も,前記説明にしたがって学習された移動
ベクトルを減算器131によって入力ベクトルから差し
引いて標準コードブック54を用いてベクトル量子化す
る。FIG. 16 shows an embodiment of the speech recognition apparatus based on vector quantization by speaker normalization according to the third embodiment. 51 to 55 operate in the same manner as described above. Also in this case, the motion vector learned according to the above description is subtracted from the input vector by the subtractor 131, and vector quantization is performed using the standard codebook 54.
【0107】ベクトル量子化として前記(図17)
(a),(b)のものを用いる場合も,ほぼ同様の構成
で送・受信装置,音声認識装置の実現が可能であること
は明かであって,この場合は一部加算と減算が逆になる
(図示せず)。The above-described vector quantization (FIG. 17)
It is clear that the transmission / reception device and the speech recognition device can be realized with substantially the same configuration when using the devices (a) and (b). In this case, the addition and the subtraction are partially reversed. (Not shown).
【0108】以上は,システムの学習フェーズと認識フ
ェーズに分ける場合であるが,話者が通話中あるいは認
識処理中に過去(直前)に発声された音声から,逐次,
学習を繰り返し行いながら通信あるいは認識を行うよう
にも出来る。即ち,(図5)〜(図8),(図12)〜
(図14),(図16)等における,バッファメモリ5
1は入力信号を常に取り込む状態にしておき,適当な期
間毎にそこに取り込まれた音声データを基に,前述の方
法により移動ベクトルを算出し直すことにより,コード
ブックの書換えや話者正規化の正規化ベクトルの更新を
行うことが出来る。このことにより,話者は,学習フェ
ーズと言うことを特別意識することなく,逐次的に話者
適応が可能となり,話者特性の時間的変化に追従して適
応あるいは正規化が可能となる。The above is a case in which the system is divided into a learning phase and a recognition phase. The speaker sequentially starts from speech uttered in the past (immediately) during a call or during recognition processing.
Communication or recognition can be performed while repeating learning. That is, (FIG. 5) to (FIG. 8), (FIG. 12) to
Buffer memory 5 in (FIG. 14), (FIG. 16), etc.
Reference numeral 1 denotes a state in which an input signal is always captured, and a motion vector is recalculated by the above-described method based on the voice data captured therein at appropriate intervals, thereby rewriting the codebook and normalizing the speaker. Can be updated. As a result, the speaker can perform speaker adaptation sequentially without special awareness of the learning phase, and can adapt or normalize following the temporal change of the speaker characteristic.
【0109】本実施例においては,移動ベクトルを目的
関数の極値を与えるh1,…,h2,…,hMとして計算した
が,最急降下法やその他類似の方法によりこれらを求め
ることが出来る。また,本実施例では,目的関数を減少
させるhiを求める場合の例を挙げたが,目的関数の定
義の仕方によってはこれを増大させるhiを求める場合
もある。例えば,本例のJの代わりに−Jを用いれば当
然そのようになる。また,本実施例においては,加算,
減算なる言葉を用いたが,負号を付ければ加算は減算に
減算は加算になるから言葉の上では何れの表現も成り立
つ。In the present embodiment, the movement vectors are calculated as h 1 ,..., H 2 ,..., H M giving the extreme values of the objective function. I can do it. Further, in the present embodiment, an example of a case of obtaining the h i to reduce the objective function, there is a case of obtaining the h i to increase this by the definition of how the objective function. For example, if -J is used instead of J in the present example, this is naturally the case. In this embodiment, addition,
Although the word "subtraction" is used, if a negative sign is added, subtraction is addition and subtraction is addition, so any expression is valid on the word.
【0110】[0110]
【発明の効果】以上のように本発明によれば,コードブ
ックを少ない標本で特定の話者の音声に適応させること
ができる,あるいはその話者の音声を標準のコードブッ
クに適合するように正規化することが出来,僅かの学習
の労力で通信の場合は通話品質,認識の場合は認識精度
を向上させることが出来る。As described above, according to the present invention, the codebook can be adapted to the speech of a specific speaker with a small number of samples, or the speech of the speaker can be adapted to the standard codebook. Normalization can be performed, and the communication quality can be improved in the case of communication and the recognition accuracy can be improved in the case of recognition with a small amount of learning effort.
【図1】ベクトル量子化に基づく伝送方式の原理図FIG. 1 is a principle diagram of a transmission method based on vector quantization.
【図2】ベクトル量子化に基づく音声認識装置の一般的
な原理図FIG. 2 is a general principle diagram of a speech recognition device based on vector quantization.
【図3】(図2)における参照モデル記憶部の詳細図FIG. 3 is a detailed view of a reference model storage unit in FIG. 2;
【図4】HMM(Hidden Markov Model)の原理図Fig. 4 HMM (Hidden Markov Model) principle diagram
【図5】本発明による適応化方法の一実施例の原理図FIG. 5 is a principle diagram of an embodiment of an adaptation method according to the present invention.
【図6】本発明による他の実施例の原理図FIG. 6 is a principle diagram of another embodiment according to the present invention.
【図7】(図5)の原理による,ベクトル量子化に基づ
く信号送信装置のブロック図FIG. 7 is a block diagram of a signal transmission device based on vector quantization based on the principle of FIG. 5;
【図8】(図6)の原理による,ベクトル量子化に基づ
く信号送信装置のブロック図8 is a block diagram of a signal transmission device based on vector quantization based on the principle of FIG. 6;
【図9】(図7),(図8)の送信装置に対する受信装
置の実施例FIG. 9 is an embodiment of a receiving apparatus for the transmitting apparatus shown in FIGS. 7 and 8;
【図10】(図7),(図8)の送信装置に対する受信
装置の実施例FIG. 10 is an embodiment of a receiving apparatus for the transmitting apparatus shown in FIGS. 7 and 8;
【図11】(図8)の送信装置に対する受信装置の他の
実施例FIG. 11 shows another embodiment of the receiving apparatus for the transmitting apparatus shown in FIG.
【図12】(図5)の原理による,ベクトル量子化に基
づくパタン認識装置のブロック図FIG. 12 is a block diagram of a pattern recognition device based on vector quantization based on the principle of FIG. 5;
【図13】(図6)の原理による,ベクトル量子化に基
づくパタン認識装置のブロック図FIG. 13 is a block diagram of a pattern recognition device based on vector quantization based on the principle of FIG. 6;
【図14】話者の正規化に基づく送信装置の一実施例の
図FIG. 14 is a diagram of an embodiment of a transmission device based on speaker normalization.
【図15】話者の正規化に基づく受信装置の一実施例の
図FIG. 15 is a diagram of an embodiment of a receiving apparatus based on speaker normalization.
【図16】話者の正規化に基づく認識装置の一実施例の
図FIG. 16 is a diagram of an embodiment of a recognition device based on speaker normalization.
【図17】本発明による話者正規化方法の他の実施例の
図FIG. 17 is a diagram of another embodiment of the speaker normalization method according to the present invention.
1、4 スイッチ 2、3 バッファメモリ 5 コードブック 6 比較部 7 ラベル選択部 8 コードベクトル読出部 9 コードブック 52 移動ベクトル計算部 53 移動ベクトル記憶部 1, 4 switch 2, 3 buffer memory 5 codebook 6 comparison section 7 label selection section 8 code vector reading section 9 codebook 52 movement vector calculation section 53 movement vector storage section
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平3−75700(JP,A) 特開 平4−122997(JP,A) 特開 平4−127200(JP,A) 特開 平5−173588(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 19/14 ────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-3-75700 (JP, A) JP-A-4-122997 (JP, A) JP-A-4-127200 (JP, A) JP-A-5-127 173588 (JP, A) (58) Field surveyed (Int. Cl. 7 , DB name) G10L 15/00-19/14
Claims (24)
各クラスタにおける代表ベクトルを、それぞれに対応し
たラベルで検索可能な形で記憶する標準コードブック
と,前記標準コードブックの代表ベクトルをモディファ
イして前記標準コードブックをベクトル量子化すべき入
力ベクトルに適応させるためのいくつかの学習用ベクト
ルを記憶する学習用ベクトル記憶手段と,前記標準コー
ドブックの代表ベクトルに加算することによって前記代
表ベクトルをモディファイする移動ベクトルを、前記標
準コードブックの代表ベクトルと前記学習用ベクトルの
関数として定義される目的関数の極値を与えるものとし
て算出する移動ベクトル算出手段と、前記移動ベクトル
を前記代表ベクトルに加算して新たなる代表ベクトルを
得るコードブック適応手段とを備え,入力ベクトルの符
号化に際しては前記新たなる代表ベクトルにより入力ベ
クトルをラベルもしくは前記入力ベクトルの各ラベル
(クラスタ)に対する帰属度を要素とする帰属度ベクトル
に変換するものであることを特徴とするベクトル量子化
装置。1. Clustering a feature vector space ,
The representative vectors definitive in each cluster, and the standard code book for storing a searchable form with labels corresponding to each of the representative vectors of said standard codebook Modifa
To input the standard codebook into vector quantization.
And learning vector storage means for storing a number of learning vector for adapting the force vector, the standard code
By adding to the representative vector of the book,
The movement vector for modifying the table vector is
The representative vector of the quasi-codebook and the learning vector
Gives the extrema of the objective function defined as a function
A motion vector calculation means for calculating Te, and a codebook adaptation means to obtain a New representative vector by adding the motion vector in the representative vector, the input vector by the representative vector wherein A New are in encoding the input vector each label of the label or the input vector
A vector quantization device for converting a degree of belonging to a (cluster) into a degree of belonging vector having elements as elements.
各クラスタにおける代表ベクトルを、それぞれに対応し
たラベルで検索可能な形で記憶する標準コードブック
と,ベクトル量子化すべき第1の入力ベクトルをモディ
ファイして前記標準コードブックに対して前記第1の入
力ベクトルを正規化して第2の入力ベクトルを得るため
のいくつかの学習用ベクトルを記憶する学習用ベクトル
記憶手段と,前記第1の入力ベクトルに加算することに
よって前記第1の入力ベクトルをモディファイする移動
ベクトルを、前記標準コードブックの代表ベクトルと前
記学習用ベクトルの関数として定義される目的関数の極
値を与えるものとして算出する移動ベクトル算出手段
と、該移動ベクトルを前記第1の入力ベクトルに加算し
て第2の入力ベクトルを得る正規化手段とを備え,前記
第1の入力ベクトルの符号化に際しては前記第2の入力
ベクトルにより前記第1の入力ベクトルをラベルもしく
は該入力ベクトルの各ラベルに対する帰属度を要素とす
る帰属度ベクトルに変換するものであることを特徴とす
るベクトル量子化装置。2. Clustering a feature vector space ,
The representative vectors definitive in each cluster, and the standard code book for storing a searchable form with labels corresponding to each of the first input vector to be vector quantized Modi
File into the standard codebook.
To normalize the force vector to get a second input vector
And learning vector storage means for storing a number of learning vector of the adding to the first input vector
Therefore, the movement for modifying the first input vector
Let the vector be the same as the representative vector in the standard codebook
Objective function pole defined as a function of the learning vector
Movement vector calculation means for calculating a value to be given
And the motion vector is added to the first input vector.
Normalizing means for obtaining a second input vector by
When encoding the first input vector, the second input vector
Label or label the first input vector with a vector
Is the degree of membership of the input vector for each label.
A vector quantization device for converting the data into a membership vector .
ックの代表ベクトルのそれぞれについて移動ベクトルを
求めることを特徴とする請求項1または請求項2記載の
ベクトル量子化装置。3. The movement vector calculation means includes a standard codebook.
3. The vector quantization apparatus according to claim 1, wherein a motion vector is obtained for each of the representative vectors of the blocks .
ックの全ての代表ベクトルに共通のものとして移動ベク
トルを求めることを特徴とする請求項1または請求項2
記載のベクトル量子化装置。4. The moving vector calculating means according to claim 1, wherein:
Tsu claim and obtains the moving vector as common to all the representative vectors of click 1 or claim 2
A vector quantizer as described.
表ベクトルとの加算を行う加算器を備え,該加算器の出
力によってベクトル量子化することを特徴とする請求項
1記載のベクトル量子化装置。5. The vector quantization apparatus according to claim 1, further comprising an adder for adding the movement vector and each representative vector of the standard codebook, and performing vector quantization by an output of the adder.
表ベクトルとの加算を行う加算器と,該加算器の出力を
記憶する適応化コードブックとを備え,該適応化コード
ブックの出力によってベクトル量子化することを特徴と
する請求項1記載のベクトル量子化装置。6. An adder for adding a motion vector to each representative vector of a standard codebook, and an adaptation codebook for storing an output of the adder, wherein an output of the adaptation codebook is used to generate a vector quantum vector. The vector quantization apparatus according to claim 1, wherein the vector quantization is performed.
ル量子化装置により符号化されたラベルを送信するラベ
ル送信手段と,移動ベクトル送信手段とを備えたことを
特徴とする信号送信装置。7. A signal transmitting apparatus comprising: a label transmitting means for transmitting a label encoded by the vector quantization apparatus according to claim 5; and a moving vector transmitting means.
り符号化されたラベルを送信するラベル送信手段と,適
応化コードブックを送信する適応化コードブック送信手
段とを備えたことを特徴とする信号送信装置。8. A label transmitting means for transmitting a label coded by the vector quantization apparatus according to claim 6, and an adaptive codebook transmitting means for transmitting an adaptive codebook. Signal transmission device.
てきた移動ベクトルを記憶する移動ベクトル記憶部と,
標準コードブックと,受信したラベルに対応して前記標
準コードブックから読み出された代表ベクトルと前記ラ
ベルに対応して前記移動ベクトル記憶部から読み出され
た移動ベクトルとの加算を行う加算器とを備え,該加算
器の出力を前記ラベルの復号ベクトルとする復号器とを
含む信号受信装置。9. A motion vector storage unit for storing a motion vector transmitted from the signal transmission device according to claim 7,
An adder for adding a standard codebook, a representative vector read from the standard codebook corresponding to the received label, and a movement vector read from the movement vector storage unit corresponding to the label; And a decoder that uses the output of the adder as a decoded vector of the label.
れてきた移動ベクトルを記憶する移動ベクトル記憶部
と,標準コードブックと,該標準コードブックの各ラベ
ルに対応した代表ベクトルと該それぞれのラベルに対応
して前記移動ベクトル記憶部から読み出した前記移動ベ
クトルのそれぞれとの和を記憶する適応化コードブック
とを備え,受信したラベルに対応する前記適応化コード
ブックのコードベクトルを前記ラベルの復号ベクトルと
する復号器とを含む信号受信装置。10. A motion vector storage unit for storing a motion vector transmitted from the signal transmission device according to claim 7, a standard codebook, a representative vector corresponding to each label of the standard codebook, and a corresponding vector. An adaptation codebook that stores the sum of each of the movement vectors read from the movement vector storage unit in association with the label, and the code vector of the adaptation codebook corresponding to the received label is stored as the code vector of the label. A signal receiving device including: a decoder that sets a decoded vector.
れてきた適応化コードブックを記憶する適応化コードブ
ック記憶部を備え,受信したラベルに対応する前記適応
化コードブックのコードベクトルを前記ラベルの復号ベ
クトルとする復号器とを含む信号受信装置。11. An adaptive codebook storage unit for storing an adaptive codebook sent from the signal transmitting apparatus according to claim 8, wherein a code vector of the adaptive codebook corresponding to a received label is stored in the adaptive codebook storage unit. A signal receiving device comprising: a decoding unit that decodes a label;
ベクトルをベクトル量子化し,ラベルに変換し,結果的
に,前記特徴ベクトル系列をラベル系列に変換する請求
項1記載のベクトル量子化装置と,各ラベルの発生確率
が状態毎に定義された,認識単位毎の隠れマルコフモデ
ル(HMM)を記憶するHMM記憶手段と,前記ラベル
系列に対する前記各HMMの尤度を計算する尤度計算手
段と,該尤度の最大値を与えるHMMに対応する認識単
位を認識結果とすることを特徴とする認識装置。12. The vector quantization apparatus according to claim 1, wherein each vector of the input feature vector sequence is vector-quantized and converted into a label, and as a result, the feature vector sequence is converted into a label sequence. HMM storage means for storing a hidden Markov model (HMM) for each recognition unit in which the occurrence probability of each label is defined for each state, likelihood calculation means for calculating the likelihood of each HMM for the label sequence, A recognition apparatus, wherein a recognition unit corresponding to an HMM that gives the maximum likelihood is a recognition result.
ベクトルをベクトル量子化し,各ラベルに対する帰属度
を要素とする帰属度ベクトルに変換し,結果的に,前記
特徴ベクトル系列を前記帰属度ベクトル系列に変換する
請求項1記載のベクトル量子化装置と,各ラベルの発生
確率が状態毎に定義された,認識単位毎の隠れマルコフ
モデル(HMM)を記憶するHMM記憶手段と,前記帰
属度ベクトル系列に対する前記各HMMの尤度を計算す
る尤度計算手段と,該尤度の最大値を与えるHMMに対
応する認識単位を認識結果とすることを特徴とする認識
装置。13. An individual vector of an input feature vector sequence is vector-quantized and converted into a membership vector having the membership of each label as an element. As a result, the feature vector sequence is converted into the membership vector sequence. 2. A vector quantization device according to claim 1, wherein the probability of occurrence of each label is defined for each state, HMM storage means for storing a hidden Markov model (HMM) for each recognition unit, and said membership degree vector sequence. A likelihood calculating means for calculating the likelihood of each of the HMMs, and a recognition unit corresponding to the HMM giving the maximum value of the likelihood as a recognition result.
ベクトルをベクトル量子化し,ラベルに変換し,結果的
に,前記特徴ベクトル系列をラベル系列に変換する請求
項1記載のベクトル量子化装置と,ラベル系列で表現さ
れた,認識単位毎の認識モデルを記憶する認識モデル記
憶手段と,前記入力ラベル系列と前記各認識モデルとの
距離または類似度を計算する距離計算手段と,該距離の
最小値または類似度の最大値を与える認識モデルに対応
する認識単位を認識結果とすることを特徴とする認識装
置。14. The vector quantization apparatus according to claim 1, wherein each vector of the input feature vector sequence is vector-quantized and converted into a label, and as a result, the feature vector sequence is converted into a label sequence. Recognition model storage means for storing a recognition model for each recognition unit expressed by a label sequence, distance calculation means for calculating the distance or similarity between the input label sequence and each recognition model, and a minimum value of the distance Alternatively, a recognition unit that uses a recognition unit corresponding to a recognition model that gives a maximum value of similarity as a recognition result.
ベクトルをベクトル量子化し,各ラベルに対する帰属度
を要素とする帰属度ベクトルに変換し,結果的に,前記
特徴ベクトル系列を帰属度ベクトル系列に変換する請求
項1記載のベクトル量子化装置と,ラベル系列で表現さ
れた,認識単位毎の認識モデルを記憶する認識モデル記
憶手段と,前記入力帰属度系列に対する前記各認識モデ
ルの距離または類似度を計算する距離計算手段と,該距
離の最小値または類似度の最大値を与える認識モデルに
対応する認識単位を認識結果とすることを特徴とする認
識装置。15. An individual vector of the input feature vector sequence is vector-quantized and converted into a membership vector having the membership of each label as an element. As a result, the feature vector sequence is converted into a membership vector sequence. 2. The vector quantization device according to claim 1, wherein the recognition model storage unit stores a recognition model for each recognition unit expressed by a label sequence, and a distance or a similarity of each recognition model with respect to the input membership sequence. a distance calculation means for calculating a recognition device which is characterized in that the recognition result recognition unit corresponding to the recognized model giving the maximum value of the minimum or the similarity of the distance.
を行う加算器を備え,該加算器の出力をベクトル量子化
することを特徴とする請求項2記載のベクトル量子化装
置。16. The vector quantization apparatus according to claim 2, further comprising an adder for adding the motion vector and the input vector, wherein an output of the adder is vector-quantized.
り符号化されたラベルを送信するラベル送信手段と,移
動ベクトルを送信する移動ベクトル送信手段とを備えた
ことを特徴とする信号送信装置。17. A signal transmitting apparatus comprising: a label transmitting means for transmitting a label encoded by the vector quantization apparatus according to claim 16, and a moving vector transmitting means for transmitting a moving vector.
られてきた移動ベクトルを記憶する移動ベクトル記憶部
と,標準コードブックと,受信したラベルに対応して前
記標準コードブックから読み出された代表ベクトルから
前記移動ベクトル記憶部から読み出された移動ベクトル
を減算する減算器とを備え,該減算器の出力を前記ラベ
ルの復号ベクトルとする復号器とを含む信号受信装置。18. A motion vector storage unit for storing a motion vector transmitted from the signal transmission device according to claim 17, a standard codebook, and a standard codebook read from the standard codebook corresponding to a received label. A subtractor for subtracting the motion vector read from the motion vector storage unit from the representative vector, and a decoder using the output of the subtractor as a decoded vector of the label.
ベクトルの正規化ベクトルをベクトル量子化し,ラベル
に変換し、結果的に、前記特徴ベクトル系列をラベル系
列に変換する請求項2記載のベクトル量子化装置と,各
ラベルの発生確率が状態毎に定義された,認識単位毎の
隠れマルコフモデル(HMM)を記憶するHMM記憶手
段と,前記帰属度ベクトル系列に対する前記各HMMの
尤度を計算する尤度計算手段と,該尤度の最大値を与え
るHMMに対応する認識単位を認識結果とすることを特
徴とする認識装置。19. The vector quantizer according to claim 2, wherein the normalized vector of each of the input feature vector sequences is vector-quantized and converted into a label, and consequently the feature vector sequence is converted into a label sequence. , An HMM storage unit that stores a hidden Markov model (HMM) for each recognition unit in which the occurrence probability of each label is defined for each state, and calculates the likelihood of each of the HMMs with respect to the membership vector series. A recognition apparatus characterized in that a likelihood calculating means and a recognition unit corresponding to an HMM giving the maximum value of the likelihood as a recognition result.
ベクトルの正規化ベクトルをベクトル量子化し,各ラベ
ルに対する帰属度を要素とする帰属度ベクトルに変換
し,結果的に、前記特徴ベクトル系列を帰属度ベクトル
系列に変換する請求項2記載のベクトル量子化装置と,
各ラベルの発生確率が状態毎に定義された,認識単位毎
の隠れマルコフモデル(HMM)を記憶するHMM記憶
手段と,前記帰属度ベクトル系列に対する前記各HMM
の尤度を計算する尤度計算手段と,該尤度の最大値を与
えるHMMに対応する認識単位を認識結果とすることを
特徴とする認識装置。20. Vector quantization of a normalized vector of an individual vector of an input feature vector sequence, conversion into a membership vector having the membership of each label as an element, and as a result, A vector quantization device according to claim 2, wherein the vector quantization device converts the vector quantization sequence into a degree vector sequence;
HMM storage means for storing a hidden Markov model (HMM) for each recognition unit in which the occurrence probability of each label is defined for each state, and each HMM for the membership degree vector series
And a recognition unit that calculates a recognition unit corresponding to the HMM that gives the maximum value of the likelihood as a recognition result.
ベクトルの正規化ベクトルをベクトル量子化し,ラベル
に変換し、結果的に、前記特徴ベクトル系列をラベル系
列に変換する請求項2記載のベクトル量子化装置と,ラ
ベル系列で表現された,認識単位毎の認識モデルを記憶
する認識モデル記憶手段と,前記入力ラベル系列に対と
前記各認識モデルとの距離または類似度を計算する距離
計算手段と,該距離の最小値または類似度の最大値を与
える認識モデルに対応する認識単位を認識結果とするこ
とを特徴とする認識装置。21. The vector quantizer according to claim 2, wherein the normalized vector of each of the input feature vector sequences is vector-quantized and converted into a label, and consequently the feature vector sequence is converted into a label sequence. And a recognition model storage means for storing a recognition model for each recognition unit expressed by a label sequence, and a distance calculation means for calculating the distance or similarity between a pair of the input label sequence and each of the recognition models. A recognition unit corresponding to a recognition model that gives the minimum value of the distance or the maximum value of the similarity as a recognition result.
ベクトルの正規化ベクトルをベクトル量子化し,各ラベ
ルに対する帰属度を要素とする帰属度ベクトルに変換
し,結果的に、前記特徴ベクトル系列を帰属度ベクトル
系列に変換する請求項2記載のベクトル量子化装置と,
ラベル系列で表現された,認識単位毎の認識モデルを記
憶する認識モデル記憶手段と,前記入力帰属度系列に対
する前記各認識モデルの距離または類似度を計算する距
離計算手段と,該距離の最小値または類似度の最大値を
与える認識モデルに対応する認識単位を認識結果とする
ことを特徴とする認識装置。22. Vector quantization of a normalized vector of an individual vector of an input feature vector sequence is performed, and the normalized vector is converted into a membership vector having the membership of each label as an element. A vector quantization device according to claim 2, wherein the vector quantization device converts the vector quantization sequence into a degree vector sequence;
Recognition model storage means for storing a recognition model for each recognition unit represented by a label sequence, distance calculation means for calculating the distance or similarity of each recognition model with respect to the input membership degree series, and a minimum value of the distance Alternatively, a recognition apparatus characterized in that a recognition unit corresponding to a recognition model that gives the maximum value of similarity is a recognition result.
間を逐次記憶する一時記憶手段を備え,該一時記憶手段
の内容を学習用ベクトルとして,前記信号区間毎に,逐
次的にコードブックあるいは移動ベクトルの適応化を行
うことを特徴とする請求項1記載のベクトル量子化装
置。23. Temporary storage means for sequentially storing a predetermined constant signal section of an input signal, wherein the contents of said temporary storage means are used as a learning vector and a codebook or a moving picture is sequentially stored for each signal section. The vector quantization apparatus according to claim 1, wherein the vector quantization is performed.
間を逐次記憶する一時記憶手段を備え,該一時記憶手段
の内容を学習用ベクトルとして,前記信号区間毎に,逐
次的に入力信号の正規化のための移動ベクトルを算出す
ることを特徴とする請求項2記載のベクトル量子化装
置。24. Temporary storage means for sequentially storing a predetermined constant signal section of an input signal, and using the contents of said temporary storage means as a learning vector, the normalization of the input signal is sequentially performed for each signal section. The vector quantization apparatus according to claim 2, wherein a motion vector for quantization is calculated.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01094494A JP3144203B2 (en) | 1994-02-02 | 1994-02-02 | Vector quantizer |
CNB951032356A CN1149533C (en) | 1899-12-30 | 1995-02-01 | Vector quantization |
US08/382,753 US5692100A (en) | 1994-02-02 | 1995-02-01 | Vector quantizer |
KR1019950001865A KR100366603B1 (en) | 1994-02-02 | 1995-02-02 | Vector quantizer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01094494A JP3144203B2 (en) | 1994-02-02 | 1994-02-02 | Vector quantizer |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07219599A JPH07219599A (en) | 1995-08-18 |
JP3144203B2 true JP3144203B2 (en) | 2001-03-12 |
Family
ID=11764323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP01094494A Expired - Fee Related JP3144203B2 (en) | 1899-12-30 | 1994-02-02 | Vector quantizer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3144203B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4517163B2 (en) * | 2004-03-12 | 2010-08-04 | 株式会社国際電気通信基礎技術研究所 | Frequency characteristic equalizer |
US9251784B2 (en) | 2013-10-23 | 2016-02-02 | International Business Machines Corporation | Regularized feature space discrimination adaptation |
-
1994
- 1994-02-02 JP JP01094494A patent/JP3144203B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH07219599A (en) | 1995-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6260013B1 (en) | Speech recognition system employing discriminatively trained models | |
JP2795058B2 (en) | Time series signal processing device | |
US5857169A (en) | Method and system for pattern recognition based on tree organized probability densities | |
US6076053A (en) | Methods and apparatus for discriminative training and adaptation of pronunciation networks | |
US5278942A (en) | Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data | |
US5222146A (en) | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks | |
JP2733955B2 (en) | Adaptive speech recognition device | |
EP0691640B1 (en) | Adaptive training method for pattern recognition | |
KR100924399B1 (en) | Voice recognition apparatus and voice recognition method | |
US6119086A (en) | Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens | |
JPH064093A (en) | Hmm generating device, hmm storage device, likelihood calculating device, and recognizing device | |
WO1998040876A9 (en) | Speech recognition system employing discriminatively trained models | |
JP4531166B2 (en) | Speech recognition method using reliability measure evaluation | |
US5765133A (en) | System for building a language model network for speech recognition | |
JPH05257492A (en) | Voice recognizing system | |
KR100366603B1 (en) | Vector quantizer | |
EP1465154A2 (en) | Method of speech recognition using variational inference with switching state space models | |
Eisele et al. | A comparative study of linear feature transformation techniques for automatic speech recognition | |
Chen et al. | Fast search algorithm for VQ-based recognition of isolated words | |
Rodríguez et al. | Comparative study of the baum-welch and viterbi training algorithms applied to read and spontaneous speech recognition | |
CN114999443A (en) | Voice generation method and device, storage medium and electronic equipment | |
US20020128826A1 (en) | Speech recognition system and method, and information processing apparatus and method used in that system | |
JP3144203B2 (en) | Vector quantizer | |
US20030061044A1 (en) | Method of calculating HMM output probability and speech recognition apparatus | |
US5828998A (en) | Identification-function calculator, identification-function calculating method, identification unit, identification method, and speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080105 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090105 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100105 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110105 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120105 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |