JP3104900B2 - Voice recognition method - Google Patents
Voice recognition methodInfo
- Publication number
- JP3104900B2 JP3104900B2 JP07041948A JP4194895A JP3104900B2 JP 3104900 B2 JP3104900 B2 JP 3104900B2 JP 07041948 A JP07041948 A JP 07041948A JP 4194895 A JP4194895 A JP 4194895A JP 3104900 B2 JP3104900 B2 JP 3104900B2
- Authority
- JP
- Japan
- Prior art keywords
- evaluation value
- partial
- speech
- hypothesis
- partial hypothesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Abstract
Description
【0001】[0001]
【産業上の利用分野】この発明は、音素、音節、半音
節、単語などのような音声単位の、与えられた文法の制
御に従って連結可能な数多くの各部分仮説について対応
する音響モデルと、入力された音声とを照合し入力音声
に近い候補を探索する音声認識方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an acoustic model corresponding to a number of partial hypotheses which can be connected under the control of a given grammar, such as phonemes, syllables, semi-syllables, words, etc. The present invention relates to a voice recognition method for searching for a candidate that is close to the input voice by comparing the input voice with the input voice.
【0002】[0002]
【従来の技術】図3Aに音素を認識の単位とした音声認
識処理の手順を示す。入力音声11は、分析処理部12
により、特徴パラメータのベクトルデータ時系列に変換
され、探索処理部13により文法16の拘束条件を用い
ながら、音素モデル15との照合が行われる。そして、
最も高い評価値を持つ音素系列が認識結果14として出
力される。2. Description of the Related Art FIG. 3A shows a procedure of speech recognition processing using phonemes as a unit of recognition. The input voice 11 is sent to the analysis processing unit 12
Is converted into a time series of vector data of the feature parameter, and the search processing unit 13 performs collation with the phoneme model 15 using the constraint condition of the grammar 16. And
The phoneme sequence having the highest evaluation value is output as the recognition result 14.
【0003】分析処理部12における信号処理として、
よく用いられるのは、線形予測分析(Linear P
redictive Coding,LPCと呼ばれ
る)であり、特徴パラメータとしては、LPCケプスト
ラム、LPCデルタケプストラム、メルケプストラム、
対数パワーなどがある。音素モデル15としては確率・
統計理論に基づいてモデル化された隠れマルコフモデル
(Hidden Markov Model,以後HM
M法と呼ぶ)が主流である。このHMMの詳細は、例え
ば、社団法人電子情報通信学会編,中川聖一著『確率モ
デルによる音声認識』に開示されている。[0003] As signal processing in the analysis processing section 12,
Often used is linear predictive analysis (Linear P
and the characteristic parameters include LPC cepstrum, LPC delta cepstrum, mel cepstrum, and the like.
And logarithmic power. As the phoneme model 15, the probability
Hidden Markov Model (hereinafter HM) modeled based on statistical theory
M method) is the mainstream. Details of this HMM are disclosed in, for example, Seiichi Nakagawa, "Speech Recognition by Stochastic Model", edited by the Institute of Electronics, Information and Communication Engineers.
【0004】探索処理部13は、文法で連結することが
許される音素列である部分仮説についてその音素モデル
に対して、入力音声とのもっともらしさを評価し、一つ
ずつ部分仮説に音素を拡張しながら探索を進める。ここ
で、部分仮説とは、文法に示されている音素の並び順の
制約に従ってつなげられた音素列のことを表し、また、
部分仮説への音素の拡張とは、文法に従って部分仮説の
音素列にさらに一つ音素をつなげることを意味する。The search processing unit 13 evaluates the plausibility of the phoneme model of the partial hypothesis, which is a phoneme sequence that can be connected by grammar, with the input speech, and extends the phoneme to the partial hypothesis one by one. Proceed while searching. Here, the partial hypothesis indicates a phoneme sequence connected according to the restriction on the order of phonemes shown in the grammar.
Extension of a phoneme to a partial hypothesis means connecting one more phoneme to the phoneme sequence of the partial hypothesis according to the grammar.
【0005】それぞれの部分仮説について、1.音素
列、2.トレリス計算等による、音響モデルとの照合結
果であるスコア関数、3.入力音声に対する部分仮説の
もっともらしさを示す評価値、の3つの情報を記憶して
おく。部分仮説の識別番号をi、時刻をtとするとスコ
ア関数はgi (t)と表される。探索処理部13では、
まず文法によって許される1つ目の音素を部分仮説に拡
張し、その音素に対応したHMMと、分析された特徴パ
ラメータのベクトルデータ時系列(入力音声)とを照合
し、この部分仮説iの各時刻tのスコア関数gi(t)
を求める。HMMとの照合方法としてトレリス法、ビタ
ービ法があり、この詳細は、例えば、社団法人電子情報
通信学会編,中川聖一著『確率モデルによる音声認識』
に開示されている。このスコア関数gi (t)から後述
する方法で部分仮説iの評価値を求め、この部分仮説に
対し、音素列、スコア関数gi (t)、評価値を記録し
ておく。そして、以後の音素の拡張が行われるごとに、
その部分仮説に対する評価値を求めながら探索処理が進
められる。また、部分仮説の音素列に対して、文法の制
約から2種類以上の音素が拡張できる場合は、拡張でき
る音素の種類の数だけ元の部分仮説を複製し、それぞれ
の音素を拡張した部分仮説を作り、それらに対する評価
値計算を行う。文法により音素を延ばすことが出来なく
なった部分仮説は、その音素列が文法として受理された
仮説として、音素の拡張を終了する。全ての部分仮説で
音素の拡張が出来なくなった時、文法として許される全
ての音素列に対し入力音声と照合を行ったことになり、
探索処理13を終える。そのときの最も評価値の高い仮
説の音素列またはそれに対応する単語、文を認識結果1
4として出力する。For each of the partial hypotheses, 1. phoneme sequence; 2. A score function as a result of matching with an acoustic model by trellis calculation or the like; Three pieces of information, that is, an evaluation value indicating the likelihood of the partial hypothesis for the input speech, are stored. If the identification number of the partial hypothesis is i and the time is t, the score function is represented as g i (t). In the search processing unit 13,
First, the first phoneme permitted by the grammar is extended to a partial hypothesis, and the HMM corresponding to the phoneme is compared with the analyzed feature parameter vector data time series (input speech). Score function g i (t) at time t
Ask for. There are a trellis method and a Viterbi method as a matching method with the HMM.
Is disclosed. An evaluation value of the partial hypothesis i is obtained from the score function g i (t) by a method described later, and a phoneme sequence, a score function g i (t), and an evaluation value are recorded for the partial hypothesis. And every time the subsequent phoneme expansion is performed,
The search process proceeds while obtaining an evaluation value for the partial hypothesis. If two or more types of phonemes can be extended due to grammatical restrictions with respect to the phoneme sequence of the partial hypothesis, the original partial hypotheses are duplicated by the number of types of phonemes that can be extended, and the partial hypotheses obtained by expanding each phoneme And calculate an evaluation value for them. The partial hypothesis for which it is no longer possible to extend the phoneme due to the grammar ends the phoneme extension as a hypothesis that the phoneme sequence has been accepted as a grammar. When phoneme expansion cannot be performed for all partial hypotheses, all phoneme strings allowed as grammars have been matched with the input speech,
The search processing 13 ends. The phoneme string of the hypothesis with the highest evaluation value at that time or the word or sentence corresponding thereto is recognized as the recognition result 1
Output as 4.
【0006】上記のように、探索処理において全ての部
分仮説(音素列)の音素数が均等となるように部分仮説
の音素を延ばす探索方法は横形探索法と呼ばれる。横形
探索法を実際に行うと、文法の許す全ての音素列に対応
した部分仮説について計算を行うことになり、非常に多
くの部分仮説の計算を行わなければならず、多くの処理
時間を必要とする。このため、部分仮説に音素を拡張す
る過程で、最終的な認識結果となる見込みのある部分仮
説のみを残し、それ以外の部分仮説を廃棄する方法をと
る場合が多い。具体的には、部分仮説の評価値によりそ
の部分仮説を残すかどうかを判定する。その判定方法と
して部分仮説の評価値の高いものから順に一定個数の部
分仮説を残す方法や、部分仮説の評価値のしきい値を設
け、そのしきい値よりも高い部分仮説のみを残す方法、
両者の方法の併用等が用いられる。このような横形探索
法において、一定の条件により、見込みのある部分仮説
のみを残し、それ以外の部分仮説を廃棄して探索を行う
方法はビーム探索法と呼ばれる。[0006] As described above, a search method in which the phonemes of partial hypotheses are extended so that the number of phonemes of all partial hypotheses (phoneme strings) becomes equal in the search processing is called a horizontal search method. When the horizontal search method is actually performed, calculations are performed for partial hypotheses corresponding to all phoneme sequences permitted by the grammar, and a large number of partial hypotheses must be calculated, requiring a lot of processing time. And For this reason, in a process of expanding a phoneme to a partial hypothesis, a method is often adopted in which only a partial hypothesis that is likely to be a final recognition result is left and other partial hypotheses are discarded. Specifically, it is determined whether or not the partial hypothesis is to be left based on the evaluation value of the partial hypothesis. As a determination method, a method of leaving a fixed number of partial hypotheses in order from the highest evaluation value of the partial hypothesis, a method of providing a threshold value of the evaluation value of the partial hypothesis, and leaving only the partial hypothesis higher than the threshold value,
A combination of the two methods is used. In such a horizontal search method, a method of performing a search by leaving only promising partial hypotheses and discarding other partial hypotheses under certain conditions is called a beam search method.
【0007】以上のことを具体的に説明すると、例えば
図3Bに示すような木構造によって表現された文法に対
して、HMMを用いた探索処理を行う場合を例とし、い
ま探索処理が既に第4音素までの処理を終えていると
し、第5音素を拡張する場合を述べると、図3Bにおい
ては第1音素#から第4音素まで拡張された部分仮説
は、「# i k a」,「# i k i」,「#
i m i」の3種類である。ここで、“ ”は音素の
区切りを示す記号であり、音素#は無音を示すものとす
る。More specifically, the case where a search process using an HMM is performed on a grammar expressed by a tree structure as shown in FIG. Assuming that the processing up to the fourth phoneme has been completed and the fifth phoneme is extended, in FIG. 3B, the partial hypothesis extended from the first phoneme # to the fourth phoneme is “# i k a ”,“ # i k i ","#
i m i ". here," "Is a symbol indicating a phoneme delimiter, and a phoneme # indicates silence.
【0008】第1音素が#から始まり、第4音素まで拡
張された一つの部分仮説、「# i k i」では、図3
Bからわかるように、第5音素として、3種類の音素
k,o,mが拡張可能である。また、第1音素が#から
始まり、第4音素まで拡張されたもう1つの部分仮説、
「# i k a」は、第5音素として、2種類の音素
m,nが拡張可能である。また、部分仮説「# i m
i」は、第4音素で完了しており、音素の拡張は行わ
れない。The first phoneme starts from # and extends to the fourth phoneme.
One partial hypothesis, "# i k i ”, FIG.
As can be seen from B, as the fifth phoneme, three types of phonemes
k, o, and m are extensible. Also, the first phoneme starts with #
Another partial hypothesis that began and extended to the fourth phoneme,
"# i k "a" is the second phoneme as the fifth phoneme
m and n are extensible. Also, the partial hypothesis "# i m
"i" is completed with the fourth phoneme, and the phoneme expansion is performed
Not.
【0009】木構造文法における音素の深さごとに見込
みのない部分仮説の廃棄を行うビーム探索では、同じ音
素数をもつ部分仮説に対し、これら部分仮説の評価値を
求め、一定の条件で評価値の良い部分仮説のみを残す。
ここでは、一定の条件として、評価値の高い上位2つの
部分仮説のみを残すものとする。上で述べたように、第
5音素まで拡張された部分仮説は、「# i k i
o」,「# i k i k」,「# i k i
m」,「# i k a m」,「# i k a n」
の5種類あり、それぞれの部分仮説の評価値はこの順に
高いとすると、上位2つの部分仮説である「# i k
i o」と「# i k i k」のみが次の音素を拡
張できる部分仮説として残し、それ以外の部分仮説を廃
棄する。For each phoneme depth in tree structure grammar
In the beam search that discards the partial hypothesis,
For partial hypotheses with prime numbers, the evaluation values of these partial hypotheses are
Then, only a partial hypothesis with a good evaluation value is left under certain conditions.
Here, as a certain condition, the two highest ranking evaluation values
Only the partial hypothesis is left. As mentioned above,
The partial hypothesis extended to five phonemes is "# i k i
o "," # i k i k ”,“ # i k i
m ”,“ # i k a m ”,“ # i k a n "
And the evaluation value of each partial hypothesis is in this order
If it is high, the top two partial hypotheses "# i k
i o "and" # i k i k ”expands the next phoneme
Remain as partial hypotheses that can be extended, and eliminate other partial hypotheses.
Abandon
【0010】このように、部分仮説に音素を拡張して、
一定の条件によって残す部分仮説を限定し、残された部
分仮説にさらに音素を拡張していき、全ての部分仮説で
音素を拡張できなくなるまで、同様の処理を続ける。そ
して、音素を拡張できなくなった全ての部分仮説、つま
り仮説の評価値を比較して、評価値の最も高い仮説を認
識結果として、出力する。Thus, the phoneme is extended to the partial hypothesis,
The remaining partial hypotheses are limited according to certain conditions, phonemes are further extended to the remaining partial hypotheses, and the same processing is continued until the phonemes cannot be extended in all the partial hypotheses. Then, all the partial hypotheses for which the phoneme cannot be expanded, that is, the evaluation values of the hypotheses are compared, and the hypothesis with the highest evaluation value is output as the recognition result.
【0011】部分仮説iのスコア関数gi (t)から部
分仮説の評価値を求める方法としては、音声の始端から
前向きに推定した全ての部分仮説に共通な前向きヒュー
リスティック関数g^(t)を求めておき、これと、部
分仮説iのスコア関数gi (t)との差を求め、その差
の時刻tに対する最大値に対応する値を、部分仮説iの
評価値Si とする方法がある(この方法の詳細は、例え
ば「野田喜昭、嵯峨山茂樹、“前向き尤度を用いたA*
ビーム探索によるHMM−LR音声認識”電子情報通信
学会技術研究報告 音声、SP94−23,199
4」、および「特願平6−133339,音響認識方
法」に開示されている)。As a method of obtaining the evaluation value of the partial hypothesis from the score function g i (t) of the partial hypothesis i, a forward heuristic function g ^ (t) common to all the partial hypotheses estimated forward from the beginning of the voice is used. In this method, a difference between this and the score function g i (t) of the partial hypothesis i is determined, and the value corresponding to the maximum value of the difference at time t is used as the evaluation value S i of the partial hypothesis i. (Details of this method are described in, for example, “Yoshiaki Noda, Shigeki Sagayama,“ A * using forward likelihood .
HMM-LR Speech Recognition by Beam Search "IEICE Technical Report Speech, SP94-23, 199
4 ", and" Japanese Patent Application No. 6-133939, Sound Recognition Method ").
【0012】この部分仮説の評価値の求め方の具体例と
して第4音素まで拡張された部分仮説「# i k
i」に音素oを拡張するときの、評価値の計算方法を図
4を用いて説明する。図4は、音素列と入力音声の照合
であるトレリス計算を行って得られるスコア関数を、音
素列、入力音声、スコアの3つの軸をもつ3次元の図に
よって示しており、曲線31は部分仮説「# i k
i」のスコア関数、gi4(t)であり、時刻t1 でのそ
のスコア値gi4(t1 )は、入力音声が時刻t1までに
この部分仮説(音素列)が最も短い時間で発声されたと
仮定した時のもっともらしさを示すスコアであり、時刻
t2 でのスコアgi4(t2 )は、入力音声が時刻t2 ま
でに、この部分仮説が最も長い時間で発声されたと仮定
した時のもっともらしさを示すスコアであり、時刻
t1 、t2 と、音素oの継続時間長とから時刻t3 を決
定し、その区間で、入力音声がその各時刻までに、音素
列「# i k i o」をそれぞれ発声されたと仮定し
た時のもっともらしさ(スコア)をつらねたのが曲線3
2であり、つまり曲線32は入力音声の部分仮説「# i
k i o」に対するスコア関数gi5(t)である。
即ち部分仮説「# i k i」のスコア関数31は、既
に計算されており、これを各時刻の尤度を初期値とし
て、トレリス計算により音素oの各時刻のスコアを積算
していき、「# i k i o」のスコア関数32を求
める。A specific example of a method of obtaining the evaluation value of the partial hypothesis and
Hypothesis "#" extended to the fourth phoneme i k
Diagram showing how to calculate the evaluation value when phoneme o is extended to "i"
4 will be described. Figure 4 shows collation of phoneme sequence and input speech
The score function obtained by performing the trellis calculation
In a three-dimensional diagram with three axes of sequence, input voice, and score
Therefore, the curve 31 shows the partial hypothesis “# i k
i ”score function, gi4(T) and time t1In
Score value of gi4(T1) Indicates that the input voice is at time t1until
That this partial hypothesis (phoneme sequence) was uttered in the shortest time
It is a score indicating the plausibility at the time of the assumption, and the time
tTwoScore ini4(TTwo) Indicates that the input voice is at time tTwoMa
Assuming that this partial hypothesis was uttered the longest time
The score indicating the plausibility when the
t1, TTwoAnd the duration of phoneme o, the time tThreeDecide
In that section, the input voice
The column "# i k i o "is assumed to have been uttered
Curve 3 shows the plausibility (score) of the time
2, that is, the curve 32 is a partial hypothesis "# i
k i o ”score function gi5(T).
That is, the partial hypothesis "# i k The score function 31 of “i”
Is calculated using the likelihood at each time as the initial value.
And accumulate the score at each time of phoneme o by trellis calculation
Then, "# i k i o ”score function 32
Confuse.
【0013】トレリス計算は、音響モデルを示すHMM
と入力音声を分析した特徴パラメータのベクトル時系列
データとの照合であり、時刻tでHMMの最終状態に到
達するHMMの全ての遷移に対してベクトル時系列デー
タの確率計算を行い、その結果時刻tにおける確率値を
得ることができる。ここではその確率値のlog 値をスコ
ア(尤度)として用いる。The trellis calculation is performed by an HMM indicating an acoustic model.
And vector time-series data of feature parameters obtained by analyzing the input voice. The probability of vector time-series data is calculated for all transitions of the HMM that reach the final state of the HMM at time t. The probability value at t can be obtained. Here, the log value of the probability value is used as a score (likelihood).
【0014】次に部分仮説の評価値を求めるために、音
声の始端から推定した各部分仮説に共通な無文法(文法
の制約がなく、何れの音素への拡張を許す)で求めた前
向きのヒューリスティック関数g^(t)を求め、これ
を、下記式(1)のように、この部分仮説のスコア関数
gi (t)から差し引き、その最大値Si を求めると、
Si はその部分仮説iのもっともらしさを示しており、
これを部分仮説iの評価値とすることによって、時刻に
対する正規化を行った部分仮説の評価値を求めることが
できる。Next, in order to obtain the evaluation value of the partial hypothesis, the forward hypothesis obtained by the nongrammar common to each partial hypothesis estimated from the beginning of the speech (there is no restriction on the grammar and extension to any phoneme is allowed) is obtained. The heuristic function g ^ (t) is obtained, and this is subtracted from the score function g i (t) of the partial hypothesis as in the following equation (1) to obtain the maximum value S i .
S i indicates the plausibility of the partial hypothesis i,
By using this as the evaluation value of the partial hypothesis i, the evaluation value of the partial hypothesis normalized with respect to time can be obtained.
【0015】 Si = max{gi (t)−g^(t)} (1) maxは各tについて{ }内が最大となるもの なお、無文法により探索を行うと正解に近い評価値が得
られるが、部分仮説の数が著しく多く、ほぼ同一の評価
値のものが多くなり、選択が困難となるため、前述した
ように文法の制約下での探索を行うことになる。S i = max {g i (t) −g ^ (t)} (1) max is the maximum value in {} for each t. When a search is performed by a no-grammar, an evaluation value close to the correct answer is obtained. Is obtained, but the number of partial hypotheses is remarkably large, and those having substantially the same evaluation value increase, making selection difficult. Therefore, as described above, the search is performed under the constraints of the grammar.
【0016】[0016]
【発明が解決しようとする課題】音声認識において、探
索処理量の削減により、認識処理時間を短くし実使用で
の音声認識の使いやすさが良くなる。また、探索処理量
の削減により処理能力の低い計算機にも音声認識を実用
的に動作させることが可能となる。探索処理量を減らす
には、探索の過程で見込みのない部分仮説を廃棄し、拡
張すべき部分仮説の個数を少なくすることが必要であ
る。しかし、従来の評価値の高い部分仮説を一定個数保
持するビーム探索では、一定個数保持する部分仮説の中
に評価値が小さい部分仮説、つまり、もっともらしい認
識結果となり得ない部分仮説があったとしても、その部
分仮説は廃棄されず、無駄な処理を行うことになる。ま
た、しきい値を設定し、評価値がしきい値よりも高い部
分仮説を保持するビーム探索では、評価値が小さい部分
仮説は廃棄されるが、一般に評価値は認識語彙数、話
者、入力音声長に大きく影響を受けるため、正解の部分
仮説を落とさずに効果的に部分仮説の廃棄を行えるしき
い値の設定は難しい。In speech recognition, the amount of search processing is reduced, thereby shortening the recognition processing time and improving the ease of speech recognition in actual use. In addition, the reduction in the amount of search processing makes it possible to operate speech recognition practically on a computer having a low processing capability. In order to reduce the amount of search processing, it is necessary to discard unexpected partial hypotheses in the search process and reduce the number of partial hypotheses to be expanded. However, in the conventional beam search that holds a fixed number of partial hypotheses with high evaluation values, there is a partial hypothesis with a small evaluation value among partial hypotheses that hold a fixed number, that is, a partial hypothesis that can not be a plausible recognition result However, the partial hypothesis is not discarded, and wasteful processing is performed. In a beam search in which a threshold value is set and a partial hypothesis having an evaluation value higher than the threshold value is retained, a partial hypothesis with a small evaluation value is discarded, but the evaluation value is generally determined by the number of recognized words, the speaker, Since it is greatly affected by the input speech length, it is difficult to set a threshold value at which the partial hypothesis can be effectively discarded without dropping the correct partial hypothesis.
【0017】つまり、従来の方法によって計算された評
価値は、部分仮説同士の比較を行うためには有効である
が、認識語彙数、話者、入力音声長の影響を大きく受け
るため、その絶対値そのものを用いて部分仮説を評価す
ることは難しい。That is, the evaluation value calculated by the conventional method is effective for comparing partial hypotheses, but is greatly affected by the number of recognized vocabularies, speakers, and input speech length. It is difficult to evaluate the partial hypothesis using the value itself.
【0018】[0018]
【課題を解決するための手段】この発明によれば、探索
の過程で、つまり木構造の文法における音声単位(音
素、音節、半音節、単語など)の深さごとに、入力音声
の発声内容が正解であると仮定したときの評価値を推定
して基準評価値とし、従来の文法の制約を受けて音声単
位を連結し音響モデルとの照合を行って得られた評価値
を、前記基準評価値で正規化を行い、その正規化評価値
がしきい値以下の部分仮説を廃棄する。According to the present invention, the utterance content of an input speech is determined in the search process, that is, for each depth of speech units (phonemes, syllables, semi-syllables, words, etc.) in a tree-structured grammar. Estimate the evaluation value when it is assumed that the answer is correct, and use it as the reference evaluation value, and evaluate the evaluation value obtained by connecting the speech units under the constraints of the conventional grammar and collating with the acoustic model. Normalization is performed using the evaluation value, and partial hypotheses whose normalized evaluation value is equal to or smaller than the threshold value are discarded.
【0019】上記正規化により、部分仮説の評価値から
認識語彙数、話者、入力音声長等の影響が取り除かれ、
探索の過程で見込みのない部分仮説を確実に廃棄でき、
探索効率を高め、この正規化評価値を用いることで探索
処理量を削減することができる。By the above-described normalization, the influence of the number of recognized words, the speaker, the input voice length, and the like are removed from the evaluation value of the partial hypothesis.
During the search process, we can reliably discard unsuccessful partial hypotheses,
The search efficiency can be increased, and the amount of search processing can be reduced by using the normalized evaluation value.
【0020】[0020]
【実施例】以下、この発明の実施例を説明する。従来と
同様に入力音声を分析処理し、時系列の特徴パラメータ
のベクトルデータを得る。探索処理としては、部分仮説
に拡張する音声の単位を音素とし、各部分仮説で音素数
が一定なる音素同期のビーム探索、音響モデルはHMM
の場合に、この発明を適用した実施例を図1を用いて説
明する。文法41の拘束条件を用い音素拡張処理部42
で部分仮説iに音素を拡張し、トレリス計算処理部43
で音素系列に対応するHMMと入力音声との照合を行
う。得られた部分仮説iのスコア関数gi (t)から評
価値計算処理部47で部分仮説iの評価値Si を求め
る。従来の方法ではこの部分仮説iの評価値Si の高い
部分仮説を一定個数保持し、あとは捨てるというビーム
探索を行うが、この発明では、スコア関数計算処理部4
5で基準評価値のためのスコア関数g0 (t)を後述す
る方法で求め、上記と同様に評価値計算処理部48で基
準評価値SO を求める。次に部分仮説iの評価値Si と
基準評価値S0 の差(部分仮説iの正規化評価値
Si ′)を求め、この差Si ′が大きいものは、見込み
のない部分仮説として廃棄し、探索を進める。Embodiments of the present invention will be described below. The input voice is analyzed and processed in the same manner as in the related art to obtain time-series feature parameter vector data. In the search processing, a phoneme is used as a unit of speech extended to a partial hypothesis, and a phoneme-synchronized beam search in which the number of phonemes is constant in each partial hypothesis.
In this case, an embodiment to which the present invention is applied will be described with reference to FIG. Phoneme extension processing unit 42 using constraint conditions of grammar 41
To extend the phoneme to the partial hypothesis i, and the trellis calculation processing unit 43
Performs matching between the HMM corresponding to the phoneme sequence and the input speech. From the obtained score function g i (t) of the partial hypothesis i, the evaluation value calculation processing unit 47 obtains the evaluation value S i of the partial hypothesis i. In the conventional method, a beam search is performed in which a fixed number of partial hypotheses with a high evaluation value S i of the partial hypothesis i are held and the rest is discarded.
At 5, the score function g 0 (t) for the reference evaluation value is obtained by a method described later, and the evaluation value calculation processing unit 48 obtains the reference evaluation value S O in the same manner as described above. Then 'seek, the difference S i the difference evaluation value S i and the reference evaluation value S 0 of the partial hypotheses i (partial hypotheses i normalized evaluation value S i) of' what is large, as expected with no partial hypotheses Discard and proceed with the search.
【0021】図3Bの例で具体的に説明すると、第4音
素の部分仮説から音素を拡張した部分仮説は、「# i
k i o」,「# i k i k」,「# i
k i m」,「# i k a m」,「# i k
a n」の5種類あり、それぞれの部分仮説を部分仮説
iとし、部分仮説iの評価値をSi とし、基準評価値S
0 とすると、下記式(2)により部分仮説iの正規化評
価値Si ′が得られる。More specifically, referring to the example of FIG.
A partial hypothesis that extends a phoneme from a prime partial hypothesis is "# i
k i o "," # i k i k ”,“ # i
k i m ”,“ # i k a m ”,“ # i k
a n ", and each partial hypothesis is a partial hypothesis
i, and the evaluation value of the partial hypothesis i is SiAnd the reference evaluation value S
0Then, the normalized evaluation of the partial hypothesis i is given by the following equation (2).
Value Si'Is obtained.
【0022】 Si ′=Si −S0 (2) 入力された音声が実際には「いきおい」と発生されたと
すると、「# i k i o」の部分仮説が最も正解に
近く評価値が高くなる。また、「# i k a m」の
ように正解とは離れた部分仮説については、その評価値
は小さくなっている。基準評価値は、入力音声の内容が
正解であると仮定したときの推定評価値であって、例え
ば無文法によって求められたものであるから、文法的な
制約がなく全ての音響モデルの組み合わせを許して得ら
れるものなので、必ず入力音声の内容と同一の音素系列
又はこれに近いものとの照合がなされ、その音素系列は
最も評価値が高くなる組み合わせになっているはずであ
り、この基準評価値は「# i k i o」の部分仮
説の評価値に近い値になる。よって、正規化評価値
Si ′の値は正解に近い部分仮説に対しては0に近くな
り、正解から離れた部分仮説では大きな負の値となる。
正規化評価値Si ′のこの傾向は、S0 とS i は共に同
一入力音声から作られているためS0 とSi が含む話者
の特性が正規化評価値では差し引かれて除去され、話者
に依存しにくい。同様の理由でSi の前記傾向は入力音
声長にも依存しない。また、部分仮説の個数を一定にす
るビーム探索では、認識語彙数によって保持する部分仮
説の個数を変える必要があるが、評価値そのものは認識
語彙数が変わっても変化しないため、正規化評価値
Si′は認識語彙数の影響も少ない。Si'= Si-S0 (2) When the input voice is actually generated as “Ikioi”
Then, "# i k i o "partial hypothesis is the most correct answer
The evaluation value increases soon. Also,"# i k a m ”
The partial hypothesis far from the correct answer
Is getting smaller. The reference evaluation value is
Estimated evaluation value assuming correct answer.
Grammar-free grammar,
Allowed to accept all acoustic model combinations without restrictions
Phoneme sequence that is the same as the content of the input speech
Or a match with something close to this, and the phoneme sequence is
It should be the combination with the highest evaluation value
The standard evaluation value is "# i k i o "
It becomes a value close to the evaluation value of the theory. Therefore, the normalized evaluation value
Si'Is close to 0 for the partial hypothesis that is close to the correct answer.
Therefore, the partial hypothesis far from the correct answer has a large negative value.
Normalized evaluation value Si', This tendency is0And S iAre the same
S because it is made from one input voice0And SiSpeakers included
Are removed by subtraction in the normalized evaluation value, and the speaker
Hard to depend on. S for similar reasonsiSaid tendency of input sound
It does not depend on voice length. Also, keep the number of partial hypotheses constant.
In the beam search, the partial temporary
It is necessary to change the number of theories, but the evaluation value itself is recognized
Since the vocabulary number does not change, the normalized evaluation value
Si'Has little effect on the number of recognized words.
【0023】ビーム探索で正規化評価値Si ′の低い部
分仮説を廃棄する場合、しきい値Lを定め、Si ′<L
となる部分仮説を廃棄するが、Lは一定数としたり、部
分仮説の時間長に依存した値、例えば部分仮説の時間長
が長ければこれに応じて前記例では負の大きな値に設定
してもよい。図1中の評価値計算処理部47,48での
計算方法として式(1)を用い、かつ式(1)のg^
(t)が基準評価値のためのスコア関数g0 (t)と等
しい場合は下記式(3)を用いて正規化評価値Si ′を
求めることができる。gi (t)は部分仮説iのスコア
関数、g0 (t)は基準評価値のためのスコア関数であ
る。式(3)によれば正規化評価値Si ′のための計算
処理量を大幅に削減できる。When discarding a partial hypothesis having a low normalized evaluation value S i ′ in beam search, a threshold value L is determined and S i ′ <L
The partial hypothesis is discarded, but L is set to a fixed number or a value depending on the time length of the partial hypothesis, for example, if the time length of the partial hypothesis is long, the value is set to a large negative value in the above example in accordance with this. Is also good. Equation (1) is used as a calculation method in the evaluation value calculation processing units 47 and 48 in FIG.
When (t) is equal to the score function g 0 (t) for the reference evaluation value, the normalized evaluation value S i ′ can be obtained using the following equation (3). g i (t) is a score function of the partial hypothesis i, and g 0 (t) is a score function for the reference evaluation value. According to equation (3), the amount of calculation processing for the normalized evaluation value S i ′ can be significantly reduced.
【0024】 Si ′= max{gi (t)−g0 (t)} (3) maxは各tについて{ }内が最大となるもの 基準評価値SO のためのスコア関数g0 (t)の求め方
を以下に示す。 <基準評価値のためのスコア関数の計算方法1>各音素
HMMは、通常3つ程度の状態をもっており、その各状
態では、複数の確率密度関数の重み和の出力確率密度分
布をもっている。ここで、各時刻での入力音声の特徴パ
ラメータを全ての出力確率密度分布に与え、最も高い出
力確率密度値を選択し、その対数である時刻ごとの最大
尤度を求める。この最大尤度の時刻進行での累積値を求
め、それを基準評価値のためのスコア関数とする。Oτ
を時刻τでの特徴パラメータ、pj (Oτ)を出力確率
密度分布jにその特徴パラメータを与えた出力確率密度
値とすると、g0 (t)は式(4)によって与えられ
る。S i ′ = max {g i (t) −g 0 (t)} (3) max is the maximum value in {} for each t. The score function g 0 (for the reference evaluation value S O The method for obtaining t) will be described below. <Method 1 for calculating score function for reference evaluation value> Each phoneme HMM usually has about three states, and each state has an output probability density distribution of a weighted sum of a plurality of probability density functions. Here, the characteristic parameters of the input speech at each time are given to all output probability density distributions, the highest output probability density value is selected, and the log-like maximum likelihood at each time is obtained. The cumulative value of the maximum likelihood in the time progression is obtained, and this is used as a score function for the reference evaluation value. Oτ
Is the feature parameter at time τ, and p j (Oτ) is the output probability density value obtained by giving the feature parameter to the output probability density distribution j, and g 0 (t) is given by equation (4).
【0025】 g0 (t)=Σ maxpj (Oτ) (4) Σはτ=0からtまで、 maxはpj (Oτ)中の全ての
jについての最大値通常は一つのHMMから他のHMM
への遷移は、一つのHMMの終りの状態から、他のHM
Mの始めの状態へ遷移するという条件のもとに遷移する
が、このスコア関数は、前記遷移条件をなくし、かつ文
法の制約もなくし、全てのHMMの何れの状態から何れ
のHMMの何れの状態への遷移を許し、かつその遷移確
率を1として、ビタービ計算を行ったときのスコア関数
を示している。探索が進むとpj (Oτ)の大部分は、
探索の過程でのトレリス計算で行われているので、その
結果を利用でき計算量が少なくて済む。G 0 (t) = {maxp j (Oτ) (4)} is from τ = 0 to t, and max is the maximum value for all j in p j (Oτ), usually from one HMM to another HMM
Transition from the end state of one HMM to the other HM
Although the transition is made under the condition that the transition to the first state of M is made, this score function eliminates the transition condition and grammatical restrictions, and from any state of all HMMs to any state of any HMM. A score function when Viterbi calculation is performed with a transition to a state permitted and the transition probability set to 1 is shown. As the search progresses, most of p j (Oτ)
Since the trellis calculation is performed in the search process, the result can be used and the calculation amount can be reduced.
【0026】<基準評価値のためのスコア関数の計算方
法2>前記計算方法1においては、全HMMの全ての状
態の出力確率密度分布から得られる出力確率密度値の最
大値から求めたが、この計算方法2では探索処理の過程
で現在までにトレリス計算によって計算済みの全ての出
力確率密度分布に対する出力確率密度値の最大値から求
める。例えば図2に示すように、各HMMの各状態の出
力密度分布p1 ,p2 ,p3 …,を縦軸に、横軸に時刻
tをとると、前記図3Bの例では先ず無音#のHMMの
各状態の出力密度分布に対する出力確率密度値が予測さ
れる無音長について、この例では時刻0から3まで計算
され(この計算値が埋められた領域を51で示す)、最
も短い無音の終了時刻1の次の時刻2から最も長い無音
の終了時刻3の次の時刻4より次の音素iのHMMの各
状態の出力密度分布に対する出力確率密度値がそれぞれ
計算される。その計算値が埋められた領域を52で示
す。同様にして音素kのHMMの各状態の出力確率密度
値が図2に領域53として計算される。探索によりこの
ような計算が進められるが、図2中の各時刻0,1,
2,…における各計算された出力確率密度値の最大値を
求める。この最大値を順次加算してg0 (t)とする。
このようにすると探索処理過程で文法の拘束を受けた出
力確率密度分布からスコア関数g0 (t)を計算するた
め、より実際の文法に近いスコア関数が得られる。しか
も、トレリス計算で既に計算された出力確率密度値しか
使わないため、スコア関数g0 (t)のための計算はほ
とんど必要としない。このような計算方法でも、文法で
制約されていない部分の出力確率密度値はトレリス計算
で得られているものより小さいものが大部分と考えら
れ、正しく数g0 (t)が推定される。<Method 2 of calculating score function for reference evaluation value> In the above-described calculation method 1, the score function was obtained from the maximum value of the output probability density values obtained from the output probability density distributions of all states of all HMMs. In this calculation method 2, the output probability density value is obtained from the maximum value of the output probability density values for all the output probability density distributions that have been calculated by the trellis calculation up to the present time in the search process. For example, as shown in FIG. 2, when the output density distributions p 1 , p 2 , p 3 ... In each state of each HMM are plotted on the vertical axis and the time t is plotted on the horizontal axis, the silence # in the example of FIG. In this example, the silence length for which the output probability density value is predicted with respect to the output density distribution of each state of the HMM is calculated from time 0 to 3 (the region where the calculated value is embedded is indicated by 51), and the shortest silence length is calculated. The output probability density values for the output density distributions of the respective states of the HMM of the next phoneme i are calculated from the time 2 following the end time 1 after the end time 1 to the time 4 following the end time 3 of the longest silence. The area in which the calculated value is embedded is indicated by 52. Similarly, the output probability density value of each state of the HMM of the phoneme k is calculated as an area 53 in FIG. Although such calculation is advanced by the search, each time 0, 1, in FIG.
The maximum value of each calculated output probability density value in 2,. The maximum values are sequentially added to obtain g 0 (t).
In this way, since the score function g 0 (t) is calculated from the output probability density distribution restricted by the grammar in the search process, a score function closer to the actual grammar is obtained. Moreover, since only the output probability density value already calculated in the trellis calculation is used, the calculation for the score function g 0 (t) is hardly required. Even in such a calculation method, the output probability density value of a portion not restricted by the grammar is considered to be mostly smaller than that obtained by trellis calculation, and the number g 0 (t) is correctly estimated.
【0027】<基準評価値のためのスコア関数の計算方
法3>横型探索法の説明で述べたように部分仮説に音素
を拡張していき、トレリス計算等の照合を行うことによ
りスコア関数を得る。この場合、各部分仮説に任意の音
素の拡張を行えるような文法、つまり無文法で、音素を
拡張していき、対応する音響モデルと入力音声を照合し
て得られたスコア関数の各時刻での最大値を基準評価値
のためのスコア関数とする。この場合はHMMの遷移制
約は残しておく、この方法は上記2つの方法よりも文法
的拘力が強く、これを用いることにより精度の高い正規
化評価値Si ′を求めることができるが、計算量も多く
なる。<Method 3 of calculating score function for reference evaluation value> As described in the description of the horizontal search method, a phoneme is extended to a partial hypothesis, and a score function is obtained by performing collation such as trellis calculation. . In this case, the phoneme is extended by a grammar that can extend an arbitrary phoneme to each partial hypothesis, that is, a non-grammar, and at each time of the score function obtained by comparing the corresponding acoustic model with the input speech. Is the score function for the reference evaluation value. In this case, the transition constraint of the HMM is left. This method has a stronger grammatical force than the above two methods, and by using this method, a highly accurate normalized evaluation value S i ′ can be obtained. The amount of calculation also increases.
【0028】<基準評価値のためのスコア関数の計算方
法4>基準評価値のためのスコア関数の計算方法3にお
いて、任意の音素の拡張を行えるような文法ではなく、
日本語特有の音素配列構造のみを許す文法により、尤度
計算を行い、得られたスコア関数を前向きのヒューリス
ティック関数とする。日本語特有の音素配列構造を許す
音素列とは、例えば「o m o sh i r o
i」や「s u t o r a i k u」という
ように一般に子音の後には子音が来ないという制約を示
している。「s t r ai k」という音素の連鎖
は英語での音素配列構造を満たしているが、日本語の音
素配列構造とはなっていない。<Method of calculating score function for reference evaluation value
Method 4> Calculation method 3 of score function for reference evaluation value
Is not a grammar that can extend any phoneme,
By using a grammar that allows only Japanese phoneme sequence structures, the likelihood
Calculate, and use the resulting score function
Tick function. Allow Japanese phoneme array structure
The phoneme sequence is, for example, “o m o sh i r o
i "or" s u t o r a i k u "
As a general rule, constrained consonants do not follow consonants.
are doing. "S t r ai chain of phonemes "k"
Satisfies the phoneme sequence structure in English, but sounds in Japanese
It does not have a prime array structure.
【0029】計算方法3および計算方法4におけるg0
(t)を計算する際の音素を拡張する文法は、探索のた
めの部分仮説を作成するための文法を包含する文法と言
える。 <基準評価値のためのスコア関数の計算方法5>最終的
な正解の部分仮説は、そのスコア関数も他の部分仮説よ
りも大きくなっている場合が多い。そこで、探索の過程
で計算された全ての部分仮説のスコア関数g1 (t),
g2 (t),g3 (t),…の各時間ごとの最大値をg
0 (t)とする。式で表現すると次のようになる。G 0 in calculation methods 3 and 4
The grammar that extends phonemes when calculating (t) can be said to be a grammar that includes a grammar for creating a partial hypothesis for search. <Method 5 for calculating score function for reference evaluation value> The final correct partial hypothesis often has a score function larger than other partial hypotheses. Therefore, the score functions g 1 (t), of all partial hypotheses calculated in the search process
g 2 (t), g 3 (t),...
0 (t). The expression is as follows.
【0030】 g0 (t)= maxgi (t) (5) maxはgi (t)の全てのi中最大のもの この計算方法ではg0 (t)のための計算量をほとんど
必要としない。 <基準評価値のためのスコア関数の計算方法6>基準評
価値SO を求めるためのスコア関数g0 (t)の計算
は、音素の識別をする必要はなく、スコアを求めること
ができればよいから、各音素ごとのHMMを用いる必要
がなく、図1に点線で示すように認識用の音響モデル1
5とは別の音響モデル46を用いてもよく、この音響モ
デル46としては、例えば一つまたは数個の音響モデル
でも、多くの状態数を設けることにより、認識対象を包
含している音響現象を全て表現できるように構成したも
のでもよく、この一つの音響モデルを繰り返し使用し、
または数個の音響モデルの場合は、これらを任意に選択
して連結して入力音声と照合してもっともらしいものを
求めてg0 (t)を求めてもよい。G 0 (t) = maxg i (t) (5) max is the largest of all i of g i (t). This calculation method requires almost no calculation amount for g 0 (t). do not do. <Score Function Calculation Method 6 for Reference Evaluation Value> In the calculation of the score function g 0 (t) for obtaining the reference evaluation value S O , there is no need to identify phonemes, and it is sufficient to obtain a score. Therefore, it is not necessary to use an HMM for each phoneme, and the acoustic model 1 for recognition is used as shown by the dotted line in FIG.
5 may be used. As the acoustic model 46, for example, even if one or several acoustic models are provided, a large number of states are provided so that an acoustic phenomenon including a recognition target is included. May be configured so that all can be expressed, and this one acoustic model is repeatedly used,
Alternatively, in the case of several acoustic models, these may be arbitrarily selected and connected, collated with the input speech, and a plausible one may be obtained to obtain g 0 (t).
【0031】一部変形の説明 上述において、評価値を求めるため前向きヒューリステ
ィック関数を求めたが、例えば「南等“番号案内を対象
とした大語い連続音声認識アルゴリズム”電子情報通信
学会論文誌A.vol.J77−A,No. 2,pp. 190〜
197.1994」に示されているように、音声の終端
から後向きに推定した全ての仮説に共通な推定尤度関数
h^(t)を求めておき、これをスコア関数gi (t)
に加算して評価値Si としてもよい。さらに、この発明
は音素を単位としての音声認識のみならず、音節、半音
節、単語などを単位として認識する場合にも適用され
る。In the above description, a forward heuristic function was obtained in order to obtain an evaluation value. For example, “Large vocabulary continuous speech recognition algorithm for number guidance,” Minami et al. Vol.J77-A, No. 2, pp. 190-
197.1994 ", an estimated likelihood function h ^ (t) common to all hypotheses estimated backward from the end of speech is obtained, and this is used as a score function g i (t).
May be added as the evaluation value S i . Further, the present invention is applied not only to speech recognition in units of phonemes, but also to recognition in units of syllables, semi-syllables, words, and the like.
【0032】以下に実験例を示す。音素バランス216
単語の奇数番号108単語を対象とした単語認識におい
て、語彙内単語として奇数番号108単語、語彙外単語
として偶数番号108単語の音声データを与え認識を行
った結果で評価を行った。探索中、廃棄の性能を評価す
る値として、語彙内の単語認識での認識率を全体の認識
率、語彙内の単語認識で“認識結果なし”と判定される
割合を誤棄却率、語彙外の単語認識で“認識結果が棄却
されない”割合を誤受理率、誤棄却率と誤受理率の平均
を誤判定率とした。つまり、認識率を保った状態で誤判
定率を低く抑えられる場合に廃棄の性能が良いと考えら
れる。An experimental example will be described below. Phoneme balance 216
In the word recognition for the 108 odd-numbered words, the speech data of 108 odd-numbered words as words in the vocabulary and 108 words of even-numbered words as non-vocabulary words were given and evaluated. During the search, the recognition rate for word recognition in the vocabulary is the overall recognition rate, and the percentage of words recognized as "no recognition result" in the vocabulary is the false rejection rate, In the word recognition, the ratio of “the recognition result is not rejected” was defined as the false acceptance rate, and the average of the false rejection rate and the false acceptance rate was defined as the false determination rate. In other words, it is considered that discarding performance is good when the erroneous determination rate can be kept low while the recognition rate is maintained.
【0033】以上の評価を廃棄の強さを変化させて行っ
た。これには部分仮説を棄却するためのしきい値Lとし
て、時刻tに比例したθ・tを用い、θの値を変えるこ
とによって廃棄の強さを変えた。θの値が大きいほど強
い廃棄となる。音声データとしてはATRの音声データ
ベースのうちMAU,MHT,FAF,FSUの4人の
話者を評価に用いた。また、実験システムとしてHMM
−LR音声認識サーバを用いた。ただし、音響モデル
は、状態数3,混合分布数4で音素モデル数54個の不
特定話者用環境独立型混合連続分布HMMで、音響学会
連続音声データベース9600文より学習したものを使
用した。今回の実験では任意の音素の組み合わせの連鎖
を基準評価値用の仮説とし、その尤度関数を前向きヒュ
ーリスティック関数とした。The above evaluation was carried out by changing the strength of disposal. For this, θ · t proportional to time t was used as the threshold L for rejecting the partial hypothesis, and the intensity of discard was changed by changing the value of θ. The larger the value of θ, the stronger the discard. As the voice data, four speakers of MAU, MHT, FAF and FSU in the voice database of ATR were used for evaluation. In addition, as an experimental system, HMM
-LR speech recognition server was used. However, the acoustic model used was an environment independent mixed continuous distribution HMM for an unspecified speaker having 54 phoneme models with 3 states and 4 mixture distributions, and learned from 9600 sentences of the Acoustic Society continuous speech database. In this experiment, a chain of arbitrary combinations of phonemes was used as a hypothesis for the reference evaluation value, and the likelihood function was used as a forward heuristic function.
【0034】図5に話者MHTの場合の動的廃棄の強さ
を変化させたときの認識性能、廃棄性能の変化を示す。
図での認識処理時間、照合回数は全探索でのそれぞれの
値を用いて正規化した値を示す。図からわかるように、
例えばθ=0付近を見るとわかるように認識率を保った
状態で廃棄の効果がある。また照合回数が抑えられてお
り、不要な部分仮説の棄却が行われていることがわか
る。しかし、今回の単語認識実験では語彙が小さいた
め、ヒューリスティック関数を求めるための計算量が相
対的に大きくなり、全体の認識処理時間は全探索を行う
場合とほとんど変わらなかった。ただし、このヒューリ
スティック関数を用いて部分仮説の個数一定のビーム探
索を行う場合、同等の認識率を得るには全探索の1.2倍
程度の認識処理時間を必要とする。よって、この条件で
の実験でも、個数一定のビーム探索に比べ、この発明方
法の方が廃棄の機能があり、しかも認識処理時間が短い
結果となった。FIG. 5 shows changes in recognition performance and discard performance when the strength of dynamic discard in the case of speaker MHT is changed.
The recognition processing time and the number of times of collation in the figure show values normalized using the respective values in the full search. As you can see from the figure,
For example, there is an effect of discarding in a state where the recognition rate is maintained, as can be seen from the vicinity of θ = 0. Further, it can be seen that the number of times of collation is suppressed, and unnecessary partial hypotheses are rejected. However, in this word recognition experiment, the vocabulary was small, so the amount of calculation for finding the heuristic function was relatively large, and the overall recognition processing time was almost the same as when performing the full search. However, when performing a beam search with a fixed number of partial hypotheses using this heuristic function, a recognition processing time that is about 1.2 times that of the full search is required to obtain an equivalent recognition rate. Therefore, even in an experiment under these conditions, the method of the present invention has a discarding function and a shorter recognition processing time than the beam search with a fixed number of beams.
【0035】[0035]
【発明の効果】従来の部分仮説の評価値の絶対値が話
者、認識語彙数、入力音声長に依存するのに対し、この
発明では、部分仮説の評価値を同一入力音声から求めた
基準評価値により正規化しているため、話者、認識語彙
数、入力音声長に依存しない正規化評価値が得られ、探
索の過程での見込みのない部分仮説の廃棄を効果的に行
うことができる。これより、正規化評価値のためのしき
い値は同じ値で様々な用途に音声認識を利用でき、利用
者の設定の負担を減らすことができる。According to the present invention, while the absolute value of the evaluation value of the conventional partial hypothesis depends on the speaker, the number of recognized vocabularies, and the input speech length, in the present invention, the evaluation value of the partial hypothesis is obtained from the same input speech. Because the evaluation value is normalized, a normalized evaluation value that does not depend on the speaker, the number of recognized vocabulary words, and the input speech length can be obtained, and it is possible to effectively discard an unlikely partial hypothesis in the search process. . As a result, the threshold value for the normalized evaluation value is the same, and speech recognition can be used for various purposes, and the burden on the user for setting can be reduced.
【0036】また、入力された音声が文法の許さない内
容の場合、従来の探索では文法内のもっとも近い候補で
ある間違った結果を出力することになり、利用者の発声
ミスと音声認識の誤認識との区別を示すことができなか
った。しかし、この場合この発明では、探索の過程で全
ての部分仮説が廃棄され、認識結果なしとなり、利用者
に発声の誤りを知らせることができる。利用者の発声ミ
スを早期に発見して示すことは実用の音声認識において
重要である。If the input speech does not allow the grammar, the conventional search will output an incorrect result that is the closest candidate in the grammar, resulting in a user utterance error and a speech recognition error. No distinction from cognition could be shown. However, in this case, according to the present invention, all partial hypotheses are discarded in the search process, no recognition result is obtained, and the user can be notified of the utterance error. It is important in practical speech recognition to find and show user utterance mistakes early.
【0037】この発明の方法の効果を以下に列挙する。 ・探索の過程での見込みのない部分仮説の廃棄を効果的
に行える。 ・設定しなければならないしきい値は、話者、認識語彙
数、入力音声長に依存しないので、利用者の設定の負担
を減らすことができる。 ・入力された音声が文法の許さない内容の場合、探索の
過程で早期に認識が行えないことを検出でき、利用者の
発声ミスを知らせることができる。The effects of the method of the present invention are listed below.・ Effective discard of partial hypotheses that are unlikely in the search process can be performed. The threshold value to be set does not depend on the speaker, the number of recognized vocabulary words, and the input voice length, so that the burden of setting by the user can be reduced. -If the input speech does not allow the grammar, it is possible to detect that recognition cannot be performed early in the search process, and to notify the user of a speech error.
【図1】この発明方法の要部である部分仮説の正規化評
価値を求める手法の例を示す図。FIG. 1 is a diagram showing an example of a technique for obtaining a normalized evaluation value of a partial hypothesis, which is a main part of the method of the present invention.
【図2】基準評価値のためのスコア関数計算方法2を説
明するためのトレリス計算にてなされた出力確率密度値
の例を示す図。FIG. 2 is a diagram showing an example of an output probability density value obtained by trellis calculation for explaining a score function calculation method 2 for a reference evaluation value.
【図3】Aは音素を認識の単位とした音声認識方法の処
理を示す図、Bは木構造によって表現される文法を示す
図である。FIG. 3A is a diagram illustrating a process of a speech recognition method using phonemes as a unit of recognition, and FIG. 3B is a diagram illustrating a grammar represented by a tree structure;
【図4】トレリス計算の結果得られるスコア関数を示す
図。FIG. 4 is a diagram showing a score function obtained as a result of trellis calculation.
【図5】この発明方法について行った実験の結果を示す
図。FIG. 5 is a diagram showing the results of an experiment performed on the method of the present invention.
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平8−6588(JP,A) 特開 平2−300798(JP,A) 日本音響学会平成7年度春季研究発表 会講演論文集▲I▼,1−Q−28,野田 喜昭外「動的リジェクト機能をもつ前向 きヒューリスティック関数によるビーム 探索」p.151−152(平成7年3月14日 発行) 電子情報通信学会技術研究報告[音声 ],Vol.94,No.91,SP94− 23,野田喜昭外「前向き尤度を用いたA *ビーム探索によるHMM−LR音声認 識」p.1−8(1994年6月17日発行) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00 JICSTファイル(JOIS)────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-8-6588 (JP, A) JP-A-2-300798 (JP, A) Proceedings of the Acoustical Society of Japan Spring Meeting 2007 , 1-Q-28, Yoshiaki Noda, “Beam search by forward heuristic function with dynamic reject function” p. 151-152 (issued on March 14, 1995) IEICE Technical Report [Voice], Vol. 94, no. 91, SP94-23, Yoshiaki Noda, "HMM-LR speech recognition by A * beam search using forward likelihood," p. 1-8 (Issued June 17, 1994) (58) Fields investigated (Int. Cl. 7 , DB name) G10L 15/00-17/00 JICST file (JOIS)
Claims (12)
づいて、入力音声の発生内容に関する一つあるいは複数
の仮説を、音声単位を漸次的に追加連結および分岐して
生成し、 その際に上記木構造の音声単位の深さごとに、音響モデ
ルに基づいて、入力音声に対する各仮説におけるそれま
での部分仮説のもっともらしさを評価して部分仮説評価
値を求め、 上記各仮説についてのもっともらしさから認識結果を求
める音声認識方法において、 上記木構造の音声単位の深さごとに、上記入力音声の発
声内容が正解であると仮定したときの評価値を推定して
基準評価値とし、 その基準評価値で対応する深さの上記部分仮説の評価値
を正規化し、 その正規化した評価値がしきい値以下の部分仮説を廃棄
することを特徴とする音声認識方法。1. A method for generating one or more hypotheses relating to the content of an input speech by gradually adding and connecting speech units based on a tree-structured grammar composed of speech units. For each depth of the tree-structured speech unit, based on the acoustic model, the plausibility of the previous partial hypothesis in each hypothesis with respect to the input speech is evaluated to obtain a partial hypothesis evaluation value. In the speech recognition method for obtaining a recognition result from likelihood, an evaluation value when assuming that the utterance content of the input speech is correct is estimated as a reference evaluation value for each depth of the speech unit of the tree structure. A speech recognition method comprising: normalizing an evaluation value of a partial hypothesis having a depth corresponding to a reference evaluation value, and discarding a partial hypothesis whose normalized evaluation value is equal to or smaller than a threshold value.
記入力音声の発声内容に関する仮説を、音声単位を漸次
的に追加連続して生成し、上記入力音声を、部分仮説と
対応した上記音響モデルと照合してスコア関数を求め
て、上記基準評価値を得ることを特徴とする請求項1記
載の音声認識方法。2. Based on a grammar including the grammar, a hypothesis relating to the utterance content of the input speech is generated by adding speech units gradually and continuously, and the input speech is generated by the sound corresponding to a partial hypothesis. 2. The speech recognition method according to claim 1, wherein the reference evaluation value is obtained by obtaining a score function by collating with a model.
する少なくとも一つの基準評価値用音響モデルの部分仮
説と対応したものと、上記入力音声を照合してスコア関
数を求めて、上記基準評価値を得ることを特徴とする請
求項1記載の音声認識方法。3. A score function is obtained by comparing the input speech with a partial hypothesis of at least one reference evaluation value acoustic model representing an acoustic phenomenon including a recognition target, and obtaining a score function. The speech recognition method according to claim 1, wherein an evaluation value is obtained.
音響モデルと照合してスコア関数を求めて、上記部分仮
説評価値を得ることを特徴とする請求項2または3の何
れかに記載の音声認識方法。4. The partial hypothesis evaluation value according to claim 2, wherein the input speech is collated with an acoustic model corresponding to the partial hypothesis, a score function is obtained, and the partial hypothesis evaluation value is obtained. Voice recognition method.
あることを特徴とする請求項4記載の音声認識方法。5. The speech recognition method according to claim 4, wherein said acoustic model is a hidden Markov model.
全ての出力確率密度値の最大値を求め、その最大値を累
積して上記基準評価値を得るためのスコア関数を計算す
ることを特徴とする請求項5記載の音声認識方法。6. A score function for obtaining a maximum value of all output probability density values of the Hidden Markov Model at each time and accumulating the maximum values to calculate the reference evaluation value. The speech recognition method according to claim 5, wherein
ために計算された隠れマルコフの出力確率値中の最大値
を選び、その最大値を累積して上記基準評価値を得るた
めのスコア関数を計算することを特徴とする請求項5記
載の音声認識方法。7. A score function for selecting a maximum value among output probability values of hidden Markov calculated to obtain the partial evaluation value at each time, and accumulating the maximum value to obtain the reference evaluation value. The speech recognition method according to claim 5, wherein is calculated.
対応した音響モデルの任意の組み合わせを許すものであ
ることを特徴とする請求項2記載の音声認識方法。8. The speech recognition method according to claim 2, wherein the grammar including the grammar allows any combination of acoustic models corresponding to speech units.
み合わせに、日本語特有の音素配列構造の制約を用いる
ことを特徴とする請求項8記載の音声認識方法。9. The speech recognition method according to claim 8, wherein a constraint of a phoneme array structure unique to Japanese is used for the combination of the acoustic models corresponding to the speech units.
上記音響モデルと照合してスコア関数を求めて上記部分
仮説評価値を得、上記基準評価値を、各時刻における上
記スコア関数の最大値を求めることにより得ることを特
徴とする請求項1記載の音声認識方法。10. The input speech is collated with the acoustic model corresponding to a partial hypothesis, a score function is obtained to obtain the partial hypothesis evaluation value, and the reference evaluation value is set to a maximum value of the score function at each time. 2. The speech recognition method according to claim 1, wherein the speech recognition method obtains the following.
説に共通な前向きヒューリスティック関数を求め、各部
分仮説のスコア関数と上記前向きヒューリスティック関
数との差をとり、その差の最大値と対応する値として求
めることを特徴とする請求項4乃至10の何れかに記載
の音声認識方法。11. An evaluation value of the partial hypothesis is obtained by finding a forward heuristic function common to all partial hypotheses, taking the difference between the score function of each partial hypothesis and the forward heuristic function, and determining the maximum value of the difference. 11. The speech recognition method according to claim 4, wherein the value is obtained as a value to be obtained.
して、上記基準評価値を求めるために得られたスコア関
数を用いることを特徴とする請求項11記載の音声認識
方法。12. The speech recognition method according to claim 11, wherein a score function obtained for obtaining the reference evaluation value is used as the forward heuristic function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07041948A JP3104900B2 (en) | 1995-03-01 | 1995-03-01 | Voice recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07041948A JP3104900B2 (en) | 1995-03-01 | 1995-03-01 | Voice recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08241096A JPH08241096A (en) | 1996-09-17 |
JP3104900B2 true JP3104900B2 (en) | 2000-10-30 |
Family
ID=12622438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP07041948A Expired - Lifetime JP3104900B2 (en) | 1995-03-01 | 1995-03-01 | Voice recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3104900B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014159908A (en) * | 2013-02-20 | 2014-09-04 | Mitsubishi Electric Corp | Air conditioning system |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6275802B1 (en) * | 1999-01-07 | 2001-08-14 | Lernout & Hauspie Speech Products N.V. | Search algorithm for large vocabulary speech recognition |
JP2000293196A (en) * | 1999-04-08 | 2000-10-20 | Nec Corp | Device and method for voice recognition and storage medium which stores program |
JP4696400B2 (en) * | 2001-05-30 | 2011-06-08 | ソニー株式会社 | Voice recognition apparatus, voice recognition method, program, and recording medium |
JP4340685B2 (en) * | 2004-03-30 | 2009-10-07 | パイオニア株式会社 | Speech recognition apparatus and speech recognition method |
-
1995
- 1995-03-01 JP JP07041948A patent/JP3104900B2/en not_active Expired - Lifetime
Non-Patent Citations (2)
Title |
---|
日本音響学会平成7年度春季研究発表会講演論文集▲I▼,1−Q−28,野田喜昭外「動的リジェクト機能をもつ前向きヒューリスティック関数によるビーム探索」p.151−152(平成7年3月14日発行) |
電子情報通信学会技術研究報告[音声],Vol.94,No.91,SP94−23,野田喜昭外「前向き尤度を用いたA*ビーム探索によるHMM−LR音声認識」p.1−8(1994年6月17日発行) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014159908A (en) * | 2013-02-20 | 2014-09-04 | Mitsubishi Electric Corp | Air conditioning system |
Also Published As
Publication number | Publication date |
---|---|
JPH08241096A (en) | 1996-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0813735B1 (en) | Speech recognition | |
US8532991B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
US6292779B1 (en) | System and method for modeless large vocabulary speech recognition | |
US6535850B1 (en) | Smart training and smart scoring in SD speech recognition system with user defined vocabulary | |
JP3049259B2 (en) | Voice recognition method | |
JP2007057844A (en) | Speech recognition system and speech processing system | |
JP2000029495A (en) | Method and device for voice recognition using recognition techniques of a neural network and a markov model | |
JP4769098B2 (en) | Speech recognition reliability estimation apparatus, method thereof, and program | |
JP4950024B2 (en) | Conversation system and conversation software | |
JP3104900B2 (en) | Voice recognition method | |
JPH1185188A (en) | Speech recognition method and its program recording medium | |
JP2974621B2 (en) | Speech recognition word dictionary creation device and continuous speech recognition device | |
JP2871420B2 (en) | Spoken dialogue system | |
JP2005275348A (en) | Speech recognition method, device, program and recording medium for executing the method | |
JP2905674B2 (en) | Unspecified speaker continuous speech recognition method | |
JP2852210B2 (en) | Unspecified speaker model creation device and speech recognition device | |
JPH07261785A (en) | Voice recognition method and voice recognition device | |
JP3440840B2 (en) | Voice recognition method and apparatus | |
JP3494338B2 (en) | Voice recognition method | |
JP3368989B2 (en) | Voice recognition method | |
JP2731133B2 (en) | Continuous speech recognition device | |
JP3315565B2 (en) | Voice recognition device | |
JP3036509B2 (en) | Method and apparatus for determining threshold in speaker verification | |
JP2888781B2 (en) | Speaker adaptation device and speech recognition device | |
JP3035239B2 (en) | Speaker normalization device, speaker adaptation device, and speech recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070901 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080901 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080901 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090901 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090901 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100901 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100901 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110901 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120901 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130901 Year of fee payment: 13 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |