JPH0833739B2 - パターン表現モデル学習装置 - Google Patents
パターン表現モデル学習装置Info
- Publication number
- JPH0833739B2 JPH0833739B2 JP2243225A JP24322590A JPH0833739B2 JP H0833739 B2 JPH0833739 B2 JP H0833739B2 JP 2243225 A JP2243225 A JP 2243225A JP 24322590 A JP24322590 A JP 24322590A JP H0833739 B2 JPH0833739 B2 JP H0833739B2
- Authority
- JP
- Japan
- Prior art keywords
- hmm
- category
- probability
- distribution
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000009826 distribution Methods 0.000 claims description 88
- 239000013598 vector Substances 0.000 claims description 77
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000007704 transition Effects 0.000 claims description 20
- 238000007562 laser obscuration time method Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 description 25
- 238000007476 Maximum Likelihood Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000007423 decrease Effects 0.000 description 7
- 239000000203 mixture Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000009472 formulation Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 101100236068 Mus musculus Lrba gene Proteins 0.000 description 1
- 241001479493 Sousa Species 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の詳細な説明】 [産業上の利用分野] 本発明は、音声認識装置内などで使用する隠れマルコ
フモデル(Hidden Markov Model、以後HMMと略す)のパ
ラメータ学習に用いられるパターン表現モデル学習装置
に関するものである。
フモデル(Hidden Markov Model、以後HMMと略す)のパ
ラメータ学習に用いられるパターン表現モデル学習装置
に関するものである。
[従来の技術] HMMは系列長可変の特徴系列を確率的に表現するモデ
ルであり、複数の状態とその間の遷移により構成され、
状態間遷移の確率と、複数の状態又は状態遷移時に出力
される特徴の出力確率分布をパラメータとする。ここ
で、出力確率分布は特徴系列を構成する個々の特徴を表
し、遷移確率は系列に沿った特徴の変移を表すと考えて
良い。基本的なHMMの定式化は、文献1 中川聖一著
“確率モデルによる音声認識”(電子情報通信学会、昭
和63年7月1日初版発行)pp.33〜40に記述されるとお
りである。
ルであり、複数の状態とその間の遷移により構成され、
状態間遷移の確率と、複数の状態又は状態遷移時に出力
される特徴の出力確率分布をパラメータとする。ここ
で、出力確率分布は特徴系列を構成する個々の特徴を表
し、遷移確率は系列に沿った特徴の変移を表すと考えて
良い。基本的なHMMの定式化は、文献1 中川聖一著
“確率モデルによる音声認識”(電子情報通信学会、昭
和63年7月1日初版発行)pp.33〜40に記述されるとお
りである。
HNMは一般に、離散分布HMMと連続分布HMMに大別され
る。離散分布HMMは、離散的なラベルで構成された特徴
系列を表現する。また、連続分布HMMは、通常連続的な
ベクトルで構成された特徴系列を表現する。このとき、
離散分布HMMの出力確率分布は、対応する状態遷移にお
いて各々のラベルが出力される確率であり、ラベル毎に
値が設定されている。また、連続分布HMMの出力確率分
布は、特徴ベクトルの出力される確率がガウス分布等の
連続的な分布で表されている。特に混合連続分布HMMの
場合、通常出力確率分布は複数のガウス分布により表現
されており、各々のガウス分布は中心ベクトルとパラメ
ータ間の分散共分散行列、及び分布間の重みに相当する
分岐確率によって規定される。ここで、あるベクトルに
対して混合連続分布を構成する各々のガウス分布が出力
する確率を部分確率と呼ぶ。混合連続分布HMMの定式化
は、文献2L.R.Rabiner、B.H.Juang、S.E.Levinson、M.
M.Sondhi著“Recognition of Isolated Digits Using H
idden Markov Models With Continuous Mixture Densit
ies"(AT&T Technical Journal Vol.64、No.6、July-A
ugust 1985)に記述されるとおりである。離散分布HMM
を用いてベクトル系列を表現する場合は、ベクトル量子
化法(Vector Quantizati-on、VQと略す)を用いてベク
トル列をラベル列に変換して用いる。VQの定式化は文献
1 pp.26〜28に記述されるとおりである。
る。離散分布HMMは、離散的なラベルで構成された特徴
系列を表現する。また、連続分布HMMは、通常連続的な
ベクトルで構成された特徴系列を表現する。このとき、
離散分布HMMの出力確率分布は、対応する状態遷移にお
いて各々のラベルが出力される確率であり、ラベル毎に
値が設定されている。また、連続分布HMMの出力確率分
布は、特徴ベクトルの出力される確率がガウス分布等の
連続的な分布で表されている。特に混合連続分布HMMの
場合、通常出力確率分布は複数のガウス分布により表現
されており、各々のガウス分布は中心ベクトルとパラメ
ータ間の分散共分散行列、及び分布間の重みに相当する
分岐確率によって規定される。ここで、あるベクトルに
対して混合連続分布を構成する各々のガウス分布が出力
する確率を部分確率と呼ぶ。混合連続分布HMMの定式化
は、文献2L.R.Rabiner、B.H.Juang、S.E.Levinson、M.
M.Sondhi著“Recognition of Isolated Digits Using H
idden Markov Models With Continuous Mixture Densit
ies"(AT&T Technical Journal Vol.64、No.6、July-A
ugust 1985)に記述されるとおりである。離散分布HMM
を用いてベクトル系列を表現する場合は、ベクトル量子
化法(Vector Quantizati-on、VQと略す)を用いてベク
トル列をラベル列に変換して用いる。VQの定式化は文献
1 pp.26〜28に記述されるとおりである。
HMMからなる特徴系列が出力される確率を生起確率と
呼ぶ。生起確率はTrellisアルゴリズム(前向きパスア
ルゴリズム)により算出できる。これは、特徴系列が表
現可能な全ての経路について、この経路に関して特徴系
列が出力される確率の緩和を求めるものである。Trelli
sアルゴリズムの詳細は文献1 pp.40〜42に記述されると
おりである。このとき、各経路に関して入力された特徴
系列に対応する遷移確率及び出力確率が大きいほど、得
られる生起確率は大きくなる。
呼ぶ。生起確率はTrellisアルゴリズム(前向きパスア
ルゴリズム)により算出できる。これは、特徴系列が表
現可能な全ての経路について、この経路に関して特徴系
列が出力される確率の緩和を求めるものである。Trelli
sアルゴリズムの詳細は文献1 pp.40〜42に記述されると
おりである。このとき、各経路に関して入力された特徴
系列に対応する遷移確率及び出力確率が大きいほど、得
られる生起確率は大きくなる。
他の方式として、特徴系列が出力される確率の最も高
いHMMの経路を求め、このとき得られる確率を生起確率
とするViterbiアルゴリズムがある。Viterbiアルゴリズ
ムの詳細は文献1 pp.44〜46に記述されるとおりであ
る。なお、ここで得られた経路は、特徴系列に対するHM
Mの最適経路と考えられ、通常これをViterbiパスと呼
ぶ。
いHMMの経路を求め、このとき得られる確率を生起確率
とするViterbiアルゴリズムがある。Viterbiアルゴリズ
ムの詳細は文献1 pp.44〜46に記述されるとおりであ
る。なお、ここで得られた経路は、特徴系列に対するHM
Mの最適経路と考えられ、通常これをViterbiパスと呼
ぶ。
HMMのパラメータは、一般に最尤推定法(Maximum Lik
elihood Estimation Method)により決定される。これ
は、1つ以上用意されたカテゴリ既知の学習用特徴系列
について、当該カテゴリのHMMに対するこれらの特徴系
列の生起確率がより大きくなるようにHMMのパラメータ
を逐次的に更新するものである。離散分布HMMに関する
最尤推定法としては、一般にBaum-Welchアルゴリズムを
用いる。Baum-Welch法の定式化は文献1 pp.55〜61に記
述されるとおりである。また、混合連続分布HMMにおけ
る最尤推定法によるパラメータ決定法としては、文献2
に記述されるようなものがある。
elihood Estimation Method)により決定される。これ
は、1つ以上用意されたカテゴリ既知の学習用特徴系列
について、当該カテゴリのHMMに対するこれらの特徴系
列の生起確率がより大きくなるようにHMMのパラメータ
を逐次的に更新するものである。離散分布HMMに関する
最尤推定法としては、一般にBaum-Welchアルゴリズムを
用いる。Baum-Welch法の定式化は文献1 pp.55〜61に記
述されるとおりである。また、混合連続分布HMMにおけ
る最尤推定法によるパラメータ決定法としては、文献2
に記述されるようなものがある。
HMMを用いたパターン認識は、次の手順で行なう。ま
ず、認識対象となるカテゴリの各々について、予めパラ
メータ推定されたHMMを用意する。次に、入力されたカ
テゴリ未知の特徴系列の、各HMMに対する生起確率を求
める。そして、最も生起確率の高いHMMが属するカテゴ
リを認識結果として出力する。
ず、認識対象となるカテゴリの各々について、予めパラ
メータ推定されたHMMを用意する。次に、入力されたカ
テゴリ未知の特徴系列の、各HMMに対する生起確率を求
める。そして、最も生起確率の高いHMMが属するカテゴ
リを認識結果として出力する。
HMMを用いてベクトル系列の認識を行なう場合、一般
に離散分布HMMの方が計算量が少なくて済み、認識装置
を構成した場合高速な認識が可能となる。しかし、離散
分布HMMを用いる場合、入力されるベクトル系列はVQに
より一旦ラベル列に変形されるため、特にベクトルの分
布が大きい場合はここでVQ歪と呼ばれるパターン情報の
欠落が生じ、認識性能の低下を招く。他方、連続分布HM
Mはベクトル系列が直接扱えるためVQ歪の影響を受け
ず、高い認識性能を得ることができる。一般に用いられ
る連続分布HMMとしては、混合連続分布HMMが最も表現性
が良く認識性能が高い。これらの点は、文献2の中で実
験的に確認されている。
に離散分布HMMの方が計算量が少なくて済み、認識装置
を構成した場合高速な認識が可能となる。しかし、離散
分布HMMを用いる場合、入力されるベクトル系列はVQに
より一旦ラベル列に変形されるため、特にベクトルの分
布が大きい場合はここでVQ歪と呼ばれるパターン情報の
欠落が生じ、認識性能の低下を招く。他方、連続分布HM
Mはベクトル系列が直接扱えるためVQ歪の影響を受け
ず、高い認識性能を得ることができる。一般に用いられ
る連続分布HMMとしては、混合連続分布HMMが最も表現性
が良く認識性能が高い。これらの点は、文献2の中で実
験的に確認されている。
HMMを学習する方式として最も一般的なものは、学習
に用いる特徴系列に対してHMMの出力する尤度が大きく
なるようにHMMのパラメータを設定する最尤推定法であ
る。
に用いる特徴系列に対してHMMの出力する尤度が大きく
なるようにHMMのパラメータを設定する最尤推定法であ
る。
音声認識のための最尤推定法によるHMMの学習のう
ち、HMMの出力確率分布として混合連続分布を用いるも
のとしては、文献2に記述される様なものがある。混合
連続分布HMMは、離散分布HMMと比べ、特に多数話者など
音響的特徴の分散の大きなデータを表現する際に有効で
ある。しかし、この方法は既知の自己の音響的ベクトル
入力に対してだけ学習し、他の音響的ベクトル入力に対
し相対変化することがない。
ち、HMMの出力確率分布として混合連続分布を用いるも
のとしては、文献2に記述される様なものがある。混合
連続分布HMMは、離散分布HMMと比べ、特に多数話者など
音響的特徴の分散の大きなデータを表現する際に有効で
ある。しかし、この方法は既知の自己の音響的ベクトル
入力に対してだけ学習し、他の音響的ベクトル入力に対
し相対変化することがない。
第4図は文献2に記述されているHMM学習方式の構成
を図示したものである。図において、(1A)は初期混合
連続分布HMM、(2A)は音響的特徴ベクトル系列、(3
B)は最尤パラメータ推定手段、(4)は学習結果を示
す。本従来例において、音響的特徴ベクトル系列および
混合連続分布HMMの単位は単語である。
を図示したものである。図において、(1A)は初期混合
連続分布HMM、(2A)は音響的特徴ベクトル系列、(3
B)は最尤パラメータ推定手段、(4)は学習結果を示
す。本従来例において、音響的特徴ベクトル系列および
混合連続分布HMMの単位は単語である。
複数の単語カテゴリ毎に用意された初期混合連続分布
HMM(1A)は、状態数・状態間遷移および遷移確率・出
力確率分布の各パラメータが予め設定されている。ま
た、前記複数の単語カテゴリのいずれかに属する音響的
特徴ベクトル系列(2A)は、音声信号から音響分析によ
り求める。最尤パラメータ推定手段(3B)では、前記初
期混合連続分布HMMのうち前記音響的特徴ベクトル系列
と同じ単語カテゴリに属する自カテゴリHMMについて、
この音響的特徴ベクトル系列が生起する確率が高くなる
ようにHMMのパラメータを再推定する。再推定されたHMM
を初期混合連続分布HMMとし、同じまたは異なる前記音
響的特徴ベクトル系列について前記の処理を必要回数行
った後、得られた混合連続分布HMMを学習結果(4)と
して出力する。
HMM(1A)は、状態数・状態間遷移および遷移確率・出
力確率分布の各パラメータが予め設定されている。ま
た、前記複数の単語カテゴリのいずれかに属する音響的
特徴ベクトル系列(2A)は、音声信号から音響分析によ
り求める。最尤パラメータ推定手段(3B)では、前記初
期混合連続分布HMMのうち前記音響的特徴ベクトル系列
と同じ単語カテゴリに属する自カテゴリHMMについて、
この音響的特徴ベクトル系列が生起する確率が高くなる
ようにHMMのパラメータを再推定する。再推定されたHMM
を初期混合連続分布HMMとし、同じまたは異なる前記音
響的特徴ベクトル系列について前記の処理を必要回数行
った後、得られた混合連続分布HMMを学習結果(4)と
して出力する。
最尤推定法によるHMMの学習は、モデル間の識別能力
を学習時に考慮していないため、得られたモデルによる
識別性能に限界がある。音声認識のための、離散分布HM
Mを用いたHMM学習方式についてこの問題を解決する目的
で提案されているものとしては、例えば文献3、L.R.Ba
hl,P.F.Brown,P.V.de Sousa,R.L.Mercer著“A New Algo
rithm for the Estimation of Hidden Markov Model Pa
rameters"(Proc.IEEE ICASSP88,S11.2)のようなもの
がある。
を学習時に考慮していないため、得られたモデルによる
識別性能に限界がある。音声認識のための、離散分布HM
Mを用いたHMM学習方式についてこの問題を解決する目的
で提案されているものとしては、例えば文献3、L.R.Ba
hl,P.F.Brown,P.V.de Sousa,R.L.Mercer著“A New Algo
rithm for the Estimation of Hidden Markov Model Pa
rameters"(Proc.IEEE ICASSP88,S11.2)のようなもの
がある。
本従来例におけるHMM学習方式は、複数カテゴリにつ
いて用意された離散分布HMMを用いて学習用特徴系列に
対する認識評価を行い、この特徴系列に対する誤認識を
減少させる方向にHMMを更新することで、モデル間の識
別能力を向上させるものと考えることができる。
いて用意された離散分布HMMを用いて学習用特徴系列に
対する認識評価を行い、この特徴系列に対する誤認識を
減少させる方向にHMMを更新することで、モデル間の識
別能力を向上させるものと考えることができる。
第5図は文献3に記述されている学習方式の構成を図
示したものである。図において、(1B)は初期離散分布
HMM、(2B)は音響的特徴ラベル系列、(5)は生起確
率計算手段、(6)は生起確率、(7)は選択手段、
(8)は選択結果、(3C)はラベル出現頻度制御手段、
(4)は学習結果を示す。本従来例において、音響的特
徴ラベル系列および離散分布HMMの単位は単語である。
示したものである。図において、(1B)は初期離散分布
HMM、(2B)は音響的特徴ラベル系列、(5)は生起確
率計算手段、(6)は生起確率、(7)は選択手段、
(8)は選択結果、(3C)はラベル出現頻度制御手段、
(4)は学習結果を示す。本従来例において、音響的特
徴ラベル系列および離散分布HMMの単位は単語である。
複数の単語カテゴリ毎に用意された初期離散分布HMM
(1B)は、状態数・状態間遷移および遷移確率・出力確
率分布の各パラメータが予め設定されている。この例に
おいて、初期離散分布HMMのパラメータは最尤推定法に
より求めている。また、前記複数の単語カテゴリのいず
れかに属する音響的特徴ラベル系列(2B)は、音声信号
から音響分析及びVQにより求める。生起確率計算手段
(5)では、この音響的特徴ラベル系列の、前記複数の
初期離散分布HMMの各々からの生起確率(6)を出力す
る。選択手段(7)では、前記複数の初期離散分布HMM
のうち、生起確率計算手段に用いた前記音響的特徴ラベ
ル系列と異なるカテゴリに属し、前記生起確率計算手段
により得られた生起確率が最大となる最近傍他カテゴリ
のHMMを選択し、選択結果(8)を出力する。ラベル出
現頻度制御手段(3B)では、前記初期離散分布HMMのう
ち前記音響的特徴ベクトル系列と同じ単語カテゴリに属
する自カテゴリHMM、及び前記選択手段により選択され
た最近傍他カテゴリHMMについて、この音響的特徴ベク
トル系列が生起する確率が自カテゴリHMMでは高く、最
近傍他カテゴリHMMでは低くなるようにHMMのラベル出現
頻度パラメータを制御し、HMMのパラメータを再推定す
る。再推定されたHMMを初期離散分布HMMとし、同じまた
は異なる前記音響的特徴ベクトル系列について前記の処
理を必要回数行った後、得られた離散分布HMMを学習結
果(4)として出力する。
(1B)は、状態数・状態間遷移および遷移確率・出力確
率分布の各パラメータが予め設定されている。この例に
おいて、初期離散分布HMMのパラメータは最尤推定法に
より求めている。また、前記複数の単語カテゴリのいず
れかに属する音響的特徴ラベル系列(2B)は、音声信号
から音響分析及びVQにより求める。生起確率計算手段
(5)では、この音響的特徴ラベル系列の、前記複数の
初期離散分布HMMの各々からの生起確率(6)を出力す
る。選択手段(7)では、前記複数の初期離散分布HMM
のうち、生起確率計算手段に用いた前記音響的特徴ラベ
ル系列と異なるカテゴリに属し、前記生起確率計算手段
により得られた生起確率が最大となる最近傍他カテゴリ
のHMMを選択し、選択結果(8)を出力する。ラベル出
現頻度制御手段(3B)では、前記初期離散分布HMMのう
ち前記音響的特徴ベクトル系列と同じ単語カテゴリに属
する自カテゴリHMM、及び前記選択手段により選択され
た最近傍他カテゴリHMMについて、この音響的特徴ベク
トル系列が生起する確率が自カテゴリHMMでは高く、最
近傍他カテゴリHMMでは低くなるようにHMMのラベル出現
頻度パラメータを制御し、HMMのパラメータを再推定す
る。再推定されたHMMを初期離散分布HMMとし、同じまた
は異なる前記音響的特徴ベクトル系列について前記の処
理を必要回数行った後、得られた離散分布HMMを学習結
果(4)として出力する。
次に、ラベル出現頻度制御手段の本従来例における詳
細を述べる。6図にラベル出現頻度制御アルゴリズムを
示す。前記音響的特徴ラベル系列が、前記自カテゴリHM
M及び最近傍他カテゴリHMMから生起する確率をそれぞれ
PA,PBとする。PAがPBと比べ十分大きい場合(PA-PB>
δ,δ>0)、前記音響的特徴ラベル系列にたいして誤
認識は生じていないとしてHMMの更新は行なわない。PA
がPBより小さい場合(PA-PB≦0)誤認識が生じたとし
て次の処理を行なう。この音響的特徴ラベル系列の第f
フレームのラベルをL(f)、生起確率計算時に求まる
Viterbiパス(生起確率が最大となる様な、特徴系列とH
MMの状態との対応関係)により決定される、自カテゴリ
HMM及び最近傍他カテゴリHMMに関してL(f)に対応す
る状態をそれぞれSA(f),SB(f)として、各々の状
態におけるラベルL(f)の出現頻度c(SA(f),L
(f)),c(SB(f),L(f))を次の様に更新する。
細を述べる。6図にラベル出現頻度制御アルゴリズムを
示す。前記音響的特徴ラベル系列が、前記自カテゴリHM
M及び最近傍他カテゴリHMMから生起する確率をそれぞれ
PA,PBとする。PAがPBと比べ十分大きい場合(PA-PB>
δ,δ>0)、前記音響的特徴ラベル系列にたいして誤
認識は生じていないとしてHMMの更新は行なわない。PA
がPBより小さい場合(PA-PB≦0)誤認識が生じたとし
て次の処理を行なう。この音響的特徴ラベル系列の第f
フレームのラベルをL(f)、生起確率計算時に求まる
Viterbiパス(生起確率が最大となる様な、特徴系列とH
MMの状態との対応関係)により決定される、自カテゴリ
HMM及び最近傍他カテゴリHMMに関してL(f)に対応す
る状態をそれぞれSA(f),SB(f)として、各々の状
態におけるラベルL(f)の出現頻度c(SA(f),L
(f)),c(SB(f),L(f))を次の様に更新する。
c(SA(f),L(f))=c(SA(f),L(f))+β c(SB(f),L(f))=c(SB(f),L(f))−β
(β>0) ・・・・(1) ただし、c(SB(f),L(f))<0となった時 c(SB(f),L(f))=ε ・・・(2) (εは十分小さい値) また、PAはPBより大きいがその差が小さい場合(0<PA
-PB≦δ)前述のラベル出現頻度を0≦γ≦βとなる値
γを用いて次のように更新する。
(β>0) ・・・・(1) ただし、c(SB(f),L(f))<0となった時 c(SB(f),L(f))=ε ・・・(2) (εは十分小さい値) また、PAはPBより大きいがその差が小さい場合(0<PA
-PB≦δ)前述のラベル出現頻度を0≦γ≦βとなる値
γを用いて次のように更新する。
c(SA(f),L(f))=c(SA(f),L(f))+γ c(SB(f),L(f))=c(SB(f),L(f))−γ
・・・・(3) ここに、 γ=β(1−(PA-PB)/δ) ・・(4) ただし、c(SB(f),L(f))<0となった時 c(SB(f),L(f))=ε ・・・・(5) (εは十分小さい値) ラベル出現頻度の更新の概念を第7図に示す。図中に
示す通り、HMMの各状態におけるラベル出力確率は、そ
の状態におけるラベル出現頻度をラベル出現総量で正規
化したものと考えられるが、図より前記の出現頻度更新
によって自カテゴリHMMに対する生起確率は高くなり、
逆に近傍他カテゴリに対する生起確率は低下することが
わかる。前記ラベル出現頻度の操作により、SA(f)に
おけるL(f)の出力確率は大きくなり、SB(f)にお
けるL(f)の出力確率は小さくなることから、PAは増
加しPBは減少する方向にHMMは更新され、その結果前記
音響的特徴ラベル系列について生じた誤認識は減少す
る。このことから、HMM間の識別能力は向上したといえ
る。
・・・・(3) ここに、 γ=β(1−(PA-PB)/δ) ・・(4) ただし、c(SB(f),L(f))<0となった時 c(SB(f),L(f))=ε ・・・・(5) (εは十分小さい値) ラベル出現頻度の更新の概念を第7図に示す。図中に
示す通り、HMMの各状態におけるラベル出力確率は、そ
の状態におけるラベル出現頻度をラベル出現総量で正規
化したものと考えられるが、図より前記の出現頻度更新
によって自カテゴリHMMに対する生起確率は高くなり、
逆に近傍他カテゴリに対する生起確率は低下することが
わかる。前記ラベル出現頻度の操作により、SA(f)に
おけるL(f)の出力確率は大きくなり、SB(f)にお
けるL(f)の出力確率は小さくなることから、PAは増
加しPBは減少する方向にHMMは更新され、その結果前記
音響的特徴ラベル系列について生じた誤認識は減少す
る。このことから、HMM間の識別能力は向上したといえ
る。
[発明が解決しようとする課題] 文献2に示すHMM学習装置は、混合連続分布HMMを対象
としており高い識別性能が期待できるが、学習時にモデ
ル間の識別能力を考慮しないため、得られるHMMの識別
性能に限界がある。
としており高い識別性能が期待できるが、学習時にモデ
ル間の識別能力を考慮しないため、得られるHMMの識別
性能に限界がある。
一方、文献3に示すHMM学習装置は、モデル間の識別
能力の向上を意図した学習方式を用いており、最尤推定
法を用いた場合と比べ識別能力の高いHMMが得られる
が、離散分布HMMを対象としておりVQ歪に伴い性能低下
は避けられない。
能力の向上を意図した学習方式を用いており、最尤推定
法を用いた場合と比べ識別能力の高いHMMが得られる
が、離散分布HMMを対象としておりVQ歪に伴い性能低下
は避けられない。
文献3の従来例においてモデル間の識別能力を高める
ために採られた学習法は、ラベルの出現頻度を操作する
ものであり、ベクトル系列を直接扱う文献2の学習方式
に適用することはできない。
ために採られた学習法は、ラベルの出現頻度を操作する
ものであり、ベクトル系列を直接扱う文献2の学習方式
に適用することはできない。
本発明は係る問題点を解決するためなされたもので、
高い認識性能を期待できる混合連続分布HMMを用い、モ
デル間の識別能力を考慮した認識精度の高いモデルを得
るHMM学習装置を提供することを目的とする。
高い認識性能を期待できる混合連続分布HMMを用い、モ
デル間の識別能力を考慮した認識精度の高いモデルを得
るHMM学習装置を提供することを目的とする。
[課題を解決するための手段] この発明は、複数の状態とその間の遷移により構成さ
れ、状態間遷移の確率と、遷移時に出力されるベクトル
の出力確率分布をパラメータとし、出力確率分布が中心
ベクトルにより決定される1つ以上の連続分布によって
表現されるHMMを複数のカテゴリについて用意し、これ
ら複数のHMMの各パラメータを、学習用ベクトル系列を
用いて学習するパターン表現モデル学習装置において、
あるカテゴリに属する前記学習用ベクトル系列が、前記
複数のHMMの各々から生起する確率を求める生起確率計
算手段と、この複数のHMMから、前記学習用ベクトル系
列と異なるカテゴリに属し、前記生起確率計算手段より
得られた生起確率が最大となる最近傍他カテゴリHMMを
選択する選択手段と、前記複数のHMMのうち、前記生起
確率計算手段に用いた学習用ベクトル系列のカテゴリと
同じカテゴリに属する自カテゴリHMM、および前記選択
手段により選択された前記最近傍他カテゴリHMMについ
て、これらのHMMの前記出力確率分布を構成する各連続
分布の中心ベクトルを動かす中心ベクトル制御手段を備
える。
れ、状態間遷移の確率と、遷移時に出力されるベクトル
の出力確率分布をパラメータとし、出力確率分布が中心
ベクトルにより決定される1つ以上の連続分布によって
表現されるHMMを複数のカテゴリについて用意し、これ
ら複数のHMMの各パラメータを、学習用ベクトル系列を
用いて学習するパターン表現モデル学習装置において、
あるカテゴリに属する前記学習用ベクトル系列が、前記
複数のHMMの各々から生起する確率を求める生起確率計
算手段と、この複数のHMMから、前記学習用ベクトル系
列と異なるカテゴリに属し、前記生起確率計算手段より
得られた生起確率が最大となる最近傍他カテゴリHMMを
選択する選択手段と、前記複数のHMMのうち、前記生起
確率計算手段に用いた学習用ベクトル系列のカテゴリと
同じカテゴリに属する自カテゴリHMM、および前記選択
手段により選択された前記最近傍他カテゴリHMMについ
て、これらのHMMの前記出力確率分布を構成する各連続
分布の中心ベクトルを動かす中心ベクトル制御手段を備
える。
[作用] この発明における中心ベクトル制御手段は、前記複数
のHMMのうち、前記生起確率計算手段に用いた学習用ベ
クトル系列と同じカテゴリに属する自カテゴリHMM、お
よび前記選択手段により選択された前記最近傍他カテゴ
リHMMについて、これらのHMMの前記出力確率分布を構成
する各連続分布の中心ベクトルを動かす。
のHMMのうち、前記生起確率計算手段に用いた学習用ベ
クトル系列と同じカテゴリに属する自カテゴリHMM、お
よび前記選択手段により選択された前記最近傍他カテゴ
リHMMについて、これらのHMMの前記出力確率分布を構成
する各連続分布の中心ベクトルを動かす。
[発明の実施例] 本実施例における学習方式は、複数カテゴリについて
用意された混合連続分布HMMを用いて学習用特徴系列に
対する認識評価を用い、この特徴系列に対する誤認識を
減少させる方向にHMMを更新することで、モデル間の識
別能力を向上させるものと考えることができる。
用意された混合連続分布HMMを用いて学習用特徴系列に
対する認識評価を用い、この特徴系列に対する誤認識を
減少させる方向にHMMを更新することで、モデル間の識
別能力を向上させるものと考えることができる。
第1図は音声認識の為のHMM学習に係る本発明の一実
施例の構成図である。
施例の構成図である。
図において、(1A)は初期混合連続分布HMM、(2A)
は音響的特徴ベクトル系列、(5)は生起確率計算手
段、(6)は生起確率、(7)は選択手段、(8)は選
択結果、(3A)は中心ベクトル制御手段、(4)は学習
結果を示す。本従来例において、音響的特徴ベクトル系
列及び混合連続分布HMMの単位は単語とする。
は音響的特徴ベクトル系列、(5)は生起確率計算手
段、(6)は生起確率、(7)は選択手段、(8)は選
択結果、(3A)は中心ベクトル制御手段、(4)は学習
結果を示す。本従来例において、音響的特徴ベクトル系
列及び混合連続分布HMMの単位は単語とする。
複数の単語カテゴリ毎に用意された初期混合連続分布
HMM(1A)は、状態数・状態間遷移および遷移確率・出
力確率分布の各パラメータが予め設定されている。この
例において、初期混合連続分布HMMのパラメータは最尤
推定法により求めている。また、前記複数の単語カテゴ
リのいずれかに属する音響的特徴ベクトル系列(2A)
は、音声信号から音響分析により求める。生起確率計算
手段(5)では、この音響的特徴ベクトル系列の、前記
複数の初期混合連続分布HMMの各々からの生起確率
(6)を出力する。選択手段(7)では、前記複数の初
期混合連続分布HMMのうち、生起確率計算手段に用いた
前記音響的特徴ベクトル系列と異なるカテゴリに属し、
前記生起確率計算手段により得られた生起確率が最大と
なる最近傍他カテゴリのHMMを選択し、選択結果(8)
を出力する。中心ベクトル制御手段(3A)では、前記初
期混合連続分布HMMのうち前記音響的特徴ベクトル系列
と同じ単語カテゴリに属する自カテゴリHMM、及び前記
選択手段により選択された最近傍他カテゴリHMMについ
て、この音響的特徴ベクトル系列が生起する確率が自カ
テゴリHMMでは高く、最近傍他カテゴリHMMでは低くなる
ようにHMMの出力確率分布の中心ベクトルを移動し、HMM
のパラメータを再推定する。再推定されたHMMを初期混
合連続分布HMMとし、同じまたは異なる前記音響的特徴
ベクトル系列について前記の処理を必要回数行った後、
得られた混合連続分布HMMを学習結果(4)として出力
する。
HMM(1A)は、状態数・状態間遷移および遷移確率・出
力確率分布の各パラメータが予め設定されている。この
例において、初期混合連続分布HMMのパラメータは最尤
推定法により求めている。また、前記複数の単語カテゴ
リのいずれかに属する音響的特徴ベクトル系列(2A)
は、音声信号から音響分析により求める。生起確率計算
手段(5)では、この音響的特徴ベクトル系列の、前記
複数の初期混合連続分布HMMの各々からの生起確率
(6)を出力する。選択手段(7)では、前記複数の初
期混合連続分布HMMのうち、生起確率計算手段に用いた
前記音響的特徴ベクトル系列と異なるカテゴリに属し、
前記生起確率計算手段により得られた生起確率が最大と
なる最近傍他カテゴリのHMMを選択し、選択結果(8)
を出力する。中心ベクトル制御手段(3A)では、前記初
期混合連続分布HMMのうち前記音響的特徴ベクトル系列
と同じ単語カテゴリに属する自カテゴリHMM、及び前記
選択手段により選択された最近傍他カテゴリHMMについ
て、この音響的特徴ベクトル系列が生起する確率が自カ
テゴリHMMでは高く、最近傍他カテゴリHMMでは低くなる
ようにHMMの出力確率分布の中心ベクトルを移動し、HMM
のパラメータを再推定する。再推定されたHMMを初期混
合連続分布HMMとし、同じまたは異なる前記音響的特徴
ベクトル系列について前記の処理を必要回数行った後、
得られた混合連続分布HMMを学習結果(4)として出力
する。
次に、中心ベクトル制御手段の本実施例における詳細
を述べる。
を述べる。
第2図に中心ベクトル制御アルゴリズムを示す。前記
音響的特徴ベクトル系列が、前記自カテゴリHMM及び最
近傍他カテゴリHMMから生起する確率をそれぞれPA,PBと
する。PAがPBと比べ十分大きい場合(PA-PB>δ,δ>
0)、前記音響的特徴ベクトル系列に対して誤認識は生
じていないとしてHMMの更新は行なわない。PAがPBより
小さい場合(PA-PB≦0)誤認識が生じたとして次の処
理を行う。まず、前記音響的特徴ベクトル系列の第fフ
レームの特徴ベクトルをV(f)、生起確率計算時に求
まるViterbiパルにより決定される、自カテゴリHMM及び
最近傍他カテゴリHMMに関してV(f)に対応する状態
をそれぞれSA(f),SB(f)とする。次に、各々の状
態における出力確率を表す分布数Mの混合連続分布に関
して、V(f)に対する部分確率が最大となる分布を選
択し、その中心ベクトルをそれぞれμ(SA(f),V
(f)),μ(SB(f),V(f))とする。そして、こ
れらの中心ベクトルを次の様に更新する。
音響的特徴ベクトル系列が、前記自カテゴリHMM及び最
近傍他カテゴリHMMから生起する確率をそれぞれPA,PBと
する。PAがPBと比べ十分大きい場合(PA-PB>δ,δ>
0)、前記音響的特徴ベクトル系列に対して誤認識は生
じていないとしてHMMの更新は行なわない。PAがPBより
小さい場合(PA-PB≦0)誤認識が生じたとして次の処
理を行う。まず、前記音響的特徴ベクトル系列の第fフ
レームの特徴ベクトルをV(f)、生起確率計算時に求
まるViterbiパルにより決定される、自カテゴリHMM及び
最近傍他カテゴリHMMに関してV(f)に対応する状態
をそれぞれSA(f),SB(f)とする。次に、各々の状
態における出力確率を表す分布数Mの混合連続分布に関
して、V(f)に対する部分確率が最大となる分布を選
択し、その中心ベクトルをそれぞれμ(SA(f),V
(f)),μ(SB(f),V(f))とする。そして、こ
れらの中心ベクトルを次の様に更新する。
μ(SA(f),V(f))=μ(SA(f),V(f))+β
(V(f)−μ(SA(f),V(f)) μ(SB(f),V(f))=μ(SB(f),V(f))−β
(V(f)−μ(SB(f),V(f)) ・・・(6) (β>0) またはPAはPBより大きいがその差が小さい場合(0<PA
-PB≦δ)前述の中心ベクトルを0≦γ≦βとなる値γ
を用いて次の様に更新する。
(V(f)−μ(SA(f),V(f)) μ(SB(f),V(f))=μ(SB(f),V(f))−β
(V(f)−μ(SB(f),V(f)) ・・・(6) (β>0) またはPAはPBより大きいがその差が小さい場合(0<PA
-PB≦δ)前述の中心ベクトルを0≦γ≦βとなる値γ
を用いて次の様に更新する。
μ(SA(f),V(f))=μ(SA(f),V(f))+γ
(V(f)−μ(SA(f),V(f))) μ(SB(f),V(f))=μ(SB(f),V(f))−γ
(V(f)−μ(SB(f),V(f))) ・・・(7) ここに、γは(4)式により決定する。本実施例にお
いて、δ=3.0、β=0.075とする。
(V(f)−μ(SA(f),V(f))) μ(SB(f),V(f))=μ(SB(f),V(f))−γ
(V(f)−μ(SB(f),V(f))) ・・・(7) ここに、γは(4)式により決定する。本実施例にお
いて、δ=3.0、β=0.075とする。
この操作により、μ(SA(f),V(f))はV(f)
に近づき、μ(SB(f),V(f))はV(f)から遠ざ
かる。これに伴い、SA(f)におけるV(f)の出力確
率は大きくなり、SB(f)におけるV(f)の出力確率
は小さくなることから、PAは増加しPBは減少する方向に
モデルは更新され、その結果前記音響的特徴系列につい
て生じた誤認識は減少する。このことから、HMMの識別
能力は向上したといえる。
に近づき、μ(SB(f),V(f))はV(f)から遠ざ
かる。これに伴い、SA(f)におけるV(f)の出力確
率は大きくなり、SB(f)におけるV(f)の出力確率
は小さくなることから、PAは増加しPBは減少する方向に
モデルは更新され、その結果前記音響的特徴系列につい
て生じた誤認識は減少する。このことから、HMMの識別
能力は向上したといえる。
本実施例におけるδ、βの値は他の値でも良い。ま
た、本実施例においてPAが増加しPBが減少する方向に中
心ベクトルを制御したが、いずれか一方のみの制御でも
良い。更に、中心ベクトルの制御式(6、7)は、例え
ば次のようなものでも良い。
た、本実施例においてPAが増加しPBが減少する方向に中
心ベクトルを制御したが、いずれか一方のみの制御でも
良い。更に、中心ベクトルの制御式(6、7)は、例え
ば次のようなものでも良い。
μ(SA(f),V(f))=μ(SA(f),V(f))+β
V(f) μ(SB(f),V(f))=μ(SB(f),V(f))−β
V(f) ・・・(8) 本実施例においては学習の対象を音声としたが、画像な
ど他の対象に対して用いても良い。すなわち、これらの
条件は本発明を制限しない。
V(f) μ(SB(f),V(f))=μ(SB(f),V(f))−β
V(f) ・・・(8) 本実施例においては学習の対象を音声としたが、画像な
ど他の対象に対して用いても良い。すなわち、これらの
条件は本発明を制限しない。
[発明の効果] 以上のように本発明によれば、複数の状態とその間の
遷移により構成され、状態間遷移の確率と、遷移時に出
力されるベクトルの出力確率分布をパラメータとし、出
力確率分布が中心ベクトルにより決定される1つ以上の
連続分布によって表現されるHMMを複数のカテゴリにつ
いて用意し、これら複数のHMMの各パラメータを、学習
用ベクトル系列を用いて学習するパターン表現モデル学
習装置において、あるカテゴリに属する前記学習用ベク
トル系列が、前記複数のHMMの各々から生起する確率を
求める生起確率計算手段と、この複数のHMMから、前記
学習用ベクトル系列と異なるカテゴリに属し、前記生起
確率計算手段より得られた生起確率が最大となる最近傍
他カテゴリHMMを選択する選択手段と、前記複数のHMMの
うち、前記生起確率計算手段に用いた学習用ベクトル系
列のカテゴリと同じカテゴリに属する自カテゴリHMM、
および前記選択手段により選択された前記最近傍他カテ
ゴリHMMについて、これらのHMMの前記出力確率分布を構
成する各連続分布の中心ベクトルを動かす中心ベクトル
制御手段を備えたので、識別性能の高い前記HMMについ
て、モデル間の識別能力を考慮した更に識別性能の高い
モデルを得るパターン表現モデル学習装置を提供するこ
とができる。
遷移により構成され、状態間遷移の確率と、遷移時に出
力されるベクトルの出力確率分布をパラメータとし、出
力確率分布が中心ベクトルにより決定される1つ以上の
連続分布によって表現されるHMMを複数のカテゴリにつ
いて用意し、これら複数のHMMの各パラメータを、学習
用ベクトル系列を用いて学習するパターン表現モデル学
習装置において、あるカテゴリに属する前記学習用ベク
トル系列が、前記複数のHMMの各々から生起する確率を
求める生起確率計算手段と、この複数のHMMから、前記
学習用ベクトル系列と異なるカテゴリに属し、前記生起
確率計算手段より得られた生起確率が最大となる最近傍
他カテゴリHMMを選択する選択手段と、前記複数のHMMの
うち、前記生起確率計算手段に用いた学習用ベクトル系
列のカテゴリと同じカテゴリに属する自カテゴリHMM、
および前記選択手段により選択された前記最近傍他カテ
ゴリHMMについて、これらのHMMの前記出力確率分布を構
成する各連続分布の中心ベクトルを動かす中心ベクトル
制御手段を備えたので、識別性能の高い前記HMMについ
て、モデル間の識別能力を考慮した更に識別性能の高い
モデルを得るパターン表現モデル学習装置を提供するこ
とができる。
第1図は本発明の一実施例に係る音声認識用HMM学習装
置を示す構成図、第2図は第1図の中心ベクトル制御手
段における制御アルゴリズムを示す図、第3図はこの中
心ベクトル制御手段における制御の概念図、第4図は従
来の音声認識用HMM学習装置を示す構成図、第5図は他
の従来の音声認識用HMM学習装置を示す構成図、第6図
は第5図のVQラベル出現頻度制御手段における制御アル
ゴリズムを示す図、第7図はこのVQラベル出現頻度制御
手段における制御の概念図である。 図中同一符号は同一または相当部分を示し、(1A)は音
響的特徴ベクトル系列、(1B)は音響的特徴ラベル系
列、(3A)は初期混合連続分布HMM、(2B)は初期離散
分布HMM、(3A)は中心ベクトル制御手段、(3B)は最
尤パラメータ推定手段、(3C)はラベル出現頻度制御手
段、(4)は学習結果、(5)は生起確率計算手段、
(6)は生起確率、(7)は選択手段、(8)は選択結
果である。
置を示す構成図、第2図は第1図の中心ベクトル制御手
段における制御アルゴリズムを示す図、第3図はこの中
心ベクトル制御手段における制御の概念図、第4図は従
来の音声認識用HMM学習装置を示す構成図、第5図は他
の従来の音声認識用HMM学習装置を示す構成図、第6図
は第5図のVQラベル出現頻度制御手段における制御アル
ゴリズムを示す図、第7図はこのVQラベル出現頻度制御
手段における制御の概念図である。 図中同一符号は同一または相当部分を示し、(1A)は音
響的特徴ベクトル系列、(1B)は音響的特徴ラベル系
列、(3A)は初期混合連続分布HMM、(2B)は初期離散
分布HMM、(3A)は中心ベクトル制御手段、(3B)は最
尤パラメータ推定手段、(3C)はラベル出現頻度制御手
段、(4)は学習結果、(5)は生起確率計算手段、
(6)は生起確率、(7)は選択手段、(8)は選択結
果である。
Claims (1)
- 【請求項1】複数の状態とその間の遷移により構成さ
れ、状態間遷移の確率と、遷移時に出力されるベクトル
の出力確率分布をパラメータとし、出力確率分布が中心
ベクトルにより決定される1つ以上の連続分布によって
表現される隠れマルコフモデルを複数のカテゴリについ
て用意し、これら複数の隠れマルコフモデルの各パラメ
ータを、学習用ベクトル系列を用いて学習するパターン
表現モデル学習装置において、あるカテゴリに属する前
記学習用ベクトル系列が、前記複数の隠れマルコフモデ
ルの各々から生起する確率を求める生起確率計算手段
と、この複数の隠れマルコフモデルから、前記学習用ベ
クトル系列と異なるカテゴリに属し、前記生起確率計算
手段より得られた生起確率が最大となる最近傍他カテゴ
リ隠れマルコフモデルを選択する選択手段と、前記複数
の隠れマルコフモデルのうち、前記生起確率計算手段に
用いた学習用ベクトル系列のカテゴリと同じカテゴリに
属する自カテゴリ隠れマルコフモデル、および前記選択
手段により選択された前記最近傍他カテゴリ隠れマルコ
フモデルについて、これらの隠れマルコフモデルの前記
出力確率分布を構成する各連続分布の中心ベクトルを動
かす中心ベクトル制御手段とを備えることを特徴とする
パターン表現モデル学習装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2243225A JPH0833739B2 (ja) | 1990-09-13 | 1990-09-13 | パターン表現モデル学習装置 |
US07/674,069 US5289562A (en) | 1990-09-13 | 1991-03-21 | Pattern representation model training apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2243225A JPH0833739B2 (ja) | 1990-09-13 | 1990-09-13 | パターン表現モデル学習装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04122997A JPH04122997A (ja) | 1992-04-23 |
JPH0833739B2 true JPH0833739B2 (ja) | 1996-03-29 |
Family
ID=17100699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2243225A Expired - Fee Related JPH0833739B2 (ja) | 1990-09-13 | 1990-09-13 | パターン表現モデル学習装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5289562A (ja) |
JP (1) | JPH0833739B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019020597A (ja) * | 2017-07-18 | 2019-02-07 | 日本放送協会 | エンドツーエンド日本語音声認識モデル学習装置およびプログラム |
Families Citing this family (129)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3050934B2 (ja) * | 1991-03-22 | 2000-06-12 | 株式会社東芝 | 音声認識方式 |
JPH064093A (ja) * | 1992-06-18 | 1994-01-14 | Matsushita Electric Ind Co Ltd | Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置 |
EP0694862A3 (en) * | 1994-07-22 | 1996-07-24 | At & T Corp | Detection of degraded, grayscale documents using two-dimensional hidden pseudo-Markov models and N-best hypotheses |
JP3581401B2 (ja) * | 1994-10-07 | 2004-10-27 | キヤノン株式会社 | 音声認識方法 |
US5794198A (en) * | 1994-10-28 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Pattern recognition method |
US5812972A (en) * | 1994-12-30 | 1998-09-22 | Lucent Technologies Inc. | Adaptive decision directed speech recognition bias equalization method and apparatus |
JP3092491B2 (ja) * | 1995-08-30 | 2000-09-25 | 日本電気株式会社 | 記述長最小基準を用いたパターン適応化方式 |
US5806030A (en) * | 1996-05-06 | 1998-09-08 | Matsushita Electric Ind Co Ltd | Low complexity, high accuracy clustering method for speech recognizer |
US5835890A (en) * | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
US6064958A (en) * | 1996-09-20 | 2000-05-16 | Nippon Telegraph And Telephone Corporation | Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution |
US6260013B1 (en) * | 1997-03-14 | 2001-07-10 | Lernout & Hauspie Speech Products N.V. | Speech recognition system employing discriminatively trained models |
US6263326B1 (en) | 1998-05-13 | 2001-07-17 | International Business Machines Corporation | Method product ‘apparatus for modulations’ |
US6804648B1 (en) * | 1999-03-25 | 2004-10-12 | International Business Machines Corporation | Impulsivity estimates of mixtures of the power exponential distrubutions in speech modeling |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
KR100446289B1 (ko) * | 2000-10-13 | 2004-09-01 | 삼성전자주식회사 | 역 히든 마르코브 모델(ihmm)을 이용한 정보 탐색방법및 장치 |
US6801656B1 (en) | 2000-11-06 | 2004-10-05 | Koninklijke Philips Electronics N.V. | Method and apparatus for determining a number of states for a hidden Markov model in a signal processing system |
US6928409B2 (en) * | 2001-05-31 | 2005-08-09 | Freescale Semiconductor, Inc. | Speech recognition using polynomial expansion and hidden markov models |
JP3996428B2 (ja) * | 2001-12-25 | 2007-10-24 | 松下電器産業株式会社 | 異常検知装置及び異常検知システム |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8379794B2 (en) * | 2008-09-05 | 2013-02-19 | The Board Of Trustees Of The Leland Stanford Junior University | Method to estimate position, motion and trajectory of a target with a single x-ray imager |
US8218859B2 (en) * | 2008-12-05 | 2012-07-10 | Microsoft Corporation | Transductive multi-label learning for video concept detection |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8515758B2 (en) | 2010-04-14 | 2013-08-20 | Microsoft Corporation | Speech recognition including removal of irrelevant information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR102423670B1 (ko) | 2013-02-07 | 2022-07-22 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
JP2016521948A (ja) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | 音声コマンドによって開始される緊急電話のためのシステム及び方法 |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
-
1990
- 1990-09-13 JP JP2243225A patent/JPH0833739B2/ja not_active Expired - Fee Related
-
1991
- 1991-03-21 US US07/674,069 patent/US5289562A/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019020597A (ja) * | 2017-07-18 | 2019-02-07 | 日本放送協会 | エンドツーエンド日本語音声認識モデル学習装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPH04122997A (ja) | 1992-04-23 |
US5289562A (en) | 1994-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0833739B2 (ja) | パターン表現モデル学習装置 | |
EP0705473B1 (en) | Speech recognition method using a two-pass search | |
US5307444A (en) | Voice analyzing system using hidden Markov model and having plural neural network predictors | |
CA1256562A (en) | Speech recognition method | |
US5787396A (en) | Speech recognition method | |
US5638489A (en) | Method and apparatus for pattern recognition employing the Hidden Markov Model | |
AU751310B2 (en) | Speech recognition system employing discriminatively trained models | |
Potamianos et al. | Discriminative training of HMM stream exponents for audio-visual speech recognition | |
EP0240679B1 (en) | Improving the training of markov models used in a speech recognition system | |
US5506933A (en) | Speech recognition using continuous density hidden markov models and the orthogonalizing karhunen-loeve transformation | |
JP4531166B2 (ja) | 信頼性尺度の評価を用いる音声認識方法 | |
EP1241661A1 (en) | Speech recognition apparatus | |
EP0720149A1 (en) | Speech recognition bias equalisation method and apparatus | |
EP0762383B1 (en) | Pattern adapting apparatus for speech or pattern recognition | |
KR100366603B1 (ko) | 벡터양자화기 | |
EP0725383B1 (en) | Pattern adaptation system using tree scheme | |
CA2000033C (en) | Continuous speech recognition unit | |
JP2570448B2 (ja) | 標準パターン学習方法 | |
JPH06266384A (ja) | 音響モデル適応方式 | |
JP2600871B2 (ja) | Hmm作成装置及びそれを用いた尤度計算装置、時系列パターン認識装置 | |
JP3912089B2 (ja) | 音声認識方法および音声認識装置 | |
Juang et al. | Mixture autoregressive hidden Markov models for speaker independent isolated word recognition | |
Mellouk et al. | Discriminative training for improved neural prediction systems | |
JP2531073B2 (ja) | 音声認識システム | |
JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |