Nothing Special   »   [go: up one dir, main page]

JPH06266384A - 音響モデル適応方式 - Google Patents

音響モデル適応方式

Info

Publication number
JPH06266384A
JPH06266384A JP5055332A JP5533293A JPH06266384A JP H06266384 A JPH06266384 A JP H06266384A JP 5055332 A JP5055332 A JP 5055332A JP 5533293 A JP5533293 A JP 5533293A JP H06266384 A JPH06266384 A JP H06266384A
Authority
JP
Japan
Prior art keywords
phoneme
model
acoustic model
probability
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5055332A
Other languages
English (en)
Other versions
JPH071435B2 (ja
Inventor
Yasunaga Miyazawa
康永 宮沢
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A T R JIDO HONYAKU DENWA KENKYUSHO KK
Original Assignee
A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A T R JIDO HONYAKU DENWA KENKYUSHO KK filed Critical A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority to JP5055332A priority Critical patent/JPH071435B2/ja
Publication of JPH06266384A publication Critical patent/JPH06266384A/ja
Publication of JPH071435B2 publication Critical patent/JPH071435B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 教師なし話者適応方式における音声認識率な
どの性能を向上させる。 【構成】 標準話者の入力音声で学習された音素HMM
1のすべてを音素バイグラム確率値によってエルゴディ
ックに連結した確率モデル(全音素エルゴディックHM
M)を作成する。次いで、その確率モデルのパラメータ
である出力確率分布の平均値ベクトルμを、発声内容が
未知の入力音声を用いてバウム−ウェルチによる最尤推
定法によって学習し、その平均値ベクトルμを移動ベク
トル場平滑化方式によって補正する。そして、入力音声
データに対する出力尤度の値が収束するまで、上記学習
および平均値ベクトルの補正を繰返し行なう。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は音響モデル適応方式に
関し、さらに詳しくは、話者、発話様式または発話環境
などに応じて音響モデルを入力音声の特徴空間に適応す
る教師なし適応方式に関する。
【0002】
【従来の技術】従来、発声内容に関する教師データなし
の音響モデル適応方式として、ベクトル量子化コードブ
ックの写像を基本とする方法や、これらの原理を連続分
布型隠れマルコフモデル(HMM;hidden Markov mode
l )に適用した方法など、音声パターンの分布に基づい
て話者適応を行なう技術が、電子情報通信学会技術研究
報告SP88−21,SP88−122,SP90−6
7などに開示されている。
【0003】
【発明が解決しようとする課題】しかしながら、教師な
し話者適応方式では、発声内容に関する言語情報を利用
していないため、的確な写像を行なうことが困難であっ
た。このため、教師なし話者適応方式は、一般に発声内
容が既知の音声データを用いる教師あり話者適応方式と
比較して、性能および効率の点で劣るという問題があっ
た。
【0004】この発明は、これらの問題点を解決するも
のであり、発声内容が未知の入力音声を用いて音響モデ
ルとその入力音声の特徴空間に適応する教師なし話者適
応方式などにおいて、その性能および効率を向上させる
ことを目的とする。
【0005】
【課題を解決するための手段】この発明に従った音響モ
デル適応方式の要旨とするところは、音声認識に用いる
ための音声の特徴を表現する複数の音響モデルであっ
て、1または2以上の標準話者の音声で学習されたもの
を、発声内容が未知の入力音声の特徴空間に適応する音
響モデル適応方式において、上記音響モデルのすべてが
所望の遷移確率によって互いに連結され、かつ上記音響
モデル自身も所望の遷移確率によって自己連結されてな
る確率モデルを作成し、上記確率モデルの全部または一
部のパラメータを上記入力音声で再学習することにあ
る。
【0006】また、上記音響モデル適応方式おいて、上
記音響モデルとして、音素の離散分布型、連続分布型ま
たは半連続分布型HMMを用いることにある。
【0007】また、上記音響モデル適応方式において、
上記遷移確率の初期値として、所望のテキストデータか
ら求めた音素バイグラム確率値を用いることにある。
【0008】一方、上記音響モデル適応方式において、
上記音響モデルとして、コンテキスト依存音素モデルを
用い、かつ上記遷移確率の初期値として、所望のテキス
トデータから求めたコンテキスト依存音素バイグラム確
率値を用いることにある。
【0009】また、上記音響モデル適応方式において、
上記確率モデルの全部または一部のパラメータを上記入
力音声で再学習するときに、移動ベクトル場平滑化方式
を用いることにある。
【0010】
【作用】この発明に従った音響モデル適応方式によれ
ば、音響モデルがある遷移確率によって連結されてなる
確率モデルが作成され、その確率モデルの種々のパラメ
ータが発声内容が未知の入力音声を用いて再学習される
ことによって、音響モデルが入力音声の特徴空間に適応
される。したがって、音声認識率などの性能が向上す
る。
【0011】
【実施例】次に、この発明に従った音響モデル適応方式
の実施例について図面を参照しながら説明する。
【0012】図2は、この発明の一実施例である教師な
し話者適応方式における確率モデルを示す概念図であ
る。
【0013】図2に示すように、まず標準話者の入力音
声を用いて学習された混合連続分布型の音素HMM1
を、ある遷移確率aijによってエルゴディックに連結
し、1つの大規模な確率モデルを作成する。ここでは、
無音を含む49個の音素HMM1を用いる。ただし、図
1においては、図を簡単にするために、音素HMM1が
4つだけの場合を示す。以下、この確率モデルを「全音
素エルゴディックHMM」という。
【0014】すなわち、この全音素エルゴディックHM
Mは、49個の音素HMM1のすべてがある遷移確率a
ijによって互いに連結され、かつそれら音素HMM1自
身もある遷移確率aijによって自己連結されて構成され
ている。音素HMM1は、音声認識に用いるための音声
の特徴を表現する音響モデルの一種である。
【0015】この全音素エルゴディックHMM内におけ
る各音素HMM1間および各音素HMM1内の遷移確率
ijは、音素バイグラム(bigram)確率値に相当するた
め、それらの遷移確率aijの初期値として、何らかのテ
キストデータによって求めた音素バイグラム確率値を用
いる。
【0016】なお、図2において、遷移確率aijは1ヶ
所だけに示されているが、その他の音素HMM1間およ
び音素HMM1内についても同様である。また、aij
第i番目の音素HMM1から第j番目の音素HMM1へ
の遷移確率を表す。したがって、i=jのときは同じ音
素HMM1内での自己遷移を表す。
【0017】したがって、この全音素エルゴディックH
MMは、言語モデルと音響モデルとの融合した確率モデ
ルであり、あらゆる言語音声を表現するものである。こ
こで、話者により発声された音声は、音響情報と言語情
報とを備えた「言語音声」であるため、発声内容が未知
の入力話者の入力音声を用いて、この全音素エルゴディ
ックHMMの各パラメータを最尤推定法により学習する
ことが可能となる。
【0018】このように、学習を行なうことによって発
声内容に関する言語情報を確率的に用いることができる
ので、従来のようにまったく言語情報を利用しない方式
に比べて、話者適応の性能を高めることが可能となる。
【0019】ところで、この教師なし話者適応方式にお
いて、大量の学習データが存在する場合には、全音素エ
ルゴディックHMM中のすべてのパラメータを発声内容
が未知の入力音声で再学習することによって、音響モデ
ルと言語モデルとを同時に適応することが可能である。
ここでいうパラメータには、音素HMM間における遷移
確率aij、ならびに音素HMM1内における遷移確率a
ij、出力確率分布の平均値ベクトル、共分散行列、およ
び混合分布の重み係数などがある。
【0020】したがって、音響モデルのパラメータであ
る音素HMM1間の遷移確率などを学習した後、言語モ
デルのパラメータである音素HMM1間の遷移確率を学
習するという2段階の学習方法も考えられるが、この場
合は、ある程度多くの学習データが必要となる。このた
め、以下の実施例においては、より少量の学習データに
よる適応を前提として、音素HMM1間の遷移確率aを
固定し、音素HMM1のパラメータのうち最も適応効果
が高いと考えられる音素HMM1内における出力確率分
布の平均値ベクトルμだけを再学習する場合について説
明する。
【0021】図1は、このような場合の学習アルゴリズ
ムを示すフローチャートである。図1に示すように、ま
ずステップS1において、標準話者の音声によって音素
HMMをすべての音素について作成するとともに、ステ
ップS2において、テキストデータを用いて音素バイグ
ラム確率値を計算する。
【0022】次いでステップS3において、これらの音
素HMMを各音素バイグラム確率値によってエルゴディ
ックに連結し、図2に示した全音素エルゴディックHM
Mを作成する。
【0023】次いでステップS4において、発声内容が
未知の入力音声を用いて、バウム−ウェルチ(Baum-Wel
ch)最尤推定法によって出力確率分布の平均値ベクトル
μを学習する。
【0024】次いでステップS5において、移動ベクト
ル場平滑化方式によって出力確率分布の平均値ベクトル
μを補正する。なお、移動ベクトル場平滑化方式につい
ては電子情報通信学会技術研究報告SP92−16に詳
しく開示されているので、ここでは簡単に説明する。
【0025】まず、最尤推定法により入力音声で再学習
された全音素エルゴディックHMMの出力確率分布の平
均値ベクトルと、その適応前の平均値ベクトルとの差分
ベクトルを標準話者空間から入力話者空間への移動ベク
トルと考え、その集合を移動ベクトル場とする。教師な
し学習の場合、誤った音素データにより出力確率分布の
平均値ベクトルを再学習している可能性があるので、こ
れには推定誤差が含まれていると考えられる。また、こ
の推定誤差は学習サンプルが少量である場合にも生じ
る。したがって、このようにして得られた移動ベクトル
の方向は非連続的な動きをしていると考えられる。さら
に、学習サンプルが少量である場合は、再学習されない
出力確率分布の平均値ベクトルも存在する。
【0026】そこで、移動ベクトル場に「連続性の拘束
条件」を導入することによって、移動ベクトルを平滑化
し、これにより出力確率分布の平均値ベクトルを補正す
る。さらに、未学習の平均値ベクトルに対する移動ベク
トルについては、他の移動ベクトルの内挿または外挿に
よって補間する。ここで、移動ベクトルの平滑化の強さ
はファジネス(fuzziness )の値で制御し、この値が大
きいほど強い平滑化が行なわれる。したがって、ファジ
ネスの値が無限大の場合はすべての音素モデルは平行移
動する。
【0027】そしてステップS6において、全音素エル
ゴディックHMMの入力音声データに対する出力尤度の
値が収束しているか否かを判別し、収束していない場合
は上記ステップS4に戻る。すなわち、入力音声データ
に対する出力尤度の値が収束するまで、上記ステップS
4およびS5を繰返す。
【0028】したがって、出力尤度の値が収束している
場合は、ステップS7へ移行し、上記ステップS4〜6
で再学習された全音素エルゴディックHMM内における
音素HMM1間の連結を外して、各音素HMMに分解す
る。
【0029】以上の方法により、標準話者の音素HMM
は発声内容が未知の入力音声を用いてその入力音声の特
徴空間に適応される。
【0030】次に、この教師なし話者適応方式によって
1名の標準話者モデルを他の1名の入力話者モデルへ適
応した場合の実験結果を以下に示す。
【0031】標準話者の音素HMMとしては、状態数が
4で、ループ数が3で、かつ混合数が3の混合連続分布
型HMMを用いた。音素HMMの数は49とした。音素
HMMの学習には標準話者の重要語を5240単語用
い、バランス単語を216単語用いた。音素バイグラム
確率値は、テキストデータから求めた。話者適応には入
力話者の単語発話音声を用い、評価は入力話者の適応学
習と異なる2560単語中の音素認識実験により行なっ
た。
【0032】その結果、話者適応前の標準話者モデルで
70.2%であった音素認識率が、この話者適応方式に
より、25単語を用いて学習した場合は80.4%、1
00単語を用いて学習した場合は83.3%、200単
語を用いて学習した場合は87.6%となり、この発明
の話者適応方式が有効であることが実証された。
【0033】以上、この発明の一実施例を説明したが、
この発明は上述した実施例に限定されることなく、その
他の態様でも実施し得るものである。
【0034】たとえば、上記実施例では、音響モデルと
して混合連続分布型HMMを用いたが、単一連続分布型
HMMを用いてもよく、さらに離散分布型HMMを用い
てもよい。また、音響モデルとしてコンテキスト依存音
素モデルを用い、その遷移確率の初期値として何らかの
テキストデータから求めたコンテキスト依存音素バイグ
ラム確率値を用いてもよい。コンテキスト依存音素モデ
ルについては、電子情報通信学会技術研究報告SP91
−19の「単一ガウス分布HMMの音素環境木構造に基
づく平滑による頑健な音素認識」、および同S91−8
8の「音素テキストと時間に関する逐次状態分割による
隠れマルコフ網の自動生成」に詳しく開示されているの
で、ここではこれを援用する。
【0035】その他、上記実施例では、適応前の音素H
MMとして1名の標準話者で学習したモデルを用いた
が、数名の話者の音声データが学習した不特定話者モデ
ルを用いてもよい。また、話者適応だけでなく、発話様
式適応、話者環境適応などにも応用することができる。
【0036】
【発明の効果】以上のように、この発明に従った音響モ
デル適応方式によれば、発声内容が未知の入力音声を用
いて、既存の音響モデルをその入力音声の特徴空間に適
応することが可能となる。このため、教師あり話者適応
方式に匹敵するほどの音声認識率が得られるなど、認識
性能が向上する。さらに、話者適応だけでなく、発話様
式適応、発話環境適応などに応用した場合も同様に認識
性能は向上する。
【図面の簡単な説明】
【図1】この発明に従った音響モデル適応方式の一実施
例のアルゴリズムを示すフローチャートである。
【図2】図1に示した音響モデル適応方式における確率
モデルを示す概念図である。
【符号の説明】
1 音素HMM aij 音素バイグラム確率値

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 音声認識に用いるための音声の特徴を表
    現する複数の音響モデルであって、1または2以上の標
    準話者の音声で学習されたものを、発声内容が未知の入
    力音声の特徴空間に適応する音響モデル適応方式におい
    て、 前記音響モデルのすべてが所望の遷移確率によって互い
    に連結され、かつ前記音響モデル自身も所望の遷移確率
    によって自己連結されてなる確率モデルを作成し、 前記確率モデルの全部または一部のパラメータを前記入
    力音声で再学習することを特徴とする音響モデル適応方
    式。
  2. 【請求項2】 前記音響モデルとして、音素の離散分布
    型、連続分布型または半連続分布型隠れマルコフモデル
    を用いることを特徴とする請求項1に記載の音響モデル
    適応方式。
  3. 【請求項3】 前記遷移確率の初期値として、所望のテ
    キストデータから求めた音素バイグラム確率値を用いる
    ことを特徴とする請求項1または請求項2に記載の音響
    モデル適応方式。
  4. 【請求項4】 前記音響モデルとして、コンテキスト依
    存音素モデルを用い、かつ前記遷移確率の初期値とし
    て、所望のテキストデータから求めたコンテキスト依存
    音素バイグラム確率値を用いることを特徴とする請求項
    1に記載の音響モデル適応方式。
  5. 【請求項5】 前記確率モデルの全部または一部のパラ
    メータを前記入力音声で再学習するときに、移動ベクト
    ル場平滑化方式を用いることを特徴とする請求項1ない
    し請求項4のいずれかに記載の音響モデル適応方式。
JP5055332A 1993-03-16 1993-03-16 音響モデル適応方式 Expired - Fee Related JPH071435B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5055332A JPH071435B2 (ja) 1993-03-16 1993-03-16 音響モデル適応方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5055332A JPH071435B2 (ja) 1993-03-16 1993-03-16 音響モデル適応方式

Publications (2)

Publication Number Publication Date
JPH06266384A true JPH06266384A (ja) 1994-09-22
JPH071435B2 JPH071435B2 (ja) 1995-01-11

Family

ID=12995588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5055332A Expired - Fee Related JPH071435B2 (ja) 1993-03-16 1993-03-16 音響モデル適応方式

Country Status (1)

Country Link
JP (1) JPH071435B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0869478A2 (en) * 1997-03-31 1998-10-07 Nec Corporation Speech recognition method and apparatus
US6073098A (en) * 1997-11-21 2000-06-06 At&T Corporation Method and apparatus for generating deterministic approximate weighted finite-state automata
JP2004226982A (ja) * 2003-01-21 2004-08-12 Microsoft Corp 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
JP2004272251A (ja) * 2003-03-04 2004-09-30 Microsoft Corp ブロック同期復号
KR100574769B1 (ko) * 1998-04-30 2006-04-28 마쯔시다덴기산교 가부시키가이샤 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법
JP2006293489A (ja) * 2005-04-06 2006-10-26 Sony Corp 学習装置および学習方法、並びに学習プログラム
JP2019527852A (ja) * 2016-07-22 2019-10-03 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声認識処理方法及び装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0869478A2 (en) * 1997-03-31 1998-10-07 Nec Corporation Speech recognition method and apparatus
EP0869478A3 (en) * 1997-03-31 1999-05-26 Nec Corporation Speech recognition method and apparatus
US6092042A (en) * 1997-03-31 2000-07-18 Nec Corporation Speech recognition method and apparatus
US6073098A (en) * 1997-11-21 2000-06-06 At&T Corporation Method and apparatus for generating deterministic approximate weighted finite-state automata
US6266634B1 (en) 1997-11-21 2001-07-24 At&T Corporation Method and apparatus for generating deterministic approximate weighted finite-state automata
KR100574769B1 (ko) * 1998-04-30 2006-04-28 마쯔시다덴기산교 가부시키가이샤 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법
JP2004226982A (ja) * 2003-01-21 2004-08-12 Microsoft Corp 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
JP2004272251A (ja) * 2003-03-04 2004-09-30 Microsoft Corp ブロック同期復号
JP2006293489A (ja) * 2005-04-06 2006-10-26 Sony Corp 学習装置および学習方法、並びに学習プログラム
JP2019527852A (ja) * 2016-07-22 2019-10-03 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声認識処理方法及び装置
US11138967B2 (en) 2016-07-22 2021-10-05 Baidu Online Network Technology (Beijing) Co., Ltd. Voice recognition processing method, device and computer storage medium

Also Published As

Publication number Publication date
JPH071435B2 (ja) 1995-01-11

Similar Documents

Publication Publication Date Title
Gales The generation and use of regression class trees for MLLR adaptation
JP4336865B2 (ja) 音声認識装置
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
AU751310B2 (en) Speech recognition system employing discriminatively trained models
US5621859A (en) Single tree method for grammar directed, very large vocabulary speech recognizer
EP1376536A1 (en) Sound processing apparatus
WO2012036934A1 (en) Deep belief network for large vocabulary continuous speech recognition
US7587321B2 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system
US5956676A (en) Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system
Duchateau et al. Fast and accurate acoustic modelling with semi-continuous HMMs
EP0725383B1 (en) Pattern adaptation system using tree scheme
JP2000099087A (ja) 言語音声モデルを適応させる方法及び音声認識システム
Stadermann et al. Two-stage speaker adaptation of hybrid tied-posterior acoustic models
JPH06266384A (ja) 音響モデル適応方式
JP3589044B2 (ja) 話者適応化装置
JPH1185186A (ja) 不特定話者音響モデル生成装置及び音声認識装置
Hochberg et al. Connectionist model combination for large vocabulary speech recognition
JP2570448B2 (ja) 標準パターン学習方法
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
JPH08110792A (ja) 話者適応化装置及び音声認識装置
JPH0895592A (ja) パターン認識方法
JP2888781B2 (ja) 話者適応化装置及び音声認識装置
Shinoda Speaker adaptation techniques for speech recognition using probabilistic models
JPH0822296A (ja) パターン認識方法
JP2005091504A (ja) 音声認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19950711

LAPS Cancellation because of no payment of annual fees