JP6614639B2

JP6614639B2 - 音声認識装置及びコンピュータプログラム

Info

Publication number: JP6614639B2
Application number: JP2015104336A
Authority: JP
Inventors: 直之神田
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2015-05-22
Filing date: 2015-05-22
Publication date: 2019-12-04
Anticipated expiration: 2035-05-22
Also published as: CN107615376B; WO2016190077A1; US20180204566A1; EP3300075A4; JP2016218309A; EP3300075A1; US10607602B2; CN107615376A

Description

この発明は音声認識装置に関し、特に、ニューラルネットワークを用いて高精度な音声認識を行う音声認識装置及びそのコンピュータプログラムに関する。

人間とコンピュータとのインターフェイスとして音声による入出力を用いる装置及びサービスが増えている。例えば携帯電話の操作にも音声による入出力が利用されている。音声による入出力では、その基盤をなす音声認識装置の認識精度はできるだけ高くする必要がある。

音声認識として一般的な技術は統計的機械学習により得られたモデルを用いる。例えば音響モデルとしてはＨＭＭ（隠れマルコフモデル）が使用される。また、音声認識の過程で生成される文字列が、ＨＭＭの状態列からどの程度の確率で得られるかを算出するための単語発音辞書、及び、ある言語の単語列がどの程度の確率で出現するかを算出するための言語モデル等も使用される。

こうした処理を行うために、従来の音声認識装置は、音声信号をフレーム化するフレーム化処理部と、各フレームからメル周波数ケプストラム係数等の特徴量を算出し、多次元の特徴量ベクトルの系列を生成する特徴量生成部と、この特徴量ベクトルの系列を用い、音響モデルと言語モデルとを用いてその特徴量ベクトルの系列を与える尤度が最も高い単語列を音声認識結果として出力するデコーダを含む。尤度計算では、音響モデルを構成するＨＭＭの各状態からの出力確率と状態遷移確率とが重要な役割を果たす。これらはいずれも機械学習により得られる。出力確率は学習により得たガウス混合モデルにより算出される。

従来の音声認識装置における音声認識の基本的考え方を図１を参照して説明する。従来は、単語列３０（単語列Ｗ）が様々なノイズの影響を経て観測系列３６（観測系列Ｘ）として観測されると考え、最終的な観測系列Ｘを与える尤度が最も高くなるような単語列を音声認識の結果として出力する。この過程では、単語列Ｗが生成される確率をＰ（Ｗ）で表す。その単語列Ｗから、中間生成物である発音列３２を経てＨＭＭの状態系列Ｓ（状態系列３４）が生成される確率をＰ（Ｓ｜Ｗ）とする。さらに状態系列Ｓから観測Ｘが得られる確率をＰ（Ｘ｜Ｓ）で表す。

音声認識の過程では、図２の第１式に示されるように、先頭から時刻Ｔまでの観測系列Ｘ_１：Ｔが与えられたときに、そのような観測系列を与える尤度が最大となるような単語列が音声認識の結果として出力される。すなわち、音声認識の結果の単語列^〜Ｗは次の式により求められる。なお、数式において文字の直上に記されている記号「〜」は、明細書では文字の直前に記載している。

この式の右辺をベイズの式により変形すると次が得られる。

さらにこの式の分子の第１項目はＨＭＭにより次のように求めることができる。

この式で状態系列Ｓ_１：ＴはＨＭＭの状態系列Ｓ_１，…，Ｓ_Ｔを示す。式（３）の右辺の第１項はＨＭＭの出力確率を示す。式（１）〜式（３）より、音声認識の結果の単語列〜Ｗは次の式で求められる。

ＨＭＭでは、時刻ｔにおける観測値ｘ_ｔは状態ｓ_ｔにしか依存しない。したがって、式（４）における、ＨＭＭの出力確率Ｐ（Ｘ_１：Ｔ｜Ｓ_１：Ｔ）は次の式によって算出できる。

確率Ｐ（ｘ_ｔ｜ｓ_ｔ）は、ガウス混合モデル（ＧＭＭ）により算出される。

式（４）の他の項のうち、Ｐ（Ｓ_１：Ｔ｜Ｗ）はＨＭＭの状態遷移確率と単語の発音確率との積により算出され、Ｐ（Ｗ）は言語モデルにより算出される。分母のＰ（Ｘ_１：Ｔ）は各仮説について共通する値であり、したがってarg max演算の実行時には無視できる。

最近、ＨＭＭにおける出力確率を、ＧＭＭではなくディープニューラルネットワーク（ＤＮＮ）により算出するという、ＤＮＮ―ＨＭＭハイブリッド方式と呼ばれるフレームワークについて研究がされている。ＤＮＮ―ＨＭＭハイブリッド方式により、ＧＭＭを用いた音響モデルより高い精度が達成され、注目されている。その際、元来はＤＮＮの出力は事後確率Ｐ（Ｓ_ｔ｜Ｘ_ｔ）を表すため、そのままでは、出力確率Ｐ（Ｘ_ｔ｜Ｓ_ｔ）を用いるＨＭＭを用いた従来の枠組みに適合しない。この問題を解決するため、ＤＮＮの出力する事後確率Ｐ（Ｓ_ｔ｜Ｘ_ｔ）に対してベイズの法則を適用し、出力確率Ｐ（Ｘ_ｔ｜Ｓ_ｔ）を用いる形に変形して用いている。

C. Weng, D. Yu, S. Watanabe, and B.-H. F. Juang, "Recurrent deep neural networks for robust speech recognition," in Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014, pp. 5532-5536.

最近、音響モデルに適用するニューラルネットワークとして、リカレント型ニューラルネットワーク（ＲＮＮ）が注目されている。ＲＮＮとは、入力層側から出力層側への一方向のノード間の結合だけではなく、出力側の層から、隣接する入力側の層へのノード間の結合、同じ層内のノード間の結合、及び自己帰還結合等を含む構造のニューラルネットワークである。この構造のため、ＲＮＮは時間に依存する情報を表すことができるという、通常のニューラルネットワークにはない性格を備えている。音声は、時間に依存する情報としては典型的である。したがってＲＮＮは音響モデルに適していると考えられる。

しかし、従来の研究では、ＲＮＮを用いた音声認識装置の性能はあまり高くない。非特許文献１には、誤差逆伝搬法を改良した学習方法で学習を行ったＲＮＮにより、シグモイド型判別関数を用いて従来より４〜７％の精度の向上が得られたと報告されている。しかし非特許文献１に開示されたＲＮＮの性能向上は、より小さな規模のＤＮＮとの比較であり、同程度の規模のＤＮＮとの比較ではどのような結果が得られるかが明らかでない。一方、ＲＮＮにかぎらず、ＤＮＮについても同様の手法で精度を高めることができるとより好ましい。

それ故に本発明の目的は、ニューラルネットワークの特性を活かして、音声認識精度を高めることができる音声認識装置を提供することである。

本発明の第１の局面に係る音声認識装置は、音声信号から得られた所定の音声特徴量からなる観測系列が与えられたときの状態系列の事後確率を状態系列ごとに算出する第１の事後確率算出手段と、状態系列が与えられたときの単語列の事後確率を各単語列について算出する第２の事後確率算出手段と、入力観測系列について第１の事後確率算出手段及び第２の事後確率算出手段がそれぞれ算出する事後確率を用いて、音声信号に対応する単語列の仮説ごとに算出されたスコアに基づいて、音声信号に対する音声認識を行うための手段とを含む。

第２の事後確率算出手段は、言語モデルによる単語列の生起確率と、音響モデルを構成するＨＭＭの状態遷移確率と、第１の事後確率算出手段により算出される状態系列の生起確率とにより、音声信号に対応する単語列の各仮説について事後確率を算出するための手段を含んでもよい。

好ましくは、状態系列を構成する各状態は、音響モデルを構成するＨＭＭの状態である。

より好ましくは、第１の事後確率算出手段は、観測系列を入力として、当該観測系列を生ずる状態の事後確率を算出するよう学習済のニューラルネットワークと、ニューラルネットワークにより算出された事後確率の系列により、状態系列が生起する確率を算出するための第１の確率算出手段とを含む。

さらに好ましくは、ニューラルネットワークはＲＮＮ、又はＤＮＮである。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの音声認識装置の全ての手段として機能させる。

従来の音声認識の考え方を示す図である。従来の音声認識の基本をなす数式を示す図である。通常のＤＮＮの構成を模式的に示す図である。ＲＮＮの構成と、異なる時刻のＲＮＮのノード間の結合の例を模式的に示す図である。本発明の１実施の形態における音声認識の考え方を示す図である。本発明の１実施の形態における音声認識の基本をなす数式を示す図である。本発明の１実施の形態に係る音声認識装置の構成を示すブロック図である。本発明の１実施の形態に係る音声認識装置を実現するコンピュータの外観を示す図である。図８に示すコンピュータのハードウェア構成を示すブロック図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

最初に、ＤＮＮとＲＮＮとの相違について説明する。図３を参照して、ＤＮＮ７０は、入力層７２及び出力層７８と、入力層７２と出力層７８との間に設けられた複数の隠れ層７４及び７６とを含む。この例では隠れ層は２層のみ示したが、隠れ層の数は２には限定されない。各層は複数個のノードを持つ。図３では各層におけるノード数はいずれも５個で同じであるが、これらの数は通常は様々である。隣り合うノード間は互いに結合されている。ただし、データは入力層側から出力層側へと一方向にしか流れない。各結合には重み及びバイアスが割り当てられている。これら重み及びバイアスは、学習データを用いた誤差逆伝搬法により学習される。

ＤＮＮ７０においては、時刻ｔにおいて入力層７２に時刻ｔにおける音声特徴量Ｘ_ｔが与えられると、出力層７８から状態予測値Ｓ_ｔが出力される。音響モデルの場合、出力層７８のノード数は、対象となる言語の音素の数と一致するよう設計されることが多く、その場合には、各ノードは、入力された音声特徴量がそのノードの表す音素である確率を示す。したがって、出力層７８の各ノードの出力する状態予測値を加算すると１になる。

一方、ＲＮＮの構成の例を図４に示す。図４は、時刻ｔ−１におけるＲＮＮ１００（ｔ−１）と、時刻ｔにおけるＲＮＮ１００（ｔ）と、時刻ｔ＋１におけるＲＮＮ（ｔ＋１）の間の関係を示す。この例では、ＲＮＮ１００（ｔ）の隠れ層内の各ノードは、入力層の各ノードだけではなく、ＲＮＮ１００（ｔ−１）の自分自身の出力を受けている。すなわち、ＲＮＮ１００は入力される音声特徴量の時系列に対する出力を生成できる。

ＤＮＮにより求められるものは、Ｐ（Ｓ_ｔ｜Ｘ_ｔ）である。すなわち、時刻ｔに特徴量Ｘ_ｔを観測したときの、ＨＭＭの状態Ｓ_ｔの確率である。ＨＭＭの状態Ｓ_ｔは音素に対応する。一方、ＲＮＮにより求められるものは、Ｐ（Ｓｔ｜Ｘ_１，…、Ｘ_ｔ）である。すなわち、観測系列Ｘ_１：ｔを観測したときのＨＭＭの状態Ｓ_ｔの確率である。

これを式（５）と比較すると、ＤＮＮの場合、その出力をそのまま式（５）に適用することができないことが分かる。そのため、従来は、以下に示すようにベイズの法則を用いてＤＮＮの出力をＰ（Ｘｔ｜Ｓｔ）に変換している。

式（６）において、Ｐ（ｘ_ｔ）は各ＨＭＭの状態に共通であり、したがってarg max演算では無視できる。Ｐ（ｓ_ｔ）はアライメントされた学習データにおいて各状態の数を数えることで推定できる。

結局、ＤＮＮ―ＨＭＭハイブリッド方式の場合、ＤＮＮの出力Ｐ（Ｓ_ｔ｜Ｘ_ｔ）を確率Ｐ（Ｓ_ｔ）で割ることにより、従来のＨＭＭを用いた枠組みの中でＤＮＮを用いて認識スコアを計算していることになる。

一方、ＤＮＮに代えてＲＮＮを利用すれば、音声の時系列の情報を音声認識に活かすことができ、精度を高めることが期待できる。しかし、従来のＤＮＮ―ＨＭＭハイブリッド方式においてＤＮＮを単純にＲＮＮに置き換える試みは、一部を除いてＤＮＮより精度が低い結果しかもたらさないことが知られている。非特許文献１のようにＤＮＮを用いた場合より精度を高めることができたという報告もあるが、ＲＮＮより規模の小さなＤＮＮと比較する等しており、ＲＮＮを使用したために精度が高くなったということはできない。このようにＲＮＮで精度が高くできないのは、以下の様な理由によると考えられる。

観測系列Ｘ_１：ｔが与えられた場合のＲＮＮの出力は状態に関する事後確率Ｐ（Ｓ_ｔ｜Ｘ_１：ｔ）となる。ＤＮＮ―ＨＭＭハイブリッド方式と同様にこの出力を確率Ｐ（Ｓ_ｔ）で割ると、次の式（７）に示すように、本来必要なＰ（Ｘｔ｜Ｓｔ）（上記式（６）の左辺で表される）ではなく、Ｐ（Ｘ_１：ｔ｜Ｓ_ｔ）が求まってしまう。

Ｐ（Ｘ_１：ｔ｜Ｓ_ｔ）はＰ（Ｘ_ｔ｜Ｓ_ｔ）に比例するわけではないので、式（５）に用いることはできない。時刻ｔにおける状態Ｓ_ｔとそれ以前の観測系列Ｘ_１：ｔとの間には強い依存関係があるためである。このスコア自体は豊富な情報を含むが、ＨＭＭの枠組みでは扱いきれない。

このような原因により、ＲＮＮの場合には、ＤＮＮ―ＨＭＭハイブリッド方式と同じ枠組みでスコアを計算しようとしても精度が低くなってしまうと考えられる。

そこで、ＲＮＮの特徴を活かして精度の高い音声認識を行うためには、ＤＮＮ―ＨＭＭハイブリッド方式以外の枠組みを用いることが必要である。図５に、そのような新しい枠組みについて示す。本実施の形態はこの枠組に沿って音声認識を行う装置に関する。前述したとおり、ＲＮＮの出力は事後確率Ｐ（Ｓ_ｔ｜Ｘ_１：ｔ）である。本実施の形態では、このようなＲＮＮの特性を活かして音声認識を行う考え方を採用する。

図５を参照して、本実施の形態では、観測系列３６（観測系列Ｘ）から状態系列３４の確率を求め、さらに各状態系列３４から発音列３２を経て単語列Ｗ３０の確率を求め、最終的に確率が最大となる単語列Ｗ３０を音声認識結果として出力する。観測系列３６（観測系列Ｘ_１：Ｔ）から状態系列Ｓ_１：Ｔが得られる確率はＰ（Ｓ_１：Ｔ｜Ｘ_１：Ｔ）であり、状態系列Ｓ_１：Ｔから単語列Ｗが得られる確率はＰ（Ｗ｜Ｓ_１：Ｔ）である。すなわち、図６にも示される、以下の式によって観測系列Ｘ_１：Ｔに対する音声認識結果の単語列〜Ｗが得られる。

この式の前半は、特徴量Ｘ_１：Ｔを観測したときに確率最大となる単語列〜Ｗを求めることで音声認識が行われることを意味する。式の後半は、単語列Ｗの確率Ｐ（Ｗ｜Ｘ_１：Ｔ）が、特徴量Ｘから状態系列Ｓ_１：Ｔが生成される確率Ｐ（Ｓ_１：Ｔ｜Ｘ_１：Ｔ）と、状態系列Ｓ_１：Ｔから単語列Ｗが生成される確率Ｐ（Ｗ｜Ｓ_１：Ｔ）の積で求められることを意味する。

この式中で、図６に参照符号１２２で示される項目であるＰ（Ｗ｜Ｓ_１：Ｔ）は以下の式（８）により計算できる。

式（８）のうち、分子は従来の手法の式（４）でも出てきた式であり、従来と同様に計算できる。分母は状態系列Ｓ_１：Ｔの言語確率であり、次の式（９）により近似できる。この式を用いれば、Ｐ（Ｓ_１：Ｔ）はＮグラム言語モデルを用いて計算できる。

一方、図６の参照符号１２０により示される項目であるＰ（Ｓ_１：Ｔ｜Ｘ_１：Ｔ）は、次のように近似できる。

上式の前半はベイズ則にしたがって厳密に成立するものである。後半の近似は、状態Ｓ_ｔが未来の観測系列Ｘ_{（ｔ＋１）：Ｔ}に依存しないことを想定している。通常このように近似することはできないが、観測値Ｘ_ｔに未来の観測系列が十分に反映されていることを前提とするとこの近似が成立する。そのためにこの確率の学習時には、対象となる時点より後の時点のベクトルを含む、連続する特徴量ベクトル（例えば対象時点のベクトルと、その前後のベクトル）をつなぎあわせて生成した大きな特徴量ベクトルを利用したり、観測系列に付されているラベルを後ろにずらしたりする。本実施の形態では、対象時点のベクトルとその前後のベクトルとを結合したものを用い、さらにラベルを後ろにずらしたものを用いている。

この最後の式はさらに、次のように近似できる。

この変形では、事後確率Ｐ（Ｓ_ｔ｜Ｓ_{１：ｔ−１}，Ｘ_１：ｔ）がＲＮＮの出力する確率Ｐ（Ｓ_ｔ｜Ｘ_１：ｔ）で十分に近似できることを想定している。これは必ずしもＳ_ｔとＳ_{１：ｔ−１}とが独立であることを前提としているわけではない。両者の間に強い依存関係があったとしても、ＲＮＮが観測系列Ｘ_１：ｔから状態Ｓｔを算出するだけの十分な能力がありさえすれば、この近似が成立する。実際のところ、理論的に考えるとこの近似は非常に粗い近似であるが、後述するように、シミュレーションでは、この方法によって音声認識の精度を高めることができた。

図６に示す式、並びに式（８）、式（１０）及び式（１１）をまとめると、結局、従来法では、式（６）に示されるように、各時刻ｔにおけるＤＮＮの出力を確率Ｐ（Ｓ_ｔ）で割ることを各時刻で行うことにより、認識スコアを算出するのに対し、本実施の形態に係る手法では、次の式（１２）に示すように、ある仮説に関するＲＮＮの出力（の積）を、確率Ｐ（Ｓ_１：Ｔ）で割ることにより仮説の認識スコアを算出する。

すなわち、ＲＮＮの出力をＰ（Ｓ_１：Ｔ）で割って得た値を用いて各仮説の認識スコアを算出していることになる。式（１２）において、ＲＮＮの出力は各時点で得られるが他の値は全て事前の学習に基づいて算出できる。この計算ではＲＮＮの出力が直接的に用いられており、従来のＤＮＮ―ＨＭＭハイブリッド方式のようにＤＮＮの出力を無理にＨＭＭの出力形式に変換する必要はない。このような方式をここでは直接デコード方式と呼ぶ。

なお、式（９）による近似に代えて、他の近似を採用する事もできる。例えば次のような粗い近似を用いる事もできる。

又は、次のような近似を用いる事もできる。

この他にも近似の方法は種々考えられる。

本実施の形態に係る音声認識装置は、上記したように、ＲＮＮを音響モデルとして利用し、その出力を用いた直接デコード方式を採用している。

図７を参照して、この本実施の形態に係る音声認識装置２８０は、入力音声２８２に対する音声認識を行って、音声認識テキスト２８４として出力する機能を持つ。音声認識装置２８０は、入力音声２８２に対してアナログ／デジタル（Ａ／Ｄ）変換を行ってデジタル信号として出力するＡ／Ｄ変換回路３００と、Ａ／Ｄ変換回路３００の出力するデジタル化された音声信号を、所定長及び所定シフト量で一部重複するようにフレーム化するフレーム化処理部３０２と、フレーム化処理部３０２の出力する各フレームに対して所定の音響処理を行うことにより、そのフレームの音声特徴量を抽出し特徴量ベクトルを出力する特徴量抽出部３０４とを含む。各フレーム及び特徴量ベクトルには、入力音声２８２の例えば先頭に対する相対時刻等の情報が付されている。特徴量としては、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient：メル周波数ケプストラム係数）、その一次微分、二次微分、及びパワー等が用いられる。

音声認識装置２８０はさらに、特徴量抽出部３０４が出力する特徴量ベクトルを一時記憶するための特徴量記憶部３０６と、特徴量記憶部３０６に記憶された特徴量ベクトルを入力として、各時刻における各フレームがある音素に対応する事後確率を音素ごとに示すベクトルを出力する、ＲＮＮからなる音響モデル３０８と、音響モデル３０８の出力するベクトルを用いて、ＷＦＳＴ（重み付き有限状態トランスデューサ）により入力音声２８２に対応する音声認識テキスト２８４として最も確率の高い単語列を出力するための、後述するように本明細書においてＳ^−１ＨＣＬＧと名づけたＷＦＳＴによるデコーダ３１０とを含む。ＲＮＮからなる音響モデル３０８を採用した点と、音声認識デコーダとして直接デコード方式にしたがって予め構成したＷＦＳＴを用いる点が従来と異なる。

音声認識デコーダ３１０は、Ｓ^−１ＨＣＬＧによる、音響モデルにより算出された状態系列の事後確率を用いて、複数の仮説（単語列）の生起する確率を算出し認識スコアとして出力するＷＦＳＴ３２０と、ＷＦＳＴ３２０により算出された認識スコアに基づき、最も確率の高い仮説を音声認識テキスト２８４として出力する仮説選択部３２２とを含む。

ＷＦＳＴによる音声認識とは以下の様なものである。状態遷移機械のモデルとして、有限オートマトンが知られている。有限オートマトンは計算理論の基礎をなす概念であり、その一種に、入力される記号列に対して予め定められている規則に基づく状態遷移を行い、状態遷移の結果により、入力された記号列を受理するか否かを決定するものがある。ＷＦＳＴはそうしたオートマトンから派生したものであり、ある記号列を受理して状態遷移を行い、同時に別の記号列を出力する変換機械である。ＷＦＳＴはノードとノード間を結ぶアークとからなるグラフとして表すことができる。ノードは状態を表し、アークは状態遷移を表す。各アークには入力記号と出力記号とが付与される。各アークにさらに重みを付加することで、確率という概念を表すことができる。ルートノードから各アークをたどっていくことで仮説が生成され、それらのアークに割り当てられた重み（確率）を乗算することでその仮説の生起確率が計算できる。

音声認識では種々のモデルが用いられる。ＨＭＭ、単語発音辞書及び言語モデルはいずれもＷＦＳＴで表すことができる。さらに近年では、音素の文脈を表すために音素単位によるトライフォンＨＭＭが利用されており、これもＷＦＳＴで表すことができる。単語発音辞書は、音素列を単語列に変換するＷＦＳＴであり、語彙を求めるために使用する。言語モデルは例えばトライグラムの言語モデルであり、入力単語列と同一の出力単語列を出力するＷＦＳＴであって、言語の文法を表す。

ＷＦＳＴには、合成という演算が存在する。２つのＷＦＳＴを合成することにより、２つのＷＦＳＴを段階的に適用する処理を１回の合成後ＷＦＳＴで行うことができる。したがって、上記したＨＭＭ，単語発音辞書、言語モデル及びトライフォンＨＭＭのＷＦＳＴの組合せを合成して１つのＷＦＳＴにすることができる。デコーダ３１０は、そのように予め学習を行い合成されたＷＦＳＴを用いるデコーダである。ここで使用するＷＦＳＴは、言語に関する知識により予め構築されるグラフであり、ＨＣＬＧと呼ばれる知識源を用いる。ＨＣＬＧは、４つのＷＦＳＴ（Ｈ，Ｃ，Ｌ，Ｇ）の合成である。ＨはＨＭＭを、Ｃは文脈を、Ｌは語彙を、Ｇは文法を、それぞれ表す。本実施の形態の音声認識デコーダのＷＦＳＴはさらに、上記したＰ（Ｓ_１：Ｔ）による除算（Ｐ（Ｓ_１：Ｔ）^−１）をするためのＷＦＳＴが合成して組み込まれている。このＷＦＳＴは、ＨＭＭの状態系列からＨＭＭへの状態系列へのＷＦＳＴであり、各アークには、Ｐ（Ｓ_１：Ｔ）^−１を近似したＰ（Ｓ_ｔ｜Ｓ_{（ｔ−Ｎ＋１）：（ｔ−１）}）^−１が付与されている。したがってこのＷＦＳＴをここでは「Ｓ^−１ＨＣＬＧ」と略記する。

本実施の形態に係る音響モデル３０８を構成するＲＮＮの入力層のノードの数は、特徴量ベクトルの要素の数と一致する。ＲＮＮの出力層のノードの数は、音声認識装置２８０が扱う言語で想定される音素の数と一致する。すなわち、各ノードは、ＨＭＭによる音響モデルの各状態を表す。出力層の各ノードには、ある時刻で入力された音声が、そのノードの表す音素である確率が出力される。したがって音響モデル３０８の出力は、その時刻での入力音声が、各ノードの表す音素である確率を要素とするベクトルである。

Ｓ^−１ＨＣＬＧによるデコーダ３１０は、音響モデル３０８が出力するベクトルの各要素について、前記したＳ^−１ＨＣＬＧによるＷＦＳＴ３２０によって音素列の確率計算をし、適宜枝刈りを行いながらＷＦＳＴのグラフをたどっていくことにより仮説と確率計算を含めた認識スコアの計算をする。仮説選択部３２２が、最終的に最も認識スコアが高い（生起確率の高い）単語列を音声認識テキスト２８４として出力する。この際、ＷＦＳＴ３２０はＲＮＮの出力を直接使いながら認識スコアを計算する。従来のＤＮＮ―ＨＭＭフレームワークのようにＨＭＭの出力形式にあわせてＲＮＮの出力を変換することが不要であり、認識の効率を高めることができる。

［実験１］
上記実施の形態に係る、ＲＮＮを用いた直接デコード方式の効果を確認するために、ＤＮＮを用いた従来方式、ＲＮＮを用いた従来方式、及び上記実施の形態に係る、ＲＮＮを用いた直接デコード方式とについて同じ学習データを用いて学習し、同じテストデータを用いて単語誤り率を調べた。その結果を次のテーブル１に示す。

テーブル１から明らかなように、上記実施の形態による直接デコード方式を用いると、パラメータ数７ＭのＲＮＮでもパラメータ数３５Ｍの従来手法のもの以上の性能を発揮する。またＲＮＮを用いた直接デコード方式では、少なくとも実験した範囲では、パラメータ数を増やすことにより認識性能を高められることも分かる。

［実施の形態の効果］
上記実施の形態は、ＤＮＮ―ＨＭＭハイブリッド方式に代えて、ＲＮＮを用いた直接デコード方式の音声認識装置に関するものである。実験結果によれば、直接デコード方式の音声認識手法の方が、ＤＮＮ―ＨＭＭハイブリッド方式よりも小さな構成で同等以上の性能を示すことがわかった。

［コンピュータによる実現］
本発明の実施の形態に係る音声認識装置２８０は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図８はこのコンピュータシステム３３０の外観を示し、図９はコンピュータシステム３３０の内部構成を示す。

図８を参照して、このコンピュータシステム３３０は、メモリポート３５２及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。

図９を参照して、コンピュータ３４０は、メモリポート３５２及びＤＶＤドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、メモリポート３５２及びＤＶＤドライブ３５０に接続されたバス３６６と、ブートプログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０と、ハードディスク３５４を含む。コンピュータシステム３３０はさらに、他端末との通信を可能とするネットワーク３６８への接続を提供するネットワークインターフェイス（Ｉ／Ｆ）３４４を含む。

コンピュータシステム３３０を上記した実施の形態に係る音声認識装置２８０の各機能部として機能させるためのコンピュータプログラムは、ＤＶＤドライブ３５０又はメモリポート３５２に装着されるＤＶＤ３６２又はリムーバブルメモリ３６４に記憶され、さらにハードディスク３５４に転送される。又は、プログラムはネットワーク３６８を通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＤＶＤ３６２から、リムーバブルメモリ３６４から又はネットワーク３６８を介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ３４０を、上記実施の形態に係る音声認識装置２８０の各機能部として機能させるための複数の命令からなる命令列を含む。コンピュータ３４０にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ３４０にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム、装置及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステム、装置又は方法としての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供してもよい。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

３０単語列
３２発音列
３４状態系列
３６観測系列
７０ＤＮＮ
７２入力層
７４，７６隠れ層
７８出力層
１００ＲＮＮ
２８０音声認識装置
２８２入力音声
２８４音声認識テキスト
３００Ａ／Ｄ変換回路
３０２フレーム化処理部
３０４特徴量抽出部
３０６特徴量記憶部
３０８音響モデル
３１０デコーダ
３２０Ｓ^−１ＨＣＬＧによるＷＦＳＴ
３３０コンピュータシステム
３４０コンピュータ
３５４ハードディスク
３５６ＣＰＵ
３５８ＲＯＭ
３６０ＲＡＭ

Claims

音声信号から得られた所定の音声特徴量からなる観測系列が与えられたときの状態系列の事後確率を状態系列ごとに算出する第１の事後確率算出手段と、
状態系列が与えられたときの単語列の事後確率を各単語列について算出する第２の事後確率算出手段と、
入力観測系列について前記第１の事後確率算出手段及び前記第２の事後確率算出手段がそれぞれ算出する事後確率を用いて、前記音声信号に対応する単語列の仮説ごとに算出されたスコアに基づいて、前記音声信号に対する音声認識を行うための手段とを含む、音声認識装置。
前記第２の事後確率算出手段は、言語モデルによる単語列の生起確率と、音響モデルを構成する隠れマルコフモデルの状態遷移確率と、前記第１の事後確率算出手段により算出される状態系列の生起確率とにより、前記音声信号に対応する単語列の各仮説について事後確率を算出するための手段を含む、請求項１に記載の音声認識装置。
前記状態系列の各状態は、音響モデルを構成する隠れマルコフモデルの状態である、請求項１又は請求項２に記載の音声認識装置。
前記第１の事後確率算出手段は、
前記観測系列を入力として、当該観測系列を生ずる状態系列の各々を構成する各状態の事後確率を算出するよう学習済のニューラルネットワークと、
状態系列ごとに、当該状態系列を構成する各状態について前記ニューラルネットワークにより算出された事後確率からなる事後確率の系列により、当該状態系列の事後確率を算出するための第１の確率算出手段とを含む、請求項１〜請求項３のいずれかに記載の音声認識装置。
前記ニューラルネットワークはリカレント型ニューラルネットワークである、請求項４に記載の音声認識装置。
コンピュータを、請求項１〜請求項５のいずれかに記載の全ての手段として機能させる、コンピュータプログラム。