JP3818154B2 - 音声認識方法 - Google Patents
音声認識方法 Download PDFInfo
- Publication number
- JP3818154B2 JP3818154B2 JP2002005398A JP2002005398A JP3818154B2 JP 3818154 B2 JP3818154 B2 JP 3818154B2 JP 2002005398 A JP2002005398 A JP 2002005398A JP 2002005398 A JP2002005398 A JP 2002005398A JP 3818154 B2 JP3818154 B2 JP 3818154B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- language unit
- node
- word
- added
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は音声認識方法に関し、特に言語モデルを用いた連続音声認識方法に関する。
【0002】
【従来の技術】
近年、大語彙連続音声認識処理を行う手法として、統計的言語モデルを用いたフレーム同期型サーチがしばしば用いられている。この手法においては、音声を入力順に時間同期で処理し、単語列の音響的なスコアと統計言語スコアを累積し、これが最良の単語列を第一認識結果として出力する。
【0003】
このサーチ方法の第一の例が、2000年にAcademic Pressから発行されたComputer Speech and Language 14号の第15頁ないし第32頁に掲載された“Look-ahead techniques for fast beam search”と題する Stefan Ortmanns と Hermann Neyによる論文の特に第16頁の2.1.に記載されている。
【0004】
この方法においては、HMM(Hidden Markof Model;隠れマルコフモデル)の状態レベルに展開された木構造単語辞書と時間に同期して入力される音声とが照合され、単語境界において、以下の式に示すような、単語出現確率(言語モデルスコア)計算と累積スコアの掛け算とが行われる。
【0005】
p(w|v)Qv(t,Sw)
ここで、p(w|v)は、先行する単語vの後に単語wが出現する確率であり、Qv(t,Sw)は、先行する単語vの後ろに時刻tで終わる単語wがつながる場合の発声先頭からそこまでの最良の累積スコアであり、Swは、単語wを表すHMMの最終状態である。
【0006】
この値は発声始端からこの単語wまでの最良の累積スコアであり、単語wに続く単語xのHMMと音声との照合スコアをこれに累積して、Qw(t,Sx)を計算するのに使用される。上記処理を発声の最後まで繰返した後、最良の累積スコアを持つ単語系列を第一認識結果として出力する。
【0007】
第二の例が、日本音響学会1999年春季研究発表会講演論文集第73乃至74頁に掲載された「フレーム同期型ワンパスデコーダにおける高次元言語モデルと音素環境依存型音響モデルの簡易実装とその効果」と題する中野裕一郎他の論文に記載されている。
【0008】
この方法においては、ある単語終端が確定した際、その直前の単語と、さらにひとつ前の複数の各単語を組み合わせた2単語を各履歴とした、trigram 言語モデルを用い、それらで計算したうちの最良のスコアをその単語に与えている点が第一の例と異なっている。つまり、
MAXu,v{ p(w|v,u)Qv,u(t,Sw) }
のような値を求める処理をおこなう。ここで、p(w|v,u)は、先行する単語系列u→vの後に、単語wが出現する確率であり、Qv,u(t,Sw)は、先行する単語系列u→vの後ろに時刻tで終わる単語wがつながる場合の発声先頭からそこまでの最良の累積スコアである。この値は発声始端からこの単語wまでの最良の累積スコアであり、これ以降の処理は第一の例と同様である。
【0009】
【発明が解決しようとする課題】
上記従来技術では、同じ先行単語をもつ単語でも、終端時刻tが違えば別々に扱われ、全く同一の先行単語との言語モデル確率計算が、別々に重複して行われるために、処理量が大きくなるという問題がある。
【0010】
特に、上記第二の従来例においては、同じ先行単語系列(u,v)をもつ単語でも、終端時刻tが違えば別々に扱われ、全く同一の先行単語との言語モデル確率計算と、それと累積スコアとの積の最良値選択処理が別々に重複して行われ、処理量が大きくなる。
【0011】
本発明の目的は、上記問題点に鑑み、認識精度を劣化することなく処理量を削減可能な音声認識方法を提供することにある。
【0012】
【課題を解決するための手段】
本発明は、途中認識結果候補をスコアつきの単語系列として持ち、1つ以上のスコアつき単語系列をあらかじめ定めた基準でまとめてノードとし、ノードの後ろに単語を追加して新たなノードを作成していくことで認識結果を探索する音声認識方法において、ノードに単語を追加する際に、ノードと追加する単語の組ごとに計算される1つあるいは複数の値を保存し、以後、同じノードに同じ単語を追加する際に、前記保存した値を再利用することを特徴とする。
【0013】
また、本発明は、途中認識結果候補をスコアつきの単語系列として持ち、1つ以上のスコアつき単語系列をあらかじめ定めた基準でまとめてノードとし、該ノードの後ろに単語を追加して新たなノードを作成していくことで認識結果を探索する音声認識処理をコンピュータに実行させるプログラムにおいて、前記ノードに単語を追加する際に、前記ノードと追加する単語の組ごとに計算される1つあるいは複数の値を保存する手順と、同じノードに追加される単語が以前に追加された単語と同じであるときには、前記計算を省略して前記保存した値を利用する手順を含むことを特徴とする。
【0014】
本発明によれば、ノードに単語を追加する際に、ノードと追加する単語の組ごとに計算される値が保存されているので、その後、同じノードに同じ単語を追加する際に再度計算を行うことなく前記保存した値を再利用することができ、上記ノードと追加する単語の組ごとに行う計算を削減することができる。
【0015】
【発明の実施の形態】
図1は、本発明の第1の実施形態における構成を表すブロック図である。
【0016】
本実施形態の音声認識装置は、プログラム制御により動作するコンピュータ(中央処理装置;プロセッサ;データ処理装置)100と、内部記憶装置101と外部記憶装置102と、音声入力手段110と、認識結果出力手段120とから構成されている。
【0017】
これらの手段はそれぞれ概略つぎのように動作する。音声入力手段110は、マイク等からの音声を入力とし、一定の時間間隔ごとに、その時間的近傍の入力音声を分析し、音声の特徴量をデジタルデータとして出力する。
【0018】
内部記憶装置101または外部記憶装置102には、コンピュータ100によって本発明の音声認識処理を実行するためのプログラムが格納されており、コンピュータ100はこの音声認識プログラムに従って、音声入力手段110から入力される音声データの認識処理を行う。
【0019】
即ちコンピュータ100は、音声入力手段110からの音声の特徴量の出力間隔に同期して、必要に応じて内部記憶装置101および外部記憶装置102に仮単語アーク、ノード、単語アークを読み書きしながら、同記憶装置に記録された、HMMで表された音響モデル、HMMの状態レベルにまで展開された木構造単語辞書、及び言語モデルを用いて、上記音声の特徴量を認識処理する。
【0020】
発声の最後まで上記音声の特徴量の認識処理を行った後、ノード、単語アークを読み出して、結果出力手段120に結果を出力する。上記音声の特徴量は、入力順に第1フレームの音声特徴量、第2フレームの音声特徴量…と呼び、第1、第2…をフレーム番号と呼ぶ。
【0021】
次に、図2を用いて本実施形態のコンピュータ100の動作について詳細に説明する。
【0022】
1)まず、各発声を認識する前に、発声始端ノードとして、新規のノードを作成する。ノードには通常、▲1▼そのノードに終端が接続される単語アークへのポインタ全てと、▲2▼後続単語毎にその単語の識別子をキーとして保存されるベストコンテキストスコアと、▲3▼ノードが出来た時点のフレーム番号が保持されるが、この発声始端ノードでは、累積スコアとしてある初期値が記録された単語アークへのポインタが付与され、ベストコンテキストスコアは「なし」として記録され、仮の単語フレーム番号は仮想的に0番が与えられ、それらが保持される(図2-0)。
【0023】
2)次に、以下の手順に従って音声の特徴量を入力フレーム順に処理する。
【0024】
2-1)新規のノードがあればそれを始端ノードとし、そのノードから始まる可能性のある単語全てについて仮の単語アークを作成する(図2-1,図2-3)。これら仮単語アーク(仮説)は、▲1▼累積スコアと、▲2▼前記始端ノードへのポインタ(バックポインタ)と、▲3▼どの単語のどの箇所に対応しているのかの情報として木構造単語辞書中のどのHMM状態に対応するかの情報を保持する。
【0025】
上記累積スコアとしては、例えばこの始端ノードに終端が接続する単語アークの累積スコアのうち、最良のものがその累積スコアとして保持される。始端ノードへのポインタは、上記始端ノードを指すバックポインタである。また、木構造単語辞書中のどのHMM状態に対応するかの情報は、例えば、図4のようなHMMの状態レベルに展開された木構造単語辞書を用いる場合、「しか」と「さら」を代表する仮単語アークをs1状態に対応させて作成し、「いか」に対応する仮単語アークをi4状態に対応させて作成する。
【0026】
2-2)次に、全ての仮単語アークについて以下の処理を行う。
【0027】
2-2-1)対応するHMM状態が、単語終端でなければ、木構造辞書中で対応するHMM状態の子の状態に対応する仮単語アークを新規作成する。この時上記バックポインタを転写し、累積スコアには、対応する状態遷移確率を累積する。なお、同箇所に、同じバックポインタをもつ仮単語アークが既に存在する場合は、遷移確率を累積した後の累積スコアが大きい方のみ保持し、小さい方は消去する。これに追加して、先行する単語が同じなら消去する処理や、先行する単語末のn音素(nは1,2,などあらかじめ定めた数)が一致していれば消去する処理をしてもよい。
【0028】
2-2-2)元の仮単語アークの累積スコアには対応するHMM状態の自己遷移確率を累積する。
【0029】
2-3)上記2-2)で作成したすべての仮単語アークについて、対応するHMM状態の出力確率分布とそのフレームの音声特徴量とで尤度計算を行い、それを累積スコアに累積する。この時、一定の基準を設定し、この基準と比較してその累積スコアが悪い仮単語アークは消去することにより、処理量を減らして音声認識の効率化を図る。
【0030】
2-4)仮単語アークのうち、単語終端のHMM状態(図4の例ではa3,a9,a12のいずれか)に対応するもの全てを単語アークへ変換する。この単語アークは、後述する、単語音響スコアと、単語の識別子と、仮単語アークと同様の累積スコアと、始端ノードへのポインタ(バックポインタ)とを保持する。
【0031】
そして、この単語アークの単語識別子により「音声特徴量のフレーム番号,単語の識別子」別に作成される上記ノードを探し、無ければ上記ノードを新規作成し、有ればそのノードに対して同単語アークへのポインタを追加する(図2-2、図2-4)。
【0032】
上記仮単語アークから単語アークへの変換は、以下のようにして行う。
▲1▼仮単語アークのバックポインタの指すノードがポインタとして持っている前単語の単語アークそれぞれが持つ累積スコアのうち、最良のものを仮単語アークの累積スコアから差し引いて単語音響スコアとする。
▲2▼単語終端のHMM状態に記録された単語の識別子を転写する。
▲3▼仮単語アークからノードへのバックポインタを転写する。
▲4▼後述するベストコンテキストスコアと上記単語音響スコアを足したものを累積スコアとする。(この累積スコアが、従来技術における
MAXu,v{ p(w|v,u)Qv,u(t,Sw) }に対応する)。
【0033】
上記累積スコアを計算するために用いられるベストコンテキストスコアは、単語アークの指す始端のノードに、この単語アークの持つ単語の識別子をキーとして保存されているベストコンテキストスコアがあれば、それを使用する。保存されていなければ、上記始端ノードが保持する単語アークへのポインタから単語アークのバックポインタ、さらに前々単語へのポインタ、と繰返したどって発声始端ノードにいきつく単語系列それぞれについて、その単語系列が与えられた時のこの単語の出現確率を言語モデルを参照して求め、その単語系列の最後の単語のアークである、ノード直前の単語アークが持つ累積スコア、に累積したもの、の最良値をベストコンテキストスコアとする。
【0034】
例を挙げると、bigram 言語モデルを用いる場合は、上記始端ノードが保持する前単語アークは一つしかなく、単語識別子を用いてこの単語アークとのbigram言語スコアを計算し、前単語アークの累積スコアに累積したものをベストコンテキストスコアとする。
【0035】
他の例として、trigram 言語モデルを用いる場合は、上記始端ノードが保持する前単語アークそれぞれと、その始端ノードを介してたどれる前々単語それぞれを用いて、「前々単語の識別子,前単語の識別子,この単語の識別子」で計算される trigram 言語スコアを計算し、それを前単語の累積スコアに累積したもののうち、最良のものをベストコンテキストスコアとする。
【0036】
いずれの場合も、この時上記始端ノードに、ここで新規に作成する単語アークの単語識別子をキーとしてベストコンテキストスコアを保存し(図2-5)、次の上記2-4)の処理の際に再利用する(図2-6,図2-7)。
【0037】
例えば、図2-5において、フレーム番号70で作成されるノードが保持する単語アークへのポインタから単語アークのバックポインタ、さらに前々単語へのポインタ、と繰返したどって発声始端ノードにいきつく2つの単語系列それぞれについて求められたコンテキストスコアが、(第一履歴、単語3)=スコア1と(第二履歴、単語3)=スコア2であるとし、かつスコア1>スコア2である場合には、次の単語3のノード作成時に、スコア1がフレーム番号70で作成されるノードにベストコンテキストスコアとして保存される。
【0038】
そして、この同じノードに単語を追加するために仮単語アークを作成したときに、この単語の識別子が単語3であることが判明した時には、単語3に対する新たなベストコンテキストスコアを求めるための計算は行わず、上記保存されているスコア1を再利用する。従って、図2-6に示されているように、終端時刻tが違っていても、追加される単語が同一(単語3)である場合には、全く同一の先行単語との言語モデル確率計算が重複して行われることがなくなり、処理量を削減することができる。
【0039】
なお、trigram 言語モデルを用いてより精度を上げるには、ノードが「前単語アークの単語識別子,この単語アークの単語識別子」をキーとしてコンテキストスコアが持てるように拡張した上で、以下のような処理を行えば良い。
【0040】
始端ノードが保持する前単語アークそれぞれと、その始端ノードを介してたどれる前々単語それぞれを用いて、「前々単語の識別子,前単語の識別子,この単語の識別子」で計算される trigram 言語スコアを計算し、対応する前単語アークの始端ノードが保持する「前単語アークの単語識別子,前々単語アークの識別子」をキーとして保持するコンテキストスコアに前単語の単語音響スコアと上記 trigram 言語スコアを累積したものを、この始端ノードに「前単語アークの単語識別子,この単語アークの単語識別子」をキーとしてコンテキストスコアとして保存し、その最良のものをベストコンテキストスコアとする。このとき、この始端ノードにこの単語の識別子をキーとしてベストコンテキストスコアを保存する。
【0041】
さらに、 n-gram (n>3)言語モデルやそれ以外の言語モデルを用いる場合は以下のようになる。
【0042】
始端ノードからポインタでたどれる前単語アーク、それからさらにポインタでたどれる前始端ノード、以下同様にポインタをたどって得られる単語アークの系列(単語履歴)それぞれについて、対応する単語識別子の系列から各単語系列の言語スコアを計算し、対応する前単語アークの始端ノードが「前単語アークの単語識別子,前々単語アークの識別子」をキーとして保持するコンテキストスコアに、前単語の単語音響スコアと上記言語スコアを累積したものを、この始端ノードに「前単語アークの単語識別子,この単語アークの単語識別子」をキーとしてコンテキストスコアとして保存し、その最良のものをベストコンテキストスコアとする。このとき、この始端ノードにこの単語の識別子をキーとしてベストコンテキストスコアを保存する。
【0043】
3)全ての音声のフレームについて以上の処理を行ったのち、発声始端ノードから単語アークを時間順方向にたどって最後のフレームで作られた終端のノードに至ることで作られる全ての単語系列のうち、最も累積スコアが良くなるものを認識結果として出力する。
【0044】
ところで、 triphone HMM など、音素の右音素環境によってHMMを区別するような場合には、木構造辞書中に一つの単語の単語終端HMM状態が右音素環境毎に分かれて存在する。例えば、図2-7では、単語3の単語終端HMM状態が、右音素s、右音素i、右音素oに分かれて存在する場合、これら複数の単語終端HMM状態が指す単語の識別子は同じ単語3であるため、それらは上記 2-4)におけるベストコンテキストスコアの再利用が有効に機能する。
【0045】
このように、ノードの表すスコアつき単語系列が予め定めた基準でグループに分けられている場合には、グループ毎に各スコアつき単語系列と追加する単語とから計算される値の最良値を求め、それをノードと追加する単語の組毎に保存しておけば、このグループ内では、この保存されているベストコンテキストスコアを再利用できるので、言語モデル確率計算・最良値計算処理を大幅に削減する事ができる。
【0046】
なお、上記実施例では、始端ノードに後続単語の識別子をキーとしてベストコンテキストスコアのみを保存したが、各履歴毎に求めたスコアの全てあるいは比較的スコアの良好な複数のものを保存してもよい。
【0047】
図3は、本発明の第2の実施形態における構成を表すブロック図である。
【0048】
本実施形態の音声認識装置は、プログラム制御により動作するコンピュータ(中央処理装置;プロセッサ;データ処理装置)300と、内部記憶装置301と外部記憶装置302と、音声入力手段310と、1発声音声特徴量記憶装置311と認識結果出力手段320とから構成されている。
【0049】
これらの手段はそれぞれ概略つぎのように動作する。音声入力手段310は、マイク等から音声を入力し、一定の時間間隔ごとに、その時間的近傍の入力音声を分析し、音声の特徴量をデジタルデータとして出力する。1発声音声特徴量記憶装置311は、音声入力手段310から出力される1発話分のデジタルデータとしての同特徴量を記憶する。
【0050】
上記音声の特徴量は、第1の実施形態と同様であり、入力順に第1フレームの音声特徴量、第2フレームの音声特徴量…と呼び、第1、第2…をフレーム番号と呼ぶ。
【0051】
コンピュータ300は、1発声音声特徴量記憶装置311から必要に応じて音声の特徴量を読みだし、必要に応じて内部記憶装置301および外部記憶装置302に仮単語アーク、ノード、単語アークを読み書きしながら、同記憶装置301あるいは302に記録された、HMMで表された音響モデル、HMMの状態レベルにまで展開された木構造単語辞書及び言語モデルを用いて、上記音声の特徴量を認識処理する。発声の最後まで上記処理をおこなった後、ノード、単語アークを読み出して、結果出力手段320に結果を出力する。
【0052】
次に、本実施形態の全体の動作について図2も参照して詳細に説明する。
【0053】
A)まず、1発声全体の音声特徴量を音声入力手段310より読みだし、1発声音声特徴量記憶装置311に書き込む。
【0054】
B)次に、発声を認識する前に、発声始端ノードとして、新規のノードを作成する。これは第1の実施形態のそれと同じである(図2-0)。
【0055】
C)次に、発声の最後のフレーム番号を持たず、かつどの仮単語アーク、単語アークからもポインタによって指されていないノードのうち、最もフレーム番号が小さいものについて、以下の手順に従って単語アークを作成、連結する。そのようなノードがなくなれば終了する。
【0056】
C-1)そのノードから始まる可能性のある単語全てについて仮の単語アークを作成する(図2-1)。これら仮単語アークは、第1の実施形態のそれと同じである。
【0057】
C-2)そのノードのフレーム番号から始まる音声特徴量について順番に、仮単語アークがなくなるまで C-1)を繰返し行う:全ての仮単語アークについて、第1の発明の実施形態における 2-2) 2-3) 2-4)の処理を行う。
【0058】
D)発声始端ノードから単語アークを時間順方向にたどって最後のフレームで作られた終端のノードに至ることで作られる全ての単語系列のうち、最も累積スコアが良くなるものを認識結果として出力する。これは第1の実施形態と同じである。
【0059】
なお、上記実施形態では認識対象言語単位として単語を用いた場合について説明したが、単語のかわりに、音素、音節、フレーズ(単語の1つ以上の連鎖)などの言語単位をその認識対象とする場合においても同様に適用することができる。
【0060】
【発明の効果】
本発明は、言語モデル確率計算・最良値計算結果を各ノードに単語の識別子をつけて保存し、再利用することによって、右音素違いの同単語や、終了フレーム違いの同単語について再処理しないで済むように構成しているので、言語モデル確率計算・最良値計算処理を大幅に削減する事が可能であり、処理の効率化を図ることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態における構成を表すブロック図である。
【図2】本発明の動作の具体例を示す図である。
【図3】本発明の第2の実施形態における構成を表すブロック図である。
【図4】第1の実施の形態で参照される木構造単語辞書の1例を示す図である。
【符号の説明】
100,300 コンピュータ
101,301 内部記憶装置
102,302 外部記憶装置
110,310 音声入力手段
120,320 結果出力手段
311 1発声音声特徴量記憶装置
Claims (18)
- 途中認識結果候補をスコアつきの言語単位系列として持ち、1つ以上のスコアつき言語単位系列をあらかじめ定めた基準でまとめてノードとし、該ノードの後ろに言語単位を追加して新たなノードを作成していくことで認識結果を探索する音声認識方法において、前記ノードに前記言語単位を追加する際に、前記ノードと追加する前記言語単位の組ごとに計算される1つあるいは複数の値を保存し、以後、同じノードに同じ言語単位を追加する際に、前記保存した値を再利用することを特徴とする連続音声認識方法。
- 前記ノードと追加する前記言語単位の組ごとに計算され保存される値が、前記ノードの表す各スコアつき言語単位系列と追加する言語単位とから計算される値の一部あるいはすべてあるいはそれらのうちの最良値であることを特徴とする請求項1に記載の連続音声認識方法。
- 前記ノードの表すスコアつき言語単位系列をあらかじめ定めた基準でグループに分け、該グループごとに各スコアつき言語単位系列と追加する言語単位とから計算される値の最良値を求め、それを前記ノードと追加する前記言語単位の組ごとに保存することを特徴とする請求項1に記載の連続音声認識方法。
- 前記ノードの表すスコアつき言語単位系列と追加する言語単位とから計算される値が、前記言語単位系列と前記追加する言語単位とから計算される言語スコアと、前記言語単位系列のスコアとから計算される値であることを特徴とする請求項1〜3のいずれか1項に記載の連続音声認識方法。
- 前記ノードの表すスコアつき言語単位系列をグループ分けする基準として、前記言語単位系列の最後の1単語または数単語が同じであれば同じグループにすることを特徴とする請求項3に記載の連続音声認識方法。
- 前記言語単位は、音素、音節、単語、フレーズ(単語の1つ以上の連鎖)のうちのいずれかであることを特徴とする請求項1〜5のいずれか1項に記載の連続音声認識方法。
- 途中認識結果候補をスコアつきの言語単位系列として持ち、1つ以上のスコアつき言語単位系列をあらかじめ定めた基準でまとめてノードとし、該ノードの後ろに言語単位を追加して新たなノードを作成していくことで認識結果を探索する音声認識処理をコンピュータに実行させるプログラムにおいて、前記ノードに前記言語単位を追加する際に、前記ノードと追加する前記言語単位の組ごとに計算される1つあるいは複数の値を保存する手順と、同じノードに追加される言語単位が以前に追加された言語単位と同じであるときには、前記の計算を省略して前記保存した値を利用する手順を含むことを特徴とする連続音声認識プログラム。
- 前記ノードと追加する前記言語単位の組ごとに計算され保存される値は、前記ノードの表す各スコアつき言語単位系列と追加する言語単位とから計算される値の一部あるいはすべてあるいはそれらのうちの最良値であることを特徴とする請求項7に記載の連続音声認識プログラム。
- 前記ノードの表すスコアつき言語単位系列はあらかじめ定めた基準でグループに分けられており、前記ノードに前記言語単位を追加する際に、前記ノードと追加する前記言語単位の組ごとに計算される値の最良値を保存する手順と、同じノードに追加される言語単位が以前に追加された言語単位と同じグループ内に属しているときには、前記の計算を省略して前記保存した値を利用する手順を含むことを特徴とする請求項7に記載の連続音声認識プログラム。
- 前記ノードの表すスコアつき言語単位系列と追加する言語単位とから計算される値は、前記言語単位系列と前記追加する言語単位とから計算される言語スコアと、前記言語単位系列のスコアとから計算される値であることを特徴とする請求項8に記載の連続音声認識プログラム。
- 前記ノードの表すスコアつき言語単位系列をグループ分けする基準として、前記言語単位系列の最後の1単語または数単語が同じであれば同じグループにす る手順を含むことを特徴とする請求項9に記載の連続音声認識プログラム。
- 前記言語単位は、音素、音節、単語、フレーズ(単語の1つ以上の連鎖)のうちのいずれかであることを特徴とする請求項7〜11のいずれか1項に記載の連続音声認識プログラム。
- 請求項7に記載の音声認識プログラムが格納された記憶装置と、入力された音声の特徴量をデジタルデータとして出力する音声入力手段と、前記記憶装置に格納された音声認識プログラムに従って前記音声入力手段から出力されたデジタルデータに対して音声認識処理を実行するコンピュータと、該コンピュータによる音声認識処理結果を出力する処理結果出力手段を備えていることを特徴とする連続音声認識装置。
- 請求項8に記載の音声認識プログラムが格納された記憶装置と、入力された音声の特徴量をデジタルデータとして出力する音声入力手段と、前記記憶装置に格納された音声認識プログラムに従って前記音声入力手段から出力されたデジタルデータに対して音声認識処理を実行するコンピュータと、該コンピュータによる音声認識処理結果を出力する処理結果出力手段を備えていることを特徴とする連続音声認識装置。
- 請求項9に記載の音声認識プログラムが格納された記憶装置と、入力された音声の特徴量をデジタルデータとして出力する音声入力手段と、前記記憶装置に格納された音声認識プログラムに従って前記音声入力手段から出力されたデジタルデータに対して音声認識処理を実行するコンピュータと、該コンピュータによる音声認識処理結果を出力する処理結果出力手段を備えていることを特徴とする連続音声認識装置。
- 請求項10に記載の音声認識プログラムが格納された記憶装置と、入力された音声の特徴量をデジタルデータとして出力する音声入力手段と、前記記憶装置に格納された音声認識プログラムに従って前記音声入力手段から出力されたデジタルデータに対して音声認識処理を実行するコンピュータと、該コンピュータによる音声認識処理結果を出力する処理結果出力手段を備えていることを特徴とする連続音声認識装置。
- 請求項11に記載の音声認識プログラムが格納された記憶装置と、入力された音声の特徴量をデジタルデータとして出力する音声入力手段と、前記記憶装置に格納された音声認識プログラムに従って前記音声入力手段から出力されたデジタルデータに対して音声認識処理を実行するコンピュータと、該コンピュータによる音声認識処理結果を出力する処理結果出力手段を備えていることを特徴とする連続音声認識装置。
- 請求項12に記載の音声認識プログラムが格納された記憶装置と、入力された音声の特徴量をデジタルデータとして出力する音声入力手段と、前記記憶装置に格納された音声認識プログラムに従って前記音声入力手段から出力されたデジタルデータに対して音声認識処理を実行するコンピュータと、該コンピュータによる音声認識処理結果を出力する処理結果出力手段を備えていることを特徴とする連続音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002005398A JP3818154B2 (ja) | 2002-01-11 | 2002-01-11 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002005398A JP3818154B2 (ja) | 2002-01-11 | 2002-01-11 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003208194A JP2003208194A (ja) | 2003-07-25 |
JP3818154B2 true JP3818154B2 (ja) | 2006-09-06 |
Family
ID=27644455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002005398A Expired - Fee Related JP3818154B2 (ja) | 2002-01-11 | 2002-01-11 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3818154B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013125203A1 (ja) * | 2012-02-21 | 2013-08-29 | 日本電気株式会社 | 音声認識装置、音声認識方法およびコンピュータプログラム |
-
2002
- 2002-01-11 JP JP2002005398A patent/JP3818154B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003208194A (ja) | 2003-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305634B (zh) | 解码方法、解码器及存储介质 | |
US8321218B2 (en) | Searching in audio speech | |
US6574597B1 (en) | Fully expanded context-dependent networks for speech recognition | |
JP5040909B2 (ja) | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム | |
US6801892B2 (en) | Method and system for the reduction of processing time in a speech recognition system using the hidden markov model | |
US20020123891A1 (en) | Hierarchical language models | |
US20050187769A1 (en) | Method and apparatus for constructing and using syllable-like unit language models | |
JP2000075895A (ja) | 連続音声認識用n最良検索方法 | |
JP5141687B2 (ja) | 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法 | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
JP3834169B2 (ja) | 連続音声認識装置および記録媒体 | |
JP4289715B2 (ja) | 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法 | |
JP2002215187A (ja) | 音声認識方法及びその装置 | |
US5764851A (en) | Fast speech recognition method for mandarin words | |
Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
JP4595415B2 (ja) | 音声検索システムおよび方法ならびにプログラム | |
JP3364631B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP3818154B2 (ja) | 音声認識方法 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP2000056795A (ja) | 音声認識装置 | |
JP3440840B2 (ja) | 音声認識方法及びその装置 | |
JP3265864B2 (ja) | 音声認識装置 | |
JP3503862B2 (ja) | 音声認識方法及び音声認識プログラムを格納した記録媒体 | |
JP4689497B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060523 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060605 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100623 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100623 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110623 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110623 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120623 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120623 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130623 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |