JP6804909B2

JP6804909B2 - 音声認識装置、音声認識方法及び音声認識プログラム

Info

Publication number: JP6804909B2
Application number: JP2016180447A
Authority: JP
Inventors: 直樹関根
Original assignee: Toshiba TEC Corp
Current assignee: Toshiba TEC Corp
Priority date: 2016-09-15
Filing date: 2016-09-15
Publication date: 2020-12-23
Anticipated expiration: 2036-09-15
Also published as: US11468902B2; US20200202870A1; CN107833578A; EP3296990B1; CN107833578B; EP3296990A1; US20180075850A1; JP2018045123A; US10600422B2

Description

本発明の実施形態は、音声認識方法及びこの方法で音声認識を行う音声認識装置並びにコンピュータを当該音声認識装置として機能させるための音声認識プログラムに関する。

近年、音声認識装置を搭載し、ユーザが外部から音声により所望の操作内容を与えると、その音声を認識して所望の操作内容に応じた動作を実行する電子機器がある。このような電子機器は、通常、発話ボタンを備え、音声認識装置は、この発話ボタンをユーザが操作したことを契機に音声の入力を受け付ける。しかし、音声入力を受け付ける前にユーザが発声したために音声信号の先頭部分を記録できず、音声認識装置が誤認識を引き起こすことがある。

このような不具合を防止するために、発話ボタンが操作されてから音声入力の受付が可能になるまでの間、表示画面に所定の画像を表示させてユーザに発声開始のタイミングを知らせる技術が知られている。しかしこの技術を適用できるのは表示画面を有する電子機器に限られる上、画像を表示させるために電子機器を制御するプロセッサの処理負荷が大きくなるという問題がある。

特開２００３−１７７７８９号公報

本発明の実施形態が解決しようとする課題は、ユーザに発声開始のタイミングを知らせることなく、音声信号の先頭部分を記録できなかったことによる誤認識を低減できる音声認識技術を提供しようとするものである。

一実施形態において、音声認識装置は、記録部と、受付手段と、認識手段と、判定手段と、修正手段とを備える。記録部は、音声入力手段を介して入力された音声信号を記録する。受付手段は、音声入力手段からの音声入力開始指示を受け付ける。認識手段は、入力開始指示を受け付けた後に記録部に記録された音声信号から音声発話を認識する。判定手段は、入力開始指示を受け付けてから音声入力手段を介して音声信号が入力されるまでの時間により音声発話の認識結果を修正するか否かを判定する。修正手段は、判定手段により修正すると判定された音声発話について、種々の単語同士の繋がりパターンの確率を記憶する言語辞書ファイルを参照して音声発話に係る単語同士の繋がりパターンについて確率を計算し、最大確率の繋がりパターンの音声発話に修正する。

一実施形態である音声認識装置のブロック構成図。同音声認識装置が有する単語辞書ファイルの一例を示す図。同音声認識装置が有する言語辞書ファイルの一例を示す図。同音声認識装置のプロセッサが音声認識プログラムにしたがって実行する情報処理手順を示す流れ図。音声信号波形の一例を示す図。音声信号波形の他の例を示す図。音声認識に係る状態遷移図。音声発話修正に係る状態遷移図。

以下、ユーザに発声開始のタイミングを知らせることなく、音声信号の先頭部分が記録できなかったことによる誤認識を低減できる音声認識装置の実施形態について、図面を用いて説明する。

図１は、本実施形態における音声認識装置１０の要部構成を示すブロック図である。音声認識装置１０は、音声入力の開始指示を受け付けると、開始指示を受け付けた後に入力された音声信号から音声発話を認識する。そして音声認識装置１０は、開始指示を受け付けてから音声信号が入力されるまでの時間により音声発話の認識結果を修正するか否かを判定し、修正する場合、認識された音声発話を修正する。このような音声認識装置１０は、例えば飲食店等で利用される携帯型の注文端末、工業機器の保守作業等で利用される保守記録端末、等の電子機器に組み込まれ、ユーザの発話による入力を支援する機能を果たすものである。

図１に示すように音声認識装置１０は、プロセッサ１１、メインメモリ１２、補助記憶デバイス１３、時計部１４、デジタイズ部１５、入力ポート１６、複数のデバイスインターフェース１７，１８及び出力部１９等を備える。また音声認識装置１０は、アドレスバス，データバス等を含むバスラインＢＬを備えており、このバスラインＢＬに、プロセッサ１１、メインメモリ１２、補助記憶デバイス１３、時計部１４、デジタイズ部１５、入力ポート１６、デバイスインターフェース１７，１８及び出力部１９が接続されている。

デジタイズ部１５は、音声入力手段であるマイクロフォン２０を接続し、マイクロフォン２０を介して入力されたアナログの音声信号をデジタルの音声信号に変換する。マイクロフォン２０は、音声認識装置１０を搭載した電子機器に内蔵されていてもよいし、着脱自在に外部接続されるものであってもよい。なお、マイクロフォン２０がデジタルデータの音声信号を出力するタイプのものである場合には、デジタイズ部１５を省略できる。

入力ポート１６は、音声入力の開始指示手段である発話ボタン３０を接続し、発話ボタン３０のオン信号を入力する。ユーザは、マイクロフォン２０に向かって発話する間、発話ボタン３０を押下する。発話ボタン３０は、押下されている間オン信号を出力する。発話ボタン３０は、１回目の押下でオン信号を出力し、２回目の押下でオン信号を停止するタイプのものであってもよい。

デバイスインターフェース１７は、入力デバイス４０を接続し、所定のプロトコルに従い入力デバイス４０から入力データを取り込む。入力デバイス４０は、キーボード、タッチパネル、ポインティングデバイス等である。デバイスインターフェース１８は、表示デバイス５０を接続し、所定のプロトコルに従い表示デバイス５０に表示データを出力する。表示デバイス５０は、液晶ディスプレイ、プラズマディスプレイ、ＥＬ（Electro Luminescent）ディスプレイ等である。なお、デバイスインターフェース１７，１８に接続されるデバイスは、入力デバイス４０及び表示デバイス５０に限定されるものではない。例えば表示デバイス５０の代わりにプリンタが接続されてもよい。また、入力デバイス４０の代わりにバーコードリーダ、ＲＦＩＤリーダライタ、カードリーダライタ等が接続されてもよい。

因みに、音声入力手段であるマイクロフォン２０と、開始指示手段である発話ボタン３０と、入力デバイス４０と、表示デバイス５０とは、音声認識装置１０を搭載した電子機器に設けられる。その場合において、発話ボタン３０は、入力デバイス４０の一種であるキーボードまたはタッチパネルに設けられていてもよい。

音声認識装置１０は、プロセッサ１１、メインメモリ１２及び補助記憶デバイス１３と、これらを接続するバスラインＢＬとによってコンピュータを構成する。
プロセッサ１１は、上記コンピュータの中枢部分に相当する。プロセッサ１１は、オペレーティングシステムやアプリケーションプログラムに従って、音声認識装置１０としての機能を実現するべく各部を制御する。

メインメモリ１２は、上記コンピュータの主記憶部分に相当する。メインメモリ１２は、不揮発性のメモリ領域と揮発性のメモリ領域とを含む。メインメモリ１２は、不揮発性のメモリ領域ではオペレーティングシステムやアプリケーションプログラムを記憶する。またメインメモリ１２は、プロセッサ１１が各部を制御するための処理を実行する上で必要なデータを不揮発性または揮発性のメモリ領域で記憶する。

メインメモリ１２は、揮発性のメモリ領域を、マイクロフォンを介して入力された音声信号の記録部として使用する。すなわちメインメモリ１２は、デジタイズ部１５でデジタルデータに変換された音声信号を所定のバッファリング単位で繰り返し上書き保存する領域を有する。なお、この記録部としての領域は、補助記憶デバイス１３に形成されていてもよい。

補助記憶デバイス１３は、上記コンピュータの補助記憶部分に相当する。例えばＥＥＰＲＯＭ（Electric Erasable Programmable Read-Only Memory）、ＨＤＤ（Hard Disc Drive）、ＳＳＤ（Solid State Drive）等が補助記憶デバイス１３として使用される。補助記憶デバイス２１３は、プロセッサ１１が各種の処理を行う上で使用するデータや、プロセッサ１１での処理によって生成されたデータを保存する。補助記憶デバイス１３は、上記のアプリケーションプログラムを記憶する場合もある。

補助記憶デバイス１３は、音声認識に必要な単語辞書ファイル１３１及び言語辞書ファイル１３２を記憶する。単語辞書ファイル１３１は、図２にその一例を示すように、種々の単語とその読み仮名とを予め記録したデータファイルである。例えば単語辞書ファイル１３１Ａは、単語「焼き」、「秋」、「肉」、「行く」、「柿」、「咲き」、「滝」、「泣き」、「破棄」、「薪」、「脇」に対してそれぞれ読み仮名「yaki」、「aki」、「niku」、「iku」、「kaki」、「saki」、「taki」、「naki」、「haki」、「maki」、「waki」を記録する。

言語辞書ファイル１３２は、図３（ａ），（ｂ）にその一例を示すように、種々の単語同士の繋がりの確率を予め記録したデータファイルである。例えば、言語辞書ファイル１３２Ａは、単語「焼き」の後に、単語「焼き」が繋がる確率として“0.1”を、単語「秋」が繋がる確率として“0.1”を、単語「肉」が繋がる確率として“0.5”を、単語「行く」が繋がる確率として“0.1”を記録する。同様に言語辞書ファイル１３２Ａは、単語「秋」の後に、単語「焼き」が繋がる確率として“0.1”を、単語「秋」が繋がる確率として“0.1”を、単語「肉」が繋がる確率として“0.1”を、単語「行く」が繋がる確率として“0.2”を記録する。

一方、言語辞書ファイル１３２Ｂは、単語「行く」の前に、単語「柿」が繋がる確率として“0.2”を、単語「咲き」が繋がる確率として“0.1”を、単語「滝」が繋がる確率として“0.1”を、単語「泣き」が繋がる確率として“0.1”を、単語「破棄」が繋がる確率として“0.1”を、単語「薪」が繋がる確率として“0.1” 、単語「脇」が繋がる確率として“0.1”を記録する。同様に言語辞書ファイル１３２Ｂは、単語「肉」の前に、単語「柿」が繋がる確率として“0.3”を、単語「咲き」が繋がる確率として“0.1”を、単語「滝」が繋がる確率として“0.1”を、単語「泣き」が繋がる確率として“0.1”を、単語「破棄」が繋がる確率として“0.1”を、単語「薪」が繋がる確率として“0.1” 、単語「脇」が繋がる確率として“0.2”を記録する。

図１に説明を戻す。
時計部１４は、音声認識装置１０の時刻情報源として機能する。プロセッサ１１は、時計部１４によって計時される時刻情報を基に、現在の日付及び時刻を計時する。なお、時計部１４は、音声認識装置１０が搭載された電子機器に備えられているものを兼用してもよい。

出力部１９は、この音声認識装置１０で認識された結果である音声発話のデータを外部へ出力する。データの出力先は、例えばこの音声認識装置１０を搭載した電子機器の制御ユニットである。

かかる構成の音声認識装置１０において、プロセッサ１１は、押下検知部１１１、閾値判定部１１２、音声認識部１１３、修正部１１４及び出力制御部１１５としての機能を有している。これらの機能は、音声認識プログラムに従ってプロセッサ１１が情報処理を行うことにより実現される。音声認識プログラムは、メインメモリ１２又は補助記憶デバイス１３に記憶されている。なお、音声認識プログラムがメインメモリ１２又は補助記憶デバイス１３に予め記憶されていなくてもよい。音声認識装置１０を搭載した電子機器が備える書き込み可能な記憶デバイスに、この電子機器とは個別に譲渡された音声認識プログラムがユーザなどの操作に応じて書き込まれてもよい。音声認識プログラムの譲渡は、リムーバブルな記録媒体に記録して、あるいはネットワークを介した通信により行うことができる。記録媒体は、ＣＤ−ＲＯＭ，メモリカード等のようにプログラムを記憶でき、かつ装置が読み取り可能であれば、その形態は問わない。

図４は、プロセッサ１１が音声認識プログラムに従って実行する情報処理手順を示す流れ図である。なお、図４に示すとともに以下に説明する処理の内容は一例であって、同様な結果を得ることが可能であればその処理手順及び処理内容は特に限定されるものではない。

音声認識プログラムが開始されると、プロセッサ１１は、Ａｃｔ１として発話ボタン３０が押下されるのを待ち受ける。入力ポート１６を介してオン信号が入力されると、プロセッサ１１は、発話ボタン３０が押下されたことを検知する（Ａｃｔ１にてＹＥＳ）。そしてプロセッサ１１は、Ａｃｔ２として時計部１４で計時されている時刻を検知時刻Ｐとしてメインメモリ１２の所定領域に記憶させる（第１時刻取得手段）。ここに、プロセッサ１１は、Ａｃｔ１及び２の処理を実行することにより、押下検知部（受付手段）１１１として機能する。

検知時刻Ｐを記憶させた後、プロセッサ１１は、Ａｃｔ３として音声信号が入力されるのを待ち受ける。デジタイズ部１５を介してデジタル化された音声信号、いわゆる音データが入力されると（Ａｃｔ３にてＹＥＳ）、プロセッサ１１は、Ａｃｔ４として時計部１４で計時されている時刻を音声開始時刻Ｄとしてメインメモリ１２の所定領域に記憶させる（第２時刻取得手段）。またプロセッサ１１は、Ａｃｔ５として音データをメインメモリ１２の記録部に記録する。

プロセッサ１１は、Ａｃｔ６として音データの閾値判定を行う。閾値判定は、周囲に恒常的に生じている音データを認識対象から除外し、ユーザが発声した音声のデータのみを認識対象とする機能である。具体的には、記録部に記録された所定のバッファリング単位の音データが所定の音量ＴＨＰ以上であるかを判定し、所定の音量ＴＨＰ以上である場合にはその音データを認識対象とする。

プロセッサ１１は、Ａｃｔ７として閾値判定の結果を確認する。閾値判定の結果、音データを認識対象外とする場合（Ａｃｔ７にてＮＯ）、プロセッサ１１は、Ａｃｔ３の処理に戻る。そしてプロセッサ１１は、Ａｃｔ３以降の処理を再度繰り返す。これに対し、音データを認識対象とする場合には（Ａｃｔ７にてＹＥＳ）、プロセッサ１１は、Ａｃｔ８の処理に進む。ここに、プロセッサ１１は、Ａｃｔ６及びＡｃｔ７の処理を実行することにより、閾値判定部１１２として機能する。

Ａｃｔ８では、プロセッサ１１は、音声認識を行う。すなわちプロセッサ１１は、記録部に記録された音データの周波数特性を鑑み、その音データの音声特徴量を算出する。そしてプロセッサ１１は、単語辞書ファイル１３１及び言語辞書ファイル１３２のデータを用いて確率的なパターン認識処理を行うことにより、音データから音声発話として認識した文字列を作成する。作成された音声発話の文字列は、メインメモリ１２に一時的に記憶される。因みに、このような音声認識の手法は周知であるので、ここでの詳細な説明は省略する。また、音声認識の手法は特に限定されるものではなく、他の手法を用いて音データから音声発話としての文字列を認識してもよい。ここにプロセッサ１１は、Ａｃｔ８の処理を実行することにより、音声認識部（認識手段）１１３として機能する。

音データの音声認識を終えると、プロセッサ１１は、Ａｃｔ９として音声発話の認識結果を修正するか否かを判定する（判定手段）。具体的にはプロセッサ１１は、Ａｃｔ２の処理で取得した検知時刻ＰからＡｃｔ４の処理で取得した音声開始時刻Ｄまでの経過時間（Ｄ−Ｐ）が、予め設定された閾値時間Ｔよりも短いか否かを調べる。そして短い場合には、プロセッサ１１は修正の必要有りと判定する。これに対して短くない場合には、プロセッサ１１は修正の必要無しと判定する。必要有りと判定した場合（Ａｃｔ９にてＮＯ）、プロセッサ１１は、Ａｃｔ１０の処理を実行した後、Ａｃｔ１１の処理へと進む。必要無しと判定した場合には（Ａｃｔ９にてＹＥＳ）、プロセッサ１１は、Ａｃｔ１０の処理を実行することなく、Ａｃｔ１１の処理へと進む。

Ａｃｔ１０では、プロセッサ１１は、Ａｃｔ８の処理で認識された音声発話を修正する（修正手段）。なお、音声発話の修正手法については後述する。ここにプロセッサ１１は、Ａｃｔ９及びＡｃｔ１０の処理を実行することにより、修正部１１４として機能する。

Ａｃｔ１１では、プロセッサ１１は、Ａｃｔ８の処理で認識された音声発話又はＡｃｔ１０の処理で修正された音声発話のデータを、出力部１９を介して外部へと出力する。あるいはプロセッサ１１は、音声発話のデータを表示デバイス５０へと出力して、認識結果を表示デバイスの画面上に表示させてもよい。ここにプロセッサ１１は、Ａｃｔ１１の処理を実行することにより、出力制御部１１５として機能する。
以上で、音声認識プログラムに基づくプロセッサ１１の処理は終了する。

図５及び図６は、ユーザが「や・き・に・く」と発声した際の音声信号（アナログデータ）の具体例である。図５の例において、発話ボタン３０の押下検知時刻Ｐは「Ｐ１」で示されており、音声開始時刻Ｄは「Ｄ１」で示されている。すなわち図５の例では、押下検知時刻Ｐから音声開始時刻Ｄまでの経過時間はＴ１で示されている。同様に、図６の例において、発話ボタン３０の押下検知時刻Ｐは「Ｐ２」で示されており、音声開始時刻Ｄは「Ｄ２」で示されている。すなわち図６の例では、押下検知時刻Ｐから音声開始時刻Ｄまでの経過時間はＴ２で示されている。

図５の例の場合、経過時間Ｔ１は十分に長いため、記録部に記録された音データの先頭部分に欠落は生じていない。その結果、音データは「ya・ki・ni・ku」であり、認識された音声発話は「焼き肉」となる。これに対し、図６の例の場合は経過時間Ｔ２が短いため、記録部に記録された音データの先頭部分“ｙ”が欠落している。その結果、音データは「a・ki・ni・ku」であり、認識された音声発話は、図７の状態遷移図から「秋行く」となる。つまり、先頭の音データ「a」と次の音データ「ki」とから、単語「秋」が認識され、この単語「秋」に続く音データが「niku」の場合の確率は0.1、「iku」の場合の確率は0.2であることから、音声発話「秋行く」と認識される。

ここで、本実施形態の音声認識装置１０は、押下検知時刻Ｐから音声開始時刻Ｄまでの経過時間が予め設定された閾値時間Ｔよりも短い場合、プロセッサ１１が音声発話の修正処理を行う。今、閾値時間Ｔが「Ｔ１＞Ｔ＞Ｔ２」の関係にあると仮定する。この場合、プロセッサ１１は、図５の例では修正を行わないが、図６の例では修正を実行する。

具体的にはプロセッサ１１は、先ず、音データ「a・ki・ni・ku」の先頭「a」が母音である場合、この母音に子音を示す「k,s,t,n,h,m,y,r,w」を順次付加する。すなわちプロセッサ１１は、音データ「ka・ki・ni・ku」、「sa・ki・ni・ku」「ta・ki・ni・ku」、「na・ki・ni・ku」、「ha・ki・ni・ku」、「ma・ki・ni・ku」、「ya・ki・ni・ku」、「ra・ki・ni・ku」、「wa・ki・ni・ku」を作成する。そしてプロセッサ１１は、これらの音データのそれぞれについて、単語辞書ファイル１３１及び言語辞書ファイル１３２を用いたパターン認識処理を再度実行する。その結果、図８に示す状態遷移図が作成されたと仮定すると、プロセッサ１１は、この状態遷移図から繋がりの確率が最も高い音データ「ya・ki・ni・ku」を選出する。そしてプロセッサ１１は、音声発話「秋行く」を「焼き肉」に修正する。

このように、本実施形態の音声認識装置１０によれば、ユーザが発話ボタン３０を押下してから発声を開始するまでの時間が短く、記録部に記録された音声信号の先頭に欠落が生じたために誤認識してしまった場合でも、高い確率をもって音声発話を修正することができる。したがって、ユーザに発声開始のタイミングを知らせることなく、音声信号の先頭部分を記録できなかったことによる誤認識を低減できるので、認識精度の高い音声認識装置を提供することができる。

また音声認識装置１０によれば、表示画面に所定の画像を表示させてユーザに発声開始のタイミングを知らせる必要もなくなる。したがって、表示画面を有していない電子機器にも搭載できる上、プロセッサ１１の処理負荷が大きくなる懸念もない。

また音声認識装置１０のプロセッサ１１は、ユーザが発話ボタン３０を押下してから発声を開始するまでの時間が所定の閾値時間Ｔよりも短いときに修正を行い、閾値時間Ｔ以上のときには修正を行わない。したがって、ユーザが発話ボタン３０を押下してから直ぐに発声したときだけ修正処理を行えばよいので、この点からもプロセッサ１１の処理負荷が大幅に増加するようなことはない。

またプロセッサ１１は、開始指示を受け付けた第１時刻を取得する第１時刻取得手段と、音声信号の入力が開始された第２時刻を取得する第２時刻取得手段とを備えている。したがって、ユーザが発話ボタン３０を押下してから発声を開始するまでの時間を正確に把握できるので、適切な閾値時間Ｔを設定することで、無駄な修正処理を実施するのを未然に防ぐことができる。

また、認識した音声発話を修正する場合、プロセッサ１１は、その音声発話の先頭の単語を、音声発話の２番目以降の単語と繋がりのある他の単語に置き換えて修正する。したがって、修正処理も比較的容易であり短時間で実行できるので、プロセッサ１１の処理負荷が大幅に増加して認識速度が低下する懸念もない。

以下、他の実施形態について説明する。
前記実施形態では、プロセッサ１１が、図４のＡｃｔ２にて検知時刻Ｐを記憶し、Ａｃｔ４にて音声開始時刻Ｄを記憶した。他の実施形態では、Ａｃｔ１にて発話ボタン３０が押下されたことを検知したならば、プロセッサ１１がタイマをスタートさせ、Ａｃｔ３にて音データの入力を検知したならば、プロセッサ１１がタイマをストップさせる。そしてＡｃｔ９では、プロセッサ１１がタイマの計時時間と閾値時間Ｔとを比較して、修正処理を行うか否かを判定する。このような構成であっても、前記実施形態と同様な作用効果を奏することができる。

この他、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
以下、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［１］音声入力手段を介して入力された音声信号を記録する記録部と、音声入力の開始指示を受け付ける受付手段と、前記受付手段により前記開始指示を受け付けた後に前記記録部に記録された音声信号から音声発話を認識する認識手段と、前記受付手段により前記開始指示を受け付けてから前記音声入力手段を介して音声信号が入力されるまでの時間により前記音声発話の認識結果を修正するか否かを判定する判定手段と、前記判定手段により修正すると判定された音声発話を修正する修正手段と、を具備する音声認識装置。
［２］前記判定手段は、前記時間が所定の閾値時間よりも短いとき修正すると判定する、付記［１］記載の音声認識装置。
［３］前記受付手段により前記開始指示を受け付けた第１時刻を取得する第１時刻取得手段と、前記音声入力手段を介して音声信号の入力が開始された第２時刻を取得する第２時刻取得手段と、をさらに具備し、前記判定手段は、前記第１時刻から前記第２時刻までの経過時間が前記閾値時間よりも短いとき修正すると判定する、付記［２］記載の音声認識装置。
［４］前記修正手段は、前記認識手段で認識した音声発話の先頭の単語を、前記音声発話の２番目以降の単語と繋がりのある他の単語に置き換えて修正する、付記［１］乃至［３］のうちいずれか１項記載の音声認識装置。
［５］音声入力の開始指示を受け付け、前記開始指示を受け付けた後に音声入力手段を介して入力された音声信号から音声発話を認識し、前記開始指示を受け付けてから前記音声信号が入力されるまでの時間により前記音声発話の認識結果を修正するか否かを判定し、修正する場合、前記認識された音声発話を修正する音声認識方法。
［６］音声入力手段を接続するとともに、前記音声入力手段を介して入力された音声信号を記録する記録部を備えたコンピュータに、音声入力の開始指示を受け付ける機能と、前記開始指示を受け付けた後に前記記録部に記録された音声信号から音声発話を認識する機能と、前記開始指示を受け付けてから前記音声入力手段を介して音声信号が入力されるまでの時間により前記音声発話の認識結果を修正するか否かを判定する機能と、前記修正すると判定された音声発話を修正する機能と、を実現させるための音声認識プログラム。

１０…音声認識装置、１１…プロセッサ、１２…メインメモリ、１３…補助記憶デバイス、１４…時計部、１９…出力部、２０…マイクロフォン、３０…発話ボタン、１１１…押下検知部、１１２…閾値判定部、１１３…音声認識部、１１４……修正部、１１５…出力制御部、１３１、１３１Ａ…単語辞書ファイル、１３２、１３２Ａ，１３２Ｂ…言語辞書ファイル。

Claims

音声入力手段を介して入力された音声信号を記録する記録部と、
音声入力の開始指示を受け付ける受付手段と、
前記受付手段により前記開始指示を受け付けた後に前記記録部に記録された音声信号から音声発話を認識する認識手段と、
前記受付手段により前記開始指示を受け付けてから前記音声入力手段を介して音声信号が入力されるまでの時間により前記音声発話の認識結果を修正するか否かを判定する判定手段と、
前記判定手段により修正すると判定された音声発話について、種々の単語同士の繋がりパターンの確率を記憶する言語辞書ファイルを参照して前記音声発話に係る単語同士の繋がりパターンについて確率を計算し、最大確率の繋がりパターンの音声発話に修正する修正手段と、
を具備する音声認識装置。
前記受付手段により前記開始指示を受け付けた第１時刻を取得する第１時刻取得手段と、
前記音声入力手段を介して音声信号の入力が開始された第２時刻を取得する第２時刻取得手段と、
をさらに具備し、
前記判定手段は、前記第１時刻から前記第２時刻までの経過時間が所定の閾値時間よりも短いとき修正すると判定する、請求項１記載の音声認識装置。
前記修正手段は、前記認識手段で認識した音声発話の先頭の単語を、前記音声発話の２番目以降の単語と繋がりのある他の単語に置き換えて単語同士の繋がりパターンについて確率を計算し、最大確率の繋がりパターンの音声発話に修正する、請求項１又は２記載の音声認識装置。
前記修正手段は、前記認識手段で認識した音声発話の先頭の語が母音である場合、その母音に子音を順次付加した単語と前記音声発話の２番目以降の単語との単語同士の繋がりパターンについて確率を計算し、最大確率の繋がりパターンの音声発話に修正する、請求項１又は２記載の音声認識装置。
音声入力の開始指示を受け付け、
前記開始指示を受け付けた後に音声入力手段を介して入力された音声信号から音声発話を認識し、
前記開始指示を受け付けてから前記音声信号が入力されるまでの時間により前記音声発話の認識結果を修正するか否かを判定し、
修正する場合、その修正すると判定された音声発話について、種々の単語同士の繋がりパターンの確率を記憶する言語辞書ファイルを参照して前記音声発話に係る単語同士の繋がりパターンについて確率を計算し、最大確率の繋がりパターンの音声発話に修正する音声認識方法。
音声入力手段を接続するとともに、前記音声入力手段を介して入力された音声信号を記録する記録部を備えたコンピュータに、
音声入力の開始指示を受け付ける機能と、
前記開始指示を受け付けた後に前記記録部に記録された音声信号から音声発話を認識する機能と、
前記開始指示を受け付けてから前記音声入力手段を介して音声信号が入力されるまでの時間により前記音声発話の認識結果を修正するか否かを判定する機能と、
前記修正すると判定された音声発話について、種々の単語同士の繋がりパターンの確率を記憶する言語辞書ファイルを参照して前記音声発話に係る単語同士の繋がりパターンについて確率を計算し、最大確率の繋がりパターンの音声発話に修正する機能と、
を実現させるための音声認識プログラム。