JP2010204442A

JP2010204442A - 音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体

Info

Publication number: JP2010204442A
Application number: JP2009050613A
Authority: JP
Inventors: Fumihiro Adachi; 史博安達; Ryosuke Isotani; 亮輔磯谷; Toru Iwazawa; 透岩沢; Takeshi Hanazawa; 健花沢; Seiya Osada; 誠也長田; Takenori Tsujikawa; 剛範辻川; Takayuki Arakawa; 隆行荒川; Koji Okabe; 浩司岡部
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-03-04
Filing date: 2009-03-04
Publication date: 2010-09-16

Abstract

【課題】音声認識結果の誤りの原因が認識モードの誤りの可能性があることにユーザが気付く契機を与える音声認識装置を提供する。
【解決手段】あらかじめ備えている複数の認識モードの中から、入力音声に対する音声認識を行うための少なくとも１つ以上の認識モードを選択して、第１の認識モードとしてユーザが入力手段２０から指定すると、認識モード設定手段１１は該第１の認識モードが規定する条件に設定し、音声認識手段１２は該条件に基づいて入力音声の認識処理を行って、音声認識結果を当該ユーザに出力手段１４を介して出力する。さらに、フィードバック生成手段１３によって、ユーザが指定した前記第１の認識モードとは異なる第２の認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報をあらかじめ定めたタイミングで生成して、当該ユーザに出力手段１４を介して出力する。
【選択図】図３

Description

本発明は、音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体に関し、特に、音声認識を行うための認識モードを指定する機能を有する場合において、ユーザが認識モードの指定を誤って利用した際にフィードバックを行う仕組みを有する音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体に関する。

従来、ユーザから指定された認識モードに設定してから、ユーザが入力した音声を認識する音声認識システムがあった。例えば、「男性」、「女性」という認識モードがあり、ユーザが「男性」を指定すると、音声認識システムは、男性用の性別依存音響モデルを用いて入力音声を音声認識処理する。また、例えば、「日本語」、「英語」という認識モードがあり、ユーザが「日本語」を指定すると、音声認識システムは、日本語の言語モデル・単語辞書を用いて入力音声を音声認識処理する。

一方で、例えば、特許文献１の特開平０７−１０４７８０号公報「不特定話者連続音声認識方法」のように、男性用の性別依存音響モデルおよび女性用の性別依存音響モデルのような複数の音響モデルを同時に用いて認識処理を実行する音声認識システムもある。このように、複数のモデルを同時に用いて認識処理を行う音声認識システムは、ユーザが認識モードを選択して設定するという手間がなくなるものの、本来適用すべきモデルを用いた認識結果とはならず、認識精度が悪くなるケースがある。また、特に、端末などのメモリやＣＰＵ等のリソースに制約が大きい環境で使用する場合には、多くのメモリと処理能力とを要する同時認識の技術は、使うことができなく、前述のような認識モードを指定して利用する音声認識システムの方が望ましい。

特開平０７−１０４７８０号公報（第３−５頁）

しかしながら、前述したような認識モードを指定して利用する音声認識システムにおいては、ユーザが認識モードの指定を誤って音声認識システムを使用するケースが発生する。指定を誤って使用した場合には、全く異なる認識結果が出力されることが多くなる。

さらに、指定を誤って使用していても、例えば、性別など、認識モードの種類によっては、誤った音声認識結果が出力される原因として、指定した認識モードの誤りが誤認識の原因であることにユーザは気付き難い。その結果、ユーザ自身の発声に問題があったと思い違いをして、再度発声して音声認識をやり直すことになる場合が多い。認識モードの指定が誤っている限り、認識モードを正しく設定し直さなければ、再び誤った認識結果が出力されることになり、徒らに、無駄な操作が繰り返される結果を招いてしまう。

（本発明の目的）
本発明は、かかる事情に鑑みてなされたものであり、本発明の目的とするところは、ユーザに対して適切なフィードバックを返すことによって、音声認識結果の誤りの原因が指定した認識モードの誤りに可能性があることにユーザが気付く契機を与えることを可能とする音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体を提供することにある。

前述の課題を解決するため、本発明による音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体は、次のような特徴的な構成を採用している。下記（１）及び（１２）なる番号は請求項の項番号にそれぞれ対応している。

（１）入力音声に対する音声認識を行うための少なくとも１つ以上の認識モードを、あらかじめ備えている複数の認識モードの中からユーザが選択して第１の認識モードとして指定し、該第１の認識モードが規定する条件に基づいて、前記入力音声に対する音声認識を行い、音声認識結果を当該ユーザに対して出力する音声認識手段を備えた音声認識装置において、ユーザが指定した前記第１の認識モードとは異なる第２の認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報をあらかじめ定めたタイミングで生成して当該ユーザに対して出力するフィードバック生成手段を備えている音声認識装置。
（１２）入力音声に対する音声認識を行うための少なくとも１つ以上の認識モードを、あらかじめ備えている複数の認識モードの中からユーザが選択して第１の認識モードとして指定し、該第１の認識モードが規定する条件に基づいて、前記入力音声に対する音声認識を行い、音声認識結果を当該ユーザに対して出力する音声認識方法であって、ユーザが指定した前記第１の認識モードとは異なる第２の認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報をあらかじめ定めたタイミングで生成して当該ユーザに対して出力する音声認識方法。

本発明の音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体によれば、以下のような効果を奏することができる。

音声認識結果のみならず、認識モードを設定し直して再度音声認識を行うか否かを問い合わせるフィードバック情報をユーザに返送するので、音声認識結果の誤りの原因が指定した認識モードの誤りである可能性があることをユーザに気付かせることが可能となる。

本発明に係る音声認識装置の内部構成の一例を示すブロック構成図である。図１に示す音声認識装置の動作の一例を示すフローチャートである。本発明に係る音声認識装置の全体構成の一例を示すブロック構成図である。本発明に係る音声認識装置の全体構成の他の例を示すブロック構成図である。本発明に係る音声認識装置の全体構成のさらに異なる例を示すブロック構成図である。本発明に係る音声認識装置の全体構成のさらに異なる例を示すブロック構成図である。

以下、本発明による音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体の好適な実施形態について添付図を参照して説明する。なお、以下の説明においては、本発明による音声認識装置、音声認識方法について説明するが、かかる音声認識方法をコンピュータにより実行可能な音声認識プログラムとして実施するようにしても良いし、あるいは、音声認識プログラムをコンピュータにより読み取り可能な記録媒体に記録するようにしても良いことは言うまでもない。

（本発明の特徴）
本発明の実施形態の説明に先立って、本発明の特徴についてその概要をまず説明する。本発明の音声認識装置は、ユーザが指定する第１の認識モードを用いて入力音声を音声認識処理する音声認識手段と、該第１の認識モードとは異なる第２の認識モードを用いて再度音声認識処理を行うか否かを問い合わせるフィードバック情報を生成するフィードバック生成手段と、を備えることにより、ユーザに対して、音声認識結果のみならず、認識モードの確認をユーザに行わせる契機となるフィードバック情報を返すことを可能としている点に特徴を有している。

（実施形態の構成例）
次に、本発明に係る音声認識装置の構成について、その一例を、図１を用いて説明する。図１は、本発明に係る音声認識装置の内部構成の一例を示すブロック構成図であり、本発明に関連するブロックについてのみ示している。

図１を参照すると、本発明の一例を示す音声認識装置１０は、認識モード設定手段１１、音声認識手段１２、フィードバック生成手段１３、出力手段１４を少なくとも備えている。認識モード設定手段１１は、外部からのユーザ操作により選択された認識モード（第１の認識モード）を用いるように設定する。音声認識手段１２は、認識モード設定手段１１によって設定された認識モード（第１の認識モード）に対応する音声認識用のモデル等を用いて、入力された音声に対して音声認識処理を実施し、認識結果としての単語列を出力手段１４に供給する。

また、フィードバック生成手段１３は、認識モード設定手段１１が設定した認識モード（第１の認識モード）とは、異なる認識モード（第２の認識モード）に対応する音声認識用のモデル等を用いて、同一の入力音声に対して再度音声認識処理を行うか否かを問い合わせるフィードバック情報を生成して、出力手段１４に供給する。出力手段１４は、音声認識手段１２から供給される認識結果としての単語列をユーザに対して出力する。また、フィードバック生成手段１３から供給されるフィードバック情報についてもユーザに出力する。

次に、図２のフローチャートを参照して、図１に示す音声認識装置１０の動作について詳細に説明する。図２は、図１に示す音声認識装置１０の動作の一例を示すフローチャートである。

図２のフローチャートにおいて、まず、ユーザ操作の内容に応じて認識モード設定手段１１が認識モードを設定する（ステップＳ１０１）。しかる後、ユーザは音声を入力する（ステップＳ１０２）。

音声の入力を検知すると、認識モード設定手段１１で設定された認識モードに対応するモデル等を用いて、音声認識手段１２は、入力音声に対して音声認識処理を実施し、音声認識結果として単語列を生成する（ステップＳ１０３）。音声認識結果として単語列が生成されると、出力手段１４は、音声認識手段１２で生成された音声認識結果の単語列をユーザに対して出力する（ステップＳ１０４）。

一方、フィードバック生成手段１３は、設定した認識モード（第１の認識モード）とは異なる認識モード（第２の認識モード）に対応するモデル等を用いて、再度、同一の入力音声に対して音声認識処理を行うか否かを問い合わせるフィードバック情報を生成し、ユーザに対して出力する（ステップＳ１０５）。

次に、音声認識手段１２による音声認識結果の単語列とフィードバック生成手段１３によるフィードバック情報とを受け取ったユーザから再度の音声認識処理の指示があるか否かをチェックする（ステップＳ１０６）。ユーザから認識モードを変更して再度認識処理を行う旨の反応があった場合には（ステップＳ１０６のＹｅｓ）、認識モード設定手段１１は、新たな認識モード（第２の認識モード）に変更して設定する（ステップＳ１０７）。しかる後、ユーザが再度音声を入力する（ステップＳ１０８）。

音声の入力を再度検知すると、認識モード設定手段１１で新たに設定された認識モード（第２の認識モード）に対応するモデル等を用いて、音声認識手段１２は、再度入力された入力音声に対して音声認識処理を実施し、音声認識結果として単語列を生成する（ステップＳ１０９）。音声認識結果として単語列が生成されると、出力手段１４は、音声認識手段１２で生成された音声認識結果の単語列を再度ユーザに対して出力するとともに、フィードバック生成手段１３が再度生成したフィードバック情報をユーザに対して出力するという動作を繰り返す。

以上のように、本発明に係る音声認識装置は、ユーザが指定した認識モード（第１の認識モード）とは異なる認識モード（第２の認識モード）を用いて認識処理を行うか否かを問い合わせるフィードバック情報をユーザに出力して、ユーザに対して、認識モード（第１の認識モード）を変更して再度認識処理を行うか否かというフィードバックを行うことにより、認識モード（第１の認識モード）の指定誤りが認識結果誤りの原因かも知れないということをユーザに気付かせることを可能としている。

次に、図１の音声認識装置について、さらに詳細な構成を、図３を用いて説明する。図３は、本発明に係る音声認識装置の全体構成の一例を示すブロック構成図であり、図１に示した音声認識装置内の回路ブロック（図１と同じ符号を付している）と、当該音声認識装置１０へ認識モードや音声を入力する入力手段２０も含めて示している。なお、入力手段２０は、場合によっては、音声認識装置１０内に配置しても構わない。

図３に示す音声認識装置の全体構成において、入力手段２０は、ユーザが指定した認識モード（第１の認識モード）の情報を認識モード設定手段１１に対して供給し、ユーザが発声した入力音声を音声認識手段１２等に供給するものであり、例えば、表示画面、ボタン、キーボード、マイクなどを有して構成されている。

図３に示す音声認識装置１０内の認識モード設定手段１１は、図１の場合と同様に、入力手段２０を介して外部から入力されてくるユーザ操作に応じた認識モード（第１の認識モード）を用いた音声認識処理を行うように設定する。つまり、音声認識手段１２の音声認識処理で用いる音響モデル・言語モデル・単語辞書等をユーザが指定する認識モード（第１の認識モード）に対応したものに設定する。

ここで、入力手段２０には例えば認識モードに対応するモード指定ボタンなどが備えられており、ユーザはモード指定ボタンを押下することによって、認識モード（第１の認識モード）を指定する。認識モード（第１の認識モード）を設定する場合、１つの認識モードのみに限らず、性別に関する認識モード・言語に関する認識モードなど、複数の認識モードを一度に設定するようにしても良い。

認識モードとしては、例えば、「男性」、「女性」という性別に関する認識モードがあり、ユーザが「男性」の認識モードを指定した場合、認識モード設定手段１１は、男性による入力音声をより高精度に認識することができるように作成された男性用の性別依存音響モデルを用いるように設定する。また、「日本語」、「英語」という言語に関する認識モードがあり、ユーザが「日本語」の認識モードを指定した場合、認識モード設定手段１１は、日本語の入力音声をより高精度に認識できるように作成された言語モデルや単語辞書を用いるように設定する。このように、認識モードには、音響モデル・言語モデル・単語辞書といった音声認識処理において用いるモデル類が対応している。

音声認識手段１２は、認識モード設定手段１１により設定されたモデル類を用いて、入力音声に対する音声認識処理を実施し、認識結果を単語列として生成する。音声認識処理は、例えば、入力音声をＭＦＣＣ(Mel-Frequency
Cepstral Coefficient：メル周波数ケプストラム係数)などの音声特徴量に変換する音響分析処理や、入力音声の中から音声区間と無音区間とを分ける音声検出処理や、音声特徴量に対して音響モデル・言語モデル・単語辞書といったモデル類を用いて入力音声に類似する単語列を生成する探索処理などから構成されるが、当業者にとって周知の技術であるため詳細な説明は省略する。

フィードバック生成手段１３は、前述したように、認識モード設定手段１１が設定した認識モード（第１の認識モード）とは異なる認識モード（第２の認識モード）に変更して再度音声認識処理を行うか否かを問い合わせるフィードバック情報を生成して、出力手段１４に供給する。例えば、「認識モードを変更してやり直しますか」のように、認識モードを変更して再認識を行うか否かをユーザに尋ねるようなフィードバック情報を生成すれば良い。

出力手段１４は、前述したように、音声認識手段１２から供給される音声認識結果としての単語列をユーザに対して出力する。また、フィードバック生成手段１３から供給されるフィードバック情報をユーザに対して出力する。

フィードバック情報をユーザに対して出力した後において、ユーザが再度音声認識を処理する旨の反応をした場合は、認識モード設定手段１１は、新たな認識モード（第２の認識モード）に設定し直し、再び、入力される音声に対して音声認識手段１２が音声認識処理することになる。ここで、ユーザが再度音声認識を処理する旨の反応は、例えば、出力したフィードバック情報に対して「はい」と音声により回答する、あるいは、最初に指定した認識モード（第１の認識モード）とは異なる認識モード（第２の認識モード）のモード指定ボタンを押下するなどによって行う。

なお、再度音声認識を処理する旨の反応をする場合、例えば、ユーザが再度認識モードを指定し直すことにより、指定された認識モードに変更すれば良い。あるいは、択２の認識モードの場合は、最初に設定した認識モード（第１の認識モード）とは異なる認識モード（第２の認識モード）を自動的に選択して設定するようにしても良いし、あるいは、認識結果の誤り率を学習する機能を備えている場合には、学習結果に応じた認識モードを第２の認識モードとして選択して設定するようにしても良い。

以上のように、認識モードを変更して再度音声認識処理を行うか否かを問い合わせるフィードバック情報をユーザに対して出力することによって、直前に出力されている音声認識結果の単語列に誤りが含まれていた場合、その誤り原因が、指定した認識モードの誤りである可能性をユーザに気付かせる契機を与えることが可能となる。

（他の実施形態）
次に、前述した実施形態とは異なる実施形態についてさらに説明する。

音声認識装置１０内に音声データを記憶する音声記憶手段を備えることにし、音声認識手段１２は、音声認識を行う対象の入力音声の全部あるいは一部を音声データとして該音声記憶手段に記憶しておくようにしても良い。ユーザから再度音声認識を処理する旨の反応があった場合には、音声記憶手段に記憶していた音声データを用いて音声認識処理を行うことができる。これにより、認識モードを変更した後で、ユーザが、再度、音声の入力をやり直す手間を軽減することが可能となる。

なお、音声記憶手段に記憶していた音声データを用いて音声認識処理を行うことを可能としている場合、フィードバック生成手段１３は、認識モード設定手段１１が最初に設定した認識モード（第１の認識モード）とは異なる認識モード（第２の認識モード）に変更して、音声記憶手段に記憶していた音声データに対して再度音声認識処理を行うか否かを問い合わせるフィードバック情報を生成する。例えば、「認識モードを変更して先ほどの音声の認識処理をやり直しますか」のようなフィードバック情報を生成すれば良い。

音声記憶手段への音声データの記憶に関しては、入力された音声を例えば波形形式でそのまま記憶しても構わないし、音響分析処理後の音声特徴量のような変換処理を加えた形式で記憶しても構わない。音声特徴量の形式で音声記憶手段へ記憶している場合には、音声データに対して再度の音声認識処理を行う際に、音響分析処理を省略することができるので、再度の音声認識処理における処理量を減らすことが可能となる。

また、入力された音声を全て音声記憶手段へ記憶しても構わないし、音声検出処理により音声区間として判断された区間のみを記憶しても構わない。音声区間として判断された区間のみを音声記憶手段へ記憶する場合、記憶する音声データのサイズを減らすことが可能となり、また、音声データに対して再度の音声認識処理を行う際に、音声検出処理を省略することができるので、再度の音声認識処理における処理量を減らすことが可能となる。

また、再度音声認識処理を行うか否かを問い合わせるフィードバック情報をユーザに出力し、ユーザから音声認識処理をやり直す旨の反応が得られるタイミングに先行して、認識モードを変更して、音声記憶手段に記憶している音声データに対して音声認識処理を行うようにしても良い。この場合、ユーザから音声認識処理をやり直す旨の反応を受け取ってから、音声認識処理結果が得られるまでの時間を短くすることが可能となる。

また、フィードバック生成手段１３が生成したフィードバック情報つまり前の認識モード（第１の認識モード）とは異なる認識モード（第２の認識モード）で前に入力した音声に対して再度音声認識処理を行うか否かを問い合わせるフィードバック情報をユーザに対して出力するタイミングは、音声認識結果の単語列をユーザに出力するタイミングとほぼ同時ではなく、ユーザが次の何らかの操作を入力手段２０で行ったことを検知したタイミングで行うようにしても良い。ユーザが入力手段２０で次の操作を行うのは、当該ユーザが、出力された音声認識結果の単語列を見て、認識モードの設定誤りに気付き、音声認識処理をやり直そうとして認識モードを再度指定する場合がある。また、別の発声をしようとして認識モードを変更している場合もある。

したがって、ユーザが次の何らかの操作を入力手段２０で行ったことを検知したタイミングで、フィードバック情報をユーザに対して出力するようにすれば、認識モードの設定誤りに気付いて認識モードを指定し直そうとしているかあるいは別の発声をしようとして認識モードを変更しようとしているかのいずれの場合であっても、フィードバック情報を生成して出力するという手間を掛けることもなく、認識モードの変更処理を行うことができるとともに、ユーザ自らが認識モードの指定誤りに気付いて音声認識処理をやり直す場合であっても、フィードバック情報を得た後で、音声入力の操作を最初からやり直すという手間を軽減することが可能となる。

また、フィードバック生成手段１３が生成するフィードバック情報として、前に入力した音声に対して再度音声認識処理を行うか否かを問い合わせる情報とともに、変更すべき認識モード候補を含めてフィードバック情報を生成するようにしても良い。例えば、「女性の認識モードに変更して再認識しますか？」のようなフィードバック情報をユーザに対して出力する。また、変更すべき認識モード候補のモード指定ボタンを点滅表示させたりすることによって、ユーザが選択すべき認識モードの候補を明確にユーザに提示するようにしても良い。

なお、変更すべき認識モードの候補は、例えば、２択の認識モードであれば、ユーザが最初に指定していない方の認識モードと判断すれば良いし、あるいは、認識モードを誤った場合の誤りパターンを事前に学習しておき、学習した誤りパターンから判断するようにしても良い。また、前述のように、認識モードの候補を確認したユーザが認識モードを新たに指定した場合は、ユーザによって指定された認識モードを用いれば良い。これにより、認識モードの指定方法を明確にするとともに、よりスムーズな変更が可能となる。

また、音声認識結果の単語列を出力する都度、フィードバック情報を出力するのではなく、フィードバック生成手段１３がフィードバック情報を生成するか否かを制御するようにしても良い。つまり、音声認識結果の単語列の誤り度合いを判定して、フィードバック情報を生成するか否かを制御するようにしても良い。

例えば、図４に示すように、音声認識装置１０Ａとして、音声認識手段１２から供給された音声認識結果の単語列の誤り度合いを判定する誤認識判定手段１５を備え、誤認識判定手段１５の判定結果として出力される、音声認識結果の単語列の誤りの発生度合いに応じて、フィードバック情報を生成するか否かの制御情報をフィードバック生成手段１３に対して出力するようにしても良い。なお、図４は、本発明に係る音声認識装置の全体構成の他の例を示すブロック構成図であり、図３の全体構成に、誤認識判定手段１５を追加した音声認識装置１０Ａの構成例を示している。

誤認識判定手段１５において、例えば、音声認識結果の単語列の誤り度合いがあらかじめ定めた閾値よりも多い場合には、認識モードの指定誤りの可能性が高いものと判定して、フィードバック生成手段１３に対してフィードバック情報の生成を指示する制御情報を出力し、逆に、音声認識結果の単語列の誤り度合いが該閾値以下であった場合には、誤りが少ないものと判定して、フィードバック生成手段１３に対してフィードバック情報の生成を行う必要がない旨を指示する制御情報を出力する。

ここで、音声認識結果の単語列の誤り度合いは、例えば、音声認識処理において計算される確信度・信頼度といった尺度などを利用することができる。また、誤認識判定手段１５を用いることなく、フィードバック生成手段１３が、音声認識結果の単語列の誤りの有無をユーザに問い合わせることとし、単語列が誤っているというユーザからの反応があった場合に限って、フィードバック情報を生成するようにしても良い。

つまり、図５に示すように、フィードバック生成手段１３からの問い合わせを受け取ったユーザが、誤認識ボタン（あるいはモード指定ボタン）を押下するか否かによって、フィードバック生成手段１３は、音声認識結果に誤りが含まれているか否かという誤認識発生情報を受け取り、フィードバック情報の生成の有無を制御するようにしても良い。図５は、本発明に係る音声認識装置の全体構成のさらに異なる例を示すブロック構成図であり、ユーザに対して音声認識結果の誤りの有無を問い合わせ、ユーザから返送されてくる誤認識発生情報に応じてフィードバック情報の生成の有無を決定する機能を有するフィードバック生成手段１３Ａを備えた音声認識装置１０Ｂの構成例を示している。

かくのごとく、ユーザへの問い合わせを行うことにより、認識モード指定誤りの可能性が高いときにのみフィードバック情報を出力することができる。なお、再度音声認識処理を行うか否かを問い合わせるフィードバック情報を生成しない場合には、同一の入力音声に対して認識モードを変更して再度音声認識を行うことは極めて少ないので、入力音声を音声記憶手段に音声データとして記憶しなくても良い。

また、入力音声の信号対ノイズ比（Ｓ／Ｎ）があらかじめ定めた閾値以上か否かに基づいて、当該入力音声が音声認識処理を行うことが適切な状態の音声か否かを判定し、認識モードを変更して再度認識処理を行うか否かを問い合わせるフィードバック情報を生成するか否かを制御するようにしても良い。つまり、入力音声が認識モードを変更して再度音声認識処理をした際に正しい認識結果が得られる可能性が高いと判断した場合は、フィードバック情報を生成し、正しい認識結果が得られる可能性が低いと判断した場合は、フィードバック情報を生成しないように制御するようにしても良い。

例えば、図６に示すように、音声認識装置１０Ｃとして、音声認識誤りを起こし易い状況か否かを判定する状況検知手段１６を備え、音声認識手段１２から、入力音声に関して、例えば、背景雑音が大きいかどうか、突発ノイズが混入されているかどうか、ユーザの音量が小さいかどうかなどの音声情報を受け取り、音声認識誤りを起こす可能性が高いか否かを判定し、該判定結果に基づいて、フィードバック生成手段１３に対してフィードバック情報を生成するか否かの制御情報を出力するようにしても良い。このように、状況検知手段１６は、入力音声に関する前記音声認識の容易性を表す情報に基づいて、当該入力音声が音声認識処理を行うことが容易な音声か否かを判定する。入力音声に関する前記音声認識の容易性を表す情報としては、入力音声の前記信号対ノイズ比（Ｓ／Ｎ）、背景雑音の大きさ、突発ノイズの有無、音量などがある。図６は、本発明に係る音声認識装置の全体構成のさらに異なる例を示すブロック構成図であり、当該入力音声が音声認識処理を行うことが容易な音声か否かを判定する状況検知手段１６を備えた音声認識装置１０Ｃの構成例を示している。

なお、再度認識処理を行うか否かを問い合わせるフィードバック情報を生成しない場合には、同一の入力音声に対して認識モードを変更して再度音声認識を行うことは極めて少ないので、入力音声を音声記憶手段に音声データとして記憶しなくても良い。

また、フィードバック情報をユーザに対して出力するタイミングに先行して、音声認識処理に用いた認識モード（第１の認識モード）とは異なる認識モード（第２の認識モード）に変更して、音声記憶手段に記憶した音声データに対して再度音声認識処理を行うようにしても良い。この場合、第２の認識モードに基づいて再度音声認識処理を行った結果の単語列をユーザに対して出力するとともに、例えば「女性の認識モードに変更して再度認識を行いました」のようなフィードバック情報を生成して出力するようにすれば良い。

以上、本発明の好適実施例の構成を説明した。しかし、斯かる実施例は、本発明の単なる例示に過ぎず、何ら本発明を限定するものではないことに留意されたい。本発明の要旨を逸脱することなく、特定用途に応じて種々の変形変更が可能であることが、当業者には容易に理解できよう。例えば、本発明の実施態様は、課題を解決するための手段における構成（１）及び（１２）に加え、次のような構成として表現できる。下記（２）−（１１）及び（１３）−（２４）なる番号は、請求項の項番号にそれぞれ対応している。
（２）音声データを記憶する音声記憶手段を備え、前記音声認識処理手段は、音声認識を行う前記入力音声の全部あるいは一部を音声データとして前記音声記憶手段に記憶し、前記フィードバック生成手段が生成する前記フィードバック情報に、前記音声記憶手段に記憶した前記入力音声に関する音声データに対して音声認識処理を行うか否かをユーザに問い合わせる情報を含んでいる上記（１）の音声認識装置。
（３）前記フィードバック情報を受け取ったユーザから再度音声認識処理を行う旨の応答を検出した場合に、前記音声認識手段は、前記第２の認識モードが規定する条件に基づいて、前記音声記憶手段に記憶した前記入力音声に関する音声データに対して音声認識処理を行う上記（２）の音声認識装置。
（４）前記フィードバック情報を受け取ったユーザから再度音声認識処理を行う旨の応答を検出するよりも先行して、前記音声認識手段は、前記第２の認識モードが規定する条件に基づいて、前記音声記憶手段に記憶した前記入力音声に関する音声データに対して音声認識処理を行う上記（２）の音声認識装置。
（５）前記音声記憶手段に記憶する前記入力音声に関する音声データは、前記入力音声のうち音声区間と判定された区間の音声データである上記（２）ないし（４）のいずれかの音声認識装置。
（６）前記フィードバック情報を受け取ったユーザから前記第１の認識モードを別の認識モードに前記第２の認識モードとして変更する旨の指示があった場合、前記フィードバック生成手段は、前記第２の認識モードからさらに異なる認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報を生成する上記（１）ないし（５）のいずれかの音声認識装置。
（７）前記フィードバック生成手段が生成する前記フィードバック情報に、変更する前記第２の認識モードの対象となる認識モードの候補を含んでいる上記（１）ないし（６）のいずれかの音声認識装置。
（８）前記フィードバック生成手段は、前記音声認識手段による音声認識結果の誤り度合いがあらかじめ定めた閾値よりも多いと判断した場合に、前記フィードバック情報を生成するように制御する上記（１）ないし（７）のいずれかの音声認識装置。
（９）前記フィードバック生成手段は、前記音声認識手段による音声認識結果に誤りがあるか否かをユーザに問い合わせ、当該ユーザから誤りがある旨の応答があった場合に、前記フィードバック情報を生成するように制御する上記（１）ないし（８）のいずれかの音声認識装置。
（１０）前記音声認識手段による前記音声認識の容易さに関する情報を検知する手段を有し、該検知手段が該情報に基づき前記音声認識の誤りの可能性が所定値より低いと判定したときに、前記フィードバック生成手段は、前記フィードバック情報を生成する上記（１）ないし（９）のいずれかの音声認識装置。
（１１）前記音声認識の容易さに関する情報が、前記入力音声における背景雑音のレベル若しくは突発性ノイズの有無又は前記入力音声の信号対ノイズ比若しくは音量の内の少なくとも１つである上記（１０）の音声認識装置。
（１２）入力音声に対する音声認識を行うための少なくとも１つ以上の認識モードを、あらかじめ備えている複数の認識モードの中からユーザが選択して第１の認識モードとして指定し、該第１の認識モードが規定する条件に基づいて、前記入力音声に対する音声認識を行い、音声認識結果を当該ユーザに対して出力する音声認識方法であって、ユーザが指定した前記第１の認識モードとは異なる第２の認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報をあらかじめ定めたタイミングで生成して当該ユーザに対して出力する音声認識方法。
（１３）音声認識を行う前記入力音声の全部あるいは一部を音声データとして記憶し、前記フィードバック情報に、記憶した前記入力音声に関する音声データに対して音声認識処理を行うか否かをユーザに問い合わせる情報を含んでいる上記（１２）の音声認識方法。
（１４）前記フィードバック情報を受け取ったユーザから再度音声認識処理を行う旨の応答を検出した場合に、前記第２の認識モードが規定する条件に基づいて、記憶した前記入力音声に関する音声データに対して音声認識処理を行う上記（１３）の音声認識方法。
（１５）前記フィードバック情報を受け取ったユーザから再度音声認識処理を行う旨の応答を検出するよりも先行して、前記第２の認識モードが規定する条件に基づいて、記憶した前記入力音声に関する音声データに対して音声認識処理を行う上記（１３）の音声認識方法。
（１６）記憶する前記入力音声に関する音声データは、前記入力音声のうち音声区間と判定された区間の音声データである上記（１３）ないし（１５）のいずれかの音声認識方法。
（１７）前記フィードバック情報を受け取ったユーザから前記第１の認識モードを別の認識モードに前記第２の認識モードとして変更する旨の指示があった場合、前記第２の認識モードからさらに異なる認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報を生成する上記（１２）ないし（１６）のいずれかの音声認識方法。
（１８）前記フィードバック情報に、変更する前記第２の認識モードの対象となる認識モードの候補を含んでいる上記（１２）ないし（１７）のいずれかの音声認識方法。
（１９）前記音声認識結果の誤り度合いがあらかじめ定めた閾値よりも多いと判断した場合に、前記フィードバック情報を生成するように制御する上記（１２）ないし（１８）のいずれかの音声認識方法。
（２０）前記音声認識結果に誤りがあるか否かをユーザに問い合わせ、当該ユーザから誤りがある旨の応答があった場合に、前記フィードバック情報を生成するように制御する上記（１２）ないし（１９）のいずれかの音声認識方法。
（２１）前記音声認識手段による前記音声認識の容易さに関する情報を検知し、該情報に基づき前記音声認識の誤りの可能性が所定値より低いと判定されときに、前記フィードバック情報を生成する上記（１２）ないし（２０）のいずれかの音声認識方法。
（２２）前記音声認識の容易さに関する情報が、前記入力音声における背景雑音のレベル若しくは突発性ノイズの有無又は前記入力音声の信号対ノイズ比若しくは音量の内の少なくとも１つである上記（２１）の音声認識方法。
（２３）上記（１２）ないし（２２）のいずれかの音声認識方法を、コンピュータによって実行可能なプログラムとして実施している音声認識プログラム。
（２４）上記（２３）の音声認識プログラムを、コンピュータによって読み取り可能な記録媒体に記録しているプログラム記録媒体。

１０音声認識装置
１０Ａ音声認識装置
１０Ｂ音声認識装置
１０Ｃ音声認識装置
１１認識モード設定手段
１２音声認識手段
１３フィードバック生成手段
１３Ａフィードバック生成手段
１４出力手段
１５誤認識判定手段
１６状況検知手段
２０入力手段

Claims

入力音声に対する音声認識を行うための少なくとも１つ以上の認識モードを、あらかじめ備えている複数の認識モードの中からユーザが選択して第１の認識モードとして指定し、該第１の認識モードが規定する条件に基づいて、前記入力音声に対する音声認識を行い、音声認識結果を当該ユーザに対して出力する音声認識手段を備えた音声認識装置において、ユーザが指定した前記第１の認識モードとは異なる第２の認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報をあらかじめ定めたタイミングで生成して当該ユーザに対して出力するフィードバック生成手段を備えていることを特徴とする音声認識装置。
音声データを記憶する音声記憶手段を備え、前記音声認識処理手段は、音声認識を行う前記入力音声の全部あるいは一部を音声データとして前記音声記憶手段に記憶し、前記フィードバック生成手段が生成する前記フィードバック情報に、前記音声記憶手段に記憶した前記入力音声に関する音声データに対して音声認識処理を行うか否かをユーザに問い合わせる情報を含んでいることを特徴とする請求項１に記載の音声認識装置。
前記フィードバック情報を受け取ったユーザから再度音声認識処理を行う旨の応答を検出した場合に、前記音声認識手段は、前記第２の認識モードが規定する条件に基づいて、前記音声記憶手段に記憶した前記入力音声に関する音声データに対して音声認識処理を行うことを特徴とする請求項２に記載の音声認識装置。
前記フィードバック情報を受け取ったユーザから再度音声認識処理を行う旨の応答を検出するよりも先行して、前記音声認識手段は、前記第２の認識モードが規定する条件に基づいて、前記音声記憶手段に記憶した前記入力音声に関する音声データに対して音声認識処理を行うことを特徴とする請求項２に記載の音声認識装置。
前記音声記憶手段に記憶する前記入力音声に関する音声データは、前記入力音声のうち音声区間と判定された区間の音声データであることを特徴とする請求項２ないし４のいずれかに記載の音声認識装置。
前記フィードバック情報を受け取ったユーザから前記第１の認識モードを別の認識モードに前記第２の認識モードとして変更する旨の指示があった場合、前記フィードバック生成手段は、前記第２の認識モードからさらに異なる認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報を生成することを特徴とする請求項１ないし５のいずれかに記載の音声認識装置。
前記フィードバック生成手段が生成する前記フィードバック情報に、変更する前記第２の認識モードの対象となる認識モードの候補を含んでいることを特徴とする請求項１ないし６のいずれかに記載の音声認識装置。
前記フィードバック生成手段は、前記音声認識手段による音声認識結果の誤り度合いがあらかじめ定めた閾値よりも多いと判断した場合に、前記フィードバック情報を生成するように制御することを特徴とする請求項１ないし７のいずれかに記載の音声認識装置。
前記フィードバック生成手段は、前記音声認識手段による音声認識結果に誤りがあるか否かをユーザに問い合わせ、当該ユーザから誤りがある旨の応答があった場合に、前記フィードバック情報を生成するように制御することを特徴とする請求項１ないし８のいずれかに記載の音声認識装置。
前記音声認識手段による前記音声認識の容易さに関する情報を検知する手段を有し、該検知手段が該情報に基づき前記音声認識の誤りの可能性が所定値より低いと判定したときに、前記フィードバック生成手段は、前記フィードバック情報を生成することを特徴とする請求項１ないし９のいずれかに記載の音声認識装置。
前記音声認識の容易さに関する情報が、前記入力音声における背景雑音のレベル若しくは突発性ノイズの有無又は前記入力音声の信号対ノイズ比若しくは音量の内の少なくとも１つであることを特徴とする請求項１０に記載の音声認識装置。
入力音声に対する音声認識を行うための少なくとも１つ以上の認識モードを、あらかじめ備えている複数の認識モードの中からユーザが選択して第１の認識モードとして指定し、該第１の認識モードが規定する条件に基づいて、前記入力音声に対する音声認識を行い、音声認識結果を当該ユーザに対して出力する音声認識方法であって、ユーザが指定した前記第１の認識モードとは異なる第２の認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報をあらかじめ定めたタイミングで生成して当該ユーザに対して出力することを特徴とする音声認識方法。
音声認識を行う前記入力音声の全部あるいは一部を音声データとして記憶し、前記フィードバック情報に、記憶した前記入力音声に関する音声データに対して音声認識処理を行うか否かをユーザに問い合わせる情報を含んでいることを特徴とする請求項１２に記載の音声認識方法。
前記フィードバック情報を受け取ったユーザから再度音声認識処理を行う旨の応答を検出した場合に、前記第２の認識モードが規定する条件に基づいて、記憶した前記入力音声に関する音声データに対して音声認識処理を行うことを特徴とする請求項１３に記載の音声認識方法。
前記フィードバック情報を受け取ったユーザから再度音声認識処理を行う旨の応答を検出するよりも先行して、前記第２の認識モードが規定する条件に基づいて、記憶した前記入力音声に関する音声データに対して音声認識処理を行うことを特徴とする請求項１３に記載の音声認識方法。
記憶する前記入力音声に関する音声データは、前記入力音声のうち音声区間と判定された区間の音声データであることを特徴とする請求項１３ないし１５のいずれかに記載の音声認識方法。
前記フィードバック情報を受け取ったユーザから前記第１の認識モードを別の認識モードに前記第２の認識モードとして変更する旨の指示があった場合、前記第２の認識モードからさらに異なる認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報を生成することを特徴とする請求項１２ないし１６のいずれかに記載の音声認識方法。
前記フィードバック情報に、変更する前記第２の認識モードの対象となる認識モードの候補を含んでいることを特徴とする請求項１２ないし１７のいずれかに記載の音声認識方法。
前記音声認識結果の誤り度合いがあらかじめ定めた閾値よりも多いと判断した場合に、前記フィードバック情報を生成するように制御することを特徴とする請求項１２ないし１８のいずれかに記載の音声認識方法。
前記音声認識結果に誤りがあるか否かをユーザに問い合わせ、当該ユーザから誤りがある旨の応答があった場合に、前記フィードバック情報を生成するように制御することを特徴とする請求項１２ないし１９のいずれかに記載の音声認識方法。
前記音声認識手段による前記音声認識の容易さに関する情報を検知し、該情報に基づき前記音声認識の誤りの可能性が所定値より低いと判定されときに、前記フィードバック情報を生成することを特徴とする請求項１２ないし２０のいずれかに記載の音声認識方法。
前記音声認識の容易さに関する情報が、前記入力音声における背景雑音のレベル若しくは突発性ノイズの有無又は前記入力音声の信号対ノイズ比若しくは音量の内の少なくとも１つであることを特徴とする請求項２１に記載の音声認識方法。
請求項１２ないし２２のいずれかに記載の音声認識方法を、コンピュータによって実行可能なプログラムとして実施していることを特徴とする音声認識プログラム。
請求項２３に記載の音声認識プログラムを、コンピュータによって読み取り可能な記録媒体に記録していることを特徴とするプログラム記録媒体。