Nothing Special   »   [go: up one dir, main page]

JP2010204442A - 音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体 - Google Patents

音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体 Download PDF

Info

Publication number
JP2010204442A
JP2010204442A JP2009050613A JP2009050613A JP2010204442A JP 2010204442 A JP2010204442 A JP 2010204442A JP 2009050613 A JP2009050613 A JP 2009050613A JP 2009050613 A JP2009050613 A JP 2009050613A JP 2010204442 A JP2010204442 A JP 2010204442A
Authority
JP
Japan
Prior art keywords
recognition
voice
speech
speech recognition
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009050613A
Other languages
English (en)
Inventor
Fumihiro Adachi
史博 安達
Ryosuke Isotani
亮輔 磯谷
Toru Iwazawa
透 岩沢
Takeshi Hanazawa
健 花沢
Seiya Osada
誠也 長田
Takenori Tsujikawa
剛範 辻川
Takayuki Arakawa
隆行 荒川
Koji Okabe
浩司 岡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009050613A priority Critical patent/JP2010204442A/ja
Publication of JP2010204442A publication Critical patent/JP2010204442A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識結果の誤りの原因が認識モードの誤りの可能性があることにユーザが気付く契機を与える音声認識装置を提供する。
【解決手段】あらかじめ備えている複数の認識モードの中から、入力音声に対する音声認識を行うための少なくとも1つ以上の認識モードを選択して、第1の認識モードとしてユーザが入力手段20から指定すると、認識モード設定手段11は該第1の認識モードが規定する条件に設定し、音声認識手段12は該条件に基づいて入力音声の認識処理を行って、音声認識結果を当該ユーザに出力手段14を介して出力する。さらに、フィードバック生成手段13によって、ユーザが指定した前記第1の認識モードとは異なる第2の認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報をあらかじめ定めたタイミングで生成して、当該ユーザに出力手段14を介して出力する。
【選択図】 図3

Description

本発明は、音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体に関し、特に、音声認識を行うための認識モードを指定する機能を有する場合において、ユーザが認識モードの指定を誤って利用した際にフィードバックを行う仕組みを有する音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体に関する。
従来、ユーザから指定された認識モードに設定してから、ユーザが入力した音声を認識する音声認識システムがあった。例えば、「男性」、「女性」という認識モードがあり、ユーザが「男性」を指定すると、音声認識システムは、男性用の性別依存音響モデルを用いて入力音声を音声認識処理する。また、例えば、「日本語」、「英語」という認識モードがあり、ユーザが「日本語」を指定すると、音声認識システムは、日本語の言語モデル・単語辞書を用いて入力音声を音声認識処理する。
一方で、例えば、特許文献1の特開平07−104780号公報「不特定話者連続音声認識方法」のように、男性用の性別依存音響モデルおよび女性用の性別依存音響モデルのような複数の音響モデルを同時に用いて認識処理を実行する音声認識システムもある。このように、複数のモデルを同時に用いて認識処理を行う音声認識システムは、ユーザが認識モードを選択して設定するという手間がなくなるものの、本来適用すべきモデルを用いた認識結果とはならず、認識精度が悪くなるケースがある。また、特に、端末などのメモリやCPU等のリソースに制約が大きい環境で使用する場合には、多くのメモリと処理能力とを要する同時認識の技術は、使うことができなく、前述のような認識モードを指定して利用する音声認識システムの方が望ましい。
特開平07−104780号公報(第3−5頁)
しかしながら、前述したような認識モードを指定して利用する音声認識システムにおいては、ユーザが認識モードの指定を誤って音声認識システムを使用するケースが発生する。指定を誤って使用した場合には、全く異なる認識結果が出力されることが多くなる。
さらに、指定を誤って使用していても、例えば、性別など、認識モードの種類によっては、誤った音声認識結果が出力される原因として、指定した認識モードの誤りが誤認識の原因であることにユーザは気付き難い。その結果、ユーザ自身の発声に問題があったと思い違いをして、再度発声して音声認識をやり直すことになる場合が多い。認識モードの指定が誤っている限り、認識モードを正しく設定し直さなければ、再び誤った認識結果が出力されることになり、徒らに、無駄な操作が繰り返される結果を招いてしまう。
(本発明の目的)
本発明は、かかる事情に鑑みてなされたものであり、本発明の目的とするところは、ユーザに対して適切なフィードバックを返すことによって、音声認識結果の誤りの原因が指定した認識モードの誤りに可能性があることにユーザが気付く契機を与えることを可能とする音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体を提供することにある。
前述の課題を解決するため、本発明による音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体は、次のような特徴的な構成を採用している。下記(1)及び(12)なる番号は請求項の項番号にそれぞれ対応している。
(1)入力音声に対する音声認識を行うための少なくとも1つ以上の認識モードを、あらかじめ備えている複数の認識モードの中からユーザが選択して第1の認識モードとして指定し、該第1の認識モードが規定する条件に基づいて、前記入力音声に対する音声認識を行い、音声認識結果を当該ユーザに対して出力する音声認識手段を備えた音声認識装置において、ユーザが指定した前記第1の認識モードとは異なる第2の認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報をあらかじめ定めたタイミングで生成して当該ユーザに対して出力するフィードバック生成手段を備えている音声認識装置。
(12)入力音声に対する音声認識を行うための少なくとも1つ以上の認識モードを、あらかじめ備えている複数の認識モードの中からユーザが選択して第1の認識モードとして指定し、該第1の認識モードが規定する条件に基づいて、前記入力音声に対する音声認識を行い、音声認識結果を当該ユーザに対して出力する音声認識方法であって、ユーザが指定した前記第1の認識モードとは異なる第2の認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報をあらかじめ定めたタイミングで生成して当該ユーザに対して出力する音声認識方法。
本発明の音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体によれば、以下のような効果を奏することができる。
音声認識結果のみならず、認識モードを設定し直して再度音声認識を行うか否かを問い合わせるフィードバック情報をユーザに返送するので、音声認識結果の誤りの原因が指定した認識モードの誤りである可能性があることをユーザに気付かせることが可能となる。
本発明に係る音声認識装置の内部構成の一例を示すブロック構成図である。 図1に示す音声認識装置の動作の一例を示すフローチャートである。 本発明に係る音声認識装置の全体構成の一例を示すブロック構成図である。 本発明に係る音声認識装置の全体構成の他の例を示すブロック構成図である。 本発明に係る音声認識装置の全体構成のさらに異なる例を示すブロック構成図である。 本発明に係る音声認識装置の全体構成のさらに異なる例を示すブロック構成図である。
以下、本発明による音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体の好適な実施形態について添付図を参照して説明する。なお、以下の説明においては、本発明による音声認識装置、音声認識方法について説明するが、かかる音声認識方法をコンピュータにより実行可能な音声認識プログラムとして実施するようにしても良いし、あるいは、音声認識プログラムをコンピュータにより読み取り可能な記録媒体に記録するようにしても良いことは言うまでもない。
(本発明の特徴)
本発明の実施形態の説明に先立って、本発明の特徴についてその概要をまず説明する。本発明の音声認識装置は、ユーザが指定する第1の認識モードを用いて入力音声を音声認識処理する音声認識手段と、該第1の認識モードとは異なる第2の認識モードを用いて再度音声認識処理を行うか否かを問い合わせるフィードバック情報を生成するフィードバック生成手段と、を備えることにより、ユーザに対して、音声認識結果のみならず、認識モードの確認をユーザに行わせる契機となるフィードバック情報を返すことを可能としている点に特徴を有している。
(実施形態の構成例)
次に、本発明に係る音声認識装置の構成について、その一例を、図1を用いて説明する。図1は、本発明に係る音声認識装置の内部構成の一例を示すブロック構成図であり、本発明に関連するブロックについてのみ示している。
図1を参照すると、本発明の一例を示す音声認識装置10は、認識モード設定手段11、音声認識手段12、フィードバック生成手段13、出力手段14を少なくとも備えている。認識モード設定手段11は、外部からのユーザ操作により選択された認識モード(第1の認識モード)を用いるように設定する。音声認識手段12は、認識モード設定手段11によって設定された認識モード(第1の認識モード)に対応する音声認識用のモデル等を用いて、入力された音声に対して音声認識処理を実施し、認識結果としての単語列を出力手段14に供給する。
また、フィードバック生成手段13は、認識モード設定手段11が設定した認識モード(第1の認識モード)とは、異なる認識モード(第2の認識モード)に対応する音声認識用のモデル等を用いて、同一の入力音声に対して再度音声認識処理を行うか否かを問い合わせるフィードバック情報を生成して、出力手段14に供給する。出力手段14は、音声認識手段12から供給される認識結果としての単語列をユーザに対して出力する。また、フィードバック生成手段13から供給されるフィードバック情報についてもユーザに出力する。
次に、図2のフローチャートを参照して、図1に示す音声認識装置10の動作について詳細に説明する。図2は、図1に示す音声認識装置10の動作の一例を示すフローチャートである。
図2のフローチャートにおいて、まず、ユーザ操作の内容に応じて認識モード設定手段11が認識モードを設定する(ステップS101)。しかる後、ユーザは音声を入力する(ステップS102)。
音声の入力を検知すると、認識モード設定手段11で設定された認識モードに対応するモデル等を用いて、音声認識手段12は、入力音声に対して音声認識処理を実施し、音声認識結果として単語列を生成する(ステップS103)。音声認識結果として単語列が生成されると、出力手段14は、音声認識手段12で生成された音声認識結果の単語列をユーザに対して出力する(ステップS104)。
一方、フィードバック生成手段13は、設定した認識モード(第1の認識モード)とは異なる認識モード(第2の認識モード)に対応するモデル等を用いて、再度、同一の入力音声に対して音声認識処理を行うか否かを問い合わせるフィードバック情報を生成し、ユーザに対して出力する(ステップS105)。
次に、音声認識手段12による音声認識結果の単語列とフィードバック生成手段13によるフィードバック情報とを受け取ったユーザから再度の音声認識処理の指示があるか否かをチェックする(ステップS106)。ユーザから認識モードを変更して再度認識処理を行う旨の反応があった場合には(ステップS106のYes)、認識モード設定手段11は、新たな認識モード(第2の認識モード)に変更して設定する(ステップS107)。しかる後、ユーザが再度音声を入力する(ステップS108)。
音声の入力を再度検知すると、認識モード設定手段11で新たに設定された認識モード(第2の認識モード)に対応するモデル等を用いて、音声認識手段12は、再度入力された入力音声に対して音声認識処理を実施し、音声認識結果として単語列を生成する(ステップS109)。音声認識結果として単語列が生成されると、出力手段14は、音声認識手段12で生成された音声認識結果の単語列を再度ユーザに対して出力するとともに、フィードバック生成手段13が再度生成したフィードバック情報をユーザに対して出力するという動作を繰り返す。
以上のように、本発明に係る音声認識装置は、ユーザが指定した認識モード(第1の認識モード)とは異なる認識モード(第2の認識モード)を用いて認識処理を行うか否かを問い合わせるフィードバック情報をユーザに出力して、ユーザに対して、認識モード(第1の認識モード)を変更して再度認識処理を行うか否かというフィードバックを行うことにより、認識モード(第1の認識モード)の指定誤りが認識結果誤りの原因かも知れないということをユーザに気付かせることを可能としている。
次に、図1の音声認識装置について、さらに詳細な構成を、図3を用いて説明する。図3は、本発明に係る音声認識装置の全体構成の一例を示すブロック構成図であり、図1に示した音声認識装置内の回路ブロック(図1と同じ符号を付している)と、当該音声認識装置10へ認識モードや音声を入力する入力手段20も含めて示している。なお、入力手段20は、場合によっては、音声認識装置10内に配置しても構わない。
図3に示す音声認識装置の全体構成において、入力手段20は、ユーザが指定した認識モード(第1の認識モード)の情報を認識モード設定手段11に対して供給し、ユーザが発声した入力音声を音声認識手段12等に供給するものであり、例えば、表示画面、ボタン、キーボード、マイクなどを有して構成されている。
図3に示す音声認識装置10内の認識モード設定手段11は、図1の場合と同様に、入力手段20を介して外部から入力されてくるユーザ操作に応じた認識モード(第1の認識モード)を用いた音声認識処理を行うように設定する。つまり、音声認識手段12の音声認識処理で用いる音響モデル・言語モデル・単語辞書等をユーザが指定する認識モード(第1の認識モード)に対応したものに設定する。
ここで、入力手段20には例えば認識モードに対応するモード指定ボタンなどが備えられており、ユーザはモード指定ボタンを押下することによって、認識モード(第1の認識モード)を指定する。認識モード(第1の認識モード)を設定する場合、1つの認識モードのみに限らず、性別に関する認識モード・言語に関する認識モードなど、複数の認識モードを一度に設定するようにしても良い。
認識モードとしては、例えば、「男性」、「女性」という性別に関する認識モードがあり、ユーザが「男性」の認識モードを指定した場合、認識モード設定手段11は、男性による入力音声をより高精度に認識することができるように作成された男性用の性別依存音響モデルを用いるように設定する。また、「日本語」、「英語」という言語に関する認識モードがあり、ユーザが「日本語」の認識モードを指定した場合、認識モード設定手段11は、日本語の入力音声をより高精度に認識できるように作成された言語モデルや単語辞書を用いるように設定する。このように、認識モードには、音響モデル・言語モデル・単語辞書といった音声認識処理において用いるモデル類が対応している。
音声認識手段12は、認識モード設定手段11により設定されたモデル類を用いて、入力音声に対する音声認識処理を実施し、認識結果を単語列として生成する。音声認識処理は、例えば、入力音声をMFCC(Mel-Frequency
Cepstral Coefficient:メル周波数ケプストラム係数)などの音声特徴量に変換する音響分析処理や、入力音声の中から音声区間と無音区間とを分ける音声検出処理や、音声特徴量に対して音響モデル・言語モデル・単語辞書といったモデル類を用いて入力音声に類似する単語列を生成する探索処理などから構成されるが、当業者にとって周知の技術であるため詳細な説明は省略する。
フィードバック生成手段13は、前述したように、認識モード設定手段11が設定した認識モード(第1の認識モード)とは異なる認識モード(第2の認識モード)に変更して再度音声認識処理を行うか否かを問い合わせるフィードバック情報を生成して、出力手段14に供給する。例えば、「認識モードを変更してやり直しますか」のように、認識モードを変更して再認識を行うか否かをユーザに尋ねるようなフィードバック情報を生成すれば良い。
出力手段14は、前述したように、音声認識手段12から供給される音声認識結果としての単語列をユーザに対して出力する。また、フィードバック生成手段13から供給されるフィードバック情報をユーザに対して出力する。
フィードバック情報をユーザに対して出力した後において、ユーザが再度音声認識を処理する旨の反応をした場合は、認識モード設定手段11は、新たな認識モード(第2の認識モード)に設定し直し、再び、入力される音声に対して音声認識手段12が音声認識処理することになる。ここで、ユーザが再度音声認識を処理する旨の反応は、例えば、出力したフィードバック情報に対して「はい」と音声により回答する、あるいは、最初に指定した認識モード(第1の認識モード)とは異なる認識モード(第2の認識モード)のモード指定ボタンを押下するなどによって行う。
なお、再度音声認識を処理する旨の反応をする場合、例えば、ユーザが再度認識モードを指定し直すことにより、指定された認識モードに変更すれば良い。あるいは、択2の認識モードの場合は、最初に設定した認識モード(第1の認識モード)とは異なる認識モード(第2の認識モード)を自動的に選択して設定するようにしても良いし、あるいは、認識結果の誤り率を学習する機能を備えている場合には、学習結果に応じた認識モードを第2の認識モードとして選択して設定するようにしても良い。
以上のように、認識モードを変更して再度音声認識処理を行うか否かを問い合わせるフィードバック情報をユーザに対して出力することによって、直前に出力されている音声認識結果の単語列に誤りが含まれていた場合、その誤り原因が、指定した認識モードの誤りである可能性をユーザに気付かせる契機を与えることが可能となる。
(他の実施形態)
次に、前述した実施形態とは異なる実施形態についてさらに説明する。
音声認識装置10内に音声データを記憶する音声記憶手段を備えることにし、音声認識手段12は、音声認識を行う対象の入力音声の全部あるいは一部を音声データとして該音声記憶手段に記憶しておくようにしても良い。ユーザから再度音声認識を処理する旨の反応があった場合には、音声記憶手段に記憶していた音声データを用いて音声認識処理を行うことができる。これにより、認識モードを変更した後で、ユーザが、再度、音声の入力をやり直す手間を軽減することが可能となる。
なお、音声記憶手段に記憶していた音声データを用いて音声認識処理を行うことを可能としている場合、フィードバック生成手段13は、認識モード設定手段11が最初に設定した認識モード(第1の認識モード)とは異なる認識モード(第2の認識モード)に変更して、音声記憶手段に記憶していた音声データに対して再度音声認識処理を行うか否かを問い合わせるフィードバック情報を生成する。例えば、「認識モードを変更して先ほどの音声の認識処理をやり直しますか」のようなフィードバック情報を生成すれば良い。
音声記憶手段への音声データの記憶に関しては、入力された音声を例えば波形形式でそのまま記憶しても構わないし、音響分析処理後の音声特徴量のような変換処理を加えた形式で記憶しても構わない。音声特徴量の形式で音声記憶手段へ記憶している場合には、音声データに対して再度の音声認識処理を行う際に、音響分析処理を省略することができるので、再度の音声認識処理における処理量を減らすことが可能となる。
また、入力された音声を全て音声記憶手段へ記憶しても構わないし、音声検出処理により音声区間として判断された区間のみを記憶しても構わない。音声区間として判断された区間のみを音声記憶手段へ記憶する場合、記憶する音声データのサイズを減らすことが可能となり、また、音声データに対して再度の音声認識処理を行う際に、音声検出処理を省略することができるので、再度の音声認識処理における処理量を減らすことが可能となる。
また、再度音声認識処理を行うか否かを問い合わせるフィードバック情報をユーザに出力し、ユーザから音声認識処理をやり直す旨の反応が得られるタイミングに先行して、認識モードを変更して、音声記憶手段に記憶している音声データに対して音声認識処理を行うようにしても良い。この場合、ユーザから音声認識処理をやり直す旨の反応を受け取ってから、音声認識処理結果が得られるまでの時間を短くすることが可能となる。
また、フィードバック生成手段13が生成したフィードバック情報つまり前の認識モード(第1の認識モード)とは異なる認識モード(第2の認識モード)で前に入力した音声に対して再度音声認識処理を行うか否かを問い合わせるフィードバック情報をユーザに対して出力するタイミングは、音声認識結果の単語列をユーザに出力するタイミングとほぼ同時ではなく、ユーザが次の何らかの操作を入力手段20で行ったことを検知したタイミングで行うようにしても良い。ユーザが入力手段20で次の操作を行うのは、当該ユーザが、出力された音声認識結果の単語列を見て、認識モードの設定誤りに気付き、音声認識処理をやり直そうとして認識モードを再度指定する場合がある。また、別の発声をしようとして認識モードを変更している場合もある。
したがって、ユーザが次の何らかの操作を入力手段20で行ったことを検知したタイミングで、フィードバック情報をユーザに対して出力するようにすれば、認識モードの設定誤りに気付いて認識モードを指定し直そうとしているかあるいは別の発声をしようとして認識モードを変更しようとしているかのいずれの場合であっても、フィードバック情報を生成して出力するという手間を掛けることもなく、認識モードの変更処理を行うことができるとともに、ユーザ自らが認識モードの指定誤りに気付いて音声認識処理をやり直す場合であっても、フィードバック情報を得た後で、音声入力の操作を最初からやり直すという手間を軽減することが可能となる。
また、フィードバック生成手段13が生成するフィードバック情報として、前に入力した音声に対して再度音声認識処理を行うか否かを問い合わせる情報とともに、変更すべき認識モード候補を含めてフィードバック情報を生成するようにしても良い。例えば、「女性の認識モードに変更して再認識しますか?」のようなフィードバック情報をユーザに対して出力する。また、変更すべき認識モード候補のモード指定ボタンを点滅表示させたりすることによって、ユーザが選択すべき認識モードの候補を明確にユーザに提示するようにしても良い。
なお、変更すべき認識モードの候補は、例えば、2択の認識モードであれば、ユーザが最初に指定していない方の認識モードと判断すれば良いし、あるいは、認識モードを誤った場合の誤りパターンを事前に学習しておき、学習した誤りパターンから判断するようにしても良い。また、前述のように、認識モードの候補を確認したユーザが認識モードを新たに指定した場合は、ユーザによって指定された認識モードを用いれば良い。これにより、認識モードの指定方法を明確にするとともに、よりスムーズな変更が可能となる。
また、音声認識結果の単語列を出力する都度、フィードバック情報を出力するのではなく、フィードバック生成手段13がフィードバック情報を生成するか否かを制御するようにしても良い。つまり、音声認識結果の単語列の誤り度合いを判定して、フィードバック情報を生成するか否かを制御するようにしても良い。
例えば、図4に示すように、音声認識装置10Aとして、音声認識手段12から供給された音声認識結果の単語列の誤り度合いを判定する誤認識判定手段15を備え、誤認識判定手段15の判定結果として出力される、音声認識結果の単語列の誤りの発生度合いに応じて、フィードバック情報を生成するか否かの制御情報をフィードバック生成手段13に対して出力するようにしても良い。なお、図4は、本発明に係る音声認識装置の全体構成の他の例を示すブロック構成図であり、図3の全体構成に、誤認識判定手段15を追加した音声認識装置10Aの構成例を示している。
誤認識判定手段15において、例えば、音声認識結果の単語列の誤り度合いがあらかじめ定めた閾値よりも多い場合には、認識モードの指定誤りの可能性が高いものと判定して、フィードバック生成手段13に対してフィードバック情報の生成を指示する制御情報を出力し、逆に、音声認識結果の単語列の誤り度合いが該閾値以下であった場合には、誤りが少ないものと判定して、フィードバック生成手段13に対してフィードバック情報の生成を行う必要がない旨を指示する制御情報を出力する。
ここで、音声認識結果の単語列の誤り度合いは、例えば、音声認識処理において計算される確信度・信頼度といった尺度などを利用することができる。また、誤認識判定手段15を用いることなく、フィードバック生成手段13が、音声認識結果の単語列の誤りの有無をユーザに問い合わせることとし、単語列が誤っているというユーザからの反応があった場合に限って、フィードバック情報を生成するようにしても良い。
つまり、図5に示すように、フィードバック生成手段13からの問い合わせを受け取ったユーザが、誤認識ボタン(あるいはモード指定ボタン)を押下するか否かによって、フィードバック生成手段13は、音声認識結果に誤りが含まれているか否かという誤認識発生情報を受け取り、フィードバック情報の生成の有無を制御するようにしても良い。図5は、本発明に係る音声認識装置の全体構成のさらに異なる例を示すブロック構成図であり、ユーザに対して音声認識結果の誤りの有無を問い合わせ、ユーザから返送されてくる誤認識発生情報に応じてフィードバック情報の生成の有無を決定する機能を有するフィードバック生成手段13Aを備えた音声認識装置10Bの構成例を示している。
かくのごとく、ユーザへの問い合わせを行うことにより、認識モード指定誤りの可能性が高いときにのみフィードバック情報を出力することができる。なお、再度音声認識処理を行うか否かを問い合わせるフィードバック情報を生成しない場合には、同一の入力音声に対して認識モードを変更して再度音声認識を行うことは極めて少ないので、入力音声を音声記憶手段に音声データとして記憶しなくても良い。
また、入力音声の信号対ノイズ比(S/N)があらかじめ定めた閾値以上か否かに基づいて、当該入力音声が音声認識処理を行うことが適切な状態の音声か否かを判定し、認識モードを変更して再度認識処理を行うか否かを問い合わせるフィードバック情報を生成するか否かを制御するようにしても良い。つまり、入力音声が認識モードを変更して再度音声認識処理をした際に正しい認識結果が得られる可能性が高いと判断した場合は、フィードバック情報を生成し、正しい認識結果が得られる可能性が低いと判断した場合は、フィードバック情報を生成しないように制御するようにしても良い。
例えば、図6に示すように、音声認識装置10Cとして、音声認識誤りを起こし易い状況か否かを判定する状況検知手段16を備え、音声認識手段12から、入力音声に関して、例えば、背景雑音が大きいかどうか、突発ノイズが混入されているかどうか、ユーザの音量が小さいかどうかなどの音声情報を受け取り、音声認識誤りを起こす可能性が高いか否かを判定し、該判定結果に基づいて、フィードバック生成手段13に対してフィードバック情報を生成するか否かの制御情報を出力するようにしても良い。このように、状況検知手段16は、入力音声に関する前記音声認識の容易性を表す情報に基づいて、当該入力音声が音声認識処理を行うことが容易な音声か否かを判定する。入力音声に関する前記音声認識の容易性を表す情報としては、入力音声の前記信号対ノイズ比(S/N)、背景雑音の大きさ、突発ノイズの有無、音量などがある。図6は、本発明に係る音声認識装置の全体構成のさらに異なる例を示すブロック構成図であり、当該入力音声が音声認識処理を行うことが容易な音声か否かを判定する状況検知手段16を備えた音声認識装置10Cの構成例を示している。
なお、再度認識処理を行うか否かを問い合わせるフィードバック情報を生成しない場合には、同一の入力音声に対して認識モードを変更して再度音声認識を行うことは極めて少ないので、入力音声を音声記憶手段に音声データとして記憶しなくても良い。
また、フィードバック情報をユーザに対して出力するタイミングに先行して、音声認識処理に用いた認識モード(第1の認識モード)とは異なる認識モード(第2の認識モード)に変更して、音声記憶手段に記憶した音声データに対して再度音声認識処理を行うようにしても良い。この場合、第2の認識モードに基づいて再度音声認識処理を行った結果の単語列をユーザに対して出力するとともに、例えば「女性の認識モードに変更して再度認識を行いました」のようなフィードバック情報を生成して出力するようにすれば良い。
以上、本発明の好適実施例の構成を説明した。しかし、斯かる実施例は、本発明の単なる例示に過ぎず、何ら本発明を限定するものではないことに留意されたい。本発明の要旨を逸脱することなく、特定用途に応じて種々の変形変更が可能であることが、当業者には容易に理解できよう。例えば、本発明の実施態様は、課題を解決するための手段における構成(1)及び(12)に加え、次のような構成として表現できる。下記(2)−(11)及び(13)−(24)なる番号は、請求項の項番号にそれぞれ対応している。
(2)音声データを記憶する音声記憶手段を備え、前記音声認識処理手段は、音声認識を行う前記入力音声の全部あるいは一部を音声データとして前記音声記憶手段に記憶し、前記フィードバック生成手段が生成する前記フィードバック情報に、前記音声記憶手段に記憶した前記入力音声に関する音声データに対して音声認識処理を行うか否かをユーザに問い合わせる情報を含んでいる上記(1)の音声認識装置。
(3)前記フィードバック情報を受け取ったユーザから再度音声認識処理を行う旨の応答を検出した場合に、前記音声認識手段は、前記第2の認識モードが規定する条件に基づいて、前記音声記憶手段に記憶した前記入力音声に関する音声データに対して音声認識処理を行う上記(2)の音声認識装置。
(4)前記フィードバック情報を受け取ったユーザから再度音声認識処理を行う旨の応答を検出するよりも先行して、前記音声認識手段は、前記第2の認識モードが規定する条件に基づいて、前記音声記憶手段に記憶した前記入力音声に関する音声データに対して音声認識処理を行う上記(2)の音声認識装置。
(5)前記音声記憶手段に記憶する前記入力音声に関する音声データは、前記入力音声のうち音声区間と判定された区間の音声データである上記(2)ないし(4)のいずれかの音声認識装置。
(6)前記フィードバック情報を受け取ったユーザから前記第1の認識モードを別の認識モードに前記第2の認識モードとして変更する旨の指示があった場合、前記フィードバック生成手段は、前記第2の認識モードからさらに異なる認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報を生成する上記(1)ないし(5)のいずれかの音声認識装置。
(7)前記フィードバック生成手段が生成する前記フィードバック情報に、変更する前記第2の認識モードの対象となる認識モードの候補を含んでいる上記(1)ないし(6)のいずれかの音声認識装置。
(8)前記フィードバック生成手段は、前記音声認識手段による音声認識結果の誤り度合いがあらかじめ定めた閾値よりも多いと判断した場合に、前記フィードバック情報を生成するように制御する上記(1)ないし(7)のいずれかの音声認識装置。
(9)前記フィードバック生成手段は、前記音声認識手段による音声認識結果に誤りがあるか否かをユーザに問い合わせ、当該ユーザから誤りがある旨の応答があった場合に、前記フィードバック情報を生成するように制御する上記(1)ないし(8)のいずれかの音声認識装置。
(10)前記音声認識手段による前記音声認識の容易さに関する情報を検知する手段を有し、該検知手段が該情報に基づき前記音声認識の誤りの可能性が所定値より低いと判定したときに、前記フィードバック生成手段は、前記フィードバック情報を生成する上記(1)ないし(9)のいずれかの音声認識装置。
(11)前記音声認識の容易さに関する情報が、前記入力音声における背景雑音のレベル若しくは突発性ノイズの有無又は前記入力音声の信号対ノイズ比若しくは音量の内の少なくとも1つである上記(10)の音声認識装置。
(12)入力音声に対する音声認識を行うための少なくとも1つ以上の認識モードを、あらかじめ備えている複数の認識モードの中からユーザが選択して第1の認識モードとして指定し、該第1の認識モードが規定する条件に基づいて、前記入力音声に対する音声認識を行い、音声認識結果を当該ユーザに対して出力する音声認識方法であって、ユーザが指定した前記第1の認識モードとは異なる第2の認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報をあらかじめ定めたタイミングで生成して当該ユーザに対して出力する音声認識方法。
(13)音声認識を行う前記入力音声の全部あるいは一部を音声データとして記憶し、前記フィードバック情報に、記憶した前記入力音声に関する音声データに対して音声認識処理を行うか否かをユーザに問い合わせる情報を含んでいる上記(12)の音声認識方法。
(14)前記フィードバック情報を受け取ったユーザから再度音声認識処理を行う旨の応答を検出した場合に、前記第2の認識モードが規定する条件に基づいて、記憶した前記入力音声に関する音声データに対して音声認識処理を行う上記(13)の音声認識方法。
(15)前記フィードバック情報を受け取ったユーザから再度音声認識処理を行う旨の応答を検出するよりも先行して、前記第2の認識モードが規定する条件に基づいて、記憶した前記入力音声に関する音声データに対して音声認識処理を行う上記(13)の音声認識方法。
(16)記憶する前記入力音声に関する音声データは、前記入力音声のうち音声区間と判定された区間の音声データである上記(13)ないし(15)のいずれかの音声認識方法。
(17)前記フィードバック情報を受け取ったユーザから前記第1の認識モードを別の認識モードに前記第2の認識モードとして変更する旨の指示があった場合、前記第2の認識モードからさらに異なる認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報を生成する上記(12)ないし(16)のいずれかの音声認識方法。
(18)前記フィードバック情報に、変更する前記第2の認識モードの対象となる認識モードの候補を含んでいる上記(12)ないし(17)のいずれかの音声認識方法。
(19)前記音声認識結果の誤り度合いがあらかじめ定めた閾値よりも多いと判断した場合に、前記フィードバック情報を生成するように制御する上記(12)ないし(18)のいずれかの音声認識方法。
(20)前記音声認識結果に誤りがあるか否かをユーザに問い合わせ、当該ユーザから誤りがある旨の応答があった場合に、前記フィードバック情報を生成するように制御する上記(12)ないし(19)のいずれかの音声認識方法。
(21)前記音声認識手段による前記音声認識の容易さに関する情報を検知し、該情報に基づき前記音声認識の誤りの可能性が所定値より低いと判定されときに、前記フィードバック情報を生成する上記(12)ないし(20)のいずれかの音声認識方法。
(22)前記音声認識の容易さに関する情報が、前記入力音声における背景雑音のレベル若しくは突発性ノイズの有無又は前記入力音声の信号対ノイズ比若しくは音量の内の少なくとも1つである上記(21)の音声認識方法。
(23)上記(12)ないし(22)のいずれかの音声認識方法を、コンピュータによって実行可能なプログラムとして実施している音声認識プログラム。
(24)上記(23)の音声認識プログラムを、コンピュータによって読み取り可能な記録媒体に記録しているプログラム記録媒体。
10 音声認識装置
10A 音声認識装置
10B 音声認識装置
10C 音声認識装置
11 認識モード設定手段
12 音声認識手段
13 フィードバック生成手段
13A フィードバック生成手段
14 出力手段
15 誤認識判定手段
16 状況検知手段
20 入力手段

Claims (24)

  1. 入力音声に対する音声認識を行うための少なくとも1つ以上の認識モードを、あらかじめ備えている複数の認識モードの中からユーザが選択して第1の認識モードとして指定し、該第1の認識モードが規定する条件に基づいて、前記入力音声に対する音声認識を行い、音声認識結果を当該ユーザに対して出力する音声認識手段を備えた音声認識装置において、ユーザが指定した前記第1の認識モードとは異なる第2の認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報をあらかじめ定めたタイミングで生成して当該ユーザに対して出力するフィードバック生成手段を備えていることを特徴とする音声認識装置。
  2. 音声データを記憶する音声記憶手段を備え、前記音声認識処理手段は、音声認識を行う前記入力音声の全部あるいは一部を音声データとして前記音声記憶手段に記憶し、前記フィードバック生成手段が生成する前記フィードバック情報に、前記音声記憶手段に記憶した前記入力音声に関する音声データに対して音声認識処理を行うか否かをユーザに問い合わせる情報を含んでいることを特徴とする請求項1に記載の音声認識装置。
  3. 前記フィードバック情報を受け取ったユーザから再度音声認識処理を行う旨の応答を検出した場合に、前記音声認識手段は、前記第2の認識モードが規定する条件に基づいて、前記音声記憶手段に記憶した前記入力音声に関する音声データに対して音声認識処理を行うことを特徴とする請求項2に記載の音声認識装置。
  4. 前記フィードバック情報を受け取ったユーザから再度音声認識処理を行う旨の応答を検出するよりも先行して、前記音声認識手段は、前記第2の認識モードが規定する条件に基づいて、前記音声記憶手段に記憶した前記入力音声に関する音声データに対して音声認識処理を行うことを特徴とする請求項2に記載の音声認識装置。
  5. 前記音声記憶手段に記憶する前記入力音声に関する音声データは、前記入力音声のうち音声区間と判定された区間の音声データであることを特徴とする請求項2ないし4のいずれかに記載の音声認識装置。
  6. 前記フィードバック情報を受け取ったユーザから前記第1の認識モードを別の認識モードに前記第2の認識モードとして変更する旨の指示があった場合、前記フィードバック生成手段は、前記第2の認識モードからさらに異なる認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報を生成することを特徴とする請求項1ないし5のいずれかに記載の音声認識装置。
  7. 前記フィードバック生成手段が生成する前記フィードバック情報に、変更する前記第2の認識モードの対象となる認識モードの候補を含んでいることを特徴とする請求項1ないし6のいずれかに記載の音声認識装置。
  8. 前記フィードバック生成手段は、前記音声認識手段による音声認識結果の誤り度合いがあらかじめ定めた閾値よりも多いと判断した場合に、前記フィードバック情報を生成するように制御することを特徴とする請求項1ないし7のいずれかに記載の音声認識装置。
  9. 前記フィードバック生成手段は、前記音声認識手段による音声認識結果に誤りがあるか否かをユーザに問い合わせ、当該ユーザから誤りがある旨の応答があった場合に、前記フィードバック情報を生成するように制御することを特徴とする請求項1ないし8のいずれかに記載の音声認識装置。
  10. 前記音声認識手段による前記音声認識の容易さに関する情報を検知する手段を有し、該検知手段が該情報に基づき前記音声認識の誤りの可能性が所定値より低いと判定したときに、前記フィードバック生成手段は、前記フィードバック情報を生成することを特徴とする請求項1ないし9のいずれかに記載の音声認識装置。
  11. 前記音声認識の容易さに関する情報が、前記入力音声における背景雑音のレベル若しくは突発性ノイズの有無又は前記入力音声の信号対ノイズ比若しくは音量の内の少なくとも1つであることを特徴とする請求項10に記載の音声認識装置。
  12. 入力音声に対する音声認識を行うための少なくとも1つ以上の認識モードを、あらかじめ備えている複数の認識モードの中からユーザが選択して第1の認識モードとして指定し、該第1の認識モードが規定する条件に基づいて、前記入力音声に対する音声認識を行い、音声認識結果を当該ユーザに対して出力する音声認識方法であって、ユーザが指定した前記第1の認識モードとは異なる第2の認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報をあらかじめ定めたタイミングで生成して当該ユーザに対して出力することを特徴とする音声認識方法。
  13. 音声認識を行う前記入力音声の全部あるいは一部を音声データとして記憶し、前記フィードバック情報に、記憶した前記入力音声に関する音声データに対して音声認識処理を行うか否かをユーザに問い合わせる情報を含んでいることを特徴とする請求項12に記載の音声認識方法。
  14. 前記フィードバック情報を受け取ったユーザから再度音声認識処理を行う旨の応答を検出した場合に、前記第2の認識モードが規定する条件に基づいて、記憶した前記入力音声に関する音声データに対して音声認識処理を行うことを特徴とする請求項13に記載の音声認識方法。
  15. 前記フィードバック情報を受け取ったユーザから再度音声認識処理を行う旨の応答を検出するよりも先行して、前記第2の認識モードが規定する条件に基づいて、記憶した前記入力音声に関する音声データに対して音声認識処理を行うことを特徴とする請求項13に記載の音声認識方法。
  16. 記憶する前記入力音声に関する音声データは、前記入力音声のうち音声区間と判定された区間の音声データであることを特徴とする請求項13ないし15のいずれかに記載の音声認識方法。
  17. 前記フィードバック情報を受け取ったユーザから前記第1の認識モードを別の認識モードに前記第2の認識モードとして変更する旨の指示があった場合、前記第2の認識モードからさらに異なる認識モードに変更して、前記入力音声と同一の音声データに対して再度音声認識を行うか否かをユーザに問い合わせるフィードバック情報を生成することを特徴とする請求項12ないし16のいずれかに記載の音声認識方法。
  18. 前記フィードバック情報に、変更する前記第2の認識モードの対象となる認識モードの候補を含んでいることを特徴とする請求項12ないし17のいずれかに記載の音声認識方法。
  19. 前記音声認識結果の誤り度合いがあらかじめ定めた閾値よりも多いと判断した場合に、前記フィードバック情報を生成するように制御することを特徴とする請求項12ないし18のいずれかに記載の音声認識方法。
  20. 前記音声認識結果に誤りがあるか否かをユーザに問い合わせ、当該ユーザから誤りがある旨の応答があった場合に、前記フィードバック情報を生成するように制御することを特徴とする請求項12ないし19のいずれかに記載の音声認識方法。
  21. 前記音声認識手段による前記音声認識の容易さに関する情報を検知し、該情報に基づき前記音声認識の誤りの可能性が所定値より低いと判定されときに、前記フィードバック情報を生成することを特徴とする請求項12ないし20のいずれかに記載の音声認識方法。
  22. 前記音声認識の容易さに関する情報が、前記入力音声における背景雑音のレベル若しくは突発性ノイズの有無又は前記入力音声の信号対ノイズ比若しくは音量の内の少なくとも1つであることを特徴とする請求項21に記載の音声認識方法。
  23. 請求項12ないし22のいずれかに記載の音声認識方法を、コンピュータによって実行可能なプログラムとして実施していることを特徴とする音声認識プログラム。
  24. 請求項23に記載の音声認識プログラムを、コンピュータによって読み取り可能な記録媒体に記録していることを特徴とするプログラム記録媒体。
JP2009050613A 2009-03-04 2009-03-04 音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体 Pending JP2010204442A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009050613A JP2010204442A (ja) 2009-03-04 2009-03-04 音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009050613A JP2010204442A (ja) 2009-03-04 2009-03-04 音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体

Publications (1)

Publication Number Publication Date
JP2010204442A true JP2010204442A (ja) 2010-09-16

Family

ID=42965984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009050613A Pending JP2010204442A (ja) 2009-03-04 2009-03-04 音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2010204442A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110265017A (zh) * 2019-06-27 2019-09-20 百度在线网络技术(北京)有限公司 语音处理方法和装置
JP2021140114A (ja) * 2020-03-09 2021-09-16 パナソニックIpマネジメント株式会社 情報端末、インターホンシステム、処理方法及びプログラム
CN116072141A (zh) * 2023-04-06 2023-05-05 深圳市阿尔泰车载娱乐系统有限公司 具有语音识别功能的车载通信系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110265017A (zh) * 2019-06-27 2019-09-20 百度在线网络技术(北京)有限公司 语音处理方法和装置
CN110265017B (zh) * 2019-06-27 2021-08-17 百度在线网络技术(北京)有限公司 语音处理方法和装置
US11164583B2 (en) 2019-06-27 2021-11-02 Baidu Online Network Technology (Beijing) Co., Ltd. Voice processing method and apparatus
JP2021140114A (ja) * 2020-03-09 2021-09-16 パナソニックIpマネジメント株式会社 情報端末、インターホンシステム、処理方法及びプログラム
CN116072141A (zh) * 2023-04-06 2023-05-05 深圳市阿尔泰车载娱乐系统有限公司 具有语音识别功能的车载通信系统及方法

Similar Documents

Publication Publication Date Title
EP1701338B1 (en) Speech recognition method
JP3662780B2 (ja) 自然言語を用いた対話システム
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
KR102191425B1 (ko) 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP6654611B2 (ja) 成長型対話装置
JP4574390B2 (ja) 音声認識方法
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP6866715B2 (ja) 情報処理装置、感情認識方法、及び、プログラム
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
JP2010078877A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
EP1298645A1 (en) Method for detecting emotions in speech, involving linguistic correlation information
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP2010204442A (ja) 音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体
JP2007140200A (ja) 語学学習装置およびプログラム
JP4736478B2 (ja) 音声書き起こし支援装置およびその方法ならびにプログラム
JP4296290B2 (ja) 音声認識装置、音声認識方法及びプログラム
JP5476760B2 (ja) コマンド認識装置
JP2005283646A (ja) 音声認識率推定装置
JP6988680B2 (ja) 音声対話装置
JP6221253B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP2019095526A (ja) 音声処理プログラム、音声処理装置、及び音声処理方法
JP4621936B2 (ja) 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム