JP4709887B2 - 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム - Google Patents
音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム Download PDFInfo
- Publication number
- JP4709887B2 JP4709887B2 JP2008285550A JP2008285550A JP4709887B2 JP 4709887 B2 JP4709887 B2 JP 4709887B2 JP 2008285550 A JP2008285550 A JP 2008285550A JP 2008285550 A JP2008285550 A JP 2008285550A JP 4709887 B2 JP4709887 B2 JP 4709887B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition result
- error
- word
- unit
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
さらに、この発明によれば、指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方の単語、のいずれかを形成する認識結果を特定し、特定された認識結果を拘束条件として、この拘束条件にしたがって、予め記憶されている特徴量データの認識処理を行うができる。これにより、より正確な認識処理を行うことができ、よって正しい音声認識結果を得ることができる。
また、本発明の音声認識結果訂正装置は、音声を入力する入力手段と、前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、前記算出手段により算出された特徴量データを記憶する記憶手段と、前記入力手段により入力された音声に対する認識結果を取得する取得手段と、前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、を備え、前記訂正手段は、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする。
また、本発明の音声認識結果訂正方法は、音声を入力する入力ステップと、前記入力ステップにより入力された音声に基づいて特徴量データを算出する算出ステップと、前記算出ステップにより算出された特徴量データを記憶手段に記憶する記憶ステップと、前記入力ステップにより入力された音声に対する認識結果を取得する取得する取得ステップと、前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、前記記憶ステップにおいて記憶された特徴量データから前記指定ステップにより指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得ステップにより得られた認識結果の訂正を実行する訂正ステップとを備え、前記訂正ステップは、前記特定ステップにより特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする。
この発明によれば、指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方の単語、のいずれかを形成する認識結果を特定し、特定された認識結果を拘束条件として、この拘束条件にしたがって、予め記憶されている特徴量データの認識処理を行うができる。すなわち、この発明においては誤り区間のみの特徴量データを用いて認識処理を行うことができる。これにより、より正確な認識処理を行うことができ、よって正しい音声認識結果を得ることができる。
また、本発明の音声認識結果訂正装置は、音声を入力する入力手段と、前記入力手段により入力された音声に対する認識結果を取得する取得手段と、前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、前記指定手段により指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知手段と、前記通知手段による依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信手段と、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段とを備え、前記受信手段は、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、認識処理された認識結果を受信することを特徴とする。
また、本発明の音声認識結果訂正方法は、音声を入力する入力ステップと、前記入力ステップにより入力された音声に対する認識結果を取得する取得ステップと、前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、前記指定ステップにより指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知ステップと、前記通知ステップによる依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信ステップと、を備え、前記受信ステップは、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、前記外部サーバにおいて認識処理された認識結果を受信することを特徴とする。
図1は、本実施形態の音声認識結果訂正装置であるクライアント装置110およびクライアント装置110から送信された音声を認識し、その結果をクライアント装置110に返信するサーバ装置120を備える通信システムのシステム構成図である。本実施形態では、クライアント装置110は、例えば携帯電話などの携帯端末であって、ユーザが発声した音声を入力し、入力した音声を、無線通信を用いてサーバ装置120に送信し、サーバ装置120からの返信である認識結果を受信することができる。
参考文献:李晃伸,河原達也,鹿野清宏.「2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」、情報処理学会研究報告, 2003-SLP-49-48, 2003-12.
図4では、例えば、認識結果である「売れて」は、33フレームから57フレームまでで構成され、その信頼度は0.86であることが示されている。
つぎに、誤り区間を信頼度に基づいて自動的に判断することなく、ユーザが手動により判断するように構成されたクライアント装置110aについて説明する。図8は、ユーザ入力により誤り区間を受け付けるクライアント装置110aの機能を示すブロック図である。図8に示すように、このクライアント装置110aは、特徴量算出部210、特徴量圧縮部220、特徴量保存部230、送信部225、受信部235、操作部236、結果保存部237、ユーザ入力検出部238、誤り区間指定部240a、誤り区間前後コンテキスト指定部250、誤り区間特徴量抽出部260、訂正部270、統合部280、音響モデル保持部281、言語モデル保持部282、辞書保持部283、表示部290を含んで構成されている。このクライアント装置110aは、クライアント装置110と同様に図3に示されるハードウェアにより実現される。
つぎに、サーバ装置120から送信される認識結果に時間情報を含んでいない場合に、誤り区間を正しく指定することができるクライアント装置110bについて説明する。図11は、このクライアント装置110bの機能を示すブロック図である。このクライアント装置110bは、特徴量算出部210、特徴量圧縮部220、送信部225、特徴量保存部230、受信部235、時間情報算出部239、誤り区間指定部240、誤り区間特徴量抽出部260、誤り区間前後コンテキスト指定部250、訂正部270、音響モデル保持部281、言語モデル保持部282、辞書保持部283を含んで構成されている。このクライアント装置110bは、第1の実施形態のクライアント装置110と同様に図3に示されるハードウェアにより実現される。
つぎに、サーバ装置120において音声認識されて得られた認識結果からのみ訂正処理を行うクライアント装置110cについて説明する。図14は、クライアント装置110cの機能を示すブロック図である。このクライアント装置110cは、特徴量算出部210、特徴量圧縮部220、誤り区間指定部240、誤り区間前後コンテキスト指定部250、訂正部270a、および言語DB保持部284を含んで構成されている。このクライアント装置110cは、クライアント装置110と同様に図3に示されるハードウェアにより実現される。
単語列(W1 w W2)の尤度P(w1 w w2)=P(W1, Wi,Wi+1…Wj ,W2)=P(W1)*P(Wi/W1)…* P(W2/Wj) ・・・(1)
さらに誤り区間の単語列と候補の距離を計算し、この距離を加えることもある。この場合以下の式(2)の計算式になる。
単語列(W1 w W2)の尤度P(w1 w w2)=P(W1, Wi,Wi+1…Wj ,W2)*P(Wi,Wi+1…Wj ,Werror) ・・・(2)
P(Wi,Wi+1…Wj ,Werror)は誤り単語列Werrorと候補列Wi,Wi+1…Wj 間の距離を示す。
つぎに、サーバ装置120に音声認識を行わせる分散型処理ではなく、クライアント装置110dにおいて、第一の音声認識および第二の音声認識を行う形態について説明する。
つぎに、第2の実施形態における変形例である第6の実施形態について説明する。この実施形態によると、誤り区間の終点を自動的に判断することに特徴がある。
<発声内容>
「この目標を達成するためには、皆さんの協力が必要です。」
<音声認識結果>
「この目標を活性化のためには、皆さんの協力が必要です。」
ここで、音声認識結果を単語単位に区切ってみる。なお、“/”は、単語の区切りを示したものである。
「この/目標/を/活性化/の/ため/に/は、/皆/さん/の/協力/が/必要/です。」
この音声認識結果として、“活性化”の信頼度が0.1、“の”の信頼度が0.01、“ため”の信頼度が0.4、“に”の信頼度が0.6であった場合で、閾値を0.5とした場合には、“活性化/の/ため/に”における“に”が終点と判断することができる。
<発声内容>
「この目標を達成するためには、皆さんの協力が必要です。」
<音声認識結果>
「この目標を活性化のためには、皆さんの協力が必要です。」
「この/目標/を/活性化/の/ため/に/は、/皆/さん/の/協力/が/必要/です。」
「この/目標/を/活性化/の/ため」において、以下の候補が挙げられるとする。
「活性化」:“だれ”、“沢山”、“お勧め”
「の」: “か”、“ある”
「ため」:−(候補なし)
つぎに第7の実施形態について説明する。この実施形態によると、誤り区間において先頭の文字をユーザが指定することで、その指定した文字を拘束条件として音声認識をより正しく行わせようとするものである。
<発声内容>
「この目標を達成するためには、皆さんの協力が必要です。」
<音声認識結果>
「この目標を活性化のためには、皆さんの協力が必要です。」
として場合に、ユーザは、操作部236を操作することで、誤り区間における始点(上述の例では“この目標を”の次の位置)に、正しい文字内容を入力する。入力すべき仮名列は、“たっせいするために”である。以下の例は入力の先頭の一部である“た”を入力する場合を例に説明する。なお、誤り区間の始点と終点とは、上述と同様の方法により決定済みまたは決定されるものとする。
つぎに第8の実施形態について説明する。この実施形態によると、訂正部270において再認識した結果、再認識前の認識結果と同じ認識結果とならないようにしたものである。
つぎに、第9の実施形態について説明する。この実施形態によると、誤り区間特徴量抽出部260において抽出した特徴量データの誤り区間において、平均値を算出し、その平均値を特徴量データから減算したデータを用いて再認識処理を行おうとするものである。
上述の第1の実施形態から第9の実施形態に記載の音声認識結果訂正装置であるクライアント装置110〜110iにおいて、訂正部270が訂正処理(再認識処理)を行っているが、これに限るものではない。すなわち、誤り区間指定部240が指定した誤り区間をサーバ装置120に通知するような構成をとることにより、サーバ装置120において再度訂正処理を行い、その訂正結果を受信部235が受信するような構成としてもよい。サーバ装置120における再訂正処理は上述のクライアント装置110の訂正部270における訂正処理をとるものとする。クライアント装置110における通知処理の具体例としては、誤り区間指定部240において指定された誤り区間の時間情報、またはその前後の単語を含めた時間情報を、誤り区間指定部240が計算し、送信部225がその時間情報をサーバ装置120に通知するものが考えられる。サーバ装置120においては、最初に行った認識処理とは異なった音声認識処理を行うことにより誤った認識を再度行うことを防止する。例えば、音響モデル、言語モデル、辞書をかえて認識処理を行うようにする。
つぎに、第11の実施形態のクライアント装置110kについて説明する。この第11の実施形態におけるクライアント装置110kは、サブワード区間を認識し、当該サブワード区間に記述されているサブワード文字列を用いた訂正処理を行うものである。図26は、当該クライアント装置110kの機能を示すブロック図である。
第11の実施形態ではサブワード文字列を境界に分割するやり方を説明したが、本実施形態では分割しなくても再認識する場合にサブワード文字列を必ず用いる方法について説明する。本実施形態は、上述第11の実施形態と同様の装置構成をとったものとする。
経路1:最近/では/玄関/で/待ち合わせ
経路2:昨日/の/会議/は/世界/中/
経路3:最近/では/単価/高い/サンヨウムセン
経路4:最近/では/電気メーカ/の/サンヨウムセン
Claims (33)
- 音声を入力する入力手段と、
前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、
前記算出手段により算出された特徴量データを記憶する記憶手段と、
前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、
前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、
を備え、
前記訂正手段は、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする音声認識結果訂正装置。 - 音声を入力する入力手段と、
前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、
前記算出手段により算出された特徴量データを記憶する記憶手段と、
前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、
前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、
を備え、
前記訂正手段は、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする音声認識結果訂正装置。 - 前記取得手段は、
前記入力手段により入力された音声を、音声認識装置に送信する送信手段と、
前記音声認識装置において認識された認識結果を受信する受信手段とから構成され、
前記指定手段は、前記受信手段により受信された認識結果において、認識誤りが発生している誤り区間を指定することを特徴とする請求項1または2に記載の音声認識結果訂正装置。 - 前記指定手段は、ユーザ操作を受け付けることにより、誤り区間を指定することを特徴とする請求項1から3のいずれか一項に記載の音声認識結果訂正装置。
- 前記指定手段は、前記認識結果に付与されている認識結果の信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定することを特徴とする請求項1から4のいずれか1項に記載の音声認識結果訂正装置。
- 前記指定手段は、前記認識結果の信頼度を計算し、当該信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定することを特徴とする請求項1から4のいずれか1項に記載の音声認識結果訂正装置。
- 前記指定手段により指定された誤り区間の直前の少なくとも一つの単語を特定するための情報である単語情報、若しくは直後の少なくとも一つの単語の単語情報、または前記直前の単語の単語情報および直後の単語の単語情報の両方、のいずれかを形成する認識結果における単語の単語情報を特定する単語情報特定手段をさらに備え、
前記訂正手段は、前記単語情報特定手段により特定された単語情報を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする請求項1から6のいずれか1項に記載の音声認識結果訂正装置。 - 前記単語情報が、単語の品詞を示す品詞情報、および単語の読み方を示す読み情報、のいずれか1つまたは複数を含むことを特徴とする請求項7に記載の音声認識結果訂正装置。
- 前記単語情報に基づいて、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果の単語が、未知語か否かを判定する、未知語判定手段をさらに備え、
前記未知語判定手段により前記認識結果の単語が未知語であると判定されると、前記訂正手段は、前記単語情報をもとに、認識結果の訂正処理を行うことを特徴とする請求項7または8に記載の音声認識結果訂正装置。 - 単語同士の接続確率を記憶する接続確率記憶手段をさらに備え、
前記訂正手段は、訂正処理したことによって当該誤り区間の単語およびその前後またはその一方における単語との接続確率を作成し、当該接続確率を用いて前記接続確率記憶手段に記憶されている接続確率を更新することを特徴とする請求項1から9のいずれか1項に記載の音声認識結果訂正装置。 - 前記単語情報特定手段により特定された単語情報または前記特定手段により特定された単語を拘束条件として記憶する拘束条件記憶手段をさらに備え、
前記訂正手段は、前記拘束条件記憶手段に記憶されている拘束条件に従って訂正処理を行うことを特徴とする請求項1から10のいずれか1項に記載の音声認識結果訂正装置。 - ユーザから文字情報を受け付ける受付手段をさらに備え、
前記訂正手段は、前記受付手段により受け付けられた文字情報を拘束条件として、誤り区間における認識結果の訂正処理を行うことを特徴とする請求項1から11のいずれか1項に記載の音声認識結果訂正装置。 - 受信手段により受信された認識結果と前記記憶手段に記憶されている特徴量データとに基づいて、認識結果における経過時間を算出する時間情報算出手段をさらに備え、
前記指定手段は、前記時間情報算出手段により算出された時間情報に基づいて誤り区間を指定することを特徴とする請求項1から12いずれか1項に記載の音声認識結果訂正装置。 - 前記訂正手段により訂正された認識結果を表示する表示手段をさらに備え、
前記表示手段は、前記取得手段により取得された認識結果を表示しないことを特徴とする請求項1から13のいずれか1項に記載の音声認識結果訂正装置。 - 前記訂正手段により再認識により得られた認識結果と、前記取得手段により取得された認識結果とが同じであった場合、またはこれら認識結果それぞれに含まれる時間情報にずれが生じている場合には、認識誤りと判断され、前記表示手段は認識結果を表示しないことを特徴とする請求項14に記載の音声認識結果訂正装置。
- 前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識結果に付与されている認識結果の信頼度に基づいて誤り区間の終点を指定することを特徴とする請求項4に記載の音声認識結果訂正装置。
- 前記指定手段は、ユーザ操作により誤り区間の始点を指定し、当該始点から所定認識単位数あけて誤り区間の終点を指定することを特徴とする請求項4に記載の音声認識結果訂正装置。
- 前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識結果における所定の発音記号に基づいて誤り区間の終点を指定することを特徴とする請求項4に記載の音声認識結果訂正装置。
- 前記取得手段は、認識結果を取得する際、認識結果として複数の認識候補を取得し、
前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識候補の数に基づいて終点を指定することを特徴とする請求項4に記載の音声認識結果訂正装置。 - 前記算出手段により算出された特徴量データの誤り区間を含む区間の平均値を算出する算出手段をさらに備え、
前記訂正手段は、抽出した特徴量データから前記算出手段により算出された平均値を減算し、その減算して得られたデータを特徴量データとして再認識処理を行うことを特徴とする請求項1から19のいずれか1項に記載の音声認識結果訂正装置。 - 音声を入力する入力手段と、
前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
前記指定手段により指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知手段と、
前記通知手段による依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信手段と、
前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、を備え、
前記受信手段は、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、認識処理された認識結果を受信することを特徴とする音声認識結果訂正装置。 - 音声を入力する入力手段と、
前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
前記指定手段により指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知手段と、
前記通知手段による依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信手段と、
前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段とを備え、
前記受信手段は、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、認識処理された認識結果を受信することを特徴とする音声認識結果訂正装置。 - 音声を入力する入力ステップと、
前記入力ステップにより入力された音声に基づいて特徴量データを算出する算出ステップと、
前記算出ステップにより算出された特徴量データを記憶手段に記憶する記憶ステップと、
前記入力ステップにより入力された音声に対する認識結果を取得する取得する取得ステップと、
前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、
前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、
前記記憶ステップにおいて記憶された特徴量データから前記指定ステップにより指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得ステップにより得られた認識結果の訂正を実行する訂正ステップとを備え、
前記訂正ステップは、前記特定ステップにより特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする音声認識結果訂正方法。 - 音声を入力する入力ステップと、
前記入力ステップにより入力された音声に基づいて特徴量データを算出する算出ステップと、
前記算出ステップにより算出された特徴量データを記憶手段に記憶する記憶ステップと、
前記入力ステップにより入力された音声に対する認識結果を取得する取得する取得ステップと、
前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、
前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、
前記記憶ステップにおいて記憶された特徴量データから前記指定ステップにより指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得ステップにより得られた認識結果の訂正を実行する訂正ステップとを備え、
前記訂正ステップは、前記特定ステップにより特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする音声認識結果訂正方法。 - 音声を入力する入力ステップと、
前記入力ステップにより入力された音声に対する認識結果を取得する取得ステップと、
前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、
前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、
前記指定ステップにより指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知ステップと、
前記通知ステップによる依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信ステップと、を備え、
前記受信ステップは、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、前記外部サーバにおいて認識処理された認識結果を受信することを特徴とする音声認識結果訂正方法。 - 音声を入力する入力ステップと、
前記入力ステップにより入力された音声に対する認識結果を取得する取得ステップと、
前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、
前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、
前記指定ステップにより指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知ステップと、
前記通知ステップによる依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信ステップと、を備え、
前記受信ステップは、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、前記外部サーバにおいて認識処理された認識結果を受信することを特徴とする音声認識結果訂正方法。 - 音声を入力する入力手段と、
前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、
前記算出手段により算出された特徴量データを記憶する記憶手段と、
前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、
前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、
前記取得手段により取得された認識結果において、サブワード区間を指定するサブワード区間指定手段と、
前記サブワード区間指定手段により指定されたサブワード区間に従って、前記取得手段から取得された認識結果を複数の区間に分割する分割手段をさらに備え、
前記訂正手段は、前記指定手段により指定された誤り区間においてさらに前記サブワード区間指定手段により指定され、前記分割手段により分割されたサブワード区間に対応する特徴量データを、前記記憶手段から抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する
ことを特徴とする音声認識結果訂正装置。 - 前記分割手段は、サブワード区間の終点を一の分割区間の終点とするとともに、サブワード区間の始点を、前記一の分割区間の次の分割区間の始点とするよう認識結果を分割することを特徴とする請求項27に記載の音声認識結果訂正装置。
- 前記訂正手段は、前記分割手段により分割された分割区間ごとに、認識結果の訂正を実行するとともに、前記サブワード区間を各分割区間の訂正における拘束条件とすることを特徴とする請求項28に記載の音声認識結果訂正装置。
- 前記訂正手段は、前記サブワード区間指定手段により指定されたサブワード区間に記述されているサブワード文字列を含む仮説を認識の探索過程として保持し、当該仮説から最終的な認識結果を選択することにより訂正を実行することを特徴とする請求項27に記載の音声認識結果訂正装置。
- 前記サブワード区間指定手段により指定されたサブワード区間におけるサブワード文字列を認識処理のための辞書データベースに追加する辞書追加手段をさらに備えることを特徴とする請求項27から30のいずれか1項に記載の音声認識結果訂正装置。
- ユーザにより生成された辞書データベースをさらに備え、
前記訂正手段は、サブワード文字列を前記辞書データベースにしたがって変換された文字列を用いて訂正処理を行うことを特徴とする請求項27から31のいずれか一項に記載の音声認識結果訂正装置。 - 請求項1から22、または27から32のいずれか1項に記載の音声認識結果訂正装置と、
前記音声認識結果訂正装置から送信された音声に基づいて音声認識を行い、認識結果として前記音声認識結果訂正装置に送信するサーバ装置と、からなる音声認識結果訂正システム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008285550A JP4709887B2 (ja) | 2008-04-22 | 2008-11-06 | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム |
CN2009101350590A CN101567189B (zh) | 2008-04-22 | 2009-04-22 | 声音识别结果修正装置、方法以及系统 |
TW098113352A TWI427620B (zh) | 2008-04-22 | 2009-04-22 | A speech recognition result correction device and a speech recognition result correction method, and a speech recognition result correction system |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008111540 | 2008-04-22 | ||
JP2008111540 | 2008-04-22 | ||
JP2008198486 | 2008-07-31 | ||
JP2008198486 | 2008-07-31 | ||
JP2008285550A JP4709887B2 (ja) | 2008-04-22 | 2008-11-06 | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010055044A JP2010055044A (ja) | 2010-03-11 |
JP4709887B2 true JP4709887B2 (ja) | 2011-06-29 |
Family
ID=42070988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008285550A Expired - Fee Related JP4709887B2 (ja) | 2008-04-22 | 2008-11-06 | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP4709887B2 (ja) |
CN (1) | CN101567189B (ja) |
TW (1) | TWI427620B (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5004863B2 (ja) * | 2008-04-30 | 2012-08-22 | 三菱電機株式会社 | 音声検索装置および音声検索方法 |
JP5231484B2 (ja) * | 2010-05-19 | 2013-07-10 | ヤフー株式会社 | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 |
JP5160594B2 (ja) * | 2010-06-17 | 2013-03-13 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識装置および音声認識方法 |
JP5480760B2 (ja) * | 2010-09-15 | 2014-04-23 | 株式会社Nttドコモ | 端末装置、音声認識方法および音声認識プログラム |
CN103229232B (zh) * | 2010-11-30 | 2015-02-18 | 三菱电机株式会社 | 声音识别装置及导航装置 |
JP6150268B2 (ja) * | 2012-08-31 | 2017-06-21 | 国立研究開発法人情報通信研究機構 | 単語登録装置及びそのためのコンピュータプログラム |
KR101364774B1 (ko) * | 2012-12-07 | 2014-02-20 | 포항공과대학교 산학협력단 | 음성 인식의 오류 수정 방법 및 장치 |
CN103076893B (zh) * | 2012-12-31 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 一种用于实现语音输入的方法与设备 |
JP2014137430A (ja) * | 2013-01-16 | 2014-07-28 | Sharp Corp | 電子機器及び掃除機 |
TWI508057B (zh) * | 2013-07-15 | 2015-11-11 | Chunghwa Picture Tubes Ltd | 語音辨識系統以及方法 |
US9640183B2 (en) | 2014-04-07 | 2017-05-02 | Samsung Electronics Co., Ltd. | Speech recognition using electronic device and server |
CN105469801B (zh) * | 2014-09-11 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种修复输入语音的方法及其装置 |
CN105869632A (zh) * | 2015-01-22 | 2016-08-17 | 北京三星通信技术研究有限公司 | 基于语音识别的文本修订方法和装置 |
CN104933408B (zh) * | 2015-06-09 | 2019-04-05 | 深圳先进技术研究院 | 手势识别的方法及系统 |
CN105513586A (zh) * | 2015-12-18 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别结果的显示方法和装置 |
KR101804765B1 (ko) * | 2016-01-08 | 2018-01-10 | 현대자동차주식회사 | 차량 및 그 제어방법 |
JP6675078B2 (ja) * | 2016-03-15 | 2020-04-01 | パナソニックIpマネジメント株式会社 | 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム |
EP3489949A4 (en) | 2016-07-19 | 2019-08-07 | Sony Corporation | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
JP6597527B2 (ja) * | 2016-09-06 | 2019-10-30 | トヨタ自動車株式会社 | 音声認識装置および音声認識方法 |
JP6526608B2 (ja) * | 2016-09-06 | 2019-06-05 | 株式会社東芝 | 辞書更新装置およびプログラム |
JP7088645B2 (ja) * | 2017-09-20 | 2022-06-21 | 株式会社野村総合研究所 | データ変換装置 |
CN107945802A (zh) * | 2017-10-23 | 2018-04-20 | 北京云知声信息技术有限公司 | 语音识别结果处理方法及装置 |
CN108597495B (zh) * | 2018-03-15 | 2020-04-14 | 维沃移动通信有限公司 | 一种处理语音数据的方法及装置 |
JP7143665B2 (ja) * | 2018-07-27 | 2022-09-29 | 富士通株式会社 | 音声認識装置、音声認識プログラムおよび音声認識方法 |
CN109325239A (zh) * | 2018-11-05 | 2019-02-12 | 北京智启蓝墨信息技术有限公司 | 学生课堂表现管理方法及系统 |
CN110956959B (zh) * | 2019-11-25 | 2023-07-25 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
CN111192586B (zh) * | 2020-01-08 | 2023-07-04 | 北京小米松果电子有限公司 | 语音识别方法及装置、电子设备、存储介质 |
JP2021135453A (ja) * | 2020-02-28 | 2021-09-13 | パナソニックIpマネジメント株式会社 | テキスト音源位置表示システムおよびテキスト音源位置表示装置 |
CN112382285B (zh) * | 2020-11-03 | 2023-08-15 | 北京百度网讯科技有限公司 | 语音控制方法、装置、电子设备和存储介质 |
CN112951238B (zh) * | 2021-03-19 | 2024-08-27 | 河南蜂云科技发展有限公司 | 一种基于语音处理的科技法庭智能管理方法、系统及存储介质 |
JP2023007960A (ja) * | 2021-07-02 | 2023-01-19 | 株式会社アドバンスト・メディア | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
CN116894442B (zh) * | 2023-09-11 | 2023-12-05 | 临沂大学 | 一种纠正引导发音的语言翻译方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000056795A (ja) * | 1998-08-03 | 2000-02-25 | Fuji Xerox Co Ltd | 音声認識装置 |
JP2000081896A (ja) * | 1998-09-04 | 2000-03-21 | Mitsubishi Electric Corp | 音声認識システムおよび単語辞書作成装置 |
JP2001092494A (ja) * | 1999-09-24 | 2001-04-06 | Mitsubishi Electric Corp | 音声認識装置、音声認識方法および音声認識プログラム記録媒体 |
JP2003099091A (ja) * | 2001-09-21 | 2003-04-04 | Nec Corp | 音声認識装置及び音声認識方法 |
JP2004258531A (ja) * | 2003-02-27 | 2004-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 認識誤り訂正方法、装置、およびプログラム |
JP2005234136A (ja) * | 2004-02-18 | 2005-09-02 | Ntt Docomo Inc | 音声認識サーバ、音声入力システム、及び、音声入力方法 |
JP2006243575A (ja) * | 2005-03-07 | 2006-09-14 | Nec Corp | 音声書き起こし支援装置およびその方法ならびにプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW219993B (en) * | 1992-05-21 | 1994-02-01 | Ind Tech Res Inst | Speech recognition system |
US6163765A (en) * | 1998-03-30 | 2000-12-19 | Motorola, Inc. | Subband normalization, transformation, and voiceness to recognize phonemes for text messaging in a radio communication system |
US7881936B2 (en) * | 1998-12-04 | 2011-02-01 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
WO2003005343A1 (en) * | 2001-07-06 | 2003-01-16 | Koninklijke Philips Electronics N.V. | Fast search in speech recognition |
-
2008
- 2008-11-06 JP JP2008285550A patent/JP4709887B2/ja not_active Expired - Fee Related
-
2009
- 2009-04-22 CN CN2009101350590A patent/CN101567189B/zh not_active Expired - Fee Related
- 2009-04-22 TW TW098113352A patent/TWI427620B/zh not_active IP Right Cessation
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000056795A (ja) * | 1998-08-03 | 2000-02-25 | Fuji Xerox Co Ltd | 音声認識装置 |
JP2000081896A (ja) * | 1998-09-04 | 2000-03-21 | Mitsubishi Electric Corp | 音声認識システムおよび単語辞書作成装置 |
JP2001092494A (ja) * | 1999-09-24 | 2001-04-06 | Mitsubishi Electric Corp | 音声認識装置、音声認識方法および音声認識プログラム記録媒体 |
JP2003099091A (ja) * | 2001-09-21 | 2003-04-04 | Nec Corp | 音声認識装置及び音声認識方法 |
JP2004258531A (ja) * | 2003-02-27 | 2004-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 認識誤り訂正方法、装置、およびプログラム |
JP2005234136A (ja) * | 2004-02-18 | 2005-09-02 | Ntt Docomo Inc | 音声認識サーバ、音声入力システム、及び、音声入力方法 |
JP2006243575A (ja) * | 2005-03-07 | 2006-09-14 | Nec Corp | 音声書き起こし支援装置およびその方法ならびにプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN101567189B (zh) | 2012-04-25 |
TW200951940A (en) | 2009-12-16 |
JP2010055044A (ja) | 2010-03-11 |
TWI427620B (zh) | 2014-02-21 |
CN101567189A (zh) | 2009-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4709887B2 (ja) | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム | |
CN106663424B (zh) | 意图理解装置以及方法 | |
JP5480760B2 (ja) | 端末装置、音声認識方法および音声認識プログラム | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
JP4705023B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
US9020819B2 (en) | Recognition dictionary system and recognition dictionary system updating method | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
CN108630200B (zh) | 声音关键字检测装置以及声音关键字检测方法 | |
JP5824829B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
CN111552777B (zh) | 一种音频识别方法、装置、电子设备及存储介质 | |
US20070038453A1 (en) | Speech recognition system | |
JP2003330485A (ja) | 音声認識装置、音声認識システム及び音声認識方法 | |
US20080065371A1 (en) | Conversation System and Conversation Software | |
JP5606951B2 (ja) | 音声認識システムおよびこれを用いた検索システム | |
JPH05143093A (ja) | 発声された単語のモデルを生成する方法および装置 | |
JP5238395B2 (ja) | 言語モデル作成装置および言語モデル作成方法 | |
JP6233867B2 (ja) | 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム | |
JP3911178B2 (ja) | 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 | |
JP4259100B2 (ja) | 音声認識用未知発話検出装置及び音声認識装置 | |
JP5315976B2 (ja) | 音声認識装置、音声認識方法、および、プログラム | |
JP2011039468A (ja) | 電子辞書で音声認識を用いた単語探索装置及びその方法 | |
JP2003263187A (ja) | 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体 | |
JP2004157919A (ja) | 入力装置及び音声入力方法と装置並びにプログラム | |
JP2005284018A (ja) | 音声認識システム | |
Zhang | Multiple pass strategies for improving accuracy in a voice search application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100713 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100824 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101021 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110318 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |