JP4709887B2

JP4709887B2 - 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム

Info

Publication number: JP4709887B2
Application number: JP2008285550A
Authority: JP
Inventors: 志鵬張; 信彦仲; 悠輔中島
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2008-04-22
Filing date: 2008-11-06
Publication date: 2011-06-29
Anticipated expiration: 2028-11-06
Also published as: CN101567189B; TW200951940A; JP2010055044A; TWI427620B; CN101567189A

Description

本発明は、音声認識されたデータを訂正する音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システムに関する。

携帯端末において入力された音声をサーバに出力し、当該サーバにおいて音声を認識し、ここで認識結果を携帯端末に送信することで、携帯端末において音声結果を取得することができる技術が、特許文献１に記載されているように知られている。
特開２００３−２９５８９３号公報

しかしながら、サーバにおいて認識された認識結果に誤りがある場合、その訂正を行うことが考慮されていない。一般に、認識結果に誤りがある場合には、ユーザにおいて手入力により操作することにより訂正することが考えられるが、大変手間がかかるものである。例えば、認識結果としての文章をユーザが把握し、誤りを認識し、その誤っている箇所を指定し、そして訂正する、といった手間がかかる。

そこで、本発明では、認識結果に誤りがあった場合に、ユーザの手間をかけることなく認識誤りを訂正することができる音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システムを提供することを目的とする。

上述の課題を解決するために、本発明の音声認識結果訂正装置は、音声を入力する入力手段と、前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、前記算出手段により算出された特徴量データを記憶する記憶手段と、前記入力手段により入力された音声に対する認識結果を取得する取得手段と、前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、を備え、前記訂正手段は、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする。

また、本発明の音声認識結果訂正方法は、音声を入力する入力ステップと、前記入力ステップにより入力された音声に基づいて特徴量データを算出する算出ステップと、前記算出ステップにより算出された特徴量データを記憶手段に記憶する記憶ステップと、前記入力ステップにより入力された音声に対する認識結果を取得する取得する取得ステップと、前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、前記記憶ステップにおいて記憶された特徴量データから前記指定ステップにより指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得ステップにより得られた認識結果の訂正を実行する訂正ステップとを備え、前記訂正ステップは、前記特定ステップにより特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする。

この発明によれば、入力された音声の特徴量データを記憶するとともに、その音声に対する認識された認識結果において、認識誤りが発生している誤り区間を指定する。そして、指定された誤り区間における特徴量データを再認識することにより認識結果を訂正する。これにより、認識した結果のうち必要な部分を訂正するため、簡易に訂正処理を行うことができるとともに、正しい認識結果を得ることができる。これにより、ユーザに負担をかけることなく、簡単に訂正処理を行うことができ、正しい音声認識結果を得ることができる。
さらに、この発明によれば、指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方の単語、のいずれかを形成する認識結果を特定し、特定された認識結果を拘束条件として、この拘束条件にしたがって、予め記憶されている特徴量データの認識処理を行うができる。これにより、より正確な認識処理を行うことができ、よって正しい音声認識結果を得ることができる。
また、本発明の音声認識結果訂正装置は、音声を入力する入力手段と、前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、前記算出手段により算出された特徴量データを記憶する記憶手段と、前記入力手段により入力された音声に対する認識結果を取得する取得手段と、前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、を備え、前記訂正手段は、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする。
また、本発明の音声認識結果訂正方法は、音声を入力する入力ステップと、前記入力ステップにより入力された音声に基づいて特徴量データを算出する算出ステップと、前記算出ステップにより算出された特徴量データを記憶手段に記憶する記憶ステップと、前記入力ステップにより入力された音声に対する認識結果を取得する取得する取得ステップと、前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、前記記憶ステップにおいて記憶された特徴量データから前記指定ステップにより指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得ステップにより得られた認識結果の訂正を実行する訂正ステップとを備え、前記訂正ステップは、前記特定ステップにより特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする。
この発明によれば、指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方の単語、のいずれかを形成する認識結果を特定し、特定された認識結果を拘束条件として、この拘束条件にしたがって、予め記憶されている特徴量データの認識処理を行うができる。すなわち、この発明においては誤り区間のみの特徴量データを用いて認識処理を行うことができる。これにより、より正確な認識処理を行うことができ、よって正しい音声認識結果を得ることができる。

また、本発明の音声認識結果訂正装置において、前記取得手段は、前記入力手段により入力された音声を、音声認識装置に送信する送信手段と、前記音声認識装置において認識された認識結果を受信する受信手段とから構成され、前記指定手段は、前記受信手段により受信された認識結果において、認識誤りが発生している誤り区間を指定することが好ましい。

この発明によれば、入力された音声を、音声認識装置に送信し、この音声認識装置において認識された認識結果を受信する。そして、受信された認識結果において、認識誤りが発生している誤り区間を指定し、指定された誤り区間における認識結果を訂正する。これにより、認識した結果のうち必要な部分を訂正するため、簡易に音声認識の誤りを訂正することができ、正しい認識結果を得ることができる。

また、本発明の音声認識結果訂正装置において、前記指定手段は、ユーザ操作を受け付けることにより、誤り区間を指定することが好ましい。

この発明によれば、ユーザ操作を受け付けることにより、誤り区間を指定することができ、より簡易に誤り区間を指定することができるとともに、正しい音声認識結果を得ることができる。

また、本発明の音声認識結果訂正装置において、前記指定手段は、前記認識結果に付与されている認識結果の信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定することが好ましい。

この発明によれば、認識結果に付与されている認識結果の信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定するにより、自動的に誤り区間を指定することができ、より簡易に誤り区間を指定することができる。

また、本発明の音声認識結果訂正装置において、前記指定手段は、前記認識結果の信頼度を計算し、当該信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定することが好ましい。

この発明によれば、認識結果の信頼度を計算し、当該信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定することができ、より簡易に誤り区間を指定することができる。さらに、サーバ装置などに音声認識をさせる場合においても、そのサーバ装置から信頼度を計算させなくてもよく、より使い勝手のよい装置を提供することができる。

また、本発明の音声認識結果訂正装置は、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語を特定するための情報である単語情報、若しくは直後の少なくとも一つの単語の単語情報、または前記直前の単語の単語情報および直後の単語の単語情報の両方、のいずれかを形成する認識結果における単語の単語情報を特定する単語情報特定手段をさらに備え、前記訂正手段は、前記単語情報特定手段により特定された単語情報を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことが好ましい。

この発明によれば、単語を特定するための単語情報を拘束条件として、訂正処理を行うことにより、より正確な認識処理を行うことができる。

例えば、単語情報として、単語の品詞を示す品詞情報および単語の読み方を示す読み情報、のいずれか１つまたは複数を含むことが好ましい。

また、本発明の音声認識結果訂正装置は、前記単語情報に基づいて、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果の単語が、未知語か否かを判定する、未知語判定手段をさらに備え、前記未知語判定手段により前記認識結果の単語が未知語であると判定されると、前記訂正手段は、前記単語情報をもとに、認識結果の訂正処理を行うことが好ましい。

この発明によれば、未知語である場合に、単語情報を拘束条件とした認識処理を行うことにより、より正確な音声認識結果を得ることができる。

また、本発明の音声認識結果訂正装置は、単語同士の接続確率を記憶する接続確率記憶手段をさらに備え、前記訂正手段は、訂正処理したことによって当該誤り区間の単語およびその前後またはその一方における単語との接続確率を作成し、当該接続確率を用いて前記接続確率記憶手段に記憶されている接続確率を更新することが好ましい。

この発明によれば、単語同士の接続確率を記憶しておき、これを訂正処理をするたびに接続確率は変ることになるため、その接続確率を計算して更新することでより正確な音声認識結果を得ることができる。

また、本発明の音声認識結果訂正装置は、前記単語情報特定手段により特定された単語情報または前記特定手段により特定された単語を拘束条件として記憶する拘束条件記憶手段をさらに備え、前記訂正手段は、前記拘束条件記憶手段に記憶されている拘束条件に従って訂正処理を行うことが好ましい。

これにより、拘束条件となる単語または単語情報を記憶し、必要に応じて記憶されている拘束条件に従った訂正処理を行うことができ、訂正処理を行うたびに拘束条件を生成する必要がなくなり、迅速な訂正処理（音声認識処理）を行うことができる。

また、本発明の音声認識結果訂正装置は、ユーザから文字情報を受け付ける受付手段をさらに備え、前記訂正手段は、前記受付手段により受け付けられた文字情報を拘束条件として、誤り区間における認識結果の訂正処理を行うことが好ましい。

この発明によれば、ユーザが直接拘束条件となる文字を指定することができ、より正確な認識処理を行うことができ、よって正しい音声認識結果を得ることができる。

また、本発明の音声認識結果訂正装置は、受信手段により受信された認識結果と前記記憶手段に記憶されている特徴量データとに基づいて、認識結果における経過時間を算出する時間情報算出手段をさらに備え、前記指定手段は、前記時間情報算出手段により算出された時間情報に基づいて誤り区間を指定することが好ましい。

この発明によれば、受信された認識結果と記憶されている特徴量データとに基づいて、認識結果における経過時間を算出し、この時間情報に基づいて誤り区間を指定することができる。これにより認識結果に時間情報を含んでいない場合でも誤り区間に対応する適切な特徴量データを抽出することができる。

また、本発明の音声認識結果訂正装置は、前記訂正手段により訂正された認識結果を表示する表示手段をさらに備え、前記表示手段は、前記取得手段により取得された認識結果を表示しないことが好ましい。これにより、認識誤りのある可能性のある認識結果を表示しないため、ユーザに誤解を与えることがない。

また、本発明の音声認識結果訂正装置は、前記訂正手段により再認識により得られた認識結果と、前記取得手段により取得された認識結果とが同じであった場合、またはこれら認識結果それぞれに含まれる時間情報にずれが生じている場合には、認識誤りと判断され、前記表示手段は認識結果を表示しないことが好ましい。これにより、誤った認識結果を表示することを防止することができる。

また、本発明の音声認識結果訂正装置において、前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識結果に付与されている認識結果の信頼度に基づいて誤り区間の終点を指定することが好ましい。これにより、ユーザの入力習慣にあった訂正方法を実現することができ、使い勝手のよい装置を提供することができる。

また、本発明の音声認識結果訂正装置において、前記指定手段は、ユーザ操作により誤り区間の始点を指定し、当該始点に基づいて所定認識単位数あけて誤り区間の終点を指定することが好ましい。これにより、ユーザの入力習慣にあった訂正方法を実現することができ、使い勝手のよい装置を提供することができる。

また、本発明の音声認識結果訂正装置において、前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識結果における所定の発音記号に基づいて誤り区間の終点を指定することが好ましい。これにより、ユーザの入力習慣にあった訂正方法を実現することができ、使い勝手のよい装置を提供することができる。

また、本発明の音声認識結果訂正装置において、前記取得手段は、認識結果を取得する際、認識結果として複数の認識候補を取得し、前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識候補の数に基づいて終点を指定することが好ましい。これにより、認識結果の信頼度に基づいた終点を指定することができ、効率的に訂正処理を実現することができる。

また、本発明の音声認識結果訂正装置において、前記算出手段により算出された特徴量データの誤り区間を含む区間の平均値を算出する算出手段をさらに備え、前記訂正手段は、抽出した特徴量データから前記算出手段により算出された平均値を減算し、その減算して得られたデータを特徴量データとして再認識処理を行うことが好ましい。これにより、マイクなどの音を入力する集音装置の特性を除去した音に対して訂正処理を行うことができ、より正確な訂正（音声認識）を実現することができる。

また、本発明の音声認識結果訂正装置は、音声を入力する入力手段と、前記入力手段により入力された音声に対する認識結果を取得する取得手段と、前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、前記指定手段により指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知手段と、前記通知手段による依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信手段と、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、を備え、前記受信手段は、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、認識処理された認識結果を受信することを特徴とする。
また、本発明の音声認識結果訂正装置は、音声を入力する入力手段と、前記入力手段により入力された音声に対する認識結果を取得する取得手段と、前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、前記指定手段により指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知手段と、前記通知手段による依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信手段と、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段とを備え、前記受信手段は、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、認識処理された認識結果を受信することを特徴とする。

また、本発明の音声認識結果訂正方法は、音声を入力する入力ステップと、前記入力ステップにより入力された音声に対する認識結果を取得する取得ステップと、前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、前記指定ステップにより指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知ステップと、前記通知ステップによる依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信ステップと、を備え、前記受信ステップは、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、前記外部サーバにおいて認識処理された認識結果を受信することを特徴とする。
また、本発明の音声認識結果訂正方法は、音声を入力する入力ステップと、前記入力ステップにより入力された音声に対する認識結果を取得する取得ステップと、前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、前記指定ステップにより指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知ステップと、前記通知ステップによる依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信ステップと、を備え、前記受信ステップは、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、前記外部サーバにおいて認識処理された認識結果を受信することを特徴とする。

また、本発明の音声認識結果訂正装置は、音声を入力する入力手段と、前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、前記算出手段により算出された特徴量データを記憶する記憶手段と、前記入力手段により入力された音声に対する認識結果を取得する取得手段と、前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、前記取得手段により取得された認識結果において、サブワード区間を指定するサブワード区間指定手段と、前記サブワード区間指定手段により指定されたサブワード区間に従って、前記取得手段から取得された認識結果を複数の区間に分割する分割手段をさらに備え、前記訂正手段は、前記指定手段により指定された誤り区間においてさらに前記サブワード区間指定手段により指定され、前記分割手段により分割されたサブワード区間に対応する特徴量データを、前記記憶手段から抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する。

これにより、サブワード区間に対応する特徴量データを用いて認識結果の訂正を実行することができ、より正確な訂正処理を行うことができる。すなわち、サブワード区間といった未知語の区間にしたがった再認識を行うことができる。

また、認識結果を複数の区間の分割することで、認識対象を短くすることができ、より正確な認識処理を行うことができる。

また、本発明の音声認識結果訂正装置における分割手段は、サブワード区間の終点を一の分割区間の終点とするとともに、サブワード区間の始点を、前記一の分割区間の次の分割区間の始点とするよう認識結果を分割することが好ましい。

これにより、サブワード区間が、分割区間のいずれにも含まれることになる。よって、認識処理する際には必ずサブワード区間が含まれることにより、サブワード文字列を拘束条件とした認識処理を行うことができる。

また、本発明の音声認識結果訂正装置における訂正手段は、前記分割手段により分割された分割区間ごとに、認識結果の訂正を実行するとともに、前記サブワード区間を各分割区間の訂正における拘束条件とすることが好ましい。

これにより、認識処理する際には必ずサブワード区間が含まれることになり、サブワード文字列を拘束条件とした認識処理を行うことができる。

また、本発明の音声認識結果訂正装置において、訂正手段は、前記サブワード区間指定手段により指定されたサブワード区間に記述されているサブワード文字列を含む仮説を認識の探索過程として保持し、当該仮説から最終的な認識結果を選択することにより訂正を実行することが好ましい。

これにより、必ずサブワード文字列を用いた認識処理を行うことができる。

また、本発明の音声認識結果訂正装置は、前記サブワード区間指定手段により指定されたサブワード区間におけるサブワード文字列を認識処理のための辞書データベースに追加する辞書追加手段をさらに備えることが好ましい。

これにより、サブワード文字列を蓄積することができ、今後の認識処理に有効に用い、より正確な認識処理を行うことができる。

本発明の音声認識結果訂正装置は、ユーザにより生成された辞書データベースをさらに備え、前記訂正手段は、サブワード文字列を前記辞書データベースにしたがって変換された文字列を用いて訂正処理を行うことが好ましい。

また、本発明の音声認識結果訂正システムは、上述音声認識結果訂正装置と、前記音声認識結果訂正装置から送信された音声に基づいて音声認識を行い、認識結果として前記音声認識結果訂正装置に送信するサーバ装置と、を備えている。この音声認識結果訂正システムは、カテゴリーが相違するだけで、作用効果において上述音声認識結果訂正装置と同じである。

本発明によれば、認識した結果のうち必要な部分を訂正することができ、簡易に訂正処理を行うことができるとともに、正しい認識結果を得ることができる。

添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

＜第１の実施形態＞
図１は、本実施形態の音声認識結果訂正装置であるクライアント装置１１０およびクライアント装置１１０から送信された音声を認識し、その結果をクライアント装置１１０に返信するサーバ装置１２０を備える通信システムのシステム構成図である。本実施形態では、クライアント装置１１０は、例えば携帯電話などの携帯端末であって、ユーザが発声した音声を入力し、入力した音声を、無線通信を用いてサーバ装置１２０に送信し、サーバ装置１２０からの返信である認識結果を受信することができる。

サーバ装置１２０は、音声認識部を備え、入力された音声を、音響モデル、言語モデルなどのデータベースを用いて音声認識を行い、その認識結果をクライアント装置１１０に返信する。

つぎに、このクライアント装置１１０の構成について説明する。図２は、クライアント装置１１０の機能を示すブロック図である。このクライアント装置１１０は、特徴量算出部２１０（入力手段、算出手段）、特徴量圧縮部２２０、送信部２２５（取得手段、送信手段）、特徴量保存部２３０（記憶手段）、受信部２３５（取得手段、受信手段）、誤り区間指定部２４０（指定手段）、誤り区間前後コンテキスト指定部２５０（特定手段）、誤り区間特徴量抽出部２６０、訂正部２７０（訂正手段）、音響モデル保持部２８１、言語モデル保持部２８２、辞書保持部２８３、統合部２８０、表示部２９０を含んで構成されている。

図３は、クライアント装置１１０のハードウェア構成図である。図２に示されるクライアント装置１１０は、物理的には、図３に示すように、ＣＰＵ１１、主記憶装置であるＲＡＭ１２及びＲＯＭ１３、入力デバイスであるキーボード及びマウス等の入力装置１４、ディスプレイ等の出力装置１５、ネットワークカード等のデータ送受信デバイスである通信モジュール１６、ハードディスク等の補助記憶装置１７などを含むコンピュータシステムとして構成されている。図２において説明した各機能は、図３に示すＣＰＵ１１、ＲＡＭ１２等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１１の制御のもとで入力装置１４、出力装置１５、通信モジュール１６を動作させるとともに、ＲＡＭ１２や補助記憶装置１７におけるデータの読み出し及び書き込みを行うことで実現される。以下、図２に示す機能ブロックに基づいて、各機能ブロックを説明する。

特徴量算出部２１０は、マイク（図示せず）から入力されたユーザの声を入力し、当該入力された声から音声認識スペクトルであって、音響特徴を示す特徴量データを算出する部分である。例えば、特徴量算出部２１０は、ＭＦＣＣ（Mel Frequency Cepstrum Coefficient）のような周波数で表される音響特徴を示す特徴量データを算出する。

特徴量圧縮部２２０は、特徴量算出部２１０において算出された特徴量データを圧縮する部分である。

送信部２２５は、特徴量圧縮部２２０において圧縮された圧縮特徴量データをサーバ装置１２０に送信する部分である。この送信部２２５は、ＨＴＴＰ（Hyper Text Transfer Protocol）、ＭＲＣＰ（Media Resource Control Protocol）、ＳＩＰ（SessionInitiation Protocol）などを用いて送信処理を行う。また、このサーバ装置１２０では、これらプロトコルを用いて受信処理を行い、また返信処理を行う。さらに、このサーバ装置１２０では、圧縮特徴量データを解凍することができ、特徴量データを用いて音声認識処理を行うことができる。この特徴量圧縮部２２０は、通信トラフィックを軽減するためにデータ圧縮するためのものであることから、この送信部２２５は、圧縮されることなくそのままの特徴量データを送信することも可能である。

特徴量保存部２３０は、特徴量算出部２１０において算出された特徴量データを一時的に記憶する部分である。

受信部２３５は、サーバ装置１２０から返信された音声認識結果を受信する部分である。この音声認識結果には、テキストデータ、時間情報、および信頼度情報が含まれており、時間情報はテキストデータの一認識単位ごとの経過時間を示し、信頼度情報は、その認識結果における正当確度を示す情報である。

例えば、認識結果として、図４に示される情報が受信される。図４では、発声内容、認識内容、音声区間、信頼度が対応付けて記載されているが、発声内容は実際には含まれていない。ここで、音声区間で示されている数字は、フレームのインデックスを示すものであり、その認識単位の最初のフレームのインデックスが示されている。ここで１フレームは１０ｍｓｅｃ程度である。また、信頼度は、サーバ装置１２０において認識された音声認識結果の一認識単位ごとの信頼度を示すものであり、どの程度正しいかを示す数値である。これは、認識結果に対して確率などを用いて生成されたものであり、サーバ装置１２０において、認識された単語単位に付加されたものである。例えば、信頼度の生成方法として、以下の参考文献に記載されている。
参考文献：李晃伸，河原達也，鹿野清宏．「２パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」、情報処理学会研究報告, 2003-SLP-49-48, 2003-12．
図４では、例えば、認識結果である「売れて」は、３３フレームから５７フレームまでで構成され、その信頼度は０．８６であることが示されている。

誤り区間指定部２４０は、受信部２３５により受信された音声認識結果に基づいて誤り区間を指定する部分である。この誤り区間指定部２４０は、例えば、サーバ装置１２０から送信された音声認識結果に含まれている信頼度情報に基づいて誤り区間を指定することができる。

例えば、図４では、認識結果として、テキストデータは９０５（きゅうまるご）、時間情報は９フレーム（９０ｍｓｅｃ）、その信頼度は０．５９であることが示されており、また、別の箇所では認識結果である「どこ」の信頼度は、０．０４であることが示されている。そして、この誤り区間指定部２４０は、信頼度が所定の閾値以下のものは誤っていると判断し、その区間を誤り区間として指定することができる。例えば、信頼度が０．２以下のものは誤っていると設定した場合には、“どこ”、“で”、“豆腐”の部分が誤っていると判断し、その部分を誤り区間として指定することができる。この閾値はクライアント装置１１０側で予め設定されている数値である。なお、音声の個人差、雑音（ノイズ）の量、または信頼度の計算方法によって可変設定されるようにしてもよい。すなわち雑音が多い場合には、信頼度がさらに落ちるため、閾値を低めに設定しておき、また、音声認識結果に付加されている信頼度が全体的に低めであったり、逆に高めであったりした場合に、その信頼度の高低に応じて代えてもよい。例えば、信頼度の中央値に基づいて閾値を設定したり、また平均値に基づいて閾値を設定するようにしてもよい。

なお、クライアント装置１１０は、認識結果の信頼度情報を計算する信頼度計算部（図示せず）を備え、誤り区間指定部２４０は、クライアント装置１１０内において計算された信頼度情報に基づいて、誤り区間を指定するようにしてもよい。

誤り区間前後コンテキスト指定部２５０は、誤り区間指定部２４０において指定された誤り区間に基づいて、当該誤り区間の前後において認識された単語（少なくとも一認識単位）を指定する部分である。以下では前後1単語だけを利用する場合を例に説明する。図５（ａ）に、誤り区間の前後において認識された一認識単位（誤り区間前後コンテキスト）を指定した場合の概念図を示す。図５（ａ）に示すように、認識結果の誤り区間の前後に誤り区間前の単語の音声区間、誤り区間後の単語の音声区間を指定する。

誤り区間特徴量抽出部２６０は、誤り区間前後コンテキスト指定部２５０により指定された誤り区間（前後の少なくとも一認識単位を含んでもよい）の特徴量データを、特徴量保存部２３０から抽出する部分である。

訂正部２７０は、誤り区間特徴量抽出部２６０により抽出された特徴量データを再度音声認識する部分である。この訂正部２７０は、音響モデル保持部２８１、言語モデル保持部２８２、および辞書保持部２８３を用いて音声認識を行う。さらに、この訂正部２７０は、誤り区間前後コンテキスト指定部２５０により指定された前後の音声区間で示される単語（前後コンテキスト）を拘束条件として音声認識を行う。図５（ｂ）に、誤り区間前後コンテキスト指定部２５０により指定された単語に基づいて認識処理を行うときの概念図を示す。図５（ｂ）に示すように、誤り区間の前の区間の単語Ｗ１と後の区間の単語Ｗ２とを拘束条件とした場合、認識候補は限られたものとなる。よって、認識の精度を向上させることができる。図５（ｂ）の例では、認識候補としてＡ〜Ｚに絞り込むことができ、この絞り込まれた後方の中から適切な候補を選択することができ、効率的に認識処理を行うことができる。

また、訂正部２７０は、前後の単語との係り受けの関係、活用形などに基づいて訂正処理を行うようにしてもよい。例えば、訂正部２７０は、誤り区間の単語に対する認識候補Ａ〜Ｚを複数抽出し、その前後の単語Ｗ１およびＷ２との係り受けの関係に基づいて、訂正候補ごとにスコアを算出し、スコアの高い訂正候補を認識結果とするようにしてもよい。

また、訂正部２７０は、前の区間の単語Ｗ１や後の区間の単語Ｗ２が言語モデル保持部２８２や辞書保持部２８３に含まれていない場合でも、その単語を特定するための単語情報や前後の単語を特定するための単語情報を拘束条件として訂正処理（再音声認識処理）を行うことができる。

例えば、クライアント装置１１０は、単語情報として、単語Ｗ１、単語Ｗ２のそれぞれ品詞を示す品詞情報がサーバ装置１２０から受信しており、訂正部２７０は、単語Ｗ１、単語Ｗ２のそれぞれの品詞情報を拘束条件として訂正処理を行う。これにより、より正確な訂正処理、すなわち音声認識処理を行うことができる。具体的には、受信部２３５において受信した音声認識結果に付加されている単語情報のうち、誤り区間指定部２４０が、誤り区間の前後（またはいずれか一方）の単語情報を抽出し、訂正部２７０に出力する。訂正部２７０では、この単語情報を拘束条件として指定された部分を訂正処理する。その概念図を図２４に示す。図２４に示すとおり、単語Ｗ１に対応して品詞情報Ａ（例えば、助詞）が、単語Ｗ２に対応して品詞情報Ｂ（例えば動詞）が拘束条件として設定されている。訂正部２７０は、それぞれ品詞情報Ａおよび品詞情報Ｂを満たすように訂正処理を行うことにより、より正確な音声認識処理を行うことができる。

なお、単語情報として、品詞情報に限ることなく、例えば、読み方など単語以外の単語を特定するための情報としてもよい。

また、必要な単語情報が音声認識結果に含まれていない場合、認識対象である文章を周知の形態素解析システム（例えば、“茶筅”、“Ｍｅｃａｂ”）、日本語係り受け解析ツール（例えば“南瓜”）などを使って解析することで、単語情報を生成することができる。すなわち、図２５において示されているクライアント装置１１０の変形例においては、新たに単語情報解析部２５１が付加されており、単語情報解析部２５１は上述の通り周知の形態素解析システム、日本語係り受け解析ツールなどで構成されており、音声認識結果を解析することができる。そして、解析した結果を誤り区間前後コンテキスト指定部２５０に出力し、誤り区間前後コンテキスト指定部２５０はその単語情報に基づいて誤り区間の前後の単語の単語情報を抽出し、訂正部２７０に出力することができる。

上記の単語情報を生成する処理は、クライアント装置１１０またはサーバ装置１２０で行ってもよいが、サーバ装置１２０で行うように指示を出し、処理の結果を受信するほうが、クライアント装置１１０での処理量を低減することができる。

上述の処理は単語Ｗ１およびＷ２が未知語であった場合に特に有効である。未知語とは、言語モデル保持部２８２や辞書保持部２８３に含まれていない単語である。例えば、訂正部２７０（未知語判定手段）は、単語ＷおよびＷ２が未知語であるか否かを判断し、未知語である場合には、サーバ装置１２０から送出された認識結果に含まれている単語情報を拘束条件として、訂正処理を行う。

また、クライアント装置１１０において、その拘束条件を登録してもよい。すなわち、図２５に示されているクライアント装置１１０の変形例において、指定された誤り区間の単語およびその前後（または少なくとも一方）の単語、またはその単語情報をセットにしたものを拘束条件として、拘束条件記憶部２８５（拘束条件記憶手段）に記憶させてもよい。これにより、訂正部２７０は誤り区間指定部２４０において指定された誤り区間における単語と同じであり、またその前後の単語が同じであった場合には、拘束条件記憶部２８５において記憶されている拘束条件にしたがって、訂正処理を行うことができる。よって、その処理を迅速に行うことができる。すなわち、次回以降に、未知語が検出されても、すでに登録されている拘束条件を読み出すだけで、拘束条件を適用することができる。あらたに拘束条件を作成する必要がないため、より少ない処理で拘束条件を設定することができる。

また、訂正部２７０において訂正した結果にしたがって、その誤り区間における単語およびその前後における単語の接続確率を更新するようにしてもよい。すなわち、接続確率は、接続確率記憶手段として機能する言語モデル保持部２８２および辞書保持部２８３に記憶されており、適宜訂正処理の度に訂正部２７０において計算・作成された接続確率は、言語モデル保持部２８２および辞書保持部２８３において更新されるようにしてもよい。

また、訂正部２７０は、再認識した認識結果と、この誤り区間におけるサーバ装置１２０において認識された認識結果とが同じであるか否かを判断し、その際には認識結果を統合部２８０に出力することなく、表示部２９０に認識結果を表示させないようにすることが好適である。

また、訂正部２７０において認識して得られた認識結果と、この誤り区間におけるサーバ装置１２０において認識された認識結果との間で、一認識単位にずれが生じた場合も同様に認識誤りと判断し、認識結果を統合部２８０に出力することなく、表示部２９０に認識結果を表示させないようにすることが好適である。

例えば、図４における音声区間と認識結果との対応関係が異なった場合、より具体的には、音声区間において、サーバ装置１２０における認識結果としてフレームインデックスが０−９で、その場合に“９０５（きゅうまるご）”となっていた場合に、訂正部２７０における再認識においては、フレームインデックスが０−１５、“９０５５５（きゅうまるごごご）”のようになっていた場合には、その音声区間と認識結果との対応関係が、認識結果と再認識結果との間でずれている。このため、認識誤りと判断することができる。その場合には、訂正部２７０は、表示部２９０において認識結果を表示させないように、出力をしないなどの処理を行う。

さらに、訂正部２７０は、ユーザから文字情報を受け付ける受付部（図示せず）において、上述した認識誤りと判断できた場合において、文字が入力されると、訂正部２７０は、受け付けられた文字（例えば仮名）を拘束条件として、誤り区間における認識結果の訂正処理を行うようにしてもよい。すなわち、誤り区間の認識結果に対して、何らかの文字入力があった場合に、その文字を前提として、残りの部分における認識処理を行うようにしてもよい。この場合は、認識誤りの判断がなされると、受付部における文字入力受付を可能にする。

なお、訂正部２７０は、サーバ装置１２０において行われた認識処理とは異なった音声認識処理を行うことにより誤った認識を再度行うことを防止する。例えば、音響モデル、言語モデル、辞書をかえて認識処理を行うようにする。

音響モデル保持部２８１は、音素とそのスペクトルを対応付けて記憶するデータベースである。言語モデル保持部２８２は、単語、文字などの連鎖確率を示す統計的情報を記憶する部分である。辞書保持部２８３は、音素とテキストとのデータベースを保持するものであり、例えばＨＭＭ（Hidden Marcov Model)を記憶する部分である。

統合部２８０は、受信部２３５において受信された音声認識結果のうち、誤り区間外のテキストデータと、訂正部２７０において再認識されたテキストデータとを統合する部分である。この統合部２８０は、訂正部２７０において再認識されたテキストデータを統合する位置を示す誤り区間（時間情報）にしたがって、統合する。

表示部２９０は、統合部２８０において統合されて得られたテキストデータを表示する部分である。なお、表示部２９０は、サーバ装置１２０において認識された結果は表示し内容に構成されていることが好ましい。また、訂正部２７０において再認識された結果と、誤り区間におけるサーバ装置１２０において認識された認識結果とが同じである場合、その認識結果を表示することないように表示することが好ましく、またその場合には、認識不可である旨を表示するようにしてもよい。さらに、訂正部２７０において再認識して得られた認識結果と、サーバ装置１２０において認識されて得られた認識結果と間で時間情報がずれていた場合も、誤っている可能性があるため表示せず、また認識不可である旨を表示するようにすることが好ましい。

また、常に再認識処理を実行する必要はなく、誤り区間の長さに応じて、再認識処理を実行するかどうかを判断してもよい。例えば、誤り区間が1文字である場合には、再認識処理を実行せず、文字入力など別の方法による訂正をするようにする。

このように構成されたクライアント装置１１０の動作について説明する。図６は、クライアント装置１１０の動作を示すフローチャートである。マイクを介して入力された音声は特徴量算出部２１０によりその特徴データが抽出される（Ｓ１０１）。そして、特徴量保存部２３０に特徴量データは保存される（Ｓ１０２）。つぎに、特徴量圧縮部２２０により特徴量データは圧縮される（Ｓ１０３）。圧縮された圧縮特徴量データは、送信部２２５によりサーバ装置１２０に送信される（Ｓ１０４）。

つぎに、サーバ装置１２０において音声認識が行われ、サーバ装置１２０からその認識結果が送信され、受信部２３５により受信される（Ｓ１０５）。そして、音声認識結果から誤り区間指定部２４０により誤り区間が指定され、この指定された誤り区間に基づいて前後コンテキストが指定される（Ｓ１０６）。この前後コンテキストを含んだ誤り区間に基づいて、誤り区間特徴量抽出部２６０により特徴量データが特徴量保存部２３０から抽出される（Ｓ１０７）。ここで抽出された特徴量データに基づいて訂正部２７０により再度音声認識が行われ、誤り区間におけるテキストデータが生成される（Ｓ１０８）。そして、誤り区間におけるテキストデータと、受信部２３５において受信されたテキストデータとが統合され、正しく認識されて得られたテキストデータが表示部２９０に表示される（Ｓ１０９）。

つぎに、上述Ｓ１０６〜Ｓ１０８における処理についてさらに詳細に説明する。図７は、その詳細な処理を示すフローチャートである。適宜、図５（ａ）を参照しながら説明する。

誤り区間指定部２４０により認識結果に基づいて誤り区間が指定される（Ｓ２０１（Ｓ１０６））。この誤り区間に基づいて、誤り区間前後コンテキスト指定部２５０により誤り区間の前の単語Ｗ１（図５（ａ））が指定され、保存される（Ｓ２０２）。また、誤り区間前後コンテキスト指定部２５０により、誤り区間の後の単語Ｗ２（図５（ａ））が指定され記憶される（Ｓ２０３）。つぎに、誤り区間前後コンテキスト指定部２５０により、この単語Ｗ１の開始時間Ｔ１（図５（ａ））が指定され（Ｓ２０４）、また単語Ｗ２の終了時間Ｔ２（図５（ａ））が指定され、それぞれ保存される（Ｓ２０５）。

このようにして誤り区間にさらにその前後一単語（一認識単位）ずつ加えて得られた誤り区間である開始時間Ｔ１から終了時間Ｔ２までの区間の特徴量データが、誤り区間特徴量抽出部２６０により抽出される（Ｓ２０６（Ｓ１０７））。単語Ｗ１を始点、単語Ｗ２を終点とする拘束条件の設定が訂正部２７０において行われる（Ｓ２０７）。そして、この拘束条件にしたがって、訂正部２７０による特徴量データに対する認識処理が行われ、訂正処理が実行される（Ｓ２０８）。

以上の説明したとおり、本実施形態におけるクライアント装置１１０において、その作用効果について説明する。このクライアント装置１１０において、特徴量算出部２１０が入力された音声の特徴量データを算出し、特徴量圧縮部２２０が、特徴量データを音声認識装置であるサーバ装置１２０に送信する。一方、特徴量保存部２３０は、特徴量データを保存する。

そして、サーバ装置１２０において認識処理を行い、受信部２３５は認識結果をサーバ装置１２０から受信する。誤り区間指定部２４０は、受信された認識結果において、認識誤りが発生している誤り区間を指定する。この誤り区間指定部２４０は、信頼度に基づいて判断することができる。そして、誤り区間特徴量抽出部２６０は、誤り区間の特徴量データを抽出し、訂正部２７０は、抽出された誤り区間における認識結果を、再認識処理を行うことにより訂正処理を行う。すなわち、統合部２８０において、再認識された結果と、受信部２３５において受信された認識結果とを統合することにより、訂正処理が行われ、表示部２９０は訂正された認識結果を表示することができる。これにより、認識した結果のうち必要な部分を訂正するため、簡易に音声認識の誤りを訂正することができ、正しい認識結果を得ることができる。例えば、誤り単語の最大７０％を削減することができる。また、未知語による誤りの６０％以上を訂正できる。なお、信頼度は、サーバ装置１２０から受信してもよいし、クライアント装置１１０において計算してもよい。

さらに、このクライアント装置１１０は、誤り区間前後コンテキスト指定部２５０を用いて、拘束条件に従った訂正処理（再認識処理）を行うことができる。すなわち、誤り区間の前後の単語を固定しておき、この固定した単語に従った認識処理を行うことでより精度のよい認識結果を得ることができる。

なお、本実施形態または以降に示される他の実施形態において、１回目の認識処理をサーバ装置１２０で行っているが、これに限定するものではなく、１回目の認識処理をクライアント装置１１０において行い、２回目の認識処理をサーバ装置１２０において行うようにしてもよい。その際、当然に誤り区間の指定処理等はサーバ装置１２０において行われる。例えば、その場合には、クライアント装置１１０は、特徴量算出部２１０において算出された特徴量データに基づいて認識処理を行う認識処理部を備え、また送信部２２５は、ここでの認識結果と特徴量データとをサーバ装置１２０に送信する。

サーバ装置１２０では、クライアント装置１１０における誤り区間指定部２４０、誤り区間前後コンテキスト指定部２５０、特徴量保存部２３０、誤り区間特徴量抽出部２６０、訂正部２７０に相当する各部を備えており、クライアント装置１１０から送信された特徴量データは、特徴量保存部に記憶させ、認識結果に基づいて誤り区間の指定、誤り区間前後コンテキストの指定が行われ、これらに基づいて、先に保存した特徴量データの訂正処理（認識処理）が行われる。このように処理された認識結果はクライアント装置１１０に送信される。

また、本実施形態または以降に示される他の実施形態において、誤り区間前後コンテキスト指定部２５０により定められた拘束条件を用いて再認識（訂正処理）を行っているが、この場合、誤り区間の特徴量データのみを利用する。このような拘束条件を用いることなく、再認識処理を行うようにしてもよい。

また、サーバ装置１２０において認識方法と、本実施形態（または以降に示される他の実施形態）における認識方法を変えるようにすることが好ましい。すなわち、サーバ装置１２０において、不特定多数のユーザの音声を認識する必要があるため、汎用的である必要がある。例えば、サーバ装置１２０において用いられる音響モデル保持部、言語モデル保持部、辞書保持部における各モデル数、辞書数を大容量のものとし、音響モデルにおいては音素の数を多くし、言語モデルにおいては単語の数を大きくするなど、各モデル数、辞書数を大容量のものとしあらゆるユーザに対応できるようにする。

一方、クライアント装置１１０における訂正部２７０は、あらゆるユーザに対応させる必要はなく、そのクライアント装置１１０のユーザの音声に合致した音響モデル、言語モデル、辞書を用いるようにする。そのため、このクライアント装置１１０は、訂正処理、認識処理、またメール作成時における文字入力処理を参考に、適宜各モデル、辞書を更新することが必要となる。

また、クライアント装置１１０は、訂正部２７０により訂正された認識結果を表示する表示部２９０をさらに備え、サーバ装置１２０において認識された認識結果は、この表示部２９０は表示しないようにする。これにより、認識誤りのある可能性のある認識結果を表示しないため、ユーザに誤解を与えることがない。

また、クライアント装置１１０は、訂正部２７０において再認識により得られた認識結果と、受信部２３５により受信された認識結果とが同じであった場合、またはこれら認識結果それぞれに含まれる時間情報にずれが生じている場合には、訂正部２７０は、認識誤りと判断し、表示部２９０は認識結果を表示しない。これにより、誤った認識結果を表示することを防止することができる。具体的には、誤り単語の最大７０％を削減することができる。また、未知語による誤りの６０％以上を訂正できる。

＜第２の実施形態＞
つぎに、誤り区間を信頼度に基づいて自動的に判断することなく、ユーザが手動により判断するように構成されたクライアント装置１１０ａについて説明する。図８は、ユーザ入力により誤り区間を受け付けるクライアント装置１１０ａの機能を示すブロック図である。図８に示すように、このクライアント装置１１０ａは、特徴量算出部２１０、特徴量圧縮部２２０、特徴量保存部２３０、送信部２２５、受信部２３５、操作部２３６、結果保存部２３７、ユーザ入力検出部２３８、誤り区間指定部２４０ａ、誤り区間前後コンテキスト指定部２５０、誤り区間特徴量抽出部２６０、訂正部２７０、統合部２８０、音響モデル保持部２８１、言語モデル保持部２８２、辞書保持部２８３、表示部２９０を含んで構成されている。このクライアント装置１１０ａは、クライアント装置１１０と同様に図３に示されるハードウェアにより実現される。

このクライアント装置１１０ａは、クライアント装置１１０とは、操作部２３６、結果保存部２３７、ユーザ入力検出部２３８、誤り区間指定部２４０ａを備えている点で相違している。以下、この相違点を中心に説明する。

操作部２３６は、ユーザ入力を受け付ける部分である。ユーザは表示部２９０に表示されている認識結果を確認しながら、誤り区間を指定することができる。操作部２３６は、その指定を受け付けることができる。

結果保存部２３７は、受信部２３５により受信された音声認識結果を保存する部分である。保存した音声認識結果は、ユーザが視認することができるように表示部２９０に表示される。

ユーザ入力検出部２３８は、操作部２３６により受け付けられたユーザ入力を検出する部分であり、入力された誤り区間を誤り区間指定部２４０ａに出力する。

誤り区間指定部２４０ａは、ユーザ入力検出部２３８から入力された誤り区間にしたがってその区間を指定する部分である。

つぎに、このように構成されたクライアント装置１１０ａの処理について説明する。図９は、クライアント装置１１０ａの処理を示すフローチャートである。マイクを介して入力された音声は特徴量算出部２１０によりその特徴データが抽出される（Ｓ１０１）。そして、特徴量保存部２３０に特徴量データは保存される（Ｓ１０２）。つぎに、特徴量圧縮部２２０により特徴量データは圧縮される（Ｓ１０３）。圧縮された圧縮特徴量データは、送信部２２５によりサーバ装置１２０に送信される（Ｓ１０４）。

つぎに、サーバ装置１２０において音声認識が行われ、サーバ装置１２０からその認識結果が送信され、受信部２３５により受信され、一時保存されるとともに、その認識結果は表示部２９０に表示される（Ｓ１０５ａ）。そして、ユーザは表示部２９０に表示されている認識結果に基づいて誤り区間を判断し、その誤り区間を入力する。そして、ユーザ入力検出部２３８によりその入力が検出され、誤り区間指定部２４０により誤り区間が指定される。そして、この指定された誤り区間に基づいて前後コンテキストが指定される（Ｓ１０６ａ）。この前後コンテキストを含んだ誤り区間に基づいて、誤り区間特徴量抽出部２６０により特徴量データが抽出され（Ｓ１０７）、訂正部２７０により再度音声認識が行われ、誤り区間におけるテキストデータが生成される（Ｓ１０８）。そして、誤り区間におけるテキストデータと、受信部２３５において受信されたテキストデータとが統合され、正しいテキストデータが表示部２９０に表示される（Ｓ１０９）。

つぎに、上述Ｓ１０５a〜Ｓ１０８における処理についてさらに詳細に説明する。図１０は、クライアント装置１１０ａにおけるユーザ入力により誤り区間を指定するときの詳細な処理を示すフローチャートである。

受信部２３５により認識結果が受信され、表示部２９０に表示される（Ｓ３０１）。ユーザは表示部２９０に表示されている認識結果に確認しながら、誤り区間を指定し、ユーザ入力検出部２３８によりその誤り区間の始点箇所が検出され、一時保存される（Ｓ３０２）。そして、誤り区間前後コンテキスト指定部２５０により誤り区間の前の単語Ｗ１が指定され、保存され（Ｓ３０３）、保存された単語Ｗ１の開始時間Ｔ１が指定され、保存される（Ｓ３０４）。

また、ユーザ指定により誤り区間の終点箇所がユーザ入力検出部２３８により検出され、一時保存される（Ｓ３０５）。そして、誤り区間前後コンテキスト指定部２５０により誤り区間の後の単語Ｗ２が指定され、保存され（Ｓ３０６）、保存された単語Ｗ２の終了時間Ｔ２が指定され、保存される（Ｓ３０７）。

これら処理の後、開始時間Ｔ１から終了時間Ｔ２の特徴量データが、誤り区間特徴量抽出部２６０により抽出される（Ｓ３０８）。単語Ｗ１を始点、単語Ｗ２を終点とする拘束条件の設定が訂正部２７０において行われる（Ｓ３０９）。そして、この拘束条件にしたがって、訂正部２７０による特徴量データに対する認識処理が行われ、訂正処理が実行される（Ｓ３１０）。

このような処理により、ユーザ入力による誤り区間を指定することができ、これにより再認識することによる認識結果の訂正処理を行うことができる。

このようなクライアント装置１１０ａにおいて、表示部２９０が認識結果を表示し、ユーザはそれを視認するとともに、ユーザは、操作部２３６を操作することにより誤り区間、すなわち訂正しようとする箇所を指定することができる。これにより、認識した結果のうち必要な部分を訂正するため、簡易に訂正処理を行うことができるとともに、正しい認識結果を得ることができる。

＜第３の実施形態＞
つぎに、サーバ装置１２０から送信される認識結果に時間情報を含んでいない場合に、誤り区間を正しく指定することができるクライアント装置１１０ｂについて説明する。図１１は、このクライアント装置１１０ｂの機能を示すブロック図である。このクライアント装置１１０ｂは、特徴量算出部２１０、特徴量圧縮部２２０、送信部２２５、特徴量保存部２３０、受信部２３５、時間情報算出部２３９、誤り区間指定部２４０、誤り区間特徴量抽出部２６０、誤り区間前後コンテキスト指定部２５０、訂正部２７０、音響モデル保持部２８１、言語モデル保持部２８２、辞書保持部２８３を含んで構成されている。このクライアント装置１１０ｂは、第1の実施形態のクライアント装置１１０と同様に図３に示されるハードウェアにより実現される。

また、第1の実施形態のクライアント装置１１０との相違点は、このクライアント装置１１０ｂがサーバ装置１２０から経過情報を含んでいない認識結果を受信し、そして、時間情報算出部２３９において認識結果であるテキストデータに基づいて経過時間（フレームインデックス）を自動的に算出しようとする点にある。以下、この相違点を中心にクライアント装置１１０ｂを説明する。

時間情報算出部２３９は、受信部２３５において受信された認識結果のうちテキストデータおよび特徴量保存部２３０に記憶されている特徴量データを用いて、テキストデータにおける経過時間を算出する部分である。より具体的には、時間情報算出部２３９は、入力されたテキストデータと、特徴量保存部２３０に記憶されている特徴量データとを比較することによって、テキストデータの一単語または一認識単位を周波数データに変換した場合に、特徴量データのどの部分まで一致するかを判断することによって、テキストデータにおける経過時間を算出することができる。例えば、特徴量データの１０フレーム分まで、テキストデータの一単語と一致していた場合には、その一単語は１０フレーム分の経過時間を有することになる。

誤り区間指定部２４０ｂは、時間情報算出部２３９により算出された経過時間およびテキストデータを用いて誤り区間を指定することができる。この誤り区間指定部２４０ｂは、認識結果に含まれている信頼度情報に基づいて誤り区間を判断する。なお、第２の実施形態のように、ユーザ入力により誤り区間が指定されるようにしてもよい。

このように誤り区間指定部２４０ｂにより指定された誤り区間に基づいて、誤り区間前後コンテキスト指定部２５０は、前後のコンテキストを含んだ誤り区間を指定し、誤り区間特徴量抽出部２６０は、その誤り区間の音声データを抽出し、そして訂正部２７０は再度認識処理を行うことで訂正処理を行うことができる。

つぎに、このクライアント装置１１０ｂの処理について説明する。図１２は、クライアント装置１１０ｂの処理を示すフローチャートである。マイクを介して入力された音声は特徴量算出部２１０によりその特徴データが抽出される（Ｓ１０１）。そして、特徴量保存部２３０に特徴量データは保存される（Ｓ１０２）。つぎに、特徴量圧縮部２２０により特徴量データは圧縮される（Ｓ１０３）。圧縮された圧縮特徴量データは、送信部２２５によりサーバ装置１２０に送信される（Ｓ１０４）。

つぎに、サーバ装置１２０において音声認識が行われ、サーバ装置１２０からその認識結果（経過時間を含まず）が送信され、受信部２３５により受信される（Ｓ１０５）。そして、音声認識結果および特徴量保存部２３０の特徴量データから、時間情報算出部２３９により経過時間が算出され、この経過時間および音声認識結果を用いて、誤り区間指定部２４０により誤り区間が指定される。誤り区間前後コンテキスト指定部２５０により、この指定された誤り区間に基づいて前後コンテキストが指定される（Ｓ１０６ｂ）。この前後のコンテキストを含んだ誤り区間に基づいて、誤り区間特徴量抽出部２６０により特徴量データが抽出され（Ｓ１０７）、訂正部２７０により再度音声認識が行われ、誤り区間におけるテキストデータが生成される（Ｓ１０８）。そして、誤り区間におけるテキストデータと、受信部２３５において受信されたテキストデータとが統合され、正しいテキストデータが表示部２９０に表示される（Ｓ１０９）。

つぎに、Ｓ１０６ｂを含んださらに詳細な処理について説明する。図１３は、Ｓ１０５からＳ１０８における詳細な処理を示すフローチャートである。

受信部２３５により経過時間を含まない認識結果が受信され（Ｓ４０１）、時間情報算出部２３９においてテキストデータにおける経過時間が算出される（Ｓ４０２）。誤り区間指定部２４０により認識結果から誤り区間が指定される（Ｓ４０３）。この誤り区間に基づいて、誤り区間前後コンテキスト指定部２５０により誤り区間の前の単語Ｗ１（図５（ａ））が指定され、保存される（Ｓ４０４）。また、誤り区間前後コンテキスト指定部２５０により、誤り区間の後の単語Ｗ２（図５（ａ））が指定され記憶される（Ｓ４０５）。つぎに、誤り区間前後コンテキスト指定部２５０により、この単語Ｗ１の開始時間Ｔ１（図５（ａ））が指定され（Ｓ４０６）、また単語Ｗ２の終了時間Ｔ２（図５（ａ））が指定される（Ｓ４０７）。

このようにして誤り区間にさらにその前後一単語ずつ加えて得られた誤り区間である開始時間Ｔ１から終了時間Ｔ２までの区間の特徴量データが、誤り区間特徴量抽出部２６０により抽出される（Ｓ４０８）。単語Ｗ１を始点、単語Ｗ２を終点とする拘束条件の設定が訂正部２７０において行われる（Ｓ４０９）。そして、この拘束条件にしたがって、訂正部２７０による特徴量データに対する認識処理が行われ、訂正処理が実行される（Ｓ４１０）。

このクライアント装置１１０ｂによれば、受信部２３５により受信された認識結果と特徴量保存部２３０に記憶されている特徴量データとに基づいて、時間情報算出部２３９が認識結果における経過時間を算出する。そして、誤り区間指定部２４０は、この時間情報に基づいて誤り区間を指定することができる。ここで指定された誤り区間に基づいてその前後コンテキストを指定し、そして、その特徴量データに基づいて訂正処理を行うことができる。これにより認識結果に時間情報を含んでいない場合でも適切な誤り区間を指定することができる。

＜第４の実施形態＞
つぎに、サーバ装置１２０において音声認識されて得られた認識結果からのみ訂正処理を行うクライアント装置１１０ｃについて説明する。図１４は、クライアント装置１１０ｃの機能を示すブロック図である。このクライアント装置１１０ｃは、特徴量算出部２１０、特徴量圧縮部２２０、誤り区間指定部２４０、誤り区間前後コンテキスト指定部２５０、訂正部２７０ａ、および言語ＤＢ保持部２８４を含んで構成されている。このクライアント装置１１０ｃは、クライアント装置１１０と同様に図３に示されるハードウェアにより実現される。

このクライアント装置１１０ｃは、クライアント装置１１０と比較して、音声入力して得られた特徴量データを記憶せず、またこの特徴量データを訂正処理の際、再度用いることないように構成されている点で、相違しており、具体的には、特徴量保存部２３０、誤り区間特徴量抽出部２６０、音響モデル保持部２８１、言語モデル保持部２８２、辞書保持部２８３を備えていない点で、相違する。以下、相違点に基づいて説明する。

特徴量算出部２１０は、音声入力から特徴量データを算出し、特徴量圧縮部２２０は、特徴量データを圧縮して、サーバ装置１２０に送信する。そして、受信部２３５は、サーバ装置１２０から認識結果を受信する。誤り区間指定部２４０は、信頼度情報またはユーザ操作により誤り区間を指定し、誤り区間前後コンテキスト指定部２５０は、その前後コンテキストを指定して、誤り区間を指定する。

訂正部２７０ａは、前後のコンテキストを含んだ誤り区間により指定されたテキストデータを、言語ＤＢ保持部２８４に記憶されているデータベースに基づいて変換処理を行う。この言語ＤＢ保持部２８４は、言語モデル保持部２８２とほぼ同様の情報を記憶しており、音節ごとの連鎖確率を記憶している。

さらにこの訂正部２７０ａは、誤り区間に出てくる可能性のある単語列ｗ（Wi,Wi+1…Wj）をリストアップする。ここでは単語列ｗの数をＫに制限することもある。制限の数Ｋについては誤り単語数Ｐと同じ、或いはＰ近くの一定の範囲（Ｋ=Ｐ-cからＰ+cまで）とする。

さらに、訂正部２７０ａは、リストアップされたすべての単語列を前後単語W１とW2に限定する場合の尤度を計算する。つまり、すべてのＷ系列に対し端末に保存の言語ＤＢを利用し、以下の式（１）を用いて尤度を求める。
単語列(W1 ｗ W2)の尤度Ｐ（ｗ１ｗｗ２)＝Ｐ（W1, Wi,Wi+1…Wj ,W2）＝P(W1)*P(Wi/W1)…* P(W2/Wj) ・・・（１）

さらに誤り区間の単語列と候補の距離を計算し、この距離を加えることもある。この場合以下の式（２）の計算式になる。
単語列(W1 ｗ W2)の尤度Ｐ（ｗ１ｗｗ２)＝Ｐ（W1, Wi,Wi+1…Wj ,W2）*P(Wi,Wi+1…Wj ,Werror) ・・・（2）
P(Wi,Wi+1…Wj ,Werror)は誤り単語列Werrorと候補列Wi,Wi+1…Wj 間の距離を示す。

この式のP（Wn/Wm）は、N-gramモデルのうちBi-gramを対象としたものであって、Wmの次にWnが出現する確率を表す。ここではBi-gramの例で説明するがその他のN-gramモデルを利用しても良い。

統合部２８０は、このように訂正部２７０ａにより変換されたテキストデータを、受信された認識結果におけるテキストデータと統合し、表示部２９０は統合され訂正されたテキストデータを表示する。なお、統合に先立って、訂正部２７０ａにより算出された尤度を用いてソートされた候補をリストアップし、ユーザにより選択させるようにしてもよいし、尤度の最も高い候補に自動的に決定するようにしてもよい。

つぎに、このように構成されたクライアント装置１１０ｃの処理について説明する。図１５は、クライアント装置１１０ｃの処理を示すフローチャートである。音声入力された音声データに基づいて特徴量算出部２１０により特徴量データが算出され、特徴量圧縮部２２０により圧縮された特徴量データはサーバ装置１２０に送信される（Ｓ５０２）。

サーバ装置１２０において音声認識された認識結果は受信部２３５により受信され（Ｓ５０２）、誤り区間指定部２４０により誤り区間が指定される（Ｓ５０３）。ここでの誤り区間の指定は、信頼度に基づいたものでもよいし、ユーザ入力により指定されたものでもよい。

その後、誤り区間前後コンテキスト指定部２５０により誤り区間の前後コンテキスト（単語）が指定される（Ｓ５０４）。そして、訂正部２７０ａにより、再変換処理が行われ、その際に誤り区間の候補がリストアップアされる（Ｓ５０５）。ここで、訂正部２７０ａにより各候補の尤度が計算され（Ｓ５０６）、尤度に基づいたソーティング処理が行われ（Ｓ５０７）、ソーティング処理された候補群が表示部２９０に表示される（Ｓ５０８）。

このクライアント装置１１０ｃにおいて、特徴量算出部２１０が、入力された音声から特徴量データを算出し、特徴量圧縮部２２０がこれを圧縮し、送信部２２５がこれをサーバ装置１２０に送信する。サーバ装置１２０では、音声認識が行われ、その認識結果を受信部２３５が受信する。そして、誤り区間指定部２４０、誤り区間前後コンテキスト指定部２５０において指定された誤り区間に基づいて訂正部２７０ａが訂正処理を行う。そして、統合部２８０による統合処理の後、表示部２９０は訂正後の認識結果を表示する。これにより、認識した結果のうち必要な部分を訂正するため、簡易に音声認識の誤りを訂正することができ、正しい認識結果を得ることができる。なお、この実施形態においては、第１の実施形態と比較して、特徴量データを記憶させず、またその特徴量データを再認識処理で用いない点で、その構成を簡易なものとすることができる。

＜第５の実施形態＞
つぎに、サーバ装置１２０に音声認識を行わせる分散型処理ではなく、クライアント装置１１０ｄにおいて、第一の音声認識および第二の音声認識を行う形態について説明する。

図１６は、クライアント装置１１０ｄの機能構成を示すブロック図である。クライアント装置１１０ｄは、特徴量算出部２１０、第一認識部２２６（取得手段）、言語モデル保持部２２７、辞書保持部２２８、音響モデル保持部２２９、特徴量保存部２３０、誤り区間指定部２４０、誤り区間前後コンテキスト指定部２５０、誤り区間特徴量抽出部２６０、訂正部２７０、音響モデル保持部２８１、言語モデル保持部２８２、辞書保持部２８３、統合部２８０、表示部２９０を含んで構成されている。このクライアント装置１１０ｄは、クライアント装置１１０と同様に図３に示されるハードウェアにより実現される。

このクライアント装置１１０ｄは、第１の実施形態のクライアント装置１１０とは、サーバ装置１２０と通信するための構成がない点、および第一認識部２２６、言語モデル保持部２２７、辞書保持部２２８、音響モデル保持部２２９を備えている点で相違する。以下、相違点を中心に説明する。

第一認識部２２６は、特徴量算出部２１０において算出された特徴量データに対して、言語モデル保持部２２７、辞書保持部２２８、および音響モデル保持部２２９を用いて音声認識を行う。

言語モデル保持部２２７は、単語、文字などの連鎖確率を示す統計的情報を記憶する部分である。辞書保持部２２８は、音素とテキストとのデータベースを保持するものであり、例えばＨＭＭ（Hidden Marcov Model)を記憶する部分である。音響モデル保持部２２９は、音素とそのスペクトルを対応付けて記憶するデータベースである。

誤り区間指定部２４０は、上述の第一認識部２２６において認識された認識結果を入力し、誤り区間を指定する。誤り区間前後コンテキスト指定部２５０は、誤り区間の前後コンテキストを指定し、誤り区間特徴量抽出部２６０は、前後コンテキストを含んだ誤り区間の特徴量データを抽出する。そして、訂正部２７０は、特徴量データに基づいて再度認識処理を行う。この訂正部２７０は、第二認識部として機能することになる。

そして、統合部２８０による統合処理が行われると、表示部２９０は訂正された認識結果を表示することができる。

つぎに、このクライアント装置１１０ｄの動作について説明する。図１７は、クライアント装置１１０ｄの処理を示すフローチャートである。特徴量算出部２１０により入力された音声の特徴量データが算出され（Ｓ６０１）、算出された特徴量データは、特徴量保存部２３０に保存される（Ｓ６０２）。この保存処理と平行して、第一認識部２２６により音声認識が行われる（Ｓ６０３）。

第一認識部２２６により音声認識された認識結果の誤り区間が、誤り区間指定部２４０および誤り区間前後コンテキスト指定部２５０により指定される（Ｓ６０４）。この指定された誤り区間（前後コンテキストを含む）の特徴量データが、特徴量保存部２３０から誤り区間特徴量抽出部２６０により抽出される（Ｓ６０５）。そして、訂正部２７０により誤り区間の音声が再度認識される（Ｓ６０６）。ここで認識された認識結果は、統合部２８０により統合され、表示部２９０により認識結果が表示される（Ｓ６０７）。

このようにクライアント装置１１０ｄ内で、第一認識部２２６および第二認識部（訂正部）２７０により認識処理が行われるため、より正確な音声認識を行うことができる。なお、第一認識部２２６と第２認識部とでは、異なる認識方法であることが望ましい。これにより、第一認識部２２６において認識されなかった音声に対しても、第二認識部２７０においてこれを補完することができ、全体として正確な音声認識の結果を期待できる。

クライアント装置１１０ｄによれば、特徴量算出部２１０において入力された音声から特徴量データを算出し、特徴量保存部２３０においてこれを記憶させる。一方、第一認識部２２６は、特徴量データに基づいて音声認識処理を行い、誤り区間指定部２４０および誤り区間前後コンテキスト指定部２５０は、認識された認識結果において、認識誤りが発生している誤り区間を指定する。そして、訂正部２７０（第二認識部）は、指定された誤り区間における認識結果を訂正する。これにより、認識した結果のうち必要な部分を訂正するため、簡易に訂正処理を行うことができるとともに、正しい認識結果を得ることができる。また、クライアント装置１１０ｄ内で二度認識処理を行うことにより、サーバ装置１２０を用いる必要がなくなる。

＜第６の実施形態＞
つぎに、第２の実施形態における変形例である第６の実施形態について説明する。この実施形態によると、誤り区間の終点を自動的に判断することに特徴がある。

図１８は、第６の実施形態のクライアント装置１１０ｆの機能構成を示すブロック図である。クライアント装置１１０ｆは、特徴量算出部２１０、特徴量圧縮部２２０、特徴量保存部２３０、送信部２２５、受信部２３５、操作部２３６、結果保存部２３７、ユーザ入力検出部２３８、誤り区間指定部２４０ｃ、終点判断部２４１、誤り区間前後コンテキスト指定部２５０、誤り区間特徴量抽出部２６０、訂正部２７０、統合部２８０、音響モデル保持部２８１、言語モデル保持部２８２、辞書保持部２８３、表示部２９０を含んで構成されている。このクライアント装置１１０ｆは、クライアント装置１１０と同様に図３に示されるハードウェアにより実現される。

このクライアント装置１１０ｆは、誤り区間指定部２４０ｃにおいて、誤り区間の始点のみを受付け、終点判断部２４１が所定の条件に基づいて誤り区間の終点を判断する点で、第２の実施形態と相違する。以下、図１８に示されているブロック図に基づいて、第２の実施形態との相違点を中心に説明する。

第２の実施形態にて示されている構成と同様に、クライアント装置１１０ｆは、サーバ装置１２０において認識された認識結果を受信部２３５が受信し、その認識結果を結果保存部２３７が保存する。そして、その認識結果を表示部２９０が表示しつつ、ユーザはその表示部２９０に表示されている認識結果を見ながら、操作部２３６を操作することにより、誤り区間の始点を指定する。ユーザ入力検出部２３８は、その始点を検出し、それを誤り区間指定部２４０ｃに出力する。

誤り区間指定部２４０ｃは、ユーザから指定された始点および終点判断部２４１において判断された終点に従って、誤り区間を指定する。誤り区間の終点を判断する際においては、誤り区間指定部２４０ｃは、ユーザから始点が指定されたことを検出すると、その旨を終点判断部２４１に出力し、終点の判断を指示する。

終点判断部２４１は、誤り区間指定部２４０ｃからの指示に従って、誤り区間の終点を自動的に判断する部分である。例えば、終点判断部２４１は、受信部２５において受信され、結果保存部２３７において保存されている音声認識結果に含まれている信頼度情報と、予め設定された閾値とを比較し、信頼度が閾値を超えた単語（或いは信頼度が一番高い単語）を誤りの終点と判断する。そして、終点判断部２４１は、判断した終点を誤り区間指定部２４０ｃに出力することで、誤り区間指定部２４０ｃは、誤り区間を指定することができる。

例えば以下の音声を例に説明する。なお、ここでは便宜上、誤り区間の始点として、“活性化”が指定されていたとする。
＜発声内容＞
「この目標を達成するためには、皆さんの協力が必要です。」
＜音声認識結果＞
「この目標を活性化のためには、皆さんの協力が必要です。」
ここで、音声認識結果を単語単位に区切ってみる。なお、“／”は、単語の区切りを示したものである。
「この／目標／を／活性化／の／ため／に／は、／皆／さん／の／協力／が／必要／です。」
この音声認識結果として、“活性化”の信頼度が０．１、“の”の信頼度が０．０１、“ため”の信頼度が０．４、“に”の信頼度が０．６であった場合で、閾値を０．５とした場合には、“活性化／の／ため／に”における“に”が終点と判断することができる。

なお、終点判断部２４１は、閾値以上の信頼度となった単語の一つ前（上の例示では“ため”）を終点と判断することもできるが、誤り区間を指定する上で、結果的に誤っている部分を含んでいればよいため、いずれの方法をもとりうる。

このような誤り区間の指定方法は、ユーザの普段の訂正習慣に即したものであるため、使い勝手のよいものである。つまり、例えば漢字変換において、ユーザは誤りを指定する場合には、まず始点を入力し、つぎに誤りを削除し、正しい単語列を入力するのが通例と思われる。上述の誤り区間の指定方法も、視点を入力した後、自動的に終点が定まるため、その操作方法にあったものであり、ユーザにとって違和感なく操作することができる。

また、終点判断部２４１は、終点を判断する際において、上述の方法に限定するものではない。例えば、特定の発音記号にしたがって終点を判断する方法、誤り始点開始後、Ｍ番目の単語を終点とする方法としてもよい。ここで、特定の発音記号に従った方法とは、発話中のポーズに基づいて判断する方法であり、フレーズの境界に出現するショートポーズ（読点）、発話の最後に出現するロングポーズ（句点）に基づいて判断するようにしてもよい。これにより文章の区切りで判断することとなり、より正確な音声認識を期待することができる。

以下にその具体例を示す。音声として上述と同様の内容である以下のものを例に説明する。
＜発声内容＞
「この目標を達成するためには、皆さんの協力が必要です。」
＜音声認識結果＞
「この目標を活性化のためには、皆さんの協力が必要です。」

ユーザが、操作部２３６を操作することにより、誤り区間の始点として、“この目標を”の後を設定すると、終点判断部２４１は、この部分に一番近いポーズ（読点部分）を終点と判断する。誤り区間指定部２４０ｃは、この終点に基づいて誤り区間を指定することができる。上述の例では、誤り区間の終点として、“ためには、”における“、”の部分が指定される。なお、“、”の部分は実際には音声はなく、一瞬の間があいた状態である。

なお、特定の発音としては、読点、句点以外に、“え〜”、“あの〜”といった発音、または“ます”、“です”といった単語としてもよい。

つぎに、誤り始点移行のＭ番目の単語を終点にする方法の例を示す。以下に示す文章は、単語単位に区分した状態を示したものである。なお、“／”は、単語の区切りを示したものである。
「この／目標／を／活性化／の／ため／に／は、／皆／さん／の／協力／が／必要／です。」

例えば、始点を“活性化”とした場合で、Ｍ＝３とした場合には、“活性化／の／ため”における“ため”が終点の単語となる。したがって、誤り区間指定部２４０ｃは、“活性化／の／ため”を誤り区間として指定することができる。なお、当然ながらＭ＝３以外でもよい。

つぎに、認識結果の候補数（競合数）が少ない単語を終点にする方法の例を示す。例えば、以下の例を用いて説明する。
「この／目標／を／活性化／の／ため」において、以下の候補が挙げられるとする。
「活性化」：“だれ”、“沢山”、“お勧め”
「の」： “か”、“ある”
「ため」：−（候補なし）

この候補の数は、その区間のあいまいさを反映したものとなっており、信頼性が低いほど多数の候補が、サーバ装置１２０から送信される。なお、この例においては、サーバ装置１２０において、信頼度情報を送信する代わりに、信頼度情報に基づいて得られた他の候補をそのままクライアント装置１１０に送信するように構成されている。

この場合、「ため」については、候補がないため、それだけその信頼度が高いものと考えることができる。よって、この例では、誤り区間としてはその手前の“の”が誤り区間の終点を判断することができる。なお、誤り区間の終点として、その手前とすることに限定するものではなく、ある程度幅を持たせたものとしてもよい。

以上の通り、終点箇所を信頼度に基づく方法、特定の発音記号（または発音）を利用する方法、始点からＭ番目までを誤り区間とする方法が考えられるが、これら方法の組み合わせ、つまり、これら複数方法の訂正結果をＮ−ｂｅｓｔの形式或いは複数方法の認識結果から一つを選択する形式としてもよい。この場合、認識結果のスコア順に認識結果をリスト表示し、ユーザはそのリストから任意の認識結果を選択するようにしてもよい。

このように誤り区間指定部２４０ｃが指定した誤り区間に基づいて、誤り区間前後コンテキスト指定部２５０がその前後を含めた区間を指定し、誤り区間特徴量抽出部２６０はその特徴量データを特徴量保存部２３０から抽出し、訂正部２７０は、その特徴量データに対して再認識処理を行うことにより訂正処理を行う。

つぎに、このように構成されたクライアント装置１１０ｆの動作について説明する。図１９は、クライアント装置１１０ｆの処理を示すフローチャートである。

マイクを介して入力された音声は特徴量算出部２１０によりその特徴データが抽出される（Ｓ１０１）。そして、特徴量保存部２３０に特徴量データは保存される（Ｓ１０２）。つぎに、特徴量圧縮部２２０により特徴量データは圧縮される（Ｓ１０３）。圧縮された圧縮特徴量データは、送信部２２５によりサーバ装置１２０に送信される（Ｓ１０４）。

つぎに、サーバ装置１２０において音声認識が行われ、サーバ装置１２０からその認識結果が送信され、受信部２３５により受信され、一時保存されるとともに、その認識結果は表示部２９０に表示される（Ｓ１０５ａ）。そして、ユーザは表示部２９０に表示されている認識結果に基づいて誤り区間の始点を判断し、その始点を、操作部２３６を操作することで指定する。そして、ユーザ入力検出部２３８により始点が指定されたことが検出されると、終点判断部２４１により、誤り区間の終点が自動的に判断される。例えば、音声認識結果に含まれている信頼度に基づいて判断され、また予め定められた発音記号が出現する箇所が終点と判断され、さらには始点からＭ番目（Ｍは予め定められた任意に値）が終点と判断される。

そして、このように始点および終点が誤り区間指定部２４０ｃにより指定される。そして、この指定された誤り区間に基づいて前後コンテキストが指定される（Ｓ１０６ｃ）。この前後コンテキストを含んだ誤り区間に基づいて、誤り区間特徴量抽出部２６０により特徴量データが抽出され（Ｓ１０７）、訂正部２７０により再度音声認識が行われ、誤り区間におけるテキストデータが生成される（Ｓ１０８）。そして、誤り区間におけるテキストデータと、受信部２３５において受信されたテキストデータとが統合され、正しいテキストデータが表示部２９０に表示される（Ｓ１０９）。

なお、Ｓ１０６ｃを含むＳ１０５ａ〜１０８の処理については、図１０に示されるフローチャートとほぼ同様の処理が行われるが、Ｓ３０５の処理について、終点判断部２４１が自動的に誤り区間の終点箇所を判断し、それを保存する点で相違する。

以上の通り、この実施形態によれば、このような誤り区間の指定方法は、ユーザの普段の訂正習慣に即したものとすることができ、大変使い勝手のよい装置を提供することができる。

＜第７の実施形態＞
つぎに第７の実施形態について説明する。この実施形態によると、誤り区間において先頭の文字をユーザが指定することで、その指定した文字を拘束条件として音声認識をより正しく行わせようとするものである。

図２０は、第７の実施形態のクライアント装置１１０ｇの機能構成を示すブロック図である。クライアント装置１１０ｇは、特徴量算出部２１０、特徴量圧縮部２２０、特徴量保存部２３０、送信部２２５、受信部２３５、操作部２３６、結果保存部２３７、ユーザ入力検出部２３８、誤り区間指定部２４０ａ、誤り区間前後コンテキスト指定部２５０ａ、誤り区間特徴量抽出部２６０、訂正部２７０、統合部２８０、音響モデル保持部２８１、言語モデル保持部２８２、辞書保持部２８３、表示部２９０を含んで構成されている。このクライアント装置１１０ｇは、クライアント装置１１０と同様に図３に示されるハードウェアにより実現される。

このクライアント装置１１０ｇは、操作部２３６がユーザから拘束条件として誤り区間における訂正後の文字を受け付け、誤り区間前後コンテキスト指定部２５０ａが、誤り区間前後にコンテキストと、操作部２３６において受け付けた訂正後の文字とを指定し、訂正部２７０は、これら誤り区間前後コンテキストと訂正後の文字とを拘束条件として再認識処理を行うことで訂正処理を行う点に特徴を有するものである。

すなわち、操作部２３６は、ユーザから誤り区間を指定するための入力を受け付け、その後、誤り区間における訂正後の文字入力を受け付ける。

誤り区間前後コンテキスト指定部２５０ａは、上述第１の実施形態における誤り区間前後コンテキスト指定部２５０とほぼ同様の処理を行い、誤り区間の前後において認識された単語（一認識単位）を指定するととともに、操作部２３６において受け付けられた訂正後の文字を指定する。

訂正部２７０は、誤り区間特徴量抽出部２６０において抽出された特徴量データおよび誤り区間前後コンテキスト指定部２５０ａにおいて指定された拘束条件に基づいて再認識処理を行い、訂正処理を実行することができる。

例えば、以下の例に基づいて上述の処理について説明する。
＜発声内容＞
「この目標を達成するためには、皆さんの協力が必要です。」
＜音声認識結果＞
「この目標を活性化のためには、皆さんの協力が必要です。」
として場合に、ユーザは、操作部２３６を操作することで、誤り区間における始点（上述の例では“この目標を”の次の位置）に、正しい文字内容を入力する。入力すべき仮名列は、“たっせいするために”である。以下の例は入力の先頭の一部である“た”を入力する場合を例に説明する。なお、誤り区間の始点と終点とは、上述と同様の方法により決定済みまたは決定されるものとする。

ユーザが操作部２３６を介して“た”を入力すると、誤り区間前後コンテキスト指定部２５０ａは、前後コンテキストとして“この目標を”を、入力された文字として“た”を拘束条件とし、すなわち“この目標をた”を、特徴量データを認識する際における拘束条件として設定する。

このようにユーザの文字入力内容を拘束条件として再度音声認識を行った認識結果をユーザに提示することで、より正確な認識結果を提示することができる。なお、訂正方法は、音声認識に加えてキー文字入力方法と併用してもよい。例えば、キー文字入力方法として仮名漢字変換が考えられる。仮名漢字変換では入力文字内容を辞書と比較し、その変換結果を予測する機能がある。例えば“た”を入力すると、データベースから“た”が先頭の単語を順番にリストアップし、ユーザに提示する。

ここでは、この機能を利用して、仮名漢字変換のデータベースの候補と音声認識により得られた候補とをリスト表示しておき、これらリストに基づいてユーザが任意の候補を選択するようにしてもよい。リスト表示される順番は、変換結果または認識結果に付与されているスコア順であってもよいし、仮名漢字変換に基づいた候補と音声認識による候補とを比較し、完全一致または一部一致している候補については、それぞれ付与されているスコアを合算し、そのスコアに基づいた順であってもよい。例えば、仮名漢字変換の候補Ａ１“達成”のスコア５０、音声認識結果の候補Ｂ１“達成する”のスコア８０とした場合で、候補Ａ１と候補Ｂ１とが一部一致しているため、各スコアにおいて、所定の係数を乗算し、合算して得られたスコアに基づいて表示してもよい。なお、完全一致の場合には、所定の係数を乗算するといった調整処理を行う必要はない。また、ユーザが仮名漢字変換の候補Ａ１“達成”を選択した段階で、“この目標を達成”を拘束条件とし、まだ確定されていない残りの“する”に相当する特徴量データを再度認識するようにし、候補リストを表示しなおすようにしてもよい。

つぎに、このように構成されたクライアント装置１１０ｇの動作について説明する。図２１は、クライアント装置１１０ｇの処理を示すフローチャートである。

つぎに、サーバ装置１２０において音声認識が行われ、サーバ装置１２０からその認識結果が送信され、受信部２３５により受信され、一時保存されるとともに、その認識結果は表示部２９０に表示される（Ｓ１０５ａ）。そして、ユーザは表示部２９０に表示されている認識結果に基づいて誤り区間を指定する（Ｓ１０６ｄ）。さらに、ユーザは、誤り区間における認識結果を訂正するための文字入力を操作部２３６に対して行う。操作部２３６では、文字入力が受け付けられると、誤り区間前後コンテキスト指定部２５０ａに出力し、誤り区間前後コンテキスト指定部２５０ａは、入力された文字とともに、この指定された誤り区間に基づいて前後コンテキストが指定される。この前後コンテキストを含んだ誤り区間に基づいて、誤り区間特徴量抽出部２６０により特徴量データが抽出され（Ｓ１０７）、訂正部２７０により再度音声認識が行われ、誤り区間におけるテキストデータが生成される（Ｓ１０８）。そして、誤り区間におけるテキストデータと、受信部２３５において受信されたテキストデータとが統合され、正しいテキストデータが表示部２９０に表示される（Ｓ１０９）。

なお、Ｓ１０６ｄを含むＳ１０５ａ〜１０８の処理については、図１０に示されるフローチャートとほぼ同様の処理が行われる。さらに、本実施形態においては、図１０のフローチャートにおける各処理に加えて、Ｓ３０９において、操作部２３６において受け付けられた文字を拘束条件として設定する処理が必要となる。なお、Ｓ３０９までに拘束条件となる文字の入力受付けを完了させておく必要がある。

以上の通り、この実施形態によれば、拘束条件として前後コンテキストに加えてユーザから指定された文字を設定することで、より正確な音声認識を行うことができる。

＜第８の実施形態＞
つぎに第８の実施形態について説明する。この実施形態によると、訂正部２７０において再認識した結果、再認識前の認識結果と同じ認識結果とならないようにしたものである。

図２２は、第８の実施形態のクライアント装置１１０ｈの機能構成を示すブロック図である。クライアント装置１１０ｈは、特徴量算出部２１０、特徴量圧縮部２２０、特徴量保存部２３０、送信部２２５、受信部２３５、操作部２３６、結果保存部２３７、ユーザ入力検出部２３８、誤り区間指定部２４０ａ、誤り区間前後コンテキスト指定部２５０、誤り区間特徴量抽出部２６０、訂正部２７０ｂ、統合部２８０、音響モデル保持部２８１、言語モデル保持部２８２、辞書保持部２８３、表示部２９０を含んで構成されている。このクライアント装置１１０ｈは、クライアント装置１１０と同様に図３に示されるハードウェアにより実現される。以下、図２におけるクライアント装置１１０との相違点を中心に説明する。

訂正部２７０ｂは、図３における訂正部２７０と同様に再認識処理等を行う部分である。さらに訂正部２７０ｂは、結果保存部２３７において記憶されている認識結果に基づいて、同じ認識誤りをしないように再認識処理を行う。すなわち、訂正部２７０ｂは、誤り区間指定部２４０ａにおいて指定された誤り区間における認識結果と比較して、同じ認識結果を得ないようにするために、再認識の探索過程において、誤り区間における認識結果を含むパスを候補から除外する処理を行う。除外する処理としては、訂正部２７０ｂは、誤り区間の特徴量データに対する候補における仮説の確率を極小化するように、所定の係数を乗算することにより、結果的に極小となった候補を選択しないようにする。なお、上述の方法では、再認識するときに誤っている可能性のある候補（例えば、“活性化”）を認識結果の候補から除外するようにしているが、これに限るものではなく、再認識した認識結果を提示する際において、誤っている可能性のある認識結果の一候補（例えば“活性化”）を表示しないようにしてもよい。

なお、このクライアント装置１１０ｈは、図８で示されるフローチャートとほぼ同様の処理を実行するものである。なお、Ｓ１０８における誤り区間の認識処理については、同じ認識結果を表示しないように、その候補から除外するような認識処理を行う点で相違する。

以上の通り、訂正対象となる単語は間違いであったことから、再認識後の結果に訂正対象となった単語を出力すべきではないことから、この実施形態においては、このような訂正結果を表示しないようにすることができる。

＜第９の実施形態＞
つぎに、第９の実施形態について説明する。この実施形態によると、誤り区間特徴量抽出部２６０において抽出した特徴量データの誤り区間において、平均値を算出し、その平均値を特徴量データから減算したデータを用いて再認識処理を行おうとするものである。

その具体的構成について、説明する。図２３は、第９の実施形態におけるクライアント装置１１０ｉの機能を示すブロック図である。このクライアント装置１１０ｉは、特徴量算出部２１０、特徴量圧縮部２２０、特徴量保存部２３０、送信部２２５、受信部２３５、誤り区間指定部２４０、誤り区間前後コンテキスト指定部２５０、誤り区間特徴量抽出部２６０、平均値計算部２６１（算出手段）、特徴正規化部２６２（訂正手段）、訂正部２７０（訂正手段）、統合部２８０、音響モデル保持部２８１、言語モデル保持部２８２、辞書保持部２８３、表示部２９０を含んで構成されている。このクライアント装置１１０ｉは、クライアント装置１１０と同様に図３に示されるハードウェアにより実現される。以下、図２におけるクライアント装置１１０との相違点である、平均値計算部２６１および特徴正規化部２６２を中心に説明する。

平均値計算部２６１は、誤り区間特徴量抽出部２６０において抽出された特徴量データにおける誤り区間の平均値（または誤り区間の前後含んだ平均値）を算出する部分である。より具体的には、平均値計算部２６１は、誤り区間における各認識単位の周波数ごとに出力値（大きさ）を累積加算する。そして、累積加算して得られた出力値をその認識単位数で除算することで平均値を算出する。例えば、“活性化／の／ため”の誤り区間における認識単位は、スラッシュ“／”で区切られた部分である。夫々の認識単位である認識フレームｎが、周波数ｆｎ１〜ｆｎ１２から構成され、その出力値がｇｎ１〜ｇｎ１２であったとすると、周波数ｆ１の平均値ｇ１＝Σｇｎ１／ｎ（上述の例ではｎ＝１から３）で表すことができる。

すなわち、“活性化”を構成する周波数ｆ１１〜ｆ１１２（出力値をｇ１１〜ｇ１１２）、“の”を構成する周波数ｆ２１〜ｆ２１２（出力値をｇ２１〜ｇ２１２）、“ため”を構成する周波数ｆ３１〜ｆ３１２（出力値をｇ３１〜ｇ３１２）とした場合、周波数ｆ１の平均値は、（ｇ１１＋ｇ２１＋ｇ３１）／３で算出される。

特徴正規化部２６２は、平均値計算部２６１において算出された各周波数の平均値を、各周波数から構成されている特徴量データから減算する処理を行う。そして、訂正部２７０は、減算して得られたデータに対して再認識処理を行うことにより訂正処理を行うことができる。

本実施形態においては、平均値計算部２６１において算出した平均値を用いて特徴量データを修正することにより、例えば特徴量算出部２１０に音声を入力するためのマイクなどの集音装置の特性を除去したデータとすることができる。すなわち、マイクの集音時のノイズを除去することができ、より正確な音声に対する訂正（認識処理）を行うことができる。なお、上述の実施形態においては、誤り区間特徴量抽出部２６０において抽出した誤り区間に対して適用しているが、その誤り区間を含む一定の長さの区間の特徴量データを利用してもよい。

また、上述平均値計算部２６１および特徴正規化部２６２は、上述の第２の実施形態から第８の実施形態にそれぞれ適用することができる。

＜第１０の実施形態＞
上述の第１の実施形態から第９の実施形態に記載の音声認識結果訂正装置であるクライアント装置１１０〜１１０ｉにおいて、訂正部２７０が訂正処理（再認識処理）を行っているが、これに限るものではない。すなわち、誤り区間指定部２４０が指定した誤り区間をサーバ装置１２０に通知するような構成をとることにより、サーバ装置１２０において再度訂正処理を行い、その訂正結果を受信部２３５が受信するような構成としてもよい。サーバ装置１２０における再訂正処理は上述のクライアント装置１１０の訂正部２７０における訂正処理をとるものとする。クライアント装置１１０における通知処理の具体例としては、誤り区間指定部２４０において指定された誤り区間の時間情報、またはその前後の単語を含めた時間情報を、誤り区間指定部２４０が計算し、送信部２２５がその時間情報をサーバ装置１２０に通知するものが考えられる。サーバ装置１２０においては、最初に行った認識処理とは異なった音声認識処理を行うことにより誤った認識を再度行うことを防止する。例えば、音響モデル、言語モデル、辞書をかえて認識処理を行うようにする。

＜第１１の実施形態＞
つぎに、第１１の実施形態のクライアント装置１１０ｋについて説明する。この第１１の実施形態におけるクライアント装置１１０ｋは、サブワード区間を認識し、当該サブワード区間に記述されているサブワード文字列を用いた訂正処理を行うものである。図２６は、当該クライアント装置１１０ｋの機能を示すブロック図である。

このクライアント装置１１０ｋは、特徴量算出部２１０、特徴量圧縮部２２０、送信部２２５、特徴量保存部２３０、受信部２３５、誤り区間指定部２４０、サブワード区間指定部２４２、分割部２４３、誤り区間特徴量抽出部２６０、辞書追加部２６５、訂正部２７０、統合部２８０、音響モデル保持部２８１、言語モデル保持部２８２、辞書保持部２８３および表示部２９０を含んで構成されている。

第１の実施形態とは、サブワード区間指定部２４２、分割部２４３、および辞書追加部２６５を含んでいる点で相違している。以下、この相違点を中心に、その構成を説明する。

サブワード区間指定部２４２は、誤り区間指定部２４０において指定された誤り区間からサブワード文字列を含んだ区間を指定する部分である。サブワード文字列には、その属性情報として、未知語であることを示す“subword”である旨が付加されており、サブワード区間指定部２４２は、その属性情報に基づいてサブワード区間を指定することができる。

例えば、図２８に、サーバ装置１２０において、発話内容に基づいて認識された認識結果を示す図を示す。図２８によると、“サンヨウムセン”には属性情報として“subword”が付加されており、サブワード区間指定部２４２は、その属性情報に基づいて“サンヨウムセン”をサブワード文字列として認識し、その文字列部分をサブワード区間として指定することができる。

なお、図２８においては、発話内容にしたがって認識された認識結果の認識単位にフレームインデックスが付加されている。上述と同様に１フレームは、１０ｍｓｅｃ程度である。また、図２８においては、誤り区間指定部２４０は、上述と同様の処理にしたがって、誤り区間を指定することができ、“では”（２番目の認識単位）から“が”（８番目の認識単位）までが誤り区間と指定することができる。

分割部２４３は、サブワード区間指定部２４２により指定されたサブワード区間に含まれているサブワード文字列を境界に、誤り区間指定部２４０により指定された誤り区間を分割する部分である。図２８に示される例に基づくと、サブワード文字列である“サンヨウムセン”に基づいて区間１と区間２に分割する。すなわち、２番目の認識単位である“では”から５番目の認識単位である“サンヨウムセン”まで、すなわち、フレームインデックスでいうところの１００ｍｓｅｃから５００ｍｓｅｃまでが区間１に分割され、５番目の認識単位である“サンヨウムセン”から８番目の認識単位である“が“までが、すなわち３００ｍｓｅｃから６６０ｍｓｅｃまでが区間２に分割される。

辞書追加部２６５は、サブワード区間指定部２４２により指定されたサブワード文字列を辞書保持部２８３に追加する部分である。図２８の例では、新規に“サンヨウムセン”が一つの単語として辞書保持部２８３に追加される。また、この辞書保持部２８３に、サブワードの読みを追加するとともに、言語モデル保持部２８２にサブワードと他の単語の接続確率を追加する。言語モデル保持部２８２における接続確率の値は、事前に用意したサブワード専用のクラスを利用してよい。また、サブワードモデルの文字列は、ほとんど固有名詞なので、名詞（固有名詞）のクラスの値を利用してよい。

このような構成により、誤り区間特徴量抽出部２６０は、分割部２４３により分割されて得られた区間１および区間２にしたがって、特徴量保存部２３０に保持されている特徴量データを抽出する。そして訂正部２７０は、それぞれの区間に対応した特徴量データに対して再認識処理を行うことで訂正処理を実行する。具体的には、図２８を例にとると、区間１の訂正結果は、“では電気メーカのサンヨウムセン”となり、区間２の訂正結果は“サンヨウムセンの製品は評判が”となる。

統合部２８０は、訂正部２７０に訂正されて得られた認識結果（区間１および区間２）を境界となっているサブワード文字列に基づいて統合処理するとともに、受信部２３５において受信された認識結果とを統合して、表示部２９０に表示させる。図２８を例にとると、統合された結果として、最終的な誤り区間のテキストは“では電気メーカのサンヨウムセンの製品は評判が”となる。

つぎに、このように構成されたクライアント装置１１０ｋの動作について説明する。図２７は、クライアント装置１１０ｋの動作を示すフローチャートである。

Ｓ１０１からＳ１０５までは、図６に示されているクライアント装置１１０と同様の処理が行われる。すなわち、マイクを介して入力された音声は特徴量算出部２１０によりその特徴データが抽出される（Ｓ１０１）。そして、特徴量保存部２３０に特徴量データは保存される（Ｓ１０２）。つぎに、特徴量圧縮部２２０により特徴量データは圧縮される（Ｓ１０３）。圧縮された圧縮特徴量データは、送信部２２５によりサーバ装置１２０に送信される（Ｓ１０４）。そして、サーバ装置１２０において音声認識が行われ、サーバ装置１２０からその認識結果が送信され、受信部２３５により受信される（Ｓ１０５）。そして、音声認識結果から誤り区間指定部２４０により誤り区間が指定される（Ｓ１０６）。なお、、この指定された誤り区間に基づいて前後コンテキストが指定されるようにしてもよい。

つぎに、サブワード区間がサブワード区間指定部２４２により指定され、確定される（Ｓ７０１）。なお、この際、サブワード区間にあるサブワード文字列が、クライアント装置１１０ｋに備えられているユーザ辞書（例えば、仮名漢字変換辞書におけるユーザが登録した単語や、アドレス帳・電話帳に登録されている名前など）にある場合には、その単語に置き換える処理が行われるようにしてもよい。そして、分割部２４３により、サブワード区間を境界に誤り区間が分割される（Ｓ７０２）。この分割処理を行うとともに、辞書追加部２６５により、指定されたサブワード文字列が辞書保持部２８３に保持される（Ｓ７０３）。

その後、誤り区間特徴量抽出部２６０により、誤り区間の特徴量データおよびサブワード区間の特徴量データが抽出され（Ｓ１０７ａ）、訂正部２７０により誤り区間およびサブワード区間の特徴量データを再認識することにより訂正処理が行われる（Ｓ１０８ａ）。そして、誤り区間におけるテキストデータと、受信部２３５において受信されたテキストデータとが統合され、正しく認識されて得られたテキストデータが表示部２９０に表示される（Ｓ１０９）。なお、統合に際しては、境界の単語を目安に区間１と区間２との結果を連結する。また、訂正部２７０は、上述サブワード文字列がユーザ辞書に基づいて変換された場合には、変換された文字列を拘束条件として音声認識処理を行うことで、訂正処理を行うようにしても良い。

本実施形態では、サブワードの文字列はサーバの認識結果にあることを前提に説明したが、このサブワードの文字列はクライアント装置１１０ｋで生成してもよい。この場合は、図２７の処理Ｓ１０６における誤り区間指定処理の次に、サブワード文字列を生成してから、サブワード区間確定処理をする。また、クライアント装置１００ｋでの上述図２７の処理は、サーバや他の装置で行っても良い。さらに、訂正方法は認識により、行う方法を説明したが、他のやり方例えば文字列間の類似度に基づく方法でもよい。この場合は特徴量保存部２３０および音響特徴量データを保存する処理（Ｓ１０２）、誤り区間特徴量抽出部２６０、訂正部２７０および音響特徴で認識する（Ｓ１０８ａ）は必要ない。

さらに、サブワードの文字列は辞書保持部２８３にある場合に、辞書保持部２８３中の情報を利用してもよい。例えば辞書保持部２８３に“サンヨウムセン”に対応する単語、例えば“三洋無線”はある場合はサブワード辞書に追加しなくていい。

また、先の例では区間を分割するときは区間１と区間２にはそれぞれサブワード区間を包含するようになっているが、これは必須でなく、各分割区間にサブワードを包含しなくて良い。つまり、二番目の単語“では”から５番目のサブワード文字列の開始までを区間１に、５番目のサブワード文字列終了から８番目の単語終了までの“が”を区間２に分割するようにしてもよい。この場合はサブワードの文字列を辞書へ追加処理しなくてもよい。

つぎに、本実施形態のクライアント装置１１０ｋの作用効果について説明する。このクライアント装置１１０ｋにおいて、受信部２３５は認識結果をサーバ装置１２０から受信し、誤り区間指定部２４０は、誤り区間を指定する。さらに、サブワード区間指定部２４２は、誤り区間におけるサブワード区間を指定する。これはサーバ装置１２０から送信される認識結果に付加されている属性情報により判断することができる。そして、訂正部２７０は、サブワード区間指定部２４２により指定されたサブワード区間に対応する特徴量データを、特徴量保存部２３０から抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、認識結果の訂正を実行する。これにより、サブワードのような未知語についての訂正処理を行うことができる。すなわち、サブワード区間といった未知語の区間したがった再認識を行うことができる。

また、本実施形態のクライアント装置１１０ｋにおいて、分割部２４３がサブワード区間指定部２４０により指定されたサブワード区間に従って、認識結果を複数の区間に分割する。そして、訂正部２７０は、分割部２４３により分割された分割区間ごとに、認識結果の訂正を実行する。これにより、認識対象を短くすることができ、より正確な認識処理を行うことができる。

また、クライアント装置１１０ｋにおいて、分割部２４３は、サブワード区間の終点を一の分割区間の終点とするとともに、サブワード区間の始点を、前記一の分割区間の次の分割区間の始点とするよう認識結果を分割する。そして、訂正部２７０は、分割部２４３により分割された分割区間ごとに、認識結果の訂正を実行するとともに、サブワード区間を各分割区間の訂正における拘束条件とする。これにより、サブワード区間が、分割区間のいずれにも含まれることになる。よって、認識処理する際には必ずサブワード区間が含まれることにより、サブワード文字列を拘束条件とした認識処理を行うことができる。

また、クライアント装置１１０ｋにおいて、辞書追加部２６５は、サブワード区間指定部２４２により指定されたサブワード区間におけるサブワード文字列を認識処理のための辞書保持部２８３に追加する。これにより、サブワード文字列を蓄積することができ、今後の認識処理に有効に用い、より正確な認識処理を行うことができる。

＜第１２の実施形態＞
第１１の実施形態ではサブワード文字列を境界に分割するやり方を説明したが、本実施形態では分割しなくても再認識する場合にサブワード文字列を必ず用いる方法について説明する。本実施形態は、上述第１１の実施形態と同様の装置構成をとったものとする。

図２９は、音声認識における探索過程の概念図であり、図２９（ａ）は、サブワード文字列である“サンヨウムセン”を含んだ探索過程を示す概念図であり、図２９（ｂ）は、サブワード文字列を拘束条件として、複数の区間における探索過程を示す概念図である。

一般的に音声認識探索過程にすべての経路の仮説の尤度を計算し、途中の結果を保存し、最終的に尤度が大きい順番に結果を生成する。実際にはコストの面を考慮し、途中で探索の範囲を一定の範囲以内に絞る方法が利用される。本実施形態では、サブワード区間指定部２４２により指定されたサブワード区間が所定区間（例えば、２秒から３秒の間）にある場合には、訂正部２７０は、このサブワード区間に記述されているサブワード文字列を用いて、探索の過程にサブワード文字列が出現する経路を他の経路より順位を高め、最終的にサブワード文字列を包含する認識結果を優先的に出力するように認識処理を行う。例えば、以下の探索経路が訂正部２７０により得られ、保持される。
経路１：最近／では／玄関／で／待ち合わせ
経路２：昨日／の／会議／は／世界／中／
経路３：最近／では／単価／高い／サンヨウムセン
経路４：最近／では／電気メーカ／の／サンヨウムセン

この中の経路３と経路４に“サンヨウムセン“があるため、この二つの経路を経路１、経路２より順位を高めるよう訂正部２７０は処理を行う。ここで範囲を絞るなら、経路１および経路２を残さずに、経路３および経路４を残す。さらに“サンヨウムセン”の出現位置を判断し、もとの認識結果にある“サンヨウムセン”の出現位置（300msから500ms）に近い一定範囲に限定した経路に絞っても良い。また、最終的に認識の結果に“サンヨウムセン”が出現してない候補より“サンヨウムセン”が出現した候補を優先的に出力するようにしても良い。

以上の通り、クライアント装置１１０ｋにおいて、訂正部２７０は、サブワード区間指定部２４２により指定されたサブワード区間に記述されているサブワード文字列を含む仮説を認識の探索過程として優先順位を上げて保持し、当該仮説から最終的な認識結果を選択することにより訂正を実行する。これにより、必ずサブワード文字列を用いた認識処理を行うことができる。

本実施形態の音声認識結果訂正装置であるクライアント装置１１０（１１０ａ〜１１０ｋ）を含む）を含んだ通信システムのシステム構成図である。クライアント装置１１０の機能を示すブロック図である。クライアント装置１１０のハードウェア構成図である。音声認識結果に含まれる各種情報の概念を示す概念図である。（ａ）が誤り区間前後コンテキストを指定した場合の概念図を示し、（ｂ）が拘束条件に基づいて認識処理を行う際における概念を示す概念図である。クライアント装置１１０の動作を示すフローチャートである。誤り区間の指定を含んだ訂正処理の詳細な処理を示すフローチャートである。ユーザ入力により誤り区間を受け付けるクライアント装置１１０ａの機能を示すブロック図である。クライアント装置１１０ａの処理を示すフローチャートである。クライアント装置１１０ａにおけるユーザ入力により誤り区間を指定するときの詳細な処理を示すフローチャートである。このクライアント装置１１０ｂの機能を示すブロック図である。クライアント装置１１０ｂの処理を示すフローチャートである。クライアント装置１１０ｂにおける誤り区間を指定するときの詳細な処理を示すフローチャートである。クライアント装置１１０ｃの機能を示すブロック図である。クライアント装置１１０ｃの処理を示すフローチャートである。クライアント装置１１０ｄの機能を示すブロック図である。クライアント装置１１０ｄの処理を示すフローチャートである。クライアント装置１１０ｆの機能を示すブロック図である。クライアント装置１１０ｆの処理を示すフローチャートである。クライアント装置１１０ｇの機能を示すブロック図である。クライアント装置１１０ｇの処理を示すフローチャートである。クライアント装置１１０ｈの機能を示すブロック図である。クライアント装置１１０ｉの機能を示すブロック図である。単語情報を拘束条件として指定された部分を訂正処理するときの概念を示す概念図である。クライアント装置１１０の変形例を示すブロック図である。クライアント装置１１０ｋの機能を示すブロック図である。クライアント装置１１０ｋの動作を示すフローチャートである。発話内容、認識結果、分割区間の対応について説明する説明図である。音声認識における探索過程の概念図である。

符号の説明

１１０、１１０ａ、１１０ｂ、１１０ｃ、１１０ｄ、１１０ｆ、１１０ｇ、１１０ｈ…クライアント装置、１２０…サーバ装置、２１０…特徴量算出部、２２０…特徴量圧縮部、２２５…送信部、２２６…第一認識部、２２７…言語モデル保持部、２２８…辞書保持部、２２９…音響モデル保持部、２３０…特徴量保存部、２３５…受信部、２３６…操作部、２３７…結果保存部、２３８…ユーザ入力検出部、２３９…時間情報算出部、２４０、２４０ａ、２４０ｂ、２４０ｃ…誤り区間指定部、２４１…終点判断部、２４２…サブワード区間指定部、２４３…分割部、２５０、２５０ａ…誤り区間前後コンテキスト指定部、２５１…単語情報解析部、２６０…誤り区間特徴量抽出部、２６５…辞書追加部、２７０、２７０ａ、２７０ｂ…訂正部、２８０…統合部、２８１…音響モデル保持部、２８２…言語モデル保持部、２８３…辞書保持部、２８４…言語ＤＢ保持部、２８５…拘束条件記憶部、２９０…表示部。

Claims

音声を入力する入力手段と、
前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、
前記算出手段により算出された特徴量データを記憶する記憶手段と、
前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、
前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、
を備え、
前記訂正手段は、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする音声認識結果訂正装置。
音声を入力する入力手段と、
前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、
前記算出手段により算出された特徴量データを記憶する記憶手段と、
前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、
前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、
を備え、
前記訂正手段は、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする音声認識結果訂正装置。
前記取得手段は、
前記入力手段により入力された音声を、音声認識装置に送信する送信手段と、
前記音声認識装置において認識された認識結果を受信する受信手段とから構成され、
前記指定手段は、前記受信手段により受信された認識結果において、認識誤りが発生している誤り区間を指定することを特徴とする請求項１または２に記載の音声認識結果訂正装置。
前記指定手段は、ユーザ操作を受け付けることにより、誤り区間を指定することを特徴とする請求項１から３のいずれか一項に記載の音声認識結果訂正装置。
前記指定手段は、前記認識結果に付与されている認識結果の信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定することを特徴とする請求項１から４のいずれか１項に記載の音声認識結果訂正装置。
前記指定手段は、前記認識結果の信頼度を計算し、当該信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定することを特徴とする請求項１から４のいずれか１項に記載の音声認識結果訂正装置。
前記指定手段により指定された誤り区間の直前の少なくとも一つの単語を特定するための情報である単語情報、若しくは直後の少なくとも一つの単語の単語情報、または前記直前の単語の単語情報および直後の単語の単語情報の両方、のいずれかを形成する認識結果における単語の単語情報を特定する単語情報特定手段をさらに備え、
前記訂正手段は、前記単語情報特定手段により特定された単語情報を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする請求項１から６のいずれか１項に記載の音声認識結果訂正装置。
前記単語情報が、単語の品詞を示す品詞情報、および単語の読み方を示す読み情報、のいずれか１つまたは複数を含むことを特徴とする請求項７に記載の音声認識結果訂正装置。
前記単語情報に基づいて、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果の単語が、未知語か否かを判定する、未知語判定手段をさらに備え、
前記未知語判定手段により前記認識結果の単語が未知語であると判定されると、前記訂正手段は、前記単語情報をもとに、認識結果の訂正処理を行うことを特徴とする請求項７または８に記載の音声認識結果訂正装置。
単語同士の接続確率を記憶する接続確率記憶手段をさらに備え、
前記訂正手段は、訂正処理したことによって当該誤り区間の単語およびその前後またはその一方における単語との接続確率を作成し、当該接続確率を用いて前記接続確率記憶手段に記憶されている接続確率を更新することを特徴とする請求項１から９のいずれか１項に記載の音声認識結果訂正装置。
前記単語情報特定手段により特定された単語情報または前記特定手段により特定された単語を拘束条件として記憶する拘束条件記憶手段をさらに備え、
前記訂正手段は、前記拘束条件記憶手段に記憶されている拘束条件に従って訂正処理を行うことを特徴とする請求項１から１０のいずれか１項に記載の音声認識結果訂正装置。
ユーザから文字情報を受け付ける受付手段をさらに備え、
前記訂正手段は、前記受付手段により受け付けられた文字情報を拘束条件として、誤り区間における認識結果の訂正処理を行うことを特徴とする請求項１から１１のいずれか１項に記載の音声認識結果訂正装置。
受信手段により受信された認識結果と前記記憶手段に記憶されている特徴量データとに基づいて、認識結果における経過時間を算出する時間情報算出手段をさらに備え、
前記指定手段は、前記時間情報算出手段により算出された時間情報に基づいて誤り区間を指定することを特徴とする請求項１から１２いずれか１項に記載の音声認識結果訂正装置。
前記訂正手段により訂正された認識結果を表示する表示手段をさらに備え、
前記表示手段は、前記取得手段により取得された認識結果を表示しないことを特徴とする請求項１から１３のいずれか１項に記載の音声認識結果訂正装置。
前記訂正手段により再認識により得られた認識結果と、前記取得手段により取得された認識結果とが同じであった場合、またはこれら認識結果それぞれに含まれる時間情報にずれが生じている場合には、認識誤りと判断され、前記表示手段は認識結果を表示しないことを特徴とする請求項１４に記載の音声認識結果訂正装置。
前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識結果に付与されている認識結果の信頼度に基づいて誤り区間の終点を指定することを特徴とする請求項４に記載の音声認識結果訂正装置。
前記指定手段は、ユーザ操作により誤り区間の始点を指定し、当該始点から所定認識単位数あけて誤り区間の終点を指定することを特徴とする請求項４に記載の音声認識結果訂正装置。
前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識結果における所定の発音記号に基づいて誤り区間の終点を指定することを特徴とする請求項４に記載の音声認識結果訂正装置。
前記取得手段は、認識結果を取得する際、認識結果として複数の認識候補を取得し、
前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識候補の数に基づいて終点を指定することを特徴とする請求項４に記載の音声認識結果訂正装置。
前記算出手段により算出された特徴量データの誤り区間を含む区間の平均値を算出する算出手段をさらに備え、
前記訂正手段は、抽出した特徴量データから前記算出手段により算出された平均値を減算し、その減算して得られたデータを特徴量データとして再認識処理を行うことを特徴とする請求項１から１９のいずれか１項に記載の音声認識結果訂正装置。
音声を入力する入力手段と、
前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
前記指定手段により指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知手段と、
前記通知手段による依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信手段と、
前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、を備え、
前記受信手段は、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、認識処理された認識結果を受信することを特徴とする音声認識結果訂正装置。
音声を入力する入力手段と、
前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
前記指定手段により指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知手段と、
前記通知手段による依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信手段と、
前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段とを備え、
前記受信手段は、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、認識処理された認識結果を受信することを特徴とする音声認識結果訂正装置。
音声を入力する入力ステップと、
前記入力ステップにより入力された音声に基づいて特徴量データを算出する算出ステップと、
前記算出ステップにより算出された特徴量データを記憶手段に記憶する記憶ステップと、
前記入力ステップにより入力された音声に対する認識結果を取得する取得する取得ステップと、
前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、
前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、
前記記憶ステップにおいて記憶された特徴量データから前記指定ステップにより指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得ステップにより得られた認識結果の訂正を実行する訂正ステップとを備え、
前記訂正ステップは、前記特定ステップにより特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする音声認識結果訂正方法。
音声を入力する入力ステップと、
前記入力ステップにより入力された音声に基づいて特徴量データを算出する算出ステップと、
前記算出ステップにより算出された特徴量データを記憶手段に記憶する記憶ステップと、
前記入力ステップにより入力された音声に対する認識結果を取得する取得する取得ステップと、
前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、
前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、
前記記憶ステップにおいて記憶された特徴量データから前記指定ステップにより指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得ステップにより得られた認識結果の訂正を実行する訂正ステップとを備え、
前記訂正ステップは、前記特定ステップにより特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする音声認識結果訂正方法。
音声を入力する入力ステップと、
前記入力ステップにより入力された音声に対する認識結果を取得する取得ステップと、
前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、
前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、
前記指定ステップにより指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知ステップと、
前記通知ステップによる依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信ステップと、を備え、
前記受信ステップは、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、前記外部サーバにおいて認識処理された認識結果を受信することを特徴とする音声認識結果訂正方法。
音声を入力する入力ステップと、
前記入力ステップにより入力された音声に対する認識結果を取得する取得ステップと、
前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、
前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、
前記指定ステップにより指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知ステップと、
前記通知ステップによる依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信ステップと、を備え、
前記受信ステップは、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、前記外部サーバにおいて認識処理された認識結果を受信することを特徴とする音声認識結果訂正方法。
音声を入力する入力手段と、
前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、
前記算出手段により算出された特徴量データを記憶する記憶手段と、
前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、
前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、
前記取得手段により取得された認識結果において、サブワード区間を指定するサブワード区間指定手段と、
前記サブワード区間指定手段により指定されたサブワード区間に従って、前記取得手段から取得された認識結果を複数の区間に分割する分割手段をさらに備え、
前記訂正手段は、前記指定手段により指定された誤り区間においてさらに前記サブワード区間指定手段により指定され、前記分割手段により分割されたサブワード区間に対応する特徴量データを、前記記憶手段から抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する
ことを特徴とする音声認識結果訂正装置。
前記分割手段は、サブワード区間の終点を一の分割区間の終点とするとともに、サブワード区間の始点を、前記一の分割区間の次の分割区間の始点とするよう認識結果を分割することを特徴とする請求項２７に記載の音声認識結果訂正装置。
前記訂正手段は、前記分割手段により分割された分割区間ごとに、認識結果の訂正を実行するとともに、前記サブワード区間を各分割区間の訂正における拘束条件とすることを特徴とする請求項２８に記載の音声認識結果訂正装置。
前記訂正手段は、前記サブワード区間指定手段により指定されたサブワード区間に記述されているサブワード文字列を含む仮説を認識の探索過程として保持し、当該仮説から最終的な認識結果を選択することにより訂正を実行することを特徴とする請求項２７に記載の音声認識結果訂正装置。
前記サブワード区間指定手段により指定されたサブワード区間におけるサブワード文字列を認識処理のための辞書データベースに追加する辞書追加手段をさらに備えることを特徴とする請求項２７から３０のいずれか１項に記載の音声認識結果訂正装置。
ユーザにより生成された辞書データベースをさらに備え、
前記訂正手段は、サブワード文字列を前記辞書データベースにしたがって変換された文字列を用いて訂正処理を行うことを特徴とする請求項２７から３１のいずれか一項に記載の音声認識結果訂正装置。
請求項１から２２、または２７から３２のいずれか１項に記載の音声認識結果訂正装置と、
前記音声認識結果訂正装置から送信された音声に基づいて音声認識を行い、認識結果として前記音声認識結果訂正装置に送信するサーバ装置と、からなる音声認識結果訂正システム。