Nothing Special   »   [go: up one dir, main page]

JP4709887B2 - 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム - Google Patents

音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム Download PDF

Info

Publication number
JP4709887B2
JP4709887B2 JP2008285550A JP2008285550A JP4709887B2 JP 4709887 B2 JP4709887 B2 JP 4709887B2 JP 2008285550 A JP2008285550 A JP 2008285550A JP 2008285550 A JP2008285550 A JP 2008285550A JP 4709887 B2 JP4709887 B2 JP 4709887B2
Authority
JP
Japan
Prior art keywords
recognition result
error
word
unit
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008285550A
Other languages
English (en)
Other versions
JP2010055044A (ja
Inventor
志鵬 張
信彦 仲
悠輔 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2008285550A priority Critical patent/JP4709887B2/ja
Priority to TW098113352A priority patent/TWI427620B/zh
Priority to CN2009101350590A priority patent/CN101567189B/zh
Publication of JP2010055044A publication Critical patent/JP2010055044A/ja
Application granted granted Critical
Publication of JP4709887B2 publication Critical patent/JP4709887B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識されたデータを訂正する音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システムに関する。
携帯端末において入力された音声をサーバに出力し、当該サーバにおいて音声を認識し、ここで認識結果を携帯端末に送信することで、携帯端末において音声結果を取得することができる技術が、特許文献1に記載されているように知られている。
特開2003−295893号公報
しかしながら、サーバにおいて認識された認識結果に誤りがある場合、その訂正を行うことが考慮されていない。一般に、認識結果に誤りがある場合には、ユーザにおいて手入力により操作することにより訂正することが考えられるが、大変手間がかかるものである。例えば、認識結果としての文章をユーザが把握し、誤りを認識し、その誤っている箇所を指定し、そして訂正する、といった手間がかかる。
そこで、本発明では、認識結果に誤りがあった場合に、ユーザの手間をかけることなく認識誤りを訂正することができる音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システムを提供することを目的とする。
上述の課題を解決するために、本発明の音声認識結果訂正装置は、音声を入力する入力手段と、前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、前記算出手段により算出された特徴量データを記憶する記憶手段と、前記入力手段により入力された音声に対する認識結果を取得する取得手段と、前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、を備え、前記訂正手段は、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする
また、本発明の音声認識結果訂正方法は、音声を入力する入力ステップと、前記入力ステップにより入力された音声に基づいて特徴量データを算出する算出ステップと、前記算出ステップにより算出された特徴量データを記憶手段に記憶する記憶ステップと、前記入力ステップにより入力された音声に対する認識結果を取得する取得する取得ステップと、前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、前記記憶ステップにおいて記憶された特徴量データから前記指定ステップにより指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得ステップにより得られた認識結果の訂正を実行する訂正ステップとを備え、前記訂正ステップは、前記特定ステップにより特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする
この発明によれば、入力された音声の特徴量データを記憶するとともに、その音声に対する認識された認識結果において、認識誤りが発生している誤り区間を指定する。そして、指定された誤り区間における特徴量データを再認識することにより認識結果を訂正する。これにより、認識した結果のうち必要な部分を訂正するため、簡易に訂正処理を行うことができるとともに、正しい認識結果を得ることができる。これにより、ユーザに負担をかけることなく、簡単に訂正処理を行うことができ、正しい音声認識結果を得ることができる。
さらに、この発明によれば、指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方の単語、のいずれかを形成する認識結果を特定し、特定された認識結果を拘束条件として、この拘束条件にしたがって、予め記憶されている特徴量データの認識処理を行うができる。これにより、より正確な認識処理を行うことができ、よって正しい音声認識結果を得ることができる。
また、本発明の音声認識結果訂正装置は、音声を入力する入力手段と、前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、前記算出手段により算出された特徴量データを記憶する記憶手段と、前記入力手段により入力された音声に対する認識結果を取得する取得手段と、前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、を備え、前記訂正手段は、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする
また、本発明の音声認識結果訂正方法は、音声を入力する入力ステップと、前記入力ステップにより入力された音声に基づいて特徴量データを算出する算出ステップと、前記算出ステップにより算出された特徴量データを記憶手段に記憶する記憶ステップと、前記入力ステップにより入力された音声に対する認識結果を取得する取得する取得ステップと、前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、前記記憶ステップにおいて記憶された特徴量データから前記指定ステップにより指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得ステップにより得られた認識結果の訂正を実行する訂正ステップとを備え、前記訂正ステップは、前記特定ステップにより特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする。
この発明によれば、指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方の単語、のいずれかを形成する認識結果を特定し、特定された認識結果を拘束条件として、この拘束条件にしたがって、予め記憶されている特徴量データの認識処理を行うができる。すなわち、この発明においては誤り区間のみの特徴量データを用いて認識処理を行うことができる。これにより、より正確な認識処理を行うことができ、よって正しい音声認識結果を得ることができる。
また、本発明の音声認識結果訂正装置において、前記取得手段は、前記入力手段により入力された音声を、音声認識装置に送信する送信手段と、前記音声認識装置において認識された認識結果を受信する受信手段とから構成され、前記指定手段は、前記受信手段により受信された認識結果において、認識誤りが発生している誤り区間を指定することが好ましい。
この発明によれば、入力された音声を、音声認識装置に送信し、この音声認識装置において認識された認識結果を受信する。そして、受信された認識結果において、認識誤りが発生している誤り区間を指定し、指定された誤り区間における認識結果を訂正する。これにより、認識した結果のうち必要な部分を訂正するため、簡易に音声認識の誤りを訂正することができ、正しい認識結果を得ることができる。
また、本発明の音声認識結果訂正装置において、前記指定手段は、ユーザ操作を受け付けることにより、誤り区間を指定することが好ましい。
この発明によれば、ユーザ操作を受け付けることにより、誤り区間を指定することができ、より簡易に誤り区間を指定することができるとともに、正しい音声認識結果を得ることができる。
また、本発明の音声認識結果訂正装置において、前記指定手段は、前記認識結果に付与されている認識結果の信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定することが好ましい。
この発明によれば、認識結果に付与されている認識結果の信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定するにより、自動的に誤り区間を指定することができ、より簡易に誤り区間を指定することができる。
また、本発明の音声認識結果訂正装置において、前記指定手段は、前記認識結果の信頼度を計算し、当該信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定することが好ましい。
この発明によれば、認識結果の信頼度を計算し、当該信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定することができ、より簡易に誤り区間を指定することができる。さらに、サーバ装置などに音声認識をさせる場合においても、そのサーバ装置から信頼度を計算させなくてもよく、より使い勝手のよい装置を提供することができる。
また、本発明の音声認識結果訂正装置は、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語を特定するための情報である単語情報、若しくは直後の少なくとも一つの単語の単語情報、または前記直前の単語の単語情報および直後の単語の単語情報の両方、のいずれかを形成する認識結果における単語の単語情報を特定する単語情報特定手段をさらに備え、前記訂正手段は、前記単語情報特定手段により特定された単語情報を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことが好ましい。
この発明によれば、単語を特定するための単語情報を拘束条件として、訂正処理を行うことにより、より正確な認識処理を行うことができる。
例えば、単語情報として、単語の品詞を示す品詞情報および単語の読み方を示す読み情報、のいずれか1つまたは複数を含むことが好ましい。
また、本発明の音声認識結果訂正装置は、前記単語情報に基づいて、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果の単語が、未知語か否かを判定する、未知語判定手段をさらに備え、前記未知語判定手段により前記認識結果の単語が未知語であると判定されると、前記訂正手段は、前記単語情報をもとに、認識結果の訂正処理を行うことが好ましい。
この発明によれば、未知語である場合に、単語情報を拘束条件とした認識処理を行うことにより、より正確な音声認識結果を得ることができる。
また、本発明の音声認識結果訂正装置は、単語同士の接続確率を記憶する接続確率記憶手段をさらに備え、前記訂正手段は、訂正処理したことによって当該誤り区間の単語およびその前後またはその一方における単語との接続確率を作成し、当該接続確率を用いて前記接続確率記憶手段に記憶されている接続確率を更新することが好ましい。
この発明によれば、単語同士の接続確率を記憶しておき、これを訂正処理をするたびに接続確率は変ることになるため、その接続確率を計算して更新することでより正確な音声認識結果を得ることができる。
また、本発明の音声認識結果訂正装置は、前記単語情報特定手段により特定された単語情報または前記特定手段により特定された単語を拘束条件として記憶する拘束条件記憶手段をさらに備え、前記訂正手段は、前記拘束条件記憶手段に記憶されている拘束条件に従って訂正処理を行うことが好ましい。
これにより、拘束条件となる単語または単語情報を記憶し、必要に応じて記憶されている拘束条件に従った訂正処理を行うことができ、訂正処理を行うたびに拘束条件を生成する必要がなくなり、迅速な訂正処理(音声認識処理)を行うことができる。
また、本発明の音声認識結果訂正装置は、ユーザから文字情報を受け付ける受付手段をさらに備え、前記訂正手段は、前記受付手段により受け付けられた文字情報を拘束条件として、誤り区間における認識結果の訂正処理を行うことが好ましい。
この発明によれば、ユーザが直接拘束条件となる文字を指定することができ、より正確な認識処理を行うことができ、よって正しい音声認識結果を得ることができる。
また、本発明の音声認識結果訂正装置は、受信手段により受信された認識結果と前記記憶手段に記憶されている特徴量データとに基づいて、認識結果における経過時間を算出する時間情報算出手段をさらに備え、前記指定手段は、前記時間情報算出手段により算出された時間情報に基づいて誤り区間を指定することが好ましい。
この発明によれば、受信された認識結果と記憶されている特徴量データとに基づいて、認識結果における経過時間を算出し、この時間情報に基づいて誤り区間を指定することができる。これにより認識結果に時間情報を含んでいない場合でも誤り区間に対応する適切な特徴量データを抽出することができる。
また、本発明の音声認識結果訂正装置は、前記訂正手段により訂正された認識結果を表示する表示手段をさらに備え、前記表示手段は、前記取得手段により取得された認識結果を表示しないことが好ましい。これにより、認識誤りのある可能性のある認識結果を表示しないため、ユーザに誤解を与えることがない。
また、本発明の音声認識結果訂正装置は、前記訂正手段により再認識により得られた認識結果と、前記取得手段により取得された認識結果とが同じであった場合、またはこれら認識結果それぞれに含まれる時間情報にずれが生じている場合には、認識誤りと判断され、前記表示手段は認識結果を表示しないことが好ましい。これにより、誤った認識結果を表示することを防止することができる。
また、本発明の音声認識結果訂正装置において、前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識結果に付与されている認識結果の信頼度に基づいて誤り区間の終点を指定することが好ましい。これにより、ユーザの入力習慣にあった訂正方法を実現することができ、使い勝手のよい装置を提供することができる。
また、本発明の音声認識結果訂正装置において、前記指定手段は、ユーザ操作により誤り区間の始点を指定し、当該始点に基づいて所定認識単位数あけて誤り区間の終点を指定することが好ましい。これにより、ユーザの入力習慣にあった訂正方法を実現することができ、使い勝手のよい装置を提供することができる。
また、本発明の音声認識結果訂正装置において、前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識結果における所定の発音記号に基づいて誤り区間の終点を指定することが好ましい。これにより、ユーザの入力習慣にあった訂正方法を実現することができ、使い勝手のよい装置を提供することができる。
また、本発明の音声認識結果訂正装置において、前記取得手段は、認識結果を取得する際、認識結果として複数の認識候補を取得し、前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識候補の数に基づいて終点を指定することが好ましい。これにより、認識結果の信頼度に基づいた終点を指定することができ、効率的に訂正処理を実現することができる。
また、本発明の音声認識結果訂正装置において、前記算出手段により算出された特徴量データの誤り区間を含む区間の平均値を算出する算出手段をさらに備え、前記訂正手段は、抽出した特徴量データから前記算出手段により算出された平均値を減算し、その減算して得られたデータを特徴量データとして再認識処理を行うことが好ましい。これにより、マイクなどの音を入力する集音装置の特性を除去した音に対して訂正処理を行うことができ、より正確な訂正(音声認識)を実現することができる。
また、本発明の音声認識結果訂正装置は、音声を入力する入力手段と、前記入力手段により入力された音声に対する認識結果を取得する取得手段と、前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、前記指定手段により指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知手段と、前記通知手段による依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信手段と、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、を備え、前記受信手段は、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、認識処理された認識結果を受信することを特徴とする
また、本発明の音声認識結果訂正装置は、音声を入力する入力手段と、前記入力手段により入力された音声に対する認識結果を取得する取得手段と、前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、前記指定手段により指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知手段と、前記通知手段による依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信手段と、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段とを備え、前記受信手段は、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、認識処理された認識結果を受信することを特徴とする
また、本発明の音声認識結果訂正方法は、音声を入力する入力ステップと、前記入力ステップにより入力された音声に対する認識結果を取得する取得ステップと、前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、前記指定ステップにより指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知ステップと、前記通知ステップによる依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信ステップと、を備え、前記受信ステップは、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、前記外部サーバにおいて認識処理された認識結果を受信することを特徴とする
また、本発明の音声認識結果訂正方法は、音声を入力する入力ステップと、前記入力ステップにより入力された音声に対する認識結果を取得する取得ステップと、前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、前記指定ステップにより指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知ステップと、前記通知ステップによる依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信ステップと、を備え、前記受信ステップは、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、前記外部サーバにおいて認識処理された認識結果を受信することを特徴とする。
また、本発明の音声認識結果訂正装置は、音声を入力する入力手段と、前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、前記算出手段により算出された特徴量データを記憶する記憶手段と、前記入力手段により入力された音声に対する認識結果を取得する取得手段と、前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と前記取得手段により取得された認識結果において、サブワード区間を指定するサブワード区間指定手段と、前記サブワード区間指定手段により指定されたサブワード区間に従って、前記取得手段から取得された認識結果を複数の区間に分割する分割手段をさらに備え、前記訂正手段は、前記指定手段により指定された誤り区間においてさらに前記サブワード区間指定手段により指定され、前記分割手段により分割されたサブワード区間に対応する特徴量データを、前記記憶手段から抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する。
これにより、サブワード区間に対応する特徴量データを用いて認識結果の訂正を実行することができ、より正確な訂正処理を行うことができる。すなわち、サブワード区間といった未知語の区間にしたがった再認識を行うことができる。
また、認識結果を複数の区間の分割することで、認識対象を短くすることができ、より正確な認識処理を行うことができる。
また、本発明の音声認識結果訂正装置における分割手段は、サブワード区間の終点を一の分割区間の終点とするとともに、サブワード区間の始点を、前記一の分割区間の次の分割区間の始点とするよう認識結果を分割することが好ましい。
これにより、サブワード区間が、分割区間のいずれにも含まれることになる。よって、認識処理する際には必ずサブワード区間が含まれることにより、サブワード文字列を拘束条件とした認識処理を行うことができる。
また、本発明の音声認識結果訂正装置における訂正手段は、前記分割手段により分割された分割区間ごとに、認識結果の訂正を実行するとともに、前記サブワード区間を各分割区間の訂正における拘束条件とすることが好ましい。
これにより、認識処理する際には必ずサブワード区間が含まれることになり、サブワード文字列を拘束条件とした認識処理を行うことができる。
また、本発明の音声認識結果訂正装置において、訂正手段は、前記サブワード区間指定手段により指定されたサブワード区間に記述されているサブワード文字列を含む仮説を認識の探索過程として保持し、当該仮説から最終的な認識結果を選択することにより訂正を実行することが好ましい。
これにより、必ずサブワード文字列を用いた認識処理を行うことができる。
また、本発明の音声認識結果訂正装置は、前記サブワード区間指定手段により指定されたサブワード区間におけるサブワード文字列を認識処理のための辞書データベースに追加する辞書追加手段をさらに備えることが好ましい。
これにより、サブワード文字列を蓄積することができ、今後の認識処理に有効に用い、より正確な認識処理を行うことができる。
本発明の音声認識結果訂正装置は、ユーザにより生成された辞書データベースをさらに備え、前記訂正手段は、サブワード文字列を前記辞書データベースにしたがって変換された文字列を用いて訂正処理を行うことが好ましい。
これにより、サブワード文字列を蓄積することができ、今後の認識処理に有効に用い、より正確な認識処理を行うことができる。
また、本発明の音声認識結果訂正システムは、上述音声認識結果訂正装置と、前記音声認識結果訂正装置から送信された音声に基づいて音声認識を行い、認識結果として前記音声認識結果訂正装置に送信するサーバ装置と、を備えている。この音声認識結果訂正システムは、カテゴリーが相違するだけで、作用効果において上述音声認識結果訂正装置と同じである。
本発明によれば、認識した結果のうち必要な部分を訂正することができ、簡易に訂正処理を行うことができるとともに、正しい認識結果を得ることができる。
添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
<第1の実施形態>
図1は、本実施形態の音声認識結果訂正装置であるクライアント装置110およびクライアント装置110から送信された音声を認識し、その結果をクライアント装置110に返信するサーバ装置120を備える通信システムのシステム構成図である。本実施形態では、クライアント装置110は、例えば携帯電話などの携帯端末であって、ユーザが発声した音声を入力し、入力した音声を、無線通信を用いてサーバ装置120に送信し、サーバ装置120からの返信である認識結果を受信することができる。
サーバ装置120は、音声認識部を備え、入力された音声を、音響モデル、言語モデルなどのデータベースを用いて音声認識を行い、その認識結果をクライアント装置110に返信する。
つぎに、このクライアント装置110の構成について説明する。図2は、クライアント装置110の機能を示すブロック図である。このクライアント装置110は、特徴量算出部210(入力手段、算出手段)、特徴量圧縮部220、送信部225(取得手段、送信手段)、特徴量保存部230(記憶手段)、受信部235(取得手段、受信手段)、誤り区間指定部240(指定手段)、誤り区間前後コンテキスト指定部250(特定手段)、誤り区間特徴量抽出部260、訂正部270(訂正手段)、音響モデル保持部281、言語モデル保持部282、辞書保持部283、統合部280、表示部290を含んで構成されている。
図3は、クライアント装置110のハードウェア構成図である。図2に示されるクライアント装置110は、物理的には、図3に示すように、CPU11、主記憶装置であるRAM12及びROM13、入力デバイスであるキーボード及びマウス等の入力装置14、ディスプレイ等の出力装置15、ネットワークカード等のデータ送受信デバイスである通信モジュール16、ハードディスク等の補助記憶装置17などを含むコンピュータシステムとして構成されている。図2において説明した各機能は、図3に示すCPU11、RAM12等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU11の制御のもとで入力装置14、出力装置15、通信モジュール16を動作させるとともに、RAM12や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。以下、図2に示す機能ブロックに基づいて、各機能ブロックを説明する。
特徴量算出部210は、マイク(図示せず)から入力されたユーザの声を入力し、当該入力された声から音声認識スペクトルであって、音響特徴を示す特徴量データを算出する部分である。例えば、特徴量算出部210は、MFCC(Mel Frequency Cepstrum Coefficient)のような周波数で表される音響特徴を示す特徴量データを算出する。
特徴量圧縮部220は、特徴量算出部210において算出された特徴量データを圧縮する部分である。
送信部225は、特徴量圧縮部220において圧縮された圧縮特徴量データをサーバ装置120に送信する部分である。この送信部225は、HTTP(Hyper Text Transfer Protocol)、MRCP(Media Resource Control Protocol)、SIP(SessionInitiation Protocol)などを用いて送信処理を行う。また、このサーバ装置120では、これらプロトコルを用いて受信処理を行い、また返信処理を行う。さらに、このサーバ装置120では、圧縮特徴量データを解凍することができ、特徴量データを用いて音声認識処理を行うことができる。この特徴量圧縮部220は、通信トラフィックを軽減するためにデータ圧縮するためのものであることから、この送信部225は、圧縮されることなくそのままの特徴量データを送信することも可能である。
特徴量保存部230は、特徴量算出部210において算出された特徴量データを一時的に記憶する部分である。
受信部235は、サーバ装置120から返信された音声認識結果を受信する部分である。この音声認識結果には、テキストデータ、時間情報、および信頼度情報が含まれており、時間情報はテキストデータの一認識単位ごとの経過時間を示し、信頼度情報は、その認識結果における正当確度を示す情報である。
例えば、認識結果として、図4に示される情報が受信される。図4では、発声内容、認識内容、音声区間、信頼度が対応付けて記載されているが、発声内容は実際には含まれていない。ここで、音声区間で示されている数字は、フレームのインデックスを示すものであり、その認識単位の最初のフレームのインデックスが示されている。ここで1フレームは10msec程度である。また、信頼度は、サーバ装置120において認識された音声認識結果の一認識単位ごとの信頼度を示すものであり、どの程度正しいかを示す数値である。これは、認識結果に対して確率などを用いて生成されたものであり、サーバ装置120において、認識された単語単位に付加されたものである。例えば、信頼度の生成方法として、以下の参考文献に記載されている。
参考文献:李晃伸,河原達也,鹿野清宏.「2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」、情報処理学会研究報告, 2003-SLP-49-48, 2003-12.
図4では、例えば、認識結果である「売れて」は、33フレームから57フレームまでで構成され、その信頼度は0.86であることが示されている。
誤り区間指定部240は、受信部235により受信された音声認識結果に基づいて誤り区間を指定する部分である。この誤り区間指定部240は、例えば、サーバ装置120から送信された音声認識結果に含まれている信頼度情報に基づいて誤り区間を指定することができる。
例えば、図4では、認識結果として、テキストデータは905(きゅうまるご)、時間情報は9フレーム(90msec)、その信頼度は0.59であることが示されており、また、別の箇所では認識結果である「どこ」の信頼度は、0.04であることが示されている。そして、この誤り区間指定部240は、信頼度が所定の閾値以下のものは誤っていると判断し、その区間を誤り区間として指定することができる。例えば、信頼度が0.2以下のものは誤っていると設定した場合には、“どこ”、“で”、“豆腐”の部分が誤っていると判断し、その部分を誤り区間として指定することができる。この閾値はクライアント装置110側で予め設定されている数値である。なお、音声の個人差、雑音(ノイズ)の量、または信頼度の計算方法によって可変設定されるようにしてもよい。すなわち雑音が多い場合には、信頼度がさらに落ちるため、閾値を低めに設定しておき、また、音声認識結果に付加されている信頼度が全体的に低めであったり、逆に高めであったりした場合に、その信頼度の高低に応じて代えてもよい。例えば、信頼度の中央値に基づいて閾値を設定したり、また平均値に基づいて閾値を設定するようにしてもよい。
なお、クライアント装置110は、認識結果の信頼度情報を計算する信頼度計算部(図示せず)を備え、誤り区間指定部240は、クライアント装置110内において計算された信頼度情報に基づいて、誤り区間を指定するようにしてもよい。
誤り区間前後コンテキスト指定部250は、誤り区間指定部240において指定された誤り区間に基づいて、当該誤り区間の前後において認識された単語(少なくとも一認識単位)を指定する部分である。以下では前後1単語だけを利用する場合を例に説明する。図5(a)に、誤り区間の前後において認識された一認識単位(誤り区間前後コンテキスト)を指定した場合の概念図を示す。図5(a)に示すように、認識結果の誤り区間の前後に誤り区間前の単語の音声区間、誤り区間後の単語の音声区間を指定する。
誤り区間特徴量抽出部260は、誤り区間前後コンテキスト指定部250により指定された誤り区間(前後の少なくとも一認識単位を含んでもよい)の特徴量データを、特徴量保存部230から抽出する部分である。
訂正部270は、誤り区間特徴量抽出部260により抽出された特徴量データを再度音声認識する部分である。この訂正部270は、音響モデル保持部281、言語モデル保持部282、および辞書保持部283を用いて音声認識を行う。さらに、この訂正部270は、誤り区間前後コンテキスト指定部250により指定された前後の音声区間で示される単語(前後コンテキスト)を拘束条件として音声認識を行う。図5(b)に、誤り区間前後コンテキスト指定部250により指定された単語に基づいて認識処理を行うときの概念図を示す。図5(b)に示すように、誤り区間の前の区間の単語W1と後の区間の単語W2とを拘束条件とした場合、認識候補は限られたものとなる。よって、認識の精度を向上させることができる。図5(b)の例では、認識候補としてA〜Zに絞り込むことができ、この絞り込まれた後方の中から適切な候補を選択することができ、効率的に認識処理を行うことができる。
また、訂正部270は、前後の単語との係り受けの関係、活用形などに基づいて訂正処理を行うようにしてもよい。例えば、訂正部270は、誤り区間の単語に対する認識候補A〜Zを複数抽出し、その前後の単語W1およびW2との係り受けの関係に基づいて、訂正候補ごとにスコアを算出し、スコアの高い訂正候補を認識結果とするようにしてもよい。
また、訂正部270は、前の区間の単語W1や後の区間の単語W2が言語モデル保持部282や辞書保持部283に含まれていない場合でも、その単語を特定するための単語情報や前後の単語を特定するための単語情報を拘束条件として訂正処理(再音声認識処理)を行うことができる。
例えば、クライアント装置110は、単語情報として、単語W1、単語W2のそれぞれ品詞を示す品詞情報がサーバ装置120から受信しており、訂正部270は、単語W1、単語W2のそれぞれの品詞情報を拘束条件として訂正処理を行う。これにより、より正確な訂正処理、すなわち音声認識処理を行うことができる。具体的には、受信部235において受信した音声認識結果に付加されている単語情報のうち、誤り区間指定部240が、誤り区間の前後(またはいずれか一方)の単語情報を抽出し、訂正部270に出力する。訂正部270では、この単語情報を拘束条件として指定された部分を訂正処理する。その概念図を図24に示す。図24に示すとおり、単語W1に対応して品詞情報A(例えば、助詞)が、単語W2に対応して品詞情報B(例えば動詞)が拘束条件として設定されている。訂正部270は、それぞれ品詞情報Aおよび品詞情報Bを満たすように訂正処理を行うことにより、より正確な音声認識処理を行うことができる。
なお、単語情報として、品詞情報に限ることなく、例えば、読み方など単語以外の単語を特定するための情報としてもよい。
また、必要な単語情報が音声認識結果に含まれていない場合、認識対象である文章を周知の形態素解析システム(例えば、“茶筅”、“Mecab”)、日本語係り受け解析ツール(例えば“南瓜”)などを使って解析することで、単語情報を生成することができる。すなわち、図25において示されているクライアント装置110の変形例においては、新たに単語情報解析部251が付加されており、単語情報解析部251は上述の通り周知の形態素解析システム、日本語係り受け解析ツールなどで構成されており、音声認識結果を解析することができる。そして、解析した結果を誤り区間前後コンテキスト指定部250に出力し、誤り区間前後コンテキスト指定部250はその単語情報に基づいて誤り区間の前後の単語の単語情報を抽出し、訂正部270に出力することができる。
上記の単語情報を生成する処理は、クライアント装置110またはサーバ装置120で行ってもよいが、サーバ装置120で行うように指示を出し、処理の結果を受信するほうが、クライアント装置110での処理量を低減することができる。
上述の処理は単語W1およびW2が未知語であった場合に特に有効である。未知語とは、言語モデル保持部282や辞書保持部283に含まれていない単語である。例えば、訂正部270(未知語判定手段)は、単語WおよびW2が未知語であるか否かを判断し、未知語である場合には、サーバ装置120から送出された認識結果に含まれている単語情報を拘束条件として、訂正処理を行う。
また、クライアント装置110において、その拘束条件を登録してもよい。すなわち、図25に示されているクライアント装置110の変形例において、指定された誤り区間の単語およびその前後(または少なくとも一方)の単語、またはその単語情報をセットにしたものを拘束条件として、拘束条件記憶部285(拘束条件記憶手段)に記憶させてもよい。これにより、訂正部270は誤り区間指定部240において指定された誤り区間における単語と同じであり、またその前後の単語が同じであった場合には、拘束条件記憶部285において記憶されている拘束条件にしたがって、訂正処理を行うことができる。よって、その処理を迅速に行うことができる。すなわち、次回以降に、未知語が検出されても、すでに登録されている拘束条件を読み出すだけで、拘束条件を適用することができる。あらたに拘束条件を作成する必要がないため、より少ない処理で拘束条件を設定することができる。
また、訂正部270において訂正した結果にしたがって、その誤り区間における単語およびその前後における単語の接続確率を更新するようにしてもよい。すなわち、接続確率は、接続確率記憶手段として機能する言語モデル保持部282および辞書保持部283に記憶されており、適宜訂正処理の度に訂正部270において計算・作成された接続確率は、言語モデル保持部282および辞書保持部283において更新されるようにしてもよい。
また、訂正部270は、再認識した認識結果と、この誤り区間におけるサーバ装置120において認識された認識結果とが同じであるか否かを判断し、その際には認識結果を統合部280に出力することなく、表示部290に認識結果を表示させないようにすることが好適である。
また、訂正部270において認識して得られた認識結果と、この誤り区間におけるサーバ装置120において認識された認識結果との間で、一認識単位にずれが生じた場合も同様に認識誤りと判断し、認識結果を統合部280に出力することなく、表示部290に認識結果を表示させないようにすることが好適である。
例えば、図4における音声区間と認識結果との対応関係が異なった場合、より具体的には、音声区間において、サーバ装置120における認識結果としてフレームインデックスが0−9で、その場合に“905(きゅうまるご)”となっていた場合に、訂正部270における再認識においては、フレームインデックスが0−15、“90555(きゅうまるごごご)”のようになっていた場合には、その音声区間と認識結果との対応関係が、認識結果と再認識結果との間でずれている。このため、認識誤りと判断することができる。その場合には、訂正部270は、表示部290において認識結果を表示させないように、出力をしないなどの処理を行う。
さらに、訂正部270は、ユーザから文字情報を受け付ける受付部(図示せず)において、上述した認識誤りと判断できた場合において、文字が入力されると、訂正部270は、受け付けられた文字(例えば仮名)を拘束条件として、誤り区間における認識結果の訂正処理を行うようにしてもよい。すなわち、誤り区間の認識結果に対して、何らかの文字入力があった場合に、その文字を前提として、残りの部分における認識処理を行うようにしてもよい。この場合は、認識誤りの判断がなされると、受付部における文字入力受付を可能にする。
なお、訂正部270は、サーバ装置120において行われた認識処理とは異なった音声認識処理を行うことにより誤った認識を再度行うことを防止する。例えば、音響モデル、言語モデル、辞書をかえて認識処理を行うようにする。
音響モデル保持部281は、音素とそのスペクトルを対応付けて記憶するデータベースである。言語モデル保持部282は、単語、文字などの連鎖確率を示す統計的情報を記憶する部分である。辞書保持部283は、音素とテキストとのデータベースを保持するものであり、例えばHMM(Hidden Marcov Model)を記憶する部分である。
統合部280は、受信部235において受信された音声認識結果のうち、誤り区間外のテキストデータと、訂正部270において再認識されたテキストデータとを統合する部分である。この統合部280は、訂正部270において再認識されたテキストデータを統合する位置を示す誤り区間(時間情報)にしたがって、統合する。
表示部290は、統合部280において統合されて得られたテキストデータを表示する部分である。なお、表示部290は、サーバ装置120において認識された結果は表示し内容に構成されていることが好ましい。また、訂正部270において再認識された結果と、誤り区間におけるサーバ装置120において認識された認識結果とが同じである場合、その認識結果を表示することないように表示することが好ましく、またその場合には、認識不可である旨を表示するようにしてもよい。さらに、訂正部270において再認識して得られた認識結果と、サーバ装置120において認識されて得られた認識結果と間で時間情報がずれていた場合も、誤っている可能性があるため表示せず、また認識不可である旨を表示するようにすることが好ましい。
また、常に再認識処理を実行する必要はなく、誤り区間の長さに応じて、再認識処理を実行するかどうかを判断してもよい。例えば、誤り区間が1文字である場合には、再認識処理を実行せず、文字入力など別の方法による訂正をするようにする。
このように構成されたクライアント装置110の動作について説明する。図6は、クライアント装置110の動作を示すフローチャートである。マイクを介して入力された音声は特徴量算出部210によりその特徴データが抽出される(S101)。そして、特徴量保存部230に特徴量データは保存される(S102)。つぎに、特徴量圧縮部220により特徴量データは圧縮される(S103)。圧縮された圧縮特徴量データは、送信部225によりサーバ装置120に送信される(S104)。
つぎに、サーバ装置120において音声認識が行われ、サーバ装置120からその認識結果が送信され、受信部235により受信される(S105)。そして、音声認識結果から誤り区間指定部240により誤り区間が指定され、この指定された誤り区間に基づいて前後コンテキストが指定される(S106)。この前後コンテキストを含んだ誤り区間に基づいて、誤り区間特徴量抽出部260により特徴量データが特徴量保存部230から抽出される(S107)。ここで抽出された特徴量データに基づいて訂正部270により再度音声認識が行われ、誤り区間におけるテキストデータが生成される(S108)。そして、誤り区間におけるテキストデータと、受信部235において受信されたテキストデータとが統合され、正しく認識されて得られたテキストデータが表示部290に表示される(S109)。
つぎに、上述S106〜S108における処理についてさらに詳細に説明する。図7は、その詳細な処理を示すフローチャートである。適宜、図5(a)を参照しながら説明する。
誤り区間指定部240により認識結果に基づいて誤り区間が指定される(S201(S106))。この誤り区間に基づいて、誤り区間前後コンテキスト指定部250により誤り区間の前の単語W1(図5(a))が指定され、保存される(S202)。また、誤り区間前後コンテキスト指定部250により、誤り区間の後の単語W2(図5(a))が指定され記憶される(S203)。つぎに、誤り区間前後コンテキスト指定部250により、この単語W1の開始時間T1(図5(a))が指定され(S204)、また単語W2の終了時間T2(図5(a))が指定され、それぞれ保存される(S205)。
このようにして誤り区間にさらにその前後一単語(一認識単位)ずつ加えて得られた誤り区間である開始時間T1から終了時間T2までの区間の特徴量データが、誤り区間特徴量抽出部260により抽出される(S206(S107))。単語W1を始点、単語W2を終点とする拘束条件の設定が訂正部270において行われる(S207)。そして、この拘束条件にしたがって、訂正部270による特徴量データに対する認識処理が行われ、訂正処理が実行される(S208)。
以上の説明したとおり、本実施形態におけるクライアント装置110において、その作用効果について説明する。このクライアント装置110において、特徴量算出部210が入力された音声の特徴量データを算出し、特徴量圧縮部220が、特徴量データを音声認識装置であるサーバ装置120に送信する。一方、特徴量保存部230は、特徴量データを保存する。
そして、サーバ装置120において認識処理を行い、受信部235は認識結果をサーバ装置120から受信する。誤り区間指定部240は、受信された認識結果において、認識誤りが発生している誤り区間を指定する。この誤り区間指定部240は、信頼度に基づいて判断することができる。そして、誤り区間特徴量抽出部260は、誤り区間の特徴量データを抽出し、訂正部270は、抽出された誤り区間における認識結果を、再認識処理を行うことにより訂正処理を行う。すなわち、統合部280において、再認識された結果と、受信部235において受信された認識結果とを統合することにより、訂正処理が行われ、表示部290は訂正された認識結果を表示することができる。これにより、認識した結果のうち必要な部分を訂正するため、簡易に音声認識の誤りを訂正することができ、正しい認識結果を得ることができる。例えば、誤り単語の最大70%を削減することができる。また、未知語による誤りの60%以上を訂正できる。なお、信頼度は、サーバ装置120から受信してもよいし、クライアント装置110において計算してもよい。
さらに、このクライアント装置110は、誤り区間前後コンテキスト指定部250を用いて、拘束条件に従った訂正処理(再認識処理)を行うことができる。すなわち、誤り区間の前後の単語を固定しておき、この固定した単語に従った認識処理を行うことでより精度のよい認識結果を得ることができる。
なお、本実施形態または以降に示される他の実施形態において、1回目の認識処理をサーバ装置120で行っているが、これに限定するものではなく、1回目の認識処理をクライアント装置110において行い、2回目の認識処理をサーバ装置120において行うようにしてもよい。その際、当然に誤り区間の指定処理等はサーバ装置120において行われる。例えば、その場合には、クライアント装置110は、特徴量算出部210において算出された特徴量データに基づいて認識処理を行う認識処理部を備え、また送信部225は、ここでの認識結果と特徴量データとをサーバ装置120に送信する。
サーバ装置120では、クライアント装置110における誤り区間指定部240、誤り区間前後コンテキスト指定部250、特徴量保存部230、誤り区間特徴量抽出部260、訂正部270に相当する各部を備えており、クライアント装置110から送信された特徴量データは、特徴量保存部に記憶させ、認識結果に基づいて誤り区間の指定、誤り区間前後コンテキストの指定が行われ、これらに基づいて、先に保存した特徴量データの訂正処理(認識処理)が行われる。このように処理された認識結果はクライアント装置110に送信される。
また、本実施形態または以降に示される他の実施形態において、誤り区間前後コンテキスト指定部250により定められた拘束条件を用いて再認識(訂正処理)を行っているが、この場合、誤り区間の特徴量データのみを利用する。このような拘束条件を用いることなく、再認識処理を行うようにしてもよい。
また、サーバ装置120において認識方法と、本実施形態(または以降に示される他の実施形態)における認識方法を変えるようにすることが好ましい。すなわち、サーバ装置120において、不特定多数のユーザの音声を認識する必要があるため、汎用的である必要がある。例えば、サーバ装置120において用いられる音響モデル保持部、言語モデル保持部、辞書保持部における各モデル数、辞書数を大容量のものとし、音響モデルにおいては音素の数を多くし、言語モデルにおいては単語の数を大きくするなど、各モデル数、辞書数を大容量のものとしあらゆるユーザに対応できるようにする。
一方、クライアント装置110における訂正部270は、あらゆるユーザに対応させる必要はなく、そのクライアント装置110のユーザの音声に合致した音響モデル、言語モデル、辞書を用いるようにする。そのため、このクライアント装置110は、訂正処理、認識処理、またメール作成時における文字入力処理を参考に、適宜各モデル、辞書を更新することが必要となる。
また、クライアント装置110は、訂正部270により訂正された認識結果を表示する表示部290をさらに備え、サーバ装置120において認識された認識結果は、この表示部290は表示しないようにする。これにより、認識誤りのある可能性のある認識結果を表示しないため、ユーザに誤解を与えることがない。
また、クライアント装置110は、訂正部270において再認識により得られた認識結果と、受信部235により受信された認識結果とが同じであった場合、またはこれら認識結果それぞれに含まれる時間情報にずれが生じている場合には、訂正部270は、認識誤りと判断し、表示部290は認識結果を表示しない。これにより、誤った認識結果を表示することを防止することができる。具体的には、誤り単語の最大70%を削減することができる。また、未知語による誤りの60%以上を訂正できる。
<第2の実施形態>
つぎに、誤り区間を信頼度に基づいて自動的に判断することなく、ユーザが手動により判断するように構成されたクライアント装置110aについて説明する。図8は、ユーザ入力により誤り区間を受け付けるクライアント装置110aの機能を示すブロック図である。図8に示すように、このクライアント装置110aは、特徴量算出部210、特徴量圧縮部220、特徴量保存部230、送信部225、受信部235、操作部236、結果保存部237、ユーザ入力検出部238、誤り区間指定部240a、誤り区間前後コンテキスト指定部250、誤り区間特徴量抽出部260、訂正部270、統合部280、音響モデル保持部281、言語モデル保持部282、辞書保持部283、表示部290を含んで構成されている。このクライアント装置110aは、クライアント装置110と同様に図3に示されるハードウェアにより実現される。
このクライアント装置110aは、クライアント装置110とは、操作部236、結果保存部237、ユーザ入力検出部238、誤り区間指定部240aを備えている点で相違している。以下、この相違点を中心に説明する。
操作部236は、ユーザ入力を受け付ける部分である。ユーザは表示部290に表示されている認識結果を確認しながら、誤り区間を指定することができる。操作部236は、その指定を受け付けることができる。
結果保存部237は、受信部235により受信された音声認識結果を保存する部分である。保存した音声認識結果は、ユーザが視認することができるように表示部290に表示される。
ユーザ入力検出部238は、操作部236により受け付けられたユーザ入力を検出する部分であり、入力された誤り区間を誤り区間指定部240aに出力する。
誤り区間指定部240aは、ユーザ入力検出部238から入力された誤り区間にしたがってその区間を指定する部分である。
つぎに、このように構成されたクライアント装置110aの処理について説明する。図9は、クライアント装置110aの処理を示すフローチャートである。マイクを介して入力された音声は特徴量算出部210によりその特徴データが抽出される(S101)。そして、特徴量保存部230に特徴量データは保存される(S102)。つぎに、特徴量圧縮部220により特徴量データは圧縮される(S103)。圧縮された圧縮特徴量データは、送信部225によりサーバ装置120に送信される(S104)。
つぎに、サーバ装置120において音声認識が行われ、サーバ装置120からその認識結果が送信され、受信部235により受信され、一時保存されるとともに、その認識結果は表示部290に表示される(S105a)。そして、ユーザは表示部290に表示されている認識結果に基づいて誤り区間を判断し、その誤り区間を入力する。そして、ユーザ入力検出部238によりその入力が検出され、誤り区間指定部240により誤り区間が指定される。そして、この指定された誤り区間に基づいて前後コンテキストが指定される(S106a)。この前後コンテキストを含んだ誤り区間に基づいて、誤り区間特徴量抽出部260により特徴量データが抽出され(S107)、訂正部270により再度音声認識が行われ、誤り区間におけるテキストデータが生成される(S108)。そして、誤り区間におけるテキストデータと、受信部235において受信されたテキストデータとが統合され、正しいテキストデータが表示部290に表示される(S109)。
つぎに、上述S105a〜S108における処理についてさらに詳細に説明する。図10は、クライアント装置110aにおけるユーザ入力により誤り区間を指定するときの詳細な処理を示すフローチャートである。
受信部235により認識結果が受信され、表示部290に表示される(S301)。ユーザは表示部290に表示されている認識結果に確認しながら、誤り区間を指定し、ユーザ入力検出部238によりその誤り区間の始点箇所が検出され、一時保存される(S302)。そして、誤り区間前後コンテキスト指定部250により誤り区間の前の単語W1が指定され、保存され(S303)、保存された単語W1の開始時間T1が指定され、保存される(S304)。
また、ユーザ指定により誤り区間の終点箇所がユーザ入力検出部238により検出され、一時保存される(S305)。そして、誤り区間前後コンテキスト指定部250により誤り区間の後の単語W2が指定され、保存され(S306)、保存された単語W2の終了時間T2が指定され、保存される(S307)。
これら処理の後、開始時間T1から終了時間T2の特徴量データが、誤り区間特徴量抽出部260により抽出される(S308)。単語W1を始点、単語W2を終点とする拘束条件の設定が訂正部270において行われる(S309)。そして、この拘束条件にしたがって、訂正部270による特徴量データに対する認識処理が行われ、訂正処理が実行される(S310)。
このような処理により、ユーザ入力による誤り区間を指定することができ、これにより再認識することによる認識結果の訂正処理を行うことができる。
このようなクライアント装置110aにおいて、表示部290が認識結果を表示し、ユーザはそれを視認するとともに、ユーザは、操作部236を操作することにより誤り区間、すなわち訂正しようとする箇所を指定することができる。これにより、認識した結果のうち必要な部分を訂正するため、簡易に訂正処理を行うことができるとともに、正しい認識結果を得ることができる。
<第3の実施形態>
つぎに、サーバ装置120から送信される認識結果に時間情報を含んでいない場合に、誤り区間を正しく指定することができるクライアント装置110bについて説明する。図11は、このクライアント装置110bの機能を示すブロック図である。このクライアント装置110bは、特徴量算出部210、特徴量圧縮部220、送信部225、特徴量保存部230、受信部235、時間情報算出部239、誤り区間指定部240、誤り区間特徴量抽出部260、誤り区間前後コンテキスト指定部250、訂正部270、音響モデル保持部281、言語モデル保持部282、辞書保持部283を含んで構成されている。このクライアント装置110bは、第1の実施形態のクライアント装置110と同様に図3に示されるハードウェアにより実現される。
また、第1の実施形態のクライアント装置110との相違点は、このクライアント装置110bがサーバ装置120から経過情報を含んでいない認識結果を受信し、そして、時間情報算出部239において認識結果であるテキストデータに基づいて経過時間(フレームインデックス)を自動的に算出しようとする点にある。以下、この相違点を中心にクライアント装置110bを説明する。
時間情報算出部239は、受信部235において受信された認識結果のうちテキストデータおよび特徴量保存部230に記憶されている特徴量データを用いて、テキストデータにおける経過時間を算出する部分である。より具体的には、時間情報算出部239は、入力されたテキストデータと、特徴量保存部230に記憶されている特徴量データとを比較することによって、テキストデータの一単語または一認識単位を周波数データに変換した場合に、特徴量データのどの部分まで一致するかを判断することによって、テキストデータにおける経過時間を算出することができる。例えば、特徴量データの10フレーム分まで、テキストデータの一単語と一致していた場合には、その一単語は10フレーム分の経過時間を有することになる。
誤り区間指定部240bは、時間情報算出部239により算出された経過時間およびテキストデータを用いて誤り区間を指定することができる。この誤り区間指定部240bは、認識結果に含まれている信頼度情報に基づいて誤り区間を判断する。なお、第2の実施形態のように、ユーザ入力により誤り区間が指定されるようにしてもよい。
このように誤り区間指定部240bにより指定された誤り区間に基づいて、誤り区間前後コンテキスト指定部250は、前後のコンテキストを含んだ誤り区間を指定し、誤り区間特徴量抽出部260は、その誤り区間の音声データを抽出し、そして訂正部270は再度認識処理を行うことで訂正処理を行うことができる。
つぎに、このクライアント装置110bの処理について説明する。図12は、クライアント装置110bの処理を示すフローチャートである。マイクを介して入力された音声は特徴量算出部210によりその特徴データが抽出される(S101)。そして、特徴量保存部230に特徴量データは保存される(S102)。つぎに、特徴量圧縮部220により特徴量データは圧縮される(S103)。圧縮された圧縮特徴量データは、送信部225によりサーバ装置120に送信される(S104)。
つぎに、サーバ装置120において音声認識が行われ、サーバ装置120からその認識結果(経過時間を含まず)が送信され、受信部235により受信される(S105)。そして、音声認識結果および特徴量保存部230の特徴量データから、時間情報算出部239により経過時間が算出され、この経過時間および音声認識結果を用いて、誤り区間指定部240により誤り区間が指定される。誤り区間前後コンテキスト指定部250により、この指定された誤り区間に基づいて前後コンテキストが指定される(S106b)。この前後のコンテキストを含んだ誤り区間に基づいて、誤り区間特徴量抽出部260により特徴量データが抽出され(S107)、訂正部270により再度音声認識が行われ、誤り区間におけるテキストデータが生成される(S108)。そして、誤り区間におけるテキストデータと、受信部235において受信されたテキストデータとが統合され、正しいテキストデータが表示部290に表示される(S109)。
つぎに、S106bを含んださらに詳細な処理について説明する。図13は、S105からS108における詳細な処理を示すフローチャートである。
受信部235により経過時間を含まない認識結果が受信され(S401)、時間情報算出部239においてテキストデータにおける経過時間が算出される(S402)。誤り区間指定部240により認識結果から誤り区間が指定される(S403)。この誤り区間に基づいて、誤り区間前後コンテキスト指定部250により誤り区間の前の単語W1(図5(a))が指定され、保存される(S404)。また、誤り区間前後コンテキスト指定部250により、誤り区間の後の単語W2(図5(a))が指定され記憶される(S405)。つぎに、誤り区間前後コンテキスト指定部250により、この単語W1の開始時間T1(図5(a))が指定され(S406)、また単語W2の終了時間T2(図5(a))が指定される(S407)。
このようにして誤り区間にさらにその前後一単語ずつ加えて得られた誤り区間である開始時間T1から終了時間T2までの区間の特徴量データが、誤り区間特徴量抽出部260により抽出される(S408)。単語W1を始点、単語W2を終点とする拘束条件の設定が訂正部270において行われる(S409)。そして、この拘束条件にしたがって、訂正部270による特徴量データに対する認識処理が行われ、訂正処理が実行される(S410)。
このクライアント装置110bによれば、受信部235により受信された認識結果と特徴量保存部230に記憶されている特徴量データとに基づいて、時間情報算出部239が認識結果における経過時間を算出する。そして、誤り区間指定部240は、この時間情報に基づいて誤り区間を指定することができる。ここで指定された誤り区間に基づいてその前後コンテキストを指定し、そして、その特徴量データに基づいて訂正処理を行うことができる。これにより認識結果に時間情報を含んでいない場合でも適切な誤り区間を指定することができる。
<第4の実施形態>
つぎに、サーバ装置120において音声認識されて得られた認識結果からのみ訂正処理を行うクライアント装置110cについて説明する。図14は、クライアント装置110cの機能を示すブロック図である。このクライアント装置110cは、特徴量算出部210、特徴量圧縮部220、誤り区間指定部240、誤り区間前後コンテキスト指定部250、訂正部270a、および言語DB保持部284を含んで構成されている。このクライアント装置110cは、クライアント装置110と同様に図3に示されるハードウェアにより実現される。
このクライアント装置110cは、クライアント装置110と比較して、音声入力して得られた特徴量データを記憶せず、またこの特徴量データを訂正処理の際、再度用いることないように構成されている点で、相違しており、具体的には、特徴量保存部230、誤り区間特徴量抽出部260、音響モデル保持部281、言語モデル保持部282、辞書保持部283を備えていない点で、相違する。以下、相違点に基づいて説明する。
特徴量算出部210は、音声入力から特徴量データを算出し、特徴量圧縮部220は、特徴量データを圧縮して、サーバ装置120に送信する。そして、受信部235は、サーバ装置120から認識結果を受信する。誤り区間指定部240は、信頼度情報またはユーザ操作により誤り区間を指定し、誤り区間前後コンテキスト指定部250は、その前後コンテキストを指定して、誤り区間を指定する。
訂正部270aは、前後のコンテキストを含んだ誤り区間により指定されたテキストデータを、言語DB保持部284に記憶されているデータベースに基づいて変換処理を行う。この言語DB保持部284は、言語モデル保持部282とほぼ同様の情報を記憶しており、音節ごとの連鎖確率を記憶している。
さらにこの訂正部270aは、誤り区間に出てくる可能性のある単語列w(Wi,Wi+1…Wj)をリストアップする。ここでは単語列wの数をKに制限することもある。制限の数Kについては誤り単語数Pと同じ、或いはP近くの一定の範囲(K=P-cからP+cまで)とする。
さらに、訂正部270aは、リストアップされたすべての単語列を前後単語W1とW2に限定する場合の尤度を計算する。つまり、すべてのW系列に対し端末に保存の言語DBを利用し、以下の式(1)を用いて尤度を求める。
単語列(W1 w W2)の尤度P(w1 w w2)=P(W1, Wi,Wi+1…Wj ,W2)=P(W1)*P(Wi/W1)…* P(W2/Wj) ・・・(1)

さらに誤り区間の単語列と候補の距離を計算し、この距離を加えることもある。この場合以下の式(2)の計算式になる。
単語列(W1 w W2)の尤度P(w1 w w2)=P(W1, Wi,Wi+1…Wj ,W2)*P(Wi,Wi+1…Wj ,Werror) ・・・(2)
P(Wi,Wi+1…Wj ,Werror)は誤り単語列Werrorと候補列Wi,Wi+1…Wj 間の距離を示す。
この式のP(Wn/Wm)は、N-gramモデルのうちBi-gramを対象としたものであって、Wmの次にWnが出現する確率を表す。ここではBi-gramの例で説明するがその他のN-gramモデルを利用しても良い。
統合部280は、このように訂正部270aにより変換されたテキストデータを、受信された認識結果におけるテキストデータと統合し、表示部290は統合され訂正されたテキストデータを表示する。なお、統合に先立って、訂正部270aにより算出された尤度を用いてソートされた候補をリストアップし、ユーザにより選択させるようにしてもよいし、尤度の最も高い候補に自動的に決定するようにしてもよい。
つぎに、このように構成されたクライアント装置110cの処理について説明する。図15は、クライアント装置110cの処理を示すフローチャートである。音声入力された音声データに基づいて特徴量算出部210により特徴量データが算出され、特徴量圧縮部220により圧縮された特徴量データはサーバ装置120に送信される(S502)。
サーバ装置120において音声認識された認識結果は受信部235により受信され(S502)、誤り区間指定部240により誤り区間が指定される(S503)。ここでの誤り区間の指定は、信頼度に基づいたものでもよいし、ユーザ入力により指定されたものでもよい。
その後、誤り区間前後コンテキスト指定部250により誤り区間の前後コンテキスト(単語)が指定される(S504)。そして、訂正部270aにより、再変換処理が行われ、その際に誤り区間の候補がリストアップアされる(S505)。ここで、訂正部270aにより各候補の尤度が計算され(S506)、尤度に基づいたソーティング処理が行われ(S507)、ソーティング処理された候補群が表示部290に表示される(S508)。
このクライアント装置110cにおいて、特徴量算出部210が、入力された音声から特徴量データを算出し、特徴量圧縮部220がこれを圧縮し、送信部225がこれをサーバ装置120に送信する。サーバ装置120では、音声認識が行われ、その認識結果を受信部235が受信する。そして、誤り区間指定部240、誤り区間前後コンテキスト指定部250において指定された誤り区間に基づいて訂正部270aが訂正処理を行う。そして、統合部280による統合処理の後、表示部290は訂正後の認識結果を表示する。これにより、認識した結果のうち必要な部分を訂正するため、簡易に音声認識の誤りを訂正することができ、正しい認識結果を得ることができる。なお、この実施形態においては、第1の実施形態と比較して、特徴量データを記憶させず、またその特徴量データを再認識処理で用いない点で、その構成を簡易なものとすることができる。
<第5の実施形態>
つぎに、サーバ装置120に音声認識を行わせる分散型処理ではなく、クライアント装置110dにおいて、第一の音声認識および第二の音声認識を行う形態について説明する。
図16は、クライアント装置110dの機能構成を示すブロック図である。クライアント装置110dは、特徴量算出部210、第一認識部226(取得手段)、言語モデル保持部227、辞書保持部228、音響モデル保持部229、特徴量保存部230、誤り区間指定部240、誤り区間前後コンテキスト指定部250、誤り区間特徴量抽出部260、訂正部270、音響モデル保持部281、言語モデル保持部282、辞書保持部283、統合部280、表示部290を含んで構成されている。このクライアント装置110dは、クライアント装置110と同様に図3に示されるハードウェアにより実現される。
このクライアント装置110dは、第1の実施形態のクライアント装置110とは、サーバ装置120と通信するための構成がない点、および第一認識部226、言語モデル保持部227、辞書保持部228、音響モデル保持部229を備えている点で相違する。以下、相違点を中心に説明する。
第一認識部226は、特徴量算出部210において算出された特徴量データに対して、言語モデル保持部227、辞書保持部228、および音響モデル保持部229を用いて音声認識を行う。
言語モデル保持部227は、単語、文字などの連鎖確率を示す統計的情報を記憶する部分である。辞書保持部228は、音素とテキストとのデータベースを保持するものであり、例えばHMM(Hidden Marcov Model)を記憶する部分である。音響モデル保持部229は、音素とそのスペクトルを対応付けて記憶するデータベースである。
誤り区間指定部240は、上述の第一認識部226において認識された認識結果を入力し、誤り区間を指定する。誤り区間前後コンテキスト指定部250は、誤り区間の前後コンテキストを指定し、誤り区間特徴量抽出部260は、前後コンテキストを含んだ誤り区間の特徴量データを抽出する。そして、訂正部270は、特徴量データに基づいて再度認識処理を行う。この訂正部270は、第二認識部として機能することになる。
そして、統合部280による統合処理が行われると、表示部290は訂正された認識結果を表示することができる。
つぎに、このクライアント装置110dの動作について説明する。図17は、クライアント装置110dの処理を示すフローチャートである。特徴量算出部210により入力された音声の特徴量データが算出され(S601)、算出された特徴量データは、特徴量保存部230に保存される(S602)。この保存処理と平行して、第一認識部226により音声認識が行われる(S603)。
第一認識部226により音声認識された認識結果の誤り区間が、誤り区間指定部240および誤り区間前後コンテキスト指定部250により指定される(S604)。この指定された誤り区間(前後コンテキストを含む)の特徴量データが、特徴量保存部230から誤り区間特徴量抽出部260により抽出される(S605)。そして、訂正部270により誤り区間の音声が再度認識される(S606)。ここで認識された認識結果は、統合部280により統合され、表示部290により認識結果が表示される(S607)。
このようにクライアント装置110d内で、第一認識部226および第二認識部(訂正部)270により認識処理が行われるため、より正確な音声認識を行うことができる。なお、第一認識部226と第2認識部とでは、異なる認識方法であることが望ましい。これにより、第一認識部226において認識されなかった音声に対しても、第二認識部270においてこれを補完することができ、全体として正確な音声認識の結果を期待できる。
クライアント装置110dによれば、特徴量算出部210において入力された音声から特徴量データを算出し、特徴量保存部230においてこれを記憶させる。一方、第一認識部226は、特徴量データに基づいて音声認識処理を行い、誤り区間指定部240および誤り区間前後コンテキスト指定部250は、認識された認識結果において、認識誤りが発生している誤り区間を指定する。そして、訂正部270(第二認識部)は、指定された誤り区間における認識結果を訂正する。これにより、認識した結果のうち必要な部分を訂正するため、簡易に訂正処理を行うことができるとともに、正しい認識結果を得ることができる。また、クライアント装置110d内で二度認識処理を行うことにより、サーバ装置120を用いる必要がなくなる。
<第6の実施形態>
つぎに、第2の実施形態における変形例である第6の実施形態について説明する。この実施形態によると、誤り区間の終点を自動的に判断することに特徴がある。
図18は、第6の実施形態のクライアント装置110fの機能構成を示すブロック図である。クライアント装置110fは、特徴量算出部210、特徴量圧縮部220、特徴量保存部230、送信部225、受信部235、操作部236、結果保存部237、ユーザ入力検出部238、誤り区間指定部240c、終点判断部241、誤り区間前後コンテキスト指定部250、誤り区間特徴量抽出部260、訂正部270、統合部280、音響モデル保持部281、言語モデル保持部282、辞書保持部283、表示部290を含んで構成されている。このクライアント装置110fは、クライアント装置110と同様に図3に示されるハードウェアにより実現される。
このクライアント装置110fは、誤り区間指定部240cにおいて、誤り区間の始点のみを受付け、終点判断部241が所定の条件に基づいて誤り区間の終点を判断する点で、第2の実施形態と相違する。以下、図18に示されているブロック図に基づいて、第2の実施形態との相違点を中心に説明する。
第2の実施形態にて示されている構成と同様に、クライアント装置110fは、サーバ装置120において認識された認識結果を受信部235が受信し、その認識結果を結果保存部237が保存する。そして、その認識結果を表示部290が表示しつつ、ユーザはその表示部290に表示されている認識結果を見ながら、操作部236を操作することにより、誤り区間の始点を指定する。ユーザ入力検出部238は、その始点を検出し、それを誤り区間指定部240cに出力する。
誤り区間指定部240cは、ユーザから指定された始点および終点判断部241において判断された終点に従って、誤り区間を指定する。誤り区間の終点を判断する際においては、誤り区間指定部240cは、ユーザから始点が指定されたことを検出すると、その旨を終点判断部241に出力し、終点の判断を指示する。
終点判断部241は、誤り区間指定部240cからの指示に従って、誤り区間の終点を自動的に判断する部分である。例えば、終点判断部241は、受信部25において受信され、結果保存部237において保存されている音声認識結果に含まれている信頼度情報と、予め設定された閾値とを比較し、信頼度が閾値を超えた単語(或いは信頼度が一番高い単語)を誤りの終点と判断する。そして、終点判断部241は、判断した終点を誤り区間指定部240cに出力することで、誤り区間指定部240cは、誤り区間を指定することができる。
例えば以下の音声を例に説明する。なお、ここでは便宜上、誤り区間の始点として、“活性化”が指定されていたとする。
<発声内容>
「この目標を達成するためには、皆さんの協力が必要です。」
<音声認識結果>
「この目標を活性化のためには、皆さんの協力が必要です。」
ここで、音声認識結果を単語単位に区切ってみる。なお、“/”は、単語の区切りを示したものである。
「この/目標/を/活性化/の/ため/に/は、/皆/さん/の/協力/が/必要/です。」
この音声認識結果として、“活性化”の信頼度が0.1、“の”の信頼度が0.01、“ため”の信頼度が0.4、“に”の信頼度が0.6であった場合で、閾値を0.5とした場合には、“活性化/の/ため/に”における“に”が終点と判断することができる。
なお、終点判断部241は、閾値以上の信頼度となった単語の一つ前(上の例示では“ため”)を終点と判断することもできるが、誤り区間を指定する上で、結果的に誤っている部分を含んでいればよいため、いずれの方法をもとりうる。
このような誤り区間の指定方法は、ユーザの普段の訂正習慣に即したものであるため、使い勝手のよいものである。つまり、例えば漢字変換において、ユーザは誤りを指定する場合には、まず始点を入力し、つぎに誤りを削除し、正しい単語列を入力するのが通例と思われる。上述の誤り区間の指定方法も、視点を入力した後、自動的に終点が定まるため、その操作方法にあったものであり、ユーザにとって違和感なく操作することができる。
また、終点判断部241は、終点を判断する際において、上述の方法に限定するものではない。例えば、特定の発音記号にしたがって終点を判断する方法、誤り始点開始後、M番目の単語を終点とする方法としてもよい。ここで、特定の発音記号に従った方法とは、発話中のポーズに基づいて判断する方法であり、フレーズの境界に出現するショートポーズ(読点)、発話の最後に出現するロングポーズ(句点)に基づいて判断するようにしてもよい。これにより文章の区切りで判断することとなり、より正確な音声認識を期待することができる。
以下にその具体例を示す。音声として上述と同様の内容である以下のものを例に説明する。
<発声内容>
「この目標を達成するためには、皆さんの協力が必要です。」
<音声認識結果>
「この目標を活性化のためには、皆さんの協力が必要です。」
ユーザが、操作部236を操作することにより、誤り区間の始点として、“この目標を”の後を設定すると、終点判断部241は、この部分に一番近いポーズ(読点部分)を終点と判断する。誤り区間指定部240cは、この終点に基づいて誤り区間を指定することができる。上述の例では、誤り区間の終点として、“ためには、”における“、”の部分が指定される。なお、“、”の部分は実際には音声はなく、一瞬の間があいた状態である。
なお、特定の発音としては、読点、句点以外に、“え〜”、“あの〜”といった発音、または“ます”、“です”といった単語としてもよい。
つぎに、誤り始点移行のM番目の単語を終点にする方法の例を示す。以下に示す文章は、単語単位に区分した状態を示したものである。なお、“/”は、単語の区切りを示したものである。
「この/目標/を/活性化/の/ため/に/は、/皆/さん/の/協力/が/必要/です。」
例えば、始点を“活性化”とした場合で、M=3とした場合には、“活性化/の/ため”における“ため”が終点の単語となる。したがって、誤り区間指定部240cは、“活性化/の/ため”を誤り区間として指定することができる。なお、当然ながらM=3以外でもよい。
つぎに、認識結果の候補数(競合数)が少ない単語を終点にする方法の例を示す。例えば、以下の例を用いて説明する。
「この/目標/を/活性化/の/ため」において、以下の候補が挙げられるとする。
「活性化」:“だれ”、“沢山”、“お勧め”
「の」: “か”、“ある”
「ため」:−(候補なし)
この候補の数は、その区間のあいまいさを反映したものとなっており、信頼性が低いほど多数の候補が、サーバ装置120から送信される。なお、この例においては、サーバ装置120において、信頼度情報を送信する代わりに、信頼度情報に基づいて得られた他の候補をそのままクライアント装置110に送信するように構成されている。
この場合、「ため」については、候補がないため、それだけその信頼度が高いものと考えることができる。よって、この例では、誤り区間としてはその手前の“の”が誤り区間の終点を判断することができる。なお、誤り区間の終点として、その手前とすることに限定するものではなく、ある程度幅を持たせたものとしてもよい。
以上の通り、終点箇所を信頼度に基づく方法、特定の発音記号(または発音)を利用する方法、始点からM番目までを誤り区間とする方法が考えられるが、これら方法の組み合わせ、つまり、これら複数方法の訂正結果をN−bestの形式或いは複数方法の認識結果から一つを選択する形式としてもよい。この場合、認識結果のスコア順に認識結果をリスト表示し、ユーザはそのリストから任意の認識結果を選択するようにしてもよい。
このように誤り区間指定部240cが指定した誤り区間に基づいて、誤り区間前後コンテキスト指定部250がその前後を含めた区間を指定し、誤り区間特徴量抽出部260はその特徴量データを特徴量保存部230から抽出し、訂正部270は、その特徴量データに対して再認識処理を行うことにより訂正処理を行う。
つぎに、このように構成されたクライアント装置110fの動作について説明する。図19は、クライアント装置110fの処理を示すフローチャートである。
マイクを介して入力された音声は特徴量算出部210によりその特徴データが抽出される(S101)。そして、特徴量保存部230に特徴量データは保存される(S102)。つぎに、特徴量圧縮部220により特徴量データは圧縮される(S103)。圧縮された圧縮特徴量データは、送信部225によりサーバ装置120に送信される(S104)。
つぎに、サーバ装置120において音声認識が行われ、サーバ装置120からその認識結果が送信され、受信部235により受信され、一時保存されるとともに、その認識結果は表示部290に表示される(S105a)。そして、ユーザは表示部290に表示されている認識結果に基づいて誤り区間の始点を判断し、その始点を、操作部236を操作することで指定する。そして、ユーザ入力検出部238により始点が指定されたことが検出されると、終点判断部241により、誤り区間の終点が自動的に判断される。例えば、音声認識結果に含まれている信頼度に基づいて判断され、また予め定められた発音記号が出現する箇所が終点と判断され、さらには始点からM番目(Mは予め定められた任意に値)が終点と判断される。
そして、このように始点および終点が誤り区間指定部240cにより指定される。そして、この指定された誤り区間に基づいて前後コンテキストが指定される(S106c)。この前後コンテキストを含んだ誤り区間に基づいて、誤り区間特徴量抽出部260により特徴量データが抽出され(S107)、訂正部270により再度音声認識が行われ、誤り区間におけるテキストデータが生成される(S108)。そして、誤り区間におけるテキストデータと、受信部235において受信されたテキストデータとが統合され、正しいテキストデータが表示部290に表示される(S109)。
なお、S106cを含むS105a〜108の処理については、図10に示されるフローチャートとほぼ同様の処理が行われるが、S305の処理について、終点判断部241が自動的に誤り区間の終点箇所を判断し、それを保存する点で相違する。
以上の通り、この実施形態によれば、このような誤り区間の指定方法は、ユーザの普段の訂正習慣に即したものとすることができ、大変使い勝手のよい装置を提供することができる。
<第7の実施形態>
つぎに第7の実施形態について説明する。この実施形態によると、誤り区間において先頭の文字をユーザが指定することで、その指定した文字を拘束条件として音声認識をより正しく行わせようとするものである。
図20は、第7の実施形態のクライアント装置110gの機能構成を示すブロック図である。クライアント装置110gは、特徴量算出部210、特徴量圧縮部220、特徴量保存部230、送信部225、受信部235、操作部236、結果保存部237、ユーザ入力検出部238、誤り区間指定部240a、誤り区間前後コンテキスト指定部250a、誤り区間特徴量抽出部260、訂正部270、統合部280、音響モデル保持部281、言語モデル保持部282、辞書保持部283、表示部290を含んで構成されている。このクライアント装置110gは、クライアント装置110と同様に図3に示されるハードウェアにより実現される。
このクライアント装置110gは、操作部236がユーザから拘束条件として誤り区間における訂正後の文字を受け付け、誤り区間前後コンテキスト指定部250aが、誤り区間前後にコンテキストと、操作部236において受け付けた訂正後の文字とを指定し、訂正部270は、これら誤り区間前後コンテキストと訂正後の文字とを拘束条件として再認識処理を行うことで訂正処理を行う点に特徴を有するものである。
すなわち、操作部236は、ユーザから誤り区間を指定するための入力を受け付け、その後、誤り区間における訂正後の文字入力を受け付ける。
誤り区間前後コンテキスト指定部250aは、上述第1の実施形態における誤り区間前後コンテキスト指定部250とほぼ同様の処理を行い、誤り区間の前後において認識された単語(一認識単位)を指定するととともに、操作部236において受け付けられた訂正後の文字を指定する。
訂正部270は、誤り区間特徴量抽出部260において抽出された特徴量データおよび誤り区間前後コンテキスト指定部250aにおいて指定された拘束条件に基づいて再認識処理を行い、訂正処理を実行することができる。
例えば、以下の例に基づいて上述の処理について説明する。
<発声内容>
「この目標を達成するためには、皆さんの協力が必要です。」
<音声認識結果>
「この目標を活性化のためには、皆さんの協力が必要です。」
として場合に、ユーザは、操作部236を操作することで、誤り区間における始点(上述の例では“この目標を”の次の位置)に、正しい文字内容を入力する。入力すべき仮名列は、“たっせいするために”である。以下の例は入力の先頭の一部である“た”を入力する場合を例に説明する。なお、誤り区間の始点と終点とは、上述と同様の方法により決定済みまたは決定されるものとする。
ユーザが操作部236を介して“た”を入力すると、誤り区間前後コンテキスト指定部250aは、前後コンテキストとして“この目標を”を、入力された文字として“た”を拘束条件とし、すなわち“この目標をた”を、特徴量データを認識する際における拘束条件として設定する。
このようにユーザの文字入力内容を拘束条件として再度音声認識を行った認識結果をユーザに提示することで、より正確な認識結果を提示することができる。なお、訂正方法は、音声認識に加えてキー文字入力方法と併用してもよい。例えば、キー文字入力方法として仮名漢字変換が考えられる。仮名漢字変換では入力文字内容を辞書と比較し、その変換結果を予測する機能がある。例えば“た”を入力すると、データベースから“た”が先頭の単語を順番にリストアップし、ユーザに提示する。
ここでは、この機能を利用して、仮名漢字変換のデータベースの候補と音声認識により得られた候補とをリスト表示しておき、これらリストに基づいてユーザが任意の候補を選択するようにしてもよい。リスト表示される順番は、変換結果または認識結果に付与されているスコア順であってもよいし、仮名漢字変換に基づいた候補と音声認識による候補とを比較し、完全一致または一部一致している候補については、それぞれ付与されているスコアを合算し、そのスコアに基づいた順であってもよい。例えば、仮名漢字変換の候補A1“達成”のスコア50、音声認識結果の候補B1“達成する”のスコア80とした場合で、候補A1と候補B1とが一部一致しているため、各スコアにおいて、所定の係数を乗算し、合算して得られたスコアに基づいて表示してもよい。なお、完全一致の場合には、所定の係数を乗算するといった調整処理を行う必要はない。また、ユーザが仮名漢字変換の候補A1“達成”を選択した段階で、“この目標を達成”を拘束条件とし、まだ確定されていない残りの“する”に相当する特徴量データを再度認識するようにし、候補リストを表示しなおすようにしてもよい。
つぎに、このように構成されたクライアント装置110gの動作について説明する。図21は、クライアント装置110gの処理を示すフローチャートである。
マイクを介して入力された音声は特徴量算出部210によりその特徴データが抽出される(S101)。そして、特徴量保存部230に特徴量データは保存される(S102)。つぎに、特徴量圧縮部220により特徴量データは圧縮される(S103)。圧縮された圧縮特徴量データは、送信部225によりサーバ装置120に送信される(S104)。
つぎに、サーバ装置120において音声認識が行われ、サーバ装置120からその認識結果が送信され、受信部235により受信され、一時保存されるとともに、その認識結果は表示部290に表示される(S105a)。そして、ユーザは表示部290に表示されている認識結果に基づいて誤り区間を指定する(S106d)。さらに、ユーザは、誤り区間における認識結果を訂正するための文字入力を操作部236に対して行う。操作部236では、文字入力が受け付けられると、誤り区間前後コンテキスト指定部250aに出力し、誤り区間前後コンテキスト指定部250aは、入力された文字とともに、この指定された誤り区間に基づいて前後コンテキストが指定される。この前後コンテキストを含んだ誤り区間に基づいて、誤り区間特徴量抽出部260により特徴量データが抽出され(S107)、訂正部270により再度音声認識が行われ、誤り区間におけるテキストデータが生成される(S108)。そして、誤り区間におけるテキストデータと、受信部235において受信されたテキストデータとが統合され、正しいテキストデータが表示部290に表示される(S109)。
なお、S106dを含むS105a〜108の処理については、図10に示されるフローチャートとほぼ同様の処理が行われる。さらに、本実施形態においては、図10のフローチャートにおける各処理に加えて、S309において、操作部236において受け付けられた文字を拘束条件として設定する処理が必要となる。なお、S309までに拘束条件となる文字の入力受付けを完了させておく必要がある。
以上の通り、この実施形態によれば、拘束条件として前後コンテキストに加えてユーザから指定された文字を設定することで、より正確な音声認識を行うことができる。
<第8の実施形態>
つぎに第8の実施形態について説明する。この実施形態によると、訂正部270において再認識した結果、再認識前の認識結果と同じ認識結果とならないようにしたものである。
図22は、第8の実施形態のクライアント装置110hの機能構成を示すブロック図である。クライアント装置110hは、特徴量算出部210、特徴量圧縮部220、特徴量保存部230、送信部225、受信部235、操作部236、結果保存部237、ユーザ入力検出部238、誤り区間指定部240a、誤り区間前後コンテキスト指定部250、誤り区間特徴量抽出部260、訂正部270b、統合部280、音響モデル保持部281、言語モデル保持部282、辞書保持部283、表示部290を含んで構成されている。このクライアント装置110hは、クライアント装置110と同様に図3に示されるハードウェアにより実現される。以下、図2におけるクライアント装置110との相違点を中心に説明する。
訂正部270bは、図3における訂正部270と同様に再認識処理等を行う部分である。さらに訂正部270bは、結果保存部237において記憶されている認識結果に基づいて、同じ認識誤りをしないように再認識処理を行う。すなわち、訂正部270bは、誤り区間指定部240aにおいて指定された誤り区間における認識結果と比較して、同じ認識結果を得ないようにするために、再認識の探索過程において、誤り区間における認識結果を含むパスを候補から除外する処理を行う。除外する処理としては、訂正部270bは、誤り区間の特徴量データに対する候補における仮説の確率を極小化するように、所定の係数を乗算することにより、結果的に極小となった候補を選択しないようにする。なお、上述の方法では、再認識するときに誤っている可能性のある候補(例えば、“活性化”)を認識結果の候補から除外するようにしているが、これに限るものではなく、再認識した認識結果を提示する際において、誤っている可能性のある認識結果の一候補(例えば“活性化”)を表示しないようにしてもよい。
なお、このクライアント装置110hは、図8で示されるフローチャートとほぼ同様の処理を実行するものである。なお、S108における誤り区間の認識処理については、同じ認識結果を表示しないように、その候補から除外するような認識処理を行う点で相違する。
以上の通り、訂正対象となる単語は間違いであったことから、再認識後の結果に訂正対象となった単語を出力すべきではないことから、この実施形態においては、このような訂正結果を表示しないようにすることができる。
<第9の実施形態>
つぎに、第9の実施形態について説明する。この実施形態によると、誤り区間特徴量抽出部260において抽出した特徴量データの誤り区間において、平均値を算出し、その平均値を特徴量データから減算したデータを用いて再認識処理を行おうとするものである。
その具体的構成について、説明する。図23は、第9の実施形態におけるクライアント装置110iの機能を示すブロック図である。このクライアント装置110iは、特徴量算出部210、特徴量圧縮部220、特徴量保存部230、送信部225、受信部235、誤り区間指定部240、誤り区間前後コンテキスト指定部250、誤り区間特徴量抽出部260、平均値計算部261(算出手段)、特徴正規化部262(訂正手段)、訂正部270(訂正手段)、統合部280、音響モデル保持部281、言語モデル保持部282、辞書保持部283、表示部290を含んで構成されている。このクライアント装置110iは、クライアント装置110と同様に図3に示されるハードウェアにより実現される。以下、図2におけるクライアント装置110との相違点である、平均値計算部261および特徴正規化部262を中心に説明する。
平均値計算部261は、誤り区間特徴量抽出部260において抽出された特徴量データにおける誤り区間の平均値(または誤り区間の前後含んだ平均値)を算出する部分である。より具体的には、平均値計算部261は、誤り区間における各認識単位の周波数ごとに出力値(大きさ)を累積加算する。そして、累積加算して得られた出力値をその認識単位数で除算することで平均値を算出する。例えば、“活性化/の/ため”の誤り区間における認識単位は、スラッシュ“/”で区切られた部分である。夫々の認識単位である認識フレームnが、周波数fn1〜fn12から構成され、その出力値がgn1〜gn12であったとすると、周波数f1の平均値g1=Σgn1/n(上述の例ではn=1から3)で表すことができる。
すなわち、“活性化”を構成する周波数f11〜f112(出力値をg11〜g112)、“の”を構成する周波数f21〜f212(出力値をg21〜g212)、“ため”を構成する周波数f31〜f312(出力値をg31〜g312)とした場合、周波数f1の平均値は、(g11+g21+g31)/3で算出される。
特徴正規化部262は、平均値計算部261において算出された各周波数の平均値を、各周波数から構成されている特徴量データから減算する処理を行う。そして、訂正部270は、減算して得られたデータに対して再認識処理を行うことにより訂正処理を行うことができる。
本実施形態においては、平均値計算部261において算出した平均値を用いて特徴量データを修正することにより、例えば特徴量算出部210に音声を入力するためのマイクなどの集音装置の特性を除去したデータとすることができる。すなわち、マイクの集音時のノイズを除去することができ、より正確な音声に対する訂正(認識処理)を行うことができる。なお、上述の実施形態においては、誤り区間特徴量抽出部260において抽出した誤り区間に対して適用しているが、その誤り区間を含む一定の長さの区間の特徴量データを利用してもよい。
また、上述平均値計算部261および特徴正規化部262は、上述の第2の実施形態から第8の実施形態にそれぞれ適用することができる。
<第10の実施形態>
上述の第1の実施形態から第9の実施形態に記載の音声認識結果訂正装置であるクライアント装置110〜110iにおいて、訂正部270が訂正処理(再認識処理)を行っているが、これに限るものではない。すなわち、誤り区間指定部240が指定した誤り区間をサーバ装置120に通知するような構成をとることにより、サーバ装置120において再度訂正処理を行い、その訂正結果を受信部235が受信するような構成としてもよい。サーバ装置120における再訂正処理は上述のクライアント装置110の訂正部270における訂正処理をとるものとする。クライアント装置110における通知処理の具体例としては、誤り区間指定部240において指定された誤り区間の時間情報、またはその前後の単語を含めた時間情報を、誤り区間指定部240が計算し、送信部225がその時間情報をサーバ装置120に通知するものが考えられる。サーバ装置120においては、最初に行った認識処理とは異なった音声認識処理を行うことにより誤った認識を再度行うことを防止する。例えば、音響モデル、言語モデル、辞書をかえて認識処理を行うようにする。
<第11の実施形態>
つぎに、第11の実施形態のクライアント装置110kについて説明する。この第11の実施形態におけるクライアント装置110kは、サブワード区間を認識し、当該サブワード区間に記述されているサブワード文字列を用いた訂正処理を行うものである。図26は、当該クライアント装置110kの機能を示すブロック図である。
このクライアント装置110kは、特徴量算出部210、特徴量圧縮部220、送信部225、特徴量保存部230、受信部235、誤り区間指定部240、サブワード区間指定部242、分割部243、誤り区間特徴量抽出部260、辞書追加部265、訂正部270、統合部280、音響モデル保持部281、言語モデル保持部282、辞書保持部283および表示部290を含んで構成されている。
第1の実施形態とは、サブワード区間指定部242、分割部243、および辞書追加部265を含んでいる点で相違している。以下、この相違点を中心に、その構成を説明する。
サブワード区間指定部242は、誤り区間指定部240において指定された誤り区間からサブワード文字列を含んだ区間を指定する部分である。サブワード文字列には、その属性情報として、未知語であることを示す“subword”である旨が付加されており、サブワード区間指定部242は、その属性情報に基づいてサブワード区間を指定することができる。
例えば、図28に、サーバ装置120において、発話内容に基づいて認識された認識結果を示す図を示す。図28によると、“サンヨウムセン”には属性情報として“subword”が付加されており、サブワード区間指定部242は、その属性情報に基づいて“サンヨウムセン”をサブワード文字列として認識し、その文字列部分をサブワード区間として指定することができる。
なお、図28においては、発話内容にしたがって認識された認識結果の認識単位にフレームインデックスが付加されている。上述と同様に1フレームは、10msec程度である。また、図28においては、誤り区間指定部240は、上述と同様の処理にしたがって、誤り区間を指定することができ、“では”(2番目の認識単位)から“が”(8番目の認識単位)までが誤り区間と指定することができる。
分割部243は、サブワード区間指定部242により指定されたサブワード区間に含まれているサブワード文字列を境界に、誤り区間指定部240により指定された誤り区間を分割する部分である。図28に示される例に基づくと、サブワード文字列である“サンヨウムセン”に基づいて区間1と区間2に分割する。すなわち、2番目の認識単位である“では”から5番目の認識単位である“サンヨウムセン”まで、すなわち、フレームインデックスでいうところの100msecから500msecまでが区間1に分割され、5番目の認識単位である“サンヨウムセン”から8番目の認識単位である“が“までが、すなわち300msecから660msecまでが区間2に分割される。
辞書追加部265は、サブワード区間指定部242により指定されたサブワード文字列を辞書保持部283に追加する部分である。図28の例では、新規に“サンヨウムセン”が一つの単語として辞書保持部283に追加される。また、この辞書保持部283に、サブワードの読みを追加するとともに、言語モデル保持部282にサブワードと他の単語の接続確率を追加する。言語モデル保持部282における接続確率の値は、事前に用意したサブワード専用のクラスを利用してよい。また、サブワードモデルの文字列は、ほとんど固有名詞なので、名詞(固有名詞)のクラスの値を利用してよい。
このような構成により、誤り区間特徴量抽出部260は、分割部243により分割されて得られた区間1および区間2にしたがって、特徴量保存部230に保持されている特徴量データを抽出する。そして訂正部270は、それぞれの区間に対応した特徴量データに対して再認識処理を行うことで訂正処理を実行する。具体的には、図28を例にとると、区間1の訂正結果は、“では電気メーカのサンヨウムセン”となり、区間2の訂正結果は“サンヨウムセンの製品は評判が”となる。
統合部280は、訂正部270に訂正されて得られた認識結果(区間1および区間2)を境界となっているサブワード文字列に基づいて統合処理するとともに、受信部235において受信された認識結果とを統合して、表示部290に表示させる。図28を例にとると、統合された結果として、最終的な誤り区間のテキストは“では電気メーカのサンヨウムセンの製品は評判が”となる。
つぎに、このように構成されたクライアント装置110kの動作について説明する。図27は、クライアント装置110kの動作を示すフローチャートである。
S101からS105までは、図6に示されているクライアント装置110と同様の処理が行われる。すなわち、マイクを介して入力された音声は特徴量算出部210によりその特徴データが抽出される(S101)。そして、特徴量保存部230に特徴量データは保存される(S102)。つぎに、特徴量圧縮部220により特徴量データは圧縮される(S103)。圧縮された圧縮特徴量データは、送信部225によりサーバ装置120に送信される(S104)。そして、サーバ装置120において音声認識が行われ、サーバ装置120からその認識結果が送信され、受信部235により受信される(S105)。そして、音声認識結果から誤り区間指定部240により誤り区間が指定される(S106)。なお、、この指定された誤り区間に基づいて前後コンテキストが指定されるようにしてもよい。
つぎに、サブワード区間がサブワード区間指定部242により指定され、確定される(S701)。なお、この際、サブワード区間にあるサブワード文字列が、クライアント装置110kに備えられているユーザ辞書(例えば、仮名漢字変換辞書におけるユーザが登録した単語や、アドレス帳・電話帳に登録されている名前など)にある場合には、その単語に置き換える処理が行われるようにしてもよい。そして、分割部243により、サブワード区間を境界に誤り区間が分割される(S702)。この分割処理を行うとともに、辞書追加部265により、指定されたサブワード文字列が辞書保持部283に保持される(S703)。
その後、誤り区間特徴量抽出部260により、誤り区間の特徴量データおよびサブワード区間の特徴量データが抽出され(S107a)、訂正部270により誤り区間およびサブワード区間の特徴量データを再認識することにより訂正処理が行われる(S108a)。そして、誤り区間におけるテキストデータと、受信部235において受信されたテキストデータとが統合され、正しく認識されて得られたテキストデータが表示部290に表示される(S109)。なお、統合に際しては、境界の単語を目安に区間1と区間2との結果を連結する。また、訂正部270は、上述サブワード文字列がユーザ辞書に基づいて変換された場合には、変換された文字列を拘束条件として音声認識処理を行うことで、訂正処理を行うようにしても良い。
本実施形態では、サブワードの文字列はサーバの認識結果にあることを前提に説明したが、このサブワードの文字列はクライアント装置110kで生成してもよい。この場合は、図27の処理S106における誤り区間指定処理の次に、サブワード文字列を生成してから、サブワード区間確定処理をする。また、クライアント装置100kでの上述図27の処理は、サーバや他の装置で行っても良い。さらに、訂正方法は認識により、行う方法を説明したが、他のやり方例えば文字列間の類似度に基づく方法でもよい。この場合は特徴量保存部230および音響特徴量データを保存する処理(S102)、誤り区間特徴量抽出部260、訂正部270および音響特徴で認識する(S108a)は必要ない。
さらに、サブワードの文字列は辞書保持部283にある場合に、辞書保持部283中の情報を利用してもよい。例えば辞書保持部283に“サンヨウムセン”に対応する単語、例えば“三洋無線”はある場合はサブワード辞書に追加しなくていい。
また、先の例では区間を分割するときは区間1と区間2にはそれぞれサブワード区間を包含するようになっているが、これは必須でなく、各分割区間にサブワードを包含しなくて良い。つまり、二番目の単語“では”から5番目のサブワード文字列の開始までを区間1に、5番目のサブワード文字列終了から8番目の単語終了までの“が”を区間2に分割するようにしてもよい。この場合はサブワードの文字列を辞書へ追加処理しなくてもよい。
つぎに、本実施形態のクライアント装置110kの作用効果について説明する。このクライアント装置110kにおいて、受信部235は認識結果をサーバ装置120から受信し、誤り区間指定部240は、誤り区間を指定する。さらに、サブワード区間指定部242は、誤り区間におけるサブワード区間を指定する。これはサーバ装置120から送信される認識結果に付加されている属性情報により判断することができる。そして、訂正部270は、サブワード区間指定部242により指定されたサブワード区間に対応する特徴量データを、特徴量保存部230から抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、認識結果の訂正を実行する。これにより、サブワードのような未知語についての訂正処理を行うことができる。すなわち、サブワード区間といった未知語の区間したがった再認識を行うことができる。
また、本実施形態のクライアント装置110kにおいて、分割部243がサブワード区間指定部240により指定されたサブワード区間に従って、認識結果を複数の区間に分割する。そして、訂正部270は、分割部243により分割された分割区間ごとに、認識結果の訂正を実行する。これにより、認識対象を短くすることができ、より正確な認識処理を行うことができる。
また、クライアント装置110kにおいて、分割部243は、サブワード区間の終点を一の分割区間の終点とするとともに、サブワード区間の始点を、前記一の分割区間の次の分割区間の始点とするよう認識結果を分割する。そして、訂正部270は、分割部243により分割された分割区間ごとに、認識結果の訂正を実行するとともに、サブワード区間を各分割区間の訂正における拘束条件とする。これにより、サブワード区間が、分割区間のいずれにも含まれることになる。よって、認識処理する際には必ずサブワード区間が含まれることにより、サブワード文字列を拘束条件とした認識処理を行うことができる。
また、クライアント装置110kにおいて、辞書追加部265は、サブワード区間指定部242により指定されたサブワード区間におけるサブワード文字列を認識処理のための辞書保持部283に追加する。これにより、サブワード文字列を蓄積することができ、今後の認識処理に有効に用い、より正確な認識処理を行うことができる。
<第12の実施形態>
第11の実施形態ではサブワード文字列を境界に分割するやり方を説明したが、本実施形態では分割しなくても再認識する場合にサブワード文字列を必ず用いる方法について説明する。本実施形態は、上述第11の実施形態と同様の装置構成をとったものとする。
図29は、音声認識における探索過程の概念図であり、図29(a)は、サブワード文字列である“サンヨウムセン”を含んだ探索過程を示す概念図であり、図29(b)は、サブワード文字列を拘束条件として、複数の区間における探索過程を示す概念図である。
一般的に音声認識探索過程にすべての経路の仮説の尤度を計算し、途中の結果を保存し、最終的に尤度が大きい順番に結果を生成する。実際にはコストの面を考慮し、途中で探索の範囲を一定の範囲以内に絞る方法が利用される。本実施形態では、サブワード区間指定部242により指定されたサブワード区間が所定区間(例えば、2秒から3秒の間)にある場合には、訂正部270は、このサブワード区間に記述されているサブワード文字列を用いて、探索の過程にサブワード文字列が出現する経路を他の経路より順位を高め、最終的にサブワード文字列を包含する認識結果を優先的に出力するように認識処理を行う。例えば、以下の探索経路が訂正部270により得られ、保持される。
経路1:最近/では/玄関/で/待ち合わせ
経路2:昨日/の/会議/は/世界/中/
経路3:最近/では/単価/高い/サンヨウムセン
経路4:最近/では/電気メーカ/の/サンヨウムセン
この中の経路3と経路4に“サンヨウムセン“があるため、この二つの経路を経路1、経路2より順位を高めるよう訂正部270は処理を行う。ここで範囲を絞るなら、経路1および経路2を残さずに、経路3および経路4を残す。さらに“サンヨウムセン”の出現位置を判断し、もとの認識結果にある“サンヨウムセン”の出現位置(300msから500ms)に近い一定範囲に限定した経路に絞っても良い。また、最終的に認識の結果に“サンヨウムセン”が出現してない候補より“サンヨウムセン”が出現した候補を優先的に出力するようにしても良い。
以上の通り、クライアント装置110kにおいて、訂正部270は、サブワード区間指定部242により指定されたサブワード区間に記述されているサブワード文字列を含む仮説を認識の探索過程として優先順位を上げて保持し、当該仮説から最終的な認識結果を選択することにより訂正を実行する。これにより、必ずサブワード文字列を用いた認識処理を行うことができる。
本実施形態の音声認識結果訂正装置であるクライアント装置110(110a〜110k)を含む)を含んだ通信システムのシステム構成図である。 クライアント装置110の機能を示すブロック図である。 クライアント装置110のハードウェア構成図である。 音声認識結果に含まれる各種情報の概念を示す概念図である。 (a)が誤り区間前後コンテキストを指定した場合の概念図を示し、(b)が拘束条件に基づいて認識処理を行う際における概念を示す概念図である。 クライアント装置110の動作を示すフローチャートである。 誤り区間の指定を含んだ訂正処理の詳細な処理を示すフローチャートである。 ユーザ入力により誤り区間を受け付けるクライアント装置110aの機能を示すブロック図である。 クライアント装置110aの処理を示すフローチャートである。 クライアント装置110aにおけるユーザ入力により誤り区間を指定するときの詳細な処理を示すフローチャートである。 このクライアント装置110bの機能を示すブロック図である。 クライアント装置110bの処理を示すフローチャートである。 クライアント装置110bにおける誤り区間を指定するときの詳細な処理を示すフローチャートである。 クライアント装置110cの機能を示すブロック図である。 クライアント装置110cの処理を示すフローチャートである。 クライアント装置110dの機能を示すブロック図である。 クライアント装置110dの処理を示すフローチャートである。 クライアント装置110fの機能を示すブロック図である。 クライアント装置110fの処理を示すフローチャートである。 クライアント装置110gの機能を示すブロック図である。 クライアント装置110gの処理を示すフローチャートである。 クライアント装置110hの機能を示すブロック図である。 クライアント装置110iの機能を示すブロック図である。 単語情報を拘束条件として指定された部分を訂正処理するときの概念を示す概念図である。 クライアント装置110の変形例を示すブロック図である。 クライアント装置110kの機能を示すブロック図である。 クライアント装置110kの動作を示すフローチャートである。 発話内容、認識結果、分割区間の対応について説明する説明図である。 音声認識における探索過程の概念図である。
符号の説明
110、110a、110b、110c、110d、110f、110g、110h…クライアント装置、120…サーバ装置、210…特徴量算出部、220…特徴量圧縮部、225…送信部、226…第一認識部、227…言語モデル保持部、228…辞書保持部、229…音響モデル保持部、230…特徴量保存部、235…受信部、236…操作部、237…結果保存部、238…ユーザ入力検出部、239…時間情報算出部、240、240a、240b、240c…誤り区間指定部、241…終点判断部、242…サブワード区間指定部、243…分割部、250、250a…誤り区間前後コンテキスト指定部、251…単語情報解析部、260…誤り区間特徴量抽出部、265…辞書追加部、270、270a、270b…訂正部、280…統合部、281…音響モデル保持部、282…言語モデル保持部、283…辞書保持部、284…言語DB保持部、285…拘束条件記憶部、290…表示部。

Claims (33)

  1. 音声を入力する入力手段と、
    前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、
    前記算出手段により算出された特徴量データを記憶する記憶手段と、
    前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
    前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
    前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、
    前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、
    を備え、
    前記訂正手段は、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする音声認識結果訂正装置。
  2. 音声を入力する入力手段と、
    前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、
    前記算出手段により算出された特徴量データを記憶する記憶手段と、
    前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
    前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
    前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、
    前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、
    を備え、
    前記訂正手段は、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする音声認識結果訂正装置。
  3. 前記取得手段は、
    前記入力手段により入力された音声を、音声認識装置に送信する送信手段と、
    前記音声認識装置において認識された認識結果を受信する受信手段とから構成され、
    前記指定手段は、前記受信手段により受信された認識結果において、認識誤りが発生している誤り区間を指定することを特徴とする請求項1または2に記載の音声認識結果訂正装置。
  4. 前記指定手段は、ユーザ操作を受け付けることにより、誤り区間を指定することを特徴とする請求項1から3のいずれか一項に記載の音声認識結果訂正装置。
  5. 前記指定手段は、前記認識結果に付与されている認識結果の信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定することを特徴とする請求項1から4のいずれか1項に記載の音声認識結果訂正装置。
  6. 前記指定手段は、前記認識結果の信頼度を計算し、当該信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定することを特徴とする請求項1から4のいずれか1項に記載の音声認識結果訂正装置。
  7. 前記指定手段により指定された誤り区間の直前の少なくとも一つの単語を特定するための情報である単語情報、若しくは直後の少なくとも一つの単語の単語情報、または前記直前の単語の単語情報および直後の単語の単語情報の両方、のいずれかを形成する認識結果における単語の単語情報を特定する単語情報特定手段をさらに備え、
    前記訂正手段は、前記単語情報特定手段により特定された単語情報を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする請求項1から6のいずれか1項に記載の音声認識結果訂正装置。
  8. 前記単語情報が、単語の品詞を示す品詞情報、および単語の読み方を示す読み情報、のいずれか1つまたは複数を含むことを特徴とする請求項7に記載の音声認識結果訂正装置。
  9. 前記単語情報に基づいて、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果の単語が、未知語か否かを判定する、未知語判定手段をさらに備え、
    前記未知語判定手段により前記認識結果の単語が未知語であると判定されると、前記訂正手段は、前記単語情報をもとに、認識結果の訂正処理を行うことを特徴とする請求項7または8に記載の音声認識結果訂正装置。
  10. 単語同士の接続確率を記憶する接続確率記憶手段をさらに備え、
    前記訂正手段は、訂正処理したことによって当該誤り区間の単語およびその前後またはその一方における単語との接続確率を作成し、当該接続確率を用いて前記接続確率記憶手段に記憶されている接続確率を更新することを特徴とする請求項1から9のいずれか1項に記載の音声認識結果訂正装置。
  11. 前記単語情報特定手段により特定された単語情報または前記特定手段により特定された単語を拘束条件として記憶する拘束条件記憶手段をさらに備え、
    前記訂正手段は、前記拘束条件記憶手段に記憶されている拘束条件に従って訂正処理を行うことを特徴とする請求項1から10のいずれか1項に記載の音声認識結果訂正装置。
  12. ユーザから文字情報を受け付ける受付手段をさらに備え、
    前記訂正手段は、前記受付手段により受け付けられた文字情報を拘束条件として、誤り区間における認識結果の訂正処理を行うことを特徴とする請求項1から11のいずれか1項に記載の音声認識結果訂正装置。
  13. 受信手段により受信された認識結果と前記記憶手段に記憶されている特徴量データとに基づいて、認識結果における経過時間を算出する時間情報算出手段をさらに備え、
    前記指定手段は、前記時間情報算出手段により算出された時間情報に基づいて誤り区間を指定することを特徴とする請求項1から12いずれか1項に記載の音声認識結果訂正装置。
  14. 前記訂正手段により訂正された認識結果を表示する表示手段をさらに備え、
    前記表示手段は、前記取得手段により取得された認識結果を表示しないことを特徴とする請求項1から13のいずれか1項に記載の音声認識結果訂正装置。
  15. 前記訂正手段により再認識により得られた認識結果と、前記取得手段により取得された認識結果とが同じであった場合、またはこれら認識結果それぞれに含まれる時間情報にずれが生じている場合には、認識誤りと判断され、前記表示手段は認識結果を表示しないことを特徴とする請求項14に記載の音声認識結果訂正装置。
  16. 前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識結果に付与されている認識結果の信頼度に基づいて誤り区間の終点を指定することを特徴とする請求項4に記載の音声認識結果訂正装置。
  17. 前記指定手段は、ユーザ操作により誤り区間の始点を指定し、当該始点から所定認識単位数あけて誤り区間の終点を指定することを特徴とする請求項4に記載の音声認識結果訂正装置。
  18. 前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識結果における所定の発音記号に基づいて誤り区間の終点を指定することを特徴とする請求項4に記載の音声認識結果訂正装置。
  19. 前記取得手段は、認識結果を取得する際、認識結果として複数の認識候補を取得し、
    前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識候補の数に基づいて終点を指定することを特徴とする請求項4に記載の音声認識結果訂正装置。
  20. 前記算出手段により算出された特徴量データの誤り区間を含む区間の平均値を算出する算出手段をさらに備え、
    前記訂正手段は、抽出した特徴量データから前記算出手段により算出された平均値を減算し、その減算して得られたデータを特徴量データとして再認識処理を行うことを特徴とする請求項1から19のいずれか1項に記載の音声認識結果訂正装置。
  21. 音声を入力する入力手段と、
    前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
    前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
    前記指定手段により指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知手段と、
    前記通知手段による依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信手段と、
    前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と、を備え、
    前記受信手段は、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、認識処理された認識結果を受信することを特徴とする音声認識結果訂正装置。
  22. 音声を入力する入力手段と、
    前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
    前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
    前記指定手段により指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知手段と、
    前記通知手段による依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信手段と、
    前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段とを備え、
    前記受信手段は、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、認識処理された認識結果を受信することを特徴とする音声認識結果訂正装置。
  23. 音声を入力する入力ステップと、
    前記入力ステップにより入力された音声に基づいて特徴量データを算出する算出ステップと、
    前記算出ステップにより算出された特徴量データを記憶手段に記憶する記憶ステップと、
    前記入力ステップにより入力された音声に対する認識結果を取得する取得する取得ステップと、
    前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、
    前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、
    前記記憶ステップにおいて記憶された特徴量データから前記指定ステップにより指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得ステップにより得られた認識結果の訂正を実行する訂正ステップとを備え、
    前記訂正ステップは、前記特定ステップにより特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする音声認識結果訂正方法。
  24. 音声を入力する入力ステップと、
    前記入力ステップにより入力された音声に基づいて特徴量データを算出する算出ステップと、
    前記算出ステップにより算出された特徴量データを記憶手段に記憶する記憶ステップと、
    前記入力ステップにより入力された音声に対する認識結果を取得する取得する取得ステップと、
    前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、
    前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、
    前記記憶ステップにおいて記憶された特徴量データから前記指定ステップにより指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得ステップにより得られた認識結果の訂正を実行する訂正ステップとを備え、
    前記訂正ステップは、前記特定ステップにより特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする音声認識結果訂正方法。
  25. 音声を入力する入力ステップと、
    前記入力ステップにより入力された音声に対する認識結果を取得する取得ステップと、
    前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、
    前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、
    前記指定ステップにより指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知ステップと、
    前記通知ステップによる依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信ステップと、を備え、
    前記受信ステップは、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、前記外部サーバにおいて認識処理された認識結果を受信することを特徴とする音声認識結果訂正方法。
  26. 音声を入力する入力ステップと、
    前記入力ステップにより入力された音声に対する認識結果を取得する取得ステップと、
    前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、
    前記指定ステップにより指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定ステップと、
    前記指定ステップにより指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知ステップと、
    前記通知ステップによる依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信ステップと、を備え、
    前記受信ステップは、前記外部サーバにおいて、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを抽出し、抽出した特徴量データに対し認識処理を行い、前記外部サーバにおいて認識処理された認識結果を受信することを特徴とする音声認識結果訂正方法。
  27. 音声を入力する入力手段と、
    前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、
    前記算出手段により算出された特徴量データを記憶する記憶手段と、
    前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
    前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
    前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、
    前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段と
    前記取得手段により取得された認識結果において、サブワード区間を指定するサブワード区間指定手段と、
    前記サブワード区間指定手段により指定されたサブワード区間に従って、前記取得手段から取得された認識結果を複数の区間に分割する分割手段をさらに備え、
    前記訂正手段は、前記指定手段により指定された誤り区間においてさらに前記サブワード区間指定手段により指定され、前記分割手段により分割されたサブワード区間に対応する特徴量データを、前記記憶手段から抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する
    ことを特徴とする音声認識結果訂正装置。
  28. 前記分割手段は、サブワード区間の終点を一の分割区間の終点とするとともに、サブワード区間の始点を、前記一の分割区間の次の分割区間の始点とするよう認識結果を分割することを特徴とする請求項27に記載の音声認識結果訂正装置。
  29. 前記訂正手段は、前記分割手段により分割された分割区間ごとに、認識結果の訂正を実行するとともに、前記サブワード区間を各分割区間の訂正における拘束条件とすることを特徴とする請求項28に記載の音声認識結果訂正装置。
  30. 前記訂正手段は、前記サブワード区間指定手段により指定されたサブワード区間に記述されているサブワード文字列を含む仮説を認識の探索過程として保持し、当該仮説から最終的な認識結果を選択することにより訂正を実行することを特徴とする請求項27に記載の音声認識結果訂正装置。
  31. 前記サブワード区間指定手段により指定されたサブワード区間におけるサブワード文字列を認識処理のための辞書データベースに追加する辞書追加手段をさらに備えることを特徴とする請求項27から30のいずれか1項に記載の音声認識結果訂正装置。
  32. ユーザにより生成された辞書データベースをさらに備え、
    前記訂正手段は、サブワード文字列を前記辞書データベースにしたがって変換された文字列を用いて訂正処理を行うことを特徴とする請求項27から31のいずれか一項に記載の音声認識結果訂正装置。
  33. 請求項1から22、または27から32のいずれか1項に記載の音声認識結果訂正装置と、
    前記音声認識結果訂正装置から送信された音声に基づいて音声認識を行い、認識結果として前記音声認識結果訂正装置に送信するサーバ装置と、からなる音声認識結果訂正システム。
JP2008285550A 2008-04-22 2008-11-06 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム Expired - Fee Related JP4709887B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008285550A JP4709887B2 (ja) 2008-04-22 2008-11-06 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
TW098113352A TWI427620B (zh) 2008-04-22 2009-04-22 A speech recognition result correction device and a speech recognition result correction method, and a speech recognition result correction system
CN2009101350590A CN101567189B (zh) 2008-04-22 2009-04-22 声音识别结果修正装置、方法以及系统

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2008111540 2008-04-22
JP2008111540 2008-04-22
JP2008198486 2008-07-31
JP2008198486 2008-07-31
JP2008285550A JP4709887B2 (ja) 2008-04-22 2008-11-06 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム

Publications (2)

Publication Number Publication Date
JP2010055044A JP2010055044A (ja) 2010-03-11
JP4709887B2 true JP4709887B2 (ja) 2011-06-29

Family

ID=42070988

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008285550A Expired - Fee Related JP4709887B2 (ja) 2008-04-22 2008-11-06 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム

Country Status (3)

Country Link
JP (1) JP4709887B2 (ja)
CN (1) CN101567189B (ja)
TW (1) TWI427620B (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5004863B2 (ja) * 2008-04-30 2012-08-22 三菱電機株式会社 音声検索装置および音声検索方法
JP5231484B2 (ja) * 2010-05-19 2013-07-10 ヤフー株式会社 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
JP5160594B2 (ja) * 2010-06-17 2013-03-13 株式会社エヌ・ティ・ティ・ドコモ 音声認識装置および音声認識方法
JP5480760B2 (ja) * 2010-09-15 2014-04-23 株式会社Nttドコモ 端末装置、音声認識方法および音声認識プログラム
CN103229232B (zh) * 2010-11-30 2015-02-18 三菱电机株式会社 声音识别装置及导航装置
JP6150268B2 (ja) * 2012-08-31 2017-06-21 国立研究開発法人情報通信研究機構 単語登録装置及びそのためのコンピュータプログラム
KR101364774B1 (ko) * 2012-12-07 2014-02-20 포항공과대학교 산학협력단 음성 인식의 오류 수정 방법 및 장치
CN103076893B (zh) 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
JP2014137430A (ja) * 2013-01-16 2014-07-28 Sharp Corp 電子機器及び掃除機
TWI508057B (zh) * 2013-07-15 2015-11-11 Chunghwa Picture Tubes Ltd 語音辨識系統以及方法
CN104978965B (zh) * 2014-04-07 2019-04-26 三星电子株式会社 电子装置及利用电子装置和服务器的语音识别执行方法
CN105469801B (zh) * 2014-09-11 2019-07-12 阿里巴巴集团控股有限公司 一种修复输入语音的方法及其装置
CN105869632A (zh) * 2015-01-22 2016-08-17 北京三星通信技术研究有限公司 基于语音识别的文本修订方法和装置
CN104933408B (zh) * 2015-06-09 2019-04-05 深圳先进技术研究院 手势识别的方法及系统
CN105513586A (zh) * 2015-12-18 2016-04-20 百度在线网络技术(北京)有限公司 语音识别结果的显示方法和装置
KR101804765B1 (ko) * 2016-01-08 2018-01-10 현대자동차주식회사 차량 및 그 제어방법
JP6675078B2 (ja) * 2016-03-15 2020-04-01 パナソニックIpマネジメント株式会社 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
EP3489949A4 (en) 2016-07-19 2019-08-07 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
JP6597527B2 (ja) * 2016-09-06 2019-10-30 トヨタ自動車株式会社 音声認識装置および音声認識方法
JP6526608B2 (ja) * 2016-09-06 2019-06-05 株式会社東芝 辞書更新装置およびプログラム
JP7088645B2 (ja) * 2017-09-20 2022-06-21 株式会社野村総合研究所 データ変換装置
CN107945802A (zh) * 2017-10-23 2018-04-20 北京云知声信息技术有限公司 语音识别结果处理方法及装置
CN108597495B (zh) * 2018-03-15 2020-04-14 维沃移动通信有限公司 一种处理语音数据的方法及装置
JP7143665B2 (ja) * 2018-07-27 2022-09-29 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法
CN109325239A (zh) * 2018-11-05 2019-02-12 北京智启蓝墨信息技术有限公司 学生课堂表现管理方法及系统
CN110956959B (zh) * 2019-11-25 2023-07-25 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
CN111192586B (zh) * 2020-01-08 2023-07-04 北京小米松果电子有限公司 语音识别方法及装置、电子设备、存储介质
JP2021135453A (ja) * 2020-02-28 2021-09-13 パナソニックIpマネジメント株式会社 テキスト音源位置表示システムおよびテキスト音源位置表示装置
CN112382285B (zh) 2020-11-03 2023-08-15 北京百度网讯科技有限公司 语音控制方法、装置、电子设备和存储介质
CN112951238B (zh) * 2021-03-19 2024-08-27 河南蜂云科技发展有限公司 一种基于语音处理的科技法庭智能管理方法、系统及存储介质
JP2023007960A (ja) * 2021-07-02 2023-01-19 株式会社アドバンスト・メディア 情報処理装置、情報処理システム、情報処理方法及びプログラム
CN116894442B (zh) * 2023-09-11 2023-12-05 临沂大学 一种纠正引导发音的语言翻译方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000056795A (ja) * 1998-08-03 2000-02-25 Fuji Xerox Co Ltd 音声認識装置
JP2000081896A (ja) * 1998-09-04 2000-03-21 Mitsubishi Electric Corp 音声認識システムおよび単語辞書作成装置
JP2001092494A (ja) * 1999-09-24 2001-04-06 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラム記録媒体
JP2003099091A (ja) * 2001-09-21 2003-04-04 Nec Corp 音声認識装置及び音声認識方法
JP2004258531A (ja) * 2003-02-27 2004-09-16 Nippon Telegr & Teleph Corp <Ntt> 認識誤り訂正方法、装置、およびプログラム
JP2005234136A (ja) * 2004-02-18 2005-09-02 Ntt Docomo Inc 音声認識サーバ、音声入力システム、及び、音声入力方法
JP2006243575A (ja) * 2005-03-07 2006-09-14 Nec Corp 音声書き起こし支援装置およびその方法ならびにプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW219993B (en) * 1992-05-21 1994-02-01 Ind Tech Res Inst Speech recognition system
US6163765A (en) * 1998-03-30 2000-12-19 Motorola, Inc. Subband normalization, transformation, and voiceness to recognize phonemes for text messaging in a radio communication system
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
EP1407447A1 (en) * 2001-07-06 2004-04-14 Koninklijke Philips Electronics N.V. Fast search in speech recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000056795A (ja) * 1998-08-03 2000-02-25 Fuji Xerox Co Ltd 音声認識装置
JP2000081896A (ja) * 1998-09-04 2000-03-21 Mitsubishi Electric Corp 音声認識システムおよび単語辞書作成装置
JP2001092494A (ja) * 1999-09-24 2001-04-06 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラム記録媒体
JP2003099091A (ja) * 2001-09-21 2003-04-04 Nec Corp 音声認識装置及び音声認識方法
JP2004258531A (ja) * 2003-02-27 2004-09-16 Nippon Telegr & Teleph Corp <Ntt> 認識誤り訂正方法、装置、およびプログラム
JP2005234136A (ja) * 2004-02-18 2005-09-02 Ntt Docomo Inc 音声認識サーバ、音声入力システム、及び、音声入力方法
JP2006243575A (ja) * 2005-03-07 2006-09-14 Nec Corp 音声書き起こし支援装置およびその方法ならびにプログラム

Also Published As

Publication number Publication date
JP2010055044A (ja) 2010-03-11
TW200951940A (en) 2009-12-16
CN101567189B (zh) 2012-04-25
TWI427620B (zh) 2014-02-21
CN101567189A (zh) 2009-10-28

Similar Documents

Publication Publication Date Title
JP4709887B2 (ja) 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
CN106663424B (zh) 意图理解装置以及方法
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
US9020819B2 (en) Recognition dictionary system and recognition dictionary system updating method
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
CN108630200B (zh) 声音关键字检测装置以及声音关键字检测方法
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN111552777B (zh) 一种音频识别方法、装置、电子设备及存储介质
US20070038453A1 (en) Speech recognition system
JP2003330485A (ja) 音声認識装置、音声認識システム及び音声認識方法
US20080065371A1 (en) Conversation System and Conversation Software
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
JPH05143093A (ja) 発声された単語のモデルを生成する方法および装置
JP5238395B2 (ja) 言語モデル作成装置および言語モデル作成方法
JP6233867B2 (ja) 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP4259100B2 (ja) 音声認識用未知発話検出装置及び音声認識装置
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
JP2011039468A (ja) 電子辞書で音声認識を用いた単語探索装置及びその方法
JP2003263187A (ja) 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体
JP2004157919A (ja) 入力装置及び音声入力方法と装置並びにプログラム
JP2005284018A (ja) 音声認識システム
Zhang Multiple pass strategies for improving accuracy in a voice search application

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101021

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110318

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees