JPWO2007097390A1

JPWO2007097390A1 - 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム

Info

Publication number: JPWO2007097390A1
Application number: JP2008501750A
Authority: JP
Inventors: 史博安達
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-02-23
Filing date: 2007-02-22
Publication date: 2009-07-16
Also published as: US8756058B2; WO2007097390A1; US20100217598A1

Abstract

ユーザが未知語等の所定の条件を満たす語を含んだ発声をした場合でも、その旨をユーザに提示し、ユーザが容易に確認できる音声認識システムを提供する。音声認識システムは、入力された音声を所定の認識用単語辞書を用いて認識結果単語列に変換する単語音声認識部と、入力された音声を認識結果音節列に変換する音節認識部と、認識結果単語列のうち未知語であると推定する根拠となる所定の条件に該当する区間を判定する区間判定部と、判定された区間に対応する認識結果音節列中の部分音節列を求め、あらかじめ単語エントリ間に定義された順に並べられた認識用単語辞書中で部分音節列が並べられる位置の近傍の１つ以上の単語エントリと認識結果単語列とを共に出力する出力部と、を備える。

Description

本発明は、音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラムに関し、特に音声認識結果を確認するためのシステム、方法、及びプログラムに関する。

ユーザが発声した音声を認識し、その認識結果を用いて検索や翻訳などを行うシステムにおいて、認識誤りは最終的に出力される検索結果や翻訳結果などに大きな影響を及ぼす。このような誤認識に対する解決策として、特許文献１には、図６に示すように表示画面上に音声認識結果の第１候補だけでなく下位候補もあわせて表示することで、もし誤認識が生じていてもユーザが簡単に認識結果を修正できるような方法の一例が記載されている。図６に示す表示画面の例では、「北海道札幌市」が第１候補で、以下、「北海道室蘭市」、「北海道苫小牧市」、「北海道函館市」、「北海道旭川市」、・・・、と下位候補を確からしい語彙順に表示している。

特開平９−５０２９１号公報

ユーザが発声した音声を認識し、その認識結果を用いて検索や翻訳などを行うシステムにおいて、ユーザが認識辞書に存在しない単語（以下、「未知語」という）を含んだ発声をする場合がある。この時、認識辞書に存在する他の単語に誤認識した結果が出力されることになる。また、認識結果の第一候補だけでなく下位候補にも、発声された単語は一切出現しない。そのため、特許文献１のように認識結果の第一候補だけでなく他の下位候補を出力したとしても、ユーザは誤認識した箇所を修正することができない。

また、ユーザは、表示された下位候補の中に修正したい単語が存在しなかった場合、自分の発声した単語は、認識可能な（辞書中に存在する）単語であるが、たまたま表示された下位候補の中に存在しなかったのか、あるいは認識不可能な（辞書中に存在しない）単語であり、そもそも認識することが不可能なのか、が区別できない。前者の場合は、再度発声することで正しい認識結果が得られる可能性があるが、後者の場合、再度発声しても正しい認識結果が得られず、結果的にそもそも認識できない単語（未知語）を含んだ発声を何度も繰り返すことが起こり得る。

本発明の目的は、ユーザが未知語を含んだ発声をした場合でも、その単語が未知語であることをユーザに提示し、ユーザが容易に確認できる音声認識システムを提供することにある。

本発明の音声認識システムは、入力された音声を所定の認識用単語辞書を用いて認識結果単語列に変換する単語音声認識部と、入力された音声を認識結果音節列に変換する音節認識部と、変換された認識結果単語列のうち未知語であると推定する根拠となる所定の条件に該当する区間を判定する区間判定部と、判定された区間に対応する認識結果音節列中の部分音節列を求め、あらかじめ単語エントリ間に定義された順に並べられた認識用単語辞書中で部分音節列が並べられる位置の近傍の１つ以上の単語エントリと認識結果単語列とを共に出力する出力部とを備えている。

上記音声認識システムによれば、入力された音声の認識結果として単語音声認識部が仮名漢字交じりの認識結果単語列を、音節認識部が認識結果音節列を出力する。区間判定部は、認識結果単語列の中で所定の条件に該当する区間を判定し、表示部は、認識結果単語列と認識用単語辞書で部分音節列が並べられる位置の近傍の単語エントリとを併せて表示する。このような構成により、ユーザが所定の未知語を含んだ発声をした場合でも、その旨をユーザに提示することができ、ユーザがそれを容易に確認することができる。

上記音声認識システムにおいて、音節認識部は、所定の認識用音節辞書を用いて入力された音声を認識結果音節列に変換するようにしてもよい。このようにすれば、例えば入力音声に未知語が含まれる場合などに、精度の良い認識結果音節列を得ることができる。

上記音声認識システムにおいて、出力部は、認識結果単語列を区間判定部で判定された区間に関して部分音節列で置換して出力するようにしてもよい。このようにすれば、ユーザは、発声した単語が正しく音節列として認識されているか否かを確認することができる。

上記音声認識システムにおいて、出力部は、区間判定部で判定された区間を明示して出力するようにしてもよい。このようにすれば、ユーザは、出力された単語列のうちどの部分が所定の条件に該当する部分であるかを明確に知ることができる。

上記音声認識システムにおいて、定義された順を五十音順としてもよい。このようにすれば、ユーザにとってもっと直感的にわかりよい並び順で単語エントリを表示することができる。

上記音声認識システムにおいて、出力部は、ユーザの指示に応じて出力する認識用単語辞書の単語エントリを変更する機能を備えるようにしてもよい。このようにすれば、ユーザが自分の発声した単語と異なる音節列が誤って表示され、本来表示されるべき箇所でない認識用単語辞書が表示されたとしても、表示される認識用単語辞書の位置を変更し、正しい箇所を表示することができる。

上記音声認識システムにおいて、出力部は、ユーザにより認識用単語辞書中の単語エントリが選択されたときに作動し、区間判定部で判定された区間に表示されている文字列と選択された単語エントリの表記用文字列とを置換する機能を備えるようにしてもよい。このようにすれば、ユーザの発声した単語が表示される単語辞書中に存在した（つまり、システムが誤って未知語だと判定した）場合や、例えば同義語のようなユーザが音声入力した単語とは異なる単語などを変わりに入力したいと思う場合などに、認識結果文字列を訂正するこができる。

上記音声認識システムにおいて、出力部は、区間判定部で判定された区間をユーザの指示によってその範囲を変更する機能を備えるようにしてもよい。このようにすれば、区間判定部が所定の条件に該当する区間を誤って判定した場合でも、ユーザがその区間を訂正することができる。

上記音声認識システムにおいて、出力部は、ユーザの指示によって範囲を変更された新たな区間に応じて出力内容を変更する機能を備えるようにしてもよい。このようにすれば、例えば認識用単語辞書の表示部分を正しいものに変更する等、区間の変更結果に応じた表示をすることができる。

本発明の音声認識結果出力方法は、入力された音声を所定の認識用単語辞書を用いて認識結果単語列に変換する単語音声認識工程と、入力された音声を認識結果音節列に変換する音節認識工程と、変換された認識結果単語列のうち未知語であると推定する根拠となる所定の条件に該当する区間を判定する区間判定工程と、判定された区間に対応する認識結果音節列中の工程分音節列を求め、あらかじめ単語エントリ間に定義された順に並べられた認識用単語辞書中で工程分音節列が並べられる位置の近傍の１つ以上の単語エントリと認識結果単語列とを共に出力する出力工程とを備えている。

上記音声認識結果出力方法によれば、単語音声認識工程と音節認識工程により入力された音声を仮名漢字交じりの認識結果単語列と認識結果音節列に変換する。区間判定工程では、認識結果単語列の中で所定の条件に該当する区間を判定し、表示工程では、認識結果単語列と認識用単語辞書で部分音節列が並べられる位置の近傍の単語エントリとを併せて表示する。このような方法により、ユーザが所定の条件を満たす語を含んだ発声をした場合でも、その旨をユーザに提示することができ、ユーザがそれを容易に確認することができる。

上記音声認識結果出力方法において、音節認識工程では、所定の認識用音節辞書を用いて入力された音声を認識結果音節列に変換するようにしてもよい。このようにすれば、例えば入力音声に未知語が含まれる場合などに、精度の良い認識結果音節列を得ることができる。

上記音声認識結果出力方法において、出力工程では、認識結果単語列を区間判定部で判定された区間に関して部分音節列で置換して出力するようにしてもよい。このようにすれば、ユーザは、発声した単語が正しく音節列として認識されているか否かを確認することができる。

上記音声認識結果出力方法において、出力工程では、区間判定部で判定された区間を明示して出力するようにしてもよい。このようにすれば、ユーザは、出力された単語列のうちどの部分が所定の条件に該当する部分であるかを明確に知ることができる。

上記音声認識結果出力方法において、定義された順を五十音順としてもよい。このようにすれば、ユーザにとってもっと直感的にわかりよい並び順で単語エントリを表示することができる。

上記音声認識結果出力方法において、出力工程では、ユーザの指示に応じて出力する認識用単語辞書の単語エントリを変更するようにしてもよい。このようにすれば、ユーザが自分の発声した単語と異なる音節列が誤って表示され、本来表示されるべき箇所でない認識用単語辞書が表示されたとしても、表示される認識用単語辞書の位置を変更し、正しい箇所を表示することができる。

上記音声認識結果出力方法において、出力工程では、ユーザにより認識用単語辞書中の単語エントリが選択されたとときに、区間判定部で判定された区間に表示されている文字列と選択された単語エントリの表記用文字列とを置換するようにしてもよい。このようにすれば、ユーザの発声した単語が表示される単語辞書中に存在した（つまり、結果出力方法が誤って未知語だと判定した）場合や、例えば同義語のようなユーザが音声入力した単語とは異なる単語などを変わりに入力したいと思う場合などに、認識結果文字列を訂正するこができる。

上記音声認識結果出力方法において、出力工程では、区間判定部で判定された区間をユーザの指示によってその範囲を変更するようにしてもよい。このようにすれば、区間判定工程において所定の条件に該当する区間を誤って判定した場合でも、ユーザがその区間を訂正することができる。

上記音声認識結果出力方法において、出力工程では、ユーザの指示によって範囲を変更された新たな区間に応じて出力内容を変更するようにしてもよい。このようにすれば、例えば認識用単語辞書の表示部分を正しいものに変更する等、区間の変更結果に応じた表示をすることができる。

本発明の音声認識結果出力プログラムは、コンピュータに、入力された音声を認識用単語辞書を用いて認識結果単語列に変換する単語音声認識処理と、入力された音声を認識結果音節列に変換する音節認識処理と、変換された認識結果単語列のうち未知語であると推定する根拠となる所定の条件に該当する区間を判定する区間判定処理と、判定された区間に対応する認識結果音節列中の処理分音節列を求め、あらかじめ単語エントリ間に定義された順に並べられた認識用単語辞書中で処理分音節列が並べられる位置の近傍の１つ以上の単語エントリと認識結果単語列とを共に出力する出力処理とを実行させる。

上記音声認識結果出力プログラムによれば、単語音声認識処理と音節認識処理により入力された音声を仮名漢字交じりの認識結果単語列と認識結果音節列に変換する。区間判定処理では、認識結果単語列の中で所定の条件に該当する区間を判定し、表示処理では、認識結果単語列と認識用単語辞書で部分音節列が並べられる位置の近傍の単語エントリとを併せて表示する。このような処理をコンピュータに実行させることにより、ユーザが所定の条件を満たす語を含んだ発声をした場合でも、その旨をユーザに提示することができ、ユーザがそれを容易に確認することができる。

上記音声認識結果出力プログラムにおいて、音節認識処理では、所定の認識用音節辞書を用いて入力された音声を認識結果音節列に変換するようにしてもよい。このようにすれば、例えば入力音声に未知語が含まれる場合などに、精度の良い認識結果音節列を得ることができる。

上記音声認識結果出力プログラムにおいて、出力処理では、認識結果単語列を区間判定部で判定された区間に関して部分音節列で置換して出力するようにしてもよい。このようにすれば、ユーザは、発声した単語が正しく音節列として認識されているか否かを確認することができる。

上記音声認識結果出力プログラムにおいて、出力処理では、区間判定部で判定された区間を明示して出力するようにしてもよい。このようにすれば、ユーザは、出力された単語列のうちどの部分が所定の条件に該当する部分であるかを明確に知ることができる。

上記音声認識結果出力プログラムにおいて、定義された順を五十音順としてもよい。このようにすれば、ユーザにとってもっと直感的にわかりよい並び順で単語エントリを表示することができる。

上記音声認識結果出力プログラムにおいて、出力処理では、ユーザの指示に応じて出力する認識用単語辞書の単語エントリを変更するようにしてもよい。このようにすれば、ユーザが自分の発声した単語と異なる音節列が誤って表示され、本来表示されるべき箇所でない認識用単語辞書が表示されたとしても、表示される認識用単語辞書の位置を変更し、正しい箇所を表示することができる。

上記音声認識結果出力プログラムにおいて、出力処理では、ユーザにより認識用単語辞書中の単語エントリが選択されたとときに、区間判定部で判定された区間に表示されている文字列と選択された単語エントリの表記用文字列とを置換するようにしてもよい。このようにすれば、ユーザの発声した単語が表示される単語辞書中に存在した（つまり、結果出力プログラムが誤って未知語だと判定した）場合や、例えば同義語のようなユーザが音声入力した単語とは異なる単語などを変わりに入力したいと思う場合などに、認識結果文字列を訂正するこができる。

上記音声認識結果出力プログラムにおいて、出力処理では、区間判定部で判定された区間をユーザの指示によってその範囲を変更するようにしてもよい。このようにすれば、区間判定処理において所定の条件に該当する区間を誤って判定した場合でも、ユーザがその区間を訂正することができる。

上記音声認識結果出力プログラムにおいて、出力処理では、ユーザの指示によって範囲を変更された新たな区間に応じて出力内容を変更するようにしてもよい。このようにすれば、例えば認識用単語辞書の表示部分を正しいものに変更する等、区間の変更結果に応じた表示をすることができる。

本発明によれば、入力された音声の認識結果として仮名漢字交じりの認識結果単語列と認識結果音節列を出力する。そして、認識結果単語列の中で所定の条件に該当する区間を判定し、認識結果単語列と認識用単語辞書で部分音節列が並べられる位置の近傍の単語エントリとを併せて表示する。そのため、ユーザが未知語を含んだ発声をした場合でも、その旨をユーザに提示することができ、ユーザがそれを容易に確認することができる。

本発明の一実施形態である音声認識システムの構成を示すブロック図である。音声認識結果を表示した例を示す図である。音声認識システムの動作を示す流れ図である。音声認識部による認識結果等の出力例を示す図である。認識用単語辞書の例を示す図である。従来の認識結果の出力方法を説明する図である。

符号の説明

１入力部
２音声認識部
４区間判定部
５表示部
１０音声認識システム
２１音節認識部
２２単語認識部
３１認識用音節辞書
３２認識用単語辞書

次に、図面を参照しながら、本発明の一実施形態である音声認識システムの構成と動作について説明する。

図１は、本実施形態に係る音声認識システム１０の機能ブロック図である。図１を参照すると、音声認識システム１０は、マイク等の音声入力器により音声を入力するための入力部１と、入力された音声をその認識結果として単語列及び音節列に変換する音声認識部２と、認識用音節辞書３１と、認識結果単語列の最小構成単位である単語の集合を記憶した認識用単語辞書３２と、入力音声中の所定の条件に該当する区間を判定する区間判定部４と、最終結果をディスプレイ等の表示画面上に視認可能に出力する表示部（本発明の出力部の一例に対応する。）５と、を備えている。

音声認識部２は、音節認識部２１と、単語認識部（本発明の単語音声認識部の一例に対応する。）２２とを備えている。このうち、音節認識部２１は、入力音声を認識結果音節列に変換し、区間判定部４へ出力する。音節列への変換は、認識用音節辞書３１を用いて行っても良いし、他の方法で行ってもよい。また、単語認識部２２は、入力部１から与えられた入力音声を、認識用単語辞書３２を用いて認識結果単語列に変換し、区間判定部４へ出力する。

認識用音節辞書３１には、認識結果音節列の最小構成単位である音節が記憶されている。

認識用単語辞書３２には、図５に示すように認識可能な単語エントリ（「アーティスト」、「ああ」、「開い」、「アイコン」、「合図」、「相手」等）が、表記用文字列や読み情報等（「あーてぃすと」、「ああ」、「あい」、「あいこん」、「あいず」、「あいて」等）との組として記憶されている。表記用文字列は、主に漢字仮名混じりの文字列で表現され、認識結果として利用される。読み情報は、音節列で表現され、あらかじめ単語エントリ間に定義された順、例えば五十音順などの順番に、認識用単語辞書３２の単語エントリを並べる際に利用される。

図４は、音声認識部２による認識結果の一例を示す。認識用単語辞書３２に記憶されている単語を最小単位として構成される仮名漢字交じりの認識結果単語列“英語版を探したい”と、認識用音節辞書３１に記憶されている音節を最小単位として構成される認識結果音節列“えいががんをさがしたい”とに変換される。なお、図４では「映画館」が未知語であるため、認識結果単語列では「英語版」と誤認識した例を示している。また、認識結果音節列もある程度の誤りを含む例を示している。

区間判定部４は、音声認識部２から出力される認識結果単語列のうち、未知語が発声されたといったようなある所定の条件に該当すると思われる区間を判定する。

表示部５は、図２に示すように音声認識部２から出力される認識結果単語列４１と、認識結果音節列４２と、区間判定部４で判定された区間と、認識用単語辞書３２の一部の単語エントリ４３とをディスプレイの表示画面上に出力する。認識結果単語列４１には、例えば音声認識部２から出力される認識結果音節列４２の中で該当する部分音節列に置換したり、記号（図２では“［”、“］”）で表現したりすることにより、区間判定部４で未知語区間であると判定された区間を明示する。

認識用単語辞書３２の一部の単語エントリ４３としては、未知語区間であると判定された区間に該当する部分音節列が五十音順に並べられた認識用単語辞書３２中で存在すべき位置の近傍の１つ以上（図２の例では６つ）の単語エントリを表示する。

次に、図１及び図３のフローチャートを参照して、音声認識システム１０の動作について詳細に説明する。

まず、ユーザは、マイク等の音声入力器を用いて、音声認識システム１０に音声を入力する（ステップＳ１０１）。入力された音声は、入力部１から音声認識部２に供給される。

次いで、音声認識部２は、入力された音声（入力音声）を認識する（ステップＳ１０２）。このとき、単語認識部２２は、認識用単語辞書３２を用いて、この入力音声を、認識用単語辞書３２中に存在する単語を最小構成単位とする認識結果単語列に変換し、音節認識部２１は、その入力音声を、音節を最小構成単位とする認識結果音節列に変換する。音声認識部２による認識結果として得られた、これらの文字列は、区間判定部４に供給される。

次いで、区間判定部４は、この認識結果単語列に対し、例えば未知語区間のようなある所定の条件に該当する区間を判定する（ステップＳ１０３）。

次いで、表示部５は、認識結果として認識結果単語列と判定された区間と、あらかじめ定義された順に並べられた認識用単語辞書の一部の単語エントリとを表示する（ステップＳ１０４）。ここで、ユーザの指示に応じて出力する認識用単語辞書の単語エントリを変更するようにしてもよい。また、ユーザが表示された認識用単語辞書３２の単語エントリを選択したときに区間判定部４により判定された区間に表示されている文字列と、選択された単語エントリの表記用文字列とを置換するようにしても良い。また、区間判定部４で判定された区間をユーザの指示によってその範囲を変更するようにし、その変更された範囲に応じて出力内容を変更するようにしても良い。

従って、本実施形態によれば、ユーザの発声内容に未知語が含まれていても、区間判定部４が認識結果単語列中における未知語が含まれる区間を判定し、表示部５がその区間を明示し、かつ、認識用単語辞書３２中でその区間に該当する認識結果音節列が含まれるべき位置の近傍の単語エントリを表示画面上に視認可能に表示する。このため、ユーザは、自分の発声した単語が認識単語辞書３２中に存在するのかしないのかを容易に確認することができる。

次に、本発明の一実施例を、図面を参照して説明する。かかる実施例は、前述した本発明の一実施形態に対応するものである。

今、ユーザが「映画館を探したい」と音声認識システム１０に向かって発声したとする。単語認識部２２は、この入力音声「映画館を探したい」に対し、音響モデル・言語モデル・認識用辞書等を用いて音声認識処理を行うことで、認識用単語辞書３２に登録されている単語を最小構成単位とする認識結果単語列「英語版を探したい」を生成する（図４）。

ここでは、「映画館」を未知語であるとし、入力音声と構成音節が近い認識用単語辞書３２中の単語の組み合わせである「英語版」と誤って認識されたとする。また、このとき同時に入力音声「映画館を探したい」に対し、同様に最小構成単位を音節とする認識結果音節列「えいががんをさがしたい」を音節認識部２１が生成する（図４）。

この音節列は、図１のように単語を単位とした音声認識処理とは別に、認識用音節辞書３１を用いて音節を最小構成単位とした音声認識処理を行って得ることが可能である。また、認識用音節辞書３１を用いずに、音声認識結果単語列中の各単語を認識用単語辞書３２中の読み情報に変換するような処理によって得ることも可能である。

次に、区間判定部４は、入力発声に認識用単語辞書３２中に存在しない未知語が含まれるかどうか、また含まれるのであればどの区間であるかを判定する。音声認識における誤認識区間の判定においては、音声認識処理においてある区間において探索を迷った度合いを０〜１の値で表す信頼度と呼ばれるスコアがよく用いられ、この値がある閾値以下ならば誤認識の可能性が高いと判断できる。未知語が入力された場合、必ず誤認識が生じるため、上記信頼度を利用して未知語区間を判定することが可能である。

またこの判定方法以外にも、認識結果単語列を音節に変換した文字列と認識結果音節列とを比較し音節が大きく異なる区間や、音声認識処理における音響スコアや言語スコアが低い区間などを未知語区間と判定するなど、様々な判定方法が考えられる。上記の例の場合、音声認識結果単語列のうち「映画版」の部分が未知語であると判定される。

ここでは、入力発声が文入力の場合について述べたが、コマンドをうけつけるシステムのようにあらかじめ単語のみが発声されることが分かっている場合、つまり認識結果単語列が１単語であるとあらかじめ決まっている場合や、音声認識結果単語列が１単語だった場合などは、特に上記の処理を全て行う必要はない。つまり、区間を判定することなく、その単語が認識用単語辞書中に存在しない未知語であるかどうかの判定を行えば十分であるし、認識結果が１単語だけであれば特にその単語が所定の条件に該当するかどうかの判定も行う必要は特にない。

最後に表示部５では、音声認識結果単語列「映画版を探したい」を以下のように変換してディスプレイ等に出力する。認識結果単語列は、区間判定部４で未知語であると判定された区間を明示して表示される。例えば、認識結果音節列の同じ区間の音節列と置換し、システムが未知語であると判定した区間であることを表すように記号“［”、“］”で囲む。この処理により、認識結果単語列は、図２のように“［えいががん］を探したい”という文字列に変換される。この場合、［えいががん］が未知語であると判定した区間の部分音節列である。

また、このように得られた文字列と共に図２に示すように例えば五十音順に並べられた認識用単語辞書３２の単語エントリを部分的に表示する。このとき未知語区間として置換された音節列（“えいががん”）が五十音順に並べられた認識用単語辞書３２中の単語エントリで存在すべき位置（図２では、“えいががん”は、“えいきょう”の前で、かつ“えーゆー”の後の位置に並べられる）の近傍の単語エントリが表示される。図２の例では、認識用単語辞書３２中の単語エントリは、６つの表記用文字列（「へ」、「絵」、「えー」、「英雄」、「影響」、「英語」）とその読み情報（「え」、「え」、「えー」、「えーゆー」、「えいきょう」、「えいご」）を共に表示しているが、認識用単語辞書３２の各単語エントリに記憶されている他の情報も表示しても構わないし、表記用文字列のみを表示することも考えられる。

上記実施例では、未知語であると判定された区間の認識結果単語列“英語版”を音節列“えいががん”に置換し、記号“［”、“］”で表現したが、区間判定部４が未知語であると判定した区間をユーザが簡潔に理解できるのであれば、別の手段でもよい。例えば、別の記号を用いたりアンダーラインを引いたり、置換後の音節列の文字色や背景色、大きさやフォントなどを変えたりといった手段が考えられる。また、表示される認識用単語辞書３２の単語エントリは、ユーザにとって最も直感的にわかり易い五十音順に並べた状態で表示しているが、ユーザが理解可能な並び順であれば、五十音順以外の他の並び順でも構わない。

また、上記実施例のように出力した後、ユーザからの指示・操作を受けて、出力内容を変更することも可能である。例えば、ユーザが自分の発声した単語と異なる音節列が誤って表示され、本来表示されるべき箇所でない認識用単語辞書３２の単語エントリが表示されたとしても、図４のスクロールバー４０のようなスクロール機能により表示される認識用単語辞書３２の単語エントリの位置を変更することで、正しい箇所の単語エントリを表示することが可能である。

また、十字キーによる入力やマウス操作によるカーソル移動により、区間判定部４が判定した区間の範囲や位置を変更することも考えられる。具体的には、上記実施例で区間判定部４が未知語区間を「映画」と誤って判定し、その区間に応じて結果を出力した場合、ユーザが「映画版」に区間を変更すれば、変更された区間に該当する音節列「えいががん」を求め、その音節列を元に認識用単語辞書３２の単語エントリを表示画面上に表示し直す。

また、上記実施例では、ユーザが未知語を入力したことを確認できるという例を示したが、ユーザの発声した単語が、表示される認識用単語辞書３２中の単語エントリに存在した（つまり、システムが誤って未知語だと判定した）場合や、例えば同義語のようなユーザが音声入力した単語とは異なる単語などを代わりに入力したいと思う場合などは、表示された認識用単語辞書３２の各単語エントリを選択し、その単語エントリと区間判定部４で判定された区間内の文字列とを置換する機能を有することで、認識結果文字列を訂正することも可能である。

以上、本発明の実施例を詳細に説明したが、本発明は、代表的に例示した上述の実施例に限定されるものではなく、当業者であれば、特許請求の範囲の記載内容に基づき、本発明の要旨を逸脱しない範囲内で種々の態様に変形、変更することができる。これらの変形例や変更例も本発明の権利範囲に属するものである。

例えば、上記実施例では、出力部として表示部を説明しているが、本発明は必ずしもこれに限らず、表示部以外では、スピーカ等の音声出力器や、プリンタ等の印字装置等、認識結果を確認可能なものであれば、いずれの出力手段でも適用可能である。なお、表示部は、ＣＲＴ（Cathode Ray Tube）、液晶ディスプレイ、有機ＥＬ（ＯＬＥＤ）ディスプレイ等、認識結果を表示画面上に視認可能に表示可能なものであれば、いずれの表示器を用いてもよい。

また、上記実施例では、使用言語として日本語を用いる場合を例示しているが、本発明は必ずしもこれに限らず、英語等の他の使用言語を用いる場合でも適用可能であることは言うまでもない。例えば、使用言語として英語を用いる場合、単語エントリ間に定義された順は、アルファベット順を用いてもよい。また、複数の使用言語に対応する辞書をあらかじめ用意し、その中からユーザの操作やそれに対応する指示信号により選択された使用言語の辞書を用いて、音声認識するようにしてもよい。

また、上記の音声認識システムは、そのハードウェア及びソフトウエア構成は特に限定されるものではなく、上述した各部の機能（手段）を実現可能なものであれば、いずれのものでも適用可能である。例えば、各部の機能毎に回路を独立させて構成したものでも、複数の機能を１つの回路にまとめて一体に構成したものでも、いずれのものであってもよい。或いは、全ての機能を主にソフトウエアの処理で実現するものでもあってもよい。

さらに、上記の音声認識システムを構成する各部の少なくとも一部の機能を、プログラムコードを用いて実現する場合、かかるプログラムコード及びこれを記録する記録媒体は、本発明の範疇に含まれる。この場合、オペレーティングシステム等の他のソフトウェアと共同して上記機能が実現される場合は、それらのプログラムコードも含まれる。

本発明によれば、ユーザが発声した音声を認識しその認識結果を用いて検索や翻訳などを行うシステムで、音声認識の結果を表示するといった用途に適応できる。

Claims

入力された音声を所定の認識用単語辞書を用いて認識結果単語列に変換する単語音声認識部と、
入力された前記音声を認識結果音節列に変換する音節認識部と、
変換された前記認識結果単語列のうち未知語であると推定する根拠となる所定の条件に該当する区間を判定する区間判定部と、
判定された前記区間に対応する前記認識結果音節列中の部分音節列を求め、あらかじめ単語エントリ間に定義された順に並べられた前記認識用単語辞書中で前記部分音節列が並べられる位置の近傍の１つ以上の単語エントリと、前記認識結果単語列とを共に出力する出力部と、を備えたことを特徴とする音声認識システム。
前記音節認識部は、所定の認識用音節辞書を用いて、入力された前記音声を前記認識結果音節列に変換することを特徴とする請求項１に記載の音声認識システム。
前記出力部は、前記認識結果単語列を前記区間判定部で判定された区間に関して前記部分音節列で置換して出力することを特徴とする請求項１または請求項２に記載の音声認識システム。
前記出力部は、前記区間判定部で判定された区間を明示して出力することを特徴とする請求項１ないし請求項３のいずれか１項に記載の音声認識システム。
前記定義された順は、五十音順であることを特徴とする請求項１ないし請求項４のいずれか１項に記載の音声認識システム。
前記出力部は、ユーザの指示に応じて出力する前記認識用単語辞書の前記単語エントリを変更する機能を備えていることを特徴とする請求項１ないし請求項５のいずれか１項に記載の音声認識システム。
前記出力部は、ユーザにより前記認識用単語辞書中の単語エントリが選択されたときに作動し、前記区間判定部で判定された区間に表示されている文字列と前記選択された単語エントリの表記用文字列とを置換する機能を備えたことを特徴とする請求項１ないし請求項６のいずれか１項に記載の音声認識システム。
前記出力部は、前記区間判定部で判定された区間を前記ユーザの指示によってその範囲を変更する機能を備えたことを特徴とする請求項１ないし請求項７のいずれか１項に記載の音声認識システム。
前記出力部は、前記ユーザの指示によって範囲を変更された新たな区間に応じて出力内容を変更する機能を備えたことを特徴とする請求項８に記載の音声認識システム。
入力された音声を所定の認識用単語辞書を用いて認識結果単語列に変換する単語音声認識工程と、
入力された前記音声を認識結果音節列に変換する音節認識工程と、
変換された前記認識結果単語列のうち未知語であると推定する根拠となる所定の条件に該当する区間を判定する区間判定工程と、
判定された前記区間に対応する前記認識結果音節列中の部分音節列を求め、あらかじめ単語エントリ間に定義された順に並べられた前記認識用単語辞書中で前記部分音節列が並べられる位置の近傍の１つ以上の単語エントリと、前記認識結果単語列とを共に出力する出力工程と、を備えたことを特徴とする音声認識結果出力方法。
前記音節認識工程では、所定の認識用音節辞書を用いて前記入力された音声を前記認識結果音節列に変換することを特徴とする請求項１０に記載の音声認識結果出力方法。
前記出力工程では、前記認識結果単語列を前記区間判定部で判定された区間に関して前記部分音節列で置換して出力することを特徴とする請求項１０または請求項１１に記載の音声認識結果出力方法。
前記出力工程では、前記区間判定部で判定された区間を明示して出力することを特徴とする請求項１０ないし請求項１２のいずれか１項に記載の音声認識結果出力方法。
前記定義された順は、五十音順であることを特徴とする請求項１０ないし請求項１３のいずれか１項に記載の音声認識結果出力方法。
前記出力工程では、ユーザの指示に応じて出力する前記認識用単語辞書の前記単語エントリを変更することを特徴とする請求項１０ないし請求項１４のいずれか１項に記載の音声認識結果出力方法。
前記出力工程では、ユーザにより前記認識用単語辞書中の単語エントリが選択されたとときに、前記区間判定部で判定された区間に表示されている文字列と前記選択された単語エントリの表記用文字列とを置換することを特徴とする請求項１０ないし請求項１５のいずれか１項に記載の音声認識結果出力方法。
前記出力工程では、前記区間判定部で判定された区間を前記ユーザの指示によってその範囲を変更することを特徴とする請求項１０ないし請求項１６のいずれか１項に記載の音声認識結果出力方法。
前記出力工程では、前記ユーザの指示によって範囲を変更された新たな区間に応じて出力内容を変更することを特徴とする請求項１７に記載の音声認識結果出力方法。
コンピュータに、
入力された音声を所定の認識用単語辞書を用いて認識結果単語列に変換する単語音声認識処理と、
入力された前記音声を認識結果音節列に変換する音節認識処理と、
変換された前記認識結果単語列うち未知語であると推定する根拠となる所定の条件に該当する区間を判定する区間判定処理と、
判定された前記区間に対応する前記認識結果音節列中の部分音節列を求め、あらかじめ単語エントリ間に定義された順に並べられた前記認識用単語辞書中で前記部分音節列が並べられる位置の近傍の１つ以上の単語エントリと、前記認識結果単語列とを共に出力する出力処理と、を実行させることを特徴とする音声認識結果出力プログラム。
前記音節認識処理では、所定の認識用音節辞書を用いて前記入力された音声を前記認識結果音節列に変換することを特徴とする請求項１９に記載の音声認識結果出力プログラム。
前記出力処理では、前記認識結果単語列を前記区間判定部で判定された区間に関して前記部分音節列で置換して出力することを特徴とする請求項１９または請求項２０に記載の音声認識結果出力プログラム。
前記出力処理では、前記区間判定部で判定された区間を明示して出力することを特徴とする請求項１９ないし請求項２１のいずれか１項に記載の音声認識結果出力プログラム。
前記定義された順は、五十音順であることを特徴とする請求項１９ないし請求項２２のいずれか１項に記載の音声認識結果出力プログラム。
前記出力処理では、ユーザの指示に応じて出力する前記認識用単語辞書の前記単語エントリを変更することを特徴とする請求項１９ないし請求項２３のいずれか１項に記載の音声認識結果出力プログラム。
前記出力処理では、ユーザにより前記認識用単語辞書中の単語エントリが選択されたとときに、前記区間判定部で判定された区間に表示されている文字列と前記選択された単語エントリの表記用文字列とを置換することを特徴とする請求項１９ないし請求項２４のいずれか１項に記載の音声認識結果出力プログラム。
前記出力処理では、前記区間判定部で判定された区間を前記ユーザの指示によってその範囲を変更することを特徴とする請求項１９ないし請求項２５のいずれか１項に記載の音声認識結果出力プログラム。
前記出力処理では、前記ユーザの指示によって範囲を変更された新たな区間に応じて出力内容を変更することを特徴とする請求項２６に記載の音声認識結果出力プログラム。