JPWO2007097390A1 - 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム - Google Patents
音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム Download PDFInfo
- Publication number
- JPWO2007097390A1 JPWO2007097390A1 JP2008501750A JP2008501750A JPWO2007097390A1 JP WO2007097390 A1 JPWO2007097390 A1 JP WO2007097390A1 JP 2008501750 A JP2008501750 A JP 2008501750A JP 2008501750 A JP2008501750 A JP 2008501750A JP WO2007097390 A1 JPWO2007097390 A1 JP WO2007097390A1
- Authority
- JP
- Japan
- Prior art keywords
- word
- recognition result
- recognition
- output
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 61
- 230000008569 process Effects 0.000 claims description 32
- 230000008859 change Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 description 11
- 239000000470 constituent Substances 0.000 description 6
- 206010028980 Neoplasm Diseases 0.000 description 5
- 201000011510 cancer Diseases 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
ユーザが未知語等の所定の条件を満たす語を含んだ発声をした場合でも、その旨をユーザに提示し、ユーザが容易に確認できる音声認識システムを提供する。音声認識システムは、入力された音声を所定の認識用単語辞書を用いて認識結果単語列に変換する単語音声認識部と、入力された音声を認識結果音節列に変換する音節認識部と、認識結果単語列のうち未知語であると推定する根拠となる所定の条件に該当する区間を判定する区間判定部と、判定された区間に対応する認識結果音節列中の部分音節列を求め、あらかじめ単語エントリ間に定義された順に並べられた認識用単語辞書中で部分音節列が並べられる位置の近傍の1つ以上の単語エントリと認識結果単語列とを共に出力する出力部と、を備える。
Description
本発明は、音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラムに関し、特に音声認識結果を確認するためのシステム、方法、及びプログラムに関する。
ユーザが発声した音声を認識し、その認識結果を用いて検索や翻訳などを行うシステムにおいて、認識誤りは最終的に出力される検索結果や翻訳結果などに大きな影響を及ぼす。このような誤認識に対する解決策として、特許文献1には、図6に示すように表示画面上に音声認識結果の第1候補だけでなく下位候補もあわせて表示することで、もし誤認識が生じていてもユーザが簡単に認識結果を修正できるような方法の一例が記載されている。図6に示す表示画面の例では、「北海道札幌市」が第1候補で、以下、「北海道室蘭市」、「北海道苫小牧市」、「北海道函館市」、「北海道旭川市」、・・・、と下位候補を確からしい語彙順に表示している。
ユーザが発声した音声を認識し、その認識結果を用いて検索や翻訳などを行うシステムにおいて、ユーザが認識辞書に存在しない単語(以下、「未知語」という)を含んだ発声をする場合がある。この時、認識辞書に存在する他の単語に誤認識した結果が出力されることになる。また、認識結果の第一候補だけでなく下位候補にも、発声された単語は一切出現しない。そのため、特許文献1のように認識結果の第一候補だけでなく他の下位候補を出力したとしても、ユーザは誤認識した箇所を修正することができない。
また、ユーザは、表示された下位候補の中に修正したい単語が存在しなかった場合、自分の発声した単語は、認識可能な(辞書中に存在する)単語であるが、たまたま表示された下位候補の中に存在しなかったのか、あるいは認識不可能な(辞書中に存在しない)単語であり、そもそも認識することが不可能なのか、が区別できない。前者の場合は、再度発声することで正しい認識結果が得られる可能性があるが、後者の場合、再度発声しても正しい認識結果が得られず、結果的にそもそも認識できない単語(未知語)を含んだ発声を何度も繰り返すことが起こり得る。
本発明の目的は、ユーザが未知語を含んだ発声をした場合でも、その単語が未知語であることをユーザに提示し、ユーザが容易に確認できる音声認識システムを提供することにある。
本発明の音声認識システムは、入力された音声を所定の認識用単語辞書を用いて認識結果単語列に変換する単語音声認識部と、入力された音声を認識結果音節列に変換する音節認識部と、変換された認識結果単語列のうち未知語であると推定する根拠となる所定の条件に該当する区間を判定する区間判定部と、判定された区間に対応する認識結果音節列中の部分音節列を求め、あらかじめ単語エントリ間に定義された順に並べられた認識用単語辞書中で部分音節列が並べられる位置の近傍の1つ以上の単語エントリと認識結果単語列とを共に出力する出力部とを備えている。
上記音声認識システムによれば、入力された音声の認識結果として単語音声認識部が仮名漢字交じりの認識結果単語列を、音節認識部が認識結果音節列を出力する。区間判定部は、認識結果単語列の中で所定の条件に該当する区間を判定し、表示部は、認識結果単語列と認識用単語辞書で部分音節列が並べられる位置の近傍の単語エントリとを併せて表示する。このような構成により、ユーザが所定の未知語を含んだ発声をした場合でも、その旨をユーザに提示することができ、ユーザがそれを容易に確認することができる。
上記音声認識システムにおいて、音節認識部は、所定の認識用音節辞書を用いて入力された音声を認識結果音節列に変換するようにしてもよい。このようにすれば、例えば入力音声に未知語が含まれる場合などに、精度の良い認識結果音節列を得ることができる。
上記音声認識システムにおいて、出力部は、認識結果単語列を区間判定部で判定された区間に関して部分音節列で置換して出力するようにしてもよい。このようにすれば、ユーザは、発声した単語が正しく音節列として認識されているか否かを確認することができる。
上記音声認識システムにおいて、出力部は、区間判定部で判定された区間を明示して出力するようにしてもよい。このようにすれば、ユーザは、出力された単語列のうちどの部分が所定の条件に該当する部分であるかを明確に知ることができる。
上記音声認識システムにおいて、定義された順を五十音順としてもよい。このようにすれば、ユーザにとってもっと直感的にわかりよい並び順で単語エントリを表示することができる。
上記音声認識システムにおいて、出力部は、ユーザの指示に応じて出力する認識用単語辞書の単語エントリを変更する機能を備えるようにしてもよい。このようにすれば、ユーザが自分の発声した単語と異なる音節列が誤って表示され、本来表示されるべき箇所でない認識用単語辞書が表示されたとしても、表示される認識用単語辞書の位置を変更し、正しい箇所を表示することができる。
上記音声認識システムにおいて、出力部は、ユーザにより認識用単語辞書中の単語エントリが選択されたときに作動し、区間判定部で判定された区間に表示されている文字列と選択された単語エントリの表記用文字列とを置換する機能を備えるようにしてもよい。このようにすれば、ユーザの発声した単語が表示される単語辞書中に存在した(つまり、システムが誤って未知語だと判定した)場合や、例えば同義語のようなユーザが音声入力した単語とは異なる単語などを変わりに入力したいと思う場合などに、認識結果文字列を訂正するこができる。
上記音声認識システムにおいて、出力部は、区間判定部で判定された区間をユーザの指示によってその範囲を変更する機能を備えるようにしてもよい。このようにすれば、区間判定部が所定の条件に該当する区間を誤って判定した場合でも、ユーザがその区間を訂正することができる。
上記音声認識システムにおいて、出力部は、ユーザの指示によって範囲を変更された新たな区間に応じて出力内容を変更する機能を備えるようにしてもよい。このようにすれば、例えば認識用単語辞書の表示部分を正しいものに変更する等、区間の変更結果に応じた表示をすることができる。
本発明の音声認識結果出力方法は、入力された音声を所定の認識用単語辞書を用いて認識結果単語列に変換する単語音声認識工程と、入力された音声を認識結果音節列に変換する音節認識工程と、変換された認識結果単語列のうち未知語であると推定する根拠となる所定の条件に該当する区間を判定する区間判定工程と、判定された区間に対応する認識結果音節列中の工程分音節列を求め、あらかじめ単語エントリ間に定義された順に並べられた認識用単語辞書中で工程分音節列が並べられる位置の近傍の1つ以上の単語エントリと認識結果単語列とを共に出力する出力工程とを備えている。
上記音声認識結果出力方法によれば、単語音声認識工程と音節認識工程により入力された音声を仮名漢字交じりの認識結果単語列と認識結果音節列に変換する。区間判定工程では、認識結果単語列の中で所定の条件に該当する区間を判定し、表示工程では、認識結果単語列と認識用単語辞書で部分音節列が並べられる位置の近傍の単語エントリとを併せて表示する。このような方法により、ユーザが所定の条件を満たす語を含んだ発声をした場合でも、その旨をユーザに提示することができ、ユーザがそれを容易に確認することができる。
上記音声認識結果出力方法において、音節認識工程では、所定の認識用音節辞書を用いて入力された音声を認識結果音節列に変換するようにしてもよい。このようにすれば、例えば入力音声に未知語が含まれる場合などに、精度の良い認識結果音節列を得ることができる。
上記音声認識結果出力方法において、出力工程では、認識結果単語列を区間判定部で判定された区間に関して部分音節列で置換して出力するようにしてもよい。このようにすれば、ユーザは、発声した単語が正しく音節列として認識されているか否かを確認することができる。
上記音声認識結果出力方法において、出力工程では、区間判定部で判定された区間を明示して出力するようにしてもよい。このようにすれば、ユーザは、出力された単語列のうちどの部分が所定の条件に該当する部分であるかを明確に知ることができる。
上記音声認識結果出力方法において、定義された順を五十音順としてもよい。このようにすれば、ユーザにとってもっと直感的にわかりよい並び順で単語エントリを表示することができる。
上記音声認識結果出力方法において、出力工程では、ユーザの指示に応じて出力する認識用単語辞書の単語エントリを変更するようにしてもよい。このようにすれば、ユーザが自分の発声した単語と異なる音節列が誤って表示され、本来表示されるべき箇所でない認識用単語辞書が表示されたとしても、表示される認識用単語辞書の位置を変更し、正しい箇所を表示することができる。
上記音声認識結果出力方法において、出力工程では、ユーザにより認識用単語辞書中の単語エントリが選択されたとときに、区間判定部で判定された区間に表示されている文字列と選択された単語エントリの表記用文字列とを置換するようにしてもよい。このようにすれば、ユーザの発声した単語が表示される単語辞書中に存在した(つまり、結果出力方法が誤って未知語だと判定した)場合や、例えば同義語のようなユーザが音声入力した単語とは異なる単語などを変わりに入力したいと思う場合などに、認識結果文字列を訂正するこができる。
上記音声認識結果出力方法において、出力工程では、区間判定部で判定された区間をユーザの指示によってその範囲を変更するようにしてもよい。このようにすれば、区間判定工程において所定の条件に該当する区間を誤って判定した場合でも、ユーザがその区間を訂正することができる。
上記音声認識結果出力方法において、出力工程では、ユーザの指示によって範囲を変更された新たな区間に応じて出力内容を変更するようにしてもよい。このようにすれば、例えば認識用単語辞書の表示部分を正しいものに変更する等、区間の変更結果に応じた表示をすることができる。
本発明の音声認識結果出力プログラムは、コンピュータに、入力された音声を認識用単語辞書を用いて認識結果単語列に変換する単語音声認識処理と、入力された音声を認識結果音節列に変換する音節認識処理と、変換された認識結果単語列のうち未知語であると推定する根拠となる所定の条件に該当する区間を判定する区間判定処理と、判定された区間に対応する認識結果音節列中の処理分音節列を求め、あらかじめ単語エントリ間に定義された順に並べられた認識用単語辞書中で処理分音節列が並べられる位置の近傍の1つ以上の単語エントリと認識結果単語列とを共に出力する出力処理とを実行させる。
上記音声認識結果出力プログラムによれば、単語音声認識処理と音節認識処理により入力された音声を仮名漢字交じりの認識結果単語列と認識結果音節列に変換する。区間判定処理では、認識結果単語列の中で所定の条件に該当する区間を判定し、表示処理では、認識結果単語列と認識用単語辞書で部分音節列が並べられる位置の近傍の単語エントリとを併せて表示する。このような処理をコンピュータに実行させることにより、ユーザが所定の条件を満たす語を含んだ発声をした場合でも、その旨をユーザに提示することができ、ユーザがそれを容易に確認することができる。
上記音声認識結果出力プログラムにおいて、音節認識処理では、所定の認識用音節辞書を用いて入力された音声を認識結果音節列に変換するようにしてもよい。このようにすれば、例えば入力音声に未知語が含まれる場合などに、精度の良い認識結果音節列を得ることができる。
上記音声認識結果出力プログラムにおいて、出力処理では、認識結果単語列を区間判定部で判定された区間に関して部分音節列で置換して出力するようにしてもよい。このようにすれば、ユーザは、発声した単語が正しく音節列として認識されているか否かを確認することができる。
上記音声認識結果出力プログラムにおいて、出力処理では、区間判定部で判定された区間を明示して出力するようにしてもよい。このようにすれば、ユーザは、出力された単語列のうちどの部分が所定の条件に該当する部分であるかを明確に知ることができる。
上記音声認識結果出力プログラムにおいて、定義された順を五十音順としてもよい。このようにすれば、ユーザにとってもっと直感的にわかりよい並び順で単語エントリを表示することができる。
上記音声認識結果出力プログラムにおいて、出力処理では、ユーザの指示に応じて出力する認識用単語辞書の単語エントリを変更するようにしてもよい。このようにすれば、ユーザが自分の発声した単語と異なる音節列が誤って表示され、本来表示されるべき箇所でない認識用単語辞書が表示されたとしても、表示される認識用単語辞書の位置を変更し、正しい箇所を表示することができる。
上記音声認識結果出力プログラムにおいて、出力処理では、ユーザにより認識用単語辞書中の単語エントリが選択されたとときに、区間判定部で判定された区間に表示されている文字列と選択された単語エントリの表記用文字列とを置換するようにしてもよい。このようにすれば、ユーザの発声した単語が表示される単語辞書中に存在した(つまり、結果出力プログラムが誤って未知語だと判定した)場合や、例えば同義語のようなユーザが音声入力した単語とは異なる単語などを変わりに入力したいと思う場合などに、認識結果文字列を訂正するこができる。
上記音声認識結果出力プログラムにおいて、出力処理では、区間判定部で判定された区間をユーザの指示によってその範囲を変更するようにしてもよい。このようにすれば、区間判定処理において所定の条件に該当する区間を誤って判定した場合でも、ユーザがその区間を訂正することができる。
上記音声認識結果出力プログラムにおいて、出力処理では、ユーザの指示によって範囲を変更された新たな区間に応じて出力内容を変更するようにしてもよい。このようにすれば、例えば認識用単語辞書の表示部分を正しいものに変更する等、区間の変更結果に応じた表示をすることができる。
本発明によれば、入力された音声の認識結果として仮名漢字交じりの認識結果単語列と認識結果音節列を出力する。そして、認識結果単語列の中で所定の条件に該当する区間を判定し、認識結果単語列と認識用単語辞書で部分音節列が並べられる位置の近傍の単語エントリとを併せて表示する。そのため、ユーザが未知語を含んだ発声をした場合でも、その旨をユーザに提示することができ、ユーザがそれを容易に確認することができる。
1 入力部
2 音声認識部
4 区間判定部
5 表示部
10 音声認識システム
21 音節認識部
22 単語認識部
31 認識用音節辞書
32 認識用単語辞書
2 音声認識部
4 区間判定部
5 表示部
10 音声認識システム
21 音節認識部
22 単語認識部
31 認識用音節辞書
32 認識用単語辞書
次に、図面を参照しながら、本発明の一実施形態である音声認識システムの構成と動作について説明する。
図1は、本実施形態に係る音声認識システム10の機能ブロック図である。図1を参照すると、音声認識システム10は、マイク等の音声入力器により音声を入力するための入力部1と、入力された音声をその認識結果として単語列及び音節列に変換する音声認識部2と、認識用音節辞書31と、認識結果単語列の最小構成単位である単語の集合を記憶した認識用単語辞書32と、入力音声中の所定の条件に該当する区間を判定する区間判定部4と、最終結果をディスプレイ等の表示画面上に視認可能に出力する表示部(本発明の出力部の一例に対応する。)5と、を備えている。
音声認識部2は、音節認識部21と、単語認識部(本発明の単語音声認識部の一例に対応する。)22とを備えている。このうち、音節認識部21は、入力音声を認識結果音節列に変換し、区間判定部4へ出力する。音節列への変換は、認識用音節辞書31を用いて行っても良いし、他の方法で行ってもよい。また、単語認識部22は、入力部1から与えられた入力音声を、認識用単語辞書32を用いて認識結果単語列に変換し、区間判定部4へ出力する。
認識用音節辞書31には、認識結果音節列の最小構成単位である音節が記憶されている。
認識用単語辞書32には、図5に示すように認識可能な単語エントリ(「アーティスト」、「ああ」、「開い」、「アイコン」、「合図」、「相手」等)が、表記用文字列や読み情報等(「あーてぃすと」、「ああ」、「あい」、「あいこん」、「あいず」、「あいて」等)との組として記憶されている。表記用文字列は、主に漢字仮名混じりの文字列で表現され、認識結果として利用される。読み情報は、音節列で表現され、あらかじめ単語エントリ間に定義された順、例えば五十音順などの順番に、認識用単語辞書32の単語エントリを並べる際に利用される。
図4は、音声認識部2による認識結果の一例を示す。認識用単語辞書32に記憶されている単語を最小単位として構成される仮名漢字交じりの認識結果単語列“英語版を探したい”と、認識用音節辞書31に記憶されている音節を最小単位として構成される認識結果音節列“えいががんをさがしたい”とに変換される。なお、図4では「映画館」が未知語であるため、認識結果単語列では「英語版」と誤認識した例を示している。また、認識結果音節列もある程度の誤りを含む例を示している。
区間判定部4は、音声認識部2から出力される認識結果単語列のうち、未知語が発声されたといったようなある所定の条件に該当すると思われる区間を判定する。
表示部5は、図2に示すように音声認識部2から出力される認識結果単語列41と、認識結果音節列42と、区間判定部4で判定された区間と、認識用単語辞書32の一部の単語エントリ43とをディスプレイの表示画面上に出力する。認識結果単語列41には、例えば音声認識部2から出力される認識結果音節列42の中で該当する部分音節列に置換したり、記号(図2では“[”、“]”)で表現したりすることにより、区間判定部4で未知語区間であると判定された区間を明示する。
認識用単語辞書32の一部の単語エントリ43としては、未知語区間であると判定された区間に該当する部分音節列が五十音順に並べられた認識用単語辞書32中で存在すべき位置の近傍の1つ以上(図2の例では6つ)の単語エントリを表示する。
次に、図1及び図3のフローチャートを参照して、音声認識システム10の動作について詳細に説明する。
まず、ユーザは、マイク等の音声入力器を用いて、音声認識システム10に音声を入力する(ステップS101)。入力された音声は、入力部1から音声認識部2に供給される。
次いで、音声認識部2は、入力された音声(入力音声)を認識する(ステップS102)。このとき、単語認識部22は、認識用単語辞書32を用いて、この入力音声を、認識用単語辞書32中に存在する単語を最小構成単位とする認識結果単語列に変換し、音節認識部21は、その入力音声を、音節を最小構成単位とする認識結果音節列に変換する。音声認識部2による認識結果として得られた、これらの文字列は、区間判定部4に供給される。
次いで、区間判定部4は、この認識結果単語列に対し、例えば未知語区間のようなある所定の条件に該当する区間を判定する(ステップS103)。
次いで、表示部5は、認識結果として認識結果単語列と判定された区間と、あらかじめ定義された順に並べられた認識用単語辞書の一部の単語エントリとを表示する(ステップS104)。ここで、ユーザの指示に応じて出力する認識用単語辞書の単語エントリを変更するようにしてもよい。また、ユーザが表示された認識用単語辞書32の単語エントリを選択したときに区間判定部4により判定された区間に表示されている文字列と、選択された単語エントリの表記用文字列とを置換するようにしても良い。また、区間判定部4で判定された区間をユーザの指示によってその範囲を変更するようにし、その変更された範囲に応じて出力内容を変更するようにしても良い。
従って、本実施形態によれば、ユーザの発声内容に未知語が含まれていても、区間判定部4が認識結果単語列中における未知語が含まれる区間を判定し、表示部5がその区間を明示し、かつ、認識用単語辞書32中でその区間に該当する認識結果音節列が含まれるべき位置の近傍の単語エントリを表示画面上に視認可能に表示する。このため、ユーザは、自分の発声した単語が認識単語辞書32中に存在するのかしないのかを容易に確認することができる。
次に、本発明の一実施例を、図面を参照して説明する。かかる実施例は、前述した本発明の一実施形態に対応するものである。
今、ユーザが「映画館を探したい」と音声認識システム10に向かって発声したとする。単語認識部22は、この入力音声「映画館を探したい」に対し、音響モデル・言語モデル・認識用辞書等を用いて音声認識処理を行うことで、認識用単語辞書32に登録されている単語を最小構成単位とする認識結果単語列「英語版を探したい」を生成する(図4)。
ここでは、「映画館」を未知語であるとし、入力音声と構成音節が近い認識用単語辞書32中の単語の組み合わせである「英語版」と誤って認識されたとする。また、このとき同時に入力音声「映画館を探したい」に対し、同様に最小構成単位を音節とする認識結果音節列「えいががんをさがしたい」を音節認識部21が生成する(図4)。
この音節列は、図1のように単語を単位とした音声認識処理とは別に、認識用音節辞書31を用いて音節を最小構成単位とした音声認識処理を行って得ることが可能である。また、認識用音節辞書31を用いずに、音声認識結果単語列中の各単語を認識用単語辞書32中の読み情報に変換するような処理によって得ることも可能である。
次に、区間判定部4は、入力発声に認識用単語辞書32中に存在しない未知語が含まれるかどうか、また含まれるのであればどの区間であるかを判定する。音声認識における誤認識区間の判定においては、音声認識処理においてある区間において探索を迷った度合いを0〜1の値で表す信頼度と呼ばれるスコアがよく用いられ、この値がある閾値以下ならば誤認識の可能性が高いと判断できる。未知語が入力された場合、必ず誤認識が生じるため、上記信頼度を利用して未知語区間を判定することが可能である。
またこの判定方法以外にも、認識結果単語列を音節に変換した文字列と認識結果音節列とを比較し音節が大きく異なる区間や、音声認識処理における音響スコアや言語スコアが低い区間などを未知語区間と判定するなど、様々な判定方法が考えられる。上記の例の場合、音声認識結果単語列のうち「映画版」の部分が未知語であると判定される。
ここでは、入力発声が文入力の場合について述べたが、コマンドをうけつけるシステムのようにあらかじめ単語のみが発声されることが分かっている場合、つまり認識結果単語列が1単語であるとあらかじめ決まっている場合や、音声認識結果単語列が1単語だった場合などは、特に上記の処理を全て行う必要はない。つまり、区間を判定することなく、その単語が認識用単語辞書中に存在しない未知語であるかどうかの判定を行えば十分であるし、認識結果が1単語だけであれば特にその単語が所定の条件に該当するかどうかの判定も行う必要は特にない。
最後に表示部5では、音声認識結果単語列「映画版を探したい」を以下のように変換してディスプレイ等に出力する。認識結果単語列は、区間判定部4で未知語であると判定された区間を明示して表示される。例えば、認識結果音節列の同じ区間の音節列と置換し、システムが未知語であると判定した区間であることを表すように記号“[”、“]”で囲む。この処理により、認識結果単語列は、図2のように“[えいががん]を探したい”という文字列に変換される。この場合、[えいががん]が未知語であると判定した区間の部分音節列である。
また、このように得られた文字列と共に図2に示すように例えば五十音順に並べられた認識用単語辞書32の単語エントリを部分的に表示する。このとき未知語区間として置換された音節列(“えいががん”)が五十音順に並べられた認識用単語辞書32中の単語エントリで存在すべき位置(図2では、“えいががん”は、“えいきょう”の前で、かつ“えーゆー”の後の位置に並べられる)の近傍の単語エントリが表示される。図2の例では、認識用単語辞書32中の単語エントリは、6つの表記用文字列(「へ」、「絵」、「えー」、「英雄」、「影響」、「英語」)とその読み情報(「え」、「え」、「えー」、「えーゆー」、「えいきょう」、「えいご」)を共に表示しているが、認識用単語辞書32の各単語エントリに記憶されている他の情報も表示しても構わないし、表記用文字列のみを表示することも考えられる。
上記実施例では、未知語であると判定された区間の認識結果単語列“英語版”を音節列“えいががん”に置換し、記号“[”、“]”で表現したが、区間判定部4が未知語であると判定した区間をユーザが簡潔に理解できるのであれば、別の手段でもよい。例えば、別の記号を用いたりアンダーラインを引いたり、置換後の音節列の文字色や背景色、大きさやフォントなどを変えたりといった手段が考えられる。また、表示される認識用単語辞書32の単語エントリは、ユーザにとって最も直感的にわかり易い五十音順に並べた状態で表示しているが、ユーザが理解可能な並び順であれば、五十音順以外の他の並び順でも構わない。
また、上記実施例のように出力した後、ユーザからの指示・操作を受けて、出力内容を変更することも可能である。例えば、ユーザが自分の発声した単語と異なる音節列が誤って表示され、本来表示されるべき箇所でない認識用単語辞書32の単語エントリが表示されたとしても、図4のスクロールバー40のようなスクロール機能により表示される認識用単語辞書32の単語エントリの位置を変更することで、正しい箇所の単語エントリを表示することが可能である。
また、十字キーによる入力やマウス操作によるカーソル移動により、区間判定部4が判定した区間の範囲や位置を変更することも考えられる。具体的には、上記実施例で区間判定部4が未知語区間を「映画」と誤って判定し、その区間に応じて結果を出力した場合、ユーザが「映画版」に区間を変更すれば、変更された区間に該当する音節列「えいががん」を求め、その音節列を元に認識用単語辞書32の単語エントリを表示画面上に表示し直す。
また、上記実施例では、ユーザが未知語を入力したことを確認できるという例を示したが、ユーザの発声した単語が、表示される認識用単語辞書32中の単語エントリに存在した(つまり、システムが誤って未知語だと判定した)場合や、例えば同義語のようなユーザが音声入力した単語とは異なる単語などを代わりに入力したいと思う場合などは、表示された認識用単語辞書32の各単語エントリを選択し、その単語エントリと区間判定部4で判定された区間内の文字列とを置換する機能を有することで、認識結果文字列を訂正することも可能である。
以上、本発明の実施例を詳細に説明したが、本発明は、代表的に例示した上述の実施例に限定されるものではなく、当業者であれば、特許請求の範囲の記載内容に基づき、本発明の要旨を逸脱しない範囲内で種々の態様に変形、変更することができる。これらの変形例や変更例も本発明の権利範囲に属するものである。
例えば、上記実施例では、出力部として表示部を説明しているが、本発明は必ずしもこれに限らず、表示部以外では、スピーカ等の音声出力器や、プリンタ等の印字装置等、認識結果を確認可能なものであれば、いずれの出力手段でも適用可能である。なお、表示部は、CRT(Cathode Ray Tube)、液晶ディスプレイ、有機EL(OLED)ディスプレイ等、認識結果を表示画面上に視認可能に表示可能なものであれば、いずれの表示器を用いてもよい。
また、上記実施例では、使用言語として日本語を用いる場合を例示しているが、本発明は必ずしもこれに限らず、英語等の他の使用言語を用いる場合でも適用可能であることは言うまでもない。例えば、使用言語として英語を用いる場合、単語エントリ間に定義された順は、アルファベット順を用いてもよい。また、複数の使用言語に対応する辞書をあらかじめ用意し、その中からユーザの操作やそれに対応する指示信号により選択された使用言語の辞書を用いて、音声認識するようにしてもよい。
また、上記の音声認識システムは、そのハードウェア及びソフトウエア構成は特に限定されるものではなく、上述した各部の機能(手段)を実現可能なものであれば、いずれのものでも適用可能である。例えば、各部の機能毎に回路を独立させて構成したものでも、複数の機能を1つの回路にまとめて一体に構成したものでも、いずれのものであってもよい。或いは、全ての機能を主にソフトウエアの処理で実現するものでもあってもよい。
さらに、上記の音声認識システムを構成する各部の少なくとも一部の機能を、プログラムコードを用いて実現する場合、かかるプログラムコード及びこれを記録する記録媒体は、本発明の範疇に含まれる。この場合、オペレーティングシステム等の他のソフトウェアと共同して上記機能が実現される場合は、それらのプログラムコードも含まれる。
本発明によれば、ユーザが発声した音声を認識しその認識結果を用いて検索や翻訳などを行うシステムで、音声認識の結果を表示するといった用途に適応できる。
Claims (27)
- 入力された音声を所定の認識用単語辞書を用いて認識結果単語列に変換する単語音声認識部と、
入力された前記音声を認識結果音節列に変換する音節認識部と、
変換された前記認識結果単語列のうち未知語であると推定する根拠となる所定の条件に該当する区間を判定する区間判定部と、
判定された前記区間に対応する前記認識結果音節列中の部分音節列を求め、あらかじめ単語エントリ間に定義された順に並べられた前記認識用単語辞書中で前記部分音節列が並べられる位置の近傍の1つ以上の単語エントリと、前記認識結果単語列とを共に出力する出力部と、を備えたことを特徴とする音声認識システム。 - 前記音節認識部は、所定の認識用音節辞書を用いて、入力された前記音声を前記認識結果音節列に変換することを特徴とする請求項1に記載の音声認識システム。
- 前記出力部は、前記認識結果単語列を前記区間判定部で判定された区間に関して前記部分音節列で置換して出力することを特徴とする請求項1または請求項2に記載の音声認識システム。
- 前記出力部は、前記区間判定部で判定された区間を明示して出力することを特徴とする請求項1ないし請求項3のいずれか1項に記載の音声認識システム。
- 前記定義された順は、五十音順であることを特徴とする請求項1ないし請求項4のいずれか1項に記載の音声認識システム。
- 前記出力部は、ユーザの指示に応じて出力する前記認識用単語辞書の前記単語エントリを変更する機能を備えていることを特徴とする請求項1ないし請求項5のいずれか1項に記載の音声認識システム。
- 前記出力部は、ユーザにより前記認識用単語辞書中の単語エントリが選択されたときに作動し、前記区間判定部で判定された区間に表示されている文字列と前記選択された単語エントリの表記用文字列とを置換する機能を備えたことを特徴とする請求項1ないし請求項6のいずれか1項に記載の音声認識システム。
- 前記出力部は、前記区間判定部で判定された区間を前記ユーザの指示によってその範囲を変更する機能を備えたことを特徴とする請求項1ないし請求項7のいずれか1項に記載の音声認識システム。
- 前記出力部は、前記ユーザの指示によって範囲を変更された新たな区間に応じて出力内容を変更する機能を備えたことを特徴とする請求項8に記載の音声認識システム。
- 入力された音声を所定の認識用単語辞書を用いて認識結果単語列に変換する単語音声認識工程と、
入力された前記音声を認識結果音節列に変換する音節認識工程と、
変換された前記認識結果単語列のうち未知語であると推定する根拠となる所定の条件に該当する区間を判定する区間判定工程と、
判定された前記区間に対応する前記認識結果音節列中の部分音節列を求め、あらかじめ単語エントリ間に定義された順に並べられた前記認識用単語辞書中で前記部分音節列が並べられる位置の近傍の1つ以上の単語エントリと、前記認識結果単語列とを共に出力する出力工程と、を備えたことを特徴とする音声認識結果出力方法。 - 前記音節認識工程では、所定の認識用音節辞書を用いて前記入力された音声を前記認識結果音節列に変換することを特徴とする請求項10に記載の音声認識結果出力方法。
- 前記出力工程では、前記認識結果単語列を前記区間判定部で判定された区間に関して前記部分音節列で置換して出力することを特徴とする請求項10または請求項11に記載の音声認識結果出力方法。
- 前記出力工程では、前記区間判定部で判定された区間を明示して出力することを特徴とする請求項10ないし請求項12のいずれか1項に記載の音声認識結果出力方法。
- 前記定義された順は、五十音順であることを特徴とする請求項10ないし請求項13のいずれか1項に記載の音声認識結果出力方法。
- 前記出力工程では、ユーザの指示に応じて出力する前記認識用単語辞書の前記単語エントリを変更することを特徴とする請求項10ないし請求項14のいずれか1項に記載の音声認識結果出力方法。
- 前記出力工程では、ユーザにより前記認識用単語辞書中の単語エントリが選択されたとときに、前記区間判定部で判定された区間に表示されている文字列と前記選択された単語エントリの表記用文字列とを置換することを特徴とする請求項10ないし請求項15のいずれか1項に記載の音声認識結果出力方法。
- 前記出力工程では、前記区間判定部で判定された区間を前記ユーザの指示によってその範囲を変更することを特徴とする請求項10ないし請求項16のいずれか1項に記載の音声認識結果出力方法。
- 前記出力工程では、前記ユーザの指示によって範囲を変更された新たな区間に応じて出力内容を変更することを特徴とする請求項17に記載の音声認識結果出力方法。
- コンピュータに、
入力された音声を所定の認識用単語辞書を用いて認識結果単語列に変換する単語音声認識処理と、
入力された前記音声を認識結果音節列に変換する音節認識処理と、
変換された前記認識結果単語列うち未知語であると推定する根拠となる所定の条件に該当する区間を判定する区間判定処理と、
判定された前記区間に対応する前記認識結果音節列中の部分音節列を求め、あらかじめ単語エントリ間に定義された順に並べられた前記認識用単語辞書中で前記部分音節列が並べられる位置の近傍の1つ以上の単語エントリと、前記認識結果単語列とを共に出力する出力処理と、を実行させることを特徴とする音声認識結果出力プログラム。 - 前記音節認識処理では、所定の認識用音節辞書を用いて前記入力された音声を前記認識結果音節列に変換することを特徴とする請求項19に記載の音声認識結果出力プログラム。
- 前記出力処理では、前記認識結果単語列を前記区間判定部で判定された区間に関して前記部分音節列で置換して出力することを特徴とする請求項19または請求項20に記載の音声認識結果出力プログラム。
- 前記出力処理では、前記区間判定部で判定された区間を明示して出力することを特徴とする請求項19ないし請求項21のいずれか1項に記載の音声認識結果出力プログラム。
- 前記定義された順は、五十音順であることを特徴とする請求項19ないし請求項22のいずれか1項に記載の音声認識結果出力プログラム。
- 前記出力処理では、ユーザの指示に応じて出力する前記認識用単語辞書の前記単語エントリを変更することを特徴とする請求項19ないし請求項23のいずれか1項に記載の音声認識結果出力プログラム。
- 前記出力処理では、ユーザにより前記認識用単語辞書中の単語エントリが選択されたとときに、前記区間判定部で判定された区間に表示されている文字列と前記選択された単語エントリの表記用文字列とを置換することを特徴とする請求項19ないし請求項24のいずれか1項に記載の音声認識結果出力プログラム。
- 前記出力処理では、前記区間判定部で判定された区間を前記ユーザの指示によってその範囲を変更することを特徴とする請求項19ないし請求項25のいずれか1項に記載の音声認識結果出力プログラム。
- 前記出力処理では、前記ユーザの指示によって範囲を変更された新たな区間に応じて出力内容を変更することを特徴とする請求項26に記載の音声認識結果出力プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006046154 | 2006-02-23 | ||
JP2006046154 | 2006-02-23 | ||
PCT/JP2007/053263 WO2007097390A1 (ja) | 2006-02-23 | 2007-02-22 | 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2007097390A1 true JPWO2007097390A1 (ja) | 2009-07-16 |
Family
ID=38437426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008501750A Withdrawn JPWO2007097390A1 (ja) | 2006-02-23 | 2007-02-22 | 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8756058B2 (ja) |
JP (1) | JPWO2007097390A1 (ja) |
WO (1) | WO2007097390A1 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100217591A1 (en) * | 2007-01-09 | 2010-08-26 | Avraham Shpigel | Vowel recognition system and method in speech to text applictions |
US8326631B1 (en) * | 2008-04-02 | 2012-12-04 | Verint Americas, Inc. | Systems and methods for speech indexing |
KR101445904B1 (ko) * | 2008-04-15 | 2014-09-29 | 페이스북, 인크. | 현장 음성 번역 유지 시스템 및 방법 |
US8346549B2 (en) * | 2009-12-04 | 2013-01-01 | At&T Intellectual Property I, L.P. | System and method for supplemental speech recognition by identified idle resources |
JP5158174B2 (ja) * | 2010-10-25 | 2013-03-06 | 株式会社デンソー | 音声認識装置 |
JP6150268B2 (ja) * | 2012-08-31 | 2017-06-21 | 国立研究開発法人情報通信研究機構 | 単語登録装置及びそのためのコンピュータプログラム |
JP5583301B1 (ja) * | 2013-11-29 | 2014-09-03 | 三菱電機株式会社 | 音声認識装置 |
JP6747434B2 (ja) * | 2015-10-23 | 2020-08-26 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US10621744B1 (en) | 2015-12-11 | 2020-04-14 | State Farm Mutual Automobile Insurance Company | Structural characteristic extraction from 3D images |
JP6569926B2 (ja) * | 2016-08-17 | 2019-09-04 | パナソニックIpマネジメント株式会社 | 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム |
US20180315415A1 (en) * | 2017-04-26 | 2018-11-01 | Soundhound, Inc. | Virtual assistant with error identification |
US11263198B2 (en) | 2019-09-05 | 2022-03-01 | Soundhound, Inc. | System and method for detection and correction of a query |
US11538465B1 (en) * | 2019-11-08 | 2022-12-27 | Suki AI, Inc. | Systems and methods to facilitate intent determination of a command by grouping terms based on context |
US11217227B1 (en) | 2019-11-08 | 2022-01-04 | Suki AI, Inc. | Systems and methods for generating disambiguated terms in automatically generated transcriptions including instructions within a particular knowledge domain |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3397372B2 (ja) * | 1993-06-16 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
JPH0863476A (ja) | 1994-08-18 | 1996-03-08 | Brother Ind Ltd | 機械翻訳装置 |
CN1130688C (zh) * | 1995-05-03 | 2003-12-10 | 皇家菲利浦电子有限公司 | 基于新字建模的语音识别方法和装置 |
JPH0950291A (ja) | 1995-08-04 | 1997-02-18 | Sony Corp | 音声認識装置及びナビゲーシヨン装置 |
JP3459712B2 (ja) * | 1995-11-01 | 2003-10-27 | キヤノン株式会社 | 音声認識方法及び装置及びコンピュータ制御装置 |
JPH09258767A (ja) | 1996-03-25 | 1997-10-03 | Mitsubishi Electric Corp | 音声スポッティング装置 |
JP3777456B2 (ja) | 1996-04-23 | 2006-05-24 | 日本電信電話株式会社 | 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置 |
JPH1097284A (ja) * | 1996-09-24 | 1998-04-14 | N T T Data Tsushin Kk | 音声認識方法,音声認識装置,及び記憶媒体 |
US7310600B1 (en) * | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
JP3415585B2 (ja) | 1999-12-17 | 2003-06-09 | 株式会社国際電気通信基礎技術研究所 | 統計的言語モデル生成装置、音声認識装置及び情報検索処理装置 |
JP2001249684A (ja) * | 2000-03-02 | 2001-09-14 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
WO2001084535A2 (en) * | 2000-05-02 | 2001-11-08 | Dragon Systems, Inc. | Error correction in speech recognition |
US6990449B2 (en) * | 2000-10-19 | 2006-01-24 | Qwest Communications International Inc. | Method of training a digital voice library to associate syllable speech items with literal text syllables |
JP2002140094A (ja) * | 2000-11-01 | 2002-05-17 | Mitsubishi Electric Corp | 音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体 |
US6785650B2 (en) * | 2001-03-16 | 2004-08-31 | International Business Machines Corporation | Hierarchical transcription and display of input speech |
JP4072718B2 (ja) * | 2002-11-21 | 2008-04-09 | ソニー株式会社 | 音声処理装置および方法、記録媒体並びにプログラム |
WO2005122144A1 (ja) * | 2004-06-10 | 2005-12-22 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置、音声認識方法、及びプログラム |
-
2007
- 2007-02-22 WO PCT/JP2007/053263 patent/WO2007097390A1/ja active Search and Examination
- 2007-02-22 US US12/280,253 patent/US8756058B2/en active Active
- 2007-02-22 JP JP2008501750A patent/JPWO2007097390A1/ja not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
US20100217598A1 (en) | 2010-08-26 |
WO2007097390A1 (ja) | 2007-08-30 |
US8756058B2 (en) | 2014-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPWO2007097390A1 (ja) | 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム | |
JP4829901B2 (ja) | マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置 | |
KR101312849B1 (ko) | 이동 장치에 대한 조합된 음성 및 교체 입력 양식을 위한정보 입력 방법, 이동 장치 및 사용자 인터페이스 | |
US20080052073A1 (en) | Voice Recognition Device and Method, and Program | |
US20130080146A1 (en) | Speech recognition device | |
JP5703491B2 (ja) | 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 | |
JP2014145842A (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
WO2011064829A1 (ja) | 情報処理装置 | |
US20110219337A1 (en) | Method of learning character segments during text input, and associated handheld electronic device | |
JP5688677B2 (ja) | 音声入力支援装置 | |
JP5396530B2 (ja) | 音声認識装置および音声認識方法 | |
US20070277118A1 (en) | Providing suggestion lists for phonetic input | |
US9171234B2 (en) | Method of learning a context of a segment of text, and associated handheld electronic device | |
JP5160594B2 (ja) | 音声認識装置および音声認識方法 | |
WO2020246175A1 (ja) | 翻訳装置 | |
US8296679B2 (en) | Method of learning character segments from received text, and associated handheld electronic device | |
JPS634206B2 (ja) | ||
JP5474723B2 (ja) | 音声認識装置およびその制御プログラム | |
JP4012228B2 (ja) | 情報入力方法、情報入力装置及び記憶媒体 | |
CA2658586C (en) | Learning character segments from received text | |
JP2006113269A (ja) | 発音系列認識装置、発音系列認識方法及び発音系列認識プログラム | |
JPH08272780A (ja) | 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法 | |
CA2653823C (en) | Method of learning a context of a segment of text, and associated handheld electronic device | |
JP2009098328A (ja) | 音声合成装置及び方法 | |
JPH0728800A (ja) | 文字処理方法および文字処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20100511 |