JPWO2011064829A1

JPWO2011064829A1 - 情報処理装置

Info

Publication number: JPWO2011064829A1
Application number: JP2011542997A
Authority: JP
Inventors: 優佳小林; 知野　哲朗; 哲朗知野; 住田　一男; 一男住田; 尚義永江; 聡史釜谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-11-30
Filing date: 2009-11-30
Publication date: 2013-04-11
Anticipated expiration: 2029-11-30
Also published as: CN102640107A; US20120296647A1; WO2011064829A1; JP5535238B2

Abstract

変換部１０２は、ユーザから入力された音声を認識し、文字列に変換する。選択部１０３は、ユーザの指定により、前記文字列から、一又は複数の文字を選択する。分割部１０４は、選択された前記文字を表音文字に変換し、前記表音文字を音単位の表音文字に分割する。生成部１０５は、音が類似する複数の音単位の表音文字の各々を関連付けて類似文字候補として格納した類似文字辞書から、分割された音単位の前記表音文字の各々に対応する前記類似文字候補を抽出し、前記文字の訂正文字候補を生成する。表示処理部１０６は、生成された前記訂正文字候補をユーザによる選択が可能に、表示部１０７に表示させる。

Description

本発明は、情報処理装置に関する。

ユーザから音声により入力された言語情報を認識し、文字列に変換して表示する情報処理装置において、誤変換された文字列をユーザが手書き入力によって修正する情報処理装置がある。

このような情報処理装置は、ユーザから入力された言語情報を文字列に変換する過程において生成された文字列候補を格納する。情報処理装置が、言語情報を誤変換して表示した場合、ユーザは、誤変換された箇所の文字列を指定する。情報処理装置は、格納した文字列候補の中から、指定された文字列に対する文字列候補をユーザに提示する。ユーザは、提示された文字列候補の中から、一の文字列を選択する。情報処理装置は、誤変換して表示した箇所の文字列を、選択された文字列に置換する（特許文献１参照）。

特開２００８−０９０６２５号公報

しかしながら、特許文献１の技術では、ユーザから音声により入力された言語情報を誤認識した場合、格納された文字列候補に正しい文字列が含まれないことがあり、ユーザは正しい文字列を選択できず、修正に不便を要する。

本発明は、上記の課題に鑑みてなされたものであり、誤認識により表示された文字列をユーザが簡便に修正することを目的とする。

本発明の一形態は、情報処理装置に係り、ユーザから入力された音声を認識し、文字列に変換する変換部と、ユーザの指定により、前記文字列から、一又は複数の文字を選択する選択部と、選択された前記文字を表音文字に変換し、前記表音文字を音単位の表音文字に分割する分割部と、音が類似する複数の音単位の表音文字の各々を類似文字候補として格納した類似文字辞書から、分割された音単位の前記表音文字の各々に対応する前記類似文字候補を抽出し、選択された前記文字の訂正文字候補を生成する生成部と、生成された前記訂正文字候補をユーザによる選択が可能に、表示部に表示させる表示処理部とを備えることを特徴とする。

本発明により、誤認識により表示された文字列をユーザが簡便に修正することができる。

第１の実施の形態に係る情報処理装置の外観を表す図である。情報処理装置の構成を表すブロック図である。情報処理装置の文字列修正の処理を表すフローチャートを示す図である。類似文字辞書に格納されている類似文字候補を表す一例図である。類似文字辞書に格納されているアルファベットの類似文字候補を表す図である。第２の実施の形態に係る情報処理装置の外観を表す図である。

以下、本発明の実施の形態について図面を参照して詳細に説明する。

本願明細書と各図において、同様の要素には同一の符号を付して詳細な説明は適宜省略する。

（第１の実施の形態）
図１は、第１の実施の形態に係る情報処理装置１０の外観を表す図である。

情報処理装置１０は、ユーザから入力された音声を文字列に変換して表示する際、誤変換により、ユーザの意図しない文字を表示することがあり得る。ユーザからの誤変換された文字の指定により、情報処理装置１０は、指定された文字を音単位の表音文字に分割する。情報処理装置１０は、分割された各々の表音文字に音が類似する類似文字候補を組み合わせ、指定された文字の訂正候補である訂正文字候補を生成し、ユーザに提示する。

これにより、例えば、ユーザが情報処理装置１０に「今日」と表示させることを意図して、「きょう」と発話したが、情報処理装置１０は「ぎょう」と認識し、「行」と変換した場合であっても、ユーザが、タッチペン２０３等を用いて「行」を指定することにより、情報処理装置１０は、「行（ぎょう）」の訂正文字候補として、「今日（きょう）」をユーザに提示するため、ユーザは、簡便に「行」を「今日」に修正することが可能となる。

図２は、情報処理装置１０の構成を表すブロック図である。

本実施の形態に係る情報処理装置１０は、入力部１０１と、表示部１０７と、文字認識辞書１０８と、類似文字辞書１０９と、記憶部１１１と、制御部１２０とを含む。制御部１２０は、変換部１０２と、選択部１０３と、分割部１０４と、生成部１０５と、表示処理部１０６と、決定部１１０とを含む。

入力部１０１は、ユーザからの音声を入力として受け付ける。

変換部１０２は、文字認識辞書１０８を用いて、入力部１０１に入力された音声を文字列に変換する。

選択部１０３は、ユーザからの指定により、変換部１０２が変換した文字列の中から、一又は複数の文字を選択する。

分割部１０４は、選択部１０３が選択した文字を表音文字に変換し、該表音文字を音単位の表音文字に分割する。音単位とは、音節単位か音素単位のいずれかを含むものと定義する。

生成部１０５は、音が類似する複数の音単位の表音文字の各々を関連付けて格納した類似文字辞書１０９を検索し、分割部１０４が分割した音単位の表音文字の各々に対し、音が類似する類似文字候補を抽出する。生成部１０５は、抽出した類似文字候補を組み合わせ、訂正文字候補を生成する。生成部１０５は、漢字変換辞書（不図示）を用いて、訂正文字候補を漢字に変換し、表示部１０７に出力してもよい。

表示処理部１０６は、変換部１０２が変換した文字列をユーザによる選択が可能に、表示部１０７に表示させる。表示処理部１０６は、生成部１０５が生成した訂正文字候補を表示部１０７に表示させる。

表示部１０７は、表示手段に加えて、感圧式のタッチパッド等の入力手段を含む。ユーザは、タッチペン２０３等を用いて、表示部に表示された文字等を選択することができる。

変換部１０２と、選択部１０３と、分割部１０４と、生成部１０５と、表示処理部１０６とは、中央演算処理装置（ＣＰＵ）によって実現される。

文字認識辞書１０８及び類似文字辞書１０９は、例えば、記憶部１１１に格納されうる。

決定部１１０は、ユーザからの指定により、生成部１０５が生成した一の訂正文字候補を決定する。

制御部１２０が、記憶部１１１等に格納されているプログラムを読みだして実行することにより、情報処理装置１０各部の機能が実現されうる。

制御部１２０が行った処理の結果は、記憶部１１１に記憶されてもよい。

図３は、情報処理装置１０の文字列修正の処理を表すフローチャートを示す図である。

情報処理装置１０の文字列修正は、ユーザから入力部１０１に入力された音声を、変換部１０２が文字列に変換し、表示部１０７に表示する。この場合において、ユーザが、表示された文字列を構成する一部の文字を修正する指示を情報処理装置１０に与えた状態からスタートする。

選択部１０３は、変換部１０２が変換した文字列の中から、ユーザが指定した一又は複数の文字を分割部１０４に出力する（Ｓ３０１）。

分割部１０４は、選択部１０３が選択した文字を、音単位の表音文字に分割する（Ｓ３０２）。

生成部１０５は、分割部１０４が分割した音単位の表音文字に音が類似する類似文字候補を、類似文字辞書１０９から抽出する（Ｓ３０３）。

生成部１０５は、抽出した類似文字候補を組み合わせ、ユーザに提示するための、新たな文字の訂正候補である、訂正文字候補を生成する（Ｓ３０４）。

表示処理部１０６は、生成部１０５が生成した訂正文字候補を表示部１０７に表示する（Ｓ３０５）。

決定部１１０は、ユーザが指定した一の訂正文字候補を表示処理部１０６に出力する（Ｓ３０６）。

表示処理部１０６は、選択部１０３から出力された、ユーザが指定した修正対象の文字を、決定部１１０から出力された一の訂正文字候補に置換して表示部１０７に出力する（Ｓ３０７）。

以上の処理により、ユーザは簡便に、誤認識により表示された文字列を修正することができる。

以下に、情報処理装置１０について、詳細に述べる。

本実施の形態では、情報処理装置１０が「行（ぎょう）はいい天気ですね」と誤認識した文字列を表示した場合に、ユーザが「今日（きょう）はいい天気ですね」という文字列に修正する例について説明する。

入力部１０１は、マイクロフォン等を用いてユーザからの音声を入力として受け付ける。入力部１０１は、マイクロフォンに入力されたアナログ信号である音声を、デジタル信号である音声データに変換（Ａ／Ｄ変換）する。

変換部１０２は、入力部１０１からの音声データを入力として受け付ける。文字認識辞書１０８は、音声データに対応する文字データを格納する。変換部１０２は、文字認識辞書１０８を用いて、入力された音声データを文字列に変換する。日本語の文字列に変換する場合、変換部１０２は、平仮名だけでなく、片仮名や漢字を含む文字列に変換してもよい。

例えば、変換部１０２は、入力部１０１からの音声データを入力として受け付け、仮名文字列の「ぎょうはいいてんきですね」に変換し、仮名漢字混じり文字列の「行はいい天気ですね」にさらに変換する。記憶部１１１は、仮名文字列と仮名漢字混じり文字列とを記憶する。

変換部１０２は、変換した文字列を選択部１０３と、表示処理部１０６に出力する。

表示処理部１０６は、変換部１０２が変換した文字列を表示部１０７上の文字列表示領域２０１に表示させる。

例えば、表示処理部１０６は、図１（ａ）に示したように、仮名漢字混じり文字列の「行はいい天気ですね」を表示部１０７上の文字列表示領域２０１に表示させる。ユーザは、変換部１０２が変換した文字列のうち、修正したい一又は複数の文字を指定する。

例えば、図１（ａ）に示したように、ユーザは、文字列表示領域２０１上に表示された「行はいい天気ですね」の文字列のうち、タッチペン２０３等を用いて、修正したい文字である「行」を指定する。表示部１０７上でのユーザからの指定は、指定信号として、タッチパネルから表示処理部１０６を介して、選択部１０３に出力される。

選択部１０３は、指定信号を受け、変換部１０２から得た文字列のうち、ユーザが指定した文字（例えば、「行」）を選択し、分割部１０４に出力する。

分割部１０４は、選択部１０３が選択した文字（例えば、「行」）を音節単位の表音文字に分割する。入力された文字が漢字の場合、分割部１０４は、漢字の読みを表す表音文字を記憶部から抽出し、音節単位に分割する。例えば、分割部１０４は、選択部１０３から入力された「行」の漢字の読みを表す平仮名「ぎょう」を、記憶部１１１から抽出する。

なお、ユーザにより「行は」が指定された場合、分割部１０４は、「は」について音を表す「わ」に変換する。

分割部１０４は、「ぎょう」の文字を音節単位である、「ぎょ」と「う」とに分割する。

分割部１０４は、分割した「ぎょ」と「う」とを生成部１０５に出力する。

図４は、類似文字辞書１０９に格納されている類似文字候補を表す一例図である。

類似文字辞書１０９は、音節単位の表音文字と、類似文字候補と、類似度とを格納する。図４中の「□」については後述する。

表音文字とは、音声データの音を文字で表したテキストデータをいう。表音文字には、例えば、日本語の仮名、英語のアルファベット、中国語のピンイン、朝鮮語のハングル文字等がある。

類似文字辞書１０９は、（「あ」、「い」、「ぎょ」等）の各々に対して、音が類似する類似文字候補を一又は複数格納する。各々の類似文字候補には、基の表音文字と音が類似する程度を表す類似度が定められ、類似文字辞書１０９に格納されている。類似度は、実験等によって予め定められるのが望ましい。図４に示した類似度は、数字が小さい程、基の表音文字の音と、類似文字候補の音とが類似していることを表す。

例えば、図４において、類似文字辞書１０９は、表音文字「ぎょ」に対して、類似文字候補「ぎょ」、「きょ」、「ひょ」等を格納する。各々の類似文字候補には、予め類似度が定められ、類似文字辞書１０９に格納されている。例えば、「きょ」の「ぎょ」に対する類似度は「２．２３２６５」、「ひょ」の「ぎょ」に対する類似度は「２．５１３６７」である。類似度の値が小さい程、「ぎょ」に音が類似していることと定義している。

生成部１０５は、類似文字辞書１０９を検索して、分割部１０４から入力された「ぎょ」と「う」の各々に対して、類似文字候補を抽出する。この場合、生成部１０５は、一定の類似度以下の類似文字候補を抽出してもよい。

例えば、生成部１０５は、類似文字辞書１０９を検索して、「ぎょ」に対する類似文字候補「ぎょ」、「きょ」、「ひょ」を抽出する。このとき、類似度が「３」以下の類似文字候補を抽出するように、生成部１０５を設定してある。抽出する類似文字候補を決定する類似度は、実装段階であらかじめ定められても構わないし、ユーザが任意に設定しても構わない。類似度が「３．５」以下の類似文字候補を抽出する場合、生成部１０５は、「ぎょ」、「きょ」、「ひょ」、「りょ」、「ぴょ」を抽出する。

生成部１０５は、「う」に対しても同様に、類似文字辞書１０９を検索して、類似文字候補（「う」「お」「え」「ん」（不図示））を抽出する。

生成部１０５は、抽出した各々の類似文字候補どうしを組み合わせ、訂正文字候補を生成する。例えば、生成部１０５は、「ぎょ」に対して、「う」、「お」、「え」、「ん」を組み合わせ、「ぎょう」、「ぎょお」、「ぎょえ」、「ぎょん」を訂正文字候補として生成する。「きょ」に対して、「う」、「お」、「え」、「ん」を組み合わせ、「きょう」、「きょお」、「きょえ」、「きょん」を訂正文字候補として生成する。残りの類似文字候補についても同様にして組み合わせ、訂正文字候補を生成する。

訂正文字候補に対応する漢字が存在する場合には、生成部１０５は、漢字変換辞書（不図示）を用いて、漢字に変換した訂正文字候補も生成してもよい。例えば、図１（ａ）に示したように、生成部１０５は、「きょう」を漢字に変換し、「今日」、「協」、「京」、「強」等を訂正文字候補として生成してもよい。生成部１０５は、生成した訂正文字候補を表示処理部１０６と、決定部１１０に出力する。

表示処理部１０６は、生成部１０５から入力された訂正文字候補を、表示部１０７に出力し、訂正候補表示領域２０２に表示させる。

また、生成部１０５は、訂正文字候補を生成するに際し、組み合わせた類似文字候補の類似度の積を計算して表示処理部１０６に出力してもよい。この場合、表示処理部１０６は、生成部１０５が計算した類似度の積が小さい順に、訂正文字候補を訂正候補表示領域２０２に並べて表示する。

ユーザは、訂正文字候補表示領域２０２に表示された訂正文字候補を選択する。例えば、タッチペン２０３等を用いて、訂正文字候補表示領域２０２に表示された訂正文字候補のうち、一の訂正文字候補（例えば、「今日」）を指定する。表示部１０７上でのユーザからの指定は、指定信号として、タッチパネルから表示処理部１０６を介して、決定部１１０に出力される。

決定部１１０は、指定信号を受け、ユーザが指定した訂正文字候補（例えば、「今日」）を表示処理部１０６に出力する。

表示処理部１０６は、図１（ｂ）に示したように、選択部１０３で選択された、ユーザが修正したい文字（例えば、「行」）を、決定部１１０が決定した訂正文字候補（例えば、「今日」）に置換した文字列（例えば、「今日はいい天気ですね」）を新たな文字列として、表示部１０７上の文字列表示領域２０１に表示させる。

以上に述べたとおり、本発明により、誤認識により表示された文字列をユーザが簡便に修正することが可能な情報処理装置を提供することができる。

情報処理装置１０では、ユーザが修正した文字を記憶部１１１が記憶してもよい。

ユーザが、修正した文字を含む文字列を新たに指定した場合、生成部１０５は、記憶部１１１を検索し、既に一度修正した文字と、一度も修正していない文字とを判別する。例えば記憶部１１１は、ユーザが一度修正した文字について、フラグを立てた状態で記憶する。生成部１０５は、フラグの検出により、既に一度修正した文字と、一度も修正していない文字とを判別することができる。生成部１０５は、一度も修正していない文字に対して、類似文字候補を抽出して、訂正文字候補を生成する。

これにより、情報処理装置１０は、既に修正した文字に対する類似文字候補を再度抽出する必要がなくなり、処理コストを減らすことができる。

また、情報処理装置１０は、ユーザが発話していない音を文字に変換する場合（以下、ケース１）や、ユーザが発話した音を文字に変換しない場合（以下、ケース２）があり得る。

図４における「□」は、無音であることを表す文字（以下、無音文字）である。類似文字辞書１０９は、特定の表音文字に対して、無音文字「□」についても、他の類似文字候補と同様に、類似文字候補として格納していてもよい。これにより、上記ケース１、ケース２の場合にも、ユーザは簡便に文字列の修正を行うことが可能となる。

ケース１の例として、ユーザが「あす」と発話したときに、変換部１０２が「あいす」に変換する場合があり得る。この場合、分割部１０４は、ユーザからの指定により、「あいす」を音節単位である、「あ」と「い」と「す」の表音文字に分割し、さらに各々の表音文字の間に無音文字「□」を挿入して、「あ□い□す」とする。生成部１０５は、「あ」と「い」と「す」と「□」の各々に対して、類似文字辞書１０９を検索して類似文字候補を抽出し、訂正文字候補を生成する。

図４において、「い」の類似文字候補には「□」が存在するので、生成部１０５は「あ□す」を訂正文字候補として生成することができる。表示処理部１０６は、無音文字「□」については表示部１０７に表示させないとすることにより、ユーザは「あす」を指定することができる。

このようにすれば、情報処理装置１０がユーザの発話していない音を文字に変換して場合であっても、ユーザは簡便に文字列の修正を行うことができる。

ケース２の例として、ユーザが「あいす」と発話したときに、変換部１０２が「あす」に変換する場合があり得る。この場合、分割部１０４は、ユーザからの指定により、「あす」を音節単位である、「あ」と「す」の表音文字に分割し、さらにその間に無音文字「□」を挿入して、「あ□す」とする。生成部１０５は、ケース１の場合と同様にして訂正文字候補を生成する。

図４において、「□」の類似文字候補には「い」が存在するので、生成部１０５は「あいす」を訂正文字候補として生成することができる。

このようにすれば、情報処理装置１０がユーザの発話した音を文字に変換しなかった場合であっても、ユーザは簡便に文字列の修正を行うことができる。

なお、分割部１０４は、「□」を表音文字の間のみではなく、最初の表音文字の前や、最後の表音文字の後にも挿入してよい。これにより、生成部１０５は、さらに多くの訂正文字候補を生成することができる。

本実施の形態では、情報処理装置１０が、日本語文字列を修正する場合について述べたが、本発明は日本語文字列のみに限定されない。

例えば、英語のアルファベット列を修正する場合について説明する。ここでは、情報処理装置１０が、「Ｉｓｉｎｋｓｏ」に誤変換したアルファベット列を、ユーザが「Ｉｔｈｉｎｋｓｏ」に修正する場合を例とする。

変換部１０２は、入力部１０１から入力されたユーザの音声データを、文字認識辞書１０８を用いて、アルファベット列に変換する（例えば、「Ｉｓｉｎｋｓｏ」）。この場合、文字認識辞書１０８は、英語の音声データに対応するアルファベットデータを格納する。選択部１０３は、ユーザからの指定により、変換部１０２が変換したアルファベット文字列の中から、一又は複数のアルファベットを選択する（例えば、「ｓｉｎｋ」）。分割部１０４は、選択部１０３から入力されたアルファベットを、音素単位に分割する（例えば、「ｓ」、「ｉ」、「ｎ」、「ｋ」）。

図５は、類似文字辞書１０９に格納されているアルファベットの類似文字候補を表す図である。ただし、図５には、「ｓ」、「ｉ」、「ｎ」、「ｋ」の例のみを示す。

英語のアルファベット列の場合、類似文字辞書１０９には、発生を間違えやすい文字が類似候補として格納される。

生成部１０５は、音素単位に分割されたアルファベットの各々に対し、音が類似する類似文字候補（アルファベット）を上記日本語文字列の場合と同様にして、類似文字辞書１０９から抽出する。生成部１０５は、抽出した類似文字候補を組み合わせ、訂正文字候補を生成する。生成部１０５は、生成した訂正文字候補を表示処理部１０６に出力する。この場合、生成部１０５は、類似文字候補を組み合わせた結果、英単語として存在する訂正文字候補のみを表示処理部１０６に出力するのが望ましい。

表示処理部１０６は訂正文字候補を表示部１０７に表示させる。

以上のような処理を行えば、情報処理装置１０は、日本語文字列を修正するだけでなく、英語のアルファベット列の修正を行うことも可能である。

中国語の場合は、ピンインを同様にして音単位に分割し、処理を行うことにより、文字列の修正を行うことが可能である。

韓国語の場合は、ハングル文字を同様にして音単位に分割し、処理を行うことにより、文字列の修正を行うことが可能である。

このように、日本語以外の他の言語であっても、表音文字を有する言語であれば、本実施形態と同様の処理を行うことにより、誤認識により表示された文字列をユーザが簡便に修正することが可能な情報処理装置を提供することができる。

なお、情報処理装置１０は、制御１２０を備えていれば、入力部１０１と、表示部１０７と、文字認識辞書１０８と、類似文字辞書１０９とを含まず、外部に備えてもよい。

（第２の実施の形態）
本実施の形態に係る情報処理装置２０では、表示処理部１０６が、漢字を含む仮名漢字混じり文字列と、仮名漢字混じり文字列の読みを表すルビ文字列とを表示部１０７に表示することにより、ユーザは仮名漢字混じり文字列かルビ文字列かの、いずれか一つの文字列の中から、修正したい文字を選択することが可能となる。これにより、ユーザは、誤認識により表示された文字列を、仮名漢字混じり文字列とルビ文字列とから修正することができるため、利便性が向上する。

図６は、第２の実施の形態に係る情報処理装置２０の外観を表す図である。

情報処理装置２０では、第１の実施の形態における情報処理装置１０と比較して、表示処理部１０６は、さらに、ルビ文字列表示領域２０４を表示部１０７上に表示させる。

図６（ａ）に示したように、例えば、ユーザからの音声による入力により、文字列表示領域２０１には、「行はいい天気ですね」が表示される。ルビ文字列表示領域２０４には、ルビ文字列である「ぎょうはいいてんきですね」が表示される。

ユーザは、タッチペン２０３等を用いて、文字列表示領域２０１に表示された文字列のうち、修正したい一又は複数の文字を指定する。あるいは、ルビ文字列表示領域２０４に表示された文字列のうち、修正したい一又は複数のルビ文字を指定する。

以下に、情報処理装置２０について、詳細に述べる。本実施の形態において、第１の実施の形態と同様の説明は、適宜省略する。

変換部１０２は、入力部１０１から入力された音声を、漢字を含む仮名漢字混じり文字列と、表音文字列で表わされるルビ文字列とに変換する。変換された仮名漢字混じり文字列と、ルビ文字列とは、記憶部１１１に記憶される。

図６（ａ）に示したように、例えば、ユーザは、表示部１０７上のルビ文字列表示領域２０４に表示されている「ぎょうはいいてんきですね」のルビ文字列のうち、修正したいルビ文字である「ぎょ」を指定する。選択部１０３は「ぎょ」の文字を選択する。

生成部１０５は、選択部１０３が選択した「ぎょ」の文字を変換部１０２から入力として受け付ける。生成部１０５は、入力された「ぎょ」の文字の類似文字候補（例えば、「ぎょ」、「きょ」、「ぴょ」）を訂正文字候補として、第１の実施の形態の場合と同様にして、類似文字辞書１０９から抽出する。生成部１０５は、抽出した訂正文字候補を、表示処理部１０６に出力する。

表示処理部１０６は、訂正文字候補を、表示部１０７上の訂正候補表示領域２０２に出力し、表示させる。

ユーザは、訂正候補表示領域２０２に表示された訂正文字候補のうち、一の訂正文字候補「きょ」を指定する。

決定部１１０は、ユーザが指定した訂正文字候補（「きょ」）を決定する。決定部１１０は、決定した訂正文字候補（「きょ」）を表示処理部１０６に出力する。

表示処理部１０６は、選択部１０３が選択した「ぎょ」のルビ文字を、決定部１１０が決定した訂正文字候補（「きょ」）に置換して、表示部１０７に出力し、ルビ文字列表示領域２０４に表示させる。表示処理部１０６は、変換部１０２に更新信号を出力する。

変換部１０２は、表示処理部１０６からの更新信号を受け、記憶部１１１に記憶された修正前のルビ文字列を、修正後のルビ文字列に置換する。変換部１０２は、修正後のルビ文字列を漢字変換し、一又は複数の仮名漢字混じり文字列候補を作成する。変換部１０２は、作成した仮名漢字混じり文字列を表示処理部１０６に出力してもよい。この場合、表示処理部１０６は、仮名漢字混じり文字列候補を表示部１０７上（例えば、訂正候補表示領域２０２）に表示させる。ユーザにより一の仮名漢字混じり文字列候補が指定されると、表示処理部１０６は、該仮名漢字混じり文字列候補を表示部１０７上の文字列表示領域２０１に表示させる。このようにして、図６（ｂ）に示したように、ユーザは「行はいい天気ですね」を「今日はいい天気ですね」に修正することができる。

以上の処理において、情報処理装置２０が仮名漢字混じり文字列とルビ文字列とをユーザによる選択が可能に表示することにより、ユーザは簡便に、誤認識により表示された文字列を修正することができる。さらに、ユーザは、誤認識により表示された文字列を、仮名漢字混じり文字列とルビ文字列とから修正することができるため、利便性が向上する。

１０１入力部
１０２変換部
１０３選択部
１０４分割部
１０５生成部
１０６表示処理部
１０７表示部

Claims

ユーザから入力された音声を認識し、文字列に変換する変換部と、
ユーザの指定により、前記文字列から、一又は複数の文字を選択する選択部と、
選択された前記文字を表音文字に変換し、前記表音文字を音単位の表音文字に分割する分割部と、
音が類似する複数の音単位の表音文字の各々を関連付けて類似文字候補として格納した類似文字辞書から、分割された音単位の前記表音文字の各々に対応する前記類似文字候補を抽出し、選択された前記文字の訂正文字候補を生成する生成部と、
生成された前記訂正文字候補をユーザによる選択が可能に、表示部に表示させる表示処理部と
を備えることを特徴とする情報処理装置。
前記分割部は、
前記表音文字を音節単位又は音素単位の表音文字に分割し、
前記生成部は、
前記類似文字候補を、分割された音節単位又は音素単位の前記表音文字の各々について、一定の類似度の範囲の前記類似文字候補を抽出し、前記訂正文字候補を生成することを特徴とする、請求項１記載の情報処理装置。
前記変換部は、
ユーザから入力された音声を認識し、表音文字列と、前記表音文字列を漢字変換した仮名漢字混じり文字列とに変換し、
前記選択部は、
ユーザの指定により、前記表音文字列と前記仮名漢字混じり文字列のいずれか一方の文字列から、一又は複数の文字を選択することを特徴とする、請求項２記載の情報処理装置。