Nothing Special   »   [go: up one dir, main page]

JPWO2011064829A1 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JPWO2011064829A1
JPWO2011064829A1 JP2011542997A JP2011542997A JPWO2011064829A1 JP WO2011064829 A1 JPWO2011064829 A1 JP WO2011064829A1 JP 2011542997 A JP2011542997 A JP 2011542997A JP 2011542997 A JP2011542997 A JP 2011542997A JP WO2011064829 A1 JPWO2011064829 A1 JP WO2011064829A1
Authority
JP
Japan
Prior art keywords
character
unit
phonetic
character string
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011542997A
Other languages
English (en)
Other versions
JP5535238B2 (ja
Inventor
優佳 小林
優佳 小林
知野 哲朗
哲朗 知野
住田 一男
一男 住田
尚義 永江
尚義 永江
聡史 釜谷
聡史 釜谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JPWO2011064829A1 publication Critical patent/JPWO2011064829A1/ja
Application granted granted Critical
Publication of JP5535238B2 publication Critical patent/JP5535238B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04886Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0236Character input methods using selection techniques to select from displayed items
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Abstract

変換部102は、ユーザから入力された音声を認識し、文字列に変換する。選択部103は、ユーザの指定により、前記文字列から、一又は複数の文字を選択する。分割部104は、選択された前記文字を表音文字に変換し、前記表音文字を音単位の表音文字に分割する。生成部105は、音が類似する複数の音単位の表音文字の各々を関連付けて類似文字候補として格納した類似文字辞書から、分割された音単位の前記表音文字の各々に対応する前記類似文字候補を抽出し、前記文字の訂正文字候補を生成する。表示処理部106は、生成された前記訂正文字候補をユーザによる選択が可能に、表示部107に表示させる。

Description

本発明は、情報処理装置に関する。
ユーザから音声により入力された言語情報を認識し、文字列に変換して表示する情報処理装置において、誤変換された文字列をユーザが手書き入力によって修正する情報処理装置がある。
このような情報処理装置は、ユーザから入力された言語情報を文字列に変換する過程において生成された文字列候補を格納する。情報処理装置が、言語情報を誤変換して表示した場合、ユーザは、誤変換された箇所の文字列を指定する。情報処理装置は、格納した文字列候補の中から、指定された文字列に対する文字列候補をユーザに提示する。ユーザは、提示された文字列候補の中から、一の文字列を選択する。情報処理装置は、誤変換して表示した箇所の文字列を、選択された文字列に置換する(特許文献1参照)。
特開2008−090625号公報
しかしながら、特許文献1の技術では、ユーザから音声により入力された言語情報を誤認識した場合、格納された文字列候補に正しい文字列が含まれないことがあり、ユーザは正しい文字列を選択できず、修正に不便を要する。
本発明は、上記の課題に鑑みてなされたものであり、誤認識により表示された文字列をユーザが簡便に修正することを目的とする。
本発明の一形態は、情報処理装置に係り、ユーザから入力された音声を認識し、文字列に変換する変換部と、ユーザの指定により、前記文字列から、一又は複数の文字を選択する選択部と、選択された前記文字を表音文字に変換し、前記表音文字を音単位の表音文字に分割する分割部と、音が類似する複数の音単位の表音文字の各々を類似文字候補として格納した類似文字辞書から、分割された音単位の前記表音文字の各々に対応する前記類似文字候補を抽出し、選択された前記文字の訂正文字候補を生成する生成部と、生成された前記訂正文字候補をユーザによる選択が可能に、表示部に表示させる表示処理部とを備えることを特徴とする。
本発明により、誤認識により表示された文字列をユーザが簡便に修正することができる。
第1の実施の形態に係る情報処理装置の外観を表す図である。 情報処理装置の構成を表すブロック図である。 情報処理装置の文字列修正の処理を表すフローチャートを示す図である。 類似文字辞書に格納されている類似文字候補を表す一例図である。 類似文字辞書に格納されているアルファベットの類似文字候補を表す図である。 第2の実施の形態に係る情報処理装置の外観を表す図である。
以下、本発明の実施の形態について図面を参照して詳細に説明する。
本願明細書と各図において、同様の要素には同一の符号を付して詳細な説明は適宜省略する。
(第1の実施の形態)
図1は、第1の実施の形態に係る情報処理装置10の外観を表す図である。
情報処理装置10は、ユーザから入力された音声を文字列に変換して表示する際、誤変換により、ユーザの意図しない文字を表示することがあり得る。ユーザからの誤変換された文字の指定により、情報処理装置10は、指定された文字を音単位の表音文字に分割する。情報処理装置10は、分割された各々の表音文字に音が類似する類似文字候補を組み合わせ、指定された文字の訂正候補である訂正文字候補を生成し、ユーザに提示する。
これにより、例えば、ユーザが情報処理装置10に「今日」と表示させることを意図して、「きょう」と発話したが、情報処理装置10は「ぎょう」と認識し、「行」と変換した場合であっても、ユーザが、タッチペン203等を用いて「行」を指定することにより、情報処理装置10は、「行(ぎょう)」の訂正文字候補として、「今日(きょう)」をユーザに提示するため、ユーザは、簡便に「行」を「今日」に修正することが可能となる。
図2は、情報処理装置10の構成を表すブロック図である。
本実施の形態に係る情報処理装置10は、入力部101と、表示部107と、文字認識辞書108と、類似文字辞書109と、記憶部111と、制御部120とを含む。制御部120は、変換部102と、選択部103と、分割部104と、生成部105と、表示処理部106と、決定部110とを含む。
入力部101は、ユーザからの音声を入力として受け付ける。
変換部102は、文字認識辞書108を用いて、入力部101に入力された音声を文字列に変換する。
選択部103は、ユーザからの指定により、変換部102が変換した文字列の中から、一又は複数の文字を選択する。
分割部104は、選択部103が選択した文字を表音文字に変換し、該表音文字を音単位の表音文字に分割する。音単位とは、音節単位か音素単位のいずれかを含むものと定義する。
生成部105は、音が類似する複数の音単位の表音文字の各々を関連付けて格納した類似文字辞書109を検索し、分割部104が分割した音単位の表音文字の各々に対し、音が類似する類似文字候補を抽出する。生成部105は、抽出した類似文字候補を組み合わせ、訂正文字候補を生成する。生成部105は、漢字変換辞書(不図示)を用いて、訂正文字候補を漢字に変換し、表示部107に出力してもよい。
表示処理部106は、変換部102が変換した文字列をユーザによる選択が可能に、表示部107に表示させる。表示処理部106は、生成部105が生成した訂正文字候補を表示部107に表示させる。
表示部107は、表示手段に加えて、感圧式のタッチパッド等の入力手段を含む。ユーザは、タッチペン203等を用いて、表示部に表示された文字等を選択することができる。
変換部102と、選択部103と、分割部104と、生成部105と、表示処理部106とは、中央演算処理装置(CPU)によって実現される。
文字認識辞書108及び類似文字辞書109は、例えば、記憶部111に格納されうる。
決定部110は、ユーザからの指定により、生成部105が生成した一の訂正文字候補を決定する。
制御部120が、記憶部111等に格納されているプログラムを読みだして実行することにより、情報処理装置10各部の機能が実現されうる。
制御部120が行った処理の結果は、記憶部111に記憶されてもよい。
図3は、情報処理装置10の文字列修正の処理を表すフローチャートを示す図である。
情報処理装置10の文字列修正は、ユーザから入力部101に入力された音声を、変換部102が文字列に変換し、表示部107に表示する。この場合において、ユーザが、表示された文字列を構成する一部の文字を修正する指示を情報処理装置10に与えた状態からスタートする。
選択部103は、変換部102が変換した文字列の中から、ユーザが指定した一又は複数の文字を分割部104に出力する(S301)。
分割部104は、選択部103が選択した文字を、音単位の表音文字に分割する(S302)。
生成部105は、分割部104が分割した音単位の表音文字に音が類似する類似文字候補を、類似文字辞書109から抽出する(S303)。
生成部105は、抽出した類似文字候補を組み合わせ、ユーザに提示するための、新たな文字の訂正候補である、訂正文字候補を生成する(S304)。
表示処理部106は、生成部105が生成した訂正文字候補を表示部107に表示する(S305)。
決定部110は、ユーザが指定した一の訂正文字候補を表示処理部106に出力する(S306)。
表示処理部106は、選択部103から出力された、ユーザが指定した修正対象の文字を、決定部110から出力された一の訂正文字候補に置換して表示部107に出力する(S307)。
以上の処理により、ユーザは簡便に、誤認識により表示された文字列を修正することができる。
以下に、情報処理装置10について、詳細に述べる。
本実施の形態では、情報処理装置10が「行(ぎょう)はいい天気ですね」と誤認識した文字列を表示した場合に、ユーザが「今日(きょう)はいい天気ですね」という文字列に修正する例について説明する。
入力部101は、マイクロフォン等を用いてユーザからの音声を入力として受け付ける。入力部101は、マイクロフォンに入力されたアナログ信号である音声を、デジタル信号である音声データに変換(A/D変換)する。
変換部102は、入力部101からの音声データを入力として受け付ける。文字認識辞書108は、音声データに対応する文字データを格納する。変換部102は、文字認識辞書108を用いて、入力された音声データを文字列に変換する。日本語の文字列に変換する場合、変換部102は、平仮名だけでなく、片仮名や漢字を含む文字列に変換してもよい。
例えば、変換部102は、入力部101からの音声データを入力として受け付け、仮名文字列の「ぎょうはいいてんきですね」に変換し、仮名漢字混じり文字列の「行はいい天気ですね」にさらに変換する。記憶部111は、仮名文字列と仮名漢字混じり文字列とを記憶する。
変換部102は、変換した文字列を選択部103と、表示処理部106に出力する。
表示処理部106は、変換部102が変換した文字列を表示部107上の文字列表示領域201に表示させる。
例えば、表示処理部106は、図1(a)に示したように、仮名漢字混じり文字列の「行はいい天気ですね」を表示部107上の文字列表示領域201に表示させる。ユーザは、変換部102が変換した文字列のうち、修正したい一又は複数の文字を指定する。
例えば、図1(a)に示したように、ユーザは、文字列表示領域201上に表示された「行はいい天気ですね」の文字列のうち、タッチペン203等を用いて、修正したい文字である「行」を指定する。表示部107上でのユーザからの指定は、指定信号として、タッチパネルから表示処理部106を介して、選択部103に出力される。
選択部103は、指定信号を受け、変換部102から得た文字列のうち、ユーザが指定した文字(例えば、「行」)を選択し、分割部104に出力する。
分割部104は、選択部103が選択した文字(例えば、「行」)を音節単位の表音文字に分割する。入力された文字が漢字の場合、分割部104は、漢字の読みを表す表音文字を記憶部から抽出し、音節単位に分割する。例えば、分割部104は、選択部103から入力された「行」の漢字の読みを表す平仮名「ぎょう」を、記憶部111から抽出する。
なお、ユーザにより「行は」が指定された場合、分割部104は、「は」について音を表す「わ」に変換する。
分割部104は、「ぎょう」の文字を音節単位である、「ぎょ」と「う」とに分割する。
分割部104は、分割した「ぎょ」と「う」とを生成部105に出力する。
図4は、類似文字辞書109に格納されている類似文字候補を表す一例図である。
類似文字辞書109は、音節単位の表音文字と、類似文字候補と、類似度とを格納する。図4中の「□」については後述する。
表音文字とは、音声データの音を文字で表したテキストデータをいう。表音文字には、例えば、日本語の仮名、英語のアルファベット、中国語のピンイン、朝鮮語のハングル文字等がある。
類似文字辞書109は、(「あ」、「い」、「ぎょ」等)の各々に対して、音が類似する類似文字候補を一又は複数格納する。各々の類似文字候補には、基の表音文字と音が類似する程度を表す類似度が定められ、類似文字辞書109に格納されている。類似度は、実験等によって予め定められるのが望ましい。図4に示した類似度は、数字が小さい程、基の表音文字の音と、類似文字候補の音とが類似していることを表す。
例えば、図4において、類似文字辞書109は、表音文字「ぎょ」に対して、類似文字候補「ぎょ」、「きょ」、「ひょ」等を格納する。各々の類似文字候補には、予め類似度が定められ、類似文字辞書109に格納されている。例えば、「きょ」の「ぎょ」に対する類似度は「2.23265」、「ひょ」の「ぎょ」に対する類似度は「2.51367」である。類似度の値が小さい程、「ぎょ」に音が類似していることと定義している。
生成部105は、類似文字辞書109を検索して、分割部104から入力された「ぎょ」と「う」の各々に対して、類似文字候補を抽出する。この場合、生成部105は、一定の類似度以下の類似文字候補を抽出してもよい。
例えば、生成部105は、類似文字辞書109を検索して、「ぎょ」に対する類似文字候補「ぎょ」、「きょ」、「ひょ」を抽出する。このとき、類似度が「3」以下の類似文字候補を抽出するように、生成部105を設定してある。抽出する類似文字候補を決定する類似度は、実装段階であらかじめ定められても構わないし、ユーザが任意に設定しても構わない。類似度が「3.5」以下の類似文字候補を抽出する場合、生成部105は、「ぎょ」、「きょ」、「ひょ」、「りょ」、「ぴょ」を抽出する。
生成部105は、「う」に対しても同様に、類似文字辞書109を検索して、類似文字候補(「う」「お」「え」「ん」(不図示))を抽出する。
生成部105は、抽出した各々の類似文字候補どうしを組み合わせ、訂正文字候補を生成する。例えば、生成部105は、「ぎょ」に対して、「う」、「お」、「え」、「ん」を組み合わせ、「ぎょう」、「ぎょお」、「ぎょえ」、「ぎょん」を訂正文字候補として生成する。「きょ」に対して、「う」、「お」、「え」、「ん」を組み合わせ、「きょう」、「きょお」、「きょえ」、「きょん」を訂正文字候補として生成する。残りの類似文字候補についても同様にして組み合わせ、訂正文字候補を生成する。
訂正文字候補に対応する漢字が存在する場合には、生成部105は、漢字変換辞書(不図示)を用いて、漢字に変換した訂正文字候補も生成してもよい。例えば、図1(a)に示したように、生成部105は、「きょう」を漢字に変換し、「今日」、「協」、「京」、「強」等を訂正文字候補として生成してもよい。生成部105は、生成した訂正文字候補を表示処理部106と、決定部110に出力する。
表示処理部106は、生成部105から入力された訂正文字候補を、表示部107に出力し、訂正候補表示領域202に表示させる。
また、生成部105は、訂正文字候補を生成するに際し、組み合わせた類似文字候補の類似度の積を計算して表示処理部106に出力してもよい。この場合、表示処理部106は、生成部105が計算した類似度の積が小さい順に、訂正文字候補を訂正候補表示領域202に並べて表示する。
ユーザは、訂正文字候補表示領域202に表示された訂正文字候補を選択する。例えば、タッチペン203等を用いて、訂正文字候補表示領域202に表示された訂正文字候補のうち、一の訂正文字候補(例えば、「今日」)を指定する。表示部107上でのユーザからの指定は、指定信号として、タッチパネルから表示処理部106を介して、決定部110に出力される。
決定部110は、指定信号を受け、ユーザが指定した訂正文字候補(例えば、「今日」)を表示処理部106に出力する。
表示処理部106は、図1(b)に示したように、選択部103で選択された、ユーザが修正したい文字(例えば、「行」)を、決定部110が決定した訂正文字候補(例えば、「今日」)に置換した文字列(例えば、「今日はいい天気ですね」)を新たな文字列として、表示部107上の文字列表示領域201に表示させる。
以上に述べたとおり、本発明により、誤認識により表示された文字列をユーザが簡便に修正することが可能な情報処理装置を提供することができる。
情報処理装置10では、ユーザが修正した文字を記憶部111が記憶してもよい。
ユーザが、修正した文字を含む文字列を新たに指定した場合、生成部105は、記憶部111を検索し、既に一度修正した文字と、一度も修正していない文字とを判別する。例えば記憶部111は、ユーザが一度修正した文字について、フラグを立てた状態で記憶する。生成部105は、フラグの検出により、既に一度修正した文字と、一度も修正していない文字とを判別することができる。生成部105は、一度も修正していない文字に対して、類似文字候補を抽出して、訂正文字候補を生成する。
これにより、情報処理装置10は、既に修正した文字に対する類似文字候補を再度抽出する必要がなくなり、処理コストを減らすことができる。
また、情報処理装置10は、ユーザが発話していない音を文字に変換する場合(以下、ケース1)や、ユーザが発話した音を文字に変換しない場合(以下、ケース2)があり得る。
図4における「□」は、無音であることを表す文字(以下、無音文字)である。類似文字辞書109は、特定の表音文字に対して、無音文字「□」についても、他の類似文字候補と同様に、類似文字候補として格納していてもよい。これにより、上記ケース1、ケース2の場合にも、ユーザは簡便に文字列の修正を行うことが可能となる。
ケース1の例として、ユーザが「あす」と発話したときに、変換部102が「あいす」に変換する場合があり得る。この場合、分割部104は、ユーザからの指定により、「あいす」を音節単位である、「あ」と「い」と「す」の表音文字に分割し、さらに各々の表音文字の間に無音文字「□」を挿入して、「あ□い□す」とする。生成部105は、「あ」と「い」と「す」と「□」の各々に対して、類似文字辞書109を検索して類似文字候補を抽出し、訂正文字候補を生成する。
図4において、「い」の類似文字候補には「□」が存在するので、生成部105は「あ□す」を訂正文字候補として生成することができる。表示処理部106は、無音文字「□」については表示部107に表示させないとすることにより、ユーザは「あす」を指定することができる。
このようにすれば、情報処理装置10がユーザの発話していない音を文字に変換して場合であっても、ユーザは簡便に文字列の修正を行うことができる。
ケース2の例として、ユーザが「あいす」と発話したときに、変換部102が「あす」に変換する場合があり得る。この場合、分割部104は、ユーザからの指定により、「あす」を音節単位である、「あ」と「す」の表音文字に分割し、さらにその間に無音文字「□」を挿入して、「あ□す」とする。生成部105は、ケース1の場合と同様にして訂正文字候補を生成する。
図4において、「□」の類似文字候補には「い」が存在するので、生成部105は「あいす」を訂正文字候補として生成することができる。
このようにすれば、情報処理装置10がユーザの発話した音を文字に変換しなかった場合であっても、ユーザは簡便に文字列の修正を行うことができる。
なお、分割部104は、「□」を表音文字の間のみではなく、最初の表音文字の前や、最後の表音文字の後にも挿入してよい。これにより、生成部105は、さらに多くの訂正文字候補を生成することができる。
本実施の形態では、情報処理装置10が、日本語文字列を修正する場合について述べたが、本発明は日本語文字列のみに限定されない。
例えば、英語のアルファベット列を修正する場合について説明する。ここでは、情報処理装置10が、「I sink so」に誤変換したアルファベット列を、ユーザが「I think so」に修正する場合を例とする。
変換部102は、入力部101から入力されたユーザの音声データを、文字認識辞書108を用いて、アルファベット列に変換する(例えば、「I sink so」)。この場合、文字認識辞書108は、英語の音声データに対応するアルファベットデータを格納する。選択部103は、ユーザからの指定により、変換部102が変換したアルファベット文字列の中から、一又は複数のアルファベットを選択する(例えば、「sink」)。分割部104は、選択部103から入力されたアルファベットを、音素単位に分割する(例えば、「s」、「i」、「n」、「k」)。
図5は、類似文字辞書109に格納されているアルファベットの類似文字候補を表す図である。ただし、図5には、「s」、「i」、「n」、「k」の例のみを示す。
英語のアルファベット列の場合、類似文字辞書109には、発生を間違えやすい文字が類似候補として格納される。
生成部105は、音素単位に分割されたアルファベットの各々に対し、音が類似する類似文字候補(アルファベット)を上記日本語文字列の場合と同様にして、類似文字辞書109から抽出する。生成部105は、抽出した類似文字候補を組み合わせ、訂正文字候補を生成する。生成部105は、生成した訂正文字候補を表示処理部106に出力する。この場合、生成部105は、類似文字候補を組み合わせた結果、英単語として存在する訂正文字候補のみを表示処理部106に出力するのが望ましい。
表示処理部106は訂正文字候補を表示部107に表示させる。
以上のような処理を行えば、情報処理装置10は、日本語文字列を修正するだけでなく、英語のアルファベット列の修正を行うことも可能である。
中国語の場合は、ピンインを同様にして音単位に分割し、処理を行うことにより、文字列の修正を行うことが可能である。
韓国語の場合は、ハングル文字を同様にして音単位に分割し、処理を行うことにより、文字列の修正を行うことが可能である。
このように、日本語以外の他の言語であっても、表音文字を有する言語であれば、本実施形態と同様の処理を行うことにより、誤認識により表示された文字列をユーザが簡便に修正することが可能な情報処理装置を提供することができる。
なお、情報処理装置10は、制御120を備えていれば、入力部101と、表示部107と、文字認識辞書108と、類似文字辞書109とを含まず、外部に備えてもよい。
(第2の実施の形態)
本実施の形態に係る情報処理装置20では、表示処理部106が、漢字を含む仮名漢字混じり文字列と、仮名漢字混じり文字列の読みを表すルビ文字列とを表示部107に表示することにより、ユーザは仮名漢字混じり文字列かルビ文字列かの、いずれか一つの文字列の中から、修正したい文字を選択することが可能となる。これにより、ユーザは、誤認識により表示された文字列を、仮名漢字混じり文字列とルビ文字列とから修正することができるため、利便性が向上する。
図6は、第2の実施の形態に係る情報処理装置20の外観を表す図である。
情報処理装置20では、第1の実施の形態における情報処理装置10と比較して、表示処理部106は、さらに、ルビ文字列表示領域204を表示部107上に表示させる。
図6(a)に示したように、例えば、ユーザからの音声による入力により、文字列表示領域201には、「行はいい天気ですね」が表示される。ルビ文字列表示領域204には、ルビ文字列である「ぎょうはいいてんきですね」が表示される。
ユーザは、タッチペン203等を用いて、文字列表示領域201に表示された文字列のうち、修正したい一又は複数の文字を指定する。あるいは、ルビ文字列表示領域204に表示された文字列のうち、修正したい一又は複数のルビ文字を指定する。
以下に、情報処理装置20について、詳細に述べる。本実施の形態において、第1の実施の形態と同様の説明は、適宜省略する。
変換部102は、入力部101から入力された音声を、漢字を含む仮名漢字混じり文字列と、表音文字列で表わされるルビ文字列とに変換する。変換された仮名漢字混じり文字列と、ルビ文字列とは、記憶部111に記憶される。
図6(a)に示したように、例えば、ユーザは、表示部107上のルビ文字列表示領域204に表示されている「ぎょうはいいてんきですね」のルビ文字列のうち、修正したいルビ文字である「ぎょ」を指定する。選択部103は「ぎょ」の文字を選択する。
生成部105は、選択部103が選択した「ぎょ」の文字を変換部102から入力として受け付ける。生成部105は、入力された「ぎょ」の文字の類似文字候補(例えば、「ぎょ」、「きょ」、「ぴょ」)を訂正文字候補として、第1の実施の形態の場合と同様にして、類似文字辞書109から抽出する。生成部105は、抽出した訂正文字候補を、表示処理部106に出力する。
表示処理部106は、訂正文字候補を、表示部107上の訂正候補表示領域202に出力し、表示させる。
ユーザは、訂正候補表示領域202に表示された訂正文字候補のうち、一の訂正文字候補「きょ」を指定する。
決定部110は、ユーザが指定した訂正文字候補(「きょ」)を決定する。決定部110は、決定した訂正文字候補(「きょ」)を表示処理部106に出力する。
表示処理部106は、選択部103が選択した「ぎょ」のルビ文字を、決定部110が決定した訂正文字候補(「きょ」)に置換して、表示部107に出力し、ルビ文字列表示領域204に表示させる。表示処理部106は、変換部102に更新信号を出力する。
変換部102は、表示処理部106からの更新信号を受け、記憶部111に記憶された修正前のルビ文字列を、修正後のルビ文字列に置換する。変換部102は、修正後のルビ文字列を漢字変換し、一又は複数の仮名漢字混じり文字列候補を作成する。変換部102は、作成した仮名漢字混じり文字列を表示処理部106に出力してもよい。この場合、表示処理部106は、仮名漢字混じり文字列候補を表示部107上(例えば、訂正候補表示領域202)に表示させる。ユーザにより一の仮名漢字混じり文字列候補が指定されると、表示処理部106は、該仮名漢字混じり文字列候補を表示部107上の文字列表示領域201に表示させる。このようにして、図6(b)に示したように、ユーザは「行はいい天気ですね」を「今日はいい天気ですね」に修正することができる。
以上の処理において、情報処理装置20が仮名漢字混じり文字列とルビ文字列とをユーザによる選択が可能に表示することにより、ユーザは簡便に、誤認識により表示された文字列を修正することができる。さらに、ユーザは、誤認識により表示された文字列を、仮名漢字混じり文字列とルビ文字列とから修正することができるため、利便性が向上する。
101 入力部
102 変換部
103 選択部
104 分割部
105 生成部
106 表示処理部
107 表示部

Claims (3)

  1. ユーザから入力された音声を認識し、文字列に変換する変換部と、
    ユーザの指定により、前記文字列から、一又は複数の文字を選択する選択部と、
    選択された前記文字を表音文字に変換し、前記表音文字を音単位の表音文字に分割する分割部と、
    音が類似する複数の音単位の表音文字の各々を関連付けて類似文字候補として格納した類似文字辞書から、分割された音単位の前記表音文字の各々に対応する前記類似文字候補を抽出し、選択された前記文字の訂正文字候補を生成する生成部と、
    生成された前記訂正文字候補をユーザによる選択が可能に、表示部に表示させる表示処理部と
    を備えることを特徴とする情報処理装置。
  2. 前記分割部は、
    前記表音文字を音節単位又は音素単位の表音文字に分割し、
    前記生成部は、
    前記類似文字候補を、分割された音節単位又は音素単位の前記表音文字の各々について、一定の類似度の範囲の前記類似文字候補を抽出し、前記訂正文字候補を生成することを特徴とする、請求項1記載の情報処理装置。
  3. 前記変換部は、
    ユーザから入力された音声を認識し、表音文字列と、前記表音文字列を漢字変換した仮名漢字混じり文字列とに変換し、
    前記選択部は、
    ユーザの指定により、前記表音文字列と前記仮名漢字混じり文字列のいずれか一方の文字列から、一又は複数の文字を選択することを特徴とする、請求項2記載の情報処理装置。
JP2011542997A 2009-11-30 2009-11-30 情報処理装置 Expired - Fee Related JP5535238B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/006471 WO2011064829A1 (ja) 2009-11-30 2009-11-30 情報処理装置

Publications (2)

Publication Number Publication Date
JPWO2011064829A1 true JPWO2011064829A1 (ja) 2013-04-11
JP5535238B2 JP5535238B2 (ja) 2014-07-02

Family

ID=44065954

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011542997A Expired - Fee Related JP5535238B2 (ja) 2009-11-30 2009-11-30 情報処理装置

Country Status (4)

Country Link
US (1) US20120296647A1 (ja)
JP (1) JP5535238B2 (ja)
CN (1) CN102640107A (ja)
WO (1) WO2011064829A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810993B (zh) * 2012-11-14 2020-07-10 北京百度网讯科技有限公司 一种文本注音方法及装置
EP2940683A4 (en) * 2012-12-28 2016-08-10 Sony Corp INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND PROGRAM
JP2015103082A (ja) * 2013-11-26 2015-06-04 沖電気工業株式会社 情報処理装置、システム、方法、及び、プログラム
JP2015153108A (ja) 2014-02-13 2015-08-24 株式会社東芝 音声会話支援装置、及び音声会話支援方法及びプログラム
US20150370891A1 (en) * 2014-06-20 2015-12-24 Sony Corporation Method and system for retrieving content
CN105810197B (zh) * 2014-12-30 2019-07-26 联想(北京)有限公司 语音处理方法、语音处理装置和电子设备
JP6925789B2 (ja) * 2016-06-29 2021-08-25 京セラ株式会社 電子機器、制御方法、及びプログラム
WO2020036011A1 (ja) * 2018-08-16 2020-02-20 ソニー株式会社 情報処理装置、情報処理方法、および、プログラム
JP6601826B1 (ja) * 2018-08-22 2019-11-06 Zホールディングス株式会社 分割プログラム、分割装置、及び分割方法
JP6601827B1 (ja) * 2018-08-22 2019-11-06 Zホールディングス株式会社 結合プログラム、結合装置、及び結合方法
JP7574029B2 (ja) 2020-09-29 2024-10-28 富士通株式会社 端末装置、音声認識方法、音声認識プログラム
CN113299293A (zh) * 2021-05-25 2021-08-24 阿波罗智联(北京)科技有限公司 语音识别结果处理方法和装置、电子设备、计算机介质
WO2023146416A1 (en) * 2022-01-28 2023-08-03 John Chu Character retrieval method and apparatus, electronic device and medium

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63208096A (ja) * 1987-02-25 1988-08-29 株式会社東芝 情報入力装置
JPH09269945A (ja) * 1996-03-29 1997-10-14 Toshiba Corp メディア変換方法およびメディア変換装置
JPH10134047A (ja) * 1996-10-28 1998-05-22 Casio Comput Co Ltd 移動端末音声認識/議事録作成通信システム
JP2001005809A (ja) * 1999-06-25 2001-01-12 Toshiba Corp 文書作成装置、文書作成方法、及び文書作成プログラムが記録された記録媒体
JP4229627B2 (ja) * 2002-03-28 2009-02-25 株式会社東芝 ディクテーション装置、方法及びプログラム
JP3762327B2 (ja) * 2002-04-24 2006-04-05 株式会社東芝 音声認識方法および音声認識装置および音声認識プログラム
US7137076B2 (en) * 2002-07-30 2006-11-14 Microsoft Corporation Correcting recognition results associated with user input
JP3848319B2 (ja) * 2003-11-11 2006-11-22 キヤノン株式会社 情報処理方法及び情報処理装置
US7506271B2 (en) * 2003-12-15 2009-03-17 Microsoft Corporation Multi-modal handwriting recognition correction
JP4012143B2 (ja) * 2003-12-16 2007-11-21 キヤノン株式会社 情報処理装置およびデータ入力方法
JP4189336B2 (ja) * 2004-02-25 2008-12-03 株式会社東芝 音声情報処理システム、音声情報処理方法及びプログラム
JP4604178B2 (ja) * 2004-11-22 2010-12-22 独立行政法人産業技術総合研究所 音声認識装置及び方法ならびにプログラム
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
JP2008090625A (ja) * 2006-10-02 2008-04-17 Sharp Corp 文字入力装置、文字入力方法、制御プログラム、および、記録媒体
JP2009187349A (ja) * 2008-02-07 2009-08-20 Nec Corp 文章修正支援システム、文章修正支援方法、および文章修正支援用プログラム

Also Published As

Publication number Publication date
US20120296647A1 (en) 2012-11-22
JP5535238B2 (ja) 2014-07-02
WO2011064829A1 (ja) 2011-06-03
CN102640107A (zh) 2012-08-15

Similar Documents

Publication Publication Date Title
JP5535238B2 (ja) 情報処理装置
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
TWI532035B (zh) 語言模型的建立方法、語音辨識方法及電子裝置
TWI539441B (zh) 語音辨識方法及電子裝置
TW201517015A (zh) 聲學模型的建立方法、語音辨識方法及其電子裝置
US20080027725A1 (en) Automatic Accent Detection With Limited Manually Labeled Data
JP3723518B2 (ja) 文字処理装置および方法
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
CN108109610B (zh) 一种模拟发声方法及模拟发声系统
JP5396530B2 (ja) 音声認識装置および音声認識方法
KR102580904B1 (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
KR20170057623A (ko) 언어장애인을 위한 다언어 어휘의 발음 합성 및 문자화 장치
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP4966324B2 (ja) 音声翻訳装置、および方法
JP5079718B2 (ja) 外国語学習支援システム、及びプログラム
JP6397641B2 (ja) 自動通訳装置及び方法
JP5334716B2 (ja) 文字情報提示制御装置及びプログラム
JP2004271895A (ja) 複数言語音声認識システムおよび発音学習システム
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
JP5169602B2 (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
JP7165439B2 (ja) ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法
JP6142632B2 (ja) 単語辞書登録用コンピュータプログラム、音声合成装置及び単語辞書登録登録方法
JP2006098552A (ja) 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法
JP4208819B2 (ja) 音声合成辞書登録方法および装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140422

LAPS Cancellation because of no payment of annual fees