JP6150268B2

JP6150268B2 - 単語登録装置及びそのためのコンピュータプログラム

Info

Publication number: JP6150268B2
Application number: JP2012191971A
Authority: JP
Inventors: 芳則志賀; 英男大熊; 法幸木村; 孔明杉浦; 輝昭林; 悦雄水上
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2012-08-31
Filing date: 2012-08-31
Publication date: 2017-06-21
Anticipated expiration: 2032-08-31
Also published as: JP2014048506A

Description

この発明は、音声認識を使用したサービスに関し、特に、音声認識の精度を改善するための技術に関する。

携帯型の電話機、特に、いわゆるスマートフォンの普及に伴い、さまざまなアプリケーションが出現している。中でも、入力に音声認識を用いるアプリケーションはこれからさらに普及してくるものと思われる。これは、スマートフォンのように小さな装置では、テキストの入力が難しいという事情による。

しかし、音声認識をさらに普及させるためには、音声認識の精度をさらに高める必要がある。精度を高める１つの方策として、音声認識に用いられる辞書を充実させるという方法がある。音声認識では、原理的に、辞書にない単語を認識することが難しいためである。現在でも、音声認識に限らず、音声に関するデータ処理を行なうシステムは、一般に数万から数十万の語彙を持つ辞書を備えている。一方で、使用頻度の低い語、例えば専門用語、新語、及び流行語等はこうした辞書には登録されていないことが多い。そうした語彙を含む音声をシステムに入力すると、適切な音声処理の結果が得られない。

そうした問題に対処するために、一般的に、こうしたシステムには、ユーザが自ら語彙を登録可能なユーザ辞書が備えられている。ユーザがよく使用する語彙をユーザ辞書に登録することにより、処理量の増加を抑えながら、音声処理の精度を高めることができる。しかし、現状ではユーザ辞書が十分有効に活用されていないという問題がある。ユーザ辞書への語彙登録の手続きが煩雑であるためである。一部のユーザはユーザ辞書を有効に活用しているが、一般的なユーザがユーザ辞書を活用するためには、ユーザ辞書への登録方法を簡略化する必要がある。

こうした問題を解決するための方策が、後掲の特許文献１に提案されている。この特許文献１に開示された音声認識システムの音声認識端末は、基本的には音声認識端末に備えられた音声認識用の辞書を用いて音声認識を行なう。この音声認識に失敗すると、音声認識端末はその音声データを音声認識サーバに送信する。音声認識サーバは、音声認識端末の辞書よりはるかに大きな語彙の音声認識用辞書を用いて音声認識を行ない、結果を音声認識端末に送信する。この音声認識の結果の単語は、元の音声データとともに音声認識用辞書に登録される。したがって、音声認識端末で認識に失敗した単語（通常は音声認識端末の辞書に存在しない単語）が音声認識端末の辞書に追加登録される。特許文献１の開示によれば、この間の処理にユーザが介在することはなく、簡単に音声認識端末の辞書に新たな単語が登録される。

特開２０１２−８８３７０号公報

しかし、特許文献１に開示されたシステムでは、依然として以下のように解決すべき課題がある。

第１に、音声認識サーバで誤認識した単語でも、そのまま音声認識端末の辞書に登録されてしまうという問題がある。音声認識サーバに備えられた辞書が音声認識端末の辞書より多くの語彙を有していたとしても、登録されていない語句は必ず存在する。そうした場合、場合によっては音声認識サーバで単語が誤認識されることがある。特許文献１に記載されたシステムでは、そのような誤った単語の登録がされてしまうため、結果としてかえって音声認識端末における音声認識の精度を下げてしまう。

第２に、音声認識サーバで音声認識ができない場合には、音声認識端末の辞書に単語を登録することができないという問題がある。特許文献１は、音声認識サーバで音声認識に失敗したときに、音声認識端末の辞書に単語を登録することについては全く触れていない。

それゆえに本発明の目的は、簡単な操作で、かつ音声認識の精度を下げないような態様で音声処理用の辞書に単語を登録できる単語登録装置、及びそのような単語登録装置としてコンピュータを動作させるコンピュータプログラムを提供することである。

本発明の第１の局面に係る単語登録装置は、表示面を持つ表示装置、及び、当該表示面上の位置を指定するポインティングデバイスを用い、単語辞書に単語を登録する単語登録装置である。この単語登録装置は、単語辞書を用いて音声認識を行なう第１の音声認識手段、及び、第１の音声認識手段と異なる第２の音声認識手段とともに用いられる。単語登録装置は、第１の音声認識手段による音声認識の結果を第１の音声認識手段から受け、表示面上に文字列として表示する音声認識結果の表示手段と、表示手段により表示された文字列中で、修正すべき箇所を、ポインティングデバイスを用いたユーザの入力に応答して特定する修正箇所の特定手段と、第１の音声認識手段による音声認識の対象となった音声データのうち、特定手段により特定された箇所に基づいて定められる音声区間について、第２の音声認識手段に対し、音声認識によって修正文字列候補を生成することを依頼する第１の修正依頼手段と、第１の修正依頼手段による依頼に応答して第２の音声認識手段が出力する修正文字列候補を表示面に表示し、当該表示面上の位置をユーザがポインティングデバイスで指定したことに応答して、当該指定された位置を含む領域に表示された文字列候補を選択する修正文字列選択手段と、修正文字列選択手段により選択された文字列候補及び対応する音標文字列を、単語辞書に登録する処理を実行する辞書登録処理手段とを含む。

好ましくは、第１の修正依頼手段は、第１の音声認識手段による音声認識の対象となった音声データのうち、特定手段により特定された箇所に基づいて対応する音声範囲を定め、当該音声範囲の前後のそれぞれN₁個及びN₂個（ただしN₁及びN₂はいずれも０以上の整数）の音声単位分だけ範囲を拡大した音声区間について、第２の音声認識手段に対し、音声認識によって修正文字列候補を生成することを依頼する手段を含む。

さらに好ましくは、第２の音声認識手段は、第１の音声認識手段よりも大語彙の音声認識が可能な大語彙音声認識手段と、与えられた音声データを音声認識し、辞書に登録されていない単語を音標文字列として認識し出力する音標文字出力手段とを含む。辞書登録処理手段は、選択された文字列候補が大語彙音声認識手段により出力された文字列であることに応答して、修正文字列選択手段により選択された文字列候補及び対応する音標文字列を、第１の音声認識手段のための単語辞書に登録する処理を実行する第１の追加手段と、選択された文字列候補が音標文字出力手段の出力であることに応答して、ユーザ操作にしたがって当該文字列候補を表意文字を含む文字列に変換し出力する文字列変換手段と、文字列変換手段により出力された文字列及び対応する音標文字列を単語辞書に登録する処理を実行する第２の追加手段とを含む。

第２の音声認識手段は、与えられた音声データを音声認識し、音標文字からなる文字列を出力する音標文字出力手段を含んでもよい。この場合、辞書登録処理手段は、音標文字出力手段の出力を、ユーザ操作にしたがって当該文字列候補を表意文字を含む文字列に変換し出力する文字列変換手段と、文字列変換手段により出力された文字列及び対応する音標文字列を単語辞書に登録する処理を実行する追加手段とを含む。

さらに好ましくは、修正箇所の特定手段は、音声認識結果により表示された文字列中で、表示面上でユーザにより指定された位置を含む領域に表示されている文字列、又は表示面上でユーザによりドラッグされた範囲を含む領域に表示されている文字列を修正すべき文字列として特定する手段を含む。

本発明の第２の局面に係るコンピュータプログラムは、表示面を持つ表示装置、及び、表示面上の位置を指定するポインティングデバイスが接続されるコンピュータにより実行されると、当該コンピュータを、表示装置及びポインティングデバイスを用いて、単語辞書に単語を登録する単語登録装置として動作させるコンピュータプログラムである。この単語登録装置は、単語辞書を用いて音声認識を行なう第１の音声認識手段、及び、第１の音声認識手段と異なる第２の音声認識手段とともに用いられる。このコンピュータプログラムは、コンピュータを、第１の音声認識手段による音声認識の結果を第１の音声認識手段から受け、表示面上に文字列として表示する音声認識結果の表示手段と、表示手段により表示された文字列中で、修正すべき箇所をポインティングデバイスを用いたユーザの入力に応答して特定する修正箇所の特定手段と、第１の音声認識手段による音声認識の対象となった音声データのうち、特定手段により特定された箇所に基づいて定められる音声区間について、第２の音声認識手段に対し、音声認識によって修正文字列候補を生成することを依頼する第１の修正依頼手段と、第１の修正依頼手段による依頼に応答して第２の音声認識手段が出力する修正文字列候補を表示面上に表示し、当該表示面上の位置をユーザがポインティングデバイスで指定したことに応答して、当該指定された位置を含む領域に表示された文字列候補を選択する修正文字列選択手段と、修正文字列選択手段により選択された文字列候補及び対応する音標文字列を、単語辞書に登録する処理を実行する辞書登録処理手段として機能させる。

本発明の第１の実施の形態に係る音声翻訳システムの全体構成を模式的に示す図である。図１に示すシステムで用いられる携帯型端末の画面に表示される音声翻訳の画面を模式的に示す図である。第１の実施の形態に係る携帯型端末での、タップを用いた選択による誤認識箇所の修正の手順を示す図である。第１の実施の形態に係る携帯型端末での、ドラッグによる誤認識箇所の修正の手順を示す図である。第１の実施の形態の音声翻訳システムで、携帯型端末とサーバとの間で行なわれる音声翻訳、誤認識修正、及び単語登録の処理シーケンスを示す図である。第１の実施の形態のシステムで使用される携帯型端末のハードウェア構成を示すブロック図である。第１の実施の形態のシステムで使用される音声翻訳サーバを実現するコンピュータシステムの外観を示す図である。図７に示すコンピュータシステムのハードウェア構成を示すブロック図である。第１の実施の形態のシステムで使用される携帯型端末における、プログラムの状態遷移を示す図である。携帯型端末で、音声認識サービスの利用、誤認識箇所指定、及び修正候補の選択を実現するプログラムの制御構造を示すフローチャートである。図１０に示すプログラムで、利用者のタップを用いた選択に応答して認識文字列の修正箇所を特定する処理を実現するプログラムのフローチャートである。図１０に示すプログラムで、利用者のドラッグに応答して認識文字列の修正箇所を特定する処理を実現するプログラムのフローチャートである。第１の実施の形態のシステムで利用される音声認識サーバをコンピュータにより実現するプログラムの制御構造を示すフローチャートである。第２の実施の形態に係る携帯型端末における、タップを用いた選択による誤認識箇所の修正の手順を示す図である。第２の実施の形態に係る携帯型端末における、ドラッグによる誤認識箇所の修正の手順を示す図である。第２の実施の形態に係る音声認識サービスを実現するサーバシステムのハードウェア構成を示すブロック図である。第２の実施の形態に係るサービスを利用する携帯型端末のハードウェア構成を示すブロック図である。第２の実施の形態で、携帯型端末で音声翻訳サービスを利用するプログラムの制御構造を示すフローチャートである。図１８に示すプログラムで、誤認識文字列の修正箇所を決定する処理を実現するプログラムの制御構造を示すフローチャートである。第２の実施の形態に係る音声翻訳サービスを実現するコンピュータで実行されるプログラムの制御構造を示すフローチャートである。第２の実施の形態に係る音声翻訳サービスを利用する際の、携帯型端末とサーバとの間の通信シーケンスを示す図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

［第１の実施の形態］
〈概略〉
─全体構成（図１）─
図１を参照して、この発明に係る音声翻訳システム100は、インターネット102に接続された、クライアントからの音声翻訳要求に応答して音声翻訳サービスを提供するサーバ106と、インターネット102に接続可能で、サーバ106による音声翻訳サービスを利用するためのアプリケーションがインストールされた携帯型端末104とを含む。この実施の形態では、携帯型端末104は自分で音声翻訳は行なわず、もっぱらサーバ106の音声翻訳サービスを利用するものとする。サーバ106は、端末ごと（又はユーザごと）の辞書を後述する方法により保守する。後述するように、音声翻訳を携帯型端末又はコンピュータでスタンドアロンで実行する場合もある。そうした場合には、以下に述べるサーバでの処理をそうした携帯型端末又はコンピュータで実現する必要があるが、その方法については、以下の実施の形態から当業者には容易に理解できるであろう。例えば、以下の実施の形態で単語登録の対象となっているユーザ辞書は、サーバではなく、ユーザ側の携帯型端末又はコンピュータに備えられていてもよい。

音声認識時には、各ユーザ共通の基本辞書と、ユーザごとに準備されたユーザ辞書との双方を用いた音声認識が行なわれる。基本辞書にもユーザ辞書にも登録されていない単語については、音声認識では正しく認識できない。基本辞書には登録されていないが、ユーザ辞書に登録されている単語については、認識できる可能性がある。したがって、ユーザ辞書に効率的に単語を登録することが認識精度を高めるために有効である。本実施の形態の１つの目的は、ユーザ辞書への単語登録を簡単に行なうことができるようにすることである。

─アプリケーション画面（図２）─
図２を参照して、音声翻訳サービスを利用するための携帯型端末104のアプリケーション画面130は、大きく分けて５つの領域に分割されている。すなわち、音声翻訳サービスの対象となっている言語の対（ソース言語とターゲット言語）を表示するための言語表示領域140、ソース言語の音声で入力された文の音声認識結果、又はテキスト入力結果を表示するための入力テキスト表示領域150、音声認識された文を自動翻訳した結果のテキストが表示される翻訳結果表示領域170、翻訳結果を元の言語に逆翻訳した文を表示する逆翻訳領域160、及び音声翻訳システムの利用状況を表示するステータス領域180である。

言語表示領域140には、ソース言語の言語名が左側に、ターゲット言語の言語名が右側に、それぞれソース言語の文字で表示される。ソース及びターゲット言語名の間には、音声翻訳の言語の組合せを設定するための設定ボタン142が表示される。アプリケーション画面130では、翻訳結果の文以外のテキストはいずれもソース言語の文字で表示される。

入力テキスト表示領域150には、ソース言語の言語名の表示156と、入力文のテキストを直接に入力するテキスト入力画面を表示させるためのテキスト入力ボタン154とが表示される。音声入力の結果及びテキスト入力の結果は、いずれも入力テキスト表示領域150内に入力テキスト158として表示される。テキストを入力して自動翻訳を行なう機能は、本願発明と直接の関係を持たない。したがって、携帯型端末104及びサーバ106の各機能のうち、テキスト入力にのみ関連する部分については以下では言及しない。

逆翻訳領域160には、音声入力の結果から自動翻訳されたターゲット言語の文を、ソース言語の文に逆翻訳した結果の文162が表示される。逆翻訳を逆翻訳領域160に表示することにより、ユーザは翻訳が発話者の意図を正しく伝えるものか否かを判定できる。ただし、逆翻訳については、本発明とは直接関連しない。本実施の形態の説明では、実施の形態の説明を分かりやすくするため、この逆翻訳に関連する機能部分についての詳細は説明しない。

翻訳結果表示領域170には、ターゲット言語の言語名174と、自動翻訳の結果の文（ターゲット言語の文）のテキスト176と、テキスト176の合成音声を再生させるための再生ボタン172とが表示される。本実施の形態では、音声翻訳の結果は自動的に合成音声として発話される。しかしユーザが、繰返して発声させたい場合には、ユーザは再生ボタン172を操作する。

ステータス領域180には，利用回数等のシステムの利用状況と、マイクボタン182とが表示される。マイクボタンは音声入力を開始／終了させるためのボタンである。本実施の形態では、音声入力の開始方法は２つある。第１は、ユーザが携帯型端末104で電話するときと同様、携帯型端末104を耳に当てることである。その場合、センサがその状態を感知し、音声入力を開始する。ユーザが携帯型端末104を耳から離すと音声入力が終了する。第２は、マイクボタン182を押すことである。マイクボタン182は、音声入力がされていないときには音声入力を開始させ、音声入力中には音声入力を終了させる。

─タップによる誤認識修正と辞書登録（図３）─
以下、この実施の形態において、ユーザ辞書に単語を登録する際の携帯型端末104の表示及びユーザの操作について説明する。ここでは、音声認識で誤認識された単語をユーザがタップする（すなわち、選択する）と、その単語を認識し直して修正候補のリストを生成し、その中から正しい認識結果（以下、正しい認識結果を「正解」と呼ぶ。）をユーザに選択させる。選択された修正候補の文字列をユーザ辞書に登録する。こうした処理を実行するために、携帯型端末104、サーバ106がどのような構成となっているかについては後述する。

図３(A)を参照して、「スカイライナー」と発話したものが、サーバ106により「スキャナー」（単語200）として誤認識された場合を例にとる。図３(B)を参照して、ユーザは、単語200が表示された領域内の位置202を選択する。図３(C)を参照して、携帯型端末104は、選択された位置を含む形態素204を自動的に認識し、その形態素204を反転表示する。携帯型端末104はさらに、図示はしていないが、形態素204と、その形態素204の前のN₁個の音声単位及び後続するN₂個の音声単位を含む音声単位列と、音声データ内でこれら音声単位列に対応する部分の開始時刻及び終了時刻とをサーバ106に送信し、その部分の再音声認識（修正）を依頼する。サーバ106は、この依頼に応答して、最初の音声認識時に用いた辞書よりはるかに大きな認識用辞書を用いた超大語彙音声認識処理を行なう。

一般に「音声単位」とは、音素、音節、モーラ等を表す。音声単位は言語によっても異なるし、音声認識手法によっても異なる場合がある。ここでは、システムの設計時に、音声単位をどのように決めるかを定めることとする。

音声認識で、一般的に、誤認識が生ずるところでは音声と音素とのアライメントがうまくできておらず、形態素（単語）に対応する音声区間が正しく抽出されていないことが多い。この実施の形態のように、最初の音声認識により得られた文字列のうち、指定された形態素（単語）だけでなく、その前後の音声単位列まで含んだ音声部分まで大語彙音声認識による再音声認識の対象とすることにより、音声区間が正しく抽出されて正しい音声認識結果が得られる確率が高くなる。

サーバ106は、この超大語彙音声認識処理の結果、正しい単語である尤度が高いN個の認識候補（以下、「Nベスト」と呼ぶ。）を携帯型端末104に送信してくる。図３(D)を参照して、携帯型端末104は、このNベストをリスト206として入力テキスト表示領域150（図２参照）に表示する。ユーザがこれら候補の中から正しい認識結果（例えば単語208、「スカイライナー」）を選択すると、図３(E)に示すように、入力テキスト表示領域150の認識結果中、誤認識された単語200（「スキャナー」）が正しい認識結果の単語210（「スカイライナー」）に置換される。同時に、単語210が携帯型端末104に対応してサーバ106に設けられた単語辞書（ユーザ辞書）に登録される。

したがってこの場合には、ユーザが行なわなければならない操作は、（１）誤認識された単語を選択すること、及び（２）表示されたNベスト中で正解の単語を選択すること、の２つだけである。

─ドラッグによる誤認識修正と辞書登録（図４）─
誤認識された単語を修正し辞書に登録するための２つめの方法は、誤認識された単語の一部をドラッグすることである。図４(A)を参照して、図３(A)の場合と同様、「スカイライナー」という発話が携帯型端末104における音声認識で単語200（「スキャナー」）に誤認識された場合を例にとる。図４(B)を参照して、ユーザは、誤認識された単語の中の任意の位置でドラッグを開始し、矢印214で示されるように、その単語の中で、誤認識された部分を含むようにドラッグし、任意の位置212でドラッグを終了する。ドラッグされた位置に存在する文字列216は反転表示される。

図４(C)を参照して、反転された文字列216を含む形態素の文字列及び発話データ中でのその開始時刻と終了時刻とがサーバ106に送信される。サーバ106は、図３の場合と同様、超大語彙音声認識によってこの形態素に対応する音声データを音声認識し直し、認識結果のNベストリストを携帯型端末104に送信する。携帯型端末104はこのNベストリスト218をアプリケーション画面130上に表示する。ユーザがNベストリスト218の中から正しい単語219（「スカイライナー」）を選択すると、図４(A)の単語200が図４(D)に示すように単語210で置換される。このとき、その単語210と少なくともその読みとが携帯型端末104に対してサーバ106に設けられたユーザ辞書に登録される。以下、「ユーザ辞書に単語を登録する」という場合、単語だけでなく、その読みも一緒に登録されるものとする。

この場合、ユーザのなすべき操作は、（１）単語内の誤認識された箇所をドラッグすること、及び（２）表示されたNベストリストの中で正解の単語を選択すること、の２つだけである。

なお、ここでいう「読み」とは、意味に関係なく、言語の音韻の符号として用いる文字、すなわち音標文字と呼ばれる記号のことを言う。したがって、日本語でいうひら仮名及びカタ仮名、発音記号、音素記号等のいずれでもよい。本実施の形態では、日本語の単語の読みとしてはひら仮名からなる文字列を想定している。この実施の形態では詳細には述べないが、英語の単語の読みとしては例えば発音記号列を単語の読みとして用いることができる。

─音声翻訳及び辞書登録のシーケンス（図５）─
図５を参照して、音声翻訳システム100を用いた音声翻訳の際の、携帯型端末104とサーバ106との間の典型的な通信シーケンスを説明する。最初に、携帯型端末104で音声入力220を行ない、その音声と、音声翻訳の言語の組合せ等の情報と、センサの集合から得られた情報とを含む音声翻訳リクエスト221をサーバ106に送信する。サーバ106は、この音声翻訳リクエスト221を受信すると音声翻訳処理222を行なう。音声翻訳処理222は、音声認識処理と、音声認識結果に対する自動翻訳処理と、自動翻訳の結果に対応する音声合成処理とを含む。音声認識結果は、音声認識の結果得られた形態素列を含む。各形態素には、元の音声データにおけるそれら形態素の発話の開始時刻及び終了時刻が付されている。音声翻訳処理222の結果223は携帯型端末104に送信される。携帯型端末104は、受信した音声認識及び自動翻訳の結果を表示し、合成音声を発声する処理224を実行する。もしも所望の結果が得られたなら、これで音声翻訳は終了である。

一方、処理224で表示された音声認識結果に誤りがあった場合には、ユーザは、処理226に示すように誤認識された箇所（修正すべき箇所）を指定する操作を行なう。携帯型端末104は、処理226でのユーザの操作に基づき、図３及び図４に示したように修正箇所を特定する。携帯型端末104はさらに、修正すべき各形態素の、元の音声データにおける開始時刻及び終了時刻と、誤認識された形態素とを含む修正（再認識）依頼227をサーバ106に送信する。サーバ106は、この修正依頼227に応答して修正処理228を実行する。修正処理228は、元の音声データのうち、修正依頼227に含まれる開始時刻及び終了時刻により特定される部分に対する超大語彙音声認識処理をしてNベストリストを生成する処理を含む。超大語彙音声認識処理により得られたNベストリスト229はサーバ106から携帯型端末104に送信される。

携帯型端末104は、処理230で、修正処理228で得られたNベストリスト229を修正対象の単語位置に重ねて表示する。処理230ではさらに携帯型端末104は、Nベストリストのうちで正しい認識結果の形態素を選択するユーザ入力を受付ける。携帯型端末104は、選択された形態素を含む再翻訳リクエスト231をサーバ106に送信する。サーバ106は、この形態素を用いて、音声翻訳処理222での音声認識処理を修正し、修正後の結果を用いて自動翻訳及び翻訳結果の逆翻訳、並びに翻訳結果の音声合成処理232を実行し、その結果235を携帯型端末104に送信する。さらにサーバ106は、携帯型端末104から受けた再翻訳リクエスト231に含まれている形態素を、携帯型端末104のための辞書に追加する処理234を実行し、この形態素と、最初に携帯型端末104から受信した音声データのうち、この形態素に対応する部分とを学習データとして記憶装置に蓄積する（処理238）。

一方、携帯型端末104は、処理232でサーバ106から送信された音声翻訳結果235にしたがい、最終的な音声認識結果と、自動翻訳結果と、その逆翻訳とを表示し、さらに自動翻訳結果に対応する合成音声を発声する（処理236）。

図５に示したのは典型的な処理シーケンスである。音声認識結果に複数の誤認識箇所があった場合、処理226から処理236までが繰返し実行される。

〈ハードウェア構成〉
─携帯型端末104（図６）─
図６を参照して、携帯型端末104は、所定のプログラムを実行して携帯型端末104の各部を制御することにより、種々の機能を実現するためのプロセッサ250と、プロセッサ250が実行するプログラム、及びそのプログラムの実行に必要なデータを記憶し、プロセッサ250の作業領域としても機能するメモリ252と、プロセッサ250と後述する各種センサ等との間のインターフェイス254とを含む。以下に説明する構成要素は、いずれも、インターフェイス254を介してプロセッサ250と通信可能である。

携帯型端末104はさらに、マイクロフォン256、GPS機能により携帯型端末104の位置の経度及び緯度情報を取得するためのGPS受信機258、各種のセンサ群260、無線通信により図示しない基地局を介してインターネット102に接続可能な通信装置272、タッチパネル274、タッチパネル274とは別に携帯型端末104の筐体に設けられた操作ボタン276、及びスピーカ280を含む。

─サーバ106（図７及び図８）─
上記実施の形態に係るサーバ106は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図７はこのサーバ106を構成するコンピュータシステム330の外観を示し、図８はコンピュータシステム330の内部構成を示す。

図７を参照して、このコンピュータシステム330は、メモリポート352及びDVD（Digital Versatile Disc）ドライブ350を有するコンピュータ340と、いずれもコンピュータ340に接続されたキーボード346と、マウス348と、モニタ342とを含む。

図８を参照して、コンピュータ340は、メモリポート352及びDVDドライブ350に加えて、CPU（中央処理装置）356と、CPU356に接続されたバス366とを含む。メモリポート352及びDVDドライブ350もこのバス366に接続されている。コンピュータ340はさらに、バス366に接続され、ブートアッププログラム等を記憶する読出専用メモリ（ROM）358と、バス366に接続され、プログラム命令、システムプログラム、及び作業データ等を一時的に記憶するランダムアクセスメモリ（RAM）360とを含む。コンピュータシステム330はさらに、いずれもバス366に接続された要素であって、CPU356が使用するデータを記憶するハードディスク354と、コンピュータ340に、LAN378上又はルータ376を介してインターネット102上の他端末との接続を提供するネットワークインターフェイスカード（NIC）368と、音声認識の結果に対する修正結果を学習用データとして蓄積する、ハードディスク等からなる学習用データ蓄積装置380とを含む。図８に示されるように、コンピュータ340のバス366にはさらに、プリンタ344を接続してもよい。コンピュータシステム330はさらに、LAN378に接続された音声認識装置372と、超大語彙音声認識装置374とを含む。超大語彙音声認識装置374は、音声認識装置372が持つ音声認識用の辞書よりもはるかに大きな語彙の辞書を用いて音声認識を行なう。したがって、超大語彙音声認識装置374が行なう音声認識処理は、音声認識装置372の音声認識処理よりも精度が高いが、同じ音声データに対して音声認識するに要する時間も長い。

ハードディスク354は、上記した各実施の形態の音声翻訳サーバの各機能部をコンピュータシステム330のコンピュータハードウェアにより実現するためのコンピュータプログラム、及び作業用データ等のデータを記憶する不揮発性の補助記憶装置である。このコンピュータプログラムは、DVDドライブ350又はメモリポート352にそれぞれ装着されるDVD362又はリムーバブルメモリ364に記憶され、さらにハードディスク354に転送され記憶される。又は、プログラムはインターネット102、ルータ376及びNIC368を通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。上記各実施の形態の装置及び方法を実現するためのプログラム、及び各種のデータは実行の際に適宜RAM360にロードされる。DVD362から、リムーバブルメモリ364から、又はネットワークを介して、直接にRAM360に各種データをロードしてもよい。

本実施の形態では、音声認識装置372及び超大語彙音声認識装置374もコンピュータ340と同様のハードウェア構成を持つ。特に、音声認識装置372のHDD354には、ユーザ別の音声認識用辞書が格納される。

〈ソフトウェア構成〉
─携帯型端末104（図９‐図１２）─
携帯型端末104で実行される音声認識ソフトウェア（ソフト）の状態遷移を図９に示す。図９において、楕円は状態を示し、矩形は携帯型端末104が実行する処理を示す。同じく図９において、実線の矢印は何らかのイベントが発生したことに伴う状態遷移を表し、破線の矢印はイベントの発生ではなく携帯型端末104が実行する処理の終了に伴う状態遷移又は次の処理への移行を表す。図９を参照して、このソフトが起動されると、メモリ上に所定の領域を確保し初期化したりする処理と、アプリケーション画面130の初期画面を表示する処理とを実行してイベント待ち状態に移行する初期状態400になる。ここでマイクボタン182が押されたり、ユーザが携帯型端末104を耳に当てたりするイベント402が発生すると、音声入力状態404となる。

音声入力状態404で音声入力の終了イベント406が発生すると、携帯型端末104は、その音声データを含む音声翻訳リクエストをサーバ106に送信する処理408を実行してサーバ106からの翻訳結果待ち状態410となる。翻訳結果の受信イベント411が発生すると、携帯型端末104は結果表示状態412に遷移する。この状態では、携帯型端末104は、音声認識結果、自動翻訳結果及びその逆翻訳を表示し、自動翻訳結果の合成音声を発声してユーザの入力待ちとなる。結果表示状態412で再度音声入力イベント414が発生すれば、携帯型端末104は音声入力状態404に遷移する。初期画面への復帰イベント416が発生すると、携帯型端末104は初期状態400に復帰する。

結果表示状態412で音声認識結果の修正イベント418が発生すると、携帯型端末104は修正箇所を特定する処理420を実行する。ここで、音声認識結果の修正イベント418は、ユーザが入力テキスト158の一部をタップするかドラッグすることにより発生する。

修正箇所を特定する処理420が終了すると、携帯型端末104は、処理420で特定された形態素又は形態素列と、音声データにおけるそれらの開始時刻及び終了時刻とを含む修正依頼をサーバ106に送信する処理422を実行し、修正依頼に応答して送信されてくる修正箇所の単語候補のNベストリストの受信待ち状態424に遷移する。Nベストリストの受信イベント426が発生すると、携帯型端末104は修正候補のNベストを表示するNベストリスト表示状態428に遷移する。Nベストリスト表示状態428で初期状態400への復帰イベント440が発生すると、携帯型端末104は初期状態400に復帰する。音声入力イベント438が発生すると、携帯型端末104は音声入力状態404に遷移する。修正結果のNベストのうちのいずれかをユーザが選択する選択イベント430が発生すると、携帯型端末104はサーバ106に対し、選択された単語を用いて音声翻訳処理を再実行すること、及び選択された単語をユーザ辞書に登録することを依頼する登録依頼処理432を実行し、再翻訳結果待ち状態434に遷移する。サーバ106はこの単語を受信してこの携帯型端末104のためのユーザ辞書に登録する。サーバ106はさらに、修正結果の単語を用いて音声認識結果を修正して再翻訳を行なう。再翻訳結果待ち状態434の後、再翻訳の結果を受信したというイベント436が発生すると、携帯型端末104は結果表示状態412に遷移する。すなわち、再翻訳の結果が、最初の音声翻訳リクエストに対する応答と同様に出力される。

（フローチャート）
携帯型端末104の機能を実現する各種プログラムのうち、図９に示すような状態遷移を実現して音声翻訳サービスを利用するためのアプリケーションは、図１０に示すような制御構造を持つ。図１０には、本発明と特に関連しない機能（例えば図２に示す設定ボタン142が押されたときに実行される処理）等に関する部分は説明を理解しやすくするために図示していない。

図１０を参照して、このプログラムが起動されると、初期設定ファイルの読込み、メモリ領域の確保と初期設定とを行なう初期化処理460を行なう。初期化完了後、携帯型端末104はタッチパネル274に音声翻訳サービスのための初期画面を表示する。初期画面では、図２に示すテキスト入力ボタン154、マイクボタン182、及び設定ボタン142、並びにユーザが携帯型端末104を耳に当てたことを検知するセンサは活性化されているが、再生ボタン172は無効化されている。続いてユーザからの入力を待ち、発生イベントの種類により制御の流れを分岐させる（処理462）。

ユーザが携帯型端末104を耳に当てたことが検知されると、音声入力処理が起動される（処理466）。一方、音声入力ボタン（図２のマイクボタン182）が押されたことが検知されると、現在音声の入力中か否かが判断される（処理464）。入力中なら音声入力が終了される（処理466）。入力中でなければ、処理466により音声入力が起動される。音声入力処理は，音声入力のAPI（Application Programming Interface）を呼出すことにより行なわれる。入力された音声は、記憶装置に記録される。

処理462で、ユーザが携帯型端末104を耳から離したことが検知されると、音声入力が終了される（処理468）。続いて、入力された音声に対して所定の信号処理を行ない、サーバ106に送信するADPCM（Adaptive Differential Pulse Code Modulation）形式の音声信号を生成する。さらに、この音声信号と、翻訳言語等の設定情報とに基づいて、音声翻訳リクエストを生成し、サーバ106に対して送信して（処理470）処理462に戻る。処理462でマイクボタン182が押されたことが検知され、かつ処理464で音声入力中と判定された場合も同様である。

処理462で、サーバ106から音声認識結果、自動翻訳結果、その合成音声、及び自動翻訳結果の逆翻訳を受信したと判定されると、制御は処理472に進む。処理472では、音声認識結果のテキスト、逆翻訳結果のテキスト、及び自動翻訳結果のテキストをそれぞれ図２の入力テキスト表示領域150、逆翻訳領域160、及び翻訳結果表示領域170に表示する。さらに、自動翻訳結果の合成音声をスピーカ280を駆動して発声する。すなわち、スピーカ280を駆動することで、要求した発話の翻訳結果が音声の形で提示される。制御は処理462に戻る。このとき、マイクボタン182及びテキスト入力ボタン154に加え、再生ボタン172が活性化される。さらに、入力テキスト158についてもタップ及びドラッグが可能となる。

処理462で、ユーザが入力テキスト158のいずれかの部分をタップしたと判定されると、制御は処理474に進む。処理474では、ユーザのタップした位置の座標と、表示されている入力テキスト158の表示位置とに基づいて、入力テキストのうちで修正すべき部分（タップされた位置を含む形態素と、その前N₁個の音声単位及びその後N₂個の音声単位に対応する部分）と、その部分の、音声データ中での開始時刻と終了時刻とを特定する。この処理474の詳細については図１１を参照して後述する。処理474に続く処理476で、この修正対象となっている部分と、開始時刻及び終了時刻とを含む修正依頼をサーバ106に送信する。制御は処理462に戻る。

処理462で、ユーザが入力テキスト158の上でドラッグを開始したと判定されると、処理478が実行され、ドラッグの開始位置の座標がメモリ252に記憶される。さらに、処理480でドラッグモードに入り、ユーザのドラッグに応じてドラッグされた領域を反転させる処理を開始する。この後、制御は処理462に戻る。

処理462で、ユーザのドラッグが終了したと判定されると、処理481でドラッグモードを終了する処理481が実行され、それに続いて処理482が実行される。処理482では、ドラッグの終了位置の座標と、処理478で記憶されていたドラッグ開始位置の座標と、入力テキスト158に表示されている文字列の座標とに基づいて、ドラッグ開始位置より前でドラッグ箇所に最も近い形態素境界の位置から、ドラッグ終了位置より後でドラッグ箇所に最も近い形態素境界との間の形態素列（文字列）を特定する。この処理482の詳細については、図１２を参照して後述する。さらに、この処理482に続く処理476で、この文字列と、音声データ中におけるそれら文字列の開始時刻及び終了時刻とを含む修正依頼をサーバ106に送信する。制御は処理462に戻る。

処理462で、サーバ106から修正依頼に対する結果であるNベストリストを受信したと判定されると、処理484で、サーバ106から受信したNベストリストが、アプリケーション画面130の入力テキストの該当箇所に重畳して表示される。制御は処理462に戻る。

処理462で、ユーザがNベストリストから修正候補のいずれかを選択した（タップした）ことが検知されると、処理486及び488が実行される。処理486では、ユーザがNベストリストのどこを選択したかを特定する。処理488では、選択された箇所に対応する形態素（単語）で音声認識結果を修正して再翻訳することを要求する再翻訳リクエストをサーバ106に送信する。制御は処理462に戻る。

図１１を参照して、図１０の、修正箇所を特定する処理474を実現するプログラムルーチンは、入力テキスト158内で、タップされた位置を含む形態素を特定する処理500と、この形態素を反転表示させる処理502と、この形態素が入力テキスト158の先頭の形態素か否かを判定する処理504とを含む。この形態素が先頭であれば、元の音声データのうち、修正をすべき箇所の開始時刻T₁に、選択された形態素の先頭文字の開始時刻を設定し（処理506）、さもなければ、選択された形態素の直前の形態素の末尾からN₁番目の音声単位の開始時刻を開始時刻T₁に設定する（処理508）。

続いて、特定された形態素が入力テキスト158の末尾の形態素か否かを処理510で判定する。形態素が末尾なら、元の音声データのうち、修正をすべき箇所の終了時刻T₂に、選択された形態素の最終文字の終了時刻を設定し（処理512）、さもなければこの形態素の直後の形態素の先頭からN₂番目の音声単位の終了時刻を終了時刻T₂に設定する。処理512又は処理514が終了するとこのプログラムルーチンの実行は終了し、制御は元のルーチン（図１０）に戻る。

図１２を参照して、図１０の処理482を実現するプログラムルーチンは、入力テキスト158内で、ドラッグ範囲内にある文字列を反転表示させる処理530と、ドラッグ範囲の両側で、かつドラッグ範囲の直近の形態素境界の開始位置S₁及び終了位置E₁を決める処理532とを含む。続いて、ドラッグ範囲の直前のN₁個の音声単位の先頭の開始時刻S₂を決め（処理534）、直後のN₂個の音声単位の末尾の終了時刻E₂を決める（処理536）。

この後、修正対象の音声単位列の開始時刻T₁に（S₁, S₂）の最小値を設定し（処理538）、終了時刻T₂に（E₁, E₂）の最大値を設定して（処理540）、このルーチンを終了し、元のルーチン（図１２）に戻る。

以上が、携帯型端末104で実行される、サーバ106の音声翻訳サービスを利用するためのクライアントプログラムの制御構造である。

─サーバ106（図１３）─
サーバ106を構成するコンピュータのハードウェアにより実行されることにより、音声翻訳サービスの各機能を実現するためのプログラムは，以下のような制御構造を持つ。このプログラムは、コンピュータ340を、上記実施の形態に係る音声翻訳サーバの各機能部として機能させるための複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム（OS）若しくはサードパーティのプログラム、又は、コンピュータ340にインストールされる各種プログラミングツールキットのモジュール若しくはフレームワークにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な命令を必ずしも全て含まなくてよい。このプログラムは、命令の内容にしたがい、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。このように、適宜必要な命令又は一連の命令の集合を必要に応じて適宜記憶装置から読出して実行する際のコンピュータシステム330の動作は周知である。したがってここではその詳細な説明は繰返さない。

図１３を参照して、このプログラムが起動されると、まず、必要な記憶領域の確保及び初期化等の処理を行なう初期化処理560と、初期化後に、イベントの発生を待ち、発生したイベントの種類に応じて制御の流れを分岐させる処理562とが実行される。

処理562で携帯型端末104等のクライアント装置（以下単に「クライアント」と呼ぶ。）から音声翻訳リクエストを受信すると、制御は処理564に進む。処理564では、この音声翻訳リクエストがクライアントとの新たなセッションを開くものか否かを判定する。新たなセッションの場合、そのセッションIDと、クライアントの端末IDとをRAM360（図８）に保存する（処理566）。以後、クライアントとの通信にはこのセッションIDを使用してクライアントを区別する。セッションIDと端末IDとを関係付けることにより、そのクライアント専用のユーザ辞書をサーバ106で管理することが可能になる。セッション管理自体はよく知られた技術であり、説明及び図面を分かりやすくするため、セッション管理についての詳細は以後の説明では行なわない。

この後、処理568で、音声翻訳リクエストとともに受信した音声データに対し、図８に示す音声認識装置372を用いて音声認識を実行する。音声認識が終了すると、認識結果の形態素列からなるテキストが得られる。このテキスト内の各文字には、入力された音声中で、その文字に対応する音声部分の開始時刻及び終了時刻と、品詞等の付属情報とが付されている。処理570では、音声データと、その認識結果とをRAM360に保存する。

続く処理572では、処理568で得られた音声認識の結果に対し、音声翻訳リクエスト中の設定データにより特定される言語（ターゲット言語）への自動翻訳を実行する。さらに処理574で、その翻訳結果を、ソース言語に逆翻訳し、翻訳結果の音声を合成する。最終的に、音声認識の結果である形態素列及びその付属情報と、翻訳結果と、逆翻訳結果と、合成音声とを音声翻訳リクエストを送信してきたクライアントに送信して（処理576）制御を処理562に戻す。

処理562で、クライアントからの要求が修正依頼であると判定されると、処理580から処理586までの一連の処理が実行される。修正依頼は、修正対象の形態素の文字列と、元の音声データで修正すべき部分の開始時刻と終了時刻とを含む。処理580では、このクライアントとのセッションで先に受信した音声データのうち、修正の対象となる部分を抽出し、その部分に対して図８に示す超大語彙音声認識装置374を用いた音声認識処理を実行する。続く処理584では、この音声認識の過程で得られる音声認識候補のうち、尤度の高いものから所定個数（N個）を選択してNベストのリストを決定する。こうして得られた修正対象の候補のNベストリストをクライアントに送信し（処理586）、制御を処理562に戻す。

処理562で、クライアントからの要求が、Nベストリストから選ばれた候補を用いた再翻訳リクエストである場合には、処理600から処理608までの一連の処理が実行される。すなわち、処理600では、セッションIDにより特定されるクライアント用に準備されたユーザ辞書に、修正結果で指定された形態素（単語）を登録する。続いて、処理602で、修正結果により指定された単語と、元の音声データの、当該単語の開始時刻及び終了時刻の間の部分を学習データとして学習用データ蓄積装置380（図８参照）に蓄積する。最初の音声認識結果のうち、修正前の単語を修正後の単語で置換したものを新たな音声認識結果として自動翻訳（処理604）し、その翻訳結果を逆翻訳し、翻訳結果の音声を合成する（処理606）。こうして得られた修正後の音声認識結果と、翻訳結果と、逆翻訳の結果と、合成音声とをクライアントに送信する（処理608）。この後、制御は処理562に戻る。

処理562で他のイベントが発生した場合（例えばユーザが図２に示す設定ボタン142を押した場合等）には、処理610でそのイベントに対応した処理を実行し、制御を処理562に戻す。

〈動作〉
─概要─
─音声翻訳─
携帯型端末104等には、図２に示すような音声翻訳アプリケーションを予め配布しておく。本実施の形態では、携帯型端末104が接続可能なサーバ106は、音声翻訳アプリケーションにより固定されているものとする。もちろん、サーバ106が複数個あるなら、ユーザがそれらの中から所望のものを選択するようにしてもよい。サーバ106の音声翻訳サービスを利用しようとする場合のユーザの操作、並びに携帯型端末104及びサーバ106の動作を説明する。これに先立ち、ユーザは、図２の設定ボタン142を操作することで設定画面を呼出し、自分が利用しようとするソース言語とターゲット言語との組合せを選択しておく必要がある。

音声翻訳を行なおうとする場合、ユーザは２通りの方法を利用できる。１番目はマイクボタン182を押して携帯型端末104を音声の収録モードにして発話する方法である。この場合、図１０のプログラムでは、処理462→処理464→処理466の経路が選択される。発話が終了したらユーザがマイクボタン182を再度押すと音声の収録が終了し、音声翻訳処理が開始される。この場合、図１０のプログラムでは、処理462→処理464→処理468→処理470という経路が実行される。

２番目は、携帯型端末104を通常の電話をするときと同様、耳に当てることである。ユーザが携帯型端末104を耳に当てると、携帯型端末104のセンサ群260がそれを検知し、携帯型端末104を音声収録モードにする。図１０のプログラムでは、処理462→処理466という経路が実行される。ユーザが携帯型端末104を耳から離すと携帯型端末104は音声の収録を終了し、音声翻訳リクエストをサーバ106に送信する。図１０のプログラムでは、処理462→処理468→処理470という経路が実行される。

図１０に示す処理470では、音声翻訳リクエストがサーバ106に送信される。このリクエストは、音声データと、言語ペアの情報と、発話日時と、ユーザの識別情報と、GPS受信機258、及びセンサ群260の出力からなる環境情報とを含む。

サーバ106は、この音声翻訳リクエストを受信すると（図１３の処理562）、このセッションが新規か否かを判定し（処理564）、新セッションのときにはそのセッションIDと相手端末（携帯型端末104）の端末IDとを記録する。続いて、リクエスト中の言語ペア情報にしたがって言語ペアを選択し、音声認識装置372による音声認識をし（処理568）、音声認識結果の形態素列を、元の音声データ内におけるその形態素に対応する音声の開始時刻及び終了時刻とともにRAM360に記録する（処理570）。さらに、サーバ106は、翻訳結果のテキストデータに対して自動翻訳を行ない（処理572）、さらに翻訳結果の逆翻訳と音声合成とを行なう（処理574）。サーバ106は、音声認識結果と、翻訳結果と、その合成音声と、逆翻訳とからなる音声翻訳結果を携帯型端末104に送信して（処理576）制御を処理562に戻す。

図１０を参照して、この音声翻訳結果を処理462で受信した携帯型端末104は、音声認識結果と、自動翻訳の結果と、逆翻訳とを画面に表示し（処理472）、合成音声を発生し、制御を処理462に戻す。もしも音声認識結果に誤りがなければこれで音声翻訳の処理は一応終了する。音声認識結果に誤りがある場合には、以下に説明する作業が発生する。

─誤認識結果の指定及び修正─
すなわち、ユーザは、入力テキスト表示領域150（図２）に表示された入力テキスト158のうち、誤っている部分をタップするか、又は誤っている部分の一部をドラッグする。ここでは、最初に、タップされた場合の携帯型端末104の動作を説明し、次にドラッグされた場合の携帯型端末104の動作を説明する。

ユーザが入力テキスト158のうち、誤っている部分をタップすると、図１０の処理462→処理474→処理476が実行される。タップされた位置を含む形態素とその前のN₁個の音声単位及び後のN₂個の音声単位とからなる音声単位列、及び音声データにおけるその開始時刻及び終了時刻を含む修正依頼がサーバ106に送信される。

一方、ユーザが誤っている一部のドラッグを開始すると、図１０の処理462→処理478→処理480が実行され、携帯型端末104はドラッグモードとなる。ユーザがドラッグを続行している間、入力テキスト158のうちドラッグされた部分が反転表示される。ユーザがドラッグを終了すると、図１０で処理462→処理481→処理482→処理476が実行され、ドラッグされた箇所を含む形態素の文字列、及び音声データにおけるその開始時刻及び終了時刻を含む修正依頼がサーバ106に送信される。

サーバ106が修正依頼を受信すると、図１３の処理562→処理580から処理586までの処理が実行され、修正結果のNベストリストが携帯型端末104に送信される。

このNベストリストを受信した携帯型端末104では、図１０の処理462→処理484が実行され、受信されたNベストリストが表示されてユーザの入力待ちとなる。ユーザは、このリストのうち、正しい翻訳結果を指定する。すると、処理462で該当イベントが発生し、制御は処理486に進む。処理486→処理488が実行されることにより、携帯型端末104はユーザが選択した形態素（単語）と音声データにおけるその開始時刻及び終了時刻を含む再翻訳リクエストをサーバ106に送信し、サーバ106からの再翻訳結果の受信待ち状態となる。

─ユーザ辞書登録と学習データの蓄積─
図１３を参照して、この単語を受信したサーバ106は、処理562→処理600→処理602から処理608までという経路を経て、修正後の単語をユーザ辞書に登録し、修正後の単語と、元の音声データのうちで、修正された単語に対応する部分を学習データとして学習用データ蓄積装置380に蓄積する。サーバ106はさらに、修正後の単語を用いて音声認識結果を修正して翻訳し、その翻訳結果の合成音声を生成し、さらに翻訳結果の逆翻訳を生成して携帯型端末104に送信する。

図１０を参照して、携帯型端末104では、この再翻訳の結果を受けて、処理472が実行され、再翻訳の結果が表示される。

以下、もしも修正すべき箇所がさらにあれば、以上の処理が繰返される。

以上のようにこの実施の形態に係る音声翻訳システム100によれば、ユーザが翻訳結果である入力テキスト158の内で修正すべき箇所をタップするか、修正すべき箇所を含む一部をドラッグすることで、自動的に再翻訳すべき箇所が特定され、サーバ106にその箇所の修正依頼が送信される。サーバ106では、この箇所に対応する音声データの部分に対し、最初の音声認識より大語彙の超大語彙音声認識装置374による音声認識が実行され、その結果からなるNベストリストが携帯型端末104に送信される。ユーザがこの中の１つ（正解）を選択すると、選択結果がサーバ106に送信され、このユーザが使用している端末に対応するユーザ辞書にその単語が登録される。その結果、修正箇所のタップ又はドラッグと、Nベストからの単語の選択という２つの操作のみで、単語をユーザ辞書に追加できる。テキストを入力する手間がなく、簡単にユーザ辞書を充実させられる。ユーザが正解として選択した単語のみがユーザ辞書に追加されるので、誤った単語が追加される可能性を小さくできる。さらに、その単語と、音声データの中でその単語に対応する部分とが学習用データ蓄積装置380に蓄積される。この学習データを用いて音響モデルの学習を行なうことにより、今後の音声認識の精度を高くすることが期待できる。さらに、音声データのうち、ユーザが指定した位置の形態素に対応する部分を含む一部のみが修正時の音声認識の対象になるので、超大語彙音声認識装置374を用いた音声認識に要する時間も少なくてよく、リアルタイム性が損なわれるおそれが小さくなる。ユーザが選択した形態素部分だけでなく、その前N₁個の音声単位及び後N₂個の音声単位も超大語彙音声認識装置374に送信して、選択された部分の音声認識を再実行させる。一般に、音声認識が誤って行なわれた部分では、音素の境界の判定の精度が低く、必要な音声区間が抽出できていないことが多い。この実施の形態のように、誤認識された形態素に対応する音声区間だけでなく、その区間を所定の音声単位数だけ前後に拡張した音声区間に対して大語彙音声認識で音声認識し直すことにより、必要な音声区間が抽出でき、音声認識の精度を高められる。

上記したN₁とN₂とは互いに等しい数、例えば１でもよいし、２でもよい。もちろん、両者が異なってもよい。０でもよい。その場合、音声認識で対象となる音声データの前後の音声が用いられないため、音声認識の精度が多少落ちる可能性がある。

［第２の実施の形態］
〈概略〉
上記第１の実施の形態では、通常の音声認識装置372で誤認識した形態素について、超大語彙音声認識装置374で音声認識をし直すことにより、誤認識を修正し、さらに正しい音声認識結果をユーザ辞書に登録する。超大語彙音声認識装置374が用いる語彙は、音声認識装置372の持つ辞書の語彙よりはるかに大きく、修正時の音声認識で正しい単語が認識され、その単語が辞書に登録される可能性が高い。しかし、超大語彙音声認識装置374の辞書に登録されていない単語が発話内に存在する場合、超大語彙音声認識装置374での音声認識も失敗し、その単語を辞書に登録することもできないという問題がある。

そうした場合、未知語対応の音声認識装置を用いることができる。未知語対応の音声認識装置は、音声認識用の辞書にない可能性が高い音素列について、その音素列により表される文字列（すなわち、音標文字からなる文字列）を出力する機能を持つ。その文字列を何らかの形で適切な単語に変換してユーザ辞書に登録できれば、ユーザによる音声認識の精度を高めるためにより好ましい。新しい単語が次々と出現する現代では、超大語彙音声認識装置374の音声認識用辞書をアップデートすることが非常に難しいため、特定の分野の単語等はユーザが独自に収集してユーザ辞書を更新していくことが望ましい。

幸い、日本語が処理可能な携帯型端末には、仮名漢字変換機能が標準的に用意されている。この第２の実施の形態では、未知語対応の音声認識装置から未知語として出力された文字列を、仮名漢字変換機能に渡し、ユーザが正しい単語列に変換したものをユーザ辞書に登録する。この場合も、未知語対応の音声認識装置から仮名漢字変換機能への文字列の受渡しに、できるだけユーザの手間をかけないようにするべきである。

この実施の形態でも、誤認識された形態素を指定する場合には、その形態素の表示されている領域のいずれかをタップする操作と、その形態素の一部においてドラッグする操作との双方が準備されている。図１４を参照してタップによる操作を、図１５を参照してドラッグによる操作を、それぞれ説明する。

─タップによる誤認識修正と辞書登録（図１４）─
図１４を参照して、本実施の形態に係る音声翻訳システムの携帯型端末で、音声認識システムで誤認識された形態素は以下のように修正される。

図１４(A)を参照して、「スキャナー」という文字列が誤認識された形態素であるとする。その内部をユーザがタップすることにより、その形態素が修正対象として選択され、その形態素204が反転表示される。本実施の形態でも、内部的には、形態素204（「スキャナー」）だけでなく、その前のN₁個の音声単位と、その後のN₂個の音声単位とを含めた修正対象部分の開始時刻と終了時刻とが修正依頼とともにサーバに送信される。サーバは、修正依頼を受信すると、指定された時刻間の音声を超大語彙音声認識装置374で音声認識する。この結果、複数個の音声認識候補が得られる。サーバは、同時に、修正依頼により特定された部分の音声を未知語対応の音声認識装置により文字列に変換する。一般的には、この処理でも音声認識の結果として複数個の文字列候補が得られる。最後に、サーバは、超大語彙音声認識装置374での音声認識結果から得られた音声認識候補の単語群と、未知語対応の音声認識の結果得られた文字列候補群とをともに携帯型端末に送信する。

このとき、サーバは、第１の実施の形態と同様、超大語彙音声認識装置374からの音声認識候補のベスト１を用いて、最初の音声認識結果のうちで修正部分の文字列を置換し、修正後の文字列で自動翻訳及びその結果に対する音声合成を行なってもよい。又は、サーバは単に候補のリストのみを携帯型端末104に送付してもよい。

図１４(B)を参照して、本実施の形態では、サーバから送信されたリスト630は、超大語彙音声認識装置374からの音声認識候補のリスト632と、未知語対応の音声認識装置からの文字列候補のリスト634とを含む。図１４に示す例では、リスト632に表示された音声認識候補のリスト632には正しい文字列が表示されていない場合を想定している。この場合でも未知語対応音声認識装置の出力から得られるリスト634には、正しい形態素に対応する文字列（例えば「スカイライナー」という文字列636）も含まれている可能性が高い。ユーザは、正しい文字列636をタップにより選択する。

すると、図１４(C)に示すように、文字列636が携帯型端末104の仮名漢字変換機能に渡され、この文字列640として修正対象の文字列の位置に反転表示されるとともに、文字列640に対応する仮名漢字交じり文字列のリスト644が表示される。ユーザは、このリスト644の中で所望の仮名漢字混じり文字列642を選択する。すると、図１４(D)に示すように、この文字列642が最終的に修正対象の文字列の位置に文字列650として挿入される。

図１４(B)に示すリスト630のうち、音声認識候補のリスト632の中に正しい音声認識結果があれば、ユーザはその単語を選択すればよい。この場合、この後の携帯型端末104とサーバとの動作は第１の実施の形態の場合と同様になる。

─ドラッグによる誤認識修正と辞書登録（図１５）─
図１５を参照して、修正対象の形態素をドラッグにより指定する際の操作について説明する。図１５(A)を参照して、ユーザが「京成臼井駅に参ります。」と発声したにもかかわらず、「臼井駅」が「線行き」として誤認識されたものとする。図１５(A)の文字列660がこの誤認識箇所である。

図１５(B)を参照して、矢印662により示すように、ユーザがこの文字列の一部をドラッグすると、ドラッグされた領域664が反転表示され、その領域664の直前の形態素境界と、領域664の直後の形態素境界との間の文字列が内部的に修正対象として選択される。この文字列の先頭文字の開始時刻と最後の文字の終了時刻とが修正依頼とともにサーバに送信される。サーバは、この修正依頼に応答して、音声データの内、指定された開始時刻と終了時刻との間の部分を用い、超大語彙音声認識装置374により音声認識を行なって音声認識候補のリストを作成し、同時に未知語対応の音声認識装置により文字列候補のリストを作成する。サーバはこの２つのリストを修正結果として携帯型端末104に送信する。

図１５(C)を参照して、この場合にも、音声認識候補のリスト672（図では単なる線として表現してある。）と、未知語対応の音声認識装置による文字列候補のリスト674とが表示される。リスト672中に正しい単語がなく、リスト674中の「うすいえき」という文字列が正しい文字列なので、ユーザはこれを選択する。すると図１５(D)に示すように、文字列「うすいえき」が音声認識結果中の修正箇所680に反転して表示される。文字列「うすいえき」はさらに、携帯型端末104の仮名漢字変換機能に渡され、仮名漢字変換による変換候補のリスト682が表示される。

ユーザが正しい変換結果「臼井駅」という文字列684を選択すると、図１５(D)の修正箇所680の位置に、図１５(E)に示すように正しい文字列690（臼井駅）が表示される。同時に、この文字列及びその読みが修正結果としてサーバに送信され、携帯型端末104のためのユーザ辞書に追加登録される。また、この文字列と、対応する音声データの部分が学習データに蓄積される。

〈ハードウェア構成〉
─サーバ（図１６）─
この第２の実施の形態に係る音声認識サービスを提供するサーバのハードウェアは、第１の実施の形態と同様である。ただし、図１６に示すように、このサーバを構成するコンピュータシステム700は、第１の実施の形態のコンピュータシステム330の構成に加え、上記した未知語対応の音声認識機能を実現する未知語対応音声認識装置702を含む。未知語対応音声認識装置702は、入力される音声について、与えられる音声データについて、音素単位で音声認識を実行する。未知語対応音声認識装置702は、このようにして認識された音素列に対応する文字列（ここでは仮名文字列）を、その音素列の尤度とともに出力する機能を持つ。

─携帯型端末（図１７）─
携帯型端末104のハードウェア構成は第１の実施の形態の場合と同様である。ただし、図１７に示すように、メモリ252には日本語の入力を行なうためのいわゆる日本語インプット・メソッド（IM）プログラムと、そのための仮名漢字変換辞書とが記憶されている。

〈ソフトウェア構成〉
─携帯型端末（図１８及び図１９）─
図１８を参照して、この実施の形態に係る携帯型端末104により実行されるプログラムは、図１０に示す第１の実施の形態で実行されるプログラムとほぼ同一だが、ユーザが修正文字候補のいずれかを選択したときに実行される処理486と処理488との間に、IMを用いてさらに修正文字列を決定する処理710が実行される点で図１０に示されるものと異なっている。

図１９を参照して、修正文字列を決定する処理710を実現するプログラムルーチンは、ユーザの選択した文字列が超大語彙音声認識装置374によって得られた音声認識結果か否かを判定し（処理720）、判定が肯定なら修正文字列を示す変数に、ユーザが選択した文字列を代入して元のルーチンに復帰する（処理722）。処理720の判定が否定なら、選択された文字列をIMに渡し、ユーザがIMを使用して最終的な仮名漢字変換文字列を確定するのを待つ（処理724）。ユーザが文字列を確定すると、IMがその文字列をこのプログラムに渡すので、その文字列を受ける（処理726）。そして、修正文字列を示す変数に、IMにより出力された文字列を代入して元のルーチンに復帰する（処理728）。

─サーバ（図２０）─
図２０を参照して、この第２の実施の形態に係るサーバが実行するプログラムも、図１３に示す第１の実施の形態のサーバ106により実行されるプログラムと同様の構成を持つが、携帯型端末104から修正依頼を受信したときに実行される処理584の後、図１３の処理586に代えて、未知語対応音声認識装置702を用いて修正対象となった音声データについて１文字ずつ音声認識を行なう処理730と、処理730により得られた文字列のうち、正しい文字列である可能性の高いものから所定個数（ここではM個とし、選択されたM個の候補をMベストと呼ぶ。）決定する処理732と、処理584で得られたNベストリスト及び処理732で得られたMベストリストからなるリスト（ここではこのリストを「（N+M）ベストリスト」と呼ぶ。）をクライアントに送信する処理734とを含む点で異なっている。

〈動作〉（図２１）
図２１を参照して、この第２の実施の形態の音声翻訳システムでの携帯型端末104とサーバ106との間のデータの送受信のシーケンスは、図５に示す第１の実施の形態のものとほぼ同様である。ただし、処理228の超大語彙音声認識装置374による音声認識の後に、未知語対応音声認識装置702を用いた音声認識の処理740が行なわれ、両者の結果である（N+M）ベストリスト742がまとめて携帯型端末104に送信される点と、携帯型端末104で、図１３に示す処理230に代えて、（N+M）ベストリスト742の中から単語を選択するユーザ入力を受け、それが超大語彙音声認識装置の出力であるか否かにしたがって、直ちにその単語を含む再翻訳リクエスト231をサーバ106に送信する処理と、IMによる単語確定処理744を行ない、確定後の単語を含む再翻訳リクエスト231をサーバ106に送信する処理とを選択的に実行する処理746が行なわれる点で第１の実施の形態の場合と異なっている。

上記実施の形態は、日本語インプット・メソッドを用いている。しかし、本発明は日本語には限定されない。日本語の仮名文字のような表音文字と漢字のような表意文字とを混合して使用する言語であれば、この第２の実施の形態と同様に実施できることはもちろんである。また、中国語のように表意文字のみからなる言語であっても、未知語対応音声認識装置702が、認識した音素列に対応する文字列（この場合ピンイン）を出力し、出力されたピンインを中国語インプット・メソッドを用いて表意文字（漢字）に変換するように機能させれば、この第２の実施の形態と同様に実施できる。さらに、本発明は、日本語のように表意文字と表音文字とを混用する言語だけではなく、例えば韓国語又は英語のように、表音文字のみを表記に用いる言語にも適用できる。表音文字のみを表記に用いる言語の場合、辞書に登録する単語の読みは、単語の実際の発音を表すものであることが望ましく、例えば発音記号等を用いることができる。この場合、表音文字列と発音記号とからなる辞書を用いて、音素単位で認識を行なう音声認識と、認識された音素列に対応する発音記号から変換される表音文字の候補文字列を、前記音素列の尤度とともに算出するような装置として本発明を実施できる。

さらに、上記第２の実施の形態では、超大語彙音声認識装置374と、音声データを１文字単位で音声認識して仮名文字列に変換する未知語対応音声認識装置702とを併用している。しかし、本発明はそのような実施の形態には限定されない。超大語彙音声認識装置374を用いず、未知語対応音声認識装置702のみを用いるものでもよい。

またさらに、上記第２の実施の形態では、未知語対応音声認識装置702の出力である仮名文字列候補からユーザがまず選択し、選択された仮名文字列をインプット・メソッドを用いて漢字仮名交じり文字列に変換していたが、そうでなくてもよい。すなわち、未知語対応音声認識装置702において仮名文字列各候補に対する漢字仮名交じり文字列への変換を行なって、未知語対応音声認識装置702が漢字仮名交じり文字列候補を出力してもよい。この場合、一度の選択で単語登録が完了するためユーザの負担は軽くなる。しかし、複数の仮名文字列各候補に対して、漢字仮名交じり文字列の複数の変換候補が存在するため、最終的な選択候補数が膨大になる可能性があり、候補を絞り込む必要があるだろう。

［可能な変形例］
上記実施の形態では、音声翻訳リクエストに応答して行なわれる音声認識では、基本辞書とユーザ辞書とが用いられ、ユーザ辞書に効率的に単語を登録するためのものであった。しかし、こうした例は基本辞書がユーザによって変更できないという制限があるときのものである。基本辞書にユーザが語彙を登録できるのであれば、基本辞書に単語を登録するために上記した実施の形態のような仕組みを採用できる。

上記した第１及び第２の実施の形態はいずれも、音声の入力を携帯型端末で行ない、音声認識、自動翻訳、音声合成をいずれもサーバで行なう場合についてのものである。しかしこのようにしたのは、携帯型端末のハードウェア性能に現在のところ限界があるためである。仮に音声認識、自動翻訳、音声合成をいずれも携帯型端末で実行可能な程度に携帯型端末のハードウェア性能が向上した場合に、上記したサーバで実行される処理を全て携帯型端末で実行するようにしてもよい。この場合には、ユーザ辞書も携帯型端末で維持されることになる。さらに、装置の性能に関わらず、携帯型端末又はコンピュータ等の端末で、スタンドアロンで音声翻訳をする場合も考えられる。そうした可能性がある場合、音声認識、自動翻訳、音声合成をサーバ106で実施する一方、ユーザ辞書への単語の登録は、サーバ106だけでなく端末でも行なうようにしてもよい。すなわち、端末のローカルなユーザ辞書が、上記実施の形態のサーバ106のユーザ辞書と同様に保守される。携帯型端末104でユーザ辞書をこのように維持することで、携帯型端末104がスタンドアロンで実行する音声認識処理の精度を向上させられる。

また、携帯型端末のハードウェア性能がある程度高いが超大語彙音声認識をリアルタイムに近く実行するには非力である場合には、最初の音声認識を携帯型端末で実行し、修正時の超大語彙音声認識のみをサーバで行なうようにしてもよい。この場合にも、少なくとも携帯型端末にユーザ辞書を設け、修正結果を用いてユーザ辞書に新たな単語を追加できる。その結果、携帯型端末で実行される音声認識処理の精度を高めることができる。

また、文字列のみサーバへ送信して、サーバで開始時刻、終了時刻を決定してもよい。さらに、文字列を、音声認識で利用する音声単位（例えば、音素）の系列に変換したのちサーバへ送ってもよい。

上記実施の形態では、携帯型端末104からサーバ106に送られるのは、再音声認識の対象となる文字列と、音声データ中におけるその開始時刻及び終了時刻とであった。しかし、本発明はそのようなものには限定されない。文字列を送信せず、再音声認識の対象となる音声データの開始時刻及び終了時刻をサーバ106に送信してもよい。

上記実施の形態では、日本語から英語への変換を想定し、修正箇所を形態素単位で指定した。しかし本発明はそのようなものには限定されない。上記実施の形態で英語から日本語への翻訳を想定すると、形態素単位でなく、単語単位で各プログラムの処理を実現すればよい。すなわち、言語によって処理するために最も効率的な単位に対して上記した処理を実行するようにすればよい。

上記実施の形態では、修正対象の音声について大語彙音声認識を用いる。しかし、大語彙音声認識にはそれなりの計算パワーが必要で、アプリケーションのリアルタイム性の要求が高い場合、サーバのパワーがリクエストに対して不足気味の場合には、リアルタイム性が犠牲になるおそれがある。そうした場合には、ユーザにより修正が指示される単位が１形態素又は１単語であることを前提として、大語彙単語音声認識を採用すると、計算量が大幅に削減され、リアルタイム性を犠牲にせずにリクエストに応答できる。

上記実施の形態では、携帯型端末としてタッチパネルを採用したものを想定している。タッチパネルを採用すると、上記実施の形態に機能をフルに活用できる。しかし、本発明はそのような携帯型端末には限定されない。表示装置とハードウェアキーボード又はポインティングデバイスとを併用した、旧来のインターフェイスを採用した携帯型端末にも本発明を適用できる。携帯型端末に限らず、いわゆるデスクトップコンピュータからなるクライアントにも本発明を適用できる。

上記実施の形態では、誤認識された形態素（単語）の前後の音声単位まで含めて再音声認識の対象としている。音声単位は、文字単位のものに限定されるわけではなく、例えば音素又は音節単位も採用できる。対象となる辞書は、音声認識用辞書のみに限らない。本実施形態における音声翻訳を例にとると、音声合成用辞書又は言語翻訳辞書に対して、単語の登録を行なうこともできる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

100 音声翻訳システム、 102 インターネット、 104 携帯型端末
106 サーバ、 130 アプリケーション画面、 158 入力テキスト
330, 700 コンピュータシステム、 372 音声認識装置
374 超大語彙音声認識装置、 702 未知語対応音声認識装置

Claims

表示面を持つ表示装置、及び、当該表示面上の位置を指定するポインティングデバイスを用い、単語辞書に単語を登録する単語登録装置であって、
当該単語登録装置は、前記単語辞書を用いて音声認識を行なう第１の音声認識手段、及び、前記第１の音声認識手段と異なる第２の音声認識手段とともに用いられ、
前記第１の音声認識手段による音声認識の結果を前記第１の音声認識手段から受け、前記表示面上に文字列として表示するための音声認識結果の表示手段と、
前記表示手段により表示された文字列中で、修正すべき箇所を、前記ポインティングデバイスを用いたユーザの入力に応答して特定するための修正箇所の特定手段と、
前記第１の音声認識手段による音声認識の対象となった音声データのうち、前記特定手段により特定された箇所に基づいて定められる音声区間について、前記第２の音声認識手段に対し、音声認識によって修正文字列候補を生成することを依頼するための第１の修正依頼手段と、
前記第１の修正依頼手段による依頼に応答して前記第２の音声認識手段が出力する修正文字列候補を前記表示面に表示し、当該表示面上の位置をユーザが前記ポインティングデバイスで指定したことに応答して、当該指定された位置を含む領域に表示された文字列候補を選択するための修正文字列選択手段と、
前記修正文字列選択手段により選択された文字列候補及び対応する音標文字列を、前記単語辞書に登録するための処理を実行するための辞書登録処理手段とを含み、
前記第２の音声認識手段は、
前記第１の音声認識手段よりも大語彙の音声認識が可能な大語彙音声認識手段と、
与えられた音声データを音声認識し、前記単語辞書に登録されていない単語を音標文字列として認識し出力する音標文字出力手段とを含み、
前記辞書登録処理手段は、
前記選択された文字列候補が前記大語彙音声認識手段により出力された文字列であることに応答して、前記修正文字列選択手段により選択された文字列候補及び対応する音標文字列を、前記第１の音声認識手段のための単語辞書に登録するための処理を実行するための第１の追加手段と、
前記選択された文字列候補が前記音標文字出力手段の出力であることに応答して、ユーザ操作にしたがって当該文字列候補を表意文字を含む文字列に変換し出力するための文字列変換手段と、
前記文字列変換手段により出力された前記文字列及び対応する音標文字列を前記単語辞書に登録するための処理を実行するための第２の追加手段とを含む、単語登録装置。
前記第１の修正依頼手段は、前記第１の音声認識手段による音声認識の対象となった音声データのうち、前記特定手段により特定された箇所に基づいて対応する音声範囲を定め、当該音声範囲の前後のそれぞれＮ_１個及びＮ_２個（ただしＮ_１及びＮ_２はいずれも０以上の整数）の音声単位分だけ範囲を拡大した音声区間について、前記第２の音声認識手段に対し、音声認識によって修正文字列候補を生成することを依頼するための手段を含む、請求項１に記載の単語登録装置。
前記修正箇所の特定手段は、
前記音声認識結果により表示された文字列中で、前記表示面上でユーザにより指定された位置を含む領域に表示されている文字列、又は前記表示面上でユーザによりドラッグされた範囲を含む領域に表示されている文字列を修正すべき文字列として特定するための手段を含む、請求項１又は請求項２に記載の単語登録装置。
表示面を持つ表示装置、及び、前記表示面上の位置を指定するポインティングデバイスが接続されるコンピュータにより実行されると、当該コンピュータを、前記表示装置及び前記ポインティングデバイスを用いて、単語辞書に単語を登録する単語登録装置として動作させるためのコンピュータプログラムであって、
当該単語登録装置は、前記単語辞書を用いて音声認識を行なう第１の音声認識手段、及び、前記第１の音声認識手段と異なる第２の音声認識手段とともに用いられ、
当該コンピュータプログラムは、前記コンピュータを、
前記第１の音声認識手段による音声認識の結果を前記第１の音声認識手段から受け、前記表示面上に文字列として表示するための音声認識結果の表示手段と、
前記表示手段により表示された文字列中で、修正すべき箇所を前記ポインティングデバイスを用いたユーザの入力に応答して特定するための修正箇所の特定手段と、
前記第１の音声認識手段による音声認識の対象となった音声データのうち、前記特定手段により特定された箇所に基づいて定められる音声区間について、前記第２の音声認識手段に対し、音声認識によって修正文字列候補を生成することを依頼するための第１の修正依頼手段と、
前記第１の修正依頼手段による依頼に応答して前記第２の音声認識手段が出力する修正文字列候補を前記表示面上に表示し、当該表示面上の位置をユーザが前記ポインティングデバイスで指定したことに応答して、当該指定された位置を含む領域に表示された文字列候補を選択するための修正文字列選択手段と、
前記修正文字列選択手段により選択された文字列候補及び対応する音標文字列を、前記単語辞書に登録するための処理を実行するための辞書登録処理手段として機能させ、
前記第２の音声認識手段は、
前記第１の音声認識手段よりも大語彙の音声認識が可能な大語彙音声認識手段と、
与えられた音声データを音声認識し、前記単語辞書に登録されていない単語を音標文字列として認識し出力する音標文字出力手段とを含み、
前記辞書登録処理手段は、
前記選択された文字列候補が前記大語彙音声認識手段により出力された文字列であることに応答して、前記修正文字列選択手段により選択された文字列候補及び対応する音標文字列を、前記第１の音声認識手段のための単語辞書に登録するための処理を実行するための第１の追加手段と、
前記選択された文字列候補が前記音標文字出力手段の出力であることに応答して、ユーザ操作にしたがって当該文字列候補を表意文字を含む文字列に変換し出力するための文字列変換手段と、
前記文字列変換手段により出力された前記文字列及び対応する音標文字列を前記単語辞書に登録するための処理を実行するための第２の追加手段とを含む、コンピュータプログラム。