JP5703256B2

JP5703256B2 - 単語レベルの変換候補生成に基づく音声認識システム及び方法

Info

Publication number: JP5703256B2
Application number: JP2012106776A
Authority: JP
Inventors: 相浩李; ▲勳▼ 金; 東 ▲晃▼ ▲具▼; 大成 ▲鄭▼
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2011-05-12
Filing date: 2012-05-08
Publication date: 2015-04-15
Anticipated expiration: 2032-05-08
Also published as: CN102779511A; KR20120126641A; JP2012237997A; KR101233561B1; CN102779511B; EP2523188A1; US20120290303A1; US9002708B2

Description

本発明は単語レベルの変換候補生成に基づく音声認識システム及び方法に関する。

音声認識によってディクテーション（ｄｉｃｔａｔｉｏｎ）しようとするとき、音声認識の後に出力された変換候補文章が極めて多い場合、ユーザに少しずつ異なるｎ個の文章を確認させて所望の文章を選択させることは難しい問題である。すなわち、モバイル端末のようなユーザ端末の場合、当該端末が小さいため一度に多くの文章を全て露出させることが難しく、ユーザの立場からはｎ個の文章を見たとき、どの文章が適切な文章であるかを一瞬で把握することができないという問題がある。

本明細書では、音声認識によってより効果的にディクテーションを提供することのできる音声認識システム及び方法が提案される。

韓国公開特許第２００６−００９８６７３号公報

本発明の目的は、ユーザに音声認識の結果による文字列を表示して提供する際に、変換候補が存在する単語を文字列上の他の単語と区分して表示し、変換候補が存在する単語に対するユーザの選択に応じて当該単語を変換候補単語に変更して表示することで、一回の選択でユーザが音声認識の結果を単語ごとに修正することのできる音声認識システム及び音声認識方法を提供する。

本発明の目的は、音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち最も高い確率を有する単語列を選択し、選択された単語列に含まれる単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内で音声信号に対して認識された他の単語のうち、他の単語それぞれについて算出される信頼度を用いて選択される少なくとも１つの単語を候補単語に設定することで、より正確な単語ごとの結果を提供することのできる音声認識システム及び音声認識方法を提供する。

本発明の目的は、表示された単語列の全てを一度に削除できるユーザインタフェースを提供することにあり、表示された単語列がとんでもない結果である場合、ユーザが直接文章を入力したり、または再び音声認識の過程を行ったりすることができる音声認識システム及び音声認識方法を提供する。

本発明の目的は、音声認識によって作成される文章の単語列に対して、当該単語列が音声認識によって作成されたことを示す標識を単語列と共に表示しまたは送信することで、表示された単語列を確認するユーザ、またはこのような単語列をＳＭＳ、Ｅメールなどを介して受信したユーザが当該単語列が音声認識によって作成されたことを認識できる音声認識システム及び音声認識方法を提供する。

音声認識の結果として、単語列及び単語列に含まれる少なくとも１つの単語に対する変換候補単語が提供される場合、単語列及び変換候補単語を確認する音声認識結果確認部と、単語列を表示装置を介して表示する際に、変換候補単語が存在する少なくとも１つの単語を単語列の他の単語と区分して表示する単語列表示部とを備え、単語列表示部は、区分して表示された単語がユーザによって選択される場合、区分して表示された単語を変換候補単語に変更して表示することを特徴とする音声認識システムが提供される。

本発明の一側面によると、音声認識システムは、表示された単語列の全体を削除するためのユーザインタフェースを提供するユーザインタフェース部をさらに備え、単語列表示部は、ユーザインタフェースを介してユーザ入力が発生する場合、表示された単語列を全て削除してもよい。

本発明の他の側面によると、単語列が表示装置を介して表示される場合、または単語列が他の機器に送信される場合、単語列が音声認識によって提供されたことを示す標識が単語列と共に表示されまたは送信されてもよい。

本発明の他の側面によると、音声認識システムは、入力装置を介して入力される音声信号を音声認識サーバに送信する音声信号送信部と、音声信号に対応する音声認識の結果を音声認識サーバを介して受信する音声認識結果受信部とをさらに備えてもよい。

本発明の他の側面によると、音声認識システムは、入力装置を介して入力される音声信号に対応する音声認識の結果を生成する音声認識結果生成部をさらに備えてもよい。

本発明の他の側面によると、単語列は、音声認識サーバでの音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち、最も高い確率を有する単語列として選択されてもよい。

本発明の他の側面によると、変換候補単語は、音声認識サーバで少なくとも１つの単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内に音声信号によって認識された他の単語のうち少なくとも１つの単語として選択されてもよい。この場合、他の単語のうち少なくとも１つの単語は、他の単語それぞれに対して算出される信頼度に基づいて選択されてもよい。また、時間範囲は、認識がスタートした時刻及び認識が終了した時刻、そして認識が終了した時刻に付与される予め選定された許容時間値に応じて決定されてもよい。

音声信号に対応する単語列及び単語列に含まれる少なくとも１つの単語に対する変換候補単語を決定して音声認識の結果として生成する音声認識結果生成部と、ユーザ端末に音声認識の結果を提供する音声認識結果提供部と、を備え、端末の表示装置で単語列が表示され、変換候補が存在する少なくとも１つの単語が単語列の他の単語と区分して表示され、区分して表示された単語が端末でユーザによって選択される場合、区分して表示された単語が変換候補単語に変更されて表示されることを特徴とする音声認識システムが提供される。

音声認識の結果として、単語列及び単語列に含まれる少なくとも１つの単語に対する変換候補が提供される場合、単語列及び変換候補単語を確認し、単語列を表示装置を介して表示する際に、変換候補が存在する少なくとも１つの単語を単語列の残りの単語と区分して表示することを含み、表示することは、区分して表示された単語がユーザによって選択される場合、区分して表示された単語を候補単語に変更して表示することを特徴とする音声認識方法が提供される。

音声信号に対応する単語列及び単語列に含まれる少なくとも１つの単語に対する変換候補単語を決定して音声認識の結果として生成し、ユーザ端末に音声認識の結果を提供することを含み、端末の表示装置で単語列が表示され、変換候補単語が存在する少なくとも１つの単語は単語列の他の単語と区分して表示され、区分して表示された単語が端末でユーザによって選択される場合、区分して表示された単語が候補単語に変更されて表示されることを特徴とする音声認識方法が提供される。

本発明によると、ユーザに音声認識の結果による文字列を表示してユーザに提供する際に、変換候補が存在する単語を文字列上の他の単語と区分して表示し、変換候補が存在する単語に対するユーザの選択に応じて当該単語を変換候補単語に変更して表示することによって、一回の選択でユーザが音声認識の結果を単語ごとに修正することができる。

本発明によると、音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち最も高い確率を有する単語列を選択し、選択された単語列に含まれる単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内で音声信号に対して認識された他の単語のうち、他の単語それぞれに対して算出される信頼度を用いて選択される少なくとも１つの単語を変換候補単語として設定することで、より正確な単語ごとの結果を提供することができる。

本発明によると、表示された単語列の全てを一度に削除できるユーザインタフェースを提供することができ、表示された単語列がとんでもない結果である場合、ユーザが直接文章を入力したり、または再び音声認識の過程を行ったりすることができる。

本発明によると、音声認識によって作成される文章の単語列に対して、当該単語列が音声認識によって作成されたことを示す標識を単語列と共に表示しまたは送信することで、表示された単語列を確認するユーザ、またはこのような単語列をＳＭＳ、Ｅメールなどによって受信したユーザが当該単語列が音声認識によって作成されたことを認識することができる。

本発明の一実施形態におけるユーザ端末及び音声認識サーバを示す図である。本発明の一実施形態におけるユーザ端末のディスプレイ画面に単語列が表示された状態を示す一例である。本発明の一実施形態におけるユーザ端末のディスプレイ画面でユーザの選択に応じて表示された単語を変換候補単語に変更して表示した状態を示す一例である。本発明の一実施形態におけるユーザインタフェースを用いて表示された単語列を全て削除することを示す一例である。本発明の一実施形態におけるユーザ端末において標識を表示する状態を示す一例である。本発明の一実施形態における音声信号に対して検索された単語を示す図である。本発明の一実施形態における音声認識システムの内部構成を説明するためのブロック図である。本発明の一実施形態における音声認識方法を示すフローチャートである。本発明の他の実施形態における音声認識システムの内部構成を説明するためのブロック図である。本発明の他の実施形態における音声認識方法を示すフローチャートである。本発明の更に他の実施形態における音声認識システムの内部構成を説明するためのブロック図である。本発明の更に他の実施形態における音声認識方法を示すフローチャートである。本発明の更に他の実施形態におけるユーザによって選択された単語の変換候補単語を表示した画面の一例である。

以下、本発明の実施形態について添付の図面を参照しながら詳細に説明する。

図１は、本発明の一実施形態におけるユーザ端末及び音声認識サーバを示す図である。図１は、ユーザ端末１１０及び音声認識サーバ１２０を示している。

ユーザ端末１１０には入力装置を介して音声信号が入力され、音声信号は音声認識サーバ１２０に送信されてもよい。ここで、音声認識サーバ１２０は、受信した音声信号に対応する音声認識の結果を生成してユーザ端末１１０に送信してもよい。

ユーザ端末１１０は、音声認識サーバ１２０によって受信された音声認識の結果に含まれている単語列と、単語列に含まれる少なくとも１つの単語に対する変換候補単語を確認し、確認された単語列を表示装置を介して表示するところ、変換候補単語が存在する少なくとも１つの単語は単語列の残りの単語と区分されるように表示してもよい。

図２は、本発明の一実施形態におけるユーザ端末のディスプレイ画面に単語列が表示された形状を示す一例である。図２に示すディスプレイ画面２００は図１を参照して説明したユーザ端末１１０のディスプレイ画面の一部に対応する。ここで、ディスプレイ画面２００には「アンドロイドフォンいつから販売したん」のように音声認識の結果を含む単語列が表示される。ここで、単語列に含まれる単語のうち、変換候補を有する単語は単語列に含まれる他の単語と区別されて表示される。すなわち、図２では変換候補が存在する単語「アンドロイド」、「いつから」、「したん」は，変換候補が存在しない単語「フォン」及び「販売」と区別されるようにアンダーラインで表示される。

再び図１を参照すると、ユーザ端末１１０は区分して表示された単語がユーザによって選択される場合、区分して表示された単語を変換候補単語に変更して表示してもよい。ここで、単語がユーザによって選択されることはユーザ端末１１０が提供するユーザインタフェースを介して当該単語が選択されることを意味する。例えば、ユーザがタッチパッドを介して当該単語が表示された位置をタッチすることによって、当該単語がユーザによって選択される。

図３は、本発明の一実施形態におけるユーザ端末のディスプレイ画面でユーザの選択に応じて表示された単語を変換候補単語に変更して表示した状態を示す一例である。図３に示すディスプレイ画面３１０から３３０はそれぞれ図１を参照して説明したユーザ端末１１０のディスプレイ画面の一部に対応する。

まず、ディスプレイ画面３１０には「アンドロイドフォンいつから販売したん」のように最初の音声認識の結果を含む単語列が表示されている。ここで、ユーザが単語「したん」を選択する場合、ディスプレイ画面３２０のように単語「したん」が変換候補単語「した」のように変更して表示されてもよい。この場合、変更して表示された単語「した」も変換候補が存在しない他の単語と区分するためにアンダーラインで表示される。

図３では単語を区分するためにアンダーラインを用いたが、アンダーラインは１つの例に過ぎず、字の大きさ、字の色、または模様などを異なるように表示する方法など、単語が区分される全ての方法のうち少なくとも１つの方法を用いてもよい。

ユーザが単語「した」を再び選択した場合にはディスプレイ画面３３０のように単語「した」がその次の変換候補単語「したの」に変更されて表示されてもよい。

もし、他の変換候補単語「したの」が存在しない場合には再びディスプレイ画面３１０のように本来の単語列に含まれている単語「したん」に変更されて表示されてもよい。

このように、本実施形態では単語列に含まれる単語に対する変換候補のリストを提供する代わりに、ユーザの選択に応じて音声認識の変換候補単語を順次に変更可能であり、このような変換候補単語は音声認識による信頼度に応じて整列され、信頼度が高い順に表示される。ここで、大部分の場合、１，２回の変更によってユーザが意図した単語が表示される確率が極めて高いため、変換候補単語のリストを提供することで効率よくユーザに音声認識を通したディクテーション（ｄｉｃｔａｔｉｏｎ）を提供することができる。ここで、音声認識による単語の信頼度を算出する方法は公知の通りで、このように既に知らされた様々な方法の１つが単語の信頼度を算出するために用いられる。

また、図３において、ユーザインタフェースの「編集」を用いてユーザが当該単語を直接編集できる機能を提供してもよい。

再び図１を参照すると、ユーザ端末１１０は、表示された単語列を全て削除するためのユーザインタフェースを提供してもよい。すなわち、表示された単語列の全てを一度に削除することのできるユーザインタフェースを提供することによって、表示された単語列が全く違う結果である場合、ユーザが直接文章を入力したり、または再び音声認識の過程を行ったりすることができるようにする。

図４は、本発明の一実施形態におけるユーザインタフェースを用いて表示された単語列を全て削除することを示す一例である。図４に示すディスプレイ画面４１０及び４２０はそれぞれ図１を参照して説明したユーザ端末１１０のディスプレイ画面の一部に対応する。

ディスプレイ画面４１０は、音声認識の結果に含まれる単語列が表示された状態を示している。ここで、「クリア」４１１のような、ユーザ端末１１０が提供するユーザインタフェースを介してユーザがイベントを発生させる場合、ディスプレイ画面４２０のように表示された単語列を全て削除してもよい。すなわち、「好奇心の解消の消失３０分到着」のようにユーザが意図した文章（単語列）と全く異なる文章が表示された場合、ユーザはこのような文章を編集することよってユーザ自身が文章を直接入力するか、または新たに音声認識の過程を行ってもよい。

このような場合、本実施形態におけるユーザ端末１１０は「クリア」４１１のようなユーザインタフェースをユーザに提供し、ユーザが「クリア」４１１をタッチするなどのイベントが発生した場合、表示された文章の全体を削除することができる。

再び図１を参照すると、ユーザ端末１１０は音声認識によって作成された文章（単語列）に音声認識に対する標識を含ませてもよい。ここで、音声認識に対する標識は当該文章が音声認識によって作成されたことを表す。例えば、ユーザが音声認識によって作成された文章をＳＭＳやＥメールなどを用いて他のユーザに提供する場合、他のユーザは当該文章に誤字またはエラーが存在しても、このような文章が音声認識によって作成されたことを直ちに確認することができる。

図５は、本発明の一実施形態におけるユーザ端末で標識を提供する形状を示す一例である。図５に示すディスプレイ画面５１０は図１を参照して説明したユーザ端末１１０のディスプレイ画面の一部に対応する。

ここで、ディスプレイ画面５１０は「アンドロイドフォンで映画を見ようとします。ＢｙＳｐｅｅｃｈ」のように単語列「アンドロイドフォンで映画を見ようとします。」だけではなく標識「ＢｙＳｐｅｅｃｈ」を共に表示している。すなわち、このような標識により，当該単語列が音声認識によって作成された文章であることをユーザが容易に把握することができる。

再び図１を参照すると、音声認識サーバ１２０は、上述したようにユーザ端末１１０が受信した音声信号に対応する単語列及び変換候補単語を決定して音声認識の結果としてユーザ端末１１０に提供してもよい。ここで、音声認識サーバ１２０は、音声信号に対応してマッチングされ得る全ての単語列を探し、全ての単語列それぞれの確率のうち最も高い確率を有する単語列を音声認識の結果に含まれる単語列として選択する。また、音声認識サーバ１２０は、少なくとも１つの単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内に音声信号によって認識された他の単語のうち、少なくとも１つの単語を音声認識の結果に含まれる変換候補単語として選択してもよい。この場合、他の単語のうち、少なくとも１つの単語は、他の単語それぞれに対して算出される信頼度（ｃｏｎｆｉｄｅｎｃｅ）に基づいて選択されてもよく、時間範囲は認識がスタートした時刻及び認識が終了した時刻、そして認識が終了した時刻に付与される予め選定された許容時間値に応じて決定されてもよい。

図６は、本発明の一実施形態における音声信号に対して検索された単語を示す図である。図６において、矢印６１０は時間の流れを示し、四角形のボックスの長さは当該単語が認識された時間範囲を示す。ここで、互いに異なる時間範囲で認識される同一の単語、すなわち、図６において「イチゴ」（１）と「イチゴ」（２）、そして「ゴジュ」（１）と「ゴジュ」（２）とはスタート時刻は同一であるが、終了時間が互いに異なり、音声では確率的に当該時間帯において最も確率の高い単語を探したとき偶然に同じ単語になった場合である。

まず、ユーザの発話内容が「イチゴジュース」と仮定する。すなわち、ユーザが「イチゴジュース」を発話して図１に示すユーザ端末１１０が入力装置を介して「イチゴジュース」が含まれた音声信号の入力を受けて音声認識サーバ１２０に送信すると、音声認識サーバ１２０は音声信号を分析して全ての含まれ得る単語列を確認し、最も高い確率を有する単語列を選択してもよい。ここで、図６では、最も高い確率を有する単語列として、単語「イチゴ」（１）と単語「ソース」が結合された「イチゴソース」が選択された場合を示している。

この場合、音声認識サーバ１２０は、最も高い確率を有する単語列に含まれた単語「イチゴ」（１）と「ソース」とのそれぞれに対する変換候補単語を決定してもよい。すなわち、「イチゴ」（１）と「ソース」それぞれに対する当該時間範囲内に含まれる他の単語に対して各単語の信頼度を算出し、信頼度の高い順にｎ個の単語を変換候補単語として抽出してもよい。ここで、当該時間範囲は認識がスタートした時刻及び認識が終了した時刻、そして認識が終了した時刻に付与される予め選定された許容時間値に応じて決定されてもよい。

例えば、単語「ソース」に対する変換候補単語を求めるために、音声認識サーバ１２０は単語「ソース」に対して決定された時間範囲内に含まれる他の単語を確認する。ここで、時間範囲内に含まれる他の単語は単語「ソース」の認識が終了した時刻に予め選定された許容時間値を付与した時刻、そして「ソース」の認識がスタートした時刻の時間範囲内に含まれ，かつ、スタート時間が同一の単語を含んでもよい。ここで、許容時間値は３０ｍｓのように音声認識サーバ１２０によって決定されてもよい。

ここで、スタート時刻は同一であるが、終了した時間が「ソース」の認識が終了した時間よりも予め選定された許容時間値以上に短くて、当該時間範囲内にさらに他の単語が認識された場合には認識された各単語を結合して１つの変換候補単語として決定してもよい。

すなわち、上述した一例として、単語「ゴジュ」（１）及び単語「ス」が結合して１つの単語「ゴジュス」として「ソース」の変換候補単語として選択される場合や、単語「ゴジュ」（１）及び単語「ュース」が結合して１つの単語「ゴージュュース」として「ソース」の変換候補単語として選択される場合を例にあげてもよい。また、単語「ゴジュ」（２）及び「シュース」そして「ジュス」が単語「ソース」の変換候補単語として選択されてもよい。すなわち、図６では単語「ゴジュ」（１）と単語「ズース」が結合された「ゴジュズース」だけが時間範囲から外れる関係により変換候補単語に選択されない一例を示している。もし、許容時間値を減らして時間範囲をさらに減せば、変換候補単語の選択のための範囲はさらに削減される。

ここで、選択された変換候補単語が信頼度の高い順に「シュース」、「ジュス」、「ゴジュス」、「ゴジュュース」、及び「ゴジュ」（２）の順であれば、選択された変換候補単語は信頼度の高い順に応じて音声認識の結果に含まれてもよい。

すなわち、図１及び図６を共に参照すると、ユーザ端末１１０は表示装置を介して「イチゴソース」を表示してもよい。この場合にも変換候補が存在する単語と変換候補が存在しない単語は互いに区分して表示されてもよい。ここで、単語「ソース」がユーザによって選択される場合、単語「ソース」は最初の順番に決定された単語「ジュース」に変更されて表示される。また、変更された単語「シュース」が再びユーザに選択される場合には単語「シュース」が二番目に決定された単語「ジュス」に変更されて表示される。これ以上変更する変換候補単語がない場合には、最初に表示された単語「ソース」がユーザに表示されたりユーザが直接に当該単語を編集可能な機能を提供したりしてもよい。

このように、ユーザは変換候補単語全体のリストから所望する単語を検索することなく、選択によって次の変換候補単語を確認することができる。既に上述したように、信頼度に基づいて変換候補単語を選定すると、大部分の場合は１，２回の選択によってユーザが意図した単語が表示されることから、ユーザは変換候補単語全体を調べる必要がなく、単語列から特定単語を意図する単語に容易かつ素早く編集することができる。

図７は、本発明の一実施形態における音声認識システムの内部構成を説明するためのブロック図である。このような音声認識システム７００は、図７に示すように音声認識結果確認部７３０及び単語列表示部７４０を備えてもよく、必要に応じて選択的に音声信号送信部７１０及び音声認識結果受信部７２０を備えてもよい。ここで、音声認識システム７００が音声信号送信部７１０及び音声認識結果受信部７２０を備える場合、音声認識システム７００は図１に示すユーザ端末１１０に対応する。

音声信号送信部７１０は、入力装置を介して入力される音声信号を音声認識サーバに送信する。例えば、ユーザの発話による音声信号がマイクのような入力装置を介して音声認識システム７００から入力されてもよく、音声信号送信部７１０はこのような音声信号を音声認識サーバに送信してもよい。ここで、音声認識サーバは、図１を参照して説明した音声認識サーバ１２０に対応する。

音声認識結果受信部７２０は音声信号に対応する音声認識の結果を音声認識サーバを介して受信する。ここで、単語列は音声認識サーバで音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち最も高い確率を有する単語列として選択される。また、変換候補単語は、音声認識サーバで少なくとも１つの単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内に音声信号によって認識された他の単語のうち少なくとも１つの単語として選択されてもよい。ここで、他の単語のうち少なくとも１つの単語は、他の単語それぞれに対して算出される信頼度に基づいて選択されてもよく、時間範囲は認識がスタートした時刻及び認識が終了した時刻、及び認識が終了した時刻に付与される予め選定された許容時間値に応じて決定されてもよい。

音声認識結果確認部７３０は音声認識の結果として、単語列及び単語列に含まれる少なくとも１つの単語に対する変換候補単語が提供される場合に単語列及び変換候補単語を確認する。すなわち、音声認識サーバから音声認識の結果が受信されるなどの過程によって音声認識システム７００に音声認識の結果が提供されると、音声認識システム７００は音声認識結果確認部７３０を介して提供された音声認識の結果として単語列と変換候補単語を確認することができる。

単語列表示部７４０は単語列を表示装置を介して表示するが、変換候補単語が存在する少なくとも１つの単語を単語列の他の単語と区分して表示する。ここで、単語列表示部７４０は、区分して表示された単語がユーザによって選択される場合、区分して表示された単語を変換候補単語に変更して表示する。もし、更に他の変換候補単語が存在し、変更された変換候補単語が再びユーザによって選択される場合、変更された変換候補単語は更に他の変換候補単語に変更されてもよい。

また、音声認識システム７００は、表示された単語列の全体を削除するためのユーザインタフェースを提供するユーザインタフェース部（図示せず）をさらに備えてもよい。この場合、単語列表示部７４０はユーザインタフェースを介してユーザ入力が発生する場合、表示された単語列を全て削除してもよい。

また、単語列が表示装置を介して表示される場合、または単語列が他の機器に送信される場合、単語列が音声認識によって提供されたことを表す標識が単語列と共に表示されおよび送信されてもよい。

図８は、本発明の一実施形態に係る音声認識方法を示すフローチャートである。本実施形態における音声認識方法は図７を参照して説明した音声認識システム７００によって行われてもよい。図８では音声認識システム７００によって各ステップが実施される過程を説明することによって、本実施形態における音声認識方法を説明する。この場合にもステップＳ８１０及びステップＳ８２０は必要に応じて選択的に音声認識システム７００によって行われてもよい。

ステップＳ８１０において、音声認識システム７００は入力装置を介して入力される音声信号を音声認識サーバに送信する。例えば、ユーザの発話による音声信号がマイクのような入力装置を介して音声認識システム７００から入力されてもよく、音声認識システム７００はこのような音声信号を音声認識サーバに送信してもよい。ここで、音声認識サーバは図１を参照して説明した音声認識サーバ１２０に対応する。

ステップＳ８２０において、音声認識システム７００は音声信号に対応する音声認識の結果を音声認識サーバを介して受信する。ここで、単語列は、音声認識サーバで音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち最も高い確率を有する単語列として選択されてもよい。また、変換候補単語は、音声認識サーバで少なくとも１つの単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内に音声信号によって認識された他の単語のうち少なくとも１つの単語として選択されてもよい。ここで、他の単語のうち少なくとも１つの単語は他の単語それぞれに対して算出される信頼度に基づいて選択されてもよく、時間範囲は認識がスタートした時刻及び認識が終了した時刻、そして認識が終了した時刻に付与される予め選定された許容時間値に応じて決定されてもよい。

ステップＳ８３０において、音声認識システム７００は音声認識の結果として、単語列及び単語列に含まれる少なくとも１つの単語に対する変換候補単語が提供される場合、単語列及び変換候補単語を確認する。すなわち、音声認識サーバから音声認識の結果が受信されるなどの過程を介して音声認識システム７００に音声認識の結果が提供されると、音声認識システム７００はこのような提供された音声認識の結果として単語列と変換候補単語を確認する。

ステップＳ８４０において、音声認識システム７００は単語列を表示装置を介して表示するが、変換候補単語が存在する少なくとも１つの単語を単語列の残りの単語と区分して表示する。ここで、音声認識システム７００は、区分して表示された単語がユーザによって選択される場合、区分して表示された単語を変換候補単語に変更して表示する。もし、更に他の変換候補単語が存在し、変更された変換候補単語が再びユーザによって選択される場合、変更された変換候補単語は更に他の変換候補単語に変更されてもよい。

また、音声認識システム７００は、表示された単語列の全体を削除するためのユーザインタフェースを提供するユーザインタフェース部（図示せず）をさらに備えてもよい。この場合、音声認識システム７００は、ユーザインタフェースを介してユーザ入力が発生する場合、表示された単語列の全てを削除する。

また、単語列が表示装置を介して表示される場合、または単語列が他の機器に送信される場合、単語列が音声認識によって提供されたことを示す標識が単語列と共に表示されまたは送信されてもよい。

図９は、本発明の他の実施形態における音声認識システムの内部構成を説明するためのブロック図である。本実施形態に係る音声認識システム９００は、図９に示すように音声認識結果生成部９２０及び音声認識結果提供部９３０を備えてもよく、必要に応じて選択的に音声信号受信部９１０を備えてもよい。ここで、音声認識システム９００が音声信号受信部９１０を備える場合、音声認識システム９００は図１で示した音声認識サーバ１２０に対応する。

音声信号受信部９１０は端末の入力装置を介して入力された音声信号を端末を介して受信する。ここで、端末はユーザ端末として、図１を参照して説明したユーザ端末１１０に対応する。すなわち、ユーザ端末１１０の入力装置を介してユーザが発話した音声信号が入力されると、ユーザ端末１１０は入力された音声信号を音声認識システム９００に送信してもよく、音声認識システム９００は送信された音声信号を受信してもよい。

音声認識結果生成部９２０は、音声信号に対応する単語列及び単語列に含まれる少なくとも１つの単語に対する変換候補単語を決定して音声認識の結果として生成する。ここで、音声認識結果生成部９２０は、音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち、最も高い確率を有する単語列を音声認識の結果に含まれる単語列として選択してもよい。また、音声認識結果生成部９２０は、少なくとも１つの単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内に音声信号によって認識された他の単語のうち少なくとも１つの単語を音声認識の結果に含まれる変換候補単語として選択してもよい。ここで、他の単語のうち少なくとも１つの単語は、他の単語それぞれに対して算出される信頼度に基づいて選択されてもよく、時間範囲は認識がスタートした時刻及び認識が終了した時刻、及び認識が終了した時刻に付与される予め選定された許容時間値に応じて決定されてもよい。

音声認識結果提供部９３０はユーザ端末で音声認識の結果を提供する。ここで、提供された音声認識の結果に含まれる単語列は端末の表示装置を介して表示され、変換候補単語が存在する少なくとも１つの単語は単語列の他の単語と区分して表示される。また、区分して表示された単語が端末でユーザによって選択される場合、区分して表示された単語が変換候補単語に変更されて表示される。

このような端末において、表示された単語列の全体を削除するのためのユーザインタフェースを提供してもよく、ここで、ユーザインタフェースを介してユーザ入力が発生する場合、表示された単語列が全て削除されてもよい。

また、単語列が表示装置を介して表示される場合、または単語列が端末から他の機器に送信される場合、単語列が音声認識によって提供されたことを示す標識が単語列と共に表示されまたは送信されてもよい。

図１０は、本発明の他の実施形態における音声認識方法を示すフローチャートである。本実施形態における音声認識方法については図９を参照して説明した音声認識システム９００によって行われてもよい。図１０では音声認識システム９００によって各ステップが行われる過程を説明することで、本実施形態に係る音声認識方法を説明する。この場合にもステップＳ１０１０は必要に応じて選択的に音声認識システム７００によって行われてもよい。

ステップＳ１０１０において、音声認識システム９００は端末の入力装置を介して入力された音声信号を端末で受信する。ここで、端末はユーザ端末として図１を参照して説明したユーザ端末１１０に対応する。すなわち、ユーザ端末１１０の入力装置を介してユーザが発話した音声信号が入力されると、ユーザ端末１１０は入力された音声信号を音声認識システム９００に送信してもよく、音声認識システム９００は送信された音声信号を受信してもよい。

ステップＳ１０２０において、音声認識システム９００は音声信号に対応する単語列及び単語列に含まれる少なくとも１つの単語に対する変換候補単語を決定して音声認識の結果として生成する。ここで、音声認識システム９００は、音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち、最も高い確率を有する単語列を音声認識の結果に含まれる単語列として選択してもよい。また、音声認識システム９００は、少なくとも１つの単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内に音声信号によって認識された他の単語のうち、少なくとも１つの単語を音声認識の結果に含まれる変換候補単語として選択してもよい。ここで、他の単語のうち少なくとも１つの単語は、他の単語それぞれに対して算出される信頼度に基づいて選択されてもよく、時間範囲は認識がスタートした時刻及び認識が終了した時刻、そして認識が終了した時刻に付与される予め選定された許容時間値に応じて決定されてもよい。

ステップＳ１０３０において、音声認識システム９００はユーザ端末に音声認識の結果を提供する。ここで、提供された音声認識の結果に含まれる単語列は端末の表示装置を介して表示され、変換候補単語が存在する少なくとも１つの単語は単語列の残りの単語と区分して表示される。また、区分して表示された単語が端末でユーザによって選択される場合、区分して表示された単語が変換候補単語に変更されて表示される。

このような端末において、表示された単語列の全体を削除するためのユーザインタフェースを提供してもよく、ここで、ユーザインタフェースを介してユーザ入力が発生する場合、表示された単語列を全て削除してもよい。

図１１は、本発明の更に他の実施形態における音声認識システムの内部構成を説明するためのブロック図である。本実施形態における音声認識システム１１００は、図１で説明したユーザ端末１１０及び音声認識サーバ１２０とは異なり、１つのシステムで音声認識の結果の生成と表示が行われる。このような音声認識システム１１００は、図１１に示すように音声認識結果確認部１１２０及び単語列表示部１１３０を備え、必要に応じて選択的に音声認識結果生成部１１１０を備えてもよい。

ここで、音声認識結果生成部１１１０を備えていない場合には、図７において音声認識システム７００が音声信号送信部７１０及び音声認識結果受信部７２０を備えていない場合と同一であり、音声認識結果確認部１１２０及び単語列表示部１１３０は音声認識結果確認部７３０及び単語列表示部７４０と同一に動作するため、音声認識結果確認部１１２０及び単語列表示部１１３０に対する繰り返しの説明は省略する。

音声認識結果生成部１１１０は入力装置を介して入力される音声信号に対応する音声認識の結果を生成する。ここで、音声認識の結果を生成する方法については既に詳しく説明したため繰り返しの説明は省略する。

図１２は、本発明の更に他の実施形態における音声認識方法を示すフローチャートである。本実施形態における音声認識方法は図１１を参照して説明した音声認識システム１１００によって行われてもよい。ここで、ステップＳ１２１０は必要に応じて音声認識システム１１００によって行われてもよい。

ここで、ステップＳ１２１０を行わない場合には、図８に示す音声認識システム７００がステップＳ８１０及びステップＳ８２０を行わない場合と同一であり、ステップＳ１２２０及びステップＳ１２３０はステップＳ８３０及びステップＳ８４０と同一であるため、ステップＳ１２２０及びステップＳ１２３０に対する繰り返しの説明は省略する。

ステップＳ１２１０において、音声認識システム１１００は入力装置を介して入力される音声信号に対応する音声認識の結果を生成する。ここで、音声認識の結果を生成する方法については既に詳しく説明したため、その反復的な説明は省略する。

図７から図１２において省略された内容は図１から図６を参照されたい。

本発明の更に他の実施形態に係る音声認識システム及び音声認識方法では、変換候補単語をリストの形式でユーザに提供してもよい。例えば、図１を参照して説明したユーザ端末１１０に対応する音声認識システムは入力装置を介して入力される音声信号を音声認識サーバに送信し、音声信号に対応する音声認識の結果を音声認識サーバを介して受信してもよい。ここで、音声認識システムは音声認識の結果として、単語列及び単語列に含まれる少なくとも１つの単語に対する変換候補が提供される場合、単語列および変換候補単語を確認して単語列を表示装置を介して表示するが、変換候補単語が存在する少なくとも１つの単語を単語列の残りの単語と区分して表示してもよい。

このとき、音声認識システムは、区分して表示された単語がユーザによって選択された場合、区分して表示された単語に対する変換候補単語をリストの形式で表示してもよい。一例として、図７に示す単語列表示部７４０は、区分して表示された単語がユーザによって選択される場合、区分して表示された単語の変換候補のうち少なくとも１つの変換候補を含むリストを表示してもよい。この場合、単語列表示部７４０は区分して表示された単語を表示されたリストからユーザによって選択された変換候補単語に変更して表示してもよい。これは他の実施形態においても同様に適用されてもよい。

図１３は、本発明の更に他の実施形態において、ユーザによって選択された単語の変換候補を表示した画面の一例である。ここで、ディスプレイ画面１３００は、ユーザによって選択された単語「したん」１３１０と単語「したん」１３１０の変換候補単語１３２０から１３５０を示している。ユーザはこのように提示された変換候補単語１３２０から１３５０のうち単語「したん」１３１０を変換するための変換候補単語を選択してもよい。例えば、図１３の一例として、ユーザは変換候補単語「した」１３２０を選択してもよく、この場合、音声認識システムは単語「したん」１３１０を変換候補単語「した」１３２０に変更して表示してもよい。

このように、音声認識システムは、区分して表示された単語がユーザによって選択される場合、区分して表示された単語に対する変換候補単語をリストの形式で表示し、表示された変換候補単語のうちユーザによって選択された変換候補単語を、初めて区分して表示された単語のうちユーザによって選択された単語に変更して表示してもよい。

本発明の実施形態によると、ユーザに音声認識の結果による文字列を表示してユーザに提供する際に、変換候補が存在する単語を文字列上の他の単語と区分して表示し、変換候補が存在する単語に対するユーザの選択に応じて当該単語を変換候補単語に変更して表示することによって、一回の選択でユーザが音声認識の結果を単語ごとに修正することができる。また、音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち最も高い確率を有する単語列を選択し、選択された単語列に含まれる単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内で音声信号に対して認識された他の単語のうち、他の単語それぞれに対して算出される信頼度を用いて選択される少なくとも１つの単語を変換候補単語として設定することにより、より正確な単語ごとの結果を提供することができる。それだけではなく、表示された単語列の全てを一度に削除できるユーザインタフェースを提供することによって、表示された単語列がとんでもない結果である場合、ユーザが直接文章を入力したり、または再び音声認識の過程を行ったりすることができ、音声認識によって作成される文章の単語列に対して、当該単語列が音声認識によって作成されたことを表す標識を単語列と共に表示しまたは送信することで、表示された単語列を確認するユーザまたはこのような単語列をＳＭＳ、Ｅメールなどで受信したユーザが当該単語列が音声認識によって作成されたことを認識することができる。

本発明の実施形態における方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータ読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうちの１つまたはその組合せを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。

上述したように、本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する技術分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形が可能である。

したがって、本発明の範囲は、開示された実施形態に限定されるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められる。

１１０ユーザ端末
１２０音声認識サーバ

Claims

音声認識の結果をモバイル端末に表示する音声認識システムにおいて、
入力装置を介して入力される音声信号を音声認識サーバに送信する音声信号送信部と、
前記音声信号に対応する前記音声認識の結果を前記音声認識サーバを介して受信する音声認識結果受信部と、
音声認識の結果として、単語列及び前記単語列に含まれる少なくとも１つの単語に対する変換候補単語が提供される場合、前記単語列及び前記変換候補単語を確認する音声認識結果確認部と、
前記単語列を表示装置を介して表示する際に、前記変換候補単語が存在する少なくとも１つの単語を前記単語列の他の単語と区分して表示する単語列表示部と、
を備え、
前記変換候補単語は、前記音声認識サーバにおいて前記少なくとも１つの単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内において前記音声信号によって認識される他の単語のうち少なくとも１つの単語が選択され、
前記他の単語のうち少なくとも１つの単語は、前記他の単語それぞれに対して算出される信頼度の高さに基づいて選択され、
前記時間範囲は、前記認識がスタートした時刻及び前記認識が終了した時刻、及び前記認識が終了した時刻に付与される予め選定された許容時間値に応じて決定され、
前記単語列表示部は、前記区分して表示された単語がユーザによって選択される場合、当該選択のたびに前記区分して表示された単語を順次に前記変換候補単語に変更して表示し、
前記単語列が前記表示装置を介して表示される場合、または前記単語列が他の機器に送信される場合、前記単語列が音声認識によって提供されたことを示す標識が前記単語列と共に表示されまたは送信されることを特徴とする音声認識システム。
前記表示された単語列の全体を削除するためのユーザインタフェースを提供するユーザインタフェース部をさらに備え、
前記単語列表示部は、前記ユーザインタフェースを介してユーザ入力が発生する場合、前記表示された単語列を全て削除することを特徴とする請求項１に記載の音声認識システム。
入力装置を介して入力される音声信号に対応する前記音声認識の結果を生成する音声認識結果生成部をさらに備えることを特徴とする請求項１に記載の音声認識システム。
前記単語列は、前記音声認識サーバにおいて前記音声信号に対応してマッチングされ得る全ての単語列のうち、最も高い確率を有する単語列が選択されることを特徴とする請求項１に記載の音声認識システム。
音声認識の結果をモバイル端末に表示する音声認識システムにおいて、
音声信号に対応する単語列及び前記単語列に含まれる少なくとも１つの単語に対する変換候補単語を決定して音声認識の結果として生成する音声認識結果生成部と、
前記モバイル端末に前記音声認識の結果を提供する音声認識結果提供部と、
を備え、
前記音声認識結果生成部は、前記少なくとも１つの単語の認識がスタートした時刻及び認識が終了した時刻に基づいた時間範囲内に前記の音声信号によって認識された他の単語のうち少なくとも１つの単語を前記音声認識の結果に含まれる変換候補単語として選択し、
前記他の単語のうち少なくとも１つの単語は、前記他の単語それぞれに対して算出される信頼度に基づいて選択され、
前記時間範囲は、前記認識がスタートした時刻及び前記認識が終了した時刻、そして前記認識が終了した時刻に付与される予め選定された許容時間値に応じて決定され、
前記モバイル端末の表示装置で前記単語列が表示され、
前記変換候補単語が存在する少なくとも１つの単語は前記単語列の残りの単語と区分して表示され、
前記区分して表示された単語が前記モバイル端末でユーザによって選択される場合、当該選択のたびに前記区分して表示された単語が順次に前記変換候補単語に変更されて表示され、
前記単語列が前記表示装置を介して表示される場合、または前記単語列が前記モバイル端末から他の機器に送信される場合、前記単語列が音声認識によって提供されたことを表す標識が前記単語列と共に表示されまたは送信されることを特徴とする音声認識システム。
前記モバイル端末で前記表示された単語列の全体を削除するためのユーザインタフェースが提供され、
前記ユーザインタフェースを介してユーザ入力が発生する場合、前記表示された単語列が全て削除されることを特徴とする請求項５に記載の音声認識システム。
前記モバイル端末の入力装置を介して入力された前記音声信号を前記モバイル端末を介して受信する音声信号受信部をさらに備えることを特徴とする請求項５に記載の音声認識システム。
前記音声認識結果生成部は、前記音声信号に対応してマッチングされ得る全ての単語列それぞれの確率のうち、最も高い確率を有する単語列を前記音声認識の結果に含まれる単語列として選択することを特徴とする請求項５に記載の音声認識システム。