JP2003167600A - 音声認識装置及び方法、ページ記述言語表示装置及びその制御方法、並びにコンピュータ・プログラム - Google Patents
音声認識装置及び方法、ページ記述言語表示装置及びその制御方法、並びにコンピュータ・プログラムInfo
- Publication number
- JP2003167600A JP2003167600A JP2001370354A JP2001370354A JP2003167600A JP 2003167600 A JP2003167600 A JP 2003167600A JP 2001370354 A JP2001370354 A JP 2001370354A JP 2001370354 A JP2001370354 A JP 2001370354A JP 2003167600 A JP2003167600 A JP 2003167600A
- Authority
- JP
- Japan
- Prior art keywords
- recognition result
- display
- recognition
- voice
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
に提示する際の表示態様を改善することにより、良好な
操作性を実現する。 【解決手段】 入力された音声を認識することにより、
単数または複数の認識結果候補を取得すると共に、その
認識結果候補の中から正しい認識結果としてユーザ所望
の候補をGUIを用いて選択可能な音声認識装置におい
て、個々の認識結果候補には、語彙の重要度、品詞、処
理選択用のコマンドであるか否か、情報検索用のキーワ
ードであるか否か、使用される頻度、音声認識時のスコ
ア、並びに言語種類のうちの少なくとも何れかの属性情
報が含まれ、その属性に従って、認識結果候補毎にGU
Iに表示する際の表示態様(配置、表示位置、大きさ、
表示色、表示形状、並びに表示する字のフォント等)が
決定される。
Description
を、グラフィックユーザインタフェース(GUI)を用
いて表示する分野に関する。
が記憶されている認識辞書を利用して認識する音声認識
技術が提案されており、このような音声認識技術を利用
して、情報処理装置等に対して、ユーザ所望のコマンド
を入力する技術も提案されている。
認識システムにおいて、入力された音声の認識処理が終
了するのに応じて、その認識結果に基づいた他の処理が
行われる構成の場合には、その認識処理において誤認識
された結果が含まれると、係る他の処理の結果にも影響
を与えることになる。
理に重要なコマンドや、誤認識が頻繁に起ることが想定
される場合には、音声認識処理が終了した時点で、その
認識結果が正しいか否かを確認する処理が必要になる。
ては、ある認識結果に対して、例えば、「 ○○でよろ
しいですか? 」というユーザに確認を促すためのメッ
セージをディスプレイに表示すると共に、「 はい 」及
び「 いいえ 」のソフトウエア・ボタン(以下、単に
「ボタン」と称する)を表示することにより、ユーザに
確認のためのボタン操作を促す方法が一般的である。或
いは、合成音で同様のメッセージをユーザに対して通知
し、比較的認識精度の良いことが一般に知られている
「 はい 」及び「 いいえ 」の2種類の単語の音声認識
を利用して、認識結果のユーザによる確認を行なう方法
等がある。
なう方法によれば、誤認識による誤った処理の実行を防
ぐことは可能である。しかしながら、音声認識処理にお
けるスコア1位の認識結果のみを使用することに起因す
る低い認識精度の影響によって誤認識が繰り返される場
合には、音声認識処理の後で行われる処理においてユー
ザ所望のコマンドの実行に至るまでに、(1)システム
からの認識結果の確認のためユーザへの通知、(2)ユ
ーザが認識結果に満足できない場合に行なわなければな
らない「 いいえ 」ボタンの選択操作、並びに再認識の
ための同一音声を再入力、等の手順の繰り返し作業をユ
ーザに対して強いることになる。
コア1位の結果がユーザにとって誤認識である場合であ
っても、2位以下の認識結果に正解(ユーザにとって正
しい認識結果)が含まれる場合もあるため、この場合、
複数の認識結果を、選択候補としてユーザに対して同時
に提示すれば、ユーザ所望の何れかの候補を選択可能で
あるため、上述した煩わしい手順を減らすことができ
る。
て表示し、ボタンが押された際に対応するコマンドを実
行するようにすれば、システムからの確認の通知やユー
ザの「 はい 」「 いいえ 」等の応答の手順を省くこと
ができ、所望のコマンドの実行に至るまでの音声入力を
含むユーザの操作回数を減らすことができる。
フィックユーザインタフェース(GUI)としてディス
プレイ上のボタンで表示する方法は、例えば、特開平1
0-21254号公報で提案されている。同公報には、
音声認識機能を有する情報検索装置が提案されており、
その発明の詳細な説明によれば、検索するキーワードを
音声で入力し、認識されたキーワードによる検索結果を
表示するに際して、音声認識の結果得られる1位の認識
結果に対する検索結果が表示されると共に、その1位以
下の複数の認識結果候補が候補順に選択ボタンで選択可
能に表示される。そして、ユーザは、1位の認識候補が
誤りの場合にはマウスを用いて正しい認識結果のボタン
を選択する操作を行なうことにより、情報検索用のキー
ワードとして、正しい音声認識結果を選択することがで
きる。
た複数の認識結果候補が表示される従来の技術において
は、グラフィックユーザインタフェースにおいてユーザ
がボタンやスイッチを操作する際に、表示画面上に多く
のボタンが並んでいたり、ボタンそのものが小さい場合
には操作を誤る可能性が高く、特に重要な処理を行なう
べく音声認識結果を選択するためのボタンを操作する場
合等は注意が必要である。
器(例えば家電製品等の操作パネルや生産設備の制御パ
ネル等)に付属するボタンやスイッチ等は、例えば重要
な処理を行なうためのボタンは大きくしたり、使用頻度
の高いボタンを押しやすい位置に配置する等、使用頻度
や機能等のボタンの属性によって配置や大きさ、形状、
色等を工夫することで、誤操作を防ぐと同時に操作性の
向上を図っている。従って、グラフィックユーザインタ
フェースを用いて音声認識結果を表示する構成の場合に
も、同様の工夫を取り入れて、例えば、ある特定のコマ
ンドの認識結果に関しては、表示方法を他の認識結果と
変えたり、認識結果のスコアに応じて、表示するGUI
のサイズを変えたりすることで誤操作を防いだり、ユー
ザの操作性を向上することができると考えられるが、従
来は、そのような提案はなされていない。
ものであって、音声認識の結果候補をGUIを用いてユ
ーザに提示する際の表示態様を改善することにより、良
好な操作性を実現する音声認識装置及び方法、ページ記
述言語表示装置及びその制御方法、並びにコンピュータ
・プログラムの提供を目的とする。
め、本発明に係る音声認識装置は、以下の構成を特徴と
する。
り、単数または複数の認識結果候補を取得する音声認識
手段と、その認識結果候補の中から正しい認識結果とし
て、ユーザ所望の候補を、グラフィックユーザインタフ
ェース(GUI)を用いて選択可能な表示制御手段とを
備える音声認識装置であって、前記表示制御手段は、前
記認識結果候補毎に、前記GUIに表示する際の表示態
様を決定する表示態様決定手段を含むことを特徴とす
る。
定手段は、前記認識結果候補の属性に基づいて、前記表
示態様を決定すると良い。この場合、前記認識結果候補
に共通して採用される属性は、例えば、個々の認識結果
候補としての語彙の重要度、品詞、処理選択用のコマン
ドであるか否か、情報検索用のキーワードであるか否
か、使用される頻度、音声認識時のスコア、並びに言語
種類のうちの少なくとも何れかであると良い。
記表示態様として、個々の認識結果候補を表示する際の
前記GUIの種類、配置、表示位置、大きさ、表示色、
表示形状、並びに表示する字のフォントのうちの少なく
とも何れかを決定すると良い。
前記表示制御手段は、ユーザが前記表示態様を決定する
手順を設定可能な表示態様設定手段を更に含むと良い。
によって正しい認識結果として選択された何れかの認識
結果候補に従って、その認識結果候補に対応する処理が
自装置または外部装置において実行されるように制御す
る処理制御手段を更に備えると良い。
るページ記述言語表示装置は、以下の構成を特徴とす
る。
のデータに基づいて、表示画面を表示するところの、W
WW( World Wide Web )ブラウザ等のページ記述言語
表示装置であって、前記所定ページ記述言語形式のデー
タに、音声認識を指示する所定識別子(後述する実施形
態ではタグ)が含まれる場合に、入力された音声を認識
することにより、単数または複数の認識結果候補を取得
する音声認識手段と、前記認識結果候補の中から正しい
認識結果として、ユーザ所望の候補を選択させるべく、
前記認識結果候補毎に表示態様が決定されたグラフィッ
クユーザインタフェース(GUI)を表示するためのペ
ージ記述言語のデータを生成するページ記述データ生成
手段とを備えることを特徴とする。
認識装置に対応する音声認識方法によっても達成され
る。
装置及び方法を、音声入力機能を有するコンピュータに
よって実現するプログラムコード、及びそのプログラム
コードが格納されている、コンピュータ読み取り可能な
記憶媒体によっても達成される。
示装置及び対応する制御方法を、音声入力機能を有する
コンピュータによって実現するプログラムコード、及び
そのプログラムコードが格納されている、コンピュータ
読み取り可能な記憶媒体によっても達成される。
の実施形態を、図面を参照して詳細に説明する。
態に係る音声認識装置の概略構成を示すブロック図であ
る。
は、マイクロフォン等の音声を入力する音声入力装置で
ある。200は、本装置を動作させるプログラムおよび
本装置の動作に必要なデータや動作の過程で生成される
データを一時的に格納するROM、RAM、ハードディスク等
の記憶装置である。
示するために用いるディスプレイ等の表示装置である。
400は、ユーザが操作を入力する際に用いるマウス、
キーボード等の操作入力装置である。
認識部である。502は、認識結果の表示態様(表示書
式)の決定および表示を制御する表示制御部である。5
03は、ユーザの操作に応じて認識結果を選択する認識
結果選択部である。
された認識結果に基づいて、その認識結果に対応する処
理を実行あるいは処理を実行するように他のプログラム
を制御する処理制御部である。505は、表示態様を設
定する表示態様設定部である。
に参照するHMM等の音響モデル201、認識対象とな
る語の発音情報等を記述した認識辞書202、表示制御
部502で表示態様を決定する方法を記述した表示ルー
ル203、並びに認識結果に対応する処理方法を記述し
た処理ルール204が記憶されている。
ハードウエアには、音声入力可能なパーソナル・コンピ
ュータ、携帯情報端末(PDA)等の情報処理装置を採
用することができる。
の動作について、図2を参照して説明する。
装置の制御処理を示すフローチャートであり、当該音声
認識装置の不図示のCPUが行なうところの、図1に示
す各処理部に対応するソフトウエア・プログラムに記述
された処理手順を示す。
ユーザがマイクロフォン等の音声入力装置100を用い
て入力した音声は、記憶装置200内に記憶されている
音響モデル201及び認識辞書202を用いて音声認識
部501の機能によって認識されることにより、単数ま
たは複数の認識結果が得られる(ステップS102)。
において取得した認識結果を、表示制御部502の機能
により、表示装置300への表示態様を決定し、その表
示形式に従って、認識結果の選択候補(認識結果候補)
として、表示装置300上に表示する。このとき、表示
態様を決定する方法は、表示制御部502の機能を記述
したプログラム中に記述しても良いし、例えば図5に示
すような表示ルール203を、記憶装置200に予め記
憶しておいても良い。
る図であり、このルールには、音声認識のスコアを基準
に、表示するGUIの種類および表示サイズがルール1
として規定され、表示に際しての配置がルール2として
規定されている。このような表示ルール203の設定
は、表示設定部505の機能によってユーザが設定する
ことも可能である。
に例示するような認識語彙と発音が記述された認識辞書
202を用いて音声認識処理が行なわれ、スコアの大き
い方から上位4つの候補を取得した結果が図4に例示す
る如くであったとする。
に例示した表示ルール203が参照されることにより、
図6に例示するGUIの如く複数の認識結果選択用の候
補を例示する図が表示される。即ち、図6の例では、ル
ール1及び2に従って、スコアが最も大きい「 印刷 」
が大きいサイズのボタンとして表示され、以下3つの候
補(認識結果候補)が、順次スコアの値に応じた表示態
様のボタンとして表示されている。
く表示された複数のボタンの中から、マウス等の操作入
力装置400を用いて、ユーザによって何れか所望のボ
タンが選択され、選択されたボタンに対応する語彙(認
識結果候補)が、正しい認識結果として設定される。
応じて正しい認識結果として設定語彙に従って、記憶装
置200に記憶されている処理ルール204が参照され
ることにより、該当する処理が実行される。処理ルール
204は、例えば、図7に例示する如く、設定された認
識結果が「 印刷 」であれば印刷処理が行われる等、認
識辞書202に記述されている語毎に規定される。
の結果候補をGUIを用いてユーザに提示する際の表示
態様が改善されるので、良好な操作性を実現することが
できる。
認識結果の属性として、個々の語彙の認識結果のスコア
を利用したが、これに限られるものではなく、個々の語
の重要度、品詞の種類、所定の処理を指示するためのコ
マンドか否か、情報検索用のキーワードか否か、入力さ
れた音声にて使用される頻度、英語・日本語等の言語の
種類等の各種の属性を採用することができ、それら属性
のうち少なくとも何れか1種類が各認識結果に共通に採
用されれば良い(以下の各実施形態においても同様であ
る)。
実施形態に係る音声認識装置を基本とする第2の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
って表示態様を変更する場合について説明したが、本実
施形態では、例えば図8に示す如く、「 東京 」、「
大阪」等の地名は、小さいサイズのノーマルフォントを
利用してテキストとして表示し、「 終了 」、「 印刷
」等の処理の選択するためのコマンドに対応する語
は、ボタンとして表示すると共に、表示に際してのフォ
ントやボタンの大きさもコマンドの重要さの度合いに応
じて適宜設定される等のように、各語毎に表示態様が設
定されるような表示ルールを用いて表示態様を制御す
る。
識の結果候補をGUIを用いてユーザに提示する際の表
示態様が改善されるので、良好な操作性を実現すること
ができる。
実施形態に係る音声認識装置を基本とする第3の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
ケーション等では、音声認識をテキストの入力やアプリ
ケーションを操作するためのコマンドの入力等のよう
に、異なる目的で使用する場合がある。このような場合
には、認識結果候補の表示方法として、コマンドはボタ
ンで表示し、テキストはテキストとして表示する方がユ
ーザにとって操作し易い。
によって選択されたあるコマンドが誤って実行されても
操作上特に問題ない場合がある一方で、アプリケーショ
ンの終了等にように、ユーザの本来の希望とは異なるコ
マンドが実行されると復帰するのが困難なコマンドもあ
る。
ドによって、表示態様を変更することにより、操作性の
向上を図る。例えば、アプリケーションを終了するコマ
ンドは、表示する際に他の認識結果候補よりもサイズを
大きくする等して視認性を良くすることで、誤操作を避
けることができる。
形態では、図10に例示するような表示ルールに基づく
制御制御を行なう。
ール1では、認識結果候補に対して対応する処理がある
場合はボタンで表示し、それ以外の場合はテキストで表
示するよう記述されている。また、ルール2では、重要
度という認識結果候補の属性を用いて、表示する際のサ
イズやフォントが規定されている。そして、ルール3で
は、複数の認識結果候補を表示する際の配置が規定され
ている。
に各語毎に事前に付与しておき、表示ルールに含めても
良いし、認識辞書自体に重要度を記述して記憶装置20
0に予め記憶しておいても良い。
印刷 」、「 削除 」といった誤操作を避けたいコマン
ドに対応する語には重要度が大きく設定され、図10に
例示した表示ルールで重要度の大きい語についてはサイ
ズを大きく、且つフォントを太くして視認性を良くする
よう記述されている。
0に示す表示ルールに基づいて、図9に示すスコアに基
づく認識結果候補が得られた場合に表示される認識結果
選択用のGUIを例示する図であり、対応する処理のあ
る認識結果候補についてはボタンが表示され、それ以外
の認識結果候補はテキストとして表示されると共に、
「 終了 」や「 削除 」といった重要度の大きい語の表
示サイズが大きくされている。
識の結果候補をGUIを用いてユーザに提示する際の表
示態様が改善されるので、良好な操作性を実現すること
ができる。
至第3の実施形態に係る音声認識装置を基本とする第4
の実施形態を説明する。以下の説明においては、上述し
た各実施形態と同様な構成については重複する説明を省
略し、本実施形態における特徴的な部分を中心に説明す
る。
実施形態で説明した音声認識装置を、WWW( World W
ide Web )ブラウザ等のページ記述言語を表示するペー
ジ記述言語表示装置において実現した例について、図1
3及び図14を参照して説明する。
述言語表示装置の概略構成を示すブロック図であり、基
本的な装置構成は、図1に示す音声認識装置と同様であ
る。本実施形態においても、ハードウエアには、音声入
力可能なパーソナル・コンピュータ、携帯情報端末(P
DA)等の情報処理装置を採用することができる。
ロフォン等の音声を入力する音声入力装置である。20
0は、本装置を動作するプログラムおよび本装置の動作
に必要なデータや動作の過程で生成されるデータを一時
的に格納するROM、RAM、ハードディスク等の記憶装置で
ある。
ために用いるディスプレイ等の表示装置である。400
は、ユーザが操作を入力する際に用いるマウス、キーボ
ード等の操作入力装置である。
ータ入力を制御し、入力されたページ記述言語を解析
し、その解析結果に基づいて、表示装置300上にペー
ジを表示するページ記述制御部である。501は、入力
された音声を認識する音声認識部である。506は、音
声認識部501による音声認識結果を表示するためのペ
ージ記述言語のデータを生成するページ記述データ生成
部である。
認識結果候補の中からユーザの操作に応じて、所望の何
れかを選択する認識結果選択部である。504は、認識
結果選択部503において選択された認識結果候補に基
づいて、その認識結果候補に対応する処理を実行あるい
は処理を実行するように他のプログラムを制御する処理
制御部である。
に参照するHMM等の音響モデル201、認識対象とな
る語の発音情報等を記述した認識辞書202、表示制御
部502で表示態様を決定する方法を記述した表示ルー
ル203、並びに認識結果に対応する処理方法を記述し
た処理ルール204が記憶されている。ここで、記憶装
置200に記憶されている上記201乃至204の音響
モデルをはじめとする各種データは、本装置とは構成を
別にするWWWサーバ等の記憶装置から、インターネッ
ト等の通信ネットワークを介して読み出し可能な構成と
しても良い。
語表示装置の動作について、第1の実施形態と同じ表示
ルール、処理ルール、並びに認識結果の例を用いて、図
14を参照して説明する。
記述言語表示装置の制御処理を示すフローチャートであ
り、当該ページ記述言語表示装置の不図示のCPUが行
なうところの、図13に示す各処理部に対応するソフト
ウエア・プログラムに記述された処理手順を示す。
装置にインターネットのサーバ上あるいは本装置内の記
憶装置200上に記憶されたページ記述言語のデータが
入力される。入力されたページ記述言語のデータは、ペ
ージ記述言語制御部506の機能によって解析され(ス
テップS202)、ステップS203では、その解析結
果に基づいて、当該ページ記述言語のデータの記述内容
に応じたページが表示装置300上に表示される。
述言語の解析の過程で、そのページ記述言語のデータの
中に、音声認識を行なうタグが記述されていたかを判断
し(ステップS204)、記述されていなかった場合に
は処理を終了し、記述されていた場合には、ステップS
205において、ユーザがマイクロフォン等の音声入力
装置100を用いて入力した音声を受け付ける。
のデータに含まれる音声認識を行なうタグ以外のタグに
ついては、WWWブラウザ等の一般的なページ記述言語
の表示装置と同様な機能を有するものとする。
05において入力された音声は、記憶装置200内に記
憶されている音響モデル201及び認識辞書202を用
いて、音声認識部501の機能によって認識されること
により、単数または複数の認識結果候補が得られる。
生成部506の機能により、音声認識部501にて取得
した認識結果候補(図4)に基づいて、第1の実施形態
と同様に表示装置300への表示態様が決定されると共
に、更に、決定された表示態様の内容に対応するページ
記述言語のデータが生成される。ページ記述データ生成
部506の機能によって生成されたデータは、ページ記
述制御部507に設定される。
507の機能により、ステップS207にて生成された
ページ記述言語のデータが解析され、ステップS209
では、その解析結果に基づいて、表示装置300上にペ
ージが表示される。このとき、表示装置300上に表示
するページの表示態様を決定する方法は、第1の実施形
態と同様にプログラム中に記述しても良いし、図5に示
したような表示ルール203を記憶装置200に記憶し
ておき、その表示ルールを参照しても良い。表示用ルー
ル203の設定は、表示設定部505の機能を利用して
ユーザが設定する構成としても良い。
識を実行するためのタグを例示する図である。
形態に係る音声認識タグの一例であり、「 <SpeechRco
g ..... > 」が音声認識による入力を実行するための
記述であり、本実施形態において、「 <SpeechRcog
..... > 」は、「 音声認識して、認識した結果を表
示する 」と解釈するものとする。
示装置では、音声認識で使用する認識辞書201及び音
響モデル202を、「 grammar 」、「 acousticmodel
」なる記述によって指定することが可能である。更
に、第1の実施形態で述べた表示ルール203及び処理
ルール204を、「 resulttemplate 」、「 actiontab
le」なる記述によって指定できるものとする。
01の機能により、「 <SpeechRcog ..... > 」とい
うタグに従って、認識辞書「 command.gra 」及び音響
モデル「 phone.mdl 」を用いて音声認識を行なうと共
に、ページ記述データ生成部506の機能により、表示
ルール「 type1.dat 」及び処理ルール「 command.tb
l」を参照して、認識結果候補を表示するためのページ
記述言語のデータを生成することが表わされている。
に示した表示ルール203に基づいて、ページ記述デー
タ生成部506の機能によって生成されたページ記述言
語データを例示する図である。
のページ記述言語の仕様を拡張した部分であり、本実施
形態におけるページ記述言語表示装置では、「 input t
ype= mybotton 」なる記述と、「 size 」なる記述とに
よって、ボタンの表示と、表示する際のボタンのサイズ
を指定することが可能である。また、「 <p>……</p
> 」で囲まれた範囲が、一行のボタンとして表示され
るように解釈される。本実施形態では、係る拡張仕様が
解釈されることにより、図16に従って表示装置300
に認識結果候補が表示されると、第1の実施形態の場合
と同様に、図6に示す表示例が表示される。
明に戻る。ステップS210では、表示装置300に表
示された認識結果候補に対して、認識結果選択部503
の機能により、マウス等の操作入力装置400を利用し
て、ユーザが所望の認識結果候補を選択する。
の機能により、選択された認識結果候補に対応する処理
が実行される。ここで、認識結果候補と処理との対応関
係は、プログラム中に記述しても良いし、図7に例示す
るような対応関係が記述された処理ルール204を、記
憶装置200上に予め記憶しておき、処理制御部504
によって処理が実行される際に参照するようにしても良
い。
例では、表示装置300に表示されたボタンがユーザに
よって押下されたときに、「 name 」で指定された環境
変数「 com 」に、「 value 」で指定された値(同図で
は検索、印刷設定、編集に相当)が代入され、「 Execu
teCommand 」というプログラムの実行が開始される。こ
の「 ExecuteCommand 」なる記述は、処理制御部504
に該当し、係る「 ExecuteCommand 」及びプログラム
は、「 name 」で指定された環境変数から「 com」に代
入された値を取り出し、取り出した値に該当する処理
を、処理ルール204を参照することによって特定した
上で実行する。
識の結果候補をGUIを用いてユーザに提示する際の表
示態様が改善されるので、良好な操作性を実現すること
ができる。
によれば、単数または複数の音声認識結果の候補を、表
示装置300にソフトウエアボタンやテキストを含むG
UIを用いて表示する場合に、個々の音声認識結果候補
の認識スコアや重要度等の属性に基づいて、認識結果候
補毎に表示する書式が決定されるので、音声認識を用い
たユーザインタフェースやコマンド入力の操作性を向上
することができる。
び図12に例示したGUIでは、そのGUIに表示され
た複数の候補の中からユーザ所望のものを、大きさやフ
ォントが異なるソフトウエアボタンを用いて選択可能に
構成したが、この装置構成に限られるものではなく、例
えば、大きさやフォントが異なる各選択候補の表示エリ
ア内または近傍に設けた所謂ラジオボタンやチェックボ
ックス等によって選択可能に構成しても良い。
及び図12に例示したGUIでは、そのGUIに表示さ
れた複数の候補の中からユーザ所望のものを選択するに
際して、大きさやフォントが異なるソフトウエアボタン
を用いて選択可能に構成することによってユーザに対す
る操作性を向上したが、この装置構成に限られるもので
はなく、例えば、ボタンの表示色、表示するボタンの形
状等を適宜変更することによっても、操作性を向上する
ことができる。
態の機能を実現するソフトウェアのプログラムコードを
記録した記憶媒体(または記録媒体)を、上述した音声
認識装置として動作するパーソナル・コンピュータや携
帯情報端末等の情報処理装置に供給し、それらシステム
あるいは装置のコンピュータ(またはCPUやMPU)が記憶
媒体に格納されたプログラムコードを読み出し実行する
ことによっても達成される。この場合、記憶媒体から読
み出されたプログラムコード自体が前述した実施形態の
機能を実現することになり、そのプログラムコードを記
憶した記憶媒体、並びに電気通信回線等を介してコンピ
ュータ・プログラム製品として取得した当該プログラム
コードは、本発明を構成することになる。
ムコードを実行することにより、前述した実施形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているオペレーテ
ィングシステム(OS)等が実際の処理の一部または全部を
行い、その処理によって前述した実施形態の機能が実現
される場合も含まれる。
ムコードが、コンピュータに挿入された機能拡張カード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張カードや機能拡張ユニットに備わ
るCPU等が実際の処理の一部または全部を行い、その処
理によって前述した実施形態の機能が実現される場合も
含まれる。
の結果候補をGUIを用いてユーザに提示する際の表示
態様を改善することにより、良好な操作性を実現する音
声認識装置及び方法、ページ記述言語表示装置及びその
制御方法、並びにコンピュータ・プログラムの提供が実
現する。
を示すブロック図である。
理を示すフローチャートである。
例を説明する図である。
果候補の一例を説明する図である。
例を説明する図である。
される認識結果選択用のGUIの表示態様を例示する図
である。
成例を説明する図である。
例を説明する図である。
果候補の一例を説明する図である。
一例を説明する図である。
例を説明する図である。
示される認識結果選択用のGUIの表示態様を例示する
図である。
置の概略構成を示すブロック図である。
装置の制御処理を示すフローチャートである。
ためのタグを例示する図である。
ルール203に基づいて、ページ記述データ生成部50
6の機能によって生成されたページ記述言語データを例
示する図である。
Claims (16)
- 【請求項1】 入力された音声を認識することにより、
単数または複数の認識結果候補を取得する音声認識手段
と、その認識結果候補の中から正しい認識結果として、
ユーザ所望の候補を、グラフィックユーザインタフェー
ス(GUI)を用いて選択可能な表示制御手段とを備え
る音声認識装置であって、 前記表示制御手段は、前記認識結果候補毎に、前記GU
Iに表示する際の表示態様を決定する表示態様決定手段
を含むことを特徴とする音声認識装置。 - 【請求項2】 前記表示態様決定手段は、前記認識結果
候補の属性に基づいて、前記表示態様を決定することを
特徴とする請求項1記載の音声認識装置。 - 【請求項3】 前記認識結果候補に共通して採用される
属性は、個々の認識結果候補としての語彙の重要度、品
詞、処理選択用のコマンドであるか否か、情報検索用の
キーワードであるか否か、使用される頻度、音声認識時
のスコア、並びに言語種類のうちの少なくとも何れかで
あることを特徴とする請求項2記載の音声認識装置。 - 【請求項4】 前記表示態様決定手段は、前記表示態様
として、個々の認識結果候補を表示する際の前記GUI
の種類、配置、表示位置、大きさ、表示色、表示形状、
並びに表示する字のフォントのうちの少なくとも何れか
を決定することを特徴とする請求項1記載の音声認識装
置。 - 【請求項5】 前記表示制御手段は、更に、ユーザが前
記表示態様を決定する手順を設定可能な表示態様設定手
段を含むことを特徴とする請求項1乃至請求項4の何れ
か1項に記載の音声認識装置。 - 【請求項6】 更に、前記表示態様決定手段によって正
しい認識結果として選択された何れかの認識結果候補に
従って、その認識結果候補に対応する処理が自装置また
は外部装置において実行されるように制御する処理制御
手段を備えることを特徴とする請求項1乃至請求項5の
何れか1項に記載の音声認識装置。 - 【請求項7】 入力された所定ページ記述言語形式のデ
ータに基づいて、表示画面を表示するページ記述言語表
示装置であって、 前記所定ページ記述言語形式のデータに、音声認識を指
示する所定識別子が含まれる場合に、入力された音声を
認識することにより、単数または複数の認識結果候補を
取得する音声認識手段と、 前記認識結果候補の中から正しい認識結果として、ユー
ザ所望の候補を選択させるべく、前記認識結果候補毎に
表示態様が決定されたグラフィックユーザインタフェー
ス(GUI)を表示するためのページ記述言語のデータ
を生成するページ記述データ生成手段と、を備えること
を特徴とするページ記述言語表示装置。 - 【請求項8】 入力された音声を認識することにより、
単数または複数の認識結果候補を取得する音声認識工程
と、その認識結果候補の中から正しい認識結果として、
ユーザ所望の候補を選択させるべく、グラフィックユー
ザインタフェース(GUI)を表示する表示工程とを有
する音声認識方法であって、 前記表示制御工程には、前記認識結果候補毎に、前記G
UIに表示する際の表示態様を決定する表示態様決定工
程が含まれることを特徴とする音声認識方法。 - 【請求項9】 前記表示態様決定工程では、前記認識結
果候補の属性に基づいて、前記表示態様が決定されるこ
とを特徴とする請求項8記載の音声認識方法。 - 【請求項10】 前記表示態様決定工程では、前記認識
結果候補の属性として、個々の認識結果候補としての語
彙の重要度、品詞、処理選択用のコマンドであるか否
か、情報検索用のキーワードであるか否か、使用される
頻度、音声認識時のスコア、並びに言語種類のうちの少
なくとも何れかが使用されることを特徴とする請求項9
記載の音声認識方法。 - 【請求項11】 前記表示態様決定工程では、前記表示
態様として、個々の認識結果候補を表示する際の前記G
UIの種類、配置、表示位置、大きさ、表示色、表示形
状、並びに表示する字のフォントのうちの少なくとも何
れかが決定されることを特徴とする請求項8記載の音声
認識方法。 - 【請求項12】 入力された所定ページ記述言語形式の
データに基づいて、表示画面を表示するページ記述言語
表示装置の制御方法であって、 前記所定ページ記述言語形式のデータに、音声認識を指
示する所定識別子が含まれる場合に、入力された音声を
認識することにより、単数または複数の認識結果候補を
取得する音声認識工程と、 前記認識結果候補の中から正しい認識結果として、ユー
ザ所望の候補を選択させるべく、前記認識結果候補毎に
表示態様が決定されたグラフィックユーザインタフェー
ス(GUI)を表示するためのページ記述言語のデータ
を生成するページ記述データ生成工程と、を有すること
を特徴とするページ記述言語表示装置の制御方法。 - 【請求項13】 請求項1乃至請求項6の何れか1項に
記載の音声認識装置として、音声入力機能を備えるコン
ピュータを動作させる指示をなすことを特徴とするコン
ピュータ・プログラム。 - 【請求項14】 請求項7記載のページ記述言語表示装
置として、音声入力機能を備えるコンピュータを動作さ
せる指示をなすことを特徴とするコンピュータ・プログ
ラム。 - 【請求項15】 請求項8乃至請求項11の何れか1項
に記載の音声認識方法を、音声入力機能を備えるコンピ
ュータによって実現可能な動作指示をなすことを特徴と
するコンピュータ・プログラム。 - 【請求項16】 請求項12記載のページ記述言語表示
装置の制御方法を、音声入力機能を備えるコンピュータ
によって実現可能な動作指示をなすことを特徴とするコ
ンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001370354A JP3927800B2 (ja) | 2001-12-04 | 2001-12-04 | 音声認識装置及び方法、プログラム、並びに記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001370354A JP3927800B2 (ja) | 2001-12-04 | 2001-12-04 | 音声認識装置及び方法、プログラム、並びに記憶媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003167600A true JP2003167600A (ja) | 2003-06-13 |
JP2003167600A5 JP2003167600A5 (ja) | 2005-07-14 |
JP3927800B2 JP3927800B2 (ja) | 2007-06-13 |
Family
ID=19179594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001370354A Expired - Fee Related JP3927800B2 (ja) | 2001-12-04 | 2001-12-04 | 音声認識装置及び方法、プログラム、並びに記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3927800B2 (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006028171A1 (ja) * | 2004-09-09 | 2006-03-16 | Pioneer Corporation | データ提示装置、データ提示方法、データ提示プログラムおよびそのプログラムを記録した記録媒体 |
WO2007043566A1 (ja) * | 2005-10-13 | 2007-04-19 | Nec Corporation | 音声認識システムと音声認識方法およびプログラム |
JP2007133008A (ja) * | 2005-11-08 | 2007-05-31 | Advanced Telecommunication Research Institute International | 音声認識装置、およびプログラム |
JP2008014818A (ja) * | 2006-07-06 | 2008-01-24 | Denso Corp | 作動制御装置、プログラム |
JP2009025411A (ja) * | 2007-07-17 | 2009-02-05 | Yamaha Corp | 音声認識装置およびプログラム |
JP4876198B1 (ja) * | 2010-11-12 | 2012-02-15 | パイオニア株式会社 | 情報出力装置、情報出力方法、情報出力プログラム及び情報システム |
WO2013014874A1 (ja) * | 2011-07-28 | 2013-01-31 | パナソニック株式会社 | Gui生成装置、集積回路、gui生成方法、gui生成プログラム |
JP2014098961A (ja) * | 2012-11-13 | 2014-05-29 | Horiuchi Denki Seisakusho:Kk | 多次元駆動制御装置、多次元駆動制御プログラム及び押し込み試験システム |
JP5705312B2 (ja) * | 2011-05-20 | 2015-04-22 | 三菱電機株式会社 | 情報機器 |
CN112068793A (zh) * | 2019-06-11 | 2020-12-11 | 北京搜狗科技发展有限公司 | 一种语音输入方法及装置 |
JP2022041741A (ja) * | 2020-09-01 | 2022-03-11 | シャープ株式会社 | 情報処理装置、印刷システム、制御方法及びプログラム |
-
2001
- 2001-12-04 JP JP2001370354A patent/JP3927800B2/ja not_active Expired - Fee Related
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006028171A1 (ja) * | 2004-09-09 | 2006-03-16 | Pioneer Corporation | データ提示装置、データ提示方法、データ提示プログラムおよびそのプログラムを記録した記録媒体 |
US8214209B2 (en) | 2005-10-13 | 2012-07-03 | Nec Corporation | Speech recognition system, method, and computer readable medium that display recognition result formatted in accordance with priority |
WO2007043566A1 (ja) * | 2005-10-13 | 2007-04-19 | Nec Corporation | 音声認識システムと音声認識方法およびプログラム |
JP2007108407A (ja) * | 2005-10-13 | 2007-04-26 | Nec Corp | 音声認識システムと音声認識方法およびプログラム |
JP2007133008A (ja) * | 2005-11-08 | 2007-05-31 | Advanced Telecommunication Research Institute International | 音声認識装置、およびプログラム |
JP2008014818A (ja) * | 2006-07-06 | 2008-01-24 | Denso Corp | 作動制御装置、プログラム |
JP2009025411A (ja) * | 2007-07-17 | 2009-02-05 | Yamaha Corp | 音声認識装置およびプログラム |
JP4876198B1 (ja) * | 2010-11-12 | 2012-02-15 | パイオニア株式会社 | 情報出力装置、情報出力方法、情報出力プログラム及び情報システム |
WO2012063360A1 (ja) * | 2010-11-12 | 2012-05-18 | パイオニア株式会社 | 情報出力装置、情報出力方法、情報出力プログラム及び情報システム |
JP5705312B2 (ja) * | 2011-05-20 | 2015-04-22 | 三菱電機株式会社 | 情報機器 |
WO2013014874A1 (ja) * | 2011-07-28 | 2013-01-31 | パナソニック株式会社 | Gui生成装置、集積回路、gui生成方法、gui生成プログラム |
JP2014098961A (ja) * | 2012-11-13 | 2014-05-29 | Horiuchi Denki Seisakusho:Kk | 多次元駆動制御装置、多次元駆動制御プログラム及び押し込み試験システム |
CN112068793A (zh) * | 2019-06-11 | 2020-12-11 | 北京搜狗科技发展有限公司 | 一种语音输入方法及装置 |
JP2022041741A (ja) * | 2020-09-01 | 2022-03-11 | シャープ株式会社 | 情報処理装置、印刷システム、制御方法及びプログラム |
JP7430126B2 (ja) | 2020-09-01 | 2024-02-09 | シャープ株式会社 | 情報処理装置、印刷システム、制御方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3927800B2 (ja) | 2007-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6510412B1 (en) | Method and apparatus for information processing, and medium for provision of information | |
KR100549482B1 (ko) | 정보 처리 장치, 정보처리 방법, 및 프로그램을 기억하는 컴퓨터 판독가능 기억 매체 | |
EP1544719A2 (en) | Information processing apparatus and input method | |
JP2006023860A (ja) | 情報閲覧装置、情報閲覧プログラム、情報閲覧プログラム記録媒体及び情報閲覧システム | |
JP2005521149A (ja) | 電子通信装置にテキストを入力する方法 | |
JP2013068952A (ja) | 音声認識結果の統合 | |
KR20160060110A (ko) | 온스크린 키보드에 대한 빠른 작업 | |
JPH1125098A (ja) | 情報処理装置、リンク先ファイルの取得方法および記憶媒体 | |
JP2006185426A (ja) | Htmlメール生成システム、通信装置、htmlメール生成方法、及び記録媒体 | |
KR100947401B1 (ko) | 전자 통신 장치로의 텍스트 입력 | |
JP2003167600A (ja) | 音声認識装置及び方法、ページ記述言語表示装置及びその制御方法、並びにコンピュータ・プログラム | |
WO2006059513A1 (ja) | 表示装置、表示装置の制御方法及び情報記憶媒体 | |
JP3542578B2 (ja) | 音声認識装置及びその方法、プログラム | |
JP2003186590A (ja) | 機器操作学習装置 | |
JP2003167600A5 (ja) | ||
JP2001306601A (ja) | 文書処理装置及びその方法、及びそのプログラムを格納した記憶媒体 | |
KR20130008663A (ko) | 사용자 인터페이스 방법 및 장치 | |
WO2003079188A1 (fr) | Procede de fonctionnement d'un objet logiciel au moyen d'une langue naturelle et programme correspondant | |
JPH07168691A (ja) | 表示図形領域選択方式 | |
JP6080058B2 (ja) | オーサリング装置、オーサリング方法、およびプログラム | |
JP2003202886A (ja) | テキスト入力処理装置及び方法並びにプログラム | |
JP2006185342A (ja) | 情報処理装置および文字列分類方法およびプログラムおよび記録媒体 | |
JP2001109740A (ja) | 中国語文書作成装置及び中国語文書作成方法 | |
JP2010002830A (ja) | 音声認識装置 | |
JP4404436B2 (ja) | 文字入力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041111 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060724 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070305 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100309 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110309 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120309 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130309 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140309 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |