Nothing Special   »   [go: up one dir, main page]

JP2003167600A - 音声認識装置及び方法、ページ記述言語表示装置及びその制御方法、並びにコンピュータ・プログラム - Google Patents

音声認識装置及び方法、ページ記述言語表示装置及びその制御方法、並びにコンピュータ・プログラム

Info

Publication number
JP2003167600A
JP2003167600A JP2001370354A JP2001370354A JP2003167600A JP 2003167600 A JP2003167600 A JP 2003167600A JP 2001370354 A JP2001370354 A JP 2001370354A JP 2001370354 A JP2001370354 A JP 2001370354A JP 2003167600 A JP2003167600 A JP 2003167600A
Authority
JP
Japan
Prior art keywords
recognition result
display
recognition
voice
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001370354A
Other languages
English (en)
Other versions
JP3927800B2 (ja
JP2003167600A5 (ja
Inventor
Hiroki Yamamoto
寛樹 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001370354A priority Critical patent/JP3927800B2/ja
Publication of JP2003167600A publication Critical patent/JP2003167600A/ja
Publication of JP2003167600A5 publication Critical patent/JP2003167600A5/ja
Application granted granted Critical
Publication of JP3927800B2 publication Critical patent/JP3927800B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識の結果候補をGUIを用いてユーザ
に提示する際の表示態様を改善することにより、良好な
操作性を実現する。 【解決手段】 入力された音声を認識することにより、
単数または複数の認識結果候補を取得すると共に、その
認識結果候補の中から正しい認識結果としてユーザ所望
の候補をGUIを用いて選択可能な音声認識装置におい
て、個々の認識結果候補には、語彙の重要度、品詞、処
理選択用のコマンドであるか否か、情報検索用のキーワ
ードであるか否か、使用される頻度、音声認識時のスコ
ア、並びに言語種類のうちの少なくとも何れかの属性情
報が含まれ、その属性に従って、認識結果候補毎にGU
Iに表示する際の表示態様(配置、表示位置、大きさ、
表示色、表示形状、並びに表示する字のフォント等)が
決定される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識の結果
を、グラフィックユーザインタフェース(GUI)を用
いて表示する分野に関する。
【0002】
【従来の技術】従来より、入力された音声を、複数の語
が記憶されている認識辞書を利用して認識する音声認識
技術が提案されており、このような音声認識技術を利用
して、情報処理装置等に対して、ユーザ所望のコマンド
を入力する技術も提案されている。
【0003】これらの技術に基づく音声認識装置や音声
認識システムにおいて、入力された音声の認識処理が終
了するのに応じて、その認識結果に基づいた他の処理が
行われる構成の場合には、その認識処理において誤認識
された結果が含まれると、係る他の処理の結果にも影響
を与えることになる。
【0004】このため、音声認識処理の後で行われる処
理に重要なコマンドや、誤認識が頻繁に起ることが想定
される場合には、音声認識処理が終了した時点で、その
認識結果が正しいか否かを確認する処理が必要になる。
【0005】このような認識結果の確認処理の一例とし
ては、ある認識結果に対して、例えば、「 ○○でよろ
しいですか? 」というユーザに確認を促すためのメッ
セージをディスプレイに表示すると共に、「 はい 」及
び「 いいえ 」のソフトウエア・ボタン(以下、単に
「ボタン」と称する)を表示することにより、ユーザに
確認のためのボタン操作を促す方法が一般的である。或
いは、合成音で同様のメッセージをユーザに対して通知
し、比較的認識精度の良いことが一般に知られている
「 はい 」及び「 いいえ 」の2種類の単語の音声認識
を利用して、認識結果のユーザによる確認を行なう方法
等がある。
【0006】このような手順で音声認識の結果確認を行
なう方法によれば、誤認識による誤った処理の実行を防
ぐことは可能である。しかしながら、音声認識処理にお
けるスコア1位の認識結果のみを使用することに起因す
る低い認識精度の影響によって誤認識が繰り返される場
合には、音声認識処理の後で行われる処理においてユー
ザ所望のコマンドの実行に至るまでに、(1)システム
からの認識結果の確認のためユーザへの通知、(2)ユ
ーザが認識結果に満足できない場合に行なわなければな
らない「 いいえ 」ボタンの選択操作、並びに再認識の
ための同一音声を再入力、等の手順の繰り返し作業をユ
ーザに対して強いることになる。
【0007】また、従来の音声認識処理においては、ス
コア1位の結果がユーザにとって誤認識である場合であ
っても、2位以下の認識結果に正解(ユーザにとって正
しい認識結果)が含まれる場合もあるため、この場合、
複数の認識結果を、選択候補としてユーザに対して同時
に提示すれば、ユーザ所望の何れかの候補を選択可能で
あるため、上述した煩わしい手順を減らすことができ
る。
【0008】更に、これらの認識結果候補をボタンとし
て表示し、ボタンが押された際に対応するコマンドを実
行するようにすれば、システムからの確認の通知やユー
ザの「 はい 」「 いいえ 」等の応答の手順を省くこと
ができ、所望のコマンドの実行に至るまでの音声入力を
含むユーザの操作回数を減らすことができる。
【0009】上述した如く音声認識の結果確認を、グラ
フィックユーザインタフェース(GUI)としてディス
プレイ上のボタンで表示する方法は、例えば、特開平1
0-21254号公報で提案されている。同公報には、
音声認識機能を有する情報検索装置が提案されており、
その発明の詳細な説明によれば、検索するキーワードを
音声で入力し、認識されたキーワードによる検索結果を
表示するに際して、音声認識の結果得られる1位の認識
結果に対する検索結果が表示されると共に、その1位以
下の複数の認識結果候補が候補順に選択ボタンで選択可
能に表示される。そして、ユーザは、1位の認識候補が
誤りの場合にはマウスを用いて正しい認識結果のボタン
を選択する操作を行なうことにより、情報検索用のキー
ワードとして、正しい音声認識結果を選択することがで
きる。
【0010】
【発明が解決しようとする課題】しかしながら、上述し
た複数の認識結果候補が表示される従来の技術において
は、グラフィックユーザインタフェースにおいてユーザ
がボタンやスイッチを操作する際に、表示画面上に多く
のボタンが並んでいたり、ボタンそのものが小さい場合
には操作を誤る可能性が高く、特に重要な処理を行なう
べく音声認識結果を選択するためのボタンを操作する場
合等は注意が必要である。
【0011】これに対して、物理的に実在する一般の機
器(例えば家電製品等の操作パネルや生産設備の制御パ
ネル等)に付属するボタンやスイッチ等は、例えば重要
な処理を行なうためのボタンは大きくしたり、使用頻度
の高いボタンを押しやすい位置に配置する等、使用頻度
や機能等のボタンの属性によって配置や大きさ、形状、
色等を工夫することで、誤操作を防ぐと同時に操作性の
向上を図っている。従って、グラフィックユーザインタ
フェースを用いて音声認識結果を表示する構成の場合に
も、同様の工夫を取り入れて、例えば、ある特定のコマ
ンドの認識結果に関しては、表示方法を他の認識結果と
変えたり、認識結果のスコアに応じて、表示するGUI
のサイズを変えたりすることで誤操作を防いだり、ユー
ザの操作性を向上することができると考えられるが、従
来は、そのような提案はなされていない。
【0012】本発明は、上述した課題に鑑みてなされた
ものであって、音声認識の結果候補をGUIを用いてユ
ーザに提示する際の表示態様を改善することにより、良
好な操作性を実現する音声認識装置及び方法、ページ記
述言語表示装置及びその制御方法、並びにコンピュータ
・プログラムの提供を目的とする。
【0013】
【課題を解決するための手段】上記の目的を達成するた
め、本発明に係る音声認識装置は、以下の構成を特徴と
する。
【0014】即ち、入力された音声を認識することによ
り、単数または複数の認識結果候補を取得する音声認識
手段と、その認識結果候補の中から正しい認識結果とし
て、ユーザ所望の候補を、グラフィックユーザインタフ
ェース(GUI)を用いて選択可能な表示制御手段とを
備える音声認識装置であって、前記表示制御手段は、前
記認識結果候補毎に、前記GUIに表示する際の表示態
様を決定する表示態様決定手段を含むことを特徴とす
る。
【0015】好適な実施形態において、前記表示態様決
定手段は、前記認識結果候補の属性に基づいて、前記表
示態様を決定すると良い。この場合、前記認識結果候補
に共通して採用される属性は、例えば、個々の認識結果
候補としての語彙の重要度、品詞、処理選択用のコマン
ドであるか否か、情報検索用のキーワードであるか否
か、使用される頻度、音声認識時のスコア、並びに言語
種類のうちの少なくとも何れかであると良い。
【0016】また、例えば前記表示態様決定手段は、前
記表示態様として、個々の認識結果候補を表示する際の
前記GUIの種類、配置、表示位置、大きさ、表示色、
表示形状、並びに表示する字のフォントのうちの少なく
とも何れかを決定すると良い。
【0017】また、上記の何れの装置構成においても、
前記表示制御手段は、ユーザが前記表示態様を決定する
手順を設定可能な表示態様設定手段を更に含むと良い。
【0018】また、好ましくは、前記表示態様決定手段
によって正しい認識結果として選択された何れかの認識
結果候補に従って、その認識結果候補に対応する処理が
自装置または外部装置において実行されるように制御す
る処理制御手段を更に備えると良い。
【0019】上記の同目的を達成するため、本発明に係
るページ記述言語表示装置は、以下の構成を特徴とす
る。
【0020】即ち、入力された所定ページ記述言語形式
のデータに基づいて、表示画面を表示するところの、W
WW( World Wide Web )ブラウザ等のページ記述言語
表示装置であって、前記所定ページ記述言語形式のデー
タに、音声認識を指示する所定識別子(後述する実施形
態ではタグ)が含まれる場合に、入力された音声を認識
することにより、単数または複数の認識結果候補を取得
する音声認識手段と、前記認識結果候補の中から正しい
認識結果として、ユーザ所望の候補を選択させるべく、
前記認識結果候補毎に表示態様が決定されたグラフィッ
クユーザインタフェース(GUI)を表示するためのペ
ージ記述言語のデータを生成するページ記述データ生成
手段とを備えることを特徴とする。
【0021】尚、同目的は、上記の各構成を備える音声
認識装置に対応する音声認識方法によっても達成され
る。
【0022】また、同目的は、上記の各構成の音声認識
装置及び方法を、音声入力機能を有するコンピュータに
よって実現するプログラムコード、及びそのプログラム
コードが格納されている、コンピュータ読み取り可能な
記憶媒体によっても達成される。
【0023】更に、同目的は、上記のページ記述言語表
示装置及び対応する制御方法を、音声入力機能を有する
コンピュータによって実現するプログラムコード、及び
そのプログラムコードが格納されている、コンピュータ
読み取り可能な記憶媒体によっても達成される。
【0024】
【発明の実施の形態】以下、本発明に係る音声認識装置
の実施形態を、図面を参照して詳細に説明する。
【0025】[第1の実施形態]図1は、第1の実施形
態に係る音声認識装置の概略構成を示すブロック図であ
る。
【0026】同図に示す音声認識装置において、100
は、マイクロフォン等の音声を入力する音声入力装置で
ある。200は、本装置を動作させるプログラムおよび
本装置の動作に必要なデータや動作の過程で生成される
データを一時的に格納するROM、RAM、ハードディスク等
の記憶装置である。
【0027】また、300は、主に認識結果候補等を表
示するために用いるディスプレイ等の表示装置である。
400は、ユーザが操作を入力する際に用いるマウス、
キーボード等の操作入力装置である。
【0028】501は、入力された音声を認識する音声
認識部である。502は、認識結果の表示態様(表示書
式)の決定および表示を制御する表示制御部である。5
03は、ユーザの操作に応じて認識結果を選択する認識
結果選択部である。
【0029】504は、認識結果選択部503にて選択
された認識結果に基づいて、その認識結果に対応する処
理を実行あるいは処理を実行するように他のプログラム
を制御する処理制御部である。505は、表示態様を設
定する表示態様設定部である。
【0030】記憶装置200には、音声認識を行なう際
に参照するHMM等の音響モデル201、認識対象とな
る語の発音情報等を記述した認識辞書202、表示制御
部502で表示態様を決定する方法を記述した表示ルー
ル203、並びに認識結果に対応する処理方法を記述し
た処理ルール204が記憶されている。
【0031】ここで、本実施形態に係る音声認識装置の
ハードウエアには、音声入力可能なパーソナル・コンピ
ュータ、携帯情報端末(PDA)等の情報処理装置を採
用することができる。
【0032】次に、上述した構成を備える音声認識装置
の動作について、図2を参照して説明する。
【0033】図2は、第1の実施形態における音声認識
装置の制御処理を示すフローチャートであり、当該音声
認識装置の不図示のCPUが行なうところの、図1に示
す各処理部に対応するソフトウエア・プログラムに記述
された処理手順を示す。
【0034】同図において、ステップS101において
ユーザがマイクロフォン等の音声入力装置100を用い
て入力した音声は、記憶装置200内に記憶されている
音響モデル201及び認識辞書202を用いて音声認識
部501の機能によって認識されることにより、単数ま
たは複数の認識結果が得られる(ステップS102)。
【0035】ステップS103では、ステップS102
において取得した認識結果を、表示制御部502の機能
により、表示装置300への表示態様を決定し、その表
示形式に従って、認識結果の選択候補(認識結果候補)
として、表示装置300上に表示する。このとき、表示
態様を決定する方法は、表示制御部502の機能を記述
したプログラム中に記述しても良いし、例えば図5に示
すような表示ルール203を、記憶装置200に予め記
憶しておいても良い。
【0036】図5は、表示ルール203の一例を説明す
る図であり、このルールには、音声認識のスコアを基準
に、表示するGUIの種類および表示サイズがルール1
として規定され、表示に際しての配置がルール2として
規定されている。このような表示ルール203の設定
は、表示設定部505の機能によってユーザが設定する
ことも可能である。
【0037】例えば、ステップS102において、図3
に例示するような認識語彙と発音が記述された認識辞書
202を用いて音声認識処理が行なわれ、スコアの大き
い方から上位4つの候補を取得した結果が図4に例示す
る如くであったとする。
【0038】上記の場合、ステップS103では、図5
に例示した表示ルール203が参照されることにより、
図6に例示するGUIの如く複数の認識結果選択用の候
補を例示する図が表示される。即ち、図6の例では、ル
ール1及び2に従って、スコアが最も大きい「 印刷 」
が大きいサイズのボタンとして表示され、以下3つの候
補(認識結果候補)が、順次スコアの値に応じた表示態
様のボタンとして表示されている。
【0039】ステップS104では、図6に例示する如
く表示された複数のボタンの中から、マウス等の操作入
力装置400を用いて、ユーザによって何れか所望のボ
タンが選択され、選択されたボタンに対応する語彙(認
識結果候補)が、正しい認識結果として設定される。
【0040】そしてステップS105では、選択操作に
応じて正しい認識結果として設定語彙に従って、記憶装
置200に記憶されている処理ルール204が参照され
ることにより、該当する処理が実行される。処理ルール
204は、例えば、図7に例示する如く、設定された認
識結果が「 印刷 」であれば印刷処理が行われる等、認
識辞書202に記述されている語毎に規定される。
【0041】このような本実施形態によれば、音声認識
の結果候補をGUIを用いてユーザに提示する際の表示
態様が改善されるので、良好な操作性を実現することが
できる。
【0042】尚、上述した本実施形態では、図4に示す
認識結果の属性として、個々の語彙の認識結果のスコア
を利用したが、これに限られるものではなく、個々の語
の重要度、品詞の種類、所定の処理を指示するためのコ
マンドか否か、情報検索用のキーワードか否か、入力さ
れた音声にて使用される頻度、英語・日本語等の言語の
種類等の各種の属性を採用することができ、それら属性
のうち少なくとも何れか1種類が各認識結果に共通に採
用されれば良い(以下の各実施形態においても同様であ
る)。
【0043】[第2の実施形態]次に、上述した第1の
実施形態に係る音声認識装置を基本とする第2の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
【0044】第1の実施形態では、主に認識スコアによ
って表示態様を変更する場合について説明したが、本実
施形態では、例えば図8に示す如く、「 東京 」、「
大阪」等の地名は、小さいサイズのノーマルフォントを
利用してテキストとして表示し、「 終了 」、「 印刷
」等の処理の選択するためのコマンドに対応する語
は、ボタンとして表示すると共に、表示に際してのフォ
ントやボタンの大きさもコマンドの重要さの度合いに応
じて適宜設定される等のように、各語毎に表示態様が設
定されるような表示ルールを用いて表示態様を制御す
る。
【0045】このような本実施形態によっても、音声認
識の結果候補をGUIを用いてユーザに提示する際の表
示態様が改善されるので、良好な操作性を実現すること
ができる。
【0046】[第3の実施形態]次に、上述した第1の
実施形態に係る音声認識装置を基本とする第3の実施形
態を説明する。以下の説明においては、第1の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。
【0047】一般に、例えばテキストを編集するアプリ
ケーション等では、音声認識をテキストの入力やアプリ
ケーションを操作するためのコマンドの入力等のよう
に、異なる目的で使用する場合がある。このような場合
には、認識結果候補の表示方法として、コマンドはボタ
ンで表示し、テキストはテキストとして表示する方がユ
ーザにとって操作し易い。
【0048】また、メニューの表示等のように、ユーザ
によって選択されたあるコマンドが誤って実行されても
操作上特に問題ない場合がある一方で、アプリケーショ
ンの終了等にように、ユーザの本来の希望とは異なるコ
マンドが実行されると復帰するのが困難なコマンドもあ
る。
【0049】そこで本実施形態では、実行されるコマン
ドによって、表示態様を変更することにより、操作性の
向上を図る。例えば、アプリケーションを終了するコマ
ンドは、表示する際に他の認識結果候補よりもサイズを
大きくする等して視認性を良くすることで、誤操作を避
けることができる。
【0050】このような表示態様を実現すべく、本実施
形態では、図10に例示するような表示ルールに基づく
制御制御を行なう。
【0051】図10に例示した表示ルールにおいて、ル
ール1では、認識結果候補に対して対応する処理がある
場合はボタンで表示し、それ以外の場合はテキストで表
示するよう記述されている。また、ルール2では、重要
度という認識結果候補の属性を用いて、表示する際のサ
イズやフォントが規定されている。そして、ルール3で
は、複数の認識結果候補を表示する際の配置が規定され
ている。
【0052】ここで、重要度は、例えば、図11のよう
に各語毎に事前に付与しておき、表示ルールに含めても
良いし、認識辞書自体に重要度を記述して記憶装置20
0に予め記憶しておいても良い。
【0053】即ち、図11の例では、「 終了 」や「
印刷 」、「 削除 」といった誤操作を避けたいコマン
ドに対応する語には重要度が大きく設定され、図10に
例示した表示ルールで重要度の大きい語についてはサイ
ズを大きく、且つフォントを太くして視認性を良くする
よう記述されている。
【0054】図12は、第3の実施形態において、図1
0に示す表示ルールに基づいて、図9に示すスコアに基
づく認識結果候補が得られた場合に表示される認識結果
選択用のGUIを例示する図であり、対応する処理のあ
る認識結果候補についてはボタンが表示され、それ以外
の認識結果候補はテキストとして表示されると共に、
「 終了 」や「 削除 」といった重要度の大きい語の表
示サイズが大きくされている。
【0055】このような本実施形態によっても、音声認
識の結果候補をGUIを用いてユーザに提示する際の表
示態様が改善されるので、良好な操作性を実現すること
ができる。
【0056】[第4の実施形態]次に、上述した第1乃
至第3の実施形態に係る音声認識装置を基本とする第4
の実施形態を説明する。以下の説明においては、上述し
た各実施形態と同様な構成については重複する説明を省
略し、本実施形態における特徴的な部分を中心に説明す
る。
【0057】本実施形態では、上述した第1乃至第3の
実施形態で説明した音声認識装置を、WWW( World W
ide Web )ブラウザ等のページ記述言語を表示するペー
ジ記述言語表示装置において実現した例について、図1
3及び図14を参照して説明する。
【0058】図13は、第4の実施形態に係るページ記
述言語表示装置の概略構成を示すブロック図であり、基
本的な装置構成は、図1に示す音声認識装置と同様であ
る。本実施形態においても、ハードウエアには、音声入
力可能なパーソナル・コンピュータ、携帯情報端末(P
DA)等の情報処理装置を採用することができる。
【0059】即ち、図13において、100は、マイク
ロフォン等の音声を入力する音声入力装置である。20
0は、本装置を動作するプログラムおよび本装置の動作
に必要なデータや動作の過程で生成されるデータを一時
的に格納するROM、RAM、ハードディスク等の記憶装置で
ある。
【0060】300は、主に認識結果候補等を表示する
ために用いるディスプレイ等の表示装置である。400
は、ユーザが操作を入力する際に用いるマウス、キーボ
ード等の操作入力装置である。
【0061】507は、所定のページ記述言語形式のデ
ータ入力を制御し、入力されたページ記述言語を解析
し、その解析結果に基づいて、表示装置300上にペー
ジを表示するページ記述制御部である。501は、入力
された音声を認識する音声認識部である。506は、音
声認識部501による音声認識結果を表示するためのペ
ージ記述言語のデータを生成するページ記述データ生成
部である。
【0062】503は、表示装置300上に表示された
認識結果候補の中からユーザの操作に応じて、所望の何
れかを選択する認識結果選択部である。504は、認識
結果選択部503において選択された認識結果候補に基
づいて、その認識結果候補に対応する処理を実行あるい
は処理を実行するように他のプログラムを制御する処理
制御部である。
【0063】記憶装置200には、音声認識を行なう際
に参照するHMM等の音響モデル201、認識対象とな
る語の発音情報等を記述した認識辞書202、表示制御
部502で表示態様を決定する方法を記述した表示ルー
ル203、並びに認識結果に対応する処理方法を記述し
た処理ルール204が記憶されている。ここで、記憶装
置200に記憶されている上記201乃至204の音響
モデルをはじめとする各種データは、本装置とは構成を
別にするWWWサーバ等の記憶装置から、インターネッ
ト等の通信ネットワークを介して読み出し可能な構成と
しても良い。
【0064】次に、上述した構成を備えるページ記述言
語表示装置の動作について、第1の実施形態と同じ表示
ルール、処理ルール、並びに認識結果の例を用いて、図
14を参照して説明する。
【0065】図14は、第4の実施形態におけるページ
記述言語表示装置の制御処理を示すフローチャートであ
り、当該ページ記述言語表示装置の不図示のCPUが行
なうところの、図13に示す各処理部に対応するソフト
ウエア・プログラムに記述された処理手順を示す。
【0066】同図において、ステップS201では、本
装置にインターネットのサーバ上あるいは本装置内の記
憶装置200上に記憶されたページ記述言語のデータが
入力される。入力されたページ記述言語のデータは、ペ
ージ記述言語制御部506の機能によって解析され(ス
テップS202)、ステップS203では、その解析結
果に基づいて、当該ページ記述言語のデータの記述内容
に応じたページが表示装置300上に表示される。
【0067】次に、ステップS202におけるページ記
述言語の解析の過程で、そのページ記述言語のデータの
中に、音声認識を行なうタグが記述されていたかを判断
し(ステップS204)、記述されていなかった場合に
は処理を終了し、記述されていた場合には、ステップS
205において、ユーザがマイクロフォン等の音声入力
装置100を用いて入力した音声を受け付ける。
【0068】尚、本実施形態において、ページ記述言語
のデータに含まれる音声認識を行なうタグ以外のタグに
ついては、WWWブラウザ等の一般的なページ記述言語
の表示装置と同様な機能を有するものとする。
【0069】ステップS206において、ステップS2
05において入力された音声は、記憶装置200内に記
憶されている音響モデル201及び認識辞書202を用
いて、音声認識部501の機能によって認識されること
により、単数または複数の認識結果候補が得られる。
【0070】ステップS207では、ページ記述データ
生成部506の機能により、音声認識部501にて取得
した認識結果候補(図4)に基づいて、第1の実施形態
と同様に表示装置300への表示態様が決定されると共
に、更に、決定された表示態様の内容に対応するページ
記述言語のデータが生成される。ページ記述データ生成
部506の機能によって生成されたデータは、ページ記
述制御部507に設定される。
【0071】ステップS208では、ページ記述制御部
507の機能により、ステップS207にて生成された
ページ記述言語のデータが解析され、ステップS209
では、その解析結果に基づいて、表示装置300上にペ
ージが表示される。このとき、表示装置300上に表示
するページの表示態様を決定する方法は、第1の実施形
態と同様にプログラム中に記述しても良いし、図5に示
したような表示ルール203を記憶装置200に記憶し
ておき、その表示ルールを参照しても良い。表示用ルー
ル203の設定は、表示設定部505の機能を利用して
ユーザが設定する構成としても良い。
【0072】図15は、第4の実施形態において音声認
識を実行するためのタグを例示する図である。
【0073】同図において、斜体で示した部分が本実施
形態に係る音声認識タグの一例であり、「 <SpeechRco
g ..... > 」が音声認識による入力を実行するための
記述であり、本実施形態において、「 <SpeechRcog
..... > 」は、「 音声認識して、認識した結果を表
示する 」と解釈するものとする。
【0074】また、本実施形態に係るページ記述言語表
示装置では、音声認識で使用する認識辞書201及び音
響モデル202を、「 grammar 」、「 acousticmodel
」なる記述によって指定することが可能である。更
に、第1の実施形態で述べた表示ルール203及び処理
ルール204を、「 resulttemplate 」、「 actiontab
le」なる記述によって指定できるものとする。
【0075】即ち、図15に示す例では、音声認識部5
01の機能により、「 <SpeechRcog ..... > 」とい
うタグに従って、認識辞書「 command.gra 」及び音響
モデル「 phone.mdl 」を用いて音声認識を行なうと共
に、ページ記述データ生成部506の機能により、表示
ルール「 type1.dat 」及び処理ルール「 command.tb
l」を参照して、認識結果候補を表示するためのページ
記述言語のデータを生成することが表わされている。
【0076】図16は、第4の実施形態において、図5
に示した表示ルール203に基づいて、ページ記述デー
タ生成部506の機能によって生成されたページ記述言
語データを例示する図である。
【0077】同図において、斜体で示した部分は、一般
のページ記述言語の仕様を拡張した部分であり、本実施
形態におけるページ記述言語表示装置では、「 input t
ype= mybotton 」なる記述と、「 size 」なる記述とに
よって、ボタンの表示と、表示する際のボタンのサイズ
を指定することが可能である。また、「 <p>……</p
> 」で囲まれた範囲が、一行のボタンとして表示され
るように解釈される。本実施形態では、係る拡張仕様が
解釈されることにより、図16に従って表示装置300
に認識結果候補が表示されると、第1の実施形態の場合
と同様に、図6に示す表示例が表示される。
【0078】ここで、再び図14のフローチャートの説
明に戻る。ステップS210では、表示装置300に表
示された認識結果候補に対して、認識結果選択部503
の機能により、マウス等の操作入力装置400を利用し
て、ユーザが所望の認識結果候補を選択する。
【0079】ステップS211では、処理制御部504
の機能により、選択された認識結果候補に対応する処理
が実行される。ここで、認識結果候補と処理との対応関
係は、プログラム中に記述しても良いし、図7に例示す
るような対応関係が記述された処理ルール204を、記
憶装置200上に予め記憶しておき、処理制御部504
によって処理が実行される際に参照するようにしても良
い。
【0080】図16に示したページ記述言語のデータの
例では、表示装置300に表示されたボタンがユーザに
よって押下されたときに、「 name 」で指定された環境
変数「 com 」に、「 value 」で指定された値(同図で
は検索、印刷設定、編集に相当)が代入され、「 Execu
teCommand 」というプログラムの実行が開始される。こ
の「 ExecuteCommand 」なる記述は、処理制御部504
に該当し、係る「 ExecuteCommand 」及びプログラム
は、「 name 」で指定された環境変数から「 com」に代
入された値を取り出し、取り出した値に該当する処理
を、処理ルール204を参照することによって特定した
上で実行する。
【0081】このような本実施形態によっても、音声認
識の結果候補をGUIを用いてユーザに提示する際の表
示態様が改善されるので、良好な操作性を実現すること
ができる。
【0082】以上説明したように、上述した各実施形態
によれば、単数または複数の音声認識結果の候補を、表
示装置300にソフトウエアボタンやテキストを含むG
UIを用いて表示する場合に、個々の音声認識結果候補
の認識スコアや重要度等の属性に基づいて、認識結果候
補毎に表示する書式が決定されるので、音声認識を用い
たユーザインタフェースやコマンド入力の操作性を向上
することができる。
【0083】尚、上述した各実施形態において、図6及
び図12に例示したGUIでは、そのGUIに表示され
た複数の候補の中からユーザ所望のものを、大きさやフ
ォントが異なるソフトウエアボタンを用いて選択可能に
構成したが、この装置構成に限られるものではなく、例
えば、大きさやフォントが異なる各選択候補の表示エリ
ア内または近傍に設けた所謂ラジオボタンやチェックボ
ックス等によって選択可能に構成しても良い。
【0084】また、上述した各実施形態において、図6
及び図12に例示したGUIでは、そのGUIに表示さ
れた複数の候補の中からユーザ所望のものを選択するに
際して、大きさやフォントが異なるソフトウエアボタン
を用いて選択可能に構成することによってユーザに対す
る操作性を向上したが、この装置構成に限られるもので
はなく、例えば、ボタンの表示色、表示するボタンの形
状等を適宜変更することによっても、操作性を向上する
ことができる。
【0085】
【他の実施形態】尚、本発明の目的は、前述した実施形
態の機能を実現するソフトウェアのプログラムコードを
記録した記憶媒体(または記録媒体)を、上述した音声
認識装置として動作するパーソナル・コンピュータや携
帯情報端末等の情報処理装置に供給し、それらシステム
あるいは装置のコンピュータ(またはCPUやMPU)が記憶
媒体に格納されたプログラムコードを読み出し実行する
ことによっても達成される。この場合、記憶媒体から読
み出されたプログラムコード自体が前述した実施形態の
機能を実現することになり、そのプログラムコードを記
憶した記憶媒体、並びに電気通信回線等を介してコンピ
ュータ・プログラム製品として取得した当該プログラム
コードは、本発明を構成することになる。
【0086】また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているオペレーテ
ィングシステム(OS)等が実際の処理の一部または全部を
行い、その処理によって前述した実施形態の機能が実現
される場合も含まれる。
【0087】更に、記憶媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張カード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張カードや機能拡張ユニットに備わ
るCPU等が実際の処理の一部または全部を行い、その処
理によって前述した実施形態の機能が実現される場合も
含まれる。
【0088】
【発明の効果】以上説明した本発明によれば、音声認識
の結果候補をGUIを用いてユーザに提示する際の表示
態様を改善することにより、良好な操作性を実現する音
声認識装置及び方法、ページ記述言語表示装置及びその
制御方法、並びにコンピュータ・プログラムの提供が実
現する。
【図面の簡単な説明】
【図1】第1の実施形態に係る音声認識装置の概略構成
を示すブロック図である。
【図2】第1の実施形態における音声認識装置の制御処
理を示すフローチャートである。
【図3】第1の実施形態における認識辞書202の構成
例を説明する図である。
【図4】第1の実施形態におけるスコアに基づく認識結
果候補の一例を説明する図である。
【図5】第1の実施形態における表示ルール203の一
例を説明する図である。
【図6】第1の実施形態において表示装置300に表示
される認識結果選択用のGUIの表示態様を例示する図
である。
【図7】第1の実施形態における処理ルール204の構
成例を説明する図である。
【図8】第2の実施形態における表示ルール203の一
例を説明する図である。
【図9】第2の実施形態におけるスコアに基づく認識結
果候補の一例を説明する図である。
【図10】第3の実施形態における表示ルール203の
一例を説明する図である。
【図11】第3の実施形態における語毎の重要度の設定
例を説明する図である。
【図12】第3の実施形態において表示装置300に表
示される認識結果選択用のGUIの表示態様を例示する
図である。
【図13】第4の実施形態に係るページ記述言語表示装
置の概略構成を示すブロック図である。
【図14】第4の実施形態におけるページ記述言語表示
装置の制御処理を示すフローチャートである。
【図15】第4の実施形態において音声認識を実行する
ためのタグを例示する図である。
【図16】第4の実施形態において、図5に示した表示
ルール203に基づいて、ページ記述データ生成部50
6の機能によって生成されたページ記述言語データを例
示する図である。

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声を認識することにより、
    単数または複数の認識結果候補を取得する音声認識手段
    と、その認識結果候補の中から正しい認識結果として、
    ユーザ所望の候補を、グラフィックユーザインタフェー
    ス(GUI)を用いて選択可能な表示制御手段とを備え
    る音声認識装置であって、 前記表示制御手段は、前記認識結果候補毎に、前記GU
    Iに表示する際の表示態様を決定する表示態様決定手段
    を含むことを特徴とする音声認識装置。
  2. 【請求項2】 前記表示態様決定手段は、前記認識結果
    候補の属性に基づいて、前記表示態様を決定することを
    特徴とする請求項1記載の音声認識装置。
  3. 【請求項3】 前記認識結果候補に共通して採用される
    属性は、個々の認識結果候補としての語彙の重要度、品
    詞、処理選択用のコマンドであるか否か、情報検索用の
    キーワードであるか否か、使用される頻度、音声認識時
    のスコア、並びに言語種類のうちの少なくとも何れかで
    あることを特徴とする請求項2記載の音声認識装置。
  4. 【請求項4】 前記表示態様決定手段は、前記表示態様
    として、個々の認識結果候補を表示する際の前記GUI
    の種類、配置、表示位置、大きさ、表示色、表示形状、
    並びに表示する字のフォントのうちの少なくとも何れか
    を決定することを特徴とする請求項1記載の音声認識装
    置。
  5. 【請求項5】 前記表示制御手段は、更に、ユーザが前
    記表示態様を決定する手順を設定可能な表示態様設定手
    段を含むことを特徴とする請求項1乃至請求項4の何れ
    か1項に記載の音声認識装置。
  6. 【請求項6】 更に、前記表示態様決定手段によって正
    しい認識結果として選択された何れかの認識結果候補に
    従って、その認識結果候補に対応する処理が自装置また
    は外部装置において実行されるように制御する処理制御
    手段を備えることを特徴とする請求項1乃至請求項5の
    何れか1項に記載の音声認識装置。
  7. 【請求項7】 入力された所定ページ記述言語形式のデ
    ータに基づいて、表示画面を表示するページ記述言語表
    示装置であって、 前記所定ページ記述言語形式のデータに、音声認識を指
    示する所定識別子が含まれる場合に、入力された音声を
    認識することにより、単数または複数の認識結果候補を
    取得する音声認識手段と、 前記認識結果候補の中から正しい認識結果として、ユー
    ザ所望の候補を選択させるべく、前記認識結果候補毎に
    表示態様が決定されたグラフィックユーザインタフェー
    ス(GUI)を表示するためのページ記述言語のデータ
    を生成するページ記述データ生成手段と、を備えること
    を特徴とするページ記述言語表示装置。
  8. 【請求項8】 入力された音声を認識することにより、
    単数または複数の認識結果候補を取得する音声認識工程
    と、その認識結果候補の中から正しい認識結果として、
    ユーザ所望の候補を選択させるべく、グラフィックユー
    ザインタフェース(GUI)を表示する表示工程とを有
    する音声認識方法であって、 前記表示制御工程には、前記認識結果候補毎に、前記G
    UIに表示する際の表示態様を決定する表示態様決定工
    程が含まれることを特徴とする音声認識方法。
  9. 【請求項9】 前記表示態様決定工程では、前記認識結
    果候補の属性に基づいて、前記表示態様が決定されるこ
    とを特徴とする請求項8記載の音声認識方法。
  10. 【請求項10】 前記表示態様決定工程では、前記認識
    結果候補の属性として、個々の認識結果候補としての語
    彙の重要度、品詞、処理選択用のコマンドであるか否
    か、情報検索用のキーワードであるか否か、使用される
    頻度、音声認識時のスコア、並びに言語種類のうちの少
    なくとも何れかが使用されることを特徴とする請求項9
    記載の音声認識方法。
  11. 【請求項11】 前記表示態様決定工程では、前記表示
    態様として、個々の認識結果候補を表示する際の前記G
    UIの種類、配置、表示位置、大きさ、表示色、表示形
    状、並びに表示する字のフォントのうちの少なくとも何
    れかが決定されることを特徴とする請求項8記載の音声
    認識方法。
  12. 【請求項12】 入力された所定ページ記述言語形式の
    データに基づいて、表示画面を表示するページ記述言語
    表示装置の制御方法であって、 前記所定ページ記述言語形式のデータに、音声認識を指
    示する所定識別子が含まれる場合に、入力された音声を
    認識することにより、単数または複数の認識結果候補を
    取得する音声認識工程と、 前記認識結果候補の中から正しい認識結果として、ユー
    ザ所望の候補を選択させるべく、前記認識結果候補毎に
    表示態様が決定されたグラフィックユーザインタフェー
    ス(GUI)を表示するためのページ記述言語のデータ
    を生成するページ記述データ生成工程と、を有すること
    を特徴とするページ記述言語表示装置の制御方法。
  13. 【請求項13】 請求項1乃至請求項6の何れか1項に
    記載の音声認識装置として、音声入力機能を備えるコン
    ピュータを動作させる指示をなすことを特徴とするコン
    ピュータ・プログラム。
  14. 【請求項14】 請求項7記載のページ記述言語表示装
    置として、音声入力機能を備えるコンピュータを動作さ
    せる指示をなすことを特徴とするコンピュータ・プログ
    ラム。
  15. 【請求項15】 請求項8乃至請求項11の何れか1項
    に記載の音声認識方法を、音声入力機能を備えるコンピ
    ュータによって実現可能な動作指示をなすことを特徴と
    するコンピュータ・プログラム。
  16. 【請求項16】 請求項12記載のページ記述言語表示
    装置の制御方法を、音声入力機能を備えるコンピュータ
    によって実現可能な動作指示をなすことを特徴とするコ
    ンピュータ・プログラム。
JP2001370354A 2001-12-04 2001-12-04 音声認識装置及び方法、プログラム、並びに記憶媒体 Expired - Fee Related JP3927800B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001370354A JP3927800B2 (ja) 2001-12-04 2001-12-04 音声認識装置及び方法、プログラム、並びに記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001370354A JP3927800B2 (ja) 2001-12-04 2001-12-04 音声認識装置及び方法、プログラム、並びに記憶媒体

Publications (3)

Publication Number Publication Date
JP2003167600A true JP2003167600A (ja) 2003-06-13
JP2003167600A5 JP2003167600A5 (ja) 2005-07-14
JP3927800B2 JP3927800B2 (ja) 2007-06-13

Family

ID=19179594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001370354A Expired - Fee Related JP3927800B2 (ja) 2001-12-04 2001-12-04 音声認識装置及び方法、プログラム、並びに記憶媒体

Country Status (1)

Country Link
JP (1) JP3927800B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006028171A1 (ja) * 2004-09-09 2006-03-16 Pioneer Corporation データ提示装置、データ提示方法、データ提示プログラムおよびそのプログラムを記録した記録媒体
WO2007043566A1 (ja) * 2005-10-13 2007-04-19 Nec Corporation 音声認識システムと音声認識方法およびプログラム
JP2007133008A (ja) * 2005-11-08 2007-05-31 Advanced Telecommunication Research Institute International 音声認識装置、およびプログラム
JP2008014818A (ja) * 2006-07-06 2008-01-24 Denso Corp 作動制御装置、プログラム
JP2009025411A (ja) * 2007-07-17 2009-02-05 Yamaha Corp 音声認識装置およびプログラム
JP4876198B1 (ja) * 2010-11-12 2012-02-15 パイオニア株式会社 情報出力装置、情報出力方法、情報出力プログラム及び情報システム
WO2013014874A1 (ja) * 2011-07-28 2013-01-31 パナソニック株式会社 Gui生成装置、集積回路、gui生成方法、gui生成プログラム
JP2014098961A (ja) * 2012-11-13 2014-05-29 Horiuchi Denki Seisakusho:Kk 多次元駆動制御装置、多次元駆動制御プログラム及び押し込み試験システム
JP5705312B2 (ja) * 2011-05-20 2015-04-22 三菱電機株式会社 情報機器
CN112068793A (zh) * 2019-06-11 2020-12-11 北京搜狗科技发展有限公司 一种语音输入方法及装置
JP2022041741A (ja) * 2020-09-01 2022-03-11 シャープ株式会社 情報処理装置、印刷システム、制御方法及びプログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006028171A1 (ja) * 2004-09-09 2006-03-16 Pioneer Corporation データ提示装置、データ提示方法、データ提示プログラムおよびそのプログラムを記録した記録媒体
US8214209B2 (en) 2005-10-13 2012-07-03 Nec Corporation Speech recognition system, method, and computer readable medium that display recognition result formatted in accordance with priority
WO2007043566A1 (ja) * 2005-10-13 2007-04-19 Nec Corporation 音声認識システムと音声認識方法およびプログラム
JP2007108407A (ja) * 2005-10-13 2007-04-26 Nec Corp 音声認識システムと音声認識方法およびプログラム
JP2007133008A (ja) * 2005-11-08 2007-05-31 Advanced Telecommunication Research Institute International 音声認識装置、およびプログラム
JP2008014818A (ja) * 2006-07-06 2008-01-24 Denso Corp 作動制御装置、プログラム
JP2009025411A (ja) * 2007-07-17 2009-02-05 Yamaha Corp 音声認識装置およびプログラム
JP4876198B1 (ja) * 2010-11-12 2012-02-15 パイオニア株式会社 情報出力装置、情報出力方法、情報出力プログラム及び情報システム
WO2012063360A1 (ja) * 2010-11-12 2012-05-18 パイオニア株式会社 情報出力装置、情報出力方法、情報出力プログラム及び情報システム
JP5705312B2 (ja) * 2011-05-20 2015-04-22 三菱電機株式会社 情報機器
WO2013014874A1 (ja) * 2011-07-28 2013-01-31 パナソニック株式会社 Gui生成装置、集積回路、gui生成方法、gui生成プログラム
JP2014098961A (ja) * 2012-11-13 2014-05-29 Horiuchi Denki Seisakusho:Kk 多次元駆動制御装置、多次元駆動制御プログラム及び押し込み試験システム
CN112068793A (zh) * 2019-06-11 2020-12-11 北京搜狗科技发展有限公司 一种语音输入方法及装置
JP2022041741A (ja) * 2020-09-01 2022-03-11 シャープ株式会社 情報処理装置、印刷システム、制御方法及びプログラム
JP7430126B2 (ja) 2020-09-01 2024-02-09 シャープ株式会社 情報処理装置、印刷システム、制御方法及びプログラム

Also Published As

Publication number Publication date
JP3927800B2 (ja) 2007-06-13

Similar Documents

Publication Publication Date Title
US6510412B1 (en) Method and apparatus for information processing, and medium for provision of information
KR100549482B1 (ko) 정보 처리 장치, 정보처리 방법, 및 프로그램을 기억하는 컴퓨터 판독가능 기억 매체
EP1544719A2 (en) Information processing apparatus and input method
JP2006023860A (ja) 情報閲覧装置、情報閲覧プログラム、情報閲覧プログラム記録媒体及び情報閲覧システム
JP2005521149A (ja) 電子通信装置にテキストを入力する方法
JP2013068952A (ja) 音声認識結果の統合
KR20160060110A (ko) 온스크린 키보드에 대한 빠른 작업
JPH1125098A (ja) 情報処理装置、リンク先ファイルの取得方法および記憶媒体
JP2006185426A (ja) Htmlメール生成システム、通信装置、htmlメール生成方法、及び記録媒体
KR100947401B1 (ko) 전자 통신 장치로의 텍스트 입력
JP2003167600A (ja) 音声認識装置及び方法、ページ記述言語表示装置及びその制御方法、並びにコンピュータ・プログラム
WO2006059513A1 (ja) 表示装置、表示装置の制御方法及び情報記憶媒体
JP3542578B2 (ja) 音声認識装置及びその方法、プログラム
JP2003186590A (ja) 機器操作学習装置
JP2003167600A5 (ja)
JP2001306601A (ja) 文書処理装置及びその方法、及びそのプログラムを格納した記憶媒体
KR20130008663A (ko) 사용자 인터페이스 방법 및 장치
WO2003079188A1 (fr) Procede de fonctionnement d'un objet logiciel au moyen d'une langue naturelle et programme correspondant
JPH07168691A (ja) 表示図形領域選択方式
JP6080058B2 (ja) オーサリング装置、オーサリング方法、およびプログラム
JP2003202886A (ja) テキスト入力処理装置及び方法並びにプログラム
JP2006185342A (ja) 情報処理装置および文字列分類方法およびプログラムおよび記録媒体
JP2001109740A (ja) 中国語文書作成装置及び中国語文書作成方法
JP2010002830A (ja) 音声認識装置
JP4404436B2 (ja) 文字入力装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041111

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070305

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100309

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110309

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120309

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130309

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140309

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees