JP2003167600A

JP2003167600A - 音声認識装置及び方法、ページ記述言語表示装置及びその制御方法、並びにコンピュータ・プログラム

Info

Publication number: JP2003167600A
Application number: JP2001370354A
Authority: JP
Inventors: Hiroki Yamamoto; 寛樹山本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-12-04
Filing date: 2001-12-04
Publication date: 2003-06-13
Anticipated expiration: 2021-12-04
Also published as: JP3927800B2

Abstract

(57)【要約】【課題】音声認識の結果候補をＧＵＩを用いてユーザ
に提示する際の表示態様を改善することにより、良好な
操作性を実現する。【解決手段】入力された音声を認識することにより、
単数または複数の認識結果候補を取得すると共に、その
認識結果候補の中から正しい認識結果としてユーザ所望
の候補をＧＵＩを用いて選択可能な音声認識装置におい
て、個々の認識結果候補には、語彙の重要度、品詞、処
理選択用のコマンドであるか否か、情報検索用のキーワ
ードであるか否か、使用される頻度、音声認識時のスコ
ア、並びに言語種類のうちの少なくとも何れかの属性情
報が含まれ、その属性に従って、認識結果候補毎にＧＵ
Ｉに表示する際の表示態様（配置、表示位置、大きさ、
表示色、表示形状、並びに表示する字のフォント等）が
決定される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識の結果
を、グラフィックユーザインタフェース（ＧＵＩ）を用
いて表示する分野に関する。

【０００２】

【従来の技術】従来より、入力された音声を、複数の語
が記憶されている認識辞書を利用して認識する音声認識
技術が提案されており、このような音声認識技術を利用
して、情報処理装置等に対して、ユーザ所望のコマンド
を入力する技術も提案されている。

【０００３】これらの技術に基づく音声認識装置や音声
認識システムにおいて、入力された音声の認識処理が終
了するのに応じて、その認識結果に基づいた他の処理が
行われる構成の場合には、その認識処理において誤認識
された結果が含まれると、係る他の処理の結果にも影響
を与えることになる。

【０００４】このため、音声認識処理の後で行われる処
理に重要なコマンドや、誤認識が頻繁に起ることが想定
される場合には、音声認識処理が終了した時点で、その
認識結果が正しいか否かを確認する処理が必要になる。

【０００５】このような認識結果の確認処理の一例とし
ては、ある認識結果に対して、例えば、「 ○○でよろ
しいですか？」というユーザに確認を促すためのメッ
セージをディスプレイに表示すると共に、「はい」及
び「いいえ」のソフトウエア・ボタン（以下、単に
「ボタン」と称する）を表示することにより、ユーザに
確認のためのボタン操作を促す方法が一般的である。或
いは、合成音で同様のメッセージをユーザに対して通知
し、比較的認識精度の良いことが一般に知られている
「はい」及び「いいえ」の２種類の単語の音声認識
を利用して、認識結果のユーザによる確認を行なう方法
等がある。

【０００６】このような手順で音声認識の結果確認を行
なう方法によれば、誤認識による誤った処理の実行を防
ぐことは可能である。しかしながら、音声認識処理にお
けるスコア１位の認識結果のみを使用することに起因す
る低い認識精度の影響によって誤認識が繰り返される場
合には、音声認識処理の後で行われる処理においてユー
ザ所望のコマンドの実行に至るまでに、（１）システム
からの認識結果の確認のためユーザへの通知、（２）ユ
ーザが認識結果に満足できない場合に行なわなければな
らない「いいえ」ボタンの選択操作、並びに再認識の
ための同一音声を再入力、等の手順の繰り返し作業をユ
ーザに対して強いることになる。

【０００７】また、従来の音声認識処理においては、ス
コア１位の結果がユーザにとって誤認識である場合であ
っても、２位以下の認識結果に正解（ユーザにとって正
しい認識結果）が含まれる場合もあるため、この場合、
複数の認識結果を、選択候補としてユーザに対して同時
に提示すれば、ユーザ所望の何れかの候補を選択可能で
あるため、上述した煩わしい手順を減らすことができ
る。

【０００８】更に、これらの認識結果候補をボタンとし
て表示し、ボタンが押された際に対応するコマンドを実
行するようにすれば、システムからの確認の通知やユー
ザの「はい」「いいえ」等の応答の手順を省くこと
ができ、所望のコマンドの実行に至るまでの音声入力を
含むユーザの操作回数を減らすことができる。

【０００９】上述した如く音声認識の結果確認を、グラ
フィックユーザインタフェース（ＧＵＩ）としてディス
プレイ上のボタンで表示する方法は、例えば、特開平１
０-２１２５４号公報で提案されている。同公報には、
音声認識機能を有する情報検索装置が提案されており、
その発明の詳細な説明によれば、検索するキーワードを
音声で入力し、認識されたキーワードによる検索結果を
表示するに際して、音声認識の結果得られる１位の認識
結果に対する検索結果が表示されると共に、その１位以
下の複数の認識結果候補が候補順に選択ボタンで選択可
能に表示される。そして、ユーザは、１位の認識候補が
誤りの場合にはマウスを用いて正しい認識結果のボタン
を選択する操作を行なうことにより、情報検索用のキー
ワードとして、正しい音声認識結果を選択することがで
きる。

【００１０】

【発明が解決しようとする課題】しかしながら、上述し
た複数の認識結果候補が表示される従来の技術において
は、グラフィックユーザインタフェースにおいてユーザ
がボタンやスイッチを操作する際に、表示画面上に多く
のボタンが並んでいたり、ボタンそのものが小さい場合
には操作を誤る可能性が高く、特に重要な処理を行なう
べく音声認識結果を選択するためのボタンを操作する場
合等は注意が必要である。

【００１１】これに対して、物理的に実在する一般の機
器（例えば家電製品等の操作パネルや生産設備の制御パ
ネル等）に付属するボタンやスイッチ等は、例えば重要
な処理を行なうためのボタンは大きくしたり、使用頻度
の高いボタンを押しやすい位置に配置する等、使用頻度
や機能等のボタンの属性によって配置や大きさ、形状、
色等を工夫することで、誤操作を防ぐと同時に操作性の
向上を図っている。従って、グラフィックユーザインタ
フェースを用いて音声認識結果を表示する構成の場合に
も、同様の工夫を取り入れて、例えば、ある特定のコマ
ンドの認識結果に関しては、表示方法を他の認識結果と
変えたり、認識結果のスコアに応じて、表示するＧＵＩ
のサイズを変えたりすることで誤操作を防いだり、ユー
ザの操作性を向上することができると考えられるが、従
来は、そのような提案はなされていない。

【００１２】本発明は、上述した課題に鑑みてなされた
ものであって、音声認識の結果候補をＧＵＩを用いてユ
ーザに提示する際の表示態様を改善することにより、良
好な操作性を実現する音声認識装置及び方法、ページ記
述言語表示装置及びその制御方法、並びにコンピュータ
・プログラムの提供を目的とする。

【００１３】

【課題を解決するための手段】上記の目的を達成するた
め、本発明に係る音声認識装置は、以下の構成を特徴と
する。

【００１４】即ち、入力された音声を認識することによ
り、単数または複数の認識結果候補を取得する音声認識
手段と、その認識結果候補の中から正しい認識結果とし
て、ユーザ所望の候補を、グラフィックユーザインタフ
ェース（ＧＵＩ）を用いて選択可能な表示制御手段とを
備える音声認識装置であって、前記表示制御手段は、前
記認識結果候補毎に、前記ＧＵＩに表示する際の表示態
様を決定する表示態様決定手段を含むことを特徴とす
る。

【００１５】好適な実施形態において、前記表示態様決
定手段は、前記認識結果候補の属性に基づいて、前記表
示態様を決定すると良い。この場合、前記認識結果候補
に共通して採用される属性は、例えば、個々の認識結果
候補としての語彙の重要度、品詞、処理選択用のコマン
ドであるか否か、情報検索用のキーワードであるか否
か、使用される頻度、音声認識時のスコア、並びに言語
種類のうちの少なくとも何れかであると良い。

【００１６】また、例えば前記表示態様決定手段は、前
記表示態様として、個々の認識結果候補を表示する際の
前記ＧＵＩの種類、配置、表示位置、大きさ、表示色、
表示形状、並びに表示する字のフォントのうちの少なく
とも何れかを決定すると良い。

【００１７】また、上記の何れの装置構成においても、
前記表示制御手段は、ユーザが前記表示態様を決定する
手順を設定可能な表示態様設定手段を更に含むと良い。

【００１８】また、好ましくは、前記表示態様決定手段
によって正しい認識結果として選択された何れかの認識
結果候補に従って、その認識結果候補に対応する処理が
自装置または外部装置において実行されるように制御す
る処理制御手段を更に備えると良い。

【００１９】上記の同目的を達成するため、本発明に係
るページ記述言語表示装置は、以下の構成を特徴とす
る。

【００２０】即ち、入力された所定ページ記述言語形式
のデータに基づいて、表示画面を表示するところの、Ｗ
ＷＷ（ World Wide Web ）ブラウザ等のページ記述言語
表示装置であって、前記所定ページ記述言語形式のデー
タに、音声認識を指示する所定識別子（後述する実施形
態ではタグ）が含まれる場合に、入力された音声を認識
することにより、単数または複数の認識結果候補を取得
する音声認識手段と、前記認識結果候補の中から正しい
認識結果として、ユーザ所望の候補を選択させるべく、
前記認識結果候補毎に表示態様が決定されたグラフィッ
クユーザインタフェース（ＧＵＩ）を表示するためのペ
ージ記述言語のデータを生成するページ記述データ生成
手段とを備えることを特徴とする。

【００２１】尚、同目的は、上記の各構成を備える音声
認識装置に対応する音声認識方法によっても達成され
る。

【００２２】また、同目的は、上記の各構成の音声認識
装置及び方法を、音声入力機能を有するコンピュータに
よって実現するプログラムコード、及びそのプログラム
コードが格納されている、コンピュータ読み取り可能な
記憶媒体によっても達成される。

【００２３】更に、同目的は、上記のページ記述言語表
示装置及び対応する制御方法を、音声入力機能を有する
コンピュータによって実現するプログラムコード、及び
そのプログラムコードが格納されている、コンピュータ
読み取り可能な記憶媒体によっても達成される。

【００２４】

【発明の実施の形態】以下、本発明に係る音声認識装置
の実施形態を、図面を参照して詳細に説明する。

【００２５】［第１の実施形態］図１は、第１の実施形
態に係る音声認識装置の概略構成を示すブロック図であ
る。

【００２６】同図に示す音声認識装置において、１００
は、マイクロフォン等の音声を入力する音声入力装置で
ある。２００は、本装置を動作させるプログラムおよび
本装置の動作に必要なデータや動作の過程で生成される
データを一時的に格納するROM、RAM、ハードディスク等
の記憶装置である。

【００２７】また、３００は、主に認識結果候補等を表
示するために用いるディスプレイ等の表示装置である。
４００は、ユーザが操作を入力する際に用いるマウス、
キーボード等の操作入力装置である。

【００２８】５０１は、入力された音声を認識する音声
認識部である。５０２は、認識結果の表示態様（表示書
式）の決定および表示を制御する表示制御部である。５
０３は、ユーザの操作に応じて認識結果を選択する認識
結果選択部である。

【００２９】５０４は、認識結果選択部５０３にて選択
された認識結果に基づいて、その認識結果に対応する処
理を実行あるいは処理を実行するように他のプログラム
を制御する処理制御部である。５０５は、表示態様を設
定する表示態様設定部である。

【００３０】記憶装置２００には、音声認識を行なう際
に参照するＨＭＭ等の音響モデル２０１、認識対象とな
る語の発音情報等を記述した認識辞書２０２、表示制御
部５０２で表示態様を決定する方法を記述した表示ルー
ル２０３、並びに認識結果に対応する処理方法を記述し
た処理ルール２０４が記憶されている。

【００３１】ここで、本実施形態に係る音声認識装置の
ハードウエアには、音声入力可能なパーソナル・コンピ
ュータ、携帯情報端末（ＰＤＡ）等の情報処理装置を採
用することができる。

【００３２】次に、上述した構成を備える音声認識装置
の動作について、図２を参照して説明する。

【００３３】図２は、第１の実施形態における音声認識
装置の制御処理を示すフローチャートであり、当該音声
認識装置の不図示のＣＰＵが行なうところの、図１に示
す各処理部に対応するソフトウエア・プログラムに記述
された処理手順を示す。

【００３４】同図において、ステップＳ１０１において
ユーザがマイクロフォン等の音声入力装置１００を用い
て入力した音声は、記憶装置２００内に記憶されている
音響モデル２０１及び認識辞書２０２を用いて音声認識
部５０１の機能によって認識されることにより、単数ま
たは複数の認識結果が得られる（ステップＳ１０２）。

【００３５】ステップＳ１０３では、ステップＳ１０２
において取得した認識結果を、表示制御部５０２の機能
により、表示装置３００への表示態様を決定し、その表
示形式に従って、認識結果の選択候補（認識結果候補）
として、表示装置３００上に表示する。このとき、表示
態様を決定する方法は、表示制御部５０２の機能を記述
したプログラム中に記述しても良いし、例えば図５に示
すような表示ルール２０３を、記憶装置２００に予め記
憶しておいても良い。

【００３６】図５は、表示ルール２０３の一例を説明す
る図であり、このルールには、音声認識のスコアを基準
に、表示するＧＵＩの種類および表示サイズがルール１
として規定され、表示に際しての配置がルール２として
規定されている。このような表示ルール２０３の設定
は、表示設定部５０５の機能によってユーザが設定する
ことも可能である。

【００３７】例えば、ステップＳ１０２において、図３
に例示するような認識語彙と発音が記述された認識辞書
２０２を用いて音声認識処理が行なわれ、スコアの大き
い方から上位４つの候補を取得した結果が図４に例示す
る如くであったとする。

【００３８】上記の場合、ステップＳ１０３では、図５
に例示した表示ルール２０３が参照されることにより、
図６に例示するＧＵＩの如く複数の認識結果選択用の候
補を例示する図が表示される。即ち、図６の例では、ル
ール１及び２に従って、スコアが最も大きい「印刷」
が大きいサイズのボタンとして表示され、以下３つの候
補（認識結果候補）が、順次スコアの値に応じた表示態
様のボタンとして表示されている。

【００３９】ステップＳ１０４では、図６に例示する如
く表示された複数のボタンの中から、マウス等の操作入
力装置４００を用いて、ユーザによって何れか所望のボ
タンが選択され、選択されたボタンに対応する語彙（認
識結果候補）が、正しい認識結果として設定される。

【００４０】そしてステップＳ１０５では、選択操作に
応じて正しい認識結果として設定語彙に従って、記憶装
置２００に記憶されている処理ルール２０４が参照され
ることにより、該当する処理が実行される。処理ルール
２０４は、例えば、図７に例示する如く、設定された認
識結果が「印刷」であれば印刷処理が行われる等、認
識辞書２０２に記述されている語毎に規定される。

【００４１】このような本実施形態によれば、音声認識
の結果候補をＧＵＩを用いてユーザに提示する際の表示
態様が改善されるので、良好な操作性を実現することが
できる。

【００４２】尚、上述した本実施形態では、図４に示す
認識結果の属性として、個々の語彙の認識結果のスコア
を利用したが、これに限られるものではなく、個々の語
の重要度、品詞の種類、所定の処理を指示するためのコ
マンドか否か、情報検索用のキーワードか否か、入力さ
れた音声にて使用される頻度、英語・日本語等の言語の
種類等の各種の属性を採用することができ、それら属性
のうち少なくとも何れか１種類が各認識結果に共通に採
用されれば良い（以下の各実施形態においても同様であ
る）。

【００４３】［第２の実施形態］次に、上述した第１の
実施形態に係る音声認識装置を基本とする第２の実施形
態を説明する。以下の説明においては、第１の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。

【００４４】第１の実施形態では、主に認識スコアによ
って表示態様を変更する場合について説明したが、本実
施形態では、例えば図８に示す如く、「東京」、「
大阪」等の地名は、小さいサイズのノーマルフォントを
利用してテキストとして表示し、「終了」、「印刷
」等の処理の選択するためのコマンドに対応する語
は、ボタンとして表示すると共に、表示に際してのフォ
ントやボタンの大きさもコマンドの重要さの度合いに応
じて適宜設定される等のように、各語毎に表示態様が設
定されるような表示ルールを用いて表示態様を制御す
る。

【００４５】このような本実施形態によっても、音声認
識の結果候補をＧＵＩを用いてユーザに提示する際の表
示態様が改善されるので、良好な操作性を実現すること
ができる。

【００４６】［第３の実施形態］次に、上述した第１の
実施形態に係る音声認識装置を基本とする第３の実施形
態を説明する。以下の説明においては、第１の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。

【００４７】一般に、例えばテキストを編集するアプリ
ケーション等では、音声認識をテキストの入力やアプリ
ケーションを操作するためのコマンドの入力等のよう
に、異なる目的で使用する場合がある。このような場合
には、認識結果候補の表示方法として、コマンドはボタ
ンで表示し、テキストはテキストとして表示する方がユ
ーザにとって操作し易い。

【００４８】また、メニューの表示等のように、ユーザ
によって選択されたあるコマンドが誤って実行されても
操作上特に問題ない場合がある一方で、アプリケーショ
ンの終了等にように、ユーザの本来の希望とは異なるコ
マンドが実行されると復帰するのが困難なコマンドもあ
る。

【００４９】そこで本実施形態では、実行されるコマン
ドによって、表示態様を変更することにより、操作性の
向上を図る。例えば、アプリケーションを終了するコマ
ンドは、表示する際に他の認識結果候補よりもサイズを
大きくする等して視認性を良くすることで、誤操作を避
けることができる。

【００５０】このような表示態様を実現すべく、本実施
形態では、図１０に例示するような表示ルールに基づく
制御制御を行なう。

【００５１】図１０に例示した表示ルールにおいて、ル
ール１では、認識結果候補に対して対応する処理がある
場合はボタンで表示し、それ以外の場合はテキストで表
示するよう記述されている。また、ルール２では、重要
度という認識結果候補の属性を用いて、表示する際のサ
イズやフォントが規定されている。そして、ルール３で
は、複数の認識結果候補を表示する際の配置が規定され
ている。

【００５２】ここで、重要度は、例えば、図１１のよう
に各語毎に事前に付与しておき、表示ルールに含めても
良いし、認識辞書自体に重要度を記述して記憶装置２０
０に予め記憶しておいても良い。

【００５３】即ち、図１１の例では、「終了」や「
印刷」、「削除」といった誤操作を避けたいコマン
ドに対応する語には重要度が大きく設定され、図１０に
例示した表示ルールで重要度の大きい語についてはサイ
ズを大きく、且つフォントを太くして視認性を良くする
よう記述されている。

【００５４】図１２は、第３の実施形態において、図１
０に示す表示ルールに基づいて、図９に示すスコアに基
づく認識結果候補が得られた場合に表示される認識結果
選択用のＧＵＩを例示する図であり、対応する処理のあ
る認識結果候補についてはボタンが表示され、それ以外
の認識結果候補はテキストとして表示されると共に、
「終了」や「削除」といった重要度の大きい語の表
示サイズが大きくされている。

【００５５】このような本実施形態によっても、音声認
識の結果候補をＧＵＩを用いてユーザに提示する際の表
示態様が改善されるので、良好な操作性を実現すること
ができる。

【００５６】［第４の実施形態］次に、上述した第１乃
至第３の実施形態に係る音声認識装置を基本とする第４
の実施形態を説明する。以下の説明においては、上述し
た各実施形態と同様な構成については重複する説明を省
略し、本実施形態における特徴的な部分を中心に説明す
る。

【００５７】本実施形態では、上述した第１乃至第３の
実施形態で説明した音声認識装置を、ＷＷＷ（ World W
ide Web ）ブラウザ等のページ記述言語を表示するペー
ジ記述言語表示装置において実現した例について、図１
３及び図１４を参照して説明する。

【００５８】図１３は、第４の実施形態に係るページ記
述言語表示装置の概略構成を示すブロック図であり、基
本的な装置構成は、図１に示す音声認識装置と同様であ
る。本実施形態においても、ハードウエアには、音声入
力可能なパーソナル・コンピュータ、携帯情報端末（Ｐ
ＤＡ）等の情報処理装置を採用することができる。

【００５９】即ち、図１３において、１００は、マイク
ロフォン等の音声を入力する音声入力装置である。２０
０は、本装置を動作するプログラムおよび本装置の動作
に必要なデータや動作の過程で生成されるデータを一時
的に格納するROM、RAM、ハードディスク等の記憶装置で
ある。

【００６０】３００は、主に認識結果候補等を表示する
ために用いるディスプレイ等の表示装置である。４００
は、ユーザが操作を入力する際に用いるマウス、キーボ
ード等の操作入力装置である。

【００６１】５０７は、所定のページ記述言語形式のデ
ータ入力を制御し、入力されたページ記述言語を解析
し、その解析結果に基づいて、表示装置３００上にペー
ジを表示するページ記述制御部である。５０１は、入力
された音声を認識する音声認識部である。５０６は、音
声認識部５０１による音声認識結果を表示するためのペ
ージ記述言語のデータを生成するページ記述データ生成
部である。

【００６２】５０３は、表示装置３００上に表示された
認識結果候補の中からユーザの操作に応じて、所望の何
れかを選択する認識結果選択部である。５０４は、認識
結果選択部５０３において選択された認識結果候補に基
づいて、その認識結果候補に対応する処理を実行あるい
は処理を実行するように他のプログラムを制御する処理
制御部である。

【００６３】記憶装置２００には、音声認識を行なう際
に参照するＨＭＭ等の音響モデル２０１、認識対象とな
る語の発音情報等を記述した認識辞書２０２、表示制御
部５０２で表示態様を決定する方法を記述した表示ルー
ル２０３、並びに認識結果に対応する処理方法を記述し
た処理ルール２０４が記憶されている。ここで、記憶装
置２００に記憶されている上記２０１乃至２０４の音響
モデルをはじめとする各種データは、本装置とは構成を
別にするＷＷＷサーバ等の記憶装置から、インターネッ
ト等の通信ネットワークを介して読み出し可能な構成と
しても良い。

【００６４】次に、上述した構成を備えるページ記述言
語表示装置の動作について、第１の実施形態と同じ表示
ルール、処理ルール、並びに認識結果の例を用いて、図
１４を参照して説明する。

【００６５】図１４は、第４の実施形態におけるページ
記述言語表示装置の制御処理を示すフローチャートであ
り、当該ページ記述言語表示装置の不図示のＣＰＵが行
なうところの、図１３に示す各処理部に対応するソフト
ウエア・プログラムに記述された処理手順を示す。

【００６６】同図において、ステップＳ２０１では、本
装置にインターネットのサーバ上あるいは本装置内の記
憶装置２００上に記憶されたページ記述言語のデータが
入力される。入力されたページ記述言語のデータは、ペ
ージ記述言語制御部５０６の機能によって解析され（ス
テップＳ２０２）、ステップＳ２０３では、その解析結
果に基づいて、当該ページ記述言語のデータの記述内容
に応じたページが表示装置３００上に表示される。

【００６７】次に、ステップＳ２０２におけるページ記
述言語の解析の過程で、そのページ記述言語のデータの
中に、音声認識を行なうタグが記述されていたかを判断
し（ステップＳ２０４）、記述されていなかった場合に
は処理を終了し、記述されていた場合には、ステップＳ
２０５において、ユーザがマイクロフォン等の音声入力
装置１００を用いて入力した音声を受け付ける。

【００６８】尚、本実施形態において、ページ記述言語
のデータに含まれる音声認識を行なうタグ以外のタグに
ついては、ＷＷＷブラウザ等の一般的なページ記述言語
の表示装置と同様な機能を有するものとする。

【００６９】ステップＳ２０６において、ステップＳ２
０５において入力された音声は、記憶装置２００内に記
憶されている音響モデル２０１及び認識辞書２０２を用
いて、音声認識部５０１の機能によって認識されること
により、単数または複数の認識結果候補が得られる。

【００７０】ステップＳ２０７では、ページ記述データ
生成部５０６の機能により、音声認識部５０１にて取得
した認識結果候補（図４）に基づいて、第１の実施形態
と同様に表示装置３００への表示態様が決定されると共
に、更に、決定された表示態様の内容に対応するページ
記述言語のデータが生成される。ページ記述データ生成
部５０６の機能によって生成されたデータは、ページ記
述制御部５０７に設定される。

【００７１】ステップＳ２０８では、ページ記述制御部
５０７の機能により、ステップＳ２０７にて生成された
ページ記述言語のデータが解析され、ステップＳ２０９
では、その解析結果に基づいて、表示装置３００上にペ
ージが表示される。このとき、表示装置３００上に表示
するページの表示態様を決定する方法は、第１の実施形
態と同様にプログラム中に記述しても良いし、図５に示
したような表示ルール２０３を記憶装置２００に記憶し
ておき、その表示ルールを参照しても良い。表示用ルー
ル２０３の設定は、表示設定部５０５の機能を利用して
ユーザが設定する構成としても良い。

【００７２】図１５は、第４の実施形態において音声認
識を実行するためのタグを例示する図である。

【００７３】同図において、斜体で示した部分が本実施
形態に係る音声認識タグの一例であり、「＜SpeechRco
g ..... ＞」が音声認識による入力を実行するための
記述であり、本実施形態において、「＜SpeechRcog
..... ＞」は、「音声認識して、認識した結果を表
示する」と解釈するものとする。

【００７４】また、本実施形態に係るページ記述言語表
示装置では、音声認識で使用する認識辞書２０１及び音
響モデル２０２を、「 grammar 」、「 acousticmodel
」なる記述によって指定することが可能である。更
に、第１の実施形態で述べた表示ルール２０３及び処理
ルール２０４を、「 resulttemplate 」、「 actiontab
le」なる記述によって指定できるものとする。

【００７５】即ち、図１５に示す例では、音声認識部５
０１の機能により、「＜SpeechRcog ..... ＞」とい
うタグに従って、認識辞書「 command.gra 」及び音響
モデル「 phone.mdl 」を用いて音声認識を行なうと共
に、ページ記述データ生成部５０６の機能により、表示
ルール「 type１.dat 」及び処理ルール「 command.tb
l」を参照して、認識結果候補を表示するためのページ
記述言語のデータを生成することが表わされている。

【００７６】図１６は、第４の実施形態において、図５
に示した表示ルール２０３に基づいて、ページ記述デー
タ生成部５０６の機能によって生成されたページ記述言
語データを例示する図である。

【００７７】同図において、斜体で示した部分は、一般
のページ記述言語の仕様を拡張した部分であり、本実施
形態におけるページ記述言語表示装置では、「 input t
ype= mybotton 」なる記述と、「 size 」なる記述とに
よって、ボタンの表示と、表示する際のボタンのサイズ
を指定することが可能である。また、「＜p＞……＜/p
＞」で囲まれた範囲が、一行のボタンとして表示され
るように解釈される。本実施形態では、係る拡張仕様が
解釈されることにより、図１６に従って表示装置３００
に認識結果候補が表示されると、第１の実施形態の場合
と同様に、図６に示す表示例が表示される。

【００７８】ここで、再び図１４のフローチャートの説
明に戻る。ステップＳ２１０では、表示装置３００に表
示された認識結果候補に対して、認識結果選択部５０３
の機能により、マウス等の操作入力装置４００を利用し
て、ユーザが所望の認識結果候補を選択する。

【００７９】ステップＳ２１１では、処理制御部５０４
の機能により、選択された認識結果候補に対応する処理
が実行される。ここで、認識結果候補と処理との対応関
係は、プログラム中に記述しても良いし、図７に例示す
るような対応関係が記述された処理ルール２０４を、記
憶装置２００上に予め記憶しておき、処理制御部５０４
によって処理が実行される際に参照するようにしても良
い。

【００８０】図１６に示したページ記述言語のデータの
例では、表示装置３００に表示されたボタンがユーザに
よって押下されたときに、「 name 」で指定された環境
変数「 com 」に、「 value 」で指定された値（同図で
は検索、印刷設定、編集に相当）が代入され、「 Execu
teCommand 」というプログラムの実行が開始される。こ
の「 ExecuteCommand 」なる記述は、処理制御部５０４
に該当し、係る「 ExecuteCommand 」及びプログラム
は、「 name 」で指定された環境変数から「 com」に代
入された値を取り出し、取り出した値に該当する処理
を、処理ルール２０４を参照することによって特定した
上で実行する。

【００８１】このような本実施形態によっても、音声認
識の結果候補をＧＵＩを用いてユーザに提示する際の表
示態様が改善されるので、良好な操作性を実現すること
ができる。

【００８２】以上説明したように、上述した各実施形態
によれば、単数または複数の音声認識結果の候補を、表
示装置３００にソフトウエアボタンやテキストを含むＧ
ＵＩを用いて表示する場合に、個々の音声認識結果候補
の認識スコアや重要度等の属性に基づいて、認識結果候
補毎に表示する書式が決定されるので、音声認識を用い
たユーザインタフェースやコマンド入力の操作性を向上
することができる。

【００８３】尚、上述した各実施形態において、図６及
び図１２に例示したＧＵＩでは、そのＧＵＩに表示され
た複数の候補の中からユーザ所望のものを、大きさやフ
ォントが異なるソフトウエアボタンを用いて選択可能に
構成したが、この装置構成に限られるものではなく、例
えば、大きさやフォントが異なる各選択候補の表示エリ
ア内または近傍に設けた所謂ラジオボタンやチェックボ
ックス等によって選択可能に構成しても良い。

【００８４】また、上述した各実施形態において、図６
及び図１２に例示したＧＵＩでは、そのＧＵＩに表示さ
れた複数の候補の中からユーザ所望のものを選択するに
際して、大きさやフォントが異なるソフトウエアボタン
を用いて選択可能に構成することによってユーザに対す
る操作性を向上したが、この装置構成に限られるもので
はなく、例えば、ボタンの表示色、表示するボタンの形
状等を適宜変更することによっても、操作性を向上する
ことができる。

【００８５】

【他の実施形態】尚、本発明の目的は、前述した実施形
態の機能を実現するソフトウェアのプログラムコードを
記録した記憶媒体（または記録媒体）を、上述した音声
認識装置として動作するパーソナル・コンピュータや携
帯情報端末等の情報処理装置に供給し、それらシステム
あるいは装置のコンピュータ（またはCPUやMPU）が記憶
媒体に格納されたプログラムコードを読み出し実行する
ことによっても達成される。この場合、記憶媒体から読
み出されたプログラムコード自体が前述した実施形態の
機能を実現することになり、そのプログラムコードを記
憶した記憶媒体、並びに電気通信回線等を介してコンピ
ュータ・プログラム製品として取得した当該プログラム
コードは、本発明を構成することになる。

【００８６】また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているオペレーテ
ィングシステム(OS)等が実際の処理の一部または全部を
行い、その処理によって前述した実施形態の機能が実現
される場合も含まれる。

【００８７】更に、記憶媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張カード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張カードや機能拡張ユニットに備わ
るCPU等が実際の処理の一部または全部を行い、その処
理によって前述した実施形態の機能が実現される場合も
含まれる。

【００８８】

【発明の効果】以上説明した本発明によれば、音声認識
の結果候補をＧＵＩを用いてユーザに提示する際の表示
態様を改善することにより、良好な操作性を実現する音
声認識装置及び方法、ページ記述言語表示装置及びその
制御方法、並びにコンピュータ・プログラムの提供が実
現する。

【図面の簡単な説明】

【図１】第１の実施形態に係る音声認識装置の概略構成
を示すブロック図である。

【図２】第１の実施形態における音声認識装置の制御処
理を示すフローチャートである。

【図３】第１の実施形態における認識辞書２０２の構成
例を説明する図である。

【図４】第１の実施形態におけるスコアに基づく認識結
果候補の一例を説明する図である。

【図５】第１の実施形態における表示ルール２０３の一
例を説明する図である。

【図６】第１の実施形態において表示装置３００に表示
される認識結果選択用のＧＵＩの表示態様を例示する図
である。

【図７】第１の実施形態における処理ルール２０４の構
成例を説明する図である。

【図８】第２の実施形態における表示ルール２０３の一
例を説明する図である。

【図９】第２の実施形態におけるスコアに基づく認識結
果候補の一例を説明する図である。

【図１０】第３の実施形態における表示ルール２０３の
一例を説明する図である。

【図１１】第３の実施形態における語毎の重要度の設定
例を説明する図である。

【図１２】第３の実施形態において表示装置３００に表
示される認識結果選択用のＧＵＩの表示態様を例示する
図である。

【図１３】第４の実施形態に係るページ記述言語表示装
置の概略構成を示すブロック図である。

【図１４】第４の実施形態におけるページ記述言語表示
装置の制御処理を示すフローチャートである。

【図１５】第４の実施形態において音声認識を実行する
ためのタグを例示する図である。

【図１６】第４の実施形態において、図５に示した表示
ルール２０３に基づいて、ページ記述データ生成部５０
６の機能によって生成されたページ記述言語データを例
示する図である。

Claims

【特許請求の範囲】

【請求項１】入力された音声を認識することにより、
単数または複数の認識結果候補を取得する音声認識手段
と、その認識結果候補の中から正しい認識結果として、
ユーザ所望の候補を、グラフィックユーザインタフェー
ス（ＧＵＩ）を用いて選択可能な表示制御手段とを備え
る音声認識装置であって、前記表示制御手段は、前記認識結果候補毎に、前記ＧＵ
Ｉに表示する際の表示態様を決定する表示態様決定手段
を含むことを特徴とする音声認識装置。
【請求項２】前記表示態様決定手段は、前記認識結果
候補の属性に基づいて、前記表示態様を決定することを
特徴とする請求項１記載の音声認識装置。
【請求項３】前記認識結果候補に共通して採用される
属性は、個々の認識結果候補としての語彙の重要度、品
詞、処理選択用のコマンドであるか否か、情報検索用の
キーワードであるか否か、使用される頻度、音声認識時
のスコア、並びに言語種類のうちの少なくとも何れかで
あることを特徴とする請求項２記載の音声認識装置。
【請求項４】前記表示態様決定手段は、前記表示態様
として、個々の認識結果候補を表示する際の前記ＧＵＩ
の種類、配置、表示位置、大きさ、表示色、表示形状、
並びに表示する字のフォントのうちの少なくとも何れか
を決定することを特徴とする請求項１記載の音声認識装
置。
【請求項５】前記表示制御手段は、更に、ユーザが前
記表示態様を決定する手順を設定可能な表示態様設定手
段を含むことを特徴とする請求項１乃至請求項４の何れ
か１項に記載の音声認識装置。
【請求項６】更に、前記表示態様決定手段によって正
しい認識結果として選択された何れかの認識結果候補に
従って、その認識結果候補に対応する処理が自装置また
は外部装置において実行されるように制御する処理制御
手段を備えることを特徴とする請求項１乃至請求項５の
何れか１項に記載の音声認識装置。
【請求項７】入力された所定ページ記述言語形式のデ
ータに基づいて、表示画面を表示するページ記述言語表
示装置であって、前記所定ページ記述言語形式のデータに、音声認識を指
示する所定識別子が含まれる場合に、入力された音声を
認識することにより、単数または複数の認識結果候補を
取得する音声認識手段と、前記認識結果候補の中から正しい認識結果として、ユー
ザ所望の候補を選択させるべく、前記認識結果候補毎に
表示態様が決定されたグラフィックユーザインタフェー
ス（ＧＵＩ）を表示するためのページ記述言語のデータ
を生成するページ記述データ生成手段と、を備えること
を特徴とするページ記述言語表示装置。
【請求項８】入力された音声を認識することにより、
単数または複数の認識結果候補を取得する音声認識工程
と、その認識結果候補の中から正しい認識結果として、
ユーザ所望の候補を選択させるべく、グラフィックユー
ザインタフェース（ＧＵＩ）を表示する表示工程とを有
する音声認識方法であって、前記表示制御工程には、前記認識結果候補毎に、前記Ｇ
ＵＩに表示する際の表示態様を決定する表示態様決定工
程が含まれることを特徴とする音声認識方法。
【請求項９】前記表示態様決定工程では、前記認識結
果候補の属性に基づいて、前記表示態様が決定されるこ
とを特徴とする請求項８記載の音声認識方法。
【請求項１０】前記表示態様決定工程では、前記認識
結果候補の属性として、個々の認識結果候補としての語
彙の重要度、品詞、処理選択用のコマンドであるか否
か、情報検索用のキーワードであるか否か、使用される
頻度、音声認識時のスコア、並びに言語種類のうちの少
なくとも何れかが使用されることを特徴とする請求項９
記載の音声認識方法。
【請求項１１】前記表示態様決定工程では、前記表示
態様として、個々の認識結果候補を表示する際の前記Ｇ
ＵＩの種類、配置、表示位置、大きさ、表示色、表示形
状、並びに表示する字のフォントのうちの少なくとも何
れかが決定されることを特徴とする請求項８記載の音声
認識方法。
【請求項１２】入力された所定ページ記述言語形式の
データに基づいて、表示画面を表示するページ記述言語
表示装置の制御方法であって、前記所定ページ記述言語形式のデータに、音声認識を指
示する所定識別子が含まれる場合に、入力された音声を
認識することにより、単数または複数の認識結果候補を
取得する音声認識工程と、前記認識結果候補の中から正しい認識結果として、ユー
ザ所望の候補を選択させるべく、前記認識結果候補毎に
表示態様が決定されたグラフィックユーザインタフェー
ス（ＧＵＩ）を表示するためのページ記述言語のデータ
を生成するページ記述データ生成工程と、を有すること
を特徴とするページ記述言語表示装置の制御方法。
【請求項１３】請求項１乃至請求項６の何れか１項に
記載の音声認識装置として、音声入力機能を備えるコン
ピュータを動作させる指示をなすことを特徴とするコン
ピュータ・プログラム。
【請求項１４】請求項７記載のページ記述言語表示装
置として、音声入力機能を備えるコンピュータを動作さ
せる指示をなすことを特徴とするコンピュータ・プログ
ラム。
【請求項１５】請求項８乃至請求項１１の何れか１項
に記載の音声認識方法を、音声入力機能を備えるコンピ
ュータによって実現可能な動作指示をなすことを特徴と
するコンピュータ・プログラム。
【請求項１６】請求項１２記載のページ記述言語表示
装置の制御方法を、音声入力機能を備えるコンピュータ
によって実現可能な動作指示をなすことを特徴とするコ
ンピュータ・プログラム。