WO2012063360A1

WO2012063360A1 - 情報出力装置、情報出力方法、情報出力プログラム及び情報システム

Info

Publication number: WO2012063360A1
Application number: PCT/JP2010/070205
Authority: WO
Inventors: 吉田　実
Original assignee: パイオニア株式会社
Priority date: 2010-11-12
Filing date: 2010-11-12
Publication date: 2012-05-18
Also published as: JPWO2012063360A1; JP4876198B1

Abstract

　情報出力装置は、音声入力機能を有する装置に搭載され、利用者の音声入力に対して音声認識処理を実行して尤度を計算し、音声認識候補を出力する。一方、音声入力がなされた際の利用者の利用状況、例えば利用者が利用する日時に対応して、使用頻度の高い候補である統計候補が決定される。表示制御手段は、音声認識処理により得られた音声認識候補の尤度に応じて、音声認識候補と統計候補の表示件数の比率を決定し、表示部に表示する。音声認識結果の確からしさに応じて表示される音声認識候補と統計候補の比率を変えることにより、利用者に対して有益な候補を提示することが可能となる。

Description

情報出力装置、情報出力方法、情報出力プログラム及び情報システム

　本発明は、音声入力に対して、音声認識結果を含む情報を出力する手法に関する。

　音声認識エンジンを搭載し、音声入力が可能なカーナビゲーション装置が知られている。一般的な音声認識機能は、利用者による音声入力に対して、音響的な音声認識結果として１候補のみを音声と画面とで知らせる。誤認識が発生した場合、又は、認識不能であった場合、利用者はやり直しのために再度音声入力を行う必要があるため、時間を要するとともに、利用者が煩わしさを感じることが多い。

　このような不具合を解消するため、特許文献１に記載の音声認識装置は、利用者の行動を予測して動的に音声認識辞書を変更し、認識性能を改善している。具体的には、特許文献１は、ユーザの過去のホームページ閲覧履歴に基づいて音声認識辞書を変更している。

　しかし、音声認識辞書を変更した場合でも、認識結果として利用者に提示される結果は１つのみであり、それが誤りである場合には、再度の音声入力が必要となる。また、利用者の行動の予測が外れた場合には、却って認識性能が低下する可能性もある。

特開２００２－３４１８９２号公報

　本発明が解決しようとする課題としては、上記のものが例として挙げられる。本発明は、利用者の音声入力に対して、音声認識結果を含む複数の情報を出力することにより、利用者による音声入力の利便性を向上させることを目的とする。

　請求項１に記載の発明は、情報出力装置であって、音声を入力する入力手段と、入力された音声を音声認識して音声認識候補を出力する音声認識手段と、前記音声が入力された際の利用者の利用状況に対応して、使用頻度の高い候補である統計候補を決定する統計候補決定手段と、前記音声認識候補と前記統計候補とを表示部に表示する表示制御手段と、を備え、前記表示制御手段は、前記音声認識により得られた音声認識候補の尤度に応じて、前記音声認識候補と前記統計候補の表示件数の比率を決定することを特徴とする。

　請求項１１に記載の発明は、表示部を有する情報出力装置において実行される情報出力方法であって、音声を入力する入力工程と、入力された音声を音声認識して音声認識候補を出力する音声認識工程と、前記音声が入力された際の利用者の利用状況に対応して、使用頻度の高い候補である統計候補を決定する統計候補決定工程と、前記音声認識候補と前記統計候補とを前記表示部に表示する表示制御工程と、を備え、前記表示制御工程は、前記音声認識により得られた音声認識候補の尤度に応じて、前記音声認識候補と前記統計候補の表示件数の比率を決定することを特徴とする。

　請求項１２に記載の発明は、コンピュータを有する情報出力装置において実行される情報出力プログラムであって、音声を入力する入力手段、入力された音声を音声認識して音声認識候補を出力する音声認識手段、前記音声が入力された際の利用者の利用状況に対応して、使用頻度の高い候補である統計候補を推定する推定手段、前記音声認識候補と前記統計候補とを表示部に表示する表示制御手段、として前記コンピュータを機能させ、前記表示制御手段は、前記音声認識により得られた音声認識候補の尤度に応じて、前記音声認識候補と前記統計候補の表示件数の比率を決定することを特徴とする。

実施例による情報システムの概略構成を示すブロック図である。音声入力に対する候補の表示例を示す。特定のコマンドの使用頻度を示すグラフである。第１実施例における候補の表示例及び統計データベースの例を示す。第１実施例による情報出力処理のフローチャートである。第２実施例における候補の表示例を示す。第２実施例における候補の表示例を示す。第２実施例による情報出力処理のフローチャートである。情報システムの他の構成例を示すブロック図である。情報システムのさらに他の構成例を示すブロック図である。情報システムのさらに他の構成例を示すブロック図である。

　本発明の好適な実施形態では、情報出力装置は、音声を入力する入力手段と、入力された音声を音声認識して音声認識候補を出力する音声認識手段と、前記音声が入力された際の利用者の利用状況に対応して、使用頻度の高い候補である統計候補を決定する統計候補決定手段と、前記音声認識候補と前記統計候補とを表示部に表示する表示制御手段と、を備え、前記表示制御手段は、前記音声認識により得られた音声認識候補の尤度に応じて、前記音声認識候補と前記統計候補の表示件数の比率を決定する。

　上記の情報出力装置は、音声入力機能を有する装置に搭載され、利用者の音声入力に対して音声認識処理を実行して音声認識候補を出力する。音声入力は、利用者が予め決められたコマンドを入力することにより行われ、音声認識候補とは利用者が入力した音声に対応するコマンドの候補である。また、音声認識処理では、音声認識候補毎に、その確からしさを示す尤度が算出される。一方、音声入力がなされた際の利用者の利用状況に対応して、使用頻度の高い候補である統計候補が決定される。利用者の利用状況は、例えば情報出力装置が搭載された装置を利用者が利用する日時を含む。表示制御手段は、音声認識処理により得られた音声認識候補の尤度に応じて、音声認識候補と統計候補の表示件数の比率を決定し、表示部に表示する。音声認識結果の確からしさに応じて表示される音声認識候補と統計候補の比率を変えることにより、利用者に対して有益な候補を提示することが可能となる。

　上記の情報出力装置の一態様では、前記表示制御手段は、前記音声認識の結果、他の音声認識候補に対して所定の閾値以上に尤度の高い音声認識候補が存在する場合、音声認識候補の表示件数の比率を下げる。この場合、尤度の高い音声認識候補が正解である可能性が高いので、音声認識候補を表示する比率を下げ、より多数の統計候補を表示できるようにする。

　好適な例では、前記統計候補は、利用者自身又は他の利用者による使用頻度が、他の候補の使用頻度よりも高い候補とする。使用頻度が高い候補を統計候補とすることにより、利用者にとって有益な候補を提示することができる。

　他の好適な例では、前記統計候補決定手段は、前記音声が入力された日時における使用頻度が、他の候補の使用頻度よりも高い候補を統計候補として決定する。これにより、音声認識結果にかかわらず、その日時に頻繁に使用されるコマンドが利用者に提示される。

　上記の情報出力装置の他の一態様では、前記表示制御手段は、前記音声認識候補と前記統計候補とで重複する候補が存在する場合、いずれか一方に代えて、次に尤度の高い音声認識候補又は次に使用頻度の高い統計候補を表示する。重複する候補を排除することにより、限られた表示スペースを有効に利用して、利用者により多数の候補を提示することができる。

　上記の情報出力装置の他の一態様では、前記表示制御手段は、所定時間内に同一の音声が複数回入力された場合、前回表示した統計候補とは異なる統計候補を表示する。短い時間に同じ音声入力が繰り返し行われた場合には、同じ候補を繰り返し表示するのではなく、表示される候補を変更することにより、限られた表示スペースを有効に利用することができる。また、多数の候補を利用者に提示することにより、利用者にコマンドを学習する機会を与えることができる。

　上記の情報出力装置の他の一態様では、前記表示制御手段は、表示すべき統計候補が示す状態が、その時点における状態と一致する場合、当該表示すべき統計候補に代えて、次に使用頻度の高い統計候補を表示する。表示すべき候補に対応するコマンドによる処理の結果が現在の状況と一致するような場合には、その候補を表示するメリットは少ないので、他の候補を表示する。

　上記の情報出力装置の好適な例では、前記音声認識手段は、入力された音声を外部の音声認識装置へ送信し、当該外部の音声認識装置から音声認識候補を取得する。他の好適な例では、前記統計候補決定手段は、前記音声が入力された際の利用者の利用状況を示す情報をサーバへ送信し、当該利用状況に対応する統計候補を前記サーバから受信する。

　本発明の他の観点では、情報システムは、上記の情報出力装置と、複数の前記情報出力装置から操作履歴情報を収集するとともに、収集した操作履歴情報に基づいて統計情報を生成するサーバと、を備え、前記統計候補決定手段は、前記サーバから配信された統計情報を用いて統計候補を決定する。この情報システムでは、サーバは多数の情報出力装置から操作履歴情報を収集して統計情報を生成するため、多数の利用者の履歴に基づいて統計候補を決定することが可能となる。

　本発明の他の好適な実施形態は、表示部を有する情報出力装置において実行される情報出力方法であって、音声を入力する入力工程と、入力された音声を音声認識して音声認識候補を出力する音声認識工程と、前記音声が入力された際の利用者の利用状況に対応して、使用頻度の高い候補である統計候補を決定する統計候補決定工程と、前記音声認識候補と前記統計候補とを前記表示部に表示する表示制御工程と、を備え、前記表示制御工程は、前記音声認識により得られた音声認識候補の尤度に応じて、前記音声認識候補と前記統計候補の表示件数の比率を決定する。この方法によっても、音声認識結果の確からしさに応じて表示される音声認識候補と統計候補の比率を変えることにより、利用者に対して有益な候補を提示することが可能となる。

　本発明の他の好適な実施形態は、コンピュータを有する情報出力装置において実行される情報出力プログラムであって、音声を入力する入力手段、入力された音声を音声認識して音声認識候補を出力する音声認識手段、前記音声が入力された際の利用者の利用状況に対応して、使用頻度の高い候補である統計候補を推定する推定手段、前記音声認識候補と前記統計候補とを表示部に表示する表示制御手段、として前記コンピュータを機能させ、前記表示制御手段は、前記音声認識により得られた音声認識候補の尤度に応じて、前記音声認識候補と前記統計候補の表示件数の比率を決定する。このプログラムをコンピュータにより実行することにより、上記の情報出力装置を実現することができる。なお、この情報出力プログラムは記憶媒体に記憶した状態で取り扱うことができる。

　以下、図面を参照して本発明の好適な実施例について説明する。

　［システム構成］
　図１に、本発明の実施例に係る情報システムの概略構成を示す。図示のように、情報システムは、大別してサーバ１０と、ナビゲーション装置２０とを有する。サーバ１０とナビゲーション装置２０とは、無線通信などにより情報の送受信が可能である。

　サーバ１０は、サーバ装置１２と、統計データベース（以下、データベースを「ＤＢ」と記す。）１４とを備える。サーバ装置１２は、ＣＰＵ、メモリなどを有し、各種の処理を実行する。また、サーバ装置１２は、ナビゲーション装置２０との無線通信機能を備える。

　統計ＤＢ１４は、ナビゲーション装置２０の音声入力において使用されるコマンドの使用頻度に関する統計情報を記憶している。この統計情報については後に詳しく説明する。

　ナビゲーション装置２０は、日時取得部２１と、通信部２２と、入力部２３と、マイク２４と、音声認識部２５と、辞書ＤＢ２６と、出力制御部２７と、スピーカ２８と、表示装置２９と、制御部３０と、履歴ＤＢ３１とを備える。

　日時取得部２１は、現在の日時を取得する。なお、「日時」の語は、曜日と時間とを含むものとする。例えば、日時取得部２１は、制御部３０内のクロックを利用して日時を算出してもよく、図示しないＧＰＳ受信機がＧＰＳ衛生から受信するデータに含まれる日時情報を取得してもよい。

　通信部２２は、例えば携帯電話などを利用した通信機能とすることができ、サーバ１０と無線通信を行う。入力部２３は、利用者が必要な指示、選択を入力するために使用され、表示装置２９の画面に設けられたタッチパネル、リモコン、ナビゲーション装置２０本体に設けられた入力ボタンなどとすることができる。

　利用者は、音声入力を行う場合、予め決められたコマンドを発話する。マイク２４は、利用者が発話した音声を集音し、音声データとして音声認識部２５へ供給する。通常、マイク２４は、ナビゲーション装置２０は運転席の周辺などに設置される。

　音声認識部２５は、利用者が発話した音声を、辞書ＤＢ２６に記憶された音声認識辞書を利用して認識する。具体的には、音声認識部２５は、マイク２４から入力された音声データから音響特徴量を算出し、当該音声データ中の音声区間を検出して発話区間のみを抽出する。次に、音声認識部２５は、例えば隠れマルコフモデル（ＨＭＭ：Ｈｉｄｅｎｄ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）などの手法を利用し、辞書ＤＢ２６内の音声認識辞書を参照して、入力された音声データと一致するコマンドの候補（以下、「音声認識候補」と呼ぶ。）との一致度を示す尤度を計算する。こうして、音声認識部２５は、利用者が発話した音声に対応する音声認識候補のうち、尤度が高い複数の音声認識候補を決定する。

　出力制御部２７は、スピーカ２８を制御して案内音声などの音声を出力するとともに、表示装置２９を制御して画像を表示する。具体的に、出力制御部２７は、通常はナビゲーション装置２０を搭載した車両の現在位置付近の地図データを表示装置２９に表示する。また、ルート案内中には、出力制御部２７は、案内ルートなどを表示装置２９に表示し、案内地点においてスピーカ２８から音声案内を出力する。さらに、詳細は後述するが、出力制御部２７は、利用者による音声入力がなされた場合には、それに対する候補を表示装置２９に表示する。

　制御部３０は、ＣＰＵなどにより構成され、予め用意されたプログラムを実行することにより、ナビゲーション装置２０内の各構成要素を制御し、地図表示処理、ルート案内処理、音声入力に対する情報出力処理などを実行する。

　履歴ＤＢ３１は、ナビゲーション装置２０の利用者が発話した音声に対応するコマンド、正確には音声認識候補の履歴を保存する。履歴ＤＢ３１に保存された履歴は、当該利用者が使用したコマンドの履歴として、定期的にサーバ１０へアップロードされ、統計ＤＢ１４に記憶されている統計情報に反映される。

　［第１実施例］
　次に、第１実施例における、音声入力に対する情報出力方法について説明する。図２は、利用者の音声入力に対して表示装置２９に表示される画面の例を示す。本例では、ナビゲーション装置２０はルート案内の実行中であり、画面４０の左側にはハイウェイモードで案内ルートが表示されている。一方、画面４０の右側には、利用者の音声入力に対する出力情報が表示されている。

　具体的に、本例では、利用者が１つのコマンドを発話することにより音声入力を行うと、候補表示部４２には、３つのコマンドが候補として表示される。利用者は、３つの候補のうちに意図したコマンドが含まれる場合、その候補を選択することにより、音声入力の指示を確定させることができる。図２の例では、利用者が選択した候補が枠４４により示されている。なお、３つの候補から１つの候補を選択する手法としては、利用者は、タッチパネルやリモコンなどの入力部２３を操作してもよく、その候補に対応するコマンドを再度発話してもよい。

　次に、本実施例における情報出力方法の特徴について説明する。本実施例では、利用者の音声入力に対して複数（上記の例では３つ）の候補を決定して表示するが、その複数の候補には、音声認識処理により得られた音声認識候補に加えて、統計情報に基づくコマンドの候補（以下、「統計候補」と呼ぶ。）を含める点に特徴を有する。即ち、ナビゲーション装置２０は、利用者による音声入力に対して、音声認識処理により得られた音声認識候補と、統計情報に基づいて使用頻度が高いと認められる統計候補とを表示装置２９に表示して利用者に提示する。

　ここで、統計候補について詳しく説明する。図３に、統計情報の例を示す。この例は、コマンド「自宅に帰る」の曜日及び時間帯毎の使用割合を示している。即ち、コマンド「自宅に帰る」が、どの曜日のどの時間帯に頻繁に使用されているかを示している。図３に示すように、この例では、コマンド「自宅に帰る」は、ほぼどの曜日においても、夕方１６時頃から深夜２時頃までの時間帯に頻繁に使用されている。

　このように、特定のコマンドは、その使用頻度が統計的に日時（即ち、曜日及び時間）と相関関係を有する。上記の例以外に、例えばコマンド「ＴＶを見る」は曜日を問わず朝と夕方に使用頻度が高く、コマンド「行き先を探索する」は土曜日、日曜日に使用頻度が高い。よって、音声入力に対する音声認識結果にかかわらず、音声入力がなされた日時に基づいて、その日時に使用頻度が高いコマンドを統計候補として利用者に提示すれば、利用者にとっては有益な情報となる。例えば、ある日の夕方に利用者により音声入力がなされた場合、統計的観点からは、その日時にはコマンド「自宅に帰る」が使用される確率が高いことがわかっている。よって、音声入力に応答して、音声認識候補とともに統計情報に基づく統計候補「自宅に帰る」を利用者に提示すれば、利用者の体感上の認識率を向上させることができる。

　このように本実施例では、利用者による音声入力に対して、ナビゲーション装置２０は、音声認識に基づく音声認識候補と、統計情報に基づく統計候補とを含む複数の候補を提示する。この場合、出力される候補の数は、２つ以上であればいくつでもかまわない。実際には、出力される候補数は、表示装置２９において確保できる表示エリアの大きさに依存する。

　以下、表示装置２９に表示される候補は３つであるとし、表示される候補の例について説明する。いま、統計ＤＢ１４に記憶されている統計情報のうち、月曜日の朝６～７時において頻繁に使用されるコマンドの統計情報（使用頻度ランキング）が図４（ｃ）に示すようであると仮定する。なお、図４（ｃ）において、「順位」は使用頻度が高い順を示す。「順位（ナビ）」はナビゲーション装置２０の操作に関連するコマンドに限定した場合の順位を示し、「順位（ＡＶ）」は車両のＡＶ機能の操作に関連するコマンドに限定した場合の順位を示す。「順位（総合）」は、全てのコマンドを対象とした場合の順位を示す。「操作カテゴリ」は、操作の対象となる機器を示す。

　利用者により音声入力がなされた場合、ナビゲーション装置２０は、まず音声認識処理を行い、尤度が高い音声認識候補を複数抽出する。そして、音声認識処理による尤度が１位である音声認識候補と、尤度が２位である音声認識候補との尤度差の大小に応じて、候補として表示する内容を決定する。以下、尤度がｎ位である音声認識候補を「音声認識候補ｎ位」と表現する。ここで、音声入力がなされた時間をｔとし、尤度がｎ位である音声認識候補の対数尤度をＰｎ（ｔ）とすると、ナビゲーション装置２０は音声認識候補１位と音声認識候補２位との尤度差ΔＰ（ｔ）を以下のように算出する。

　　ΔＰ（ｔ）＝Ｐ１（ｔ）－Ｐ２（ｔ）　　　　　　　　　　　式（１）
　そして、ナビゲーション装置は、予め実験などにより決定した閾値αに対して、
　　ΔＰ（ｔ）≧α　　　　　　　　　　　　　　　　　　　　　式（２）
であるときに尤度差が大きいと判断し、
　　ΔＰ（ｔ）＜α　　　　　　　　　　　　　　　　　　　　　式（３）
であるときに尤度差が小さいと判断する。

　尤度差が大きい場合、ナビゲーション装置２０は、音声認識候補１位が正解である可能性が高いと判断し、音声認識候補２位を表示するよりも、統計候補を多く表示することを決定する。即ち、ナビゲーション装置２０は、表示される複数の候補における統計候補の比率を大きくし、１つの音声認識候補と、２つの統計候補とを表示する。その結果、図４（ａ）に示すように、音声認識候補１位と、統計候補１位であるコマンド「名称で探す」と、統計候補２位であるコマンド「自宅に帰る」とが候補表示部４２に表示される。

　一方、尤度差が小さい場合、ナビゲーション装置２０は、音声認識候補１位が正解である可能性が低い、又は、類似するコマンドが複数存在する可能性が高いと判断し、音声認識候補を多く表示することを決定する。即ち、ナビゲーション装置２０は、表示される複数の候補における音声認識候補の比率を大きくし、２つの音声認識候補と、１つの統計候補とを表示する。その結果、図４（ｂ）に示すように、音声認識候補１位と、音声認識候補２位と、統計候補１位であるコマンド「名称で探す」とが候補表示部４２に表示される。

　このように、本実施例では、音声認識候補が正解である可能性、具体的には音声認識候補１位と２位の尤度差に応じて、表示される複数の候補のうち音声認識候補と統計候補の比率を変化させる。これにより、限られた表示領域を有効に利用して利用者に有益な候補を提示することができる。

　次に、上記の情報出力処理について説明する。図５は第１実施例による情報出力処理のフローチャートである。この処理は、ナビゲーション装置２０のＣＰＵが予め用意されたプログラムを実行し、制御部３０、音声認識部２５などの各構成要素として動作することにより実現される。なお、音声入力に対して統計情報に基づく統計候補を表示するか否かはナビゲーション装置２０の利用者が任意に決定する。即ち、利用者は、統計情報を使用するモードと使用しないモードのいずれかを予め選択してナビゲーション装置２０に設定しておくものとする。

　まず、利用者により音声入力がなされると、マイク２４はその音声を集音して音声データとして音声認識部２５へ供給し、音声認識部２５は音声認識処理を行う（ステップＳ１０）。具体的には、音声認識部２５は、音声認識処理により、尤度の高い複数の音声認識候補、例えば音声認識候補１位～５位を決定する。

　次に、制御部３０は、利用者により統計情報を使用するモードが選択されているか否かを判定する（ステップＳ１１）。統計情報を使用するモードが選択されていない場合（ステップＳ１１；Ｎｏ）、制御部３０は、音声認識候補１位～３位を表示すべき候補（「以下、「表示候補」と呼ぶ。）と決定し（ステップＳ１３）、ステップＳ１７へ進む。

　一方、統計情報を使用するモードが選択されている場合（ステップＳ１１；Ｙｅｓ）、制御部３０は、音声入力が行われた日時をサーバ１０へ送信し、その日時に対応する、順位が上位の複数の統計候補を取得する（ステップＳ１２）。

　次に、制御部３０は前述の式（１）～（３）に基づいて、音声認識候補１位と音声認識候補２位との尤度差が大きいか否かを判定する（ステップＳ１４）。尤度差が大きい場合（ステップＳ１４；Ｙｅｓ）、制御部３０は、図４（ａ）に例示するように音声認識候補１位と、統計候補１位及び２位を表示候補として決定する。一方、尤度差が大きくない場合（ステップＳ１４；Ｎｏ）、制御部３０は、図４（ｂ）に例示するように音声認識候補１位及び２位と、統計候補１位とを表示候補として決定する（ステップＳ１６）。

　そして、制御部３０は、ステップＳ１３、Ｓ１５又はＳ１６において決定された表示候補を表示装置２９に表示する（ステップＳ１７）。こうして情報表示処理は終了する。

　なお、その後に利用者が入力部２３を操作して表示装置２９に表示された３つの候補のうちのいずれかを選択した場合には、制御部３０は、選択された候補に対応するコマンドの処理を実行する。

　以上のように、第１実施例では、ナビゲーション装置２０は、利用者の音声入力に対して、音声認識候補と統計候補を含む複数の候補を提示する。これにより、音声認識処理において音響的な誤認識が生じたとしても、統計情報に基づく利用者の行動傾向に応じたコマンドが統計候補として提示されるので、利用者の体感上の認識率が高まる。また、その際、ナビゲーション装置２０は、音声認識候補の尤度に応じて、音声認識候補と統計候補の表示件数の比率を制御するので、限られた表示件数内で利用者に有益な候補を表示することが可能となる。

　なお、図４（ａ）の例では、ナビゲーション装置２０は尤度差が大きい場合に、音声認識候補１位に加えて統計候補１位及び２位を表示しているが、その代わりに、カテゴリ、ジャンルなどの分類が異なる統計候補１位を表示することとしてもよい。例えば、ナビゲーション装置２０は、尤度が大きい場合に、音声認識候補１位に加えて、カテゴリ「ナビ」についての統計候補１位である「名称で探す」と、カテゴリ「ＡＶ」についての統計候補１位である「ＴＶにする」を表示してもよい（図４（ｃ）参照）。

　また、図４（ｂ）の例では、ナビゲーション装置２０は、尤度差が小さい場合に、音声認識候補１位及び２位を表示しているが、その代わりに、カテゴリ、ジャンルなどの分類が異なる音声認識候補１位を表示することとしてもよい。例えば、ナビゲーション装置２０は、分類を問わない音声認識候補１位と、音声認識候補２位以下の候補であって音声認識候補１位と異なる分類の候補（例えば、音声認識候補１位がカテゴリ「ＡＶ」のコマンドであれば、カテゴリ「ナビ」の音声認識候補のうち最上位のもの）を表示することとしてもよい。

　［第２実施例］
　次に、第２実施例について説明する。第２実施例は、基本的に第１実施例の手法を前提とする。但し、候補表示部４２に表示される候補が重複する場合や複数回の音声入力に対して同じ候補が繰り返し表示される場合などに、表示候補を変更して候補表示部４２を有効に利用することを特徴とする。以下、ケース毎に説明する。なお、以下の例では、統計候補の順位は図４（ｃ）に示す例とは限らないものとする。

　（ケース１）
　ケース１は、同時に表示される３つの候補に重複する候補が含まれる場合である。具体的に、図６（ａ）の表示例５０では、音声認識候補１位及び２位と、統計候補１位が表示されているが、音声認識候補１位と統計候補１位はともにコマンド「名称で探す」であり、両者は重複している。この場合、制御部３０は、音声認識候補１位と統計候補１位のいずれか一方を変更する。例えば、図６（ａ）の表示例５１に示すように、統計候補１位の代わりに、統計候補２位のコマンド「自宅に帰る」を表示する。なお、このように変更した後に新たな重複が生じた場合には、制御部３０はさらに下位の統計候補に変更すればよい。

　このように、同時に表示される複数の候補に重複する候補が含まれる場合には、音声認識候補を優先しつつ、重複しないように統計候補を変更すればよい。これにより、同時に表示される候補の重複が排除され、候補表示部４２が有効に利用される。

　なお、上記の例のように、音声認識候補１位と統計候補１位とが重複した場合には、音声認識候補１位を変更せず、統計候補１位を変更するのが望ましいが、音声認識候補２位と統計候補１位とが重複した場合には、音声認識候補２位の代わりに音声認識候補３位を表示してもよい。

　同時に表示される３つの候補に重複する候補が含まれ、かつ、音声認識候補１位と２位との尤度差が大きい場合、音声認識候補１位が正解である可能性が高いので、制御部３０は音声認識候補１位をそのまま表示する。また、制御部３０は、２つの統計候補については、図６（ｂ）に示すように、総合の統計候補１位と２位を表示してもよいし、異なるグループの統計候補１位と２位、又は、ＡＶについての統計候補１位とナビについての統計候補１位と２位を表示してもよい。

　また、同時に表示される３つの候補に重複する候補が含まれ、かつ、音声認識候補１位と２位との尤度差が小さい場合には、音声認識候補１位が正解である可能性が低いので、制御部３０は、統計候補１位を表示する。制御部３０は、２つの音声認識候補として、図６（ｃ）に示すように、総合の音声認識候補１位と２位を表示してもよく、ＡＶについての音声認識候補１位とナビについての音声認識候補１位を表示してもよく、異なるジャンルの音声認識候補１位を表示してもよい。

　（ケース２）
　ケース２は、統計候補が示すコマンドが、現在のナビゲーション装置２０の使用状態と一致する場合である。具体的に、図７（ａ）の表示例５２では、制御部３０は統計候補１位をコマンド「ラジオにする」に決定したが、ナビゲーション装置２０では現在ラジオが使用されていると仮定する。この場合、利用者の音声入力がコマンド「ラジオにする」であることは考えにくいので、制御部３０は、表示例５３に示すように、統計候補１位の代わりに統計候補２位（コマンド「電話をかける」）を表示する。これにより、候補表示部４２を有効に活用することができる。

　（ケース３）
　ケース３は、同一時間帯に同じ音声入力が複数回あった場合である。複数回の音声入力が短い時間間隔で行われた場合、統計候補の順位は同一であるので、同一の候補が表示されることになる。そこで、同一時間帯に同じ音声入力が複数回あった場合は、統計候補を順位に従って変更して表示する。なお、同一時間帯とは、所定時間内を指し、例えば数分から数十分に設定される。

　例えば、図７（ｂ）に示すように、同一の音声入力が所定時間内に３回行われた場合、制御部３０は、音声認識候補を変更せず、表示すべき統計候補を、統計候補１位、統計候補２位、統計候補３位というように変更する。これにより、毎回同じ統計候補が表示されることが回避される。また、このように異なる統計候補を提示することにより、利用者にコマンドを学習する機会を与えることができる。なお、音声入力に対して用意した統計候補の数よりも多数回にわたり同一の音声入力が所定時間内になされた場合には、再度統計候補１位へ戻って表示を続ければよい。

　（情報出力処理）
　次に、第２実施例による情報出力処理について説明する。図８は第２実施例による情報出力処理のフローチャートである。この処理は、ナビゲーション装置２０のＣＰＵが予め用意されたプログラムを実行し、制御部３０、音声認識部２５などの各構成要素として動作することにより実現される。なお、第１実施例と同様に、利用者は、音声入力に対して統計情報に基づく統計候補を表示するか否かを決定し、統計情報を使用するモードと使用しないモードのいずれかを予め設定しておく。

　図８に示す情報出力処理において、ステップＳ２０～Ｓ２６の処理は、図５に示す第２実施例の情報出力処理のステップＳ１０～Ｓ１６と同様であるので、説明を省略する。

　ステップＳ２５又はＳ２６において表示候補が決定されると、制御部３０は、同一時間帯に同一の音声入力があったか否かを判定する（ステップＳ２７）。即ち、制御部３０は、ある音声入力がなされたときに、過去の所定時間以内に同一の音声入力がなされているか否かを判定する。これは、現在決定されている表示候補が、先に述べたケース３に該当するか否かの判定である。同一時間帯に同一の音声入力があった場合（ステップＳ２７；Ｙｅｓ）、処理はステップＳ２９へ進む。

　一方、同一時間帯に同一の音声入力がない場合（ステップＳ２７；Ｎｏ）、制御部３０は、ナビゲーション装置２０の現在の使用状態が統計候補と一致するか否かを判定する（ステップＳ２８）。これは、現在決定されている表示候補が、先に述べたケース２に該当するか否かの判定である。現在の使用状態が統計候補と一致する場合（ステップＳ２８；Ｙｅｓ）、処理はステップＳ２９へ進み、現在の使用状態が統計候補と一致しない場合（ステップＳ２８；Ｎｏ）、処理はステップＳ３０へ進む。

　ステップＳ２９では、制御部３０は、現在決定されている統計候補を、下位の統計候補に変更する。次に、制御部３０は、現在決定されている３つの表示候補に重複する候補があるか否かを判定する（ステップＳ３０）。これは、現在決定されている表示候補が、先に述べたケース１に該当するか否かの判定である。重複する候補がない場合（ステップＳ３０；Ｎｏ）、処理はステップＳ３２へ進む。一方、重複する候補がある場合（ステップＳ３０；Ｙｅｓ）、制御部３０は、重複する候補の一方を下位の候補に変更する（ステップＳ３１）。そして、制御部３０は、その時点における３つの表示候補を表示装置２９に表示する（ステップＳ３２）。こうして情報出力処理は終了する。

　なお、その後利用者が入力部２３を操作して表示装置２９に表示された３つの候補のうちのいずれかを選択した場合には、制御部３０は、選択された候補に対応するコマンドを実行する。

　以上のように、第２実施例では、表示候補が重複する候補を含む場合、統計候補が現在のナビゲーション装置２０の使用状態と一致する場合、又は、同一時間帯に同一の音声入力が複数回あった場合に、候補を変更して表示する。これにより、表示数が限定されている候補表示部４２を有効に活用し、利用者に有益な候補を提示することが可能となる。また、音声入力のやり直しの可能性を少しでも減らすことができ、利用者は表示された候補を見ることにより発話コマンドを学習することができる。

　［変形例１］
　上記の実施例では、音声認識処理がナビゲーション装置２０により実行され、統計情報に基づいて統計候補を決定する処理がサーバ１０により実行されている。しかし、本発明はこの例に限定されるものではない。

　例えば、統計候補を決定する処理と音声認識処理の両方をサーバ１０で実行することとしてもよい。その場合の情報システムの構成を図９に示す。サーバ１０は、サーバ装置１２、統計ＤＢ１４に加え、辞書ＤＢ１５を備える。ナビゲーション装置２０は、利用者が発話したコマンドの音声データをサーバ１０へ送信する。サーバ１０のサーバ装置１２は、辞書ＤＢ１５を参照して音声認識処理を実行して音声認識候補を決定し、ナビゲーション装置２０へ送信する。この構成でも、ナビゲーション装置２０は、音声認識候補と統計候補を取得することができる。

　また、統計候補を決定する処理をナビゲーション装置２０が実行し、音声認識処理をサーバ１０が実行することとしてもよい。その場合の情報システムの構成を図１０に示す。図９の例と同様に、サーバ１０はナビゲーション装置２０から送信された音声データについて音声認識処理を実行し、音声認識候補をナビゲーション装置２０へ送信する。また、ナビゲーション装置２０は、定期的にサーバ１０へアクセスし、統計ＤＢ１４に記憶されている統計情報をサーバ１０からダウンロードして統計ＤＢ３２へ保存しておく。そして、ナビゲーション装置２０は、利用者が音声入力を行うと、統計ＤＢ３２を参照して統計候補を決定する。

　さらには、統計候補を決定する処理と音声認識処理の両方をナビゲーション装置２０が実行することとしてもよい。その場合の情報システムの構成を図１１に示す。第１及び第２実施例と同様に、ナビゲーション装置２０は、辞書ＤＢ２６を利用して、音声認識処理を実行する。また、図１０の例と同様に、ナビゲーション装置２０は定期的にサーバ１０から統計情報をダウンロードし、統計ＤＢ３２へ保存しておく。そして、ナビゲーション装置２０は、利用者が音声入力を行うと、統計ＤＢ３２を参照して統計候補を決定する。

　［変形例２］
　上記の実施例では、統計情報は、各コマンドの使用頻度を日時に着目して統計処理したものであったが、本発明の適用はこれには限定されない。例えば、各コマンドの使用頻度を、利用者、複数の利用者により構成されるグループ、特定のエリア、行動が類似する利用者、同一車種、ＳＮＳ（Ｓｏｃｉａｌ　Ｎｅｔｗｏｒｋｉｎｇ　Ｓｅｒｖｉｃｅ）サイト上の友人、同一の目的地を設定している利用者などのグループに着目して統計処理することにより統計情報を生成し、その統計情報を用いて統計候補を決定することとしてもよい。

　本発明は、音声入力により制御可能な機器に利用することができる。

　１０　サーバ
　１２　サーバ装置
　１４　統計ＤＢ
　２０　ナビゲーション装置
　２５　音声認識部
　２６　辞書ＤＢ
　２７　出力制御部
　２９　表示装置
　３０　制御部

Claims

　音声を入力する入力手段と、
　入力された音声を音声認識して音声認識候補を出力する音声認識手段と、
　前記音声が入力された際の利用者の利用状況に対応して、使用頻度の高い候補である統計候補を決定する統計候補決定手段と、
　前記音声認識候補と前記統計候補とを表示部に表示する表示制御手段と、を備え、
　前記表示制御手段は、前記音声認識により得られた音声認識候補の尤度に応じて、前記音声認識候補と前記統計候補の表示件数の比率を決定することを特徴とする情報出力装置。
　前記表示制御手段は、前記音声認識の結果、他の音声認識候補に対して所定の閾値以上に尤度の高い音声認識候補が存在する場合、音声認識候補の表示件数の比率を下げることを特徴とする請求項１に記載の情報出力装置。
　前記統計候補は、利用者自身又は他の利用者による使用頻度が、他の候補の使用頻度よりも高い候補であることを特徴とする請求項１又は２に記載の情報出力装置。
　前記統計候補決定手段は、前記音声が入力された日時における使用頻度が、他の候補の使用頻度よりも高い候補を統計候補として決定することを特徴とする請求項１乃至３のいずれか一項に記載の情報出力装置。
　前記表示制御手段は、前記音声認識候補と前記統計候補とで重複する候補が存在する場合、いずれか一方に代えて、次に尤度の高い音声認識候補又は次に使用頻度の高い統計候補を表示することを特徴とする請求項１乃至４のいずれか一項に記載の情報出力装置。
　前記表示制御手段は、所定時間内に同一の音声が複数回入力された場合、前回表示した統計候補とは異なる統計候補を表示することを特徴とする請求項１乃至４のいずれか一項に記載の情報出力装置。
　前記表示制御手段は、表示すべき統計候補が示す状態が、その時点における状態と一致する場合、当該表示すべき統計候補に代えて、次に使用頻度の高い統計候補を表示することを特徴とする請求項１乃至４のいずれか一項に記載の情報出力装置。
　前記音声認識手段は、入力された音声を外部の音声認識装置へ送信し、当該外部の音声認識装置から音声認識候補を取得することを特徴とする請求項１乃至７のいずれか一項に記載の情報出力装置。
　前記統計候補決定手段は、前記音声が入力された際の利用者の利用状況を示す情報をサーバへ送信し、当該利用状況に対応する統計候補を前記サーバから受信することを特徴とする請求項１乃至８のいずれか一項に記載の情報出力装置。
　請求項１乃至７のいずれか一項に記載の情報出力装置と、
　複数の前記情報出力装置から操作履歴情報を収集するとともに、収集した操作履歴情報に基づいて統計情報を生成するサーバと、を備え、
　前記統計候補決定手段は、前記サーバから配信された統計情報を用いて統計候補を決定することを特徴とする情報システム。
　表示部を有する情報出力装置において実行される情報出力方法であって、
　音声を入力する入力工程と、
　入力された音声を音声認識して音声認識候補を出力する音声認識工程と、
　前記音声が入力された際の利用者の利用状況に対応して、使用頻度の高い候補である統計候補を決定する統計候補決定工程と、
　前記音声認識候補と前記統計候補とを前記表示部に表示する表示制御工程と、を備え、
　前記表示制御工程は、前記音声認識により得られた音声認識候補の尤度に応じて、前記音声認識候補と前記統計候補の表示件数の比率を決定することを特徴とする情報出力方法。
　コンピュータを有する情報出力装置において実行される情報出力プログラムであって、
　音声を入力する入力手段、
　入力された音声を音声認識して音声認識候補を出力する音声認識手段、
　前記音声が入力された際の利用者の利用状況に対応して、使用頻度の高い候補である統計候補を推定する推定手段、
　前記音声認識候補と前記統計候補とを表示部に表示する表示制御手段、として前記コンピュータを機能させ、
　前記表示制御手段は、前記音声認識により得られた音声認識候補の尤度に応じて、前記音声認識候補と前記統計候補の表示件数の比率を決定することを特徴とする情報出力プログラム。
　請求項１２に記載の情報出力プログラムを記憶した記憶媒体。