JP2010287025A

JP2010287025A - 情報提示装置および情報提示方法

Info

Publication number: JP2010287025A
Application number: JP2009140044A
Authority: JP
Inventors: Takeshi Ono; 健大野; Minoru Togashi; 実冨樫; Keiko Katsuragawa; 景子桂川
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2009-06-11
Filing date: 2009-06-11
Publication date: 2010-12-24

Abstract

【課題】ユーザが所望するコンテンツ情報を適切に提示可能な情報提示装置を提供する。
【解決手段】ユーザに提示するためのコンテンツ情報を取得する取得手段と、コンテンツ情報に含まれるテキスト情報を構成する複数の単語の中から、コンテンツ情報の内容を表す単語である特定語を複数抽出する抽出手段と、抽出手段により抽出された複数の特定語を特定語群として記憶する記憶手段と、ユーザの発話音声を認識する認識手段と、ユーザの発話音声に含まれる単語が、特定語群を構成するいずれかの特定語に対応するかを判断し、ユーザの発話音声に含まれる単語に対応する特定語を含む特定語群を選択する選択手段と、選択手段により、ユーザの発話音声に含まれる単語と対応する特定語を含む特定語群が選択された場合に、選択された特定語群を構成する各特定語に関連するコンテンツ情報を、ユーザに提示する提示手段と、を備えることを特徴とする情報提示装置。
【選択図】図１

Description

本発明は、情報提示装置および情報提示方法に関するものである。

外部サーバから複数のリンク情報を含む情報を受信し、受信した情報に含まれる複数のリンク情報に対応するリンク対応語を、ユーザに対して音声で出力し、これに対してユーザが発話した場合に、ユーザが発話した音声からリンク対応語を認識し、認識したリンク対応語に対応するリンク情報に基づいて、ユーザが要求した情報を取得する技術が知られている（特許文献１）。

特開２００１−２５５８８５号公報

しかしながら、従来技術では、受信した情報に予め設定されているリンク情報に基づく情報しか取得できないため、ユーザが所望する情報を取得するためには、リンク情報に基づく情報の受信と、ユーザによる発話とを複数回繰り返す必要がある場合があり、このような場合に、ユーザに煩わしさを与えるとともに、ユーザが所望する情報を取得するまでの時間を増大させるという問題があった。

本発明が解決しようとする課題は、ユーザが所望するコンテンツ情報を適切に提示可能な情報提示装置を提供することである。

本発明は、コンテンツ情報に含まれる単語の中から、前記コンテンツ情報の内容を表す単語である特定語を複数抽出し、抽出した複数の特定語を特定語群として記憶し、ユーザの発話音声を認識した場合に、ユーザの発話音声に含まれる単語が、特定語群を構成するいずれかの特定語に対応するかを判断し、ユーザの発話音声に含まれる単語が特定語群を構成するいずれかの特定語に対応すると判断された場合に、ユーザの発話音声に含まれる単語に対応する特定語を含む特定語群を構成する各特定語に関連するコンテンツ情報を、ユーザに提示することで、上記課題を解決する。

本発明によれば、ユーザが所望するコンテンツ情報の内容に関連する複数の特定語に基づいて、ユーザに提示するコンテンツ情報を選択するため、ユーザが所望するコンテンツ情報を直接的に選択することができ、ユーザが所望するコンテンツ情報を取得するまでに必要となるユーザの発話の回数および時間を減少させることができる。その結果として、ユーザが所望するコンテンツ情報を適切に提示可能とすることができる。

本実施形態に係るナビゲーション装置の構成図である。コンテンツ情報に含まれるテキスト情報の一例を示す図である。認識対象語登録処理を示すフローチャートである。ディスプレイに表示されるタイトル一覧表の一例を示す図である。ユーザが所望するタイトル情報が選択された場合に、ディスプレイ３０の画面上に表示されるタイトル一覧表の一例を示す図である。ユーザが所望するタイトル情報が選択されるまでに出力される音声の一例を示す図である。本文情報に基づいて出力される合成音声の一例を示す図である。ステップＳ１０９の登録処理の内容を示すフローチャートである。テキスト情報について、形態素解析を行って得られた結果の一例を示す図である。形態素解析によりテキスト情報から分割された複数の単語のうち、自立語の名詞である単語を抽出した結果の一例を示した図である。自立語の名詞である単語のうち、タイトル情報と本文情報とに共通して含まれる単語を抽出した結果の一例を示す図である。自立語の名詞である単語のうち、タイトル情報と本文情報とにおいて同義関係にある単語を抽出した結果の一例を示す図である。自立語の名詞である単語のうち、未知語である単語を抽出した結果の一例を示した図である。特定語として抽出された単語のうち、他の外部サーバからダウンロードしたコンテンツ情報において共通して使用されている単語の一例を示す図である。自立語の名詞である単語のうち、重要特定語として設定された単語の一例を示した図である。特定語および重要特定語を音声認識用辞書への登録する手法例を説明するための図である。コンテンツ情報提示処理を示すフローチャートである。コンテンツ情報提示処理の一場面例を示す図である。

以下、本発明の実施形態を図面に基づいて説明する。
図１は、本実施形態に係るナビゲーション装置１００の構成を示す図である。図１に示すように、ナビゲーション装置１００はナビゲーション装置本体１０を備え、ナビゲーション装置本体１０に、マイク２０、ディスプレイ３０、スピーカ４０、および入力スイッチ５０が、ＣＡＮ（Controller Area Network）その他の車載ＬＡＮを介して、それぞれ接続されている。

以下、ナビゲーション装置１００の各構成について説明する。

マイク２０は、車両室内に設置され、車両室内に出力された音声を集音し、集音した音声をアナログの音声信号に変換し、アナログの音声信号をナビゲーション装置本体１０に送信する。

ディスプレイ３０は、ディスプレイ３０が備える画面上に、ユーザが要求したコンテンツ情報などの各種情報を表示する。コンテンツ情報とは、詳細は後述するが、例えば、ニュースなどの情報であり、テキスト形式のテキスト情報に加えて、画像情報、または音楽情報などが含まれる。

スピーカ４０は、ナビゲーション装置本体１０から送信されたアナログの音声信号に基づいて、車両室内に音声を出力する。なお、スピーカ４０から出力される音声としては、コンテンツ情報のテキスト情報に基づいて作成された合成音声などが挙げられる。

入力スイッチ５０には、例えば、ユーザの発話音声の音声認識処理を開始するための音声認識開始スイッチ、ユーザからの入力を受け付けるタッチパネル、およびナビゲーション装置１００の各機能についてユーザが操作するためのスイッチなどが含まれる。なお、タッチパネルはディスプレイ３０の画面上に配置されてもよいし、ディスプレイ３０とは別に設置してもよい。また、ユーザにより音声認識開始スイッチが押下された場合、音声認識開始スイッチからナビゲーション装置本体１０に、音声認識開始スイッチが押下された旨の信号が送信され、ユーザの発話音声の取り込みが開始される。

外部サーバ１２０は、車両外部に設置され、例えば、ニュースなどのコンテンツ情報を記憶する。ナビゲーション装置１００は、インターネットなどの電気通信網１１０を介して、外部サーバ１２０に接続する。そして、ナビゲーション装置１００は、外部サーバ１２０に対して、ユーザが要求するコンテンツ情報の要求情報を送信し、外部サーバ１２０は、ナビゲーション装置１００の要求情報に応じて、ユーザが要求するコンテンツ情報をナビゲーション装置１００に提供する。なお、外部サーバ１２０に記憶されるコンテンツ情報は、定常的に、更新される。

続いて、ナビゲーション装置本体１０について説明する。ナビゲーション装置本体１０は、図１に示すように、Ａ／Ｄコンバータ１１、コントローラ１２、外部記憶装置１３、Ｄ／Ａコンバータ１４、およびアンプ１５を備える。

Ａ／Ｄコンバータ１１は、マイク２０から送信されたアナログの音声信号をサンプリングし、さらに量子化することで、マイク２０から送信されたアナログの音声信号を、音声出力用のデジタル信号に変換し、コントローラ１２に送信する。

また、Ｄ／Ａコンバータ１４は、コントローラ１２から送信された音声出力用のデジタル信号をアナログの音声信号に変換し、アンプ１５に送信する。アンプ１５は、Ｄ／Ａコンバータ１４から送信されたアナログの音声信号を増幅し、スピーカ４０に送信する。

外部記憶装置１３には、ユーザの音声を認識するための音声認識処理で使用される音声認識用の辞書と、およびコンテンツ情報に含まれるテキスト情報を解析するための文章解析用の辞書とが記憶されている。音声認識用辞書には、ユーザの発話音声を認識するための音声認識処理において、音声認識の対象となる認識対象語の他、認識対象語の音響モデル、および認識対象語とその接続関係を規定したネットワーク文法などの言語モデルが含まれる。なお、認識対象語の音響モデルとは、音響的に意味を持つ部分単語モデルを定義したものである。

また、外部記憶装置１３は、必要に応じて、ユーザが発話する際において、ユーザがナビゲーション装置１００またはその他各種車載装置を操作した操作履歴および／または上記操作が行なわれた際の状況履歴を、ユーザの発話音声に関連付けて記憶する構成としてもよい。

コントローラ１２は、ユーザにより要求されたコンテンツ情報から、該コンテンツ情報の内容を表わす単語を、ユーザの発話音声を認識する際に用いる認識対象語として抽出し、音声認識用辞書に登録する認識対象語登録処理を行う。また、コントローラ１２は、ユーザの発話音声に基づいて、認識対象語登録処理で登録した認識対象語を用いて、ユーザが要求するコンテンツ情報を、ユーザに提示するコンテンツ情報提示処理を行う。なお、これら処理の具体的内容については、後述する。

コントローラ１２は、認識対象語登録処理およびコンテンツ情報提示処理のためのプログラムを格納したＲＯＭ（Read Only Memory）と、このＲＯＭに格納されたプログラムを実行するＣＰＵ（Central Processing Unit）と、アクセス可能な記憶装置として機能するＲＡＭ（Random Access Memory）とから構成される。なお、動作回路としては、ＣＰＵ（Central Processing Unit）に代えて又はこれとともに、ＭＰＵ（Micro Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）などを用いることができる。

コントローラ１２は、ＲＯＭに格納されたプログラムをＣＰＵにより実行することにより、取得機能、抽出機能、記憶機能、認識機能、選択機能、および提示機能の各機能を実現する。以下に、コントローラ１２が備える各機能について詳細に説明する。

取得機能は、電気通信網１１０を介して、ユーザが要求したコンテンツ情報を、外部サーバ１２０から取得する。また取得機能は、電気通信網１１０を介して、外部サーバ１２０以外の他の外部サーバと通信し、ユーザが要求したコンテンツ情報に類似するコンテンツ情報を、他の外部サーバから取得する。

抽出機能は、認識対象語登録処理において、コンテンツ情報に含まれるテキスト情報を構成する複数の単語の中から、コンテンツ情報の内容を表す単語を特定語として抽出する。ここで、図２は、コンテンツ情報に含まれるテキスト情報の一例を示す図である。図２に示すように、テキスト情報は、コンテンツ情報のタイトルを示すタイトル情報と、コンテンツ情報の詳細を示す本文情報とから構成されている。例えば、図２に示すコンテンツ情報は、「米大統領選挙」に関するコンテンツ情報であり、「米大統領選接戦州でも開票」というタイトル情報と、「アメリカ大統領選挙は、勝敗の鍵を握るとされる南部□□州や△△州などの接戦州でも開票が始まり、■■党の○○氏と▲▲党の××氏が激しく競り合っています。」との本文情報とから構成される。抽出機能は、例えば、図２に示す「米大統領選挙」に関するコンテンツ情報について、該コンテンツ情報の内容を表す単語である「米」、「大統領」、「選挙」などの複数の単語を特定語として抽出する。なお、抽出機能による特定語の具体的な抽出方法については、後述する。

記憶機能は、認識対象登録処理において、抽出機能により、１つのコンテンツ情報から抽出された複数の特定語を、１つの特定語グループを構成する認識対象語として、音声認識用辞書に登録する。また、記憶機能は、特定語を認識対象語として音声認識用辞書に登録する際、特定語グループに後述する定型句グループを関連付けて、認識対象語グループとして、音声認識用辞書に記憶する。

認識機能は、コンテンツ情報提示処理において、ユーザにより発話された発話音声に含まれる単語と、音声認識用辞書に登録された認識対象語との適合度合を演算することで、ユーザの発話音声の音声認識処理を行う。具体的には、外部記憶装置１３に記憶されている音声認識用辞書を参照して、音声認識処理の対象となる認識対象語や、認識対象語の音響モデル、さらには、認識対象語とその接続関係を規定したネットワーク文法などの言語モデルを、音声認識用辞書から読み出し、ＲＡＭに読み込む。そして、入力された音声信号の音声特徴パターンとＲＡＭに読み込まれたそれぞれの認識対象語の音声特徴パターンとの一致度を演算し、一致度の大きさを示すスコアを認識対象語ごとに算出する。さらに、認識機能は、一致度に応じて算出されたスコアを、認識対象語の重要度に応じて補正して、適合度合を演算する。例えば、認識対象語は、重要度に応じた重み付け係数を有しており、一致度に応じて算出されたスコアに、重み付け係数を乗算することで、認識対象語のスコアを補正し、補正されたスコアを適合度合として算出する。そして、算出された適合度合が最も高い認識対象語を音声認識結果として抽出する。

選択機能は、コンテンツ情報提示処理において、ユーザの発話音声に含まれると認識された認識対象語が、音声認識用辞書に記憶されたいずれかの特定語グループに属するかを判断する。そして、ユーザの発話音声に含まれると認識された認識対象語が、いずれかの特定語グループに属すると判断された場合に、該認識対象語を有する特定語グループを選択する。なお、選択機能により特定語グループが選択された場合、取得機能により、選択された特定語グループを構成する複数の認識対象語を含むコンテンツ情報が取得され、後述する提示機能により、取得されたコンテンツ情報がユーザに提示される。

提示機能は、ユーザに提示すべきコンテンツ情報をディスプレイ３０およびスピーカ４０に送信し、ディスプレイ３０およびスピーカ４０を介して、該コンテンツ情報をユーザに提示する。なお、提示機能は、スピーカ４０を介してコンテンツ情報を提示する際には、波形接続方式やＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）など既知の音声合成方法などにより、テキスト形式のコンテンツ情報のテキスト情報から合成音声出力用のデジタル信号を作製し、作製した合成音声出力用のデジタル信号をＤ／Ａコンバータ１４に送信することで、コンテンツ情報を音声としてユーザに提示する。

次に、図３を参照して、音声認識用辞書に認識対象語を新たに登録する認識対象語登録処理について説明する。図３は、認識対象語登録処理を示すフローチャートである。以下に説明する処理は、コントローラ１２により一定時間間隔で実行される。なお、以下においては、ユーザにより、図２に示すコンテンツ情報が要求された場面例について説明する。

ステップＳ１０１では、ユーザにより、コンテンツ情報の取得が要求されたか判断される。例えば、ディスプレイ３０上に配置されるタッチパネルを介して、ディスプレイ３０の画面上に表示される「今日のニュースヘッドライン」との表示スイッチが、ユーザにより押下された場合、コントローラ１２は、タッチパネルから送信される信号を受けて、ユーザにより「今日のニュースヘッドライン」に関するコンテンツ情報の取得が要求されたものと判断する。また、例えば、ユーザが、「今日のニュースヘッドライン」と発話した場合に、ユーザの発話音声を認識し、ユーザにより「今日のニュースヘッドライン」に関するコンテンツ情報の取得が要求されたものと判断してもよい。コンテンツ情報の取得が要求されたと判断された場合はステップＳ１０２に進み、一方、コンテンツ情報の取得が要求されていないと判断された場合は、ステップＳ１０１に戻り、一定時間経過した後に、再度、コンテンツ情報の取得が要求されたか判断される。

ステップＳ１０２では、取得機能により、ユーザの要求に応じた複数のコンテンツ情報が取得される。ステップＳ１０１において、コンテンツ情報の取得が要求された場合、コントローラ１２は、ユーザにより取得が要求されたコンテンツ情報を取得するための要求情報を、インターネットなどの電気通信網１１０を介して、外部サーバ１２０に送信する。外部サーバ１２０は、コントローラ１２から送信された要求情報に応じた複数のコンテンツ情報を、コントローラ１２に送信する。例えば、取得機能は、「今日のニュースヘッドライン」に関するコンテンツ情報を取得するための要求情報を外部サーバ１２０に送信し、図２に示すコンテンツ情報を含む「今日のニュースヘッドライン」に関する複数のコンテンツ情報を取得する。

ステップＳ１０３では、取得された複数のコンテンツ情報のタイトル情報が抽出され、抽出された複数のタイトル情報を一覧にしたタイトル一覧表が作成される。そして、作成されたタイトル一覧表が、ディスプレイ３０の画面上に表示される。図４は、ディスプレイ３０に表示されるタイトル一覧表の一例を示す図である。なお、図４においては、タイトル一覧表を構成する複数のタイトル情報のうち、一部のタイトル情報については、具体的な内容を省略し、「・・・」で表示している。

例えば、図２に示すコンテンツ情報を含む「今日のニュースヘッドライン」に関する複数のコンテンツ情報が取得された場合、取得された複数のコンテンツ情報のタイトル情報に基づいて、タイトル一覧表が作成され、図４に示すように、ディスプレイ３０の画面上に表示される。タイトル一覧表が作成された初期状態においては、タイトル一覧表の先頭に位置するタイトル情報が自動的に選択される。ユーザが、現在選択されているタイトル情報を把握できるよう、図４に示すように、ディスプレイ３０の画面上において、現在選択されているタイトル情報が、ハイライトで表示される。

次に、ステップＳ１０４では、選択されているタイトル情報に基づく合成音声の出力が開始される。具体的には、タイトル情報に基づいて、合成音声出力用のデジタル信号が作製され、作製された合成音声出力用のデジタル信号を、Ｄ／Ａコンバータ１４に送信する。Ｄ／Ａコンバータ１４では、送信された合成音声出力用のデジタル信号がアナログ信号に変換され、次いで、アンプ１５で増幅された後に、スピーカ４０を介して、合成音声として出力され、ユーザに提示される。

ステップＳ１０５では、ユーザにより、現在選択されているタイトル情報と別のタイトル情報が選択されたか判断される。別のタイトル情報が選択されたと判断された場合は、出力しているタイトル情報の音声出力を停止し、ステップＳ１０６に進み、別のタイトル情報の音声出力が開始される。一方、別のタイトル情報が選択されていない場合は、ステップＳ１０７に進む。ステップＳ１０７では、現在選択されているタイトル情報が最後まで出力されたか判断される。現在選択されているタイトル情報の音声出力が最後まで出力されたと判断された場合は、ステップＳ１０８に進み、一方、現在選択されているタイトル情報の音声出力が最後まで出力されていないと判断された場合は、ステップＳ１０５に戻り、ステップＳ１０５からステップＳ１０７までの処理を繰り返す。

ここで、ユーザが、図４に示すタイトル一覧表において、ユーザが所望する「米大統領選接戦州でも開票」とのタイトル情報を選択する場面例について説明する。上述したように、タイトル一覧表が作成された初期状態においては、タイトル一覧表の先頭に位置するタイトル情報が自動的に選択され、「○月の雇用統計発表」とのタイトル情報の音声出力が開始される（ステップＳ１０４）。ユーザは、ユーザが所望する「米大統領選接戦州でも開票」を選択するために、タイトル一覧表において、現在選択されている「○月の雇用統計発表」とのタイトル情報の次に位置するタイトル情報を選択する（ステップＳ１０５＝ＹＥＳ）。これにより、「米大統領選接戦州でも開票」の次に位置するタイトル情報が選択され、音声出力が開始される（ステップＳ１０６）。ここで、ユーザは、ユーザが要求する「米大統領選接戦州でも開票」とのタイトル情報を選択するために、「米大統領選接戦州でも開票」の次に位置するタイトル情報の音声が最後まで出力される前に、さらに次のタイトル情報を選択する（ステップＳ１０７＝ＮＯ、ステップＳ１０５＝ＹＥＳ）。

このように、連続的に、選択されているタイトル情報の次のタイトル情報を選択することで、ユーザが所望する「米大統領選接戦州でも開票」とのタイトル情報が選択される。図５は、ユーザが所望する「米大統領選接戦州でも開票」とのタイトル情報が選択された場合に、ディスプレイ３０の画面上に表示されるタイトル一覧表の一例である。ユーザにより、連続的に、次のタイトル情報が選択されることで、図４に示すように、タイトル一覧表の先頭に位置するタイトル情報が選択された状態から、図５に示すように、ユーザが所望する「米大統領選接戦州でも開票」とのタイトル情報が選択された状態になる。この「米大統領選接戦州でも開票」とのタイトル情報は、ユーザが要求するタイトル情報であるため、この「米大統領選接戦州でも開票」とタイトル情報は、音声出力の途中で次のタイトル情報に変更されることなく、最後まで音声出力される（ステップＳ１０７＝ＹＥＳ）。

次に、上述したユーザが所望する「米大統領選接戦州でも開票」とのタイトル情報を選択する場面例において、ナビゲーション装置１００から出力される音声の出力態様について説明する。図６は、ユーザにより所望されたタイトル情報が選択されるまでに出力される音声の一例を示す図である。なお、図６では、音声出力されなかったタイトル情報を「・・・」で表している。まず、タイトル一覧表が作成された初期状態においては、タイトル一覧表の先頭に位置するタイトル情報が自動的に選択され、「○月の雇用統計発表」とのタイトル情報の音声出力が開始される。ここで、ユーザは、ユーザが要求する「米大統領選接戦州でも開票」を選択するために、タイトル一覧表において、選択されているタイトル情報の次に位置するタイトル情報を連続的に選択する。そのため、図６に示すように、「○月の雇用統計発表」とのタイトル情報が「○月の」まで音声出力されたタイミングで、「○月の雇用統計発表」とのタイトル情報の次のタイトル情報が選択され、「○月の雇用統計発表」とのタイトル情報は「○月の」で音声出力が終了している。さらに、ユーザにより、「○月の雇用統計発表」とのタイトル情報に続くタイトル情報が、該タイトル情報が出力される前にスキップされ、図６に示すように、ユーザが所望する「米大統領選接戦州でも開票」とのタイトル情報が選択される。このタイトル情報は、ユーザが所望するタイトル情報であるため、図６に示すように、最後まで音声出力される。

なお、別のタイトル情報を選択するための手法は特に限定されず、例えば、ユーザによる「次。」または「前。」などの発話音声を認識して、現在選択されているタイトル情報の次または前のタイトル情報を選択してもよいし、または、ユーザにより、タッチパネル上に表示される表示スイッチが押下されたこと検出して、表示スイッチが指示するタイトル情報を選択してもよい。

ステップＳ１０８では、現在選択されているタイトル情報に対応する本文情報、すなわちユーザが要求したコンテンツ情報が有する本文情報に基づく合成音声が作製され、作製された合成音声が、ユーザに対して出力される。図７は、本文情報に基づいて出力される合成音声の一例を示す図である。タイトル情報が音声出力された後は、タイトル情報の音声出力に続いて、図７に示すように、出力されたタイトル情報に対応する本文情報が出力される。図２に示すように、「米大統領選接戦州でも開票」とのタイトル情報を有するコンテンツ情報は、「アメリカ大統領選挙は、勝敗の鍵を握るとされる南部□□州や△△州などの接戦州でも開票が始まり、■■党の○○氏と▲▲党の××氏が激しく競り合っています。」との本文情報を有しており、コントローラ１２は、「米大統領選接戦州でも開票」とのタイトル情報に続いて、「アメリカ大統領選挙は、勝敗の鍵を握るとされる南部□□州や△△州などの接戦州でも開票が始まり、■■党の○○氏と▲▲党の××氏が激しく競り合っています。」との本文情報を音声で出力させる。

ステップＳ１０９では、ユーザが要求したコンテンツ情報から特定語および重要特定語を抽出し、抽出した特定語および重要特定語を音声認識用辞書に登録する登録処理が行われる。図８は、ステップＳ１０９の登録処理の内容を示すフローチャートである。以下、図８を参照して、ステップＳ１０９の登録処理について説明する。なお、ステップＳ１０９の登録処理は、ステップＳ１０８において本文情報の音声出力が開始された後、該本文情報の音声出力と並行して行われる。

まず、ステップＳ２０１では、抽出機能により、コンテンツ情報のテキスト情報について、形態素解析が行われる。形態素解析とは、テキスト情報を、テキスト情報を構成する複数の単語（形態素）に分割し、分割された各単語の品詞を判別する処理である。図９は、図２に示すテキスト情報について、形態素解析を行って得られた結果の一例を示す図である。図９に示すように、タイトル情報および本文情報は、意味を持つ最小単位の単語に分割され、また、分割された単語について、名詞であるかなどの品詞が判別される。

続いて、ステップＳ２０２では、形態素解析によりテキスト情報から分割された複数の単語のうち、自立語である名詞である単語が抽出される。図９に示すように、形態素解析により分割された単語は、自立語である名詞の他にも、動詞や助詞などの単語が含まれる。抽出機能は、形態素解析によりテキスト情報から分割された単語のうち、動詞や助詞などの単語を除き、自立語の名詞である単語を抽出する。

図１０は、形態素解析によりテキスト情報から分割された複数の単語のうち、自立語の名詞である単語を抽出した結果の一例を示した図である。図１０に示すように、タイトル情報からは、例えば「米」、「国」、「大統領」などの自立語の名詞である単語が抽出され、また本文情報からは、例えば「アメリカ」、「大統領」、「選挙」などの自立語である名詞である単語が抽出される。しかし、図１０の本文情報のように、自立語の名詞である単語には、「アメリカ」、「大統領」、「選挙」などの「米大統領選挙」に関するコンテンツ情報の内容を表す単語も含まれているが、「鍵」、「南部」などの「米大統領選挙」に関するコンテンツ情報の内容を直接的に表す単語ではない単語も含まれる。

このような「鍵」および「南部」などの単語は、「米大統領選挙」に関するコンテンツ情報の内容を直接的に表す単語ではなく、ユーザが「米大統領選挙」に関するコンテンツ情報を要求する際に、ユーザにより発話される頻度が低い単語であると想定される。そこで、ステップＳ２０３以降において、コンテンツ情報の内容を表す単語であり、コンテンツ情報を要求する際に、ユーザにより発話される頻度が高いと想定される単語を特定語として抽出する。

まず、ステップＳ２０３では、抽出機能により、ステップＳ２０２で抽出された自立語の名詞である単語のうち、タイトル情報と本文情報とに共通して含まれる単語が特定語として抽出される。図１１は、自立語の名詞である単語のうち、タイトル情報と本文情報とに共通して含まれる単語を抽出した結果の一例を示す図である。なお、図１１においては、ステップＳ２０２で抽出された自立語の名詞である単語のうち、タイトル情報と本文情報とに共通して含まれる「大統領」、「接戦」、「州」、「開票」との単語を白抜きの四角で囲んでいる。例えば、図１１に示すように、タイトル情報に含まれる「大統領」、「接戦」、「州」、「開票」などの単語は、本文情報においても含まれており、抽出機能は、これらタイトル情報と本文情報とに共通して含まれる単語を特定語として抽出する。

さらに、続くステップＳ２０４では、抽出機能により、外部記憶装置１３に記憶された図示しない同義語辞書を用いて、ステップＳ２０２で抽出された自立語の名詞である単語のうち、タイトル情報と本文情報とにおいて同義関係にある単語が特定語として抽出される。図１２は、自立語の名詞である単語のうち、タイトル情報と本文情報とにおいて同義関係にある単語を抽出した結果の一例を示す図である。なお、図１２においては、タイトル情報と本文情報とにおいて同義関係にある「米」、「選」、「アメリカ」および「選挙」との単語を白抜きの四角で、ステップＳ２０３で抽出されたタイトル情報と本文情報とで共通する「大統領」、「接戦」、「州」、および「開票」との単語を網かけの四角で囲んでいる。図１２に示すように、タイトル情報に含まれる「米」は米国を意味し、本文情報に含まれる「アメリカ」と同義語である。またタイトル情報に含まれる「選」は選挙を意味し、本文情報に含まれる「選挙」と同義語である。そこで、抽出機能は、タイトル情報に含まれる「米」および「選」という単語と、本文情報に含まれる「アメリカ」および「選挙」という単語とを、さらに特定語として抽出する。

続いて、ステップＳ２０５では、抽出機能により、外部記憶装置１３に記憶された図示しない文章解析用の辞書を用いて、ステップＳ２０２で抽出された自立語の名詞である単語のうち、文章解析用の辞書に登録されていない未知語である単語が特定語として抽出される。図１３は、自立語の名詞である単語のうち、未知語である単語を抽出した結果の一例を示す図である。なお、図１３において、自立語の名詞である単語のうち、既に特定語として抽出された「米」、「大統領」、「選」、「接戦」、「州」、「開票」、「アメリカ」、および「選挙」との単語を網かけの四角で囲んでおり、未知語および未知語に連続する接尾語である「○○」、「氏」、「××」、および「氏」との単語を白抜きの四角で囲んでいる。また、図１３の本文情報において、「○○」、「××」は人名を意味するが、文章解析用の辞書には登録されておらず、形態素解析において、未知語と判断される。図１３に示すように、抽出機能は、未知語である「○○（人名）」および「××（人名）」を特定語として抽出する。さらに、ステップＳ２０５では、特定語として抽出された未知語に続く接尾語も特定語として抽出される。例えば、図１３に示す例では、未知語である「○○（人名）」に続く接尾語である「氏」、および未知語である「××（人名）」に続く接尾語である「氏」が特定語として抽出される。

次に、ステップＳ２０６では、抽出機能により、ステップＳ２０３からステップＳ２０５において、コンテンツ情報の内容を表す特定語として抽出された複数の単語のうち、重要度の高い単語が重要特定語として設定される。例えば、本実施形態では、外部サーバ１２０以外の図示しない他の外部サーバのアドレスが外部記憶装置１３に記憶されており、コントローラ１２は、他の外部サーバのアドレスを参照して、インターネットなどの電気通信網１１０を介して他の外部サーバにアクセスし、他の外部サーバ内に格納されているコンテンツ情報のうち、ユーザが要求したコンテンツ情報と同じカテゴリに属す複数のコンテンツ情報をダウンロードする。そして、抽出機能は、特定語として抽出された複数の単語のうち、他の外部サーバからダウンロードしたコンテンツ情報において共通して使用されている単語を、重要特定語として設定する。

図１４は、特定語として抽出された複数の単語のうち、外部サーバ１２０以外の他の外部サーバからダウンロードしたコンテンツ情報において共通して使用されている単語の一例を示す図である。また、図１５は、自立語の名詞である単語のうち、重要特定語として設定された単語の一例を示した図である。なお、図１５においては、特定語として抽出された複数の単語のうち、重要特定語として設定された「アメリカ」、「大統領」、「選挙」、「○○（人名）」、「××（人名）」、および「氏」との単語を白抜きの四角で囲み、重要特定語として設定されなかった「米」、「選」、「接戦」、「州」、および「開票」との単語を網掛けの四角で囲んでいる。抽出機能は、外部サーバ１２０以外の他の外部サーバにアクセスし、図１４に示すように、図２に示すコンテンツ情報と同じカテゴリに属する『□□□ニュース』、『×××ニュース』、『△△△新聞ニュース』、および『○○○新聞ニュース』などの複数のコンテンツ情報をダウンロードする。図１４に示す例においては、他の外部サーバから取得した『□□□ニュース』、『×××ニュース』、『△△△新聞ニュース』、および『○○○新聞ニュース』には、「アメリカ」、「大統領」、「選挙」、「○○（人名）」、「××（人名）」、および「氏」という単語が共通して含まれている。そのため、抽出機能は、図１５に示すように、特定語として抽出した複数の単語のうち、「アメリカ」、「大統領」、「選挙」、「○○（人名）」、「××（人名）」、および「氏」との単語を、特定語よりも重要度の高い重要特定語として設定する。

ステップＳ２０７では、記憶機能により、ステップＳ２０３からステップＳ２０６において抽出された特定語および重要特定語が、１つの特定語グループを構成する認識対象語として、外部記憶装置１３内の音声認識用辞書に登録される。また、ステップＳ２０７では、後述するユーザの発話音声の音声認識処理において、認識対象語に接続して用いられる定型句からなる定型句グループを、特定語グループに関連づけて記憶する。図１６は、特定語および重要特定語を音声認識用辞書へ登録する手法例を説明するための図である。図１６に示すように、記憶機能は、図２に示す「米大統領選挙」に関する１つのコンテンツ情報から抽出された「米」、「大統領」、「接戦」、「○○（人名）」、「××（人名）」、および「氏」などの複数の特定語および重要特定語を、１つの特定語グループ１を構成する認識対象語として音声認識用辞書に登録する。また、記憶機能は、特定語グループ１を音声認識用辞書に登録する際に、例えば、「のニュース」などの定型句からなる定型句グループ１を、特定語グループ１に関連づけて登録する。そして、記憶機能は、特定語グループ１と特定語グループ１に関連する定型句グループ１とを、認識対象語グループ１として記憶する。なお、特定語および重要特定語を認識対象語として音声認識用辞書に登録する際には、認識対象語が、特定語に基づくものであるか、あるいは重要特定語に基づくものであるかに応じて、認識対象語に重要度を付加して登録する。これにより、後述するユーザの発話音声の音声認識処理において、重要度に応じた重み付けを行うことができる。

続いて、ステップＳ２０８では、取得機能により、ユーザにより要求されたコンテンツ情報に類似するコンテンツ情報が類似情報として取得される。ここで、類似情報としては、以下に説明するようなコンテンツ情報が挙げられる。例えば、各コンテンツ情報は所定のカテゴリごとに予め分類されており、ユーザにより要求されたコンテンツ情報と、同じカテゴリに属するコンテンツ情報が、ユーザにより要求されたコンテンツ情報に類似する類似情報とされる。また、他の例としては、ユーザにより要求されたコンテンツ情報から抽出された特定語および重要特定語を検索キーワードとし、該検索キーワードを所定数以上含むコンテンツ情報が、電気通信網１１０を介して外部サーバ１２０で検索され、検索されたコンテンツ情報が、ユーザにより要求されたコンテンツ情報に類似する類似情報とされる。さらには、ユーザにより要求されたコンテンツ情報が他のコンテンツ情報にアクセスするためのインデックス情報を有するかを判断し、ユーザにより要求されたコンテンツ情報がインデックス情報を有すると判断された場合には、ユーザにより要求されたコンテンツ情報が有するインデックス情報が示すコンテンツ情報が、ユーザが要求したコンテンツ情報に類似する類似情報とされる。

続いて、ステップＳ２０９では、ステップＳ２０８で取得した類似情報から、特定語および重要特定語が抽出される。なお、類似情報から特定語および重要特定語を抽出する手法は、ユーザが要求したコンテンツ情報について特定語および重要特定語を抽出するための処理であるステップＳ２０１からステップＳ２０６までの処理と同様に行えばよい。

ステップＳ２１０では、ステップＳ２０９で抽出された類似情報に基づく特定語および重要特定語が音声認識用辞書に認識対象語として登録される。なお、類似情報から抽出された特定語および重要特定語を音声認識用辞書に登録する際には、類似情報から抽出された特定語および重要特定語を、ユーザが要求したコンテンツ情報から抽出された特定語および重要特定語が登録されている特定語グループと同じグループに登録する。

ステップＳ２１０で、類似情報から抽出された特定語および重要特定語を音声認識用辞書に認識対象語として登録した後は、ステップＳ１０９の登録処理を終了する。

続いて、図３に示すフローチャートに戻り、ステップＳ１１０以降の処理について説明する。ステップＳ１１０では、本文情報の音声出力の途中で、別のタイトル情報が選択されたか判断される。別のタイトル情報が選択されたと判断された場合は、ステップＳ１０６に戻り、現在選択されているタイトル情報とは別のタイトル情報が選択され、別のタイトル情報の音声出力が開始される。一方、別のタイトル情報が選択されていないと判断された場合は、ステップＳ１１１に進む。

ステップＳ１１１では、ユーザにより終了処理が行われたか判断される。例えば、ユーザによる「終了。」などの発話音声を認識した場合に、ユーザにより終了処理が行われたと判断してもよいし、または、ユーザにより、認識対象語登録処理を終了するための表示スイッチが押下されたこと検出して、ユーザにより終了処理が行われたと判断してもよい。ユーザにより終了処理が行われたと判断された場合は、この認識対象語登録処理を終了する。一方、ユーザにより終了処理が行われたと判断されない場合は、ステップＳ１１２に進む。

ステップＳ１１２では、本文情報が最後まで音声出力されたか判断される。本文情報が最後まで音声出力された場合は、ステップＳ１１３に進み、本文情報の音声出力が終了される。一方、本文情報が最後まで音声出力されていない場合は、ステップＳ１１０に戻り、本文情報の音声出力が継続される。また、ステップＳ１１３で本文情報の音声出力が終了された後も、ステップＳ１１０に戻る。すなわち、ユーザが要求したコンテンツ情報の本文情報が出力された後は、ユーザにより、新たに別のタイトル情報が選択されるか、あるいは終了処理が行われるまでは、選択されているコンテンツ情報とは別のコンテンツ情報がユーザに提示されることはない。

以上のように、認識対象語登録処理は行われる。

なお、上述した認識対象語登録処理は、ユーザによりコンテンツ情報の取得が要求された場合において、ユーザにより要求されたコンテンツ情報および該コンテンツ情報に類似する類似情報から特定語および重要特定語を抽出し、抽出した特定語および重要特定語を音声認識用辞書に登録している。しかしながら、ユーザによりコンテンツ情報の取得が要求されない場合であっても、一度、ユーザによりコンテンツ情報が要求された後は、一定時間ごとに、ユーザが要求したコンテンツ情報から抽出された特定語および重要特定語を含むコンテンツ情報を外部サーバ１２０から取得し、取得したコンテンツ情報から抽出した特定語および重要特定語を認識対象語として音声認識用辞書に、一定時間ごとに登録していってもよい。

続いて、図１７を参照して、特定語および重要特定語を認識対象語として登録した音声認識用辞書を用いて、ユーザの発話音声に基づいて、ユーザが要求するコンテンツ情報を、ユーザに提示するコンテンツ情報提示処理について説明する。図１７は、コンテンツ情報提示処理を示すフローチャートである。

まず、ステップＳ３０１では、ユーザにより入力スイッチ５０の音声認識開始スイッチが押下されたか判断される。ユーザにより入力スイッチ５０の音声認識開始スイッチが押下された場合、入力スイッチ５０から、コントローラ１２に対して、音声認識開始スイッチが押下されたことを示す信号が送信される。コントローラ１２は、入力スイッチ５０から送信された音声認識開始スイッチが押下されたことを示す信号を受信することで、入力スイッチ５０の音声認識開始スイッチが押下されたものと判断する。入力スイッチ５０の音声認識開始スイッチが押下されたと判断された場合は、ステップＳ３０２に進み、一方、入力スイッチ５０の音声認識開始スイッチが押下されていないと判断された場合は、ステップＳ３０１に戻り、所定時間経過後に、ユーザにより入力スイッチ５０の音声認識開始スイッチが押下されたか判断される。

ステップＳ３０２では、音声信号の取り込み開始をユーザに知らせるための告知音が出力される。具体的には、外部記憶装置１３に記憶してある告知音出力用のデジタル信号が、コントローラ１２によりＤ／Ａコンバータ１４に送信され、Ｄ／Ａコンバータ１４でアナログ信号に変換される。アナログ信号に変換された告知音信号は、アンプ１５で増幅され、スピーカ４０から告知音として出力される。

次に、ステップＳ３０３では、認識機能により、ユーザの発話音声の取り込みが開始される。ここで、入力スイッチ５０の音声認識開始スイッチが押下されるまでは、コントローラ１２により、マイク２０から入力された音声信号の平均パワーが演算されている。ステップＳ３０３では、認識機能により、音声認識開始スイッチが押下されるまでに演算された音声信号の平均パワーと、音声認識開始スイッチが押下された後に入力された音声信号の瞬間パワーとが比較され、音声認識開始スイッチが押下された後に入力された音声信号の瞬間パワーが、音声認識開始スイッチが押下されるまでに演算された音声信号の平均パワーよりも所定値以上大きくなった場合に、ユーザの発話音声の取り込みが開始される。

ステップＳ３０４では、認識機能により、ユーザの発話音声に含まれる単語と、音声認識用辞書に登録された認識対象語との適合度合の演算が開始される。具体的には、認識機能は、ユーザの発話音声の音声パターンと、音声認識用辞書に登録された認識対象語の音声パターンとの一致度を演算し、一致度の大きさを示すスコアを認識対象語ごとに算出する。そして、算出されたスコアを、認識対象語に設定された重要度に応じて補正する。例えば、認識機能は、特定語に基づく認識対象語において算出されたスコアに一定の重み付け係数を乗算し、また、重要特定語に基づく認識対象語において算出されたスコアについては、特定語に基づく認識対象語において算出されたスコアに乗算された重み付け係数よりも大きな重み付け係数を乗算する。そして、認識機能は、補正されたスコアを適合度合として算出する。

加えて、ステップＳ３０４では、認識対象語を任意の順番で繋げた言葉も認識対象語とされ、ユーザの発話音声に含まれる単語と、認識対象語を任意の順番で繋げた言葉からなる認識対象語との適合度合も演算される。例えば、図１６に示すように、音声認識用辞書に登録された認識対象語である「○○（人名）」と「氏」との単語を繋げた「○○氏」という言葉を認識対象語とし、ユーザの発話音声に含まれる単語と、「○○氏」という単語との適合度合が演算される。さらにステップＳ３０４では、音声認識用辞書に登録された認識対象語、または認識対象語を任意の順番で繋げた言葉の語尾に、同じく音声認識用辞書に記憶された定型句を接続した言葉を認識対象語とし、ユーザの発話音声に含まれる単語と、音声認識用辞書に登録された認識対象語、または認識対象語を任意の順番で繋げた言葉の語尾に定型句を接続した言葉からなる認識対象語との適合度合が演算される。例えば、音声認識用辞書に登録された認識対象語である「○○（人名）」と「氏」とを繋げた「○○氏」との言葉の語尾に「のニュース」という定型句を接続した「○○氏のニュース」という言葉を認識対象語とし、ユーザの発話音声に含まれる単語と、「○○氏のニュース」との認識対象語との適合度合が演算される。なお、認識機能により適合度合の演算が実行されている間は、並列して、認識機能による音声取り込みも継続して実行される。

続いてステップＳ３０５では、ユーザの発話が終了したか判断される。ユーザの発話が終了したか否かの判断は特に限定されず、本実施形態では、音声取り込み開始後に入力された音声信号の瞬間パワーが所定時間以上にわたって所定閾値以下となった場合に、ユーザの発話が終了したものと判断する。ユーザの発話が終了したと判断された場合は、ステップＳ３０６に進み、音声の取り込みを終了する。一方、ユーザの発話が終了していないと判断された場合は、ステップＳ３０４に戻り、ユーザの発話音声に含まれる単語と、音声認識用辞書に登録された認識対象語との適合度合の演算が継続される。

次に、ステップＳ３０７では、適合度合の演算が終了するまで待機し、続くステップＳ３０８では、ステップＳ３０４で開始された適合度合の演算結果に基づいて、適合度合が最も高かった認識対象語が認識結果として抽出される。

ステップＳ３０９では、選択機能により、ステップＳ３０８においてユーザの発話音声に含まれると認識された認識対象語が、音声認識用辞書に記憶されているいずれかの特定語グループに属するか判断される。そして、該認識対象語がいずれかの特定語グループに属すると判断された場合には、選択機能により、該認識対象語を有する特定語グループが選択される。

ステップＳ３１０では、取得機能により、ステップＳ３０９で選択された特定語グループを構成する複数の認識対象語を含むコンテンツ情報が取得される。具体的には、選択された特定語グループを構成する複数の認識対象語を検索キーワードとして、外部サーバ１２０を検索し、該検索キーワードを含むコンテンツ情報を取得する。

ステップＳ３１１では、提示機能により、ステップＳ３１０で取得されたコンテンツ情報の本文情報に基づく合成音声が作製され、ユーザに対して出力される。

図１８は、コンテンツ情報提示処理の一場面例を示す図である。図１８に示すように、例えば、ユーザが「○○氏のニュース。」と発話して「○○氏のニュース」に関するコンテンツ情報を要求した場合、まず、特定語および重要特定語を認識対象語として登録した音声認識用辞書を用いて、認識機能により、「○○氏のニュース。」というユーザの発話音声について音声認識処理が行われ、例えば、ユーザの発話音声に「○○（人名）」という認識対象語が含まれると認識される。次に、選択機能により、「○○（人名）」という認識対象語が、音声認識用辞書に記憶されているいずれかの特定語グループに属するか判断される。例えば、図１６に示すように、「○○（人名）」を有する特定語グループ１がある場合、「○○（人名）」という認識対象語が、特定語グループ１に属すると判断され、特定語グループ１が選択される。そして、取得機能により、「○○（人名）」という認識対象語を有する特定語グループ１を構成する認識対象語、すなわち「米」、「大統領」、「選」、「接戦」、「○○（人名）」、「××（人名）」、および「氏」などの認識対象語を有するコンテンツ情報が取得される。その結果、提示機能により、図１８に示すように、取得されたコンテンツ情報の本文情報に基づく「米大統領選は、・・・・接戦・・。○○氏と××氏が・・。」という合成音声がユーザに提示される。

ステップＳ３１１で、ユーザが要求するコンテンツ情報をユーザに提示した後は、コンテンツ提示処理を終了する。以上のように、コンテンツ情報提示処理は行われる。

以上のように本実施形態によれば、認識対象語登録処理において、ユーザが要求するコンテンツ情報から、該コンテンツ情報の内容を表す単語を特定語または重要特定語として抽出し、１つのコンテンツ情報から抽出された特定語および重要特定語を、１つの特定語グループを構成する認識対象語として音声認識用辞書に記憶する。そして、コンテンツ情報提示処理においては、特定語および重要特定語に由来する認識対象語を登録した音声認識用辞書を用いて、ユーザの発話音声を音声認識し、ユーザの発話音声に含まれると認識された認識対象語が、いずれかの特定語グループに属するかを判断し、ユーザの発話音声に含まれると認識された認識対象語がいずれかの特定語グループに属する場合には、該認識対象語を有する特定語グループを構成する複数の認識対象語を含むコンテンツ情報を取得する。これにより、ユーザが要求するコンテンツ情報を直接的に取得することができ、ユーザが要求するコンテンツ情報を取得するまでに必要なユーザの発話回数および時間を減少させることができる。その結果、ユーザが要求するコンテンツ情報を適切に提示することができる。

また、本実施形態によれば、形態素解析により、コンテンツ情報のテキスト情報を構成する複数の単語を分割し、分割した複数の単語のうち、自立語の名詞である単語を抽出する。そして、抽出された名詞である単語のうち、テキスト情報のタイトル情報を構成する単語と本文情報を構成する単語とにおいて関連性のある単語、例えば、タイトル情報を構成する単語と本文情報を構成する単語とで共通する単語、またはタイトル情報を構成する単語と本文情報を構成する単語とで同義関係にある単語を特定語として抽出する。さらに、本実施形態では、抽出された自立語の名詞である単語のうち、文章解析用の辞書に登録されていない未知語を特定語として抽出する。このような単語は、コンテンツ情報の内容を表す単語である可能性が高く、ユーザが該コンテンツ情報または該コンテンツ情報に関連するコンテンツ情報を要求する際に、キーワードとなる単語であると想定される。このように、本実施形態では、コンテンツ情報のテキスト情報を構成する単語のうち、動詞や助詞などのユーザの発話音声を認識する際に誤認識の原因となる単語を排除し、さらに自立語の名詞である単語の中から、コンテンツ情報の内容を表し、ユーザがコンテンツ情報を要求する際に高い頻度で使用されると想定される特定語を認識対象語とする。これにより、コンテンツ情報提示処理において、ユーザの発話音声の音声認識率を高め、ユーザの発話音声の誤認識による音声認識のやり直しを有効に防止することができるため、音声認識に必要とされるユーザの発話回数および時間が増大することを防止できる。また、コンテンツ情報提示処理において、コンテンツ情報の内容を表す特定語を検索キーワードとして、ユーザが要求するコンテンツ情報を直接的に取得することができ、ユーザが要求するコンテンツ情報を取得するまでに必要となるユーザの発話回数および時間を減少させることができる。

さらに、本実施形態では、認識対象語登録処理において、ユーザが要求したコンテンツ情報から抽出された特定語のうち、外部サーバ１２０以外の他の外部サーバが有するコンテンツ情報において共通して使用されている特定語を、特定語よりもさらに重要度の高い重要特定語として設定する。外部サーバに登録されているコンテンツ情報は定常的に更新されており、外部サーバに登録されているコンテンツ情報において共通して使用されている特定語は、コンテンツ情報の内容を表す重要な単語であると想定される。そこで、このような単語を特定語よりもさらに重要度の高い重要特定語をとして設定することで、コンテンツ情報提示処理において、ユーザの発話音声の音声認識率をより高めることができる。

加えて、本実施形態によれば、認識対象語を新たに音声認識用辞書に登録する際に、ユーザが要求したコンテンツ情報のみならず、ユーザが要求したコンテンツ情報に類似する類似情報からも特定語および重要特定語を抽出することで、コンテンツ情報提示処理におけるユーザの発話音声の音声認識率を高め、ユーザが要求するコンテンツ情報を適切に提示することができる。特に、類似情報を、ユーザが要求したコンテンツ情報と同じカテゴリに分類される他のコンテンツ情報、外部サーバ１２０が有する他のコンテンツ情報のうちユーザにより要求されたコンテンツ情報の内容を表す特定語または重要特定語を所定数以上含む他のコンテンツ情報、および、ユーザにより要求されたコンテンツ情報が該コンテンツ情報に関連する他のコンテンツ情報にアクセスするためのインデックス情報を有する場合に、ユーザにより要求されたコンテンツ情報が有するインデックス情報が示す他のコンテンツ情報、のうちの少なくても１つとすることにより、ユーザにより要求されたコンテンツ情報に類似する類似情報を適切に取得することができる。

以上説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。

例えば、本実施形態においては、ユーザにより要求されたコンテンツ情報のテキスト情報を構成する複数の単語のうち、自立語の名詞である単語を複数抽出し、抽出された自立語の名詞である複数の単語の中で、タイトル情報および本文情報で共通する単語、タイトル情報および本文情報で同義関係にある単語、および未知語を特定語として抽出しているが、これに限定されず、例えば、ユーザにより要求されたコンテンツ情報から抽出した自立語の名詞である単語を認識対象語として、音声認識用辞書に登録してもよい。

また、本実施形態では、抽出された特定語のうち、外部サーバ１２０以外の他のサーバに登録されたコンテンツ情報に共通して含まれる単語を重要特定語としているが、外部サーバ１２０以外の他のサーバに登録されたコンテンツ情報に共通して含まれる単語を特定語としてもよく、また反対に、特定語のうち、タイトル情報と本文情報とに共通する単語を重要特定語としてもよいし、タイトル情報と本文情報とにおいて同義関係にある単語を重要特定語としてもよいし、あるいは文章解析用の辞書に登録されていない未知語を重要特定語としてもよい。

さらに、本実施形態では、コンテンツ情報のテキスト情報は、タイトル情報と本文情報とから構成されているが、これに限定されるものではなく、例えば、タイトル情報、要約情報、および詳細情報からなる構成としてもよい。

また、本実施形態では、認識対象語登録処理において、記憶機能により、特定語および重要特定語のみが、１つの特定語グループを構成する認識対象語として、音声認識用辞書に登録されるが、これに限定されるものではなく、例えば、特定語および重要特定語に加え、特定語および重要特定語を任意の順番で繋げた言葉、並びに、これらの単語および言葉の語尾に、例えば「のニュース」という定型句を接続した言葉を、１つの特定語グループを構成する認識対象語として登録してもよい。

なお、上述した実施形態の取得機能は本発明の取得手段に、抽出機能は本発明の抽出手段に、記憶機能は本発明の記憶手段に、認識機能は本発明の認識手段に、選択機能は本発明の選択手段に、提示機能は本発明の提示手段にそれぞれ相当する。

１００…ナビゲーション装置
１０…ナビゲーション装置本体
１１…Ａ／Ｄコンバータ
１２…コントローラ
１３…外部記憶装置
１４…Ｄ／Ａコンバータ
１５…アンプ
２０…マイク
３０…ディスプレイ
４０…スピーカ
５０…入力スイッチ
１１０…電気通信網
１２０…外部サーバ

Claims

ユーザに提示するためのコンテンツ情報を取得する取得手段と、
前記コンテンツ情報に含まれるテキスト情報を構成する複数の単語の中から、前記コンテンツ情報の内容を表す単語である特定語を複数抽出する抽出手段と、
前記抽出手段により抽出された複数の前記特定語を特定語群として記憶する記憶手段と、
ユーザの発話音声を認識する認識手段と、
ユーザの発話音声に含まれる単語が、前記特定語群を構成するいずれかの特定語に対応するかを判断し、前記ユーザの発話音声に含まれる単語に対応する特定語を含む特定語群を選択する選択手段と、
前記選択手段により、前記ユーザの発話音声に含まれる単語と対応する特定語を含む特定語群が選択された場合に、選択された前記特定語群を構成する各特定語に関連するコンテンツ情報を、ユーザに提示する提示手段と、を備えることを特徴とする情報提示装置。
請求項１に記載の情報提示装置であって、
前記コンテンツ情報は、前記コンテンツ情報のタイトルを示すタイトル情報と、前記コンテンツ情報の詳細を示す本文情報とを少なくとも含み、
前記抽出手段は、前記タイトル情報を構成する単語と前記本文情報を構成する単語との間の関連性に基づいて、前記テキスト情報を構成する複数の単語の中から、前記特定語を抽出することを特徴とする情報提示装置。
請求項２に記載の情報提示装置であって、
前記抽出手段は、形態素解析を用いて、前記テキスト情報を、前記テキスト情報を構成する単語ごとに分割し、分割された複数の単語のうち自立語の名詞を判別し、前記タイトル情報を構成する単語のうち自立語の名詞と判別された単語と、前記本文情報を構成する単語のうち自立語の名詞と判別された単語との間の関連性に基づいて、前記テキスト情報を構成する複数の単語の中から、前記特定語を抽出することを特徴とする情報提示装置。
請求項３に記載の情報提示装置であって、
前記抽出手段は、前記テキスト情報を構成する複数の単語の中から、前記タイトル情報と前記本文情報とにおいて共通する単語を、前記特定語として抽出することを特徴とする情報提示装置。
請求項３または４に記載の情報提示装置であって、
前記抽出手段は、前記テキスト情報を構成する複数の単語の中から、前記タイトル情報と前記本文情報とにおいて同義関係にある単語を、前記特定語として抽出することを特徴とする情報提示装置。
請求項３〜５のいずれかに記載の情報提示装置であって、
前記抽出手段は、前記テキスト情報を構成する複数の単語の中から、前記テキスト情報を構成する単語を解析するための辞書に登録されていない単語を、前記特定語として抽出することを特徴とする情報提示装置。
請求項３〜６のいずれかに記載の情報提示装置であって、
前記抽出手段は、外部サーバと通信し、前記テキスト情報を構成する複数の単語のうち、前記外部サーバが有する他のコンテンツ情報に共通して含まれる単語に対応する単語を、前記特定語として抽出することを特徴とする情報提示装置。
請求項１〜７のいずれかに記載の情報提示装置であって、
前記抽出手段は、前記コンテンツ情報のうちユーザにより要求された前記コンテンツ情報について、前記抽出を行うことを特徴とする情報提示装置。
請求項８に記載の情報提示装置であって、
前記取得手段は、前記ユーザにより要求されたコンテンツ情報と類似する他のコンテンツ情報である類似情報をさらに取得し、
前記抽出手段は、前記類似情報に含まれるテキスト情報を構成する複数の単語の中から、前記類似情報の内容を表す単語を特定語として複数抽出し、
前記記憶手段は、前記類似情報から抽出された前記複数の特定語を特定語群として記憶することを特徴とする情報提示装置。
請求項９に記載の情報提示装置であって、
前記取得手段は、外部サーバと通信し、前記外部サーバが有する他のコンテンツ情報のうち、前記ユーザにより要求された前記コンテンツ情報と関連するコンテンツ情報を、前記ユーザにより要求されたコンテンツ情報の類似情報として取得することを特徴とする情報提示装置。
請求項９または１０に記載の情報提示装置であって、
前記取得手段は、前記ユーザにより要求されたコンテンツ情報と同じカテゴリに属する他のコンテンツ情報を、前記ユーザにより要求されたコンテンツ情報の類似情報として取得することを特徴とする情報提示装置。
請求項９〜１１のいずれかに記載の情報提示装置であって、
前記取得手段は、前記ユーザにより要求されたコンテンツ情報の内容を表す前記特定語を、所定数以上含む他のコンテンツ情報を、前記ユーザにより要求されたコンテンツ情報の類似情報として取得することを特徴とする情報提示装置。
請求項９〜１２のいずれかに記載の情報提示装置であって、
前記ユーザにより要求されたコンテンツ情報が、該コンテンツ情報に関連する他のコンテンツ情報を特定するためのインデックス情報を有しているかを判断する判断手段をさらに有し、
前記取得手段は、前記判断手段により、前記ユーザにより要求されたコンテンツ情報が、他のコンテンツ情報を特定するためのインデックス情報を有していると判断された場合に、前記ユーザにより要求されたコンテンツ情報が有する前記インデックス情報により特定される他のコンテンツ情報を、前記ユーザにより要求されたコンテンツ情報の類似情報として取得することを特徴とする情報提示装置。
コンテンツ情報に含まれるテキスト情報を構成する複数の単語の中から、前記コンテンツ情報の内容を表す単語である特定語を複数抽出し、抽出した複数の前記特定語を特定語群として記憶し、
ユーザの発話音声を認識した場合に、ユーザの発話音声に含まれる単語が、前記特定語群を構成するいずれかの特定語に対応するかを判断し、前記ユーザの発話音声に含まれる単語が前記特定語群を構成するいずれかの特定語に対応すると判断された場合に、前記ユーザの発話音声に含まれる単語に対応する特定語を含む特定語群を構成する各特定語に関連するコンテンツ情報を、ユーザに提示することを特徴とする情報提示方法。