JP2010287025A - 情報提示装置および情報提示方法 - Google Patents
情報提示装置および情報提示方法 Download PDFInfo
- Publication number
- JP2010287025A JP2010287025A JP2009140044A JP2009140044A JP2010287025A JP 2010287025 A JP2010287025 A JP 2010287025A JP 2009140044 A JP2009140044 A JP 2009140044A JP 2009140044 A JP2009140044 A JP 2009140044A JP 2010287025 A JP2010287025 A JP 2010287025A
- Authority
- JP
- Japan
- Prior art keywords
- information
- word
- user
- words
- content information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ユーザが所望するコンテンツ情報を適切に提示可能な情報提示装置を提供する。
【解決手段】ユーザに提示するためのコンテンツ情報を取得する取得手段と、コンテンツ情報に含まれるテキスト情報を構成する複数の単語の中から、コンテンツ情報の内容を表す単語である特定語を複数抽出する抽出手段と、抽出手段により抽出された複数の特定語を特定語群として記憶する記憶手段と、ユーザの発話音声を認識する認識手段と、ユーザの発話音声に含まれる単語が、特定語群を構成するいずれかの特定語に対応するかを判断し、ユーザの発話音声に含まれる単語に対応する特定語を含む特定語群を選択する選択手段と、選択手段により、ユーザの発話音声に含まれる単語と対応する特定語を含む特定語群が選択された場合に、選択された特定語群を構成する各特定語に関連するコンテンツ情報を、ユーザに提示する提示手段と、を備えることを特徴とする情報提示装置。
【選択図】 図1
【解決手段】ユーザに提示するためのコンテンツ情報を取得する取得手段と、コンテンツ情報に含まれるテキスト情報を構成する複数の単語の中から、コンテンツ情報の内容を表す単語である特定語を複数抽出する抽出手段と、抽出手段により抽出された複数の特定語を特定語群として記憶する記憶手段と、ユーザの発話音声を認識する認識手段と、ユーザの発話音声に含まれる単語が、特定語群を構成するいずれかの特定語に対応するかを判断し、ユーザの発話音声に含まれる単語に対応する特定語を含む特定語群を選択する選択手段と、選択手段により、ユーザの発話音声に含まれる単語と対応する特定語を含む特定語群が選択された場合に、選択された特定語群を構成する各特定語に関連するコンテンツ情報を、ユーザに提示する提示手段と、を備えることを特徴とする情報提示装置。
【選択図】 図1
Description
本発明は、情報提示装置および情報提示方法に関するものである。
外部サーバから複数のリンク情報を含む情報を受信し、受信した情報に含まれる複数のリンク情報に対応するリンク対応語を、ユーザに対して音声で出力し、これに対してユーザが発話した場合に、ユーザが発話した音声からリンク対応語を認識し、認識したリンク対応語に対応するリンク情報に基づいて、ユーザが要求した情報を取得する技術が知られている(特許文献1)。
しかしながら、従来技術では、受信した情報に予め設定されているリンク情報に基づく情報しか取得できないため、ユーザが所望する情報を取得するためには、リンク情報に基づく情報の受信と、ユーザによる発話とを複数回繰り返す必要がある場合があり、このような場合に、ユーザに煩わしさを与えるとともに、ユーザが所望する情報を取得するまでの時間を増大させるという問題があった。
本発明が解決しようとする課題は、ユーザが所望するコンテンツ情報を適切に提示可能な情報提示装置を提供することである。
本発明は、コンテンツ情報に含まれる単語の中から、前記コンテンツ情報の内容を表す単語である特定語を複数抽出し、抽出した複数の特定語を特定語群として記憶し、ユーザの発話音声を認識した場合に、ユーザの発話音声に含まれる単語が、特定語群を構成するいずれかの特定語に対応するかを判断し、ユーザの発話音声に含まれる単語が特定語群を構成するいずれかの特定語に対応すると判断された場合に、ユーザの発話音声に含まれる単語に対応する特定語を含む特定語群を構成する各特定語に関連するコンテンツ情報を、ユーザに提示することで、上記課題を解決する。
本発明によれば、ユーザが所望するコンテンツ情報の内容に関連する複数の特定語に基づいて、ユーザに提示するコンテンツ情報を選択するため、ユーザが所望するコンテンツ情報を直接的に選択することができ、ユーザが所望するコンテンツ情報を取得するまでに必要となるユーザの発話の回数および時間を減少させることができる。その結果として、ユーザが所望するコンテンツ情報を適切に提示可能とすることができる。
以下、本発明の実施形態を図面に基づいて説明する。
図1は、本実施形態に係るナビゲーション装置100の構成を示す図である。図1に示すように、ナビゲーション装置100はナビゲーション装置本体10を備え、ナビゲーション装置本体10に、マイク20、ディスプレイ30、スピーカ40、および入力スイッチ50が、CAN(Controller Area Network)その他の車載LANを介して、それぞれ接続されている。
図1は、本実施形態に係るナビゲーション装置100の構成を示す図である。図1に示すように、ナビゲーション装置100はナビゲーション装置本体10を備え、ナビゲーション装置本体10に、マイク20、ディスプレイ30、スピーカ40、および入力スイッチ50が、CAN(Controller Area Network)その他の車載LANを介して、それぞれ接続されている。
以下、ナビゲーション装置100の各構成について説明する。
マイク20は、車両室内に設置され、車両室内に出力された音声を集音し、集音した音声をアナログの音声信号に変換し、アナログの音声信号をナビゲーション装置本体10に送信する。
ディスプレイ30は、ディスプレイ30が備える画面上に、ユーザが要求したコンテンツ情報などの各種情報を表示する。コンテンツ情報とは、詳細は後述するが、例えば、ニュースなどの情報であり、テキスト形式のテキスト情報に加えて、画像情報、または音楽情報などが含まれる。
スピーカ40は、ナビゲーション装置本体10から送信されたアナログの音声信号に基づいて、車両室内に音声を出力する。なお、スピーカ40から出力される音声としては、コンテンツ情報のテキスト情報に基づいて作成された合成音声などが挙げられる。
入力スイッチ50には、例えば、ユーザの発話音声の音声認識処理を開始するための音声認識開始スイッチ、ユーザからの入力を受け付けるタッチパネル、およびナビゲーション装置100の各機能についてユーザが操作するためのスイッチなどが含まれる。なお、タッチパネルはディスプレイ30の画面上に配置されてもよいし、ディスプレイ30とは別に設置してもよい。また、ユーザにより音声認識開始スイッチが押下された場合、音声認識開始スイッチからナビゲーション装置本体10に、音声認識開始スイッチが押下された旨の信号が送信され、ユーザの発話音声の取り込みが開始される。
外部サーバ120は、車両外部に設置され、例えば、ニュースなどのコンテンツ情報を記憶する。ナビゲーション装置100は、インターネットなどの電気通信網110を介して、外部サーバ120に接続する。そして、ナビゲーション装置100は、外部サーバ120に対して、ユーザが要求するコンテンツ情報の要求情報を送信し、外部サーバ120は、ナビゲーション装置100の要求情報に応じて、ユーザが要求するコンテンツ情報をナビゲーション装置100に提供する。なお、外部サーバ120に記憶されるコンテンツ情報は、定常的に、更新される。
続いて、ナビゲーション装置本体10について説明する。ナビゲーション装置本体10は、図1に示すように、A/Dコンバータ11、コントローラ12、外部記憶装置13、D/Aコンバータ14、およびアンプ15を備える。
A/Dコンバータ11は、マイク20から送信されたアナログの音声信号をサンプリングし、さらに量子化することで、マイク20から送信されたアナログの音声信号を、音声出力用のデジタル信号に変換し、コントローラ12に送信する。
また、D/Aコンバータ14は、コントローラ12から送信された音声出力用のデジタル信号をアナログの音声信号に変換し、アンプ15に送信する。アンプ15は、D/Aコンバータ14から送信されたアナログの音声信号を増幅し、スピーカ40に送信する。
外部記憶装置13には、ユーザの音声を認識するための音声認識処理で使用される音声認識用の辞書と、およびコンテンツ情報に含まれるテキスト情報を解析するための文章解析用の辞書とが記憶されている。音声認識用辞書には、ユーザの発話音声を認識するための音声認識処理において、音声認識の対象となる認識対象語の他、認識対象語の音響モデル、および認識対象語とその接続関係を規定したネットワーク文法などの言語モデルが含まれる。なお、認識対象語の音響モデルとは、音響的に意味を持つ部分単語モデルを定義したものである。
また、外部記憶装置13は、必要に応じて、ユーザが発話する際において、ユーザがナビゲーション装置100またはその他各種車載装置を操作した操作履歴および/または上記操作が行なわれた際の状況履歴を、ユーザの発話音声に関連付けて記憶する構成としてもよい。
コントローラ12は、ユーザにより要求されたコンテンツ情報から、該コンテンツ情報の内容を表わす単語を、ユーザの発話音声を認識する際に用いる認識対象語として抽出し、音声認識用辞書に登録する認識対象語登録処理を行う。また、コントローラ12は、ユーザの発話音声に基づいて、認識対象語登録処理で登録した認識対象語を用いて、ユーザが要求するコンテンツ情報を、ユーザに提示するコンテンツ情報提示処理を行う。なお、これら処理の具体的内容については、後述する。
コントローラ12は、認識対象語登録処理およびコンテンツ情報提示処理のためのプログラムを格納したROM(Read Only Memory)と、このROMに格納されたプログラムを実行するCPU(Central Processing Unit)と、アクセス可能な記憶装置として機能するRAM(Random Access Memory)とから構成される。なお、動作回路としては、CPU(Central Processing Unit)に代えて又はこれとともに、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などを用いることができる。
コントローラ12は、ROMに格納されたプログラムをCPUにより実行することにより、取得機能、抽出機能、記憶機能、認識機能、選択機能、および提示機能の各機能を実現する。以下に、コントローラ12が備える各機能について詳細に説明する。
取得機能は、電気通信網110を介して、ユーザが要求したコンテンツ情報を、外部サーバ120から取得する。また取得機能は、電気通信網110を介して、外部サーバ120以外の他の外部サーバと通信し、ユーザが要求したコンテンツ情報に類似するコンテンツ情報を、他の外部サーバから取得する。
抽出機能は、認識対象語登録処理において、コンテンツ情報に含まれるテキスト情報を構成する複数の単語の中から、コンテンツ情報の内容を表す単語を特定語として抽出する。ここで、図2は、コンテンツ情報に含まれるテキスト情報の一例を示す図である。図2に示すように、テキスト情報は、コンテンツ情報のタイトルを示すタイトル情報と、コンテンツ情報の詳細を示す本文情報とから構成されている。例えば、図2に示すコンテンツ情報は、「米大統領選挙」に関するコンテンツ情報であり、「米大統領選 接戦州でも開票」というタイトル情報と、「アメリカ大統領選挙は、勝敗の鍵を握るとされる南部□□州や△△州などの接戦州でも開票が始まり、■■党の○○氏と▲▲党の××氏が激しく競り合っています。」との本文情報とから構成される。抽出機能は、例えば、図2に示す「米大統領選挙」に関するコンテンツ情報について、該コンテンツ情報の内容を表す単語である「米」、「大統領」、「選挙」などの複数の単語を特定語として抽出する。なお、抽出機能による特定語の具体的な抽出方法については、後述する。
記憶機能は、認識対象登録処理において、抽出機能により、1つのコンテンツ情報から抽出された複数の特定語を、1つの特定語グループを構成する認識対象語として、音声認識用辞書に登録する。また、記憶機能は、特定語を認識対象語として音声認識用辞書に登録する際、特定語グループに後述する定型句グループを関連付けて、認識対象語グループとして、音声認識用辞書に記憶する。
認識機能は、コンテンツ情報提示処理において、ユーザにより発話された発話音声に含まれる単語と、音声認識用辞書に登録された認識対象語との適合度合を演算することで、ユーザの発話音声の音声認識処理を行う。具体的には、外部記憶装置13に記憶されている音声認識用辞書を参照して、音声認識処理の対象となる認識対象語や、認識対象語の音響モデル、さらには、認識対象語とその接続関係を規定したネットワーク文法などの言語モデルを、音声認識用辞書から読み出し、RAMに読み込む。そして、入力された音声信号の音声特徴パターンとRAMに読み込まれたそれぞれの認識対象語の音声特徴パターンとの一致度を演算し、一致度の大きさを示すスコアを認識対象語ごとに算出する。さらに、認識機能は、一致度に応じて算出されたスコアを、認識対象語の重要度に応じて補正して、適合度合を演算する。例えば、認識対象語は、重要度に応じた重み付け係数を有しており、一致度に応じて算出されたスコアに、重み付け係数を乗算することで、認識対象語のスコアを補正し、補正されたスコアを適合度合として算出する。そして、算出された適合度合が最も高い認識対象語を音声認識結果として抽出する。
選択機能は、コンテンツ情報提示処理において、ユーザの発話音声に含まれると認識された認識対象語が、音声認識用辞書に記憶されたいずれかの特定語グループに属するかを判断する。そして、ユーザの発話音声に含まれると認識された認識対象語が、いずれかの特定語グループに属すると判断された場合に、該認識対象語を有する特定語グループを選択する。なお、選択機能により特定語グループが選択された場合、取得機能により、選択された特定語グループを構成する複数の認識対象語を含むコンテンツ情報が取得され、後述する提示機能により、取得されたコンテンツ情報がユーザに提示される。
提示機能は、ユーザに提示すべきコンテンツ情報をディスプレイ30およびスピーカ40に送信し、ディスプレイ30およびスピーカ40を介して、該コンテンツ情報をユーザに提示する。なお、提示機能は、スピーカ40を介してコンテンツ情報を提示する際には、波形接続方式やHMM(Hidden Markov Model)など既知の音声合成方法などにより、テキスト形式のコンテンツ情報のテキスト情報から合成音声出力用のデジタル信号を作製し、作製した合成音声出力用のデジタル信号をD/Aコンバータ14に送信することで、コンテンツ情報を音声としてユーザに提示する。
次に、図3を参照して、音声認識用辞書に認識対象語を新たに登録する認識対象語登録処理について説明する。図3は、認識対象語登録処理を示すフローチャートである。以下に説明する処理は、コントローラ12により一定時間間隔で実行される。なお、以下においては、ユーザにより、図2に示すコンテンツ情報が要求された場面例について説明する。
ステップS101では、ユーザにより、コンテンツ情報の取得が要求されたか判断される。例えば、ディスプレイ30上に配置されるタッチパネルを介して、ディスプレイ30の画面上に表示される「今日のニュースヘッドライン」との表示スイッチが、ユーザにより押下された場合、コントローラ12は、タッチパネルから送信される信号を受けて、ユーザにより「今日のニュースヘッドライン」に関するコンテンツ情報の取得が要求されたものと判断する。また、例えば、ユーザが、「今日のニュースヘッドライン」と発話した場合に、ユーザの発話音声を認識し、ユーザにより「今日のニュースヘッドライン」に関するコンテンツ情報の取得が要求されたものと判断してもよい。コンテンツ情報の取得が要求されたと判断された場合はステップS102に進み、一方、コンテンツ情報の取得が要求されていないと判断された場合は、ステップS101に戻り、一定時間経過した後に、再度、コンテンツ情報の取得が要求されたか判断される。
ステップS102では、取得機能により、ユーザの要求に応じた複数のコンテンツ情報が取得される。ステップS101において、コンテンツ情報の取得が要求された場合、コントローラ12は、ユーザにより取得が要求されたコンテンツ情報を取得するための要求情報を、インターネットなどの電気通信網110を介して、外部サーバ120に送信する。外部サーバ120は、コントローラ12から送信された要求情報に応じた複数のコンテンツ情報を、コントローラ12に送信する。例えば、取得機能は、「今日のニュースヘッドライン」に関するコンテンツ情報を取得するための要求情報を外部サーバ120に送信し、図2に示すコンテンツ情報を含む「今日のニュースヘッドライン」に関する複数のコンテンツ情報を取得する。
ステップS103では、取得された複数のコンテンツ情報のタイトル情報が抽出され、抽出された複数のタイトル情報を一覧にしたタイトル一覧表が作成される。そして、作成されたタイトル一覧表が、ディスプレイ30の画面上に表示される。図4は、ディスプレイ30に表示されるタイトル一覧表の一例を示す図である。なお、図4においては、タイトル一覧表を構成する複数のタイトル情報のうち、一部のタイトル情報については、具体的な内容を省略し、「・・・」で表示している。
例えば、図2に示すコンテンツ情報を含む「今日のニュースヘッドライン」に関する複数のコンテンツ情報が取得された場合、取得された複数のコンテンツ情報のタイトル情報に基づいて、タイトル一覧表が作成され、図4に示すように、ディスプレイ30の画面上に表示される。タイトル一覧表が作成された初期状態においては、タイトル一覧表の先頭に位置するタイトル情報が自動的に選択される。ユーザが、現在選択されているタイトル情報を把握できるよう、図4に示すように、ディスプレイ30の画面上において、現在選択されているタイトル情報が、ハイライトで表示される。
次に、ステップS104では、選択されているタイトル情報に基づく合成音声の出力が開始される。具体的には、タイトル情報に基づいて、合成音声出力用のデジタル信号が作製され、作製された合成音声出力用のデジタル信号を、D/Aコンバータ14に送信する。D/Aコンバータ14では、送信された合成音声出力用のデジタル信号がアナログ信号に変換され、次いで、アンプ15で増幅された後に、スピーカ40を介して、合成音声として出力され、ユーザに提示される。
ステップS105では、ユーザにより、現在選択されているタイトル情報と別のタイトル情報が選択されたか判断される。別のタイトル情報が選択されたと判断された場合は、出力しているタイトル情報の音声出力を停止し、ステップS106に進み、別のタイトル情報の音声出力が開始される。一方、別のタイトル情報が選択されていない場合は、ステップS107に進む。ステップS107では、現在選択されているタイトル情報が最後まで出力されたか判断される。現在選択されているタイトル情報の音声出力が最後まで出力されたと判断された場合は、ステップS108に進み、一方、現在選択されているタイトル情報の音声出力が最後まで出力されていないと判断された場合は、ステップS105に戻り、ステップS105からステップS107までの処理を繰り返す。
ここで、ユーザが、図4に示すタイトル一覧表において、ユーザが所望する「米大統領選 接戦州でも開票」とのタイトル情報を選択する場面例について説明する。上述したように、タイトル一覧表が作成された初期状態においては、タイトル一覧表の先頭に位置するタイトル情報が自動的に選択され、「○月の雇用統計発表」とのタイトル情報の音声出力が開始される(ステップS104)。ユーザは、ユーザが所望する「米大統領選 接戦州でも開票」を選択するために、タイトル一覧表において、現在選択されている「○月の雇用統計発表」とのタイトル情報の次に位置するタイトル情報を選択する(ステップS105=YES)。これにより、「米大統領選 接戦州でも開票」の次に位置するタイトル情報が選択され、音声出力が開始される(ステップS106)。ここで、ユーザは、ユーザが要求する「米大統領選 接戦州でも開票」とのタイトル情報を選択するために、「米大統領選 接戦州でも開票」の次に位置するタイトル情報の音声が最後まで出力される前に、さらに次のタイトル情報を選択する(ステップS107=NO、ステップS105=YES)。
このように、連続的に、選択されているタイトル情報の次のタイトル情報を選択することで、ユーザが所望する「米大統領選 接戦州でも開票」とのタイトル情報が選択される。図5は、ユーザが所望する「米大統領選 接戦州でも開票」とのタイトル情報が選択された場合に、ディスプレイ30の画面上に表示されるタイトル一覧表の一例である。ユーザにより、連続的に、次のタイトル情報が選択されることで、図4に示すように、タイトル一覧表の先頭に位置するタイトル情報が選択された状態から、図5に示すように、ユーザが所望する「米大統領選 接戦州でも開票」とのタイトル情報が選択された状態になる。この「米大統領選 接戦州でも開票」とのタイトル情報は、ユーザが要求するタイトル情報であるため、この「米大統領選 接戦州でも開票」とタイトル情報は、音声出力の途中で次のタイトル情報に変更されることなく、最後まで音声出力される(ステップS107=YES)。
次に、上述したユーザが所望する「米大統領選 接戦州でも開票」とのタイトル情報を選択する場面例において、ナビゲーション装置100から出力される音声の出力態様について説明する。図6は、ユーザにより所望されたタイトル情報が選択されるまでに出力される音声の一例を示す図である。なお、図6では、音声出力されなかったタイトル情報を「・・・」で表している。まず、タイトル一覧表が作成された初期状態においては、タイトル一覧表の先頭に位置するタイトル情報が自動的に選択され、「○月の雇用統計発表」とのタイトル情報の音声出力が開始される。ここで、ユーザは、ユーザが要求する「米大統領選 接戦州でも開票」を選択するために、タイトル一覧表において、選択されているタイトル情報の次に位置するタイトル情報を連続的に選択する。そのため、図6に示すように、「○月の雇用統計発表」とのタイトル情報が「○月の」まで音声出力されたタイミングで、「○月の雇用統計発表」とのタイトル情報の次のタイトル情報が選択され、「○月の雇用統計発表」とのタイトル情報は「○月の」で音声出力が終了している。さらに、ユーザにより、「○月の雇用統計発表」とのタイトル情報に続くタイトル情報が、該タイトル情報が出力される前にスキップされ、図6に示すように、ユーザが所望する「米大統領選 接戦州でも開票」とのタイトル情報が選択される。このタイトル情報は、ユーザが所望するタイトル情報であるため、図6に示すように、最後まで音声出力される。
なお、別のタイトル情報を選択するための手法は特に限定されず、例えば、ユーザによる「次。」または「前。」などの発話音声を認識して、現在選択されているタイトル情報の次または前のタイトル情報を選択してもよいし、または、ユーザにより、タッチパネル上に表示される表示スイッチが押下されたこと検出して、表示スイッチが指示するタイトル情報を選択してもよい。
ステップS108では、現在選択されているタイトル情報に対応する本文情報、すなわちユーザが要求したコンテンツ情報が有する本文情報に基づく合成音声が作製され、作製された合成音声が、ユーザに対して出力される。図7は、本文情報に基づいて出力される合成音声の一例を示す図である。タイトル情報が音声出力された後は、タイトル情報の音声出力に続いて、図7に示すように、出力されたタイトル情報に対応する本文情報が出力される。図2に示すように、「米大統領選 接戦州でも開票」とのタイトル情報を有するコンテンツ情報は、「アメリカ大統領選挙は、勝敗の鍵を握るとされる南部□□州や△△州などの接戦州でも開票が始まり、■■党の○○氏と▲▲党の××氏が激しく競り合っています。」との本文情報を有しており、コントローラ12は、「米大統領選 接戦州でも開票」とのタイトル情報に続いて、「アメリカ大統領選挙は、勝敗の鍵を握るとされる南部□□州や△△州などの接戦州でも開票が始まり、■■党の○○氏と▲▲党の××氏が激しく競り合っています。」との本文情報を音声で出力させる。
ステップS109では、ユーザが要求したコンテンツ情報から特定語および重要特定語を抽出し、抽出した特定語および重要特定語を音声認識用辞書に登録する登録処理が行われる。図8は、ステップS109の登録処理の内容を示すフローチャートである。以下、図8を参照して、ステップS109の登録処理について説明する。なお、ステップS109の登録処理は、ステップS108において本文情報の音声出力が開始された後、該本文情報の音声出力と並行して行われる。
まず、ステップS201では、抽出機能により、コンテンツ情報のテキスト情報について、形態素解析が行われる。形態素解析とは、テキスト情報を、テキスト情報を構成する複数の単語(形態素)に分割し、分割された各単語の品詞を判別する処理である。図9は、図2に示すテキスト情報について、形態素解析を行って得られた結果の一例を示す図である。図9に示すように、タイトル情報および本文情報は、意味を持つ最小単位の単語に分割され、また、分割された単語について、名詞であるかなどの品詞が判別される。
続いて、ステップS202では、形態素解析によりテキスト情報から分割された複数の単語のうち、自立語である名詞である単語が抽出される。図9に示すように、形態素解析により分割された単語は、自立語である名詞の他にも、動詞や助詞などの単語が含まれる。抽出機能は、形態素解析によりテキスト情報から分割された単語のうち、動詞や助詞などの単語を除き、自立語の名詞である単語を抽出する。
図10は、形態素解析によりテキスト情報から分割された複数の単語のうち、自立語の名詞である単語を抽出した結果の一例を示した図である。図10に示すように、タイトル情報からは、例えば「米」、「国」、「大統領」などの自立語の名詞である単語が抽出され、また本文情報からは、例えば「アメリカ」、「大統領」、「選挙」などの自立語である名詞である単語が抽出される。しかし、図10の本文情報のように、自立語の名詞である単語には、「アメリカ」、「大統領」、「選挙」などの「米大統領選挙」に関するコンテンツ情報の内容を表す単語も含まれているが、「鍵」、「南部」などの「米大統領選挙」に関するコンテンツ情報の内容を直接的に表す単語ではない単語も含まれる。
このような「鍵」および「南部」などの単語は、「米大統領選挙」に関するコンテンツ情報の内容を直接的に表す単語ではなく、ユーザが「米大統領選挙」に関するコンテンツ情報を要求する際に、ユーザにより発話される頻度が低い単語であると想定される。そこで、ステップS203以降において、コンテンツ情報の内容を表す単語であり、コンテンツ情報を要求する際に、ユーザにより発話される頻度が高いと想定される単語を特定語として抽出する。
まず、ステップS203では、抽出機能により、ステップS202で抽出された自立語の名詞である単語のうち、タイトル情報と本文情報とに共通して含まれる単語が特定語として抽出される。図11は、自立語の名詞である単語のうち、タイトル情報と本文情報とに共通して含まれる単語を抽出した結果の一例を示す図である。なお、図11においては、ステップS202で抽出された自立語の名詞である単語のうち、タイトル情報と本文情報とに共通して含まれる「大統領」、「接戦」、「州」、「開票」との単語を白抜きの四角で囲んでいる。例えば、図11に示すように、タイトル情報に含まれる「大統領」、「接戦」、「州」、「開票」などの単語は、本文情報においても含まれており、抽出機能は、これらタイトル情報と本文情報とに共通して含まれる単語を特定語として抽出する。
さらに、続くステップS204では、抽出機能により、外部記憶装置13に記憶された図示しない同義語辞書を用いて、ステップS202で抽出された自立語の名詞である単語のうち、タイトル情報と本文情報とにおいて同義関係にある単語が特定語として抽出される。図12は、自立語の名詞である単語のうち、タイトル情報と本文情報とにおいて同義関係にある単語を抽出した結果の一例を示す図である。なお、図12においては、タイトル情報と本文情報とにおいて同義関係にある「米」、「選」、「アメリカ」および「選挙」との単語を白抜きの四角で、ステップS203で抽出されたタイトル情報と本文情報とで共通する「大統領」、「接戦」、「州」、および「開票」との単語を網かけの四角で囲んでいる。図12に示すように、タイトル情報に含まれる「米」は米国を意味し、本文情報に含まれる「アメリカ」と同義語である。またタイトル情報に含まれる「選」は選挙を意味し、本文情報に含まれる「選挙」と同義語である。そこで、抽出機能は、タイトル情報に含まれる「米」および「選」という単語と、本文情報に含まれる「アメリカ」および「選挙」という単語とを、さらに特定語として抽出する。
続いて、ステップS205では、抽出機能により、外部記憶装置13に記憶された図示しない文章解析用の辞書を用いて、ステップS202で抽出された自立語の名詞である単語のうち、文章解析用の辞書に登録されていない未知語である単語が特定語として抽出される。図13は、自立語の名詞である単語のうち、未知語である単語を抽出した結果の一例を示す図である。なお、図13において、自立語の名詞である単語のうち、既に特定語として抽出された「米」、「大統領」、「選」、「接戦」、「州」、「開票」、「アメリカ」、および「選挙」との単語を網かけの四角で囲んでおり、未知語および未知語に連続する接尾語である「○○」、「氏」、「××」、および「氏」との単語を白抜きの四角で囲んでいる。また、図13の本文情報において、「○○」、「××」は人名を意味するが、文章解析用の辞書には登録されておらず、形態素解析において、未知語と判断される。図13に示すように、抽出機能は、未知語である「○○(人名)」および「××(人名)」を特定語として抽出する。さらに、ステップS205では、特定語として抽出された未知語に続く接尾語も特定語として抽出される。例えば、図13に示す例では、未知語である「○○(人名)」に続く接尾語である「氏」、および未知語である「××(人名)」に続く接尾語である「氏」が特定語として抽出される。
次に、ステップS206では、抽出機能により、ステップS203からステップS205において、コンテンツ情報の内容を表す特定語として抽出された複数の単語のうち、重要度の高い単語が重要特定語として設定される。例えば、本実施形態では、外部サーバ120以外の図示しない他の外部サーバのアドレスが外部記憶装置13に記憶されており、コントローラ12は、他の外部サーバのアドレスを参照して、インターネットなどの電気通信網110を介して他の外部サーバにアクセスし、他の外部サーバ内に格納されているコンテンツ情報のうち、ユーザが要求したコンテンツ情報と同じカテゴリに属す複数のコンテンツ情報をダウンロードする。そして、抽出機能は、特定語として抽出された複数の単語のうち、他の外部サーバからダウンロードしたコンテンツ情報において共通して使用されている単語を、重要特定語として設定する。
図14は、特定語として抽出された複数の単語のうち、外部サーバ120以外の他の外部サーバからダウンロードしたコンテンツ情報において共通して使用されている単語の一例を示す図である。また、図15は、自立語の名詞である単語のうち、重要特定語として設定された単語の一例を示した図である。なお、図15においては、特定語として抽出された複数の単語のうち、重要特定語として設定された「アメリカ」、「大統領」、「選挙」、「○○(人名)」、「××(人名)」、および「氏」との単語を白抜きの四角で囲み、重要特定語として設定されなかった「米」、「選」、「接戦」、「州」、および「開票」との単語を網掛けの四角で囲んでいる。抽出機能は、外部サーバ120以外の他の外部サーバにアクセスし、図14に示すように、図2に示すコンテンツ情報と同じカテゴリに属する『□□□ニュース』、『×××ニュース』、『△△△新聞ニュース』、および『○○○新聞ニュース』などの複数のコンテンツ情報をダウンロードする。図14に示す例においては、他の外部サーバから取得した『□□□ニュース』、『×××ニュース』、『△△△新聞ニュース』、および『○○○新聞ニュース』には、「アメリカ」、「大統領」、「選挙」、「○○(人名)」、「××(人名)」、および「氏」という単語が共通して含まれている。そのため、抽出機能は、図15に示すように、特定語として抽出した複数の単語のうち、「アメリカ」、「大統領」、「選挙」、「○○(人名)」、「××(人名)」、および「氏」との単語を、特定語よりも重要度の高い重要特定語として設定する。
ステップS207では、記憶機能により、ステップS203からステップS206において抽出された特定語および重要特定語が、1つの特定語グループを構成する認識対象語として、外部記憶装置13内の音声認識用辞書に登録される。また、ステップS207では、後述するユーザの発話音声の音声認識処理において、認識対象語に接続して用いられる定型句からなる定型句グループを、特定語グループに関連づけて記憶する。図16は、特定語および重要特定語を音声認識用辞書へ登録する手法例を説明するための図である。図16に示すように、記憶機能は、図2に示す「米大統領選挙」に関する1つのコンテンツ情報から抽出された「米」、「大統領」、「接戦」、「○○(人名)」、「××(人名)」、および「氏」などの複数の特定語および重要特定語を、1つの特定語グループ1を構成する認識対象語として音声認識用辞書に登録する。また、記憶機能は、特定語グループ1を音声認識用辞書に登録する際に、例えば、「のニュース」などの定型句からなる定型句グループ1を、特定語グループ1に関連づけて登録する。そして、記憶機能は、特定語グループ1と特定語グループ1に関連する定型句グループ1とを、認識対象語グループ1として記憶する。なお、特定語および重要特定語を認識対象語として音声認識用辞書に登録する際には、認識対象語が、特定語に基づくものであるか、あるいは重要特定語に基づくものであるかに応じて、認識対象語に重要度を付加して登録する。これにより、後述するユーザの発話音声の音声認識処理において、重要度に応じた重み付けを行うことができる。
続いて、ステップS208では、取得機能により、ユーザにより要求されたコンテンツ情報に類似するコンテンツ情報が類似情報として取得される。ここで、類似情報としては、以下に説明するようなコンテンツ情報が挙げられる。例えば、各コンテンツ情報は所定のカテゴリごとに予め分類されており、ユーザにより要求されたコンテンツ情報と、同じカテゴリに属するコンテンツ情報が、ユーザにより要求されたコンテンツ情報に類似する類似情報とされる。また、他の例としては、ユーザにより要求されたコンテンツ情報から抽出された特定語および重要特定語を検索キーワードとし、該検索キーワードを所定数以上含むコンテンツ情報が、電気通信網110を介して外部サーバ120で検索され、検索されたコンテンツ情報が、ユーザにより要求されたコンテンツ情報に類似する類似情報とされる。さらには、ユーザにより要求されたコンテンツ情報が他のコンテンツ情報にアクセスするためのインデックス情報を有するかを判断し、ユーザにより要求されたコンテンツ情報がインデックス情報を有すると判断された場合には、ユーザにより要求されたコンテンツ情報が有するインデックス情報が示すコンテンツ情報が、ユーザが要求したコンテンツ情報に類似する類似情報とされる。
続いて、ステップS209では、ステップS208で取得した類似情報から、特定語および重要特定語が抽出される。なお、類似情報から特定語および重要特定語を抽出する手法は、ユーザが要求したコンテンツ情報について特定語および重要特定語を抽出するための処理であるステップS201からステップS206までの処理と同様に行えばよい。
ステップS210では、ステップS209で抽出された類似情報に基づく特定語および重要特定語が音声認識用辞書に認識対象語として登録される。なお、類似情報から抽出された特定語および重要特定語を音声認識用辞書に登録する際には、類似情報から抽出された特定語および重要特定語を、ユーザが要求したコンテンツ情報から抽出された特定語および重要特定語が登録されている特定語グループと同じグループに登録する。
ステップS210で、類似情報から抽出された特定語および重要特定語を音声認識用辞書に認識対象語として登録した後は、ステップS109の登録処理を終了する。
続いて、図3に示すフローチャートに戻り、ステップS110以降の処理について説明する。ステップS110では、本文情報の音声出力の途中で、別のタイトル情報が選択されたか判断される。別のタイトル情報が選択されたと判断された場合は、ステップS106に戻り、現在選択されているタイトル情報とは別のタイトル情報が選択され、別のタイトル情報の音声出力が開始される。一方、別のタイトル情報が選択されていないと判断された場合は、ステップS111に進む。
ステップS111では、ユーザにより終了処理が行われたか判断される。例えば、ユーザによる「終了。」などの発話音声を認識した場合に、ユーザにより終了処理が行われたと判断してもよいし、または、ユーザにより、認識対象語登録処理を終了するための表示スイッチが押下されたこと検出して、ユーザにより終了処理が行われたと判断してもよい。ユーザにより終了処理が行われたと判断された場合は、この認識対象語登録処理を終了する。一方、ユーザにより終了処理が行われたと判断されない場合は、ステップS112に進む。
ステップS112では、本文情報が最後まで音声出力されたか判断される。本文情報が最後まで音声出力された場合は、ステップS113に進み、本文情報の音声出力が終了される。一方、本文情報が最後まで音声出力されていない場合は、ステップS110に戻り、本文情報の音声出力が継続される。また、ステップS113で本文情報の音声出力が終了された後も、ステップS110に戻る。すなわち、ユーザが要求したコンテンツ情報の本文情報が出力された後は、ユーザにより、新たに別のタイトル情報が選択されるか、あるいは終了処理が行われるまでは、選択されているコンテンツ情報とは別のコンテンツ情報がユーザに提示されることはない。
以上のように、認識対象語登録処理は行われる。
なお、上述した認識対象語登録処理は、ユーザによりコンテンツ情報の取得が要求された場合において、ユーザにより要求されたコンテンツ情報および該コンテンツ情報に類似する類似情報から特定語および重要特定語を抽出し、抽出した特定語および重要特定語を音声認識用辞書に登録している。しかしながら、ユーザによりコンテンツ情報の取得が要求されない場合であっても、一度、ユーザによりコンテンツ情報が要求された後は、一定時間ごとに、ユーザが要求したコンテンツ情報から抽出された特定語および重要特定語を含むコンテンツ情報を外部サーバ120から取得し、取得したコンテンツ情報から抽出した特定語および重要特定語を認識対象語として音声認識用辞書に、一定時間ごとに登録していってもよい。
続いて、図17を参照して、特定語および重要特定語を認識対象語として登録した音声認識用辞書を用いて、ユーザの発話音声に基づいて、ユーザが要求するコンテンツ情報を、ユーザに提示するコンテンツ情報提示処理について説明する。図17は、コンテンツ情報提示処理を示すフローチャートである。
まず、ステップS301では、ユーザにより入力スイッチ50の音声認識開始スイッチが押下されたか判断される。ユーザにより入力スイッチ50の音声認識開始スイッチが押下された場合、入力スイッチ50から、コントローラ12に対して、音声認識開始スイッチが押下されたことを示す信号が送信される。コントローラ12は、入力スイッチ50から送信された音声認識開始スイッチが押下されたことを示す信号を受信することで、入力スイッチ50の音声認識開始スイッチが押下されたものと判断する。入力スイッチ50の音声認識開始スイッチが押下されたと判断された場合は、ステップS302に進み、一方、入力スイッチ50の音声認識開始スイッチが押下されていないと判断された場合は、ステップS301に戻り、所定時間経過後に、ユーザにより入力スイッチ50の音声認識開始スイッチが押下されたか判断される。
ステップS302では、音声信号の取り込み開始をユーザに知らせるための告知音が出力される。具体的には、外部記憶装置13に記憶してある告知音出力用のデジタル信号が、コントローラ12によりD/Aコンバータ14に送信され、D/Aコンバータ14でアナログ信号に変換される。アナログ信号に変換された告知音信号は、アンプ15で増幅され、スピーカ40から告知音として出力される。
次に、ステップS303では、認識機能により、ユーザの発話音声の取り込みが開始される。ここで、入力スイッチ50の音声認識開始スイッチが押下されるまでは、コントローラ12により、マイク20から入力された音声信号の平均パワーが演算されている。ステップS303では、認識機能により、音声認識開始スイッチが押下されるまでに演算された音声信号の平均パワーと、音声認識開始スイッチが押下された後に入力された音声信号の瞬間パワーとが比較され、音声認識開始スイッチが押下された後に入力された音声信号の瞬間パワーが、音声認識開始スイッチが押下されるまでに演算された音声信号の平均パワーよりも所定値以上大きくなった場合に、ユーザの発話音声の取り込みが開始される。
ステップS304では、認識機能により、ユーザの発話音声に含まれる単語と、音声認識用辞書に登録された認識対象語との適合度合の演算が開始される。具体的には、認識機能は、ユーザの発話音声の音声パターンと、音声認識用辞書に登録された認識対象語の音声パターンとの一致度を演算し、一致度の大きさを示すスコアを認識対象語ごとに算出する。そして、算出されたスコアを、認識対象語に設定された重要度に応じて補正する。例えば、認識機能は、特定語に基づく認識対象語において算出されたスコアに一定の重み付け係数を乗算し、また、重要特定語に基づく認識対象語において算出されたスコアについては、特定語に基づく認識対象語において算出されたスコアに乗算された重み付け係数よりも大きな重み付け係数を乗算する。そして、認識機能は、補正されたスコアを適合度合として算出する。
加えて、ステップS304では、認識対象語を任意の順番で繋げた言葉も認識対象語とされ、ユーザの発話音声に含まれる単語と、認識対象語を任意の順番で繋げた言葉からなる認識対象語との適合度合も演算される。例えば、図16に示すように、音声認識用辞書に登録された認識対象語である「○○(人名)」と「氏」との単語を繋げた「○○氏」という言葉を認識対象語とし、ユーザの発話音声に含まれる単語と、「○○氏」という単語との適合度合が演算される。さらにステップS304では、音声認識用辞書に登録された認識対象語、または認識対象語を任意の順番で繋げた言葉の語尾に、同じく音声認識用辞書に記憶された定型句を接続した言葉を認識対象語とし、ユーザの発話音声に含まれる単語と、音声認識用辞書に登録された認識対象語、または認識対象語を任意の順番で繋げた言葉の語尾に定型句を接続した言葉からなる認識対象語との適合度合が演算される。例えば、音声認識用辞書に登録された認識対象語である「○○(人名)」と「氏」とを繋げた「○○氏」との言葉の語尾に「のニュース」という定型句を接続した「○○氏のニュース」という言葉を認識対象語とし、ユーザの発話音声に含まれる単語と、「○○氏のニュース」との認識対象語との適合度合が演算される。なお、認識機能により適合度合の演算が実行されている間は、並列して、認識機能による音声取り込みも継続して実行される。
続いてステップS305では、ユーザの発話が終了したか判断される。ユーザの発話が終了したか否かの判断は特に限定されず、本実施形態では、音声取り込み開始後に入力された音声信号の瞬間パワーが所定時間以上にわたって所定閾値以下となった場合に、ユーザの発話が終了したものと判断する。ユーザの発話が終了したと判断された場合は、ステップS306に進み、音声の取り込みを終了する。一方、ユーザの発話が終了していないと判断された場合は、ステップS304に戻り、ユーザの発話音声に含まれる単語と、音声認識用辞書に登録された認識対象語との適合度合の演算が継続される。
次に、ステップS307では、適合度合の演算が終了するまで待機し、続くステップS308では、ステップS304で開始された適合度合の演算結果に基づいて、適合度合が最も高かった認識対象語が認識結果として抽出される。
ステップS309では、選択機能により、ステップS308においてユーザの発話音声に含まれると認識された認識対象語が、音声認識用辞書に記憶されているいずれかの特定語グループに属するか判断される。そして、該認識対象語がいずれかの特定語グループに属すると判断された場合には、選択機能により、該認識対象語を有する特定語グループが選択される。
ステップS310では、取得機能により、ステップS309で選択された特定語グループを構成する複数の認識対象語を含むコンテンツ情報が取得される。具体的には、選択された特定語グループを構成する複数の認識対象語を検索キーワードとして、外部サーバ120を検索し、該検索キーワードを含むコンテンツ情報を取得する。
ステップS311では、提示機能により、ステップS310で取得されたコンテンツ情報の本文情報に基づく合成音声が作製され、ユーザに対して出力される。
図18は、コンテンツ情報提示処理の一場面例を示す図である。図18に示すように、例えば、ユーザが「○○氏のニュース。」と発話して「○○氏のニュース」に関するコンテンツ情報を要求した場合、まず、特定語および重要特定語を認識対象語として登録した音声認識用辞書を用いて、認識機能により、「○○氏のニュース。」というユーザの発話音声について音声認識処理が行われ、例えば、ユーザの発話音声に「○○(人名)」という認識対象語が含まれると認識される。次に、選択機能により、「○○(人名)」という認識対象語が、音声認識用辞書に記憶されているいずれかの特定語グループに属するか判断される。例えば、図16に示すように、「○○(人名)」を有する特定語グループ1がある場合、「○○(人名)」という認識対象語が、特定語グループ1に属すると判断され、特定語グループ1が選択される。そして、取得機能により、「○○(人名)」という認識対象語を有する特定語グループ1を構成する認識対象語、すなわち「米」、「大統領」、「選」、「接戦」、「○○(人名)」、「××(人名)」、および「氏」などの認識対象語を有するコンテンツ情報が取得される。その結果、提示機能により、図18に示すように、取得されたコンテンツ情報の本文情報に基づく「米大統領選は、・・・・接戦・・。○○氏と××氏が・・。」という合成音声がユーザに提示される。
ステップS311で、ユーザが要求するコンテンツ情報をユーザに提示した後は、コンテンツ提示処理を終了する。以上のように、コンテンツ情報提示処理は行われる。
以上のように本実施形態によれば、認識対象語登録処理において、ユーザが要求するコンテンツ情報から、該コンテンツ情報の内容を表す単語を特定語または重要特定語として抽出し、1つのコンテンツ情報から抽出された特定語および重要特定語を、1つの特定語グループを構成する認識対象語として音声認識用辞書に記憶する。そして、コンテンツ情報提示処理においては、特定語および重要特定語に由来する認識対象語を登録した音声認識用辞書を用いて、ユーザの発話音声を音声認識し、ユーザの発話音声に含まれると認識された認識対象語が、いずれかの特定語グループに属するかを判断し、ユーザの発話音声に含まれると認識された認識対象語がいずれかの特定語グループに属する場合には、該認識対象語を有する特定語グループを構成する複数の認識対象語を含むコンテンツ情報を取得する。これにより、ユーザが要求するコンテンツ情報を直接的に取得することができ、ユーザが要求するコンテンツ情報を取得するまでに必要なユーザの発話回数および時間を減少させることができる。その結果、ユーザが要求するコンテンツ情報を適切に提示することができる。
また、本実施形態によれば、形態素解析により、コンテンツ情報のテキスト情報を構成する複数の単語を分割し、分割した複数の単語のうち、自立語の名詞である単語を抽出する。そして、抽出された名詞である単語のうち、テキスト情報のタイトル情報を構成する単語と本文情報を構成する単語とにおいて関連性のある単語、例えば、タイトル情報を構成する単語と本文情報を構成する単語とで共通する単語、またはタイトル情報を構成する単語と本文情報を構成する単語とで同義関係にある単語を特定語として抽出する。さらに、本実施形態では、抽出された自立語の名詞である単語のうち、文章解析用の辞書に登録されていない未知語を特定語として抽出する。このような単語は、コンテンツ情報の内容を表す単語である可能性が高く、ユーザが該コンテンツ情報または該コンテンツ情報に関連するコンテンツ情報を要求する際に、キーワードとなる単語であると想定される。このように、本実施形態では、コンテンツ情報のテキスト情報を構成する単語のうち、動詞や助詞などのユーザの発話音声を認識する際に誤認識の原因となる単語を排除し、さらに自立語の名詞である単語の中から、コンテンツ情報の内容を表し、ユーザがコンテンツ情報を要求する際に高い頻度で使用されると想定される特定語を認識対象語とする。これにより、コンテンツ情報提示処理において、ユーザの発話音声の音声認識率を高め、ユーザの発話音声の誤認識による音声認識のやり直しを有効に防止することができるため、音声認識に必要とされるユーザの発話回数および時間が増大することを防止できる。また、コンテンツ情報提示処理において、コンテンツ情報の内容を表す特定語を検索キーワードとして、ユーザが要求するコンテンツ情報を直接的に取得することができ、ユーザが要求するコンテンツ情報を取得するまでに必要となるユーザの発話回数および時間を減少させることができる。
さらに、本実施形態では、認識対象語登録処理において、ユーザが要求したコンテンツ情報から抽出された特定語のうち、外部サーバ120以外の他の外部サーバが有するコンテンツ情報において共通して使用されている特定語を、特定語よりもさらに重要度の高い重要特定語として設定する。外部サーバに登録されているコンテンツ情報は定常的に更新されており、外部サーバに登録されているコンテンツ情報において共通して使用されている特定語は、コンテンツ情報の内容を表す重要な単語であると想定される。そこで、このような単語を特定語よりもさらに重要度の高い重要特定語をとして設定することで、コンテンツ情報提示処理において、ユーザの発話音声の音声認識率をより高めることができる。
加えて、本実施形態によれば、認識対象語を新たに音声認識用辞書に登録する際に、ユーザが要求したコンテンツ情報のみならず、ユーザが要求したコンテンツ情報に類似する類似情報からも特定語および重要特定語を抽出することで、コンテンツ情報提示処理におけるユーザの発話音声の音声認識率を高め、ユーザが要求するコンテンツ情報を適切に提示することができる。特に、類似情報を、ユーザが要求したコンテンツ情報と同じカテゴリに分類される他のコンテンツ情報、外部サーバ120が有する他のコンテンツ情報のうちユーザにより要求されたコンテンツ情報の内容を表す特定語または重要特定語を所定数以上含む他のコンテンツ情報、および、ユーザにより要求されたコンテンツ情報が該コンテンツ情報に関連する他のコンテンツ情報にアクセスするためのインデックス情報を有する場合に、ユーザにより要求されたコンテンツ情報が有するインデックス情報が示す他のコンテンツ情報、のうちの少なくても1つとすることにより、ユーザにより要求されたコンテンツ情報に類似する類似情報を適切に取得することができる。
以上説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。
例えば、本実施形態においては、ユーザにより要求されたコンテンツ情報のテキスト情報を構成する複数の単語のうち、自立語の名詞である単語を複数抽出し、抽出された自立語の名詞である複数の単語の中で、タイトル情報および本文情報で共通する単語、タイトル情報および本文情報で同義関係にある単語、および未知語を特定語として抽出しているが、これに限定されず、例えば、ユーザにより要求されたコンテンツ情報から抽出した自立語の名詞である単語を認識対象語として、音声認識用辞書に登録してもよい。
また、本実施形態では、抽出された特定語のうち、外部サーバ120以外の他のサーバに登録されたコンテンツ情報に共通して含まれる単語を重要特定語としているが、外部サーバ120以外の他のサーバに登録されたコンテンツ情報に共通して含まれる単語を特定語としてもよく、また反対に、特定語のうち、タイトル情報と本文情報とに共通する単語を重要特定語としてもよいし、タイトル情報と本文情報とにおいて同義関係にある単語を重要特定語としてもよいし、あるいは文章解析用の辞書に登録されていない未知語を重要特定語としてもよい。
さらに、本実施形態では、コンテンツ情報のテキスト情報は、タイトル情報と本文情報とから構成されているが、これに限定されるものではなく、例えば、タイトル情報、要約情報、および詳細情報からなる構成としてもよい。
また、本実施形態では、認識対象語登録処理において、記憶機能により、特定語および重要特定語のみが、1つの特定語グループを構成する認識対象語として、音声認識用辞書に登録されるが、これに限定されるものではなく、例えば、特定語および重要特定語に加え、特定語および重要特定語を任意の順番で繋げた言葉、並びに、これらの単語および言葉の語尾に、例えば「のニュース」という定型句を接続した言葉を、1つの特定語グループを構成する認識対象語として登録してもよい。
なお、上述した実施形態の取得機能は本発明の取得手段に、抽出機能は本発明の抽出手段に、記憶機能は本発明の記憶手段に、認識機能は本発明の認識手段に、選択機能は本発明の選択手段に、提示機能は本発明の提示手段にそれぞれ相当する。
100…ナビゲーション装置
10…ナビゲーション装置本体
11…A/Dコンバータ
12…コントローラ
13…外部記憶装置
14…D/Aコンバータ
15…アンプ
20…マイク
30…ディスプレイ
40…スピーカ
50…入力スイッチ
110…電気通信網
120…外部サーバ
10…ナビゲーション装置本体
11…A/Dコンバータ
12…コントローラ
13…外部記憶装置
14…D/Aコンバータ
15…アンプ
20…マイク
30…ディスプレイ
40…スピーカ
50…入力スイッチ
110…電気通信網
120…外部サーバ
Claims (14)
- ユーザに提示するためのコンテンツ情報を取得する取得手段と、
前記コンテンツ情報に含まれるテキスト情報を構成する複数の単語の中から、前記コンテンツ情報の内容を表す単語である特定語を複数抽出する抽出手段と、
前記抽出手段により抽出された複数の前記特定語を特定語群として記憶する記憶手段と、
ユーザの発話音声を認識する認識手段と、
ユーザの発話音声に含まれる単語が、前記特定語群を構成するいずれかの特定語に対応するかを判断し、前記ユーザの発話音声に含まれる単語に対応する特定語を含む特定語群を選択する選択手段と、
前記選択手段により、前記ユーザの発話音声に含まれる単語と対応する特定語を含む特定語群が選択された場合に、選択された前記特定語群を構成する各特定語に関連するコンテンツ情報を、ユーザに提示する提示手段と、を備えることを特徴とする情報提示装置。 - 請求項1に記載の情報提示装置であって、
前記コンテンツ情報は、前記コンテンツ情報のタイトルを示すタイトル情報と、前記コンテンツ情報の詳細を示す本文情報とを少なくとも含み、
前記抽出手段は、前記タイトル情報を構成する単語と前記本文情報を構成する単語との間の関連性に基づいて、前記テキスト情報を構成する複数の単語の中から、前記特定語を抽出することを特徴とする情報提示装置。 - 請求項2に記載の情報提示装置であって、
前記抽出手段は、形態素解析を用いて、前記テキスト情報を、前記テキスト情報を構成する単語ごとに分割し、分割された複数の単語のうち自立語の名詞を判別し、前記タイトル情報を構成する単語のうち自立語の名詞と判別された単語と、前記本文情報を構成する単語のうち自立語の名詞と判別された単語との間の関連性に基づいて、前記テキスト情報を構成する複数の単語の中から、前記特定語を抽出することを特徴とする情報提示装置。 - 請求項3に記載の情報提示装置であって、
前記抽出手段は、前記テキスト情報を構成する複数の単語の中から、前記タイトル情報と前記本文情報とにおいて共通する単語を、前記特定語として抽出することを特徴とする情報提示装置。 - 請求項3または4に記載の情報提示装置であって、
前記抽出手段は、前記テキスト情報を構成する複数の単語の中から、前記タイトル情報と前記本文情報とにおいて同義関係にある単語を、前記特定語として抽出することを特徴とする情報提示装置。 - 請求項3〜5のいずれかに記載の情報提示装置であって、
前記抽出手段は、前記テキスト情報を構成する複数の単語の中から、前記テキスト情報を構成する単語を解析するための辞書に登録されていない単語を、前記特定語として抽出することを特徴とする情報提示装置。 - 請求項3〜6のいずれかに記載の情報提示装置であって、
前記抽出手段は、外部サーバと通信し、前記テキスト情報を構成する複数の単語のうち、前記外部サーバが有する他のコンテンツ情報に共通して含まれる単語に対応する単語を、前記特定語として抽出することを特徴とする情報提示装置。 - 請求項1〜7のいずれかに記載の情報提示装置であって、
前記抽出手段は、前記コンテンツ情報のうちユーザにより要求された前記コンテンツ情報について、前記抽出を行うことを特徴とする情報提示装置。 - 請求項8に記載の情報提示装置であって、
前記取得手段は、前記ユーザにより要求されたコンテンツ情報と類似する他のコンテンツ情報である類似情報をさらに取得し、
前記抽出手段は、前記類似情報に含まれるテキスト情報を構成する複数の単語の中から、前記類似情報の内容を表す単語を特定語として複数抽出し、
前記記憶手段は、前記類似情報から抽出された前記複数の特定語を特定語群として記憶することを特徴とする情報提示装置。 - 請求項9に記載の情報提示装置であって、
前記取得手段は、外部サーバと通信し、前記外部サーバが有する他のコンテンツ情報のうち、前記ユーザにより要求された前記コンテンツ情報と関連するコンテンツ情報を、前記ユーザにより要求されたコンテンツ情報の類似情報として取得することを特徴とする情報提示装置。 - 請求項9または10に記載の情報提示装置であって、
前記取得手段は、前記ユーザにより要求されたコンテンツ情報と同じカテゴリに属する他のコンテンツ情報を、前記ユーザにより要求されたコンテンツ情報の類似情報として取得することを特徴とする情報提示装置。 - 請求項9〜11のいずれかに記載の情報提示装置であって、
前記取得手段は、前記ユーザにより要求されたコンテンツ情報の内容を表す前記特定語を、所定数以上含む他のコンテンツ情報を、前記ユーザにより要求されたコンテンツ情報の類似情報として取得することを特徴とする情報提示装置。 - 請求項9〜12のいずれかに記載の情報提示装置であって、
前記ユーザにより要求されたコンテンツ情報が、該コンテンツ情報に関連する他のコンテンツ情報を特定するためのインデックス情報を有しているかを判断する判断手段をさらに有し、
前記取得手段は、前記判断手段により、前記ユーザにより要求されたコンテンツ情報が、他のコンテンツ情報を特定するためのインデックス情報を有していると判断された場合に、前記ユーザにより要求されたコンテンツ情報が有する前記インデックス情報により特定される他のコンテンツ情報を、前記ユーザにより要求されたコンテンツ情報の類似情報として取得することを特徴とする情報提示装置。 - コンテンツ情報に含まれるテキスト情報を構成する複数の単語の中から、前記コンテンツ情報の内容を表す単語である特定語を複数抽出し、抽出した複数の前記特定語を特定語群として記憶し、
ユーザの発話音声を認識した場合に、ユーザの発話音声に含まれる単語が、前記特定語群を構成するいずれかの特定語に対応するかを判断し、前記ユーザの発話音声に含まれる単語が前記特定語群を構成するいずれかの特定語に対応すると判断された場合に、前記ユーザの発話音声に含まれる単語に対応する特定語を含む特定語群を構成する各特定語に関連するコンテンツ情報を、ユーザに提示することを特徴とする情報提示方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009140044A JP2010287025A (ja) | 2009-06-11 | 2009-06-11 | 情報提示装置および情報提示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009140044A JP2010287025A (ja) | 2009-06-11 | 2009-06-11 | 情報提示装置および情報提示方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010287025A true JP2010287025A (ja) | 2010-12-24 |
Family
ID=43542678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009140044A Pending JP2010287025A (ja) | 2009-06-11 | 2009-06-11 | 情報提示装置および情報提示方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010287025A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013200696A (ja) * | 2012-03-23 | 2013-10-03 | Nec Corp | 情報処理システム、情報処理方法、通信端末、通信端末の制御方法および制御プログラム、サーバ、サーバの制御方法および制御プログラム |
JPWO2019073669A1 (ja) * | 2017-10-13 | 2020-10-01 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2020184105A (ja) * | 2019-04-26 | 2020-11-12 | シャープ株式会社 | 制御装置、制御方法、プログラム、記録媒体、電子機器 |
-
2009
- 2009-06-11 JP JP2009140044A patent/JP2010287025A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013200696A (ja) * | 2012-03-23 | 2013-10-03 | Nec Corp | 情報処理システム、情報処理方法、通信端末、通信端末の制御方法および制御プログラム、サーバ、サーバの制御方法および制御プログラム |
JPWO2019073669A1 (ja) * | 2017-10-13 | 2020-10-01 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2020184105A (ja) * | 2019-04-26 | 2020-11-12 | シャープ株式会社 | 制御装置、制御方法、プログラム、記録媒体、電子機器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10339166B1 (en) | Systems and methods for providing natural responses to commands | |
US11133027B1 (en) | Context driven device arbitration | |
US9020819B2 (en) | Recognition dictionary system and recognition dictionary system updating method | |
US8620658B2 (en) | Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition | |
KR101670150B1 (ko) | 이름 발음을 위한 시스템 및 방법 | |
EP2783365B1 (en) | Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance | |
US8972260B2 (en) | Speech recognition using multiple language models | |
JP4987682B2 (ja) | 音声チャットシステム、情報処理装置、音声認識方法およびプログラム | |
WO2013066409A1 (en) | System, method and program for customized voice communication | |
WO2016194740A1 (ja) | 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 | |
JP5824829B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
CN110675866B (zh) | 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 | |
KR20130086971A (ko) | 음성인식 질의응답 시스템 및 그것의 운용방법 | |
JP2010287025A (ja) | 情報提示装置および情報提示方法 | |
JP2007328283A (ja) | 対話装置、プログラム、及び対話方法 | |
CN107919127B (zh) | 语音处理方法、装置和电子设备 | |
JP4000828B2 (ja) | 情報システム、電子機器、プログラム | |
JP4808763B2 (ja) | 音声情報収集装置、その方法およびそのプログラム | |
KR101218332B1 (ko) | 하이브리드 방식의 음성인식을 통한 문자 입력 방법 및 장치, 그리고 이를 위한 하이브리드 방식 음성인식을 통한 문자입력 프로그램을 기록한 컴퓨터로 판독가능한 기록매체 | |
JP7251953B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
CN111755015B (zh) | 一种用户画像构建方法及装置 | |
KR20130116128A (ko) | 티티에스를 이용한 음성인식 질의응답 시스템 및 그것의 운영방법 | |
US20240119930A1 (en) | Artificial intelligence device and operating method thereof | |
KR100827074B1 (ko) | 이동 통신 단말기의 자동 다이얼링 장치 및 방법 | |
JP2006301967A (ja) | 会話支援装置 |