以下、実施の形態について図面を参照して説明する。
図1は、実施形態に係るシステム全体の構成例を示した図である。
受信装置10は、デジタルコンテンツを視聴する機器であり、例えば、2Kまたは4K/8Kといった地上波放送、衛星放送などのデジタル放送を受信し視聴可能なテレビ受信装置(テレビ装置、テレビジョン受信機、放送信号受信装置とも称される)である。また受信装置10は、例えばインターネットなどのネットワーク500に接続するための外部インターフェースを備え、ネットワーク500に接続されるコンテンツサーバ装置200(クラウドサーバとしてもよい)が提供するデジタルコンテンツを視聴することが可能である。また、受信装置10は、録画再生機能を有していてもよく、録画再生機能により受信装置10にて録画したデジタルコンテンツを視聴可能である。また受信装置10に図示せぬ録画再生装置が接続されることで、図示せぬ録画再生装置が録画したデジタルコンテンツを視聴可能としてもよい。なお、図1では、1つの受信装置10を示したが、さらに多数の受信装置10が接続されてよい。ただし受信装置10は、デジタルコンテンツを受信可能な機器であれば、全てが同じ機能を有する必要はない。具体的には、視聴可能なモニタのない録画のみができるレコーダや放送信号を受信可能なSet Top Box(STB)などでもよい。テレビ装置やレコーダ、STBなどを総称して受信装置10と称する。
本実施形態においては、特にテレビ装置の例を示すが、テレビ装置をレコーダ、STBなどの受信装置10に置き換えてもよい。また、受信装置10は、同様の受信機能を持つ装置として、パーソナルコンピュータやスマートフォンなどモバイル機器でもよい。
本実施形態の受信装置10は、音声認識を用いた音声による制御が可能である。コマンド制御部1は、例えばユーザが発声した音声コマンドを音声認識し、音声認識により得たコマンド(以降、認識コマンドと称する)を用いて受信装置10内の各機能を制御する。また、リモコン100は受信装置10を遠隔制御するリモートコントローラーである。
また、受信装置10は、受信装置10によって視聴されたデジタルコンテンツの視聴履歴(以降、視聴データと称する)を収集し記憶できる。また、受信装置10に固有のデータ(以降、機器個別データと称する)を記憶できる。視聴データと機器個別データを含めて視聴機器データと称する。受信装置10は、視聴機器データなどの保存データをネットワーク500に接続される視聴解析装置300に出力し、視聴解析装置300が実施した視聴機器データに対する解析結果を受信することができる。
本実施形態における「視聴」とは、ユーザが実際に視聴していなくても、視聴可能な状態にデジタルコンテンツを受信する、または、受信した状態もしくは録画した状態を含む。従って、本実施形態における「視聴履歴」は、例えば、STBなど受信装置が、単に受信してはいるが、視聴の有無を問わない「受信履歴」や、受信装置がレコーダであった場合には、受信装置で受信され、録画予約された、または、録画がされた「録画履歴」等を含む。また同様に本実施形態における「視聴時間」は、例えば、STBなど受信装置がデジタルコンテンツを受信した時間や、受信装置がレコーダであった場合には、デジタルコンテンツを録画がされた時間等を含む。
従って、受信装置10をレコーダ、STBなどの受信装置に置き換えた場合に、レコーダ、STBなどの受信装置が生成した受信ログデータや、ダウンロード履歴データ、録画データなども視聴機器データに含める。
機器個別データは、例えば、受信装置10のリモコン100を使ってユーザが受信装置10に登録してもよいし、受信装置10の固体番号のようにメーカが設定する場合もある。機器個別データは、例えば、受信装置10のIPアドレスや、識別番号、また予め所有者などにより登録されるデモグラフィックデータ(以降、デモグラと称する)などが含まれる。デモグラとは、受信装置10を視聴するユーザを分類するデータであり、例えば、ユーザの年齢、性別、家族構成、居住地域などの情報である。識別番号は、異なる受信装置10を識別する番号、文字列などであり、例えば数字、アルファベットの組み合わせから構成されている。
コンテンツサーバ装置200は、デジタルコンテンツを提供するネットワーク上もしくはクラウドサーバである。コンテンツサーバ装置200は、例えば、コンテンツサービスプロバイダ(CSP)や通信事業者、また、その他Over The Top(OTT)と呼ばれるデジタルコンテンツのサービス事業者などによって提供される。Video On Demandといったサービスを提供するサーバもコンテンツサーバ装置200に含まれる。
視聴解析装置300は、ネットワーク上もしくはクラウド上に存在し、受信装置10が記憶する視聴機器データを収集し、記憶し、さらに記憶したデータを解析して各種の視聴解析を行い、例えば解析を要求した受信装置10に解析結果を出力する装置である。視聴解析装置300は、例えばCPUやメモリなどを有したコンピュータに構築されてもよい。視聴解析装置300は、パーソナルコンピュータであっても良いし、サーバ、データベースなどによるクラウドサービスであっても良い。
また、視聴解析装置300は、受信装置10が個別に持つ識別番号により個々の受信装置10を識別して、受信装置10個別の視聴解析を行うことができてもよい。
音声認識装置400は、ネットワーク500上に設置される。音声認識装置400は、例えばCPUやメモリなどを有したコンピュータに構築される。音声認識装置400は、パーソナルコンピュータであっても良いし、クラウドサーバであっても良い。音声認識装置400は、マイクロフォンなどが受波したユーザの音声に対する音声波形のデジタルデータ(以降、音声データと称する)を、ネットワーク500を介して受信し、ユーザの発したコマンドを推定もしくは認識し、認識したコマンド(認識コマンド)をテキストデータとして出力する。音声認識装置400においては、ユーザが制御対象に発するコマンドを予めテキストデータとしてリスト化しており、受信した音声データから得たテキストデータとリストのテキストデータとを比較して、リスト中の最も近いコマンドを選択して、選択したコマンドのテキストデータを出力することでもよい。ただし、音声認識装置400における音声認識の方法はこの方法に限定されない。
また、音声認識装置400は、音声データをテキスト化(文字化、言語化など)した音声テキストを生成するSpeech To Textサーバ(以降、STTサーバと称する)と、生成された音声テキストとリスト化されたコマンドの中から最も近いコマンドを認識コマンドとして生成するリモート認識サーバから構成されていてもよい。具体的には、リモート認識サーバが、予め図示せぬ記憶部などに登録しておいたコマンドリストを参照して、STTサーバが生成した音声テキストと一致したコマンドもしくはリストの中で最も近いコマンドを認識コマンドとして、出力するようにしてもよい。
ネットワーク500は、受信装置10、コンテンツサーバ装置200、視聴解析装置300、視聴解析装置300が接続されて、各装置が通信可能となるネットワークであり、例えば、インターネットである。また、ネットワーク500はインターネットだけとは限らず、各装置が通信可能であれば複数の異なるネットワークを含むネットワークでもよい。
図2は、実施形態に係る受信装置10の機能構成の一例を示すブロック図である。
受信装置10は、デジタルコンテンツが重畳される信号を受信処理してデジタルコンテンツを取得して視聴する機器である。
放送信号受信処理部20は、アンテナ101から受波したデジタル放送などの放送信号を、デジタル放送の規格に応じ処理し、映像、音声、文字などのコンテンツデータを取得し出力する。デジタル放送の規格は、例えば、2Kデジタル放送にて採用されているMPEG2 TS方式や、4K/8Kデジタル放送にて採用されているMPEG Media Tranport方式(MMT方式)などでもよく、複数のチューナにより双方に対応していてもよい。デジタル放送の規格に応じた処理としては、デジタルデータストリームを、映像、音声、文字などのコンテンツデータのデジタルデータストリームに分離するデマルチプレクシング処理、誤り訂正符号復号処理、暗号化されたデータを復号する暗号復号化処理、各コンテンツデータに対して施された符号化(映像符号化、音声符号化、文字符号化など)に対する復号化処理などを含む。
補助情報出力部21は、制御部90によって要求された情報を放送信号から抽出し、制御部90に出力する。補助情報出力部21は、特に放送信号に含まれる制御情報や番組関連情報などから要求された情報を抽出し、制御部90に出力する。制御部90に出力された情報は、必要に応じて加工が施され、補助情報としてコマンド制御部1にて使用される。
コンテンツ処理部30は、通信部102から入力されるデジタルデータに対して、コンテンツサーバ装置200が施した符号化処理に対する復号化処理などを実施し、映像、音声、文字などのコンテンツデータを出力する。具体的には、コンテンツ処理部30は、復号化処理として、例えば、デマルチプレクシング処理(分離処理)、誤り訂正符号復号処理、符号化されたコンテンツデータ(映像、文字、音声など)に対する復号化処理などを実施する。
補助情報出力部31は、コンテンツサーバ装置200が出力するデータから制御部90によって要求された情報を抽出し、制御部90に出力する。補助情報出力部31は、特にコンテンツサーバ装置200が出力する制御情報などからコンテンツ番組の配信業者など関連する属性情報などを抽出し、制御部90に出力する。制御部90に出力された情報は、必要に応じて加工が施され、補助情報としてコマンド制御部1にて使用される。
録画再生部40は、例えばディスクプレーヤやHDDレコーダなどであり、放送信号受信処理部20やコンテンツ処理部30が出力するコンテンツデータなどを記憶し、再生要求に従って、記憶したコンテンツデータを出力制御部60へ出力し、映像、文字、音声として表示部103やスピーカ部104から出力する。ユーザは、表示部103やスピーカ部104が出力する映像、文字、音声を視聴することにより、録画再生部40に記憶されたデジタルコンテンツなどを視聴する。なお、本実施形態においては、録画再生部40は、受信装置10の一機能としたが、例えば、インターフェース部105を介した外付けの装置であってもよい。また、受信装置10が複数のチューナ(放送信号受信処理部20に相当)を備えているような場合には、録画再生部40は、放送信号受信処理部20によって受信処理したコンテンツAを視聴しながら、録画再生部40で別の放送信号受信処理部20によって受信処理したコンテンツBを録画することができるようにしてもよい。
機器データ生成部50は、受信装置10の各機能部(特に放送信号受信処理部20、コンテンツ処理部、録画再生部40)からデータを収集し、視聴機器データを生成する。視聴機器データは、機器個別データと視聴データとを含む。機器個別データは、受信装置10に固有のデータであり、例えば、受信装置10を設置する際に、ユーザがリモコン100などから受信装置10に設定することでもよい。また、視聴解析で用いられる識別番号は、例えば、受信装置10の購入時などに予め割り振られて、機器個別データなどに設定されてもよい。
視聴データは、例えば視聴履歴であり、受信装置10により何らかの視聴がされた場合に逐次的に生成されてもよい。具体的には、例えば、放送信号受信処理部20やコンテンツ処理部30、録画再生部40が起動されたタイミングに応じて、各機能部において、デジタルコンテンツを提供するチャンネル、番組名(またはそれに準ずる番組id)、番組を視聴した日時などを記憶し、各機能部が停止されたタイミングに応じて、各機能部は記憶したデータを視聴データとして機器データ生成部50に出力する。機器データ生成部50は、視聴データを必要に応じて加工し、受信装置10の図示せぬ記憶部に記憶する。また、各機能部(特に放送信号受信処理部20、コンテンツ処理部30、録画再生部40)がそれぞれ視聴データを記憶しておき、外部装置から視聴データの送信要求があった時に、各機能部が視聴データを機器データ生成部50に出力し、機器データ生成部50が必要に応じて視聴データに加工を施して、外部装置へ視聴機器データとして出力するようにしてもよい。
機器データ生成部50は、生成した視聴機器データを外部装置(特に視聴解析装置300)からの要求に応じて、通信部102へ出力する。視聴機器データは、通信部102からネットワーク500を介して要求した視聴解析装置300へ送信される。また、受信装置10において、視聴機器データの変化を検知した場合に、任意のタイミングで視聴機器データを視聴解析装置300へ送信することでもよい。
補助情報出力部51は、機器データ生成部50が生成した視聴機器データや、受信装置10の各機能から収集した視聴データ、また、視聴解析装置300が出力する各種解析結果データを受信し、制御部90に出力する。制御部90に出力された情報は、必要に応じて加工が施され、補助情報としてコマンド制御部1にて使用される。
出力制御部60は、放送信号受信処理部20やコンテンツ処理30、録画再生部40が出力したコンテンツデータに対して出力タイミング、表示方法などを調整し、表示部103やスピーカ部104へ出力する。
状態切替部62は、表示部103の現在の表示状態(ON状態もしくはOFF状態、表示している状態もしくは表示していない状態など)やスピーカ部104の現在の出力状態(ON状態もしくはOFF状態、音声出力状態もしくは音声をミュートしている状態など)を制御部90からの制御に従って切り替える。制御部90が表示部103の表示状態やスピーカ104の出力状態を管理し、制御部90は、リモコン100やコマンド制御部1からの制御命令に従って状態切替部62を制御する。
センサ部70は、テレビ正面に設置される例えばカメラであり、テレビ装置の正面をカメラで撮影し、撮影した画像から画像認識などを用いて例えばテレビ装置の前にいるユーザを推測することでもよい。
補助情報出力部71は、センサ部70が推測したユーザ情報を制御部90に出力する。制御部90に出力された情報は、必要に応じて加工が施され、補助情報としてコマンド制御部1にて使用される。
メイン電源部80は、受信装置10のメイン機能の電源であり、例えば、テレビ装置の表示部103やスピーカ部104にデジタルコンテンツを出力したり、出力を止めたりする(この操作をテレビ装置のON−OFF操作と称する)際に使われる電源である。
状態切替部82は、メイン電源部80の現在の状態、すなわちテレビ装置のON−OFFの状態を制御部90からの制御に従って切り替える。制御部90がメイン電源部80の現在の状態を管理し、制御部90は、リモコン100やコマンド制御部1からの制御命令に従って状態切替部82を制御する。
制御部90は、受信装置10の各機能を制御する。具体的には、制御部90は、インターフェース部105から各種制御信号を受信し、受信装置10の各機能を制御する。例えば、ユーザが放送信号によるコンテンツを視聴するか、コンテンツサーバ装置200からのコンテンツを視聴するかをリモコン100から指定した場合に、制御部90は、インターフェース部105を介してリモコンからの制御信号を受信し、受信装置10の機能を制御し、ユーザが指定した動作をさせる。なお、図2において、制御部90との間で特に結線をしていない機能ブロックとの間においてもデータのやり取りを行うことにしてもよい。
また本実施形態における制御部90は、インターフェース部105を介してコマンド制御部1からの実行コマンドを受信し、実行コマンドに従って受信装置10内の各機能の制御を実施する。
補助情報管理部91は、各機能内の補助情報出力部(補助情報出力部21、補助情報出力部31、補助情報出力部41、補助情報出力部51、補助情報出力部71など)が出力する補助情報を受信し、図示せぬ記憶部に記憶する。補助情報管理部91は、記憶した各機能の補助情報をインターフェース105からコマンド制御部1に送信する。
補助情報管理部91において記憶する情報は、予め決められた項目を各機能内の補助情報出力部に設定しておき、各機能において補助情報が更新された時点で補助情報出力部が自発的に補助情報管理部91に出力するようにしてもよい。また、補助情報管理部91が必要に応じて各機能の補助情報出力部に補助情報を要求するようにしてもよい。
状態情報管理部92は、各機能内の状態切替部(状態切替部62、状態切替部82など)の状態情報を図示せぬ記憶部に記憶する。状態情報管理部92は、インターフェース105を介して記憶した各機能の状態情報をコマンド制御部1に送信する。本実施形態においては、制御部90が、各機能の状態を制御するため、状態情報管理部92の状態情報は常に最新の状態に保たれる。なお、状態情報管理部92が記憶する情報については、予め決められた項目を各機能内の図示せぬ状態情報出力部に設定しておき、各機能において状態情報が更新された時点で状態情報出力部が自発的に状態情報管理部91に出力するようにしてもよい。また、状態情報管理部92が必要に応じて各機能の状態情報出力部に状態情報を要求するようにしてもよい。
時刻管理部93は、受信装置10の時刻を管理する。受信装置10の内部に時計を持っていてもよいし、放送信号などから時刻を抽出して得てもよい。
通信部102は、ネットワーク500に接続された各種装置と、例えばTCP/IP、UDP/IPといった予め決められた通信規約などに従ってデータの送受信処理をする。
表示部103は、映像や文字を表示する例えばモニタである。スピーカ部104は音声を出力する例えばスピーカである。表示部103、スピーカ部104は、出力制御部60が出力したコンテンツデータを映像、文字、音声として出力する。ユーザは、表示部103、スピーカ部104が出力する映像、文字、音声を視聴することにより、放送信号やコンテンツサーバ装置200、その他録画再生部40によって提供されるデジタルコンテンツを視聴する。
インターフェース部105は、リモコン100など外部から受信装置10を制御するためのインターフェースであり、例えば、リモコン100や受信装置10に付属する図示せぬスイッチなどから制御信号を受信し、受信装置10の制御部90へ出力する。リモコン100のかわりに図示せぬスマートフォンなどの端末からの制御信号を受信するインターフェースを有してもよい。また、インターフェース部105は外部装置と接続するためのインターフェースを有してもよい。例えば、受信装置10と図示せぬ外付けのHDDレコーダを接続するためのインターフェースであってもよい。この場合、ユーザは図示せぬ外付けのHDDレコーダが出力するデジタルコンテンツを表示部103、スピーカ部104にて視聴することができる。
また、本実施形態におけるインターフェース105は、コマンド制御部1のインターフェース部15と通信可能なインターフェースを有しており、例えばインターフェースは各種シリアルバスでもよい。また、インターフェース105は、コマンド制御部1が出力する実行コマンドを受信し、制御部90へ実行コマンドを出力する。
図3は、同実施形態に係るコマンド制御部の機能構成の一例を示すブロック図である。
コマンド制御部1においてコマンド生成部11は、コマンド認識部13が音声認識によって生成する認識コマンドと、補助情報取得部16や状態取得部17が取得する追加情報(補助情報と状態情報)とに基づいて、実行コマンドを生成し、コマンド送信部18からコマンド制御部1の外部に出力する。以下各機能ブロックについて説明する。
コマンド生成部11は、記憶部111に認識コマンドと追加情報と実行コマンドの組み合わせ(以降、条件組合わせリストと称する)を記憶している。条件組合わせリストは、予めユーザが設定することができる。条件組合わせリストはコマンド生成部11のコンピュータプログラムに組み込まれていてもよいし、例えばネットワーク500を介して外部のサーバからダウンロードしてもよい。コマンド生成部11は、認識コマンドと、追加情報とが入力されると、条件組合わせリストを参照して実行コマンドを生成し、出力する。
音声検知部12は、例えばマイクロフォンであり、ユーザが発した音声を受波して、サンプリングなどにより受波した音声波形の音声データを得て、出力する。
コマンド認識部13は、音声検知部12が出力する音声データから音声認識を実施し、ユーザの発したコマンドを推定もしくは認識し、認識コマンドをテキストデータとして出力する。コマンド認識部13は、音声認識を実行する音声データ処理部(音声認識エンジン)を自身でコマンド認識部13内に備えることもできるが、音声認識エンジンを備えたネットワーク500上の音声認識装置400に音声データを送信して、認識コマンドを得ることもできる。音声認識装置400を利用することで、コマンド認識部13の製造コストなどを下げることができる。また音声認識装置400が多数の受信装置10から音声データを得て音声認識を実施することにより、音声認識装置400は学習効果を得て音声認識の性能向上を図ることができるなどのメリットもある。ただし、音声認識装置400を使用するためにはネットワーク500を介するため、音声認識の処理遅延が大きいというデメリットがあり、その点、コマンド認識部13の内部の音声認識エンジンを利用する場合は音声認識の処理遅延は小さくできるメリットがある。また、図3においては、音声検知部12(スピーカ)を内蔵する例について示しているが、スマートスピーカなどを用いることでもよい。例えば、スマートスピーカはインターフェース105に接続して使用する。具体的には、音声認識エンジンを搭載したスマートスピーカが認識コマンドを生成し
コマンド制御部1(もしくはコマンド生成部11)がスマートスピーカの生成した認識コマンドを、例えば、インターフェース105を介して取得することでもよい。取得した認識コマンドはコマンド生成部11において実行コマンドの生成に用いられることでもよい。
ユーザインターフェース部14は、例えばパソコンのキーボードなどのように文字入力できるインターフェースである。具体的にはユーザはユーザインターフェース部14から、記憶部111に条件組合わせリストを設定する。なお、リモコン100やスマートフォンなどを用いて、条件組合わせリストを記憶部111に設定することにしてもよい。また、コマンド生成部11が受信装置10の外部に設置された図示せぬ条件組合わせリストを提供するサーバから記憶部111に条件組合わせリストをダウンロードすることでもよい。
インターフェース部15は、インターフェース部105と各種データ通信をする。具体的には、インターフェース部15は、インターフェース部105から補助情報や状態情報を受信する。また、インターフェース部15は、インターフェース部105に対してコマンド生成部11の生成した実行コマンドを送信する。
補助情報取得部16は、補助情報管理部91からインターフェース部15を介して補助情報を取得する。補助情報取得部16は、例えばコマンド認識部13から認識コマンドが出力されるタイミングに応じて、補助情報管理部91に対して補助情報の取得要求を出力し、補助情報管理部91から補助情報を取得してもよい。
状態取得部17は、状態情報管理部92からインターフェース部15を介して状態情報を取得する。例えばコマンド認識部13が認識コマンドを出力するタイミングもしくはコマンド生成部11が認識コマンドを受信するタイミングに応じて、状態情報取得部16が状態情報管理部92に対して状態情報の取得要求を出力し、状態情報管理部92から状態情報を取得してもよい。
コマンド送信部18は、コマンド生成部11が生成し、出力した実行コマンドをインターフェース部15から制御部90へ送信する。また、通信部102を介してネットワーク500上の装置や機器に送信することもできる。
制御部19は、コマンド制御部1内の各機能ブロックを制御する。なお、図3において、制御部19との間で特に結線をしていない機能ブロックとの間においてもデータのやり取り(制御)を行うことにしてもよい。
音声分析部121は、音声検知部12から出力される音声データに対して、例えば周波数分析(声紋分析)を実施し、大人子供、年齢、性別など音声源の属性を推測して音声源推測結果を得る。音声分析部121は、音声源推測結果に対して必要な加工を施して補助情報として補助情報取得部16に出力する。また音声分析部121により得られる音声源推測結果は、コマンド生成部11、コマンド認識部13、コマンド送信部18などの起動の可否にも利用することができる。音声源推測結果により、例えば音声を発したユーザが子供である場合に、実行コマンドを出力させないようにするために、音声分析部121が音声源推測結果を制御部19に出力すると、制御部19はコマンド生成部11、コマンド認識部13、コマンド送信部18の機能を有効にしたり無効にしたりすることでもよい。
図4は、同実施形態において、音声コマンドにより制御できる制御対象部位と制御対象部位の状態の一例を示す図である。
左の列から、「NO」、「制御対象部位」、「取りうる状態値」、「音声コマンド」を示している。「制御対象部位」は、音声コマンドにより制御できる受信装置10の部位である。「取りうる状態値」は、「制御対象部位」の取りうる状態である。「音声コマンド」は、「制御対象部位」に対して状態値を切り替える際に、ユーザが発声する制御命令である。
「NO」=1は、受信装置10の「制御対象部位」であるメイン電源部80の「取りうる状態値」がONとOFFの2状態であることを示す。この場合、状態値を切り替えるための「音声コマンド」は、状態値をONにする場合は「電源ON」であり、状態値をOFFにする場合は「電源OFF」である。すなわち、テレビ装置の電源をONにするためは、ユーザは「電源ON」と発声し、テレビ装置の電源はOFFにするためには、ユーザは「電源OFF」と発声する。
「NO」=2は、受信装置10の「制御対象部位」である出力制御部60の状態切替部62の「取りうる状態値」がONとOFFの2状態であることを示す。すなわち、テレビ装置の音量をONにしてスピーカ部104から音声を出力させるためには、ユーザは「音量ON」と発声し、テレビ装置の音量はOFFにしてスピーカ部104から音声が出力されなくする(ミュートする)ためには、ユーザは「音量OFF」と発声する。
「NO」=3は、デジタルコンテンツを表示部103やスピーカ部104に出力している状態にあるコンテンツ出力装置である。コンテンツ出力装置は、放送信号受信処理部20、コンテンツ処理部30、録画再生部40の総称である。具体的には、「取りうる状態値」の列における「チューナ」が放送信号受信処理部20、「ネット」がコンテンツ処理部30、「レコーダ」が録画再生部40にそれぞれ相当する。例えば、放送信号受信処理部20を受信状態にして放送信号によるコンテンツを表示部103、スピーカ部104に出力させるためには、ユーザは「チューナ」と発声する。コンテンツ処理部30を受信状態にして表示部103、スピーカ部104にコンテンツサーバ装置200からのコンテンツを出力させるためには、ユーザは「ネット」と発声する。録画再生部40を再生状態にして表示部103、スピーカ部104に出力させるためには、ユーザは「レコーダ」と発声する。
「NO」=4は、デジタルコンテンツを表示部103やスピーカ部104に出力している状態にあるチューナである。「取りうる状態値」のBS、CS、地デジは、それぞれBSデジタル放送、CSデジタル放送、地上デジタルテレビジョン放送(地デジ放送)のチューナを示している。例えば、BSデジタル放送を受信状態にして表示部103、スピーカ部104にBSデジタル放送のコンテンツを出力させるためには、ユーザは「BS」と発声する。CSデジタル放送を受信状態にして表示部103、スピーカ部104にCSデジタル放送のコンテンツを出力させるためには、ユーザは「CS」と発声する。地デジ放送を受信状態にして表示部103、スピーカ部104に地デジ放送のコンテンツを出力させるためには、ユーザは「地デジ」と発声する。
「NO」=5は、コンテンツ出力装置が表示部103やスピーカ部104に出力しているチャネル(番組)である。「取りうる状態値」の1ch、2ch、3chはチャネル番号を示している。例えば、1chを受信状態にして表示部103、スピーカ部104に1chの番組を出力させる場合は、ユーザが「1ch」と発声する。他のチャネルについても同様である。なお、チャネルは通常、コンテンツ出力装置ごとかつチューナごとに定義されることでもよい。例えばコンテンツ出力装置を放送信号受信処理部20とする場合は、チューナ「BS」、「CS」、「地デジ」ごとにチャネル番号が割り振ることでもよい。また、コンテンツ出力装置のすべてのチャネルに対して統一的に固有のチャネル番号を割り振ってもよい。その場合は、そのチャネル番号によって、コンテンツ出力装置の種類、チューナの種類を特定できる。
また「取りうる状態値」として、「ホーム(帰る場所)」という状態を持つことでもよい。「ホーム」は、ユーザが設定できる状態値である。
例えば、NO3の例において、制御対象部位であるコンテンツ出力装置の「ホーム」状態値として「チューナ」を設定した場合について説明する。例えば、ユーザがコンテンツ出力装置「ネット」の番組を視聴中に、すなわちコンテンツ出力装置の現状態が「ネット」である時に、ユーザが音声コマンドとして「ネット」と発声するなどして、コマンド認識部13において認識コマンドとして「ネット」が認識、生成されたとする。コマンド生成部11は、認識コマンドが入力されると、「ホーム」である「チューナ」に状態を切り替えるための実行コマンド「チューナ」を生成、送信し、コンテンツ出力装置を「チューナ」に切り替える。
例えば、NO4の例において、制御対象部位であるチューナの「ホーム」状態値として「地デジ」を設定した場合について説明する。例えば、ユーザが「BS」のチューナを視聴中に、すなわちチューナの現状態が「BS」である時に、ユーザが音声コマンドとして「BS」と発声するなどして、コマンド認識部13において認識コマンドとして「BS」が認識、生成されたとする。コマンド生成部11は、認識コマンドが入力されると、「ホーム」である「地デジ」に状態を切り替えるための実行コマンド「地デジ」を生成、送信し、チューナを「地デジ」に切り替える。
NO5の例において、制御対象部位であるチャネルの「ホーム」状態値として「1ch」を設定した場合について説明する。例えば、ユーザが「2ch」のチャネルを視聴中に、すなわちチャネルの現状態が「2ch」である時に、ユーザが音声コマンドとして「2ch」と発声するなどして、コマンド認識部13において認識コマンドとして「2ch」が認識、生成されたとする。コマンド生成部11は、認識コマンドが入力されると、「ホーム」である「1ch」に状態を切り替えるための実行コマンド「1ch」を生成、送信し、チャネルを「1ch」に切り替える。
なお、上記の「ホーム」状態値への設定は、ユーザが設定してもよいし、前回テレビ装置の電源をOFFにする直前の状態値が自動設定されることでもよい。また、音声コマンドとして「ホーム」があってもよい。例えば、ユーザが音声コマンドを「ホーム」と発声し、「ホーム」が認識コマンドとして生成されると、「ホーム」として設定された状態値に状態が移ることでもよい。
図5は、同実施形態において、利用可能な補助情報の一例を示す図である。
左の列から、「NO」、「情報源」、「補助情報」、「情報値」を示している。「情報源」は、「補助情報」の発信源もしくは「補助情報」の抽出元(抽出した部位)である。「補助情報」は、本実施形態においてコマンド制御部1が実行コマンドを作成する場合に利用する情報である。「情報値」は「補助情報」の値である。
「NO」=1は、「情報源」である受信装置10の時刻管理部93が、時刻を補助情報に含めることを示している。
「NO」=2は、「情報源」である受信装置10の音声分析部121が実施する音声分析により得られる声紋から、音声の発信源の属性を決定し、音声の発信源の属性を補助情報に含めることを示している。音声の発信源の属性は、例えば、発信源の年齢や、年齢により定義した大人子供の分類、また年齢により定義した幼児、幼稚園児、小学生、中学生、高校生、大学生、社会人などの分類であるユーザ識別情報である。
「NO」=3は、「情報源」である受信装置10のコマンド認識部13が実施する音声認識により得られる音声認識結果から、ユーザ識別情報を決定し、ユーザ識別情報の属性を補助情報に含めることを示している。
「NO」=4、5、6は、それぞれ「情報源」である受信装置10の音声分析部121が実施する音声分析により得られる声の強さ、声の高さ、声の速さから、それぞれ補助情報として声の強さの強弱、声の高さの高低、声の速さの遅速を提供することを示している。
「NO」=7は、「情報源」である受信装置10のセンサ部70(例えばカメラ)が、カメラで取得した画像認識結果から、ユーザ識別情報を決定し、ユーザ識別情報の属性を補助情報に含めることを示している。
「NO」=8から11は、それぞれ「情報源」である受信装置10の放送信号受信処理部20が放送信号から抽出した「放送事業者」、「番組放送時間帯」、「番組種類」、「番組名」を補助情報に含めることを示している。「放送事業者」の場合は、例えば業者A、業者B、業者Cなどの業者の名称を補助情報の値とする。「番組放送時間帯」の場合は、放送時間帯を補助情報の値とする。「番組種類」の場合は、例えばドラマ、スポーツ、音楽、ニュース、教育、緊急情報など番組の種類を補助情報の値とする。「番組名」の場合は、例えば番組A、番組B、番組Cなどの番組の名称を補助情報の値とする。
「NO」=12は、「情報源」である視聴解析装置300が提供する解析結果により得られるデモグラを情報補助に含める。
「NO」=13から16は、それぞれ「情報源」である受信装置10の録画再生部20(外付けのレコーダなども含めてよい)が番組を録画した際に放送波から抽出した「放送事業者」、「番組放送時間帯」、「番組種類」、「番組名」を補助情報に含めることを示している。
「NO」=17から20は、それぞれ「情報源」である受信装置10のコンテンツサーバ装置200が送信するコンテンツに付随する情報から抽出した「配信事業者」、「番組放送時間帯」、「番組種類」、「番組名」を補助情報に含めることを示している。またデジタルコンテンツを録画したユーザ(特に録画管理者と称する)を補助情報に含めてよい。
(第1の実施形態)
本実施形態においては、ユーザが発した音声コマンドと追加情報に基づいて、受信装置のメイン電源のON−OFFを制御する場合の動作例について示す。
図6は、同実施形態において、コマンド制御部が音声コマンドを受信して実行コマンドを送信するための処理動作例を示すフローチャートである。
ユーザは、受信装置10のメイン電源のON−OFFを制御するために、音声コマンド「電源ON」もしくは「電源OFF」を発したとする。音声検知部が音声を検知する(ステップS11のYES)。音声検知部が音声を検知しない場合は、検知するまで待つ(ステップS11のNO)。音声検知部が音声を検知するまたは検知しないという判断は、例えば、入力される音声の強度に対して閾値を設定して、閾値以上であれば音声が検知されたと判断し、閾値未満であれば音声は検知されていないと判断してもよい。
音声検知部12は、受波した音声の音声データを音声分析部121に出力し、音声分析部121は、受信した音声データに対して音声分析処理を行う(ステップS12)。具体的には、音声分析部121は、音声データに対して周波数分析(声紋分析)を行い、音声の発信源の属性を推測する。
音声分析部121が推測結果を制御部19に出力すると、制御部19は、推測結果から認識コマンドの生成をするか否かを判断する(ステップS13)。認識コマンドの生成可否の判断規則については、ユーザがユーザインターフェース部14から、例えば記憶部111に設定してもよい。制御部19は、記憶部111にアクセスして認識コマンドの生成の判断規則を参照する。制御部19は、認識コマンドの生成を実施すると判断した場合、コマンド認識部13に、音声データに対する音声認識を実行させる(ステップS13のYES)。制御部19は、認識コマンドの生成を実施しないと判断した場合、コマンド認識部13に、音声データに対する音声認識をさせないように制御し、コマンド認識部13を次の音声を検知するまで待ち状態とする(ステップS13のNO、S11)。制御部19は、認識コマンドの生成を実施しないと判断した場合、例えば表示部103やスピーカ部104に「認識コマンドの生成がされませんでした」などのメッセージを出力させて、ユーザに通知することでもよい。
コマンド認識部13は、制御部19から認識コマンドの生成を命令されると、音声認識により、認識コマンドをテキストデータとして得る。コマンド認識部13は、認識コマンドをコマンド生成部11に出力する(ステップS14)。ステップS14においてコマンド認識部13は、まずコマンド認識部13内に備える音声認識エンジンで認識コマンドの取得を試みて、音声認識に失敗して取得されなかった場合に、より音声認識の認識率の高い外部の音声認識装置400を利用して認識コマンドの取得をするようにしてもよい。
コマンド生成部11は、コマンド認識部13から認識コマンドを受信すると、記憶部111の条件組合わせリストを参照する。
図7は、同実施形態において、メイン電源を制御するためにコマンド制御部に設定する実行コマンド生成条件(組合せ条件リスト)の一例を示す図である。
組合せ条件リストの例は、左の列から、「NO」、「実行コマンド」、「認識コマンド」、「状態情報」、「補助情報」を示している。各行ごとに記載されている「認識コマンド」と、「状態情報」と、「補助情報」とを条件として、同一行に記載されている「実行コマンド」が決定されることを示している。「認識コマンド」は、コマンド認識部13が生成し、出力する認識コマンドである。組合せ条件リストは、例えば、ユーザがユーザインターフェース部14から記憶部111に設定することでもよい。図7に示した組合せ条件リストは一例であり、補助情報の数(列の数)はさらに追加することも可能である。
図6に戻り、コマンド制御部1の処理動作を説明する。コマンド生成部11は、コマンド認識部13から「認識コマンド」として例えば「電源ON」が入力されると、組合せ条件リストを参照し、リストの列項目である「補助情報」、「状態情報」の取得をそれぞれ補助情報取得部16と状態情報取得部17に命令する。補助情報取得部16は、組合せ条件リストの補助情報の項目である「時刻」、「声の強さ」、「ユーザ識別情報」を補助情報管理部91に要求し、取得し、コマンド生成部11に出力する(ステップS15)。状態情報取得部17は、「認識コマンド」が「電源ON」であることから制御対象がメイン電源80であることを把握し、状態情報管理部92に対してメイン電源80の状態情報を取得し、コマンド生成部11に出力する(ステップS16)。
コマンド生成部11は、組合せ条件リストを参照して、取得した補助情報と、状態情報と、認識コマンドとが、組合せ条件リストの条件の組合せと一致する行を探す。条件の組合せが一致する行に「実行コマンド」の項目にコマンドがある場合は、「実行コマンド」の項目に記載されているコマンドを実行コマンドとして生成し、コマンド送信部18へ出力する(ステップS17,S18のYES,S19)。一方、例えば、図7のNO7のように、条件の組合せが一致する「実行コマンド」の項目が「送信なし」となっている場合は、実行コマンドの生成はせず、コマンド制御部1は次の音声が検知されるのを待つ(ステップS17,S18のNO)。実行コマンドが「送信なし」の場合、コマンド制御部1は、「実行コマンドが送信されなかったまたは生成されなかった」という意味を含むメッセージを制御部90に送信してもよい。メッセージを受信した制御部90は、表示部103にてメッセージを表示させたり、スピーカ部104からメッセージ内容を含んだ音声を出力させたりして、ユーザに通知することでもよい。
また、条件の組合せが一致する「実行コマンド」の項目が「送信なし」の場合、コマンド制御部1は、「現状態を維持するための実行コマンド」を生成、送信することでもよい。例えば、音声分析部121による音声コマンドの声紋分析の結果、ユーザ識別情報として音声の発信源が「子供」である補助情報がコマンド生成部11に入力された場合、認識コマンドを用いずに、補助情報のみで「現状態を維持するための実行コマンド」を生成し、送信することでもよい。この場合、コマンド生成部11は、「その操作はできません」などという意味を含むメッセージを制御部90に送信してもよい。その際、メッセージを受信した制御部90は、表示部103にてメッセージを表示させたり、スピーカ部104からメッセージ内容を含んだ音声を出力させたりして、ユーザに通知することでもよい。
コマンド送信部18は、実行コマンドが入力されたら、インターフェース部15を介して、実行コマンドを制御部90に送信する(ステップS101)。制御部90は、受信した実行コマンドに従って、制御対象の機能を制御する。
コマンド制御部1は、実行コマンドを生成もしくは送信した場合に、「実行コマンドを送信した」という内容を含んだメッセージを制御部90に送信してもよい。また、コマンド制御部1は、認識コマンドと生成した実行コマンドが異なる場合に「実行コマンドが認識コマンドと異なる」内容を含んだメッセージを制御部90に送信することでもよい。コマンド制御部1では、表示部103にメッセージを表示させたり、スピーカ部104からメッセージ内容を含んだ音声を出力させたりして、ユーザに通知することでもよい。このようにすることで、ユーザは自身が発した音声コマンドが正しく実行されているかを確認することができる。
再び、図7を用いて、組合せ条件リストについて詳細を説明する。
「NO」=1の場合、補助情報が全て「−」であるが、これは補助情報を用いないことを示しており、コマンド生成部11が状態情報と認識コマンドのみで実行コマンドを生成する例である。「NO」=1の例では、「認識コマンド」が「電源ON」であり、「状態情報」が「ON」である時に、実行コマンドは「電源OFF」とする。「NO」=2から4については同様であるので説明は省略する。
「NO」=5の場合、「認識コマンド」が「電源ON」であり、「状態情報」が「ON」であり、1つ目の「補助情報」である「時刻」が「昼」であり、2つ目の「補助情報」である「声の強さ」が「強」である時に、実行コマンドは「送信なし(もしくは生成しない)」とする例である。ここで「補助情報」である「時刻」の値を「昼」としているが、例えば、補助情報取得部16が時刻と時刻分類値(朝、昼、夜)との対応関係を持っており、補助情報取得部16が取得した「時刻」から対応する時刻分類値を判定し、時刻分類値(NO=5の場合、昼)をコマンド生成部11に出力するようにしてもよい。2つ目の「補助情報」である「声の強さ」についても同様である。例えば、補助情報取得部16が音声分析部121から入力される「音声の強度」と強度分類(強、弱)との対応関係を持っており、補助情報取得部16が受信した「音声の強度」から対応する強度分類値を判定し、強度分類値(NO=5の場合、強)をコマンド生成部11に出力するようにしてもよい。「NO」=6から12については同様であるので説明は省略する。「NO」=5から12のように、補助情報として「時刻」と「声の強さ」とを利用することで、「昼」の時間帯には周囲の騒音が大きくなるために、音声認識エンジンの精度が劣化して認識コマンドがユーザの音声コマンドと異なってしまうといった状況を考慮して、実行コマンドを生成できる。
「NO」=13の場合、「認識コマンド」が「電源ON」であり、「状態情報」が「ON」であり、1つ目の「補助情報」である「時刻」が「夜」であり、2つ目の「補助情報」である「ユーザ識別情報」が「大人」である時に、実行コマンドは「電源OFF」とする例である。「NO」=5と同様、例えば、音声分析部121が声紋分析による音声コマンドの発信源の年齢を補助情報取得部16に入力する場合、年齢と年齢分類値(大人、子供)との対応関係により、補助情報取得部16が受信した「年齢」から対応する年齢分類値を判定し、年齢分類値(NO=13の場合、大人)をコマンド生成部11に出力するようにしてもよい。「NO」=14から20については同様であるので説明は省略する。「NO」=13から20のように、補助情報として「時刻」と「ユーザ識別情報」とを利用することで、「夜」の時間帯には周囲の騒音が小さいために、音声認識エンジンの精度は劣化しないが、「夜」はユーザによって実行コマンドの生成や送信を制限したいといった場合に利用できる。
以上、図6のフローチャートの手順により、図7による条件組合わせリストを用いた実行コマンドの生成が可能になる。
図7による条件組合わせリストの「NO」=1の条件を適用した場合、メイン電源の現状態(「状態情報」に相当)が「ON」である。通常このような状況においてユーザは、「電源ON」という音声コマンドを発する可能性は少なく、逆に現状態「ON」の反対である「電源OFF」の音声コマンドを発する可能性の方が高くなると考えられる。しかし、周囲の騒音などにより、「電源OFF」の音声コマンドがコマンド認識部13の音声認識エンジンによって「電源ON」と認識されると、ユーザが「電源OFF」と発声しているにも関わらず、受信装置10のメイン電源をOFFにすることができない事態が発生し、ユーザのストレスは多大なものになる。しかし本実施形態によれば、コマンド制御部1において、条件組合わせリストの「NO」=1の条件を用いて、受信装置10の状態情報に基づいて認識コマンドの解釈をすることでこのような事態を防ぐことが可能となる。同様にコマンド制御部1に条件組合わせリストの「NO」=2から4を適用した場合、認識コマンドがメイン電源の現状態(「状態情報」)を切り替えるような制御命令である場合には認識コマンドと実行コマンドの制御命令を一致させる。逆に認識コマンドが「状態情報」と同じ状態への制御命令である場合は、実行コマンドの制御命令は、認識コマンドと反対のもしくは異なる制御命令となる。このように動作させる背景は、音声認識エンジンが特にONとOFFの音声の認識を間違える可能性が高いことにある。本実施形態においては、制御対象の現状態と制御後の状態とが同じになるようにユーザが音声コマンドを発することはあまりないという点を考慮して、音声コマンドに対する音声認識による解釈を支援することを可能にする。
本実施形態における図7の条件組合わせリストには、NO1からNO20に、実行コマンドを決定するための条件組合せが示されているが、これらに優先権をつけて、コマンド生成部11に優先権を考慮して条件組合わせリストを参照させることもできる。優先権は、図7のように、NO1からNO20の行順に与えてもよい。この場合、コマンド生成部11は、補助情報を取得したとしても、NO1からNO4に優先権があるため、補助情報は使用しない。また図7のリストに別途優先順位を示す列項目を追加して、各行の条件組合せに優先権をユーザが設定できるようにしてもよい。
また「補助情報」が複数ある場合に、「補助情報」内で優先権を与えてもよい。例えば、図7の組合せ条件リストにおいて、補助情報に対し、例えば「時刻」、「声の強さ」、「ユーザ識別情報」の順に高い優先権を付与する。この場合、コマンド生成部11は、例えば組合せ条件リストにおいて優先権の高い補助情報が入った条件組合せから参照する。具体的には、補助情報が「時刻」のみの条件組合せに一番高い優先権を与え、次に「時刻」と「声の強さ」のみの条件組合わせに優先権を与え、その次に「時刻」と「ユーザ識別情報」のみの条件組合わせに優先権を与えるようにユーザが設定してもよい。
また、「時刻」、「声の強さ」、「ユーザ識別情報」に優先度を示す点数をユーザが設定することで、「時刻」、「声の強さ」、「ユーザ識別情報」に付与された点数の総和をコマンド生成部11に計算させ、点数の総和の高いものから、別途優先順位を高くするなどして各組合せ条件リストに優先権を与えることでもよい。この場合、優先順位をコマンド生成部11が計算できるので、ユーザは「時刻」、「声の強さ」、「ユーザ識別情報」に対して優先度を示す点数を設定するだけでよい。
また基本的に組合せ条件リストに示される条件組合せは、同じ条件となる組み合わせがないように設定するのが望ましい。もし同じ条件となる組み合わせがある場合は、コマンド生成部11は、リスト順に選択するなどの規則を予め決めておくことでもよい。
(第2の実施形態)
本実施形態においては、ユーザが発した音声コマンドと、状態情報と、補助情報として番組種類と声の強さとを利用して、受信装置10のスピーカ部104が出力する音量のON−OFFを制御する場合のコマンド制御部1の動作例について示す。なお、本実施形態においては、メイン電源はONの状態であることを想定している。
図8は、第2の実施形態において、音量を制御するためにコマンド制御部に設定する実行コマンド生成条件の一例を示す図である。なお、本実施形態におけるコマンド制御部1が音声コマンドを受信して実行コマンドを送信するための処理動作の例は、図6を用いて説明するが、第1の実施形態と同様の部分については説明を省略する。
ユーザは、受信装置10のスピーカ部104の音量出力のON−OFFを制御するために、音声コマンド「音量ON」もしくは「音量OFF」を発したとする。音声検知部が音声を検知する(ステップS11のYES)。音声分析処理の結果、制御部19が、認識コマンドを生成すると判断、コマンド認識部13に、音声データに対する音声認識を実行させる(ステップS13のYES)。コマンド認識部13は、音声認識により、認識コマンドをテキストデータとして得て、認識コマンドをコマンド生成部11に出力する(ステップS14)。
コマンド生成部11は、コマンド認識部13から認識コマンドを受信すると、記憶部111の条件組合わせリストを参照する。コマンド生成部11は、コマンド認識部13から「認識コマンド」として「音量ON」が入力されると、組合せ条件リストを参照し、リストの列項目である「補助情報」、「状態情報」の取得をそれぞれ補助情報取得部16と状態情報取得部17に命令する。補助情報取得部16は、組合せ条件リストの補助情報の項目である「番組種類」、「声の強さ」を補助情報管理部91に要求し、取得し、コマンド生成部11に出力する(ステップS15)。状態情報取得部17は、「認識コマンド」が「音量ON」であることから制御対象がメイン電源80であることを把握し、状態情報管理部92からスピーカ部104の状態情報を取得し、コマンド生成部11に出力する(ステップS16)。
コマンド生成部11は、組合せ条件リストを参照して、取得した補助情報と、状態情報と、認識コマンドとの組み合わせが一致した行の「実行コマンド」の項目にコマンドがある場合は、「実行コマンド」の項目に記載されているコマンドを実行コマンドとして生成し、コマンド送信部18へ出力する(ステップS17,S18のYES,S19)。一方、「実行コマンド」の項目が「送信なし」となっている場合は、実行コマンドの生成はせず、コマンド制御部1は次の音声が検知されるのを待つ(ステップS17,S18のNO)。コマンド送信部18は、実行コマンドが入力されたら、実行コマンドをインターフェース部15から制御部90に送信する(ステップS101)。
図8を用いて、組合せ条件リストについて詳細を説明する。
「NO」=1の場合、「状態情報」が「ON」であることから、現在「音量」が出力状態であることを示す。「NO」=1の条件組合せは、「認識コマンド」が「音量ON」であり、1つ目の「補助情報」である「番組種類」が「緊急情報」であり、2つ目の「補助情報」である「声の強さ」が「−」(条件なし)である時に、コマンド生成部11が実行コマンドとして「送信なし(もしくは生成しない)」を生成する例である。「NO」=2から4については同様であるので説明は省略する。「NO」=1から4のように、補助情報として「番組種類」を利用して、「番組種類」が「緊急情報」である場合には、あらゆる状況において、音量をONにしたいといった要求を考慮できる。例えば、放送信号受信処理部20が放送信号を受信中に地震などが起きた場合、たまたま音量をOFFにしていた場合に、ユーザは音量をONにするためにとっさに「音量ON」の音声コマンドを出力する。しかし、地震などの緊急時には周囲の騒音が大きくなることが予想され、ユーザの発した音声コマンドが間違って認識されてしまう可能性が高い。このような場合に、補助情報取得部16が取得した補助情報の「番組種類」として「緊急情報」を取得すると、コマンド生成部11は、受信した「認識コマンド」や制御対象の「状態情報」によらず常に音量をONにする。
「NO」=5から12は、補助情報として「ユーザ識別情報」を使用する例である。例えば、昼間の時間帯などに子供が受信装置10でデジタルコンテンツを視聴することを避けたいといった場合に、「NO」=5から12のような条件組合せ利用することができる。
以上、本実施形態のように、ユーザが組合せ条件リストを設定することで、さまざまなユースケースを想定して、音声コマンドに対するコマンド制御が可能となる。
(第3の実施形態)
本実施形態においては、ユーザが発した音声コマンドと、状態情報と、補助情報としてユーザ識別情報と時刻とを利用して、受信装置10が、表示部103やスピーカ部104に出力するデジタルコンテンツを制御する場合のコマンド制御部1の動作例について示す。なお、本実施形態においては、メイン電源はONの状態であることを想定している。また、本実施形態においては、1つの音声コマンドに対して、2つの実行コマンドを出力する例を示す。
図9は、第3の実施形態において、デジタルコンテンツ受信を制御するためにコマンド制御部に設定する実行コマンド生成条件の一例を示す図である。
なお、本実施形態におけるコマンド制御部1が音声コマンドを受信して実行コマンドを送信するための処理動作例は、図6のフローチャートを用いて説明するが、第1の実施形態と同様の部分については説明を省略する。
ユーザは、受信装置10の表示部103やスピーカ部104へのデジタルコンテンツの出力を制御するために、音声コマンド「ネット」、「チューナ」もしくは「レコーダ」のいずれかを発したとする。音声検知部が音声を検知する(ステップS11のYES)。ステップS12、S13を経て、コマンド認識部13は、音声認識により、認識コマンドをテキストデータとして得て、認識コマンドをコマンド生成部11に出力する(ステップS14)。
コマンド生成部11は、コマンド認識部13から「認識コマンド」が入力されると、記憶部111の条件組合わせリストを参照し、リストの列項目である「補助情報」、「状態情報」の取得をそれぞれ補助情報取得部16と状態情報取得部17に命令する。補助情報取得部16は、組合せ条件リストの補助情報の項目である「ユーザ識別情報」、「時刻」を補助情報管理部91に要求し、取得し、コマンド生成部11に出力する(ステップS15)。状態情報取得部17は、「認識コマンド」から制御対象がコンテンツ出力装置であることを把握し、状態情報管理部92からスピーカ部104の状態情報を取得し、コマンド生成部11に出力する(ステップS16)。
コマンド生成部11は、ステップ17からS19を経て実行コマンドを生成し、コマンド送信部18へ出力する。コマンド送信部18から実行コマンドを制御部90に送信する(ステップS101)。本実施形態においては、実行コマンドは2つ生成される。コンテンツ出力装置に対する第1の実行コマンドと、番組種類に対する第2の実行コマンドである。
図9を用いて、組合せ条件リストについて詳細を説明する。
「NO」=1の場合、コンテンツ出力装置の「状態情報」が「チューナ」であることから、現在、「チューナ」が表示部103、スピーカ部104へ出力していることを示す。「NO」=1の条件組合せは、コマンド生成部11が受信した認識コマンドが「ネット」であり、1つ目の補助情報であるユーザ識別情報が「大人」である時に、コマンド生成部11はコンテンツ出力装置の1つである「ネット」から表示部103、スピーカ部104へ出力させるための実行コマンドを生成する例である。「NO」=2、3については同様であるので説明は省略する。
「NO」=4の場合、コンテンツ出力装置の「状態情報」が「チューナ」であることから、現在、「チューナ」が表示部103、スピーカ部104へ出力していることを示す。「NO」=4の条件組合せは、コマンド生成部11が受信した認識コマンドが「ネット」であり、1つ目の補助情報であるユーザ識別情報が「子供」であり、2つ目の補助情報である時刻が「昼」である時に、コマンド生成部11はコンテンツ出力装置の1つである「ネット」から表示部103、スピーカ部104へ出力させないために実行コマンドを生成もしくは送信しない例である。「NO」=4のケースは、例えば、昼間の時間帯などに子供が受信装置10で「ネット」からのデジタルコンテンツを視聴することを避けたいといった場合に利用することができる。
また、「NO」=9の場合、コンテンツ出力装置の「状態情報」が「レコーダ」であることから、現在、「レコーダ」が表示部103、スピーカ部104へ出力していることを示す。「NO」=9の条件組合せは、コマンド生成部11が受信した認識コマンドが「ネット」であり、1つ目の補助情報であるユーザ識別情報が「子供」であり、2つ目の補助情報である時刻が「夜」である時に、コマンド生成部11は実行コマンドとして、「ネット」と番組種類に対する実行コマンドである「教育」との2つを生成する。生成された2つの実行コマンドは、コマンド送信部18から制御部90に送信され、「ネット」が配信サービスする「教育」に関する番組を表示部103、スピーカ部104へ出力させる。「NO」=9のケースは、例えば、夜間の時間帯に子供が受信装置10で「ネット」を見ようとした場合に、番組種類が「教育」であるデジタルコンテンツを視聴するようにしたいといった場合に利用することができる。
また、例えば、ユーザがBSを視聴中に、すなわち、制御対象部位「チューナ」の状態情報が「BS」である時に、ユーザが音声コマンドとして「BS」を発声するなどし、コマンド認識部13が、認識コマンドとして「BS」を生成し、コマンド生成部11に出力したとする。コマンド生成部11は、認識コマンドが入力されると、制御対象部位「チューナ」の「ホーム」に設定された状態値(「地デジ」とする)に切り替える実行コマンド「地デジ」を生成、送信する。制御部90は、実行コマンド「地デジ」を受信し、チューナを「地デジ」に切り替える。この時、表示部103、スピーカ104に出力するチャネル(番組)を、制御対象部位である「チャネル(番組)」に設定された「ホーム」の状態値を選択するようにしてもよい。すなわち、この例の場合、コマンド生成部11は、ユーザが発した1つの制御対象部位に対する音声コマンド(もしくはそれを認識した認識コマンド)に対して、「チューナ」と「チャネル(番組)」という複数の制御対象部位に対して実行コマンドを生成する。「チャネル(番組)」に対し設定される「ホーム」は、例えば前回テレビ装置の電源をOFFにする直前に視聴していたチャネルとしてもよいし、ユーザが予め設定したチャネルとしてもよい。また、異なる対象制御部位に対する実行コマンドを分けずに、1つの実行コマンドとすることでもよい。
以上、本実施形態のように、ユーザが組合せ条件リストを設定することで、1つの音声コマンドから複数の実行コマンドを生成し、送信し、実行させることができる。
(第4の実施形態)
本実施形態においては、コマンド制御部1を一つの独立した装置として利用する場合のシステムの例を示す。
図10は、第3の実施形態に係るシステム全体の構成例を示した図である。
ネットワーク500に、コマンド制御装置2と、IoTデバイス600A、600Bとが接続されている。IoTデバイス600Aと600Bとが同様の機能を備え、特に両者を区別しない場合は、IoTデバイス600Aと600BとをIoTデバイス600と称する。IoTデバイス600は図10には2つだけ示されているが、多数あってもよい。
コマンド制御装置2は、例えばCPUやメモリなどを有したコンピュータに構築される。コマンド制御装置2は、パーソナルコンピュータであっても良いし、サーバ、データベースなどを含むクラウドサービスであっても良い。コマンド制御装置2は、コマンド認識部1と、通信部102Aとを含む。コマンド認識部1、通信部102Aは、それぞれ図3におけるコマンド認識部1と、通信部102の機能に相当する。
IoTデバイス600は、あらゆる種類のIoT機器であり、ネットワーク100に接続され、ネットワーク100上の装置とデータ通信を実施する。IoTデバイス600は、例えば、温度検知センサ、水漏れ検知センサ、ドア開閉センサなどのセンサ類であってもよいし、それらのセンサを用いた検知装置でもよい。また、IoTデバイス600は、エアコン、テレビ装置、照明、カメラなどの家電でもよい。またネットワーク100に接続であれば、スマートフォンのようなモバイル端末でもよい。本実施形態におけるIoTデバイス600は、コマンド制御装置2に対して補助情報と、状態情報とを提供し、コマンド制御装置2の出力した実行コマンドを受信し、受信した実行コマンドによりIoTデバイス600の機能を制御する。
具体的には、IoTデバイス600は、補助情報出力部21A、状態切替部22A、制御部90A、補助情報管理部91A、状態情報管理部92A、通信部102A、インターフェース部105Aを含む。それぞれの機能は、図2における補助情報出力部21、状態切替部82、制御部90、補助情報管理部91、状態情報管理部92、通信部102、インターフェース部105の機能に相当する。
すなわち、図2の各機能を、コマンド制御装置2とIoTデバイス600Aに割り振ったとも言える。第1の実施形態にて示した受信装置10と、本実施形態に示すIoTデバイス600との大きな違いは、受信装置10には内部にコマンド制御部1を備えているが、IoTデバイス600にはコマンド制御部1を備えていないことにある。本実施形態においては、コマンド制御部1はコマンド制御装置2に備えられており、IoTデバイス600は、ネットワーク500を介してコマンド制御装置2から実行コマンドを受信する。
コマンド制御装置2が制御可能なIoTデバイス600の制御対象部位は、例えば、第1から第3の実施形態で示した電源(ON−OFF)でもよいし、その他、機能部位の起動と停止を制御することでもよい。
コマンド制御装置2が、IoTデバイス600に対して実行コマンドを送信する手順は図6のフローチャートを利用することができる。第1の実施形態、第2の実施形態と同様の手順についての詳細説明は省略する。
ユーザはコマンド制御装置2の近くにおり、IoTデバイス600Aに対してネットワーク500を介して遠隔で制御をする。ユーザはコマンド制御装置2のコマンド制御部1に、IoTデバイス600Aに対する実行コマンド生成条件(組合せ条件リスト)を設定する。
ユーザは、IoTデバイス600Aの機能を制御するために、コマンド制御装置2の音声検知部12に対して音声コマンドを発したとする。音声検知部12が音声を検知し、音声分析部121による音声分析処理を経て、コマンド認識部13が、認識コマンドの生成し、コマンド生成部11に認識コマンドを出力する(ステップS11のYES、S12、S13のYES、S14)。
コマンド生成部11は、コマンド認識部13から認識コマンドが入力されると、組合せ条件リストを参照し、リストの列項目である「補助情報」、「状態情報」の取得をそれぞれ補助情報取得部16と状態情報取得部17に命令する。補助情報取得部16は、組合せ条件リストの補助情報の諸項目を補助情報管理部91Aに要求し、取得し、コマンド生成部11に出力する(ステップS15)。本実施形態におけるステップS15について、詳細に説明する。
補助情報取得部16は、通信部102Aを介して、IoTデバイス600Aに対して補助情報の要求をする。IoTデバイス600Aにおいては、制御部90Aが通信部102A2を介して補助情報の要求を受信する。制御部90Aは、補助情報管理部91Aから補助情報を取得し、取得した補助情報をコマンド制御装置2に通信部102A2を介して送信する。
状態情報取得部17は、認識コマンドから制御対象を把握し、通信部102Aを介して、IoTデバイス600Aに対して制御対象の状態情報の要求をする。IoTデバイス600Aにおいて、通信部102A2を介して制御部90Aが状態情報の要求を受信する。制御部90Aは、状態情報管理部92Aから状態情報を取得し、取得した状態情報をコマンド制御装置2に通信部102A2を介して送信する。コマンド制御装置2において、通信部102A2を介してコマンド生成部11が状態情報を受信する(ステップS16)。
コマンド生成部11は、組合せ条件リストを参照して、取得した補助情報と、状態情報と、認識コマンドとの組み合わせが一致する条件の「実行コマンド」の項目にコマンドがある場合は、「実行コマンド」の項目に記載されているコマンドを実行コマンドとして生成し、コマンド送信部18へ出力する(ステップS17,S18のYES,S19)。
一方、「実行コマンド」の項目が「送信なし」となっている場合は、実行コマンドの生成はせず、コマンド制御部1は次の音声が検知されるのを待つ(ステップS17,S18のNO)。この場合、コマンド制御部1は、「コマンド送信なし」など「実行コマンドが送信されなかったまたは生成されなかった」という意味を含むメッセージを、コマンド制御装置2の図示せぬ表示部にてメッセージを表示させたり、コマンド制御装置2の図示せぬスピーカ部からメッセージ内容を含んだ音声を出力させたりして、ユーザに通知することでもよい。
コマンド送信部18は、入力された実行コマンドを、通信部102Aを介して、IoTデバイス600Aに送信する(ステップS101)。IoTデバイス600Aでは、受信した実行コマンドに従って、制御の機能を制御する。コマンド制御部1は、実行コマンドを生成もしくは送信した場合に、「実行コマンドを送信した」という意味を含んだメッセージをコマンド制御装置2の図示せぬ表示部にてメッセージを表示させたり、コマンド制御装置2の図示せぬスピーカ部からメッセージ内容を含んだ音声を出力させたりして、ユーザに通知することでもよい。また、コマンド制御装置2は、認識コマンドと生成した実行コマンドが異なる場合に、「実行コマンドが認識コマンドと異なる」という内容を含んだメッセージをコマンド制御装置2の図示せぬ表示部にてメッセージを表示させたり、コマンド制御装置2の図示せぬスピーカ部からメッセージ内容を含んだ音声を出力させたりして、ユーザに通知することでもよい。このようにすることで、ユーザは自身が発した音声コマンドによる意図が正しく実行されているかどうかを確認することができる。
以上の手順により、ユーザが、ネットワーク500に接続されたコマンド制御装置2に対して音声コマンドを発すると、ネットワーク500に接続されたIoTデバイス600を実行コマンドにより制御することができる。
以上述べた少なくとも1つの実施形態によれば、音声コマンドに対する音声認識を支援するコマンド生成装置、生成方法および生成プログラムを提供することができる。
以上の実施形態においては、制御対象装置である受信装置10やIoTデバイス600の上に制御部90(補助情報管理部91、状態情報管理部92を含む)の機能を設置する例を示したが、制御部90の機能の全てまたは一部を制御対象の外部の制御装置とするなどしても構わない。この場合、制御装置もネットワーク500に接続される。コマンド制御装置についても同様に、装置内の機能と、その機能が実行されるハードウェアについてはいろいろな構成、組合せが考えられ、以上に示した実施形態の例に限定されるものではない。
(変形例)
本変形例においては、例えば、補助情報として、図5の「ユーザ識別情報」、「時間帯」を用いることで、子供の視聴制限や操作制限などのパレンタルコントロール(Parental Control)を可能とする例を示す。テレビ装置を操作するリモコンなどは大人が管理しているものとする。
具体的には、子供が音声コマンドを発した場合に、音声分析部121によって声紋分析がなされ、補助情報取得部16でユーザ識別情報として「子供」が取得され、コマンド生成部11に入力されたとする。同時にその音声コマンドがコマンド認識部13に入力され、認識コマンドが生成され、コマンド生成部11に入力されたとする。コマンド生成部11は、例えば、認識コマンド「電源OFF」、補助情報「子供」に基づいて、実行コマンドとして「電源OFF」を生成し、制御部90に出力する。一方、コマンド生成部11は、補助情報取得部16からユーザ識別情報として「子供」を取得し、時間帯として「深夜」を取得したとする。この場合、コマンド生成部11は、「子供」と「深夜」という補助情報のみから、例えば「現状態を維持するための実行コマンド」を生成することでもよい。
図5には図示されていないが、補助情報として「番組視聴対象」なども合わせて用いることでもパレンタルコントロールが可能である。例えば、コマンド認識部13が、子供が発した音声コマンドにより制御対象部位が「チャネル(番組)」であることを認識したとする。コマンド認識部13は、認識した制御対象部位を含めた認識情報を補助情報取得部16に出力すると、補助情報取得部16は、認識情報に含まれる制御対象部位「チャネル(番組)」に対する補助情報である「番組視聴対象」を放送信号受信処理部20などから取得し、コマンド生成部11に出力する。コマンド生成部11は、音声分析部121から得たユーザ識別情報である「子供」と、「番組視聴対象」との2つの補助情報に基づいて、実行コマンドを生成する。例えば番組視聴対象に「子供」が含まれる場合は、認識コマンドをそのまま実行コマンドとして生成する。また、番組視聴対象に「子供」が含まれない場合は、例えば、「現状態を維持するための実行コマンド」を生成する。
以上、本変形例によれば、音声コマンドに対するパレンタルコントロールが可能となる。また本変形例によれば、認識コマンド、状態情報、補助情報のうち、認識コマンドを用いずに音声コマンドに基づいて取得した補助情報のみから実行コマンドを生成することが可能である。
以上述べた少なくとも1つの実施形態、変形例によれば、音声コマンドに対する音声認識を支援するコマンド制御装置、制御方法および制御プログラムを提供することができる。
上記した本装置は以下のように記載することもできる。
(A−1)
入力された音声(音声コマンド)から動作制御情報(認識コマンド)を取得し、制御対象装置(受信装置10)の動作状態を、第1モード、または、第1モードとは異なる第2モードのいずれかの動作状態とする動作制御手段(コマンド生成部11)とを具備する電子装置(コマンド制御部1もしくはコマンド制御装置2)であって、
前記制御対象装置の動作状態が第1モードであり、かつ、
前記動作制御情報が前記第1モードでの動作状態に関するものであるとき、前記動作状態を、前記第2モードとする電子装置。
(A−2)
前記制御対象装置の制御対象部位の状態に関する動作状態情報(状態情報)を取得する(A−1)に記載の電子装置。
(A−3)
前記動作制御情報および前記動作状態情報とは異なる制御条件情報(補助情報)を取得する(A−1)または(A−2)に記載の電子装置。
(A−4)
前記制御条件情報が、時間帯、ユーザ識別情報、ユーザ属性、受信コンテンツ情報、放送事業者、配信事業者、および、録画コンテンツ管理者の群の少なくともいずれか1つに基づき設定される(A−3)に記載の電子装置。
(A−5)
入力された音声(音声コマンド)から動作制御情報(認識コマンド)を取得し、制御対象装置(受信装置10)の動作状態を、第1モード、または、第1モードとは異なる第2モードのいずれかの動作状態とすることを
をコンピュータに実行させるための、プログラムであって、
前記制御対象装置の動作状態が第1モードであり、かつ、
前記動作制御情報が、前記第1モードでの動作状態に関するものであるとき、前記動作状態を、前記第2モードとする
上記のプログラム。
本発明のいくつかの実施形態を説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。さらにまた、請求項の各構成要素において、構成要素を分割して表現した場合、或いは複数を合わせて表現した場合、或いはこれらを組み合わせて表現した場合であっても本発明の範疇である。また、複数の実施形態を組み合わせてもよく、この組み合わせで構成される実施例も発明の範疇である。
また、図面は、説明をより明確にするため、実際の態様に比べて、各部の幅、厚さ、形状等について模式的に表される場合がある。ブロック図においては、結線されていないブロック間もしくは、結線されていても矢印が示されていない方向に対してもデータや信号のやり取りを行う場合もある。ブロック図に示される各機能や、フローチャート、シーケンスチャートに示す処理は、ハードウェア(ICチップなど)もしくはソフトウェア(プログラムなど)もしくはハードウェアとソフトウェアの組み合わせによって実現してもよい。また請求項を制御ロジックとして表現した場合、コンピュータを実行させるインストラクションを含むプログラムとして表現した場合、及び前記インストラクションを記載したコンピュータ読み取り可能な記録媒体として表現した場合でも本発明の装置を適用したものである。また、使用している名称や用語についても限定されるものではなく、他の表現であっても実質的に同一内容、同趣旨であれば、本発明に含まれるものである。