しかしながら、上述のストリーミング方式では、相手側端末との間で画像データを送受信する際に、画像データのエンコードとデコードに時間がかかる。つまり、画像を表示する際に遅延時間が発生する。例えば、会議中に話者が話した内容に対して、相手側端末にいる聞き手が同意して頷いたとき、その際の画像データがエンコードされる。そのエンコードされた画像データは、ネットワークを介して他の端末装置に受信される。各端末装置では、受信した画像データがデコードされ、その画像データが端末装置のディスプレイに表示される。このような方式では、頷きのリアクションが実際の時間よりも遅延して表示される。よって、話すタイミングと聞き手のリアクションとが微妙にずれてしまうことがあり、話し難いという問題点があった。
本発明は、上記課題を解決するためになされたものであり、相手側端末の聞き手と円滑に会話できる通信端末装置、通信制御方法、通信制御プログラムを提供することを目的とする。
上記目的を達成するために、請求項1に係る発明の通信端末装置は、ネットワークを介して相手側端末と画像を介した通信を行う通信端末装置であって、前記相手側端末から送信された画像データを表示する表示手段と、ユーザの反応状態を検出する反応状態検出手段と、当該反応状態検出手段によって前記反応状態が検出された場合に、前記相手側端末に、前記ユーザに前記反応状態が検出されたことを示す反応信号を送信する反応信号送信手段と、当該反応信号送信手段によって送信された前記反応信号を受信する反応信号受信手段と、前記相手側端末の相手ユーザが前記反応状態を示すときの反応時画像を記憶する反応時画像記憶手段と、前記反応信号受信手段によって前記反応信号が受信された場合に、前記反応時画像記憶手段に記憶された前記相手ユーザの前記反応時画像を、前記表示手段に表示する反応時画像表示制御手段とを備えている。
また、請求項2に係る発明の通信端末装置は、請求項1に記載の発明の構成に加え、前記表示手段には、前記相手側端末から送信され、前記相手側端末で撮影された前記相手ユーザのストリーミング画像が表示され、前記反応信号受信手段によって前記反応信号が受信された場合に、前記表示手段に表示されている前記ストリーミング画像に割り込んで、前記反応時画像を表示させる割り込み表示手段と、当該割り込み表示手段によって前記反応時画像が割り込まれた時から、前記反応時画像の時間に相当する時間分だけ、前記ストリーミング画像をカットする第1ストリーミング画像カット手段とを備えている。
また、請求項3に係る発明の通信端末装置は、請求項1に記載の発明の構成に加え、前記相手側端末に送信する前記ユーザのストリーミング画像を、前記反応時画像データ送信手段によって送信される前記反応時画像データの時間に相当する時間分だけカットして、前記相手側端末に送信する第2ストリーミング画像カット手段を備えている。
また、請求項4に係る発明の通信端末装置は、請求項1乃至3の何れかに記載の発明の構成に加え、前記反応状態検出手段によって前記ユーザの前記反応状態が検出されたときの反応時画像データを圧縮し、前記相手側端末に送信する反応時画像データ送信手段と、前記相手側端末の前記反応時画像データ送信手段により送信された前記反応時画像データを受信する反応時画像データ受信手段と、当該反応時画像データ受信手段によって受信された前記反応時画像データを解凍して、前記反応時画像記憶手段に記憶する解凍記憶処理手段とを備えている。
また、請求項5に係る発明の通信端末装置は、請求項1乃至4の何れかに記載の発明の構成に加え、前記ネットワークを介して、複数の前記相手側端末と接続している場合に、前記複数の前記相手側端末の中から、所定条件に基づいて、前記相手ユーザの前記反応状態を検出する一の端末を特定する端末特定手段と、当該端末特定手段によって特定された前記一の端末に向けて、前記反応状態を検出する端末として特定されたことを通知する通知信号を送信する通知信号送信手段と、前記相手側端末から送信された前記通知信号を受信する通知信号受信手段とを備え、前記反応状態検出手段は、前記通知信号受信手段によって前記通知信号が受信された場合に、前記ユーザの前記反応状態を検出することを特徴とする。
また、請求項6に係る発明の通信端末装置は、請求項5に記載の発明の構成に加え、前記ネットワークを介した前記相手側端末のCPUの負荷状況を検出するCPU負荷状況検出手段と、当該CPU負荷状況検出手段によって前記相手側端末毎に検出された前記CPUの負荷状況を記憶するCPU負荷状況記憶手段とを備え、前記端末特定手段は、前記CPU負荷状況記憶手段に記憶された前記CPU負荷状況を参照して、最もCPUの負荷が低い前記相手側端末を、前記一の端末として特定する第1所定条件を備えている。
また、請求項7に係る発明の通信端末装置は、請求項5に記載の発明の構成に加え、前記ネットワークを介した前記相手側端末との通信におけるデータの伝送時間を検出する伝送時間検出手段と、当該伝送時間検出手段による検出結果を記憶する伝送時間記憶手段とを備え、前記端末特定手段は、前記伝送時間記憶手段に記憶された前記検出結果を参照して、最も伝送時間の短い前記相手側端末を、前記一の端末として特定する第2所定条件を備えている。
また、請求項8に係る発明の通信端末装置は、請求項5に記載の発明の構成に加え、前記相手側端末毎に、ログインした前記相手ユーザの人数を検出するログイン人数検出手段と、当該ログイン人数検出手段によって検出されたログイン人数を記憶するログイン人数記憶手段とを備え、前記端末特定手段は、前記ログイン人数記憶手段に記憶された前記相手側端末毎のログイン人数において、最も多いログイン人数である前記相手側端末を、前記一の端末として特定する第3所定条件を備えている。
また、請求項9に係る発明の通信端末装置は、請求項5に記載の発明の構成に加え、前記相手ユーザの発話を検出する発話検出手段と、当該発話検出手段によって検出された前記相手ユーザ毎の発話時からの経過時間を計測する経過時間計測手段とを備え、前記端末特定手段は、前記経過時間計測手段によって計測された前記経過時間が最も短い前記相手ユーザの前記相手側端末を、前記一の端末として特定する第4所定条件を備えている。
また、請求項10に係る発明の通信端末装置は、請求項1乃至9の何れかに記載の発明の構成に加え、前記反応状態検出手段は、前記ユーザの頭部が所定方向に振れて頷く頷き状態を、前記反応状態として検出することを特徴とする。
また、請求項11に係る発明の通信端末装置は、請求項1乃至9の何れかに記載の発明の構成に加え、前記反応状態検出手段は、前記ユーザの頭部が横方向に振れて拒否する拒否状態を、前記反応状態として検出することを特徴とする。
また、請求項12に係る発明の通信端末装置は、請求項1乃至9の何れかに記載の発明の構成に加え、前記ユーザが納得している場合に前記ユーザによって操作される操作手段を備え、前記反応状態検出手段は、前記操作手段による操作を検出することで、前記ユーザの納得状態を、前記反応状態として検出することを特徴とする。
また、請求項13に係る発明の通信端末装置は、請求項1乃至12の何れかに記載の発明の構成に加え、前記反応状態検出手段によって検出された前記ユーザの前記反応状態が初回か否かを判断する初回反応状態判断手段と、当該初回反応状態判断手段によって前記反応状態が初回と判断された場合に、前記反応時画像記憶手段に前記反応時画像を記憶する反応時画像記憶処理手段とを備え、前記反応時画像データ送信手段は、前記反応時映像記憶手段に記憶された前記反応時映像データを圧縮した状態で前記相手側端末に送信することを特徴とする。
また、請求項14に係る発明の通信端末装置は、請求項1乃至13の何れかに記載の発明の構成に加え、前記反応信号受信手段によって前記反応信号が受信された場合に、前記反応時画像記憶手段に、前記相手ユーザの前記反応時画像データが記憶されているか否かを判断する反応時画像記憶判断手段と、当該反応時画像記憶判断手段によって前記反応時画像が記憶されていないと判断された場合に、前記表示手段に、前記相手ユーザが前記反応状態を示していることを、前記反応時画像の代わりに、文字、図形、記号等で表記する代替画像を表示する代替画像表示制御手段とを備えている。
また、請求項15に係る発明の通信制御方法は、ネットワークを介して相手側端末と画像を介した通信を行う通信端末装置の通信制御方法であって、前記相手側端末から送信される画像データを受信する画像データ受信ステップと、ユーザの反応状態を検出する反応状態検出ステップと、当該反応状態検出ステップにおいて前記反応状態が検出された場合に、前記相手側端末に、前記ユーザに前記反応状態が検出されたことを示す反応信号を送信する反応信号送信ステップと、当該反応信号送信ステップにおいて送信された前記反応信号を受信する反応信号受信ステップと、前記反応信号受信ステップにおいて前記反応信号が受信された場合に、前記相手側端末の相手ユーザが前記反応状態を示すときの反応時画像を記憶する前記反応時画像記憶手段に記憶された前記相手ユーザの前記反応時画像を、前記画像データ受信ステップにおいて受信された前記画像データを表示する前記表示手段に表示する反応時画像表示制御ステップとを備えている。
また、請求項16に係る発明の通信制御プログラムは、請求項15に記載の通信制御方法の各種処理ステップとしてコンピュータに実行させる。
請求項1に係る発明の通信端末装置では、相手側端末と画像を介した通信を行うことができる。相手側端末から送信された画像データは表示手段に表示される。ユーザの反応状態は、反応状態検出手段によって検出される。反応状態検出手段によってユーザの反応状態が検出されると、反応信号送信手段によって、相手側端末に向けて反応信号が送信される。一方、相手側端末の相手ユーザが反応状態を示すときの反応時画像が、反応時画像記憶手段に記憶されている。そして、反応信号が反応信号受信手段によって受信されると、反応時画像記憶手段に記憶された相手ユーザの反応時画像が表示手段に表示するように、反応時画像表示制御手段が制御する。つまり、ストリーミング方式とは異なり、相手側の反応時画像を反応時画像記憶手段に記憶しておき、反応があった場合にその反応時画像を表示手段に表示させるので、画像データのエンコード、デコードが不要である。従って、話すタイミングと聞き手のリアクションとのずれが小さくなるので、相手側端末にいる聞き手と円滑に会話ができる。
また、請求項2に係る発明の通信端末装置では、請求項1に記載の発明の効果に加え、表示手段には、相手側端末から送信され、相手側端末で撮影された相手ユーザのストリーミング画像が表示される。そして、反応信号受信手段によって反応信号が受信された場合、割り込み表示手段が、表示手段に表示されているストリーミング画像に反応時画像を割り込ませて表示させる。さらに、割り込み表示手段によって反応時画像が割り込まれた時から、反応時画像の時間に相当する時間分のストリーミング画像が第1ストリーミング画像カット手段によってカットされる。これにより、反応時の画像が重複して表示手段に表示されないので違和感が無くなる。
また、請求項3に係る発明の通信端末装置では、請求項1に記載の発明の効果に加え、第2ストリーミング画像カット手段が、相手側端末に送信するユーザのストリーミング画像を、反応時画像データ送信手段によって送信される反応時画像データの時間に相当する時間分だけカットして、相手側端末に送信する。これにより反応時の画像が重複して表示手段に表示されないので違和感が無くなる。
また、請求項4に係る発明の通信端末装置では、請求項1乃至3の何れかに記載の発明の効果に加え、反応状態検出手段によってユーザの反応状態が検出されたときの反応時画像データは、反応時画像データ送信手段によって圧縮されて相手側端末に送信される。相手側端末から送信された反応時画像データは、反応時画像データ受信手段によって受信される。その受信された反応時画像データは、解凍記憶処理手段によって解凍された状態で、反応時画像記憶手段に記憶される。これにより、相手側端末の反応時画像を会話の最初のうちで記憶しておくことができるので、その後の会話中の反応時画像を表示手段にいち早く表示させることができる。
また、請求項5に係る発明の通信端末装置では、請求項1乃至4の何れかに記載の発明の効果に加え、複数の相手側端末と接続している場合に、端末特定手段がその複数の相手側端末の中から、所定条件に基づいて、相手ユーザの反応状態を検出する一の端末を特定する。端末が特定されると、通知信号送信手段が、その特定された一の端末に向けて、反応状態を検出する端末として特定されたことを通知する通知信号を送信する。相手側端末から送信された通知信号は通知信号受信手段によって受信される。反応状態検出手段は、その通知信号受信手段によって通知信号が受信された場合に、ユーザの反応状態を検出する。即ち、ネットワークを介して複数の相手側端末と接続している場合でも、反応状態を検出する1つの端末を特定するので、ネットワークにおける通信負荷と遅延時間を最小限にすることができる。
また、請求項6に係る発明の通信端末装置では、請求項5に記載の発明の効果に加え、ネットワークを介した相手側端末のCPUの負荷状況が、CPU負荷状況検出手段によって検出される。その検出されたCPUの負荷状況は、CPU負荷状況記憶手段に相手側端末毎に記憶される。端末特定手段は、CPU負荷状況記憶手段に記憶されたCPU負荷状況を参照して、最もCPUの負荷が低い相手側端末を一の端末として特定する第1所定条件を備えている。これにより、ユーザの反応状態を検出することによる負荷の影響を最小限に留めることができる。
また、請求項7に係る発明の通信端末装置では、請求項5に記載の発明の効果に加え、ネットワークを介した相手側端末との通信におけるデータの伝送時間が、伝送時間検出手段によって検出される。その検出結果は、伝送時間記憶手段に記憶される。端末特定手段は、その伝送時間記憶手段に記憶された検出結果を参照して、最も伝送時間の短い前記相手側端末を、一の端末として特定する第2所定条件を備えている。これにより、画像データを速やかに伝送できるので、反応時の画像をいち早く表示手段に表示させることができる。
また、請求項8に係る発明の通信端末装置では、請求項5に記載の発明の効果に加え、ログインした相手ユーザの人数が、ログイン人数検出手段によって相手側端末毎に検出される。ログイン人数検出手段によって検出されたログイン人数は、ログイン人数記憶手段に記憶される。端末特定手段は、ログイン人数記憶手段に記憶された相手側端末毎のログイン人数において、最も多いログイン人数である相手側端末を、一の端末として特定する第3所定条件を備えている。これにより、1拠点(1端末)において反応状態をより多く検出できるので、会話をより円滑に進めることができる。
また、請求項9に係る発明の通信端末装置では、請求項5に記載の発明の効果に加え、相手ユーザの発話が発話検出手段によって検出される。さらに、経過時間計測手段によって、発話検出手段によって検出された相手ユーザ毎の発話時からの経過時間が計測される。端末特定手段は、経過時間計測手段によって計測された経過時間が最も短い前記相手ユーザの相手側端末を、一の端末として特定する第4所定条件を備えている。これにより、前回話をしていた話者の端末を優先して特定できる。
また、請求項10に係る発明の通信端末装置では、請求項1乃至9の何れかに記載の発明の効果に加え、反応状態検出手段は、ユーザの頭部が所定方向に振れて頷く頷き状態を、反応状態として検出する。これにより、聞き手の頷きを話者にいち早く認識させることができるので、聞き手の反応の遅延によって話者を不安にさせることがない。よって、話者と聞き手との間において円滑な会話が可能である。
また、請求項11に係る発明の通信端末装置では、請求項1乃至9の何れかに記載の発明の効果に加え、反応状態検出手段は、ユーザの頭部が横方向に振れて拒否する拒否状態を、反応状態として検出する。これにより、聞き手の拒否反応を話者にいち早く認識させることができるので、聞き手の反応の遅延によって話者を不安にさせることがない。
また、請求項12に係る発明の通信端末装置では、請求項1乃至9の何れかに記載の発明の効果に加え、ユーザが納得している場合は、ユーザは操作手段を操作する。反応状態検出手段は、その操作手段による操作を検出することで、ユーザの納得状態を反応状態として検出する。これにより、聞き手の納得状態を話者にいち早く認識させることができるので、聞き手の反応の遅延によって話者を不安にさせることがない。
また、請求項13に係る発明の通信端末装置では、請求項1乃至12の何れかに記載の発明の効果に加え、初回反応状態判断手段が、反応状態検出手段によって検出されたユーザの反応状態が初回か否かを判断する。初回反応状態判断手段によって反応状態が初回と判断された場合に、反応時記憶手段には反応時画像が記憶されていない可能性が高い。そこで、反応時画像記憶処理手段が、反応時画像記憶手段に反応時画像を記憶するので、会話中に反応時画像を記憶することができる。つまり、反応時画像記憶手段に予め反応時画像を記憶させる手間が不要である。
また、請求項14に係る発明の通信端末装置では、請求項1乃至13の何れかに記載の発明の効果に加え、反応信号受信手段によって反応信号が受信された場合、反応時画像記憶判断手段が、反応時画像記憶手段に、相手ユーザの反応時画像が記憶されているか否かを判断する。反応時画像が記憶されていないと判断された場合、代替画像表示制御手段が、相手ユーザが反応状態を示していることを、反応時画像の代わりに、文字、図形、記号等で表記する代替画像を表示手段に表示させる。これにより、反応時画像記憶に反応時画像が記憶されていない場合でも、反応時画像の代わりに代替画像を表示させることができるので、円滑な会話を提供することができる。
また、請求項15に係る発明の通信制御方法では、まず、画像データ受信ステップにおいて、相手側端末から送信される画像データが受信される。次いで、反応状態検出ステップにおいて、ユーザの反応状態が検出される。反応状態検出ステップにおいて反応状態が検出された場合、反応信号送信ステップにおいて、ユーザに反応状態が検出されたことを示す反応信号が相手側端末に送信される。相手側端末から送信された反応し信号は、反応信号受信ステップにおいて受信される。反応信号受信ステップにおいて反応信号が受信された場合、反応時画像表示制御ステップにおいて、反応時画像記憶手段に記憶された相手ユーザの反応時画像が表示手段に表示される。つまり、ストリーミング方式とは異なり、相手側の反応時画像を反応時画像記憶手段に記憶しておき、反応があった場合にその反応時画像を表示手段に表示させるので、画像データのエンコード、デコードが不要である。従って、話すタイミングと聞き手のリアクションとのずれが小さくなるので、相手側端末にいる聞き手と円滑に会話ができる。
また、請求項16に係る発明の通信制御プログラムは、請求項15に記載の通信制御方法の各種処理ステップとしてコンピュータに実行させることによって、請求項15に記載の発明の効果を得ることができる。
以下、本発明の第1実施形態である端末装置3について、図面を参照して説明する。はじめに、端末装置3を構成要素とするテレビ会議システム1の構成について、図1を参照して説明する。図1は、テレビ会議システム1の構成を示すブロック図である。
テレビ会議システム1は、ネットワーク2と、該ネットワーク2を介して相互に接続され、かつ各拠点毎に設けられた複数の端末装置3、4、5、6とを備えている。このテレビ会議システム1では、端末装置3、4、5、6間において、ネットワーク2を介して、画像、音声が互いに送受信されることで遠隔会議が実施される。
そして、本実施形態では、遠隔会議中に、特定の端末装置において聞き手が頷いていることを検出した場合に、話者のいる相手側の端末装置に聞き手の頷きを検出したことを通知する。頷きが通知された相手側の端末装置では、予め記憶しておいた聞き手の頷き画像を表示する。この方式では、頷き画像のエンコード及びデコードが不要であるので、聞き手の頷きをいち早く表示できる点に特徴がある。
次に、端末装置3の電気的構成について、図2を参照して説明する。図2は、端末装置3の電気的構成を示すブロック図である。なお、端末装置3〜6は全て同じ構成であるので、ここでは端末装置3の構成についてのみ説明し、他の端末装置4〜6については説明を省略する。
端末装置3には、端末装置3の制御を司るコントローラとしてのCPU20が設けられている。CPU20には、BIOS等を記憶したROM21と、各種データを一時的に記憶するRAM22と、データの受け渡しの仲介を行うI/Oインタフェイス30とが接続されている。I/Oインタフェイス30には、各種記憶エリアを有するハードディスクドライブ31(以下、HDD31)が接続されている。
I/Oインタフェイス30には、ネットワーク2と通信するための通信装置25と、マウス27と、ビデオコントローラ23と、キーコントローラ24と、カードリーダ制御部32と、ユーザを撮影するためのカメラ34と、ユーザの音声を取り込むためのマイク35と、CD−ROMドライブ26とが各々接続されている。ビデオコントローラ23には、ディスプレイ28が接続されている。キーコントローラ24には、キーボード29が接続されている。カードリーダ制御部32には、各ユーザが所有する識別カード(図示外)に記憶されたユーザを識別するためのユーザIDを読み込むためのカードリーダ33が接続されている。
なお、CD−ROMドライブ26に挿入されるCD−ROM114には、端末装置3のメインプログラムや、本発明の通信制御プログラム等が記憶されている。CD−ROM114の導入時には、これら各種プログラムが、CD−ROM114からHDD31にセットアップされて、後述するプログラム記憶エリア315(図3参照)に記憶される。
次に、HDD31の各種記憶エリアについて、図3を参照して説明する。図3は、HDD31の各種記憶エリアを示す概念図である。HDD31には、ネットワーク2にログインしたユーザを管理するログインテーブル3111(図4参照)を記憶するログインテーブル記憶エリア311と、ネットワーク2に接続している端末装置3〜6の端末IDを管理すると共に、接続している端末装置3〜6の各動作状況を保存する端末状況テーブル3121(図5参照)を記憶する端末状況テーブル記憶エリア312と、端末装置3〜6で各々撮影された頷き時の画像データ(以下、頷き画像データと呼ぶ。)を保存して管理する頷き画像データテーブル3131(図6参照)を記憶する頷き画像データテーブル記憶エリア313と、カメラ34によって撮影されるカメラ画像を記憶するカメラ画像データ記憶エリア314と、各種プログラムを記憶するプログラム記憶エリア315と、その他の情報記憶エリア316と、ユーザの頷き時の波形パターンを予め記憶する波形パターン記憶エリア317と、頷かせるためのコンテンツ画像を記憶するコンテンツ画像記憶エリア318が少なくとも設けられている。
プログラム記憶エリア315には、端末装置3のメインプログラムや、他の端末装置4、5、6との間で遠隔会議を実行するための通信制御プログラム等が記憶されている。その他の情報記憶エリア316には、端末装置3で使用されるその他の情報が記憶されている。なお、端末装置3がHDD31を備えていない専用機の場合は、ROM21に各種プログラムが記憶される。
次に、ログインテーブル3111について、図4を参照して説明する。図4は、ログインテーブル3111の概念図である。ログインテーブル3111には、ネットワーク2にログインしたユーザのユーザIDと、そのユーザIDが登録された端末装置3〜6の端末IDとが記憶される。具体的には、ユーザIDの欄には、カードリーダ33で読み取られた識別カード(図示外)に記憶されたユーザIDが記憶される。端末IDの欄には、そのユーザIDを送信した端末装置3〜6の端末IDが記憶される。なお、端末IDとは、端末装置3のマックアドレス等である。さらに、ユーザID、端末IDは、ネットワーク2を介して接続する他の端末装置4〜6から送信される端末情報に含まれ、その端末情報に基づいてログインテーブル3111に登録される。
例えば、図4に示すように、端末装置4のユーザであるBさんがログインする場合、Bさんは自分の所有する識別カードをカードリーダ33に読み取らせる。すると、ログイン信号が相手側の端末装置に送信され、ログインしたことが相手側に通知される。この場合、その識別カードに記憶されたユーザID=「B0001」と、そのユーザIDを送信した端末装置4の端末ID=「0002」とが、ログインテーブル3111に各々記憶される。その他のユーザについても同様に設定される。
なお、図4に示すログインテーブル3111は、端末装置3(端末ID=0001)からは1人(ユーザID=A0001)、端末装置4(端末ID=0002)からは1人(ユーザID=B0001)、端末装置5(端末ID=0003)からは2人(ユーザID=C0001、C0002)、端末装置6(端末ID=0004)からは3人(ユーザID=D0001、D0002、D0003)がそれぞれログインした状態を示している。
次に、端末状況テーブル3121について、図5を参照して記憶する。図5は、端末状況テーブル3121の概念図である。端末状況テーブル3121は、自身の端末の動作状況と、ネットワーク2を介して接続している相手側の端末装置(以下、接続端末と呼ぶ。)の各動作状況とを記録するテーブルである。端末状況テーブル3121には、端末IDを記憶する端末IDカラム61と、各拠点間において話者が聞き手に対して話をする会話の方向を端末毎に記憶する会話方向カラム62と、CPUの負荷状況を端末毎に記憶するCPU負荷カラム63と、データの伝送の遅延時間を端末毎に記憶する遅延カラム64と、頷き検出機能の有無を端末毎に記憶する頷き検出機能カラム65と、ログインテーブル3111に登録されたユーザの人数(ログイン人数)を端末毎に記憶するログイン人数カラム66と、最後に発話してからの経過時間を端末毎に記憶する発話後経過時間カラム67と、が各々設けられている。
なお、データ伝送時間の遅延とは、データが送信側から宛先に到達するまでにかかる時間をいう。最後の発話経過時間カラム67には、各端末装置3〜6において、マイク35で発話を検出してからの経過時間が記憶される。会話方向カラム62には、マイク35でユーザの発話を検出した端末装置が話者として登録され、それ以外の端末装置が聞き手として登録される。
さらに、端末状況テーブル3121に記憶される各値は、各端末装置からネットワーク2を介して送信される端末情報に基づいて記憶される。端末情報とは、各端末の端末ID、CPU負荷(%)、データの伝送時間の遅延(ms)、頷き検出機能の有無、発話後経過時間等を含むものである。ログイン人数カラム66には、ログインテーブル3111に記憶されたユーザIDの人数が端末毎に各々記憶される。
例えば、図5に示すように、端末装置4の動作状況は、端末状況テーブル3121の2行目に記憶されている。即ち、端末IDカラム61=「0002」、会話方向カラム62=「聞き手」、CPU負荷カラム63=「50%」、遅延カラム64=「10ms」、頷き検出機能カラム65=「有り」、ログイン人数カラム66=「1人」、発話後経過時間カラム67=「1秒前」、が各々記憶されている。
次に、頷き画像データテーブル3131について、図6を参照して説明する。図6は、頷き画像データテーブル3131の概念図である。頷き画像データテーブル3131には、端末IDと、その端末IDに対応するユーザの頷き画像データと、その録画時間とが端末毎に各々記憶されている。なお、後述するが、各端末装置で撮影された頷き画像は、エンコードして圧縮された状態で送信される。そして、受信した頷き画像データはデコードされた状態で、端末ID毎に管理されて、頷き画像データテーブル3131に記憶される。
例えば、図6に示すように、頷き画像データテーブル3131の2行目には、端末装置4の識別ID=0002に対して、頷き画像データ=bbb.avcと、録画時間=2.4秒とが対応付けられて各々記憶されている。なお、bbb.avcは、無圧縮化された状態で記憶されている。
次に、端末装置3のディスプレイ28に表示される画像について、図7を参照して説明する。図7は、ディスプレイ28における一表示態様を示す図である。会議中において、端末装置3のディスプレイ28には、他の端末装置4、5、6の各ユーザを映し出すために、3つの分割画面281、282、283がそれぞれ表示される。例えば、分割画面281は、ディスプレイ28の略左半分に配置され、分割画面282は、ディスプレイ28の右半分の上側に配置され、分割画面283は、ディスプレイ28の右半分の下側に配置されて表示される。分割画面281には、端末装置4のユーザの画像が映し出される。分割画面282には、端末装置5のユーザの画像が映し出される。分割画面283には、端末装置6のユーザの画像が映し出される。なお、表示態様についてはこれに限定されず、各分割画面281〜283の配置、大きさも自由に変更可能である。なお、図7では、端末装置4のユーザが頷いている様子が分割画面281に映し出された状態を示している。
次に、ユーザの頷きを検出する方法について、図8乃至図12を参照して説明する。図8は、うつむき加減を示す特徴量dの説明図(頷き前)である。図9は、うつむき加減を示す特徴量dの説明図(頷き後)である。図10は、カメラ画像データ40の概念図である。図11は、検出波形パターン(頷き時)を示すグラフである。図12は、登録された頷き波形パターンを示すグラフである。
ここで、「頷き状態」とは、話者が話している内容に聞き手が納得したときに、聞き手の頭部が上下方向に所定量以上に振れる状態をいう。本実施形態では、周知の画像処理によってユーザの頭部の振れを検出するのであるが、例えば、特開2007−97668号公報に記載された状態識別装置による識別方法が適用可能である。
ここで、上記識別方法を適用した頷き検出方法の具体例について説明する。まず、カメラ34から転送されたカメラ画像データが、HDD31のカメラ画像データ記憶エリア314(図3参照)に記憶される。そして、カメラ画像データ記憶エリア314に記憶されたカメラ画像から人物の画像を検出する。次いで、検出された人物毎に顔の特徴量を算出する。本実施形態では、眉間又は目の検出によって眉間の位置座標を取得し、検出された顔の輪郭から、画像に写っている顔の最下端部の位置座標を取得する。そして、取得した2つの位置座標の差分値を算出する。
例えば、カメラ画像に写っている顔が正面顔の場合、図8に示すように、顎の位置座標が、顔の画像に写っている最下端部の位置座標として取得される。一方、カメラ画像に写っている顔がうつむき顔の場合、図9に示すように、鼻など、より目に近い位置の座標が、顔の画像に写っている最下端部の位置座標として取得される。図8および図9の対比から明らかであるように、眉間から画像に写っている顔の最下端部までの距離dは、正面顔で最も長く、うつむき加減が大きいほど短くなる。従って、2箇所の位置座標の差分値により、顔のうつむき加減を判定できる。なお、特徴量抽出に基づく顔の識別については種々の技術が知られており、本実施形態では、そのいずれの技術をも採用できる。
そして、算出した特徴量dに、カメラ画像の管理情報に含まれている撮影時刻の情報と、顔を検出して識別した際に割り当てたユーザIDとを付したカメラ画像データ40(図10参照)を生成し、カメラ画像データ記憶エリア314(図3参照)に記憶する。そして、上記処理を繰り返すことにより、カメラ画像データ記憶エリア314には、各時刻における聞き手のうつむき加減を表す複数のカメラ画像データ40が蓄積される。
さらに、直前に生成した撮影時間10秒分のカメラ画像データ40を、カメラ画像データ記憶エリア314から読み込み、ユーザIDに基づいてユーザ別に分類する。続いて、各聞き手のデータを時刻情報に基づいて時系列に並べる。この時系列に並べられたデータ群から、特徴量(距離d)の経時変化を表す検出波形パターン(図11参照)を生成する。
そして、生成した検出波形パターンを、HDD31の波形パターン記憶エリア317(図3参照)に予め登録されている波形パターン(図12参照)と照合する。本実施形態では、軽くうつむく動作が行なわれたことを表す波形である1秒程度の短い波形パターン(図12参照)が記憶されている。この波形パターンを「頷きパターン」と呼ぶ。つまり、検出波形パターンが、頷きパターンに一致する場合は、頷いていると判断できる。なお、頷きパターンの波形は、このパターンに限らず、自由に変更可能である。
次に、上記構成からなる端末装置3のCPU20によって実行される通信制御処理について、図13乃至図17のフローチャート、及び図18を参照して説明する。図13は、通信制御処理のフローチャートである。図14は、図13の続きを示すフローチャートである。図15は、図14の続きを示すフローチャートである。図16は、図15の続きを示すフローチャートである。図17は、図16の続きを示すフローチャートである。図18は、頷き検出時の画像カット処理を説明するためのタイミングチャートである。
なお、この通信制御処理は、端末装置3のみならず、他の端末装置4〜6においても同様に行われるものである。従って、ここでは端末装置3のCPU20によって実行される通信制御処理についてのみ説明する。
図13に示すように、まず、各種データが初期化される(S1)。そして、ユーザは会議前に頷き画像を録画するために、端末装置3に設けられた録画スイッチ(図示外)を操作する。これに伴い、録画スイッチが操作されたことによる頷き画像の録画の指示があったか否かが判断される(S2)。録画スイッチが操作されない間は(S2:NO)、録画スイッチの操作が引き続き監視される(S2)。録画スイッチが操作された場合(S2:YES)、ディスプレイ28に頷きが得られるコンテンツ画像が再生される(S3)。コンテンツ画像には、HDD31のコンテンツ画像記憶エリア318に記憶され、例えば、ユーザに共感させるような画像や、頷きを促すような画像等を採用できる。
そして、カメラ34で撮影されているユーザの頷きを検出したか否かが判断される(S4)。なお、ユーザの頷きは、上記した検出方法によって検出される。ユーザが頷くまでは(S4:NO)、S4に戻って、引き続き、ユーザの頷きが検出されたか否かが判断される。コンテンツ画像を見てユーザが頷いた場合(S4:YES)、頷き画像の録画が行われる(S5)。なお、録画された頷き画像の頷き画像データは、その録画時間と共に、HDD31の頷き画像データテーブル記憶エリア313に記憶された頷き画像データテーブル3131に記憶される。
続いて、他の端末装置4〜6の少なくとも何れかとネットワーク2を介して接続したか否かが判断される(S6)。他の端末装置4〜6の何れかと接続するまでは(S6:NO)、S6に戻り、処理が繰り返される。他の端末装置と接続した場合(S6:YES)、接続した端末装置から送信される端末情報に基づき、その端末装置の動作状況が、HDD31の端末状況テーブル記憶エリア312に記憶された端末状況テーブル3121(図5参照)に記憶される(S7)。さらに、端末装置3のCPU20の負荷が計測され、端末状況テーブル3121(図5参照)に記憶される(S8)。さらに、端末装置3のデータ伝送時間の遅延について計測され、端末状況テーブル3121(図5参照)に記憶される(S9)。
さらに、端末装置3の頷き検出機能の有無について、端末状況テーブル3121(図5参照)に記憶される(S10)。本実施形態の場合は、端末装置3には頷き検出機能は有るので、端末状況テーブル3121の頷き検出機能カラム65には、「有り」と記憶される。なお、具体的には、頷き検出機能の有無の登録について、「有り」の場合は、頷き機能フラグ「1」が記憶される。「無し」の場合は、頷き機能フラグ「0」が記憶される。
さらに、図示しないが、ネットワーク2に端末装置3からログインしたログイン人数が検出され、その検出されたログイン人数が端末状況テーブル3121(図5参照)に記憶される。さらに、ユーザの発話を検出すると共に、その発話からの経過時間が端末状況テーブル3121(図5参照)に記憶される。なお、ログイン人数を検出するCPU20が本発明の「ログイン人数検出手段」に相当し、検出されたログイン人数を記憶するCPU20が本発明の「ログイン人数記憶手段」に相当する。マイク35によって発話が検出されてからの経過時間を計測するCPU20が本発明の「経過時間計測手段」に相当する。
次いで、話者を検出したか否かが判断される(S12)。マイク35からユーザの音声を検出した場合に話者と判断され、音声を検出しない場合は聞き手と判断される。ここで、話者となるか聞き手となるかでその後の処理が変わるので、話者が検出された場合と、話者が検出されずに聞き手となった場合とに分けて、順に以下説明する。
まず、端末装置3で話者を検出した場合について説明する。図14に示すように、端末装置3の拠点において、話者を検出した場合(S12:YES)、聞き手となった他の端末装置の中から頷きを検出する一の端末装置が特定される(S13)。ここでは、各端末装置4〜6の動作状況に基づいて決められた条件に基づいて、頷きを検出する一の端末装置が特定される。なお、聞き手となった他の端末装置が1つしかない場合は、頷きを検出する一の端末装置を特定する処理は行われない。
ここで、端末を特定するための条件について説明する。本実施形態では、第1条件、第2条件、第3条件、第4条件の4種類がある。第1条件では、CPU負荷が最も少ない端末装置を特定する。CPU負荷が少ない端末装置であれば、頷き検出機能を利用した場合でも、速やかに処理できる。第2条件は、データ伝送時間の遅延が最も短い端末装置を特定する。データ伝送時間の遅延が短ければ短いほど、頷き信号の送受信にかかる時間が短くなり、速やかに処理できる。第3条件は、ログイン人数の最も多い端末装置を特定する。ログイン人数が多い拠点であれば、頷きを検出する割合が高くなるので、会話をより円滑に進めることができる。第4条件は、最後に発話してからの経過時間(発話後経過時間)が最も短い端末装置を特定する。つまり、前回話していた話者の端末装置を優先して特定できる。現在の会話に直近で話をしていたユーザの頷きを検出できるので、現在の話者に効果的な印象を与え、より円滑な会話を提供できる。
本実施形態では、端末装置3において、これら第1乃至4条件の中から何れかを選択することができる。ユーザによって選択された条件に基づき、CPU20は、頷きを検出する一の端末装置を特定する。なお、頷きを検出する一の端末装置を特定する際に、頷き検出機能が無いものは除外される。図5に示す端末状況テーブル3121では、端末装置6(端末ID=0004)には頷き検出機能はない。従って、頷き検出機能を有し、かつ聞き手となる相手側の端末装置4、5の何れかから一の端末を特定する。そして、上記した条件に基づき、頷きを検出する一の端末装置が特定されたら、その特定した端末装置に向けて、頷きを検出するように指示するための頷き検出指示信号が送信される(S14)。
続いて、他の端末装置から頷き検出指示信号を受信したか否かが判断される(S15)。上記したように、端末装置3が話者となっている場合は、頷き検出指示信号を送信する側であって受信する側ではないので(S15:NO)、図16に示すフローに移行し、相手側の端末装置から頷き画像を受信したか否かが判断される(S19)。上記したように、頷き画像は、送信元の端末IDと、頷き画像の録画時間と共に送信される。頷き画像を受信した場合(S19:YES)、その頷き画像はエンコードされて圧縮された状態であるので、その頷き画像データのデコード処理が行われる(S20)。そして、デコードされて無圧縮の状態となった頷き画像データと、端末IDと、録画時間とが、HDD31に記憶された頷き画像データテーブル3131に登録される(S21)。即ち、頷き画像データを無圧縮の状態で記憶しておくので、頷き信号を受信した場合に速やかにディスプレイ28に表示させることができる。
ところで、テレビ会議システム1では、端末装置間で画像と音声の送受信が行われることで会議が行われる。画像については、図18に示すように、画像を録画した端末装置から、その録画された画像の画像データがストリーミング方式で相手側の端末装置に送信され、ディスプレイ28においてバッファ再生される。ストリーミング方式では、エンコード処理とデコード処理に時間がかかる。従って、再生側の端末装置のディスプレイ28の表示に遅延が生じる。例えば、t0タイミングで録画した画像データは、遅延時間Pを経て、t1タイミングで再生される。さらに、t1タイミングで録画した画像データも同様に、遅延時間Pを経て、t2タイミングで再生されることになる。
そして、図16に示すように、端末装置3では、聞き手であって録画側である端末装置から頷き信号を受信したか否かが判断される(S22)。頷き信号は、画像データに比べて情報量が格段に小さい。そのため、頷きを検出する端末として特定された端末装置から送信された頷き信号は、ネットワーク2を介して、話者である端末装置3に速やかに送信される。
ここで、例えば、録画側の端末装置において、t3タイミング(図18参照)で頷きが検出された場合、遅延時間Pよりも短い時間で、話者であって再生側である端末装置3に向けて頷き信号が送信される。そして、再生側である端末装置3において頷き信号がt4タイミング(図18参照)で受信される。次いで、HDD31に記憶された頷き画像データテーブル3131に、頷き信号を送信した端末装置に対応する頷き画像データが記憶されているか否かが判断される(S23)。
頷き画像が記憶されていると判断された場合(S23:YES)、t4タイミング(図18参照)で、デコードした頷き画像データに基づき、ディスプレイ28において再生中の画像に割り込んで頷き画像が再生される(S25)。このときストリーミング画像を配信する録画側の端末装置において、ストリーミング画像は、頷き画像の再生時間Q分だけカットされる。なお、このカット処理を行うCPU20が本発明の「第2ストリーミング画像カット手段」に相当する。
さらに、頷き画像の再生時間Qが経過したt6タイミングにおいて、頷き画像が割り込まれた際にバッファに残存する画像データのR時間分が遅延して再生される(S26)。そして、R時間分の再生が終了するt7タイミングから、通常のストリーミング画像のバッファ再生が行われる(S27)。
なお、頷き信号を受信しても(S22:YES)、HDD31の頷き画像データテーブル3131に頷き画像が記憶されていないと判断された場合(S23:NO)、HDD31に予め記憶された代替画像が表示される(S24)。代替画像は、例えば、文字、図形等で、聞き手が頷いていることを話者に示すものであればよい。
次に、図17に示すように、端末装置間において、画像通話中であるか否かが判断される(S28)。画像通話中である場合は(S28:YES)、自拠点でのカメラ画像の画像データのエンコード処理が行われ(S29)、そのエンコード処理された画像データが、相手側の端末装置にストリーミング配信される(S30)。続いて、端末装置との接続が全て切断されたか否かが判断される(S31)。接続が全て切断された場合は(S31:YES)、処理を終了する。接続がまだ残っている場合は(S31:NO)、図14のS6に戻り、どの端末と接続されているかが判断される。そして、接続が維持された端末装置の動作状況が書き換えられると共に、新たに接続された端末装置の動作状況が記憶され、同様に処理が繰り返される。
次に、端末装置3で話者を検出しなかった場合について説明する。図14に示すように、端末装置3の拠点において、話者を検出しなかった場合(S12:NO)、端末装置3は聞き手となる。そこで、図15に示すように、話者となった相手側の端末装置から、頷き検出指示信号を受信したか否かが判断される(S15)。頷き検出指示信号を受信した場合、頷き検出処理が実行される(S16)。この頷き検出処理は、上記した頷き検出方法に従って、カメラ画像から頷いている人が検出され、カメラ画像から頷きが検出される。そして、頷き信号が話者となった相手側の端末装置に向けて送信される。
その後、図16に示すように、頷き画像を受信したか否かが判断される(S19)。頷き画像を受信した場合(S19:YES)、その頷き画像はエンコードされて圧縮された状態であるので、その頷き画像データのデコード処理が行われる(S20)。そして、デコードされて無圧縮の状態となった頷き画像データと、端末IDと、録画時間とが、HDD31に記憶された頷き画像データテーブル3131に登録される(S21)。
さらに、頷き信号を受信したか否かが判断される(S22)。現在、端末装置3は聞き手であって、頷き信号を送信する側であるので(S22:NO)、続いて、図17に示すように、端末装置間において、画像通話中であるか否かが判断される(S28)。画像通話中である場合は(S28:YES)、自拠点でのカメラ画像の画像データのエンコード処理が行われ(S29)、そのエンコード処理された画像データが、相手側の端末装置にストリーミング配信される(S30)。続いて、端末装置との接続が全て切断されたか否かが判断される(S31)。接続が全て切断された場合は(S31:YES)、処理を終了する。接続がまだ残っている場合は(S31:NO)、図14のS6に戻り、端末との接続状況が判断され、接続している端末装置の動作状況が最新のものに書き換えられ(S7〜10)、上記と同様に処理が繰り返される。
なお、以上説明において、図2,図7に示すディスプレイ28が本発明の「表示手段」に相当する。図2に示すマイク35が本発明の「発話検出手段」に相当する。図3に示すHDD31の頷き画像データテーブル記憶エリア313が本発明の「反応時画像記憶手段」に相当する。図14に示すS8の処理を実行するCPU20が本発明の「CPU負荷検出手段」および「CPU負荷状況記憶手段」に相当する。図14に示すS9の処理を実行するCPU20が本発明の「伝送時間検出手段」および「伝送時間記憶手段」に相当する。図14に示すS11の処理を実行するCPU20が本発明の「反応時画像データ送信手段」に相当する。図14に示すS13の処理を実行するCPU20が本発明の「端末特定手段」に相当する。図14に示すS14の処理を実行するCPU20が本発明の「通知信号送信手段」に相当する。図14に示すS15の処理を実行するCPU20が本発明の「通知信号受信手段」に相当する。図15に示すS16の処理を実行するCPU20が本発明の「反応状態検出手段」に相当する。図15に示すS17の処理を実行するCPU20が本発明の「反応信号送信手段」に相当する。図16に示すS19の処理を実行するCPU20が本発明の「反応時画像データ受信手段」に相当する。図16に示すS20,21の処理を実行するCPU20が本発明の「解凍記憶処理手段」に相当する。図16に示すS22の処理を実行するCPU20が本発明の「反応信号受信手段」に相当する。図16に示すS23の処理を実行するCPU20が本発明の「反応時画像記憶判断手段」に相当する。図16に示すS24の処理を実行するCPU20が本発明の「代替画像表示制御手段」に相当する。図16に示すS25の処理を実行するCPU20が本発明の「反応時画像表示制御手段」に相当する。
以上説明したように、第1実施形態である端末装置3は、ネットワーク2を介して他の端末装置4乃至6と相互に接続される。これら端末装置間で、画像、音声を互いに送受信することで遠隔会議を実施するテレビ会議システム1を構成する。このテレビ会議システム1では、遠隔会議中に、特定の端末装置(端末装置3乃至6の何れか)において聞き手が頷いていることを検出した場合に、話者のいる相手側の端末装置(端末装置3乃至6の何れか)に聞き手の頷きを検出したことを通知する。頷きが通知された相手側の端末装置では、予め記憶しておいた聞き手の頷き画像を表示する。つまり、この方式では、ストリーミング方式とは異なり、画像データのエンコード及びデコードが不要であるので、聞き手の頷きを遅延なく表示できる。従って、話すタイミングと聞き手のリアクションとのずれを小さくできるので、円滑な会話を提供できる。
次に、第2実施形態である端末装置130について、図面を参照して説明する。第1実施形態では、CPU20による通信制御処理において、頷き画像を会議前に録画し、頷き画像の時間分だけ録画配信を停止する。これに対し、第2実施形態におけるCPU120の通信制御処理は、頷き画像を会議中に録画する点と、頷き画像の再生時間分だけストリーミング画像をカットする点がそれぞれ異なっている。そこで、これら異なる点を重点的に説明するために、第1実施形態とは異なるCPU120による通信制御処理を中心に説明する。なお、第2実施形態の端末装置130も第1実施形態の端末装置3と同様に、図1に示すテレビ会議システム1を構成するものである。
まず、端末装置130の構成について、図19を参照して説明する。図19は、端末装置130の電気的構成を示すブロック図である。端末装置130には、端末装置130の制御を司るコントローラとしてのCPU120が設けられている。CPU120には、BIOS等を記憶したROM121と、各種データを一時的に記憶するRAM122と、データの受け渡しの仲介を行うI/Oインタフェイス30とが接続されている。I/Oインタフェイス30には、各種記憶エリアを有するハードディスクドライブ131(以下、HDD131)が接続されている。なお、HDD131は、第1実施形態のHDD31と同様の各種記憶エリア(図3参照)を備えるものとする。その他の構成は、第1実施形態の端末装置3(図2参照)と同様の構成を備えているので説明を省略する。
次に、CPU120による通信制御処理について、図20乃至図23のフローチャートと、図24を参照して説明する。図20は、CPU120による通信制御処理のフローチャートである。図21は、図20の続きを示すフローチャートである。図22は、図21の続きを示すフローチャートである。図23は、図22の続きを示すフローチャートである。図24は、頷き検出時の画像カット処理を説明するためのタイミングチャートである。
図20に示すように、まず、各種データが初期化される(S40)。続いて、他の端末装置の少なくとも何れかとネットワーク2を介して接続したか否かが判断される(S41)。他の端末装置の何れかと接続するまでは(S41:NO)、S41に戻り、処理が繰り返される。他の端末装置と接続した場合(S41:YES)、接続した他の端末装置から送信される端末情報から、その端末装置の動作状況が、HDD31の端末状況テーブル記憶エリア312に記憶された端末状況テーブル3121(図5参照)に記憶される(S42)。さらに、端末装置130のCPU120の負荷が計測され、端末状況テーブル3121(図5参照)に記憶される(S43)。さらに、端末装置130のデータ伝送時間の遅延について計測され、端末状況テーブル3121(図5参照)に記憶される(S44)。
さらに、端末装置の頷き検出機能の有無について、端末状況テーブル3121(図5参照)に記憶される(S45)。端末装置は頷き検出機能が有る場合は、端末状況テーブル3121の頷き検出機能カラム65には、「有り」と記憶される。なお、具体的には、頷き検出機能の有無の登録について、「有り」の場合は、頷き機能フラグ「1」が記憶される。「無し」の場合は、頷き機能フラグ「0」が記憶される。
次いで、話者を検出したか否かが判断される(S47)。マイク35からユーザの音声を検出した場合に話者と判断され、音声を検出しない場合は聞き手と判断される。ここで、話者となるか聞き手となるかでその後の処理が変わるので、話者が検出された場合と、話者が検出されずに聞き手となった場合とに分けて順に以下説明する。
まず、話者を検出した場合について説明する。図19に示すように、端末装置の拠点において、話者を検出した場合(S47:YES)、頷きを検出する端末装置が特定される(S48)。ここでは、各端末装置の動作状況に基づいて決められた条件に基づいて、頷きを検出する一の端末装置が特定される。なお、端末を特定するための条件は、第1実施形態と同様に、上記した第1〜第4条件の何れかである。
そして、第2実施形態でも同様に、端末装置130において、これら第1〜4条件の中から何れかを選択することができる。ユーザによって選択された条件に基づき、CPU120は、頷きを検出する一の端末装置を特定する。なお、頷きを検出する一の端末装置を特定する際に、頷き検出機能が無いものは除外される。そして、上記した条件に基づき、頷きを検出する一の端末装置が特定されたら、その特定した端末装置に向けて、頷きを検出するように指示するための頷き検出指示信号が送信される(S49)。
続いて、他の端末装置から頷き検出指示信号を受信したか否かが判断される(S50)。端末装置130が話者となっている場合は、頷き検出信号は送信する側であって受信する側ではないので(S50:NO)、図22に示すフローに移行し、相手側の端末装置から頷き画像を受信したか否かが判断される(S57)。上記したように、頷き画像は、送信元の端末IDと、頷き画像の録画時間と共に送信される。頷き画像を受信した場合(S57:YES)、その頷き画像はエンコードされて圧縮された状態であるので、その頷き画像データのデコード処理が行われる(S58)。そして、デコードされて無圧縮の状態となった頷き画像データと、端末IDと、録画時間とが、HDD31に記憶された頷き画像データテーブル3131に登録される(S59)。
ところで、第2実施形態においても、端末装置間で画像と音声の送受信が行われることで会議が行われる。画像については、図24に示すように、画像を録画した端末装置から、その録画された画像の画像データがストリーミング方式で相手側の端末装置に送信され、ディスプレイ28にバッファ再生される。ストリーミング方式では、エンコード処理とデコード処理に時間がかかる。従って、再生側の端末装置のディスプレイ28の表示に遅延が生じる。例えば、r0タイミングで録画した画像データは、遅延時間Pを経て、r1タイミングで再生される。さらに、r1タイミングで録画した画像データも同様に、遅延時間Pを経て、r2タイミングで再生されることになる。
そして、図22に示すように、端末装置130では、聞き手であって録画側である端末装置から頷き信号を受信したか否かが判断される(S60)。頷き信号は、画像データに比べて情報量が格段に小さい。そのため、頷きを検出する端末として特定された端末装置から送信された頷き信号は、ネットワーク2を介して、話者である端末装置130に速やかに通知される。
ここで、録画側の端末装置において、r3タイミング(図24参照)で頷きが検出された場合、遅延時間Pよりも短い時間で、話者であって再生側である端末装置に向けて頷き信号が送信される。そして、再生側である端末装置において頷き信号がr4タイミング(図24参照)で受信される。次いで、HDD131に記憶された頷き画像データテーブル3131(図6参照)に、頷き信号を送信した端末装置に対応する頷き画像が記憶されているか否かが判断される(S61)。
頷き画像が記憶されていると判断された場合(S61:YES)、r4タイミング(図24参照)で、デコードした頷き画像データに基づき、ディスプレイ28において再生中の画像に割り込んで再生される(S63)。さらに、録画側の端末装置からのストリーミング配信について、再生した頷き画像の再生時間(Q)がカットされる(S64)。つまり、ストリーミング配信された画像の時間分T1と、割り込まれた際にバッファに残存する画像の時間分T2とがカットされる。さらに、頷き画像の再生時間Qが経過したr5タイミングにおいて、頷き画像が割り込まれた際にバッファに残存する画像のT2時間分が遅延して再生される。そして、T2時間分の再生が終了するr6タイミングから、通常のストリーミング画像のバッファ再生が行われる(S65)。
なお、頷き信号を受信しても(S60:YES)、HDD31の頷き画像データテーブル3131に頷き画像が記憶されていないと判断された場合(S61:NO)、HDD31に予め記憶された代替画像が表示される(S62)。代替画像は、例えば、文字、図形等で頷いていることを話者に示すものであればよい。
次に、図23に示すように、端末装置間において、画像通話中であるか否かが判断される(S66)。画像通話中である場合は(S66:YES)、自拠点でのカメラ画像の画像データのエンコード処理が行われ(S67)、そのエンコード処理された画像データが、相手側の端末装置にストリーミング配信される(S68)。続いて、他の端末装置との接続が全て切断されたか否かが判断される(S69)。接続が全て切断された場合は(S69:YES)、処理を終了する。接続がまだ残っている場合は(S69:NO)、図20のS41に戻り、接続している端末装置の動作状況が最新のものに書き換えられ、処理が繰り返される。
次に、端末装置130で話者を検出しなかった場合について説明する。図20に示すように、端末装置130の拠点において、話者を検出しなかった場合(S47:NO)、端末装置130は聞き手となる。そこで、図21に示すように、話者となった相手側の端末装置から、頷き検出指示信号を受信したか否かが判断される(S50)。頷き検出指示信号を受信した場合、頷き検出処理が実行される(S51)。この頷き検出処理は、上記した頷き検出方法に従って、カメラ画像から頷いている人が検出され、カメラ画像から頷きが検出される。そして、頷き信号が話者となった相手側の端末装置に向けて送信される。
続いて、頷きが初回の検出であったか否かが判断される(S52)。初回の検出の場合(S52:YES)、話者側の端末装置には、聞き手である端末装置130の頷き画像データは記憶されていない。そこで、頷きを検出したユーザの頷き画像がエンコードされ(S53)、HDD131に記憶される(S54)。さらに、そのエンコードされた頷き画像データが、ネットワーク2を介して接続した他の端末装置に向けて送信される(S55)。なお、頷きが初回の検出でなかった場合は(S52:NO)、頷き信号が話者である端末装置に向けて送信される。
その後、頷き画像を受信したか否かが判断される(S57)。頷き画像を受信した場合(S57:YES)、その頷き画像はエンコードされて圧縮された状態であるので、その頷き画像データのデコード処理が行われる(S58)。そして、デコードされて無圧縮の状態となった頷き画像データと、端末IDと、録画時間とが、HDD131に記憶された頷き画像データテーブル3131に登録される(S59)。
さらに、頷き信号を受信したか否かが判断される(S60)。現在、端末装置130は聞き手であって、頷き信号を送信する側であるので(S60:NO)、続いて、図23に示すように、端末装置間において、画像通話中であるか否かが判断される(S66)。画像通話中である場合は(S66:YES)、自拠点でのカメラ画像の画像データのエンコード処理が行われ(S67)、そのエンコード処理された画像データが、相手側の端末装置にストリーミング配信される(S68)。続いて、端末装置との接続が全て切断されたか否かが判断される(S69)。接続が全て切断された場合は(S69:YES)、処理を終了する。接続がまだ残っている場合は(S69:NO)、図19のS41に戻り、図20のS41に戻り、端末との接続状況が判断され、接続している端末装置の動作状況が最新のものに書き換えられ(S42〜45)、上記と同様に処理が繰り返される。
以上説明したように、第2実施形態の端末装置130では、CPU120の通信制御処理において、頷き画像を会議中に録画できるので、会議前に録画する準備等の手間が不要である。さらに、頷き画像を再生する際に、頷き画像の再生時間分だけストリーミング画像をカットする。この場合、ストリーミング配信する側の端末装置において、第1実施形態のように、ストリーミングを一時停止するような処理が不要となる。
なお、以上説明において、図21に示すS52の処理を実行するCPU20が本発明の「初回反応状態検出手段」に相当する。図21に示すS53,54の処理を実行するCPU20が本発明の「反応時画像記憶処理手段」に相当する。図22に示すS63の処理を実行するCPU20が本発明の「割り込み表示手段」に相当する。図22に示すS64の処理を実行するCPU20が本発明の「第1ストリーミング画像カット手段」に相当する。
次に、本発明の第3実施形態である端末装置230について、図25を参照して説明する。図25は、端末装置230の電気的構成を示すブロック図である。第1,第2実施形態では、ユーザの頷きをカメラ画像から画像処理を用いて検出している。第3実施形態では、話者の話に聞き手が納得した場合に、端末装置230に設けられた頷きボタン70を押下するようになっている。
端末装置230の構成について説明する。図25に示すように、端末装置230には、端末装置230の制御を司るコントローラとしてのCPU220が設けられている。CPU220には、BIOS等を記憶したROM221と、各種データを一時的に記憶するRAM222と、データの受け渡しの仲介を行うI/Oインタフェイス30とが接続されている。I/Oインタフェイス30には、各種記憶エリアを有するハードディスクドライブ231が接続されている。そして、第1実施形態の端末装置3(図2参照)と同様の構成を備えると共に、I/Oインタフェイス30には、頷きボタン70が接続されている。
頷きボタン70は、聞き手が話者の話に納得した場合に押下されるものである。よって、この頷きボタン70が押下されると、話者である端末装置に向けて、第1実施形態と同様の頷き信号が送信される。つまり、CPU220による通信制御処理は、第1実施形態の通信制御処理の中で、頷きを検出する一の端末装置に特定された場合の頷き検出処理(図15:S16)において、頷きボタン70が押下されたか否かを判断する点が異なる。頷きボタン70が押下された場合は、頷き信号が送信される(図15:S17)ので、第1実施形態と同様の効果を得ることができる。
以上説明したように、第3実施形態の端末装置230では、話者の話に聞き手が納得した場合に、端末装置230に設けられた頷きボタン70を押下するので、第1実施形態のような画像処理に比べて、聞き手が納得した意志を話者に確実に伝えることができる。なお、図25に示すS頷きボタン70が本発明の「操作手段」に相当する。
なお、本発明は、上記の第1乃至第3実施形態に限定されることなく、種々の変更が可能である。例えば、上記実施形態では、ユーザの頭部が上下方向に振れる頷きを検出したものであるが、首を左右に振って話者に対して否定する反応状態を、上記した画像処理によって検出することも可能である。この場合、頷き画像と同様に、首を横に振る画像を記憶しておけば、聞き手の否定の意志を話者に速やかに伝えることができる。
また、その他にも、人間には自己の感情を相手に伝えるために、頭部を振る動作のみならず、種々のジェスチャーで表現することがある。このような聞き手の反応状態の特徴を検出することで、様々な反応を検出でき、本発明を適用することができる。