WO2007105436A1

WO2007105436A1 - ウェアラブル端末

Info

Publication number: WO2007105436A1
Application number: PCT/JP2007/053187
Authority: WO
Inventors: Takashi Kawamura; Masayuki Misaki; Ryouichi Kawanishi; Masaki Yamauchi
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2006-02-28
Filing date: 2007-02-21
Publication date: 2007-09-20
Also published as: JPWO2007105436A1; CN101390380A; JP4669041B2; US20090058611A1; US8581700B2

Abstract

　複数人が参加する行事において、当該行事に参加する人物が身に付けるウェアラブル端末であって、所定範囲内に存在する複数のウェアラブル端末に対して要求信号を送信して、要求信号に対するレスポンスを受信する要求部と、受信されたレスポンスに基づき、通信相手となる１以上のウェアラブル端末を決定して、決定したウェアラブル端末とのデータ通信を実行する通信部とを備え、前記データは、通信相手として決定されたウェアラブル端末により収集されたデータであり、前記行事のプロファイルを作成するにあたって、当該プロファイルの構成要素となる。

Description

明細書

ウェアラブル端末

技術分野

[0001] 本発明はウェアラブル端末に関する。

背景技術

[0002] ウェアラブル端末とは服やカバンやペン、腕時計のように身につけて利用される端末であり、近年、軽量化が進んでおり、マイクやカメラを備えた端末も珍しくはない。ゥエアラブル端末として、例えばウェアラブルカメラは自動撮影を行うことができ、音声をトリガーにしてシャッターを切ったり、動画撮影を開始したりすることができる（特許文献 1参照)。

特許文献 1：特開 2004— 356970号公報

発明の開示

発明が解決しょうとする課題

[0003] ところで近年の製品開発の傾向として、ウェアラブル端末に、プロファイル作成機能を追加することが検討されて、る。

プロファイル作成機能とは、ウェアラブル端末を着用したユーザが、パーティや団体旅行等といった行事に参加した際、ウェアラブル端末にて自動的に収集されたデータを構成要素として用いて、その行事の回顧録や資料等を、いわゆる行事の"プロフアイル"として作成する機能をいう。ウェアラブル端末には、カメラ、マイクが装備されているので、力かるウェアラブル端末にて収集された映像データ、音声データを、プ口ファイル作成にあたってのデータ素材として使用することができる。

[0004] ところが、力かるプロファイル作成機能においては、ユーザの周りにある光景を撮影して、これをプロファイルの構成要素とすることができても、カゝかる行事に参カ卩している自分の姿を、プロファイルのデータ素材に加えることは困難である。なぜなら、一般的に、ウェアラブル端末では対面する方向の画像情報が取得されることになる力もである。つまり、プロファイル作成にあたって使用できるデータ素材力ウェアラブル端末自身にて収集されたデータに限られ、またゥヱアラブル端末にて取得されるデータには限界があるため、当該機能にて作成されるプロファイルの表現の幅が狭いという問題がある。

[0005] 本発明の目的は、行事に参加している自分の姿等をデータ素材として使用することで、プロファイルを作成するにあたっての表現の幅を広げることができるウェアラブル端末を提供することである。

課題を解決するための手段

[0006] 上記課題を解決するために、本発明は複数人が参加する行事において、当該行事に参加する人物が身に付けるウェアラブル端末であって、所定範囲内に存在する複数のウェアラブル端末に対して要求信号を送信して、要求信号に対するレスポンスを受信する要求手段と、受信されたレスポンスに基づき、通信相手となる 1以上のウェアラブル端末を決定して、決定したウェアラブル端末とのデータ通信を実行する通信手段とを備え、前記データは、通信相手として決定されたウェアラブル端末により収集されたデータであり、前記行事のプロファイルを作成するにあたって、当該プロファイルの構成要素となる、ことを特徴とするウェアラブル端末である。

発明の効果

[0007] 本発明は上記の構成を備えることにより、行事の他の参加者力上述したようなレスポンスを送信することができるウェアラブル端末を着用してヽる場合、それら他の参加者が着用しているウェアラブル端末の中から、通信相手となるものを定め、かかる通信相手力も受信したデータをプロファイルの構成要素とすることができる。したがって、自身のウェアラブル端末からは取得不能なデータ素材であっても、行事の他の参加者が着用しているウェアラブル端末力取得可能なデータ素材であるなら、当該他の参加者が着用しているゥヱアラブル端末から当該データ素材を取得し、プロフアイルの作成に役立てることができるので、プロファイルの作成にあたっての表現の幅を広げることができる。

[0008] なお、前記行事とは、会議や講義、食事、立ち話、団体旅行、パーティ等を含む概念である。

ここで、前記通信手段は前記複数のウェアラブル端末のそれぞれについて、受信されたレスポンスに基づき、自端末と同一の会話集団に属するウェアラブル端末であるか否かを判定し、同一の会話集団に属すると判定したウェアラブル端末を通信相手として決定するとしても良い。

[0009] ここで、前記レスポンスは、要求信号を受け取った各ウェアラブル端末で取得された音声情報を含み、前記通信手段は、受信された各ウェアラブル端末の音声情報における発声区間と自端末の音声情報における発声区間との重複率を算出する重複率算出手段を含み、自端末と同一の会話集団に属すると判定されるゥヱアラブル端末は、前記複数のウェアラブル端末のうち、自端末の音声情報における発声区間との重複率が所定の閾値以内となるウェアラブル端末であるとしても良、。

[0010] これにより、当該ウェアラブル端末に係るユーザと会話をしているユーザに係るゥェアラブル端末を特定することができるので、プロファイルの構成要素としてより効果的なデータを取得することができる。

なお、本クレームにおける重複率算出手段は、実施の形態における同一会話集団検出部に対応する。

[0011] ここで、前記音声情報における発声区間は、所定期間母音が «続している部分である、会話におけるあいづちを含み、前記重複率算出手段は、前記あいづちの区間を除いて重複率を算出するとしても良い。

これにより、あいづちを打つことにより発声区間が重複した区間については重複率から除かれるので、前記会話をして!/ヽるユーザに係るウェアラブル端末を決定する精度を高めることができる。

[0012] ここで、前記レスポンスは、要求信号を受け取った各ウェアラブル端末の位置情報を含み、前記通信手段は、受信された各ウェアラブル端末の位置情報と自端末の位置情報とから、該ウェアラブル端末と自端末との距離をそれぞれ算出する距離算出手段を含み、自端末と同一の会話集団に属すると判定されるウェアラブル端末は、前記複数のウェアラブル端末のうち、自端末との距離が所定の閾値以内となるウェアラブル端末であるとしても良、。

[0013] これにより、プロファイルの構成要素として効果的なデータを取得することができる。

なお、本クレームにおける距離算出手段は、実施の形態における同一会話集団検出部に対応する。ここで、前記レスポンスは、要求信号を受け取った各ゥヱアラブル端末の方位情報を含み、前記通信手段は、受信された各ウェアラブル端末の方位情報から、所定時間当たりの方位情報の変化量を算出する方位変更量算出手段を含み、自端末と同一の会話集団に属すると判定されるウェアラブル端末は、前記複数のウェアラブル端末のうち、自端末の方位変更量との差が所定の範囲内となるウェアラブル端末であるとしても良い。

[0014] これにより、プロファイルの構成要素として効果的なデータを取得することができる。

なお、本クレームにおける方位変更量算出手段は、実施の形態における同一会話集団検出部に対応する。

また、決定したウェアラブル端末とのデータ通信によりデータを取得できたとしても、プロファイルを作成するにあたって、利用者自らが編集作業を行うというのは非常に煩雑であり、多大な労力を払うことが多い。

[0015] ここで、前記行事のプロファイルの作成は、自端末により行われ、前記通信手段は、作成されたプロファイルを前記 1以上のウェアラブル端末に送信するとするのが望ましい。

これにより、ウェアラブル端末に係る利用者自らが編集作業を行う必要はなぐ例えば、当該ウェアラブル端末に係るユーザのプロファイルや、発話者のみを撮影したプ口ファイル等を容易に作成することができる。また、作成したプロファイルを前記通信相手となる 1以上のウェアラブル端末と共有することができる。

[0016] ここで、前記収集されたデータは画像であり、前記プロファイルは、前記決定されたウェアラブル端末において、各発話者に係るウェアラブル端末と、当該発話者の画像を撮影したウェアラブル端末との組に基づき作成されるとしても良い。

これにより、常に発話者が映し出されたプロファイルを作成することができる。

ここで、前記プロファイルは、前記決定されたウェアラブル端末のうち、発話者に係るウェアラブル端末により収音された音声を用いて作成されるとしても良い。

[0017] これにより、自端末において、発話者に係るウェアラブル端末との位置関係等の影響により、クリアな音声が収音できな力つた場合であっても、発話者に係るウェアラブル端末により収音された音声を用いることにより、クリアな音声のプロファイルを作成することができる。

ここで、前記ウェアラブル端末は、前記決定したウェアラブル端末に関するデータを記録する記録手段を備えるとしても良い。

[0018] これにより、記録しておいたデータに基づき、必要なときにプロファイルを作成することができる。

ここで、前記サーバ装置は、前記複数のウェアラブル端末の位置を示す位置情報を取得し、取得した位置情報に基づ、て前記複数のウェアラブル端末を複数のクラスタにクラスタリングするクラスタリング手段を含み、前記通信手段による前記通信相手となる 1以上のウェアラブル端末の決定は、各クラスタごとに行われるとしても良い。

[0019] これにより、前記形成手段による集団の形成が行われる前に、位置情報に基づいて、大まかにクラスタリングするので、多数のウェアラブル端末について処理を行う場合、各会話集団を形成する際の演算量を大きく削減することができる。

図面の簡単な説明

[0020] [図 1]ユーザがウェアラブル端末を装着している状態を示した図である。

[図 2]ウェアラブル端末を装着したユーザが近傍に複数人存在する状況を示した図である。

[図 3]ゥヱアラブル端末が複数存在するときの相互の通信状況を示した図である。

[図 4]ウェアラブル端末の外観を示す図である。

[図 5]ウェアラブル端末の撮影方向を示す図である。

[図 6]赤外広角カメラと赤外線タグとを用いた位置検出システムを示す図である。

[図 7]通信シーケンスを示す図である。

[図 8]各ウェアラブル端末力も受信したデータを示す図である。

[図 9]ロケーションサーノ OOから受信するデータを示す図である。

[図 10]ウェアラブル端末 100のハードウェア構成を示す図である。

[図 11]ウェアラブル端末 100の機能ブロックを示す図である。

[図 12]端末 IDリストを示す図である。

[図 13]同一会話集団検出処理のフローを示す図である。

[図 14]同一会話集団検出処理のフローを示す図である。 [図 15]作成処理のフローを示す図である。

[図 16]作成処理のフローを示す図である。

圆 17]各発話者の発話のタイミングと、各発話時における発話者の画像をどの端末より取得するかを模式的に示した図である。

圆 18]各発話者の発話のタイミングと、画像取得対象となる端末の端末 IDと、取得画像との関係を示した図である。

[図 19]作成されたプロファイルを模式的に表した図である。

[図 20]プロファイル情報の内部構成を示す図である。

圆 21]サーバ集中管理型の通信状況を示した図である。

[図 22]作成サーバ 500の機能ブロックを示す図である。

圆 23]同一会話集団検出部 520の内部構成を示す図である。

[図 24]ウェアラブル端末 600の機能ブロックを示す図である。

[図 25]作成サーバの処理フローを示す図である。

[図 26]クラスタリング処理のフローを示す図である。

[図 27]同一会話集団検出処理 2のフローを示す図である。

[図 28] (a)は、ある時間における 21人の位置を俯瞰したときのマップである。（b)は、クラスタリング部 521によるクラスタリングが行われた後の結果を示す図である。（c)は、各人の会話に対する積極性と、向きとを表している図である。（d)は、会話集団が検出されたあとの結果を示している図である。（e)は、すべての参加者がいずれかの会話集団に分けられた結果を示している図である。

[図 29]作成処理 2のフローを示す図である。

[図 30]端末 IDリスト 2を示す図である。

符号の説明

100〜100h、 600〜600f ウェアラブル端末

101 CPU

102 ROM

103 RAM

104 マイクロホン 105、 108 AZD変^^

106、 109 エンコーダ

107 カメラ

110 電子コンパス

111 メモリカード

112 通信部

121、 601 撮像部

122、 602 収音部

123 装着者方向音声取得部

124 非装着者方向音声取得部

125、 603 方位検出部

126、 540 発話タイミング抽出部

127、 510, 604 通信部

128、 520 同一会話集団検出部

129、 550 被写体検出部

130、 560 撮影条件判定部

131、 580 作成部

132、 570、 605 記録部

200 赤外線タグ

300 赤外広角カメラ

400 ロケーションサーノ

500 作成サーバ

521 クラスタリング部

522 クラスタ内会 ΐ舌集団検出部

523 発話情報算出部

524 適合度算出部

発明を実施するための最良の形態

(実施の形態 1) <概要 >

先ず始めに、本発明に係るウェアラブル端末の概要について説明する。本発明では、ユーザは図 1に示すようにウェアラブル端末 100を装着しており、図 2 に示すように、ウェアラブル端末を装着したユーザが近傍に複数人存在する状況を想定している。前記ユーザが複数人存在する状況としては、例えば、会議や講義、食事、立ち話、団体旅行、パーティなどの様々な状況が考えられる。ここでは、近傍に存在する複数人のユーザの中に、会話して!/、る集団 (会話集団）が存在する場合を考える。もちろんそのような会話集団が複数存在してもよいし、会話に参加していない人物も存在してもよい。またここでいう会話とは、長時間（例えば 1分以上） 1人の人物が発話しつづけるような状況ではなぐ適度に発話者が入れ替わる状況を示すこととする。

[0023] 図 2に示されるウェアラブル端末 100、 100a, 100b, 100c, 100d、 100e、 100f、 100g、 lOOhは図 3に示すように、相互に通信ネットワークにより接続されている。ここでは、通信ネットワークは無線 LANとする。図 3はウェアラブル端末が複数存在するときの相互の通信状況を示す図である。図 3では、ウェアラブル端末 100〜100hを装着している人物がそれぞれ通信範囲内に存在しており、ウェアラブル端末 100〜1 00eから構成される会話集団 1と、ウェアラブル端末 100f、 100gから構成される会話集団 2とが形成されており、ウェアラブル端末 100hを装着している人物は、これらの会話集団に含まれていないが、場を共有している、という状況を例示している。

[0024] 各ウェアラブル端末は図 4に示すように、カメラとマイクロホンとを含んで構成され、それらによって取得された画像及び音声を記録媒体に記録する。この構成を有するゥアラブル端末を装着することにより、各装着者の音声は良好に取得することができるが、一般的には装着者自らを撮影することはできず、図 5に示すように、対面する方向の画像情報が取得されることになる。

[0025] 本発明に係るウェアラブル端末 100の特徴は、複数人が装着して!/ヽるウェアラブル端末 (ウェアラブル端末 100a〜100h)力も通信相手となる 1以上のウェアラブル端末、すなわち、自端末に係るユーザと同一の会話集団に属するユーザに係るウェアラブル端末（図 3の例でいうと、ウェアラブル端末 100a〜100e)を決定し、登録や認証なしに決定したウェアラブル端末とデータ通信を行う。そして、プロファイルの作成するにあたって、それらのウェアラブル端末により撮影された画像や音声が当該プロフアイルの構成要素となる。

[0026] これにより、装着者自らを撮影することができずとも、当該端末 100を装着しているユーザの映像や、会話集団における発話者を撮影した映像などを取得できる。以上が、ウェアラブル端末 100の概要である。

続、て、各ウェアラブル端末の位置を検出する方法にっ、て説明する。 <位置検出方法 >

各ウェアラブル端末の位置を検出する方法として種々の方法が提案されている力ここでは赤外広角カメラと赤外線タグとを用、た位置検出方法を用、る。具体的には、この方法では、ウェアラブル端末を装着しているユーザに赤外線タグを装着し、赤外広角カメラで撮影された画像中の赤外線タグを輝点として取得し、取得した輝点の画像中の座標から実空間座標への座標変換を用、て赤外線タグの三次元位置を決定する。決定された赤外線タグの三次元位置をウェアラブル端末の位置とみなす。

[0027] 図 6は赤外広角カメラと赤外線タグとを用いた位置検出システムである。この位置検出システムは各ユーザが装着するウェアラブル端末 100〜100hと、図示しない各ュ一ザに装着される赤外線タグ 200〜200hと、 6台の赤外広角カメラ 300a〜300fと、ロケーションサーノ OOとを含んで構成される。

赤外線タグ 200〜200hは、赤外線を発行する LEDとその明滅を制御する装置で構成される赤外発行マーカである。例えば、図 1に示すように、名札形状を有し、ュ一ザの胸に装着される。

[0028] 赤外広角カメラ 300a〜300fは動画像を取得するカメラと、可視光を遮断し赤外領域の光を透過するフィルタと、広角レンズとから構成されるカメラである。

ロケーションサーバ 400は 6台の赤外広角カメラ 300a〜300fにより得られた画像を処理し、各赤外線タグ 200〜200h (ウェアラブル端末 100〜100h)の位置を算出し、算出した位置情報を管理する。より詳細には、赤外広角カメラ 300a〜300fの設置位置に基づいて赤外線画像上の各輝点の位置を実空間座標に変換し、変換した各輝点の座標、すなわち赤外線タグ 200〜200hの位置を各ウェアラブル端末の位置とみなして記憶装置に記憶し、管理する。

[0029] ウェアラブル端末 100は上述したように無線 LAN通信機能を有しており、ロケーシヨンサーノ OOから各ウェアラブル端末 100〜100hの位置情報を受信することにより、それらの位置情報を取得することができる。なお、ロケーションサーノ OOは各ゥェアラブル端末 100〜： LOOhにそれぞれの位置情報を送信し、ウェアラブル端末 100 は各ゥヱアラブル端末 100a〜100hから位置情報を取得するとしてもよい。

[0030] 続いて、本発明に係るウェアラブル端末 100について図面を参照しながらさらに詳細に説明する。

<通信シーケンス >

ウェアラブル端末 100が同一会話集団検出処理、及びプロファイル作成処理を行う際の通信シーケンスについて説明する。ウェアラブル端末 100はまず、同一会話集団に属するウェアラブル端末を検出する際において、通信範囲内にあるウェアラブル端末 100a〜100h、及びロケーションサーバ 400にポーリングを送信し、それぞれからの応答を受信する。図 8に各ウェアラブル端末力受信したデータを示す。図 8に示すように受信データは、ウェアラブル端末の端末 ID,方位情報、及び音声情報からなる。図 9にロケーションサーノ 00から受信するデータを示す。図 9に示すように受信データは、各ウエアラブル端末の端末 ID及び位置情報力もなる。応答を受信すると、同一会話集団検出処理を行い、同一会話集団に属するウェアラブル端末を検出する。続いて、同一会話集団に属する各ウェアラブル端末との間で順にコネクションを確立し、各ウェアラブル端末により取得された画像や音声等を取得する。そして、取得した画像や音声等を用いて、プロファイル作成処理を行い、プロファイルを作成し、作成したプロファイルを同一会話集団に属する各ウェアラブル端末に送信する。ウェアラブル端末 100は所定時間経過ごとに上述した処理を行い、動的に変化する会話集団の検出を行い、検出した会話集団に属するウエアラブル端末により取得された画像や音声を用いて、プロファイルを作成する。

<構成>

続いて、ウェアラブル端末 100のハードウェア構成に付いて説明する。図 10はゥヱアラブル端末 100のハードウェア構成を示す図である。ウェアラブル端末 100は CP U101、 ROM102、 RAM103、マイクロホン 104、カメラ 107、 A,D変^^ 105、 1 08、エンコーダ 106、 109、電子コンパス 110、メモリカード 111、及び通信部（無線 L ANインタフェース） 112を含んで構成される。

[0031] CPU101、 ROM102、 RAM103はコンピュータシステムを構成しており、 ROM1 02に格納されたプログラムが CPU101に読み込まれプログラムとハードウェア資源とが協働することにより機能を達成する。

電子コンパス 110は地磁気を利用して方位を判断し、端末の向いている方向を検知する。

[0032] メモリカード 111はプロファイル情報等を記録するための可搬媒体である。

通信部 112は各ウェアラブル端末及びロケーションサーノ 00にポーリングを送信し、各ウェアラブル端末力もの応答 (端末 ID、方位情報、及び音声情報)及びロケ一シヨンサーノ 00からの応答（端末 ID、ウェアラブル端末 100〜100hの位置情報）を受信する。同一会話集団に属するウェアラブル端末が検出された後には、プロファィルの構成要素となる画像や音声を取得するため、同一会話集団に属するウエアラブル端末と P2P通信を行う。さらに、プロファイル作成後には、作成されたプロフアイルを同一会話集団に属する各ウェアラブル端末に送信するため、同一会話集団に属するウェアラブル端末と P2P通信を行う。

[0033] 続いてウェアラブル端末 100の内部構成について説明する。図 11は、ウェアラブル端末 100の機能ブロックを示す図である。ウェアラブル端末 100は、撮像部 121、収音部 122、方位検出部 125、発話タイミング抽出部 126、通信部 127、同一会話集団検出部 128、被写体検出部 129、撮影条件判定部 130、作成部 131、及び記録部 132を含んで構成される。

[0034] 撮像部 121は CCDや CMOSから構成され、外部の光を電気信号に変換して、変換した電気信号を作成部 131に出力する機能を有する。

収音部 122は図 4に示すように、 4つのマイクロホンを含んで構成され、各マイクロホン力取得した音声信号を AZD変換し、変換した信号を発話タイミング抽出部 126 、及び同一会話集団検出部 128に出力する機能を有する。より詳細には、収音部 12 2は装着者方向音声取得部 123、及び非装着者方向音声取得部 124から構成される。

[0035] 装着者方向音声取得部 123は、ウェアラブル端末 100の装着者の口元方向から到来する装着者の音声を高 SZN比で収音できるよう、指向性制御する。図 4のマイクロホンの配置例で、うと、各マイクロホンの音声信号を減算する減算型アレイマイクの指向性制御法を用いることで、前記指向性制御を実現できる。

非装着者方向音声取得部 124は、ウェアラブル端末 100の装着者の口元以外の方向から到来する様々な環境音を高 SZN比で収音できるよう、指向性制御する。図 4のマイクロホン配置の例で、うと、各マイクロホンの音声信号を加算する加算型ァレイマイクの指向性制御法を用いることで、前記指向性制御を実現できる。

[0036] 方位検出部 125は電子コンパス 110等を含んで構成され、ウェアラブル端末 100の方位を検出し、同一会話集団検出部 128に出力する機能を有する。

発話タイミング抽出部 126は装着者方向音声取得部 123から音声信号を受信し、受信した音声信号から発話を検出し、検出した発話の発話タイミングを抽出する。具体的には、装着者方向音声取得部 123で収音されたウェアラブル端末 100を装着しているユーザの音声区間の始端及び終端時刻を求める。抽出方法としては、例えば音声パワーを用いた抽出方法ゃケプストラムを用いた抽出方法、統計的手法を用いた音声区間抽出法などが考えられる。要求される抽出精度やコストに応じて、いずれの方式を採用してもよい。

[0037] 通信部 127はアンテナを含み、他のウェアラブル端末 100a〜100hやロケーションサーバ 400から送信されてきたデータを、当該アンテナを介して受信したり、作成部 1 31により作成されたプロファイルなどを他のゥヱアラブル端末 100a〜100hに送信したりする機能を有する。また、受信した画像を被写体検出部 129に送出し、受信した位置情報、方位情報、及び音声情報を同一会話集団検出部 128に送出する。無線通信の方式として、ここでは IEEE802. llgの無線 LANを用いる。無線 LANにおける電波の強度は自由に設定可能であり、これにより通信範囲を決定することができる

[0038] 同一会話集団検出部 128は通信部 127を介して各端末に方位情報、音声情報の送信を、ロケーションサーノ 00にウェアラブル端末 100〜100hの位置情報の送信を要求し、通信部 127からウェアラブル端末 100a〜100hの方位情報及び音声情報と、ウェアラブル端末 100〜： LOOhの位置情報を取得する。また、方位検出部 125から自端末の方位情報を取得し、収音部 122から自端末で収音された音声情報を取得する。そして位置情報、方位情報、及び音声情報を用いて、同一会話集団に属するウェアラブル端末を検出する。具体的な処理のフローについては後述する。

[0039] 被写体検出部 129は通信部 127から送信された画像を受け取り、それぞれの画像力被写体を検出し、検出結果を撮影条件判定部 130に送出する。

撮影条件判定部 130は被写体検出部 129から被写体の検出結果を受け取り、受け取った被写体の撮影条件の良否を判定する。具体的には、発話者に係る端末の位置情報や方位情報等と、その他の各端末の位置情報や方位情報等に基づ!、て、他の端末で前記発話者を被写体として捉えた画像を求めて、その中で最も撮影条件の良い画像を判定する。最も良い撮影条件とは、例えば、対象とする発話者がより大きくはっきりと撮影されていることや、順光で被写体が明確に把握でき、被写体が他の物体に遮られず的確にフレーミングされていることなどである。具体的には後述するフローで説明する。

[0040] 作成部 131は検出された同一会話集団に属するウェアラブル端末により取得された映像や音声を用いて、同一会話集団に属するユーザに関するプロファイルを作成する。例えば、同一会話集団に属する端末力も取得した映像のうち、同一会話集団における発話者を撮影した画像であって、撮影条件判定部 130による判定の結果、最も撮影条件が良いとされる画像を選択し、選択した画像と当該画像に対応する自端末 100で収音した音声とを組み合わせることにより、発話者を撮影した映像を作成する。

[0041] また、同一会話集団に属する端末から取得した画像のうち、自端末 100に係るユーザを撮影した画像であって、撮影条件判定部 130による判定の結果、最も撮影条件が良いとされる画像を選択する。そして、選択した画像と当該画像に対応する自端末 100で収音した音声とを組み合わせることにより、自端末 100に係るユーザのプロフアイルを作成する。

[0042] 記録部 132はメモリカード 111や RAM103等力も構成され、作成されたプロフアイルをメモリカード 111に記録したり、自端末 100で取得した画像と音声とを、同一会話集団検出部 128の結果と関連づけて RAM103に記録したりする。図 12は端末 IDリストを示す図である。端末 IDリストは、本端末と同一会話集団を構成する端末の端末 IDを音声、画像及び時刻と関連付けたリストである。ここでは、端末 IDaaa、 bbb、 cc c、 ddd、 eee力洞一会話集団を構成する。なお、端末 IDaaa、 bbb、 ccc、 ddd、 eee はそれぞれウェアラブル端末 100a、 100b, 100c, 100d、 lOOeの端末 IDである。

[0043] これにより、音声信号、及び画像信号から同一会話集団に属するウェアラブル端末を特定することができ、あるいは時間情報力も同一会話集団に属する端末とその画像や音声を特定することができる。例えば後日会話を交わした人物の検索を行ったり、人物の名前を画像力も思い出したりするような用途に用いることができる。

続いて、同一会話検出部 128における処理について説明する。

<同一会話集団検出処理 >

図 13、 14は同一会話集団検出処理のフローを示す図である。ウェアラブル端末 10 0は一定時間ごとに図 13、 14に示す処理を実行することにより、動的に同一会話集団に属するウェアラブル端末を検出する。ここでは、 3分ごとに処理を行うものとする。本フローチャートにおいて、 iは一つのウェアラブル端末を特定する変数である。まず、同一会話集団検出部 128は各端末に方位情報、音声情報の送信を要求する (ステップ S 101)。次に、ロケーションサーノ 00に各端末及び自端末の位置情報の送信を要求する（ステップ S 102)。要求を受け取った各端末及びロケーションサーノ 00 力もレスポンスが送信され、通信部 127はそれらを受信する。同一会話集団検出部 1 28は通信部 127がレスポンス (方位情報、音声情報、及び位置情報)を受信したか否かを判定する（ステップ S103)。受信した場合には (ステップ S 103で Yes)、続いて自端末の方位情報、音声情報を方位検出部 125及び収音部 122から取得する (ステツプ S104)。自端末の方位情報、音声情報を取得した後、 iを初期化し (ステップ S 105)、各端末につ、て以下の処理を行う（ステップ S 106〜119)。

[0044] まず、取得した位置情報から自端末と該端末との距離を算出する (ステップ S106) 。例えば、該端末を端末 100aとすると、図 9よりそれぞれの位置情報は pi (xl, yl, zl)、 p2 (x2, y2, z2)であるので、 2点間の距離は [数 1]

rl 2 = ^(xl - x2) ² ^ (yl - y2) ² となる。ただし、 z方向については特に考慮する必要はないため、 zlと z2の値は同一とする。続いて、 2点間の距離が所定の範囲内力否かを判定する。ここでは所定の範囲を 5mとし、 2点間の距離が 5m以内か否かを判定する（ステップ S107)。

[0045] 2点間の距離が 5mより大きい場合、自端末の環境音として、該端末の音声が混入している力否かを判定する (ステップ S 108)。具体的には、該端末の装着者方向音声取得部で取得された音声と、自端末の非装着者方向音声取得部 124で取得された音声を比較し、音声の開始と終了が一致するか否かを判定する。一致した場合には、該端末の音声が混入していると判定する。これは該端末に係るユーザが拡声器等を使用している場合を考慮してものである。すなわち、 2点間の距離が 5mより離れて、る場合であっても、自端末の装着者自身が該端末に係るユーザの音声を聞、ている可能性があるので、例外的に同一会話集団に属する可能性があると判定し、処理を進める。

[0046] 2点間の距離が 5m以内の場合 (ステップ S107で Yes)、あるいは本端末の環境音として、該端末の音声が混入していると判定された場合 (ステップ S 108で Yes)、自端末と該端末のそれぞれについて、移動度情報を算出する (ステップ S109)。移動度情報は、所定の時間 (ここでは 3分)あたりの移動距離と方位の変更量によって算出される。移動度情報を算出した後、両端末共に停止している力否かを判定する (ステツプ S110)。これは両端末共に停止している場合には、同一会話集団に属している可能性が高いからである。具体的には、移動距離と方位の変更量が 0か否かを判定する。

[0047] 移動していると判定された場合 (ステップ S 110で No)、両端末とも同一方向に移動している力否かを判定する。これは移動している場合であっても、同一方向に移動しているなら同一会話集団に属している可能性が高いからである。具体的には、位置情報と、方位情報の変更量が両端末で同一である力否かを判定する。同一の場合には同一方向に移動して、ると判定する。

[0048] 両端末共に静止してヽると判定された場合 (ステップ S110で Yes)、あるいは両端末共に同一方向に移動してヽると判定された場合 (ステップ S 111で Yes)、両端末共に発声区間が存在する力否かを判定する (ステップ S112)。

ステップ S112で Noの場合には、一方の端末に発声区間が存在するか否かを判定する (ステップ S 114)。一方の端末に発声区間が存在する場合には (ステップ S114 で Yes)、一方の端末の環境音として、他方の端末の音声が混入している力否かを判定する（ステップ S 115)。

[0049] 両端末共に発声区間が存在しない場合には (ステップ S 114で No)、両端末ともに環境音として同一の第三者の音声が混入しているか否かを判定する (ステップ S116 )。具体的には、自端末の非装着者方向音声取得部 124で取得された音声と、該端末の非装着者方向音声取得部で取得された音声とを比較し、音声の開始と終了が一致するか否かを判定する。これは、両端末共に音声区間が存在しなくとも、自端末と該端末に同一の第三者音声が混入している場合には、ある発話者音声を両者が聞!、て！/、る可能性があるので、同一会話集団と認めるものである。

[0050] 両端末共に発声区間が存在する場合には (ステップ S112で Yes)、それぞれの発声区間の重複率が 5%以内か否かを判定する (ステップ S113)。 5%以内と判定された場合 (ステップ S 113で Yes)、一方の端末の環境音として他方の端末の音声が混入して、る (ステップ S 115で Yes)、あるいは両端末ともに環境音として同一の第三者の音声が混入して、ると判定された場合には (ステップ S116で Yes)、自端末と該端末とは同一会話集団に属すると判定する (ステップ S117)。

[0051] ステップ S108、 111、 113、 115、 116でそれぞれ否定的な判定をされた場合には、本端末と該端末とは同一会話集団ではないと判定する (ステップ S118)。

該端末の端末 IDと判定結果とを対応付けて記憶し (ステップ SI 19)、 iが最後か否か判定し (ステップ S 120)、最後でないなら iを 1計数し (ステップ S 121)、ステップ S 1 06に移行する。 iが最後の場合には、同一会話集団検出処理を終了する。

<作成処理 > 図 15、 16は作成処理のフローを示す図である。ここでは、同一会話集団における発話者を撮影した画像をつなげ、一本のストリームを作成する処理について説明する。本フローチャートにおいて、 iは発話者に係る端末以外であって、同一会話集団における一つのウェアラブル端末を特定する変数であり、 jは一つの発話区間を特定する変数である。まず、同一会話集団に属すると判定された各ウェアラブル端末に画像情報の送信を要求する (ステップ S 201)。各ウェアラブル端末から画像情報を受信すると (ステップ S 202で Yes)、 jを初期化する (ステップ S203)。 jを初期化した後、該発話区間における発話者に係る端末を特定し (ステップ S204)、 iを初期化する (ステップ S205)。発話者端末と該端末とが同一方向を向いている力否かを判定する (ステツプ S206)。具体的には、両端末の方位情報により判定される。これは、両端末が異なる方向を向いているのであれば、対面している可能性が高ぐ良好な発話者画像を取得できる可能性があるからである。

[0052] 両端末が異なる方向を向いている場合には (ステップ S206で No)、両端末間の距離が 2m以上離れているか否かを判定する (ステップ S 207)。両端末間の距離が 2m 未満の場合には (ステップ S207で No)、間に障害物なく良好な画像を取得できる可能性が極めて高!、ので、該端末の画像をプロファイル作成のための候補画像として選択する（ステップ S 209)。両端末の距離が 2m以上の場合には (ステップ S 207で Y es)、両端末間に障害物がある力否かを判定する (ステップ S208)。具体的には障害物の有無は、同一会話集団内の該端末と発話者端末との間に第 3者端末が存在するかどうかを位置情報により判定するのに加えて、該端末で取得される画像を分析し、顔画像検出が可能である力否かにより判定される。顔検出が可能であれば障害物がないと判定する。障害物がないと判定されると (ステップ S208で No)、該端末の画像をプロファイル作成のための候補画像として選択する (ステップ S209)。

[0053] 発話者端末と該端末とが同一方向を向いていると判定された場合 (ステップ S206) 、あるいは該端末の画像を候補として選択した場合、 iが最後か否力判定する (ステツプ S210)。最後でない場合は、 iを 1計数し (ステップ S211)、ステップ S206に移行する。 iが最後の場合は、評価関数に基づき、選択された候補の中から最終的にどの画像を用いるかを決定する。ここで評価関数は、 F=f (d, r, snr)を用いる。ここで、 d は発話者の顔の角度であり、 rは両端末間の距離であり、 snrは画像の鮮明さである。 dは発話者端末と該端末の方位情報から算出され、正面に近いほど評価は高くなる。 rは発話者端末と該端末の位置情報から算出され、近いほど評価は高くなる。 snr はコントラストや SZN比など力も算出され、鮮明なほど評価は高くなる。

[0054] 次に、 jが最後か否力判定し (ステップ S213)、最後でない場合は、 jを 1計数し (ステツプ S214)、ステップ S 204に移行する。 jが最後の場合は、各画像に対応する区間の音声を取得し (ステップ S215)、各画像と音声とを組み合わせた映像を作成する (ステップ S216)。同一会話集団に属する各端末に作成した映像を送信する (ステップ S217)。各端末は映像を受信し、受信した映像を記録する。これ〖こより、同一会話集団で作成した映像を共有することができる。

<具体例 >

続いて、具体例について説明する。図 17は各発話者の発話のタイミングと、各発話時における発話者の画像をどの端末より取得するかを模式的に示した図である。第一段目に端末 100に係るユーザの発話タイミングを示す。第二段目に端末 100aに係るユーザの発話タイミングを示す。第三段目に端末 100cに係るユーザの発話タイミングを示す。第四段目に決定された画像取得端末 IDを示す。本図は時刻 tl〜t2、 t7〜t8において、端末 100cに係るユーザが発話しており、その際の前記ユーザの画像は端末 ID000の端末 (ウェアラブル端末 100)により取得された画像を用いることを示している。同様に、時刻 t3〜t4、 tl l〜tl2において、端末 100に係るユーザが発話しており、画像は端末 IDcccの端末 (ウェアラブル端末 100c)により取得された画像を用いることを示しており、時刻 t5〜t6、 t9〜tl0において、端末 100aに係るユーザが発話しており、画像は端末 IDeeeの端末 (ウェアラブル端末 100e)により取得された画像を用いることを示して、る。

[0055] 図 18は図 17に対応する図であり、各発話者の発話のタイミングと、画像取得対象となる端末の端末 IDと、取得画像との関係を示した図である。本図に示すテーブルを記録しておくことにより、あるシーンでの映像がどの端末から取得された映像なのかがわカゝる。

図 19は作成されたプロファイルを模式的に表した図である。ウェアラブル端末 100 で取得された音声と、各発話タイミングにおいて決定された画像取得端末により取得された画像とを組み合わせることにより、常に発話者を撮影したストリームを作成することができる。

[0056] 図 20はプロファイル情報の内部構成を示す図である。プロファイル情報はプレイリスト情報、音声ファイル、及び画像ファイルを含んで構成される。

プレイリストを定義するプレイリスト情報は、音声ファイルを示す音声ファイルリンク情報と、対応する画像ファイルを示す画像ファイルリンク情報と、再生開始時刻と、再生終了時刻とからなる。これにより、音声情報と複数の画像情報とをリンクさせることができる。

[0057] 音声ファイルは自端末の音声情報を格納して、るファイルである。

画像ファイルは同一会話集団に属するウェアラブル端末より取得した画像情報を格納して、るファイルである。

以上のように本実施の形態によれば、ゥヱアラブル端末 100がゥヱアラブル端末 10 0〜： LOOhの位置情報、方位情報、及び音声情報を取得し、取得したそれぞれの情報から同一会話集団に属するウェアラブル端末を検出する。図 3の例でいうと、ウェアラブル端末 100a〜100e (会話集団 1)を検出する。したがって、予めデータを取得するウェアラブル端末を登録しておく必要はない。また、ユーザの手を煩わせることなぐ会話集団 1に属するウエアラブル端末により撮影された画像や音声を用いて、常に発話者を撮影した映像を作成することができる。

(実施の形態 2)

実施の形態 1では、ウェアラブル端末 100がプロファイルに必要な画像を提供するウェアラブル端末を検出し、検出したウェアラブル端末力ゝら画像を取得し、取得した画像を用いてプロファイルの作成を実現する構成にっヽて説明した (P2P型の ad-hoc モード)。

[0058] これに対して、本実施の形態では、図 21に示すように、複数のウェアラブル端末を統括して管理し、制御する作成サーバが、効率的に画像や音声を共有する会話集団を決定し (会話集団 l〜k)、各会話集団に属するウエアラブル端末により取得された画像や音声を用いて、各会話集団ごとのプロファイルを作成し、作成したプロフアイルを通信により各会話集団に属するウェアラブル端末に送信する構成について説明する。（サーバ集中管理型の serverモード）

<通信シーケンス >

サーバ集中管理型における通信シーケンスについて説明する。基本的に図 7で説明した通信シーケンスと同様である。

<作成サーバの構成 >

続いて、作成サーバ 500の内部構成について説明する。図 22に作成サーバの機能ブロックを示す。作成サーバ 500は、通信部 510、同一会話集団検出部 520、発話タイミング抽出部 540、被写体検出部 550、撮影条件判定部 560、記録部 570、及び作成部 580を含んで構成される。

[0059] 通信部 510は、各ウェアラブル端末力も送信される方位情報と音声情報と、ロケ一シヨンサーバ 400から送信される各ウェアラブル端末の位置情報とを受信する。受信した方位情報、音声情報、位置情報を同一会話集団検出部 520に、音声情報を発話タイミング抽出部 540及び記録部 570に送出する。また、検出された同一会話集団に属するウェアラブル端末力画像情報を受信し、記録部 570に送出する。さらに作成されたプロファイルを各ウェアラブル端末に送信する。

[0060] 同一会話集団検出部 520は図 23に示すように、クラスタリング部 521、クラスタ内会話集団検出部 522、発話情報算出部 523、及び適合度算出部 524を含んで構成される。

クラスタリング部 521は通信部 510から各ウェアラブル端末の位置情報を受信し、受信した各ウェアラブル端末の位置情報に基づ、て、複数のウェアラブル端末を所定のクラスタ数 kOにクラスタリングする。クラスタリングの結果をクラスタ内会話集団検出部 522に送信する。ここでは、 k-meansを利用してクラスタリングする。具体的な処理フローについては後述する。

[0061] クラスタ内会話集団検出部 522はクラスタリング部 521からクラスタリングの結果を受信する。各クラスタ内において、各端末の音声情報から発話の重複度を算出し、算出した重複度と、位置情報と、方位情報とに応じて、同一会話集団を k個検出する。検出結果を発話情報算出部 523に送出する。発話情報算出部 523はクラスタ内会話集団検出部 522から同一会話集団の検出結果を受け取り、各会話集団内に属する発話者の発話情報 (発話時間率、話者交代頻度)を算出する機能を有する。発話時間率とは、ある個人が発話している時間が、会話を交わしている時間全体内で占める割合を指す。各話者について発話時間率を算出する。話者交代頻度とは、単位時間あたりに発生する、会話集団内で起こる話者交代の回数を指す。

[0062] さらに、これらの発話情報より、会話集団の会話活性度を算出し、算出した会話活性度を適合度算出部 524に送出する。会話活性度は、各話者の発話時間率が均等であるほど、また話者交代頻度が高いほど、会話が活性しているとして大きい値を取るように定義する。

適合度算出部 524はクラスタリング部 521から位置情報を、発話情報算出部 523から会話活性度、方位情報を受け取り、位置情報、方位情報から移動度情報を算出する。また、各クラスタ内で会話集団に属していない者がおり、なおかつ同一クラスタ内に複数会話集団が存在したとき、会話集団に属していない者に対し、各会話集団への会話集団適合度を算出する。会話集団適合度は、その者の位置情報と、方位情報と、移動度と、対象となる会話集団の会話活性度とから算出するものであり、会話集団との位置が近いほど、会話集団の方向を向いているほど、会話集団の方向へ向かって移動しているほど、会話手段の活性度が高いほど、適合度が高いとして大きい値を取るように定義する。この結果、会話集団に属していない者は、最も会話集団適合度の高い集団に属することになる。

[0063] 発話タイミング抽出部 540、被写体検出部 550、撮影条件判定部 560、作成部 58 0については、実施の形態 1で説明した発話タイミング抽出部 126、被写体検出部 12 9、撮影条件判定部 130、作成部 131と同様である。

記録部 570は通信部 510により受信された、各端末で取得された音声情報、画像情報を適宜記録する。また、作成部 580により作成されたプロファイルを記録する。 <ウェアラブル端末の構成 >

ウェアラブル端末 600の内部構成について説明する。図 24はウェアラブル端末 60 0の機能ブロックを示す図である。ウェアラブル端末は撮像部 601、収音部 602、方位検出部 603、通信部 604、記録部 605を含んで構成される。

撮像部 601、収音部 602、方位検出部 603は、実施の形態 1で説明した撮像部 12 1、収音部 122、方位検出部 125と同様である。

通信部 604は方位情報、音声情報を作成サーバ 500に送信し、また、作成サーバよりプロファイルを受信する。受信したプロファイルを記録部に 605に送出する。記録部 605は通信部 604より送出されたプロファイルを記録媒体に記録する。 <作成サーバの動作 >

図 25〜27を用いて、作成サーバ 500の処理フローについて説明する。まず、作成サーバ 500は各ウェアラブル端末に方位情報、音声情報の送信を要求する (ステツプ S301)。ロケーションサーノ OOに各ウェアラブル端末の位置情報の送信を要求する (ステップ S302)。方位情報、音声情報、及び音声情報を受信した場合には (ステツプ S303で Yes)、クラスタリング処理を行い (ステップ S304)、各端末を複数のクラスタに分類する。分類が終了すると、各クラスタにおいて、同一会話集団検出処理 2を行い (ステップ S305)、同一会話集団を検出する。各同一会話集団において、作成処理を行い（ステップ S306)、プロファイルを作成する。なお、作成処理については、実施の形態 1で説明した図 15、 16に示す作成処理と同様である。

<クラスタリング処理 >

続いて、クラスタリング処理について説明する。図 26はクラスタリング処理のフローを示す図である。本フローチャートにおいて、 iは一つの端末を示す変数であり、 jは一つのクラスタを示す変数であり、 nは端末数であり、 kはクラスタ数である。まず、各端末 xi (1= 1 · · ·η)に対してランダムにクラスタを割り振り（ステップ S401)、割り振られた端末をもとに各クラスタの中心 Vj (j = 1〜k)を計算する (ステップ S402)。計算には割り当てられた端末の各要素の平均 (重心）が使用される。 i、； jを初期化し (ステップ S 403)、該端末 xiと該クラスタの中心 Vjとの距離を算出する (ステップ S404)。 j =kである力否かを判定し (ステップ S405)、 j =kでない場合には、 jを 1計数し (ステップ S4 06)、ステップ S404に移行する。 j =kである場合には、ランダムに割り当てられたクラスタより、距離が近いクラスタがあるか否かを判定する (ステップ S407)。距離が近いクラスタがある場合には、該端末 xiを最も近い中心のクラスタに割り当て直す (ステツプ S408)。割り当て直した後、あるいはステップ S407で Noの場合、 i=nであるか否かを判定し (ステップ S409)、 i=nでない場合には、 iを 1計数し (ステップ S410)、ステツプ S404に移行する。上記の処理で全ての端末 xiのクラスタの割り当てが変化しな力つた場合は処理を終了する (ステップ S411で Yes)。それ以外の場合は新しく割り振られたクラスタ力もクラスタの中心 Vjを再計算して上記の処理を繰り返す (ステツプ S402に移行)。このように、位置が近い端末どうしをクラスタリングしていく。

<同一会話集団検出処理 2>

続いて、同一会話集団検出処理 2について説明する。図 27は同一会話集団検出処理 2のフローを示す図である。本フローチャートにおいて、 jは一つのクラスタを示す変数である。まず、各クラスタにおいて、各クラスタ内の各端末の音声情報から発話重複度を算出する (ステップ S501)。算出した発話重複度、位置情報、方位情報に基づき、同一会話集団を検出する (ステップ S502)。具体的には、各クラスタにおいて、該クラスタに属するウェアラブル端末の組合せに関し、図 13、 14におけるステツプ S106〜117の処理を行う。同一会話集団と判定されたウェアラブル端末のそれぞれが、相互に同一会話集団であると判定された場合に、前記ウェアラブル端末のそれぞれは同一会話集団となる。例えば、図 21の例でいうと、会話集団 1はウェアラブノレ端末 600と 600a、 600aと 600b、 600bと 600と力 ^それぞれ同一会話集団であると判定されていることと同義である。

次に、各会話集団ごとに発話情報を算出し (ステップ S503)、算出した発話情報に基づき、各会話集団の会話活性度を算出する (ステップ S504)。会話活性度の算出後、 jを初期化し (ステップ S505)、該クラスタ内で会話集団に属してない者がおり、かつ、該クラスタ内に複数の会話集団がある力否かを判定する (ステップ S506)。判定が肯定的な場合は、各会話集団への会話集団適合度を算出し (ステップ S507)、その中から最も会話集団適合度の高ヽ会話集団に帰属して、るものと判定する (ステツプ S508)。該クラスタ内で他に会話集団に属してない者力 ^、る力否かを判定する (ステツプ S509)。会話集団に属してない者力 ^、る場合には、ステップ S507に移行する。会話集団に属してない者がいない場合、あるいはステップ S506にて判定が否定の場合には、 jが最後か否かを判定する (ステップ S510)。 jが最後でない場合には、 jを 1計数し (ステップ S511)、ステップ S506に移行する。 jが最後の場合には、処理を終了する。

<同一会話集団検出処理 2の具体例 >

図 28 (a)は、ある時間における 21人の位置を俯瞰したときのマップである。本図には図示しないが、図 6と同様のシステムにより、各端末の位置情報は取得されるものとする。図 28 (b)は、クラスタリング部 521によるクラスタリングが行われた後の結果を示している。ここではクラスタ数は 3である。図 28 (c)は、各人の会話に対する積極性と、向きとを表している。図 28 (d)は、クラスタ内会話集団検出部 522により会話集団が検出されたあとの結果を示している。ここでは、クラスタ 1において、会話集団 1— 1、会話集団 1—2の二つの会話集団が検出されており、クラスタ 2において、会話集団 2 1、会話集団 2— 2の二つの会話集団が検出されており、クラスタ 3において、会話集団 3という一つの会話集団が検出されていることを示している。図 28 (e)は、最終的にすべての参加者力いずれかの会話集団に分けられた結果を示している。本図から会話集団 1 1、会話集団 1 2がそれぞれ拡張され、会話参加頻度の少ない人または会話不参加な人がそれぞれの会話集団に含まれていることがわかる。

以上のように本実施の形態によれば、作成サーバ 500が管理対象となるウェアラブル端末をクラスタに分類し、クラスタ毎に会話集団を決定し、各会話集団に属するゥエアラブル端末により取得された画像や音声を用いて、各会話集団ごとのプロフアイルを簡単に作成することができる。また、最初に位置情報により大まかにクラスタリングを行う方法を取ることで、一度に複数人数を扱う際、各会話集団を探すときの試行回数を減らすことができ、演算量も大きく削減することができる。

(実施の形態 3)

実施の形態 1、 2では、発話区間の重複度力同一会話集団に属するウェアラブル端末の検出を行ったが、発話区間の重複度のみを用いるだけでなぐさらに発話者のあいづちを検出し、それを同一会話集団検出処理に用いることもできる。本実施の形態は、あいづちを同一会話集団検出処理に用いる場合について説明する。ここでいうあいづちとは、「^ 」「ほう」「ふ一ん」などの母音の長音を含むものを指すこととする。あいづちは、このような母音の長音であることが多ぐかつそれ自体が 1つのフレーズであることが多い。そのため、例えばケプストラムや LPC係数など母音で特徴的な数値を示すパラメータを用いて母音検出を行ヽ、その継続時間が例えば 200[m sec]以上、 2[sec]以内という条件判定方法力あいづち検出を簡単に行うことができる。なお、あいづち検出方法はもちろんここに挙げた方法に限定するものではない。

[0067] 会話において、あいづちは相手の発話区間中に重複して挿入されることが多い。

例えば発話者 Aが発話中、それを聞いている次の発話者 Bがあいづちをうつ、というパターンである。このことから、発話者 A、 Bの会話が重複していて、かつ発話者 Bの発話区間の先頭で、なおかつ発話者 Bの発話があいづちであった場合、その発話は重複した区間とは見なさない、とすることで、発話重複時間を減らし、同一会話集団としての検出性能の向上が見込める。

[0068] また、発話者 Aの発話が終了するとき、発話者 Bがぁ、づちを相手の発話にかぶせ、さらに発話者 Bが単独で発話するというパターンも、よく存在する。これは、あいづちをつなぎとして会話を続ける会話テクニックである力このようなパターンが見られたとき、発話者 A、 Bは同一会話集団である可能性が極めて高いと判定することもできる。よってこのようなパターンが検出されたときには、例えば発話の重複度合いが 90〜9 5%であっても、同一会話集団であると判定するとしてもよい。

[0069] 以上のように本実施の形態によれば、あいづちを検出することにより同一会話集団の検出精度を高めることができる。

(補足）

以上、本発明に係るウェアラブル端末について、実施の形態に基づいて説明した力 S、本発明は上記の実施の形態に限られないことは勿論である。

[0070] 上記実施の形態では、各ウエアラブル端末の位置を検出する方法として、赤外線タグ及び赤外広角カメラを用いる方法を採用したが、これに限るものではない。例えば、 GPSを用いて位置検出を行ってもよいし、超音波を利用して位置検出を行ってもよいし、無線 LANを利用して位置検出を行ってもよいし、 RF— IDタグを利用して位置検出を行ってもよいし、これら以外の方法で位置検出を行ってもよい。また、例えば、 GPSを用いて位置検出を行う場合には、各ウェアラブル端末力ゝらそれぞれの位置情報を取得することになる。 [0071] 上記実施の形態では、ウェアラブル端末はカメラ型としたが、時計型、ペン型、メガネ型などであってもよい。

上記実施の形態では、図 1に示すようにウェアラブル端末を装着するとしたが、これに限定されるものではなぐ端末を胸にピンで留めたり、眼鏡状にしてそれをかけたり、ヘッドフォンのような形にしてそれを身につけたりするものであってもよい。

[0072] 上記実施の形態では、通信方式として無線 LANを用いた力 Bluetoothであってもよいし、他の通信方式を利用してもよい。画像、音声、位置、及び方位などの情報を伝達できるものであれば、無線通信、有線通信、 IP網を利用したパケット通信などいずれの形態でもよい。

上記実施の形態では、音声情報、位置情報、及び方位情報を用いて、同一会話集団の検出を行ったが、音声情報のみ力も同一会話集団の検出を行うとしてもよい。音声を取得できる範囲はおよそ数メートルであり、それ以上離れると音声を収音することはできないため、音声を収音できる力否かにより、ある程度の距離を推測することができる。すなわち、音声を収音できていない場合には、当該音声を発しているユーザに係るウェアラブル端末は同一会話集団とはみなさない。また、音声情報と位置情報とから同一会話集団の検出を行うとしてもよいし、音声情報と方位情報とから同一会話集団の検出を行うとしてもよい。

[0073] 上記実施の形態では、同一会話集団に属するウェアラブル端末を検出するとした力会話集団に限るものではない。例えば、ある場所において、興味対象を共有するウェアラブル端末を検出するとしてもよヽし、単純に位置が近ヽウェアラブル端末を検出するとしてもよい。

上記実施の形態では、ある発話者の発話タイミングにおいて、当該発話者の画像を取得する端末は評価関数により決められた一の端末であつたが、評価の高い複数の端末を決定し、それらにより取得された画像を組み合わせてプロファイルを作成するとしてもよい。これにより様々なアングル力もの映像を得ることができる。

[0074] 上記実施の形態では、作成部 131は常に発話者を撮影した映像をつなぎ合わせ、プロファイルを作成した力特定の人物のみを撮影した一本のストリームを作成してもよい。例えば、ウェアラブル端末 100のユーザに係る映像を作成する場合には、当該端末 100は発話タイミングを考慮することなぐ評価関数により選択された自身を撮影した画像と、当該端末 100により取得された音声とを組み合わせればよい。具体的には以下のフローのとおりである。

[0075] 図 29は作成処理 2のフローを示す図である。本フローチャートにおいて、 iは一つのウエアラブル端末を特定する変数である。まず、同一会話集団に属すると判定された各ウェアラブル端末に画像情報の送信を要求する (ステップ S601)。各ウェアラブル端末から画像情報を受信すると (ステップ S602で Yes)、 iを初期化する (ステップ S6 03)。 iを初期化した後、本端末と該端末とが同一方向を向いている力否かを判定する（ステップ S 604)。

[0076] 両端末が異なる方向を向いている場合には (ステップ S604で No)、両端末間の距離が 2m以上離れているか否かを判定する (ステップ S605)。両端末間の距離が 2m 未満の場合には（ステップ S605で No)、該端末の画像をプロファイル作成のための候補画像として選択する (ステップ S607)。両端末の距離が 2m以上の場合には (ステツプ S605で Yes)、両端末間に障害物がある力否かを判定する (ステップ S606)。障害物がないと判定されると (ステップ S606で No)、該端末の画像をプロファイル作成のための候補画像として選択する (ステップ S607)。

[0077] 本端末と該端末とが同一方向を向いていると判定された場合 (ステップ S604で Ye s)、両端末間に障害物があると判定された場合 (ステップ S606で Yes)、あるいはステツプ S607の処理の後、 iが最後か否力判定する (ステップ S608)。最後でない場合は、 iを 1計数し (ステップ S609)、ステップ S604に移行する。 iが最後の場合は、評価関数に基づき、選択された候補の中から最終的にどの画像を用いるかを決定する。そして画像に対応する区間の音声を取得し (ステップ S611)、画像と音声とを組み合わせた映像を作成する (ステップ S612)。

[0078] 上記実施の形態では、評価関数に基づき、プロファイルに用いる画像を選択したが、近、ものから順次選択して、くと!/、う単純な方法を用いてもょ、。

上記実施の形態では、障害物の有無は同一会話集団内の該端末と発話者端末との間に第 3者端末が存在するかどうかを位置情報により判定するのに加えて、該端末で取得される画像を分析し、顔画像検出が可能であれば障害物がな!ヽと判定する方法としたが、さらに、検出された顔画像と、本端末と該端末とがなす方向ベクトルとが整合が取れる力否かを判定し、整合が取れれば障害物がないものと判定するとしてもよい。

[0079] 上記実施の形態では、評価関数を F=f (d, p, snr)としたが、これに限るものではなぐ同一画面を継続的に選択することによる冗長さ (継続選択しているほど冗長で悪い)を評価の対象としてもよい。この冗長さは時間的な長さから算出される。

上記実施の形態では、図 13のステップ S111にて、位置及び方位の変更量が同一の場合に、同一方向に移動していると判定したが、自端末の位置及び方位の変更量と該端末の位置及び方位の変更量が所定の範囲内の場合に、同一方向に移動していると判定してもよい。

[0080] 上記実施の形態では、同一会話集団に属するウェアラブル端末力画像情報を取得し、プロファイルを作成するとした力音声情報を取得してもよいし、会話に関するログを取得してもよい。例えば、ウェアラブル端末 100でムービー撮影を行う場合には、当該端末で収音した音声に、同一会話集団内であるが少し離れた位置にいる人の発話音声があまり入っていない場合があるが、その発話者に係る端末により収音された音声を用いることにより、クリアな音声を記録することができる。また、互いの会話のログ用いることにより、クリアな会話を記録することができる。

[0081] また、同一会話集団に属するウェアラブル端末力データ (画像、音声、ログ等)を取得するのは、リアルタイムでなくてもよい。

上記実施の形態では、会話集団検出処理はある一定間隔ごとに実施するとしたが、各ウェアラブル端末の位置情報に変化があらわれたときにそのつど実施するようにしてもよい。また、位置情報に変化があった場合には、共有する映像はウェアラブル端末に係るユーザが属する会話集団に則して提供されるべきである。例えば、図 2において、ウェアラブル端末 100bのユーザは、会話集団 1にとどまっていた期間までの会話映像を取得し、その後加わった会話集団 2の会話映像は、加わった時間以後のものを取得できるようにすればよい。なお、途中で会話に加わった場合、往々にしてそれまでの会話集団の会話内容をキャッチアップした、場合も考えられるので、その場合には、ウェアラブル端末は会話集団において過去にされた会話の内容を短時間再生するような仕組みを備えるとしても良い。

[0082] 上記実施の形態 1では、同一会話集団を構成する端末の端末 IDに、音声と、画像と、時刻とを関連付けて記録したが、図 30に示すように、各端末の方位情報、位置情報、各端末により取得された音声なども、合わせて記録するようにしてもよい。これにより、撮影された映像の方位や位置が記録として残るので、例えば方位情報を使って逆光の有無を判別したり、位置情報力どこで記録されたものかを自動的に記録するようにしたりすることちでさる。

[0083] 上記実施の形態 1では、ウェアラブル端末 100が同一会話集団に属するウェアラブル端末の検出とプロファイルの作成とを行った力ウェアラブル端末 100は前記ゥェアラブル端末の検出を行ヽ、プロファイルの作成を行うサーバを別途含む構成としてちょい。

上記実施の形態 1では、ウェアラブル端末 100が同一会話集団検出処理、及びプ口ファイル作成処理を行った力例えば会話開始にあたって、最初に発話した者が装着する端末が、同一会話集団検出処理やプロファイル作成処理を、会話メンバーを代表して行うとしてもよい。また、同一会話集団検出処理までは、各端末個別にそれぞれ決められた一定間隔ごとに常に実施し、プロファイル作成処理については、最初に発話した者が装着する端末が代表してその処理を行うとしてもよいし、会話メンバ一中の任意のある 1つの端末が代表して処理を行うとしてもよいし、発話時間の長、端末が代表して処理を行うものであってもよ、。

[0084] 上記実施の形態 2では、位置情報に基づヽてクラスタリングするとしたが、各端末の方位情報を用いて、向いている方向にその人物の重心位置をずらしたり、あるいは移動度情報を用いて、その人物の向かって、る方向にその人物の重心位置をずらしたりして、集団全体の位置重心に影響を与えるようにしてもよい。また、クラスタ数 kOは検出された参加人数に応じて変えてもよぐ例えば、参加人数が多いほど、クラスタ数 kOを多くするとしてもよい。

[0085] 上記実施の形態 2では、発話をしていない者であっても、適合度を求めることにより、何れかの会話集団に属するようにした力まったく発話していない者については、図 28 (e)のように、無理にどこかの会話集団に属すると判定する必要はなぐ図 28 (d )で判定をとどめてもよい。

また、同一会話集団であるかどうかについては、上記実施の形態 1、 2で説明した同一会話集団検出処理に限らず、発話の重複度が少ないほど、位置が近いほど、また向き合っているものほど同一会話集団と判断するような方法であればよい。

[0086] 上記実施の形態 2では、作成サーバ 500により作成されたプロファイルをウェアラブル端末に送信し、送信されたプロファイルを受信したウェアラブル端末がそれを記憶する構成としたが、ウェアラブル端末は映像再生部を備え、作成サーバはストリーミングによりプロファイルを送出するとしてもよい。また、ウェアラブル端末がビューヮを兼ねない場合には、単なるセンサ端末としてもよい。

[0087] 上記実施の形態では、音声の重複度を用いて同一会話集団を検出したが、収音部により取得した音声情報を用いて音声認識を行い、認識した文字情報と、通信部により取得した他の端末の音声認識結果である文字情報とから、同一会話集団を検出するとしてもよい。例えば、それぞれの文字情報にキーワードが一定頻度以上で含まれる場合には、同一会話集団であるとするとしてもよヽ。

[0088] 上記実施の形態では、図 2に示すように、様々な人物が思い思いに会話している場合の端末配置例 (パーティ型の端末配置）について説明したが、本発明は、 1人の人物に対し大勢の人物が対面し会話して!/、る場合の端末配置（学校型)や、 1つの物に対し大勢の人物が並んで鑑賞しつつ会話して、る場合の端末配置 (鑑賞型)であつても適用できる。

上記実施の形態では、実施の形態 2のサーバ集中管理型の場合に、サーバ装置力 Sクラスタリング処理を行うとした力実施の形態 1の P2P型の ad-hocモードの場合であっても、ウェアラブル端末力 Sクラスタリング処理を行うとしてもよい。

産業上の利用可能性

[0089] 本発明は、近傍に存在する複数人がそれぞれウェアラブル端末を装着している状況において有用である。

Claims

請求の範囲

[1] 複数人が参加する行事において、当該行事に参加する人物が身に付けるウェアラブル端末であって、

所定範囲内に存在する複数のウェアラブル端末に対して要求信号を送信して、要求信号に対するレスポンスを受信する要求手段と、

受信されたレスポンスに基づき、通信相手となる 1以上のウェアラブル端末を決定して、決定したウェアラブル端末とのデータ通信を実行する通信手段とを備え、前記データは、

通信相手として決定されたウェアラブル端末により収集されたデータであり、前記行事のプロファイルを作成するにあたって、当該プロファイルの構成要素となる、ことを特徴とするウェアラブル端末。

[2] 前記通信手段は前記複数のウェアラブル端末のそれぞれにつ、て、受信されたレスポンスに基づき、自端末と同一の会話集団に属するウェアラブル端末であるカゝ否かを判定し、同一の会話集団に属すると判定したウェアラブル端末を通信相手として決定する

請求項 1記載のウェアラブル端末。

[3] 前記レスポンスは、

要求信号を受け取った各ウェアラブル端末で取得された音声情報を含み、前記通信手段は、受信された各ウェアラブル端末の音声情報における発声区間と自端末の音声情報における発声区間との重複率を算出する重複率算出手段を含み自端末と同一の会話集団に属すると判定されるウェアラブル端末は、前記複数のゥアラブル端末のうち、自端末の音声情報における発声区間との重複率が所定の閾値以内となるウェアラブル端末である

請求項 2記載のウェアラブル端末。

[4] 前記音声情報における発声区間は、所定期間母音が継続している部分である、会話におけるぁ、づちを含み、

前記重複率算出手段は、前記あいづちの区間を除いて重複率を算出する請求項 3記載のウェアラブル端末。

[5] 前記レスポンスは、

要求信号を受け取った各ウェアラブル端末の位置情報を含み、

前記通信手段は、受信された各ゥアラブル端末の位置情報と自端末の位置情報とから、該ウェアラブル端末と自端末との距離をそれぞれ算出する距離算出手段を含み、

自端末と同一の会話集団に属すると判定されるウェアラブル端末は、前記複数のゥエアラブル端末のうち、自端末との距離が所定の閾値以内となるウェアラブル端末である

請求項 3記載のウェアラブル端末。

[6] 前記レスポンスは、

要求信号を受け取った各ゥヱアラブル端末の方位情報を含み、

前記通信手段は、受信された各ウェアラブル端末の方位情報から、所定時間当たりの方位情報の変化量を算出する方位変更量算出手段を含み、

自端末と同一の会話集団に属すると判定されるウェアラブル端末は、前記複数のゥエアラブル端末のうち、自端末の方位変更量との差が所定の範囲内となるウェアラブル端末である

請求項 5記載のウェアラブル端末。

[7] 前記行事のプロファイルの作成は、自端末により行われ、

前記通信手段は、作成されたプロファイルを前記 1以上のウェアラブル端末に送信する

請求項 2記載のウェアラブル端末。

[8] 前記収集されたデータは画像であり、

前記プロファイルは、前記決定されたウェアラブル端末において、各発話者に係るウェアラブル端末と、当該発話者の画像を撮影したウェアラブル端末との組に基づき作成される

請求項 7記載のウェアラブル端末。

[9] 前記プロファイルは、前記決定されたウェアラブル端末のうち、発話者に係るウェアラブル端末により収音された音声を用いて作成される

請求項 7記載のウェアラブル端末。

[10] 前記ウエアラブル端末は、前記決定したウエアラブル端末に関するデータを記録する記録手段を備える

請求項 2記載のウェアラブル端末。

[11] 所定範囲内に存在する複数のウェアラブル端末に対して要求信号を送信して、要求信号に対するレスポンスを受信する要求ステップと、

受信されたレスポンスに基づき、通信相手となる 1以上のウェアラブル端末を決定して、決定したウェアラブル端末とのデータ通信を実行する通信ステップとを備え、前記データは、

通信相手として決定されたウェアラブル端末により収集されたデータであり、前記行事のプロファイルを作成するにあたって、当該プロファイルの構成要素となる、ことを特徴とする方法。

[12] 所定範囲内に存在する複数のウェアラブル端末に対して要求信号を送信して、要求信号に対するレスポンスを受信する要求ステップと、

受信されたレスポンスに基づき、通信相手となる 1以上のウェアラブル端末を決定して、決定したウェアラブル端末とのデータ通信を実行する通信ステップとからなる手順をコンピュータに行わせ、

前記データは、

通信相手として決定されたウェアラブル端末により収集されたデータであり、前記行事のプロファイルを作成するにあたって、当該プロファイルの構成要素となる、ことを特徴とするコンピュータ読み取り可能なプログラム。

[13] 複数人が参加する行事において、当該行事に参加する人物が身に付けるウェアラブル端末とデータ通信を行うサーバ装置であって、

所定範囲内に存在するウェアラブル端末に対して要求信号を送信して、要求信号に対するレスポンスを受信する要求手段と、

受信されたレスポンスに基づき、通信相手となる 1以上のウェアラブル端末を決定して、決定したウェアラブル端末とのデータ通信を実行する通信手段とを備え、前記通信相手として決定されたウェアラブル端末により収集されたデータを用いて、前記行事のプロファイルを作成する作成手段と、

作成されたプロファイルを前記 1以上のウェアラブル端末に送信する送信手段とを備えることを特徴とするサーバ装置。

前記サーバ装置は、前記複数のウェアラブル端末の位置を示す位置情報を取得し、取得した位置情報に基づ、て前記複数のウェアラブル端末を複数のクラスタにクラスタリングするクラスタリング手段を含み、

前記通信手段による前記通信相手となる 1以上のウェアラブル端末の決定は、各クラスタごとに行われる

請求項 13記載のサーバ装置。