JP2018157314A

JP2018157314A - 情報処理システム、情報処理方法及びプログラム

Info

Publication number: JP2018157314A
Application number: JP2017051242A
Authority: JP
Inventors: 誠庄原; Makoto Shohara
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2017-03-16
Filing date: 2017-03-16
Publication date: 2018-10-04

Abstract

【課題】画像に合わせた音声を出力して、臨場感を高めることを目的とする。【解決手段】複数の画像を撮影する撮影装置と接続される情報処理装置を有する情報処理システムは、複数の音声を入力する音声入力部と、前記複数の画像に基づいて、表示画像を出力する画像出力部と、前記表示画像に出力される所定領域を設定する設定部と、前記所定領域に基づいて、前記音声入力部に入力された複数の音声を変換する第１の変換部と、前記第１の変換部で変換された複数の音声を出力する音声出力部とを備えることで上記課題を解決する。【選択図】図１

Description

本発明は、情報処理システム、情報処理方法及びプログラムに関する。

従来、広い範囲を示す画像、いわゆるパノラマ画像を表示する方法が知られている。

例えば、画像処理システムが、まず、対象となる画像を３次元形状に貼り付け、３次元モデルを生成する。次に、画像処理システムが、入力値に基づいて、視点の位置及び視野角を決定する。そして、視点の位置及び視野角の決定では、画像処理システムは、入力値に基づいて、視野角を優先的に変化させるか、又は、視点の位置を優先的に変化させるかを決定する。このようにして、広い視野領域において、被写体が引き伸ばされる表示等の違和感のある画像が表示されるのを少なくする方法が知られている（例えば、特許文献１等）。

しかしながら、従来の方法では、画像に合わせた音声が出力されず、臨場感が足りない課題がある。

本発明は、画像に合わせた音声を出力して、臨場感を高めることを目的とする。

上述した課題を解決するために、本発明の一態様における、複数の画像を撮影する撮影装置と接続される情報処理装置を有する情報処理システムは、
複数の音声を入力する音声入力部と、
前記複数の画像に基づいて、表示画像を出力する画像出力部と、
前記表示画像に出力される所定領域を設定する設定部と、
前記所定領域に基づいて、前記音声入力部に入力された複数の音声を変換する第１の変換部と、
前記第１の変換部で変換された複数の音声を出力する音声出力部と
を備える。

画像に合わせた音声を出力して、臨場感を高めることができる。

本発明の一実施形態に係る情報処理システムの全体構成の一例を説明する図である。本発明の一実施形態に係る撮影装置の一例を説明する図である。本発明の一実施形態に係る撮影装置によって撮影された画像の一例を説明する図である。本発明の一実施形態に係る撮影装置のハードウェア構成の一例を説明するブロック図である。本発明の一実施形態に係る情報処理装置のハードウェア構成の一例を説明するブロック図である。本発明の一実施形態に係る情報処理システムによる全体処理の一例を説明するシーケンス図である。本発明の一実施形態に係る全天球画像の一例を説明する図である。本発明の一実施形態に係る全天球パノラマ画像の一例を説明する図である。本発明の一実施形態に係る初期画像の一例を説明するための図である。本発明の一実施形態に係る別のズーム処理の一例を説明するための図である。本発明の一実施形態に係る別のズーム処理の一例を説明するための表である。本発明の一実施形態に係る別のズーム処理の「範囲」の一例を説明するための図である。本発明の一実施形態に係る仮想スピーカの配置例を示す模式図である。本発明の一実施形態に係る仮想スピーカの配置を変更した第１例を示す模式図である。本発明の一実施形態に係る仮想スピーカの配置の第２例を示す模式図である。本発明の一実施形態に係る仮想スピーカの配置の第３例を示す模式図である。本発明の一実施形態に係る仮想スピーカの配置の第４例を示す模式図である。本発明の一実施形態に係る仮想スピーカの配置の第５例を示す模式図である。本発明の一実施形態に係る情報処理システムの機能構成例を示す機能ブロック図である。

以下、本発明の実施の形態について説明する。なお、本発明の実施の形態の音声とは、人が発する声に限らず、音楽、機械音、動作音、その他空気の振動によって伝搬する音を総称したものとして参照する。

＜情報処理システムの全体構成例＞
図１は、本発明の一実施形態に係る情報処理システムの全体構成の一例を説明する図である。情報処理システム１０は、撮影装置１と、情報処理装置の例であるスマートフォン２とを有する。

撮影装置１は、少なくとも複数の光学系を有するカメラ等である。例えば、撮影装置１は、複数の光学系を用いて撮影した複数の画像に基づいて、全方位等の広い範囲を示す画像（以下「全天球画像」という。）を生成する。次に、撮影装置１は、全天球画像等をスマートフォン２に送信する。そして、スマートフォン２は、送信される画像を画像処理して表示画像を出力する。以下、入力される画像として、第１画像が全天球画像である例で説明する。なお、パノラマ画像は、例えば、全天球画像である。

また、この例では、撮影装置１及びスマートフォン２は、有線又は無線で接続される。そして、スマートフォン２は、全天球画像等のデータを撮影装置１からダウンロードする。なお、接続は、ネットワーク等を介してもよい。なお、情報処理システム１０は、複数の光学系を用いて撮影した複数の画像を撮影装置１からスマートフォン２に送信し、スマートフォン２で複数の画像を合成し、全天球画像を生成してもよい。

さらに、全体構成は、図１に示す構成に限られない。例えば、撮影装置１及びスマートフォン２は、一体の装置であってもよい。このほか、情報処理装置は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）又はタブレット等でもよい。また、情報処理システム１０は、撮影装置１及びスマートフォン２以外に、更に撮影装置又は情報処理装置等を有してもよい。

＜撮影装置例＞
図２は、本発明の一実施形態に係る撮影装置の一例を説明する図である。具体的には、図２（ａ）は、撮影装置１の正面図の一例である。また、図２（ｂ）は、撮影装置１の左側面図の一例である。さらに、図２（ｃ）は、撮影装置１の平面図の一例である。

そして、撮影装置１は、前面撮影素子１Ｈ１と、後面撮影素子１Ｈ２と、スイッチ１Ｈ３とを有する。この例では、前面撮影素子１Ｈ１及び後面撮影素子１Ｈ２等の光学系が、撮影に用いられる。そして、それぞれの光学系を用いて撮影されたそれぞれの画像に基づいて、撮影装置１は、全天球画像を生成する。

さらに、撮影装置１は、複数箇所にマイクロフォンを有する。例えば、撮影装置１には、マイクロフォンが４個配置される。撮影装置１は、４箇所で撮影装置１の周囲の音を収音し、音の信号が撮影装置１に入力される。

具体的には、図２では、撮影装置１の前面側に、マイクロフォン１ＨＭ１、マイクロフォン１ＨＭ２及びマイクロフォン１ＨＭ３が配置される。さらに、撮影装置１の後面側に、マイクロフォン１ＨＭ４が配置される。なお、マイクロフォンの数及び配置される位置は、図２に示す配置に限られない。マイクロフォンは、複数であればより臨場感のある音を出力できる。ただし、マイクロフォンの数は、４個以上、すなわち、音声を入力する箇所は、４箇所以上であるのが望ましい。

マイクロフォンは、指向性マイクロフォンであってもよいし、無指向性マイクロフォンであってもよい。指向性マイクロフォンを用いた場合には、撮影装置１は、各マイクロフォンによって、特定の方向の音を取得することができる。一方で、無指向性マイクロフォンを用いた場合には、撮影装置１は、各マイクロフォンのキャリブレーションを容易に行うことができる。さらに、マイクロフォンは、指向性マイクロフォンと、無指向性マイクロフォンとの組み合わせでもよい。マイクロフォンのうち、少なくとも１つが無指向性であると、キャリブレーションを容易に行うことができると共に、安価で、個体ばらつきが少なくなる。

また、スイッチ１Ｈ３は、シャッタボタンである。スイッチ１Ｈ３は、ユーザが撮影装置１に対して撮影の指示を行うための入力装置の例である。

図２（ａ）のように、スイッチ１Ｈ３がユーザによって押されると、シャッタを切る制御が行われ、撮影装置１は、撮影を行う。このほか、情報処理システム１０は、スマートフォン２等の情報処理装置から、遠隔でシャッタを切る操作が入力される構成でもよい。そして、前面撮影素子１Ｈ１と、後面撮影素子１Ｈ２とによって、撮影装置１の全方位が撮影される。

図３は、本発明の一実施形態に係る撮影装置によって撮影された画像の一例を説明する図である。具体的には、図３（ａ）は、前面撮影素子１Ｈ１によって撮影される画像の一例である。一方で、図３（ｂ）は、後面撮影素子１Ｈ２によって撮影される画像の一例である。

そして、図３（ｃ）は、図３（ａ）の前面撮影素子１Ｈ１によって撮影される画像と、図３（ｂ）の後面撮影素子１Ｈ２によって撮影される画像とに基づいて生成される画像の一例である。

まず、前面撮影素子１Ｈ１によって撮影される画像は、撮影装置１の前方側の広い範囲、例えば、画角で１８０°以上の範囲を撮影範囲とする画像である。同様に、後面撮影素子１Ｈ２によって撮影される画像は、撮影装置１が撮影する範囲のうち、後方側の広い範囲、例えば、画角で１８０°の範囲を撮影範囲とする画像である。光学系として、魚眼レンズを用いる場合、歪曲収差を有する場合が多い。すなわち、図３（ａ）及び図３（ｂ）の画像は、それぞれ撮影装置１が撮影する範囲のうち、一方（この例では、前方側である。）及び他方（この例では、後方側である。）の広い範囲を示し、それぞれ半球画像（以下「半球画像」という。）である。

なお、各光学系のそれぞれの画角は、１８０°以上かつ２００°以下の範囲が望ましい。特に、各画角が１８０°以上を超えると、各半球画像と半球画像を合成する際、重畳する画像領域があるため、撮影装置は、視差がある場合にも全天球画像を生成できる。

次に、撮影装置１は、歪補正処理及び合成処理等の処理を行い、図３（ａ）に示す前方側の半球画像と、図３（ｂ）の後方側の半球画像とに基づいて、図３（ｃ）の画像を生成する。すなわち、図３（ｃ）の画像は、いわゆるメルカトル（Ｍｅｒｃａｔｏｒ）図法又は正距円筒図法等の方法で生成される画像、すなわち、全天球画像の例である。撮影装置１から半球画像を情報処理装置に送信し、情報処理装置で全天球画像を生成してもよい。

なお、第１画像は、撮影装置１によって生成される画像に限られない。例えば、第１画像は、他のカメラ等で撮影される画像又は他のカメラで撮影される画像に基づいて生成された画像でもよい。なお、第１画像は、全方位カメラ又はいわゆる広角レンズのカメラ等によって、広い視野角の範囲を撮影した画像であるのが望ましい。

また、以下の説明では、第１画像は、全天球画像を例に説明するが、第１画像は、全天球画像に限られない。例えば、第１画像は、コンパクトカメラ、一眼レフカメラ又はスマートフォン等で撮影された画像でもよい。なお、画像は、水平又は垂直に伸びるパノラマ画像等でもよい。

＜撮影装置のハードウェア構成例＞
図４は、本発明の一実施形態に係る撮影装置のハードウェア構成の一例を説明するブロック図である。撮影装置１は、撮影ユニット１Ｈ４と、画像処理ユニット１Ｈ７、撮影制御ユニット１Ｈ８と、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１Ｈ９と、ＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）１Ｈ１０とを有する。また、撮影装置１は、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１Ｈ１１と、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１Ｈ１２と、操作Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）１Ｈ１３とを有する。さらに、撮影装置１は、ネットワークＩ／Ｆ１Ｈ１４と、無線Ｉ／Ｆ１Ｈ１５と、アンテナ１Ｈ１６とを有する。

さらに撮影装置１は、マイクロフォン１ＨＭ１、１ＨＭ２、１ＨＭ３及び１ＨＭ４を有する。これらのマイクロフォンによって、撮影装置１は、複数箇所にて音声を入力する。

撮影装置１は、姿勢センサ１Ｈ１８を有するのが望ましい。

また、撮影装置１が有する各ハードウェアは、バス１Ｈ１７で接続され、バス１Ｈ１７を介してデータ又は信号を入出力する。

撮影ユニット１Ｈ４は、前面撮影素子１Ｈ１と、後面撮影素子１Ｈ２とを有する。また、前面撮影素子１Ｈ１に対応してレンズ１Ｈ５、後面撮影素子１Ｈ２に対応してレンズ１Ｈ６がそれぞれ設置される。レンズ１Ｈ５と、レンズ１Ｈ６は、魚眼レンズや広角レンズであることが好ましい。

前面撮影素子１Ｈ１及び後面撮影素子１Ｈ２は、いわゆるカメラユニットである。具体的には、前面撮影素子１Ｈ１及び後面撮影素子１Ｈ２は、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）又はＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）等の光学センサをそれぞれ有する。そして、前面撮影素子１Ｈ１は、レンズ１Ｈ５を通して入射する光を変換し、半球画像等を示す画像データを生成する。同様に、後面撮影素子１Ｈ２は、レンズ１Ｈ６を通して入射する光を変換し、半球画像等を示す画像データを生成する。

次に、撮影ユニット１Ｈ４は、前面撮影素子１Ｈ１及び後面撮影素子１Ｈ２が生成するそれぞれの画像データを画像処理ユニット１Ｈ７へ出力する。なお、出力される画像データは、例えば、図３（ａ）の前方の半球画像及び図３（ｂ）の後方の半球画像等である。

さらに、前面撮影素子１Ｈ１及び後面撮影素子１Ｈ２は、高画質の撮影を行うため、絞り又はローパスフィルタ等の他の光学要素を更に有してもよい。また、前面撮影素子１Ｈ１及び後面撮影素子１Ｈ２は、高画質の撮影を行うために、欠陥画素補正又は手振れ補正等を行ってもよい。

画像処理ユニット１Ｈ７は、撮影ユニット１Ｈ４から入力される画像データに基づいて、図３（ｃ）の全天球画像を生成する。

撮影制御ユニット１Ｈ８は、撮影装置１が有するハードウェアを制御する制御装置である。

ＣＰＵ１Ｈ９は、各処理を実現するための演算及びデータの加工を行う演算装置並びにハードウェアの制御を行う制御装置である。例えば、ＣＰＵ１Ｈ９は、あらかじめインストールされるプログラムに基づいて、各処理を実行する。

ＲＯＭ１Ｈ１０、ＳＲＡＭ１Ｈ１１及びＤＲＡＭ１Ｈ１２は、記憶装置の例である。例えば、ＲＯＭ１Ｈ１０は、ＣＰＵ１Ｈ９に処理を実行させるためのプログラム、データ又はパラメータ等を記憶する。また、ＳＲＡＭ１Ｈ１１及びＤＲＡＭ１Ｈ１２は、ＣＰＵ１Ｈ９がプログラムに基づいて処理を実行するのに用いられるプログラム、プログラムが使用するデータ、プログラムが生成するデータ等を記憶する。なお、撮影装置１は、ハードディスク等の補助記憶装置を更に有してもよい。

操作Ｉ／Ｆ１Ｈ１３は、スイッチ１Ｈ３等の入力装置と接続され、撮影装置１に対するユーザの操作を入力する処理を行うインタフェースである。例えば、操作Ｉ／Ｆ１Ｈ１３は、スイッチ等の入力装置、入力装置を接続するためのコネクタ、ケーブル、入力装置から入力される信号を処理する回路、ドライバ及び制御装置等である。なお、操作Ｉ／Ｆ１Ｈ１３は、ディスプレイ等の出力装置を更に有してもよい。また、操作Ｉ／Ｆ１Ｈ１３は、入力装置と、出力装置とが一体となったいわゆるタッチパネル等でもよい。さらに、操作Ｉ／Ｆ１Ｈ１３は、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）等のインタフェースを有し、フラッシュメモリ等の記録媒体を撮影装置１に接続してもよい。これによって、操作Ｉ／Ｆ１Ｈ１３は、撮影装置１から記録媒体にデータを入出力してもよい。

なお、スイッチ１Ｈ３は、シャッタに係る操作以外の操作を行うための電源スイッチ及びパラメータ入力スイッチ等でもよい。

ネットワークＩ／Ｆ１Ｈ１４、無線Ｉ／Ｆ１Ｈ１５及びアンテナ１Ｈ１６は、無線又は有線で、外部装置と撮影装置１を接続させる。例えば、撮影装置１は、ネットワークＩ／Ｆ１Ｈ１４によって、ネットワークに接続し、スマートフォン２へデータを送信する。なお、ネットワークＩ／Ｆ１Ｈ１４、無線Ｉ／Ｆ１Ｈ１５及びアンテナ１Ｈ１６は、ＵＳＢ等の有線で他の外部装置と接続するハードウェアでもよい。すなわちネットワークＩ／Ｆ１Ｈ１４、無線Ｉ／Ｆ１Ｈ１５及びアンテナ１Ｈ１６は、コネクタ及びケーブル等でもよい。

バス１Ｈ１７は、撮影装置１が有するハードウェア間で、データ等を入出力するのに用いられる。すなわち、バス１Ｈ１７は、いわゆる内部バスである。例えば、バス１Ｈ１７は、ＰＣＩＥｘｐｒｅｓｓ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔＢｕｓＥｘｐｒｅｓｓ）等である。

姿勢センサ１Ｈ１８は、撮影装置１の姿勢を検知する。例えば、姿勢センサ１Ｈ１８は、３軸加速度センサ又は角速度センサ等で、複数のセンサの組み合わせでもよい。

なお、撮影装置１は、撮影素子が２つである場合に限られない。例えば、３つ以上の撮影素子を有してもよい。さらに、撮影装置１は、１つの撮影素子の撮影角度を変えて、複数の部分画像を撮影してもよい。

なお、撮影装置１が行う処理は、他の装置が行ってもよい。例えば、処理の一部又は全部は、撮影装置１がデータ及びパラメータ等を送信し、スマートフォン２又はネットワークで接続される他の情報処理装置が行ってもよい。また、情報処理システム１０は、複数の情報処理装置を有し、処理を分散、冗長又は並列に行ってもよい。

＜情報処理装置のハードウェア構成例＞
図５は、本発明の一実施形態に係る情報処理装置のハードウェア構成の一例を説明するブロック図である。情報処理装置の一例であるスマートフォン２は、補助記憶装置２Ｈ１と、主記憶装置２Ｈ２と、入出力装置２Ｈ３と、状態センサ２Ｈ４と、ＣＰＵ２Ｈ５と、ネットワークＩ／Ｆ２Ｈ６とを有する。さらに、スマートフォン２は、スピーカ２ＨＳ１及びスピーカ２ＨＳ２を有する。

また、スマートフォン２が有するハードウェアは、バス２Ｈ７で接続され、バス２Ｈ７を介してデータ又は信号を入出力する。

補助記憶装置２Ｈ１は、データ、パラメータ又はプログラム等を記憶する。具体的には、補助記憶装置２Ｈ１は、例えば、ハードディスク、フラッシュＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等である。なお、補助記憶装置２Ｈ１が記憶するデータは、ネットワークＩ／Ｆ２Ｈ６で接続されるファイルサーバ等が一部又は全部を冗長又は代わりに記憶してもよい。

主記憶装置２Ｈ２は、処理を実行するためのプログラムが使用する記憶領域となる、いわゆるメモリ（Ｍｅｍｏｒｙ）等である。すなわち、主記憶装置２Ｈ２は、データ、プログラム又はパラメータ等を記憶する。例えば、主記憶装置２Ｈ２は、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＤＲＡＭ等である。なお、主記憶装置２Ｈ２は、記憶及び取出を行う制御装置を更に有してもよい。

入出力装置２Ｈ３は、画像又は処理結果等を表示する出力装置及びユーザによる操作を入力する入力装置である。具体的には、入出力装置２Ｈ３は、いわゆるタッチパネル、周辺回路及びドライバ等である。そして、入出力装置２Ｈ３は、例えば、所定のＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）及び画像処理された画像等をユーザに表示する。一方で、入出力装置２Ｈ３は、例えば、表示されるＧＵＩ又は画像をユーザが操作すると、ユーザによる操作を入力する。

状態センサ２Ｈ４は、スマートフォン２の状態を検出するセンサである。具体的には、状態センサ２Ｈ４は、ジャイロ（ｇｙｒｏ）センサ、３軸加速度センサ等である。例えば、状態センサ２Ｈ４は、スマートフォン２が有する辺のうち、一辺が水平に対して所定の角度以上であるか否かを判定する。すなわち、状態センサ２Ｈ４は、スマートフォン２が縦方向の姿勢の状態であるか横方向の姿勢の状態であるかを検出する。

ＣＰＵ２Ｈ５は、各処理を実現するための演算及びデータの加工を行う演算装置並びにハードウェアの制御を行う制御装置である。なお、ＣＰＵ２Ｈ５は、並列、冗長又は分散して処理するために、複数のＣＰＵ、デバイス又は複数のコア（ｃｏｒｅ）から構成されてもよい。また、スマートフォン２は、画像処理を行うため、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等を内部又は外部に有してもよい。

ネットワークＩ／Ｆ２Ｈ６は、無線又は有線で、ネットワークを介して外部装置と接続する。具体的には、ネットワークＩ／Ｆ２Ｈ６は、データ等を入出力するためのアンテナ、周辺回路及びドライバ等である。例えば、スマートフォン２は、ＣＰＵ２Ｈ５及びネットワークＩ／Ｆ２Ｈ６によって、撮影装置１等から画像データを入力する。一方で、スマートフォン２は、ＣＰＵ２Ｈ５及びネットワークＩ／Ｆ２Ｈ６によって、撮影装置１等へデータ等を出力する。

スピーカ２ＨＳ１及びスピーカ２ＨＳ２は、音声を出力する。スピーカ２ＨＳ１及びスピーカ２ＨＳ２は、ステレオ出力を行う。なお、スピーカ２ＨＳ１及びスピーカ２ＨＳ２には、イヤホン又は外部のスピーカ等の外部装置が接続され、接続された外部装置から音声が出力されてもよい。これらのスピーカによって、スマートフォン２は、複数箇所から音声を出力する。また、スピーカの数は、２個以上、すなわち、音声を出力する箇所は、２箇所以上であるのが望ましい。

なお、情報処理装置は、スマートフォンに限られない。情報処理装置は、スマートフォン以外のコンピュータでもよい。例えば、情報処理装置は、ＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）、ＰＣ、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｃｅ）、タブレット、携帯電話器又はこれらの組み合わせ等でもよい。

＜情報処理システムによる全体処理例＞
図６は、本発明の一実施形態に係る情報処理システムによる全体処理の一例を説明するシーケンス図である。

＜全天球画像の生成例＞（ステップＳ０１）
図６のステップＳ０１では、撮影装置１は、全天球画像を生成する。なお、全天球画像は、例えば、撮影装置１による図７の処理によって、図３（ａ）及び図３（ｂ）の半球画像等から生成される。

図７は、本発明の一実施形態に係る全天球画像の一例を説明する図である。なお、図７（ａ）は、図３（ａ）の半球画像を光軸に対して水平方向及び垂直方向の入射角が等位となる箇所を線で結んで示す図である。光軸に対して水平方向の入射角を「θ」、光軸に対して垂直方向の入射角を「φ」という。さらに、図７（ｂ）は、図７（ａ）と同様に、図３（ｂ）の半球画像を光軸に対して水平方向及び垂直方向の入射角が等位となる箇所を線で結んで示す図である。

また、図７（ｃ）は、メルカトル図法によって処理された画像の一例を説明する図である。具体的には、図７（ｃ）の画像は、図７（ａ）及び図７（ｂ）の画像をあらかじめ生成されるＬＵＴ（ＬｏｏｋＵｐＴａｂｌｅ）等で対応させ、正距円筒図法で生成される画像である。そして、図７（ｃ）の状態となった後、図７（ａ）及び図７（ｂ）のそれぞれの画像を図７（ｄ）に示すように合成すると、全天球画像が生成される。合成処理は、図７（ｃ）に示す状態の半球画像を２つ用いて、全天球画像を生成する処理である。なお、図７（ｄ）の合成処理は、図７（ｃ）の状態の半球画像を単に連続して配置する処理に限られない。例えば、全天球画像の水平方向中心がθ＝１８０°でない場合、合成処理において、撮影装置は、まず、図３（ａ）の半球画像を前処理し、全天球画像の中心に配置する。次に、撮影装置は、生成する画像の左右部分に、図３（ｂ）の半球画像を前処理した画像を左右部分に配置できる大きさに分割し、半球画像を合成して図３（ｃ）の全天球画像を生成してもよい。

なお、全天球画像を生成する処理は、正距円筒図法による処理に限られない。例えば、φ方向において、図７（ｂ）の半球画像が有する画素の並びと、図７（ａ）の半球画像が有する画素並びとが、上下が逆であり、かつ、θ方向においてそれぞれの画素の並びが左右逆である天地逆転となる場合がある。この場合、撮影装置は、前処理において、図７（ｂ）の半球画像を図７（ａ）のφ方向及びθ方向の画素の並びと揃えるために、１８０°Ｒｏｌｌ回転させる処理等を行ってもよい。

また、全天球画像を生成する処理は、図７（ａ）及び図７（ｂ）の半球画像が有するそれぞれの歪曲収差を補正する歪補正処理等が行われてもよい。さらに、全天球画像を生成する処理は、シェーディング補正、ガンマ補正、ホワイトバランス、手振れ補正、オプティカル・ブラック補正処理、欠陥画素補正処理、エッジ強調処理又はリニア補正処理等が行われてもよい。なお、合成処理は、半球画像の撮影範囲と、他方の半球画像の撮影範囲とが重複する場合、重複する撮影範囲に撮影される被写体の画素を利用して補正を行うと、精度良く半球画像を合成することができる。

以上の処理によって、撮影装置１は、撮影される複数の半球画像から全天球画像を生成する。なお、全天球画像は、別の処理によって生成されてもよい。

＜全天球画像の送信例＞（ステップＳ０２）
図６のステップＳ０２では、スマートフォン２は、ネットワーク等を介して、ステップＳ０１によって生成される全天球画像を取得する。スマートフォン２が、図７（ｄ）の全天球画像を取得する場合を例に説明する。

＜全天球パノラマ画像の生成例＞（ステップＳ０３）
図６のステップＳ０３では、スマートフォン２は、ステップＳ０２で取得される全天球画像から全天球パノラマ画像を生成する。

図８は、本発明の一実施形態に係る全天球パノラマ画像の一例を説明する図である。例えば、ステップＳ０３では、スマートフォン２は、図７（ｄ）の全天球画像から図８の全天球パノラマ画像を生成する。なお、全天球パノラマ画像は、全天球画像を球形状（３Ｄモデル）に貼り付けた画像である。

全天球パノラマ画像を生成する処理は、ＯｐｅｎＧＬＥＳ（ＯｐｅｎＧＬ（登録商標）ｆｏｒＥｍｂｅｄｄｅｄＳｙｓｔｅｍｓ）等のＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）で実現される。具体的には、全天球パノラマ画像は全天球画像が有する画素が三角形に分割される。そして、各三角形の頂点Ｐ（以下「頂点Ｐ」という。）をつなぎ合わせて、ポリゴンとして貼り付けて生成される。

＜全天球パノラマ画像の選択例＞（ステップＳ０４）
図６のステップＳ０４では、スマートフォン２は、ユーザから、全天球パノラマ画像を選択させる操作を入力する。具体的には、ステップＳ０４では、スマートフォン２は、ステップＳ０３で生成される全天球パノラマ画像を縮小した画像として、サムネイル（ｔｈｕｍｂｎａｉｌ）画像形式で複数表示する。

例えば、複数の全天球パノラマ画像がスマートフォン２に記憶されている場合、スマートフォン２は、複数の全天球パノラマ画像から、サムネイル画像を一覧で出力する。そして、スマートフォン２に、サムネイル画像の一覧から、１つのサムネイル画像を選択するユーザの操作が入力される。ステップＳ０４で選択された全天球パノラマ画像が処理対象となって、処理が行われる。

なお、全天球画像が１種類しかない場合又は設定等によって、ステップＳ０４は、省略されてもよい。また、先に全天球画像をサムネイル画像として一覧で出力させてもよい。そして、サムネイル画像の一覧から１つを選択して、選択された全天球画像に基づいて、ステップＳ０３によって全天球パノラマ画像を生成してもよい。

＜所定領域の設定及び表示画像の出力例＞（ステップＳ０５）
図６のステップＳ０５では、スマートフォン２は、ユーザから、全天球画像が示す範囲（この例では、全方位である。）のうち、画像で出力する領域（以下「所定領域」という。）を設定する。スマートフォン２が、ユーザに出力する画像を「出力画像」という。出力画像は、所定領域を示す画像である。また、所定領域が設定され、最初にスマートフォン２が出力する表示画像を「初期画像」という。

ステップＳ０５では、スマートフォン２は、初期画像を生成する。

図９は、本発明の一実施形態に係る初期画像の一例を説明するための図である。図９（ａ）は、初期画像の一例としてＸＹＺ軸の３次元座標系を説明する図である。

スマートフォン２は、所定領域Ｔを「仮想カメラ３」が撮影する範囲として、仮想カメラ３からの視点で表示画像を生成する。また、仮想カメラの初期位置は、座標系の原点（０，０，０）の位置とする。さらに、全天球パノラマ画像が、立体球ＣＳとして表現される。初期状態では、仮想カメラ３は、立体球ＣＳの全天球パノラマ画像に対して、原点から全天球パノラマ画像を見るユーザの視点に相当する。

次に、図９（ｂ）は、所定領域Ｔの一例を示す３面図である。初期状態では、原点に仮想カメラ３が位置する。さらに、図９（ｃ）は、所定領域Ｔの一例を投影図である。仮想カメラ３が、所定領域Ｔを立体球ＣＳに投影している。

また、図９（ｄ）は、所定領域を特定するための位置及び視野角の一例を示す図である。所定領域Ｔは、仮想カメラ３の３次元座標に相当する視点の位置（Ｘ，Ｙ，Ｚ）及び仮想カメラ３の視野角αによって決定される。また、視野角αから所定領域Ｔが定まると、対角線画角２Ｌの中点として所定領域Ｔの中心点ＣＰの２次元座標が定まる。

次に、仮想カメラ３から中心点ＣＰまでの距離は、下記（１）式で示される。

初期設定により、所定領域Ｔが定まる。そして、所定領域Ｔに基づいて、初期画像が生成される。例えば、視点の位置（Ｘ，Ｙ，Ｚ）及び視野角αの初期設定は、（Ｘ，Ｙ，Ｚ，α）＝（０，０，０，３４）等のようにユーザ等によって設定される。

そして、画角を変える操作、いわゆるズーム操作が入力されると、スマートフォン２は、ズーム処理を行う。なお、ズーム処理は、ユーザによる操作に基づいて、所定領域を拡大又は縮小させ、変更された所定領域に基づいて、表示画像を生成する処理である。

ユーザによるズームの操作によって入力される操作量を「変化量ｄｚ」という。まず、ズームの操作が入力されると、スマートフォン２は、変化量ｄｚを取得する。そして、スマートフォン２は、変化量ｄｚに基づいて、下記（２）式を計算する。

なお、上記（２）式における「α」は、図９（ｄ）に示す視野角αである。また、上記（２）式で示す「ｍ」は、ズーム量を調整するための係数であり、あらかじめ設定される値である。さらに、上記（２）式における「α０」は、初期状態における視野角α、いわゆる視野角αの初期値である。

次に、スマートフォン２は、上記（２）式に基づいて計算される視野角αを投影行列に用いて、所定領域Ｔを決定する。

なお、変化量ｄｚを入力する操作が行われた後、変化量ｄｚ２となるズームの操作をユーザが更に行うと、スマートフォン２は、下記（３）式を計算する。

上記（３）式の視野角αは、各操作によって入力されるそれぞれの変化量を合計した値に基づいて計算される。複数の操作が行われても、視野角αの計算から行うことで、スマートフォン２は、一貫した操作性を保つことができる。

なお、ズーム処理は、上記（２）式又は上記（３）式に基づく処理に限られない。例えば、ズーム処理は、仮想カメラ３の視野角α及び視点位置の変更を組み合わせて実現してもよい。具体的には、以下のようなズーム処理が行われてもよい。

図１０は、本発明の一実施形態に係る別のズーム処理の一例を説明するための図である。図１０に示す立体球ＣＳは、図９に示す立体球ＣＳと同様で、立体球ＣＳの半径を「１」として説明する。

まず、図１０に示す原点は、仮想カメラ３の初期位置である。そして、仮想カメラ３は、光軸を移動して位置を変更する。光軸は、図９（ａ）に示すＺ軸と同様である。仮想カメラ３の移動量ｄは、原点から移動した距離で示す。例えば、仮想カメラ３が原点に位置する初期状態の場合、移動量ｄは「０」となる。

仮想カメラ３の移動量ｄ及び視野角αに基づいて、図９に示す所定領域Ｔとなる範囲を図１０では画角ωで示す。画角ωは、仮想カメラ３が原点に位置する場合、ｄ＝０の画角である。また、ｄ＝０の場合、画角ω及び視野角αは、一致する。

一方で、仮想カメラ３が原点から離れ、ｄの値が「０」より大きい場合、画角ω及び視野角αは、異なる範囲となる。そして、別のズーム処理は、画角ωとなる範囲を変更する処理である。

図１１は、本発明の一実施形態に係る別のズーム処理の一例を説明するための表である。なお、説明表４は、画角ωの範囲が６０°乃至３００°の例を示す。スマートフォン２は、ズーム指定値ＺＰに基づいて、視野角α及び仮想カメラ３の移動量ｄのうち、どちらを優先的に変更するかを決定する。

なお、「範囲」は、ズーム指定値ＺＰに基づいて決定する範囲である。また、「出力倍率」は、別のズーム処理によって決定される画像パラメータに基づいて計算された画像の出力倍率である。さらに、「ズーム指定値ＺＰ」は、出力させる画角に対応する値である。

別のズーム処理は、ズーム指定値ＺＰに基づいて移動量ｄ及び視野角αの決定する処理を変更する。具体的には、別のズーム処理の行う処理は、ズーム指定値ＺＰに基づいて、説明表４の４つの方法のいずれかに決定される。ズーム指定値ＺＰの範囲は、「Ａ〜Ｂ」、「Ｂ〜Ｃ」、「Ｃ〜Ｄ」及び「Ｄ〜Ｅ」の４つの範囲に区分される。

また、「画角ω」は、別のズーム処理によって決定した画像パラメータに対応する画角ωである。さらに、「変更するパラメータ」は、ズーム指定値ＺＰに基づいて４つの方法でそれぞれ変更するパラメータを説明する記載である。「備考」は、「変更するパラメータ」についての備考である。

「ｖｉｅｗＷＨ」は、出力領域の幅又は高さを示す値である。例えば、出力領域が横長の場合、「ｖｉｅｗＷＨ」は、幅の値を示す。一方で、出力領域が縦長の場合、「ｖｉｅｗＷＨ」は、高さの値を示す。すなわち、「ｖｉｅｗＷＨ」は、出力領域の長手方向のサイズを示す値である。

「ｉｍｇＷＨ」は、出力画像の幅又は高さを示す値である。例えば、出力領域が横長の場合、「ｖｉｅｗＷＨ」は、出力画像の幅の値を示す。一方で、出力領域が縦長の場合、「ｖｉｅｗＷＨ」は、出力画像の高さの値を示す。すなわち、「ｖｉｅｗＷＨ」は、出力画像の長手方向のサイズを示す値である。

「ｉｍｇＤｅｇ」は、出力画像の表示範囲の角度を示す値である。具体的には、出力画像の幅を示す場合、「ｉｍｇＤｅｇ」は、３６０°である。一方で、出力画像の高さを示す場合、「ｉｍｇＤｅｇ」は、１８０°である。

図１２は、本発明の一実施形態に係る別のズーム処理の「範囲」の一例を説明するための図である。別のズーム処理が行われた場合、画像に表示される「範囲」及び画像の例を示す。図１２に示す例を用いて、ズームアウトについて説明する。なお、図１２の各図における左図は、出力される画像の一例を示す。図１２の各図における右図は、出力される際における仮想カメラ３の状態の一例を図１０と同様のモデル図で示す図である。

図１２（ａ）は、説明表４の「範囲」が「Ａ〜Ｂ」となるズーム指定値ＺＰが入力された場合の出力される画像及び「範囲」の例を示す。仮想カメラ３の視野角αは、α＝６０°と固定される。さらに、ズーム指定値ＺＰが「Ａ〜Ｂ」であり、仮想カメラ３の移動量ｄが、視野角αが固定された状態で変更されるとする。視野角αが固定された状態で、仮想カメラ３の移動量ｄが大きくなるように変更する例を説明する。移動量ｄが大きくなる場合、画角ωは広がる。つまり、ズーム指定値ＺＰを「Ａ〜Ｂ」とし、かつ、視野角αを固定し、仮想カメラ３の移動量ｄを大きくすると、ズームアウト処理が実現できる。なお、ズーム指定値ＺＰが「Ａ〜Ｂ」である場合、仮想カメラ３の移動量ｄは、「０」から立体球ＣＳの半径までである。具体的には、立体球ＣＳの半径が「１」であるため、仮想カメラ３の移動量ｄは、「０〜１」の値となる。また、仮想カメラ３の移動量ｄは、ズーム指定値ＺＰに対応する値となる。

次に、図１２（ｂ）は、説明表４の「範囲」が「Ｂ〜Ｃ」となるズーム指定値ＺＰが入力した場合の出力される画像及び「範囲」の例を示す。なお、「Ｂ〜Ｃ」は、「Ａ〜Ｂ」よりズーム指定値ＺＰが大きい値である。そして、ズーム指定値ＺＰを「Ｂ〜Ｃ」とし、仮想カメラ３の移動量ｄは、仮想カメラ３が立体球ＣＳの外縁に位置する値に固定されるとする。図１２（ｂ）の仮想カメラ３の移動量ｄは、立体球ＣＳの半径である「１」に固定される。また、ズーム指定値ＺＰが「Ｂ〜Ｃ」であり、仮想カメラ３の移動量ｄが固定された状態で、視野角αが変更されるとする。図１２（ａ）から図１２（ｂ）に示すように、画角ωは、広がる。つまり、ズーム指定値ＺＰを「Ｂ〜Ｃ」とし、かつ、仮想カメラ３の移動量ｄを固定し、視野角αを大きくすると、ズームアウト処理が実現できる。なお、ズーム指定値ＺＰが「Ｂ〜Ｃ」である場合、視野角αは、「ω／２」で計算される。また、ズーム指定値ＺＰが「Ｂ〜Ｃ」である場合、視野角αの範囲は、「Ａ〜Ｂ」である場合に固定される値である「６０°」から、「１２０°」までとなる。

ズーム指定値ＺＰが「Ａ〜Ｂ」又は「Ｂ〜Ｃ」の場合、画角ωは、ズーム指定値ＺＰと一致する。また、ズーム指定値ＺＰが「Ａ〜Ｂ」及び「Ｂ〜Ｃ」の場合、画角ωは、値が増加する。

図１２（ｃ）は、説明表４の「範囲」が「Ｃ〜Ｄ」となるズーム指定値ＺＰが入力した場合の出力される画像及び「範囲」の例を示す。なお、「Ｃ〜Ｄ」は、「Ｂ〜Ｃ」よりズーム指定値ＺＰが大きい値である。そして、ズーム指定値ＺＰを「Ｃ〜Ｄ」とし、視野角αは、α＝１２０°と固定されるとする。ズーム指定値ＺＰが「Ｃ〜Ｄ」、仮想カメラ３の移動量ｄが、視野角αが固定された状態で変更される場合、画角ωは広がる。また、仮想カメラ３の移動量ｄは、説明表４のズーム指定値ＺＰに基づく式によって計算される。なお、ズーム指定値ＺＰが「Ｃ〜Ｄ」の場合、仮想カメラ３の移動量ｄは、最大表示距離ｄｍａｘ１まで変更される。最大表示距離ｄｍａｘ１は、スマートフォン２における出力領域で、立体球ＣＳを最大に表示できる距離である。出力領域は、スマートフォン２が画像等を出力する画面のサイズ等である。さらに、最大表示距離ｄｍａｘ１は、図１２（ｄ）に示す状態で、下記（４）式で計算される。

なお、上記（４）式の「ｖｉｅｗＷ」、「ｖｉｅｗＨ」は、それぞれスマートフォン２における出力領域の幅、高さを示す値である。最大表示距離ｄｍａｘ１は、スマートフォン２における出力領域、すなわち、「ｖｉｅｗＷ」及び「ｖｉｅｗＨ」の値等に基づいて計算される。

図１２（ｄ）は、説明表４の「範囲」が「Ｄ〜Ｅ」となるズーム指定値ＺＰが入力した場合の出力される画像及び「範囲」の例を示す。なお、「Ｄ〜Ｅ」は、「Ｃ〜Ｄ」よりズーム指定値ＺＰが大きい値である。そして、ズーム指定値ＺＰを「Ｄ〜Ｅ」とし、視野角αは、α＝１２０°と固定されるとする。図１２（ｄ）に示すように、ズーム指定値ＺＰが「Ｃ〜Ｄ」であり、仮想カメラ３の移動量ｄが、視野角αが固定された状態で変更されるとする。また、仮想カメラ３の移動量ｄは、限界表示距離ｄｍａｘ２まで変更される。なお、限界表示距離ｄｍａｘ２は、スマートフォン２における出力領域で、立体球ＣＳが内接して表示される距離である。具体的には、限界表示距離ｄｍａｘ２は、下記（５）式で計算される。なお、限界表示距離ｄｍａｘ２は、図１２（ｅ）に示す状態である。

上記（５）式の限界表示距離ｄｍａｘ２は、スマートフォン２における出力領域である「ｖｉｅｗＷ」及び「ｖｉｅｗＨ」の値に基づいて計算される。また、限界表示距離ｄｍａｘ２は、スマートフォン２が出力できる最大の範囲で、仮想カメラ３の移動量ｄを大きくできる限界の値を示す。そして、スマートフォン２は、ズーム指定値ＺＰが説明表４の範囲に収まる値、すなわち、仮想カメラ３の移動量ｄの値が限界表示距離ｄｍａｘ２以下となるように、入力される値を制限してもよい。この制限によって、スマートフォン２は、出力領域である画面に出力画像をフィットさせた状態又は所定の出力倍率で画像をユーザに出力できる状態となり、ズームアウトを実現できる。そして、「Ｄ〜Ｅ」の処理によって、スマートフォン２は、ユーザに出力されている画像が全天球パノラマであることを認識させることができる。

なお、ズーム指定値ＺＰが「Ｃ〜Ｄ」又は「Ｄ〜Ｅ」の場合、画角ωは、ズーム指定値ＺＰと異なる値となる。また、説明表４及び図１２で示す各範囲間では、画角ωは、連続しているが、広角側へのズームアウトによって、画角ωは、一様に増加しなくともよい。例えば、ズーム指定値ＺＰが「Ｃ〜Ｄ」の場合、画角ωは、仮想カメラ３の移動量ｄに伴い、増加する。一方で、ズーム指定値ＺＰが「Ｄ〜Ｅ」の場合、画角ωは、仮想カメラ３の移動量ｄに伴い、減少する。なお、この減少は、立体球ＣＳが有する外側の領域が写り込むためである。ズーム指定値ＺＰが２４０°以上の広視野域を指定する場合、スマートフォン２は、仮想カメラ３の移動量ｄを変更することによって、ユーザに違和感の少ない画像を出力し、かつ、画角ωを変化させることができる。

また、ズーム指定値ＺＰが広角方向に変更されると、画角ωは、広くなる場合が多い。画角ωが広くなる場合、スマートフォン２は、仮想カメラ３の視野角αを固定し、仮想カメラ３の移動量ｄを大きくする。スマートフォン２は、仮想カメラ３の視野角αを固定することによって、仮想カメラ３の視野角αの増加を少なくし、歪みの少ない画像を出力できる。

仮想カメラ３の視野角αを固定し、スマートフォン２が、仮想カメラ３の移動量ｄを大きくする、すなわち、仮想カメラ３を遠ざける方向に動かす場合、スマートフォン２は、広角表示の開放感をユーザに与えることができる。また、仮想カメラ３を遠ざける方向に動かす場合、人間が広範囲を確認する際の動きと類似であるため、スマートフォン２は、違和感の少ないズームアウトを実現できる。

ズーム指定値ＺＰが「Ｄ〜Ｅ」の場合、画角ωは、ズーム指定値ＺＰが広角方向に変更するに伴い、減少する。画角ωを減少させることで、スマートフォン２は、ユーザに立体球ＣＳから遠ざかっていく感覚を与えることができ、違和感の少ない画像を出力できる。

図１１に示す説明表４の別のズーム処理によって、スマートフォン２は、ユーザに違和感の少ない画像を出力できる。

なお、スマートフォン２は、説明表４で説明する仮想カメラ３の移動量ｄ又は視野角αのみに、変更する場合に限られない。すなわち、スマートフォン２は、説明表４において、優先的に仮想カメラ３の移動量ｄ又は視野角αを変更する形態であればよく、調整のため、固定となる値を十分小さい値変更してもよい。また、スマートフォン２は、ズームアウトを行うに限られない。スマートフォン２は、ズームインを行ってもよい。

＜複数箇所での音声入力例＞（ステップＳ０６）
図６のステップＳ０６では、撮影装置１は、複数箇所のマイクロフォンで音声を入力する。例えば、撮影装置１のマイクロフォン１ＨＭ１、１ＨＭ２、１ＨＭ３及び１ＨＭ４の４箇所で音声が入力される。望ましくは、撮影装置１は、複数箇所で入力されたる音声を処理して、アンビソニックス（Ａｍｂｉｓｏｎｉｃｓ）のＢフォーマット等のように、各入力音声と、入力音声が発生した方向とが関連付けされるデータ（以下「音声入力データ」という。）を生成する。すなわち、アンビソニックスのＢフォーマット等で音声入力データが生成されると、スマートフォン２等は、音声入力データを参照すると、各入力音声が発生した方向がわかる。

＜音声入力データの送信例＞（ステップＳ０７）
図６のステップＳ０７では、撮影装置１は、音声入力データをスマートフォン２に送信する。以降、スマートフォン２が各処理を行う例で説明する。

＜音声入力データを変換して仮想スピーカデータを生成する例＞（ステップＳ０８）
図６のステップＳ０８では、スマートフォン２は、音声入力データを変換して、仮想的に配置される複数の仮想スピーカに、音声を出力させるためのデータ（以下「仮想スピーカデータ」という。）を生成する。

図１３は、本発明の一実施形態に係る仮想スピーカの配置例を示す模式図である。視点の位置（Ｘ，Ｙ，Ｚ）に、聞き手となるユーザＵＲがいる。また、ユーザＵＲは、図９等に示す仮想カメラ３と同じ概念である。

そして、視点であるユーザＵＲを中心として、複数の箇所に、１個ずつ仮想的にスピーカが配置されているものとして処理が行われる。なお、図９に配置されるスピーカが仮想スピーカであるが、実際に設置される装置ではなく、仮想的にユーザＵＲの周辺に配置されるものとして処理が行われる。

撮影装置１が水平状態でされる場合、仮想スピーカはユーザＵＲの前後左右４箇所に配置される。なお、撮影装置が水平状態以外で使用される場合、上下方向（Ｙ軸方向）を考慮して、更に上下に１個ずつ仮想スピーカが追加されてもよい。つまり、仮想スピーカは、６箇所に配置される。仮想スピーカが、ユーザＵＲの前後左右４箇所に配置される４ｃｈ（チャンネル）の例を説明する。

具体的には、ユーザＵＲの前方、右手方向、左手方向、及び後方には、それぞれ仮想スピーカＶＳＦ、ＶＳＲ、ＶＳＬ、及びＶＳＢが配置される。この配置によって、ユーザＵＲの前後左右から音声が出力され、情報処理システムは、臨場感のある出力音声を出力することができる。

４ｃｈの仮想スピーカから音声を出力する方法は、"西村竜一（２０１４），５，アンビソニックス（＜特集＞立体音響技術）ＴｈｅＪｏｕｒｎａｌｏｆｔｈｅＩｎｓｔｉｔｕｔｅｏｆＩｍａｇｅＩｎｆｏｒｍａｔｉｏｎａｎｄＴｅｌｅｖｉｓｉｏｎＥｎｇｉｎｅｅｒｓ，６８（８），６１６―６２０，ｈｔｔｐ:／／ｃｉ.ｎｉｉ.ａｃ.ｊｐ／ｎａｉｄ／１１０００９８４４０５１"に記載される方法等である。

具体的には、ＦｉｒｓｔｏｒｄｅｒＡｍｂｉｓｏｎｉｃｓでは、仮想スピーカＶＳＬ、ＶＳＲ、ＶＳＦ及びＶＳＢから出力される音声として、仮想スピーカデータの例である（Ｌ，Ｒ，Ｆ，Ｂ）は、下記（６）式のように計算される。

Ｌ＝Ｗ＋ｋ１×Ｙ
Ｒ＝Ｗ−ｋ１×Ｙ
Ｆ＝Ｗ＋ｋ１×Ｘ
Ｂ＝Ｗ−ｋ１×Ｘ・・・（６）

なお、上記（６）式の「ｋ１」は、あらかじめ設定される係数で、「Ｘ」、「Ｙ」及び「Ｗ」は、アンビソニックスのＢフォーマットが示す４つのデータ（Ｘ，Ｙ，Ｚ，Ｗ）のうちの３つである。なお、上記（６）式のＸ，Ｙ，Ｚは、視点の位置（Ｘ，Ｙ，Ｚ）とは異なるデータである。

すなわち、アンビソニックスのＢフォーマット形式等の音声入力データは、上記（６）式等によって、仮想スピーカデータに変換される。

図１４は、本発明の一実施形態に係る仮想スピーカの配置を変更した第１例を示す模式図である。図１３と比較すると、図１４は、ユーザＵＲが、原点を中心として左方向ＲＬに、９０°回転している。仮想スピーカＶＳＦも、ユーザＵＲの回転に合わせて、左方向ＲＬに、９０°回転した位置に配置され、回転した後のユーザＵＲの前方に、配置される。同様に、仮想スピーカＶＳＲ、ＶＳＬ、及びＶＳＢは、回転した後のユーザＵＲの右手方向、左手方向及び後方に配置される。例えば、図１３で仮想スピーカＶＳＦから出力された音声が、図１４では仮想スピーカＶＳＲから出力される。

ほかにも、ズームイン又はズームアウトが行われた場合、ズーム処理に合わせて、音声が出力されてもよい。

図１５は、本発明の一実施形態に係る仮想スピーカの配置の第２例を示す模式図である。図１３と比較すると、図１４は、ユーザＵＲが、原点を中心として光軸方向（Ｚ軸）に後方ＳＺに移動している。したがって、図１４の視野の位置（Ｘ，Ｙ，Ｚ）は、Ｚの座標値のみが、図１３から変更される。

また、図１３に示す場合の初期状態を図１２（ａ）に対応する状態とすると、図１５に示す変更後の状態は、例えば、図１２（ｂ）又は図１２（ｃ）等に対応する状態である。

所定領域Ｔが変更される場合、視野角αが一定であっても、所定領域Ｔとなる範囲が広くなり、画角はω＜ω２である。したがって、表示画像は、画角ωの設定より広い範囲を示す画像となる。

そして、仮想スピーカＶＳＦ、ＶＳＲ、ＶＳＬ及びＶＳＢの配置は、変更の前後で同じ位置とする。そして、情報処理システム１０は、仮想スピーカＶＳＦから出力される音声の音量を小さくし、仮想スピーカＶＳＲから出力される音声の音量を大きくする。なお、情報処理システム１０は、仮想スピーカＶＳＢ及びＶＳＬから出力される音声の音量も変更してよい。

この場合、ユーザＵＲは、後方で発生する音声が大きく聞こえ、前方で発生する音声が小さく聞こえる。したがって、情報処理システム１０は、実際に後方ＳＺでユーザＵＲが移動した場合と同じような音声を出力させることができ、臨場感を高めることができる。

また、情報処理システム１０は、所定領域Ｔに基づいて、出力させる音声を限定してもよい。すなわち、情報処理システム１０は、所定領域Ｔの範囲に該当する方向から入力された音声を出力するようにしてもよい。この場合、情報処理システム１０は、表示画像に写る被写体に合わせた音声を出力させることができ、臨場感を高めることができる。

図１６は、本発明の一実施形態に係る仮想スピーカの配置の第３例を示す模式図である。図１６に示す所定領域Ｔの変更は、図１５に示す変更後、図１４に示す変更がされた場合の例である。所定領域Ｔの変更は、回転及び位置の変更を組み合わせた変更でもよい。図１６は、図１４と同様に、仮想スピーカの配置が変更され、かつ、図１５と同様に、仮想スピーカから出力される音声の音量が変更される。

図１７は、本発明の一実施形態に係る仮想スピーカの配置の第４例を示す模式図である。図１３と比較すると、図１７は、ユーザＵＲが、原点を中心として光軸方向（Ｚ軸）の後方ＳＺに第１距離ＳＺ１移動した点が異なる。したがって、図１６の視野の位置（Ｘ，Ｙ，Ｚ）は、Ｚの座標値のみが、図１３から変更される。

また、図１３に示す場合の初期状態を図１２（ａ）に対応する状態とすると、図１５に示す変更後の状態は、例えば、図１２（ｄ）等の状態である。

そして、仮想スピーカＶＳＦ、ＶＳＲ、ＶＳＬ及びＶＳＢの配置は、変更の前後で同じ位置とする。ただし、ユーザＵＲの前方に、仮想スピーカＶＳＦ、ＶＳＲ、ＶＳＬ及びＶＳＢは、配置される。

この場合、仮想スピーカがユーザＵＲの前方に配置されるため、ユーザＵＲは、前方から音声が聞こえる。したがって、情報処理システム１０は、実際に後方へ第１距離ＳＺ１分、ユーザＵＲが移動した場合と同じような音声を出力させることができ、臨場感を出すことができる。

図１８は、本発明の一実施形態に係る仮想スピーカの配置の第５例を示す模式図である。図１７に示す例と比較すると、図１８は、ユーザＵＲが、原点を中心として、光軸方向（Ｚ軸）に、第１距離ＳＺ１の位置から、後方ＳＺとなる第２距離ＳＺ２まで移動している。したがって、図１８の視野の位置（Ｘ，Ｙ，Ｚ）は、Ｚの座標値のみが、図１３から変更される。

また、図１３に示す場合の初期状態を図１２（ａ）に対応する状態とすると、図１５に示す変更後の状態は、例えば、図１２（ｅ）等の状態である。
そして、仮想スピーカＶＳＦ、ＶＳＲ、ＶＳＬ及びＶＳＢの配置は、例えば、変更の前後で同じ位置とする。ただし、ユーザＵＲの前方に、仮想スピーカＶＳＦ、ＶＳＲ、ＶＳＬ及びＶＳＢは、配置される。

情報処理システム１０は、所定領域Ｔ、すなわち、視点の位置（Ｘ，Ｙ，Ｚ）及び視野角αに基づいて、音声入力データを仮想スピーカに音声を出力させる仮想スピーカデータを上記（６）式等によって生成する。

＜仮想スピーカデータを変換して音声出力データを生成する例＞（ステップＳ０９）
図６のステップＳ０９では、スマートフォン２は、仮想スピーカデータを変換して音声出力データを生成する。例えば、上記（６）式によって生成される仮想スピーカデータ（Ｌ，Ｒ，Ｆ，Ｂ）は、下記（７）式のように変換され、音声出力データ（Ｌ２，Ｒ２）となる。

Ｌ２＝ｋ４×（Ｌ＋ｋ２×Ｆ＋ｋ３×Ｂ）
Ｒ２＝ｋ４×（Ｒ＋ｋ２×Ｆ＋ｋ３×Ｂ）・・・（７）

上記（７）式では、「ｋ２」、「ｋ３」及び「ｋ４」は、視点の位置（Ｘ，Ｙ，Ｚ）に基づいて定まる係数である。

なお、仮想スピーカデータ（Ｌ，Ｒ，Ｆ，Ｂ）は、音響伝達関数等によって変換されてもよい。

例えば、スピーカ２ＨＳ１及びスピーカ２ＨＳ２がイヤホン又はヘッドホン等に音声を出力する場合、仮想スピーカデータ（Ｌ，Ｒ，Ｆ，Ｂ）は、頭部伝達関数（ＨＲＴＦ（Ｈｅａｄ−ＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ））等によって変換されるのが望ましい。

一方で、スピーカ２ＨＳ１及びスピーカ２ＨＳ２が備え付けのスピーカ等に音声を出力する場合、仮想スピーカデータ（Ｌ，Ｒ，Ｆ，Ｂ）は、室伝達関数（ＲＴＦ（ＲｏｏｍＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ））等によって変換されるのが望ましい。

音声は、壁による反射又は障害物による回折等の影響を受けて変形する場合がある。そこで、室伝達関数を用いると、情報処理システム１０は、出力音声に、反射等による変形の特性を反映できる。

また、上記（７）式等において、「Ｆ」と「Ｂ」との間、「Ｌ」と「Ｒ」との間又はこれらの間両方に、位相差をつけるため、遅延が設定されてもよい。遅延が設定されると、距離感が強調できる。

＜音声出力データに基づく出力音声の出力例＞（ステップＳ１０）
図６のステップＳ１０では、スマートフォン２は、音声出力データに基づいて、出力音声を出力する。具体的には、上記（７）等によって、音声出力データ（Ｌ２，Ｒ２）が生成されると、スマートフォン２は、音声出力データ（Ｌ２，Ｒ２）が示す各音声をスピーカ２ＨＳ１及びスピーカ２ＨＳ２（図５）に振り分けて出力する。

なお、図では、表示画像を生成及び出力するための処理と、音声に係る処理とを分けて説明したが、情報処理システム１０は、これらの処理を並列して行ってもよい。

＜機能構成例＞
図１９は、本発明の一実施形態に係る情報処理システムの機能構成例を示す機能ブロック図である。情報処理システム１０は、音声入力部１０Ｆ１、第１変換部１０Ｆ２、設定部１０Ｆ３、撮影部１０Ｆ４、第２変換部１０Ｆ５、音声出力部１０Ｆ６及び画像出力部１０Ｆ７を備える。

音声入力部１０Ｆ１は、撮影部１０Ｆ４が撮影する範囲から、入力音声ＶＩＮを複数箇所で入力して、音声入力データＤＩＮを生成する音声入力手順を行う。例えば、音声入力部１０Ｆ１は、マイクロフォン１ＨＭ１、１ＨＭ２、１ＨＭ３及び１ＨＭ４（図４）等によって実現される。

第１変換部１０Ｆ２は、第１の変換部の例であって、所定領域Ｔ（図９）に基づいて、音声入力データＤＩＮを変換して、仮想スピーカデータＤＶＳを生成する第１の変換手順を行う。例えば、第１変換部１０Ｆ２は、ＣＰＵ２Ｈ５（図５）等の演算装置によって実現される。

設定部１０Ｆ３は、所定領域Ｔを特定する視点の位置（Ｘ，Ｙ，Ｚ）及び視点の視野角αを設定する設定手順を行う。例えば、設定部１０Ｆ３は、入出力装置２Ｈ３（図５）等によって実現される。

撮影部１０Ｆ４は、複数の画像を撮影する撮影手順を行う。例えば、撮影部１０Ｆ４は、図４に示す撮影装置１等によって実現される。

第２変換部１０Ｆ５は、仮想スピーカデータＤＶＳを変換して音声出力データＤＯＵＴを生成する第２変換手順を行う。例えば、第２変換部１０Ｆ５は、ＣＰＵ２Ｈ５（図５）等の演算装置によって実現される。

音声出力部１０Ｆ６は、音声出力データＤＯＵＴに基づいて、複数箇所から出力音声ＶＯＵＴを出力する音声出力手順を行う。例えば、音声出力部１０Ｆ６は、スピーカ２ＨＳ１及びスピーカ２ＨＳ２（図５）等によって実現される。

画像出力部１０Ｆ７は、撮影部１０Ｆ４が撮影する複数の画像に基づいて、表示画像ＩＭＧＯＵＴを出力する画像出力手順を行う。例えば、画像出力部１０Ｆ７は、入出力装置２Ｈ３（図５）等によって実現される。

図１９の機能構成により、情報処理システム１０は、まず、撮影部１０Ｆ４によって撮影される複数の半球画像等から全天球画像を生成する（図３）。そして、情報処理システム１０は、音声入力部１０Ｆ１によって、入力音声ＶＩＮを複数箇所で入力する。入力音声ＶＩＮが複数箇所で入力されると、情報処理システム１０は、アンビソニックスのＢフォーマット等の音声入力データＤＩＮを生成する。

設定部１０Ｆ３は、所定領域Ｔを特定するパラメータである視点の位置（Ｘ，Ｙ，Ｚ）及び視点の視野角αを設定する。この設定に基づいて、図９に示すように、全天球画像が示す全範囲のうち、表示画像ＩＭＧＯＵＴに出力される範囲が定まる。

第１変換部１０Ｆ２は、所定領域Ｔ、すなわち、視点の位置（Ｘ，Ｙ，Ｚ）及び視点の視野角αによって定まる表示画像ＩＭＧＯＵＴに合わせた音声入力データＤＩＮを生成する。具体的には、ユーザＵＲは、情報処理システム１０に、所定領域Ｔをズーム、並行移動又は回転させる操作を入力する。例えば、ズームの操作が入力されると、所定領域Ｔ及び表示画像ＩＭＧＯＵＴは、図１２に示すように、変更される。

そこで、情報処理システム１０は、視点の位置（Ｘ，Ｙ，Ｚ）及び視点の視野角αに合わせて、図１３乃至図１８のように、仮想スピーカＶＳＦ、ＶＳＲ、ＶＳＬ及びＶＳＢ等の仮想スピーカをユーザＵＲの周辺に配置する。
第１変換部１０Ｆ２は、仮想スピーカＶＳＦ、ＶＳＲ、ＶＳＬ及びＶＳＢからの出力を上記（６）式等で計算する。この計算に基づいて、仮想スピーカデータ（Ｌ，Ｒ，Ｆ，Ｂ）が生成される。

仮想スピーカデータ（Ｌ，Ｒ，Ｆ，Ｂ）の場合、情報処理システム１０は、表示画像ＩＭＧＯＵＴに合わせた出力音声ＶＯＵＴを出力できるため、臨場感のある音声を出力できる。例えば、表示画像ＩＭＧＯＵＴに合う方向から、情報処理システム１０は、立体音声となる出力音声ＶＯＵＴを出力できる。

第２変換部１０Ｆ５は、仮想スピーカデータ（Ｌ，Ｒ，Ｆ，Ｂ）を変換して音声出力データＤＯＵＴを生成する。この変換に基づいて、音声出力部１０Ｆ６を実現するハードウェア等に適した出力音声ＶＯＵＴを示す音声出力データＤＯＵＴを生成される。

また、状態センサ２Ｈ４（図５）等がある場合、情報処理システム１０は、スマートフォン２の姿勢を検出できる。例えば、スマートフォン２が縦置き方向であるか、横置き方向であるかによって、音声出力部１０Ｆ６を実現するハードウェアの配置が変わる場合がある。縦置き方向の場合、スピーカ２ＨＳ１及びスピーカ２ＨＳ２も、縦置き方向の配置になり、一方で、横置き方向の場合、スピーカ２ＨＳ１及びスピーカ２ＨＳ２も、横置き方向の配置となる。そこで、情報処理システム１０は、状態センサ２Ｈ４等によって、ハードウェアの配置を検出する。そして、情報処理システム１０は、ハードウェアの配置に合わせて、音声出力データＤＯＵＴを生成してもよい。

したがって、第２変換部１０Ｆ５の変換に基づいて、ＨＲＴＦ又はＲＴＦ等の音響伝達関数からハードウェアに適した音声に変換できるため、臨場感のある音声が出力できる。

他にも、第２変換部１０Ｆ５の変換に基づいて、音声出力部１０Ｆ６を実現するハードウェアが、５．１ｃｈ等であっても、臨場感のある音声が出力できる。

なお、音声入力部１０Ｆ１は、音声出力部１０Ｆ６より多い箇所で入力音声ＶＩＮを入力するのが望ましい。例えば、マイクロフォンの数は、スピーカの数より多い方が望ましい。この場合、情報処理システム１０は、出力音声ＶＯＵＴの音質を向上できる。

アンビソニックス方式を用いると、位相差を表現できる。さらに、図１９の機能構成により、情報処理システム１０は、位相差のある音声の音量レベルに差を表現できる。具体的には、左右の位相差ＩＬＤ（両耳間レベル差、ＩｎｔｅｒａｕｒａｌＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅ）がある音声は、両耳間時間差ＩＴＤ（ＩｎｔｅｒａｕｒａｌＴｉｍｅＤｉｆｆｅｒｅｎｃｅ）又は位相差ＩＰＤ（ＩｎｔｅｒａｕｒａｌＰｈａｓｅＤｉｆｆｅｒｅｎｃｅ）をつけると、臨場感を高めることができる。

また、複数箇所で、入力音声ＶＩＮを入力し、複数の入力音声ＶＩＮの間で音声のレベル差が所定値以上に違う場合、情報処理システム１０は、最もダイナミックレンジの大きいマイクロフォンで入力した入力音声ＶＩＮを選択する。したがって、情報処理システム１０は、モノラル信号を取得でき、入力音声ＶＩＮの異常を検出できる。

他にも、異常は、相関係数等から得られてもよい。特に、マイクロフォンが無指向性である場合、入力音声ＶＩＮの間に差がつきにくいため、相関係数は、差がつきにくい。したがって、相関係数に基づいて、情報処理システム１０は、異常を検出できる。

＜他の実施形態＞
なお、本発明に係る実施形態は、プログラミング言語等で記述されるプログラムによって実現されてもよい。すなわち、本発明に係る実施形態は、情報処理装置等のコンピュータに情報処理方法を実行させるためのプログラムによって実現されてもよい。なお、プログラムは、フラッシュメモリ、ＳＤ（登録商標）カード又は光学ディスク等の記録媒体に記憶して頒布することができる。また、プログラムは、インターネット等の電気通信回線を通じて頒布することができる。

また、本発明に係る実施形態において、処理の一部又は全部は、例えば、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）等のプログラマブル・デバイス（ＰＤ）で処理され、実現されてもよい。さらに、本発明に係る実施形態において、処理の一部又は全部は、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）で処理され、実現されてもよい。

また、情報処理装置は、１つの情報処理装置に限られず、複数の情報処理装置で構成されてもよい。すなわち、本発明に係る実施形態は、１以上の情報処理装置を有する情報処理システムによって実現されてもよい。

以上、本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されない。すなわち、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

１０情報処理システム
１撮影装置
２スマートフォン
ＶＩＮ入力音声
ＶＯＵＴ出力音声
ＶＳＦ、ＶＳＲ、ＶＳＬ、ＶＳＢ仮想スピーカ
ＤＩＮ音声入力データ
ＤＯＵＴ音声出力データ

特許第６０４４３２８号公報

Claims

複数の画像を撮影する撮影装置と接続される情報処理装置を有する情報処理システムであって、
複数の音声を入力する音声入力部と、
前記複数の画像に基づいて、表示画像を出力する画像出力部と、
前記表示画像に出力される所定領域を設定する設定部と、
前記所定領域に基づいて、前記音声入力部に入力された複数の音声を変換する第１の変換部と、
前記第１の変換部で変換された複数の音声を出力する音声出力部と
を備える情報処理システム。
前記設定部は、所定領域として、３次元座標で定まる位置と、仮想カメラの画角である視野角と、を設定する請求項１に記載の情報処理システム。
前記音声入力部に入力される音声には、前記音声が発生した方向が関連付けられる請求項１又は２に記載の情報処理システム。
前記音声入力部は、４箇所以上でそれぞれ前記音声を入力し、
前記音声出力部は、２箇所以上で前記変換された音声を出力する請求項１乃至３のいずれか１項に記載の情報処理システム。
前記音声入力部は、前記音声出力部より多い箇所で前記複数の音声を入力する請求項４に記載の情報処理システム。
前記第１の変換部は、前記位置、前記視野角又はこれらの組み合わせが変更されると、仮想スピーカの配置又は仮想スピーカからの出力を変更する請求項２に記載の情報処理システム。
複数の画像を撮影する撮影装置と接続される情報処理装置を有する情報処理システムが行う情報処理方法であって、
前記情報処理システムが、複数の音声を入力する音声入力手順と、
前記情報処理システムが、前記複数の画像に基づいて、表示画像を出力する画像出力手順と、
前記情報処理システムが、前記表示画像に出力される所定領域を設定する設定手順と、
前記情報処理システムが、前記所定領域に基づいて、前記音声入力手順によって入力された複数の音声を変換する第１の変換手順と、
前記情報処理システムが、前記第１の変換手順で変換された複数の音声を出力する音声出力手順と
を有する情報処理方法。
複数の画像を撮影する撮影装置と接続される情報処理装置を有するコンピュータに情報処理方法を実行させるためのプログラムであって、
前記コンピュータが、複数の音声を入力する音声入力手順と、
前記コンピュータが、前記複数の画像に基づいて、表示画像を出力する画像出力手順と、
前記コンピュータが、前記表示画像に出力される所定領域を設定する設定手順と、
前記コンピュータが、前記所定領域に基づいて、前記音声入力手順によって入力された複数の音声を変換する第１の変換手順と、
前記コンピュータが、前記第１の変換手順で変換された複数の音声を出力する音声出力手順と
を実行させるためのプログラム。