Nothing Special   »   [go: up one dir, main page]

JP2018157314A - 情報処理システム、情報処理方法及びプログラム - Google Patents

情報処理システム、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2018157314A
JP2018157314A JP2017051242A JP2017051242A JP2018157314A JP 2018157314 A JP2018157314 A JP 2018157314A JP 2017051242 A JP2017051242 A JP 2017051242A JP 2017051242 A JP2017051242 A JP 2017051242A JP 2018157314 A JP2018157314 A JP 2018157314A
Authority
JP
Japan
Prior art keywords
information processing
image
output
processing system
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017051242A
Other languages
English (en)
Inventor
誠 庄原
Makoto Shohara
誠 庄原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2017051242A priority Critical patent/JP2018157314A/ja
Publication of JP2018157314A publication Critical patent/JP2018157314A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Studio Devices (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】画像に合わせた音声を出力して、臨場感を高めることを目的とする。【解決手段】複数の画像を撮影する撮影装置と接続される情報処理装置を有する情報処理システムは、複数の音声を入力する音声入力部と、前記複数の画像に基づいて、表示画像を出力する画像出力部と、前記表示画像に出力される所定領域を設定する設定部と、前記所定領域に基づいて、前記音声入力部に入力された複数の音声を変換する第1の変換部と、前記第1の変換部で変換された複数の音声を出力する音声出力部とを備えることで上記課題を解決する。【選択図】図1

Description

本発明は、情報処理システム、情報処理方法及びプログラムに関する。
従来、広い範囲を示す画像、いわゆるパノラマ画像を表示する方法が知られている。
例えば、画像処理システムが、まず、対象となる画像を3次元形状に貼り付け、3次元モデルを生成する。次に、画像処理システムが、入力値に基づいて、視点の位置及び視野角を決定する。そして、視点の位置及び視野角の決定では、画像処理システムは、入力値に基づいて、視野角を優先的に変化させるか、又は、視点の位置を優先的に変化させるかを決定する。このようにして、広い視野領域において、被写体が引き伸ばされる表示等の違和感のある画像が表示されるのを少なくする方法が知られている(例えば、特許文献1等)。
しかしながら、従来の方法では、画像に合わせた音声が出力されず、臨場感が足りない課題がある。
本発明は、画像に合わせた音声を出力して、臨場感を高めることを目的とする。
上述した課題を解決するために、本発明の一態様における、複数の画像を撮影する撮影装置と接続される情報処理装置を有する情報処理システムは、
複数の音声を入力する音声入力部と、
前記複数の画像に基づいて、表示画像を出力する画像出力部と、
前記表示画像に出力される所定領域を設定する設定部と、
前記所定領域に基づいて、前記音声入力部に入力された複数の音声を変換する第1の変換部と、
前記第1の変換部で変換された複数の音声を出力する音声出力部と
を備える。
画像に合わせた音声を出力して、臨場感を高めることができる。
本発明の一実施形態に係る情報処理システムの全体構成の一例を説明する図である。 本発明の一実施形態に係る撮影装置の一例を説明する図である。 本発明の一実施形態に係る撮影装置によって撮影された画像の一例を説明する図である。 本発明の一実施形態に係る撮影装置のハードウェア構成の一例を説明するブロック図である。 本発明の一実施形態に係る情報処理装置のハードウェア構成の一例を説明するブロック図である。 本発明の一実施形態に係る情報処理システムによる全体処理の一例を説明するシーケンス図である。 本発明の一実施形態に係る全天球画像の一例を説明する図である。 本発明の一実施形態に係る全天球パノラマ画像の一例を説明する図である。 本発明の一実施形態に係る初期画像の一例を説明するための図である。 本発明の一実施形態に係る別のズーム処理の一例を説明するための図である。 本発明の一実施形態に係る別のズーム処理の一例を説明するための表である。 本発明の一実施形態に係る別のズーム処理の「範囲」の一例を説明するための図である。 本発明の一実施形態に係る仮想スピーカの配置例を示す模式図である。 本発明の一実施形態に係る仮想スピーカの配置を変更した第1例を示す模式図である。 本発明の一実施形態に係る仮想スピーカの配置の第2例を示す模式図である。 本発明の一実施形態に係る仮想スピーカの配置の第3例を示す模式図である。 本発明の一実施形態に係る仮想スピーカの配置の第4例を示す模式図である。 本発明の一実施形態に係る仮想スピーカの配置の第5例を示す模式図である。 本発明の一実施形態に係る情報処理システムの機能構成例を示す機能ブロック図である。
以下、本発明の実施の形態について説明する。なお、本発明の実施の形態の音声とは、人が発する声に限らず、音楽、機械音、動作音、その他空気の振動によって伝搬する音を総称したものとして参照する。
<情報処理システムの全体構成例>
図1は、本発明の一実施形態に係る情報処理システムの全体構成の一例を説明する図である。情報処理システム10は、撮影装置1と、情報処理装置の例であるスマートフォン2とを有する。
撮影装置1は、少なくとも複数の光学系を有するカメラ等である。例えば、撮影装置1は、複数の光学系を用いて撮影した複数の画像に基づいて、全方位等の広い範囲を示す画像(以下「全天球画像」という。)を生成する。次に、撮影装置1は、全天球画像等をスマートフォン2に送信する。そして、スマートフォン2は、送信される画像を画像処理して表示画像を出力する。以下、入力される画像として、第1画像が全天球画像である例で説明する。なお、パノラマ画像は、例えば、全天球画像である。
また、この例では、撮影装置1及びスマートフォン2は、有線又は無線で接続される。そして、スマートフォン2は、全天球画像等のデータを撮影装置1からダウンロードする。なお、接続は、ネットワーク等を介してもよい。なお、情報処理システム10は、複数の光学系を用いて撮影した複数の画像を撮影装置1からスマートフォン2に送信し、スマートフォン2で複数の画像を合成し、全天球画像を生成してもよい。
さらに、全体構成は、図1に示す構成に限られない。例えば、撮影装置1及びスマートフォン2は、一体の装置であってもよい。このほか、情報処理装置は、PC(Personal Computer)又はタブレット等でもよい。また、情報処理システム10は、撮影装置1及びスマートフォン2以外に、更に撮影装置又は情報処理装置等を有してもよい。
<撮影装置例>
図2は、本発明の一実施形態に係る撮影装置の一例を説明する図である。具体的には、図2(a)は、撮影装置1の正面図の一例である。また、図2(b)は、撮影装置1の左側面図の一例である。さらに、図2(c)は、撮影装置1の平面図の一例である。
そして、撮影装置1は、前面撮影素子1H1と、後面撮影素子1H2と、スイッチ1H3とを有する。この例では、前面撮影素子1H1及び後面撮影素子1H2等の光学系が、撮影に用いられる。そして、それぞれの光学系を用いて撮影されたそれぞれの画像に基づいて、撮影装置1は、全天球画像を生成する。
さらに、撮影装置1は、複数箇所にマイクロフォンを有する。例えば、撮影装置1には、マイクロフォンが4個配置される。撮影装置1は、4箇所で撮影装置1の周囲の音を収音し、音の信号が撮影装置1に入力される。
具体的には、図2では、撮影装置1の前面側に、マイクロフォン1HM1、マイクロフォン1HM2及びマイクロフォン1HM3が配置される。さらに、撮影装置1の後面側に、マイクロフォン1HM4が配置される。なお、マイクロフォンの数及び配置される位置は、図2に示す配置に限られない。マイクロフォンは、複数であればより臨場感のある音を出力できる。ただし、マイクロフォンの数は、4個以上、すなわち、音声を入力する箇所は、4箇所以上であるのが望ましい。
マイクロフォンは、指向性マイクロフォンであってもよいし、無指向性マイクロフォンであってもよい。指向性マイクロフォンを用いた場合には、撮影装置1は、各マイクロフォンによって、特定の方向の音を取得することができる。一方で、無指向性マイクロフォンを用いた場合には、撮影装置1は、各マイクロフォンのキャリブレーションを容易に行うことができる。さらに、マイクロフォンは、指向性マイクロフォンと、無指向性マイクロフォンとの組み合わせでもよい。マイクロフォンのうち、少なくとも1つが無指向性であると、キャリブレーションを容易に行うことができると共に、安価で、個体ばらつきが少なくなる。
また、スイッチ1H3は、シャッタボタンである。スイッチ1H3は、ユーザが撮影装置1に対して撮影の指示を行うための入力装置の例である。
図2(a)のように、スイッチ1H3がユーザによって押されると、シャッタを切る制御が行われ、撮影装置1は、撮影を行う。このほか、情報処理システム10は、スマートフォン2等の情報処理装置から、遠隔でシャッタを切る操作が入力される構成でもよい。そして、前面撮影素子1H1と、後面撮影素子1H2とによって、撮影装置1の全方位が撮影される。
図3は、本発明の一実施形態に係る撮影装置によって撮影された画像の一例を説明する図である。具体的には、図3(a)は、前面撮影素子1H1によって撮影される画像の一例である。一方で、図3(b)は、後面撮影素子1H2によって撮影される画像の一例である。
そして、図3(c)は、図3(a)の前面撮影素子1H1によって撮影される画像と、図3(b)の後面撮影素子1H2によって撮影される画像とに基づいて生成される画像の一例である。
まず、前面撮影素子1H1によって撮影される画像は、撮影装置1の前方側の広い範囲、例えば、画角で180°以上の範囲を撮影範囲とする画像である。同様に、後面撮影素子1H2によって撮影される画像は、撮影装置1が撮影する範囲のうち、後方側の広い範囲、例えば、画角で180°の範囲を撮影範囲とする画像である。光学系として、魚眼レンズを用いる場合、歪曲収差を有する場合が多い。すなわち、図3(a)及び図3(b)の画像は、それぞれ撮影装置1が撮影する範囲のうち、一方(この例では、前方側である。)及び他方(この例では、後方側である。)の広い範囲を示し、それぞれ半球画像(以下「半球画像」という。)である。
なお、各光学系のそれぞれの画角は、180°以上かつ200°以下の範囲が望ましい。特に、各画角が180°以上を超えると、各半球画像と半球画像を合成する際、重畳する画像領域があるため、撮影装置は、視差がある場合にも全天球画像を生成できる。
次に、撮影装置1は、歪補正処理及び合成処理等の処理を行い、図3(a)に示す前方側の半球画像と、図3(b)の後方側の半球画像とに基づいて、図3(c)の画像を生成する。すなわち、図3(c)の画像は、いわゆるメルカトル(Mercator)図法又は正距円筒図法等の方法で生成される画像、すなわち、全天球画像の例である。撮影装置1から半球画像を情報処理装置に送信し、情報処理装置で全天球画像を生成してもよい。
なお、第1画像は、撮影装置1によって生成される画像に限られない。例えば、第1画像は、他のカメラ等で撮影される画像又は他のカメラで撮影される画像に基づいて生成された画像でもよい。なお、第1画像は、全方位カメラ又はいわゆる広角レンズのカメラ等によって、広い視野角の範囲を撮影した画像であるのが望ましい。
また、以下の説明では、第1画像は、全天球画像を例に説明するが、第1画像は、全天球画像に限られない。例えば、第1画像は、コンパクトカメラ、一眼レフカメラ又はスマートフォン等で撮影された画像でもよい。なお、画像は、水平又は垂直に伸びるパノラマ画像等でもよい。
<撮影装置のハードウェア構成例>
図4は、本発明の一実施形態に係る撮影装置のハードウェア構成の一例を説明するブロック図である。撮影装置1は、撮影ユニット1H4と、画像処理ユニット1H7、撮影制御ユニット1H8と、CPU(Central Processing Unit)1H9と、ROM(Read−Only Memory)1H10とを有する。また、撮影装置1は、SRAM(Static Random Access Memory)1H11と、DRAM(Dynamic Random Access Memory)1H12と、操作I/F(Interface)1H13とを有する。さらに、撮影装置1は、ネットワークI/F1H14と、無線I/F1H15と、アンテナ1H16とを有する。
さらに撮影装置1は、マイクロフォン1HM1、1HM2、1HM3及び1HM4を有する。これらのマイクロフォンによって、撮影装置1は、複数箇所にて音声を入力する。
撮影装置1は、姿勢センサ1H18を有するのが望ましい。
また、撮影装置1が有する各ハードウェアは、バス1H17で接続され、バス1H17を介してデータ又は信号を入出力する。
撮影ユニット1H4は、前面撮影素子1H1と、後面撮影素子1H2とを有する。また、前面撮影素子1H1に対応してレンズ1H5、後面撮影素子1H2に対応してレンズ1H6がそれぞれ設置される。レンズ1H5と、レンズ1H6は、魚眼レンズや広角レンズであることが好ましい。
前面撮影素子1H1及び後面撮影素子1H2は、いわゆるカメラユニットである。具体的には、前面撮影素子1H1及び後面撮影素子1H2は、CMOS(Complementary Metal Oxide Semiconductor)又はCCD(Charge Coupled Device)等の光学センサをそれぞれ有する。そして、前面撮影素子1H1は、レンズ1H5を通して入射する光を変換し、半球画像等を示す画像データを生成する。同様に、後面撮影素子1H2は、レンズ1H6を通して入射する光を変換し、半球画像等を示す画像データを生成する。
次に、撮影ユニット1H4は、前面撮影素子1H1及び後面撮影素子1H2が生成するそれぞれの画像データを画像処理ユニット1H7へ出力する。なお、出力される画像データは、例えば、図3(a)の前方の半球画像及び図3(b)の後方の半球画像等である。
さらに、前面撮影素子1H1及び後面撮影素子1H2は、高画質の撮影を行うため、絞り又はローパスフィルタ等の他の光学要素を更に有してもよい。また、前面撮影素子1H1及び後面撮影素子1H2は、高画質の撮影を行うために、欠陥画素補正又は手振れ補正等を行ってもよい。
画像処理ユニット1H7は、撮影ユニット1H4から入力される画像データに基づいて、図3(c)の全天球画像を生成する。
撮影制御ユニット1H8は、撮影装置1が有するハードウェアを制御する制御装置である。
CPU1H9は、各処理を実現するための演算及びデータの加工を行う演算装置並びにハードウェアの制御を行う制御装置である。例えば、CPU1H9は、あらかじめインストールされるプログラムに基づいて、各処理を実行する。
ROM1H10、SRAM1H11及びDRAM1H12は、記憶装置の例である。例えば、ROM1H10は、CPU1H9に処理を実行させるためのプログラム、データ又はパラメータ等を記憶する。また、SRAM1H11及びDRAM1H12は、CPU1H9がプログラムに基づいて処理を実行するのに用いられるプログラム、プログラムが使用するデータ、プログラムが生成するデータ等を記憶する。なお、撮影装置1は、ハードディスク等の補助記憶装置を更に有してもよい。
操作I/F1H13は、スイッチ1H3等の入力装置と接続され、撮影装置1に対するユーザの操作を入力する処理を行うインタフェースである。例えば、操作I/F1H13は、スイッチ等の入力装置、入力装置を接続するためのコネクタ、ケーブル、入力装置から入力される信号を処理する回路、ドライバ及び制御装置等である。なお、操作I/F1H13は、ディスプレイ等の出力装置を更に有してもよい。また、操作I/F1H13は、入力装置と、出力装置とが一体となったいわゆるタッチパネル等でもよい。さらに、操作I/F1H13は、USB(Universal Serial Bus)等のインタフェースを有し、フラッシュメモリ等の記録媒体を撮影装置1に接続してもよい。これによって、操作I/F1H13は、撮影装置1から記録媒体にデータを入出力してもよい。
なお、スイッチ1H3は、シャッタに係る操作以外の操作を行うための電源スイッチ及びパラメータ入力スイッチ等でもよい。
ネットワークI/F1H14、無線I/F1H15及びアンテナ1H16は、無線又は有線で、外部装置と撮影装置1を接続させる。例えば、撮影装置1は、ネットワークI/F1H14によって、ネットワークに接続し、スマートフォン2へデータを送信する。なお、ネットワークI/F1H14、無線I/F1H15及びアンテナ1H16は、USB等の有線で他の外部装置と接続するハードウェアでもよい。すなわちネットワークI/F1H14、無線I/F1H15及びアンテナ1H16は、コネクタ及びケーブル等でもよい。
バス1H17は、撮影装置1が有するハードウェア間で、データ等を入出力するのに用いられる。すなわち、バス1H17は、いわゆる内部バスである。例えば、バス1H17は、PCI Express(Peripheral Component Interconnect Bus Express)等である。
姿勢センサ1H18は、撮影装置1の姿勢を検知する。例えば、姿勢センサ1H18は、3軸加速度センサ又は角速度センサ等で、複数のセンサの組み合わせでもよい。
なお、撮影装置1は、撮影素子が2つである場合に限られない。例えば、3つ以上の撮影素子を有してもよい。さらに、撮影装置1は、1つの撮影素子の撮影角度を変えて、複数の部分画像を撮影してもよい。
なお、撮影装置1が行う処理は、他の装置が行ってもよい。例えば、処理の一部又は全部は、撮影装置1がデータ及びパラメータ等を送信し、スマートフォン2又はネットワークで接続される他の情報処理装置が行ってもよい。また、情報処理システム10は、複数の情報処理装置を有し、処理を分散、冗長又は並列に行ってもよい。
<情報処理装置のハードウェア構成例>
図5は、本発明の一実施形態に係る情報処理装置のハードウェア構成の一例を説明するブロック図である。情報処理装置の一例であるスマートフォン2は、補助記憶装置2H1と、主記憶装置2H2と、入出力装置2H3と、状態センサ2H4と、CPU2H5と、ネットワークI/F2H6とを有する。さらに、スマートフォン2は、スピーカ2HS1及びスピーカ2HS2を有する。
また、スマートフォン2が有するハードウェアは、バス2H7で接続され、バス2H7を介してデータ又は信号を入出力する。
補助記憶装置2H1は、データ、パラメータ又はプログラム等を記憶する。具体的には、補助記憶装置2H1は、例えば、ハードディスク、フラッシュSSD(Solid State Drive)等である。なお、補助記憶装置2H1が記憶するデータは、ネットワークI/F2H6で接続されるファイルサーバ等が一部又は全部を冗長又は代わりに記憶してもよい。
主記憶装置2H2は、処理を実行するためのプログラムが使用する記憶領域となる、いわゆるメモリ(Memory)等である。すなわち、主記憶装置2H2は、データ、プログラム又はパラメータ等を記憶する。例えば、主記憶装置2H2は、SRAM(Static Random Access Memory)、DRAM等である。なお、主記憶装置2H2は、記憶及び取出を行う制御装置を更に有してもよい。
入出力装置2H3は、画像又は処理結果等を表示する出力装置及びユーザによる操作を入力する入力装置である。具体的には、入出力装置2H3は、いわゆるタッチパネル、周辺回路及びドライバ等である。そして、入出力装置2H3は、例えば、所定のGUI(Graphical User Interface)及び画像処理された画像等をユーザに表示する。一方で、入出力装置2H3は、例えば、表示されるGUI又は画像をユーザが操作すると、ユーザによる操作を入力する。
状態センサ2H4は、スマートフォン2の状態を検出するセンサである。具体的には、状態センサ2H4は、ジャイロ(gyro)センサ、3軸加速度センサ等である。例えば、状態センサ2H4は、スマートフォン2が有する辺のうち、一辺が水平に対して所定の角度以上であるか否かを判定する。すなわち、状態センサ2H4は、スマートフォン2が縦方向の姿勢の状態であるか横方向の姿勢の状態であるかを検出する。
CPU2H5は、各処理を実現するための演算及びデータの加工を行う演算装置並びにハードウェアの制御を行う制御装置である。なお、CPU2H5は、並列、冗長又は分散して処理するために、複数のCPU、デバイス又は複数のコア(core)から構成されてもよい。また、スマートフォン2は、画像処理を行うため、GPU(Graphics Processing Unit)等を内部又は外部に有してもよい。
ネットワークI/F2H6は、無線又は有線で、ネットワークを介して外部装置と接続する。具体的には、ネットワークI/F2H6は、データ等を入出力するためのアンテナ、周辺回路及びドライバ等である。例えば、スマートフォン2は、CPU2H5及びネットワークI/F2H6によって、撮影装置1等から画像データを入力する。一方で、スマートフォン2は、CPU2H5及びネットワークI/F2H6によって、撮影装置1等へデータ等を出力する。
スピーカ2HS1及びスピーカ2HS2は、音声を出力する。スピーカ2HS1及びスピーカ2HS2は、ステレオ出力を行う。なお、スピーカ2HS1及びスピーカ2HS2には、イヤホン又は外部のスピーカ等の外部装置が接続され、接続された外部装置から音声が出力されてもよい。これらのスピーカによって、スマートフォン2は、複数箇所から音声を出力する。また、スピーカの数は、2個以上、すなわち、音声を出力する箇所は、2箇所以上であるのが望ましい。
なお、情報処理装置は、スマートフォンに限られない。情報処理装置は、スマートフォン以外のコンピュータでもよい。例えば、情報処理装置は、HMD(Head Mounted Display)、PC、PDA(Personal Digital Assistance)、タブレット、携帯電話器又はこれらの組み合わせ等でもよい。
<情報処理システムによる全体処理例>
図6は、本発明の一実施形態に係る情報処理システムによる全体処理の一例を説明するシーケンス図である。
<全天球画像の生成例>(ステップS01)
図6のステップS01では、撮影装置1は、全天球画像を生成する。なお、全天球画像は、例えば、撮影装置1による図7の処理によって、図3(a)及び図3(b)の半球画像等から生成される。
図7は、本発明の一実施形態に係る全天球画像の一例を説明する図である。なお、図7(a)は、図3(a)の半球画像を光軸に対して水平方向及び垂直方向の入射角が等位となる箇所を線で結んで示す図である。光軸に対して水平方向の入射角を「θ」、光軸に対して垂直方向の入射角を「φ」という。さらに、図7(b)は、図7(a)と同様に、図3(b)の半球画像を光軸に対して水平方向及び垂直方向の入射角が等位となる箇所を線で結んで示す図である。
また、図7(c)は、メルカトル図法によって処理された画像の一例を説明する図である。具体的には、図7(c)の画像は、図7(a)及び図7(b)の画像をあらかじめ生成されるLUT(LookUpTable)等で対応させ、正距円筒図法で生成される画像である。そして、図7(c)の状態となった後、図7(a)及び図7(b)のそれぞれの画像を図7(d)に示すように合成すると、全天球画像が生成される。合成処理は、図7(c)に示す状態の半球画像を2つ用いて、全天球画像を生成する処理である。なお、図7(d)の合成処理は、図7(c)の状態の半球画像を単に連続して配置する処理に限られない。例えば、全天球画像の水平方向中心がθ=180°でない場合、合成処理において、撮影装置は、まず、図3(a)の半球画像を前処理し、全天球画像の中心に配置する。次に、撮影装置は、生成する画像の左右部分に、図3(b)の半球画像を前処理した画像を左右部分に配置できる大きさに分割し、半球画像を合成して図3(c)の全天球画像を生成してもよい。
なお、全天球画像を生成する処理は、正距円筒図法による処理に限られない。例えば、φ方向において、図7(b)の半球画像が有する画素の並びと、図7(a)の半球画像が有する画素並びとが、上下が逆であり、かつ、θ方向においてそれぞれの画素の並びが左右逆である天地逆転となる場合がある。この場合、撮影装置は、前処理において、図7(b)の半球画像を図7(a)のφ方向及びθ方向の画素の並びと揃えるために、180°Roll回転させる処理等を行ってもよい。
また、全天球画像を生成する処理は、図7(a)及び図7(b)の半球画像が有するそれぞれの歪曲収差を補正する歪補正処理等が行われてもよい。さらに、全天球画像を生成する処理は、シェーディング補正、ガンマ補正、ホワイトバランス、手振れ補正、オプティカル・ブラック補正処理、欠陥画素補正処理、エッジ強調処理又はリニア補正処理等が行われてもよい。なお、合成処理は、半球画像の撮影範囲と、他方の半球画像の撮影範囲とが重複する場合、重複する撮影範囲に撮影される被写体の画素を利用して補正を行うと、精度良く半球画像を合成することができる。
以上の処理によって、撮影装置1は、撮影される複数の半球画像から全天球画像を生成する。なお、全天球画像は、別の処理によって生成されてもよい。
<全天球画像の送信例>(ステップS02)
図6のステップS02では、スマートフォン2は、ネットワーク等を介して、ステップS01によって生成される全天球画像を取得する。スマートフォン2が、図7(d)の全天球画像を取得する場合を例に説明する。
<全天球パノラマ画像の生成例>(ステップS03)
図6のステップS03では、スマートフォン2は、ステップS02で取得される全天球画像から全天球パノラマ画像を生成する。
図8は、本発明の一実施形態に係る全天球パノラマ画像の一例を説明する図である。例えば、ステップS03では、スマートフォン2は、図7(d)の全天球画像から図8の全天球パノラマ画像を生成する。なお、全天球パノラマ画像は、全天球画像を球形状(3Dモデル)に貼り付けた画像である。
全天球パノラマ画像を生成する処理は、OpenGL ES(OpenGL(登録商標) for Embedded Systems)等のAPI(Application Programming Interface)で実現される。具体的には、全天球パノラマ画像は全天球画像が有する画素が三角形に分割される。そして、各三角形の頂点P(以下「頂点P」という。)をつなぎ合わせて、ポリゴンとして貼り付けて生成される。
<全天球パノラマ画像の選択例>(ステップS04)
図6のステップS04では、スマートフォン2は、ユーザから、全天球パノラマ画像を選択させる操作を入力する。具体的には、ステップS04では、スマートフォン2は、ステップS03で生成される全天球パノラマ画像を縮小した画像として、サムネイル(thumbnail)画像形式で複数表示する。
例えば、複数の全天球パノラマ画像がスマートフォン2に記憶されている場合、スマートフォン2は、複数の全天球パノラマ画像から、サムネイル画像を一覧で出力する。そして、スマートフォン2に、サムネイル画像の一覧から、1つのサムネイル画像を選択するユーザの操作が入力される。ステップS04で選択された全天球パノラマ画像が処理対象となって、処理が行われる。
なお、全天球画像が1種類しかない場合又は設定等によって、ステップS04は、省略されてもよい。また、先に全天球画像をサムネイル画像として一覧で出力させてもよい。そして、サムネイル画像の一覧から1つを選択して、選択された全天球画像に基づいて、ステップS03によって全天球パノラマ画像を生成してもよい。
<所定領域の設定及び表示画像の出力例>(ステップS05)
図6のステップS05では、スマートフォン2は、ユーザから、全天球画像が示す範囲(この例では、全方位である。)のうち、画像で出力する領域(以下「所定領域」という。)を設定する。スマートフォン2が、ユーザに出力する画像を「出力画像」という。出力画像は、所定領域を示す画像である。また、所定領域が設定され、最初にスマートフォン2が出力する表示画像を「初期画像」という。
ステップS05では、スマートフォン2は、初期画像を生成する。
図9は、本発明の一実施形態に係る初期画像の一例を説明するための図である。図9(a)は、初期画像の一例としてXYZ軸の3次元座標系を説明する図である。
スマートフォン2は、所定領域Tを「仮想カメラ3」が撮影する範囲として、仮想カメラ3からの視点で表示画像を生成する。また、仮想カメラの初期位置は、座標系の原点(0,0,0)の位置とする。さらに、全天球パノラマ画像が、立体球CSとして表現される。初期状態では、仮想カメラ3は、立体球CSの全天球パノラマ画像に対して、原点から全天球パノラマ画像を見るユーザの視点に相当する。
次に、図9(b)は、所定領域Tの一例を示す3面図である。初期状態では、原点に仮想カメラ3が位置する。さらに、図9(c)は、所定領域Tの一例を投影図である。仮想カメラ3が、所定領域Tを立体球CSに投影している。
また、図9(d)は、所定領域を特定するための位置及び視野角の一例を示す図である。所定領域Tは、仮想カメラ3の3次元座標に相当する視点の位置(X,Y,Z)及び仮想カメラ3の視野角αによって決定される。また、視野角αから所定領域Tが定まると、対角線画角2Lの中点として所定領域Tの中心点CPの2次元座標が定まる。
次に、仮想カメラ3から中心点CPまでの距離は、下記(1)式で示される。
初期設定により、所定領域Tが定まる。そして、所定領域Tに基づいて、初期画像が生成される。例えば、視点の位置(X,Y,Z)及び視野角αの初期設定は、(X,Y,Z,α)=(0,0,0,34)等のようにユーザ等によって設定される。
そして、画角を変える操作、いわゆるズーム操作が入力されると、スマートフォン2は、ズーム処理を行う。なお、ズーム処理は、ユーザによる操作に基づいて、所定領域を拡大又は縮小させ、変更された所定領域に基づいて、表示画像を生成する処理である。
ユーザによるズームの操作によって入力される操作量を「変化量dz」という。まず、ズームの操作が入力されると、スマートフォン2は、変化量dzを取得する。そして、スマートフォン2は、変化量dzに基づいて、下記(2)式を計算する。
なお、上記(2)式における「α」は、図9(d)に示す視野角αである。また、上記(2)式で示す「m」は、ズーム量を調整するための係数であり、あらかじめ設定される値である。さらに、上記(2)式における「α0」は、初期状態における視野角α、いわゆる視野角αの初期値である。
次に、スマートフォン2は、上記(2)式に基づいて計算される視野角αを投影行列に用いて、所定領域Tを決定する。
なお、変化量dzを入力する操作が行われた後、変化量dz2となるズームの操作をユーザが更に行うと、スマートフォン2は、下記(3)式を計算する。
上記(3)式の視野角αは、各操作によって入力されるそれぞれの変化量を合計した値に基づいて計算される。複数の操作が行われても、視野角αの計算から行うことで、スマートフォン2は、一貫した操作性を保つことができる。
なお、ズーム処理は、上記(2)式又は上記(3)式に基づく処理に限られない。例えば、ズーム処理は、仮想カメラ3の視野角α及び視点位置の変更を組み合わせて実現してもよい。具体的には、以下のようなズーム処理が行われてもよい。
図10は、本発明の一実施形態に係る別のズーム処理の一例を説明するための図である。図10に示す立体球CSは、図9に示す立体球CSと同様で、立体球CSの半径を「1」として説明する。
まず、図10に示す原点は、仮想カメラ3の初期位置である。そして、仮想カメラ3は、光軸を移動して位置を変更する。光軸は、図9(a)に示すZ軸と同様である。仮想カメラ3の移動量dは、原点から移動した距離で示す。例えば、仮想カメラ3が原点に位置する初期状態の場合、移動量dは「0」となる。
仮想カメラ3の移動量d及び視野角αに基づいて、図9に示す所定領域Tとなる範囲を図10では画角ωで示す。画角ωは、仮想カメラ3が原点に位置する場合、d=0の画角である。また、d=0の場合、画角ω及び視野角αは、一致する。
一方で、仮想カメラ3が原点から離れ、dの値が「0」より大きい場合、画角ω及び視野角αは、異なる範囲となる。そして、別のズーム処理は、画角ωとなる範囲を変更する処理である。
図11は、本発明の一実施形態に係る別のズーム処理の一例を説明するための表である。なお、説明表4は、画角ωの範囲が60°乃至300°の例を示す。スマートフォン2は、ズーム指定値ZPに基づいて、視野角α及び仮想カメラ3の移動量dのうち、どちらを優先的に変更するかを決定する。
なお、「範囲」は、ズーム指定値ZPに基づいて決定する範囲である。また、「出力倍率」は、別のズーム処理によって決定される画像パラメータに基づいて計算された画像の出力倍率である。さらに、「ズーム指定値ZP」は、出力させる画角に対応する値である。
別のズーム処理は、ズーム指定値ZPに基づいて移動量d及び視野角αの決定する処理を変更する。具体的には、別のズーム処理の行う処理は、ズーム指定値ZPに基づいて、説明表4の4つの方法のいずれかに決定される。ズーム指定値ZPの範囲は、「A〜B」、「B〜C」、「C〜D」及び「D〜E」の4つの範囲に区分される。
また、「画角ω」は、別のズーム処理によって決定した画像パラメータに対応する画角ωである。さらに、「変更するパラメータ」は、ズーム指定値ZPに基づいて4つの方法でそれぞれ変更するパラメータを説明する記載である。「備考」は、「変更するパラメータ」についての備考である。
「viewWH」は、出力領域の幅又は高さを示す値である。例えば、出力領域が横長の場合、「viewWH」は、幅の値を示す。一方で、出力領域が縦長の場合、「viewWH」は、高さの値を示す。すなわち、「viewWH」は、出力領域の長手方向のサイズを示す値である。
「imgWH」は、出力画像の幅又は高さを示す値である。例えば、出力領域が横長の場合、「viewWH」は、出力画像の幅の値を示す。一方で、出力領域が縦長の場合、「viewWH」は、出力画像の高さの値を示す。すなわち、「viewWH」は、出力画像の長手方向のサイズを示す値である。
「imgDeg」は、出力画像の表示範囲の角度を示す値である。具体的には、出力画像の幅を示す場合、「imgDeg」は、360°である。一方で、出力画像の高さを示す場合、「imgDeg」は、180°である。
図12は、本発明の一実施形態に係る別のズーム処理の「範囲」の一例を説明するための図である。別のズーム処理が行われた場合、画像に表示される「範囲」及び画像の例を示す。図12に示す例を用いて、ズームアウトについて説明する。なお、図12の各図における左図は、出力される画像の一例を示す。図12の各図における右図は、出力される際における仮想カメラ3の状態の一例を図10と同様のモデル図で示す図である。
図12(a)は、説明表4の「範囲」が「A〜B」となるズーム指定値ZPが入力された場合の出力される画像及び「範囲」の例を示す。仮想カメラ3の視野角αは、α=60°と固定される。さらに、ズーム指定値ZPが「A〜B」であり、仮想カメラ3の移動量dが、視野角αが固定された状態で変更されるとする。視野角αが固定された状態で、仮想カメラ3の移動量dが大きくなるように変更する例を説明する。移動量dが大きくなる場合、画角ωは広がる。つまり、ズーム指定値ZPを「A〜B」とし、かつ、視野角αを固定し、仮想カメラ3の移動量dを大きくすると、ズームアウト処理が実現できる。なお、ズーム指定値ZPが「A〜B」である場合、仮想カメラ3の移動量dは、「0」から立体球CSの半径までである。具体的には、立体球CSの半径が「1」であるため、仮想カメラ3の移動量dは、「0〜1」の値となる。また、仮想カメラ3の移動量dは、ズーム指定値ZPに対応する値となる。
次に、図12(b)は、説明表4の「範囲」が「B〜C」となるズーム指定値ZPが入力した場合の出力される画像及び「範囲」の例を示す。なお、「B〜C」は、「A〜B」よりズーム指定値ZPが大きい値である。そして、ズーム指定値ZPを「B〜C」とし、仮想カメラ3の移動量dは、仮想カメラ3が立体球CSの外縁に位置する値に固定されるとする。図12(b)の仮想カメラ3の移動量dは、立体球CSの半径である「1」に固定される。また、ズーム指定値ZPが「B〜C」であり、仮想カメラ3の移動量dが固定された状態で、視野角αが変更されるとする。図12(a)から図12(b)に示すように、画角ωは、広がる。つまり、ズーム指定値ZPを「B〜C」とし、かつ、仮想カメラ3の移動量dを固定し、視野角αを大きくすると、ズームアウト処理が実現できる。なお、ズーム指定値ZPが「B〜C」である場合、視野角αは、「ω/2」で計算される。また、ズーム指定値ZPが「B〜C」である場合、視野角αの範囲は、「A〜B」である場合に固定される値である「60°」から、「120°」までとなる。
ズーム指定値ZPが「A〜B」又は「B〜C」の場合、画角ωは、ズーム指定値ZPと一致する。また、ズーム指定値ZPが「A〜B」及び「B〜C」の場合、画角ωは、値が増加する。
図12(c)は、説明表4の「範囲」が「C〜D」となるズーム指定値ZPが入力した場合の出力される画像及び「範囲」の例を示す。なお、「C〜D」は、「B〜C」よりズーム指定値ZPが大きい値である。そして、ズーム指定値ZPを「C〜D」とし、視野角αは、α=120°と固定されるとする。ズーム指定値ZPが「C〜D」、仮想カメラ3の移動量dが、視野角αが固定された状態で変更される場合、画角ωは広がる。また、仮想カメラ3の移動量dは、説明表4のズーム指定値ZPに基づく式によって計算される。なお、ズーム指定値ZPが「C〜D」の場合、仮想カメラ3の移動量dは、最大表示距離dmax1まで変更される。最大表示距離dmax1は、スマートフォン2における出力領域で、立体球CSを最大に表示できる距離である。出力領域は、スマートフォン2が画像等を出力する画面のサイズ等である。さらに、最大表示距離dmax1は、図12(d)に示す状態で、下記(4)式で計算される。
なお、上記(4)式の「viewW」、「viewH」は、それぞれスマートフォン2における出力領域の幅、高さを示す値である。最大表示距離dmax1は、スマートフォン2における出力領域、すなわち、「viewW」及び「viewH」の値等に基づいて計算される。
図12(d)は、説明表4の「範囲」が「D〜E」となるズーム指定値ZPが入力した場合の出力される画像及び「範囲」の例を示す。なお、「D〜E」は、「C〜D」よりズーム指定値ZPが大きい値である。そして、ズーム指定値ZPを「D〜E」とし、視野角αは、α=120°と固定されるとする。図12(d)に示すように、ズーム指定値ZPが「C〜D」であり、仮想カメラ3の移動量dが、視野角αが固定された状態で変更されるとする。また、仮想カメラ3の移動量dは、限界表示距離dmax2まで変更される。なお、限界表示距離dmax2は、スマートフォン2における出力領域で、立体球CSが内接して表示される距離である。具体的には、限界表示距離dmax2は、下記(5)式で計算される。なお、限界表示距離dmax2は、図12(e)に示す状態である。
上記(5)式の限界表示距離dmax2は、スマートフォン2における出力領域である「viewW」及び「viewH」の値に基づいて計算される。また、限界表示距離dmax2は、スマートフォン2が出力できる最大の範囲で、仮想カメラ3の移動量dを大きくできる限界の値を示す。そして、スマートフォン2は、ズーム指定値ZPが説明表4の範囲に収まる値、すなわち、仮想カメラ3の移動量dの値が限界表示距離dmax2以下となるように、入力される値を制限してもよい。この制限によって、スマートフォン2は、出力領域である画面に出力画像をフィットさせた状態又は所定の出力倍率で画像をユーザに出力できる状態となり、ズームアウトを実現できる。そして、「D〜E」の処理によって、スマートフォン2は、ユーザに出力されている画像が全天球パノラマであることを認識させることができる。
なお、ズーム指定値ZPが「C〜D」又は「D〜E」の場合、画角ωは、ズーム指定値ZPと異なる値となる。また、説明表4及び図12で示す各範囲間では、画角ωは、連続しているが、広角側へのズームアウトによって、画角ωは、一様に増加しなくともよい。例えば、ズーム指定値ZPが「C〜D」の場合、画角ωは、仮想カメラ3の移動量dに伴い、増加する。一方で、ズーム指定値ZPが「D〜E」の場合、画角ωは、仮想カメラ3の移動量dに伴い、減少する。なお、この減少は、立体球CSが有する外側の領域が写り込むためである。ズーム指定値ZPが240°以上の広視野域を指定する場合、スマートフォン2は、仮想カメラ3の移動量dを変更することによって、ユーザに違和感の少ない画像を出力し、かつ、画角ωを変化させることができる。
また、ズーム指定値ZPが広角方向に変更されると、画角ωは、広くなる場合が多い。画角ωが広くなる場合、スマートフォン2は、仮想カメラ3の視野角αを固定し、仮想カメラ3の移動量dを大きくする。スマートフォン2は、仮想カメラ3の視野角αを固定することによって、仮想カメラ3の視野角αの増加を少なくし、歪みの少ない画像を出力できる。
仮想カメラ3の視野角αを固定し、スマートフォン2が、仮想カメラ3の移動量dを大きくする、すなわち、仮想カメラ3を遠ざける方向に動かす場合、スマートフォン2は、広角表示の開放感をユーザに与えることができる。また、仮想カメラ3を遠ざける方向に動かす場合、人間が広範囲を確認する際の動きと類似であるため、スマートフォン2は、違和感の少ないズームアウトを実現できる。
ズーム指定値ZPが「D〜E」の場合、画角ωは、ズーム指定値ZPが広角方向に変更するに伴い、減少する。画角ωを減少させることで、スマートフォン2は、ユーザに立体球CSから遠ざかっていく感覚を与えることができ、違和感の少ない画像を出力できる。
図11に示す説明表4の別のズーム処理によって、スマートフォン2は、ユーザに違和感の少ない画像を出力できる。
なお、スマートフォン2は、説明表4で説明する仮想カメラ3の移動量d又は視野角αのみに、変更する場合に限られない。すなわち、スマートフォン2は、説明表4において、優先的に仮想カメラ3の移動量d又は視野角αを変更する形態であればよく、調整のため、固定となる値を十分小さい値変更してもよい。また、スマートフォン2は、ズームアウトを行うに限られない。スマートフォン2は、ズームインを行ってもよい。
<複数箇所での音声入力例>(ステップS06)
図6のステップS06では、撮影装置1は、複数箇所のマイクロフォンで音声を入力する。例えば、撮影装置1のマイクロフォン1HM1、1HM2、1HM3及び1HM4の4箇所で音声が入力される。望ましくは、撮影装置1は、複数箇所で入力されたる音声を処理して、アンビソニックス(Ambisonics)のBフォーマット等のように、各入力音声と、入力音声が発生した方向とが関連付けされるデータ(以下「音声入力データ」という。)を生成する。すなわち、アンビソニックスのBフォーマット等で音声入力データが生成されると、スマートフォン2等は、音声入力データを参照すると、各入力音声が発生した方向がわかる。
<音声入力データの送信例>(ステップS07)
図6のステップS07では、撮影装置1は、音声入力データをスマートフォン2に送信する。以降、スマートフォン2が各処理を行う例で説明する。
<音声入力データを変換して仮想スピーカデータを生成する例>(ステップS08)
図6のステップS08では、スマートフォン2は、音声入力データを変換して、仮想的に配置される複数の仮想スピーカに、音声を出力させるためのデータ(以下「仮想スピーカデータ」という。)を生成する。
図13は、本発明の一実施形態に係る仮想スピーカの配置例を示す模式図である。視点の位置(X,Y,Z)に、聞き手となるユーザURがいる。また、ユーザURは、図9等に示す仮想カメラ3と同じ概念である。
そして、視点であるユーザURを中心として、複数の箇所に、1個ずつ仮想的にスピーカが配置されているものとして処理が行われる。なお、図9に配置されるスピーカが仮想スピーカであるが、実際に設置される装置ではなく、仮想的にユーザURの周辺に配置されるものとして処理が行われる。
撮影装置1が水平状態でされる場合、仮想スピーカはユーザURの前後左右4箇所に配置される。なお、撮影装置が水平状態以外で使用される場合、上下方向(Y軸方向)を考慮して、更に上下に1個ずつ仮想スピーカが追加されてもよい。つまり、仮想スピーカは、6箇所に配置される。仮想スピーカが、ユーザURの前後左右4箇所に配置される4ch(チャンネル)の例を説明する。
具体的には、ユーザURの前方、右手方向、左手方向、及び後方には、それぞれ仮想スピーカVSF、VSR、VSL、及びVSBが配置される。この配置によって、ユーザURの前後左右から音声が出力され、情報処理システムは、臨場感のある出力音声を出力することができる。
4chの仮想スピーカから音声を出力する方法は、"西村竜一 (2014), 5, アンビソニックス(<特集>立体音響技術) The Journal of the Institute of Image Information and Television Engineers,68(8),616―620,http://ci.nii.ac.jp/naid/110009844051"に記載される方法等である。
具体的には、First order Ambisonicsでは、仮想スピーカVSL、VSR、VSF及びVSBから出力される音声として、仮想スピーカデータの例である(L,R,F,B)は、下記(6)式のように計算される。

L=W+k1×Y
R=W−k1×Y
F=W+k1×X
B=W−k1×X ・・・(6)

なお、上記(6)式の「k1」は、あらかじめ設定される係数で、「X」、「Y」及び「W」は、アンビソニックスのBフォーマットが示す4つのデータ(X,Y,Z,W)のうちの3つである。なお、上記(6)式のX,Y,Zは、視点の位置(X,Y,Z)とは異なるデータである。
すなわち、アンビソニックスのBフォーマット形式等の音声入力データは、上記(6)式等によって、仮想スピーカデータに変換される。
図14は、本発明の一実施形態に係る仮想スピーカの配置を変更した第1例を示す模式図である。図13と比較すると、図14は、ユーザURが、原点を中心として左方向RLに、90°回転している。仮想スピーカVSFも、ユーザURの回転に合わせて、左方向RLに、90°回転した位置に配置され、回転した後のユーザURの前方に、配置される。同様に、仮想スピーカVSR、VSL、及びVSBは、回転した後のユーザURの右手方向、左手方向及び後方に配置される。例えば、図13で仮想スピーカVSFから出力された音声が、図14では仮想スピーカVSRから出力される。
ほかにも、ズームイン又はズームアウトが行われた場合、ズーム処理に合わせて、音声が出力されてもよい。
図15は、本発明の一実施形態に係る仮想スピーカの配置の第2例を示す模式図である。図13と比較すると、図14は、ユーザURが、原点を中心として光軸方向(Z軸)に後方SZに移動している。したがって、図14の視野の位置(X,Y,Z)は、Zの座標値のみが、図13から変更される。
また、図13に示す場合の初期状態を図12(a)に対応する状態とすると、図15に示す変更後の状態は、例えば、図12(b)又は図12(c)等に対応する状態である。
所定領域Tが変更される場合、視野角αが一定であっても、所定領域Tとなる範囲が広くなり、画角はω<ω2である。したがって、表示画像は、画角ωの設定より広い範囲を示す画像となる。
そして、仮想スピーカVSF、VSR、VSL及びVSBの配置は、変更の前後で同じ位置とする。そして、情報処理システム10は、仮想スピーカVSFから出力される音声の音量を小さくし、仮想スピーカVSRから出力される音声の音量を大きくする。なお、情報処理システム10は、仮想スピーカVSB及びVSLから出力される音声の音量も変更してよい。
この場合、ユーザURは、後方で発生する音声が大きく聞こえ、前方で発生する音声が小さく聞こえる。したがって、情報処理システム10は、実際に後方SZでユーザURが移動した場合と同じような音声を出力させることができ、臨場感を高めることができる。
また、情報処理システム10は、所定領域Tに基づいて、出力させる音声を限定してもよい。すなわち、情報処理システム10は、所定領域Tの範囲に該当する方向から入力された音声を出力するようにしてもよい。この場合、情報処理システム10は、表示画像に写る被写体に合わせた音声を出力させることができ、臨場感を高めることができる。
図16は、本発明の一実施形態に係る仮想スピーカの配置の第3例を示す模式図である。図16に示す所定領域Tの変更は、図15に示す変更後、図14に示す変更がされた場合の例である。所定領域Tの変更は、回転及び位置の変更を組み合わせた変更でもよい。図16は、図14と同様に、仮想スピーカの配置が変更され、かつ、図15と同様に、仮想スピーカから出力される音声の音量が変更される。
図17は、本発明の一実施形態に係る仮想スピーカの配置の第4例を示す模式図である。図13と比較すると、図17は、ユーザURが、原点を中心として光軸方向(Z軸)の後方SZに第1距離SZ1移動した点が異なる。したがって、図16の視野の位置(X,Y,Z)は、Zの座標値のみが、図13から変更される。
また、図13に示す場合の初期状態を図12(a)に対応する状態とすると、図15に示す変更後の状態は、例えば、図12(d)等の状態である。
そして、仮想スピーカVSF、VSR、VSL及びVSBの配置は、変更の前後で同じ位置とする。ただし、ユーザURの前方に、仮想スピーカVSF、VSR、VSL及びVSBは、配置される。
この場合、仮想スピーカがユーザURの前方に配置されるため、ユーザURは、前方から音声が聞こえる。したがって、情報処理システム10は、実際に後方へ第1距離SZ1分、ユーザURが移動した場合と同じような音声を出力させることができ、臨場感を出すことができる。
図18は、本発明の一実施形態に係る仮想スピーカの配置の第5例を示す模式図である。図17に示す例と比較すると、図18は、ユーザURが、原点を中心として、光軸方向(Z軸)に、第1距離SZ1の位置から、後方SZとなる第2距離SZ2まで移動している。したがって、図18の視野の位置(X,Y,Z)は、Zの座標値のみが、図13から変更される。
また、図13に示す場合の初期状態を図12(a)に対応する状態とすると、図15に示す変更後の状態は、例えば、図12(e)等の状態である。
そして、仮想スピーカVSF、VSR、VSL及びVSBの配置は、例えば、変更の前後で同じ位置とする。ただし、ユーザURの前方に、仮想スピーカVSF、VSR、VSL及びVSBは、配置される。
情報処理システム10は、所定領域T、すなわち、視点の位置(X,Y,Z)及び視野角αに基づいて、音声入力データを仮想スピーカに音声を出力させる仮想スピーカデータを上記(6)式等によって生成する。
<仮想スピーカデータを変換して音声出力データを生成する例>(ステップS09)
図6のステップS09では、スマートフォン2は、仮想スピーカデータを変換して音声出力データを生成する。例えば、上記(6)式によって生成される仮想スピーカデータ(L,R,F,B)は、下記(7)式のように変換され、音声出力データ(L2,R2)となる。

L2=k4×(L+k2×F+k3×B)
R2=k4×(R+k2×F+k3×B) ・・・(7)

上記(7)式では、「k2」、「k3」及び「k4」は、視点の位置(X,Y,Z)に基づいて定まる係数である。
なお、仮想スピーカデータ(L,R,F,B)は、音響伝達関数等によって変換されてもよい。
例えば、スピーカ2HS1及びスピーカ2HS2がイヤホン又はヘッドホン等に音声を出力する場合、仮想スピーカデータ(L,R,F,B)は、頭部伝達関数(HRTF(Head−Related Transfer Function))等によって変換されるのが望ましい。
一方で、スピーカ2HS1及びスピーカ2HS2が備え付けのスピーカ等に音声を出力する場合、仮想スピーカデータ(L,R,F,B)は、室伝達関数(RTF(Room Transfer Function))等によって変換されるのが望ましい。
音声は、壁による反射又は障害物による回折等の影響を受けて変形する場合がある。そこで、室伝達関数を用いると、情報処理システム10は、出力音声に、反射等による変形の特性を反映できる。
また、上記(7)式等において、「F」と「B」との間、「L」と「R」との間又はこれらの間両方に、位相差をつけるため、遅延が設定されてもよい。遅延が設定されると、距離感が強調できる。
<音声出力データに基づく出力音声の出力例>(ステップS10)
図6のステップS10では、スマートフォン2は、音声出力データに基づいて、出力音声を出力する。具体的には、上記(7)等によって、音声出力データ(L2,R2)が生成されると、スマートフォン2は、音声出力データ(L2,R2)が示す各音声をスピーカ2HS1及びスピーカ2HS2(図5)に振り分けて出力する。
なお、図では、表示画像を生成及び出力するための処理と、音声に係る処理とを分けて説明したが、情報処理システム10は、これらの処理を並列して行ってもよい。
<機能構成例>
図19は、本発明の一実施形態に係る情報処理システムの機能構成例を示す機能ブロック図である。情報処理システム10は、音声入力部10F1、第1変換部10F2、設定部10F3、撮影部10F4、第2変換部10F5、音声出力部10F6及び画像出力部10F7を備える。
音声入力部10F1は、撮影部10F4が撮影する範囲から、入力音声VINを複数箇所で入力して、音声入力データDINを生成する音声入力手順を行う。例えば、音声入力部10F1は、マイクロフォン1HM1、1HM2、1HM3及び1HM4(図4)等によって実現される。
第1変換部10F2は、第1の変換部の例であって、所定領域T(図9)に基づいて、音声入力データDINを変換して、仮想スピーカデータDVSを生成する第1の変換手順を行う。例えば、第1変換部10F2は、CPU2H5(図5)等の演算装置によって実現される。
設定部10F3は、所定領域Tを特定する視点の位置(X,Y,Z)及び視点の視野角αを設定する設定手順を行う。例えば、設定部10F3は、入出力装置2H3(図5)等によって実現される。
撮影部10F4は、複数の画像を撮影する撮影手順を行う。例えば、撮影部10F4は、図4に示す撮影装置1等によって実現される。
第2変換部10F5は、仮想スピーカデータDVSを変換して音声出力データDOUTを生成する第2変換手順を行う。例えば、第2変換部10F5は、CPU2H5(図5)等の演算装置によって実現される。
音声出力部10F6は、音声出力データDOUTに基づいて、複数箇所から出力音声VOUTを出力する音声出力手順を行う。例えば、音声出力部10F6は、スピーカ2HS1及びスピーカ2HS2(図5)等によって実現される。
画像出力部10F7は、撮影部10F4が撮影する複数の画像に基づいて、表示画像IMGOUTを出力する画像出力手順を行う。例えば、画像出力部10F7は、入出力装置2H3(図5)等によって実現される。
図19の機能構成により、情報処理システム10は、まず、撮影部10F4によって撮影される複数の半球画像等から全天球画像を生成する(図3)。そして、情報処理システム10は、音声入力部10F1によって、入力音声VINを複数箇所で入力する。入力音声VINが複数箇所で入力されると、情報処理システム10は、アンビソニックスのBフォーマット等の音声入力データDINを生成する。
設定部10F3は、所定領域Tを特定するパラメータである視点の位置(X,Y,Z)及び視点の視野角αを設定する。この設定に基づいて、図9に示すように、全天球画像が示す全範囲のうち、表示画像IMGOUTに出力される範囲が定まる。
第1変換部10F2は、所定領域T、すなわち、視点の位置(X,Y,Z)及び視点の視野角αによって定まる表示画像IMGOUTに合わせた音声入力データDINを生成する。具体的には、ユーザURは、情報処理システム10に、所定領域Tをズーム、並行移動又は回転させる操作を入力する。例えば、ズームの操作が入力されると、所定領域T及び表示画像IMGOUTは、図12に示すように、変更される。
そこで、情報処理システム10は、視点の位置(X,Y,Z)及び視点の視野角αに合わせて、図13乃至図18のように、仮想スピーカVSF、VSR、VSL及びVSB等の仮想スピーカをユーザURの周辺に配置する。
第1変換部10F2は、仮想スピーカVSF、VSR、VSL及びVSBからの出力を上記(6)式等で計算する。この計算に基づいて、仮想スピーカデータ(L,R,F,B)が生成される。
仮想スピーカデータ(L,R,F,B)の場合、情報処理システム10は、表示画像IMGOUTに合わせた出力音声VOUTを出力できるため、臨場感のある音声を出力できる。例えば、表示画像IMGOUTに合う方向から、情報処理システム10は、立体音声となる出力音声VOUTを出力できる。
第2変換部10F5は、仮想スピーカデータ(L,R,F,B)を変換して音声出力データDOUTを生成する。この変換に基づいて、音声出力部10F6を実現するハードウェア等に適した出力音声VOUTを示す音声出力データDOUTを生成される。
また、状態センサ2H4(図5)等がある場合、情報処理システム10は、スマートフォン2の姿勢を検出できる。例えば、スマートフォン2が縦置き方向であるか、横置き方向であるかによって、音声出力部10F6を実現するハードウェアの配置が変わる場合がある。縦置き方向の場合、スピーカ2HS1及びスピーカ2HS2も、縦置き方向の配置になり、一方で、横置き方向の場合、スピーカ2HS1及びスピーカ2HS2も、横置き方向の配置となる。そこで、情報処理システム10は、状態センサ2H4等によって、ハードウェアの配置を検出する。そして、情報処理システム10は、ハードウェアの配置に合わせて、音声出力データDOUTを生成してもよい。
したがって、第2変換部10F5の変換に基づいて、HRTF又はRTF等の音響伝達関数からハードウェアに適した音声に変換できるため、臨場感のある音声が出力できる。
他にも、第2変換部10F5の変換に基づいて、音声出力部10F6を実現するハードウェアが、5.1ch等であっても、臨場感のある音声が出力できる。
なお、音声入力部10F1は、音声出力部10F6より多い箇所で入力音声VINを入力するのが望ましい。例えば、マイクロフォンの数は、スピーカの数より多い方が望ましい。この場合、情報処理システム10は、出力音声VOUTの音質を向上できる。
アンビソニックス方式を用いると、位相差を表現できる。さらに、図19の機能構成により、情報処理システム10は、位相差のある音声の音量レベルに差を表現できる。具体的には、左右の位相差ILD(両耳間レベル差、Interaural Level Difference)がある音声は、両耳間時間差ITD(Interaural Time Difference)又は位相差IPD(Interaural Phase Difference)をつけると、臨場感を高めることができる。
また、複数箇所で、入力音声VINを入力し、複数の入力音声VINの間で音声のレベル差が所定値以上に違う場合、情報処理システム10は、最もダイナミックレンジの大きいマイクロフォンで入力した入力音声VINを選択する。したがって、情報処理システム10は、モノラル信号を取得でき、入力音声VINの異常を検出できる。
他にも、異常は、相関係数等から得られてもよい。特に、マイクロフォンが無指向性である場合、入力音声VINの間に差がつきにくいため、相関係数は、差がつきにくい。したがって、相関係数に基づいて、情報処理システム10は、異常を検出できる。
<他の実施形態>
なお、本発明に係る実施形態は、プログラミング言語等で記述されるプログラムによって実現されてもよい。すなわち、本発明に係る実施形態は、情報処理装置等のコンピュータに情報処理方法を実行させるためのプログラムによって実現されてもよい。なお、プログラムは、フラッシュメモリ、SD(登録商標)カード又は光学ディスク等の記録媒体に記憶して頒布することができる。また、プログラムは、インターネット等の電気通信回線を通じて頒布することができる。
また、本発明に係る実施形態において、処理の一部又は全部は、例えば、フィールド・プログラマブル・ゲート・アレイ(FPGA)等のプログラマブル・デバイス(PD)で処理され、実現されてもよい。さらに、本発明に係る実施形態において、処理の一部又は全部は、ASIC(Application Specific Integrated Circuit)で処理され、実現されてもよい。
また、情報処理装置は、1つの情報処理装置に限られず、複数の情報処理装置で構成されてもよい。すなわち、本発明に係る実施形態は、1以上の情報処理装置を有する情報処理システムによって実現されてもよい。
以上、本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されない。すなわち、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
10 情報処理システム
1 撮影装置
2 スマートフォン
VIN 入力音声
VOUT 出力音声
VSF、VSR、VSL、VSB 仮想スピーカ
DIN 音声入力データ
DOUT 音声出力データ
特許第6044328号公報

Claims (8)

  1. 複数の画像を撮影する撮影装置と接続される情報処理装置を有する情報処理システムであって、
    複数の音声を入力する音声入力部と、
    前記複数の画像に基づいて、表示画像を出力する画像出力部と、
    前記表示画像に出力される所定領域を設定する設定部と、
    前記所定領域に基づいて、前記音声入力部に入力された複数の音声を変換する第1の変換部と、
    前記第1の変換部で変換された複数の音声を出力する音声出力部と
    を備える情報処理システム。
  2. 前記設定部は、所定領域として、3次元座標で定まる位置と、仮想カメラの画角である視野角と、を設定する請求項1に記載の情報処理システム。
  3. 前記音声入力部に入力される音声には、前記音声が発生した方向が関連付けられる請求項1又は2に記載の情報処理システム。
  4. 前記音声入力部は、4箇所以上でそれぞれ前記音声を入力し、
    前記音声出力部は、2箇所以上で前記変換された音声を出力する請求項1乃至3のいずれか1項に記載の情報処理システム。
  5. 前記音声入力部は、前記音声出力部より多い箇所で前記複数の音声を入力する請求項4に記載の情報処理システム。
  6. 前記第1の変換部は、前記位置、前記視野角又はこれらの組み合わせが変更されると、仮想スピーカの配置又は仮想スピーカからの出力を変更する請求項2に記載の情報処理システム。
  7. 複数の画像を撮影する撮影装置と接続される情報処理装置を有する情報処理システムが行う情報処理方法であって、
    前記情報処理システムが、複数の音声を入力する音声入力手順と、
    前記情報処理システムが、前記複数の画像に基づいて、表示画像を出力する画像出力手順と、
    前記情報処理システムが、前記表示画像に出力される所定領域を設定する設定手順と、
    前記情報処理システムが、前記所定領域に基づいて、前記音声入力手順によって入力された複数の音声を変換する第1の変換手順と、
    前記情報処理システムが、前記第1の変換手順で変換された複数の音声を出力する音声出力手順と
    を有する情報処理方法。
  8. 複数の画像を撮影する撮影装置と接続される情報処理装置を有するコンピュータに情報処理方法を実行させるためのプログラムであって、
    前記コンピュータが、複数の音声を入力する音声入力手順と、
    前記コンピュータが、前記複数の画像に基づいて、表示画像を出力する画像出力手順と、
    前記コンピュータが、前記表示画像に出力される所定領域を設定する設定手順と、
    前記コンピュータが、前記所定領域に基づいて、前記音声入力手順によって入力された複数の音声を変換する第1の変換手順と、
    前記コンピュータが、前記第1の変換手順で変換された複数の音声を出力する音声出力手順と
    を実行させるためのプログラム。
JP2017051242A 2017-03-16 2017-03-16 情報処理システム、情報処理方法及びプログラム Pending JP2018157314A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017051242A JP2018157314A (ja) 2017-03-16 2017-03-16 情報処理システム、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017051242A JP2018157314A (ja) 2017-03-16 2017-03-16 情報処理システム、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2018157314A true JP2018157314A (ja) 2018-10-04

Family

ID=63718356

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017051242A Pending JP2018157314A (ja) 2017-03-16 2017-03-16 情報処理システム、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2018157314A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020088516A (ja) * 2018-11-20 2020-06-04 株式会社竹中工務店 テレビ会議システム
JP2020123172A (ja) * 2019-01-30 2020-08-13 株式会社リコー 撮像システム、現像システム、撮像方法、及びプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH067368U (ja) * 1991-09-17 1994-01-28 日本電気ホームエレクトロニクス株式会社 立体音場収音装置及びこの立体音場収音装置を用いたビデオカメラ及び立体音場収音装置付ビデオカメラ
JP2001086588A (ja) * 1999-09-10 2001-03-30 Canon Inc 音声信号処理装置及び方法、並びに電子機器
JP2005311604A (ja) * 2004-04-20 2005-11-04 Sony Corp 情報処理装置及び情報処理装置に用いるプログラム
US20120206565A1 (en) * 2011-02-10 2012-08-16 Jason Villmer Omni-directional camera and related viewing software
JP2013150202A (ja) * 2012-01-20 2013-08-01 Nippon Hoso Kyokai <Nhk> 送受信システム及び送受信方法、受信装置及び受信方法
JP2015139162A (ja) * 2014-01-23 2015-07-30 キヤノン株式会社 音響信号処理装置、動画撮影装置およびそれらの制御方法
US20160005435A1 (en) * 2014-07-03 2016-01-07 Gopro, Inc. Automatic generation of video and directional audio from spherical content
JP2016010021A (ja) * 2014-06-25 2016-01-18 株式会社リコー 画像・音声配信システム、画像・音声配信装置および画像・音声配信プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH067368U (ja) * 1991-09-17 1994-01-28 日本電気ホームエレクトロニクス株式会社 立体音場収音装置及びこの立体音場収音装置を用いたビデオカメラ及び立体音場収音装置付ビデオカメラ
JP2001086588A (ja) * 1999-09-10 2001-03-30 Canon Inc 音声信号処理装置及び方法、並びに電子機器
JP2005311604A (ja) * 2004-04-20 2005-11-04 Sony Corp 情報処理装置及び情報処理装置に用いるプログラム
US20120206565A1 (en) * 2011-02-10 2012-08-16 Jason Villmer Omni-directional camera and related viewing software
JP2013150202A (ja) * 2012-01-20 2013-08-01 Nippon Hoso Kyokai <Nhk> 送受信システム及び送受信方法、受信装置及び受信方法
JP2015139162A (ja) * 2014-01-23 2015-07-30 キヤノン株式会社 音響信号処理装置、動画撮影装置およびそれらの制御方法
JP2016010021A (ja) * 2014-06-25 2016-01-18 株式会社リコー 画像・音声配信システム、画像・音声配信装置および画像・音声配信プログラム
US20160005435A1 (en) * 2014-07-03 2016-01-07 Gopro, Inc. Automatic generation of video and directional audio from spherical content

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020088516A (ja) * 2018-11-20 2020-06-04 株式会社竹中工務店 テレビ会議システム
JP7070910B2 (ja) 2018-11-20 2022-05-18 株式会社竹中工務店 テレビ会議システム
JP2020123172A (ja) * 2019-01-30 2020-08-13 株式会社リコー 撮像システム、現像システム、撮像方法、及びプログラム
JP7268369B2 (ja) 2019-01-30 2023-05-08 株式会社リコー 撮像システム、現像システム、撮像方法、及びプログラム

Similar Documents

Publication Publication Date Title
JP7408678B2 (ja) 画像処理方法およびヘッドマウントディスプレイデバイス
JP5920507B1 (ja) 画像処理システム、画像処理方法およびプログラム
JP5835383B2 (ja) 情報処理方法、情報処理装置、およびプログラム
US10681276B2 (en) Virtual reality video processing to compensate for movement of a camera during capture
JP2019030007A (ja) 複数のカメラを用いて映像を取得するための電子装置及びこれを用いた映像処理方法
JP2014127001A (ja) 画像処理システム、画像処理方法およびプログラム
JP5743016B2 (ja) 画像を生成する装置および方法
JP2015176560A (ja) 情報処理方法、情報処理装置、およびプログラム
JP7205386B2 (ja) 撮像装置、画像処理方法、プログラム
JP6350695B2 (ja) 装置、方法、およびプログラム
CN113573120B (zh) 音频的处理方法及电子设备、芯片系统及存储介质
JP2018157314A (ja) 情報処理システム、情報処理方法及びプログラム
JP2021121121A (ja) 撮像装置、撮像システムおよび再生装置
JP6583486B2 (ja) 情報処理方法、情報処理プログラムおよび情報処理装置
JP2016171577A (ja) 撮像装置および撮像システム
WO2017159014A1 (ja) 画像処理装置、画像処理方法及び画像処理システム
JP6673459B2 (ja) 画像処理装置、画像処理システム及びプログラム
JP6128185B2 (ja) 装置、方法、およびプログラム
JP2019008494A (ja) 画像処理装置
JP2012191380A (ja) カメラ、画像変換装置、及び画像変換方法
JP2017062831A (ja) 方法および画像処理装置
JP2019204560A (ja) プログラム
JP2019140667A (ja) 情報処理装置、情報処理システム、データ生成方法およびプログラム
WO2022220306A1 (ja) 映像表示システム、情報処理装置、情報処理方法、及び、プログラム
JP7400430B2 (ja) 撮像装置、画像生成方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210303

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210810