JP5597956B2

JP5597956B2 - 音声データ合成装置

Info

Publication number: JP5597956B2
Application number: JP2009204601A
Authority: JP
Inventors: 英史太田
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2009-09-04
Filing date: 2009-09-04
Publication date: 2014-10-01
Anticipated expiration: 2029-09-04
Also published as: US20120154632A1; JP2011055409A; CN102483928B; WO2011027862A1; CN102483928A; US20150193191A1

Description

本発明は、光学系による光学像を撮像する撮像部を備える音声データ合成装置に関する。

近年、撮像装置において、音声を録音するマイクを１つ搭載するものが知られている（例えば、特許文献１参照）。

特開２００５−２１５０７９号公報

しかしながら、１つのマイクから得られたモノラルの音声データは、２つのマイクから得られるステレオの音声に比べて、音声が発生した位置や方向の検出が困難である。このため、このような音声データをマルチスピーカにおいて再生した場合、十分な音響効果が得られないという問題があった。

本発明は、このような事情に鑑みてなされたもので、マイクを搭載する小型装置において、マイクによって得られる音声データがマルチスピーカにおいて再生された場合に、音響効果を向上させることができる音声データを生成する音声データ合成装置を提供することを目的とする。

本発明の音声データ合成装置は、光学系による対象の像を撮像し、画像データを生成する撮像部と、音声データを取得する音声データ取得部と、前記音声データから前記対象の発生する第１音声データと、当該第１音声データ以外の第２音声データとを分離する音声データ分離部と、マルチスピーカへ出力する音声データのチャンネル毎に、当該チャンネルに設定されたゲイン及び位相調整量により、ゲインと位相とを制御した前記第１音声データと前記第２音声データとを合成する音声データ合成部と、前記対象の像に対して焦点を合わせる位置に前記光学系を移動させる制御信号を出力するとともに、前記光学系と対象との位置関係を示す位置情報を得る撮像制御部と、前記位置情報に基づき前記ゲインおよび位相を算出する制御係数決定部と、を有することを特徴とする。

以上説明したように、本発明によれば、マイクを搭載する小型装置において、マイクによって得られる音声データがマルチスピーカにおいて再生された場合に、音響効果を向上させることができる音声データを生成することができる。

本発明の一実施の形態に係る音声データ合成装置を含む撮像装置の一例を示す概略斜視図である。図１に示す撮像装置の構成の一例を示すブロック図である。本発明の一実施の形態に係る音声データ合成装置の構成の一例を示すブロック図である。本発明の一実施の形態に係る音声データ合成装置に含まれる発音期間検出部によって検出される発音期間について説明する概略図である。本発明の一実施の形態に係る音声データ合成装置に含まれる音声データ分離部における処理によって得られる周波数帯域を示す概略図である。本発明の一実施の形態に係る音声データ合成装置に含まれる音声データ合成部による処理の一例を説明するための概念図である。本発明の一実施の形態に係る音声データ合成装置に含まれる光学系を介して被写体の光学像が撮像素子に形成される際の被写体と光学像の位置関係について説明する概略図である。本発明の一実施の形態に係る撮像装置が撮像した動画を説明するための参考図である。本発明の一実施の形態に係る音声データ合成装置に含まれる発音期間検出部によって発音期間が検出される方法の一例を説明するためのフローチャートである。本発明の一実施の形態に係る音声データ合成装置に含まれる音声データ分離部および音声データ合成部による音声データの分離と合成方法の一例を説明するためのフローチャートである。図８に示す例において得られるゲインと位相調整量を示す参考図である。

以下、図面を参照して、本発明に係る撮像装置の一実施形態について説明する。
図１は、本発明の一実施の形態に係る音声データ合成装置を含む撮像装置１の一例を示す概略斜視図である。なお、撮像装置１は、動画データを撮像可能な撮像装置であって、複数のフレームとして複数の画像データを連続して撮像する装置である。

図１に示す通り、撮像装置１は、撮影レンズ１０１ａと、音声データ取得部１２と、操作部１３とを備える。また、操作部１３は、ユーザからの操作入力を受けつけるズームボタン１３１と、レリーズボタン１３２と、電源ボタン１３３とを含む。
このズームボタン１３１は、撮影レンズ１０１ａを移動させて焦点距離を調整する調整量の入力をユーザから受け付ける。また、レリーズボタン１３２は、撮影レンズ１０１ａを介して入力される光学像の撮影の開始を指示する入力と、撮影の終了を指示する入力を受け付ける。さらに、電源ボタン１３３は、撮像装置１を起動させる電源オンの入力と、撮像装置１の電源を切断する電源オフの入力を受け付ける。
音声データ取得部１２は、撮像装置１の前面（すなわち、撮像レンズ１０１ａが取り付けられている面）に設けられており、撮影時に発生している音声の音声データを取得する。なお、この撮像装置１においては予め方向が決められており、Ｘ軸の正方向が左、Ｘ軸の負方向が右、Ｚ軸の正方向が前、Ｚ軸の負方向が後と決められている。

次に、図２を用いて、撮像装置１の構成例について説明する。図２は、撮像装置１の構成の一例を説明するためのブロック図である。
図２示すとおり、本実施形態に係る撮像装置１は、撮像部１０と、ＣＰＵ（ Central processing unit ）１１と、音声データ取得部１２と、操作部１３、画像処理部１４と、表示部１５と、記憶部１６と、バッファメモリ部１７と、通信部１８と、バス１９とを備える。

撮像部１０は、光学系１０１と、撮像素子１０２と、Ａ/Ｄ（ Analog / Digital ）変換部１０３と、レンズ駆動部１０４と、測光素子１０５とを含み、設定された撮像条件（例えば絞り値、露出値等）に従ってＣＰＵ１１により制御されて、光学系１０１による光学像を撮像素子１０２に結像させ、Ａ/Ｄ変換部１０３によってデジタル信号に変換された当該光学像に基づく画像データを生成する。
光学系１０１は、ズームレンズ１０１ａと、焦点調整レンズ（以下、ＡＦ（ Auto Focus ）レンズという）１０１ｂと、分光部材１０１ｃとを備える。光学系１０１は、ズームレンズ１０１ａ、ＡＦレンズ１０１ｂおよび分光部材１０１ｃを通過した光学像を撮像素子１０２の撮像面に導く。また、光学系１０１は、ＡＦレンズ１０１ｂと撮像素子１０２との間で分光部材１０１ｃによって分離された光学像を測光素子１０５の受光面に導く。
撮像素子１０２は、撮像面に結像した光学像を電気信号に変換して、Ａ/Ｄ変換部１０３に出力する。
また、撮像素子１０２は、操作部１３のレリーズボタン１３２を介して撮影指示を受け付けた際に得られる画像データを、撮影された動画の画像データとして、記憶媒体２０に記憶させるとともに、ＣＰＵ１１および表示部１４に出力する。

Ａ/Ｄ変換部１０３は、撮像素子１０２によって変換された電子信号をデジタル化して、デジタル信号である画像データを出力する。
レンズ駆動部１０４は、ズームレンズ１０１ａの位置を表わすズームポジション、およびＡＦレンズ１０１ｂの位置を表わすフォーカスポジションを検出する検出手段と、ズームレンズ１０１ａおよびＡＦレンズ１０１ｂを移動させる駆動手段とを有する。このレンズ駆動部１０４は、検出手段によって検出されたズームポジションおよびフォーカスポジションをＣＰＵ１１に出力する。さらに、これらの情報に基づきＣＰＵ１１によって駆動制御信号が生成されると、レンズ駆動部１０４の駆動手段は、この駆動制御信号に従って両レンズの位置を制御する。
測光素子１０５は、分光部材１０１ｃで分離された光学像を受光面に結像させ、光学像の輝度分布を表わす輝度信号を得て、Ａ/Ｄ変換部１０３に出力する。

ＣＰＵ１１は、撮像装置１を統括的に制御するメイン制御部であって、撮像制御部１１１を備える。
撮像制御部１１１は、レンズ駆動部１０４の検出手段によって検出されたズームポジションおよびフォーカスポジションが入力され、これらの情報に基づき駆動制御信号を生成する。
この撮像制御部１１１は、例えば、後に説明する発音期間検出部２１０によって撮像対象の顔が認識されると、撮像対象の顔にピントを合わせるようにＡＦレンズ１０１ｂを移動させながら、レンズ駆動部１０４によって得られたフォーカスポジションに基づき、焦点から撮像素子１０２の撮像面までの焦点距離ｆを算出する。なお、撮像制御部１１１は、この算出した焦点距離ｆを、後に説明するずれ角検出部２６０に出力する。

また、ＣＰＵ１１は、連続して撮像部１０によって取得される画像データと、連続して音声データ取得部１２によって取得される音声データとに対して、互いに同じ時間軸において、撮像を開始した時からのカウントされる経過時間を表わす同期情報を付与する。これにより、音声データ取得部１２によって取得された音声データと、撮像部１０によって取得された画像データとは同期している。

音声データ取得部１２は、例えば撮像装置１の周辺の音声を取得するマイクロフォンであって、取得した音声の音声データを、ＣＰＵ１１に出力する。

操作部１３は、上述の通り、ズームボタン１３１と、レリーズボタン１３２と、電源ボタン１３３とを含み、ユーザによって操作されることでユーザの操作入力を受け付け、ＣＰＵ１１に出力する。
画像処理部１４は、記憶部１６に記憶されている画像処理条件を参照して、記憶媒体２０に記録されている画像データに対して画像処理を行う。
表示部１５は、例えば液晶ディスプレイであって、撮像部１０によって得られた画像データや、操作画面等を表示する。
記憶部１６は、ＣＰＵ１１によってゲインや位相調整量が算出される際に参照される情報や、撮像条件等の情報を記憶する。
バッファメモリ部１７は、撮像部１０によって撮像された画像データ等を、一時的に記憶する。

通信部１８は、カードメモリ等の取り外しが可能な記憶媒体２０と接続され、この記憶媒体２０への情報の書込み、読み出し、あるいは消去を行う。
バス１９は、撮像部１０と、ＣＰＵ１１と、音声データ取得部１２、操作部１３と、画像処理部１４と、表示部１５と、記憶部１６と、バッファメモリ部１７と、通信部１８とそれぞれ接続され、各部から出力されたデータ等を転送する。
記憶媒体２０は、撮像装置１に対して着脱可能に接続される記憶部であって、例えば、撮像部１０によって取得された画像データと、音声データ取得部１２によって取得された音声データとを記憶する。

次に、本実施形態に係る音声データ合成装置について、図３を用いて説明する。図３は、本実施形態に係る音声データ合成装置の構成の一例を示すブロック図である。
図３に示す通り、音声データ合成装置は、撮像部１０と、音声データ取得部１２と、ＣＰＵ１１に含まれる撮像制御部１１１と、発音期間検出部２１０と、音声データ分離部２２０と、音声データ合成部２３０と、距離測定部２４０と、ずれ量検出部２５０と、ずれ角検出部２６０と、多チャンネルゲイン算出部２７０と、多チャンネル位相算出部２８０とを備える。

発音期間検出部２１０は、撮像部１０によって撮像された画像データに基づき、撮像対象から音声が発せられている発音期間を検出し、発音期間を表す発音期間情報を音声データ分離部２２０に出力する。
本実施形態において、撮像対象は人物であって、この発音期間検出部２１０は、画像データに対して顔認識処理を行い、撮像対象である人物の顔を認識し、この顔における口の領域の画像データをさらに検出して、この口の形状が変化している期間を発音期間として検出する。

具体的に説明すると、この発音期間検出部２１０は、顔認識機能を備え、撮像部１０によって取得された画像データの中から人物の顔が撮像されている画像領域を検出する。例えば、発音期間検出部２１０は、撮像部１０によってリアルタイムに取得される画像データに対して特徴抽出の処理を行い、顔の形、眼や鼻の形や配置、肌の色等の顔を構成する特徴量を抽出する。この発音期間検出部２１０は、これら得られた特徴量と、予め決められている顔を表すテンプレートの画像データ（例えば、顔の形、眼や鼻の形や配置、肌の色等を表わす情報）とを比較して、画像データの中から人物の顔の画像領域を検出するともに、この顔において口が位置する画像領域を検出する。
この発音期間検出部２１０は、画像データの中から人物の顔の画像領域を検出すると、この顔に対応する画像データに基づく顔を表わすパターンデータを生成し、この生成した顔のパターンデータに基づき、画像データ内を移動する撮像対象の顔を追尾する。

また、発音期間検出部２１０は、検出された口が位置する画像領域の画像データと、予め決められている口の開閉状態を表すテンプレートの画像データと比較して、撮像対象の口の開閉状態を検出する。
より詳細に説明すると、発音期間検出部２１０は、人物の口が開いている状態を表す口開テンプレートと、人物の口が閉じている状態を表す口閉テンプレートと、これら口開テンプレートあるいは口閉テンプレートと画像データが比較された結果に基づき人物の口が開状態あるいは閉状態であることを判断する判断基準が記憶されている記憶部を内部に備えている。発音期間検出部２１０は、この記憶部を参照して、口が位置する画像領域の画像データと口開テンプレートとを比較して、比較結果に基づき口が開状態であるか否かを判断する。開状態である場合、この口が位置する画像領域を含む画像データを開状態であると判断する。同様にして、発音期間検出部２１０は、閉状態であるか否かを判断し、閉状態である場合、この口が位置する画像領域を含む画像データを閉状態であると判断する。
発音期間検出部２１０は、このようにして得られた画像データの開閉状態が、時系列において変化している変化量を検出し、例えば、この開閉状態が一定期間以上継続して変化している場合、この期間を発音期間として検出する。

これについて、図４を用いて、以下さらに詳細に説明する。図４は、発音期間検出部２１０によって検出される発音期間について説明する概略図である。
図４に示す通り、各フレームに対応する複数の画像データが撮像部１０によって取得されると、発音期間検出部２１０によって上述の通り、口開テンプレートおよび口閉テンプレートと比較され、画像データが口開状態であるか、あるいは口閉状態であるかが判断される。この判断結果が図４に示されており、ここでは、撮像開始時点を０秒として、０．５〜１．２秒間のｔ１区間と、１．７〜２．３秒間のｔ２区間と、３．５〜４．３秒間のｔ３区間において、画像データが、口開状態と口閉状態とに変化している。
発音期間検出部２１０は、このように、この開閉状態の変化が一定期間以上継続しているｔ１、ｔ２、ｔ３のそれぞれの区間を発音期間として検出する。

音声データ分離部２２０は、音声データ取得部１２によって取得された音声データに基づき、撮像対象から発せられる対象音声データと、この対象以外から発せられる音声である周囲音声データとに分離する。
詳細に説明すると、音声データ分離部２２０は、ＦＦＴ部２２１と、音声周波数検出部２２２と、逆ＦＦＴ部２２３とを備え、発音期間検出部２１０によって検出された発音期間情報に基づき、撮影対象である人物から発せられる対象音声データを、音声データ取得部１２から取得された音声データから分離し、音声データから対象音声データが取り除かれた残りを周囲音声データとする。

次に、この音声データ取得部１２の各構成について、図５を用いて、以下詳細に説明する。図５は、音声データ分離部２２０における処理によって得られる周波数帯域を示す概略図である。
ＦＦＴ部２２１は、発音期間検出部２１０から入力される発音期間情報に基づき、音声データ取得部１２によって取得された音声データを、発音期間に対応する音声データとそれ以外の期間に対応する音声データに分割して、それぞれの音声データに対してフーリエ変換を行う。これにより、図５（ａ）に示すような発音期間に対応する音声データの発音期間周波数帯域と、図５（ｂ）に示すような発音期間以外の期間に対応する音声データの発音期間外周波数帯域とが得られる。
なお、ここでの発音期間周波数帯域と発音期間外周波数帯域とは、音声データ取得部１２によって取得された時間の近傍の時間領域の音声データに基づくものであることが好ましく、ここでは、発音期間外周波数帯域の音声データとしては、発音期間の直前あるいは直後の発音期間以外の音声データから生成されている。
ＦＦＴ部２２１は、発音期間に対応する音声データの発音期間周波数帯域と、発音期間以外の期間に対応する音声データの発音期間外周波数帯域とを音声周波数検出部２２２に出力するとともに、発音期間情報に基づき音声データ取得部１２によって取得された音声データから分割された発音期間以外の期間に対応する音声データを音声データ合成部２３０に出力する。

音声周波数検出部２２２は、ＦＦＴ部２２１によって得られた音声データのフーリエ変換の結果に基づき、発音期間に対応する音声データの発音期間周波数帯域と、それ以外の期間に対応する音声データの発音期間外周波数帯域とを比較し、発音期間における撮像対象の周波数帯域である音声周波数帯域を検出する。
つまり、図５（ａ）に示す発音期間周波数帯域と図５（ｂ）に示す発音期間外周波数帯域とを比較して、両者の差をとることで、図５（ｃ）に示す差分が検出される。この差分は、発音期間周波数帯域においてのみ出現している値である。なお、音声周波数検出部２２２は、両者の差をとるとき、一定値未満の微差については切り捨て、一定値以上の差分について検出するものとする。
よって、この差分は、撮像対象の口の部分の開閉状態が変化している発音期間において発生する周波数帯域であって、撮像対象が発声することによって出現した音声の周波数帯域であると考えられる。
音声周波数検出部２２２は、この差分に対応する周波数帯域を、発音期間における撮像対象の音声周波数帯域として検出する。ここでは、図５（ｃ）に示すように、９３２〜９９７Ｈｚが、この音声周波数帯域として検出され、それ以外の帯域が周囲周波数帯域として検出される。

ここで、撮像対象は人物であるため、音声周波数検出部２２２は、人間が音の方向を認識できる可指向領域（５００Ｈｚ以上）の周波数領域において、発音期間の音声データに対応する発音期間周波数帯域と、発音期間以外の音声データに対応する発音期間外周波数帯域の比較を行う。これにより、仮に発音期間にのみ５００Ｈｚ未満の音声が含まれている場合であっても、この５００Ｈｚ未満の周波数帯域の音声データを誤って撮像対象から発せられた音声として検出することを防止することができる。

逆ＦＦＴ部２２３は、ＦＦＴ部２２１によって得られた発音期間における発音期間周波数帯域から、音声周波数検出部２２２によって得られた音声周波数帯域を取り出し、この取り出した音声周波数帯域に対して逆フーリエ変換を行い、対象音声データを検出する。また、逆ＦＦＴ部２２３は、発音期間周波数帯域から音声周波数帯域が取り除かれた残りである周囲周波数帯域に対しても逆フーリエ変換を行い周囲音声データを検出する。
具体的に説明すると、逆ＦＦＴ部２２３は、音声周波数帯域を透過させる通過させるバンドパスフィルタと、周囲周波数帯域を通過させるバンドエリミネーションフィルタとを生成する。この逆ＦＦＴ部２２３は、このバンドパスフィルタにより音声周波数帯域を発音期間周波数帯域から抽出し、またバンドエリミネーションフィルタにより周囲周波数帯域を発音期間外周波数帯域から抽出して、それぞれに逆フーリエ変換を行う。この逆ＦＦＴ部２２３は、発音期間における音声データから得られた周囲音声データと対象音声データを、音声データ合成部２３０に出力する。

音声データ合成部２３０は、マルチスピーカへ出力する音声データのチャンネル毎に、チャネルに設定されたゲインおよび位相調整量に基づき対象音声データのゲインと位相とを制御し、この対象音声データと周囲音声データとを合成する。
ここで、図６を用いて詳細に説明する。図６は、音声データ合成部２３０による処理の一例を説明するための概念図である。
図６に示す通り、音声データ分離部２２０によって発音期間周波数帯域の音声データからそれぞれ分離された周囲音声データと、対象音声データとが音声データ合成部２３０に入力される。音声データ合成部２３０は、この対象音声データに対してのみ、後で詳細に説明するゲインおよび位相調整量を制御し、この制御された対象音声データと、制御されない周囲音声データとを合成し、発音期間に対応する音声データを復元する。
また、この音声データ分離部２２０は、上述の通り復元された発音期間に対応する音声データと、ＦＦＴ部２２３から入力される発音期間以外の期間に対応する音声データとを、同期情報に基づき時系列に合成する。

次に、図７を参照して、ゲインと位相の算出方法の一例について説明する。図７は、光学系１０１を介して被写体の光学像が撮像素子１０２に形成される際の被写体と光学像の位置関係について説明する概略図である。
図７に示す通り、被写体から光学系１０１における焦点までの距離を被写体距離ｄ、この焦点から撮像素子１０２に形成される光学像までの距離を焦点距離ｆとする。光学系１０１の焦点から離れた位置に撮像対象である人物Ｐがある場合、撮像素子１０２に形成される光学像が、焦点を通り撮像素子１０２の撮像面に対して垂直な軸（以下、中心軸という）と直交する位置よりもずれ量ｘだけずれた位置に形成される。このように、ずれ量ｘだけ中心軸からずれた位置に形成される人物Ｐの光学像Ｐ´と焦点を結ぶ線と、中心軸とがなす角をずれ角θという。

距離測定部２４０は、撮像制御部１１１から入力されるズームポジションやフォーカスポジションに基づき、被写体から光学系１０１における焦点までの被写体距離ｄを算出する。
ここで、上述の通り撮像制御部１１１によって生成される駆動制御信号に基づき、レンズ駆動部１０４がフォーカスレンズ１０１ｂを光軸方向に動かしてピントを合わせるが、距離測定部２４０は、この「フォーカスレンズ１０１ｂの移動量」と「フォーカスレンズ１０１ｂの像面移動係数（γ）」との積が「∞から被写体位置までの像位置の変化量Δｂ」となる関係に基づき、この距離測定部２４０は、被写体距離ｄを求める。

ずれ量検出部２５０は、発音期間検出部２１０によって検出された撮像対象の顔の位置情報に基づき、撮像素子１０２の中心を通過する中心軸から、被写体の左右方向に、撮像対象の顔がずれているずれ量を表すずれ量ｘを検出する。
なお、被写体の左右方向とは、撮像装置１において決められている上下左右方向が、撮像対象の上下左右方向と同一である場合、撮像素子１０２によって取得される画像データにおける左右方向と一致する。一方、撮像装置１が回転されることによって、撮像装置１において決められている上下左右方向が、撮像対象の上下左右方向と同一とならない場合、例えば、撮像装置１に備えられている角速度検出装置等によって得られる撮像装置１の変位量に基づき、被写体の左右方向を算出し、得られた画像データにおける被写体の左右方向を算出して得られるものであってもよい。

ずれ角検出部２６０は、ずれ量検出部２５０から得られるずれ量ｘと、撮像制御部１１１から得られる焦点距離ｆに基づき、撮像素子１０２の撮像面上の撮像対象である人物Ｐの光学像Ｐ´と焦点を結ぶ線と、中心軸とがなすずれ角θを検出する。
このずれ角検出部２６０は、例えば、次式に示すような演算式を用いて、ずれ角θを検出する。

多チャンネルゲイン算出部２７０は、距離測定部２４０によって算出された被写体距離ｄに基づき、マルチスピーカのチャンネル毎の音声データのゲイン（増幅率）を算出する。
この多チャンネルゲイン算出部２７０は、マルチスピーカのチャンネルに応じて、例えばユーザの前後に配置されるスピーカに出力される音声データに対して、次式で示すようなゲインを与える。

なお、Ｇｆは、ユーザの前方に配置されるスピーカに出力されるフロントチャネルの音声データに与えられるゲインであって、Ｇｒは、ユーザの後方に配置されるスピーカに出力されるリアチャネルの音声データに与えられるゲインである。また、ｋ_１とｋ_３は、特定の周波数を強調できる効果係数であって、ｋ_２とｋ_４は、特定の周波数の音源の距離感を変えるための効果係数を表す。例えば、多チャンネルゲイン算出部２７０は、特定の周波数に対しては、ｋ_１およびｋ_３の効果係数を用いて式２、３に示すＧｆ、Ｇｒを算出するとともに、特定の周波数以外の周波数に対しては、特定の周波数に対するｋ_１やｋ_３と異なる効果係数を用いて式２、式３に示すＧｆ、Ｇｒを算出することで、特定の周波数が強調されたＧｆ、Ｇｒを算出することができる。

これは、音圧のレベル差を利用して擬似的な音像定位を行うものであり、前方の距離感に対して定位を行うものである。
このように、多チャンネルゲイン算出部２７０は、被写体距離ｄを基に、音声データ合成装置を含む撮像装置１の前後のチャネルの音圧のレベル差により、この前後のチャネル（フロントチャンネルとリアチャンネル）のゲインを算出するものである。

多チャンネル位相算出部２８０は、ずれ角検出部２６０によって検出されるずれ角θに基づき、発音期間におけるマルチスピーカのチャンネル毎の音声データに与える位相調整量Δｔを算出する。
この多チャンネル位相算出部２８０は、マルチスピーカのチャンネルに応じて、例えばユーザの左右に配置されるスピーカに出力される音声データに対して、次式で示すような位相調整量Δｔを与える。

なお、Δｔ_Ｒは、ユーザの右側に配置されるスピーカに出力されるライトチャネルの音声データに与えられる位相調整量であって、Δｔ_Ｌは、ユーザの左側に配置されるスピーカに出力されるレフトチャネルの音声データに与えられる位相調整量である。この式４、式５によって、左右の位相差を求め、この位相差に応じた左右のずれ時間ｔ_Ｒ、ｔ_Ｌ（位相）を求めることができる。

これは、時間差制御による擬似的な音像定位を行うものであり、左右の音像定位を利用するものである。
具体的に説明すると、人は音の入射角に応じて左右の耳で聴こえる音声の到達時間がずれていることによって、左右のいずれかの方向から聴こえているかを認識することができる（ハース効果）。このような音の入射角と両耳の時間差の関係において、ユーザの正面から入射する音声（入射角が０度）と、ユーザの真横から入射する音声（入射角が９５度）とでは、約０．６５ｍｓの到達時間のずれが生じる。但し、音速Ｖ＝３４０ｍ／秒とする。
上述の式４、式５は、多チャンネル位相算出部２８０が、音の入射角であるずれ角θと音声が両耳に入力される時間差との関係式であって、この式４、式５を用いて、左右のチャネル毎の制御する位相調整量Δｔ_Ｒ、Δｔ_Ｌを算出する。

次に、図８〜１１を用いて、本実施形態に係る音声データ合成装置を備える撮像装置１の音声データ合成方法の一例について説明する。
図８は、撮像装置１が撮像した動画を説明するための参考図である。また、図９は、発音期間検出部２１０によって発音期間が検出される方法の一例を説明するためのフローチャートである。さらに、図１０は、音声データ分離部２２０および音声データ合成部２３０による音声データの分離と合成方法の一例を説明するためのフローチャートである。図１１は、図８に示す例において得られるゲインと位相調整量を示す参考図である。

以下、撮像装置１が、図８に示すように、画面奥のポジション１から画面手前のポジション２に近づいてくる撮像対象Ｐを追尾しつつ撮像して、複数の連続した画像データを取得する例を説明する。
撮像装置１は、電源ボタン１３３を介して電源オンの操作指示がユーザによって入力されると、電力が投入される。次いで、レリーズボタン１３２が押下されると、撮像部１０は、撮像を開始し、撮像素子１０２に結像した光学像を画像データに変換して、連続したフレームとして複数の画像データを生成し、発音期間検出部２１０に出力する。
この発音期間検出部２１０は、この画像データに対して顔認識機能を用いて顔認識処理を行い、撮像対象Ｐの顔を認識する。そして、認識した撮像対象Ｐの顔を表わすパターンデータを作成し、このパターンデータに基づく同一人である撮像対象Ｐを追尾する。また、発音期間検出部２１０は、この撮像対象Ｐの顔における口の領域の画像データをさらに検出して、口が位置する画像領域の画像データと口開テンプレートおよび口閉テンプレートとを比較して、比較結果に基づき口が開状態であるか、あるいは閉状態であるか否かを判断する（ステップＳＴ１）。

次いで、発音期間検出部２１０は、このようにして得られた画像データの開閉状態が、時系列において変化している変化量を検出し、例えば、この開閉状態が一定期間以上継続して変化している場合、この期間を発音期間として検出する。ここでは、撮像対象Ｐがポジション１付近にいる期間ｔ１１と、撮像対象Ｐがポジション２付近にいる期間ｔ１２が、発音期間であるとして検出される。
そして、この発音期間検出部２１０は、発音期間ｔ１１、ｔ１２を表わす発音期間情報をＦＦＴ部２２１に出力する。この発音期間検出部２１０は、例えば、この発音期間に対応する画像データに付与されている同期情報を、検出された発音期間ｔ１１、ｔ１２を表わす発音期間情報として出力する。

このＦＦＴ部２２１は、この発音期間情報を受信すると、発音期間情報である同期情報に基づき、音声データ取得部１２によって取得された音声データのうち、発音期間ｔ１１、ｔ１２に対応する音声データを特定して、この発音期間ｔ１１、ｔ１２に対応する音声データとそれ以外の期間に対応する音声データに分割して、それぞれの期間における音声データに対してフーリエ変換を行う。これにより、発音期間ｔ１１、ｔ１２に対応する音声データの発音期間周波数帯域と、発音期間以外の期間に対応する音声データの発音期間外周波数帯域とが得られる。
そして、音声周波数検出部２２２が、ＦＦＴ部２２１によって得られた音声データのフーリエ変換の結果に基づき、発音期間ｔ１１、ｔ１２に対応する音声データの発音期間周波数帯域と、それ以外の期間に対応する音声データの発音期間外周波数帯域とを比較し、発音期間ｔ１１、ｔ１２における撮像対象の周波数帯域である音声周波数帯域を検出する（ステップＳＴ２）。

次いで、逆ＦＦＴ部２２３が、ＦＦＴ部２２１によって得られた発音期間ｔ１１、ｔ１２における発音期間周波数帯域から、音声周波数検出部２２２によって得られた音声周波数帯域を取り出して分離し、この分離された音声周波数帯域に対して逆フーリエ変換を行い、対象音声データを検出する。また、逆ＦＦＴ部２２３は、発音期間周波数帯域から音声周波数帯域が取り除かれた残りである周囲周波数帯域に対しても逆フーリエ変換を行い周囲音声データを検出する（ステップＳＴ３）。
そして、逆ＦＦＴ部２２３は、発音期間ｔ１１、ｔ１２における音声データから得られた周囲音声データと対象音声データを、音声データ合成部２３０に出力する。

一方、図８に示すように、画面奥から画面手前に向かってくる撮像対象が撮像されると、撮像部１０によって取得された画像データが、ステップＳＴ１に説明した通り、発音期間検出部２１０に出力され、顔認識機能により撮像対象Ｐの顔が認識される。これにより、撮像制御部１１１は、撮像対象Ｐの顔にピントを合わせるようにＡＦレンズ１０１ｂを移動させながら、レンズ駆動部１０４によって得られたフォーカスポジションに基づき、焦点から撮像素子１０２の撮像面までの焦点距離ｆを算出する。そして、撮像制御部１１１は、この算出した焦点距離ｆを、ずれ角検出部２６０に出力する。

また、ステップＳＴ１において、発音期間検出部２１０によって顔認識処理が行われると、発音期間検出部２１０によって撮像対象Ｐの顔の位置情報が検出され、この位置情報がずれ量検出部２５０に出力される。このずれ量検出部２５０は、この位置情報に基づき、撮像素子１０２の中心を通過する中心軸から、被写体の左右方向に、撮像対象Ｐの顔に対応する画像領域が離れている距離を表すずれ量ｘを検出する。つまり、撮像部１０によって撮像された画像データの画面内において、撮像対象Ｐの顔に対応する画像領域と画面中央との距離が、ずれ量ｘである。

そして、ずれ角検出部２６０は、ずれ量検出部２５０から得られたずれ量ｘと、撮像制御部１１１から得られる焦点距離ｆに基づき、撮像素子１０２の撮像面上の撮像対象Ｐの光学像Ｐ´と焦点を結ぶ線と、中心軸とがなすずれ角θを検出する。

ずれ角検出部２６０は、このようにしてずれ角θを得ると、多チャンネル位相算出部２８０にずれ角θを出力する。
そして、多チャンネル位相算出部２８０は、ずれ角検出部２６０によって検出されるずれ角θに基づき、発音期間におけるマルチスピーカのチャンネル毎の音声データに与える位相調整量Δｔを算出する。
つまり、多チャンネル位相算出部２８０は、式４に従って、ユーザの右側に配置されるスピーカＦＲ（前方右側）、ＲＲ（後方右側）に出力されるライトチャネルの音声データに与えられる位相調整量Δｔ_Ｒを算出し、ポジション１における位相調整量Δｔ_Ｒとして、＋０．１ｍｓを、ポジション２における位相調整量Δｔ_Ｒとして、−０．２ｍｓを得る。
これと同様にして、多チャンネル位相算出部２８０は、式５に従って、ユーザの左側に配置されるスピーカＦＬ（前方左側）、ＲＲ（後方左側）に出力されるライトチャネルの音声データに与えられる位相調整量Δｔ_Ｌを算出し、ポジション１における位相調整量Δｔ_Ｌとして、−０．１ｍｓを、ポジション２における位相調整量Δｔ_Ｌとして、＋０．２ｍｓを得る。
なお、このようにして得られた位相調整量Δｔ_Ｒ、Δｔ_Ｌの値を、図１１に示す。

一方、撮像制御部１１１は、上述のピント調整において、レンズ駆動部１０４によって得られたフォーカスポジションを距離測定部２４０に出力する。
この距離測定部２４０は、撮像制御部１１１から入力されるフォーカスポジションに基づき、被写体から光学系１０１における焦点までの被写体距離ｄを算出し、多チャンネルゲイン算出部２７０に出力する。
そして、多チャンネルゲイン算出部２７０は、距離測定部２４０によって算出された被写体距離ｄに基づき、マルチスピーカのチャンネル毎の音声データのゲイン（増幅率）を算出する。
つまり、多チャンネルゲイン算出部２７０は、式２に従って、ユーザの前方に配置されるスピーカＦＲ（前方右側）、ＦＬ（前方左側）に出力されるフロンチャネルの音声データに与えられるゲインＧｆを算出し、ポジション１におけるゲインＧｆとして１．２を、ポジション２におけるゲインＧｆとして、０．８を得る。
これと同様にして、多チャンネルゲイン算出部２７０は、式３に従って、ユーザの後方に配置されるスピーカＲＲ（後方右側）、ＲＬ（後方左側）に出力されるリアチャネルの音声データに与えられるゲインＧｒを算出し、ポジション１におけるゲインＧｒとして０．８を、ポジション２におけるゲインＧｒとして１．５を得る。
なお、このようにして得られたゲインＧｆ、Ｇｒの値を、図１１に示す。

図１０に戻って、多チャンネルゲイン算出部２７０によって得られたゲインと、多チャンネル位相算出部２８０によって得られた位相調整量とが、音声データ合成部２３０に入力されると、マルチスピーカへ出力する音声データのチャンネルＦＲ、ＦＬ、ＲＲ、ＲＬ毎に、対象音声データのゲインと位相とが制御され（ステップＳＴ４）、この対象音声データと周囲音声データとが合成される（ステップＳＴ５）。これにより、チャンネルＦＲ、ＦＬ、ＲＲ、ＲＬ毎に、対象音声データのみゲインと位相が制御された音声データが生成される。

上述の通り、本実施形態に係る音声データ合成装置は、画像データにおいて、撮像対象の口の開閉状態が継続的に変化している区間を発音期間として検出し、この画像データと同時に取得された音声データから、この発音期間に対応する音声データと、この発音期間以外であって発音期間の近傍の時間領域で取得された音声データと、それぞれに対してフーリエ変換を行い、発音期間周波数帯域と発音期間外周波数帯域とを得るようにした。
そして、発音期間周波数帯域と発音期間外周波数帯域とを比較することで、発音期間周波数帯域における撮像対象から発せられた音声に対応する周波数帯域を検出することができる。
よって、撮像対象から発せられた音声に対応する音声データの周波数帯域に対してゲインと位相を制御することができ、擬似的な音響効果を再現する音声データを生成することができる。

また、本実施形態に係る音声データ合成装置は、多チャンネル位相算出部２８０に加えて多チャンネルゲイン算出部２７０を備え、音声データにゲインを与えて補正することによって、被写体距離ｄに基づく前後のスピーカに対応するチャネル毎に、異なるゲインを与えるようにした。これにより、スピーカから出力される音声を聴くユーザに対して、撮像時における撮像者と被写体との距離間を、音圧レベル差を利用して擬似的に再現することができる。
仮に、予め擬似サラウンド効果の手法として前後スピーカの音声データの位相をずらして再生する手法を利用したサウンドシステムスピーカーでは、単に多チャンネル位相算出部２８０によって得られる位相調整量Δｔだけでは、充分な音響効果が得られない場合がある。また、被写体距離ｄによる頭部伝達関数の変化が小さい場合、多チャンネル位相算出部２８０によって得られる位相調整量Δｔに基づき音声データの補正が適切でない場合がある。このため、上述のように、多チャンネル位相算出部２８０に加えて多チャンネルゲイン算出部２７０を備えることによって、上述のような多チャンネル位相算出部２８０だけでは解決できない問題を解決することができる。

なお、本実施形態に係る音声データ合成装置は、少なくとも１つの音声データ取得部１２を備え、少なくとも２つ以上の複数のチャンネルに音声データを分解する構成であればよい。例えば、音声データ取得部１２が左右に２つ備えているステレオ入力音声（２チャンネル）である場合、この音声データ取得部１２から取得された音声データに基づき、４チャンネルや、５．１チャンネルに対応する音声データを生成する構成であってもよい。
例えば、音声データ取得部１２が複数のマイクを有する場合、ＦＦＴ部２２１が、マイク毎の音声データに対し、発音期間の音声データと、発音期間以外の音声データのそれぞれに対してフーリエ変換を行い、マイク毎の音声データから発音期間周波数帯域と発音期間外周波数帯域とを得る。
また音声周波数検出部２２２が、マイク毎に音声周波数帯域を検出し、逆ＦＦＴ部２２３が、マイク毎に周囲周波数帯域および音声周波数帯域のそれぞれに対して、別々に逆フーリエ変換し、周囲音声データと、対象音声データとを生成する。
そして、音声データ合成部２３０が、マルチスピーカへ出力する音声データのチャンネル毎に、各マイクの周囲音声データと、マイクに対応してチャンネルに設定されたゲイン及び位相調整量により、ゲインと位相とを制御した各マイクの対象音声データとを合成する。

また、近年、撮像装置において、ユーザが手軽に携帯でき、かつ、動画や静止画等の幅広い画像データを撮影する機能を実現するため、装置の小型化が求められるとともに、撮像装置に搭載されている表示部をより大きくすることが求められている。
ここで、仮に、音声の発する方向性を考慮して、２つのマイクを撮像装置に搭載した場合、撮像装置内のスペースの有効活用が図られず撮像装置の小型化を阻害する問題や、２つのマイクの間隔を十分にとることができないため音声の発生する方向や位置を十分に検出することができず、十分な音響効果が得られないという問題がある。しかし、本実施形態に係る撮像装置のように１つのマイクであっても、上記構成により、撮像時における撮像者と被写体との距離間を音圧レベル差を利用して擬似的に再現することができるため、撮像装置内のスペースを有効に図りつつ、臨場感のある音声を再現することができる。

１…撮像装置、１０…撮像部、１１…ＣＰＵ、１２…音声データ取得部、１３…操作部、１４…画像処理部、１５…表示部、１６…記憶部、１７…バッファメモリ部、１８…通信部、１９…バス、２０…記憶媒体、１０１…光学系、１０２…撮像素子、１０３…Ａ/Ｄ変換部、１０４…レンズ駆動部、１０５…測光センサ、１１１…撮像制御部、２１０…発音期間検出部、２２０…音声データ分離部、２２１…ＦＦＴ部、２２２…音声周波数検出部、２２３…逆ＦＦＴ部、２３０…音声データ合成部、２４０…距離測定部、２５０…ずれ量検出部、２６０…ずれ角検出部、２７０…多チャンネルゲイン算出部、２８０…多チャンネル位相算出部

Claims

光学系による対象の像を撮像し、画像データを生成する撮像部と、
音声データを取得する音声データ取得部と、
前記音声データから前記対象の発生する第１音声データと、当該第１音声データ以外の第２音声データとを分離する音声データ分離部と
マルチスピーカへ出力する音声データのチャンネル毎に、当該チャンネルに設定されたゲイン及び位相調整量により、ゲインと位相とを制御した前記第１音声データと前記第２音声データとを合成する音声データ合成部と、
前記対象の像に対して焦点を合わせる位置に前記光学系を移動させる制御信号を出力するとともに、前記光学系と対象との位置関係を示す位置情報を得る撮像制御部と、
前記位置情報に基づき前記ゲインおよび位相を算出する制御係数決定部と、
を有することを特徴とする音声データ合成装置。
請求項１に記載の音声データ合成装置において、
前記制御係数決定部は、
前記位置情報に基づき前記対象までの距離を測定する距離測定部と、
前記撮像部の撮像面における中心からのずれ量を検出するずれ量検出部と、
前記ずれ量と前記撮像部における焦点距離とから、焦点を通り前記撮像面に対して垂直な軸と、前記焦点と撮像面上の前記対象の像とを結ぶ線とがなすずれ角を求めるずれ角検出部と、
前記ずれ角から前記対象から音声が発生されている発音期間におけるチャンネル毎の音声データの前記位相調整量を求める多チャンネル位相算出部と、
前記距離からチャンネル毎の音声データの前記ゲインを算出する多チャンネルゲイン算出部と
をさらに有することを特徴とする音声データ合成装置。
請求項２に記載の音声データ合成装置において、
前記多チャンネル位相算出部が、音の入射角である前記ずれ角と音声が両耳に入力される時間差との関係式から前記チャンネル毎の制御する前記位相調整量を算出することを特徴とする音声データ合成装置。
請求項３に記載の音声データ合成装置において、
前記多チャンネルゲイン算出部が、前記距離を基に、音声データ合成装置前後のチャンネルの音圧のレベル差により、当該チャンネルのゲインを算出することを特徴とする音声データ合成装置。
請求項１〜４のいずれか一項に記載の音声データ合成装置において、
前記音声データ分離部が、
前記対象から音声が発生されている発音期間の前記音声データと、前記発音期間以外の期間の前記音声データとのフーリエ変換を行うＦＦＴ部と、
前記発音期間の周波数帯域と、当該発音期間以外の周波数帯域を比較し、当該発音期間における前記対象の音声の周波数帯域である第１周波数帯域を検出する音声周波数検出部と、
前記発音期間における前記周波数帯域から、前記第１周波数帯域を取り出し、前記第１周波数帯域が取り除かれた第２周波数帯域と、前記第１周波数帯域とを別々に逆フーリエ変換し、周囲音声データと、発音音声データとを生成する逆ＦＦＴ部と
から構成されていることを特徴とする音声データ合成装置。
請求項１から請求項５のいずれか一項に記載の音声データ合成装置において、
前記対象から音声が発生されている発音期間を検出する発音期間検出部をさらに有し、
該発音期間検出部が、前記画像データに対する画像認識の処理により、前記対象の顔を認識し、当該認識した顔における口の領域を検出し、当該口の形状が変化している期間を、前記発音期間として検出することを特徴とする音声データ合成装置。
請求項６に記載の音声データ合成装置において、
前記発音期間検出部が、予め設定されている顔のテンプレートと比較することにより、前記認識した顔における口の位置を検出することを特徴とする音声データ合成装置。
請求項７に記載の音声データ合成装置において、
前記発音期間検出部が、前記顔のテンプレートにて前記口の領域を検出し、口が開かれている口開テンプレートと、口が閉じられている口閉テンプレートとを有し、口の開閉状態を、前記口の領域の画像と、前記口開テンプレート及び前記口閉テンプレートと比較することにより、前記対象の口の開閉状態を検出することを特徴とする音声データ合成装置。
請求項５に記載の音声データ合成装置において、
前記音声周波数検出部が、前記第１周波数帯域を通過させるバンドパスフィルタ及び前記第２周波数帯域を通過させるバンドエリミネーションフィルタを生成し、前記逆ＦＦＴ部が前記バンドパスフィルタにより前記第１周波数帯域を前記周波数帯域から抽出し、また前記バンドエリミネーションフィルタにより前記第２周波数帯域を前記周波数帯域から抽出することを特徴とする音声データ合成装置。
請求項５または請求項９に記載の音声データ合成装置において、
前記音声周波数検出部が、人間が音の方向を認識できる可指向領域の周波数領域において、前記発音期間の周波数帯域と、当該発音期間以外の周波数帯域の比較を行うことを特徴とする音声データ合成装置。
光学系による対象の像を撮像し、画像データを生成する撮像部と、
音声データを取得する音声データ取得部と、
前記音声データから前記対象の発生する第１音声データと、当該第１音声データ以外の第２音声データとを分離する音声データ分離部と
マルチスピーカへ出力する音声データのチャンネル毎に、当該チャンネルに設定されたゲイン及び位相調整量により、ゲインと位相とを制御した前記第１音声データと前記第２音声データとを合成する音声データ合成部と、
前記画像データでの画面内における前記対象の像の位置に基づいて、前記位相調整量を算出する制御係数決定部と
を有することを特徴とする音声データ合成装置。