JP5597956B2 - 音声データ合成装置 - Google Patents
音声データ合成装置 Download PDFInfo
- Publication number
- JP5597956B2 JP5597956B2 JP2009204601A JP2009204601A JP5597956B2 JP 5597956 B2 JP5597956 B2 JP 5597956B2 JP 2009204601 A JP2009204601 A JP 2009204601A JP 2009204601 A JP2009204601 A JP 2009204601A JP 5597956 B2 JP5597956 B2 JP 5597956B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- audio data
- data
- sound
- frequency band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003384 imaging method Methods 0.000 claims description 136
- 238000001514 detection method Methods 0.000 claims description 68
- 230000003287 optical effect Effects 0.000 claims description 40
- 238000004364 calculation method Methods 0.000 claims description 27
- 230000015572 biosynthetic process Effects 0.000 claims description 26
- 238000003786 synthesis reaction Methods 0.000 claims description 26
- 238000000926 separation method Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 claims description 7
- 210000005069 ears Anatomy 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 12
- ORQBXQOJMQIAOY-UHFFFAOYSA-N nobelium Chemical compound [No] ORQBXQOJMQIAOY-UHFFFAOYSA-N 0.000 description 10
- 238000005259 measurement Methods 0.000 description 7
- 238000000034 method Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 238000001308 synthesis method Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/633—Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
- H04N23/635—Region indicators; Field of view indicators
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/67—Focus control based on electronic image sensor signals
- H04N23/672—Focus control based on electronic image sensor signals based on the phase difference signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
- H04R1/028—Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2101/00—Still video cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Studio Devices (AREA)
- Television Signal Processing For Recording (AREA)
Description
図1は、本発明の一実施の形態に係る音声データ合成装置を含む撮像装置1の一例を示す概略斜視図である。なお、撮像装置1は、動画データを撮像可能な撮像装置であって、複数のフレームとして複数の画像データを連続して撮像する装置である。
このズームボタン131は、撮影レンズ101aを移動させて焦点距離を調整する調整量の入力をユーザから受け付ける。また、レリーズボタン132は、撮影レンズ101aを介して入力される光学像の撮影の開始を指示する入力と、撮影の終了を指示する入力を受け付ける。さらに、電源ボタン133は、撮像装置1を起動させる電源オンの入力と、撮像装置1の電源を切断する電源オフの入力を受け付ける。
音声データ取得部12は、撮像装置1の前面(すなわち、撮像レンズ101aが取り付けられている面)に設けられており、撮影時に発生している音声の音声データを取得する。なお、この撮像装置1においては予め方向が決められており、X軸の正方向が左、X軸の負方向が右、Z軸の正方向が前、Z軸の負方向が後と決められている。
図2示すとおり、本実施形態に係る撮像装置1は、撮像部10と、CPU( Central processing unit )11と、音声データ取得部12と、操作部13、画像処理部14と、表示部15と、記憶部16と、バッファメモリ部17と、通信部18と、バス19とを備える。
光学系101は、ズームレンズ101aと、焦点調整レンズ(以下、AF( Auto Focus )レンズという)101bと、分光部材101cとを備える。光学系101は、ズームレンズ101a、AFレンズ101bおよび分光部材101cを通過した光学像を撮像素子102の撮像面に導く。また、光学系101は、AFレンズ101bと撮像素子102との間で分光部材101cによって分離された光学像を測光素子105の受光面に導く。
撮像素子102は、撮像面に結像した光学像を電気信号に変換して、A/D変換部103に出力する。
また、撮像素子102は、操作部13のレリーズボタン132を介して撮影指示を受け付けた際に得られる画像データを、撮影された動画の画像データとして、記憶媒体20に記憶させるとともに、CPU11および表示部14に出力する。
レンズ駆動部104は、ズームレンズ101aの位置を表わすズームポジション、およびAFレンズ101bの位置を表わすフォーカスポジションを検出する検出手段と、ズームレンズ101aおよびAFレンズ101bを移動させる駆動手段とを有する。このレンズ駆動部104は、検出手段によって検出されたズームポジションおよびフォーカスポジションをCPU11に出力する。さらに、これらの情報に基づきCPU11によって駆動制御信号が生成されると、レンズ駆動部104の駆動手段は、この駆動制御信号に従って両レンズの位置を制御する。
測光素子105は、分光部材101cで分離された光学像を受光面に結像させ、光学像の輝度分布を表わす輝度信号を得て、A/D変換部103に出力する。
撮像制御部111は、レンズ駆動部104の検出手段によって検出されたズームポジションおよびフォーカスポジションが入力され、これらの情報に基づき駆動制御信号を生成する。
この撮像制御部111は、例えば、後に説明する発音期間検出部210によって撮像対象の顔が認識されると、撮像対象の顔にピントを合わせるようにAFレンズ101bを移動させながら、レンズ駆動部104によって得られたフォーカスポジションに基づき、焦点から撮像素子102の撮像面までの焦点距離fを算出する。なお、撮像制御部111は、この算出した焦点距離fを、後に説明するずれ角検出部260に出力する。
画像処理部14は、記憶部16に記憶されている画像処理条件を参照して、記憶媒体20に記録されている画像データに対して画像処理を行う。
表示部15は、例えば液晶ディスプレイであって、撮像部10によって得られた画像データや、操作画面等を表示する。
記憶部16は、CPU11によってゲインや位相調整量が算出される際に参照される情報や、撮像条件等の情報を記憶する。
バッファメモリ部17は、撮像部10によって撮像された画像データ等を、一時的に記憶する。
バス19は、撮像部10と、CPU11と、音声データ取得部12、操作部13と、画像処理部14と、表示部15と、記憶部16と、バッファメモリ部17と、通信部18とそれぞれ接続され、各部から出力されたデータ等を転送する。
記憶媒体20は、撮像装置1に対して着脱可能に接続される記憶部であって、例えば、撮像部10によって取得された画像データと、音声データ取得部12によって取得された音声データとを記憶する。
図3に示す通り、音声データ合成装置は、撮像部10と、音声データ取得部12と、CPU11に含まれる撮像制御部111と、発音期間検出部210と、音声データ分離部220と、音声データ合成部230と、距離測定部240と、ずれ量検出部250と、ずれ角検出部260と、多チャンネルゲイン算出部270と、多チャンネル位相算出部280とを備える。
本実施形態において、撮像対象は人物であって、この発音期間検出部210は、画像データに対して顔認識処理を行い、撮像対象である人物の顔を認識し、この顔における口の領域の画像データをさらに検出して、この口の形状が変化している期間を発音期間として検出する。
この発音期間検出部210は、画像データの中から人物の顔の画像領域を検出すると、この顔に対応する画像データに基づく顔を表わすパターンデータを生成し、この生成した顔のパターンデータに基づき、画像データ内を移動する撮像対象の顔を追尾する。
より詳細に説明すると、発音期間検出部210は、人物の口が開いている状態を表す口開テンプレートと、人物の口が閉じている状態を表す口閉テンプレートと、これら口開テンプレートあるいは口閉テンプレートと画像データが比較された結果に基づき人物の口が開状態あるいは閉状態であることを判断する判断基準が記憶されている記憶部を内部に備えている。発音期間検出部210は、この記憶部を参照して、口が位置する画像領域の画像データと口開テンプレートとを比較して、比較結果に基づき口が開状態であるか否かを判断する。開状態である場合、この口が位置する画像領域を含む画像データを開状態であると判断する。同様にして、発音期間検出部210は、閉状態であるか否かを判断し、閉状態である場合、この口が位置する画像領域を含む画像データを閉状態であると判断する。
発音期間検出部210は、このようにして得られた画像データの開閉状態が、時系列において変化している変化量を検出し、例えば、この開閉状態が一定期間以上継続して変化している場合、この期間を発音期間として検出する。
図4に示す通り、各フレームに対応する複数の画像データが撮像部10によって取得されると、発音期間検出部210によって上述の通り、口開テンプレートおよび口閉テンプレートと比較され、画像データが口開状態であるか、あるいは口閉状態であるかが判断される。この判断結果が図4に示されており、ここでは、撮像開始時点を0秒として、0.5〜1.2秒間のt1区間と、1.7〜2.3秒間のt2区間と、3.5〜4.3秒間のt3区間において、画像データが、口開状態と口閉状態とに変化している。
発音期間検出部210は、このように、この開閉状態の変化が一定期間以上継続しているt1、t2、t3のそれぞれの区間を発音期間として検出する。
詳細に説明すると、音声データ分離部220は、FFT部221と、音声周波数検出部222と、逆FFT部223とを備え、発音期間検出部210によって検出された発音期間情報に基づき、撮影対象である人物から発せられる対象音声データを、音声データ取得部12から取得された音声データから分離し、音声データから対象音声データが取り除かれた残りを周囲音声データとする。
FFT部221は、発音期間検出部210から入力される発音期間情報に基づき、音声データ取得部12によって取得された音声データを、発音期間に対応する音声データとそれ以外の期間に対応する音声データに分割して、それぞれの音声データに対してフーリエ変換を行う。これにより、図5(a)に示すような発音期間に対応する音声データの発音期間周波数帯域と、図5(b)に示すような発音期間以外の期間に対応する音声データの発音期間外周波数帯域とが得られる。
なお、ここでの発音期間周波数帯域と発音期間外周波数帯域とは、音声データ取得部12によって取得された時間の近傍の時間領域の音声データに基づくものであることが好ましく、ここでは、発音期間外周波数帯域の音声データとしては、発音期間の直前あるいは直後の発音期間以外の音声データから生成されている。
FFT部221は、発音期間に対応する音声データの発音期間周波数帯域と、発音期間以外の期間に対応する音声データの発音期間外周波数帯域とを音声周波数検出部222に出力するとともに、発音期間情報に基づき音声データ取得部12によって取得された音声データから分割された発音期間以外の期間に対応する音声データを音声データ合成部230に出力する。
つまり、図5(a)に示す発音期間周波数帯域と図5(b)に示す発音期間外周波数帯域とを比較して、両者の差をとることで、図5(c)に示す差分が検出される。この差分は、発音期間周波数帯域においてのみ出現している値である。なお、音声周波数検出部222は、両者の差をとるとき、一定値未満の微差については切り捨て、一定値以上の差分について検出するものとする。
よって、この差分は、撮像対象の口の部分の開閉状態が変化している発音期間において発生する周波数帯域であって、撮像対象が発声することによって出現した音声の周波数帯域であると考えられる。
音声周波数検出部222は、この差分に対応する周波数帯域を、発音期間における撮像対象の音声周波数帯域として検出する。ここでは、図5(c)に示すように、932〜997Hzが、この音声周波数帯域として検出され、それ以外の帯域が周囲周波数帯域として検出される。
具体的に説明すると、逆FFT部223は、音声周波数帯域を透過させる通過させるバンドパスフィルタと、周囲周波数帯域を通過させるバンドエリミネーションフィルタとを生成する。この逆FFT部223は、このバンドパスフィルタにより音声周波数帯域を発音期間周波数帯域から抽出し、またバンドエリミネーションフィルタにより周囲周波数帯域を発音期間外周波数帯域から抽出して、それぞれに逆フーリエ変換を行う。この逆FFT部223は、発音期間における音声データから得られた周囲音声データと対象音声データを、音声データ合成部230に出力する。
ここで、図6を用いて詳細に説明する。図6は、音声データ合成部230による処理の一例を説明するための概念図である。
図6に示す通り、音声データ分離部220によって発音期間周波数帯域の音声データからそれぞれ分離された周囲音声データと、対象音声データとが音声データ合成部230に入力される。音声データ合成部230は、この対象音声データに対してのみ、後で詳細に説明するゲインおよび位相調整量を制御し、この制御された対象音声データと、制御されない周囲音声データとを合成し、発音期間に対応する音声データを復元する。
また、この音声データ分離部220は、上述の通り復元された発音期間に対応する音声データと、FFT部223から入力される発音期間以外の期間に対応する音声データとを、同期情報に基づき時系列に合成する。
図7に示す通り、被写体から光学系101における焦点までの距離を被写体距離d、この焦点から撮像素子102に形成される光学像までの距離を焦点距離fとする。光学系101の焦点から離れた位置に撮像対象である人物Pがある場合、撮像素子102に形成される光学像が、焦点を通り撮像素子102の撮像面に対して垂直な軸(以下、中心軸という)と直交する位置よりもずれ量xだけずれた位置に形成される。このように、ずれ量xだけ中心軸からずれた位置に形成される人物Pの光学像P´と焦点を結ぶ線と、中心軸とがなす角をずれ角θという。
ここで、上述の通り撮像制御部111によって生成される駆動制御信号に基づき、レンズ駆動部104がフォーカスレンズ101bを光軸方向に動かしてピントを合わせるが、距離測定部240は、この「フォーカスレンズ101bの移動量」と「フォーカスレンズ101bの像面移動係数(γ)」との積が「∞から被写体位置までの像位置の変化量Δb」となる関係に基づき、この距離測定部240は、被写体距離dを求める。
なお、被写体の左右方向とは、撮像装置1において決められている上下左右方向が、撮像対象の上下左右方向と同一である場合、撮像素子102によって取得される画像データにおける左右方向と一致する。一方、撮像装置1が回転されることによって、撮像装置1において決められている上下左右方向が、撮像対象の上下左右方向と同一とならない場合、例えば、撮像装置1に備えられている角速度検出装置等によって得られる撮像装置1の変位量に基づき、被写体の左右方向を算出し、得られた画像データにおける被写体の左右方向を算出して得られるものであってもよい。
このずれ角検出部260は、例えば、次式に示すような演算式を用いて、ずれ角θを検出する。
この多チャンネルゲイン算出部270は、マルチスピーカのチャンネルに応じて、例えばユーザの前後に配置されるスピーカに出力される音声データに対して、次式で示すようなゲインを与える。
このように、多チャンネルゲイン算出部270は、被写体距離dを基に、音声データ合成装置を含む撮像装置1の前後のチャネルの音圧のレベル差により、この前後のチャネル(フロントチャンネルとリアチャンネル)のゲインを算出するものである。
この多チャンネル位相算出部280は、マルチスピーカのチャンネルに応じて、例えばユーザの左右に配置されるスピーカに出力される音声データに対して、次式で示すような位相調整量Δtを与える。
具体的に説明すると、人は音の入射角に応じて左右の耳で聴こえる音声の到達時間がずれていることによって、左右のいずれかの方向から聴こえているかを認識することができる(ハース効果)。このような音の入射角と両耳の時間差の関係において、ユーザの正面から入射する音声(入射角が0度)と、ユーザの真横から入射する音声(入射角が95度)とでは、約0.65msの到達時間のずれが生じる。但し、音速V=340m/秒とする。
上述の式4、式5は、多チャンネル位相算出部280が、音の入射角であるずれ角θと音声が両耳に入力される時間差との関係式であって、この式4、式5を用いて、左右のチャネル毎の制御する位相調整量ΔtR、ΔtLを算出する。
図8は、撮像装置1が撮像した動画を説明するための参考図である。また、図9は、発音期間検出部210によって発音期間が検出される方法の一例を説明するためのフローチャートである。さらに、図10は、音声データ分離部220および音声データ合成部230による音声データの分離と合成方法の一例を説明するためのフローチャートである。図11は、図8に示す例において得られるゲインと位相調整量を示す参考図である。
撮像装置1は、電源ボタン133を介して電源オンの操作指示がユーザによって入力されると、電力が投入される。次いで、レリーズボタン132が押下されると、撮像部10は、撮像を開始し、撮像素子102に結像した光学像を画像データに変換して、連続したフレームとして複数の画像データを生成し、発音期間検出部210に出力する。
この発音期間検出部210は、この画像データに対して顔認識機能を用いて顔認識処理を行い、撮像対象Pの顔を認識する。そして、認識した撮像対象Pの顔を表わすパターンデータを作成し、このパターンデータに基づく同一人である撮像対象Pを追尾する。また、発音期間検出部210は、この撮像対象Pの顔における口の領域の画像データをさらに検出して、口が位置する画像領域の画像データと口開テンプレートおよび口閉テンプレートとを比較して、比較結果に基づき口が開状態であるか、あるいは閉状態であるか否かを判断する(ステップST1)。
そして、この発音期間検出部210は、発音期間t11、t12を表わす発音期間情報をFFT部221に出力する。この発音期間検出部210は、例えば、この発音期間に対応する画像データに付与されている同期情報を、検出された発音期間t11、t12を表わす発音期間情報として出力する。
そして、音声周波数検出部222が、FFT部221によって得られた音声データのフーリエ変換の結果に基づき、発音期間t11、t12に対応する音声データの発音期間周波数帯域と、それ以外の期間に対応する音声データの発音期間外周波数帯域とを比較し、発音期間t11、t12における撮像対象の周波数帯域である音声周波数帯域を検出する(ステップST2)。
そして、逆FFT部223は、発音期間t11、t12における音声データから得られた周囲音声データと対象音声データを、音声データ合成部230に出力する。
そして、多チャンネル位相算出部280は、ずれ角検出部260によって検出されるずれ角θに基づき、発音期間におけるマルチスピーカのチャンネル毎の音声データに与える位相調整量Δtを算出する。
つまり、多チャンネル位相算出部280は、式4に従って、ユーザの右側に配置されるスピーカFR(前方右側)、RR(後方右側)に出力されるライトチャネルの音声データに与えられる位相調整量ΔtRを算出し、ポジション1における位相調整量ΔtRとして、+0.1msを、ポジション2における位相調整量ΔtRとして、−0.2msを得る。
これと同様にして、多チャンネル位相算出部280は、式5に従って、ユーザの左側に配置されるスピーカFL(前方左側)、RR(後方左側)に出力されるライトチャネルの音声データに与えられる位相調整量ΔtLを算出し、ポジション1における位相調整量ΔtLとして、−0.1msを、ポジション2における位相調整量ΔtLとして、+0.2msを得る。
なお、このようにして得られた位相調整量ΔtR、ΔtLの値を、図11に示す。
この距離測定部240は、撮像制御部111から入力されるフォーカスポジションに基づき、被写体から光学系101における焦点までの被写体距離dを算出し、多チャンネルゲイン算出部270に出力する。
そして、多チャンネルゲイン算出部270は、距離測定部240によって算出された被写体距離dに基づき、マルチスピーカのチャンネル毎の音声データのゲイン(増幅率)を算出する。
つまり、多チャンネルゲイン算出部270は、式2に従って、ユーザの前方に配置されるスピーカFR(前方右側)、FL(前方左側)に出力されるフロンチャネルの音声データに与えられるゲインGfを算出し、ポジション1におけるゲインGfとして1.2を、ポジション2におけるゲインGfとして、0.8を得る。
これと同様にして、多チャンネルゲイン算出部270は、式3に従って、ユーザの後方に配置されるスピーカRR(後方右側)、RL(後方左側)に出力されるリアチャネルの音声データに与えられるゲインGrを算出し、ポジション1におけるゲインGrとして0.8を、ポジション2におけるゲインGrとして1.5を得る。
なお、このようにして得られたゲインGf、Grの値を、図11に示す。
そして、発音期間周波数帯域と発音期間外周波数帯域とを比較することで、発音期間周波数帯域における撮像対象から発せられた音声に対応する周波数帯域を検出することができる。
よって、撮像対象から発せられた音声に対応する音声データの周波数帯域に対してゲインと位相を制御することができ、擬似的な音響効果を再現する音声データを生成することができる。
仮に、予め擬似サラウンド効果の手法として前後スピーカの音声データの位相をずらして再生する手法を利用したサウンドシステムスピーカーでは、単に多チャンネル位相算出部280によって得られる位相調整量Δtだけでは、充分な音響効果が得られない場合がある。また、被写体距離dによる頭部伝達関数の変化が小さい場合、多チャンネル位相算出部280によって得られる位相調整量Δtに基づき音声データの補正が適切でない場合がある。このため、上述のように、多チャンネル位相算出部280に加えて多チャンネルゲイン算出部270を備えることによって、上述のような多チャンネル位相算出部280だけでは解決できない問題を解決することができる。
例えば、音声データ取得部12が複数のマイクを有する場合、FFT部221が、マイク毎の音声データに対し、発音期間の音声データと、発音期間以外の音声データのそれぞれに対してフーリエ変換を行い、マイク毎の音声データから発音期間周波数帯域と発音期間外周波数帯域とを得る。
また音声周波数検出部222が、マイク毎に音声周波数帯域を検出し、逆FFT部223が、マイク毎に周囲周波数帯域および音声周波数帯域のそれぞれに対して、別々に逆フーリエ変換し、周囲音声データと、対象音声データとを生成する。
そして、音声データ合成部230が、マルチスピーカへ出力する音声データのチャンネル毎に、各マイクの周囲音声データと、マイクに対応してチャンネルに設定されたゲイン及び位相調整量により、ゲインと位相とを制御した各マイクの対象音声データとを合成する。
ここで、仮に、音声の発する方向性を考慮して、2つのマイクを撮像装置に搭載した場合、撮像装置内のスペースの有効活用が図られず撮像装置の小型化を阻害する問題や、2つのマイクの間隔を十分にとることができないため音声の発生する方向や位置を十分に検出することができず、十分な音響効果が得られないという問題がある。しかし、本実施形態に係る撮像装置のように1つのマイクであっても、上記構成により、撮像時における撮像者と被写体との距離間を音圧レベル差を利用して擬似的に再現することができるため、撮像装置内のスペースを有効に図りつつ、臨場感のある音声を再現することができる。
Claims (11)
- 光学系による対象の像を撮像し、画像データを生成する撮像部と、
音声データを取得する音声データ取得部と、
前記音声データから前記対象の発生する第1音声データと、当該第1音声データ以外の第2音声データとを分離する音声データ分離部と
マルチスピーカへ出力する音声データのチャンネル毎に、当該チャンネルに設定されたゲイン及び位相調整量により、ゲインと位相とを制御した前記第1音声データと前記第2音声データとを合成する音声データ合成部と、
前記対象の像に対して焦点を合わせる位置に前記光学系を移動させる制御信号を出力するとともに、前記光学系と対象との位置関係を示す位置情報を得る撮像制御部と、
前記位置情報に基づき前記ゲインおよび位相を算出する制御係数決定部と、
を有することを特徴とする音声データ合成装置。 - 請求項1に記載の音声データ合成装置において、
前記制御係数決定部は、
前記位置情報に基づき前記対象までの距離を測定する距離測定部と、
前記撮像部の撮像面における中心からのずれ量を検出するずれ量検出部と、
前記ずれ量と前記撮像部における焦点距離とから、焦点を通り前記撮像面に対して垂直な軸と、前記焦点と撮像面上の前記対象の像とを結ぶ線とがなすずれ角を求めるずれ角検出部と、
前記ずれ角から前記対象から音声が発生されている発音期間におけるチャンネル毎の音声データの前記位相調整量を求める多チャンネル位相算出部と、
前記距離からチャンネル毎の音声データの前記ゲインを算出する多チャンネルゲイン算出部と
をさらに有することを特徴とする音声データ合成装置。 - 請求項2に記載の音声データ合成装置において、
前記多チャンネル位相算出部が、音の入射角である前記ずれ角と音声が両耳に入力される時間差との関係式から前記チャンネル毎の制御する前記位相調整量を算出することを特徴とする音声データ合成装置。 - 請求項3に記載の音声データ合成装置において、
前記多チャンネルゲイン算出部が、前記距離を基に、音声データ合成装置前後のチャンネルの音圧のレベル差により、当該チャンネルのゲインを算出することを特徴とする音声データ合成装置。 - 請求項1〜4のいずれか一項に記載の音声データ合成装置において、
前記音声データ分離部が、
前記対象から音声が発生されている発音期間の前記音声データと、前記発音期間以外の期間の前記音声データとのフーリエ変換を行うFFT部と、
前記発音期間の周波数帯域と、当該発音期間以外の周波数帯域を比較し、当該発音期間における前記対象の音声の周波数帯域である第1周波数帯域を検出する音声周波数検出部と、
前記発音期間における前記周波数帯域から、前記第1周波数帯域を取り出し、前記第1周波数帯域が取り除かれた第2周波数帯域と、前記第1周波数帯域とを別々に逆フーリエ変換し、周囲音声データと、発音音声データとを生成する逆FFT部と
から構成されていることを特徴とする音声データ合成装置。 - 請求項1から請求項5のいずれか一項に記載の音声データ合成装置において、
前記対象から音声が発生されている発音期間を検出する発音期間検出部をさらに有し、
該発音期間検出部が、前記画像データに対する画像認識の処理により、前記対象の顔を認識し、当該認識した顔における口の領域を検出し、当該口の形状が変化している期間を、前記発音期間として検出することを特徴とする音声データ合成装置。 - 請求項6に記載の音声データ合成装置において、
前記発音期間検出部が、予め設定されている顔のテンプレートと比較することにより、前記認識した顔における口の位置を検出することを特徴とする音声データ合成装置。 - 請求項7に記載の音声データ合成装置において、
前記発音期間検出部が、前記顔のテンプレートにて前記口の領域を検出し、口が開かれている口開テンプレートと、口が閉じられている口閉テンプレートとを有し、口の開閉状態を、前記口の領域の画像と、前記口開テンプレート及び前記口閉テンプレートと比較することにより、前記対象の口の開閉状態を検出することを特徴とする音声データ合成装置。 - 請求項5に記載の音声データ合成装置において、
前記音声周波数検出部が、前記第1周波数帯域を通過させるバンドパスフィルタ及び前記第2周波数帯域を通過させるバンドエリミネーションフィルタを生成し、前記逆FFT部が前記バンドパスフィルタにより前記第1周波数帯域を前記周波数帯域から抽出し、また前記バンドエリミネーションフィルタにより前記第2周波数帯域を前記周波数帯域から抽出することを特徴とする音声データ合成装置。 - 請求項5または請求項9に記載の音声データ合成装置において、
前記音声周波数検出部が、人間が音の方向を認識できる可指向領域の周波数領域において、前記発音期間の周波数帯域と、当該発音期間以外の周波数帯域の比較を行うことを特徴とする音声データ合成装置。 - 光学系による対象の像を撮像し、画像データを生成する撮像部と、
音声データを取得する音声データ取得部と、
前記音声データから前記対象の発生する第1音声データと、当該第1音声データ以外の第2音声データとを分離する音声データ分離部と
マルチスピーカへ出力する音声データのチャンネル毎に、当該チャンネルに設定されたゲイン及び位相調整量により、ゲインと位相とを制御した前記第1音声データと前記第2音声データとを合成する音声データ合成部と、
前記画像データでの画面内における前記対象の像の位置に基づいて、前記位相調整量を算出する制御係数決定部と
を有することを特徴とする音声データ合成装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009204601A JP5597956B2 (ja) | 2009-09-04 | 2009-09-04 | 音声データ合成装置 |
CN2010800387870A CN102483928B (zh) | 2009-09-04 | 2010-09-03 | 声音数据合成装置 |
US13/391,951 US20120154632A1 (en) | 2009-09-04 | 2010-09-03 | Audio data synthesizing apparatus |
PCT/JP2010/065146 WO2011027862A1 (ja) | 2009-09-04 | 2010-09-03 | 音声データ合成装置 |
US14/665,445 US20150193191A1 (en) | 2009-09-04 | 2015-03-23 | Audio data synthesizing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009204601A JP5597956B2 (ja) | 2009-09-04 | 2009-09-04 | 音声データ合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011055409A JP2011055409A (ja) | 2011-03-17 |
JP5597956B2 true JP5597956B2 (ja) | 2014-10-01 |
Family
ID=43649397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009204601A Active JP5597956B2 (ja) | 2009-09-04 | 2009-09-04 | 音声データ合成装置 |
Country Status (4)
Country | Link |
---|---|
US (2) | US20120154632A1 (ja) |
JP (1) | JP5597956B2 (ja) |
CN (1) | CN102483928B (ja) |
WO (1) | WO2011027862A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011101110A (ja) * | 2009-11-04 | 2011-05-19 | Ricoh Co Ltd | 撮像装置 |
JP5926571B2 (ja) * | 2012-02-14 | 2016-05-25 | 川崎重工業株式会社 | 電池モジュール |
US10194239B2 (en) * | 2012-11-06 | 2019-01-29 | Nokia Technologies Oy | Multi-resolution audio signals |
US9607609B2 (en) * | 2014-09-25 | 2017-03-28 | Intel Corporation | Method and apparatus to synthesize voice based on facial structures |
CN105979469B (zh) * | 2016-06-29 | 2020-01-31 | 维沃移动通信有限公司 | 一种录音处理方法及终端 |
JP6747266B2 (ja) * | 2016-11-21 | 2020-08-26 | コニカミノルタ株式会社 | 移動量検出装置、画像形成装置および移動量検出方法 |
US10148241B1 (en) * | 2017-11-20 | 2018-12-04 | Dell Products, L.P. | Adaptive audio interface |
CN115762579A (zh) * | 2018-09-29 | 2023-03-07 | 华为技术有限公司 | 一种声音处理方法、装置与设备 |
CN111050269B (zh) * | 2018-10-15 | 2021-11-19 | 华为技术有限公司 | 音频处理方法和电子设备 |
US10820131B1 (en) | 2019-10-02 | 2020-10-27 | Turku University of Applied Sciences Ltd | Method and system for creating binaural immersive audio for an audiovisual content |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0946798A (ja) * | 1995-07-27 | 1997-02-14 | Victor Co Of Japan Ltd | 擬似ステレオ装置 |
JP2993489B2 (ja) * | 1997-12-15 | 1999-12-20 | 日本電気株式会社 | 疑似多チャンネルステレオ再生装置 |
US6483532B1 (en) * | 1998-07-13 | 2002-11-19 | Netergy Microelectronics, Inc. | Video-assisted audio signal processing system and method |
JP4577543B2 (ja) * | 2000-11-21 | 2010-11-10 | ソニー株式会社 | モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置 |
JP4371622B2 (ja) * | 2001-03-22 | 2009-11-25 | 新日本無線株式会社 | 疑似ステレオ回路 |
US6829018B2 (en) * | 2001-09-17 | 2004-12-07 | Koninklijke Philips Electronics N.V. | Three-dimensional sound creation assisted by visual information |
JP2003195883A (ja) * | 2001-12-26 | 2003-07-09 | Toshiba Corp | 雑音除去装置およびその装置を備えた通信端末 |
JP4066737B2 (ja) * | 2002-07-29 | 2008-03-26 | セイコーエプソン株式会社 | 画像処理システム |
CN1846232A (zh) * | 2003-08-29 | 2006-10-11 | 日本电气株式会社 | 使用加权信息的对象姿态估计和匹配系统 |
JP2005311604A (ja) * | 2004-04-20 | 2005-11-04 | Sony Corp | 情報処理装置及び情報処理装置に用いるプログラム |
KR100636252B1 (ko) * | 2005-10-25 | 2006-10-19 | 삼성전자주식회사 | 공간 스테레오 사운드 생성 방법 및 장치 |
US8848927B2 (en) * | 2007-01-12 | 2014-09-30 | Nikon Corporation | Recorder that creates stereophonic sound |
JP4449987B2 (ja) * | 2007-02-15 | 2010-04-14 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
WO2008106680A2 (en) * | 2007-03-01 | 2008-09-04 | Jerry Mahabub | Audio spatialization and environment simulation |
-
2009
- 2009-09-04 JP JP2009204601A patent/JP5597956B2/ja active Active
-
2010
- 2010-09-03 WO PCT/JP2010/065146 patent/WO2011027862A1/ja active Application Filing
- 2010-09-03 US US13/391,951 patent/US20120154632A1/en not_active Abandoned
- 2010-09-03 CN CN2010800387870A patent/CN102483928B/zh not_active Expired - Fee Related
-
2015
- 2015-03-23 US US14/665,445 patent/US20150193191A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
CN102483928B (zh) | 2013-09-11 |
US20120154632A1 (en) | 2012-06-21 |
JP2011055409A (ja) | 2011-03-17 |
US20150193191A1 (en) | 2015-07-09 |
WO2011027862A1 (ja) | 2011-03-10 |
CN102483928A (zh) | 2012-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5597956B2 (ja) | 音声データ合成装置 | |
US10142618B2 (en) | Imaging apparatus and imaging method | |
JP6017854B2 (ja) | 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム | |
JP4934580B2 (ja) | 映像音声記録装置および映像音声再生装置 | |
KR101421046B1 (ko) | 안경 및 그 제어방법 | |
WO2000077537A1 (fr) | Procede et appareil de determination d'une source sonore | |
JP7428763B2 (ja) | 情報取得システム | |
CN111970625A (zh) | 录音方法和装置、终端和存储介质 | |
JP2010154259A (ja) | 画像音声処理装置 | |
EP3812837B1 (en) | Imaging apparatus | |
JP5214394B2 (ja) | カメラ | |
JP2009177480A (ja) | 撮影装置 | |
US20240098409A1 (en) | Head-worn computing device with microphone beam steering | |
JP5638897B2 (ja) | 撮像装置 | |
JP2010124039A (ja) | 撮像装置 | |
JP5750668B2 (ja) | カメラ、再生装置、および再生方法 | |
JP2003264897A (ja) | 音響提示システムと音響取得装置と音響再生装置及びその方法並びにコンピュータ読み取り可能な記録媒体と音響提示プログラム | |
US11683634B1 (en) | Joint suppression of interferences in audio signal | |
JP2022106109A (ja) | 音声認識装置、音声処理装置および方法、音声処理プログラム、撮像装置 | |
JP5072714B2 (ja) | 音声記録装置及び音声再生装置 | |
JP2015097318A (ja) | 音声信号処理システム | |
JP2024046308A (ja) | 撮像装置、制御方法、およびプログラム | |
KR20230018641A (ko) | 음성 처리 장치를 포함하는 다중 그룹 수업 시스템 | |
JP2024056580A (ja) | 情報処理装置及びその制御方法及びプログラム | |
JP2004032726A (ja) | 情報記録装置および情報再生装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120829 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131001 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140715 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140728 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5597956 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |