JP7111202B2 - SOUND COLLECTION CONTROL SYSTEM AND CONTROL METHOD OF SOUND COLLECTION CONTROL SYSTEM - Google Patents
SOUND COLLECTION CONTROL SYSTEM AND CONTROL METHOD OF SOUND COLLECTION CONTROL SYSTEM Download PDFInfo
- Publication number
- JP7111202B2 JP7111202B2 JP2021016613A JP2021016613A JP7111202B2 JP 7111202 B2 JP7111202 B2 JP 7111202B2 JP 2021016613 A JP2021016613 A JP 2021016613A JP 2021016613 A JP2021016613 A JP 2021016613A JP 7111202 B2 JP7111202 B2 JP 7111202B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- sound
- sound source
- unit
- position information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 25
- 230000005236 sound signal Effects 0.000 claims description 94
- 230000000052 comparative effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 17
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000004040 coloring Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
- Image Analysis (AREA)
Description
本発明は、収音制御システム及び収音制御システムの制御方法に関する。 The present invention relates to a sound collection control system and a control method for the sound collection control system.
下記特許文献1には、対象空間の映像を撮影するカメラと、複数のマイクロホンを用いて音声を収音するマイクアレイと、収音された音声データに基づき、音源位置を算出する音源解析部と、撮像された対象空間の映像と音源位置を示す音源位置表示とを含む画像データをディスプレイに表示させる画像表示処理部と、ディスプレイに表示された対象空間画像において、マイクロホンが収音する音声を強調したい位置の指定を受け付けるユーザー入力装置と、を含む収音システムが開示されている。 Patent Document 1 below describes a camera that captures an image of a target space, a microphone array that collects sound using a plurality of microphones, and a sound source analysis unit that calculates the sound source position based on the collected sound data. , an image display processing unit that displays image data including an image of the captured target space and a sound source position display that indicates the position of the sound source on the display; A sound collection system is disclosed that includes a user input device that accepts designation of a desired location.
従来の収音システムでは、音源解析部が収音された音声データのみに基づき音源位置を算出するため、非常に高い指向性が必要であった。 In the conventional sound collection system, the sound source analysis unit calculates the sound source position based only on the collected sound data, so very high directivity was required.
本発明は、上記問題点に鑑みてなされたものであり、その目的は、収音機能に高い指向性を求めずに、音源位置を特定する構成を実現することである。 SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and an object of the present invention is to realize a configuration for specifying the position of a sound source without requiring high directivity for the sound pickup function.
本開示に係る収音制御システムは、音声の入力を受け付け、複数の音声信号を生成する収音部と、前記複数の音声信号と、複数の参加者が表示された参加者の画像と、を取得し、複数の前記音声信号の間の比較情報を用いて第1の音源の位置を特定し、前記参加者の画像に対して前記第1の音源の位置を含む範囲に顔認識を実行することで第2の音源の位置を特定し、該第2の音源の位置を表す位置情報を生成する位置情報生成部と、前記位置情報を用いて、話者に関する画像を生成する画像生成部と、少なくとも一つの前記話者に関する画像を表示装置に表示させる表示処理部と、少なくとも一つの前記話者に関する画像の中から一つの画像の選択を受け付ける選択受付部と、を含む。 A sound collection control system according to the present disclosure includes a sound collection unit that receives sound input and generates a plurality of sound signals, the plurality of sound signals, and images of participants in which a plurality of participants are displayed. and using comparative information between a plurality of said audio signals to identify the location of a first sound source, and performing facial recognition on an image of said participant to a range including said location of said first sound source. a position information generation unit that identifies the position of the second sound source by using the above-described position information, and generates position information representing the position of the second sound source; and an image generation unit that generates an image of the speaker using the position information. , a display processing unit for displaying at least one image regarding the speaker on a display device; and a selection receiving unit for receiving selection of one image from the at least one image regarding the speaker.
本開示に係る収音制御システムの制御方法は、音声の入力を受け付け、複数の音声信号を生成し、前記複数の音声信号と、複数の参加者が表示された参加者の画像と、を取得し、複数の前記音声信号の間の比較情報を用いて第1の音源の位置を特定し、前記参加者の画像に対して前記第1の音源の位置を含む範囲に顔認識を実行することで第2の音源の位置を特定し、該第2の音源の位置を表す位置情報を生成し、前記位置情報を用いて、話者に関する画像を生成し、少なくとも一つの前記話者に関する画像を表示装置に表示させ、少なくとも一つの前記話者に関する画像の中から一つの画像の選択を受け付ける。 A control method for a sound collection control system according to the present disclosure receives an audio input, generates a plurality of audio signals, and obtains the plurality of audio signals and an image of a participant in which a plurality of participants are displayed. and identifying the location of a first sound source using comparative information between a plurality of said audio signals, and performing facial recognition on an image of said participant to a range including said location of said first sound source. to identify the position of a second sound source, generate position information representing the position of the second sound source, generate an image of the speaker using the position information, and generate at least one image of the speaker The selection of one image is received from among the images relating to the at least one speaker, which are displayed on a display device.
[第1の実施形態]
第1の実施形態について、図面を用いて以下に説明する。
[First embodiment]
A first embodiment will be described below with reference to the drawings.
[収音制御システム100]
図1は、本実施形態に係る収音制御システム100のブロック図である。収音制御システム100は、図1に示すように、撮影収音装置10と、ネットワーク20を介して撮影収音装置10と接続される操作用装置30と、操作用装置30の指示に従って再生を行う再生装置40とを含む。なお、再生装置40は、操作用装置30に外部接続されてもよく、操作用装置30に内蔵されていてもよい。
[Sound pickup control system 100]
FIG. 1 is a block diagram of a sound
撮影収音装置10は、発話者の音声の入力を受付け、音声信号51を生成する。撮影収音装置10は、会議や講義などに参加している複数の参加者が表示された参加者画像を撮影する。撮影収音装置10は、複数の音声信号51の位相差から音源位置が含まれる範囲を特定し、参加者画像に対する顔認識を行うことにより、推定話者の顔の位置、即ち音源位置を特定する。撮影収音装置10は、特定された顔の位置に基づき、推定話者画像52を生成する。撮影収音装置10は、推定話者画像52と、音声信号51とを、ネットワーク20を介して操作用装置30に送信する。
The photographing/
操作用装置30は、例えば会議や講義の話し手である操作者が使用する装置であり、ネットワーク20を介して音声信号51と推定話者画像52とを受信する。操作用装置30は、内部に表示装置を有するか、あるいは表示装置に外部接続されており、撮影収音装置10より受信した少なくとも一つの推定話者画像52を表示装置に表示させる。操作者が、表示装置に表示された少なくとも一つの推定話者画像52の中から一つを選択すると、操作用装置30が、選択された推定話者画像52に関する指向性制御信号53を生成し、ネットワーク20を介して撮影収音装置10に送信する。指向性制御信号53とは、推定話者画像52に関連付けられた音源位置情報に基づき、撮影収音装置10による音声信号51の出力を制御する信号である。
The
指向性制御信号53を受信した撮影収音装置10は、指向性制御信号53に基づき、推定話者画像52に関連付けられた音源位置の音声信号51の出力を、他の音声信号51よりも強調し、操作用装置30に送信する。
Upon receiving the
操作用装置30は、話者周辺の音声が強調された音声信号51を受信し、当該音声信号51の再生を、スピーカー等からなる再生装置40に指示する。
The
このような構成により、表示装置に、推定話者の顔が拡大された推定話者画像52が表示されるため、操作者が容易に発話者を認識することができる。
With such a configuration, the display device displays the estimated
また、会場が広く、大勢の参加者がいるような場合、音声信号51の位相差のみを用いて話者の顔の位置を特定するためには、撮影収音装置10に含まれる収音機能に非常に高い指向性が求められる。しかし、撮影収音装置10が、顔認識技術を併用して音源位置情報を生成することにより、収音機能の指向性がそれほど高くない場合であっても、話者の顔の位置を特定することが可能となる。
In addition, when the venue is large and there are many participants, in order to specify the position of the speaker's face using only the phase difference of the
以下、撮影収音装置10、及び操作用装置30のより具体的な構成について説明する。
More specific configurations of the photographing/
[撮影収音装置10]
図2は、本実施形態に係る撮影収音装置10のブロック図である。撮影収音装置10は、図2に示すように、音声の入力を受け付け、複数の音声信号51を生成する収音部11と、複数の参加者が表示された参加者画像を撮影する撮影部12と、複数の音声信号51の位相差と、参加者画像に対する顔認識を用いて音源位置を特定する音源位置情報を生成する音源位置情報生成部13と、音源位置情報を用いて、推定話者に関する推定話者画像52を生成し、操作用装置30に送信する推定話者画像生成部14と、を含む。
[Photographing sound collection device 10]
FIG. 2 is a block diagram of the photographing and sound collecting
更に、撮影収音装置10は、操作用装置30から送信された指向性制御信号53を受信する操作用装置入力部15と、操作用装置入力部15から指向性制御信号53を取得し、この指向性制御信号53に基づき音声信号51を制御して出力する指向性演算部16とを含む。
Further, the photographing/
音源位置情報生成部13、推定話者画像生成部14、操作用装置入力部15、指向性演算部16は、一つの制御部17で構成することも可能である。制御部17は、CPUとメモリを含み、撮影収音装置10に含まれる記憶部18に記憶されたプログラムに基づき、撮影収音装置10全体を制御し、後述する音声信号生成ステップS101、参加者画像撮影ステップS102、音源位置情報生成ステップS103、推定話者画像生成ステップS104、推定話者画像送信ステップS105、指向性制御信号受信ステップS106、指向性演算ステップS107などを実行する。当該プログラムは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。
The sound source
なお、本実施形態においては、撮影収音装置100が記憶部18を含む構成を示したが、記憶部18は必須構成要素ではなく、制御部17は、撮影収音装置100に接続されたプログラム記録媒体等を用いて、各種制御ステップを実行する構成としてもよい。
In the present embodiment, the photographing/
図3は、本実施形態に係る撮影収音装置10と参加者との配置関係の一例を示す模式図である。図3に示すように、撮影収音装置10は、会場の前方の天井に配置されており、撮影収音装置10に含まれる撮影部12により会場前方の全体が撮影されている。なお、撮影収音装置10の設置場所は、会場の天井に限定されず、撮影収音装置10が、会場の前方に配置されていればよい。
FIG. 3 is a schematic diagram showing an example of the arrangement relationship between the photographing/
[収音部11]
本実施形態において、収音部11は、複数のマイクロホンを含むアレイマイクにより構成する。収音部11は、撮影収音装置10が配置された会場の音を収音する。収音部11は、図3に示した撮影部12を含む同一筐体内に配置されていてもよく、会場前方の天井に設置された他の筐体内に配置されていてもよい。
[Sound pickup unit 11]
In this embodiment, the
収音部11であるアレイマイクに含まれる複数のマイクロホンは、それぞれが担当収音位置を有し、この担当収音位置周辺の音声を収音し、マイクロホンの数に応じた複数の音声信号51を生成する。収音部11は、例えば、増幅器、A/D変換機、符号化部を含む。増幅器が、マイクロホンにより収音された音声データを増幅する。A/D変換機は、増幅器から出力された音声データをデジタル音声データに変換する。符号化部は、デジタル音声データを符号化し、音声信号を生成する。
A plurality of microphones included in the array microphone, which is the
収音部11は、図2に示すように、この複数の音声信号51を、音源位置情報生成部13と指向性演算部16に送信する。
The
[撮影部12]
撮影部12は、少なくとも一つのカメラを有し、複数の参加者が表示された参加者画像60を撮影する。本実施形態においては、撮影部12は一つのカメラを有し、このカメラにより、会場内にいる参加者全体を前方から撮影した画像を撮影する。
[Photographing unit 12]
The photographing
撮影部12は、撮影した参加者画像60を、音源位置情報生成部13、推定話者画像生成部14に送信する。
The photographing
[音源位置情報生成部13]
上述したとおり、収音部11は、複数のマイクロホンにより収音された音声信号51を、マイクロホンの数に応じて生成し、音源位置情報生成部13に送信している。この複数の音声信号51を受信した音源位置情報生成部13は、この複数の音声信号51の比較情報である位相差から、図3に示す、音源位置が含まれる第1の範囲71、第2の範囲72を特定する。
[Sound source position information generator 13]
As described above, the
なお、本実施形態においては、音源位置情報生成部13が、複数の音声信号51の比較情報としての位相差から、音源位置を特定する構成を説明したが、複数の音声信号51の位相差ではなく、複数の音声信号51のパワー比から、音源位置を特定する構成としてもよい。
In the present embodiment, the sound source position
なお、本実施形態においては、音源位置情報生成部13は、音声信号51に対して周波数分析を行うことにより、単なる雑音と人の声とを判別し、複数の音源位置の中から、人の音声が発せられた位置情報を音源位置情報として取得する。具体例としては、音源位置情報生成部13は、音声信号51を、信号振幅を縦軸、横軸を時間とする時間領域から、信号振幅を縦軸、横軸を周波数とする周波数領域にフーリエ変換し、人の音声の周波数として適切な所定の範囲内(例えば0.2kHz~4kHz)に含まれる音声信号51を人の音声と判断し、所定の範囲に含まれない音声信号51は雑音であると判断する。音源位置情報生成部13は、この人の音声に関する周波数として所定範囲内に含まれる音声信号51のみに対して音源位置が含まれる範囲を特定する。
In this embodiment, the sound source position
更に、音源位置情報生成部13は、撮影部12から参加者画像を受信している。音源位置情報生成部13は、先ほどの音声信号51の位相差から特定した音源位置が含まれる範囲内において、撮影部12から取得した参加者画像に顔認識を行うことにより、参加者画像における話者の顔の位置、即ち音源位置を特定する。この音源位置を特定する情報が音源位置情報である。
Furthermore, the sound source position
図4は、本実施形態における参加者画像を用いた顔認識の一例を示す模式図である。図4に示すように、参加者画像60には、会場にいる参加者全体の画像が含まれている。ここで、参加者画像60の中で後方左側にいる第1の参加者61と、前方右側にいる第2の参加者62が何らかの音声を発したとする。この音声を収音した収音部11からの音声信号51に基づき、音源位置情報生成部13は、第1の音源位置が含まれる第1の範囲71、第2の音源位置が含まれる第2の範囲72を特定する。第1の範囲71には、第1の参加者61が含まれており、第2の範囲72には、第2の参加者62が含まれている。
FIG. 4 is a schematic diagram showing an example of face recognition using participant images in this embodiment. As shown in FIG. 4, the
音源位置情報生成部13は、この第1の範囲71において顔認識を行うことにより、第1の参加者61の顔の位置81を第1の音源位置として特定する。また、音源位置情報生成部13は、第2の範囲72において顔認識を行うことにより、第2の参加者62の顔の位置82を第2の音源位置として特定する。
The sound source position
本実施形態において、音源位置情報生成部13は、この第1の参加者61の顔の位置81、及び第2の参加者62の顔の位置82を、音源位置情報として、推定話者画像生成部14に送信する。その際、音源位置情報生成部13は、第1の範囲71と第1の参加者61の顔の位置81とを関連付け、第2の範囲72と第2の参加者62の顔の位置82とを関連付けて、推定話者画像生成部14に送信する。
In this embodiment, the sound source position
[推定話者画像生成部14]
推定話者画像生成部14は、音源位置情報生成部13から送信された音源位置情報と、撮影部12から送信された参加者画像60を受信し、推定話者に関する推定話者画像52を生成する。
[Estimated speaker image generator 14]
The estimated speaker
本実施形態においては、音源位置情報生成部13より、音源位置情報として図4に示すような第1の参加者61の顔の位置81、及び第2の参加者62の顔の位置82の情報を受信している。推定話者画像生成部14は、この顔の位置情報に基づき、撮影部12から送信された参加者画像60から切り出し画像を生成する。
In this embodiment, the sound source position
図5、6は、本実施形態における参加者画像60から生成された切り出し画像の一例を示す模式図である。本実施形態においては、推定話者画像生成部14は、音源位置情報生成部13より受信した第1の参加者61の顔の位置81に基づき、図5に示すような、第1の参加者61の顔が拡大された第1の切り出し画像91を生成する。また、推定話者画像生成部14は、音源位置情報生成部13より受信した第2の参加者62の顔の位置82に基づき、図6に示すような、第2の参加者62の顔が拡大された第2の切り出し画像92を生成する。
5 and 6 are schematic diagrams showing examples of clipped images generated from the
推定話者画像生成部14は、推定話者画像52として、この第1の切り出し画像91、第2の切り出し画像92を操作用装置30に送信する。この第1の切り出し画像91、第2の切り出し画像92は、それぞれ音源位置情報生成部13からの音源位置情報、即ち第1の参加者61の顔の位置81、及び第2の参加者62の顔の位置82の情報を基に生成されている。そのため、推定話者画像生成部14は、この音源位置情報と推定話者画像52とを関連付けた状態で、操作用装置30に送信する。
The estimated speaker
更に、本実施形態においては、推定話者画像生成部14は、参加者画像60における推定話者画像52に対応する位置情報を、推定話者画像52と関連付けて操作用装置30に送信する。このような構成とすることにより、後述する操作用装置30において、参加者画像60と、推定話者画像52とを関連付けて表示させることが可能となる。
Furthermore, in the present embodiment, the estimated
なお、本実施形態においては、推定話者画像生成部14が、推定話者画像52として、第1の切り出し画像91、第2の切り出し画像92を生成し、操作用装置30に送信する構成を説明したが、推定話者画像52として他の画像を送付する構成としてもよい。例えば、上述した撮影部12が複数のカメラを有し、第1のカメラが参加者画像60を撮影し、音源位置情報生成部13が生成した音源位置情報に基づき、第2のカメラが音源位置の方向の画像を撮影し、この音源位置の方向の画像を推定話者画像52として、推定話者画像生成部14が取得する構成としてもよい。なお、この構成の場合、複数の話者を撮影し、複数の推定話者画像52を生成するためには、第2のカメラを話者の数に応じて複数台設ける必要がある。
In this embodiment, the estimated speaker
なお、本実施形態においては、推定話者画像生成部14が、複数の推定話者に関する複数の推定話者画像を生成し、操作用装置30に送信する構成を例に挙げたが、推定話者画像生成部14が、一つの推定話者に関する推定話者画像を生成し、操作用装置30に送信する構成としてもよい。ただし、推定話者画像生成部14が、複数の推定話者画像を生成し、操作用装置30に送信する構成とすることにより、後述する表示装置33において、複数の推定話者画像52を並べて表示する構成とすることができる。その結果として、操作者が複数の推定話者画像52を見比べながら、操作用装置30の操作を行うことができるというメリットがある。
In this embodiment, the estimated speaker
[操作用装置入力部15]
操作用装置入力部15は、操作用装置30から送信された指向性制御信号を受信し、指向性演算部16に送信する。指向性制御信号とは、推定話者画像52に関連付けられた音源位置情報に基づき、収音部11からの音声信号51の出力を制御する情報である。
[
The operation
本実施形態においては、指向性制御信号には、第1の切り出し画像91、又は第2の切り出し画像92に関連付けられた音源位置情報、即ち第1の参加者61の顔の位置81、又は第2の参加者62の顔の位置82に関する情報が含まれている。
In this embodiment, the directivity control signal includes sound source location information associated with the first clipped
操作用装置入力部15は、この音源位置情報が含まれた指向性制御信号を、指向性演算部16に送信する。
The operation
[指向性演算部16]
指向性演算部16は、指向性制御信号53を操作用装置入力部15より取得し、収音部11より音声信号51を取得する。指向性演算部16は、この指向性制御信号53に基づき、収音部11からの音声信号51を制御して出力する。
[Directivity calculator 16]
The
詳細は後述するが、操作用装置30を操作する操作者が、第1の参加者61の顔が表示された第1の切り出し画像91を選択した場合、この第1の切り出し画像91に関連付けられた第1の音源位置情報、即ち第1の参加者61の顔の位置81に関する情報が、指向性制御信号53が含まれている。この指向性制御信号53に基づき、指向性演算部16は、収音部11から受信した複数の音声信号51の中から、第1の参加者61の顔の位置81からの音声信号51を、他の音声信号51よりも強調して、操作用装置30に送信する。
Although details will be described later, when the operator who operates the
[操作用装置30]
図7は、本実施形態に係る操作用装置30のブロック図である。操作用装置30は、図7に示すように、撮影収音装置10により生成された少なくとも一つの推定話者画像52を受信する通信部31と、少なくとも一つの推定話者画像52を表示装置33に表示させる表示処理部32と、少なくとも一つの推定話者画像52の中から一つの推定話者画像52の選択を受け付ける選択受付部34と、選択された推定話者画像52に関する指向性制御信号53を生成する指向性制御信号生成部35と、撮影収音装置10より音声信号を受信し、音声信号51の再生を再生装置40に指示する再生処理部36とを、を含む。
[Device for operation 30]
FIG. 7 is a block diagram of the operating
表示処理部32、指向性制御信号生成部35、再生処理部36は、一つの制御部38で構成することも可能である。制御部38は、CPUとメモリを含み、操作用装置30に含まれる記憶部39に記憶されたプログラムに基づき、操作用装置30全体を制御し、後述する推定話者画像受信ステップS201、表示処理ステップS202、選択受付ステップS203、指向性制御信号生成ステップS204、音声信号受信ステップS205、再生処理ステップS206などを実行する。当該プログラムは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。
The
操作用装置30は、会場前方において、例えば講義等を行う操作者により使用される。
The operating
なお、本実施形態においては、操作用装置30が、タッチパネル37を含み、タッチパネル37が表示装置33と選択受付部34とを含む構成としている。
In this embodiment, the
なお、他の実施例を示す操作用装置30のブロック図である図8に示すように、操作用装置30が表示装置33を含まず、表示処理部32が、操作用装置30に外部接続された表示装置33に推定話者画像52の表示を指示する構成としてもよい。
Note that as shown in FIG. 8, which is a block diagram of the operating
[通信部31]
通信部31は、無線LAN、有線LAN、WAN、赤外線、電波、Bluetooth(登録商標)などに対応しており、ネットワーク20を介して、撮影収音装置10との信号伝達を行う。
[Communication section 31]
The
本実施形態においては、通信部31は、撮影収音装置10により生成された第1の切り出し画像91と第2の切り出し画像92を、推定話者画像52として受信している。通信部31は、この第1の切り出し画像91と第2の切り出し画像92を、表示処理部32に送信する。なお、この第1の切り出し画像91には、第1の音源位置情報として第1の参加者61の顔の位置81に関する情報が関連付けられており、第2の切り出し画像92には、第2の音源位置情報として第2の参加者62の顔の位置82に関する情報が関連付けられている。
In this embodiment, the
また、通信部31は、指向性制御信号生成部35が生成する指向性制御信号53を撮影収音装置10に送信する。
In addition, the
[表示処理部32]
表示処理部32は、少なくとも一つの推定話者画像52を表示装置33に表示させる。即ち、複数の推定話者画像52を取得している場合には、複数の推定話者画像52を表示装置33に表示させ、唯一の推定話者画像52を取得している場合には、その唯一の推定話者画像52を表示装置33に表示させる。
[Display processing unit 32]
The
本実施形態においては、図5に示した第1の切り出し画像91と、図6に示した第2の切り出し画像92を表示装置33に表示させる。図9は、本実施形態における表示装置33の表示画面の一例を示す模式図である。図9に示すように、表示処理部32は、第1の切り出し画像91と第2の切り出し画像92とを、表示装置33に並べて表示させる。なお、表示装置33に表示させる切り出し画像の枚数は、通信部31から受信した切り出し画像の枚数に合わせる構成にしてもよい。
In the present embodiment, the first clipped
このように、表示装置33に、複数の推定話者画像52を表示する構成とすることにより、操作者が複数の推定話者画像52を見比べながら、操作用装置30の操作を行うことができ、特に強調して聞きたい話者を選択することができる。
In this way, by displaying a plurality of estimated
なお、この複数の推定話者画像52を表示することにより、操作者が複数の推定話者画像52を見比べながら操作用装置30を操作することができるメリットは、音源位置情報生成部13が、顔認識を用いずに音源位置情報を生成する場合においても得ることができる。なお、音源位置情報生成部13が、顔認識を用いずに音源位置情報を生成する場合には、推定話者画像52は、図3に示した、音源位置が含まれる第1の範囲71、第2の範囲72に基づき、例えば第1の範囲71、第2の範囲72の切り出し画像が生成される。
By displaying the plurality of estimated
更に、本実施形態においては、表示処理部32が、表示装置33に、参加者画像60を合わせて表示させる構成としている。表示処理部32が、表示装置33に、参加者画像60を合わせて表示させることで、操作者が会場全体の様子を合わせて確認することができる。
Furthermore, in this embodiment, the
更に、本実施形態においては、操作用装置30は、撮影収音装置10より、参加者画像60における推定話者画像52に対応する位置情報が、推定話者画像52に関連付けられた状態で受信している。そのため、表示処理部32は、参加者画像60と推定話者画像52とを関連付けて、表示装置33に表示させることが可能となる。
Furthermore, in the present embodiment, the
具体的には、図9に示すように、表示処理部32は、表示装置33に、参加者画像60における第1の参加者61の顔の位置に表示枠81Aを表示するとともに、第2の参加者62の顔の位置に表示枠82Aを表示させる構成としている。更に、表示処理部32は、表示装置33に対して、表示枠81A、82Aと、この表示枠81A、82Aに対応する推定話者画像52の少なくとも一部と、同一色の着色をして表示させる。具体例としては、第1の参加者61の顔の位置81の表示枠81Aを赤色で表示するとともに、第1の切り出し画像91の枠を赤色で表示し、第2の参加者62の顔の位置82の表示枠82Aを緑色で表示するとともに、第2の切り出し画像92の枠を緑色で表示する構成としてもよい。このような構成とすることにより、切り出し画像として表示されている第1の参加者61、第2の参加者62が、参加者画像60の中でどこに位置しているかを、操作者が容易に理解することができる。
Specifically, as shown in FIG. 9, the
なお、第1の切り出し画像91、第2の切り出し画像92への着色箇所は、枠に限定されず、第1の切り出し画像91、第2の切り出し画像92の少なくとも一部に対して行われ、操作者が、第1の切り出し画像91、第2の切り出し画像92と、参加者画像60に含まれる表示枠81A、81Bとを対応付けて把握することができる構成であればよい。
In addition, the coloring portion of the
このような構成により、表示装置33に、推定話者である第1の参加者61の顔が拡大された第1の切り出し画像91、及び推定話者である第2の参加者62の顔が拡大された第2の切り出し画像92が表示されるため、操作者が容易に発話者を認識することができる。
With such a configuration, the
また、会場が広く、大勢の参加者がいるような場合、収音部11の音声信号51の位相差のみを用いて話者の顔の位置を特定するためには、非常に高い指向性が求められる。しかし、本実施形態に示すように、音源位置情報生成部13が顔認識技術を併用することにより、収音部11の指向性がそれほど高くない場合であっても、音声信号の位相差により特定された音源位置が含まれる範囲の中から、顔認識により音源位置を特定することが可能となる。また、音声信号51の位相差を用いて、音源位置が含まれる範囲を絞ることができるため、顔認識を行う範囲を絞ることができ、効率よく音源位置を特定することができる。
In addition, when the venue is large and there are many participants, very high directivity is required to specify the position of the speaker's face using only the phase difference of the
なお、本実施形態においては、操作用装置30の通信部31が、推定話者画像52として、第1の切り出し画像91、第2の切り出し画像92を受信し、第1の切り出し画像91、第2の切り出し画像92を表示装置33に表示させる構成を説明した。しかし、操作用装置30の通信部31が、推定話者画像52として、複数のカメラにより撮影された各音源位置の方向の画像を受信していた場合、この各音源位置の方向の画像を、推定話者画像52として表示装置33に表示させる構成としてもよい。
In this embodiment, the
[表示装置33]
表示装置33は、操作用装置30に内蔵された、あるいは外部接続された表示装置であり、表示処理部32の指示に基づき、推定話者画像52等を表示する。
[Display device 33]
The
表示装置33が、操作用装置30に外部接続された例としては、表示装置33として一般的な液晶ディスプレイ、ELディスプレイ、プラズマディスプレイ、プロジェクターなどを用いてもよい。又は、操作者が講義にノートパソコンを用いている場合には、このノートパソコンを操作用装置30に接続し、操作用装置30に含まれる表示処理部32からの指示に応じて、ノートパソコンに含まれる表示装置に推定話者画像52を表示させてもよい。
As an example in which the
[選択受付部34]
選択受付部34は、少なくとも一つの推定話者画像52の中から一つの推定話者画像52の選択を受け付ける。即ち、選択受付部34が複数の推定話者画像52を取得している場合、操作者の操作により、その複数の推定話者画像52の中から一つの推定話者画像52の選択を受けつける。選択受付部34が唯一の推定話者画像52を取得している場合は、操作者は、この唯一の推定話者画像52に含まれる話者の音声を強調して聞くか否かを選択し、選択受付部34は、その操作者による選択を受け付ける。
[Selection accepting unit 34]
The
本実施形態においては、図7に示すように、操作用装置30がタッチパネル37を含み、このタッチパネル37に含まれるタッチセンサが選択受付部34として機能する。
In the present embodiment, as shown in FIG. 7, the
あるいは、図8に示すように、操作用装置30がタッチパネル37、表示装置33を含まず、別途、入力装置としての選択受付部34を有する構成としてもよい。この入力装置としては、キーボードやマウスなどの一般的な入力装置であってもよい。あるいは、選択受付部34が、カメラと画像認識装置とを含み、操作者のジェスチャーを認識することにより操作者の選択を受け付けるジェスチャー認識装置であってもよい。
Alternatively, as shown in FIG. 8, the
選択受付部34が操作者の選択を受け付けると、選択受付部34は、その選択結果を指向性制御信号生成部35に送信する。本実施形態においては、操作者が第1の参加者61の声を強調させて聞きたいと判断し、第1の切り出し画像91を選択したとする。選択受付部34は、操作者の選択結果として、この第1の切り出し画像91に関連付けられた音源位置情報、即ち、図4に示した第1の参加者61の顔の位置81が選択された結果を指向性制御信号生成部35に送信する。
When the
[指向性制御信号生成部35]
指向性制御信号生成部35は、選択された推定話者画像52に関する指向性制御信号53を生成する。
[Directivity control signal generator 35]
The directivity
本実施形態においては、指向性制御信号生成部35は、選択受付部34より、第1の切り出し画像91に関連付けられた音源位置情報として第1の参加者61の顔の位置81に関する情報を受信しているため、この第1の参加者61の顔の位置81から発生されている音声信号51の出力を強調することを指示する指向性制御信号53を生成する。
In the present embodiment, the directivity
指向性制御信号生成部35は、この指向性制御信号53を、通信部31を介して撮影収音装置10に送信する。
The directivity control
[再生処理部36]
再生処理部36は、撮影収音装置10より通信部31を介して音声信号51を受信し、この音声信号51の再生を再生装置40に指示する。
[Reproduction processing unit 36]
The
本実施形態においては、指向性制御信号生成部35から、第1の参加者61の顔の位置81から発生されている音声信号51の出力を強調することを指示する指向性制御信号53が撮影収音装置10に送信されており、撮影収音装置10に含まれる指向性演算部16が、上述した操作用装置入力部15を介して、この指向性制御信号53を受信している。
In this embodiment, the
指向性演算部16は、この指向性制御信号53に基づき、収音部11から受信した複数の音声信号51の中から、第1の参加者61の顔の位置81からの音声信号51を、他の音声信号51よりも強調して、操作用装置30に送信している。
Based on the
したがって、再生処理部36は、第1の参加者61の顔の位置81からの音声が強調された音声信号51を再生するよう、再生装置40に指示する。
Therefore, the
その結果、操作者は、自ら選択した第1の参加者61からの音声を強調して聞くことができる。
As a result, the operator can emphasize and listen to the voice from the
このように、操作者が、本実施形態に係る撮影収音装置10及び操作用装置30を含む収音制御システム100を使用することにより、参加者の顔が拡大された推定話者画像52を用いて、強調して聞きたい話者を容易に選択することができる。
As described above, the operator uses the sound
また、会場が広く、大勢の参加者がいるような場合、収音部11の音声信号51のみを用いて話者の顔の位置を特定するためには、非常に高い指向性が求められる。しかし、本実施形態に示すように、音源位置情報生成部13が顔認識技術を併用することにより、収音部11の指向性がそれほど高くない場合であっても、音声信号51の位相差により特定した音源位置が含まれる範囲の中から、顔認識により音源位置、即ち話者の顔の位置を特定することが可能となる。その結果、操作者が、話者の顔が拡大表示されている推定話者画像52を用いて、強調して聞きたい話者を容易に選択することが可能となる。
In addition, when the venue is large and there are many participants, extremely high directivity is required in order to specify the position of the speaker's face using only the
[撮影収音装置10の制御方法]
図10は、本実施形態に係る撮影収音装置10の制御方法を示すフローチャートである。以下、図10を用いて、本実施形態に係る撮影収音装置10の制御方法について説明する。
[Method for Controlling Shooting and Sound Collecting Device 10]
FIG. 10 is a flow chart showing a control method of the photographing/
[音声信号生成ステップS101]
撮影収音装置10の収音部11は、複数の音声信号を生成する音声信号生成ステップS101を実施する。
[Audio signal generation step S101]
The
本実施形態においては、収音部11が、複数のマイクロホンを含むアレイマイクであり、複数のマイクロホンは、それぞれが担当する収音位置周辺の収音を行う。これにより、収音部11は、マイクロホンの数に応じた複数の音声信号を生成する。
In the present embodiment, the
収音部11は、複数の音声信号51を、音源位置情報生成部13と指向性演算部16に送信する。
The
[参加者画像撮影ステップS102]
撮影収音装置10の撮影部12は、複数の参加者が表示された参加者画像60を撮影する参加者画像撮影ステップS102を実施する。
[Participant image capturing step S102]
The photographing
本実施形態においては、撮影部12は一つのカメラを有し、このカメラにより、会場内にいる参加者全体を前方から撮影した参加者画像60を撮影する。
In this embodiment, the photographing
撮影部12は、撮影した参加者画像60を、音源位置情報生成部13、推定話者画像生成部14に送信する。
The photographing
なお、このS102は、音声信号生成ステップS101と同時並行に行ってもよく、音声信号生成ステップS101の後、後述する音源位置情報生成ステップS103の前に行ってもよい。 Note that this S102 may be performed in parallel with the audio signal generation step S101, or may be performed after the audio signal generation step S101 and before the sound source position information generation step S103 described later.
[音源位置情報生成ステップS103]
撮影収音装置10の音源位置情報生成部13は、複数の音声信号51の位相差から音源位置を推定する音源位置情報を生成する音源位置情報生成ステップS103を実施する。
[Sound source position information generation step S103]
The sound source position
音源位置情報生成部13は、収音部11から取得した複数の前記音声信号51の位相差に加えて、撮影部12から取得した参加者画像60に対する顔認識技術を用いて、推定話者の顔の位置を音源位置として特定する。
The sound source position
本実施形態においては、音源位置情報生成部13は、音声信号51の位相差から、音源位置が含まれる第1の範囲71、第2の範囲72を特定し、この第1の範囲71、第2の範囲72の中から、参加者画像60に対する顔認識技術を用いて、第1の参加者61の顔の位置81、及び第2の参加者62の顔の位置82を特定する。この第1の参加者61の顔の位置81、第2の参加者62の顔の位置82を、それぞれ第1の音源位置情報、第2の音源位置情報として、推定話者画像生成部14に送信する。また、その際、音源位置情報生成部13は、第1の範囲71と第1の参加者61の顔の位置81とを関連付け、第2の範囲72と第2の参加者62の顔の位置82とを関連付けて、推定話者画像生成部14に送信してもよい。
In this embodiment, the sound source position
なお、ここで推定話者が一人以上の場合は、後述する推定話者画像生成ステップS104にステップが移るが、推定話者が一人もいない場合は、上述した音声信号生成ステップS101にステップは戻る。 If there is one or more estimated speakers here, the step moves to the estimated speaker image generation step S104, which will be described later, but if there is no estimated speaker, the step returns to the speech signal generation step S101 described above. .
[推定話者画像生成ステップS104]
撮影収音装置10の推定話者画像生成部14は、推定話者に関する推定話者画像を生成する推定話者画像生成ステップS104を実施する。
[Estimated speaker image generation step S104]
The estimated speaker
本実施形態においては、撮影収音装置10は、音源位置情報生成部13から取得した第1の音源位置情報、第2の音源位置情報を用いて、撮影部12から取得した参加者画像60から推定話者の切り出し画像を生成する。本実施形態においては、第1の参加者61に関する第1の切り出し画像91と、第2の参加者62に関する第2の切り出し画像92とを生成する。
In the present embodiment, the photographing and
この第1の切り出し画像91、第2の切り出し画像92には、それぞれ音源位置情報生成部13からの音源位置情報、即ち第1の参加者61の顔の位置81、第2の参加者62の顔の位置82に関する情報が関連付けられている。更に、本実施形態においては、推定話者画像生成部14は、参加者画像60における推定話者画像52に対応する位置情報を、推定話者画像52に関連付ける。
The first clipped
なお、本実施形態においては、推定話者画像生成ステップS104において、推定話者画像生成部14が、推定話者画像52として第1の切り出し画像91、第2の切り出し画像92を生成する例を説明したが、音源位置情報生成部13からの音源位置情報に基づき撮影部12が音源位置の方向の画像を撮影し、推定話者画像生成部14が、推定話者画像52として、この音源位置の方向の画像を取得する方法としてもよい。
In this embodiment, in the estimated speaker image generation step S104, the estimated speaker
[推定話者画像送信ステップS105]
撮影収音装置10の推定話者画像生成部14は、生成した推定話者画像52を操作用装置30に送信する推定話者画像送信ステップS105を実施する。
[Estimated speaker image transmission step S105]
The estimated speaker
本実施形態においては、推定話者画像生成部14は、音源位置情報に関連づけられた切り出し画像を推定話者画像52として操作用装置30に送信する。更に本実施形態においては、推定話者画像生成部14は、参加者画像60における推定話者画像52に対応する位置情報を、推定話者画像52に関連付けた状態で、推定話者画像52を操作用装置30に、送信する。
In the present embodiment, the estimated
[指向性制御信号受信ステップS106]
指向性制御信号受信ステップS106は、後述する操作用装置30の制御方法において、推定話者画像受信ステップS201、表示処理ステップS202、選択受付ステップS203、指向性制御信号生成ステップS204が実施された後に、撮影収音装置10において実施されるステップである。
[Directivity control signal reception step S106]
The directionality control signal reception step S106 is performed after the estimated speaker image reception step S201, the display processing step S202, the selection acceptance step S203, and the directionality control signal generation step S204 in the control method of the
指向性制御信号受信ステップS106において、撮影収音装置10の操作用装置入力部15は、操作用装置30から送信された指向性制御信号53を受信する。
In directivity control signal reception step S106 , the operating
本実施形態においては、操作用装置入力部15は、第1の切り出し画像91に関連付けられた音源位置情報、即ち第1の参加者61の顔の位置81から発生されている音声信号51の出力を強調することを指示する指向性制御信号53を、操作用装置30から受信する。
In this embodiment, the operating
[指向性演算ステップS107]
撮影収音装置10の指向性演算部16は、指向性制御信号53に基づき音声信号51を制御して出力する指向性演算ステップS107を実施する。
[Directivity calculation step S107]
The
本実施形態においては、指向性演算部16は、第1の参加者61の顔の位置81から発生されている音声信号51の出力を強調することを指示する指向性制御信号53を受信している。指向性演算部16は、この指向性制御信号53に基づき、収音部11から受信した複数の音声信号51の中から、第1の参加者61の顔の位置81からの音声信号51を、他の音声信号51よりも強調して、操作用装置30に送信する。
In this embodiment, the
その後、後述する操作用装置30の制御方法において、音声信号受信ステップS205、再生処理ステップS206が実施され、操作用装置30において、操作者が指定した参加者からの音声が強調され、再生装置40から出力される。
After that, in the control method of the
[操作用装置30の制御方法]
図11は、本実施形態に係る操作用装置30の制御方法を示すフローチャートである。以下、図11を用いて、本実施形態に係る操作用装置30の制御方法について説明する。
[Method for controlling operation device 30]
FIG. 11 is a flow chart showing a control method for the operating
[推定話者画像受信ステップS201]
推定話者画像受信ステップS201は、上述した撮影収音装置10の制御方法において、音声信号生成ステップS101、参加者画像撮影ステップS102、音源位置情報生成ステップS103、推定話者画像生成ステップS104、推定話者画像送信ステップS105が実施された後に、操作用装置30において実施されるステップである。
[Estimated speaker image reception step S201]
Estimated speaker image receiving step S201 includes voice signal generation step S101, participant image capturing step S102, sound source position information generation step S103, estimated speaker image generation step S104, estimation This step is performed in the
操作用装置30の通信部31は、撮影収音装置10により生成された少なくとも一つの推定話者画像52を受信する推定話者画像受信ステップS201を実施する。
The
本実施形態においては、通信部31は、撮影収音装置10から、撮影収音装置10により生成された第1の切り出し画像91と第2の切り出し画像92を、推定話者画像52として受信する。通信部31は、この第1の切り出し画像91と第2の切り出し画像92を、表示処理部32に送信する。
In this embodiment, the
[表示処理ステップS202]
操作用装置30の表示処理部32は、少なくとも一つの推定話者画像52を表示装置33に表示させる表示処理ステップS202を実施する。即ち、表示処理部32は、複数の推定話者画像52を取得している場合は、複数の推定話者画像52を表示装置33に表示させ、唯一の推定話者画像52を取得している場合は、この唯一の推定話者画像52を表示装置33に表示させる。
[Display processing step S202]
The
本実施形態においては、表示処理部32は、第1の切り出し画像91と、第2の切り出し画像92を表示装置33に表示させるとともに、参加者画像60を合わせて表示させる。
In this embodiment, the
更に、本実施形態においては、参加者画像60における第1の参加者61の顔の位置に表示枠81Aを表示するとともに、第2の参加者62の顔の位置に表示枠82Aを表示させる。
Furthermore, in the present embodiment, a
なお、本実施形態においては、操作用装置30が、推定話者画像52として第1の切り出し画像91、第2の切り出し画像92を取得しているため、表示処理ステップS202において、この切り出し画像を表示装置33に表示させている。しかし、操作用装置30が、推定話者画像52として、複数のカメラにより撮影された、各音源位置の方向の画像を推定話者画像52として取得している場合は、この表示処理ステップS202において、各音源位置の方向の画像を表示装置33に表示させる方法としてもよい。
In this embodiment, since the
[選択受付ステップS203]
操作用装置30の選択受付部34は、少なくとも一つの推定話者画像52の中から一つの推定話者画像52の選択を受け付ける選択受付ステップS203を実施する。即ち、選択受付部34が、複数の推定話者画像52を取得している場合は、この複数の推定話者画像52の中から、操作者の操作により、一つの推定話者画像52の選択を受け付ける。選択受付部34が、唯一の推定話者画像52を取得している場合は、操作者はその唯一の推定話者画像52に含まれる話者の声を強調して聞くか否かを判断し、選択受付部34は、その操作者の判断に基づく選択操作を受け付ける。
[Selection acceptance step S203]
The
本実施形態においては、操作者が第1の参加者61の声を強調させて聞きたいと判断し、第1の切り出し画像91を選択したとする。選択受付部34は、操作者の選択結果として、この第1の切り出し画像91に関連付けられた音源位置情報、即ち、第1の参加者61の顔の位置81からの音声出力を強調する旨を指示する指向性制御信号生成部35に送信する。
In the present embodiment, it is assumed that the operator has determined that he or she wishes to emphasize the voice of the
[指向性制御信号生成ステップS204]
操作用装置30の指向性制御信号生成部35は、選択された推定話者画像52に関する指向性制御信号53を生成する指向性制御信号生成ステップS204を実施する。
[Directivity control signal generation step S204]
The directivity
本実施形態においては、指向性制御信号生成部35は、選択受付部34より、第1の切り出し画像91に関連付けられた音源位置情報として第1の参加者61の顔の位置81を受信しているため、この第1の参加者61の顔の位置81から発生されている音声信号51の出力を強調することを指示する指向性制御信号53を生成する。
In the present embodiment, the directivity
指向性制御信号生成部35は、この指向性制御信号53を、通信部31を介して撮影収音装置10に送信する。
The directivity control
[音声信号受信ステップS205]
音声信号受信ステップS205は、上述した撮影収音装置10の制御方法において、指向性制御信号受信ステップS106、指向性演算ステップS107が実施された後に、操作用装置30において実施されるステップである。
[Audio signal reception step S205]
The audio signal reception step S205 is a step performed in the
音声信号受信ステップS205において、操作用装置30の通信部31は、音声信号51を受信する。
In voice signal reception step S205, the
本実施形態においては、通信部31は、指向性演算部16により、第1の参加者61の顔の位置81からの音声が強調された音声信号51を受信する。
In this embodiment, the
[再生処理ステップS206]
操作用装置30の再生処理部36は、通信部31から音声信号51を取得し、音声信号51の再生を再生装置40に指示する再生処理ステップS206を実施する。
[Reproduction processing step S206]
The
本実施形態においては、再生処理部36は、第1の参加者61の顔の位置81からの音声が強調された音声信号51を取得し、この音声信号51の再生を再生装置40に指示する。
In this embodiment, the
このような制御方法により、参加者の顔が拡大された推定話者画像52を用いて、操作者が強調して聞きたい話者を容易に選択することができる。
With such a control method, the operator can easily select the speaker whom the operator wants to emphasize and listen to by using the estimated
また、本実施形態の制御方法によれば、音源位置情報生成ステップS103において、音源位置情報生成部13が顔認識技術を併用することにより、収音部11の指向性がそれほど高くない場合であっても、第1の範囲71、第2の範囲72に含まれる話者の顔の位置を特定することが可能となる。また、音源位置情報生成部13は、予め音声信号51の位相差により特定された第1の範囲71内、第2の範囲72内において顔認識を行うことができるため、効率よく話者の顔の位置を特定することができる。
Further, according to the control method of the present embodiment, in the sound source position information generation step S103, the sound source position
[収音制御システム100の制御方法]
図12は、本実施形態に係る収音制御システム100の制御方法を示すフローチャートである。なお、各ステップについては、撮影収音装置10の制御方法、操作用装置30の制御方法において上述した通りであるため、その説明を省略する。
[Control Method of Sound Collection Control System 100]
FIG. 12 is a flowchart showing a control method of the sound
図12に示すように、収音制御システム100の制御方法においては、撮影収音装置10によって行われるステップと、操作用装置30によって行われるステップとが混在している。撮影収音装置10によって、音声信号生成ステップS101、参加者画像撮影ステップS102、音源位置情報生成ステップS103、推定話者画像生成ステップS104、推定話者画像送信ステップS105が実施された後、操作用装置30によって、推定話者画像受信ステップS201、表示処理ステップS202、選択受付ステップS203、指向性制御信号生成ステップS204が実施される。その後、再度フローは撮影収音装置10に戻り、撮影収音装置10によって、指向性制御信号受信ステップS106、指向性演算ステップS107が実施され、その後、操作用装置30により、音声信号受信ステップS205、再生処理ステップS206、が実施される。
As shown in FIG. 12, in the control method of the sound
10 撮影収音装置、11 収音部、12 撮影部、13 音源位置情報生成部、14 推定話者画像生成部、15 操作用装置入力部、16 指向性演算部、17 制御部、18 記憶部、20 ネットワーク、30 操作用装置、31 通信部、32 表示処理部、33 表示装置、34 選択受付部、35 指向性制御信号生成部、36 再生処理部、37 タッチパネル、38 制御部、39 記憶部、40 再生装置、51 音声信号、52 推定話者画像、53 指向性制御信号、60 参加者画像、61 第1の参加者、62 第2の参加者、71 第1の範囲、72 第2の範囲、81 顔の位置、82 顔の位置、81A 表示枠、82A 表示枠、91 第1の切り出し画像、92 第2の切り出し画像、100 収音制御システム、S101 音声信号生成ステップ、S102 参加者画像撮影ステップ、S103 音源位置情報生成ステップ、S104 推定話者画像生成ステップ、S105 推定話者画像送信ステップ、S106 指向性制御信号受信ステップ、S107 指向性演算ステップ、S201 推定話者画像受信ステップ、S202 表示処理ステップ、S203 選択受付ステップ、S204 指向性制御信号生成ステップ、S205 音声信号受信ステップ、S206 再生処理ステップ。
10 photographing
Claims (11)
前記複数の音声信号と、複数の参加者が表示された参加者の全体画像と、を取得し、複数の前記音声信号の間の比較情報を用いて第1の音源の位置を特定し、前記全体画像に対して前記第1の音源の位置を含む範囲に顔認識を実行することで第2の音源の位置を特定し、該第2の音源の位置を表す位置情報を生成する位置情報生成部と、
前記位置情報を用いて、前記全体画像から切り出して少なくとも二つの話者に関する個別画像を生成する画像生成部と、
前記全体画像と並べて、前記全体画像における前記各個別画像の位置関係に基づいて、拡大した前記各個別画像を前記位置関係と対応する配置レイアウトで表示装置に表示させる表示処理部と、
前記拡大した各個別画像の中から一つの画像の選択を受け付ける選択受付部と、
を含み、
前記全体画像は、前記各個別画像の切り出された位置にそれぞれ異なる色で着色された表示枠が示され、
前記拡大した各個別画像は、それぞれ対応する前記表示枠の着色と同一の色で少なくとも一部が着色される、収音制御システム。 a sound pickup unit that receives voice input and generates a plurality of voice signals;
obtaining the plurality of audio signals and a full image of the participants with the plurality of participants displayed; using comparative information between the plurality of audio signals to locate a first sound source; Position information generation for specifying the position of a second sound source by performing face recognition on the entire image in a range including the position of the first sound source, and generating position information representing the position of the second sound source. Department and
an image generating unit that uses the position information to generate individual images for at least two speakers by extracting from the overall image ;
a display processing unit that causes a display device to display the enlarged individual images in an arrangement layout corresponding to the positional relationship based on the positional relationship of the individual images in the overall image, side by side with the overall image ;
a selection reception unit that receives selection of one image from the enlarged individual images ;
including
wherein the whole image has a display frame colored with a different color at each clipped position of each individual image;
The sound collection control system , wherein each of the enlarged individual images is at least partially colored with the same color as that of the corresponding display frame .
請求項1に記載の収音制御システム。 wherein the comparison information is a phase difference between the plurality of audio signals;
The sound collection control system according to claim 1.
請求項1に記載の収音制御システム。 wherein the comparison information is a power ratio of the plurality of audio signals;
The sound collection control system according to claim 1.
前記画像生成部は、前記第2の音源の位置の方向の画像から前記個別画像を生成する、
請求項1乃至3のいずれか一つに記載の収音制御システム。 further comprising a photographing unit for photographing an image in the direction of the position of the second sound source based on the position information generated by the position information generating unit;
The image generation unit generates the individual image from an image in a direction of the position of the second sound source.
The sound collection control system according to any one of claims 1 to 3 .
請求項1乃至4のいずれか一つに記載の収音制御システム。 The position information generation unit Fourier-transforms the audio signal from the time domain to the frequency domain, and extracts the audio signal included in the frequency domain related to human speech from the audio signal, thereby determining the position of the first sound source. locate,
The sound collection control system according to any one of claims 1 to 4 .
請求項5に記載の収音制御システム。 The position information generating unit identifies the position of the first sound source by extracting the audio signal included in the frequency range from 0.2 kHz to 4 kHz.
The sound collection control system according to claim 5 .
請求項1乃至6のいずれか一つに記載の収音制御システム。 The image generation unit associates the position information with the individual image and transmits the information to an operation device.
The sound collection control system according to any one of claims 1 to 6 .
請求項1乃至7のいずれか一つに記載の収音制御システム。 The sound pickup unit includes an array microphone having a plurality of microphones,
The sound collection control system according to any one of claims 1 to 7 .
請求項1に記載の収音制御システム。 Further comprising a photographing unit for photographing the entire image,
The sound collection control system according to claim 1.
請求項1に記載の収音制御システム。 The image generation unit associates position information corresponding to the individual image in the overall image with the individual image , and transmits the information to the operation device.
The sound collection control system according to claim 1.
前記複数の音声信号と、複数の参加者が表示された参加者の全体画像と、を取得し、複数の前記音声信号の間の比較情報を用いて第1の音源の位置を特定し、前記全体画像に対して前記第1の音源の位置を含む範囲に顔認識を実行することで第2の音源の位置を特定し、該第2の音源の位置を表す位置情報を生成し、
前記位置情報を用いて、前記全体画像から切り出して少なくとも二つの話者に関する個別画像を生成し、
前記全体画像と並べて、前記全体画像における前記各個別画像の位置関係に基づいて、拡大した前記各個別画像を前記位置関係と対応する配置レイアウトで表示装置に表示させ、
前記拡大した各個別画像の中から一つの画像の選択を受け付ける、
収音制御システムの制御方法であって、
前記全体画像は、前記各個別画像の切り出された位置にそれぞれ異なる色で着色された表示枠が示され、
前記拡大した各個別画像は、それぞれ対応する前記表示枠の着色と同一の色で少なくとも一部が着色される、収音制御システムの制御方法。 accepts voice input, generates multiple voice signals,
obtaining the plurality of audio signals and a full image of the participants with the plurality of participants displayed; using comparative information between the plurality of audio signals to locate a first sound source; Identifying the position of a second sound source by performing face recognition on the entire image in a range including the position of the first sound source, and generating position information representing the position of the second sound source;
using the location information to generate individual images for at least two speakers cut from the overall image ;
causing a display device to display each enlarged individual image in an arrangement layout corresponding to the positional relationship, based on the positional relationship of the individual images in the overall image, side by side with the overall image ;
accepting selection of one image from each of the enlarged individual images ;
A control method for a sound pickup control system , comprising:
wherein the whole image has a display frame colored with a different color at each clipped position of each individual image;
A control method for a sound collection control system, wherein at least a part of each of the enlarged individual images is colored with the same color as that of the corresponding display frame .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021016613A JP7111202B2 (en) | 2021-02-04 | 2021-02-04 | SOUND COLLECTION CONTROL SYSTEM AND CONTROL METHOD OF SOUND COLLECTION CONTROL SYSTEM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021016613A JP7111202B2 (en) | 2021-02-04 | 2021-02-04 | SOUND COLLECTION CONTROL SYSTEM AND CONTROL METHOD OF SOUND COLLECTION CONTROL SYSTEM |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019506784A Division JP6835205B2 (en) | 2017-03-22 | 2017-03-22 | Shooting sound pickup device, sound pick-up control system, shooting sound pick-up device control method, and shooting sound pick-up control system control method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021076866A JP2021076866A (en) | 2021-05-20 |
JP7111202B2 true JP7111202B2 (en) | 2022-08-02 |
Family
ID=75900047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021016613A Active JP7111202B2 (en) | 2021-02-04 | 2021-02-04 | SOUND COLLECTION CONTROL SYSTEM AND CONTROL METHOD OF SOUND COLLECTION CONTROL SYSTEM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7111202B2 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007150921A (en) | 2005-11-29 | 2007-06-14 | Kyocera Corp | Communication terminal, communication system and display method of communication terminal |
JP2008236679A (en) | 2007-03-23 | 2008-10-02 | Sony Corp | Videoconference apparatus, control method, and program |
JP2008262416A (en) | 2007-04-12 | 2008-10-30 | Olympus Imaging Corp | Image reproduction device, image reproduction program, recording medium and image reproduction method |
JP2009086055A (en) | 2007-09-27 | 2009-04-23 | Sony Corp | Sound source direction detecting apparatus, sound source direction detecting method, and sound source direction detecting camera |
JP2010251916A (en) | 2009-04-13 | 2010-11-04 | Nec Casio Mobile Communications Ltd | Sound data processing device and program |
JP2016146547A (en) | 2015-02-06 | 2016-08-12 | パナソニックIpマネジメント株式会社 | Sound collection system and sound collection method |
-
2021
- 2021-02-04 JP JP2021016613A patent/JP7111202B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007150921A (en) | 2005-11-29 | 2007-06-14 | Kyocera Corp | Communication terminal, communication system and display method of communication terminal |
JP2008236679A (en) | 2007-03-23 | 2008-10-02 | Sony Corp | Videoconference apparatus, control method, and program |
JP2008262416A (en) | 2007-04-12 | 2008-10-30 | Olympus Imaging Corp | Image reproduction device, image reproduction program, recording medium and image reproduction method |
JP2009086055A (en) | 2007-09-27 | 2009-04-23 | Sony Corp | Sound source direction detecting apparatus, sound source direction detecting method, and sound source direction detecting camera |
JP2010251916A (en) | 2009-04-13 | 2010-11-04 | Nec Casio Mobile Communications Ltd | Sound data processing device and program |
JP2016146547A (en) | 2015-02-06 | 2016-08-12 | パナソニックIpマネジメント株式会社 | Sound collection system and sound collection method |
Non-Patent Citations (1)
Title |
---|
冨野剛他,多人数参加型テレビ会議システムにおける発言者拡大映像の作成,情報処理学会論文誌,第47巻第7号,日本,社団法人情報処理学会,2006年07月15日,pp. 2091-2098 |
Also Published As
Publication number | Publication date |
---|---|
JP2021076866A (en) | 2021-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11531518B2 (en) | System and method for differentially locating and modifying audio sources | |
JP6289121B2 (en) | Acoustic signal processing device, moving image photographing device, and control method thereof | |
US10206030B2 (en) | Microphone array system and microphone array control method | |
US20190222950A1 (en) | Intelligent audio rendering for video recording | |
US11567729B2 (en) | System and method for playing audio data on multiple devices | |
JP7347597B2 (en) | Video editing device, video editing method and program | |
JP2013106298A (en) | Imaging controller, imaging control method, program for imaging control method, and imaging apparatus | |
JP4941895B2 (en) | Image recording apparatus with sound data and program | |
JP6835205B2 (en) | Shooting sound pickup device, sound pick-up control system, shooting sound pick-up device control method, and shooting sound pick-up control system control method | |
KR101976937B1 (en) | Apparatus for automatic conference notetaking using mems microphone array | |
WO2011108377A1 (en) | Coordinated operation apparatus, coordinated operation method, coordinated operation control program and apparatus coordination system | |
JP2009239348A (en) | Imager | |
JP7111202B2 (en) | SOUND COLLECTION CONTROL SYSTEM AND CONTROL METHOD OF SOUND COLLECTION CONTROL SYSTEM | |
US11665391B2 (en) | Signal processing device and signal processing system | |
JP2007251355A (en) | Relaying apparatus for interactive system, interactive system, and interactive method | |
JP2009239349A (en) | Photographing apparatus | |
JP6456171B2 (en) | Information processing apparatus, information processing method, and program | |
JP2004023180A (en) | Voice transmission apparatus, voice transmission method and program | |
JP2011199855A (en) | Portable apparatus | |
JP2021197658A (en) | Sound collecting device, sound collecting system, and sound collecting method | |
WO2021029294A1 (en) | Data creation method and data creation program | |
JP2015097318A (en) | Sound signal processing system | |
JP2001078162A (en) | Communication equipment and method and recording medium | |
JPWO2007122729A1 (en) | Communication system, communication device, and sound source direction identification device | |
WO2009128366A1 (en) | Communication system and communication program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220704 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7111202 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |