JP6767664B1 - Information processing systems, information processing equipment and programs - Google Patents
Information processing systems, information processing equipment and programs Download PDFInfo
- Publication number
- JP6767664B1 JP6767664B1 JP2019195113A JP2019195113A JP6767664B1 JP 6767664 B1 JP6767664 B1 JP 6767664B1 JP 2019195113 A JP2019195113 A JP 2019195113A JP 2019195113 A JP2019195113 A JP 2019195113A JP 6767664 B1 JP6767664 B1 JP 6767664B1
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- rotation angle
- target person
- coordinates
- head position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
- H04R1/026—Supports for loudspeaker casings
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
- H04N7/188—Capturing isolated or intermittent images triggered by the occurrence of a predetermined event, e.g. an object reaching a predetermined position
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/323—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Multimedia (AREA)
- Alarm Systems (AREA)
- Closed-Circuit Television Systems (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Image Analysis (AREA)
Abstract
【課題】システム規模の増加を抑えて、効率よく所定の空間内に位置する人物に対して音声通知を行う。【解決手段】情報処理システム1−1は、情報処理装置1、カメラ2およびスピーカ3を備える。カメラ2は、空間内に位置する人物を撮影する。スピーカ3は、カメラ2と非一体型であり、音声の指向性を有し、制御部1aからの指示にもとづいて回転駆動する。情報処理装置1内の制御部1aは、カメラ2で撮影された撮影画像から対象人物を特定し、対象人物の頭部位置を検出し、頭部位置に向けて音声を発するためのスピーカ3の回転角度を算出する。そして、制御部1aは、対象人物に発すべき音声パターンを選択して、回転角度でスピーカ3を回転させ、選択した音声パターンをスピーカ3から出力させる。【選択図】図1PROBLEM TO BE SOLVED: To efficiently perform voice notification to a person located in a predetermined space while suppressing an increase in system scale. An information processing system 1-1 includes an information processing device 1, a camera 2, and a speaker 3. The camera 2 photographs a person located in the space. The speaker 3 is non-integrated with the camera 2, has voice directivity, and is rotationally driven based on an instruction from the control unit 1a. The control unit 1a in the information processing device 1 identifies the target person from the captured image taken by the camera 2, detects the head position of the target person, and emits a sound toward the head position of the speaker 3. Calculate the rotation angle. Then, the control unit 1a selects a voice pattern to be emitted to the target person, rotates the speaker 3 at a rotation angle, and outputs the selected voice pattern from the speaker 3. [Selection diagram] Fig. 1
Description
本発明は、情報処理システム、情報処理装置およびプログラムに関する。 The present invention relates to information processing systems, information processing devices and programs.
情報処理技術の進展および監視カメラの高解像度化に伴い、監視カメラによって撮影された画像から人物を検出してスピーカから音声を発するシステムが開発されている。このようなシステムを例えば、店内に構築することにより、店内に侵入した不審者に対する防犯や、店員への事務連絡等を行うことができる。 With the progress of information processing technology and the increase in resolution of surveillance cameras, a system has been developed that detects a person from an image taken by a surveillance camera and emits sound from a speaker. By constructing such a system in the store, for example, it is possible to prevent crime against a suspicious person who has invaded the store, to contact a store clerk, and the like.
上記のようなシステムでは、従来、監視カメラとスピーカが一体型になっており、監視カメラの向きとスピーカの向きが同じになっている。しかし、このようなシステムで空間内に位置する人物に向けて音声を通知するためには、一体型の監視カメラ/スピーカを複数配置することになり、システム規模が増加し非効率であるという問題がある。 In the above system, the surveillance camera and the speaker are conventionally integrated, and the orientation of the surveillance camera and the orientation of the speaker are the same. However, in order to notify a person located in the space of voice in such a system, a plurality of integrated surveillance cameras / speakers must be arranged, which causes a problem that the system scale increases and it is inefficient. There is.
1つの側面では、本発明は、システム規模の増加を抑えて、効率よく所定の空間内に位置する人物に対して音声通知を行うことが可能な情報処理システム、情報処理装置およびプログラムを提供することを目的とする。 In one aspect, the present invention provides an information processing system, an information processing device, and a program capable of efficiently performing voice notification to a person located in a predetermined space while suppressing an increase in the system scale. The purpose is.
上記課題を解決するために、情報処理システムが提供される。情報処理システムは、カメラと、カメラと非一体型であり指向性を有して回転駆動するスピーカと、カメラで撮影された撮影画像から対象人物を特定し、対象人物の頭部位置を検出し、頭部位置に向けて音声を発するためのスピーカの回転角度を算出し、対象人物に発すべき音声パターンを選択して、回転角度でスピーカを回転させ音声パターンをスピーカから出力させる制御部と、を備え、制御部は、撮影画像の2次元画像を3次元空間に対応付け、2次元画像から対象人物の足元の座標および頭上の座標を検出して、足元の座標および頭上の座標を3次元空間にマッピングし、3次元空間にマッピングした頭上の座標にもとづく対象人物の頭上高さから所定値減算して耳の位置を検出し、耳の位置を対象人物の頭部位置とし、2次元画像から一定の時間間隔で対象人物の足元の座標を複数検出して時系列の座標データを取得し、座標データから所定時間の経過後の対象人物の移動量を算出し、移動量にもとづいて頭部位置の更新を行い、対象人物の検出からスピーカから音声パターンが出力されるまでの遅延時間を保持しておき、所定時間に遅延時間を含めて移動量を算出する。また、制御部は、検出した頭部位置にスピーカを向ける第1の回転角度を算出し、対象人物の移動先の予測を行わない場合、スピーカを第1の回転角度で回転させ音声パターンをスピーカから出力させ、対象人物の移動先の予測を行う場合、更新後の頭部位置にスピーカを向ける第2の回転角度を算出し、スピーカを第1の回転角度で回転させ、第1の回転角度の回転の終了後に、スピーカから音声パターンを出力させながら、スピーカを第2の回転角度で回転させる。 An information processing system is provided to solve the above problems. The information processing system identifies the target person from the camera, the speaker that is non-integrated with the camera and is driven to rotate with directionality, and the captured image taken by the camera, and detects the head position of the target person. A control unit that calculates the rotation angle of the speaker to emit sound toward the head position, selects the sound pattern to be emitted to the target person, rotates the speaker at the rotation angle, and outputs the sound pattern from the speaker. The control unit associates the two-dimensional image of the captured image with the three-dimensional space, detects the coordinates of the feet and overhead of the target person from the two-dimensional image, and three-dimensionalizes the coordinates of the feet and overhead. A two-dimensional image that maps to space, detects the position of the ear by subtracting a predetermined value from the overhead height of the target person based on the overhead coordinates mapped to the three-dimensional space, and sets the position of the ear as the head position of the target person. Detects multiple coordinates of the target person's feet at regular time intervals to acquire time-series coordinate data, calculates the movement amount of the target person after a lapse of a predetermined time from the coordinate data, and heads based on the movement amount. The position of the part is updated, the delay time from the detection of the target person to the output of the voice pattern from the speaker is maintained, and the movement amount is calculated including the delay time in the predetermined time. Further, the control unit calculates the first rotation angle at which the speaker is directed to the detected head position, and when the movement destination of the target person is not predicted, the control unit rotates the speaker at the first rotation angle and transmits the voice pattern to the speaker. When predicting the movement destination of the target person by outputting from, the second rotation angle for pointing the speaker to the updated head position is calculated, the speaker is rotated at the first rotation angle, and the first rotation angle is calculated. After the rotation of the speaker is completed, the speaker is rotated at the second rotation angle while outputting the sound pattern from the speaker.
また、上記課題を解決するために、上記情報処理システムと同様の制御を実行する情報処理装置が提供される。
さらに、コンピュータに上記情報処理システムと同様の制御を実行させるプログラムが提供される。
Further, in order to solve the above problems, an information processing device that executes the same control as the above information processing system is provided.
Further, a program for causing the computer to execute the same control as the information processing system is provided.
1側面によれば、システム規模の増加を抑えて、効率よく所定の空間内に位置する人物に対して音声通知を行うことができる。 According to one aspect, it is possible to suppress an increase in the system scale and efficiently perform voice notification to a person located in a predetermined space.
以下、本実施の形態について図面を参照して説明する。
[第1の実施の形態]
図1は第1の実施の形態の情報処理システムの一例を説明するための図である。情報処理システム1−1は、情報処理装置1、カメラ2およびスピーカ3を備える。情報処理装置1は、制御部1aおよび記憶部1bを含む。
Hereinafter, the present embodiment will be described with reference to the drawings.
[First Embodiment]
FIG. 1 is a diagram for explaining an example of the information processing system of the first embodiment. The information processing system 1-1 includes an
カメラ2は、所定の空間内に位置する人物を監視し撮影する。スピーカ3は、カメラ2と非一体型であり、音声の指向性を有しており、制御部1aからの指示にもとづいて回転駆動して音声を出力する。
The camera 2 monitors and photographs a person located in a predetermined space. The speaker 3 is non-integrated with the camera 2, has sound directivity, and is rotationally driven to output sound based on an instruction from the
制御部1aは、カメラ2で撮影された撮影画像に対して、AI(Artificial Intelligence)処理にもとづく画像解析を行う。また、制御部1aは、画像解析結果にもとづいて、スピーカ3に対する駆動制御および音声出力制御を行う。記憶部1bは、制御部1aによる処理に要する各種データを格納する。
制御部1aおよび記憶部1bの各処理は、例えば、情報処理装置1が備える図示しないプロセッサが、所定のプログラムを実行することによって実現される。
The
Each process of the
制御部1aの動作の流れについて説明する。
〔ステップS1〕制御部1aは、カメラ2で撮影された撮影画像から対象人物を特定する。
〔ステップS2〕制御部1aは、対象人物の頭部位置を検出する。
The operation flow of the
[Step S1] The
[Step S2] The
〔ステップS3〕制御部1aは、頭部位置に向けて音声を発するためのスピーカ3の回転角度を算出する。
〔ステップS4〕制御部1aは、対象人物に適した音声パターンを選択する。
〔ステップS5〕制御部1aは、算出した回転角度でスピーカ3を回転させて、選択した音声パターンをスピーカ3から出力させる。
[Step S3] The
[Step S4] The
[Step S5] The
このように、情報処理システム1−1では、カメラ2と非一体型であり指向性を有して回転駆動するスピーカ3を用いて、カメラ2で撮影された撮影画像から算出した対象人物の頭部位置に向けてスピーカ3を回転させて、スピーカ3から対象人物に音声を出力させる構成とした。これにより、スピーカ設置数を減少させることができるので、システム規模の増加を抑えて、効率よく所定の空間内に位置する人物に対して音声通知を行うことが可能になる。 As described above, in the information processing system 1-1, the head of the target person calculated from the captured image captured by the camera 2 using the speaker 3 which is not integrated with the camera 2 and has directivity and is rotationally driven. The speaker 3 is rotated toward the part position, and the speaker 3 outputs the sound to the target person. As a result, the number of speakers installed can be reduced, so that it is possible to suppress an increase in the system scale and efficiently perform voice notification to a person located in a predetermined space.
[第2の実施の形態]
次に第2の実施の形態について説明する。なお、以降の説明では、対象人物に音声通知を行うことを声掛けと呼ぶ場合がある。
[Second Embodiment]
Next, the second embodiment will be described. In the following description, giving a voice notification to the target person may be referred to as a voice call.
図2は第2の実施の形態の情報処理システムの構成の一例を示す図である。情報処理システム1−2は、情報処理装置10、カメラ20−1、・・・、20−n(総称する場合はカメラ20と呼ぶ)、スピーカ30、端末41(保守管理用)、端末42(通知用)、AP(アクセスポイント)50、ハブ(Hub)61およびPoE(Power over Ethernet)ハブ62を備える(Ethernetは登録商標)。
FIG. 2 is a diagram showing an example of the configuration of the information processing system according to the second embodiment. The information processing system 1-2 includes an
情報処理装置10は、制御部11および記憶部12を含む。制御部11は、図1の制御部1aの機能を有し、記憶部12は図1の記憶部1bの機能を有する。スピーカ30は、図1のスピーカ3の機能を有する。
The
ハブ61は、ポートp1、・・・、p4を有し、PoEハブ62は、ポートp11、p12−1・・・、p12−nを有している。ポートp1、・・・、p4およびポートp11は、例えば、1Gbit/sの通信回線が接続可能なポートである。ポートp12−1・・・、p12−nは、例えば、100Mbit/sの通信回線が接続可能なポートである。
The hub 61 has ports p1, ..., P4, and the
ハブ61のポートp1と、PoEハブ62のポートp11とは、LAN(Local Area Network)ケーブルL1で接続されている。なお、PoEハブ62は、Ethernet通信で利用するカテゴリ5e以上のLANケーブルL1を通じて電力を供給する。
The port p1 of the hub 61 and the port p11 of the
よって、PoEハブ62にカメラ20を接続することで、AC(Alternating Current)アダプタ等の外部電力が不要になり、データ通信を行うLANケーブルL1のみで電力供給ができる。このため、屋外や天井等の電力供給が困難な場所でもカメラ20を設置できる。
Therefore, by connecting the
一方、ハブ61には、ポートp2に端末41が接続され、ポートp3に情報処理装置10が接続され、ポートp4にAP50が接続されている。また、PoEハブ62には、ポートp12−1・・・、p12−nそれぞれにカメラ20−1、・・・、20−nが接続されている。AP50には、端末42およびスピーカ30が無線で接続されている。
On the other hand, to the hub 61, the terminal 41 is connected to the port p2, the
<スピーカの構成>
図3はスピーカの構成の一例を示す図である。スピーカ30は、音声出力部31と、回転機構部32を備える。音声出力部31は、超音波を利用した音声伝播機能を有し、音声の指向性出力を行う。
<Speaker configuration>
FIG. 3 is a diagram showing an example of the speaker configuration. The
回転機構部32は、水平方向と垂直方向の2軸回転機構を有する。回転機構部32の水平方向のモータ回転機構により、水平軸hの0度を基準にして、プラス方向(矢印h1)およびマイナス方向(矢印h2)に音声出力部31を水平方向に回転させる。
The
また、回転機構部32の垂直方向のモータ回転機構により、垂直軸vの0度を基準にして、プラス方向(矢印v1)およびマイナス方向(矢印v2)に音声出力部31を垂直方向に回転させる。なお、回転機構部32の上面には、壁面等にスピーカ30を取り付けるための取付用部品33が設けられており、また、スピーカ30には、図示しない無線LAN通信機能が設けられている。
Further, the vertical motor rotation mechanism of the
<ハードウェア構成>
図4は情報処理装置のハードウェア構成の一例を示す図である。情報処理装置10は、プロセッサ(コンピュータ)100によって全体制御されている。プロセッサ100は、制御部11の機能を実現する。
<Hardware configuration>
FIG. 4 is a diagram showing an example of the hardware configuration of the information processing device. The
プロセッサ100には、バス103を介して、メモリ101、入出力インタフェース102およびネットワークインタフェース104が接続されている。プロセッサ100は、マルチプロセッサであってもよい。プロセッサ100は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、またはPLD(Programmable Logic Device)である。またプロセッサ100は、CPU、MPU、DSP、ASIC、PLDのうちの2以上の要素の組み合わせであってもよい。
A
メモリ101は、記憶部12の機能を含み、情報処理装置10の主記憶装置として使用される。メモリ101には、プロセッサ100に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ101には、プロセッサ100による処理に要する各種データが格納される。
The
また、メモリ101は、情報処理装置10の補助記憶装置としても使用され、OSのプログラム、アプリケーションプログラム、および各種データが格納される。メモリ101は、補助記憶装置として、フラッシュメモリやSSD(Solid State Drive)等の半導体記憶装置やHDD(Hard Disk Drive)等の磁気記録媒体を含んでもよい。
The
バス103に接続されている周辺機器としては、入出力インタフェース102およびネットワークインタフェース104がある。入出力インタフェース102は、プロセッサ100からの命令にしたがって情報処理装置10の状態を表示する表示装置として機能するモニタ(例えば、LED(Light Emitting Diode)やLCD(Liquid Crystal Display)等)が接続できる。
Peripheral devices connected to the
さらに、入出力インタフェース102は、キーボードやマウス等の情報入力装置を接続可能であって、情報入力装置から送られてくる信号をプロセッサ100に送信する。
さらにまた、入出力インタフェース102は、周辺機器を接続するための通信インタフェースとしても機能する。例えば、入出力インタフェース102は、レーザ光等を利用して、光ディスクに記録されたデータの読み取りを行う光学ドライブ装置を接続することができる。光ディスクには、DVD(Digital Versatile Disc)、Blu−ray Disc(登録商標)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(Rewritable)等がある。
Further, the input /
Furthermore, the input /
また、入出力インタフェース102は、メモリ装置やメモリリーダライタを接続することができる。メモリ装置は、入出力インタフェース102との通信機能を搭載した記録媒体である。メモリリーダライタは、メモリカードへのデータの書き込み、またはメモリカードからのデータの読み出しを行う装置である。メモリカードは、カード型の記録媒体である。
Further, the input /
ネットワークインタフェース104は、ネットワークに接続してネットワークインタフェース制御を行う。例えば、NIC(Network Interface Card)、無線LANカード等を使用することもできる。ネットワークインタフェース104で受信されたデータは、メモリ101やプロセッサ100に出力される。
The
以上のようなハードウェア構成によって、情報処理装置10の処理機能を実現することができる。例えば、情報処理装置10は、プロセッサ100がそれぞれ所定のプログラムを実行することで本発明の処理を行うことができる。
With the hardware configuration as described above, the processing function of the
情報処理装置10は、例えば、コンピュータで読み取り可能な記録媒体に記録されたプログラムを実行することにより、本発明の処理機能を実現する。情報処理装置10に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。
The
例えば、情報処理装置10に実行させるプログラムを補助記憶装置に格納しておくことができる。プロセッサ100は、補助記憶装置内のプログラムの少なくとも一部を主記憶装置にロードし、プログラムを実行する。
For example, a program to be executed by the
また、光ディスク、メモリ装置、メモリカード等の可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えば、プロセッサ100からの制御により、補助記憶装置にインストールされた後、実行可能となる。またプロセッサ100が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
It can also be recorded on a portable recording medium such as an optical disk, a memory device, or a memory card. The program stored in the portable recording medium can be executed after being installed in the auxiliary storage device, for example, under the control of the
<声掛け動作シーケンス>
図5は人物を撮影してから声掛けを行うまでの動作シーケンスの一例を示す図である。
不審者に声掛けを行う場合の動作シーケンスを示している。
〔ステップS11〕人物が入店する。
〔ステップS11a〕カメラ20は、入店した人物を撮影する。
〔ステップS11b〕カメラ20は、人物の撮影画像を制御部11に送信する。
〔ステップS11c〕制御部11は、AI処理によって撮影画像を解析して、人物の検出および追跡を行う。
<Voice operation sequence>
FIG. 5 is a diagram showing an example of an operation sequence from shooting a person to speaking out.
The operation sequence when calling out to a suspicious person is shown.
[Step S11] A person enters the store.
[Step S11a] The
[Step S11b] The
[Step S11c] The
〔ステップS12〕人物が何らかの不審行動を行う。
〔ステップS12a〕カメラ20は、人物の不審行動を撮影する。
〔ステップS12b〕カメラ20は、不審行動の撮影画像を制御部11に送信する。
〔ステップS12c〕制御部11は、人物の行動パターンとして正常行動(または不審行動)のパターンをあらかじめ認識しており、受信した撮影画像にもとづき、行動パターンの判定を行う。そして、正常行動から外れる行動パターン(または不審行動パターン)を検出すると、不審者であると判定する。
[Step S12] A person performs some suspicious action.
[Step S12a] The
[Step S12b] The
[Step S12c] The
〔ステップS13〕制御部11は、通知用の端末42に不審者を発見したことを通知する。
〔ステップS14〕端末42は、不審者が入店したことを画面上に表示する。
〔ステップS15〕制御部11は、スピーカ30から不審者に声掛けを行うために、3D(Dimension)空間マッピング、頭部位置検出、回転角度算出および音声パターン選択の各処理を行う。
[Step S13] The
[Step S14] The terminal 42 displays on the screen that a suspicious person has entered the store.
[Step S15] The
3D空間マッピング処理は、人物の位置を3D空間内にマッピングする。頭部位置検出処理は、3D空間内で人物の頭部位置の座標を検出する。回転角度算出処理は、検出した人物の頭部位置にスピーカ30が向くように、スピーカ30の回転角度を算出する。音声パターン選択処理は、声掛け時の音声パターンを複数の音源のうちから選択する(音声パターンの具体例については図8で後述する)。
The 3D space mapping process maps the position of a person in 3D space. The head position detection process detects the coordinates of the head position of a person in 3D space. The rotation angle calculation process calculates the rotation angle of the
〔ステップS16〕制御部11は、声掛け命令(算出した回転角度および選択した音声パターン)をスピーカ30に送信する。
〔ステップS17〕スピーカ30は、受信した声掛け命令にもとづいて、指示された回転角度に駆動する。
[Step S16] The
[Step S17] The
〔ステップS18〕スピーカ30は、受信した声掛け命令にもとづいて、指示された音声パターンの音声を発して、不審者に向けて声掛けを行う。不審者は、声掛けに気づくことになる。
[Step S18] The
図6は人物を撮影してから声掛けを行うまでの動作シーケンスの一例を示す図である。特定人物に声掛けを行う場合の動作シーケンスを示している。なお、特定人物とは、不審者以外の人物であり、例えば、来店した一般の客等が該当する。 FIG. 6 is a diagram showing an example of an operation sequence from shooting a person to speaking out. The operation sequence when calling out to a specific person is shown. The specific person is a person other than a suspicious person, and corresponds to, for example, a general customer who has visited the store.
〔ステップS21〕人物が入店する。
〔ステップS21a〕カメラ20は、入店した人物を撮影する。
〔ステップS21b〕カメラ20は、人物の撮影画像を制御部11に送信する。
〔ステップS21c〕制御部11は、AI処理によって撮影画像を解析して、特定人物の検出および追跡を行う。なお、制御部11は、人物の行動パターンをあらかじめ認識しており、受信した撮影画像にもとづき、行動パターンの判定を行う。例えば、正常行動の行動パターンを検出すると、特定人物であると判定する。
[Step S21] A person enters the store.
[Step S21a] The
[Step S21b] The
[Step S21c] The
〔ステップS22〕制御部11は、通知用の端末42に特定人物を発見したことを通知する。
〔ステップS23〕端末42は、特定人物が入店したことを画面上に表示する。
〔ステップS24〕制御部11は、スピーカ30から特定人物に声掛けを行うために、3D空間マッピング、頭部位置検出、回転角度算出および音声パターン選択の各処理を行う。
[Step S22] The
[Step S23] The terminal 42 displays on the screen that a specific person has entered the store.
[Step S24] The
〔ステップS25〕制御部11は、声掛け命令(算出した回転角度および選択した音声パターン)をスピーカ30に送信する。
〔ステップS26〕スピーカ30は、受信した声掛け命令にもとづいて、指示された回転角度に駆動する。
[Step S25] The
[Step S26] The
〔ステップS27〕スピーカ30は、受信した声掛け命令にもとづいて、指示された音声パターンの音声を発して、特定人物に向けて声掛けを行う。特定人物は、声掛けに気づくことになる。
[Step S27] The
図7は人物を撮影してから声掛けを行うまでの動作シーケンスの一例を示す図である。特定エリア内にいる特定人物に声掛けを行う場合の動作シーケンスを示している。特定エリア内にいる特定人物とは、例えば、店内の売り場にいる店員等が該当する。 FIG. 7 is a diagram showing an example of an operation sequence from shooting a person to speaking out. The operation sequence when calling out to a specific person in a specific area is shown. The specific person in the specific area corresponds to, for example, a clerk in the sales floor in the store.
〔ステップS31〕人物が入店する。
〔ステップS31a〕カメラ20は、入店した人物を撮影する。
〔ステップS31b〕カメラ20は、人物の撮影画像を制御部11に送信する。
〔ステップS31c〕制御部11は、AI処理によって撮影画像を解析して、特定人物を検出して3D空間にマッピングする。また、3D空間内で特定人物の追跡を行う。
[Step S31] A person enters the store.
[Step S31a] The
[Step S31b] The
[Step S31c] The
〔ステップS32〕人物が特定エリアに入る。
〔ステップS32a〕カメラ20は、特定エリアにいる人物を撮影する。
〔ステップS32b〕カメラ20は、人物の撮影画像を制御部11に送信する。
〔ステップS32c〕制御部11は、特定エリアに特定人物がいることを判定する。
[Step S32] A person enters a specific area.
[Step S32a] The
[Step S32b] The
[Step S32c] The
〔ステップS33〕制御部11は、通知用の端末42に特定エリア内の特定人物を発見したことを通知する。
〔ステップS34〕端末42は、特定エリア内に特定人物がいることを画面上に表示する。
[Step S33] The
[Step S34] The terminal 42 displays on the screen that a specific person is in the specific area.
〔ステップS35〕制御部11は、スピーカ30から特定人物に声掛けを行うために、頭部位置検出、回転角度算出および音声パターン選択の各処理を行う。
〔ステップS36〕制御部11は、声掛け命令(算出した回転角度および選択した音声パターン)をスピーカ30に送信する。
〔ステップS37〕スピーカ30は、受信した声掛け命令にもとづいて、指示された回転角度に駆動する。
[Step S35] The
[Step S36] The
[Step S37] The
〔ステップS38〕スピーカ30は、受信した声掛け命令にもとづいて、指示された音声パターンの音声を発して、特定エリア内の特定人物に向けて声掛けを行う。特定エリア内の特定人物は、声掛けに気づくことになる。
[Step S38] The
<音声パターン>
図8は音声パターンテーブルの一例を示す図である。音声パターンテーブル12aは、人物、音声ファイルおよび音声パターン(音声の内容)の項目を有し、該テーブルのデータ構造は、記憶部12に格納されている。
<Voice pattern>
FIG. 8 is a diagram showing an example of a voice pattern table. The voice pattern table 12a has items of a person, a voice file, and a voice pattern (voice content), and the data structure of the table is stored in the
テーブル内容として例えば、人物が不審者である場合、音声ファイルには、音声ファイル1.wav、音声ファイル2.wav、音声ファイル3.wavが登録されている。音声ファイル1.wavの音声パターンは“いらっしゃいませ”、音声ファイル2.wavの音声パターンは“xxエリアにお客様がお待ちです”、音声ファイル3.wavの音声パターンは“お買い上げありがとうございます”という音声が登録されている。
As the table contents, for example, when the person is a suspicious person, the audio file includes the
また、人物が特定人物(例えば、30歳代男性)である場合、音声ファイルには、音声ファイル4.wavが登録されている。音声ファイル4.wavの音声パターンは“○○の商品がおすすめです”という音声が登録されている。 When the person is a specific person (for example, a man in his thirties), the audio file includes the audio file 4. wav is registered. Audio file 4. As for the voice pattern of wav, the voice "○○ products are recommended" is registered.
さらに、人物が特定エリア内の特定人物(例えば、店員)である場合、音声ファイルには、音声ファイル5.wavが登録されている。音声ファイル5.wavの音声パターンは“xxに来てください”という音声が登録されている。
このように、音声パターンテーブル12aには、対象人物に声掛けを行う際に適した音声が登録されている。
Further, when the person is a specific person (for example, a clerk) in the specific area, the audio file includes the audio file 5. wav is registered. Audio file 5. As for the voice pattern of wav, the voice "Please come to xx" is registered.
As described above, in the voice pattern table 12a, voices suitable for speaking to the target person are registered.
<3D空間におけるカメラと人物の位置>
図9、図10は3D空間におけるカメラと人物の位置を説明するための図である。なお、図10は、図9のイメージをxz平面で表現したものである。図9において、3Dのxyz空間に対象人物の足元が座標A(x1、y1、z1=0)に位置している。また、カメラ20が座標(x2、y2、z2)に位置している。
<Position of camera and person in 3D space>
9 and 10 are diagrams for explaining the positions of the camera and the person in the 3D space. Note that FIG. 10 is a representation of the image of FIG. 9 in the xz plane. In FIG. 9, the feet of the target person are located at the coordinates A (x1, y1, z1 = 0) in the 3D xyz space. Further, the
図10においては、対象人物は座標(x1、z1)に位置し、カメラ20は(x2、z2)に位置している。また、対象人物の頭上の座標は(x1、H)であり、カメラ20から対象人物の頭上に引いた線分がx軸に交わる点が座標B(x3、z3=0)である。
In FIG. 10, the target person is located at the coordinates (x1, z1), and the
<フローチャート>
次に図11から図17のフローチャートを用いて詳細動作について説明する。図11は人物を検出してから声掛けを行うまでの全体動作の一例を示すフローチャートである。
〔ステップS41〕制御部11は、AI処理による画像解析処理を起動する。
〔ステップS42〕制御部11は、カメラ20の撮影画像から人物検出を行い、検出した人物が声掛けの対象人物か否かを判定する。声掛けの対象人物の場合はステップS43に処理が進み、対象人物でない場合は人物検出および当該判定処理を繰り返す。
<Flow chart>
Next, the detailed operation will be described with reference to the flowcharts of FIGS. 11 to 17. FIG. 11 is a flowchart showing an example of the overall operation from the detection of a person to the calling.
[Step S41] The
[Step S42] The
〔ステップS43〕制御部11は、3D空間における対象人物の頭部位置を検出する。
〔ステップS44〕制御部11は、対象人物の移動先の予測を行うか否かを判定する。移動先の予測を行う場合はステップS45に処理が進み、移動先の予測を行わない場合はステップS46に処理が進む。
[Step S43] The
[Step S44] The
〔ステップS45〕制御部11は、対象人物の移動速度の推定と、頭部位置の更新を行う。
〔ステップS46〕制御部11は、スピーカ30の回転角度を算出する。
〔ステップS47〕制御部11は、音声パターンテーブル12aを用いて、対象人物に適した音声パターンを選択する。
[Step S45] The
[Step S46] The
[Step S47] The
〔ステップS48〕制御部11は、対象人物を追跡しながら声掛けを行うか否かを判定する。追跡しながら声掛けを行う場合はステップS49に処理が進み、追跡せずに声掛けを行う場合はステップS50aに処理が進む。
〔ステップS49〕制御部11は、対象人物の移動に伴うスピーカ30の回転角度を算出する。ステップS50bに処理が進む。
[Step S48] The
[Step S49] The
〔ステップS50a〕スピーカ30は、制御部11から指示された回転角度に駆動し、また制御部11から指示された音声パターンで対象人物に声掛けを行う。
〔ステップS50b〕スピーカ30は、制御部11から指示された、対象人物の移動に合わせた回転角度に駆動し、また制御部11から指示された音声パターンで対象人物に声掛けを行う。
[Step S50a] The
[Step S50b] The
図12は頭部位置の検出処理の一例を示すフローチャートである。図11のステップS43の詳細フローを示している。
〔ステップS43a〕制御部11は、カメラ20のキャリブレーションによる補正後のカメラ画面と、3D空間との対応付けを行う。
FIG. 12 is a flowchart showing an example of the head position detection process. The detailed flow of step S43 of FIG. 11 is shown.
[Step S43a] The
〔ステップS43b〕制御部11は、カメラ20で撮影された撮影画像から対象人物を検出し、対象人物の撮影画像内の座標を取得する。なお、人物検出が行われた場合、例えば、その人物の位置は矩形(矩形情報)で示される。
[Step S43b] The
〔ステップS43c〕制御部11は、対象人物の矩形情報から足元の座標を検出する。例えば、人物位置を示す矩形の下底の中間点を算出し、その中間点を足元の座標とする。
〔ステップS43d〕制御部11は、検出した足元座標を3D空間の座標上にマッピングする(図9の座標Aに相当)。
[Step S43c] The
[Step S43d] The
〔ステップS43e〕制御部11は、対象人物の矩形情報から頭上の座標を算出する。例えば、人物位置を示す矩形の上底の中間点を算出し、その中間点を頭上の座標とする。
〔ステップS43f〕制御部11は、2D画像(撮影画像)の頭上の座標を3D画像での床上とみなして、3D空間上に頭上座標をマッピングする(図10の座標Bに相当)。
[Step S43e] The
[Step S43f] The
〔ステップS43g〕制御部11は、座標Bとカメラ20の座標とを結んだ線分における座標Aのx成分に等しいz成分を抽出する(x成分ではなくy成分を使ってもよい)。
〔ステップS43h〕制御部11は、抽出したz成分に対して、所定長低い(例えば、20cm低い)位置を対象人物の耳の高さHとする。
〔ステップS43i〕制御部11は、座標Aにおけるz成分を耳の高さにした座標値を頭部位置とし、この頭部位置を、スピーカ30を向ける座標として確定する(座標Cとする)。
[Step S43g] The
[Step S43h] The
[Step S43i] The
このように、制御部11は、撮影画像を3D空間にマッピングして、3D空間上で対象人物の頭上の位置を求め、頭上の位置から耳の位置を求めて、耳の位置を頭部位置とする。これにより、頭部位置に向けてスピーカ30を回転させるので、スピーカ30からの音声を対象人物に明確に聞かせることができる。
In this way, the
図13は対象人物の移動速度の推定および頭部位置の更新の一例を示すフローチャートである。図11のステップS45の詳細フローを示している。
〔ステップS45a〕制御部11は、対象人物の過去数秒分の2D画像内の足元の座標を複数検出する。
FIG. 13 is a flowchart showing an example of estimating the moving speed of the target person and updating the head position. The detailed flow of step S45 of FIG. 11 is shown.
[Step S45a] The
〔ステップS45b〕制御部11は、検出した過去の足元の座標を3D空間上の座標に変換する。これにより座標Aを含む時系列の座標データを得る。
〔ステップS45c〕制御部11は、時系列の座標データをもとに、t秒後の対象人物の3D空間上の移動量を推定する。例えば、時系列の座標データから得られる座標間の移動速度をxyzの3方向のベクトルとして求めた上でそれぞれの成分ごとに平均値を求める(移動速度Va)。そして、移動速度Vaに対して時間tを乗算することで、t秒後の移動量dLが推定できる。
[Step S45b] The
[Step S45c] The
ただし、t秒は対象人物を検出した時間から音声を出力するまでの遅延時間に相当するものである。t秒は事前のシステムテスト等で求めておいて、設定値としてあらかじめ保持しておくものとする。 However, t seconds corresponds to the delay time from the time when the target person is detected to the time when the sound is output. It is assumed that t seconds is obtained by a system test or the like in advance and is retained as a set value in advance.
〔ステップS45d〕制御部11は、座標Aに対してxyz方向のt秒後の移動量dLを加算する。これにより、座標(A+dL)を得られる。座標(A+dL)は、声掛けをすべき対象人物の足元の座標になる(座標A2とする)。また、座標A2のz成分を耳の高さHとすることで、これが移動後の頭部位置となり、スピーカ30を向ける対象の座標となる(頭部位置の座標Cの更新)。
[Step S45d] The
ここで、人物に声掛けを行う場合、人物検出からスピーカ30から音声を出力させるまでに遅延時間が発生する。仮にこの遅延時間を考慮しないと、人物に向けて声掛けを行っても、その人物が移動している場合は、すでにその人物がいないことが起こりうる。
Here, when speaking to a person, a delay time occurs from the person detection to the output of the voice from the
上記のように、制御部11は、2次元画像から一定の時間間隔で対象人物の足元の座標を複数検出して時系列の座標データを取得し、座標データから算出した移動量にもとづいて頭部位置の更新を行う。これにより、対象人物の移動後の位置を精度よく検出することができる。
As described above, the
また、制御部11は、対象人物の検出からスピーカ30から音声パターンが出力されるまでの遅延時間を含めて移動量を算出する。これにより、人物が移動していても移動後の人物の頭部に向けてスピーカ30から音声を出力させることができ、声掛け精度を向上させることができる。
Further, the
図14はスピーカの回転角度の算出処理の一例を示すフローチャートである。図11のステップS46の詳細フローを示している。
〔ステップS46a〕制御部11は、3D空間における、座標C(頭部位置)からスピーカ30の設置座標を減算する。この減算処理はスピーカ30を中心とした座標Cのベクトル化を行うものであり、減算結果をベクトルSと呼ぶ。
FIG. 14 is a flowchart showing an example of the calculation process of the rotation angle of the speaker. The detailed flow of step S46 of FIG. 11 is shown.
[Step S46a] The
〔ステップS46b〕制御部11は、ベクトルSの水平方向成分(x成分とy成分)から水平方向の回転角(水平回転角)を算出する。水平回転角の算出式は、以下の式(1)になる。
[Step S46b] The
〔ステップS46c〕制御部11は、式(1)で求めた水平回転角で回転したときの回転方向成分を新たにr成分として、r成分をx成分とy成分から算出する。r成分の算出式は、以下の式(2)になる。
[Step S46c] The
〔ステップS46d〕制御部11は、上記のr成分と、ベクトルSの垂直方向成分であるz成分とから垂直方向の回転角(垂直回転角)を算出する。垂直回転角の算出式は、以下の式(3)になる。
[Step S46d] The
制御部11は、上記のような算出式を用いて、水平回転角および垂直回転角を求めることにより、スピーカ30の回転角度を容易に精度よく算出することができる。
The
図15は対象人物の移動に伴う回転角度の算出処理の一例を示すフローチャートである。図11のステップS49の詳細フローを示している。
〔ステップS49a〕制御部11は、声掛けを行う際に選択した音声パターンの再生時間t2を決定する。
FIG. 15 is a flowchart showing an example of the calculation process of the rotation angle accompanying the movement of the target person. The detailed flow of step S49 of FIG. 11 is shown.
[Step S49a] The
〔ステップS49b〕制御部11は、移動速度Vaに時間t2を乗算し、乗算結果を移動量として算出する。
〔ステップS49c〕制御部11は、算出した移動量を座標A2(移動後の足元座標)に加算すると共に、z成分を耳の高さHとして頭部位置を求める(座標Caとする)。この頭部位置は、声掛け終了時の対象人物の頭部の座標になる。
[Step S49b] The
[Step S49c] The
〔ステップS49d〕制御部11は、座標Caからスピーカ30の設置座標を減算する。これはスピーカ30を中心とした座標Caのベクトル化に相当するものであり、減算結果をベクトルSaとする。
[Step S49d] The
〔ステップS49e〕制御部11は、ベクトルSaのx成分とy成分から、式(1)を用いて水平方向の回転角(水平回転角)を算出する。
〔ステップS49f〕制御部11は、式(2)を用いて、水平方向の回転角方向を新たにr成分とし、x成分とy成分からr成分を算出する。
〔ステップS49g〕制御部11は、ベクトルSaのr成分とz成分から垂直方向の回転角(垂直回転角)を算出する。
[Step S49e] The
[Step S49f] Using the equation (2), the
[Step S49g] The
図16はスピーカの回転駆動および声掛けの動作の一例を示すフローチャートである。図11のステップS50aの詳細フローを示している。なお、図14で上述した、座標C(最初の頭部位置)にもとづいて算出したスピーカ30の水平回転角を水平回転角a1とし、座標Cにもとづいて算出したスピーカ30の垂直回転角を垂直回転角b1とする。
FIG. 16 is a flowchart showing an example of the rotational drive of the speaker and the operation of speaking. The detailed flow of step S50a of FIG. 11 is shown. The horizontal rotation angle of the
〔ステップS50a1〕制御部11は、スピーカ30に対して、算出した水平回転角a1および垂直回転角b1(第1の回転角度)と、選択した音声パターンとをスピーカ30に送信する。
〔ステップS50a2〕スピーカ30は、水平回転角a1および垂直回転角b1で回転駆動する。
〔ステップS50a3〕スピーカ30は、回転駆動が終了すると、指示された音声パターンで対象人物に向けて声掛けを行う。
[Step S50a1] The
[Step S50a2] The
[Step S50a3] When the rotation drive is completed, the
図17はスピーカの回転駆動および声掛けの動作の一例を示すフローチャートである。図11のステップS50bの詳細フローを示している。なお、図15で上述した、座標Ca(移動後の頭部位置)にもとづいて算出したスピーカ30の水平回転角を水平回転角a2とし、座標Caにもとづいて算出したスピーカ30の垂直回転角を垂直回転角b2とする。
FIG. 17 is a flowchart showing an example of the rotational drive of the speaker and the operation of speaking. The detailed flow of step S50b of FIG. 11 is shown. The horizontal rotation angle of the
〔ステップS50b1〕制御部11は、スピーカ30に対して、算出した水平回転角a1および垂直回転角b1(第1の回転角度)と、選択した音声パターンとをスピーカ30に送信する。
〔ステップS50b2〕制御部11は、スピーカ30に対して、算出した水平回転角a2および垂直回転角b2(第2の回転角度)と、時間t2の情報とをスピーカ30に送信する。なお、時間t2は、上述のように遅延が考慮された音声パターンの再生時間である。
[Step S50b1] The
[Step S50b2] The
〔ステップS50b3〕スピーカ30は、水平回転角a1および垂直回転角b1(第1の回転角度)で回転駆動する。
〔ステップS50b4〕スピーカ30は、水平回転角a1および垂直回転角b1の回転駆動の終了後、指示された音声パターンで、かつ送信された音声パターンの再生時間(時間t2)で声掛けを行う。さらに、スピーカ30は、声掛けを行いながら、水平回転角a2および垂直回転角b2(第2の回転角度)で回転駆動する。
[Step S50b3] The
[Step S50b4] After the rotation drive of the horizontal rotation angle a1 and the vertical rotation angle b1 is completed, the
〔ステップS50b5〕スピーカ30は声掛けを行う。また、スピーカ30が声掛けを終了すると同時または終了した後に回転駆動が停止する。
このように、制御部11は、頭部位置の座標から3D空間上のスピーカ30の設置位置の座標を減算してスピーカ30を中心とする頭部位置の座標のベクトルを算出し、ベクトルの水平方向成分にもとづいてスピーカ30の水平回転角を算出する。
そして、スピーカ30が水平回転角で回転したときの回転方向成分と、ベクトルの垂直方向成分とにもとづいてスピーカ30の垂直回転角を算出し、水平回転角および垂直回転角を、スピーカ30の回転角度とする。これにより、水平方向と垂直方向の2軸回転機構を有するスピーカ30の回転角度を精度よく求めることができる。
[Step S50b5] The
In this way, the
Then, the vertical rotation angle of the
さらに、制御部11は、検出した頭部位置にスピーカ30を向ける第1の回転角度(水平回転角a1および垂直回転角b1)を算出し、対象人物の移動先の予測を行わない場合、スピーカ30を第1の回転角度で回転させ音声パターンをスピーカ30から出力させる。
また、対象人物の移動先の予測を行う場合、更新後の頭部位置にスピーカ30を向ける第2の回転角度(水平回転角a2および垂直回転角b2)を算出し、スピーカ30を第1の回転角度で回転させ、第1の回転角度の回転の終了後に、スピーカ30から音声パターンを出力させながら、スピーカ30を第2の回転角度で回転させる。
これにより、対象人物の移動に追随するようにスピーカ30が制御されるので、対象人物が移動することによって、スピーカ30からの音声が対象人物に到達せずに、対象人物が声掛けを聞き逃してしまうといったことを防止することができる。
Further, when the
Further, when predicting the movement destination of the target person, the second rotation angle (horizontal rotation angle a2 and vertical rotation angle b2) for directing the
As a result, the
このように、第2の実施の形態の情報処理システム1−2では、カメラ20と非一体型であり指向性を有して回転駆動するスピーカ30を用いて、カメラ20で撮影された撮影画像から算出した対象人物の頭部位置に向けてスピーカ30を回転させて、スピーカ30から対象人物に音声を出力させる構成とした。これにより、スピーカ設置数を減少させることができるので、システム規模の増加を抑えて、効率よく所定の空間内に位置する人物に対して音声通知を行うことが可能になる。
As described above, in the information processing system 1-2 of the second embodiment, the captured image taken by the
上記で説明した本発明の情報処理システム1−1、1−2の処理機能は、コンピュータによって実現することができる。この場合、情報処理システム1−1、1−2が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。 The processing functions of the information processing systems 1-1 and 1-2 of the present invention described above can be realized by a computer. In this case, a program that describes the processing contents of the functions that the information processing systems 1-1 and 1-2 should have is provided. By executing the program on a computer, the above processing function is realized on the computer.
処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶部、光ディスク、光磁気記録媒体、半導体メモリ等がある。磁気記憶部には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープ等がある。光ディスクには、CD−ROM/RW等がある。光磁気記録媒体には、MO(Magneto Optical disk)等がある。 The program that describes the processing content can be recorded on a computer-readable recording medium. Computer-readable recording media include magnetic storage units, optical disks, opto-magnetic recording media, semiconductor memories, and the like. The magnetic storage unit includes a hard disk device (HDD), a flexible disk (FD), a magnetic tape, and the like. Optical discs include CD-ROM / RW and the like. The magneto-optical recording medium includes MO (Magneto Optical disk) and the like.
プログラムを流通させる場合、例えば、そのプログラムが記録されたCD−ROM等の可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶部に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。 When a program is distributed, for example, a portable recording medium such as a CD-ROM on which the program is recorded is sold. It is also possible to store the program in the storage unit of the server computer and transfer the program from the server computer to another computer via the network.
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶部に格納する。そして、コンピュータは、自己の記憶部からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。 The computer that executes the program stores, for example, the program recorded on the portable recording medium or the program transferred from the server computer in its own storage unit. Then, the computer reads the program from its own storage unit and executes processing according to the program. The computer can also read the program directly from the portable recording medium and execute the processing according to the program.
また、コンピュータは、ネットワークを介して接続されたサーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。また、上記の処理機能の少なくとも一部を、DSP、ASIC、PLD等の電子回路で実現することもできる。 In addition, the computer can sequentially execute processing according to the received program each time the program is transferred from the server computer connected via the network. Further, at least a part of the above processing functions can be realized by an electronic circuit such as a DSP, ASIC, or PLD.
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の2以上の構成(特徴)を組み合わせたものであってもよい。 Although the embodiment has been illustrated above, the configuration of each part shown in the embodiment can be replaced with another having the same function. Further, any other components or processes may be added. Further, any two or more configurations (features) of the above-described embodiments may be combined.
1−1 情報処理システム
1 情報処理装置
1a 制御部
1b 記憶部
2 カメラ
3 スピーカ
1-1
Claims (4)
前記カメラと非一体型であり指向性を有して回転駆動するスピーカと、
前記カメラで撮影された撮影画像から対象人物を特定し、前記対象人物の頭部位置を検出し、前記頭部位置に向けて音声を発するための前記スピーカの回転角度を算出し、前記対象人物に発すべき音声パターンを選択して、前記回転角度で前記スピーカを回転させ前記音声パターンを前記スピーカから出力させる制御部と、
を備え、
前記制御部は、
前記撮影画像の2次元画像を3次元空間に対応付け、前記2次元画像から前記対象人物の足元の座標および頭上の座標を検出して、前記足元の座標および前記頭上の座標を前記3次元空間にマッピングし、前記3次元空間にマッピングした前記頭上の座標にもとづく前記対象人物の頭上高さから所定値減算して耳の位置を検出し、前記耳の位置を前記対象人物の前記頭部位置とし、
前記2次元画像から一定の時間間隔で前記対象人物の前記足元の座標を複数検出して時系列の座標データを取得し、前記座標データから所定時間の経過後の前記対象人物の移動量を算出し、前記移動量にもとづいて前記頭部位置の更新を行い、
前記対象人物の検出から前記スピーカから前記音声パターンが出力されるまでの遅延時間を保持しておき、前記所定時間に前記遅延時間を含めて前記移動量を算出し、
前記制御部は、
検出した前記頭部位置に前記スピーカを向ける第1の回転角度を算出し、
前記対象人物の移動先の予測を行わない場合、前記スピーカを前記第1の回転角度で回転させ前記音声パターンを前記スピーカから出力させ、
前記対象人物の移動先の予測を行う場合、更新後の前記頭部位置に前記スピーカを向ける第2の回転角度を算出し、前記スピーカを前記第1の回転角度で回転させ、前記第1の回転角度の回転の終了後に、前記スピーカから前記音声パターンを出力させながら、前記スピーカを前記第2の回転角度で回転させる、
情報処理システム。 With the camera
A speaker that is not integrated with the camera and has directivity and is driven to rotate,
The target person is identified from the captured image taken by the camera, the head position of the target person is detected, the rotation angle of the speaker for emitting a sound toward the head position is calculated, and the target person A control unit that selects a voice pattern to be emitted from the speaker, rotates the speaker at the rotation angle, and outputs the voice pattern from the speaker.
With
The control unit
The two-dimensional image of the captured image is associated with the three-dimensional space, the coordinates of the feet and overhead of the target person are detected from the two-dimensional image, and the coordinates of the feet and the coordinates of the overhead are converted into the three-dimensional space. The position of the ear is detected by subtracting a predetermined value from the overhead height of the target person based on the overhead coordinates mapped to the three-dimensional space, and the position of the ear is the position of the head of the target person. age,
A plurality of coordinates of the foot of the target person are detected from the two-dimensional image at regular time intervals to acquire time-series coordinate data, and the movement amount of the target person after a lapse of a predetermined time is calculated from the coordinate data. Then, the head position is updated based on the movement amount, and the head position is updated.
The delay time from the detection of the target person to the output of the voice pattern from the speaker is held, and the movement amount is calculated by including the delay time in the predetermined time.
The control unit
The first rotation angle at which the speaker is directed to the detected head position is calculated.
When the movement destination of the target person is not predicted, the speaker is rotated at the first rotation angle to output the voice pattern from the speaker.
When predicting the movement destination of the target person, a second rotation angle at which the speaker is directed to the updated head position is calculated, the speaker is rotated at the first rotation angle, and the first rotation angle is used. After the rotation of the rotation angle is completed, the speaker is rotated at the second rotation angle while outputting the sound pattern from the speaker.
Information processing system.
前記頭部位置の座標から前記3次元空間上の前記スピーカの設置位置の座標を減算して前記スピーカを中心とする前記頭部位置の座標のベクトルを算出し、
前記ベクトルの水平方向成分にもとづいて前記スピーカの水平回転角を算出し、
前記スピーカが前記水平回転角で回転したときの回転方向成分と、前記ベクトルの垂直方向成分とにもとづいて前記スピーカの垂直回転角を算出し、
前記水平回転角および前記垂直回転角を、前記スピーカの前記回転角度とする請求項1記載の情報処理システム。 The control unit
The coordinates of the installation position of the speaker in the three-dimensional space are subtracted from the coordinates of the head position to calculate the vector of the coordinates of the head position centered on the speaker.
The horizontal rotation angle of the speaker is calculated based on the horizontal component of the vector.
The vertical rotation angle of the speaker is calculated based on the rotation direction component when the speaker is rotated at the horizontal rotation angle and the vertical component of the vector.
The information processing system according to claim 1, wherein the horizontal rotation angle and the vertical rotation angle are the rotation angles of the speaker.
前記音声パターンを格納する記憶部と、
を備え、
前記制御部は、
前記撮影画像の2次元画像を3次元空間に対応付け、前記2次元画像から前記対象人物の足元の座標および頭上の座標を検出して、前記足元の座標および前記頭上の座標を前記3次元空間にマッピングし、前記3次元空間にマッピングした前記頭上の座標にもとづく前記対象人物の頭上高さから所定値減算して耳の位置を検出し、前記耳の位置を前記対象人物の前記頭部位置とし、
前記2次元画像から一定の時間間隔で前記対象人物の前記足元の座標を複数検出して時系列の座標データを取得し、前記座標データから所定時間の経過後の前記対象人物の移動量を算出し、前記移動量にもとづいて前記頭部位置の更新を行い、
前記対象人物の検出から前記スピーカから前記音声パターンが出力されるまでの遅延時間を保持しておき、前記所定時間に前記遅延時間を含めて前記移動量を算出し、
前記制御部は、
検出した前記頭部位置に前記スピーカを向ける第1の回転角度を算出し、
前記対象人物の移動先の予測を行わない場合、前記スピーカを前記第1の回転角度で回転させ前記音声パターンを前記スピーカから出力させ、
前記対象人物の移動先の予測を行う場合、更新後の前記頭部位置に前記スピーカを向ける第2の回転角度を算出し、前記スピーカを前記第1の回転角度で回転させ、前記第1の回転角度の回転の終了後に、前記スピーカから前記音声パターンを出力させながら、前記スピーカを前記第2の回転角度で回転させる、
情報処理装置。 The target person is identified from the captured image taken by the camera, the head position of the target person is detected, and the head position is relative to a speaker that is non-integrated with the camera and has directivity and is rotationally driven. A control unit that calculates the rotation angle of the speaker for emitting sound toward the target person, selects an audio pattern to be emitted to the target person, rotates the speaker at the rotation angle, and outputs the audio pattern from the speaker. When,
A storage unit that stores the voice pattern and
With
The control unit
The two-dimensional image of the captured image is associated with the three-dimensional space, the coordinates of the feet and overhead of the target person are detected from the two-dimensional image, and the coordinates of the feet and the coordinates of the overhead are converted into the three-dimensional space. The position of the ear is detected by subtracting a predetermined value from the overhead height of the target person based on the overhead coordinates mapped to the three-dimensional space, and the position of the ear is the position of the head of the target person. age,
A plurality of coordinates of the foot of the target person are detected from the two-dimensional image at regular time intervals to acquire time-series coordinate data, and the movement amount of the target person after a lapse of a predetermined time is calculated from the coordinate data. Then, the head position is updated based on the movement amount, and the head position is updated.
The delay time from the detection of the target person to the output of the voice pattern from the speaker is maintained, and the movement amount is calculated by including the delay time in the predetermined time.
The control unit
The first rotation angle at which the speaker is directed to the detected head position is calculated.
When the movement destination of the target person is not predicted, the speaker is rotated at the first rotation angle to output the voice pattern from the speaker.
When predicting the movement destination of the target person, a second rotation angle for directing the speaker to the updated head position is calculated, the speaker is rotated at the first rotation angle, and the first rotation angle is used. After the rotation of the rotation angle is completed, the speaker is rotated at the second rotation angle while outputting the sound pattern from the speaker.
Information processing device.
カメラで撮影された撮影画像から対象人物を特定し、
前記対象人物の頭部位置を検出し、
前記カメラと非一体型であり指向性を有して回転駆動するスピーカに対して前記頭部位置に向けて音声を発するための前記スピーカの回転角度を算出し、
前記対象人物に発すべき音声パターンを選択し、
前記回転角度で前記スピーカを回転させ前記音声パターンを前記スピーカから出力させ、
前記撮影画像の2次元画像を3次元空間に対応付け、前記2次元画像から前記対象人物の足元の座標および頭上の座標を検出して、前記足元の座標および前記頭上の座標を前記3次元空間にマッピングし、前記3次元空間にマッピングした前記頭上の座標にもとづく前記対象人物の頭上高さから所定値減算して耳の位置を検出し、前記耳の位置を前記対象人物の前記頭部位置とし、
前記2次元画像から一定の時間間隔で前記対象人物の前記足元の座標を複数検出して時系列の座標データを取得し、前記座標データから所定時間の経過後の前記対象人物の移動量を算出し、前記移動量にもとづいて前記頭部位置の更新を行い、
前記対象人物の検出から前記スピーカから前記音声パターンが出力されるまでの遅延時間を保持しておき、前記所定時間に前記遅延時間を含めて前記移動量を算出し、
検出した前記頭部位置に前記スピーカを向ける第1の回転角度を算出し、
前記対象人物の移動先の予測を行わない場合、前記スピーカを前記第1の回転角度で回転させ前記音声パターンを前記スピーカから出力させ、
前記対象人物の移動先の予測を行う場合、更新後の前記頭部位置に前記スピーカを向ける第2の回転角度を算出し、前記スピーカを前記第1の回転角度で回転させ、前記第1の回転角度の回転の終了後に、前記スピーカから前記音声パターンを出力させながら、前記スピーカを前記第2の回転角度で回転させる、
処理を実行させるプログラム。 On the computer
Identify the target person from the captured image taken by the camera,
The head position of the target person is detected,
The rotation angle of the speaker for emitting sound toward the head position with respect to the speaker which is not integrated with the camera and is driven to rotate with directivity is calculated.
Select the voice pattern to be emitted to the target person,
The speaker is rotated at the rotation angle to output the voice pattern from the speaker.
The two-dimensional image of the captured image is associated with the three-dimensional space, the coordinates of the feet and overhead of the target person are detected from the two-dimensional image, and the coordinates of the feet and the coordinates of the overhead are converted into the three-dimensional space. The position of the ear is detected by subtracting a predetermined value from the overhead height of the target person based on the overhead coordinates mapped to the three-dimensional space, and the position of the ear is the position of the head of the target person. age,
A plurality of coordinates of the foot of the target person are detected from the two-dimensional image at regular time intervals to acquire time-series coordinate data, and the movement amount of the target person after a lapse of a predetermined time is calculated from the coordinate data. Then, the head position is updated based on the movement amount, and the head position is updated.
The delay time from the detection of the target person to the output of the voice pattern from the speaker is held, and the movement amount is calculated by including the delay time in the predetermined time.
The first rotation angle at which the speaker is directed to the detected head position is calculated.
When the movement destination of the target person is not predicted, the speaker is rotated at the first rotation angle to output the voice pattern from the speaker.
When predicting the movement destination of the target person, a second rotation angle at which the speaker is directed to the updated head position is calculated, the speaker is rotated at the first rotation angle, and the first rotation angle is used. After the rotation of the rotation angle is completed, the speaker is rotated at the second rotation angle while outputting the sound pattern from the speaker.
A program that executes processing.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019195113A JP6767664B1 (en) | 2019-10-28 | 2019-10-28 | Information processing systems, information processing equipment and programs |
GB2013486.2A GB2589950A (en) | 2019-10-28 | 2020-08-27 | Information processing system, information processing apparatus, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019195113A JP6767664B1 (en) | 2019-10-28 | 2019-10-28 | Information processing systems, information processing equipment and programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6767664B1 true JP6767664B1 (en) | 2020-10-14 |
JP2021069079A JP2021069079A (en) | 2021-04-30 |
Family
ID=72745067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019195113A Active JP6767664B1 (en) | 2019-10-28 | 2019-10-28 | Information processing systems, information processing equipment and programs |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6767664B1 (en) |
GB (1) | GB2589950A (en) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4989934B2 (en) * | 2006-07-14 | 2012-08-01 | パナソニック株式会社 | Speaker system |
JP5396769B2 (en) * | 2008-08-04 | 2014-01-22 | セイコーエプソン株式会社 | Audio output control device, audio output device, audio output control method, and program |
JP2012205240A (en) * | 2011-03-28 | 2012-10-22 | Nikon Corp | Electronic device and information transfer system |
JP2013024534A (en) * | 2011-07-26 | 2013-02-04 | Panasonic Corp | Situation recognition device |
JP5163796B1 (en) * | 2011-09-22 | 2013-03-13 | パナソニック株式会社 | Sound playback device |
US9544679B2 (en) * | 2014-12-08 | 2017-01-10 | Harman International Industries, Inc. | Adjusting speakers using facial recognition |
TW201707471A (en) * | 2015-08-14 | 2017-02-16 | Unity Opto Technology Co Ltd | Automatically controlled directional speaker and lamp thereof enabling mobile users to stay in the best listening condition, preventing the sound from affecting others when broadcasting, and improving the convenience of use in life |
JP6424341B2 (en) * | 2016-07-21 | 2018-11-21 | パナソニックIpマネジメント株式会社 | Sound reproduction apparatus and sound reproduction system |
JP2019041261A (en) * | 2017-08-25 | 2019-03-14 | 株式会社 日立産業制御ソリューションズ | Image processing system and setting method of image processing system |
-
2019
- 2019-10-28 JP JP2019195113A patent/JP6767664B1/en active Active
-
2020
- 2020-08-27 GB GB2013486.2A patent/GB2589950A/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
JP2021069079A (en) | 2021-04-30 |
GB2589950A (en) | 2021-06-16 |
GB202013486D0 (en) | 2020-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10937241B2 (en) | Systems, methods, and apparatus for identifying an augmented reality service | |
JP6879379B2 (en) | Customer service support equipment, customer service support methods, and programs | |
US20160203643A1 (en) | Exhibition guide apparatus, exhibition media display apparatus, mobile terminal and method for guiding exhibition | |
WO2019080674A1 (en) | Self-service checkout device, method, apparatus, medium and electronic device | |
US11276126B2 (en) | Focus-object-determined communities for augmented reality users | |
JP2020003876A (en) | Data transmission apparatus and program | |
EP3089486A1 (en) | Information processing apparatus, information processing method, target terminal, communication method, and program | |
JP6767664B1 (en) | Information processing systems, information processing equipment and programs | |
EP4121886A1 (en) | Machine learning operations dependent on camera orientation | |
JP2012248024A (en) | Conference support system, information processor, and material distribution program | |
US11120269B2 (en) | Method and apparatus for determining target rotation direction, computer readable medium and electronic device | |
JP6545950B2 (en) | Estimation apparatus, estimation method, and program | |
WO2020195613A1 (en) | Information processing device, management system, information processing method, and recording medium | |
JP2020004392A (en) | Data transmission apparatus, terminal, and program | |
US11295269B2 (en) | Cognitive retail facing | |
JP7337354B2 (en) | Information processing device and information processing program | |
CN114997993A (en) | Business processing method and device, processor and electronic device | |
JP2022143605A (en) | Watching system | |
JP2008014825A (en) | Method and program for measurement | |
JP7366547B2 (en) | Information processing device and information processing program | |
JP2016218822A (en) | Sales information utilization apparatus, sales information utilization method, and program | |
JP2018196060A (en) | Information processing device, information processing system, information processing method, and program | |
US20230156427A1 (en) | Augmented device retrieval assistance | |
JP7451931B2 (en) | Information processing system, information processing device, information processing method, and program | |
WO2021255894A1 (en) | Control device, control method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191121 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20191121 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20191223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200217 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200407 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200603 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20200603 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20200615 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20200616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200818 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200831 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6767664 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |