Nothing Special   »   [go: up one dir, main page]

JP5467346B2 - Motion estimation method, motion estimation device, and motion estimation program - Google Patents

Motion estimation method, motion estimation device, and motion estimation program Download PDF

Info

Publication number
JP5467346B2
JP5467346B2 JP2009298796A JP2009298796A JP5467346B2 JP 5467346 B2 JP5467346 B2 JP 5467346B2 JP 2009298796 A JP2009298796 A JP 2009298796A JP 2009298796 A JP2009298796 A JP 2009298796A JP 5467346 B2 JP5467346 B2 JP 5467346B2
Authority
JP
Japan
Prior art keywords
spectrum
plane
moving image
motion estimation
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009298796A
Other languages
Japanese (ja)
Other versions
JP2011081761A (en
Inventor
茂樹 広林
貴晃 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Toyama NUC
Original Assignee
University of Toyama NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Toyama NUC filed Critical University of Toyama NUC
Priority to JP2009298796A priority Critical patent/JP5467346B2/en
Publication of JP2011081761A publication Critical patent/JP2011081761A/en
Application granted granted Critical
Publication of JP5467346B2 publication Critical patent/JP5467346B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Description

本発明は、動画像内の移動物体の動き解析や動画像の圧縮符号化の分野に関し、特に、動画像内の1つ又は複数の移動物体の動きを推定する動き推定方法、動き推定装置、及び動き推定プログラムに関する。   The present invention relates to the fields of motion analysis of moving objects in moving images and compression coding of moving images, and in particular, a motion estimation method, a motion estimation device, and the like for estimating the motion of one or more moving objects in a moving image, And a motion estimation program.

動画像の圧縮符号化において、参照フレームからの移動物体の動き量を予測する動き予測技術は、動画像データの記述量を大幅に削減する上で極めて重要な技術である。   In motion picture compression coding, a motion prediction technique for predicting a motion amount of a moving object from a reference frame is an extremely important technique for greatly reducing the description amount of moving picture data.

動き予測に広く使われている方法としては、MPEG−4 AVC/H.264として規格化されている方法が知られている。MPEG−4 AVC/H.264の動画像符号化技術で用いられる動き予測技術においては、動画像から得られるデータを時間領域又は空間領域において解析することによって動き予測を行っている。すなわち、この動き予測技術は、2次元の画素ブロックに対して整数精度の直交変換を行う解析手法であり、また、その解析は、動画像データを構成する前後のフレームを利用し、これら前後のフレームの画素情報から予測した予測誤差画像に対して行っている。   As a method widely used for motion prediction, MPEG-4 AVC / H. A method standardized as H.264 is known. MPEG-4 AVC / H. In the motion prediction technology used in the H.264 video encoding technology, motion prediction is performed by analyzing data obtained from a video in the time domain or the spatial domain. In other words, this motion prediction technique is an analysis method for performing orthogonal transform with integer precision on a two-dimensional pixel block, and the analysis uses frames before and after configuring moving image data, This is performed on the prediction error image predicted from the pixel information of the frame.

しかしながら、このような動き予測は、画素ブロック単位でのパターン認識に基づくものであることから、異なる方向へ移動する複数の物体や、複雑に形状を変えながら移動する物体については対応することができず、さらに別の手法を必要とする。   However, since such motion prediction is based on pattern recognition in units of pixel blocks, it can handle multiple objects that move in different directions and objects that move while changing their shape in a complex manner. However, another method is required.

このような別の手法としては、動画像を、高さ、幅、時間からなる3次元信号として捉えて3次元解析し、得られた時空間スペクトルを利用して動画像内の移動物体の動きを予測する手法がある。   Another method is to capture a moving image as a three-dimensional signal consisting of height, width, and time, analyze it three-dimensionally, and use the obtained spatio-temporal spectrum to move the moving object in the moving image. There is a method to predict.

一般的に、移動物体を含む動画像を3次元解析して得られた時空間スペクトルのうち、高エネルギーを有するスペクトルに注目すると、これらのスペクトルは、3次元周波数領域空間において平面状に分布する平面群となる。この平面群の構成は、動画像内の物体の動きによって決まり、平面群の傾きを求めることによって動き予測が可能となる。したがって、複数のそれぞれ異なる動きをする移動物体を含む動画像の場合には、移動物体の数と平面の数とが等しくなるため、各平面の傾きをそれぞれ求めることにより、個々の物体の動きを予測することが可能となる。   In general, when attention is paid to spectra having high energy among spatio-temporal spectra obtained by three-dimensional analysis of moving images including moving objects, these spectra are distributed in a plane in a three-dimensional frequency domain space. It becomes a plane group. The configuration of the plane group is determined by the motion of the object in the moving image, and the motion can be predicted by obtaining the inclination of the plane group. Therefore, in the case of a moving image including a plurality of moving objects that move differently, the number of moving objects is equal to the number of planes. It becomes possible to predict.

しかしながら、周波数解析手法として通常用いられる高速フーリエ変換(Fast
Fourier Transform;FFT)や離散フーリエ変換(Discrete Fourier Transform;DFT)に代表される、等間隔な周波数分解幅を有する解析手法においては、分解能がフレーム長に依存し、動画像の解析において十分な分解能が得られないことから、分解能不足に起因して解析できない動きに対応するためには、さらに別の手法を組み合わせる必要がある。
However, the Fast Fourier Transform (Fast
In an analysis method having an equal frequency resolution width represented by Fourier Transform (FFT) and Discrete Fourier Transform (DFT), the resolution depends on the frame length, and the resolution is sufficient for analysis of moving images. Therefore, in order to cope with a motion that cannot be analyzed due to insufficient resolution, it is necessary to combine another method.

例えば、非特許文献1には、FFTを用いて動画像を3次元解析して時空間スペクトルを得た後、時空間スペクトルで表される平面群の傾きを決定する方法として直線群フィルタを用いる手法が開示されている。   For example, in Non-Patent Document 1, a linear group filter is used as a method for determining a slope of a plane group represented by a spatiotemporal spectrum after obtaining a spatiotemporal spectrum by three-dimensionally analyzing a moving image using FFT. A technique is disclosed.

また、非特許文献2に記載された技術においては、平面推定を前提としたFFTアルゴリズムを利用して時空間周波数スペクトルを得ることによって動画像を3次元解析し、平面推定時にファジー推論を使用してスペクトルデータの誤差を補正することによって解析精度の向上を図っている。   In the technique described in Non-Patent Document 2, a moving image is three-dimensionally analyzed by obtaining a spatio-temporal frequency spectrum using an FFT algorithm based on plane estimation, and fuzzy inference is used for plane estimation. Thus, the accuracy of analysis is improved by correcting the error of the spectrum data.

一方、特許文献1には、本願発明者の一部が考案した周波数解析手法として、非周期信号の解析手法であるNon-Harmonic Analysis(NHA)が開示されている。このNHAは、解析対象信号と、周波数f’及び初期位相φ’を用いた位相と振幅A’とによって表される正弦波モデル信号との差の二乗和が最小値になるような周波数f’、振幅A’、及び初期位相φ’を、非周期信号のフーリエ変換式のパラメータとして算出するものである。   On the other hand, Patent Document 1 discloses Non-Harmonic Analysis (NHA), which is an aperiodic signal analysis method, as a frequency analysis method devised by some of the inventors of the present application. This NHA has a frequency f ′ at which the sum of squares of the difference between the signal to be analyzed and the sine wave model signal represented by the phase using the frequency f ′ and the initial phase φ ′ and the amplitude A ′ becomes a minimum value. , Amplitude A ′, and initial phase φ ′ are calculated as parameters of the Fourier transform equation of the aperiodic signal.

国際公開第2009/038056号International Publication No. 2009/038056

Akira KOJIMA and Jun-ichiHISHIGAMI, “Motion Detection using 3D-FFT Spectrum”, ITEC’92, 1992年Akira KOJIMA and Jun-ichiHISHIGAMI, “Motion Detection using 3D-FFT Spectrum”, ITEC’92, 1992 C. E. Erdem, G. Karabulut, E.Yanmaz and E. Anarim, “Motion Estimation in thefrequency domain using fuzzy c-planes clustering”, vol.10, pp. 1873-1879, 2001年12月C. E. Erdem, G. Karabulut, E. Yanmaz and E. Anarim, “Motion Estimation in thefrequency domain using fuzzy c-planes clustering”, vol.10, pp. 1873-1879, December 2001

しかしながら、非特許文献1に記載された技術においては、得られる時空間スペクトルの精度が向上するわけではなく、移動物体の予測精度にも限界がある。また、非特許文献2に記載された技術においては、ファジー推論のために複雑な処理を必要とし、計算コストが高くなるという問題があった。   However, the technique described in Non-Patent Document 1 does not improve the accuracy of the obtained space-time spectrum, and there is a limit to the prediction accuracy of moving objects. Further, the technique described in Non-Patent Document 2 has a problem that a complicated process is required for fuzzy inference and the calculation cost is increased.

本発明は、このような実情に鑑みてなされたものであり、高精度に且つ少ない演算量で、動画像を3次元解析して得られた時空間スペクトルを利用して動画像内の移動物体の動きを推定することができる動き推定方法、動き推定装置、及び動き推定プログラムを提供することを目的とする。   The present invention has been made in view of such circumstances, and a moving object in a moving image using a spatio-temporal spectrum obtained by three-dimensional analysis of a moving image with high accuracy and a small amount of calculation. An object of the present invention is to provide a motion estimation method, a motion estimation apparatus, and a motion estimation program that can estimate the motion of the image.

本発明の動き推定方法は、解析対象となる動画像データを、前記動画像データの3次元信号と、周波数及び初期位相を用いた位相と振幅とによって表される正弦波モデル信号との差の二乗和が最小値になるような前記周波数,前記振幅及び前記初期位相を、非周期信号のフーリエ変換式のパラメータとして求め、時空間スペクトルを抽出し、抽出された前記時空間スペクトル分布を、平面をなすスペクトル群毎に切り分けして1つ又は複数の平面群を推定し、推定された前記平面群の傾きを求めることで、前記動画像内の1つ又は複数の移動物体の動きを推定する動き推定方法であって、
前記時空間スペクトルに対して最小二乗法を用いたクラスタリングを行い、1つ又は複数の平面群を推定するに際し、前記時空間スペクトルが所定の平面に属するものとした場合の存在確率変数を1又は小数に設定し、最小二乗法を用いたクラスタリングを行うことを特徴とする。
In the motion estimation method of the present invention, the difference between a moving image data to be analyzed is a three-dimensional signal of the moving image data and a sine wave model signal represented by a phase and an amplitude using a frequency and an initial phase. The frequency, the amplitude and the initial phase at which the sum of squares becomes the minimum value are obtained as parameters of the Fourier transform equation of the aperiodic signal, the spatiotemporal spectrum is extracted, and the extracted spatiotemporal spectrum distribution is expressed as a plane. The one or a plurality of plane groups are estimated by dividing each of the spectrum groups, and the motion of one or a plurality of moving objects in the moving image is estimated by obtaining the estimated inclination of the plane group. A motion estimation method comprising:
Clustering using the least squares method is performed on the spatiotemporal spectrum, and when estimating one or a plurality of plane groups, the existence probability variable when the spatiotemporal spectrum belongs to a predetermined plane is set to 1 or It is characterized in that it is set to a decimal number and clustering using the least square method is performed .

本発明の動き推定装置は、解析対象となる動画像データを入力する動画像入力手段と、入力された前記動画像データの3次元信号と、周波数及び初期位相を用いた位相と振幅とによって表される正弦波モデル信号との差の二乗和が最小値になるような前記周波数,前記振幅及び前記初期位相を、非周期信号のフーリエ変換式のパラメータとして求め、時空間スペクトルを抽出する時空間スペクトル抽出手段と、抽出された前記時空間スペクトル分布を、平面をなすスペクトル群毎に切り分けして1つ又は複数の平面群を推定する平面推定手段と、推定された前記平面群の傾きを求める傾き算出手段とが備わっており、前記動画像内の1つ又は複数の移動物体の動きを推定する動き推定装置であって、
前記時空間スペクトルに対して最小二乗法を用いたクラスタリングを行い、1つ又は複数の平面群を推定するに際し、前記時空間スペクトルが所定の平面に属するものとした場合の存在確率変数を1又は小数に設定し、最小二乗法を用いたクラスタリングを行う構成であることを特徴とする。
The motion estimation apparatus of the present invention is represented by a moving image input means for inputting moving image data to be analyzed, a three-dimensional signal of the input moving image data, and a phase and amplitude using a frequency and an initial phase. Space-time spectrum in which the frequency, the amplitude, and the initial phase such that the sum of squares of the difference from the sine wave model signal is minimized are obtained as parameters of the Fourier transform equation of the non-periodic signal, and the space-time spectrum is extracted A spectrum extraction unit, a plane estimation unit that estimates one or a plurality of plane groups by dividing the extracted spatiotemporal spectrum distribution for each spectrum group forming a plane, and obtains an inclination of the estimated plane group A motion estimation device for estimating the motion of one or more moving objects in the moving image,
Clustering using the least squares method is performed on the spatiotemporal spectrum, and when estimating one or a plurality of plane groups, the existence probability variable when the spatiotemporal spectrum belongs to a predetermined plane is set to 1 or It is characterized in that it is set to a decimal number and clustering is performed using the least square method .

本発明の動き推定プログラムは、解析対象となる動画像データを入力する動画像入力手段と、入力された前記動画像データの3次元信号と、周波数及び初期位相を用いた位相と振幅とによって表される正弦波モデル信号との差の二乗和が最小値になるような前記周波数,前記振幅及び前記初期位相を、非周期信号のフーリエ変換式のパラメータとして求め、時空間スペクトルを抽出する時空間スペクトル抽出手段、前記時空間スペクトル分布を、平面をなすスペクトル群毎に切り分けして1つ又は複数の平面群を推定する平面推定手段、及び、推定された前記平面群の傾きを求める傾き算出手段としてコンピュータを機能させ、前記動画像内の1つ又は複数の移動物体の動きを推定するコンピュータ実行可能な動き推定プログラムであって、
前記時空間スペクトルに対して最小二乗法を用いたクラスタリングを行い、1つ又は複数の平面群を推定するに際し、前記時空間スペクトルが所定の平面に属するものとした場合の存在確率変数を1又は小数に設定し、最小二乗法を用いたクラスタリングを行うことを特徴とする動き推定プログラム。
The motion estimation program of the present invention is represented by moving image input means for inputting moving image data to be analyzed, a three-dimensional signal of the input moving image data, and a phase and amplitude using a frequency and an initial phase. Space-time spectrum in which the frequency, the amplitude, and the initial phase such that the sum of squares of the difference from the sine wave model signal is minimized are obtained as parameters of the Fourier transform equation of the non-periodic signal, and the space-time spectrum is extracted Spectrum extraction means, plane estimation means for estimating one or a plurality of plane groups by dividing the spatio-temporal spectrum distribution for each spectrum group forming a plane, and inclination calculation means for obtaining an inclination of the estimated plane group A computer-executable motion estimation program for causing a computer to function as a computer and estimating the motion of one or more moving objects in the moving image,
Clustering using the least squares method is performed on the spatiotemporal spectrum, and when estimating one or a plurality of plane groups, the existence probability variable when the spatiotemporal spectrum belongs to a predetermined plane is set to 1 or A motion estimation program that is set to a decimal number and performs clustering using the least squares method .

このような本発明にかかる動き推定方法、動き推定装置、及び動き推定プログラムが実装された装置においては、周波数分解能が解析窓長に依存しない周波数解析手法を動画像の3次元信号解析に用いることにより、従来の周波数解析手法を用いた場合に比べて高精度に時空間スペクトルを抽出することができ、動画像内の移動物体の動きが周波数領域空間に精度良く反映される。そのため、本発明にかかる動き推定方法、動き推定装置、及び動き推定プログラムが実装された装置においては、得られた時空間スペクトルのうち、高エネルギーを有するスペクトルの理論平面からの誤差を極めて少なくすることができる。   In such a motion estimation method, motion estimation device, and device in which a motion estimation program according to the present invention is implemented, a frequency analysis method whose frequency resolution does not depend on the analysis window length is used for three-dimensional signal analysis of moving images. As a result, the spatio-temporal spectrum can be extracted with higher accuracy than in the case of using the conventional frequency analysis method, and the movement of the moving object in the moving image is accurately reflected in the frequency domain space. Therefore, in the motion estimation method, the motion estimation device, and the device in which the motion estimation program according to the present invention is implemented, the error from the theoretical plane of the spectrum having high energy among the obtained spatiotemporal spectrum is extremely reduced. be able to.

本発明においては、周波数解析によって得られた時空間スペクトル分布を高精度に求めることができるため、動きの平面を推定する工程では複雑な処理を必要とせず、高精度に且つ少ない演算量で動画像内の移動物体の動きを推定することができる。   In the present invention, since the spatio-temporal spectrum distribution obtained by frequency analysis can be obtained with high accuracy, the process of estimating the plane of motion does not require complicated processing, and the moving image can be performed with high accuracy and with a small amount of calculation. The motion of the moving object in the image can be estimated.

本発明の実施の形態として示す動き推定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the motion estimation apparatus shown as embodiment of this invention. 本周波数解析手法とDFTとGHAとの違いを説明するための図であり、各手法の誤差を求めた結果を示す図である。It is a figure for demonstrating the difference between this frequency analysis method, DFT, and GHA, and is a figure which shows the result of having calculated | required the error of each method. 本発明の実施の形態として示す動き推定装置において、動画像内の1つ又は複数の移動物体の動きを推定する際の一連の処理を示すフローチャートである。5 is a flowchart showing a series of processing when estimating the motion of one or more moving objects in a moving image in the motion estimation device shown as an embodiment of the present invention. 第1の検証にて用いた動画像を示す図である。It is a figure which shows the moving image used in 1st verification. 第1の検証において物体の移動速度Vを1.0ピクセル/フレームとした場合に、3次元FFTを用いて求めた時空間スペクトル分布を示す図である。When the moving speed V x of the object in the first verification is 1.0 pixels / frame, it is a diagram showing a spatial spectrum distribution when determined using a 3-dimensional FFT. 第1の検証において物体の移動速度Vを3.3ピクセル/フレームとした場合に、3次元FFTを用いて求めた時空間スペクトル分布を示す図である。When the first 3.3 pixels / frame the moving speed V x of the object in the verification is a diagram showing a spatial spectrum distribution when determined using a 3-dimensional FFT. 第1の検証において物体の移動速度Vを3.3ピクセル/フレームとした場合に、本周波数解析手法を用いて求めた時空間スペクトル分布を示す図である。When the first 3.3 pixels / frame the moving speed V x of the object in the verification is a diagram showing a spatial spectrum distribution when determined using the frequency analysis technique. 第2の検証にて用いた動画像を示す図である。It is a figure which shows the moving image used by 2nd verification. 第2の検証において3次元FFTを用いて求めた時空間スペクトル分布を示す図である。It is a figure which shows the spatiotemporal spectrum distribution calculated | required using 3D FFT in the 2nd verification. 第2の検証において本周波数解析手法を用いて求めた時空間スペクトル分布を示す図である。It is a figure which shows the spatiotemporal spectrum distribution calculated | required using this frequency analysis method in 2nd verification. 第3の検証にて用いた動画像を示す図である。It is a figure which shows the moving image used in 3rd verification. 第3の検証において3次元FFTを用いて求めた時空間スペクトル分布を示す図である。It is a figure which shows the spatio-temporal spectrum distribution calculated | required using 3D FFT in the 3rd verification. 第3の検証において本周波数解析手法を用いて求めた時空間スペクトル分布を示す図である。It is a figure which shows the spatiotemporal spectrum distribution calculated | required using this frequency analysis method in the 3rd verification. 図13の時空間スペクトル分布の視点を変えて平面を描画した様子を示す図である。It is a figure which shows a mode that the plane was drawn changing the viewpoint of the spatiotemporal spectrum distribution of FIG. 類似する複数の動きを含む動画像について3次元FFTを用いて求めた時空間スペクトル分布を示す図である。It is a figure which shows the spatiotemporal spectrum distribution calculated | required using the three-dimensional FFT about the moving image containing a several similar motion. 類似する複数の動きを含む動画像について本周波数解析手法を用いて求めた時空間スペクトル分布を示す図である。It is a figure which shows the spatiotemporal spectrum distribution calculated | required using this frequency analysis method about the moving image containing a several similar motion. 図15の場合とは異なる複数の動きを含む動画像について3次元FFTを用いて求めた時空間スペクトル分布を示す図である。It is a figure which shows the spatiotemporal spectrum distribution calculated | required using the three-dimensional FFT about the moving image containing the several motion different from the case of FIG. 図16の場合とは異なる複数の動きを含む動画像について3次元FFTを用いて求めた時空間スペクトル分布を示す図である。It is a figure which shows the spatio-temporal spectrum distribution calculated | required using the three-dimensional FFT about the moving image containing the several motion different from the case of FIG. 第4の検証にて用いた動画像を示す図である。It is a figure which shows the moving image used in the 4th verification. 第4の検証において本周波数解析手法を用いて求めた100本の時空間スペクトルに基づいて推定した平面を描画した様子を示す図である。It is a figure which shows a mode that the plane estimated based on 100 spatiotemporal spectra calculated | required using this frequency analysis method in 4th verification was drawn. 第4の検証において本周波数解析手法を用いて求めた125本の時空間スペクトルに基づいて推定した平面を描画した様子を示す図である。It is a figure which shows a mode that the plane estimated based on 125 spatiotemporal spectra calculated | required using this frequency analysis method in 4th verification was drawn. 第4の検証において本周波数解析手法を用いて求めた160本の時空間スペクトルに基づいて推定した平面を描画した様子を示す図である。It is a figure which shows a mode that the plane estimated based on 160 spatiotemporal spectra calculated | required using this frequency analysis method in 4th verification was drawn. 第4の検証において本周波数解析手法を用いて求めた180本の時空間スペクトルに基づいて推定した平面を描画した様子を示す図である。It is a figure which shows a mode that the plane estimated based on 180 spatiotemporal spectra calculated | required using this frequency analysis method in the 4th verification was drawn. 第4の検証において本周波数解析手法を用いて求めた200本の時空間スペクトルに基づいて推定した平面を描画した様子を示す図である。It is a figure which shows a mode that the plane estimated based on 200 spatio-temporal spectra calculated | required using this frequency analysis method in 4th verification was drawn. 第4の検証において本周波数解析手法を用いて求めた225本の時空間スペクトルに基づいて推定した平面を描画した様子を示す図である。It is a figure which shows a mode that the plane estimated based on 225 spatiotemporal spectra calculated | required using this frequency analysis method in 4th verification was drawn. 第4の検証において本周波数解析手法を用いて求めた250本の時空間スペクトルに基づいて推定した平面を描画した様子を示す図である。It is a figure which shows a mode that the plane estimated based on 250 spatiotemporal spectra calculated | required using this frequency analysis method in 4th verification was drawn. 第5の検証にて用いた動画像を示す図である。It is a figure which shows the moving image used in 5th verification. 第5の検証において3次元FFTを用いて求めた時空間スペクトル分布を示す図である。It is a figure which shows the spatiotemporal spectrum distribution calculated | required using 3D FFT in 5th verification. 第5の検証において本周波数解析手法を用いて求めた時空間スペクトル分布を示す図である。It is a figure which shows the spatiotemporal spectrum distribution calculated | required using this frequency analysis method in 5th verification. 第6の検証にて用いた動画像を示す図である。It is a figure which shows the moving image used in 6th verification. 第6の検証において3次元FFTを用いて求めた時空間スペクトル分布を示す図である。It is a figure which shows the spatiotemporal spectrum distribution calculated | required using three-dimensional FFT in the 6th verification. 第6の検証において本周波数解析手法を用いて求めた時空間スペクトル分布を示す図である。It is a figure which shows the spatiotemporal spectrum distribution calculated | required using this frequency analysis method in 6th verification. 第7の検証にて用いた動画像を示す図である。It is a figure which shows the moving image used in 7th verification. 第7の検証において3次元FFTを用いて求めた時空間スペクトル分布を示す図である。It is a figure which shows the spatiotemporal spectrum distribution calculated | required using three-dimensional FFT in the 7th verification. 第7の検証において本周波数解析手法を用いて求めた時空間スペクトル分布を示す図である。It is a figure which shows the spatiotemporal spectrum distribution calculated | required using this frequency analysis method in 7th verification. 図34に示す時空間スペクトルに基づいて推定した平面を描画した様子を示す図である。It is a figure which shows a mode that the plane estimated based on the spatiotemporal spectrum shown in FIG. 34 was drawn. 図35に示す時空間スペクトルに基づいて推定した平面を描画した様子を示す図である。It is a figure which shows a mode that the plane estimated based on the spatiotemporal spectrum shown in FIG. 35 was drawn.

以下、本発明を適用した具体的な実施の形態について図面を参照しながら詳細に説明する。   Hereinafter, specific embodiments to which the present invention is applied will be described in detail with reference to the drawings.

この実施の形態は、動画像内の1つ又は複数の移動物体の動きを推定する動き推定装置である。特に、この動き推定装置は、非線形方程式を解くことでフーリエ係数を推定することによって周波数分解能が解析窓長に依存しない新たな周波数解析手法を利用して動画像の3次元信号解析を行うものである。   This embodiment is a motion estimation device that estimates the motion of one or more moving objects in a moving image. In particular, this motion estimation device performs a three-dimensional signal analysis of a moving image using a new frequency analysis method in which the frequency resolution does not depend on the analysis window length by estimating a Fourier coefficient by solving a nonlinear equation. is there.

[動き推定装置の構成]
動き推定装置は、例えばコンピュータ等から構成され、図1に示すように、各部を統括的に制御するCPU(Central Processing Unit)11と、各種プログラムを含む各種情報を格納する読み取り専用のROM(Read Only Memory)12と、ワークエリアとして機能するRAM(Random
Access Memory)13と、各種情報を読み出し及び/又は書き込み可能に記憶する記憶部14と、ユーザインターフェースとしての図示しない所定の操作デバイスを介した入力操作の処理及び制御を行う入力操作制御部15と、各種情報を表示する表示部16とを備える。
[Configuration of motion estimation device]
The motion estimation device is composed of, for example, a computer or the like, and as shown in FIG. 1, a CPU (Central Processing Unit) 11 for overall control of each unit and a read-only ROM (Read Read) for storing various information including various programs. Only Memory 12 and RAM (Random) that functions as a work area
(Access Memory) 13, a storage unit 14 that stores various information in a readable and / or writable manner, an input operation control unit 15 that performs processing and control of an input operation via a predetermined operation device (not shown) as a user interface, And a display unit 16 for displaying various information.

CPU11は、記憶部14等に格納されている各種アプリケーションプログラムをはじめとする各種プログラムを実行し、各部を統括的に制御する。   The CPU 11 executes various programs including various application programs stored in the storage unit 14 and the like, and comprehensively controls each unit.

ROM12は、各種プログラムをはじめとする各種情報を格納している。このROM12に格納されている情報は、CPU11の制御のもとに読み出される。   The ROM 12 stores various information including various programs. Information stored in the ROM 12 is read under the control of the CPU 11.

RAM13は、CPU11が各種プログラムを実行する際のワークエリアとして機能し、CPU11の制御のもとに、各種情報を一時記憶するとともに、記憶している各種情報を読み出す。   The RAM 13 functions as a work area when the CPU 11 executes various programs, and temporarily stores various information and reads the stored various information under the control of the CPU 11.

記憶部14は、本発明にかかる動き推定プログラム等のアプリケーションプログラムの他、解析対象となる動画像データをはじめとする各種情報を記憶する。この記憶部14としては、例えば、ハードディスクや不揮発性メモリ等を用いることができる。また、記憶部14には、本体に対して着脱可能とされるフレキシブルディスクやメモリカード等の記憶媒体に対して、各種情報の読み出し及び/又は書き込みを行うドライブ装置も含まれる。この記憶部14に記憶されている各種情報は、CPU11の制御のもとに読み出される。   The storage unit 14 stores various information including moving image data to be analyzed, in addition to application programs such as a motion estimation program according to the present invention. For example, a hard disk or a non-volatile memory can be used as the storage unit 14. The storage unit 14 also includes a drive device that reads and / or writes various types of information on a storage medium such as a flexible disk or a memory card that can be attached to and detached from the main body. Various types of information stored in the storage unit 14 are read out under the control of the CPU 11.

入力操作制御部15は、例えば、キーボード、マウス、キーパッド、赤外線リモートコントローラ、スティックキー、又はプッシュボタンといった、ユーザインターフェースとしての図示しない所定の操作デバイスを介した入力操作を受け付け、操作内容を示す制御信号をCPU11に対して供給する。   The input operation control unit 15 accepts an input operation via a predetermined operation device (not shown) as a user interface such as a keyboard, a mouse, a keypad, an infrared remote controller, a stick key, or a push button, for example, and indicates operation contents. A control signal is supplied to the CPU 11.

表示部16は、例えば、液晶ディスプレイ(Liquid Crystal
Display;LCD)、プラズマ・ディスプレイ・パネル(Plasma Display Panel;PDP)、有機エレクトロルミネッセンス(Organic ElectroLuminescent)ディスプレイ、又はCRT(Cathode Ray Tube)といった、各種表示デバイスであり、CPU11の制御のもとに各種情報を表示する。例えば、表示部16は、CPU11によって動き推定プログラムが起動されると、その画面を表示し、入力された解析対象としての動画像データや動き推定結果等を表示する。
The display unit 16 is, for example, a liquid crystal display (Liquid Crystal).
Various display devices such as a display (LCD), a plasma display panel (PDP), an organic electroluminescence (Organic ElectroLuminescent) display, or a CRT (Cathode Ray Tube). Display information. For example, when the motion estimation program is activated by the CPU 11, the display unit 16 displays the screen and displays the input moving image data as the analysis target, the motion estimation result, and the like.

このような各部を備える動き推定装置は、CPU11の制御のもとに、動き推定プログラムを実行すると、CPU11の制御のもとに、入力された動画像データの周波数解析を行うことによって時空間スペクトルを抽出し、得られた時空間スペクトルについて最小二乗法を用いたクラスタリングを行うことにより、時空間スペクトル分布を、平面をなすスペクトル群毎に切り分けして1つ又は複数の平面群を推定する。なお、周波数解析の対象となる信号、すなわち、解析対象となる動画像データは、図示しない動画像入力部を介してCPU11に入力される。例えば、動き推定装置は、テレビ映像を録画して得られた動画像データの圧縮符号化を行う場合には、当該動き推定装置を含む録画機とテレビとを接続する所定のインターフェースを介して解析対象としての動画像データを入力する。すなわち、動画像入力部は、解析対象としての動画像データをCPU11に入力させる機能を有する部位である。なお、動画像入力部は、アナログ信号を入力した場合には、A/D変換を行ってディジタル信号に変換する機能をあわせ持つことはいうまでもない。このとき、動画像入力部は、必要に応じてアンチエイリアシングフィルタを含むA/D変換器としてもよい。動き推定装置は、CPU11の制御のもとに、このようにして入力された解析対象としての動画像データの周波数解析を行うことによって動き推定を行い、圧縮符号化したデータ等を、図示しない出力部を介して記憶部14に記憶させたり、その他の機器に出力したりする。   When a motion estimation program is executed under the control of the CPU 11, the motion estimation device including each unit performs a frequency analysis of input moving image data under the control of the CPU 11, thereby performing a spatio-temporal spectrum. Is extracted, and the obtained spatio-temporal spectrum is subjected to clustering using the least square method, so that the spatio-temporal spectrum distribution is divided for each spectrum group forming a plane to estimate one or a plurality of plane groups. Note that a signal to be subjected to frequency analysis, that is, moving image data to be analyzed, is input to the CPU 11 via a moving image input unit (not shown). For example, when the motion estimation apparatus compresses and encodes moving image data obtained by recording a television video, the motion estimation apparatus performs analysis via a predetermined interface that connects the recorder including the motion estimation apparatus and the television. Input moving image data as a target. That is, the moving image input unit is a part having a function of causing the CPU 11 to input moving image data to be analyzed. Needless to say, the moving image input unit also has a function of performing A / D conversion and converting to a digital signal when an analog signal is input. At this time, the moving image input unit may be an A / D converter including an anti-aliasing filter as necessary. Under the control of the CPU 11, the motion estimation device performs motion estimation by performing frequency analysis of the moving image data as the analysis target input in this way, and outputs compression-encoded data or the like (not shown) The data is stored in the storage unit 14 via the unit or output to other devices.

[周波数解析アルゴリズム]
まず、動き推定装置における一連の動き推定アルゴリズムの説明に先立って、動き推定を行う際に利用する周波数解析アルゴリズムについて詳述する。なお、動画像データは3次元信号であることはいうまでもないが、ここでは、説明の便宜上、1次元の解析対象信号に対する周波数解析アルゴリズムについて説明するものとする。
[Frequency analysis algorithm]
First, prior to description of a series of motion estimation algorithms in the motion estimation apparatus, a frequency analysis algorithm used when performing motion estimation will be described in detail. Needless to say, the moving image data is a three-dimensional signal, but here, for convenience of explanation, a frequency analysis algorithm for a one-dimensional analysis target signal will be described.

動き推定装置に適用する周波数解析手法(以下、本周波数解析手法という。)においては、次式(1)に示す非周期信号のフーリエ変換式の周波数パラメータを求める問題を非線形方程式の最適解を求める問題に置き換えている。   In the frequency analysis method (hereinafter referred to as this frequency analysis method) applied to the motion estimation device, the problem of obtaining the frequency parameter of the Fourier transform equation of the aperiodic signal shown in the following equation (1) is obtained as an optimal solution of the nonlinear equation. Replaced with a problem.

Figure 0005467346
Figure 0005467346

具体的には、本周波数解析手法においては、次式(2)に示すように、解析対象信号x(n)と正弦波モデル信号との差の二乗和で表される非線形方程式の最適解として、この非線形方程式の右辺が最小値になるような周波数f’、振幅A’、及び初期位相φ’を求める。なお、次式(2)において、Lはフレーム長(解析窓長)であり、fはサンプリング周波数[Hz]である。本周波数解析手法においては、このような最小二乗法によって非線形方程式の最適解を求める問題に帰着させることにより、解析窓の影響やエイリアシングの影響がなくなり、解析窓長が、1周期未満であってもよく、周期の整数倍でなくてもよく、さらには、不等間隔であってもよい等、柔軟な周波数解析処理を実現することが可能となる。 Specifically, in this frequency analysis method, as shown in the following equation (2), as an optimal solution of the nonlinear equation represented by the sum of squares of the difference between the analysis target signal x (n) and the sine wave model signal: Then, the frequency f ′, the amplitude A ′, and the initial phase φ ′ are obtained so that the right side of the nonlinear equation becomes the minimum value. In the following equation (2), L is a frame length (analysis window length), and f s is a sampling frequency [Hz]. In this frequency analysis method, the effect of the analysis window and aliasing are eliminated by reducing the problem of finding the optimal solution of the nonlinear equation by the least square method, and the analysis window length is less than one cycle. In addition, it is not necessary to be an integral multiple of the period, and furthermore, it is possible to realize flexible frequency analysis processing such as unequal intervals.

Figure 0005467346
Figure 0005467346

さて、上式(2)に示す非線形方程式の最適解を実際に求めるにあたっては、以下のような方法をとることができる。   In order to actually obtain the optimum solution of the nonlinear equation shown in the above equation (2), the following method can be taken.

本周波数解析手法においては、振幅A’、周波数f’、及び初期位相φ’のそれぞれについて適切な初期値を求め、これら初期値から非線形方程式の解法を用いて最適解に収束させる。この非線形問題では、上式(2)をコスト関数とする最小化問題とする。なお、適切な初期値は、離散フーリエ変換(Discrete Fourier Transform;DFT)やウェーブレット変換等の任意の周波数変換を行ったり、フィルタリングを行うことによっておおよその見当をつけたりする等、既存の任意の方法を適用して求めることができる。   In this frequency analysis method, appropriate initial values are obtained for each of the amplitude A ′, the frequency f ′, and the initial phase φ ′, and converged to an optimal solution from these initial values using a solution of a nonlinear equation. In this nonlinear problem, the above equation (2) is a minimization problem with a cost function. Appropriate initial values are arbitrary frequency transformations such as Discrete Fourier Transform (DFT) and wavelet transformation, and approximate existing values by filtering, etc. Can be obtained by applying.

まず、本周波数解析手法においては、上式(2)における正弦波モデル信号の位相を構成する周波数パラメータf’,φ’について、いわゆる最急降下法を適用し、周波数パラメータf’,φ’を次式(3)及び次式(4)によって求める。 First, in this frequency analysis method, the so-called steepest descent method is applied to the frequency parameters f ′ and φ ′ constituting the phase of the sine wave model signal in the above equation (2), and the frequency parameters f m ′ and φ m ′ are applied. Is obtained by the following equations (3) and (4).

Figure 0005467346
Figure 0005467346
Figure 0005467346
Figure 0005467346

なお、上式(3)及び上式(4)においては、次式(5)と略している。また、μは、いわゆる減速法に基づく重み係数であり、各漸化式によって求められるコスト関数を単調減少数列にするために、適時0〜1の値をとる。 In the above formulas (3) and (4), the following formula (5) is abbreviated. Further, mu m, a weighting factor based on the so-called reduction method, to a cost function determined by the recursion formula monotonically decreasing sequence takes a value of timely 0-1.

Figure 0005467346
Figure 0005467346

周波数パラメータf’,φ’を求めることができれば、上式(2)における正弦波モデル信号の係数としての周波数パラメータA’を一意に求めることができるため、本周波数解析手法においては、次式(6)によって周波数パラメータA’を収束させる。 If the frequency parameters f m ′ and φ m ′ can be obtained, the frequency parameter A ′ as a coefficient of the sine wave model signal in the above equation (2) can be uniquely obtained. The frequency parameter A m ′ is converged by equation (6).

Figure 0005467346
Figure 0005467346

本周波数解析手法においては、これら一連の計算を反復して行うことにより、振幅A’、周波数f’、及び初期位相φ’を高精度に収束させることができる。特に、本周波数解析手法においては、上式(2)における正弦波モデル信号の位相を構成する周波数パラメータf’,φ’と、係数としての周波数パラメータA’とを別個に求めることにより、計算を簡便に行うことができる。   In this frequency analysis method, it is possible to converge the amplitude A ′, the frequency f ′, and the initial phase φ ′ with high accuracy by repeatedly performing these series of calculations. In particular, in this frequency analysis method, the calculation is performed by separately obtaining the frequency parameters f ′ and φ ′ constituting the phase of the sine wave model signal in the above equation (2) and the frequency parameter A ′ as a coefficient. It can be performed simply.

しかしながら、最急降下法は、比較的広い範囲から収束するものの、1回の反復では精度が低く、収束するまでに時間を要する。   However, although the steepest descent method converges from a relatively wide range, the accuracy is low in one iteration, and it takes time to converge.

そこで、本周波数解析手法においては、最急降下法を適用して周波数パラメータf’,φ’をある程度まで収束させた後、さらに、いわゆるニュートン法を適用して高精度に収束させるのが望ましい。具体的には、本周波数解析手法においては、ニュートン法として、次式(7)及び次式(8)に示す漸化式によって周波数パラメータf’,φ’を求める。 Therefore, in this frequency analysis method, it is desirable to converge the frequency parameters f m ′ and φ m ′ to some extent by applying the steepest descent method, and then to converge with high accuracy by applying the so-called Newton method. . Specifically, in this frequency analysis method, the frequency parameters f m ′ and φ m ′ are obtained by the recurrence formulas shown in the following equations (7) and (8) as the Newton method.

Figure 0005467346
Figure 0005467346
Figure 0005467346
Figure 0005467346

ただし、上式(7)及び上式(8)において、Jは次式(9)とし、次式(10)と略している。また、νもμと同様に減速法に基づく重み係数であり、適時0〜1の値をとる。 However, in the above formulas (7) and (8), J is the following formula (9) and is abbreviated as the following formula (10). Also, [nu m is also a weighting coefficient based on the reduction method in the same manner as mu m, taking the value of timely 0-1.

Figure 0005467346
Figure 0005467346
Figure 0005467346
Figure 0005467346

本周波数解析手法においては、上式(7)及び上式(8)によって周波数パラメータf’,φ’を求めた後、最急降下法と同様に、上式(6)によって周波数パラメータA’を収束させ、この一連の計算をさらに反復して行う。 In the present frequency analysis technique, the above equation (7) and the equation (8) frequency parameter f m by ', phi m' sought after, like the steepest descent method, frequency parameter by the above equation (6) A m 'Is converged and this series of calculations is repeated further.

このように、本周波数解析手法においては、最急降下法とニュートン法とを組み合わせたハイブリッド型の解法を用いることにより、高速に且つ高精度に周波数パラメータA’,f’,φ’を推定することができる。   As described above, in this frequency analysis method, the frequency parameters A ′, f ′, and φ ′ are estimated at high speed and with high accuracy by using a hybrid method combining the steepest descent method and the Newton method. Can do.

また、本周波数解析手法においては、解析対象信号x(n)が複合正弦波の場合であっても、逐次減算処理することにより、近似的にスペクトルパラメータを導出することができる。ここで、解析対象信号x(n)が複数の正弦波の和であり、次式(11)のように表されているとする。   Further, in this frequency analysis method, even if the analysis target signal x (n) is a composite sine wave, the spectral parameter can be approximately derived by performing successive subtraction processing. Here, it is assumed that the analysis target signal x (n) is the sum of a plurality of sine waves and is expressed as the following equation (11).

Figure 0005467346
Figure 0005467346

パーセヴァル(Parseval)の定理より、解析対象信号x(n)の周波数fと正弦波モデル信号の周波数パラメータf’とが全く一致しない場合、すなわち、次式(12)である場合には、上式(2)に示す非線形方程式は次式(13)となる。また、周波数パラメータf’,φ’の組が、周波数f及び初期位相φの組のいずれかに一致する場合には、上式(2)に示す非線形方程式は次式(14)となる。さらに、振幅Aが周波数パラメータA’とも一致した場合には、解析対象信号から推定スペクトルに関する周波数成分を完全に消去することができる。そのため、最適解を求める問題は、周波数に対して独立であり、解析対象信号から順次個別に推定すれば、複数の正弦波で表される信号にも応用することができる。 According to the Parseval theorem, if the frequency fk of the signal to be analyzed x (n) and the frequency parameter f ′ of the sine wave model signal do not coincide at all, that is, if The nonlinear equation shown in the equation (2) becomes the following equation (13). When the set of frequency parameters f ′ and φ ′ matches either of the set of the frequency f k and the initial phase φ k , the nonlinear equation shown in the above equation (2) becomes the following equation (14). . Furthermore, when the amplitude A j matches the frequency parameter A ′, the frequency component related to the estimated spectrum can be completely eliminated from the analysis target signal. Therefore, the problem of obtaining the optimum solution is independent of the frequency, and can be applied to signals represented by a plurality of sine waves if individually estimated from the analysis target signal.

Figure 0005467346
Figure 0005467346
Figure 0005467346
Figure 0005467346
Figure 0005467346
Figure 0005467346

すなわち、本周波数解析手法においては、解析対象信号x(n)が複合正弦波の場合であっても、逐次残差信号に対して同様に処理を行い、複数の正弦波を抽出することができる。   That is, in this frequency analysis method, even if the analysis target signal x (n) is a composite sine wave, it is possible to extract a plurality of sine waves by performing the same process on the residual signal successively. .

音声信号や音響信号等の信号を複合正弦波によって表現するためには、これまで多くのスペクトル数(正弦波の数)が必要であったが、本周波数解析手法においては、そのような信号であっても僅かなスペクトル数で誤差なく表現することができる。すなわち、信号をより少ないスペクトル数で表現可能であることは、情報圧縮の用途に有効であることを示している。   In order to express a signal such as an audio signal or an acoustic signal with a composite sine wave, a large number of spectra (the number of sine waves) has been required so far. Even if it exists, it can express with few errors and without an error. That is, being able to express a signal with a smaller number of spectra indicates that it is effective for information compression.

[本周波数解析手法の有効性]
以下、本周波数解析手法の有効性について具体的に説明する。
[Effectiveness of this frequency analysis method]
Hereinafter, the effectiveness of this frequency analysis method will be specifically described.

本周波数解析手法は、非線形方程式の最適解を求めることにより、正弦波モデル信号の周波数f’、振幅A’、及び初期位相φ’を高速に且つ高精度に求めることができる。具体的な精度を立証するために、本願発明者は、DFTと、DFTの発展型のうち最も解析精度が高いといわれているGHA(Generalized Harmonic Analysis)とを比較対象として精度の検証を行った。   In this frequency analysis method, the frequency f ′, the amplitude A ′, and the initial phase φ ′ of the sine wave model signal can be obtained at high speed and with high accuracy by obtaining an optimal solution of the nonlinear equation. In order to verify the specific accuracy, the inventor of the present application verified accuracy by comparing DFT and GHA (Generalized Harmonic Analysis), which is said to have the highest analysis accuracy among the developed types of DFT. .

なお、DFTやGHAは、1つの解析窓長に見かけ上複数の窓長を持たせていることから、周波数分解能が解析窓長に依存するが、その分解周波数が有限長であり、解析対象信号の周波数が分解周波数以外の周波数となった場合には解析することができず、解析対象信号が正確に解析できる周波数と異なる場合には、最も近い分解周波数の他に、その周辺に小さなスペクトルの周波数(側帯波成分)が現れ、複数の周波数が出現してしまう。   Note that DFT and GHA apparently have a plurality of window lengths in one analysis window length, so the frequency resolution depends on the analysis window length, but the resolution frequency is finite, and the signal to be analyzed If the analysis signal is different from the frequency that can be analyzed accurately, the analysis signal cannot be analyzed when the frequency is other than the decomposition frequency. A frequency (sideband component) appears, and a plurality of frequencies appear.

このような現象が本周波数解析手法においても生じるか否かについて、すなわち、本周波数解析手法の周波数分解能を検証するために、解析窓長を1秒(1024サンプル)とした1次元の非常に短い単一正弦波を解析し、各手法によって正弦波を1本抽出して元の信号との二乗誤差を調べた。その結果を図2に示す。   Whether or not such a phenomenon occurs also in the present frequency analysis method, that is, in order to verify the frequency resolution of the present frequency analysis method, the analysis window length is one second (1024 samples) and is very short. A single sine wave was analyzed, one sine wave was extracted by each method, and the square error from the original signal was examined. The result is shown in FIG.

図2に示すように、DFTにおいては、基本周波数の整数倍以外の周波数における解析精度の悪化がみられた。また、GHAにおいては、1Hz以上の周波数ではDFTと比べて2〜5桁程度の精度向上がみられた。これに対して、本周波数解析手法においては、1Hz以上の周波数ではDFTと比べて10桁以上、GHAと比べて5桁以上の精度向上がみられた。すなわち、本周波数解析手法は、既存の周波数解析手法と比べて10万〜100億倍以上の精度向上がみられた。特に、1Hz以下の周波数を正確に推定することができるということは、解析窓長を超えた長い周期信号であっても解析可能であることを示している。   As shown in FIG. 2, in the DFT, the analysis accuracy deteriorated at frequencies other than an integral multiple of the fundamental frequency. In addition, in GHA, an accuracy improvement of about 2 to 5 digits was observed compared with DFT at a frequency of 1 Hz or higher. On the other hand, in this frequency analysis method, an accuracy improvement of 10 digits or more compared to DFT and 5 digits or more compared to GHA was observed at a frequency of 1 Hz or more. That is, this frequency analysis method showed an improvement in accuracy of 100,000 to 10 billion times or more compared with the existing frequency analysis method. In particular, the fact that a frequency of 1 Hz or less can be accurately estimated indicates that even a long periodic signal exceeding the analysis window length can be analyzed.

このように、本周波数解析手法は、最も解析精度が高いといわれているGHAと比べても驚くべき高精度に解析を行うことができるものである。動き推定装置は、このような周波数解析手法を利用して、図3に示すような一連の処理を行うことにより、入力された動画像内の1つ又は複数の移動物体の動きを推定する。   As described above, this frequency analysis method can perform analysis with surprisingly high accuracy even compared to GHA, which is said to have the highest analysis accuracy. The motion estimation apparatus estimates the motion of one or more moving objects in the input moving image by performing a series of processes as shown in FIG. 3 using such a frequency analysis method.

[動画像からの領域切り出し]
まず、動き推定装置は、図3に示すように、ステップS1において、CPU11の制御のもとに、図示しない動画像入力部を介して入力されてRAM13等のメモリに記憶されているオリジナルの動画像データから移動物体が含まれる領域を切り出す。ここで、切り出した領域の横方向のピクセル数、縦方向のピクセル数、フレーム数を、それぞれ、N,N,Nとし、各要素をi,j,kとする。なお、i,j,kは、画像を再現するためのインデックスであり、実数である。また、切り出した3次元信号からなる動画像データを、ξobj(i,j,k)とする。この切り出された動画像データは、RAM13等に記憶される。
[Extract area from video]
First, as shown in FIG. 3, the motion estimation apparatus receives an original moving image that is input via a moving image input unit (not shown) and stored in a memory such as the RAM 13 in step S <b> 1 under the control of the CPU 11. A region including a moving object is cut out from the image data. Here, the number of pixels in the horizontal direction, the number of pixels in the vertical direction, and the number of frames of the cut-out area are N x , N y , and N z , and the elements are i, j, and k, respectively. Note that i, j, and k are indexes for reproducing an image and are real numbers. Also, the moving image data composed of the cut out three-dimensional signal is assumed to be ξ obj (i, j, k). The extracted moving image data is stored in the RAM 13 or the like.

[時空間スペクトルの抽出]
続いて、動き推定装置は、ステップS2において、CPU11の制御のもとに、次式(15)に示すように、上述した周波数解析手法を利用して3次元信号からなる動画像データξobj(i,j,k)からL本の時空間スペクトルを抽出する。次式(15)において、fxs,fys,fzsは、それぞれ、動画像の横軸方向、縦軸方向、時間軸方向のサンプリング周波数[Hz]であり、A’,f’,f’,f’,φ’は、それぞれ、実際に抽出するスペクトルの振幅、各軸に対応する周波数、初期位相である。動き推定装置は、3次元信号である動画像データを次式(15)に示すような正弦波モデル関数を用いて表し、実際の信号と、次式(15)に示す正弦波モデル信号との差が最小となるように、次式(16)を用いてパラメータを変化させ、各周波数を求める。
[Extraction of spatiotemporal spectrum]
Subsequently, in step S2, under the control of the CPU 11, the motion estimation device uses the above-described frequency analysis method to obtain moving image data ξ obj (3D signals) using the frequency analysis method described above. Extract L spatiotemporal spectra from i, j, k). In the following equation (15), f xs , f ys , and f zs are sampling frequencies [Hz] in the horizontal axis direction, the vertical axis direction, and the time axis direction of the moving image, respectively, and A ′, f x ′, f y ′, f z ′, and φ ′ are the amplitude of the spectrum actually extracted, the frequency corresponding to each axis, and the initial phase, respectively. The motion estimation device represents moving image data, which is a three-dimensional signal, using a sine wave model function represented by the following equation (15), and an actual signal and a sine wave model signal represented by the following equation (15): Each parameter is obtained by changing the parameter using the following equation (16) so that the difference is minimized.

Figure 0005467346
Figure 0005467346
Figure 0005467346
Figure 0005467346

そして、動画像データは、次式(17)に示すように、時空間スペクトルの合成によって表現することができるため、動き推定装置は、CPU11の制御のもとに、動画像データからL本の時空間スペクトルを抽出する。このとき、l番目の時空間スペクトルを次式(18)に示すように表す。   Since the moving image data can be expressed by the synthesis of the spatio-temporal spectrum as shown in the following equation (17), the motion estimator is configured to add L lines of moving image data under the control of the CPU 11. Extract the spatiotemporal spectrum. At this time, the l-th spatio-temporal spectrum is expressed as shown in the following equation (18).

Figure 0005467346
Figure 0005467346
Figure 0005467346
Figure 0005467346

[時空間スペクトルのクラスタリング]
そして、動き推定装置は、ステップS3において、CPU11の制御のもとに、時空間スペクトルのクラスタリングを行う。ここでは、I個の平面が存在すると仮定し、l番目の時空間スペクトルがi番目の平面に属するものとした場合の存在確率変数をP(l)とする。なお、ここでは、確率変数Pは、0又は1の値をとるものとし、当初は0で初期化されているものとする。
[Spatio-temporal clustering]
In step S3, the motion estimation apparatus clusters the spatiotemporal spectrum under the control of the CPU 11. Here, assuming that there are I planes, let P i (l) be the existence probability variable when the l-th spatio-temporal spectrum belongs to the i-th plane. Here, it is assumed that the random variable P has a value of 0 or 1, and is initially initialized with 0.

まず、動き推定装置は、CPU11の制御のもとに、時空間スペクトルSから2本の時空間スペクトルS,Sを選択する。なお、u,vは、次式(19)に示すように集合Lに含まれ、且つ、互いに異なる値である。 First, the motion estimation apparatus selects two spatiotemporal spectra S u and S v from the spatiotemporal spectrum S 1 under the control of the CPU 11. Note that u and v are included in the set L as shown in the following equation (19) and have different values.

Figure 0005467346
Figure 0005467346

続いて、動き推定装置は、CPU11の制御のもとに、次式(20)に示すように、選択した時空間スペクトルS,Sと原点とによって構成される平面の法線ベクトルnu,vを求める。 Subsequently, under the control of the CPU 11, the motion estimation device, as shown in the following equation (20), is a plane normal vector n u composed of the selected spatiotemporal spectra S u and S v and the origin. , V.

Figure 0005467346
Figure 0005467346

続いて、動き推定装置は、CPU11の制御のもとに、次式(21)に示すように、求めた法線ベクトルnu,vを用いて平面の方程式を仮定する Subsequently, under the control of the CPU 11, the motion estimation device assumes a plane equation using the obtained normal vectors n u, v as shown in the following equation (21).

Figure 0005467346
Figure 0005467346

続いて、動き推定装置は、CPU11の制御のもとに、次式(22)に示すように、上式(21)によって求めた平面と、時空間スペクトルS,Sを除く時空間スペクトルSとの距離Du,v(m)をそれぞれ求める。なお、mは、集合Lに含まれ、且つ、u,vとは異なる値である。 Subsequently, under the control of the CPU 11, the motion estimation device, as shown in the following equation (22), the space obtained by the above equation (21) and the spatiotemporal spectrum excluding the spatiotemporal spectra S u and S v. The distances D u, v (m) from S m are respectively determined. Note that m is included in the set L and is different from u and v.

Figure 0005467346
Figure 0005467346

そして、動き推定装置は、CPU11の制御のもとに、次式(23)に示すように、求めた距離Du,v(m)が所定の閾値ε以下となる時空間スペクトルを探索し、その確率変数P(m)を1とする。 Then, under the control of the CPU 11, the motion estimation device searches for a spatiotemporal spectrum in which the obtained distance D u, v (m) is equal to or less than a predetermined threshold ε, as shown in the following equation (23): The random variable P i (m) is set to 1.

Figure 0005467346
Figure 0005467346

なお、ここでは、確率変数を1とすることにより、平面に完全に属するものとして演算を行っているが、動き推定装置においては、小数の確率変数を設定し、平面に近い点とみなす閾値を設け、この閾値を用いた演算を行うようにしてもよく、この閾値を次回の演算の際の算出パラメータの1つとしてもよい。   Here, the calculation is performed assuming that the random variable is set to 1 so that it completely belongs to the plane. However, in the motion estimation apparatus, a decimal random variable is set, and a threshold value that is regarded as a point close to the plane is set. It is also possible to perform calculation using this threshold value, and this threshold value may be one of the calculation parameters for the next calculation.

そして、動き推定装置は、CPU11の制御のもとに、上式(23)を満たす時空間スペクトルSに対して最小二乗法を適用し、次式(24)に示す平面の方程式を計算し、推定した平面の傾きから移動物体の横方向及び縦方向の速度V,Vを推定する。なお、次式(4)におけるdは、f軸の切片である。 The motion estimation apparatus, under the control of the CPU 11, applying the least square method to the spatial spectrum S m when satisfying the above equation (23), calculates the equation of the plane shown in the following equation (24) The horizontal and vertical velocities V x and V y of the moving object are estimated from the estimated plane inclination. Incidentally, d in the following equation (4) is a section of f z axis.

Figure 0005467346
Figure 0005467346

[時空間スペクトルからの平面推定]
動き推定装置は、ステップS4において、CPU11の制御のもとに、以上のようにして時空間スペクトルから平面を推定し、平面iに属していない時空間スペクトルが存在する場合には、上式(23)を満たしていない時空間スペクトルを用いて、ステップS3における時空間スペクトルのクラスタリングを繰り返す。
[Plane estimation from spatiotemporal spectrum]
In step S4, the motion estimation device estimates the plane from the spatiotemporal spectrum as described above under the control of the CPU 11, and if there is a spatiotemporal spectrum that does not belong to the plane i, the above formula ( Using the spatio-temporal spectrum that does not satisfy 23), the clustering of the spatio-temporal spectrum in step S3 is repeated.

動き推定装置は、このような一連の処理を行うことにより、入力された動画像内の1つ又は複数の移動物体の動きを推定することができる。特に、動き推定装置は、時空間スペクトルの抽出に上述した本周波数解析手法を利用することにより、理論平面からの誤差が少ない平面の推定を行うことができる。そのため、動き推定装置は、直線群フィルタやファジー推論を用いたクラスタリング法ではなく、平面推定の簡易的な手法である最小二乗法を用いたクラスタリング法を適用することが可能となり、高精度に且つ少ない演算量で動き推定を行うことができる。   The motion estimation apparatus can estimate the motion of one or a plurality of moving objects in the input moving image by performing such a series of processes. In particular, the motion estimation apparatus can estimate a plane with less error from the theoretical plane by using the above-described frequency analysis method for extracting a spatiotemporal spectrum. Therefore, the motion estimation device can apply a clustering method using a least square method, which is a simple method of plane estimation, instead of a clustering method using a linear group filter or fuzzy inference, and with high accuracy and Motion estimation can be performed with a small amount of calculation.

[動き推定装置の有効性]
以下、動き推定装置の有効性について具体的に説明する。
[第1の検証]
まず、図4に示すように、横方向のピクセル数、縦方向のピクセル数、フレーム数を、それぞれ、N,N,Nとし、初期フレームの左端にある黒い縦棒状の物体が、時間の進行にともない右方に移動するような動画像を考える。移動速度Vは、連続するフレーム間を物体が移動するピクセル数として定義し、フレームの右方又は上方に物体が移動する場合を正とする。速度がフレームあたりのピクセル数であり、N>(N/V)である場合には、物体は、n番目のフレームまで存在する。縦棒状の物体を用いていることから、縦方向の周波数fはゼロである。したがって、動画像は、周波数f,fによって特徴付けられることになる。本願発明者は、3次元の平面f−f上のスペクトル構造を求め、振幅及び周波数f,fの変化を観察した。この場合、時空間スペクトルは、平面f−f上で直線状に分布し、次式(25)に示すように定義される。なお、次式(25)において、dは、f軸の切片であり、速度Vは、理論移動の一次方程式における周波数fの係数である。この直線は、理論直線と称される。
[Effectiveness of motion estimation device]
Hereinafter, the effectiveness of the motion estimation apparatus will be specifically described.
[First verification]
First, as shown in FIG. 4, the number of pixels in the horizontal direction, the number of pixels in the vertical direction, and the number of frames are N x , N y , and N z , respectively, and a black vertical bar-like object at the left end of the initial frame is Consider a moving image that moves to the right as time progresses. The moving speed V x is defined as the number of pixels that the object moves between successive frames, and is positive when the object moves to the right or above the frame. If the velocity is the number of pixels per frame and N z > (N x / V x ), the object exists up to the nth frame. Since a vertical bar-like object is used, the vertical frequency f y is zero. Therefore, the moving image will be characterized by the frequency f x, f z. The inventor of the present application obtained a spectral structure on a three-dimensional plane f x -f z and observed changes in amplitude and frequencies f x and f z . In this case, space-time spectra are distributed linearly on a plane f x -f z, it is defined as shown in the following equation (25). Note that in the following equation (25), d is the intercept of f z-axis, the speed V x is a coefficient of a frequency f x in an equation of the theoretical movement. This straight line is called a theoretical straight line.

Figure 0005467346
Figure 0005467346

ここで、3次元FFTによる周波数解析を実行した場合、移動物体の速度及び解析窓は、スペクトルの分布が理論直線の形態をとるかどうかに影響する。また、3次元FFTの分解能も解析窓に依存する。N=N/Vが一定の場合には、移動物体は、動画像を構成する全てのフレームにおいて存在し、動画像データは略周期的なものとなる。また、分解能及びフレーム数が整数であることから、速度もまた整数となる。したがって、この場合には、3次元FFTにおいて高エネルギーを有するスペクトルは理論直線上にあることになる。しかしながら、N<N/V又はN>N/Vである場合には、解析データは、横方向x及び時間軸方向zについて値がゼロであるデータと等しくなる。このような場合には、解析窓内でデータが周期的でないことから、スペクトルは、理論直線上の複数個所で隆起したものとなる。 Here, when the frequency analysis by the three-dimensional FFT is executed, the velocity of the moving object and the analysis window affect whether the spectrum distribution takes the form of a theoretical straight line. The resolution of the three-dimensional FFT also depends on the analysis window. When N z = N x / V x is constant, the moving object is present in all the frames constituting the moving image, and the moving image data is substantially periodic. Since the resolution and the number of frames are integers, the speed is also an integer. Therefore, in this case, the spectrum having high energy in the three-dimensional FFT is on the theoretical line. However, when N z <N x / V x or N z > N x / V x , the analysis data is equal to data whose value is zero in the horizontal direction x and the time axis direction z. In such a case, since the data is not periodic in the analysis window, the spectrum is raised at a plurality of locations on the theoretical line.

実際に、図4に示した動画像として、サイズを(N×N×N)=(64×64×64)とし、物体の大きさを64ピクセル×8ピクセルとした場合において、物体の移動速度Vを1.0ピクセル/フレームとした場合と、3.3ピクセル/フレームとした場合とについて時空間スペクトルの分布を求めた。なお、スペクトルの振幅は、全てのスペクトルが0dBよりも大きくなるように最大値を40dBに設定した。また、初期位相を1に、周波数f,f,fをそれぞれ64Hzに正規化した。 Actually, in the case of the moving image shown in FIG. 4, when the size is (N x × N y × N z ) = (64 × 64 × 64) and the size of the object is 64 pixels × 8 pixels, and when the moving velocity V x 1.0 pixels / frame, to determine the distribution of the spatial spectrum when the the case of a 3.3 pixel / frame. Note that the maximum value of the spectrum amplitude was set to 40 dB so that all the spectra were larger than 0 dB. Further, the initial phase to 1, the frequency f x, the normalized f y, the f z, respectively 64 Hz.

図5に、物体の移動速度Vを1.0ピクセル/フレームとした場合における3次元FFTの平面f−f上の時空間スペクトルを示す。図5における破線は、理論直線であり、この直線を正確に求めることができれば正確な移動速度を得ることができる。図5においては、3次元FFTの分解能が1であり、物体の移動速度に一致していることから、高エネルギーを有するスペクトルが直線を形成している。しかしながら、物体の移動速度Vが、3次元FFTの分解能に等しくない3.3ピクセル/フレームである場合には、図6に示すように、スペクトルが理論直線上のみに存在するのではなくなり、その周囲にも存在するものとなる。したがって、正確な速度を得るために、理論直線上にないスペクトルのエネルギーを考慮することが重要である。 Figure 5 shows a spatial spectrum when the plane f x -f z of the three-dimensional FFT in a case where the moving speed V x of the object was 1.0 pixels / frame. The broken line in FIG. 5 is a theoretical straight line, and if this straight line can be obtained accurately, an accurate moving speed can be obtained. In FIG. 5, since the resolution of the three-dimensional FFT is 1, which matches the moving speed of the object, the spectrum having high energy forms a straight line. However, when the moving speed V x of the object is 3.3 pixels / frame which is not equal to the resolution of the three-dimensional FFT, the spectrum does not exist only on the theoretical line as shown in FIG. It also exists around it. Therefore, it is important to consider the energy of the spectrum that is not on the theoretical line in order to obtain an accurate speed.

これに対して、物体の移動速度Vを3.3ピクセル/フレームとした場合において、上述した本周波数解析手法を用いて求めた時空間スペクトルは、図7に示すように、理論直線上に存在し、その周囲には存在しないものとなった。なお、図示しないが、物体の移動速度Vが1.0ピクセル/フレームである場合にも、同様に、時空間スペクトルが理論直線上に存在する分布が得られた。 On the other hand, when the moving speed V x of the object is 3.3 pixels / frame, the spatiotemporal spectrum obtained using the frequency analysis method described above is on a theoretical line as shown in FIG. It existed, but it did not exist around it. Although not shown, even when the moving speed V x of the object is 1.0 pixels / frame, likewise, distributed space-time spectrum is present theoretical straight line is obtained.

これらの結果を定量的に評価するために、本願発明者は、3次元FFT及び本周波数解析手法のそれぞれについての時空間スペクトルと理論直線との分散を求めた。分散σは、次式(26)によって求めた。なお、次式(26)において、f’,f’は、それぞれ、3次元FFT又は本周波数解析手法のスペクトルパラメータであり、Lはスペクトルの本数である。 In order to quantitatively evaluate these results, the inventor of the present application determined the variance between the spatiotemporal spectrum and the theoretical line for each of the three-dimensional FFT and the present frequency analysis method. The variance σ 2 was obtained by the following equation (26). Note that in the following equation (26), f x ', f z' are each a spectrum parameter of a three-dimensional FFT or the frequency analysis technique, L is the number of spectrum.

Figure 0005467346
Figure 0005467346

この分散σが小さいほど、理論直線に対する誤差が小さくなる。3次元FFTの場合には、分散σは560.0となり、本周波数解析手法の場合には、0.0268と極めて小さい値となった。本願発明者は、振幅が約40dBから60dBのスペクトルについて、3次元FFTの場合には分散σが約570.0に収束する一方で、本周波数解析手法の場合には分散σが約0.03に収束することを確認している。 The higher the variance sigma 2 is small, the error becomes smaller with respect to the theoretical straight line. In the case of the three-dimensional FFT, the variance σ 2 is 560.0, and in the case of this frequency analysis method, the variance is as small as 0.0268. The inventor of the present application converges the dispersion σ 2 to about 570.0 in the case of a three-dimensional FFT for a spectrum having an amplitude of about 40 dB to 60 dB, while the dispersion σ 2 is about 0 in the case of this frequency analysis method. It is confirmed that it converges to .03.

したがって、本周波数解析手法によるスペクトルは、ほぼ理論直線上に存在することがわかる。移動物体の周期が解析窓の長さと等しい場合には、3次元FFTによるスペクトルは直線を形成するが、逆に、そうでない場合には、スペクトルは直線の形態をとらない。本周波数解析手法を適用した動き推定装置は、解析窓の大きさにかかわらず常に正確なスペクトルを得ることができ、高精度に動き推定を行うことができることがわかる。   Therefore, it can be seen that the spectrum obtained by the present frequency analysis method is almost on the theoretical line. If the period of the moving object is equal to the length of the analysis window, the spectrum by the three-dimensional FFT forms a straight line. Conversely, otherwise, the spectrum does not take the form of a straight line. It can be seen that the motion estimation apparatus to which this frequency analysis method is applied can always obtain an accurate spectrum regardless of the size of the analysis window, and can perform motion estimation with high accuracy.

[第2の検証]
第1の検証においては、物体が1方向にのみ移動する場合を示したが、2方向に移動する場合の例として、図8に示すように、初期フレームの左下にある黒い正方形状の物体が、時間の進行にともない縦横方向に均一な速度で右上に移動するような動画像を考えた。このような物体の移動は、図4に示したような物体の移動において、フレームの下方から上方に移動する横棒状物体の重ね合わせによって表現される。横方向の移動速度をVとし、縦方向の移動速度をVとした場合、3次元FFTにおいて高エネルギーを有する時空間スペクトルは、3次元周波数領域空間における平面上の共役スペクトルを除いてはこの平面上にあることになる。この平面は、次式(27)のような理論平面として定義される。したがって、2つの速度V,Vは、理論平面方程式における周波数f,fの係数を計算することによって求められる。
[Second verification]
In the first verification, the case where the object moves only in one direction has been shown. As an example of the case where the object moves in two directions, as shown in FIG. 8, a black square object at the lower left of the initial frame is shown. We considered a moving image that moves to the upper right at a uniform speed in the vertical and horizontal directions as time progresses. Such movement of the object is expressed by superposition of horizontal bar-shaped objects that move upward from below the frame in the movement of the object as shown in FIG. When the horizontal moving speed is V x and the vertical moving speed is V y , the spatiotemporal spectrum having high energy in the three-dimensional FFT is excluding the conjugate spectrum on the plane in the three-dimensional frequency domain space. It will be on this plane. This plane is defined as a theoretical plane such as the following equation (27). Therefore, the two velocity V x, V y is the frequency f x in theory plane equation is determined by calculating the coefficients of f z.

Figure 0005467346
Figure 0005467346

ここで、NがN/V,N/Vの最小公倍数と等しい場合には、動画像データは略周期的なものとなり、3次元FFTによるスペクトルの大部分は、理論平面の近くに存在することになる。しかしながら、NがN/V,N/Vの最小公倍数と等しくない場合には、時空間スペクトルは、理論平面に限らずどこにでも存在すると考えられる。したがって、3次元FFTによる時空間スペクトルは、解析窓の影響を受けると推測される。本願発明者は、上述した本周波数解析手法を用い、本周波数解析手法の分解能をテストするために速度を整数に設定することにより、この問題の解決を試みた。 Here, when N z is equal to the least common multiple of N x / V x , N y / V y , the moving image data is substantially periodic, and most of the spectrum by the three-dimensional FFT is on the theoretical plane. It will exist nearby. However, when N z is not equal to the least common multiple of N x / V x , N y / V y , the spatiotemporal spectrum is considered to exist everywhere, not only in the theoretical plane. Therefore, it is presumed that the spatiotemporal spectrum by the three-dimensional FFT is affected by the analysis window. The inventor of the present application tried to solve this problem by using the frequency analysis method described above and setting the speed to an integer in order to test the resolution of the frequency analysis method.

実際に、図8に示した動画像として、サイズを(N×N×N)=(64×64×64)とし、物体の大きさを8ピクセル×8ピクセルとした場合において、物体の移動速度をV=V=3.3ピクセル/フレームとした場合について時空間スペクトルの分布を求めた。なお、3次元周波数領域におけるスペクトル分布の観察を明確にするために、スペクトルの振幅は、全てのスペクトルが0dBよりも大きくなるように最大値を20dBに設定した。 Actually, as the moving image shown in FIG. 8, when the size is (N x × N y × N z ) = (64 × 64 × 64) and the size of the object is 8 pixels × 8 pixels, The spatio-temporal spectrum distribution was obtained for the case where the moving speed of V x = V y = 3.3 pixels / frame. In order to clarify the observation of the spectrum distribution in the three-dimensional frequency region, the maximum value of the spectrum amplitude was set to 20 dB so that all spectra were larger than 0 dB.

図9及び図10に、それぞれ、3次元周波数領域において3次元FFT及び本周波数解析手法を用いて求めた時空間スペクトルを示す。図9及び図10において、3つの破線によって形成される平面が理論平面であり、上式(27)におけるパラメータV,V、すなわち、物体の移動速度は3.3である。これら図9及び図10は、求めた時空間スペクトルと理論平面との関係を示している。 9 and 10 show spatiotemporal spectra obtained using a three-dimensional FFT and the present frequency analysis method in the three-dimensional frequency domain, respectively. 9 and 10, the plane formed by the three broken lines is a theoretical plane, and the parameters V x and V y in the above equation (27), that is, the moving speed of the object is 3.3. 9 and 10 show the relationship between the obtained spatiotemporal spectrum and the theoretical plane.

3次元FFTによる時空間スペクトルの一部は、理論平面上に存在するが、大部分のスペクトルは、理論平面の近くに存在している。一方、本周波数解析手法による時空間スペクトルは、その大部分が理論平面上に存在している。分散σは、次式(28)によって求めることができる。 A part of the spatio-temporal spectrum by the three-dimensional FFT exists on the theoretical plane, but most of the spectrum exists near the theoretical plane. On the other hand, most of the spatio-temporal spectrum obtained by this frequency analysis method exists on the theoretical plane. The variance σ 2 can be obtained by the following equation (28).

Figure 0005467346
Figure 0005467346

3次元FFTの場合には、分散σは11.66となり、本周波数解析手法の場合には、0.01と極めて小さい値となった。また、特に図示しないが、物体の大きさが32ピクセル×32ピクセルと大きくなった場合には、分散σは、対数的に増加する結果が得られた。 In the case of the three-dimensional FFT, the variance σ 2 is 11.66, and in the case of this frequency analysis method, it is an extremely small value of 0.01. Although not particularly shown, when the size of the object is as large as 32 pixels × 32 pixels, the result that the variance σ 2 increases logarithmically is obtained.

このように、本周波数解析手法を適用した動き推定装置は、2方向の速度を有する物体の移動についての正確な時空間スペクトルを得るためにも有益であることがわかる。   Thus, it can be seen that the motion estimation apparatus to which the present frequency analysis method is applied is also useful for obtaining an accurate spatio-temporal spectrum for the movement of an object having a velocity in two directions.

[第3の検証]
つぎに、同時に移動する2つの物体を含む動画像の例として、図11に示すように、初期フレームの左下及び右下にある黒い正方形状の2つの物体a,bが、それぞれ、時間の進行にともない、分解能に一致していない異なる速度で右上及び左上に移動するような動画像を考えた。なお、動画像のサイズは、(N×N×N)=(64×64×64)であり、物体の大きさは、8ピクセル×8ピクセルである。
[Third verification]
Next, as an example of a moving image including two objects moving at the same time, as shown in FIG. 11, two black square objects a and b at the lower left and lower right of the initial frame are respectively timed. Along with this, we considered moving images that move to the upper right and upper left at different speeds that do not match the resolution. Note that the size of the moving image is (N x × N y × N z ) = (64 × 64 × 64), and the size of the object is 8 pixels × 8 pixels.

図12及び図13に、それぞれ、3次元周波数領域において3次元FFT及び本周波数解析手法を用いて求めた時空間スペクトルを示す。   12 and 13 show the spatio-temporal spectra obtained using the three-dimensional FFT and the present frequency analysis method in the three-dimensional frequency domain, respectively.

図12から、3次元FFTによる時空間スペクトルは、分解能が不十分であり、スペクトルを正確に抽出することができないため、分解能に一致していない速度で移動している物体を含む動画像の場合には、スペクトルのエネルギーが理想とする場所の周囲に漏れてしまい、平面が積層して厚みを有する層のようなスペクトル分布となることがわかる。このような層状のスペクトル分布が得られた場合には、これらのスペクトルを分離して平面を推定することが困難となる。すなわち、DFTやFFTに代表される等間隔の周波数分解能を有する解析手法においては、その等間隔の周波数に一致する周波数成分であれば正確なスペクトルを得ることができるものの、そうでない場合には正確なスペクトルを得ることができず、理論平面の周囲の周波数に群れたスペクトルが出現し、層状のスペクトル分布となってしまう。   From FIG. 12, the spatio-temporal spectrum obtained by the three-dimensional FFT has insufficient resolution, and cannot be extracted accurately. Therefore, in the case of a moving image including an object moving at a speed that does not match the resolution. It can be seen that the spectrum energy leaks around the ideal location, and the spectrum distribution is like a layer having a thickness in which the planes are stacked. When such a layered spectrum distribution is obtained, it is difficult to estimate the plane by separating these spectra. That is, in an analysis method having an equally spaced frequency resolution represented by DFT and FFT, an accurate spectrum can be obtained as long as the frequency component matches the equally spaced frequency. Spectrum cannot be obtained, and a spectrum swarmed at frequencies around the theoretical plane appears, resulting in a layered spectrum distribution.

一方、本周波数解析手法による時空間スペクトルは、図13に示すように、2つの物体に対応する2つの平面状に分布したものとなり、ばらつきもほとんどみられない。このような2つの平面は、上述したように、最小二乗法を用いて容易に推定することができる。図14に、2つの平面がよく観察できるように視点を変えて平面を描画した様子を示している。この図から、2つの平面が高精度に推定されていることがわかる。動き推定装置においては、推定した平面のf軸及びf軸の傾きをそれぞれ求めることにより、物体の横方向及び縦方向の速度を推定することができる。 On the other hand, the spatio-temporal spectrum obtained by this frequency analysis method is distributed in two planes corresponding to two objects as shown in FIG. 13, and there is almost no variation. Such two planes can be easily estimated using the least square method as described above. FIG. 14 shows a state where the plane is drawn by changing the viewpoint so that the two planes can be observed well. From this figure, it can be seen that the two planes are estimated with high accuracy. In the motion estimation device, the horizontal and vertical velocities of the object can be estimated by obtaining the inclinations of the estimated plane fx axis and fy axis, respectively.

なお、上述した3次元FFTによる時空間スペクトルにおける層状のスペクトル分布は、特に類似する複数の動きを含む動画像の場合に顕著にみられる。本願発明者は、このような類似する複数の動きを含む動画像における本周波数解析手法の有効性を確認する実験も行っている。   Note that the above-described layered spectrum distribution in the spatiotemporal spectrum by the three-dimensional FFT is particularly noticeable in the case of a moving image including a plurality of similar motions. The inventor of the present application has also conducted an experiment for confirming the effectiveness of the present frequency analysis method in a moving image including a plurality of similar motions.

動画像のサイズを(N×N×N)=(64×64×64)とし、物体の大きさを8ピクセル×8ピクセルとした場合において、先に図8に示したように、初期フレームにおいて左下にある2つの黒い正方形状の物体が、時間の進行にともない縦横方向に均一な速度で右上に移動するような動画像を対象とした。2つの物体をa,bとすると、物体aの移動速度は、V=1.0ピクセル/フレーム、V=1.7ピクセル/フレームであり、物体bの移動速度は、V=1.0ピクセル/フレーム、V=2.3ピクセル/フレームである。すなわち、これら2つの物体a,bは、同じ場所を始点とし、時間の進行とともに、右上方向に移動しながら徐々に高さ方向に離間していく動きをするものである。なお、スペクトルの振幅は、全てのスペクトルが0dBよりも大きくなるように最大値を28dBに設定した。 When the size of the moving image is (N x × N y × N z ) = (64 × 64 × 64) and the size of the object is 8 pixels × 8 pixels, as shown in FIG. A moving image in which two black square-shaped objects at the lower left in the initial frame move to the upper right at a uniform speed in the vertical and horizontal directions as time progresses was targeted. Assuming that two objects are a and b, the moving speed of the object a is V x = 1.0 pixel / frame, V y = 1.7 pixels / frame, and the moving speed of the object b is V x = 1. 0.0 pixels / frame, V y = 2.3 pixels / frame. That is, these two objects a and b start from the same place and move gradually away from each other in the height direction while moving in the upper right direction as time progresses. The maximum amplitude of the spectrum was set to 28 dB so that all the spectra were larger than 0 dB.

3次元FFT及び本周波数解析手法の双方とも200本のスペクトルを用いて分布を求めたところ、それぞれ、図15及び図16に示すような結果が得られた。そして、この結果から推定した平面の傾き、すなわち、物体a,bのそれぞれの移動速度を求めると、3次元FFTの場合には、
物体aについて、V=1.0、V=1.8545
物体bについて、V=1.0、V=1.5484
が得られたのに対して、本周波数解析手法の場合には、
物体aについて、V=0.99994、V=1.7211
物体bについて、V=0.98712、V=2.3108
が得られた。すなわち、3次元FFTを用いた場合には、縦方向の移動速度Vの精度が悪く、本周波数解析手法を用いた場合には極めて高精度に動きを推定していることがわかる。
In both the three-dimensional FFT and the present frequency analysis method, distributions were obtained using 200 spectra, and the results shown in FIGS. 15 and 16 were obtained, respectively. Then, when the inclination of the plane estimated from this result, that is, the moving speeds of the objects a and b are obtained, in the case of the three-dimensional FFT,
For object a, V x = 1.0, V y = 1.8545
For object b, V x = 1.0, V y = 1.5484
In the case of this frequency analysis method,
For object a, V x = 0.99999, V y = 1.7211
For object b, V x = 0.98712, V y = 2.3108
was gotten. That is, it can be seen that when the three-dimensional FFT is used, the accuracy of the moving speed V y in the vertical direction is poor, and when the frequency analysis method is used, the motion is estimated with extremely high accuracy.

同様に、物体aの移動速度を、V=1.0ピクセル/フレーム、V=2.3ピクセル/フレームに変化させ、物体bの移動速度を、V=1.7ピクセル/フレーム、V=3.2ピクセル/フレームに変化させて同様にスペクトル分布を求めた。ここでも、スペクトルの振幅は、全てのスペクトルが0dBよりも大きくなるように最大値を28dBに設定した。 Similarly, the moving speed of the object a is changed to V x = 1.0 pixel / frame and V y = 2.3 pixels / frame, and the moving speed of the object b is changed to V x = 1.7 pixel / frame, The spectrum distribution was obtained in the same manner while changing to V y = 3.2 pixels / frame. Again, the maximum value of the spectrum amplitude was set to 28 dB so that all the spectra were larger than 0 dB.

3次元FFTの場合には300本のスペクトル、本周波数解析手法の場合には200本のスペクトルを用いて分布を求めたところ、それぞれ、図17及び図18に示すような結果が得られた。そして、この結果から推定した平面の傾き、すなわち、物体a,bのそれぞれの移動速度を求めると、3次元FFTの場合には、
物体aについて、V=1.0034、V=2.1525
物体bについて、V=1.8053、V=3.5693
が得られたのに対して、本周波数解析手法の場合には、
物体aについて、V=1.0106、V=2.3116
物体bについて、V=1.7502、V=3.2304
が得られ、この場合にも、3次元FFTを用いた場合に比べ、本周波数解析手法を用いた場合の方が良好な結果が得られた。
When the distribution was obtained using 300 spectra in the case of the three-dimensional FFT and 200 spectra in the case of this frequency analysis method, the results shown in FIGS. 17 and 18 were obtained, respectively. Then, when the inclination of the plane estimated from this result, that is, the moving speeds of the objects a and b are obtained, in the case of the three-dimensional FFT,
For object a, V x = 1.0034, V y = 2.1525
For object b, V x = 1.8053, V y = 3.5693
In the case of this frequency analysis method,
For object a, V x = 1.0106, V y = 2.3116
For object b, V x = 1.7502, V y = 3.2304
In this case as well, a better result was obtained when this frequency analysis method was used than when a three-dimensional FFT was used.

このように、本周波数解析手法を適用した動き推定装置は、類似する複数の動きを含む動画像における動き推定を行う場合にも極めて有効である。   As described above, the motion estimation apparatus to which the present frequency analysis method is applied is extremely effective when performing motion estimation in a moving image including a plurality of similar motions.

[第4の検証]
つぎに、同時に移動する3つの物体を含む動画像の例として、図19に示すように、初期フレームの右上、左下及び右下にある黒い正方形状の3つの物体a,b,cが、それぞれ、時間の進行にともない、異なる速度で左下、右上及び左上に移動するような動画像を考えた。なお、動画像のサイズは、(N×N×N)=(64×64×64)であり、物体の大きさは、8ピクセル×8ピクセルである。また、物体aの移動速度は、V=−1.0ピクセル/フレーム、V=−1.0ピクセル/フレームであり、物体bの移動速度は、V=1.3ピクセル/フレーム、V=2.7ピクセル/フレームであり、物体cの移動速度は、V=−3.3ピクセル/フレーム、V=2.5ピクセル/フレームである。このような動画像について、本周波数解析手法を用いて時空間スペクトルを求め、使用するスペクトルの本数を変えながら平面を推定した。
[Fourth verification]
Next, as an example of a moving image including three objects that move at the same time, as shown in FIG. 19, three black square objects a, b, and c on the upper right, lower left, and lower right of the initial frame are respectively We considered moving images that move to the lower left, upper right, and upper left at different speeds as time progresses. Note that the size of the moving image is (N x × N y × N z ) = (64 × 64 × 64), and the size of the object is 8 pixels × 8 pixels. The moving speed of the object a is V x = −1.0 pixel / frame and V y = −1.0 pixel / frame, and the moving speed of the object b is V x = 1.3 pixel / frame, V y = 2.7 pixels / frame, and the moving speed of the object c is V x = −3.3 pixels / frame and V y = 2.5 pixels / frame. For such a moving image, the spatio-temporal spectrum was obtained using this frequency analysis method, and the plane was estimated while changing the number of spectra to be used.

まず、100本のスペクトルを用いた場合には、図20に示すような結果が得られ、推定した3つの平面の傾き、すなわち、物体a,b,cのそれぞれの移動速度は、
物体aについて、V=−1.0038、V=−1.0016
物体bについて、V=1.2353、V=2.6933
が得られたが、物体cの移動速度については、スペクトルの本数が少なく求めることができなかった。
First, when 100 spectra are used, a result as shown in FIG. 20 is obtained, and the estimated inclinations of the three planes, that is, the moving speeds of the objects a, b, and c are as follows.
For object a, V x = -1.0038, V y = -1.0016
For object b, V x = 1.2353, V y = 2.6933
However, the moving speed of the object c cannot be obtained because the number of spectra is small.

また、125本のスペクトルを用いた場合には、図21に示すような結果が得られ、物体a,b,cのそれぞれの移動速度は、
物体aについて、V=−1.0038、V=−1.0024
物体bについて、V=1.2593、V=2.7166
物体cについて、V=−3.2332、V=2.452
が得られた。
Further, when 125 spectra are used, a result as shown in FIG. 21 is obtained, and the moving speeds of the objects a, b, and c are as follows.
For object a, V x = -1.0038, V y = -1.0024
For object b, V x = 1.2593, V y = 2.7166
For object c, V x = −3.2332, V y = 2.452
was gotten.

さらに、160本のスペクトルを用いた場合には、図22に示すような結果が得られ、物体a,b,cのそれぞれの移動速度は、
物体aについて、V=−1.0053、V=−1.0015
物体bについて、V=1.2948、V=2.7012
物体cについて、V=−3.2897、V=2.4594
が得られた。
Furthermore, when 160 spectra are used, a result as shown in FIG. 22 is obtained, and the moving speeds of the objects a, b, and c are as follows.
For object a, V x = −1.0053, V y = −1.0015
For object b, V x = 1.2948, V y = 2.7012.
For object c, V x = −3.2897, V y = 2.4594
was gotten.

さらにまた、180本のスペクトルを用いた場合には、図23に示すような結果が得られ、物体a,b,cのそれぞれの移動速度は、
物体aについて、V=−1.003、V=−1.0013
物体bについて、V=1.3085、V=2.6974
物体cについて、V=−3.2906、V=2.4561
が得られた。
Furthermore, when 180 spectra are used, the result shown in FIG. 23 is obtained, and the moving speeds of the objects a, b, and c are as follows.
For object a, V x = −1.003, V y = −1.0013
For object b, V x = 1.3085, V y = 2.6974
For object c, V x = −3.2906, V y = 2.4561
was gotten.

また、200本のスペクトルを用いた場合には、図24に示すような結果が得られ、物体a,b,cのそれぞれの移動速度は、
物体aについて、V=−1.0024、V=−1.0008
物体bについて、V=1.3104、V=2.7007
物体cについて、V=−3.2874、V=2.4595
が得られた。
In addition, when 200 spectra are used, the result shown in FIG. 24 is obtained, and the moving speeds of the objects a, b, and c are as follows.
For object a, V x = -1.0024, V y = -1.0008
For object b, V x = 1.3104, V y = 2.7007
For object c, V x = −3.2874, V y = 2.4595
was gotten.

さらに、225本のスペクトルを用いた場合には、図25に示すような結果が得られ、物体a,b,cのそれぞれの移動速度は、
物体aについて、V=−1.0023、V=−1.0011
物体bについて、V=1.3093、V=2.6994
物体cについて、V=−3.2998、V=2.4494
が得られた。
Furthermore, when 225 spectra are used, the result shown in FIG. 25 is obtained, and the moving speeds of the objects a, b, and c are as follows.
For object a, V x = −1.0023, V y = −1.0011
For object b, V x = 1.3093, V y = 2.6994
For object c, V x = −3.2998, V y = 2.4494
was gotten.

そして、250本のスペクトルを用いた場合には、図26に示すような結果が得られ、物体a,b,cのそれぞれの移動速度は、
物体aについて、V=−1.0019、V=−1.001
物体bについて、V=1.3091、V=2.683
物体cについて、V=−3.2756、V=2.4747
が得られた。
When 250 spectra are used, the result shown in FIG. 26 is obtained, and the moving speeds of the objects a, b, and c are as follows.
For object a, V x = −1.0019, V y = −1.001
For object b, V x = 1.3091, V y = 2.683
For object c, V x = −3.2756, V y = 2.4747
was gotten.

すなわち、本周波数解析手法を適用した動き推定装置の精度は、時空間スペクトルの本数に依存し、図19に示した動画像の場合には、約180本程度の時空間スペクトルを用いれば、十分な精度を実現できることがわかる。なお、この十分な精度を実現可能な時空間スペクトルの本数は、移動物体の速度や移動方向等、動画像の内容によって異なる。換言すれば、動き推定装置においては、動画像に応じて適切な時空間スペクトルを用いることにより、演算量を削減しながらも高精度に動き推定を行うことが可能である。   That is, the accuracy of the motion estimation apparatus to which this frequency analysis method is applied depends on the number of spatiotemporal spectra, and in the case of the moving image shown in FIG. 19, it is sufficient to use about 180 spatiotemporal spectra. It can be seen that high accuracy can be realized. Note that the number of spatio-temporal spectra that can achieve this sufficient accuracy differs depending on the content of the moving image, such as the speed and moving direction of the moving object. In other words, in the motion estimation device, it is possible to perform motion estimation with high accuracy while reducing the amount of computation by using an appropriate spatiotemporal spectrum according to the moving image.

[第5の検証]
つぎに、移動しない背景がある動画像の前景としての物体が移動する場合の例として、図27に示すように、初期フレームの左下にある黒い正方形状の物体が時間の進行にともない、右上に移動するような動画像を考えた。なお、動画像のサイズは、(N×N×N)=(64×64×64)であり、物体の大きさは、8ピクセル×8ピクセルであり、物体の移動速度は、V=V=3.3ピクセル/フレームである。また、背景は、所定の繰り返しパターンから構成されている。具体的には、背景は、振幅A=128(0〜255)、位相φ=0、周波数f=8、f=0、f=1のパターンと、振幅A=128(0〜255)、位相φ=0、周波数f=0、f=8、f=1のパターンとから構成されている。このような動画像について、3次元FFT及び本周波数解析手法のそれぞれを用いて時空間スペクトルを求め、平面を推定した。なお、スペクトルの振幅は、全てのスペクトルが0dBよりも大きくなるように、3次元FFTの場合には最大値を25.07dB、本周波数解析手法の場合には22.75dBに設定した。
[Fifth verification]
Next, as an example of the case where an object as a foreground of a moving image with a background that does not move moves, as shown in FIG. 27, a black square object at the lower left of the initial frame moves to the upper right as time progresses. I thought about moving images. Note that the size of the moving image is (N x × N y × N z ) = (64 × 64 × 64), the size of the object is 8 pixels × 8 pixels, and the moving speed of the object is V x = Vy = 3.3 pixels / frame. The background is composed of a predetermined repeating pattern. Specifically, the background is a pattern of amplitude A = 128 (0-255), phase φ = 0, frequency f x = 8, f y = 0, f z = 1, and amplitude A = 128 (0-255). ), A pattern of phase φ = 0, frequency f x = 0, f y = 8, and f z = 1. For such a moving image, a space-time spectrum was obtained using each of the three-dimensional FFT and the present frequency analysis method, and the plane was estimated. Note that the maximum value of the spectrum amplitude was set to 25.07 dB in the case of the three-dimensional FFT, and 22.75 dB in the case of this frequency analysis method, so that all the spectra were larger than 0 dB.

まず、3次元FFTによる101本の時空間スペクトルの分布を求めると、図28に示すように、背景のパターンの影響を受けて断続的な分布が得られた。そして、この結果から、上述した閾値εを変化させながら物体の移動速度を求めると、
閾値ε=0.1の場合、V=3.4697、V=3.4697
閾値ε=0.2の場合、V=3.3824、V=3.3824
閾値ε=0.3〜0.5の場合、V=3.2857、V=3.2857
といったように、閾値εにかかわらず誤差が大きい結果が得られた。
First, when the distribution of 101 spatio-temporal spectra by three-dimensional FFT was obtained, an intermittent distribution was obtained under the influence of the background pattern as shown in FIG. From this result, when the moving speed of the object is obtained while changing the threshold value ε described above,
When the threshold ε = 0.1, V x = 3.4697, V y = 3.4697
When the threshold ε = 0.2, V x = 3.3824, V y = 3.3824
When the threshold ε = 0.3 to 0.5, V x = 3.2857, V y = 3.2857
As described above, a result with a large error was obtained regardless of the threshold value ε.

一方、本周波数解析手法による100本の時空間スペクトルの分布を求めると、図29に示すように、背景のパターンにかかわらず連続的な分布が得られた。そして、この結果から、上述した閾値εを変化させながら物体の移動速度を求めると、
閾値ε=0.1の場合、V=3.3093、V=3.3033
閾値ε=0.2の場合、V=3.306、V=3.3053
閾値ε=0.3〜0.5の場合、V=3.3037、V=3.3031
といったように、誤差が極めて小さい結果が得られた。
On the other hand, when the distribution of 100 spatio-temporal spectra obtained by this frequency analysis method was obtained, a continuous distribution was obtained regardless of the background pattern as shown in FIG. From this result, when the moving speed of the object is obtained while changing the threshold value ε described above,
When the threshold ε = 0.1, V x = 3.3093 and V y = 3.3033
When the threshold ε = 0.2, V x = 3.306, V y = 3.3053
When the threshold ε = 0.3 to 0.5, V x = 3.3037, V y = 3.3303
As described above, a result with extremely small error was obtained.

このように、本周波数解析手法を適用した動き推定装置は、背景の影響を受けにくく、高精度に動き推定を行うことが可能である。   Thus, the motion estimation apparatus to which the present frequency analysis method is applied is not easily affected by the background, and can perform motion estimation with high accuracy.

[第6の検証]
つぎに、カラーの動画像において前景が移動する場合の例として、図30に示すように、人物が左方から右方に移動するような動画像を考えた。なお、動画像のサイズは、(N×N×N)=(64×64×64)であり、人物の移動速度は、V=1.641ピクセル/フレームである。また、動画像は、所定の温度分布からなる環境において撮像した熱画像から構成されている。このような動画像について、3次元FFT及び本周波数解析手法のそれぞれを用いて時空間スペクトルを求め、平面を推定した。なお、スペクトルの振幅は、全てのスペクトルが0dBよりも大きくなるように、3次元FFTの場合には最大値を19.4dB、本周波数解析手法の場合には22.58dBに設定した。
[Sixth verification]
Next, as an example of the case where the foreground moves in a color moving image, a moving image in which a person moves from left to right as shown in FIG. 30 was considered. Note that the size of the moving image is (N x × N y × N z ) = (64 × 64 × 64), and the moving speed of the person is V x = 1.641 pixels / frame. The moving image is composed of a thermal image captured in an environment having a predetermined temperature distribution. For such a moving image, a space-time spectrum was obtained using each of the three-dimensional FFT and the present frequency analysis method, and the plane was estimated. Note that the maximum value of the spectrum amplitude was set to 19.4 dB in the case of the three-dimensional FFT, and 22.58 dB in the case of the present frequency analysis method, so that all the spectra were larger than 0 dB.

まず、3次元FFTによる101本の時空間スペクトルの分布を求めると、図31に示すような結果が得られ、この結果から、上述した閾値εを変化させながら人物の移動速度を求めると、
閾値ε=0.4の場合、V=1.4838
閾値ε=0.5の場合、V=1.5732
といったように、閾値εにかかわらず誤差が大きい結果が得られた。
First, when the distribution of 101 spatio-temporal spectra by three-dimensional FFT is obtained, a result as shown in FIG. 31 is obtained. From this result, the movement speed of the person is obtained while changing the threshold value ε described above.
When the threshold ε = 0.4, V x = 1.4838
When the threshold ε = 0.5, V x = 1.5732
As described above, a result with a large error was obtained regardless of the threshold value ε.

一方、本周波数解析手法による100本の時空間スペクトルの分布を求めると、図32に示すような結果が得られ、この結果から、上述した閾値εを変化させながら人物の移動速度を求めると、
閾値ε=0.4の場合、V=1.6452
閾値ε=0.5の場合、V=1.7027
といったように、誤差が極めて小さい結果が得られた。
On the other hand, when the distribution of 100 spatio-temporal spectra obtained by this frequency analysis method is obtained, the result shown in FIG. 32 is obtained. From this result, when the moving speed of the person is obtained while changing the threshold value ε,
When the threshold ε = 0.4, V x = 1.6452
When the threshold ε = 0.5, V x = 1.07027
As described above, a result with extremely small error was obtained.

このように、本周波数解析手法を適用した動き推定装置は、カラー動画像の場合にも高精度に動き推定を行うことが可能である。特に、動き推定装置においては、動画像に応じて適切な閾値εを用いることにより、動き推定の精度を向上させることができる。   As described above, the motion estimation apparatus to which the frequency analysis method is applied can perform motion estimation with high accuracy even in the case of a color moving image. In particular, in a motion estimation apparatus, the accuracy of motion estimation can be improved by using an appropriate threshold value ε according to a moving image.

[第7の検証]
つぎに、自然動画像に適用した場合の例として、図33に示すように、いわゆる「Coast
Guard」という標準動画像を用いた。この動画像は、前景であるボートはほとんど静止した状態であるが、カメラワークによって背景が左方に移動するように観察されるものである。この実験では、130フレーム目から161フレーム目までの32フレーム間におけるボートの移動量を推定した。
[Seventh verification]
Next, as an example when applied to a natural moving image, as shown in FIG.
A standard video called “Guard” was used. In this moving image, the boat which is the foreground is almost stationary, but is observed so that the background moves to the left by camera work. In this experiment, the amount of boat movement between 32 frames from the 130th frame to the 161st frame was estimated.

まず、3次元FFTによる時空間スペクトルの分布を求めると、図34に示すように、周波数f,fの低周波領域に誤差と思われるばらつきが顕著にみられた。一方、本周波数解析手法による100本の時空間スペクトルの分布を求めると、図35に示すように、ばらつきがほとんどみられない結果が得られた。そして、これらの結果から、最小二乗法を用いたクラスタリング法によって平面を推定すると、3次元FFT及び本周波数解析手法の場合についてそれぞれ図36及び図37に示す結果が得られた。求めた平面の傾きに基づいて速度を求めると、次表1に示す結果が得られた。 First, when obtaining the distribution of the spatial spectrum when by 3D FFT, as shown in FIG. 34, variation seems errors were observed conspicuously low frequency region of the frequency f x, f y. On the other hand, when the distribution of 100 spatio-temporal spectra obtained by the present frequency analysis method was obtained, as shown in FIG. From these results, when the plane was estimated by the clustering method using the least square method, the results shown in FIGS. 36 and 37 were obtained for the three-dimensional FFT and the present frequency analysis method, respectively. When the speed was obtained based on the obtained inclination of the plane, the results shown in the following table 1 were obtained.

Figure 0005467346
Figure 0005467346

3次元FFTの場合には、背景については一応推定ができていたが、その推定速度結果に誤差があり、また、ボートについては推定することができず、誤った速度を推定していることがわかる。一方、本周波数解析手法の場合には、誤差が小さいことが確認された。   In the case of 3D FFT, the background could be estimated, but there was an error in the estimated speed result, and the boat could not be estimated, and the wrong speed was estimated. Recognize. On the other hand, in the case of this frequency analysis method, it was confirmed that the error was small.

このように、本周波数解析手法を適用した動き推定装置は、自然動画像の場合にも高精度に動き推定を行うことが可能である。   As described above, the motion estimation apparatus to which the frequency analysis method is applied can perform motion estimation with high accuracy even in the case of a natural moving image.

[動き推定装置の効果]
以上説明したように、本周波数解析手法を適用した動き推定装置は、動画像符号化において動き補償や動き予測、補間といった処理を行う場合に、演算量を大幅に削減し且つ高精度に処理を行うことができる、したがって、この動き推定装置は、動画像内に含まれる物体の動きを推定・予測したり、フレーム補間等を行ったりする際に利用して好適である。
[Effect of motion estimation device]
As described above, the motion estimation apparatus to which the present frequency analysis method is applied performs processing such as motion compensation, motion prediction, and interpolation in moving image coding, and greatly reduces the amount of computation and performs processing with high accuracy. Therefore, this motion estimation apparatus is suitable for use when estimating / predicting the motion of an object included in a moving image, performing frame interpolation, or the like.

また、この動き推定装置は、動画像符号化に応用することにより、従来に比べて大幅な高圧縮化を図ることができる。さらに、この動き推定装置は、大規模な変更を加えることなく、処理の質的・量的変化に対応することができる、スケーラブルな符号化技術の開発に利用可能である。これにより、この動き推定装置は、昨今増加傾向にあるネットワークトラフィックの低減に貢献することができる。   In addition, this motion estimation device can be significantly compressed as compared with the prior art by applying it to video encoding. Furthermore, this motion estimation apparatus can be used for development of a scalable encoding technique that can cope with qualitative and quantitative changes in processing without adding a large-scale change. Thereby, this motion estimation apparatus can contribute to the reduction of the network traffic which is increasing recently.

なお、本発明は、上述した実施の形態に限定されるものではない。例えば、上述した実施の形態では、動き推定装置によってソフトウェアによる周波数解析を行うものとして説明したが、本発明は、本周波数解析手法を含む動き推定処理のアルゴリズムを実装したDSP(Digital Signal Processor)等、積和演算を行うことが可能であればハードウェアによっても実現することができる。   The present invention is not limited to the embodiment described above. For example, in the above-described embodiment, the description has been made on the assumption that the motion estimation apparatus performs frequency analysis by software. However, the present invention is a DSP (Digital Signal Processor) or the like that implements a motion estimation processing algorithm including the frequency analysis method. If the product-sum operation can be performed, it can be realized by hardware.

このように、本発明は、その趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。   Thus, it goes without saying that the present invention can be modified as appropriate without departing from the spirit of the present invention.

11 CPU
12 ROM
13 RAM
14 記憶部
15 入力操作制御部
16 表示部
11 CPU
12 ROM
13 RAM
14 storage unit 15 input operation control unit 16 display unit

Claims (3)

解析対象となる動画像データを、前記動画像データの3次元信号と、周波数及び初期位相を用いた位相と振幅とによって表される正弦波モデル信号との差の二乗和が最小値になるような前記周波数,前記振幅及び前記初期位相を、非周期信号のフーリエ変換式のパラメータとして求め、時空間スペクトルを抽出し、抽出された前記時空間スペクトル分布を、平面をなすスペクトル群毎に切り分けして1つ又は複数の平面群を推定し、推定された前記平面群の傾きを求めることで、前記動画像内の1つ又は複数の移動物体の動きを推定する動き推定方法であって、
前記時空間スペクトルに対して最小二乗法を用いたクラスタリングを行い、1つ又は複数の平面群を推定するに際し、前記時空間スペクトルが所定の平面に属するものとした場合の存在確率変数を1又は小数に設定し、最小二乗法を用いたクラスタリングを行うことを特徴とする動き推定方法。
The moving image data to be analyzed is such that the sum of squares of the difference between the three-dimensional signal of the moving image data and the sinusoidal model signal represented by the phase and amplitude using the frequency and the initial phase becomes a minimum value. The frequency, the amplitude, and the initial phase are obtained as parameters of a Fourier transform formula of an aperiodic signal, a spatiotemporal spectrum is extracted, and the extracted spatiotemporal spectrum distribution is divided for each spectrum group forming a plane. A motion estimation method for estimating the motion of one or a plurality of moving objects in the moving image by estimating one or a plurality of plane groups and obtaining an inclination of the estimated plane group,
Clustering using the least squares method is performed on the spatiotemporal spectrum, and when estimating one or a plurality of plane groups, the existence probability variable when the spatiotemporal spectrum belongs to a predetermined plane is set to 1 or A motion estimation method, characterized in that it is set to a decimal number and clustering is performed using the least squares method.
解析対象となる動画像データを入力する動画像入力手段と、入力された前記動画像データの3次元信号と、周波数及び初期位相を用いた位相と振幅とによって表される正弦波モデル信号との差の二乗和が最小値になるような前記周波数,前記振幅及び前記初期位相を、非周期信号のフーリエ変換式のパラメータとして求め、時空間スペクトルを抽出する時空間スペクトル抽出手段と、抽出された前記時空間スペクトル分布を、平面をなすスペクトル群毎に切り分けして1つ又は複数の平面群を推定する平面推定手段と、推定された前記平面群の傾きを求める傾き算出手段とが備わっており、前記動画像内の1つ又は複数の移動物体の動きを推定する動き推定装置であって、
前記時空間スペクトルに対して最小二乗法を用いたクラスタリングを行い、1つ又は複数の平面群を推定するに際し、前記時空間スペクトルが所定の平面に属するものとした場合の存在確率変数を1又は小数に設定し、最小二乗法を用いたクラスタリングを行う構成であることを特徴とする動き推定装置。
A moving image input means for inputting moving image data to be analyzed, a three-dimensional signal of the input moving image data, and a sine wave model signal represented by a phase and an amplitude using a frequency and an initial phase A spatio-temporal spectrum extracting means for extracting the spatiotemporal spectrum by obtaining the frequency, the amplitude and the initial phase such that the sum of squares of the difference is a minimum value as a parameter of a Fourier transform formula of the non-periodic signal; A plane estimation unit that estimates one or a plurality of plane groups by dividing the spatio-temporal spectrum distribution for each spectrum group that forms a plane, and an inclination calculation unit that calculates an inclination of the estimated plane group. A motion estimation device for estimating the motion of one or more moving objects in the moving image,
Clustering using the least squares method is performed on the spatiotemporal spectrum, and when estimating one or a plurality of plane groups, the existence probability variable when the spatiotemporal spectrum belongs to a predetermined plane is set to 1 or A motion estimation apparatus, characterized in that it is configured to perform clustering using a least-squares method set to a decimal number .
解析対象となる動画像データを入力する動画像入力手段と、入力された前記動画像データの3次元信号と、周波数及び初期位相を用いた位相と振幅とによって表される正弦波モデル信号との差の二乗和が最小値になるような前記周波数,前記振幅及び前記初期位相を、非周期信号のフーリエ変換式のパラメータとして求め、時空間スペクトルを抽出する時空間スペクトル抽出手段、前記時空間スペクトル分布を、平面をなすスペクトル群毎に切り分けして1つ又は複数の平面群を推定する平面推定手段、及び、推定された前記平面群の傾きを求める傾き算出手段としてコンピュータを機能させ、前記動画像内の1つ又は複数の移動物体の動きを推定するコンピュータ実行可能な動き推定プログラムであって、
前記時空間スペクトルに対して最小二乗法を用いたクラスタリングを行い、1つ又は複数の平面群を推定するに際し、前記時空間スペクトルが所定の平面に属するものとした場合の存在確率変数を1又は小数に設定し、最小二乗法を用いたクラスタリングを行うことを特徴とする動き推定プログラム。
A moving image input means for inputting moving image data to be analyzed, a three-dimensional signal of the input moving image data, and a sine wave model signal represented by a phase and an amplitude using a frequency and an initial phase A spatio-temporal spectrum extraction means for extracting the spatiotemporal spectrum by obtaining the frequency, the amplitude and the initial phase at which the sum of squares of the differences becomes a minimum value as a parameter of a Fourier transform formula of the aperiodic signal, and the spatiotemporal spectrum A computer is caused to function as plane estimation means for estimating one or a plurality of plane groups by dividing the distribution for each spectrum group forming a plane, and an inclination calculation means for obtaining an inclination of the estimated plane group, A computer-executable motion estimation program for estimating the motion of one or more moving objects in an image,
Clustering using the least squares method is performed on the spatiotemporal spectrum, and when estimating one or a plurality of plane groups, the existence probability variable when the spatiotemporal spectrum belongs to a predetermined plane is set to 1 or A motion estimation program that is set to a decimal number and performs clustering using the least squares method .
JP2009298796A 2009-09-11 2009-12-28 Motion estimation method, motion estimation device, and motion estimation program Expired - Fee Related JP5467346B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009298796A JP5467346B2 (en) 2009-09-11 2009-12-28 Motion estimation method, motion estimation device, and motion estimation program

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009210991 2009-09-11
JP2009210991 2009-09-11
JP2009298796A JP5467346B2 (en) 2009-09-11 2009-12-28 Motion estimation method, motion estimation device, and motion estimation program

Publications (2)

Publication Number Publication Date
JP2011081761A JP2011081761A (en) 2011-04-21
JP5467346B2 true JP5467346B2 (en) 2014-04-09

Family

ID=44075725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009298796A Expired - Fee Related JP5467346B2 (en) 2009-09-11 2009-12-28 Motion estimation method, motion estimation device, and motion estimation program

Country Status (1)

Country Link
JP (1) JP5467346B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6560137B2 (en) * 2016-02-08 2019-08-14 Kddi株式会社 Concentration estimation device
JP7005872B2 (en) * 2018-01-30 2022-01-24 株式会社竹中工務店 Convergence calculation support device, convergence calculation support method, and convergence calculation support program
JP7642392B2 (en) 2021-02-17 2025-03-10 日本無線株式会社 Radar speed calculation device and radar speed calculation program
CN116679080B (en) * 2023-05-30 2024-10-01 广州伏羲智能科技有限公司 River surface flow velocity determining method and device and electronic equipment

Also Published As

Publication number Publication date
JP2011081761A (en) 2011-04-21

Similar Documents

Publication Publication Date Title
Shao et al. Remote sensing image super-resolution using sparse representation and coupled sparse autoencoder
CN110361778B (en) Seismic data reconstruction method based on generation countermeasure network
CN104599292B (en) A Noise Resistant Moving Object Detection Algorithm Based on Low Rank Matrix Factorization
Huang et al. Compressed magnetic resonance imaging based on wavelet sparsity and nonlocal total variation
CN102136144B (en) Image registration reliability model and reconstruction method of super-resolution image
US20100274511A1 (en) Signal analysis method, signal analysis device and signal analysis program
CN110830043B (en) An Image Compressive Sensing Reconstruction Method Based on Hybrid Weighted Total Variation and Nonlocal Low Rank
CN110135344B (en) Infrared dim target detection method based on weighted fixed rank representation
Park 2D discrete Fourier transform on sliding windows
CN101141560A (en) Denoising Method of Synthetic Aperture Radar Image Based on Independent Component Analysis Base Image
Cui et al. A new fault diagnosis of rolling bearing on FFT image coding and L-CNN
JP5467346B2 (en) Motion estimation method, motion estimation device, and motion estimation program
Wang et al. Semi-NMF-based reconstruction for hyperspectral compressed sensing
Fahmy et al. Micro‐movement magnification in video signals using complex wavelet analysis
Luo et al. Efficient InSAR phase noise reduction via total variation regularization
Payan et al. Mean square error approximation for wavelet-based semiregular mesh compression
Ueda et al. Motion analysis using 3D high-resolution frequency analysis
Khodakarami et al. Mitigating spectral bias in neural operators via high-frequency scaling for physical systems
Wang et al. Bayesian continuous wavelet transform for time-varying damping identification of cables using full-field measurement
CN113435487B (en) Deep learning-oriented multi-scale sample generation method
CN116295790B (en) Frequency detection method and system based on inter-frame phase difference of bridge inhaul cable characteristic region
CN102880878B (en) Single-image-based super-resolution analytical method and system
JP5198500B2 (en) Signal processing apparatus and program
Yasuda et al. Theory of Super-Resolution Data Assimilation with Conditional Variational Autoencoders: Using Super-Resolution Operators as Background Error Covariance Matrices
Zhou et al. Super-resolution reconstruction of plane-wave ultrasound imaging based on the improved CNN method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130910

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140106

R150 Certificate of patent or registration of utility model

Ref document number: 5467346

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees