JP2021103519A - Method and system for normalizing smoothing feature of time space for behavior recognition - Google Patents
Method and system for normalizing smoothing feature of time space for behavior recognition Download PDFInfo
- Publication number
- JP2021103519A JP2021103519A JP2020213564A JP2020213564A JP2021103519A JP 2021103519 A JP2021103519 A JP 2021103519A JP 2020213564 A JP2020213564 A JP 2020213564A JP 2020213564 A JP2020213564 A JP 2020213564A JP 2021103519 A JP2021103519 A JP 2021103519A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- frequency component
- computer system
- low frequency
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000009499 grossing Methods 0.000 title abstract description 5
- 238000010606 normalization Methods 0.000 claims description 78
- 238000011176 pooling Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 description 19
- 230000006399 behavior Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 240000008005 Crotalaria incana Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
Description
以下の説明は、行動認識(action recognition)のためのフィーチャ正規化技術に関する。 The following description relates to a feature normalization technique for action recognition.
知能型ビデオ監視システムのような保安関連分野、人間との相互交流実行能力を備える知能型ロボット、知能型家電製品などのような多くの分野において、人間の行動認識技術が適用されている。 Human behavior recognition technology is applied in many fields such as security-related fields such as intelligent video surveillance systems, intelligent robots capable of executing mutual exchange with humans, and intelligent home appliances.
例えば、特許文献1(登録日2015年10月20日)には、キネクトを利用して行動認識に必要なデータを抽出した後、このデータを階層化して特徴を学習することにより、映像から行動を認識する技術が開示されている。 For example, in Patent Document 1 (registration date: October 20, 2015), after extracting data necessary for behavior recognition using Kinect, the data is layered and features are learned to act from the video. The technology for recognizing is disclosed.
3D畳み込みニューラルネットワーク(3D Convolution Neural Network)は、行動認識分野で広く使用されている。3D畳み込みニューラルネットワークは、時空間ストリームを処理するために追加の次元がある2D畳み込みニューラルネットワーク(2D Conv Net)で拡張されたものであり、大規模イメージ認識データセットに対して訓練された2Dカーネルを膨らませて画像ドメインで学習された知識を活用する。 3D convolutional neural networks (3D Convolutional Neural Networks) are widely used in the field of behavior recognition. A 3D convolutional neural network is an extension of a 2D convolutional neural network (2D Conv Net) that has additional dimensions to handle spatiotemporal streams, and is a 2D kernel trained for large image recognition datasets. Inflate and utilize the knowledge learned in the image domain.
3D畳み込みニューラルネットワーク(3D Conv Net)の過剰適合(over fitting)の問題を解決するために、簡単かつ効率的な正規化方法を提供することができる。 A simple and efficient normalization method can be provided to solve the problem of overfitting of a 3D convolutional neural network (3D Conv Net).
フィーチャの低周波成分(low−frequency component)の大きさ(magnitude)をランダムに変化させて内部表現(internal representation)を正規化するランダム平均スケーリング(RMS:random mean scaling)を適用することができる。 Random mean scaling (RMS) that normalizes the internal representation by randomly changing the magnitude of the low-frequency component of the feature can be applied.
コンピュータシステムが実行するフィーチャ正規化(feature regularization)方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記フィーチャ正規化方法は、前記少なくとも1つのプロセッサにより、入力フィーチャから低周波成分を求める段階、前記少なくとも1つのプロセッサにより、前記入力フィーチャと前記低周波成分との残差(residual)を利用して高周波成分を求める段階、および前記少なくとも1つのプロセッサにより、前記低周波成分にノイズを追加する段階を含むフィーチャ正規化方法を提供する。 A feature normalization method performed by a computer system, wherein the computer system includes at least one processor configured to execute a computer-readable instruction contained in memory, said feature normalization. The method is a step of obtaining a low frequency component from an input feature by the at least one processor, and a high frequency component is obtained by using the residual (residual) between the input feature and the low frequency component by the at least one processor. Provided is a feature normalization method comprising a step and a step of adding noise to the low frequency component by the at least one processor.
一側面によると、前記低周波成分を求める段階は、ローパスフィルタを利用して前記入力フィーチャから前記低周波成分を分離してよい。 According to one aspect, in the step of obtaining the low frequency component, the low frequency component may be separated from the input feature by using a low-pass filter.
他の側面によると、前記低周波成分を求める段階は、平均プーリング(average pooling)またはガウシアンフィルタ(Gaussian filter)を利用して前記入力フィーチャから前記低周波成分を分離してよい。 According to another aspect, the step of determining the low frequency component may utilize an average pooling or a Gaussian filter to separate the low frequency component from the input feature.
また他の側面によると、前記ノイズを追加する段階は、前記入力フィーチャの局所的平均にランダムスケーリング(random scaling)を適用して前記ノイズを追加する段階を含んでよい。 According to another aspect, the step of adding the noise may include a step of applying random scaling to the local average of the input features to add the noise.
また他の側面によると、前記ノイズを追加する段階は、与えられた確率分布でサンプリングされたスカラーを乗じる演算により、前記低周波成分の大きさをランダムに変調する段階を含んでよい According to another aspect, the step of adding the noise may include a step of randomly modulating the magnitude of the low frequency component by an operation of multiplying a scalar sampled with a given probability distribution.
また他の側面によると、前記低周波成分に前記ノイズを追加するランダム平均スケーリングは、ネットワークモデルの残差分岐(residual branch)内に適用されてよい。 According to another aspect, the random average scaling that adds the noise to the low frequency component may be applied within the residual branch of the network model.
また他の側面によると、前記ランダム平均スケーリングは、前記ネットワークモデルの畳み込み層(convolution layer)、バッチ正規化層(batch normalization layer)、非線形活性化層(nonlinear activation layer)のうちの少なくとも1つの層の前に適用されてよい。 According to another aspect, the random average scaling is at least one layer of the convolution layer, batch normalization layer, and non-linear activation layer of the network model. May be applied before.
また他の側面によると、前記ネットワークモデルがベーシックブロック(basicblock)構造のネットワークの場合、前記ランダム平均スケーリングは、前記ネットワークモデルの一部のステージに含まれたすべてのバッチ正規化層の前にそれぞれ適用されてよい。 According to another aspect, when the network model is a network with a basic block structure, the random average scaling is performed before all the batch normalization layers included in some stages of the network model, respectively. May be applied.
さらに他の側面によると、前記ネットワークモデルがボトルネックブロック(bottleneck block)構造のネットワークの場合、前記ランダム平均スケーリングは、前記ネットワークモデルの一部のステージに含まれたバッチ正規化層のうちの最後のバッチ正規化層の前に適用されてよい。 According to yet another aspect, if the network model is a network with a bottleneck block structure, the random average scaling is the last of the batch normalization layers included in some stages of the network model. May be applied before the batch normalization layer of.
前記フィーチャ正規化方法を前記コンピュータシステムに実行させるために非一時なコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラムを提供する。 Provided is a computer program recorded on a non-transitory computer-readable recording medium for causing the computer system to perform the feature normalization method.
前記フィーチャ正規化方法をコンピュータに実行させるためのプログラムが記録されている、非一時なコンピュータ読み取り可能な記録媒体を提供する。 Provided is a non-transitory computer-readable recording medium in which a program for causing a computer to execute the feature normalization method is recorded.
コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、入力フィーチャから低周波成分を求め、前記入力フィーチャと前記低周波成分との残差を利用して高周波成分を求め、前記低周波成分にノイズを追加することを特徴とする、コンピュータシステムを提供する。 A computer system comprising at least one processor configured to execute a computer-readable instruction contained in memory, said at least one processor seeking a low frequency component from an input feature and with said input feature. Provided is a computer system characterized in that a high frequency component is obtained by utilizing a residual with the low frequency component and noise is added to the low frequency component.
本発明の実施形態によると、3D畳み込みニューラルネットワークの過剰適合の問題を解決するために、簡単かつ効率的な正規化方法を提供することができる。 According to an embodiment of the present invention, a simple and efficient normalization method can be provided to solve the problem of overfitting of a 3D convolutional neural network.
本発明の実施形態によると、フィーチャの低周波成分の大きさをランダムに変化させて内部表現を正規化するランダム平均スケーリング(RMS)により、3D残差ネットワーク(residual network)の過剰適合の問題を効果的に解決することができる。 According to an embodiment of the present invention, the problem of overfitting of a 3D residual network (residual neural network) is solved by random mean scaling (RMS) that randomly changes the magnitude of the low frequency component of the feature to normalize the internal representation. It can be solved effectively.
本発明の実施形態によると、低周波成分に対する摂動(perturbation)を適用することにより、フィーチャ全体や高周波成分に適用するよりも、3D畳み込みニューラルネットワークの正確度と正規化効果を向上させることができる。 According to an embodiment of the present invention, applying perturbation to a low frequency component can improve the accuracy and normalization effect of a 3D convolutional neural network as compared to applying it to an entire feature or high frequency component. ..
以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
本発明の実施形態は、行動認識のためのフィーチャ正規化技術に関する。 Embodiments of the present invention relate to feature normalization techniques for behavior recognition.
本明細書で具体的に開示される事項を含む実施形態は、フィーチャの低周波成分をランダムに変化させて内部表現を正規化するランダム平均スケーリング(RMS:Random Mean Scaling)によって簡単かつ効率的な正規化方法を提供することができ、これによって行動認識の正確度と正規化性能を向上させることができる。 The embodiments, including those specifically disclosed herein, are simple and efficient by random mean scaling (RMS), which randomly changes the low frequency components of the features to normalize the internal representation. A normalization method can be provided, which can improve the accuracy and normalization performance of behavior recognition.
図1は、本発明の一実施形態における、コンピュータシステムの例を示したブロック図である。例えば、本発明の実施形態に係るフィーチャ正規化システムは、図1に示したコンピュータシステム100によって実現されてよい。
FIG. 1 is a block diagram showing an example of a computer system according to an embodiment of the present invention. For example, the feature normalization system according to the embodiment of the present invention may be realized by the
図1に示すように、コンピュータシステム100は、本発明の実施形態に係るフィーチャ正規化方法を実行するための構成要素として、メモリ110、プロセッサ120、通信インタフェース130、および入力/出力インタフェース140を含んでよい。
As shown in FIG. 1, the
メモリ110は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ110とは区分される別の永続的記録装置としてコンピュータシステム100に含まれてもよい。また、メモリ110には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ110とは別のコンピュータ読み取り可能な記録媒体からメモリ110にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース130を通じてメモリ110にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク160を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータシステム100のメモリ110にロードされてよい。
The
プロセッサ120は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ110または通信インタフェース130によって、プロセッサ120に提供されてよい。例えば、プロセッサ120は、メモリ110のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信インタフェース130は、ネットワーク160を介してコンピュータシステム100が他の装置と互いに通信するための機能を提供してよい。一例として、コンピュータシステム100のプロセッサ120がメモリ110のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース130の制御にしたがってネットワーク160を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク160を経てコンピュータシステム100の通信インタフェース130を通じてコンピュータシステム100に受信されてよい。通信インタフェース130を通じて受信された信号や命令、データなどは、プロセッサ120やメモリ110に伝達されてよく、ファイルなどは、コンピュータシステム100がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
The
通信方式が限定されることはなく、ネットワーク160が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク160は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク160は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター−バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
The communication method is not limited, and not only the communication method using the communication network (for example, mobile communication network, wired Internet, wireless Internet, broadcasting network) that can be included in the
入力/出力インタフェース140は、入力/出力装置150とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、カメラ、またはマウスなどの装置を、出力装置は、ディスプレイやスピーカのような装置を含んでよい。他の例として、入力/出力インタフェース140は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置150は、コンピュータシステム100と1つの装置で構成されてもよい。
The input /
また、他の実施形態において、コンピュータシステム100は、図1の構成要素よりも少ない又は多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータシステム100は、上述した入力/出力装置150のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。
Also, in other embodiments, the
ビデオ行動認識分野において、深層ニューラルネットワーク(deep neural network,DNN)は、3D畳み込みフィルタ(convolution filter)を必要とする場合が多く、多数のパラメータによって過剰適合が発生する場合が多い。 In the field of video behavior recognition, deep neural networks (DNNs) often require a 3D convolution filter, and overfitting often occurs due to a large number of parameters.
DNNが直面している問題の1つである過剰適合は、3D畳み込みニューラルネットワーク(3D Conv Net)が時空間表現(spatio−temporal representation)をエンコードするのに選好されるアプローチであるビデオ行動認識分野においては、特に致命的である。 One of the problems facing DNN, overfitting, is the field of video behavior recognition, where 3D convolutional neural networks (3D Conv Net) are the preferred approach for encoding spatio-temporal representation. Is especially fatal.
3D畳み込みニューラルネットワークがビデオストリームを処理する能力を備えているにもかかわらず、多数のパラメータによってたびたび過度な問題に直面する。 Despite the ability of 3D convolutional neural networks to process video streams, many parameters often face excessive problems.
入力空間(input space)とフィーチャ空間(feature space)における正規化は、過剰適合の問題を緩和するための広く知られたアプローチであるが、過去の研究ではフィーチャに及ぼす影響がどこから始まるのかを動ずる方向(摂動方向,direction to perturb)を見逃している。 Normalization in the input space and the feature space is a well-known approach to alleviate the problem of overfitting, but previous studies have motivated where the effect on the feature begins. The direction of slippage (direction to perturb) is overlooked.
このような方向が正規化には極めて重要な要素であると仮定するため、どのような情報が行動認識の課題に重要となるかを分析する必要がある。 Since we assume that such a direction is a very important factor for normalization, it is necessary to analyze what kind of information is important for behavior recognition tasks.
図2は、フィーチャの低周波と高周波成分の大きさを変調する多様なスケーリング因子に対して3D畳み込みニューラルネットワークの正確度の変化を示した図である。図2によると、行動認識性能は、低周波よりも高周波成分により敏感であることが分かる。 FIG. 2 is a diagram showing changes in the accuracy of a 3D convolutional neural network with respect to various scaling factors that modulate the magnitude of the low and high frequency components of a feature. According to FIG. 2, it can be seen that the behavior recognition performance is more sensitive to the high frequency component than to the low frequency.
フィーチャに対する選択的摂動(perturbation)がネットワークを正規化する効果的な方法になるという点に基づき、本発明の実施形態では、ランダム平均スケーリング(RMS)を正規化方法として適用する。 Random mean scaling (RMS) is applied as a normalization method in embodiments of the present invention, based on the fact that selective perturbation on features is an effective way to normalize the network.
本発明の実施形態に係るランダム平均スケーリング(RMS)方法は、ランダムスカラーを時空間平滑化フィーチャに乗じて選択的に摂動を追加するものである。低周波情報を分離するために、イメージ処理で最も簡単なローパスフィルタ(low−pass filter)である3D平均フィルタ(殆どのディープラーニングで3D平均プーリング演算)を使用してよい。他の正規化方法と同じように、ランダム平均スケーリング(RMS)方法も、訓練(training)中に限って必要であり、推論(inference)中には追加作業は必要ない。 The Random Mean Scaling (RMS) method according to an embodiment of the present invention multiplies a random scalar by a spatiotemporal smoothing feature to selectively add perturbations. To separate low frequency information, a 3D averaging filter (3D averaging pooling operation in most deep learning), which is the simplest low-pass filter in image processing, may be used. Like other normalization methods, the Random Mean Scaling (RMS) method is required only during training and requires no additional work during inference.
先ず、行動認識と正規化について説明する。 First, behavior recognition and normalization will be described.
行動認識
3D畳み込みニューラルネットワークは、時空間ストリームを処理するために追加の次元がある2D畳み込みニューラルネットワーク(2D ConvNet)で拡張されたものであり、行動認識分野において広く利用されている。3D畳み込みニューラルネットワークは、大規模イメージ認識データセットに対して訓練された2Dカーネルを膨らませて画像ドメインで学習された知識を活用してよい。
The
しかし、3D畳み込みニューラルネットワークは、多数のパラメータを短所としている。このような問題を克服するために、3Dカーネルを2Dカーネルと1Dカーネルからなる階段式に分解してよい。一例として、3DフィルタをH−W、T−H、T−Wによって同時に適用することのできる2Dフィルタに分解し、次の段階に3D畳み込みフィルタだけを使用してよい。 However, 3D convolutional neural networks have many parameters as their disadvantages. In order to overcome such a problem, the 3D kernel may be decomposed into a stepped structure consisting of a 2D kernel and a 1D kernel. As an example, the 3D filter may be decomposed into 2D filters that can be applied simultaneously by HW, TH, TW, and only the 3D convolution filter may be used in the next step.
一方、一部の研究では多段階モデルを提案しており、周波数に応じて情報を個別に使用する。例えば、静的空間フィーチャの遅い分岐(slow branch)と動的モーションフィーチャのための早い分岐(fast branch)で構成された2つのストリームモデルを利用してよい。また、単一ストリームモデルで多重周波数信号を処理するために、オクターブ畳み込み(Octave convolution)を利用してよい。 On the other hand, some studies have proposed a multi-step model, which uses information individually according to frequency. For example, two stream models may be utilized that consist of a slow branch for static spatial features and a fast branch for dynamic motion features. Octave convolution may also be used to process multiple frequency signals in a single stream model.
グローバルへの依存性(global dependency)を捉えることは、行動認識モデルの改善のための他のアプローチであると言える。例えば、3D畳み込みニューラルネットワークの演算を減らすための方法として、非局所的モジュール(non−local module)を追加してよい。 Capturing global dependency is another approach to improving behavioral cognitive models. For example, a non-local module may be added as a method for reducing the number of operations of a 3D convolutional neural network.
正規化
正規化は、モデルの過剰適合を解消するのに効果的ではあるが、ビデオドメインでは画像ドメインに比べて研究が活発でなかった。画像ドメインでは主に、データ拡張(data augmentation)、重み減衰(weight decay)、ドロップアウト(dropout)、ラベル平滑化(label smoothing)、およびバッチ正規化(batch normalization)などの正規化技法が使用されている。
Normalization Normalization is effective in eliminating model overfitting, but it has been less active in the video domain than in the image domain. Image domains primarily use normalization techniques such as data augmentation, weight decay, dropout, label smoothing, and batch normalization. ing.
最近の研究では、ランダムオクルージョン(random occlusion)、画像補間(interpolating two images)または画像パッチ移植(transplanting an image patch onto another image)などの方法により、入力データ空間に対するデータ拡張を可能にする。 Recent studies have made it possible to extend data to the input data space by methods such as random interpolation, interpolating two images or transplating an image patch onto another image.
また、内部表現は、最近の研究では正規化とは別の対象となっている。Shake−Shake正規化技術は、2−分岐ResNetには適用することができない前方および後方演算にランダムにスケーリングされた分岐を追加することで、多重分岐ResNetを正規化する。また、確率論的深さ(stochastic depth)(言い換えれば、RandomDrop)技術は、メイン分岐(main branch)と連結する残差分岐とをランダムに切り換える。このような2つの技術を融合したShakedropは、Shake−Shakeとしてのランダムドロップ転換メカニズムを採択し、2−分岐ResNetとの互換も可能である。 Also, internal representation is a separate subject from normalization in recent studies. Shake-Shake normalization techniques normalize multi-branch ResNets by adding randomly scaled branches to forward and backward operations that are not applicable to 2-branch ResNets. Also, the stochastic depth (in other words, RandomDrop) technique randomly switches between a main branch and a residual branch connected to it. Shakedrop, which combines these two technologies, adopts a random drop conversion mechanism as Shake-Shake, and is compatible with 2-branched ResNet.
以下では、本発明の実施形態における、時空間平滑化フィーチャに対するランダムスケーリング方法について説明する。 Hereinafter, the random scaling method for the spatiotemporal smoothing feature in the embodiment of the present invention will be described.
ランダム平均スケーリング(RMS)
ランダムスケーリング(random scaling)は、畳み込みニューラルネットワークのいかなる階層にも適用可能な、簡単な正規化方法である。
Random mean scaling (RMS)
Random scaling is a simple normalization method that can be applied to any hierarchy of convolutional neural networks.
ランダムスケーリングは、与えられた確率分布(例えば、Gaussian)でサンプリングしたスカラーαを乗じてフィーチャの大きさをランダムに変調する方式である。 Random scaling is a method of randomly modulating the size of a feature by multiplying it by a scalar α sampled with a given probability distribution (eg, Gaussian).
本実施形態では、ランダムスケーリングをフィーチャに直接適用するのではなく、フィーチャの局所的平均(local mean)に適用する(ランダム平均スケーリング)。特に、ランダム平均スケーリング方法は、過剰適合を減らすために入力を周波数特徴(高周波成分と低周波成分)に分離し、低周波成分にノイズをランダムに追加する。 In this embodiment, random scaling is not applied directly to the features, but to the local mean of the features (random average scaling). In particular, the random average scaling method separates the inputs into frequency features (high frequency and low frequency components) to reduce overfitting and randomly adds noise to the low frequency components.
一般的に、画像において、高周波成分はエッジ(edge)情報を含んでいるが、これは分類(classification)に重要な情報であると言える。したがって、分類に重要となる高周波成分は変化させずに、低周波成分だけをランダムにスケーリングすることにより、正規化効果を向上させることができる。 Generally, in an image, the high frequency component contains edge information, which can be said to be important information for classification. Therefore, the normalization effect can be improved by randomly scaling only the low-frequency components without changing the high-frequency components that are important for classification.
入力から低周波成分を分離するためにローパスフィルタを使用してよく、一例として、平均プーリングまたはボックスフィルタ(box filter)やガウシアンフィルタなどが使用されてよい。 A low-pass filter may be used to separate the low frequency components from the input, for example, an average pooling or box filter, a Gaussian filter, or the like may be used.
局所的平均は、数式(1)のように計算されてよい。
ここで、xは入力フィーチャを意味し、Wiは現在のインデックスi周囲の3D局所的ウィンドウ(local window)を意味する。 Here, x denotes the input features, W i refers to 3D local window of the current index i surrounding the (local window).
入力フィーチャxは、数式(2)のように、平均x−と残差rに分離される。
ランダム平均スケーリングによる変調出力yは、数式(3)のように定義されてよい。
摂動は、訓練中に限って適用されてよい。αの確率分布の平均が1であれば、推論中はy=xとなる。 Perturbations may only be applied during training. If the average of the probability distributions of α is 1, then y = x during inference.
上述したランダム平均スケーリング方法は、畳み込み、バッチ正規化(BN:batch normalization)、非線形活性化(nonlinear activation)などのような階層のいかなるレベルにも適用可能である。 The random average scaling method described above is applicable to any level of hierarchy such as convolution, batch normalization (BN), nonlinear activation (nonlinear activation), and the like.
ネットワーク性能を向上させるためのランダム平均スケーリングの位置を決定してよい。また、局所的平均にランダムスケーリングを適用すれば、残差または入力全体にランダムスケーリングを適用するよりも性能を向上させることができる。局所的平均は入力の低周波成分として解説される反面、残差は残りの高周波成分を示す。 Random average scaling positions may be determined to improve network performance. Also, applying random scaling to the local mean can improve performance over applying random scaling to the residuals or the entire input. The local average is described as the low frequency component of the input, while the residual indicates the remaining high frequency component.
図2を参照しながら説明したように、高周波変調が性能を著しく低下させるため、ランダム平均スケーリングは、低周波に比べて高周波成分をより活用するようにモデルを生成するものと推定される。 As explained with reference to FIG. 2, since high frequency modulation significantly reduces performance, random average scaling is presumed to generate a model to make better use of high frequency components compared to low frequencies.
図3は、本発明の一実施形態における、ランダム平均スケーリングモジュール300を示した図である。ランダム平均スケーリングは、図3に示すように、いくつかの基本的演算を実行するネットワークモジュールによって実現されてよい。
FIG. 3 is a diagram showing a random
図3において、xは入力、x−は入力平均(mean)、rは残差、yは出力を示し、
は要素ごとの和(element−wise sum)の演算を示し、
は要素ごとの積(element−wise multiplication)の演算を示す。
In FIG. 3, x is the input, x − is the input mean, r is the residual, and y is the output.
Indicates the sum (element-wise sum) operation for each element.
Indicates an operation of the product (elent-wise multiplication) for each element.
図3では、説明の便宜のために、入力平均x−と残差rとが分離された構造のランダム平均スケーリングモジュール300を示した。数式(1)の局所的平均は、殆どのディープラーニングフレームワークで提供する3D平均プーリングによって求めることができ、数式(3)は図3のように示される。
In FIG. 3, for convenience of explanation, a random
実際の実現のためには、数式(2)を利用しながら数式(3)をより単純な形態に修正してよい(数式(4))。
ここで、α’=α−1である。 Here, α'= α-1.
図4には、ランダム平均スケーリングモジュールを実現するための単純化された形態を示しており、数式(4)に該当するランダム平均スケーリングモジュール300を示すブロック図を示している。
FIG. 4 shows a simplified form for realizing the random average scaling module, and shows a block diagram showing the random
ランダム平均スケーリングモジュール300は、上述したように、平均プーリングとスカラーとの乗算のように簡単な演算だけを必要とするため、パラメータがなく、訓練中には少量の追加演算だけを必要とし、さらに推論中に追加の演算を必要としない。
As mentioned above, the random
ランダム平均スケーリングによって効果が向上するネットワークの一例として、3D ResNet系列がある。例えば、SlowOnly、CSN(channel−separated convolutional network)などがこれに該当するが、SlowOnlyには、一般的な2D ResNetを3Dに確張した形態で3D畳み込みをres4とres5段階だけで使用するため時間軸による次元縮小がないという特徴があり、CSNは、light−weight(パラメータが少ない)3D ResNetであると言える。 An example of a network whose effect is improved by random average scaling is the 3D ResNet series. For example, SlowOnly, CSN (channel-separated parameter network), etc. correspond to this, but in SlowOnly, 3D convolution is used only in res4 and res5 stages in a form in which general 2D ResNet is firmly set in 3D. It can be said that the CSN is a light-weight (fewer parameters) 3D ResNet because there is no dimension reduction due to the axis.
ランダム平均スケーリングモジュール300は、残差分岐内のどの位置にも適用可能であり、例えば、畳み込み層やReLu層の前に位置してよい。
The random
一例として、図5は、ベーシックブロック構造のネットワークの例を示している。ベーシックブロック構造の場合、res4とres5段階に含まれたすべてのBN(バッチ正規化)層の前に、ランダム平均スケーリングモジュール300がそれぞれ追加されてよい。
As an example, FIG. 5 shows an example of a network having a basic block structure. In the case of the basic block structure, a random
他の例として、図6には、ボトルネックブロック構造のネットワークの例を示している。ボトルネックブロックの場合、res4とres5段階に含まれたBN(バッチ正規化)層のうちの最後のBN(バッチ正規化)層の前にランダム平均スケーリングモジュール300が追加されてよい。
As another example, FIG. 6 shows an example of a network having a bottleneck block structure. In the case of the bottleneck block, the random
ランダム平均スケーリングモジュール300は、各畳み込み層の前、各BN(バッチ正規化)層の前、各ReLU層の前のように、いかなるレベルにも適用可能である。最後のReLU層の前のランダム平均スケーリングモジュール300は、メイン分岐と残差分岐の合算の前に位置してよい。
The random
ランダム平均スケーリングモジュール300の各位置の正規化効果の実験結果は、図7に示すとおりである。
The experimental results of the normalization effect of each position of the random
図7で、SlowOnly−34に対してすべての可能な位置にランダム平均スケーリングモジュール300を追加した結果を詳察すると、ランダム平均スケーリングモジュール300が追加された位置による正規化効果の差は大きくないが、単一のランダム平均スケーリングモジュール300を使用する場合のうちで1番目のBN前のランダム平均スケーリングモジュール300が最も高い正確度を示すことが分かる。
In FIG. 7, when the result of adding the random
さらに、ボトルネックブロック構造のSlowOnly−50の場合、すべての場合においてランダム平均スケーリングモジュール300がネットワークの性能を向上させ、特に、最後のBN前のランダム平均スケーリングモジュール300が最も高い正確度を示した。1番目のBN前のランダム平均スケーリングモジュール300も大きな性能の差がないため効率的な選択にはなるが、演算効率のためには、ボトルネックブロック構造では、複数のランダム平均スケーリングモジュール300を使用しないように選択してよい。
Furthermore, in the case of the bottleneck block structure SlowOnly-50, the random
したがって、ランダム平均スケーリングモジュール300は、ベーシックブロック構造はもちろん、ボトルネックブロック構造でも、過去のモデルよりも高い性能を示すことが分かった。
Therefore, it was found that the random
図8は、本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示した図であり、図9は、本発明の一実施形態における、コンピュータシステムが実行することのできるフィーチャ正規化方法の例を示したフローチャートである。 FIG. 8 is a diagram showing an example of components that can be included in the processor of the computer system according to the embodiment of the present invention, and FIG. 9 is a diagram showing the execution by the computer system according to the embodiment of the present invention. It is a flowchart which showed the example of the feature normalization method which can be done.
図8に示すように、プロセッサ120は、周波数分離部801および正規化部802を含んでよい。このようなプロセッサ120の構成要素は、少なくとも1つのプログラムコードによって提供される制御命令にしたがってプロセッサ120によって実行される、互いに異なる機能(different functions)の表現であってよい。例えば、プロセッサ120が入力を周波数特性に分離するようにコンピュータシステム100を制御するために動作する機能的表現として、周波数分離部801が使用されてよい。
As shown in FIG. 8, the
プロセッサ120およびプロセッサ120の構成要素は、図9のフィーチャ正規化方法が含む段階910〜920を実行してよい。例えば、プロセッサ120およびプロセッサ120の構成要素は、メモリ110が含むオペレーティングシステムのコードと、上述した少なくとも1つのプログラムコードとによる命令(instruction)を実行するように実現されてよい。ここで、少なくとも1つのプログラムコードは、フィーチャ正規化方法を処理するために実現されたプログラムのコードに対応してよい。
フィーチャ正規化方法は、図に示された順に発生しないこともあり、方法の段階のうちの一部が省略されることもあるし、あるいは追加の過程がさらに含まれることもある。 The feature normalization method may not occur in the order shown in the figure, some of the steps of the method may be omitted, or additional steps may be included.
プロセッサ120は、フィーチャ正規化方法のためのプログラムファイルに記録されたプログラムコードをメモリ110にロードしてよい。例えば、フィーチャ正規化方法のためのプログラムファイルは、メモリ110とは区別される永続的記録装置に記録されていてよく、プロセッサ120は、バスを介して永続的記録装置に記録されたプログラムファイルからプログラムコードがメモリ110にロードされるようにコンピュータシステム100を制御してよい。このとき、プロセッサ120およびプロセッサ120が含む周波数分離部801および正規化部802それぞれは、メモリ110にロードされたプログラムコードのうちの対応する部分の命令を実行して以下の段階910〜920を実行するためのプロセッサ120の互いに異なる機能的表現であってよい。段階910〜920の実行のために、プロセッサ120およびプロセッサ120の構成要素は、制御命令による演算を直接処理するか、またはコンピュータシステム100を制御してよい。
The
プロセッサ120は、図3と図4を参照しながら説明したランダム平均スケーリングモジュール300を含んでよい。
本発明に係るフィーチャ正規化方法は、次の2つの段階を含んでよい。 The feature normalization method according to the present invention may include the following two steps.
段階910で、周波数分離部801は、入力フィーチャを周波数特性に分離してよい。周波数分離部801は、ローパスフィルタを利用して入力フィーチャから低周波成分を求め、入力フィーチャと低周波成分との残差を利用して高周波成分を求めてよい。一例として、周波数分離部801は、フィーチャマップに対して平均プーリングを利用して高周波成分(残差)と低周波成分(局所的平均)とに分離してよい。
At
段階920で、正規化部802は、入力フィーチャから分離された低周波成分にノイズをランダムに追加して入力フィーチャを正規化してよい。正規化部802は、3D残差ネットワークの過剰適合の問題を解消するためにランダム平均スケーリング(RMS)を適用することにより、入力フィーチャから分離された高周波成分と低周波成分のうちで、高周波成分は維持し、低周波成分はランダムにスケーリングしてよい。例えば、正規化部802は、一様分布(uniform distribution)、正規分布(normal distribution)などを利用してフィーチャの低周波部分をランダムに変化させてよい。
At step 920, the
したがって、プロセッサ120は、フィーチャマップで低周波成分を分離し、該当の低周波成分をランダムに変化させて内部表現を正規化することでにより、過剰適合の問題を簡単かつ効率的に解決することができる。最終的に、平滑化されたフィーチャに対する正規化は、選択的に低周波成分と高周波成分を明確に取り扱うことによって性能向上を招来することができる。
Therefore, the
このように、本発明の実施形態によると、フィーチャの低周波成分の大きさをランダムに変化させて内部表現を正規化するランダム平均スケーリング(RMS)により、3D残差ネットワークの過剰適合の問題を効果的に解決することができる。また、本発明の実施形態によると、低周波成分に対する摂動を適用することにより、フィーチャ全体や高周波成分に適用するよりも、3D畳み込みニューラルネットワークの正確度と正規化効果を向上させることができる。 Thus, according to an embodiment of the present invention, the problem of overfitting of a 3D residual network is solved by random mean scaling (RMS), which randomly changes the magnitude of the low frequency components of a feature to normalize the internal representation. It can be solved effectively. Further, according to the embodiment of the present invention, by applying the perturbation to the low frequency component, the accuracy and normalization effect of the 3D convolutional neural network can be improved as compared with the application to the entire feature or the high frequency component.
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。 The devices described above may be implemented by hardware components, software components, and / or combinations of hardware components and software components. For example, the devices and components described in the embodiments include a processor, a controller, an ALU (arithmetic logic unit), a digital signal processor, a microcomputer, an FPGA (field programgate array), a PLU (programmable log unit), a microprocessor, and the like. Alternatively, it may be implemented using one or more general purpose computers or special purpose computers, such as various devices capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the OS. The processing device may also respond to the execution of the software, access the data, and record, manipulate, process, and generate the data. For convenience of understanding, one processor may be described as being used, but one of ordinary skill in the art may appreciate that the processor may include multiple processing elements and / or multiple types of processing elements. You can understand. For example, the processing device may include multiple processors or one processor and one controller. Other processing configurations, such as parallel processors, are also possible.
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。 The software may include computer programs, code, instructions, or a combination of one or more of these, configuring the processing equipment to operate at will, or instructing the processing equipment independently or collectively. You may do it. The software and / or data is embodied in any type of machine, component, physical device, computer recording medium or device to be interpreted based on the processing device or to provide instructions or data to the processing device. Good. The software is distributed on a networked computer system and may be recorded or executed in a distributed state. The software and data may be recorded on one or more computer-readable recording media.
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。 The method according to the embodiment may be implemented in the form of program instructions that can be executed by various computer means and recorded on a computer-readable medium. Here, the medium may be a continuous recording of a computer-executable program or a temporary recording for execution or download. Further, the medium may be various recording means or storage means in the form of a combination of a single piece of hardware or a plurality of pieces of hardware, and is not limited to a medium directly connected to a certain computer system, but is distributed on a network. It may exist. Examples of media include hard disks, floppy (registered trademark) disks, magnetic media such as magnetic tapes, optical media such as CD-ROMs and DVDs, optical magnetic media such as floptic discs, and the like. And ROM, RAM, flash memory, etc., and may be configured to record program instructions. Other examples of media include recording media or storage media managed by application stores that distribute applications, sites that supply or distribute various other software, servers, and the like.
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。 As described above, the embodiments have been described based on the limited embodiments and drawings, but those skilled in the art will be able to make various modifications and modifications from the above description. For example, the techniques described may be performed in a different order than the methods described, and / or components such as the systems, structures, devices, circuits described may be in a form different from the methods described. Appropriate results can be achieved even if they are combined or combined, or confronted or replaced by other components or equivalents.
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。 Therefore, even if the embodiments are different, they belong to the attached claims as long as they are equal to the claims.
120:プロセッサ
801:周波数分離部
802:正規化部
120: Processor 801: Frequency separation unit 802: Normalization unit
Claims (20)
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記フィーチャ正規化方法は、
前記少なくとも1つのプロセッサにより、入力フィーチャから低周波成分を求める段階、
前記少なくとも1つのプロセッサにより、前記入力フィーチャと前記低周波成分との残差を利用して高周波成分を求める段階、
前記少なくとも1つのプロセッサにより、前記低周波成分にノイズを追加する段階
を含む、フィーチャ正規化方法。 A feature normalization method performed by a computer system
The computer system includes at least one processor configured to execute computer-readable instructions contained in memory.
The feature normalization method is
The step of obtaining a low frequency component from an input feature by the at least one processor.
A step of obtaining a high frequency component by utilizing the residual of the input feature and the low frequency component by the at least one processor.
A feature normalization method comprising adding noise to the low frequency components by the at least one processor.
ローパスフィルタを利用して前記入力フィーチャから前記低周波成分を分離すること
を特徴とする、請求項1に記載のフィーチャ正規化方法。 The step of obtaining the low frequency component is
The feature normalization method according to claim 1, wherein the low-frequency component is separated from the input feature by using a low-pass filter.
平均プーリングまたはガウシアンフィルタを利用して前記入力フィーチャから前記低周波成分を分離すること
を特徴とする、請求項1に記載のフィーチャ正規化方法。 The step of obtaining the low frequency component is
The feature normalization method according to claim 1, wherein the low frequency component is separated from the input feature by using an average pooling or a Gaussian filter.
前記入力フィーチャの局所的平均にランダムスケーリングを適用して前記ノイズを追加する段階
を含む、請求項1に記載のフィーチャ正規化方法。 The stage of adding the noise is
The feature normalization method according to claim 1, wherein the noise is added by applying random scaling to the local average of the input features.
与えられた確率分布でサンプリングされたスカラーを乗じる演算により、前記低周波成分の大きさをランダムに変調する段階
を含む、請求項1に記載のフィーチャ正規化方法。 The stage of adding the noise is
The feature normalization method according to claim 1, further comprising a step of randomly modulating the magnitude of the low frequency component by an operation of multiplying a scalar sampled with a given probability distribution.
を特徴とする、請求項1に記載のフィーチャ正規化方法。 The feature normalization method according to claim 1, wherein the random average scaling that adds the noise to the low frequency component is applied within the residual branch of the network model.
特徴とする、請求項6に記載のフィーチャ正規化方法。 The feature normalization according to claim 6, wherein the random average scaling is applied before at least one layer of the convolution layer, the batch normalization layer, and the nonlinear activation layer of the network model. Method.
を特徴とする、請求項6に記載のフィーチャ正規化方法。 If the network model is a network with a basic block structure, the random average scaling is applied before all the batch normalization layers included in some stages of the network model, respectively. Item 6. The feature normalization method according to Item 6.
を特徴とする、請求項6に記載のフィーチャ正規化方法。 If the network model is a network with a bottleneck block structure, the random average scaling is applied before the last batch normalization layer of the batch normalization layers included in some stages of the network model. The feature normalization method according to claim 6, wherein the feature normalization method is characterized in that.
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
入力フィーチャから低周波成分を求め、
前記入力フィーチャと前記低周波成分との残差を利用して高周波成分を求め、
前記低周波成分にノイズを追加すること
を特徴とする、コンピュータシステム。 It ’s a computer system,
Contains at least one processor configured to execute computer-readable instructions contained in memory.
The at least one processor
Find the low frequency component from the input features
The high frequency component is obtained by using the residual between the input feature and the low frequency component.
A computer system characterized by adding noise to the low frequency components.
ローパスフィルタを利用して前記入力フィーチャから前記低周波成分を分離すること
を特徴とする、請求項12に記載のコンピュータシステム。 The at least one processor
The computer system according to claim 12, wherein a low-pass filter is used to separate the low-frequency component from the input feature.
平均プーリングまたはガウシアンフィルタを利用して前記入力フィーチャから前記低周波成分を分離すること
を特徴とする、請求項12に記載のコンピュータシステム。 The at least one processor
12. The computer system of claim 12, characterized in that the low frequency components are separated from the input features using an average pooling or Gaussian filter.
前記入力フィーチャの局所的平均にランダムスケーリングを適用して前記ノイズを追加すること
を特徴とする、請求項12に記載のコンピュータシステム。 The at least one processor
12. The computer system of claim 12, wherein random scaling is applied to the local average of the input features to add the noise.
与えられた確率分布でサンプリングされたスカラーを乗じる演算により、前記低周波成分の大きさをランダムに変調すること
を特徴とする、請求項12に記載のコンピュータシステム。 The at least one processor
The computer system according to claim 12, wherein the magnitude of the low frequency component is randomly modulated by an operation of multiplying a scalar sampled with a given probability distribution.
前記低周波成分に前記ノイズを追加するランダム平均スケーリングモジュールを含み、
前記ランダム平均スケーリングモジュールは、ネットワークモデルの残差分岐内に位置すること
を特徴とする、請求項12に記載のコンピュータシステム。 The at least one processor
Includes a random average scaling module that adds the noise to the low frequency components.
The computer system according to claim 12, wherein the random average scaling module is located within a residual branch of the network model.
を特徴とする、請求項17に記載のコンピュータシステム。 The computer system according to claim 17, wherein the random average scaling module is located in front of at least one layer of a convolution layer, a batch normalization layer, and a nonlinear activation layer.
を特徴とする、請求項17に記載のコンピュータシステム。 When the network model is a network with a basic block structure, the random average scaling module is respectively located in front of all batch normalization layers included in some stages of the network model. Item 17. The computer system according to item 17.
を特徴とする、請求項17に記載のコンピュータシステム。 When the network model is a network with a bottleneck block structure, the random average scaling module is located before the last batch normalization layer among the batch normalization layers included in some stages of the network model. The computer system according to claim 17, wherein the computer system is characterized in that.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190174262A KR102235784B1 (en) | 2019-12-24 | 2019-12-24 | Method and system to regularization on spatio-temporal smoothed feature for action recognition |
KR10-2019-0174262 | 2019-12-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021103519A true JP2021103519A (en) | 2021-07-15 |
JP7159276B2 JP7159276B2 (en) | 2022-10-24 |
Family
ID=75466411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020213564A Active JP7159276B2 (en) | 2019-12-24 | 2020-12-23 | Methods and systems for normalizing spatio-temporal smoothed features for action recognition |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7159276B2 (en) |
KR (1) | KR102235784B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117115641A (en) * | 2023-07-20 | 2023-11-24 | 中国科学院空天信息创新研究院 | Building information extraction method and device, electronic equipment and storage medium |
CN118587950A (en) * | 2024-08-07 | 2024-09-03 | 瓯越启明智慧城市建设发展集团有限公司 | Interactive LED display system for intelligent education |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004511866A (en) * | 2000-10-13 | 2004-04-15 | フラウンホーファー−ゲゼルシャフト・ツア・フォルデルング・デア・アンゲヴァンテン・フォルシュング・エー・ファウ | Supervised teaching method of recurrent artificial neural network |
KR101563297B1 (en) * | 2014-04-23 | 2015-10-26 | 한양대학교 산학협력단 | Method and apparatus for recognizing action in video |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102683757B1 (en) * | 2018-02-20 | 2024-07-10 | 삼성전자주식회사 | The method of performing deep neural network learning and apparatus thereof |
-
2019
- 2019-12-24 KR KR1020190174262A patent/KR102235784B1/en active IP Right Grant
-
2020
- 2020-12-23 JP JP2020213564A patent/JP7159276B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004511866A (en) * | 2000-10-13 | 2004-04-15 | フラウンホーファー−ゲゼルシャフト・ツア・フォルデルング・デア・アンゲヴァンテン・フォルシュング・エー・ファウ | Supervised teaching method of recurrent artificial neural network |
KR101563297B1 (en) * | 2014-04-23 | 2015-10-26 | 한양대학교 산학협력단 | Method and apparatus for recognizing action in video |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117115641A (en) * | 2023-07-20 | 2023-11-24 | 中国科学院空天信息创新研究院 | Building information extraction method and device, electronic equipment and storage medium |
CN117115641B (en) * | 2023-07-20 | 2024-03-22 | 中国科学院空天信息创新研究院 | Building information extraction method and device, electronic equipment and storage medium |
CN118587950A (en) * | 2024-08-07 | 2024-09-03 | 瓯越启明智慧城市建设发展集团有限公司 | Interactive LED display system for intelligent education |
Also Published As
Publication number | Publication date |
---|---|
JP7159276B2 (en) | 2022-10-24 |
KR102235784B1 (en) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tian et al. | Deep learning for image denoising: A survey | |
Su et al. | Pixel-adaptive convolutional neural networks | |
Zaman et al. | Density-based denoising of point cloud | |
EP3933707A1 (en) | Highly efficient convolutional neural networks | |
US11593596B2 (en) | Object prediction method and apparatus, and storage medium | |
Jeddi et al. | A hybrid wavelet decomposer and GMDH-ELM ensemble model for Network function virtualization workload forecasting in cloud computing | |
Patel et al. | A hybrid CNN-LSTM model for predicting server load in cloud computing | |
CN111008631B (en) | Image association method and device, storage medium and electronic device | |
JP7239116B2 (en) | Image restoration method and apparatus | |
JP2021507345A (en) | Fusion of sparse kernels to approximate the complete kernel of convolutional neural networks | |
JP2021103519A (en) | Method and system for normalizing smoothing feature of time space for behavior recognition | |
CN113454648A (en) | Legendre memory cell in a recurrent neural network | |
Yu et al. | Heterogeneous federated learning using dynamic model pruning and adaptive gradient | |
KR20200116763A (en) | Method and apparatus for processing similarity using key-value coupling | |
Rath et al. | Boosting deep neural networks with geometrical prior knowledge: A survey | |
US10747845B2 (en) | System, method and apparatus for computationally efficient data manipulation | |
CA3143928A1 (en) | Dynamic image resolution assessment | |
CN113168555A (en) | System and related method for reducing resource consumption of convolutional neural network | |
Aliouat et al. | EVBS-CAT: enhanced video background subtraction with a controlled adaptive threshold for constrained wireless video surveillance | |
Wu et al. | Learning compact DNN models for behavior prediction from neural activity of calcium imaging | |
KR20220139248A (en) | Neural network layer folding | |
Bernard et al. | Novelty detection with self-organizing maps for autonomous extraction of salient tracking features | |
Liu et al. | The quantum realization of image linear gray enhancement | |
Ojashwini et al. | Edge detection Canny algorithm using adaptive threshold technique | |
Mauroy et al. | Parameter estimation and identification of nonlinear systems with the koopman operator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201223 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20210414 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20210412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220927 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221012 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7159276 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |